CN112084338A - 一种文档自动归类方法、系统、计算机设备及存储介质 - Google Patents
一种文档自动归类方法、系统、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112084338A CN112084338A CN202010983960.XA CN202010983960A CN112084338A CN 112084338 A CN112084338 A CN 112084338A CN 202010983960 A CN202010983960 A CN 202010983960A CN 112084338 A CN112084338 A CN 112084338A
- Authority
- CN
- China
- Prior art keywords
- vector
- semantic
- training
- classification
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims description 129
- 230000006870 function Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 abstract description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种文档自动归类方法、系统、计算机设备及存储介质,其中文档自动归类方法先根据相似文本数据训练语言模型:分为两个层次的预训练,首先通过未标注文本数据训练语言模型,然后根据标注数据即相似文本数据,在所述语言模型的基础上训练得到语义编码器;再基于语义编码器进行归档分类:采用最近邻的思想,基于所述语义编码器,使用无监督的方法在小数据集上对文本进行归类。本发明在大量通用领域数据上训练通用的语义编码器,可以有效编码语义,在新的实际场景的极小数据集上可以不另行训练,避免过拟合现象导致泛化能力差。增删文档或修改分类体系只需要对涉及的文档或分类进行变更操作后即可生效,不需要重新训练模型,时效性好。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文档自动归类方法、系统、计算机设备及存储介质。
背景技术
文档归类系统属于文本分类应用,其通过模型将输入文本自动归类为某个分类下。文档归类常常应用于特定的较为狭窄的专业领域中,因而面对以下两种问题:
1.标注数据少。很多领域应用由于专业性较强或保密要求等因素,在公开领域中很难收集数据,在应用时,部分类别甚至只有几篇文档;
2.在实际应用中,用户在使用过程中会动态增删数据甚至改变分类体系。
普通的基于监督学习分类的分类模型如Fasttext、textCNN及基于BERT的文本分类应用均采用同一个模式:针对一个分类体系获取训练数据,然后训练模型,训练结束后方可进行文档分类的预测。在拥有充分标注数据的场景下,此方案是适用的;但这样的方案直接应用于标注数据稀少的专业领域内的文档归类则存在下列不足:
1.在小数据量情况下极容易过拟合,造成模型泛化能力下降,预测效果差;
2.在动态增删数据或分类体系的情况下需要频繁训练更改模型,对硬件造成很大压力。
发明内容
为了解决上述问题,本发明提出一种文档自动归类方法、系统、计算机设备及存储介质,将泛化能力强的基于大量数据的预训练模型语义模型应用在小数据场景,避免过拟合;同时应用了最近邻聚类的思想寻找分类,避免在实际应用中频繁重新训练模型。
本发明的一种文档自动归类方法,包括以下步骤:
S1.根据相似文本数据训练语言模型:分为两个层次的预训练,首先通过未标注文本数据训练语言模型,然后根据标注数据即相似文本数据,在所述语言模型的基础上训练得到语义编码器;
S2.基于语义编码器进行归档分类:采用最近邻的思想,基于所述语义编码器,使用无监督的方法在小数据集上对文本进行归类。
进一步的,步骤S1包括以下子步骤:
S101.采用未标注文本数据进行训练:选择基于自注意力架构的语言模型,在未标注文本数据上用所述语言模型进行训练,使所述语言模型学习到目标语言的常识;
S102.采用相似文本数据进行训练:获取通用领域的相似文本数据,形成包括锚点文本和相似文本的相似文本对,针对每一个相似文本对,在语料库中随机取一个不相似文本,组成一条包括锚点文本、相似文本和不相似文本的训练数据,使锚点文本与相似文本在语义上是相关的,且与不相似文本在语义上是不相关的;将若干条所述训练数据基于所述语言模型进行训练,锚点文本、相似文本和不相似文本分别输入同一个所述语言模型,并分别得到表征各自语义的向量Va,Vp,Vn,然后计算三元损失函数,得到损失并以此再训练所述语言模型得到语义编码器。
进一步的,所述三元损失函数的表达式如下:
loss=max{||Va-Vp||2-||Va-Vn||2+margin,0}
其中,loss为损失,||Va-Vp||2表示Va和Vp在空间中的距离,||Va-Vn||2表示Va和Vn在空间中的距离,margin为常数,表示一个期望的空间距离;所述三元损失函数会拉近锚点文本与相似文本的距离,疏远锚点文本与不相似文本间的距离。
进一步的,所述语义编码器能够学习到为文本进行语义编码的能力,即越相似的文本经过所述语义编码器编码得到的语义向量在空间中距离越近,反之则在空间中越远。
进一步的,所述获取通用领域的相似文本数据包括:通过爬虫爬取网站的相似文本推荐信息。
进一步的,步骤S2包括以下子步骤:
S201.构建分类体系并给每个分类上传若干文档:将文档按分类上传至所述语义编码器,所述语义编码器将每个文档都编码得到语义向量,并按照分类体系存入向量数据库;每个分类下的语义向量构成一个向量集合,计算出此向量集合的簇中心作为此分类的特征向量;
S202.新文档归类:使用者上传待归类文档,通过所述语义编码器进行语义向量编码,得到待归类文档的语义向量;在所述向量数据库中搜索离待归类文档的语义向量空间距离最近的特征向量,将待归类文档归为该特征向量所对应的分类。
进一步的,使用者能够对分类体系或分类下的文档进行修改,修改后的分类的特征向量会相应改变。
本发明的一种文档自动归类系统,包括语义编码器、向量数据库和向量检索模块;
所述语义编码器,根据未标注文本数据和相似文本数据先后在语言模型的基础上训练得到,用于将已分类文档编码得到的语义向量按照分类体系存入所述向量数据库,以及将待归类文档编码得到的语义向量输出至所述向量检索模块;
所述向量数据库中,每个分类下的语义向量构成一个向量集合,此向量集合的簇中心作为此分类的特征向量;
所述向量检索模块,用于在所述向量数据库中搜索离待归类文档的语义向量空间距离最近的特征向量,并将待归类文档归为该特征向量所对应的分类。
进一步的,一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述文档自动归类方法的步骤。
进一步的,一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述文档自动归类方法的步骤。
本发明的有益效果在于:
1.本发明的文档自动归类方法中,第一步是离线进行的,通过两阶段的预训练得到一个能充分表征文本语义特征的语义编码器,大量的模型训练计算是在此步骤中离线进行的;第二步是在线进行的,通过最近邻的思想,使用无监督的方法在小数据集上对文本进行归类,同时在线部分由于采用了无监督的方法,可减轻硬件的压力。
2.本发明在大量通用领域数据上训练通用的语义编码器,可以有效编码语义,在新的实际场景的极小数据集上可以不另行训练,避免过拟合现象导致泛化能力差。
3.本发明增删文档或修改分类体系只需要对涉及的文档或分类进行变更操作后即可生效,不需要重新训练模型,时效性好,且对硬件要求低。
附图说明
图1是本发明实施例中训练数据基于语言模型进行训练的示意图;
图2是本发明实施例中基于语义编码器进行归档分类的示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现说明本发明的具体实施方式。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本实施例提供了一种文档自动归类方法,包括以下步骤:
S1.根据相似文本数据训练语言模型:分为两个层次的预训练,首先通过未标注文本数据训练语言模型,然后根据标注数据即相似文本数据,在语言模型的基础上训练得到语义编码器;
S2.基于语义编码器进行归档分类:采用最近邻的思想,基于语义编码器,使用无监督的方法在小数据集上对文本进行归类。
其中,步骤S1是离线进行的,通过两阶段的预训练得到一个能充分表征文本语义特征的语义编码器,大量的模型训练计算是在此步骤中离线进行的;第二步是在线进行的,通过最近邻的思想,使用无监督的方法在小数据集上对文本进行归类,同时在线部分由于采用了无监督的方法,可减轻硬件的压力。
具体的,步骤S1包括以下子步骤:
S101.采用未标注文本数据进行训练:选择基于自注意力架构的语言模型,在未标注文本数据上用语言模型进行训练,使语言模型学习到目标语言的常识;
S102.采用相似文本数据进行训练:获取通用领域的相似文本数据(例如,通过爬虫爬取网站的相似文本推荐信息),形成包括锚点文本和相似文本的相似文本对,针对每一个相似文本对,在语料库中随机取一个不相似文本,组成一条包括锚点文本、相似文本和不相似文本的训练数据,使锚点文本与相似文本在语义上是相关的,且与不相似文本在语义上是不相关的;将若干条训练数据基于语言模型进行训练,如图1所示,锚点文本、相似文本和不相似文本分别输入同一个语言模型(图1中指语义编码器),并分别得到表征各自语义的向量Va,Vp,Vn,然后计算三元损失函数,得到损失并以此再训练语言模型得到语义编码器。
例如,有一对相似文本A、B,A和B之间语义上是相似的,然后有一个随机抽取的文本C,C和A、B两个文本都没有语义上相似的关系。这样就可以以A为锚点文本,在训练过程中依靠三元损失函数,将B文本(语义和A相似)的编码向量靠近A的向量,将C文本(语义和A不相似)的编码向量远离A。在这个过程中,A文本作为基准起到了“锚点″的作用。与此同理,B文本也可以作为锚点文本。
更为具体的,三元损失函数可参考如下表达式:
loss=max{||Va-Vp||2-||Va-Vn||2+margin,0}}
其中,loss为损失,a代表锚点文本(anchor),p代表与锚点文本相似的文本(positive),n代表与锚点文本不相似的文本(negative),Va,Vp,Vn分别代表三个文本通过编码器后得到的语义向量。||||2表示某个向量的2-范数,因而||Va-Vp||2表示Va和Vp在空间中的距离,||Va-Vn||2表示Va和Vn在空间中的距离;margin是一个常数,表示一个期望的空间距离。优化整个三元损失函数的意思是,期望Va和Vp的距离要大于Va和Vn的距离,且两者差值最好超过margin。
三元损失函数会拉近锚点文本与相似文本的距离,疏远锚点文本与不相似文本间的距离。因此,语义编码器能够学习到为文本进行语义编码的能力,即越相似的文本经过语义编码器编码得到的语义向量在空间中距离越近,反之则在空间中越远。
具体的,如图2所示,步骤S2包括以下子步骤:
S201.构建分类体系并给每个分类上传若干文档:将文档按分类上传至语义编码器,语义编码器将每个文档都编码得到语义向量,并按照分类体系存入向量数据库;每个分类下的语义向量构成一个向量集合,计算出此向量集合的簇中心作为此分类的特征向量;
S202.新文档归类:使用者上传待归类文档,通过语义编码器进行语义向量编码,得到待归类文档的语义向量;在向量数据库中搜索离待归类文档的语义向量空间距离最近的特征向量,将待归类文档归为该特征向量所对应的分类。
可选的,使用者能够对分类体系或分类下的文档进行修改,修改后的分类的特征向量会相应改变。
此外,本实施例提供了一种文档自动归类系统,包括语义编码器、向量数据库和向量检索模块,其中:
语义编码器,根据未标注文本数据和相似文本数据先后在语言模型的基础上训练得到,用于将已分类文档编码得到的语义向量按照分类体系存入向量数据库,以及将待归类文档编码得到的语义向量输出至向量检索模块;
向量数据库中,每个分类下的语义向量构成一个向量集合,此向量集合的簇中心作为此分类的特征向量;
向量检索模块,用于在向量数据库中搜索离待归类文档的语义向量空间距离最近的特征向量,并将待归类文档归为该特征向量所对应的分类。
本实施例又提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述文档自动归类方法的步骤。
本实施例还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述文档自动归类方法的步骤。
实施例2
本实施例在实施例1的基础上:
本实施例的文档自动归类方法包括以下两个阶段:
一、系统准备阶段
1.在网络上爬取大量文本,训练基于自注意力架构的语言模型。
2.在各类网站爬取大量相关问句、相关文档数据,再通过随机采样的方式构成相似文本训练数据。
3.通过大量相似文本训练数据,基于语言模型来训练得到语义编码器。
二、实施阶段
假设在用户场景下,文档可分为两类,分别为财务类和人事类文档,但分别只有三篇样例数据,实施方法如下:
1.系统将财务类三篇文档经语义编码器转化为语义向量,并计算出三个向量的簇中心向量vector_accounting,存入向量数据库。对人事类文档进行同样操作,得到人事类文档的代表向量vector_hr。经过此步骤后分类体系完成构建。
2.用户新进一篇文档D,上传至系统。D经语义编码器转化为语义向量,若通过向量搜索的方式得到距离最近的类别向量为vector_hr,系统就会将文档D归入人事类文档。
可选的,如果用户有了一类新的文档,例如报告类文档,有两篇样例数据,实施方法如下:
用户新建分类并上传样例后,语义编码器将两篇样例数据转化为语义向量,计算出两个向量的簇中心vector_report,存入向量数据库。之后用户新上传待归类文档后,进行归类时便会将报告类也加入考虑范围。
可选的,如果用户对已有分类文档有增删,实施方法如下:
1.用户删除财务类文档中的一篇,系统将自动计算财务类剩余文档语义向量的簇中心,得到新的vector_accounting,存入向量数据库。之后新文档归类时,将由新的vector_accounting代表财务类文档。
2.用户新增加一篇财务类文档,语义编码器将新文档转化为语义向量,系统将自动计算包含新增文档的财务类所有文档语义向量的簇中心,得到新的vector_accounting,存入向量数据库。之后新文档归类时,将由新的vector_accounting代表财务类文档。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (10)
1.一种文档自动归类方法,其特征在于,包括以下步骤:
S1.根据相似文本数据训练语言模型:分为两个层次的预训练,首先通过未标注文本数据训练语言模型,然后根据标注数据即相似文本数据,在所述语言模型的基础上训练得到语义编码器;
S2.基于语义编码器进行归档分类:采用最近邻的思想,基于所述语义编码器,使用无监督的方法在小数据集上对文本进行归类。
2.根据权利要求1所述的一种文档自动归类方法,其特征在于,步骤S1包括以下子步骤:
S101.采用未标注文本数据进行训练:选择基于自注意力架构的语言模型,在未标注文本数据上用所述语言模型进行训练,使所述语言模型学习到目标语言的常识;
S102.采用相似文本数据进行训练:获取通用领域的相似文本数据,形成包括锚点文本和相似文本的相似文本对,针对每一个相似文本对,在语料库中随机取一个不相似文本,组成一条包括锚点文本、相似文本和不相似文本的训练数据,使锚点文本与相似文本在语义上是相关的,且与不相似文本在语义上是不相关的;将若干条所述训练数据基于所述语言模型进行训练,锚点文本、相似文本和不相似文本分别输入同一个所述语言模型,并分别得到表征各自语义的向量Va,Vp,Vn,然后计算三元损失函数,得到损失并以此再训练所述语言模型得到语义编码器。
3.根据权利要求2所述的一种文档自动归类方法,其特征在于,所述三元损失函数的表达式如下:
loss=max{||Va-Vp||2-||Va-Vn||2+margin,0}
其中,loss为损失,||Va-Vp||2表示Va和Vp在空间中的距离,||Va-Vn||2表示Va和Vn在空间中的距离,margin为常数,表示一个期望的空间距离;所述三元损失函数会拉近锚点文本与相似文本的距离,疏远锚点文本与不相似文本间的距离。
4.根据权利要求3所述的一种文档自动归类方法,其特征在于,所述语义编码器能够学习到为文本进行语义编码的能力,即越相似的文本经过所述语义编码器编码得到的语义向量在空间中距离越近,反之则在空间中越远。
5.根据权利要求2所述的一种文档自动归类方法,其特征在于,所述获取通用领域的相似文本数据包括:通过爬虫爬取网站的相似文本推荐信息。
6.根据权利要求1所述的一种文档自动归类方法,其特征在于,步骤S2包括以下子步骤:
S201.构建分类体系并给每个分类上传若干文档:将文档按分类上传至所述语义编码器,所述语义编码器将每个文档都编码得到语义向量,并按照分类体系存入向量数据库;每个分类下的语义向量构成一个向量集合,计算出此向量集合的簇中心作为此分类的特征向量;
S202.新文档归类:使用者上传待归类文档,通过所述语义编码器进行语义向量编码,得到待归类文档的语义向量;在所述向量数据库中搜索离待归类文档的语义向量空间距离最近的特征向量,将待归类文档归为该特征向量所对应的分类。
7.根据权利要求6所述的一种文档自动归类方法,其特征在于,使用者能够对分类体系或分类下的文档进行修改,修改后的分类的特征向量会相应改变。
8.一种文档自动归类系统,其特征在于,包括语义编码器、向量数据库和向量检索模块;
所述语义编码器,根据未标注文本数据和相似文本数据先后在语言模型的基础上训练得到,用于将已分类文档编码得到的语义向量按照分类体系存入所述向量数据库,以及将待归类文档编码得到的语义向量输出至所述向量检索模块;
所述向量数据库中,每个分类下的语义向量构成一个向量集合,此向量集合的簇中心作为此分类的特征向量;
所述向量检索模块,用于在所述向量数据库中搜索离待归类文档的语义向量空间距离最近的特征向量,并将待归类文档归为该特征向量所对应的分类。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7任一项所述方法的步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010983960.XA CN112084338B (zh) | 2020-09-18 | 2020-09-18 | 一种文档自动归类方法、系统、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010983960.XA CN112084338B (zh) | 2020-09-18 | 2020-09-18 | 一种文档自动归类方法、系统、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112084338A true CN112084338A (zh) | 2020-12-15 |
CN112084338B CN112084338B (zh) | 2024-02-06 |
Family
ID=73736568
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010983960.XA Active CN112084338B (zh) | 2020-09-18 | 2020-09-18 | 一种文档自动归类方法、系统、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112084338B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116233304A (zh) * | 2022-11-30 | 2023-06-06 | 荣耀终端有限公司 | 一种基于日程的设备状态同步系统、方法和装置 |
CN116910275A (zh) * | 2023-09-12 | 2023-10-20 | 无锡容智技术有限公司 | 一种基于大语言模型的表单生成方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220311A (zh) * | 2017-05-12 | 2017-09-29 | 北京理工大学 | 一种利用局部嵌入话题建模的文本表示方法 |
CN108595632A (zh) * | 2018-04-24 | 2018-09-28 | 福州大学 | 一种融合摘要与主体特征的混合神经网络文本分类方法 |
CN109003625A (zh) * | 2018-07-27 | 2018-12-14 | 中国科学院自动化研究所 | 基于三元损失的语音情感识别方法及系统 |
CN110457475A (zh) * | 2019-07-25 | 2019-11-15 | 阿里巴巴集团控股有限公司 | 一种用于文本分类体系构建和标注语料扩充的方法和系统 |
CN110889443A (zh) * | 2019-11-21 | 2020-03-17 | 成都数联铭品科技有限公司 | 无监督文本分类系统及方法 |
US20200097545A1 (en) * | 2018-09-25 | 2020-03-26 | Accenture Global Solutions Limited | Automated and optimal encoding of text data features for machine learning models |
CN111259850A (zh) * | 2020-01-23 | 2020-06-09 | 同济大学 | 一种融合随机批掩膜和多尺度表征学习的行人重识别方法 |
CN111428026A (zh) * | 2020-02-20 | 2020-07-17 | 西安电子科技大学 | 一种多标签文本分类处理方法及系统、信息数据处理终端 |
-
2020
- 2020-09-18 CN CN202010983960.XA patent/CN112084338B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220311A (zh) * | 2017-05-12 | 2017-09-29 | 北京理工大学 | 一种利用局部嵌入话题建模的文本表示方法 |
CN108595632A (zh) * | 2018-04-24 | 2018-09-28 | 福州大学 | 一种融合摘要与主体特征的混合神经网络文本分类方法 |
CN109003625A (zh) * | 2018-07-27 | 2018-12-14 | 中国科学院自动化研究所 | 基于三元损失的语音情感识别方法及系统 |
US20200097545A1 (en) * | 2018-09-25 | 2020-03-26 | Accenture Global Solutions Limited | Automated and optimal encoding of text data features for machine learning models |
CN110457475A (zh) * | 2019-07-25 | 2019-11-15 | 阿里巴巴集团控股有限公司 | 一种用于文本分类体系构建和标注语料扩充的方法和系统 |
CN110889443A (zh) * | 2019-11-21 | 2020-03-17 | 成都数联铭品科技有限公司 | 无监督文本分类系统及方法 |
CN111259850A (zh) * | 2020-01-23 | 2020-06-09 | 同济大学 | 一种融合随机批掩膜和多尺度表征学习的行人重识别方法 |
CN111428026A (zh) * | 2020-02-20 | 2020-07-17 | 西安电子科技大学 | 一种多标签文本分类处理方法及系统、信息数据处理终端 |
Non-Patent Citations (4)
Title |
---|
JIANYING HU 等: "Comparison and Classification of Documents Based on Layout Similarity", 《INFORMATION RETRIEVAL》, pages 227 * |
N TURPAULT 等: "Semi-supervised triplet loss based learning of ambient audio embeddings", 《ICASSP 2019 - 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》, pages 760 - 764 * |
杨战波: "基于深度学习和词嵌入的视觉语义嵌入研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 138 - 165 * |
王立平 等: "融合词向量与关键词提取的微博话题发现", 《现代计算机》, pages 3 - 9 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116233304A (zh) * | 2022-11-30 | 2023-06-06 | 荣耀终端有限公司 | 一种基于日程的设备状态同步系统、方法和装置 |
CN116233304B (zh) * | 2022-11-30 | 2024-04-05 | 荣耀终端有限公司 | 一种基于日程的设备状态同步系统、方法和装置 |
CN116910275A (zh) * | 2023-09-12 | 2023-10-20 | 无锡容智技术有限公司 | 一种基于大语言模型的表单生成方法及系统 |
CN116910275B (zh) * | 2023-09-12 | 2023-12-15 | 无锡容智技术有限公司 | 一种基于大语言模型的表单生成方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112084338B (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN112069302B (zh) | 会话意图识别模型的训练方法、会话意图识别方法及装置 | |
CN113678149B (zh) | 用于对注释和编辑关系进行建模的架构 | |
CN112749326B (zh) | 信息处理方法、装置、计算机设备及存储介质 | |
CN111898369B (zh) | 文章标题生成方法、模型的训练方法、装置和电子设备 | |
CN112528010B (zh) | 知识推荐方法、装置、计算机设备及可读存储介质 | |
CN112084338B (zh) | 一种文档自动归类方法、系统、计算机设备及存储介质 | |
CN111931061A (zh) | 标签映射方法、装置、计算机设备及存储介质 | |
CN111557000B (zh) | 针对媒体的准确性确定 | |
CN112015928A (zh) | 多媒体资源的信息提取方法、装置、电子设备及存储介质 | |
CN111625715A (zh) | 信息提取方法、装置、电子设备及存储介质 | |
CN113254711A (zh) | 一种互动图像的显示方法、装置、计算机设备和存储介质 | |
CN113761291A (zh) | 标签分类的处理方法和装置 | |
CN117494051A (zh) | 一种分类处理的方法、模型训练的方法以及相关装置 | |
CN111950268A (zh) | 垃圾信息的检测方法、设备和存储介质 | |
US20230162518A1 (en) | Systems for Generating Indications of Relationships between Electronic Documents | |
CN116842934A (zh) | 一种基于持续学习的多文档融合深度学习标题生成方法 | |
CN116127060A (zh) | 一种基于提示词的文本分类方法及系统 | |
CN114329181A (zh) | 一种题目推荐方法、装置及电子设备 | |
CN113761126A (zh) | 文本内容的识别方法、装置、设备及可读存储介质 | |
CN115130453A (zh) | 互动信息生成方法和装置 | |
CN111666452A (zh) | 用于对视频进行聚类的方法和装置 | |
CN110879843A (zh) | 基于机器学习的自适应知识图谱技术 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |