CN113220876A - 一种用于英文文本的多标签分类方法及系统 - Google Patents

一种用于英文文本的多标签分类方法及系统 Download PDF

Info

Publication number
CN113220876A
CN113220876A CN202110413713.0A CN202110413713A CN113220876A CN 113220876 A CN113220876 A CN 113220876A CN 202110413713 A CN202110413713 A CN 202110413713A CN 113220876 A CN113220876 A CN 113220876A
Authority
CN
China
Prior art keywords
label
word embedding
text
matrix
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110413713.0A
Other languages
English (en)
Other versions
CN113220876B (zh
Inventor
刘方爱
闫瑶瑶
王泓顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN202110413713.0A priority Critical patent/CN113220876B/zh
Publication of CN113220876A publication Critical patent/CN113220876A/zh
Application granted granted Critical
Publication of CN113220876B publication Critical patent/CN113220876B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本公开提供了一种用于英文文本的多标签分类方法和系统,所述方案包括:对待分类的文本语句以及标签集合进行词嵌入向量表示,获得语句的词嵌入向量矩阵以及标签嵌入向量;利用预训练的栈式降噪自动编码器对所述词嵌入矩阵进行降维;基于注意力机制,利用标签嵌入向量对降维后的词嵌入矩阵进行加权;将加权后的词嵌入矩阵输入到预训练的LSTM模型中,最后利用SoftMax函数输出文本语句对应的分类标签。所述方案利用了标签嵌入,使模型更加关注标签之间和标签与文本之间的关系,然后通过堆叠降噪自动编码器进行降维,利用标签信息对降维后的词嵌入矩阵进行加权,最后将加权后的文本表示利用LSTM网络进行训练分类,有效提高了分类精度和效率。

Description

一种用于英文文本的多标签分类方法及系统
技术领域
本公开涉及文本数据处理领域,具体涉及一种用于英文文本的多标签分类方法和系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
随着互联网和人工智能技术的不断发展,信息量不断在增长。对这些信息进行有效的分类变得更加重要,然而通常一段文本不会单单属于一个类别,所以多标签分类问题比单标签分类更加贴合实际需要,例如一段投诉文本,可能同时说明了多个部门的不足,利用多标签分类可以及时准确进行分类。
在不同的多标签分类中,问题适应技术的分支得到了显著探索。一些著名的分类工具,如神经网络、支持向量机和决策树已经被用于进行高效的多标签分类。但其都未考虑标签对文本分类的重要性,对提取的特征质量有一定的影响。受注意力机制在计算机视觉领域的成功应用的启发,许多研究人员将注意力机制和长短期神经网络(LSTM)结合在一起用于多标签的分类并取得了一些提高。但是,发明人发现,现有文本分类方法中,采用LSTM虽然可以很好的捕捉英文文本上下文之间的依赖,但是,随着信息的爆炸式增长,数据维度不断提高,现有基于LSTM的分类方法无法准确提取英文文本的深层特征,导致在运算效率及分类精度上的不足。
发明内容
本公开为了解决上述问题,提供了一种用于英文文本的多标签分类的方法和系统,其利用了标签嵌入,使模型更加关注标签之间和标签与文本之间的关系,然后通过堆叠降噪自动编码器进行降维,利用标签信息对降维后的词嵌入矩阵进行加权,最后将加权后的文本表示利用LSTM网络进行训练分类,有效提高了分类精度和效率。
根据本公开实施例的第一个方面,提供了一种用于英文文本的多标签分类方法,包括:
对待分类的文本语句以及标签集合进行词嵌入向量表示,获得语句的词嵌入向量矩阵以及标签嵌入向量;
利用预训练的栈式降噪自动编码器对所述词嵌入矩阵进行降维;
基于注意力机制,利用标签嵌入向量对降维后的词嵌入矩阵进行加权;
将加权后的词嵌入矩阵输入到预训练的LSTM模型中,最后利用SoftMax函数输出文本语句对应的分类标签。
进一步的,所述栈式降噪自动编码器采用SDAE网络,包括两层DAE结构,其训练过程具体包括:在训练过程中对输入的词嵌入矩阵添加噪声,将上面一层网络的输出作为下面一层的输入,无监督逐层训练。
进一步的,所述每层自编码层单独进行非监督训练,以最小化输入与重构结果之间的误差为训练目标。
进一步的,所述基于注意力机制利用标签嵌入向量对降维后的词嵌入矩阵进行加权,具体为:计算标签集合中所有标签嵌入向量与文本短语中的词嵌入向量间的余弦相似性;基于所述余弦相似性,利用ReLU激活函数计算标签与文本短语的兼容性;利用SoftMax函数获得标签与文本短语之间的注意力得分;利用所述注意力得分对所述词嵌入矩阵进行加权。
进一步的,所述对待分类的文本语句以及标签集合进行词嵌入向量表示,具体包括,利用预训练的Glove模型将文本语句中的单词进行向量表示,获得语句的词嵌入向量矩阵;利用Glove模型对标签集合中的标签进行向量表示,获得标签嵌入向量。
根据本公开实施例的第二个方面,提供了一种用于英文文本的多标签分类系统,包括:
词嵌入单元,其用于对待分类的文本语句以及标签集合进行词嵌入向量表示,获得语句的词嵌入向量矩阵以及标签嵌入向量;
降维单元,其用于利用预训练的栈式降噪自动编码器对所述词嵌入矩阵进行降维;
数据加权单元,其用于基于注意力机制,利用标签嵌入向量对降维后的词嵌入矩阵进行加权;
多标签分类单元,其用于将加权后的词嵌入矩阵输入到预训练的LSTM模型中,最后利用SoftMax函数输出文本语句对应的分类标签。
根据本公开实施例的第三个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,所述处理器执行所述程序时实现所述的一种用于英文文本的多标签分类方法。
根据本公开实施例的第四个方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的一种用于英文文本的多标签分类方法。
与现有技术相比,本公开的有益效果是:
(1)本公开所述方案引入标签嵌入,使模型更加关注标签信息对文本特征表示的重要性,利用标签对词嵌入矩阵进行加权,有利于提取与标签更相关的特征表示。
(2)本公开所述方案采用栈式降噪自动编码器,可以降低计算复杂度,减少训练时间,使网络具有良好的调节能力,其稀疏性约束能够更好地提取英文文本的深层特征,降噪处理降低了噪声干扰,增强了算法的鲁棒性。
本公开附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开实施例一中所述的英文文本的多标签分类方法流程图;
图2是本公开实施例一中所述的模型结构示意图;
图3是本公开实施例一中所述的的词向量和标签向量获取过程示意图;
图4是本公开实施例一中所述的栈式降噪自动编码器降维原理图;
图5是本公开实施例一中所述的长短期记忆网络工作原理图。
具体实施方式
下面结合附图与实施例对本公开做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
实施例一:
本实施例的目的是提供一种用于英文文本的多标签分类方法。
一种用于英文文本的多标签分类方法,包括:
对待分类的文本语句以及标签集合进行词嵌入向量表示,获得语句的词嵌入向量矩阵以及标签嵌入向量;
利用预训练的栈式降噪自动编码器对所述词嵌入矩阵进行降维;
基于注意力机制,利用标签嵌入向量对降维后的词嵌入矩阵进行加权;
将加权后的词嵌入矩阵输入到预训练的LSTM模型中,最后利用SoftMax函数输出文本语句对应的分类标签。
为了便于理解,以下结合附图对本公开所述方案进行详细说明:
具体的,如图1所示,本实施例的一种用于英文文本多标签分类的方法,包括:
S101:利用word2vec模型对待分类的文本语句以及标签集合进行词嵌入向量表示,获得语句的词嵌入向量矩阵以及标签嵌入向量;
对英文文本和标签进行预处理,本实施例中采用预训练的Glove模型获得英文文本和标签的词嵌入和标签嵌入。在具体实施中,如图3所示,根据语料库(corpus)构建一个共现矩阵(Co-ocurrence Matrix),设共现矩阵为X,其元素为Xi,j,意义为在整个语料库中,单词i和单词j共同出现在一个窗口中的次数。Glove利用两个单词在上下文窗口的距离d,提出了一个衰减函数((decreasingweighting):
Figure BDA0003024965200000051
用于计算权重,也就是说距离越远的两个单词所占总计数(total count)的权重越小。
利用
Figure BDA0003024965200000052
统计某一个单词和其他单词在文章中一共出现的次数。而某一单词i和单词k同时出现次数占单词i一共出现次数的概率,即单词k出现在单词i上下文的概率为:
Figure BDA0003024965200000053
利用
Figure BDA0003024965200000054
表示单词k和单词i,j之间的相关性,推广到词向量vi,vj和vk之间的相关性:
Figure BDA0003024965200000055
构造词向量和共现矩阵之间的近似关系:
Figure BDA0003024965200000056
其中
Figure BDA0003024965200000057
Figure BDA0003024965200000058
是单词i和单词j的词向量,bi
Figure BDA0003024965200000059
是两个偏差项。从而利用二者的差方来构造损失函数:
Figure BDA00030249652000000510
其中,f(Xij)是权重函数,保证一起出现次数多的单词权大于那些很少在一起出现的单词,在达到一定程度之后不再增加,如果两个单词没有在一起出现,那么他们也不会参与到loss function计算中去。利用GloVe对wi、wj进行不断更新学习,最终学习得到的是两个vector是wi、wj,因为X是对称的(symmetric),所以从原理上讲wi和wj也是对称的,但由于初始值不一样,导致最后的值不一样。但其实两者是等价的,为了提高鲁棒性,选择两者之和作为最终的vector。将文本和标签嵌入到同一空间,利用词向量对句子的词嵌入矩阵进行初始化。标签嵌入利用预先训练好的单词嵌入作为标签嵌入初始化。
在其他实例中,其他的初始化方法,例如BERT,也可以对单词和标签的向量进行初始化。
S102:利用预训练的栈式降噪自动编码器对所述词嵌入矩阵进行降维;
具体的,设置两层SDAE(stacked denoised autoencoder,堆栈去噪自编码器)网络,SDAE的思想就是将多个DAE堆叠在一起形成一个深度的架构。只有在训练的时候才会对输入进行腐蚀(加噪),训练完成就不需要在进行腐蚀。将上面一层的输出作为下面一层的输入,无监督逐层训练。每层自编码层都单独进行非监督训练,以最小化输入(输入为网络前一层的隐层输出)与重构结果之间的误差为训练目标。前K层训练好了,就可以训练K+1层,因为已经前向传播求出K层的输出,再用K层的输出当作K+1的输入训练K+1层。
将得到的词嵌入向量v,添加随机噪声,得到污染数据vd,并将污染数据vd输入神经网络,选取合适的隐藏层神经节点数,注意要小于输入层的神经节点数,将原始数据v作为输出层的标签训练,使网络的输出y与原始数据v的差异最小化,网络训练完成后去除输出层,得到降维后的文本表示,如图4所示。
第一个自动编码器的输出可以表示为:
h(y)=σ(W1y+b1)
Figure BDA0003024965200000061
其中W1是权重值,y是被噪声污染后输入数据或特征,
Figure BDA0003024965200000071
为恢复后的输入数据或特征,b1、b2为偏置值。然后利用选用最小均方差作为代价函数,且利用梯度下降的方法对权重值W和偏置值b更新:
Figure BDA0003024965200000072
(W1,b1,b2)←argmin(J(W1,b1,b2))
第二个DA单元预训练完毕后,去掉其中的输出层和相应的权重和偏置,只保留输入层和隐藏层的W2和b2,然后将其堆叠在第一个DA单元上。最后再第二个DA单元的隐藏层上添加一层输出层,随机初始化W3和b3,进行解码恢复。两层DA单元预训练结束后,利用上面提到代价函数进行整体的反向调优,对权重和偏置值进行更新,达到对文本特征提取的目的,同时实现降维。
S103:基于注意力机制,利用标签嵌入向量对降维后的词嵌入矩阵进行加权;
具体的,利用标签信息对词嵌入矩阵进行加权,通过基于标签的attention score加权词嵌入获得进一步的文本表示,利用一个attention框架,用于度量文本序列和标签嵌入之间的兼容性,attention机制是利用一组带有标签的训练样本学习得到的,可以保证文本中相关单词的权重不高于不相关单词。
首先计算标签向量和句子向量的余弦相似性:
Figure BDA0003024965200000073
其中,Vn是经过降维后的句子表示,V2是标签向量。
第l个短语与所有标签之间的兼容性为:
ul=ReLu(Gl-r:l+rW1+b1)
其中,Gl-r:l+r代表“标签-短语”对之间的兼容性(即相似性)。窗口尺寸r根据实际情况进行适当取值,可以多取几次,取最优结果;W1∈R2r+1和b1∈RK是要进行学习的参数,ul∈RK。利用最大池化获得第l个短语与所有标签之间的最大兼容性ml=max-pooling(ul),m是长度为L的向量,即表示整个文本序列的向量,那么整个文本序列的注意力得分是:
s=SoftMax(m)
其中,第l个短语的softmax值为
Figure BDA0003024965200000081
然后得到通过标签的attention score加权词嵌入得到:
Figure BDA0003024965200000082
得到进一步的文本表示z。
S104:将加权后的词嵌入矩阵输入到预训练的LSTM模型中,最后利用SoftMax函数输出文本语句对应的分类标签。
具体的,将文本表示z输入到长短期记忆网络(LSTM)中,进行进一步特征提取和拟合,用于分类。LSTM在网络状态内引入了记忆细胞状态C,有利于帮助LSTM网络克服梯度消失和梯度爆炸,它利用输入门,遗忘门以及输出门来控制先前神经单元和当前神经单元的相互作用,从而对隐藏状态h和记忆细胞状态C进行更新。LSTM通过遗忘门会除去一些不重要的信息,遗忘门通过先前的隐藏状态ht-1和当前的输入向量zt,计算出一个取值在0~1之间的矩阵向量ft。根据当前的输入变量zt和先前的隐藏状态ht-1,如图5所示,细胞状态C可以剔除不重要的信息添加新的更重要的信息,实现细胞状态的更新。最后,通过tanh层对最新细胞状态的处理,并与输出门的输出向量ot相乘,可以得到最后的隐藏状态ht
ot=σ(Wo·[ht-1,xt])+bo
ht=ot*tanh(Ct)
其中,Wo是系数矩阵,bo是偏差向量。LSTM的输出单元包含的全连接层数目和标签的数量一致。文本向量经过LSTM后,输入到全连接层进行多标签分类,激活函数选用softmax,主要是计算样本xi的标签为cj的概率。最后模型输出为
Figure BDA0003024965200000091
实施例二:
本实施例的目的是一种用于英文文本的多标签分类系统。
一种用于英文文本的多标签分类系统,包括:
词嵌入单元,其用于对待分类的文本语句以及标签集合进行词嵌入向量表示,获得语句的词嵌入向量矩阵以及标签嵌入向量;
降维单元,其用于利用预训练的栈式降噪自动编码器对所述词嵌入矩阵进行降维;
数据加权单元,其用于基于注意力机制,利用标签嵌入向量对降维后的词嵌入矩阵进行加权;
多标签分类单元,其用于将加权后的词嵌入矩阵输入到预训练的LSTM模型中,最后利用SoftMax函数输出文本语句对应的分类标签。
在更多实施例中,还提供:
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例一中所述的方法。为了简洁,在此不再赘述。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一中所述的方法。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
上述实施例提供的一种用于英文文本的多标签分类方法及系统可以实现,具有广阔的应用前景。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (10)

1.一种用于英文文本的多标签分类方法,其特征在于,包括:
对待分类的文本语句以及标签集合进行词嵌入向量表示,获得语句的词嵌入向量矩阵以及标签嵌入向量;
利用预训练的栈式降噪自动编码器对所述词嵌入矩阵进行降维;
基于注意力机制,利用标签嵌入向量对降维后的词嵌入矩阵进行加权;
将加权后的词嵌入矩阵输入到预训练的LSTM模型中,最后利用SoftMax函数输出文本语句对应的分类标签。
2.如权利要求1所述的一种用于英文文本的多标签分类方法,其特征在于,包括:所述栈式降噪自动编码器采用两层SDAE网络,其训练过程具体包括:在训练过程中对输入的词嵌入矩阵添加噪声,将上面一层网络的输出作为下面一层的输入,无监督逐层训练。
3.如权利要求2所述的一种用于英文文本的多标签分类方法,其特征在于,包括:所述每层自编码层单独进行非监督训练,以最小化输入与重构结果之间的误差为训练目标。
4.如权利要求1所述的一种用于英文文本的多标签分类方法,其特征在于,包括:所述基于注意力机制利用标签嵌入向量对降维后的词嵌入矩阵进行加权,具体为:计算标签集合中所有标签嵌入向量与文本短语中的词嵌入向量间的余弦相似性;基于所述余弦相似性,利用ReLU激活函数计算标签与文本短语的兼容性;利用SoftMax函数获得标签与文本短语之间的注意力得分;利用所述注意力得分对所述词嵌入矩阵进行加权。
5.如权利要求1所述的一种用于英文文本的多标签分类方法,其特征在于,包括:所述对待分类的文本语句以及标签集合进行词嵌入向量表示,具体包括,利用预训练的Glove模型将文本语句中的单词进行向量表示,获得语句的词嵌入向量矩阵;利用Glove模型对标签集合中的标签进行向量表示,获得标签嵌入向量。
6.一种用于英文文本的多标签分类系统,其特征在于,包括:
词嵌入单元,其用于对待分类的文本语句以及标签集合进行词嵌入向量表示,获得语句的词嵌入向量矩阵以及标签嵌入向量;
降维单元,其用于利用预训练的栈式降噪自动编码器对所述词嵌入矩阵进行降维;
数据加权单元,其用于基于注意力机制,利用标签嵌入向量对降维后的词嵌入矩阵进行加权;
多标签分类单元,其用于将加权后的词嵌入矩阵输入到预训练的LSTM模型中,最后利用SoftMax函数输出文本语句对应的分类标签。
7.如权利要求6所述的一种用于英文文本的多标签分类方法,其特征在于,包括:所述栈式降噪自动编码器采用两层SDAE网络,其训练过程具体包括:在训练过程中对输入的词嵌入矩阵添加噪声,将上面一层网络的输出作为下面一层的输入,无监督逐层训练。
8.如权利要求6所述的一种用于英文文本的多标签分类方法,其特征在于,包括:所述基于注意力机制利用标签嵌入向量对降维后的词嵌入矩阵进行加权,具体为:计算标签集合中所有标签嵌入向量与文本短语中的词嵌入向量间的余弦相似性;基于所述余弦相似性,利用ReLU激活函数计算标签与文本短语的兼容性;利用SoftMax函数获得标签与文本短语之间的注意力得分;利用所述注意力得分对所述词嵌入矩阵进行加权。
9.一种计算机可读介质,存储有计算机程序,其特征在于,所述计算机程序当被处理器执行时实现如权利要求1-5所述的一种用于英文文本的多标签分类方法中的步骤。
10.一种计算机设备,包括处理器、存储器,能够存储多标签分类系统中一系列计算机可执行指令和与计算机可执行指令相关联的计算机可访问数据,其特征在于,所述处理器执行所述程序时实现如权利要求1-5中任一项所述的一种用于英文文本的多标签分类方法中的步骤。
CN202110413713.0A 2021-04-16 2021-04-16 一种用于英文文本的多标签分类方法及系统 Active CN113220876B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110413713.0A CN113220876B (zh) 2021-04-16 2021-04-16 一种用于英文文本的多标签分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110413713.0A CN113220876B (zh) 2021-04-16 2021-04-16 一种用于英文文本的多标签分类方法及系统

Publications (2)

Publication Number Publication Date
CN113220876A true CN113220876A (zh) 2021-08-06
CN113220876B CN113220876B (zh) 2022-12-06

Family

ID=77087626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110413713.0A Active CN113220876B (zh) 2021-04-16 2021-04-16 一种用于英文文本的多标签分类方法及系统

Country Status (1)

Country Link
CN (1) CN113220876B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609295A (zh) * 2021-08-11 2021-11-05 平安科技(深圳)有限公司 文本分类方法、装置及相关设备
CN113704373A (zh) * 2021-08-19 2021-11-26 国家计算机网络与信息安全管理中心 基于移动轨迹数据的用户识别方法、装置及存储介质
CN114513351A (zh) * 2022-02-08 2022-05-17 中国人民解放军海军军医大学 一种偏远地区信息加密传输方法、系统及可存储介质
CN115238645A (zh) * 2022-08-03 2022-10-25 中国电子科技集团公司信息科学研究院 资产数据识别方法、装置、电子设备和计算机存储介质

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334499A (zh) * 2018-02-08 2018-07-27 海南云江科技有限公司 一种文本标签标注设备、方法和计算设备
US20180329883A1 (en) * 2017-05-15 2018-11-15 Thomson Reuters Global Resources Unlimited Company Neural paraphrase generator
CN109299396A (zh) * 2018-11-28 2019-02-01 东北师范大学 融合注意力模型的卷积神经网络协同过滤推荐方法及系统
CN109582789A (zh) * 2018-11-12 2019-04-05 北京大学 基于语义单元信息的文本多标签分类方法
CN109598336A (zh) * 2018-12-05 2019-04-09 国网江西省电力有限公司信息通信分公司 一种基于栈式降噪自编码神经网络的数据约简方法
CN110209823A (zh) * 2019-06-12 2019-09-06 齐鲁工业大学 一种多标签文本分类方法及系统
CN110442720A (zh) * 2019-08-09 2019-11-12 中国电子技术标准化研究院 一种基于lstm卷积神经网络的多标签文本分类方法
CN110569353A (zh) * 2019-07-03 2019-12-13 重庆大学 一种基于注意力机制的Bi-LSTM的标签推荐方法
CN110781306A (zh) * 2019-10-31 2020-02-11 山东师范大学 一种英文文本的方面层情感分类方法及系统
CN110866117A (zh) * 2019-10-25 2020-03-06 西安交通大学 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN111368086A (zh) * 2020-03-17 2020-07-03 昆明理工大学 一种基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法
CN111368078A (zh) * 2020-02-28 2020-07-03 腾讯科技(深圳)有限公司 一种模型训练的方法、文本分类的方法、装置及存储介质
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及系统、信息数据处理终端
CN111552807A (zh) * 2020-04-17 2020-08-18 银江股份有限公司 一种短文本多标签分类方法
CN111858945A (zh) * 2020-08-05 2020-10-30 上海哈蜂信息科技有限公司 基于深度学习的评论文本方面级情感分类方法及系统
WO2020244475A1 (zh) * 2019-06-05 2020-12-10 腾讯科技(深圳)有限公司 用于语言序列标注的方法、装置、存储介质及计算设备
CN112069313A (zh) * 2020-08-12 2020-12-11 北京工业大学 一种基于bert与双向lstm、注意力机制融合的灾难信息博文分类方法
CN112434159A (zh) * 2020-11-17 2021-03-02 东南大学 一种利用深度神经网络进行论文多标签分类的方法

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180329883A1 (en) * 2017-05-15 2018-11-15 Thomson Reuters Global Resources Unlimited Company Neural paraphrase generator
CN108334499A (zh) * 2018-02-08 2018-07-27 海南云江科技有限公司 一种文本标签标注设备、方法和计算设备
CN109582789A (zh) * 2018-11-12 2019-04-05 北京大学 基于语义单元信息的文本多标签分类方法
CN109299396A (zh) * 2018-11-28 2019-02-01 东北师范大学 融合注意力模型的卷积神经网络协同过滤推荐方法及系统
CN109598336A (zh) * 2018-12-05 2019-04-09 国网江西省电力有限公司信息通信分公司 一种基于栈式降噪自编码神经网络的数据约简方法
WO2020244475A1 (zh) * 2019-06-05 2020-12-10 腾讯科技(深圳)有限公司 用于语言序列标注的方法、装置、存储介质及计算设备
CN110209823A (zh) * 2019-06-12 2019-09-06 齐鲁工业大学 一种多标签文本分类方法及系统
CN110569353A (zh) * 2019-07-03 2019-12-13 重庆大学 一种基于注意力机制的Bi-LSTM的标签推荐方法
CN110442720A (zh) * 2019-08-09 2019-11-12 中国电子技术标准化研究院 一种基于lstm卷积神经网络的多标签文本分类方法
CN110866117A (zh) * 2019-10-25 2020-03-06 西安交通大学 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN110781306A (zh) * 2019-10-31 2020-02-11 山东师范大学 一种英文文本的方面层情感分类方法及系统
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及系统、信息数据处理终端
CN111368078A (zh) * 2020-02-28 2020-07-03 腾讯科技(深圳)有限公司 一种模型训练的方法、文本分类的方法、装置及存储介质
CN111368086A (zh) * 2020-03-17 2020-07-03 昆明理工大学 一种基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法
CN111552807A (zh) * 2020-04-17 2020-08-18 银江股份有限公司 一种短文本多标签分类方法
CN111858945A (zh) * 2020-08-05 2020-10-30 上海哈蜂信息科技有限公司 基于深度学习的评论文本方面级情感分类方法及系统
CN112069313A (zh) * 2020-08-12 2020-12-11 北京工业大学 一种基于bert与双向lstm、注意力机制融合的灾难信息博文分类方法
CN112434159A (zh) * 2020-11-17 2021-03-02 东南大学 一种利用深度神经网络进行论文多标签分类的方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609295A (zh) * 2021-08-11 2021-11-05 平安科技(深圳)有限公司 文本分类方法、装置及相关设备
CN113704373A (zh) * 2021-08-19 2021-11-26 国家计算机网络与信息安全管理中心 基于移动轨迹数据的用户识别方法、装置及存储介质
CN113704373B (zh) * 2021-08-19 2023-12-05 国家计算机网络与信息安全管理中心 基于移动轨迹数据的用户识别方法、装置及存储介质
CN114513351A (zh) * 2022-02-08 2022-05-17 中国人民解放军海军军医大学 一种偏远地区信息加密传输方法、系统及可存储介质
CN115238645A (zh) * 2022-08-03 2022-10-25 中国电子科技集团公司信息科学研究院 资产数据识别方法、装置、电子设备和计算机存储介质

Also Published As

Publication number Publication date
CN113220876B (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
CN113220876B (zh) 一种用于英文文本的多标签分类方法及系统
CN108388651B (zh) 一种基于图核和卷积神经网络的文本分类方法
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN107526785A (zh) 文本分类方法及装置
CN112015863B (zh) 一种基于图神经网络的多元特征融合中文文本分类方法
CN109948149B (zh) 一种文本分类方法及装置
CN109977199B (zh) 一种基于注意力池化机制的阅读理解方法
CN110263325B (zh) 中文分词系统
CN110188195B (zh) 一种基于深度学习的文本意图识别方法、装置及设备
CN110555084A (zh) 基于pcnn和多层注意力的远程监督关系分类方法
CN108664512B (zh) 文本对象分类方法及装置
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN113220886A (zh) 文本分类方法、文本分类模型训练方法及相关设备
CN113177412A (zh) 基于bert的命名实体识别方法、系统、电子设备及存储介质
CN110717330A (zh) 基于深度学习的词句级短文本分类方法
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN111400494A (zh) 一种基于GCN-Attention的情感分析方法
CN115545041B (zh) 一种增强医疗语句语义向量表示的模型构造方法及系统
CN109766523A (zh) 词性标注方法和标注系统
CN108549718A (zh) 一种通用主题嵌入模型联合训练方法
CN112818123A (zh) 一种文本的情感分类方法
CN117094325B (zh) 水稻病虫害领域命名实体识别方法
CN111738226B (zh) 一种基于cnn和rcnn模型的文本识别方法及装置
CN113204640A (zh) 一种基于注意力机制的文本分类方法
CN112699243A (zh) 基于法条图卷积网络文本的案件文书案由分类方法及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant