CN110866117A - 一种基于语义增强与多层次标签嵌入的短文本分类方法 - Google Patents

一种基于语义增强与多层次标签嵌入的短文本分类方法 Download PDF

Info

Publication number
CN110866117A
CN110866117A CN201911025988.6A CN201911025988A CN110866117A CN 110866117 A CN110866117 A CN 110866117A CN 201911025988 A CN201911025988 A CN 201911025988A CN 110866117 A CN110866117 A CN 110866117A
Authority
CN
China
Prior art keywords
sentence
representation
label
embedding
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911025988.6A
Other languages
English (en)
Other versions
CN110866117B (zh
Inventor
饶元
祁江楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201911025988.6A priority Critical patent/CN110866117B/zh
Publication of CN110866117A publication Critical patent/CN110866117A/zh
Application granted granted Critical
Publication of CN110866117B publication Critical patent/CN110866117B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Abstract

本发明公开了一种基于语义增强与多层次标签嵌入的短文本分类方法,首先在预训练多层语言模型获取字符级别嵌入表示的基础上,采用传统的词嵌入方法将词语语义嵌入到字符级文本表示中;其次利用文本的局部和序列信息作为句子的多维特征表示;最后提出了多层次标签嵌入,通过Softmax函数实现对短文本数据的快速精准分类。本发明利用传统文本表示方法扩充预训练模型的文本编码信息,解决词嵌入模块语义表达不充分的问题;配合多尺度CNN和双向GRU模块加强文本的高级、深度语义表示,加强短文本的文本编码,替换传统one‑hot标签表示方式,将分类标签向量化,利用其包含的语义信息,在词语级和句子级分别对文本表示进行过滤与辅助分类决策,提升短文本分类的性能。

Description

一种基于语义增强与多层次标签嵌入的短文本分类方法
【技术领域】
本发明属于机器学习和数据挖掘技术领域,涉及一种基于语义增强与多层次标签嵌入的短文本分类方法。
【背景技术】
随着社交媒体的迅速发展和网络用户群体的快速增加,网络中充满了网民的评论信息并以爆炸式的速度增长。但是这些评论由于受到了社交媒体文字输入的限制,绝大部分数据以短文本的形式呈现,比如商品评论,问答系统中用户提出的问题,微博中用户发表的动态等。从海量的数据中快速提取有价值的信息首先需要对数据进行基础且有效的管理即短文本分类,此外短文本分类也成为了自动问答,文本检索,话题追踪和搜索引擎等多个领域的基础性技术,受到了工业界和学术界的广泛关注。但是由于其存在特征稀疏和维度灾难的问题导致分类效果并不理想。
近年来,许多研究者提出了多种方法从特征扩展和抽象语义表达两个方面解决短文本分类的问题。在特征扩展中,主要有借助外部知识库和机器学习模型两种方式对词语语义信息进行扩展。但是在借助外部知识库时,分类的效果在很大程度上受到知识库质量的影响并且知识库的更新速度相对较慢;使用机器学习模型如LDA提取文本的主题,由于文本短,语义表示稀疏等问题导致提取效果较差且引入了额外的噪声。在抽象语义表达中,主要采用CNN和RNN系列模型及其变种和注意力等思想构建深度网络模型,利用端到端的训练方式来提取文本特征,但是由于模型没有针对词语表示,句子提取,标签使用等方面设计有效的提取器,导致短文本的分类信息不能被非常有效的建模。总之,目前现有的方法在词语表示级别没有考虑到多个级别的影响,在分类时没有充分利用标签的信息,在利用外部知识时引入了噪声,极大的影响了文本分类的性能。
【发明内容】
本发明的目的在于解决现有技术中文本分类的性能不良的问题,提供一种基于语义增强与多层次标签嵌入的短文本分类方法。
为了解决上述问题,本发明提出了一种基于语义增强与多层次标签嵌入的短文本分类策略,
为达到上述目的,本发明采用以下技术方案予以实现:
一种基于语义增强与多层次标签嵌入的短文本分类方法,其特征在于,包括以下步骤:
步骤0:数据预处理与标记
步骤0-1:利用词典将短文本数据分为词语序列和字符序列,并给出对应的标签;标签的具体定义如下:
给定一条短文本数据,其词语和字符表示分别为Sentence_char={c1,c2,…,cn}和Sentence_word={w1,w2,…,wm};n和m分别表示句子中字和词的个数;所有的分类标签定义为Label={l1,l2,…,lnum},其中num表示分类的数目;
步骤1:预训练模型领域适应
在BERT模型的基础上,继续采用遮挡语言建模和上下文预测建模在领域语料中进行微调,使模型具有领域特征;
步骤2:文本语义增强
步骤2-1:采用领域适应后的多层语言模型作为字符嵌入的工具,利用GloVe文本嵌入方法作为词语嵌入的工具,分别获取短文本的字符和词语向量表示如下:
将领域适应后的预训练模型映射为
Figure BDA0002248631130000031
将GloVe文本嵌入方法映射为
Figure BDA0002248631130000032
其所生成的嵌入分别表示为:
Figure BDA0002248631130000033
Figure BDA0002248631130000034
步骤2-2:将词语表示填充到对应字符表示中,表示为:
Figure BDA0002248631130000035
其中,“+”表示拼接操作;
步骤2-3:将生成的语义增强嵌入表示作为下一个模块的输入;
步骤3:多尺度与多维度的特征提取和多层次标签嵌入
步骤3-1:对分类标签通过GloVe文本嵌入方法生成标签嵌入表示使得标签具有语义信息,表示为:
Figure BDA0002248631130000036
步骤3-2:字符级标签嵌入:通过计算“标签--字符对”的余弦相似度,得到“标签--字符对”的相似度表示矩阵:
Figure BDA0002248631130000037
其中,Mweight_char表示字向量相对于每个标签的权重矩阵,
Figure BDA0002248631130000038
是一个正则化的矩阵,每个元素都通过第i个字嵌入和第j个标签的L2范数计算得到,如下:
Figure BDA0002248631130000039
将权重矩阵的每一行相加,得到字的权重:
Figure BDA0002248631130000041
α=[α12,…,αn] (8)
其中,αi是第i个字符的权重,α表示每个字符对应的权重组成的向量;对此向量通过公式(9)进行归一化:
Figure BDA0002248631130000042
将归一化后的权重作用到对应的字符向量表示中:
Figure BDA0002248631130000046
其中,
Figure BDA0002248631130000047
表示对应元素相乘;
步骤3-3:将文本嵌入表示输入到循环神经网络的变体Bi-GRU模型中,获取初步的句子向量表示,表示如下:
Figure BDA0002248631130000043
其中,“:”表示向量拼接操作,
Figure BDA0002248631130000044
分别表示Bi-GRU的前向传播模型和反向传播模型所进行的拼接操作,并取最终的隐藏层状态作为句子向量的表示;
步骤3-4:设置多尺度卷积神经网络;网络中设置三组大小不同的卷积核,第一组由两个1*1的卷积核组成;第二组由一个1*1和3*3的卷积核组成;第三个由一个1*1和两个3*3的卷积核组成;在每个卷积操作之后加入ReLU激活函数,并采用Dropout防止网络过拟合,计算如下:
Figure BDA0002248631130000045
其中,ws表示卷积窗口的大小,n表示句子字符的长度,li+j表示卷积窗口内的词,wj和bi表示卷积操作的参数,hws表示经过ws大小卷积核的卷积操作之后的句子表示;
将不同卷积核的句子表示进行拼接,得到局部特征的句子表示:
bcnn=[h1:h3:h5] (13)
其中,hi表示大小为i的卷积核获取的句子输出,vcnn表示局部特征句子向量;
最后将局部特征和序列特征的句子表示进行融合,得到多尺度多维度的句子向量表示,计算如下:
vabstract_sent=[vcnn:voutput_gru] (14)
其中,vabstract_sent是最终的句子表示,“:”为向量拼接操作;
步骤3-5:句子级标签嵌入,通过计算标签和句子的相似度获取当前句子属于此类别的相似度得分;
标签对应的向量表示和句子表示的相似度计算如下:
Figure BDA0002248631130000051
其中,“·”表示矩阵乘法,
Figure BDA0002248631130000052
是句子向量表示的转置,在此对它进行了归一化;
其次将句子表示输入到前馈神经网络中,得到句子对于每个类别的概率值:
vsimilarity_NN=ReLU(W·vabstract_sent+b) (16)
最终,将两种预测值进行一个权重加和,通过Softmax激活函数,归一化为,并且取概率值最大的标签作为当前句子的分类预测标签,计算如下:
vsinilarity=(μ·vsimilarity_embedding+vsimilarity_NN) (17)
Figure BDA0002248631130000053
Figure BDA0002248631130000061
其中,μ表示两种预测值的调和权重,
Figure BDA0002248631130000062
是预测标签。
Figure BDA0002248631130000063
是句子属于第i个分类标签的的概率值,Softmax是Softmax激活函数,argmax表示取概率的最大值标签。
本发明进一步的改进如下:
使用多标签交叉熵损失函数来更新网络的参数,多标签交叉熵损失函数如下:
Figure BDA0002248631130000064
其中,N是训练集的大小,y是每个句子对应的真实分类标签,
Figure BDA0002248631130000065
是预测的分类标签,θ是网络中所有的训练参数;通过交叉熵刻画模型的预测值和真实值之间的差距,利用随机梯度下降算法,优化和调整模型参数。
与现有技术相比,本发明具有以下有益效果:
针对目前短文本分类方法中存在的不足和缺陷,本发明从多个角度,即引入预训练多层语言模型的领域适应,从而解决一词多义的问题;首先在预训练多层语言模型获取字符级别嵌入表示的基础上,采用传统的词嵌入方法将词语语义嵌入到字符级文本表示中;其次利用文本的局部和序列信息作为句子的多维特征表示;最后提出了多层次标签嵌入,即在词语级别进行文本向量表示的过滤和在句子级别的辅助分类决策,最后通过Softmax函数实现对短文本数据的快速精准分类。
【附图说明】
图1为本发明的架构图。
【具体实施方式】
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,不是全部的实施例,而并非要限制本发明公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要的混淆本发明公开的概念。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
本发明公开的上下文中,当将一层/元件称作位于另一层/元件“上”时,该层/元件可以直接位于该另一层/元件上,或者它们之间可以存在居中层/元件。另外,如果在一种朝向中一层/元件位于另一层/元件“上”,那么当调转朝向时,该层/元件可以位于该另一层/元件“下”。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面结合附图对本发明做进一步详细描述:
参见图1,本发明基于语义增强与多层次标签嵌入的短文本分类方法,提出了语义增强文本表示,利用传统的文本表示方法扩充预训练模型的文本编码信息,达到字和词语的语义融合,从而解决了词嵌入模块语义表达不充分的问题;配合多尺度CNN和双向GRU模块加强文本的高级、深度语义表示,进一步加强了短文本的文本编码,此外,替换传统one-hot标签表示方式,将分类标签向量化,利用其包含的语义信息,在词语级和句子级分别对文本表示进行过滤与辅助分类决策,提升了短文本分类的性能。
本发明构建了三个模块:
模块1:利用预训练模型对短文本中的字符进行上下文的嵌入,同时对短文本中的词语进行向量表示,将词语的向量表示加入到对应的字符表示中,从而解决了传统文本嵌入表示维度特征单一的问题,使得文本在嵌入阶段能够有效的表示短文本的原始语义,本发明提出了一种文本语义增强模块,从而获取更加完整的短文本语义表示。
模块2:提出了一种基于多维度特征融合网络的特征提取表示方法,首先利用双向循环神经网络的变种提取文本的序列信息;其次引入了图像领域的Inception网络结构,为了更好的适应中文短文本的特征,改进了多尺度卷积神经网络结构,最后将局部特征和序列特征进行融合作为文本的向量表示。
模块3:标签作为分类的强语义信息,在不同的阶段可以发挥不同的作用。本发明提出了多层次标签嵌入模块,即在词语级和句子级分别对文本表示进行过滤与辅助分类决策。
具体短文本分类方法,包括以下步骤:
阶段0:数据预处理与标记
步骤0:利用词典将短文本数据分为词语序列和字符序列,并给出对应的标签。标签的具体定义如下:
给定一条短文本数据,其词语和字符表示分别为Sentence_char={c1,c2,…,cn}和Sentence_word={w1,w2,…,wm},n和m分别表示句子中字和词的个数。所有的分类标签定义为Label={l1,l2,…,lnum},其中num表示分类的数目。
阶段1:预训练模型领域适应
步骤2:在BERT模型的基础上,继续采用遮挡语言建模(Masked Language Model)和上下文预测建模(Next Sentence Prediction)在领域语料中进行微调,使模型具有领域特征。
阶段2:文本语义增强
步骤3:采用领域适应后的多层语言模型作为字符嵌入的工具,利用传统的文本嵌入方法(GloVe)作为词语嵌入的工具,分别获取短文本的字符和词语向量表示如下:
将领域适应后的预训练模型映射为
Figure BDA0002248631130000091
将传统的文本嵌入方法映射为
Figure BDA0002248631130000092
其所生成的嵌入分别可以表示为:
Figure BDA0002248631130000093
Figure BDA0002248631130000094
步骤4:将词语表示填充到对应字符表示中,表示为:
Figure BDA0002248631130000101
其中,“+”表示拼接操作。
步骤5:将生成的语义增强嵌入表示作为下一个模块的输入,执行步骤7;
阶段3:多尺度与多维度的特征提取和多层次标签嵌入
步骤6:对分类标签通过传统文本嵌入方法(GloVe)生成标签嵌入表示使得标签具有语义信息,充分发挥它是强语义引导作用,表示为:
Figure BDA0002248631130000102
步骤7:字符级标签嵌入:通过计算标签--字符对的余弦相似度,可以得到标签--字符对的相似度表示矩阵:
Figure BDA0002248631130000103
其中,Mweight_char表示字向量相对于每个标签的权重矩阵,
Figure BDA0002248631130000104
是一个正则化的矩阵,每个元素都通过第i个字嵌入和第j个标签的L2范数计算得到,如下:
Figure BDA0002248631130000105
将权重矩阵的每一行相加,得到字的权重:
Figure BDA0002248631130000106
α=[α12,…,αn] (8)
其中,αi是第i个字符的权重,α表示每个字符对应的权重组成的向量。对此向量通过公式(9)进行归一化:
Figure BDA0002248631130000111
将归一化后的权重作用到对应的字符向量表示中:
Figure BDA0002248631130000115
其中,
Figure BDA0002248631130000116
表示对应元素相乘。
步骤8:将文本嵌入表示输入到循环神经网络的变体Bi-GRU模型中,获取初步的句子向量表示,表示如下:
Figure BDA0002248631130000112
其中,“:”表示向量拼接操作,
Figure BDA0002248631130000113
分别表示Bi-GRU的前向传播模型和反向传播模型所进行的拼接操作,并取最终的隐藏层状态作为句子向量的表示。
步骤9:在短文本分类表示中,句子的某些关键词可能起到决定性的作用,而Bi-GRU只提取了句子的序列特征。为了提取句子的局部特征提取,本发明借助了图像领域Inception网络的思想,设置了多尺度卷积神经网络。网络中设置了三组大小不同的卷积核,第一组由两个1*1的卷积核组成;第二组由一个1*1和3*3的卷积核组成;第三个有一个1*1和两个3*3的卷积核组成。在每个卷积操作之后加入了ReLU激活函数,并采用Dropout防止网络过拟合,计算如下:
Figure BDA0002248631130000114
其中,ws表示卷积窗口的大小,n表示句子字符的长度,li+j表示卷积窗口内的词,wj和bi表示卷积操作的参数,hws表示经过ws大小卷积核的卷积操作之后的句子表示。
将不同卷积核的句子表示进行拼接,得到局部特征的句子表示:
vcnn=[h1:h3:h5] (13)
其中,hi表示大小为i的卷积核获取的句子输出,vcnn表示局部特征句子向量。
最后将局部特征和序列特征的句子表示进行融合,得到多尺度多维度的句子向量表示,计算如下:
vabstract_sent=[vcnn:voutput_gru] (14)
其中,vabstract_sent是最终的句子表示,“:”为向量拼接操作。
步骤10:句子级标签嵌入,通过计算标签和句子的相似度获取当前句子属于此类别的相似度得分。
标签对应的向量表示和句子表示的相似度计算如下:
Figure BDA0002248631130000121
其中,“·”表示矩阵乘法,
Figure BDA0002248631130000122
是句子向量表示的转置,在此对它进行了归一化。
其次将句子表示输入到前馈神经网络中,也可以得到句子对于每个类别的概率值:
vsimilarity_NN=ReLU(W·vabstract_sent+b) (16)
最终,将两种预测值进行一个权重加和,通过Softmax激活函数,归一化为,并且取概率值最大的标签作为当前句子的分类预测标签,计算如下:
vsimilarity=(μ·vsimilarity_embedding+vsimilarity_NN) (17)
Figure BDA0002248631130000123
Figure BDA0002248631130000124
其中,μ表示两种预测值的调和权重,
Figure BDA0002248631130000125
是预测标签。
Figure BDA0002248631130000126
是句子属于第i个分类标签的的概率值,Softmax是Softmax激活函数,argmax表示取概率的最大值标签。
进一步,由于短文本分类的分类结果是离散型的,因此,本发明使用多标签交叉熵损失函数来更新网络的参数,多标签交叉熵损失函数如下:
Figure BDA0002248631130000131
其中,N是训练集的大小,y是每个句子对应的真实分类标签,
Figure BDA0002248631130000132
是预测的分类标签,θ是网络中所有的训练参数。
通过交叉熵刻画模型的预测值和真实值之间的差距,利用随机梯度下降算法,优化和调整模型参数。
本发明在新闻标题分类数据集上进行了实验,与基础的文本分类模型如CNN、LSTM等以及基于这些模型的改进模型进行了对比,证实了本发明的语义增强与多层次标签嵌入模型(SEMLE)性能达到最优(如表1所示);并从组件分离角度验证了本发明每个组件性能的有效性(实验结果如表2所示)。
表1实验性能
Figure BDA0002248631130000133
表2组件分离性能
Figure BDA0002248631130000141
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (2)

1.一种基于语义增强与多层次标签嵌入的短文本分类方法,其特征在于,包括以下步骤:
步骤0:数据预处理与标记
步骤0-1:利用词典将短文本数据分为词语序列和字符序列,并给出对应的标签;标签的具体定义如下:
给定一条短文本数据,其词语和字符表示分别为Sentence_char={c1,c2,...,cn}和Sentence_word={w1,w2,...,wm};n和m分别表示句子中字和词的个数;所有的分类标签定义为Label={l1,l2,...,lnum},其中num表示分类的数目;
步骤1:预训练模型领域适应
在BERT模型的基础上,继续采用遮挡语言建模和上下文预测建模在领域语料中进行微调,使模型具有领域特征;
步骤2:文本语义增强
步骤2-1:采用领域适应后的多层语言模型作为字符嵌入的工具,利用GloVe文本嵌入方法作为词语嵌入的工具,分别获取短文本的字符和词语向量表示如下:
将领域适应后的预训练模型映射为
Figure FDA0002248631120000011
将GloVe文本嵌入方法映射为
Figure FDA0002248631120000012
其所生成的嵌入分别表示为:
Figure FDA0002248631120000013
Figure FDA0002248631120000014
步骤2-2:将词语表示填充到对应字符表示中,表示为:
venhance={ve1,ve2,...,ven} (3)
={vc1+vw1,vc2+vw1,vc2+vw2,…,vcn+vwm}
其中,“+”表示拼接操作;
步骤2-3:将生成的语义增强嵌入表示作为下一个模块的输入;
步骤3:多尺度与多维度的特征提取和多层次标签嵌入
步骤3-1:对分类标签通过GloVe文本嵌入方法生成标签嵌入表示使得标签具有语义信息,表示为:
Figure FDA0002248631120000021
步骤3-2:字符级标签嵌入:通过计算“标签--字符对”的余弦相似度,得到“标签--字符对”的相似度表示矩阵:
Figure FDA0002248631120000022
其中,Mweight_char表示字向量相对于每个标签的权重矩阵,
Figure FDA0002248631120000023
是一个正则化的矩阵,每个元素都通过第i个字嵌入和第j个标签的L2范数计算得到,如下:
Figure FDA0002248631120000024
将权重矩阵的每一行相加,得到字的权重:
Figure FDA0002248631120000025
α=[α1,α2,...,αn] (8)
其中,αi是第i个字符的权重,α表示每个字符对应的权重组成的向量;对此向量通过公式(9)进行归一化:
Figure FDA0002248631120000026
将归一化后的权重作用到对应的字符向量表示中:
Figure FDA0002248631120000027
其中,
Figure FDA0002248631120000028
表示对应元素相乘;
步骤3-3:将文本嵌入表示输入到循环神经网络的变体Bi-GRU模型中,获取初步的句子向量表示,表示如下:
Figure FDA0002248631120000031
其中,“:”表示向量拼接操作,
Figure FDA0002248631120000032
分别表示Bi-GRU的前向传播模型和反向传播模型所进行的拼接操作,并取最终的隐藏层状态作为句子向量的表示;
步骤3-4:设置多尺度卷积神经网络;网络中设置三组大小不同的卷积核,第一组由两个1*1的卷积核组成;第二组由一个1*1和3*3的卷积核组成;第三个由一个1*1和两个3*3的卷积核组成;在每个卷积操作之后加入ReLU激活函数,并采用Dropout防止网络过拟合,计算如下:
Figure FDA0002248631120000033
其中,ws表示卷积窗口的大小,n表示句子字符的长度,li+j表示卷积窗口内的词,wj和bi表示卷积操作的参数,hws表示经过ws大小卷积核的卷积操作之后的句子表示;
将不同卷积核的句子表示进行拼接,得到局部特征的句子表示:
vcnn=[h1:h3:h5] (13)
其中,hi表示大小为i的卷积核获取的句子输出,vcnn表示局部特征句子向量;
最后将局部特征和序列特征的句子表示进行融合,得到多尺度多维度的句子向量表示,计算如下:
vabstract_sent=[vcnn:voutput_gru] (14)
其中,vabstract_sent是最终的句子表示,“:”为向量拼接操作;
步骤3-5:句子级标签嵌入,通过计算标签和句子的相似度获取当前句子属于此类别的相似度得分;
标签对应的向量表示和句子表示的相似度计算如下:
Figure FDA0002248631120000041
其中,“·”表示矩阵乘法,
Figure FDA0002248631120000042
是句子向量表示的转置,在此对它进行了归一化;
其次将句子表示输入到前馈神经网络中,得到句子对于每个类别的概率值:
vsimilarity_NN=ReLU(W·vabstract_sent+b) (16)
最终,将两种预测值进行一个权重加和,通过Softmax激活函数,归一化为,并且取概率值最大的标签作为当前句子的分类预测标签,计算如下:
vsimilarity=(μ·vsimilarity_embedding+vsimilarity_NN) (17)
Figure FDA0002248631120000043
Figure FDA0002248631120000044
其中,μ表示两种预测值的调和权重,
Figure FDA0002248631120000045
是预测标签;
Figure FDA0002248631120000046
是句子属于第i个分类标签的的概率值,Softmax是Softmax激活函数,argmax表示取概率的最大值标签。
2.根据权利要求1所述的基于语义增强与多层次标签嵌入的短文本分类方法,其特征在于,使用多标签交叉熵损失函数来更新网络的参数,多标签交叉熵损失函数如下:
Figure FDA0002248631120000047
其中,N是训练集的大小,y是每个句子对应的真实分类标签,
Figure FDA0002248631120000051
是预测的分类标签,θ是网络中所有的训练参数;通过交叉熵刻画模型的预测值和真实值之间的差距,利用随机梯度下降算法,优化和调整模型参数。
CN201911025988.6A 2019-10-25 2019-10-25 一种基于语义增强与多层次标签嵌入的短文本分类方法 Active CN110866117B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911025988.6A CN110866117B (zh) 2019-10-25 2019-10-25 一种基于语义增强与多层次标签嵌入的短文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911025988.6A CN110866117B (zh) 2019-10-25 2019-10-25 一种基于语义增强与多层次标签嵌入的短文本分类方法

Publications (2)

Publication Number Publication Date
CN110866117A true CN110866117A (zh) 2020-03-06
CN110866117B CN110866117B (zh) 2021-09-03

Family

ID=69654668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911025988.6A Active CN110866117B (zh) 2019-10-25 2019-10-25 一种基于语义增强与多层次标签嵌入的短文本分类方法

Country Status (1)

Country Link
CN (1) CN110866117B (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111309871A (zh) * 2020-03-26 2020-06-19 普华讯光(北京)科技有限公司 一种基于文本语义分析需求与输出成果之间匹配度的方法
CN111368773A (zh) * 2020-03-12 2020-07-03 广东小天才科技有限公司 数学公式识别方法及装置、终端设备和可读存储介质
CN111401077A (zh) * 2020-06-02 2020-07-10 腾讯科技(深圳)有限公司 语言模型的处理方法、装置和计算机设备
CN111506732A (zh) * 2020-04-20 2020-08-07 北京中科凡语科技有限公司 一种文本多层次标签分类方法
CN111552807A (zh) * 2020-04-17 2020-08-18 银江股份有限公司 一种短文本多标签分类方法
CN111581385A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种不平衡数据采样的中文文本类别识别系统及方法
CN111601314A (zh) * 2020-05-27 2020-08-28 北京亚鸿世纪科技发展有限公司 预训练模型加短信地址双重判定不良短信的方法和装置
CN111598183A (zh) * 2020-05-22 2020-08-28 上海海事大学 一种多特征融合图像描述方法
CN111639186A (zh) * 2020-06-05 2020-09-08 同济大学 动态嵌入投影门控的多类别多标签文本分类模型及装置
CN111813939A (zh) * 2020-07-13 2020-10-23 南京睿晖数据技术有限公司 一种基于表征增强与融合的文本分类方法
CN111858933A (zh) * 2020-07-10 2020-10-30 暨南大学 基于字符的层次化文本情感分析方法及系统
CN111985247A (zh) * 2020-08-31 2020-11-24 华侨大学 一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统
CN112214599A (zh) * 2020-10-20 2021-01-12 电子科技大学 基于统计学和预训练语言模型的多标签文本分类方法
CN112232058A (zh) * 2020-10-15 2021-01-15 济南大学 基于深度学习三层语义抽取框架的假新闻识别方法及系统
CN112559730A (zh) * 2020-12-08 2021-03-26 北京京航计算通讯研究所 基于全局性特征提取的文本摘要自动生成方法及系统
CN112836047A (zh) * 2021-01-25 2021-05-25 中山大学 一种基于句子语义替换的电子病历文本数据增强方法
CN112883189A (zh) * 2021-01-26 2021-06-01 浙江香侬慧语科技有限责任公司 基于标签描述的文本分类方法、装置、存储介质及设备
CN112927807A (zh) * 2020-12-22 2021-06-08 江汉大学 一种食源性检测模型训练方法、疾病检测方法
CN113220876A (zh) * 2021-04-16 2021-08-06 山东师范大学 一种用于英文文本的多标签分类方法及系统
CN113297375A (zh) * 2021-05-17 2021-08-24 广州锋网信息科技有限公司 一种基于标签的文档分类方法、系统、装置及存储介质
CN113495950A (zh) * 2020-03-19 2021-10-12 株式会社野村综合研究所 自然语言处理装置和程序
CN113553844A (zh) * 2021-08-11 2021-10-26 四川长虹电器股份有限公司 一种基于前缀树特征与卷积神经网络的领域识别方法
CN114139656A (zh) * 2022-01-27 2022-03-04 成都橙视传媒科技股份公司 一种基于深度卷积分析的图片归类方法及播控平台
CN115114439A (zh) * 2022-08-30 2022-09-27 北京百度网讯科技有限公司 多任务模型推理、多任务信息处理的方法和装置
CN115146031A (zh) * 2022-07-06 2022-10-04 四川乐为科技有限公司 一种基于深度学习和辅助特征的短文本立场检测方法
CN115422362A (zh) * 2022-10-09 2022-12-02 重庆邮电大学 一种基于人工智能的文本匹配方法
CN115617990A (zh) * 2022-09-28 2023-01-17 浙江大学 基于深度学习算法的电力设备缺陷短文本分类方法和系统
CN115146031B (zh) * 2022-07-06 2024-05-14 四川乐为科技有限公司 一种基于深度学习和辅助特征的短文本立场检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080221874A1 (en) * 2004-10-06 2008-09-11 International Business Machines Corporation Method and Apparatus for Fast Semi-Automatic Semantic Annotation
CN108280206A (zh) * 2018-01-30 2018-07-13 尹忠博 一种基于语义增强的短文本分类方法
CN108416058A (zh) * 2018-03-22 2018-08-17 北京理工大学 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN108595643A (zh) * 2018-04-26 2018-09-28 重庆邮电大学 基于多分类节点卷积循环网络的文本特征提取及分类方法
CN110134786A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080221874A1 (en) * 2004-10-06 2008-09-11 International Business Machines Corporation Method and Apparatus for Fast Semi-Automatic Semantic Annotation
CN108280206A (zh) * 2018-01-30 2018-07-13 尹忠博 一种基于语义增强的短文本分类方法
CN108416058A (zh) * 2018-03-22 2018-08-17 北京理工大学 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN108595643A (zh) * 2018-04-26 2018-09-28 重庆邮电大学 基于多分类节点卷积循环网络的文本特征提取及分类方法
CN110134786A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368773A (zh) * 2020-03-12 2020-07-03 广东小天才科技有限公司 数学公式识别方法及装置、终端设备和可读存储介质
CN113495950A (zh) * 2020-03-19 2021-10-12 株式会社野村综合研究所 自然语言处理装置和程序
CN111309871B (zh) * 2020-03-26 2024-01-30 普华讯光(北京)科技有限公司 一种基于文本语义分析需求与输出成果之间匹配度的方法
CN111309871A (zh) * 2020-03-26 2020-06-19 普华讯光(北京)科技有限公司 一种基于文本语义分析需求与输出成果之间匹配度的方法
CN111552807A (zh) * 2020-04-17 2020-08-18 银江股份有限公司 一种短文本多标签分类方法
CN111552807B (zh) * 2020-04-17 2023-05-30 银江技术股份有限公司 一种短文本多标签分类方法
CN111506732A (zh) * 2020-04-20 2020-08-07 北京中科凡语科技有限公司 一种文本多层次标签分类方法
CN111506732B (zh) * 2020-04-20 2023-05-26 北京中科凡语科技有限公司 一种文本多层次标签分类方法
CN111581385A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种不平衡数据采样的中文文本类别识别系统及方法
CN111581385B (zh) * 2020-05-06 2024-04-02 西安交通大学 一种不平衡数据采样的中文文本类别识别系统及方法
CN111598183A (zh) * 2020-05-22 2020-08-28 上海海事大学 一种多特征融合图像描述方法
CN111598183B (zh) * 2020-05-22 2023-08-15 上海海事大学 一种多特征融合图像描述方法
CN111601314A (zh) * 2020-05-27 2020-08-28 北京亚鸿世纪科技发展有限公司 预训练模型加短信地址双重判定不良短信的方法和装置
CN111601314B (zh) * 2020-05-27 2023-04-28 北京亚鸿世纪科技发展有限公司 预训练模型加短信地址双重判定不良短信的方法和装置
CN111401077B (zh) * 2020-06-02 2020-09-18 腾讯科技(深圳)有限公司 语言模型的处理方法、装置和计算机设备
CN111401077A (zh) * 2020-06-02 2020-07-10 腾讯科技(深圳)有限公司 语言模型的处理方法、装置和计算机设备
CN111639186B (zh) * 2020-06-05 2023-11-07 同济大学 动态嵌入投影门控的多类别多标签文本分类模型及装置
CN111639186A (zh) * 2020-06-05 2020-09-08 同济大学 动态嵌入投影门控的多类别多标签文本分类模型及装置
CN111858933A (zh) * 2020-07-10 2020-10-30 暨南大学 基于字符的层次化文本情感分析方法及系统
CN111813939A (zh) * 2020-07-13 2020-10-23 南京睿晖数据技术有限公司 一种基于表征增强与融合的文本分类方法
CN111985247B (zh) * 2020-08-31 2022-08-26 华侨大学 一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统
CN111985247A (zh) * 2020-08-31 2020-11-24 华侨大学 一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统
CN112232058A (zh) * 2020-10-15 2021-01-15 济南大学 基于深度学习三层语义抽取框架的假新闻识别方法及系统
CN112232058B (zh) * 2020-10-15 2022-11-04 济南大学 基于深度学习三层语义抽取框架的假新闻识别方法及系统
CN112214599A (zh) * 2020-10-20 2021-01-12 电子科技大学 基于统计学和预训练语言模型的多标签文本分类方法
CN112214599B (zh) * 2020-10-20 2022-06-24 电子科技大学 基于统计学和预训练语言模型的多标签文本分类方法
CN112559730A (zh) * 2020-12-08 2021-03-26 北京京航计算通讯研究所 基于全局性特征提取的文本摘要自动生成方法及系统
CN112927807A (zh) * 2020-12-22 2021-06-08 江汉大学 一种食源性检测模型训练方法、疾病检测方法
CN112927807B (zh) * 2020-12-22 2024-03-26 江汉大学 一种食源性检测模型训练方法、疾病检测方法
CN112836047B (zh) * 2021-01-25 2022-05-27 中山大学 一种基于句子语义替换的电子病历文本数据增强方法
CN112836047A (zh) * 2021-01-25 2021-05-25 中山大学 一种基于句子语义替换的电子病历文本数据增强方法
CN112883189A (zh) * 2021-01-26 2021-06-01 浙江香侬慧语科技有限责任公司 基于标签描述的文本分类方法、装置、存储介质及设备
CN113220876B (zh) * 2021-04-16 2022-12-06 山东师范大学 一种用于英文文本的多标签分类方法及系统
CN113220876A (zh) * 2021-04-16 2021-08-06 山东师范大学 一种用于英文文本的多标签分类方法及系统
CN113297375A (zh) * 2021-05-17 2021-08-24 广州锋网信息科技有限公司 一种基于标签的文档分类方法、系统、装置及存储介质
CN113297375B (zh) * 2021-05-17 2022-03-25 广州锋网信息科技有限公司 一种基于标签的文档分类方法、系统、装置及存储介质
CN113553844A (zh) * 2021-08-11 2021-10-26 四川长虹电器股份有限公司 一种基于前缀树特征与卷积神经网络的领域识别方法
CN113553844B (zh) * 2021-08-11 2023-07-25 四川长虹电器股份有限公司 一种基于前缀树特征与卷积神经网络的领域识别方法
CN114139656A (zh) * 2022-01-27 2022-03-04 成都橙视传媒科技股份公司 一种基于深度卷积分析的图片归类方法及播控平台
CN115146031A (zh) * 2022-07-06 2022-10-04 四川乐为科技有限公司 一种基于深度学习和辅助特征的短文本立场检测方法
CN115146031B (zh) * 2022-07-06 2024-05-14 四川乐为科技有限公司 一种基于深度学习和辅助特征的短文本立场检测方法
CN115114439A (zh) * 2022-08-30 2022-09-27 北京百度网讯科技有限公司 多任务模型推理、多任务信息处理的方法和装置
CN115617990A (zh) * 2022-09-28 2023-01-17 浙江大学 基于深度学习算法的电力设备缺陷短文本分类方法和系统
CN115617990B (zh) * 2022-09-28 2023-09-05 浙江大学 基于深度学习算法的电力设备缺陷短文本分类方法和系统
CN115422362B (zh) * 2022-10-09 2023-10-31 郑州数智技术研究院有限公司 一种基于人工智能的文本匹配方法
CN115422362A (zh) * 2022-10-09 2022-12-02 重庆邮电大学 一种基于人工智能的文本匹配方法

Also Published As

Publication number Publication date
CN110866117B (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
CN110866117B (zh) 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN108595632B (zh) 一种融合摘要与主体特征的混合神经网络文本分类方法
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与系统
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
Chen et al. Research on text sentiment analysis based on CNNs and SVM
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN111581401B (zh) 一种基于深度相关性匹配的局部引文推荐系统及方法
CN112347268A (zh) 一种文本增强的知识图谱联合表示学习方法及装置
CN109189925A (zh) 基于点互信息的词向量模型和基于cnn的文本分类方法
CN108090070B (zh) 一种中文实体属性抽取方法
CN111046179B (zh) 一种面向特定领域开放网络问句的文本分类方法
CN111027595B (zh) 双阶段语义词向量生成方法
CN110287323B (zh) 一种面向目标的情感分类方法
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN110502753A (zh) 一种基于语义增强的深度学习情感分析模型及其分析方法
CN106874410A (zh) 基于卷积神经网络的中文微博文本情绪分类方法及其系统
CN113673254B (zh) 基于相似度保持的知识蒸馏的立场检测方法
CN111078833A (zh) 一种基于神经网络的文本分类方法
CN108920586A (zh) 一种基于深度神经映射支持向量机的短文本分类方法
CN113515632B (zh) 基于图路径知识萃取的文本分类方法
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
Tao et al. News text classification based on an improved convolutional neural network
CN113688621B (zh) 一种长短不一的文本在不同粒度下的文本匹配方法及装置
CN110297986A (zh) 一种微博热点话题的情感倾向分析方法
Meng et al. Multi-layer convolutional neural network model based on prior knowledge of knowledge graph for text classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant