CN110866117A

CN110866117A - 一种基于语义增强与多层次标签嵌入的短文本分类方法

Info

Publication number: CN110866117A
Application number: CN201911025988.6A
Authority: CN
Inventors: 饶元; 祁江楠
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2020-03-06
Anticipated expiration: 2039-10-25
Also published as: CN110866117B

Abstract

本发明公开了一种基于语义增强与多层次标签嵌入的短文本分类方法，首先在预训练多层语言模型获取字符级别嵌入表示的基础上，采用传统的词嵌入方法将词语语义嵌入到字符级文本表示中；其次利用文本的局部和序列信息作为句子的多维特征表示；最后提出了多层次标签嵌入，通过Softmax函数实现对短文本数据的快速精准分类。本发明利用传统文本表示方法扩充预训练模型的文本编码信息，解决词嵌入模块语义表达不充分的问题；配合多尺度CNN和双向GRU模块加强文本的高级、深度语义表示，加强短文本的文本编码，替换传统one‑hot标签表示方式，将分类标签向量化，利用其包含的语义信息，在词语级和句子级分别对文本表示进行过滤与辅助分类决策，提升短文本分类的性能。

Description

一种基于语义增强与多层次标签嵌入的短文本分类方法

【技术领域】

本发明属于机器学习和数据挖掘技术领域，涉及一种基于语义增强与多层次标签嵌入的短文本分类方法。

【背景技术】

随着社交媒体的迅速发展和网络用户群体的快速增加，网络中充满了网民的评论信息并以爆炸式的速度增长。但是这些评论由于受到了社交媒体文字输入的限制，绝大部分数据以短文本的形式呈现，比如商品评论，问答系统中用户提出的问题，微博中用户发表的动态等。从海量的数据中快速提取有价值的信息首先需要对数据进行基础且有效的管理即短文本分类，此外短文本分类也成为了自动问答，文本检索，话题追踪和搜索引擎等多个领域的基础性技术，受到了工业界和学术界的广泛关注。但是由于其存在特征稀疏和维度灾难的问题导致分类效果并不理想。

近年来，许多研究者提出了多种方法从特征扩展和抽象语义表达两个方面解决短文本分类的问题。在特征扩展中，主要有借助外部知识库和机器学习模型两种方式对词语语义信息进行扩展。但是在借助外部知识库时，分类的效果在很大程度上受到知识库质量的影响并且知识库的更新速度相对较慢；使用机器学习模型如LDA提取文本的主题，由于文本短，语义表示稀疏等问题导致提取效果较差且引入了额外的噪声。在抽象语义表达中，主要采用CNN和RNN系列模型及其变种和注意力等思想构建深度网络模型，利用端到端的训练方式来提取文本特征，但是由于模型没有针对词语表示，句子提取，标签使用等方面设计有效的提取器，导致短文本的分类信息不能被非常有效的建模。总之，目前现有的方法在词语表示级别没有考虑到多个级别的影响，在分类时没有充分利用标签的信息，在利用外部知识时引入了噪声，极大的影响了文本分类的性能。

【发明内容】

本发明的目的在于解决现有技术中文本分类的性能不良的问题，提供一种基于语义增强与多层次标签嵌入的短文本分类方法。

为了解决上述问题，本发明提出了一种基于语义增强与多层次标签嵌入的短文本分类策略，

为达到上述目的，本发明采用以下技术方案予以实现：

一种基于语义增强与多层次标签嵌入的短文本分类方法，其特征在于，包括以下步骤：

步骤0：数据预处理与标记

步骤0-1：利用词典将短文本数据分为词语序列和字符序列，并给出对应的标签；标签的具体定义如下：

给定一条短文本数据，其词语和字符表示分别为Sentence_char＝{c₁,c₂,…,c_n}和Sentence_word＝{w₁,w₂,…,w_m}；n和m分别表示句子中字和词的个数；所有的分类标签定义为Label＝{l₁,l₂,…,l_num}，其中num表示分类的数目；

步骤1：预训练模型领域适应

在BERT模型的基础上，继续采用遮挡语言建模和上下文预测建模在领域语料中进行微调，使模型具有领域特征；

步骤2：文本语义增强

步骤2-1：采用领域适应后的多层语言模型作为字符嵌入的工具，利用GloVe文本嵌入方法作为词语嵌入的工具，分别获取短文本的字符和词语向量表示如下：

将领域适应后的预训练模型映射为

将GloVe文本嵌入方法映射为

其所生成的嵌入分别表示为：

步骤2-2：将词语表示填充到对应字符表示中，表示为：

其中，“+”表示拼接操作；

步骤2-3：将生成的语义增强嵌入表示作为下一个模块的输入；

步骤3：多尺度与多维度的特征提取和多层次标签嵌入

步骤3-1：对分类标签通过GloVe文本嵌入方法生成标签嵌入表示使得标签具有语义信息，表示为：

步骤3-2：字符级标签嵌入：通过计算“标签--字符对”的余弦相似度，得到“标签--字符对”的相似度表示矩阵：

其中，M_{weight_char}表示字向量相对于每个标签的权重矩阵，

是一个正则化的矩阵，每个元素都通过第i个字嵌入和第j个标签的L2范数计算得到，如下：

将权重矩阵的每一行相加，得到字的权重：

α＝[α₁,α₂,…,α_n] (8)

其中，α_i是第i个字符的权重，α表示每个字符对应的权重组成的向量；对此向量通过公式(9)进行归一化：

将归一化后的权重作用到对应的字符向量表示中：

其中，

表示对应元素相乘；

步骤3-3：将文本嵌入表示输入到循环神经网络的变体Bi-GRU模型中，获取初步的句子向量表示，表示如下：

其中，“:”表示向量拼接操作，

分别表示Bi-GRU的前向传播模型和反向传播模型所进行的拼接操作，并取最终的隐藏层状态作为句子向量的表示；

步骤3-4：设置多尺度卷积神经网络；网络中设置三组大小不同的卷积核，第一组由两个1*1的卷积核组成；第二组由一个1*1和3*3的卷积核组成；第三个由一个1*1和两个3*3的卷积核组成；在每个卷积操作之后加入ReLU激活函数，并采用Dropout防止网络过拟合，计算如下：

其中，ws表示卷积窗口的大小，n表示句子字符的长度，l_i+j表示卷积窗口内的词，w_j和b_i表示卷积操作的参数，h^ws表示经过ws大小卷积核的卷积操作之后的句子表示；

将不同卷积核的句子表示进行拼接，得到局部特征的句子表示：

b_cnn＝[h¹:h³:h⁵] (13)

其中，hⁱ表示大小为i的卷积核获取的句子输出，v_cnn表示局部特征句子向量；

最后将局部特征和序列特征的句子表示进行融合，得到多尺度多维度的句子向量表示，计算如下：

v_{abstract_sent}＝[v_cnn:v_{output_gru}] (14)

其中，v_{abstract_sent}是最终的句子表示，“:”为向量拼接操作；

步骤3-5：句子级标签嵌入，通过计算标签和句子的相似度获取当前句子属于此类别的相似度得分；

标签对应的向量表示和句子表示的相似度计算如下：

其中，“·”表示矩阵乘法，

是句子向量表示的转置，在此对它进行了归一化；

其次将句子表示输入到前馈神经网络中，得到句子对于每个类别的概率值：

v_{similarity_NN}＝ReLU(W·v_{abstract_sent}+b) (16)

最终，将两种预测值进行一个权重加和，通过Softmax激活函数，归一化为，并且取概率值最大的标签作为当前句子的分类预测标签，计算如下：

v_sinilarity＝(μ·v_{similarity_embedding}+v_{similarity_NN}) (17)

其中，μ表示两种预测值的调和权重，

是预测标签。

是句子属于第i个分类标签的的概率值，Softmax是Softmax激活函数，argmax表示取概率的最大值标签。

本发明进一步的改进如下：

使用多标签交叉熵损失函数来更新网络的参数，多标签交叉熵损失函数如下：

其中，N是训练集的大小，y是每个句子对应的真实分类标签，

是预测的分类标签，θ是网络中所有的训练参数；通过交叉熵刻画模型的预测值和真实值之间的差距，利用随机梯度下降算法，优化和调整模型参数。

与现有技术相比，本发明具有以下有益效果：

针对目前短文本分类方法中存在的不足和缺陷，本发明从多个角度，即引入预训练多层语言模型的领域适应，从而解决一词多义的问题；首先在预训练多层语言模型获取字符级别嵌入表示的基础上，采用传统的词嵌入方法将词语语义嵌入到字符级文本表示中；其次利用文本的局部和序列信息作为句子的多维特征表示；最后提出了多层次标签嵌入，即在词语级别进行文本向量表示的过滤和在句子级别的辅助分类决策，最后通过Softmax函数实现对短文本数据的快速精准分类。

【附图说明】

图1为本发明的架构图。

【具体实施方式】

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，不是全部的实施例，而并非要限制本发明公开的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要的混淆本发明公开的概念。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明公开的上下文中，当将一层/元件称作位于另一层/元件“上”时，该层/元件可以直接位于该另一层/元件上，或者它们之间可以存在居中层/元件。另外，如果在一种朝向中一层/元件位于另一层/元件“上”，那么当调转朝向时，该层/元件可以位于该另一层/元件“下”。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

参见图1，本发明基于语义增强与多层次标签嵌入的短文本分类方法，提出了语义增强文本表示，利用传统的文本表示方法扩充预训练模型的文本编码信息，达到字和词语的语义融合，从而解决了词嵌入模块语义表达不充分的问题；配合多尺度CNN和双向GRU模块加强文本的高级、深度语义表示，进一步加强了短文本的文本编码，此外，替换传统one-hot标签表示方式，将分类标签向量化，利用其包含的语义信息，在词语级和句子级分别对文本表示进行过滤与辅助分类决策，提升了短文本分类的性能。

本发明构建了三个模块：

模块1：利用预训练模型对短文本中的字符进行上下文的嵌入，同时对短文本中的词语进行向量表示，将词语的向量表示加入到对应的字符表示中，从而解决了传统文本嵌入表示维度特征单一的问题，使得文本在嵌入阶段能够有效的表示短文本的原始语义，本发明提出了一种文本语义增强模块，从而获取更加完整的短文本语义表示。

模块2：提出了一种基于多维度特征融合网络的特征提取表示方法，首先利用双向循环神经网络的变种提取文本的序列信息；其次引入了图像领域的Inception网络结构，为了更好的适应中文短文本的特征，改进了多尺度卷积神经网络结构，最后将局部特征和序列特征进行融合作为文本的向量表示。

模块3：标签作为分类的强语义信息，在不同的阶段可以发挥不同的作用。本发明提出了多层次标签嵌入模块，即在词语级和句子级分别对文本表示进行过滤与辅助分类决策。

具体短文本分类方法，包括以下步骤：

阶段0：数据预处理与标记

步骤0：利用词典将短文本数据分为词语序列和字符序列，并给出对应的标签。标签的具体定义如下：

给定一条短文本数据，其词语和字符表示分别为Sentence_char＝{c₁,c₂,…,c_n}和Sentence_word＝{w₁,w₂,…,w_m}，n和m分别表示句子中字和词的个数。所有的分类标签定义为Label＝{l₁,l₂,…,l_num}，其中num表示分类的数目。

阶段1：预训练模型领域适应

步骤2：在BERT模型的基础上，继续采用遮挡语言建模(Masked Language Model)和上下文预测建模(Next Sentence Prediction)在领域语料中进行微调，使模型具有领域特征。

阶段2：文本语义增强

步骤3：采用领域适应后的多层语言模型作为字符嵌入的工具，利用传统的文本嵌入方法(GloVe)作为词语嵌入的工具，分别获取短文本的字符和词语向量表示如下：

将领域适应后的预训练模型映射为

将传统的文本嵌入方法映射为

其所生成的嵌入分别可以表示为：

步骤4：将词语表示填充到对应字符表示中，表示为：

其中，“+”表示拼接操作。

步骤5：将生成的语义增强嵌入表示作为下一个模块的输入，执行步骤7；

阶段3：多尺度与多维度的特征提取和多层次标签嵌入

步骤6：对分类标签通过传统文本嵌入方法(GloVe)生成标签嵌入表示使得标签具有语义信息，充分发挥它是强语义引导作用，表示为：

步骤7：字符级标签嵌入：通过计算标签--字符对的余弦相似度，可以得到标签--字符对的相似度表示矩阵：

其中，M_{weight_char}表示字向量相对于每个标签的权重矩阵，

将权重矩阵的每一行相加，得到字的权重：

α＝[α₁,α₂,…,α_n] (8)

其中，α_i是第i个字符的权重，α表示每个字符对应的权重组成的向量。对此向量通过公式(9)进行归一化：

将归一化后的权重作用到对应的字符向量表示中：

其中，

表示对应元素相乘。

步骤8：将文本嵌入表示输入到循环神经网络的变体Bi-GRU模型中，获取初步的句子向量表示，表示如下：

其中，“:”表示向量拼接操作，

分别表示Bi-GRU的前向传播模型和反向传播模型所进行的拼接操作，并取最终的隐藏层状态作为句子向量的表示。

步骤9：在短文本分类表示中，句子的某些关键词可能起到决定性的作用，而Bi-GRU只提取了句子的序列特征。为了提取句子的局部特征提取，本发明借助了图像领域Inception网络的思想，设置了多尺度卷积神经网络。网络中设置了三组大小不同的卷积核，第一组由两个1*1的卷积核组成；第二组由一个1*1和3*3的卷积核组成；第三个有一个1*1和两个3*3的卷积核组成。在每个卷积操作之后加入了ReLU激活函数，并采用Dropout防止网络过拟合，计算如下：

其中，ws表示卷积窗口的大小，n表示句子字符的长度，l_i+j表示卷积窗口内的词，w_j和b_i表示卷积操作的参数，h^ws表示经过ws大小卷积核的卷积操作之后的句子表示。

v_cnn＝[h¹:h³:h⁵] (13)

其中，hⁱ表示大小为i的卷积核获取的句子输出，v_cnn表示局部特征句子向量。

v_{abstract_sent}＝[v_cnn:v_{output_gru}] (14)

其中，v_{abstract_sent}是最终的句子表示，“:”为向量拼接操作。

步骤10：句子级标签嵌入，通过计算标签和句子的相似度获取当前句子属于此类别的相似度得分。

标签对应的向量表示和句子表示的相似度计算如下：

其中，“·”表示矩阵乘法，

是句子向量表示的转置，在此对它进行了归一化。

其次将句子表示输入到前馈神经网络中，也可以得到句子对于每个类别的概率值：

v_{similarity_NN}＝ReLU(W·v_{abstract_sent}+b) (16)

v_similarity＝(μ·v_{similarity_embedding}+v_{similarity_NN}) (17)

其中，μ表示两种预测值的调和权重，

是预测标签。

进一步，由于短文本分类的分类结果是离散型的，因此，本发明使用多标签交叉熵损失函数来更新网络的参数，多标签交叉熵损失函数如下：

是预测的分类标签，θ是网络中所有的训练参数。

通过交叉熵刻画模型的预测值和真实值之间的差距，利用随机梯度下降算法，优化和调整模型参数。

本发明在新闻标题分类数据集上进行了实验，与基础的文本分类模型如CNN、LSTM等以及基于这些模型的改进模型进行了对比，证实了本发明的语义增强与多层次标签嵌入模型(SEMLE)性能达到最优(如表1所示)；并从组件分离角度验证了本发明每个组件性能的有效性(实验结果如表2所示)。

表1实验性能

表2组件分离性能

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。