CN113626589A

CN113626589A - 一种基于混合注意力机制的多标签文本分类方法

Info

Publication number: CN113626589A
Application number: CN202110676123.7A
Authority: CN
Inventors: 李建平; 王青松; 陈强强; 贺喜; 李天凯; 蒋涛
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2021-11-09
Anticipated expiration: 2041-06-18
Also published as: CN113626589B

Abstract

本发明公开了一种基于混合注意力机制的多标签文本分类方法，包括：S1、构建基于混合注意力机制的多标签分类模型；S2、将待分类的文本输入到多标签分类模型中；S3、在多标签分类模型中，依次对输入文本进行词嵌入、编码处理、并行提取输入文本对应的与文本自身内容相关的文本特征表示及与标签相关的文本特征表示、文本特征表示融合及标签关系挖掘；S4、基于标签挖掘关系挖掘结果和融合文本特征表示，获得多标签文本分类结果。该方法能够得到针对每个标签的文本特征表示，同时也使用了自注意力机制提取文本自身的特征，式文本序列中每个词都可以和序列中任意距离的单词建立联系，解决了CNN和RNN对于长距离依赖建模能力的问题。

Description

一种基于混合注意力机制的多标签文本分类方法

技术领域

本发明属于文本分类技术领域，具体涉及一种基于混合注意力机制的多标签文本分类方法。

背景技术

随着移动设备的普及和信息技术的快速发展，互联网以前所未有的态势迅猛发展，以微博、淘宝、微信和知乎等为代表的互联网应用每天产生的海量数据达到了令人咋舌的地步，当前人类已经进入了大数据时代。其中文本作为人类世界重要的信息记录方式，现今，以邮件、聊天记录、评论等各种各样的文本形式存在于互联网中。这些文本大多是非结构化文本，具有内容杂乱、结构复杂的特点，传统的及时雨建立规则的文本分类方法已经无法高效地处理这些信息。如今我们所面对的问题不再是如何获得足够的信息，而是如何从如此庞大的信息中提取出有效信息，因此，研究一种能够将稳步自动分类的技术成为首要任务。

文本分类的目标是寻找和文档对应的标签，依照文档对应的标签数量可以把文本分类分成单标签文本分类和多标签文本分类。单标签文本分类任务分类粒度粗糙、分类角度单一，文档只归属于一个标签，而现实生活中文本内容丰富往往具有多个标签，用单标签文本分类的方法性能往往不高，已经不能满足实际工作的需求。因此，为了提高文本分类任务的性能表现、应用价值和用户体验，多标签文本分类任务获得了各界极大的关注度。多标签文本分类的目标是找到与文本对应的一个或多个标签类别，在QA问答任务中，当用户提出问题时，问答任务系统需要找出关于用户问题的所有候选答案，这本质也是个文本分类问题。在情感分析任务中，平台应用需要从电影评论，产品评论或者社交应用评论等文本信息分析出用户的情绪从而改善自己的服务，总体来说情感分析就是一个分类任务。新闻分类任务中，新闻分类系统根据新闻文本来识别新闻主题，然后根据用户的偏好将相关的新闻主题推送给用户从而提升自己的服务质量。可见，作为自然语言处理领域中的一项基础性工作，多标签文本分类在纵多领域有广泛的应用，研究出一种准确高效的多标签文本技术将大大提高人们的生活质量。

相比与单标签分类，多标签分类方法可以更好地适用于实际生活中，符合客观对象的特征和规律。但是多标签文本分类的难度远大于单标签文本分类，多标签文本中，标签组合呈指数增长趋势，利用现有的单标签分类算法来进行多标签分类不但分类性能低下，训练成本过大也是个非常棘手的问题。标签间存在着共存、包含等复杂的关系，如果模型能挖掘出标签间的相关性，那么模型无论是训练成本还是分类性都将获得很大提升。其次，多标签样本存在类别不平衡的问题，即数据集分布不均匀，分类模型可能会因为部分标签没有足够的样本而导致预测时的失败。最后，针对多个标签如果能从含有复杂语义的文本中挖掘出针对不同标签的特定特征将大大提升模型分类效果。基于以上存在的问题，如何利用深度学习技术研究出更准确高效的模型，对提高文本多标签分类的分类效果有极大的研究价值。

发明内容

针对现有技术中的上述不足，本发明提供的基于深度学习的多标签文本分类方法解决了现有的文本分类方法中，分类效果不理想的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于混合注意力机制的多标签文本分类方法，包括以下步骤：

S1、构建基于混合注意力机制的多标签分类模型；

S2、将待分类的文本输入到多标签分类模型中；

S3、在多标签分类模型中，依次对输入文本进行词嵌入、编码处理、并行提取输入文本对应的与文本自身内容相关的文本特征表示及与标签相关的文本特征表示、文本特征表示融合及标签关系挖掘；

S4、基于标签挖掘关系挖掘结果和融合文本特征表示，获得多标签文本分类结果。

进一步地，所述步骤S1中的多标签分类模型包括词嵌入模块、编码模块、基于标签信息的注意力机制文本表示模块、基于自注意力机制的文本表示模块、特征融合模块、向量回归层和关系网络层；

其中，所述基于标签信息的注意力机制文本表示模块和基于自注意力机制的文本表示模块对输入数据并行处理，并将处理结果一并输入至全连接层。

进一步地，所述步骤S3中，通过次嵌入模块对输入文本进行词嵌入处理，词嵌入处理方法具体为：

A1、获得标签和文本词汇的嵌入表示；

A2、基于获得的嵌入表示，通过词嵌入矩阵和标签嵌入矩阵将文本中的单词{x₁,x₂,...,x_n}转换为词向量表示{w₁,w₂,...,w_n}。

进一步地，所述步骤S3中，通过编码模块对词向量表示{w₁,w₂,...,w_n}进行编码处理，编码处理方法具体为：

使用双向LSTM对文本的词向量表示{w₁,w₂,...,w_n}进行编码，生成具有上下文语义信息的隐含表示{h₁,h₂,...,h_n}。

进一步地，所述步骤S3中，通过基于标签信息的注意力机制文本表示模块提取输入文本对应的与标签相关的文本特征表示，提取方法具体为：

B1、计算标签嵌入矩阵和词嵌入矩阵的相似度，获得标签和文本单词之间的相关性；

B2、基于标签和文本单词之间的相关性，计算出文本中所有单词对应各标签的相关系数作为每个单词预测的重要程度；

B3、基于每个单词预测的重要程度，对隐含表示{h₁,h₂,...,h_n}进行加权求和，获得与标签相关的文本特征表示U＝{u₁，u₂，…,u_k}。

进一步地，通过基于自注意力机制的文本表示模块提取与文本自身内容相关的文本特征表示，提取方法具体为：

C1、计算文本单词中每个单词关于文本各特征的相关系数；

C2、基于各个相关系数，将多种单词对应的隐含表示{h₁,h₂,...,h_n}进行组合，获得与自身文本相关的文本特征表示C＝{c₁，c₂，…,c_k}。

进一步地，所述步骤S3中通过关系网络对文本特征表示U＝{u₁，u₂，…,u_k}和 C＝{c₁，c₂，…,c_k}中的标签关系进行挖掘，挖掘方法具体为：

T1、将特征融合模块对文本特征表示U＝{u₁，u₂，…,u_k}和C＝{c₁，c₂，…,c_k}进行融合获得的融合特征表示M＝{m₁，m₂，…,m_k}输入到全连接层，得到每标签对应的 logits向量O＝{o₁，o₂，…,o_k}；

T2、将logits向量O＝{o₁，o₂，…,o_k}输入到关系网络中，获得具有标签相关性的预测向量y。

进一步地，所述关系网络为残差网络，包括任意个CorNet块。

进一步地，所述步骤S4具体为：

S41、基于预测向量y，使用sigmoid函数获得标签的分布概率；

S42、基于标签的分布概率和融合文本特征表示，获得多标签文本分类结果。

本发明的有益效果为：

(1)本发明针对传统的多标签学习方法存在的文本特征提取不够充分以及没有考虑标签相关性的问题，提出了基于标签信息的标签注意力机制，该方法能够得到针对每个标签的文本特征表示，同时也使用了自注意力机制提取文本自身的特征，使用这种方法文本序列中每个词都可以和序列中任意距离的单词建立联系，在一定程度上可以解决CNN和RNN对于长距离依赖建模能力的问题。

(2)为了得到标签之间的相关性，本发明在模型中加入了一层关系网络，基于该网络强大的表征能力，原始标签预测向量输入该网络后能得到标签相关性的预测向量。

附图说明

图1为本发明提供的基于混合注意力机制的多标签文本分类方法流程图。

图2为本发明提供多标签分类模型结构示意图。

图3为本发明提供的单标签和多标签文本分类对比示意图。

图4为本发明提供的双向循环神经网络编码结构示意图。

图5为本发明提供的标签注意力机制计算过程示意图。

图6为本发明提供的自注意力机制计算过程示意图。

图7为本发明提供的CorNet块的结构示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

为了获得更全面的文本特征表示，本发明提出的模型使用了一种融合标签注意力机制和自注意力机制的方法。由于预测时有的标签只需挖掘出文本的局部特征就能预测，而有的标签则需要挖掘出文本的全局特征才能预测出来。因此，本发明使用了自注意力机制来提取文本特征，同时，考虑到标签对于文本特征表示的重要性，使用了标签注意力机制获得与特定标签信息相关的文本特征，同时在本模型还考虑了标签间的相关性问题，在模型预测层中加入关系网络，该网络是一种残差网络将标签预测向量输入关系网络后能得到更准确的表示进而达到更好的分类效果。

基于此，本发明提供的基于混合注意力机制的多标签文本分类方法，如图1 所示，包括以下步骤：

S1、构建基于混合注意力机制的多标签分类模型；

S2、将待分类的文本输入到多标签分类模型中；

如图2所示，步骤S1中的多标签分类模型包括词嵌入模块、编码模块、基于标签信息的注意力机制文本表示模块、基于自注意力机制的文本表示模块、特征融合模块、向量回归层和关系网络层；

基于图2中的网络结构，上述步骤S3中，通过次嵌入模块对输入文本进行词嵌入处理，词嵌入处理方法具体为：

A1、获得标签和文本词汇的嵌入表示；

具体地，在训练测试模型的过程中，我们首先需要把文本中的单词表示成计算机适合处理的方式，一般单词都要转换为词向量的形式，这是文本分类任务的基础工作，通常在大型语料库上进行预训练，将得到的结果生成词向量表示，然后针对不同的任务进行调整优化。本发明采用300d-Glove方法将每个单词转化为对应的词向量形式，将这些词向量组合得到词嵌入矩阵V，图3中 {x₁,x₂,...,x_n}是文本单词的独热向量，每个单词可以按照下公式转化为词向量的形式w_i：

w_i＝V^d×|v|x_i (1)

其中，d是词嵌入矩阵V的维度，|v|是词汇表中词汇的数量

对于标签嵌入矩阵C，如果数据集中标签就是词汇表中的单词，那么该标签的嵌入表示可以直接用该单词的词向量表示，否则将该标签初始化为服从标准高斯分布中抽取的随机样本。对于标签控件L中的k个标签{l₁,l₂,...,l_k}中的标签，按照下式可以转化为标签嵌入表示向量e_i的形式；

e_i＝C^d×|L|l_i (2)

其中，d为标签嵌入矩阵的维度，|L|为标签空间中标签的数量，l_i为标签的独热表示向量。

上述步骤S3中，通过编码模块对词向量表示{w₁,w₂,...,w_n}进行编码处理，编码处理方法具体为：

具体地，得到文本词向量后，需要对其编码获得单词间的联系，本发明中采用了双向长短是记忆网络(Bi-LSTM)进行上下文信息提取，将文本中的词向量编码成含有上下文语义信息的隐层向量。LSTM模型是单向传播的，无法获取单词的下文信息，但是在文本分类问题中当前时刻的输出不仅和上文有关，还和下文有密不可分的关系，而Bi-LSTM将每一个文本序列分为正向和反向两种方式训练两个循环神经网络，正向序列和反向序列经过训练后得到序列中每个单词的前后文相关的语义信息，因此通过Bi-LSTM模型得到的序列表示真正做到了考虑上下文语义信息，其丰富的特征表示更有利于文本分类。Bi-LSTM 的编码方法如图4所示，其中文本中每个单词x_i的前向隐状态和后向隐状态的计算公式如(3)所示，和

均为长度为u的向量。

将得到单词的前向隐含表示

和后向表示

后进行拼接得到本模型最终的隐状态表示

h_i是长度为2u的向量表示以单词x_i为中心产生的文本序列信息。经过Bi-LSTM编码后，最终我们得到文本序列的上下文特征表示矩阵H＝{h₁,h₂,...,h_n}，矩阵H是大小为n×2u的矩阵。

上述步骤S3中，通过基于标签信息的注意力机制文本表示模块提取输入文本对应的与标签相关的文本特征表示，提取方法具体为：

具体地，基于标签的注意力机制文本表示模块，计算过程如图5所示，前面已经介绍了词嵌入矩阵

和标签嵌入矩阵

现在计算着两个矩阵的余弦相似度得到相似矩阵，计算方式如公式(4)所示：

其中，

为大小为k×n的归一化矩阵，

中每个元素是g_ij，标签嵌入矩阵第个标签嵌入向量和词嵌入矩阵第j个词向量的L₂范数乘积，计算方式如公式(5) 所示：

g_ij＝||C_i||·||V_i|| (5)

其中，余弦相似度矩阵G中的元素g_ij表示文本第个单词对预测第i个标签时的重要程度，因此矩阵G的行向量g_i就表示了文本中这n各单词对预测标签i时的重要程度。

为了能更好的捕捉文本中相邻单词的空间信息，本实施例中通过构造文本中所有单词为中心的长度为2r+1的短语序列来更好的计算单词和标签之间的相似度。假设现在构造以第j个单词为中心的短语序列，我们取G的子矩阵G_j-r:j+r，该矩阵表示以j为中心，长度为2r+1的短语序列，得到所有已输入文本序列单词为中心的n个子矩阵后，对其进行非线性变换得到标签和短语序列之间的相似度，其中以第1个单词为中心的短语序列和标签的相似度计算方式如公式(6) 所示：

u_l＝RELU(G_l-r:l+rW_q1+b_q1) (6)

其中，

矩阵W_q1和偏置向量b_q1是需要学习的参数，u_l中每个元素u_lj表示该短语序列的中心单词对第j个标签的相关程度，计算完这n个短语的相似度后便能得到最终的相似度矩阵B＝[u₁,u₂,...,u_n]，其中矩阵B的元素表示了文本序列中第j个单词对预测标签i时的重要程度。接着对矩阵B的行向量使用Softmax 函数进行归一化处理得到标准化权重向量，计算公式如式(7)所示：

a_i＝softmax(b_i) (7)

其中，

a_i的第j个元素a_ij的计算公式如下：

最终，得到关于k个标签的文本表示

其中，第i个标签的文本表示向量u_i的计算方式如下：

其中，h_t是编码层的单词隐含表示向量。

上述步骤S3中，通过基于自注意力机制的文本表示模块提取与文本自身内容相关的文本特征表示，提取方法具体为：

C1、计算文本单词中每个单词关于文本各特征的相关系数；

具体地，本实施例采用自注意力机制计算方法，计算过程如图6所示：

该方法在Bi-LSTM的隐藏层通过计算多种关于隐含编码向量的线性组合，获取文本的全局特征和局部特征。这种计算方法不仅减少了Bi-LSTM长记忆的负担同时能提取文本不同方面的信息构成多个向量表示用于预测不同的标签。自注意力机制的计算方式如公式(10)所示：

a＝softmax(w_s2tanh(W_s1H^T)) (10)

其中，

是模型经过编码层Bi-LSTM处理的隐含表示矩阵，

是权重矩阵，w_s2是大小为d_a的参数向量，d_a为超参数。经过softmax 函数归一化处理后得到标准的注意力权重向量a。接着便可将LSTM隐藏层表示矩阵和权重向量a进行加权得到文本向量表示c_i，计算方法如式(11)所示：

一个向量的表示通常聚焦于句子中某个特定的特征，该特征和标签集种某个标签有很大的相关性。但是一个句子中可能有多个不同的语义成分，特别是长句子，为了得预测出文本的所有标签，我们应该挖掘出文本的所有特征，因此需要多个文本表示向量来聚焦文本句子中不同的部分，所以我们将向量w_s2扩展为矩阵W_s2，这样文本中的所有特征就都能得到表示，至此便得到了最终得自注意力权重矩阵A，计算方法如公式(12)所示：

A＝softmax(W_s2 tanh(W_s1H^T)) (12)

其中，

k为数据集中标签的数量，softmax函数作用在自注意力权重矩阵A的第二个维度上，得到矩阵A后便计算Bi-LSTM的隐藏层表示向量加权组合得到文本表示

计算公式如(13)所示：

C＝AH (13)

上述步骤S3中，对文本特征进行融合的过程为：基于前面获得两种文本表示U和C，前者关注文本和标签之间的联系文本，而后者则关注文本自身内容，本实施例提出了一种自适应的融合策略，从这两种文本表示种抽取相应的信息来构建相关特定标签的文本内容表示。我们通过公式15,16计算出两种文本表示对最终文本表示M的权重系数，计算方法如公式(14)，(15)所示。

α＝sigmoid(UW₁) (14)

β＝sigmoid(CW₂) (15)

其中，

是需要训练的参数向量，α,β∈R^k，α_j表示基于自注意力机制的文本表示对预测第j个标签的重要性，β_j表示基于标签注意力机制的文本表示对预测第j个标签的重要程度。我们对α,β做归一化处理，使得α_j和β_j的和为1，最终获得第j标签的文本表示o_j，其计算公式如式(16)所示：

m_j＝α_jU_j+β_jC_j (16)

按上述方法我们得到用于模型分类器的文本表示矩阵

接着我们使用该特征表示矩阵输入全连接层和输出层获得标签预测logits向量o, 其计算方式如公式3-18所示。

o＝w₄RELU(W₃M^T) (17)

其中，

是全连接参数，w₄是需要训练的长度为t的向量。

上述步骤S3，本发明在模型最后一层加入关系网络(Correlation Networks，CorNet)获得标签间的相关性，从而提升模型的分类效果。关系网络是一个残差网络，一个独立的模块可以加入任何一个多标签分类模型中，而不需要更改原有的模型结构。CorNet模型可以由多个CorNet块组成，CorNet块能获得标签间的相关性从而将原始的标签预测向量映射到新的更准确的标签预测向量，这个新的标签预测向量具有标签相关性，CorNet块的结构如图7所示；

基于此，本实施例中通过关系网络对文本特征表示U＝{u₁，u₂，…,u_k}和 C＝{c₁，c₂，…,c_k}中的标签关系进行挖掘，挖掘方法具体为：

具体地，O就是原始标签预测向量，F是一个映射函数，该函数可以学习到标签之间的相关性生成标签预测向量F(o)，考虑到如果数据集中标签数量太多计算成本太大而导致模型无法训练的问题，本实施例在关系网络中加入了瓶颈层以减少训练量，函数F是CorNet块最重要的部分，该函数的定义如下：

F(o)＝W₆δ(W₅σ(o)+b₁)+b₂ (18)

其中，

是需要训练的参数矩阵，b₁,b₂都是偏置向量，σ,δ分别是sigmoid函数和RELU，最后将新的带有标签相关性的向量和原始输入向量融合得到新的标签预测向量y＝F(o)+x。

关系网络模型可以由任意个CorNet块组成，也就是每个CorNet块生成的标签预测向量可以作为下个CorNet块的输入向量。CorNet块数的增加模型可以捕获更复杂的标签相关性，分类的效果也会越好。

经过关系网络模块后得到了具有标签间相关性的预测向量y，接着便使用sigmoid函数得到标签的概率。本模型使用最小化二元交叉熵(Binary cross entropy，BCE)损失函数来训练本文的模型，计算方法如公式如(19)：

其中，

表示样本空间中样本y_i是否属于第j个标签的真实值，

表示模型预测x_i概率第j个标签的概率。

本实施例的步骤S4具体为：

S41、基于预测向量y，使用sigmoid函数获得标签的分布概率；

Claims

1.一种基于混合注意力机制的多标签文本分类方法，其特征在于，包括以下步骤：

S1、构建基于混合注意力机制的多标签分类模型；

S2、将待分类的文本输入到多标签分类模型中；

2.根据权利要求1所述的基于混合注意力机制的多标签文本分类方法，其特征在于，所述步骤S1中的多标签分类模型包括词嵌入模块、编码模块、基于标签信息的注意力机制文本表示模块、基于自注意力机制的文本表示模块、特征融合模块、向量回归层和关系网络层；

3.根据权利要求2所述的基于混合注意力机制的多标签文本分类方法，其特征在于，所述步骤S3中，通过次嵌入模块对输入文本进行词嵌入处理，词嵌入处理方法具体为：

A1、获得标签和文本词汇的嵌入表示；

4.根据权利要求3所述的基于混合注意力机制的多标签文本分类方法，其特征在于，所述步骤S3中，通过编码模块对词向量表示{w₁,w₂,...,w_n}进行编码处理，编码处理方法具体为：

5.根据权利要求4所述的基于混合注意力机制的多标签文本分类方法，其特征在于，所述步骤S3中，通过基于标签信息的注意力机制文本表示模块提取输入文本对应的与标签相关的文本特征表示，提取方法具体为：

B3、基于每个单词预测的重要程度，对隐含表示{h₁,h₂,...,h_n}进行加权求和，获得与标签相关的文本特征表示U＝{u₁，u₂，...,u_k}。

6.根据权利要求4所述的基于混合注意力机制的多标签文本分类方法，其特征在于，通过基于自注意力机制的文本表示模块提取与文本自身内容相关的文本特征表示，提取方法具体为：

C1、计算文本单词中每个单词关于文本各特征的相关系数；

C2、基于各个相关系数，将多种单词对应的隐含表示{h₁,h₂,...,h_n}进行组合，获得与自身文本相关的文本特征表示C＝{c₁，c₂，...,c_k}。

7.根据权利要求4所述的基于混合注意力机制的多标签文本分类方法，其特征在于，所述步骤S3中通过关系网络对文本特征表示U＝{u₁，u₂，...,u_k}和C＝{c₁，c₂，...,c_k}中的标签关系进行挖掘，挖掘方法具体为：

T1、将特征融合模块对文本特征表示U＝{u₁，u₂，...,u_k}和C＝{c₁，c₂，...,c_k}进行融合获得的融合特征表示M＝{m₁，m₂，...,m_k}输入到全连接层，得到每标签对应的logits向量O＝{o₁，o₂，...,o_k}；

T2、将logits向量O＝{o₁，o₂，...,o_k}输入到关系网络中，获得具有标签相关性的预测向量y。

8.根据权利要求7所述的基于混合注意力机制的多标签文本分类方法，其特征在于，所述关系网络为残差网络，包括任意个CorNet块。

9.根据权利要求7所述的基于混合注意力机制的多标签文本分类方法，其特征在于，所述步骤S4具体为：

S41、基于预测向量y，使用sigmoid函数获得标签的分布概率；