CN115221325A

CN115221325A - 一种基于标签语义学习和注意力调整机制的文本分类方法

Info

Publication number: CN115221325A
Application number: CN202210877997.3A
Authority: CN
Inventors: 薛非; 李晓松; 高强; 赵彦飞; 刘奇林
Original assignee: Military Science Information Research Center Of Military Academy Of Chinese Pla
Current assignee: Military Science Information Research Center Of Military Academy Of Chinese Pla
Priority date: 2022-07-25
Filing date: 2022-07-25
Publication date: 2022-10-21

Abstract

本发明公开了一种基于标签语义学习和注意力调整机制的文本分类方法，所述文本分类方法主要包括以下步骤：对文本数据进行预处理，提取文本语义特征，文本标签图嵌入，使用多头调节注意机制来衡量词与标签之间的语义关系，然后多语义整合融合和网络训练，由此可实现多标签文本分类，对模型进行训练，然后使用训练后的模型预测一段文本的类别。本发明提出一种多头调整注意的混合BERT模型用于多标签文本分类框架，可以有效地从文本内容中提取有用的特征，并建立标签和单词之间的语义联系，获得特定于标签的单词表示，由此提高多标签文本分类性能。

Description

一种基于标签语义学习和注意力调整机制的文本分类方法

技术领域

本发明涉及文本多标签分类方法，尤其涉及一种基于标签语义学习和注意力调整机制的文本分类方法。

背景技术

互联网和社交媒体的快速发展使得微信、微博和博客已经成为人们生活的一部分，传递出人们内心的各种情绪和情感状态，记录着人们生活的点点滴滴。网络上积累了大量的包含各种信息的文本数据，对这些文本数据进行分类处理不仅具有重要的现实意义，而且还具有很高的商业价值。因而，如何有效分析这些大规模的社交文本数据，以方便帮助人们更加有效的分析出自己需要的信息成为当下的一个热点问题。在社交媒体上，单纯的关键词提取已经无法满足用户的需求。因为社交媒体数据固有的特点，使得特征词提取的结果往往会出现很多毫无意义的词汇，像是一些垃圾信息或是与主题不符的信息。根据调查显示，在Twitter数据中，大约含有40％的垃圾信息，对此，一项文本处理领域的技术可以对这一问题进行解决——文本分类技术。文本分类技术可以有效地对垃圾信息进行区分，也可以根据不同主题对信息进行区分。

文本分类一直是归纳整理文本，挖掘文本信息的重要技术手段。传统文本分类模型大多是面向单标签的文本分类，然而近年来随着网络文本种类逐渐变得越来越复杂，文本类别也从单一标签变得具有多种标签，比如一篇文章可以同时具有“计算机”和“医学”两种标签，在这种情况下，传统的单标签文本分类模型已经不能应对这种分类任务。因此，文本多标签分类已经成为当前自然语言处理领域研究的热点之一。多标签分类算法给一个样本分配多个标签，在推荐系统、舆情分析与情感分类等领域应用广泛，在样本的不同标签之间通常具有相关性，如何在建模过程中学习到标签之间的相关性，是一个巨大的挑战。在新闻文本分类中，标签之间的关系是层次化的。同时，各个标签与新闻文本不同部分的相关程度并不相同，标签与文本特征的融合需要针对性地建模。

目前，许多研究机构都以社交媒体中的文本数据为研究对象，目的是从海量的数据中挖掘出有用信息，如公众行为预测、医疗保健监测、股市分析与预测等。然而，社交媒体中的文本数据长度短、外部格式和内容上不规范等缺陷、垃圾信息数量庞大等缺陷，给文本的分类技术带来了新的挑战。为了克服这些问题，在文本分类技术的基础上，提取了更多更具代表性的外部格式特征，并将深度学习模型运用到社交媒体文本语义分析和分类中，克服了传统人工提取语义特征的诸多缺陷，因此分类效果更好。

多标签文本分类的任务是在给定的标签集合中选择与文本内容最相关的子集。经过数十年发展，多标签文本分类领域已经存在大量的研究，但是依然存在一些没有解决得很好问题。例如，从文本数据上讲，文本的不同部分与不同的标签相关程度并不相同，例如一条与“经济”与“文学艺术”同时相关的新闻，新闻的前半部分可能更倾向于经济，后半部分更倾向于文学艺术，它们的篇幅是不一致的。然而很少有算法在这个方向上进行针对性地建模。从标签的角度讲，标签之间存在联系，多标签分类的标签之间有明显的逻辑联系。因此，本发明对标签之间的依存关系进行建模，充分利用标签之间的联系提升多标签文本分类效果，具有很高的商业应用价值。

发明内容

本发明提供了一种基于标签语义学习和注意力调整机制的多标签文本分类方法，基于文本标签的多样性，针对标签和文本之间的语义联系，设计了一种新的注意调节机制，并提出了一种新的标签图谱构造方法来获取标签的内在结构和相关性，以建立标签和单词之间的语义联系，结合上下文环境感知特征和标签特征，对文本进行多标签分类。

本发明提供一种基于标签语义学习和注意力调整机制的文本分类方法，其特征在于，所述的文本分类方法包括以下步骤：

1)数据进行预处理，使用WordPiece分词器对文本进行分词并将所有字符小写,同时将每个文本表示为若干个tokens；对标签所有字符小写；

2)提取文本语义特征，对多标签文本数据分别进行编码得到相应的特征表示，对于数据中的文本，使用单词嵌入模块，将原始单词嵌入到低维向量中，可以得到文本语义特征；使用预训练的BERT模型计算每个单词的上下文感知表示，为不同上下文中的单词生成不同的嵌入词；BERT接受序列形式的输入，并输出序列的表示形式，得到最终文本的语义特征表示；

3)构造文本标签图嵌入，对每个文本对应的标签，利用标签图来反映标签结构，将每个标签视为一个节点，每个节点收集所有邻居的特征以形成其表示，每条边反映了节点之间的语义相关性，如果标签共存，就有一条边，最终得到一个低维的潜在空间中表示标签图；

4)使用多头注意力调节机制来衡量词与标签之间的语义关系，获得特定于标签的单词表示，并对文档中重要的细粒度语义信息进行加权；

5)多语义整合融合和网络训练，使用双向长短期记忆网络(Bi-LSTM)作为文档编码器，结合上下文感知特征和标签特殊词汇特征的混合表示被送入文档编码器进行分类，开始训练整个模型。

所述数据预处理的步骤具体为：对给定的文本内容进行单词嵌入，将一个单词拆分为字词，把词的本身的意思和前缀、后缀分开，使得最终的词表变得精简，得到包含k个单词的输入文档，记为[w₁,w₂,...,w_i,...,w_k],其中w_i指文本中的第i个单词。

所述的提取文本语义特征的步骤具体为：

设d是一个包含k个单词的输入文本，记为[w₁,w₂,...,w_i,...,w_k],其中w_i指文本中的第 i个单词，将文本d输入到BERT中，得到每个输入单词的上下文表示H＝[h₁,h₁,...,h_k]。

所述的标签图嵌入的步骤具体为：

定义标签图为g＝(V,E)，其节点v_i代表标签λ_i，边(v_i,v_j)∈E，A∈R^C×C为节点之间的邻接矩阵，D_ii＝∑_jA_ij为节点的度，邻接矩阵

表示任意两个节点之间的非负权值，通过数据驱动的方式建立这个邻接矩阵；首先，利用样本在训练集中的标签注释，计算所有标签对的出现次数，得到矩阵C∈R^C×C，通过使用这个标签共生矩阵，根据如下公式得到邻接矩阵A：

A＝A+I

其中C_ij表示标签λ_i和λ_j的同时出现，I是单位矩阵，表示每个节点都与它自己相连；构造了一个词-标签邻接矩阵B，构造方法如下：

B＝B+I

其中B_ij为w_i与λ_j的关系；B的C_ij表示样品中w_i和λ_j的共现，标签嵌入由标签共存图确定，并捕获由图结构定义的标签语义信息；

通过图神经网络传播信息，学习上下文标签嵌入，聚合所有邻近节点的值来更新当前节点；每个卷积层只处理一阶邻域信息；在低维潜在空间中表示标签，使图中两个相邻的标签具有相似的表示；对于每个节点v_i∈V，用一个one-hot 向量

初始化，标签嵌入可以表示为:

是标准化对称邻接矩阵,Θ∈R^C×C是一个可训练的权重,N(i)表示邻居节点个数,ρ是 ReLU激活函数，k设为2，实现标签嵌入集E＝[e₁,e₂,…,e_c]。

所述的多头调节注意的步骤具体为：

将单词空间投射到标签空间中，使用一个全连接层φ来重新编码字表示，其公式为:：

H^*＝φ(H)

H^*∈R^K×C,采用注意力操作计算目标词t与每个标签之间的注意得分，计算

和E之间的点积，其公式为:

使用softmax函数对I_t进行正则化，其公式为：

a_t＝softmax(I_t) (8)

所述调节注意分为两个阶段；第一阶段的任务是判断单词和标签之间的相关性，采用了 sigmoid函数进行判断；如果相关性得分小于阈值τ，则认为该单词与这些标签无关；

在第二阶段，用上述的softmax计算注意得分，使概率分布正常化；操作如下式所示：

a_t＝sigmoid(I_t)

然后，利用调整注意量对单词t的标签嵌入量进行加权平均，其公式为:

其中,

是特定标签的词表示,表示不同的标签具有可以区分的内在特征；最后，标签特殊的字序列可以表示为

所述多语义整合融合和网络训练的步骤具体为：

将嵌入的H和H^l通过级联合并，聚合两个方面的信息，公式如下所示：

其中

是最终的混合词嵌入，然后作为输入提供给文档编码器。

所述文档编码器为双向长短期记忆网络(Bi-LSTM)；所述Bi-LSTM通过正向和反向学习每个输入文本的单词嵌入，在t时刻，隐状态可以表示为:

使用最终隐藏状态h_k来代表整个文档；向分类器输入h_k来预测文档中每个标签的置信度得分；所述分类器由一个全连接层和一个sigmoid函数组成，公式如下所示:

其中

是全连接层的可训练参数；D是单词向量维数。

二进制分类损失作为多标签文本分类任务的损失函数，其公式为:

此外，进一步限定标签图的嵌入，使得相似的标签在标签语义空间中更接近，而非相邻的标签互斥，标签图嵌入的损失可表示为:

如上所述，将标签嵌入模块和注意模块视为一个聚类过程，要求标签特殊的词表示更接近其类别的中心；一种编码这种性质的方法是使余弦相似度Φ(e_i,e_j)接近所有i,j对应的边权值A_ij,因此，设计了另一个损失函数来衡量聚类的结果，可以表示为:

最后，将损失函数定义为:

L＝L_g+L_c+L_e。

用上述损失函数反向传播训练模型。

本发明提供的技术方案的有益效果是：

1、本发明的技术方案可以对多种类型标签组成的文本数据进行分类，而传统文本分类方法无法满足多标签分类。本发明提出的分类方法可以有效地提取文本本身和文本标签语义的特征，由此提高文本多标签分类的性能。

2、本发明设计了一种新的注意力调整机制，以衡量文本和标签之间的语义关系。注意力调整机制从文本和标签中学习到的注意力调整值，注意力调整值是对文档中重要的细粒度的语义信息的进一步强化表征和学习，以捕捉有用的标签特定信息并抑制噪音，从而提高对多标签文本的准确分类。

3、本发明通过利用标签和文本之间的语义关系，使得充分利用数据量获得准确的信息增益估计，提高分类模型性能。

附图说明

图1为一种基于标签语义学习和注意力调整机制的多标签文本分类方法的流程图；

图2为一种基于标签语义学习和注意力调整机制的多标签文本分类方法的详细说明图；

图3为利用BERT模型和Bi-LSTM提取文本语义特征的流程图。

具体实施方式

下面结合附图和实施例对本发明的技术方案进行详细地说明，应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。需要说明的是，在附图或说明书描述中，相似或相同的部分都使用相同的图号。附图中未绘示或描述的实现方式，为所属技术领域中普通技术人员所知的形式。另外，本文对某些参数给定了取值范围，而对某些参数给定了确切值，但应理解这些确切值是可在可接受的误差容限或设计约束内近似于相应的值。

实施例1

由于多标签文本分类是自然语言处理中的一项基本但具有挑战性的任务。在情感分析、意图识别、推荐系统等领域得到了广泛的应用。以往的研究通常将标签视为没有语义的符号，忽视了标签之间的关系，造成了信息的丢失。由于对标签语义进行建模可以提高多标签文本分类的效率，本发明提出一种基于标签语义学习和注意力调整机制的多标签文本分类方法，同时利用标签语义和细粒度文本信息，该方法包括以下步骤：

101：数据预处理，即对于任意文本及其标签，使用WordPiece分词器对文本进行分词并将所有字符小写,同时将每个文本表示为若干个tokens，该步骤旨在更好地表示文本内容。

102：提取文本语义特征：对于数据中的文本，首先使用单词嵌入模块，将原始单词嵌入到低维向量中，可以得到文本语义特征。然而，多义的挑战使得独立于上下文的词嵌入在分类任务中很困难。因此，本发明使用预训练的BERT模型计算每个单词的上下文感知表示，该模型基于一个多层双向Transformer模型，为不同上下文中的单词生成不同的嵌入词。BERT接受序列形式的输入，并输出序列的表示形式，得到最终文本的语义特征表示。

103：构造文本标签图嵌入：对于每个文本对应的标签，利用标签图来反映标签结构，这是一种灵活的方法来捕获标签空间中的拓扑。具体做法是将每个标签视为一个节点，每个节点收集所有邻居的特征以形成其表示。每条边反映了节点之间的语义相关性。如果标签共存，就有一条边，最终得到一个低维的潜在空间中表示标签图。

104：多头注意力调整机制来衡量词与标签之间的语义关系：使用多头调节注意机制来衡量词与标签之间的语义关系，获得特定于标签的单词表示，并对文档中重要的细粒度语义信息进行加权。

105：多语义整合融合和网络训练的步骤具体为：使用双向长短期记忆网络(Bi-LSTM) 作为文档编码器，然后将结合上下文感知特征和标签特殊词汇特征的混合表示被送入文档编码器进行分类，开始训练整个模型，进而实现多标签文本分类。

实施例2

下面结合具体的计算公式、实例对实施例1中的方案进行详细介绍，详见下文描述：

201：数据预处理：给定一个文本内容，需要对文本内容进行单词嵌入，由于单词存在时态、单复数等多种变化会导致词表非常大，影响训练速度，并且即使一个非常大的词表仍然无法处理未登录词。因此需要将一个单词拆分为字词，把词的本身的意思和前缀、后缀分开，使得最终的词表变得精简，得到包含k个单词的输入文档，记为 [w₁,w₂,…,w_i,...,w_k],其中w_i指文本中的第i个单词。

202：文本语义特征提取：设d是一个包含k个单词的输入文本，记为 [w₁,w₂,…,w_i,...,w_k],其中w_i指文本中的第i个单词，将文本d输入到BERT中，得到每个输入单词的上下文表示H＝[h₁,h₁,...,h_k]。

203：标签图嵌入的步骤具体为：定义标签图为g＝(V,E)，其节点v_i代表标签λ_i，边(v_i,v_j)∈E，A∈R^C×C为节点之间的邻接矩阵，D_ii＝∑_jA_ij为节点的度。邻接矩阵

表示任意两个节点之间的非负权值。通过数据驱动的方式建立这个邻接矩阵。首先，利用样本在训练集中的标签注释，计算所有标签对的出现次数，得到矩阵C∈R^C×C，通过使用这个标签共生矩阵，可以根据如下公式得到邻接矩阵A：

A＝A+I

其中C_ij表示标签λ_i和λ_j的同时出现，I是单位矩阵，意味着每个节点都与它自己相连。构造了一个词-标签邻接矩阵B，构造方法如下：

B＝B+I

其中B_ij为w_i与λ_j的关系。B的C_ij表示样品中w_i和λ_j的共现，标签嵌入由标签共存图确定，并捕获由图结构定义的标签语义信息。

引入GCN，通过图神经网络传播信息，学习上下文标签嵌入，GCN聚合所有邻近节点的值来更新当前节点。每个卷积层只处理一阶邻域信息。通过叠加多个卷积层，可以获得多阶邻域信息。目标是在低维潜在空间中表示标签，使图中两个相邻的标签具有相似的表示，而非相邻节点互斥。对于每个节点v_i∈V，首先用的一个one-hot向量

初始化。那么，标签嵌入可以表示为:

是标准化对称邻接矩阵,Θ∈R^C×C是一个可训练的权重,N(i)表示邻居节点个数,ρ是ReLU激活函数，本发明考虑两层GCN用于标签嵌入，这意味着k设为2，然后可以实现标签嵌入集E＝[e₁,e₂,…,e_c]。

204：多头注意力调节机制：为了使得文档的标签和单词级信息之间的语义关系进行显式地建模，提供给模型明确分类线索的细粒度文档信息的指导。本发明提出了一种创新注意机制——多头注意力调整机制，明确地计算出词与标签之间的语义关系，从单词标签学习的调整注意是对文档中重要的细粒度语义信息进行加权。

首先将单词空间投射到标签空间中。使用一个全连接层φ来重新编码字表示，其公式为:

H^*＝φ(H)

H^*∈R^K×C,采用注意力操作计算目标词t与每个标签之间的注意得分。一种简单的方法是计算

和E之间的点积，其公式为:

使用softmax函数对I_t进行正则化，其公式为:：

a_t＝softmax(I_t)

对于那些标签较少的文档，其他的标签可以被认为是多余的信息，在这种情况下，过滤掉不必要的信息起着相对重要的作用。为了细化分类线索，减轻文档内容的不相关性和冗余，本发明提出了基于多头注意力的注意力调整机制。该模型通过调整注意动态地将标签的权重分配给单词。

由于单词标记与类别标签的关联程度会影响他们的注意得分，因此调节注意可以分为两个阶段。第一阶段的任务是判断单词和标签之间的相关性，把这个任务看作是一个二元分类任务，因此采用了sigmoid函数。如果某些相关性得分小于阈值τ，则认为该单词与这些标签无关。

在第二阶段，用上述的softmax计算注意得分，使概率分布正常化。因此，减少了无关标签的权重，增大了相关标签的权重。

整体操作如下式所示：

a_t＝sigmoid(I_t)

然后，利用调整注意量对单词t的标签嵌入量进行加权平均。

其中,

是特定标签的词表示,它认为不同的标签具有可以区分的内在特征。最后，标签特殊的字序列可以表示为

标签图嵌入模块通过标签嵌入对标签图进行编码。注意模块和标签图嵌入模块的结合可以看作是聚类和聚合的过程。其目的是学习每个类的原型表示，然后基于它生成特定于标签的单词表示，这将聚合标签语义。

205：多语义整合融合：经过以上步骤，可以得到两种词的表示形式：H和H^l前者关注的是词语在语境中的意义，而后者关注的是词语与标签之间的语义关系。为简单起见，将嵌入的H和H^l通过级联合并，聚合两个方面的信息。公式如下所示：

其中

是最终的混合词嵌入，然后作为输入提供给文档编码器。

206：网络训练：使用双向长短期记忆网络(Bi-LSTM)作为文档编码器来生成文档表示。Bi-LSTM可以通过正向和反向学习每个输入文本的单词嵌入。在t时刻，隐状态可以表示为:

使用最终隐藏状态h_k来代表整个文档。最后，向分类器输入h_k来预测文档中每个标签的置信度得分。分类器由一个全连接层和一个sigmoid函数组成:

其中

是全连接层的可训练参数。D是单词向量维数。

与之前的研究相似，使用二进制分类损失作为MLTC任务的损失函数，其公式为:

此外，限制标签图的嵌入，使得相似的标签在标签语义空间中更接近，而非相邻的标签互斥。标签图嵌入的损失可表示为:

如上所述，将标签嵌入模块和注意模块视为一个聚类过程，这要求标签特殊的词表示更接近其类别的中心。一种编码这种性质的方法是使余弦相似度Φ(e_i,e_j)接近所有i,j对应的边权值A_ij。,因此，设计了另一个损失函数来衡量聚类的结果，可以表示为:

最后，将loss函数定义为:

L＝L_g+L_c+L_e

用上述损失反向传播训练模型。

综上所述，本发明实施例通过上述步骤201-步骤206实现了多标签文本分类方法，同时利用标签语义和细粒度文本信息。利用预先训练的BERT模型来计算文档的上下文感知表示，并且利用基于邻接相似度的标签图对标签图进行建模，然后利用GCN对标签图进行编码，捕获标签之间的结构信息和丰富的语义关联，利用多头调整注意力机制，明确地计算出词与标签之间的语义关系，对文档中重要的细粒度语义信息进行加权，并使用特征级联器融合词语在语境中的特征以及词语与标签之间特征。由此可实现多标签文本分类。基于以上所述，对模型进行训练，然后使用训练后的模型预测一段文本的类别。本发明提出一种多头调整注意的混合BERT模型用于多标签文本分类框架，可以有效地从文本内容中提取有用的特征，并建立标签和单词之间的语义联系，获得特定于标签的单词表示，由此提高多标签文本分类性能。

以上实施例仅用于说明本发明的技术方案，并非对本发明保护范围的限制，本领域的普通技术人员应当理解，任何对本发明的技术方案进行修改或者等同替换，均属于本发明技术方案的实质保护范围。

Claims

1.一种基于标签语义学习和注意力调整机制的文本分类方法，所述文本为多标签文本，其特征在于，所述文本分类方法包括以下步骤：

3)文本标签图嵌入，对每个文本对应的标签，利用标签图来反映标签结构，将每个标签视为一个节点，每个节点收集所有邻居的特征以形成其表示，每条边反映了节点之间的语义相关性，如果标签共存，就有一条边，最终得到一个低维的潜在空间中表示标签图；

5)多语义整合融合和网络训练，使用双向长短期记忆网络(Bi-LSTM)作为文档编码器，结合上下文感知特征和标签特殊词汇特征的混合表示被送入文档编码器进行分类，开始训练整个模型，实现多标签文本分类。

2.根据权利要求1所述的一种基于标签语义学习和注意力调整机制的文本分类方法，其特征在于，所述数据预处理的步骤具体为：

对给定的文本内容进行单词嵌入，将一句话分成若干个单词，并将单词拆分为子词，把词的本身的意思和前缀、后缀分开，使得最终的词表变得精简，得到包含k个单词的输入文档，记为[w₁,w₂,…,w_i,…,w_k],其中w_i指文本中的第i个单词。

3.根据权利要求1或2所述的一种基于标签语义学习和注意力调整机制的文本分类方法，其特征在于，所述提取文本语义特征的步骤具体为：

设d是一个包含k个单词的输入文本，记为[w₁,w₂,...,w_i,...,w_k],其中w_i指文本中的第i个单词，将文本d输入到BERT中，得到每个输入单词的上下文表示H＝[h₁,h₁,...,h_k]。

4.根据权利要求1或2所述的一种基于标签语义学习和注意力调整机制的文本分类方法，其特征在于，所述标签图嵌入的步骤具体为：

定义标签图为g＝(V,E)，其节点v_i代表标签λ_i，边(v_i,v_j)∈E，A∈R^C×C为节点之间的邻接矩阵，D_ii＝Σ_jA_ij为节点的度，邻接矩阵

A＝A+I

其中C_ij表示标签λ_i和λ_j的同时出现，I是单位矩阵，表示每个节点都与它自己相连；还构造了一个词-标签邻接矩阵B，方法如下：

B＝B+I

通过图神经网络传播信息，学习上下文标签嵌入，聚合所有邻近节点的值来更新当前节点；每个卷积层只处理一阶邻域信息；在低维潜在空间中表示标签，使图中两个相邻的标签具有相似的表示；对于每个节点v_i∈V，用一个one-hot向量

初始化，标签嵌入可以表示为:

是标准化对称邻接矩阵,Θ∈R^C×C是一个可训练的权重,N(i)表示邻居节点个数,ρ是ReLU激活函数，k设为2，实现标签嵌入集E＝[e₁,e₂,…,e_c]。

5.根据权利要求1-4任一所述的一种基于标签语义学习和注意力调整机制的文本分类方法，其特征在于，所述多头注意力调整机制具体为：

H^*＝φ(H)

H^*∈R^K×C,采用注意力操作计算目标词t与每个标签之间的注意得分，即计算

和E之间的点积，其公式为:

使用softmax函数对I_t进行正则化，其公式为：

a_t＝softmax(I_t)

所述调节注意分为两个阶段；第一阶段的任务是判断单词和标签之间的相关性，采用了sigmoid函数进行判断；如果相关性得分小于阈值τ，则认为该单词与这些标签无关；

a_t＝sigmoid(I_t)

其中,

6.根据权利要求5所述的一种基于标签语义学习和注意力调整机制的文本分类方法，其特征在于，所述多语义整合融合和网络训练的步骤具体为：

其中

是最终的混合词嵌入，然后作为输入提供给文档编码器。

7.根据权利要求5或6所述的一种基于标签语义学习和注意力调整机制的文本分类方法，其特征在于，所述文档编码器为双向长短期记忆网络(Bi-LSTM)；所述Bi-LSTM通过正向和反向学习每个输入文本的单词嵌入，在t时刻，隐状态可以表示为:

其中

是全连接层的可训练参数；D是单词向量维数。

8.根据权利要求7所述的一种基于标签语义学习和注意力调整机制的文本分类方法，其特征在于，二进制分类损失作为多标签文本分类任务的损失函数，其公式为:

所述标签图嵌入的损失可表示为:

将标签嵌入模块和注意模块视为一个聚类过程，要求标签特殊的词表示更接近其类别的中心；一种编码这种性质的方法是使余弦相似度Φ(e_i,e_j)接近所有i,j对应的边权值A_ij,设计一个损失函数来衡量聚类的结果，表示为:

最后，将损失函数定义为:

L＝L_g+L_c+L_e

用上述损失反向传播训练模型。