CN113220876A

CN113220876A - 一种用于英文文本的多标签分类方法及系统

Info

Publication number: CN113220876A
Application number: CN202110413713.0A
Authority: CN
Inventors: 刘方爱; 闫瑶瑶; 王泓顺
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2021-08-06
Anticipated expiration: 2041-04-16
Also published as: CN113220876B

Abstract

本公开提供了一种用于英文文本的多标签分类方法和系统，所述方案包括：对待分类的文本语句以及标签集合进行词嵌入向量表示，获得语句的词嵌入向量矩阵以及标签嵌入向量；利用预训练的栈式降噪自动编码器对所述词嵌入矩阵进行降维；基于注意力机制，利用标签嵌入向量对降维后的词嵌入矩阵进行加权；将加权后的词嵌入矩阵输入到预训练的LSTM模型中，最后利用SoftMax函数输出文本语句对应的分类标签。所述方案利用了标签嵌入，使模型更加关注标签之间和标签与文本之间的关系，然后通过堆叠降噪自动编码器进行降维，利用标签信息对降维后的词嵌入矩阵进行加权，最后将加权后的文本表示利用LSTM网络进行训练分类，有效提高了分类精度和效率。

Description

一种用于英文文本的多标签分类方法及系统

技术领域

本公开涉及文本数据处理领域，具体涉及一种用于英文文本的多标签分类方法和系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

随着互联网和人工智能技术的不断发展，信息量不断在增长。对这些信息进行有效的分类变得更加重要，然而通常一段文本不会单单属于一个类别，所以多标签分类问题比单标签分类更加贴合实际需要，例如一段投诉文本，可能同时说明了多个部门的不足，利用多标签分类可以及时准确进行分类。

在不同的多标签分类中，问题适应技术的分支得到了显著探索。一些著名的分类工具，如神经网络、支持向量机和决策树已经被用于进行高效的多标签分类。但其都未考虑标签对文本分类的重要性，对提取的特征质量有一定的影响。受注意力机制在计算机视觉领域的成功应用的启发，许多研究人员将注意力机制和长短期神经网络(LSTM)结合在一起用于多标签的分类并取得了一些提高。但是，发明人发现，现有文本分类方法中，采用LSTM虽然可以很好的捕捉英文文本上下文之间的依赖，但是，随着信息的爆炸式增长，数据维度不断提高，现有基于LSTM的分类方法无法准确提取英文文本的深层特征，导致在运算效率及分类精度上的不足。

发明内容

本公开为了解决上述问题，提供了一种用于英文文本的多标签分类的方法和系统，其利用了标签嵌入，使模型更加关注标签之间和标签与文本之间的关系，然后通过堆叠降噪自动编码器进行降维，利用标签信息对降维后的词嵌入矩阵进行加权，最后将加权后的文本表示利用LSTM网络进行训练分类，有效提高了分类精度和效率。

根据本公开实施例的第一个方面，提供了一种用于英文文本的多标签分类方法，包括：

对待分类的文本语句以及标签集合进行词嵌入向量表示，获得语句的词嵌入向量矩阵以及标签嵌入向量；

利用预训练的栈式降噪自动编码器对所述词嵌入矩阵进行降维；

基于注意力机制，利用标签嵌入向量对降维后的词嵌入矩阵进行加权；

将加权后的词嵌入矩阵输入到预训练的LSTM模型中，最后利用SoftMax函数输出文本语句对应的分类标签。

进一步的，所述栈式降噪自动编码器采用SDAE网络，包括两层DAE结构，其训练过程具体包括：在训练过程中对输入的词嵌入矩阵添加噪声，将上面一层网络的输出作为下面一层的输入，无监督逐层训练。

进一步的，所述每层自编码层单独进行非监督训练，以最小化输入与重构结果之间的误差为训练目标。

进一步的，所述基于注意力机制利用标签嵌入向量对降维后的词嵌入矩阵进行加权，具体为：计算标签集合中所有标签嵌入向量与文本短语中的词嵌入向量间的余弦相似性；基于所述余弦相似性，利用ReLU激活函数计算标签与文本短语的兼容性；利用SoftMax函数获得标签与文本短语之间的注意力得分；利用所述注意力得分对所述词嵌入矩阵进行加权。

进一步的，所述对待分类的文本语句以及标签集合进行词嵌入向量表示，具体包括，利用预训练的Glove模型将文本语句中的单词进行向量表示，获得语句的词嵌入向量矩阵；利用Glove模型对标签集合中的标签进行向量表示，获得标签嵌入向量。

根据本公开实施例的第二个方面，提供了一种用于英文文本的多标签分类系统，包括：

词嵌入单元，其用于对待分类的文本语句以及标签集合进行词嵌入向量表示，获得语句的词嵌入向量矩阵以及标签嵌入向量；

降维单元，其用于利用预训练的栈式降噪自动编码器对所述词嵌入矩阵进行降维；

数据加权单元，其用于基于注意力机制，利用标签嵌入向量对降维后的词嵌入矩阵进行加权；

多标签分类单元，其用于将加权后的词嵌入矩阵输入到预训练的LSTM模型中，最后利用SoftMax函数输出文本语句对应的分类标签。

根据本公开实施例的第三个方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，所述处理器执行所述程序时实现所述的一种用于英文文本的多标签分类方法。

根据本公开实施例的第四个方面，提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的一种用于英文文本的多标签分类方法。

与现有技术相比，本公开的有益效果是：

(1)本公开所述方案引入标签嵌入，使模型更加关注标签信息对文本特征表示的重要性，利用标签对词嵌入矩阵进行加权，有利于提取与标签更相关的特征表示。

(2)本公开所述方案采用栈式降噪自动编码器，可以降低计算复杂度，减少训练时间，使网络具有良好的调节能力，其稀疏性约束能够更好地提取英文文本的深层特征，降噪处理降低了噪声干扰，增强了算法的鲁棒性。

本公开附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例一中所述的英文文本的多标签分类方法流程图；

图2是本公开实施例一中所述的模型结构示意图；

图3是本公开实施例一中所述的的词向量和标签向量获取过程示意图；

图4是本公开实施例一中所述的栈式降噪自动编码器降维原理图；

图5是本公开实施例一中所述的长短期记忆网络工作原理图。

具体实施方式

下面结合附图与实施例对本公开做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例一：

本实施例的目的是提供一种用于英文文本的多标签分类方法。

一种用于英文文本的多标签分类方法，包括：

为了便于理解，以下结合附图对本公开所述方案进行详细说明：

具体的，如图1所示，本实施例的一种用于英文文本多标签分类的方法，包括：

S101：利用word2vec模型对待分类的文本语句以及标签集合进行词嵌入向量表示，获得语句的词嵌入向量矩阵以及标签嵌入向量；

对英文文本和标签进行预处理，本实施例中采用预训练的Glove模型获得英文文本和标签的词嵌入和标签嵌入。在具体实施中，如图3所示，根据语料库(corpus)构建一个共现矩阵(Co-ocurrence Matrix)，设共现矩阵为X，其元素为X_i,j，意义为在整个语料库中，单词i和单词j共同出现在一个窗口中的次数。Glove利用两个单词在上下文窗口的距离d，提出了一个衰减函数((decreasingweighting)：

用于计算权重，也就是说距离越远的两个单词所占总计数(total count)的权重越小。

利用

统计某一个单词和其他单词在文章中一共出现的次数。而某一单词i和单词k同时出现次数占单词i一共出现次数的概率，即单词k出现在单词i上下文的概率为：

利用

表示单词k和单词i，j之间的相关性，推广到词向量v_i，v_j和v_k之间的相关性：

构造词向量和共现矩阵之间的近似关系：

其中

和

是单词i和单词j的词向量，b_i和

是两个偏差项。从而利用二者的差方来构造损失函数：

其中，f(X_ij)是权重函数，保证一起出现次数多的单词权大于那些很少在一起出现的单词，在达到一定程度之后不再增加，如果两个单词没有在一起出现，那么他们也不会参与到loss function计算中去。利用GloVe对w_i、w_j进行不断更新学习，最终学习得到的是两个vector是w_i、w_j，因为X是对称的(symmetric)，所以从原理上讲w_i和w_j也是对称的，但由于初始值不一样，导致最后的值不一样。但其实两者是等价的，为了提高鲁棒性，选择两者之和作为最终的vector。将文本和标签嵌入到同一空间，利用词向量对句子的词嵌入矩阵进行初始化。标签嵌入利用预先训练好的单词嵌入作为标签嵌入初始化。

在其他实例中，其他的初始化方法，例如BERT，也可以对单词和标签的向量进行初始化。

S102:利用预训练的栈式降噪自动编码器对所述词嵌入矩阵进行降维；

具体的，设置两层SDAE(stacked denoised autoencoder,堆栈去噪自编码器)网络，SDAE的思想就是将多个DAE堆叠在一起形成一个深度的架构。只有在训练的时候才会对输入进行腐蚀(加噪)，训练完成就不需要在进行腐蚀。将上面一层的输出作为下面一层的输入，无监督逐层训练。每层自编码层都单独进行非监督训练，以最小化输入(输入为网络前一层的隐层输出)与重构结果之间的误差为训练目标。前K层训练好了，就可以训练K+1层，因为已经前向传播求出K层的输出，再用K层的输出当作K+1的输入训练K+1层。

将得到的词嵌入向量v，添加随机噪声，得到污染数据v_d，并将污染数据v_d输入神经网络，选取合适的隐藏层神经节点数，注意要小于输入层的神经节点数，将原始数据v作为输出层的标签训练，使网络的输出y与原始数据v的差异最小化，网络训练完成后去除输出层，得到降维后的文本表示，如图4所示。

第一个自动编码器的输出可以表示为：

h(y)＝σ(W₁y+b₁)

其中W₁是权重值，y是被噪声污染后输入数据或特征，

为恢复后的输入数据或特征，b₁、b₂为偏置值。然后利用选用最小均方差作为代价函数，且利用梯度下降的方法对权重值W和偏置值b更新：

(W₁,b₁,b₂)←argmin(J(W₁,b₁,b₂))

第二个DA单元预训练完毕后，去掉其中的输出层和相应的权重和偏置，只保留输入层和隐藏层的W₂和b₂，然后将其堆叠在第一个DA单元上。最后再第二个DA单元的隐藏层上添加一层输出层，随机初始化W₃和b₃，进行解码恢复。两层DA单元预训练结束后，利用上面提到代价函数进行整体的反向调优，对权重和偏置值进行更新，达到对文本特征提取的目的，同时实现降维。

S103：基于注意力机制，利用标签嵌入向量对降维后的词嵌入矩阵进行加权；

具体的，利用标签信息对词嵌入矩阵进行加权，通过基于标签的attention score加权词嵌入获得进一步的文本表示，利用一个attention框架，用于度量文本序列和标签嵌入之间的兼容性，attention机制是利用一组带有标签的训练样本学习得到的，可以保证文本中相关单词的权重不高于不相关单词。

首先计算标签向量和句子向量的余弦相似性：

其中，V_n是经过降维后的句子表示，V₂是标签向量。

第l个短语与所有标签之间的兼容性为：

u_l＝ReLu(G_l-r:l+rW₁+b₁)

其中，G_l-r:l+r代表“标签-短语”对之间的兼容性(即相似性)。窗口尺寸r根据实际情况进行适当取值，可以多取几次，取最优结果；W₁∈R^2r+1和b₁∈R^K是要进行学习的参数，u_l∈R^K。利用最大池化获得第l个短语与所有标签之间的最大兼容性m_l＝max-pooling(u_l)，m是长度为L的向量，即表示整个文本序列的向量，那么整个文本序列的注意力得分是：

s＝SoftMax(m)

其中，第l个短语的softmax值为

然后得到通过标签的attention score加权词嵌入得到：

得到进一步的文本表示z。

S104：将加权后的词嵌入矩阵输入到预训练的LSTM模型中，最后利用SoftMax函数输出文本语句对应的分类标签。

具体的，将文本表示z输入到长短期记忆网络(LSTM)中，进行进一步特征提取和拟合，用于分类。LSTM在网络状态内引入了记忆细胞状态C，有利于帮助LSTM网络克服梯度消失和梯度爆炸，它利用输入门，遗忘门以及输出门来控制先前神经单元和当前神经单元的相互作用，从而对隐藏状态h和记忆细胞状态C进行更新。LSTM通过遗忘门会除去一些不重要的信息，遗忘门通过先前的隐藏状态h_t-1和当前的输入向量z_t,计算出一个取值在0～1之间的矩阵向量f_t。根据当前的输入变量z_t和先前的隐藏状态h_t-1,如图5所示，细胞状态C可以剔除不重要的信息添加新的更重要的信息，实现细胞状态的更新。最后，通过tanh层对最新细胞状态的处理，并与输出门的输出向量o_t相乘，可以得到最后的隐藏状态h_t：

o_t＝σ(W_o·[h_t-1,x_t])+b_o

h_t＝o_t*tanh(C_t)

其中，W_o是系数矩阵，b_o是偏差向量。LSTM的输出单元包含的全连接层数目和标签的数量一致。文本向量经过LSTM后，输入到全连接层进行多标签分类，激活函数选用softmax，主要是计算样本x_i的标签为c_j的概率。最后模型输出为

实施例二：

本实施例的目的是一种用于英文文本的多标签分类系统。

一种用于英文文本的多标签分类系统，包括：

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例一中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一中所述的方法。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

上述实施例提供的一种用于英文文本的多标签分类方法及系统可以实现，具有广阔的应用前景。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种用于英文文本的多标签分类方法，其特征在于，包括：

2.如权利要求1所述的一种用于英文文本的多标签分类方法，其特征在于，包括：所述栈式降噪自动编码器采用两层SDAE网络，其训练过程具体包括：在训练过程中对输入的词嵌入矩阵添加噪声，将上面一层网络的输出作为下面一层的输入，无监督逐层训练。

3.如权利要求2所述的一种用于英文文本的多标签分类方法，其特征在于，包括：所述每层自编码层单独进行非监督训练，以最小化输入与重构结果之间的误差为训练目标。

4.如权利要求1所述的一种用于英文文本的多标签分类方法，其特征在于，包括：所述基于注意力机制利用标签嵌入向量对降维后的词嵌入矩阵进行加权，具体为：计算标签集合中所有标签嵌入向量与文本短语中的词嵌入向量间的余弦相似性；基于所述余弦相似性，利用ReLU激活函数计算标签与文本短语的兼容性；利用SoftMax函数获得标签与文本短语之间的注意力得分；利用所述注意力得分对所述词嵌入矩阵进行加权。

5.如权利要求1所述的一种用于英文文本的多标签分类方法，其特征在于，包括：所述对待分类的文本语句以及标签集合进行词嵌入向量表示，具体包括，利用预训练的Glove模型将文本语句中的单词进行向量表示，获得语句的词嵌入向量矩阵；利用Glove模型对标签集合中的标签进行向量表示，获得标签嵌入向量。

6.一种用于英文文本的多标签分类系统，其特征在于，包括：

7.如权利要求6所述的一种用于英文文本的多标签分类方法，其特征在于，包括：所述栈式降噪自动编码器采用两层SDAE网络，其训练过程具体包括：在训练过程中对输入的词嵌入矩阵添加噪声，将上面一层网络的输出作为下面一层的输入，无监督逐层训练。

8.如权利要求6所述的一种用于英文文本的多标签分类方法，其特征在于，包括：所述基于注意力机制利用标签嵌入向量对降维后的词嵌入矩阵进行加权，具体为：计算标签集合中所有标签嵌入向量与文本短语中的词嵌入向量间的余弦相似性；基于所述余弦相似性，利用ReLU激活函数计算标签与文本短语的兼容性；利用SoftMax函数获得标签与文本短语之间的注意力得分；利用所述注意力得分对所述词嵌入矩阵进行加权。

9.一种计算机可读介质，存储有计算机程序，其特征在于，所述计算机程序当被处理器执行时实现如权利要求1-5所述的一种用于英文文本的多标签分类方法中的步骤。

10.一种计算机设备，包括处理器、存储器，能够存储多标签分类系统中一系列计算机可执行指令和与计算机可执行指令相关联的计算机可访问数据，其特征在于，所述处理器执行所述程序时实现如权利要求1-5中任一项所述的一种用于英文文本的多标签分类方法中的步骤。