CN108595590A

CN108595590A - 一种基于融合注意力模型的中文文本分类方法

Info

Publication number: CN108595590A
Application number: CN201810352667.6A
Authority: CN
Inventors: 胡岩峰; 乔雪; 岳才杰; 范远来; 段贺; 陈星�; 彭晨; 刘振
Original assignee: Suzhou Research Institute Institute Of Electronics Chinese Academy Of Sciences
Current assignee: Suzhou Research Institute Institute Of Electronics Chinese Academy Of Sciences
Priority date: 2018-04-19
Filing date: 2018-04-19
Publication date: 2018-09-28

Abstract

本发明公开了一种基于融合注意力模型的中文文本分类方法，通过分词预处理和分字预处理分别将文本切分为对应的词集合和字集合，并根据得到的词集合和字集合，采用特征嵌入的方法训练文本对应的词向量和字向量；采用双向门循环单元神经网络作为编码器分别对词向量和字向量进行语义编码，并采用词向量注意力机制和字向量注意力机制获取文本中的词注意力向量和字注意力向量；得到融合注意力向量；通过softmax分类器预测文本类别，解决了现有的中文文本分类方法忽略文本的字特征信息,导致提取的文本特征单一，难以涵盖文本所有的语义信息，并且没有重点关注对分类有明显贡献的特征，导致分类过程中存在较多的冗余特征的问题。

Description

一种基于融合注意力模型的中文文本分类方法

技术领域

本发明属于自然语言处理领域，具体涉及一种中文文本分类的方法。

背景技术

近年来，随着电子信息技术的飞速发展，海量的信息数据以文本的形式充斥着互联网。如何对这些文本进行有效的分类，进而挖掘有价值的信息成为了自然语言处理研究领域的热点之一。文本分类的目的是将文本分配到预先定义的某个主题类别中。传统的文本分类算法大部分都基于浅层的机器学习模型，最近随着深度学习在计算机视觉和语音识别中取得的巨大成功，越来越多的研究尝试将深度学习应用到中文文本分类中。与传统的文本分类方法不同的是，深度学习方法通过深度神经网络模型来学习文本的词特征，进而构建文本特征以实现文本分类。基于深度神经网络模型的方法在中文文本分类任务中取得了比传统的浅层模型更好的分类效果。

深度神经网络中的注意力机制最早是用在图像处理领域，目的是为了让神经网络在处理数据时重点关注某些信息。随着研究的推进，注意力机制成功融入自然语言处理领域。目前，注意力机制已经在机器翻译和自动问答等方面取得了令人瞩目的成果。

针对中文文本而言，字是构成词的独立基本单元，从构成词的字中可以推断出词的语义信息。然而，目前针对中文文本分类的研究存在一定的缺陷：

首先，现有方法通常将词特征作为构成文本特征的基本单元，却忽略了文本中重要的字特征信息,导致提取的文本特征较为单一，不足以涵盖文本所有的语义信息。

其次，现有的中文文本分类方法认为文本中每一个词特征对于分类的重要性相同，笼统地用文本中所有的词特征来表示文本特征，而没有考虑通过注意力机制来重点关注对分类有明显贡献的词特征，导致分类过程中存在较多的冗余特征。

发明内容

本发明所要解决的技术问题是提供了一种基于融合注意力模型的中文文本分类方法，解决了现有的中文文本分类方法忽略文本的字特征信息,导致提取的文本特征单一，难以涵盖文本所有的语义信息。

本发明为解决上述技术问题采用以下技术方案：

一种基于融合注意力模型的中文文本分类方法，具体包含如下步骤：

步骤1，通过分词预处理和分字预处理分别将文本切分为对应的词集合和字集合；

步骤2，根据得到的词集合和字集合，采用特征嵌入的方法训练文本对应的词向量和字向量，分别得到词向量集合和字向量集合；

步骤3，分别对词向量和字向量进行语义编码，得到词向量语义编码集合、字向量语义编码集合；

步骤4，根据词向量集合、词向量语义编码集合获取文本中的词注意力向量，根据字向量集合、字向量语义编码集合获取文本中的字注意力向量；

步骤5，通过注意力融合方法将词注意力向量和字注意力向量进行融合，得到融合注意力向量；

步骤6，通过softmax分类器预测文本类别。

进一步的，本发明所提出一种基于融合注意力模型的中文文本分类方法，步骤2中是基于CBOW模型采用特征嵌入的方法训练文本对应的词向量，具体过程如下：

在CBOW模型输入层中，假设{w₁,w₂,…,w_D}是中文文本语料分词后的词集合，w_d是词集合中的第d个词，利用w_d前后各a个词去预测w_d，则建立目标函数为：

其中，J_word表示训练词向量的目标函数，D表示词集合中的词数量，w_d+j表示第j个前后词，p(w_d|w_d+j)表示前后各a个词出现的概率；

在CBOW模型投影层中，通过嵌入矩阵W^w∈R^D×M将w_d投影到一个M维的特征空间中：

其中，表示w_d经过投影后的向量；

在CBOW模型输出层中，通过随机梯度上升算法对嵌入矩阵W^w的结果进行预测，使得J_word最大化，则此时的即是w_d对应的词向量，由此得到词向量集合为

进一步的，本发明所提出一种基于融合注意力模型的中文文本分类方法，步骤2中是基于CBOW模型采用特征嵌入的方法训练文本对应的字向量，具体过程如下：

在CBOW模型的输入层中，假设{c₁,c₂,…,c_N}是中文文本语料分字后的字集合，c_n是字集合中的第n个字，利用c_n前后各a个字去预测c_n，则建立目标函数为：

其中，J_char表示训练字向量的目标函数，N表示字集合中的字数量，c_n+j表示第j个前后字，p(c_n|c_n+j)表示前后各a个字出现的概率；

在CBOW模型的投影层中，通过嵌入矩阵W^c∈R^N×M将c_n投影到一个M维的特征空间中：

其中，表示c_n经过投影后的向量；

在CBOW模型的输出层中，通过随机梯度上升算法对嵌入矩阵W^c的结果进行预测，使得J_char最大化，则此时的即是c_n对应的字向量，由此可得字向量集合为

进一步的，本发明所提出一种基于融合注意力模型的中文文本分类方法，所述步骤3采用BGRU神经网络作为编码器对词向量进行语义编码，具体包含如下：

首先，给定词向量集合通过BGRU神经网络分别得到词向量的前向语义编码和后向语义编码：

其中，和分别表示BGRU神经网络中的前向隐藏层和后向隐藏层，和分别表示第d个词向量的前向语义编码和第d个词向量的后向语义编码；

其次，通过结合和获得文本的词向量语义编码：

最终得到词向量语义编码集合

进一步的，本发明所提出一种基于融合注意力模型的中文文本分类方法，所述步骤3采用BGRU神经网络作为编码器对字向量进行语义编码，具体如下：

首先，给定字向量集合通过BGRU神经网络分别得到字向量的前向语义编码和后向语义编码：

其中，和分别表示第n个字向量的前向语义编码和第n个字向量的后向语义编码；

然后，通过结合和获得文本的字向量语义编码：

最终得到字向量语义编码集合

进一步的，本发明所提出一种基于融合注意力模型的中文文本分类方法，步骤4中根据词向量集合、词向量语义编码集合获取文本中的词注意力向量，具体如下：

首先通过一个单层感知机来获得词向量语义编码的隐向量：

其中，表示词向量语义编码的隐向量，W_w表示词向量注意力的权重参数，b_w表示词向量注意力的偏置参数；

然后，获得与上下文相关的词注意力向量v^w，计算方法如下：

其中，表示对应的权重，D代表词向量的个数，词注意力向量v^w中的信息包含每个词向量语义编码对于文本分类的重要程度。

进一步的，本发明所提出一种基于融合注意力模型的中文文本分类方法，根据字向量集合、字向量语义编码集合获取文本中的字注意力向量，具体如下：

首先，通过一个单层感知机来获得字向量语义编码的隐向量：

其中，表示字向量语义编码的隐向量，W_c表示字向量注意力的权重参数，b_c表示字向量注意力的偏置参数；

然后，通过以下公式获得与上下文相关的字注意力向量v^c，计算方法如下：

其中，表示对应的权重，n代表字向量的个数，字注意力向量v^c中的信息包含每个字向量语义编码对于文本分类的重要程度。

进一步的，本发明所提出一种基于融合注意力模型的中文文本分类方法，步骤5中，融合注意力向量的每一维度上的值由词注意力向量和字注意力向量对应维度上的值乘积得到，具体计算如下：

其中，代表融合注意力向量，v^w代表词注意力向量，v^c代表字注意力向量，L表示融合注意力向量的维度。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

(1)本发明采用特征嵌入的方法来训练文本中的字向量，对文本中的词向量进行补充和辅助，弥补了单一的词向量无法涵盖文本所有的语义信息的不足，从而能够获得更全面的文本特征。

(2)本发明采用BGRU神经网络作为编码器分别对词向量和字向量进行语义编码，从正反两个方向有效地捕捉文本中的语义依赖关系，解决了文本的长距离语义依赖问题。

(3)本发明提出了词向量注意力机制和字向量注意力机制，重点关注对分类有显著效果的词向量和字向量，得到词注意力向量和字注意力向量，减少了对文本分类没有帮助的冗余特征。

(4)本发明提出了一种注意力融合方法，将文本中的词注意力向量和字注意力向量进行融合，最终利用得到的融合注意力向量来表示文本特征，使得文本特征所表示的语义信息更加准确和丰富。

附图说明

图1是本发明方法的流程示意图。

图2是词向量和字向量的训练示意图。

图3是词向量和字向量的编码示意图。

图4是词向量注意力机制和字向量注意力机制的示意图。

图5是注意力融合方法的示意图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

如图1所示，本发明方法主要分为VI个阶段：

阶段I是分词预处理和分字预处理，通过NLPIR工具将文本切分为对应的词集合和字集合；

阶段II是训练词向量和字向量；

阶段III是采用BGRU神经网络作为编码器分别对词向量和字向量进行语义编码；

阶段IV是采用词向量注意力机制和字向量注意力机制获取文本中的词注意力向量和字注意力向量；

阶段V是通过注意力融合方法将词注意力向量和字注意力向量进行融合，得到融合注意力向量；

阶段VI是通过softmax分类器预测文本类别。

以下对于本发明所提出的基于融合注意力模型的中文文本分类方法，具体举例说明。

步骤1：在百度百科和搜狗新闻上搜集中文文本语料，然后利用NLPIR工具对语料进行分词预处理和分字预处理处理，分别得到词集合{w₁,w₂,…,w_D}和字集合{c₁,c₂,…,c_N}；

步骤2：通过CBOW模型训练词集合{w₁,w₂,…,w_D}和字集合{c₁,c₂,…,c_N}，分别得到文本对应的词向量集合和字向量集合

步骤3：采用BGRU神经网络对词向量集合和字向量集合进行语义编码，分别得到词向量语义编码集合和字向量语义编码集合

步骤4：利用词向量注意力机制在词向量语义编码集合中获得词注意力向量v^w，利用字向量注意力机制在字向量语义编码集合中获得字注意力向量v^c；

步骤5：采用注意力融合方法将词注意力向量v^w和字注意力向量v^c进行融合，得到融合注意力向量

步骤6：将融合注意力向量作为文本特征，输入softmax分类器预测文本类别。

下面详细说明本发明的技术方案以及所依据的科学原理。

词向量和字向量的训练示意图，如图2所示，本发明采用连续词袋(continuousbag-of-words,CBOW)模型作为词向量和字向量的训练模型，并采用大规模的百度百科和搜狗新闻中的语料作为词向量和字向量的训练语料，分别训练词向量和字向量。

本发明采用特征嵌入的方法训练文本的词向量和字向量。首先在百度百科和搜狗新闻上搜集中文文本语料，然后利用NLPIR工具对语料进行分词和分字处理，最后通过CBOW模型训练词向量和字向量。具体过程为：

(1)词向量：在输入层中，假设{w₁,w₂,…,w_D}是中文文本语料分词后的词集合，w_d是词集合中的第d个词，CBOW模型的任务是利用w_d前后各a个词去预测w_d，则目标函数为：

其中，J_word表示训练词向量的目标函数，D表示词集合中的词数量，w_d+j表示第j个前后词，p(w_d|w_d+j)表示前后各a个词出现的概率。在投影层中，CBOW模型通过嵌入矩阵W^w∈R^D×M将w_d投影到一个M维的特征空间中：

其中，表示w_d经过投影后的向量。在输出层中，通过随机梯度上升算法对嵌入矩阵W^w的结果进行预测，使得J_word最大化，则此时的即是w_d对应的词向量。由此可得词向量集合为

(2)字向量：在输入层中，假设{c₁,c₂,…,c_N}是中文文本语料分字后的字集合，c_n是字集合中的第n个字，CBOW模型的任务是利用c_n前后各a个字去预测c_n，则目标函数为：

其中，J_char表示训练字向量的目标函数，N表示字集合中的字数量，c_n+j表示第j个前后字，p(c_n|c_n+j)表示前后各a个字出现的概率。在投影层中，CBOW模型通过嵌入矩阵W^c∈R^N×M将c_n投影到一个M维的特征空间中：

其中，表示c_n经过投影后的向量。在输出层中，通过随机梯度上升算法对嵌入矩阵W^c的结果进行预测，使得J_char最大化，则此时的即是c_n对应的字向量。由此可得字向量集合为

词向量和字向量的编码示意图如图3所示，本发明采用BGRU神经网络作为编码器分别对词向量和字向量进行语义编码，获得词向量语义编码和字向量语义编码。

本发明采用BGRU神经网络作为词向量和字向量的编码器。具体过程为：

(1)词向量编码：给定词向量集合通过BGRU神经网络可以分别得到词向量的前向语义编码和后向语义编码：

其中，和分别表示BGRU神经网络中的前向隐藏层和后向隐藏层，和分别表示第d个词向量的前向语义编码和第d个词向量的后向语义编码。通过结合和获得文本的词向量语义编码：

最终得到词向量语义编码集合

(2)字向量编码：给定字向量集合通过BGRU神经网络可以分别得到字向量的前向语义编码和后向语义编码：

其中，和分别表示第n个字向量的前向语义编码和第n个字向量的后向语义编码。最终通过结合和获得文本的字向量语义编码：

最终得到字向量语义编码集合

图4是词向量注意力机制和字向量注意力机制的示意图，本发明将注意力机制分别与词向量语义编码和字向量语义编码结合，进而提出了词向量注意力机制和字向量注意力机制，以获得对文本分类有贡献的词注意力向量和字注意力向量。

本发明将注意力机制分别与词向量语义编码和字向量语义编码结合，进而提出了词向量注意力机制和字向量注意力机制，以获得对文本分类有贡献的词注意力向量和字注意力向量。

(1)词向量注意力机制：给定词向量集合以及词向量语义编码集合本发明首先通过一个单层感知机来获得词向量语义编码的隐向量：

其中，表示的隐向量，W_w表示词向量注意力机制的权重参数，b_w表示词向量注意力机制的偏置参数。然后，通过词向量注意力机制就可以获得与上下文相关的词注意力向量v^w，计算方法如下：

其中，表示对应的权重，词注意力向量v^w中的信息包含每个词向量语义编码对于文本分类的重要程度。

(2)字向量注意力机制：给定字向量集合及字向量语义编码集合本发明首先通过一个单层感知机来获得字向量语义编码的隐向量：

其中，表示的隐向量，W_c表示字向量注意力机制的权重参数，b_c表示字向量注意力机制的偏置参数。然后，通过字向量注意力机制就可以获得与上下文相关的字注意力向量v^c，计算方法如下：

其中，表示对应的权重，字注意力向量v^c中的信息包含每个字向量语义编码对于文本分类的重要程度。

图5是注意力融合方法的示意图，本发明通过注意力融合方法对词注意力向量和字注意力向量进行融合，并利用得到的融合注意力向量来表示文本特征。

本发明采用注意力融合方法将词注意力向量v^w和字注意力向量v^c进行融合，得到融合注意力向量计算方法如下：

其中，L表示融合注意力向量的维度，每一维度上的值由v^w和v^c对应维度上的值乘积得到。

本技术领域技术人员可以理解的是，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来生成机器，从而通过计算机或其他可编程数据处理方法的处理器来执行的指令创建了用于实现结构图和/或框图和/或流图的框或多个框中指定的方法。

上面结合附图对本发明的实施方式作了详细地说明，但是本发明并不局限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于融合注意力模型的中文文本分类方法，其特征在于，具体包含如下步骤：

步骤6，通过softmax分类器预测文本类别。

2.根据权利要求1所述的一种基于融合注意力模型的中文文本分类方法，其特征在于，步骤2中是基于CBOW模型采用特征嵌入的方法训练文本对应的词向量，具体过程如下：

其中，表示w_d经过投影后的向量；

3.根据权利要求1所述的一种基于融合注意力模型的中文文本分类方法，其特征在于，步骤2中是基于CBOW模型采用特征嵌入的方法训练文本对应的字向量，具体过程如下：

其中，表示c_n经过投影后的向量；

4.根据权利要求1或2任一所述的一种基于融合注意力模型的中文文本分类方法，其特征在于，所述步骤3采用BGRU神经网络作为编码器对词向量进行语义编码，具体包含如下：

其次，通过结合和获得文本的词向量语义编码：

最终得到词向量语义编码集合

5.根据权利要求1或3任一所述的一种基于融合注意力模型的中文文本分类方法，其特征在于，所述步骤3采用BGRU神经网络作为编码器对字向量进行语义编码，具体如下：

其中，和分别表示第n个字向量的前向语义编码和第n个字向量的后向语义编码；然后，通过结合和获得文本的字向量语义编码：

最终得到字向量语义编码集合

6.根据权利要求1所述的一种基于融合注意力模型的中文文本分类方法，其特征在于，步骤4中根据词向量集合、词向量语义编码集合获取文本中的词注意力向量，具体如下：

首先通过一个单层感知机来获得词向量语义编码的隐向量：

7.根据权利要求1所述的一种基于融合注意力模型的中文文本分类方法，其特征在于，根据字向量集合、字向量语义编码集合获取文本中的字注意力向量，具体如下：

8.根据权利要求1所述的一种基于融合注意力模型的中文文本分类方法，其特征在于：步骤5中，融合注意力向量的每一维度上的值由词注意力向量和字注意力向量对应维度上的值乘积得到，具体计算如下：