CN110825848A

CN110825848A - 一种基于短语向量的文本分类方法

Info

Publication number: CN110825848A
Application number: CN201911067880.3A
Authority: CN
Inventors: 孙新; 李鸿奡; 申长虹; 王浩; 谢旭
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-06-10
Filing date: 2019-11-04
Publication date: 2020-02-21
Anticipated expiration: 2039-11-04
Also published as: CN110825848B

Abstract

本发明涉及一种基于短语向量的文本分类方法，属于自然语言处理技术领域。该方法依靠文本分词及单词的词性标注，得到词项集合；通过基于卷积神经网络的自编码器为所有词项构建对应的短语向量表示；改进分层注意力模型，在句编码时，提出为文本中每个句子设置特定的目标向量，结合全局目标向量，按照一定的权重对所有词项及其注意力得分进行综合得到句编码；最终，通过分层注意力模型中文档编码层、文档注意力层和文档分类层，获得文档对应每个类别的概率，即文本分类。对比现有技术，本发明既能解决词项语义信息不足问题，提供了比独立的词向量更完整更准确的语义信息，又能关注到每个文本最具区别性的语义特征，进一步提高文本分类的准确率。

Description

一种基于短语向量的文本分类方法

技术领域

本发明涉及自然语言处理和深度学习技术领域，特别涉及一种基于短语向量的文本分类方法。

背景技术

作为文本挖掘的一个重要方向，文本分类能够将文档分类到预定义的类别中，在垃圾邮件过滤、情感分析、主题检测等方面都有着广泛应用。在文本分类任务上，包含单词语义的词向量已经得到了应用并取得了良好的效果。然而，很多专业论文，包括企业论文中含有大量的专有名词，而且这些名词往往都不是单个词而是短语，因此仅用词向量不足以满足文本分类任务的需要，文本需要对短语构建向量表示。

当前已有学者提出以词向量为基础利用自编码器进行组合来构建短语向量。自编码器(Auto Encoder)在结构上只有编码器和解码器两个部分，以自编码器对单词向量进行组合来构建短语向量时，可以在编码器部分输入短语中各单词的表示，然后把它们压缩为一个中间隐藏层向量，在解码器部分通过隐藏层向量重新解析出输入的短语，那么这个中间向量就可以认为是包含了语义信息的短语向量表示。然而，在传统自编码器中，直接使用基础的全连接网络进行编码和解码，其中层与层之间是全连接的，每层之间的节点是无连接的，这种普通的自编码网络无法处理类似短语这样的结构中的序列信息。

此外，当文档长度较长时，直接把文档作为长序列处理，不仅会给模型的性能带来很大挑战，同时也会忽略掉文档的层次结构中包含的信息，因此有研究者采用分层的神经网络模型对文档建模来进行文本分类。Yang等人提出了分层注意力模型HAN^[1](YangZichao,Yang Diyi,Dyer Chris.Hierarchical attention networks for documentclassification[C].North American Chapter of the Association for ComputationalLinguistics:Human Language Technologies.2016:1480-1489.)，HAN模型共有五层，自底向上分别为：句编码层、句注意力层、文档编码层和文档注意力层和文档分类层。

具体地，在句编码层，对于一个句子

其中是第t个单词的向量表示，t∈[1,T]。使用双向GRU汇总来自两个方向的单词信息，获得结合了上下文信息的单词注解

在句注意力层，在训练过程中随机初始化一个全局的目标向量v_g并作为一个参数不断学习。然后，对于句子中的所有单词，分别计算它和目标向量v_g的相似度并归一化，得到针对v_g的注意力得分：

其中，是

经过全连接网络处理后的单词表示，v_g是训练得到的全局目标向量，a表示打分函数，这里具体使用的是点乘加指数函数，

表示

的转置，

是单词注解

对应v_g目标向量的归一化后的分数。

最后，根据所有单词及其注意力分数得到句子的编码：

文档编码层，在得到句子的向量表示s⁽ⁱ⁾后，类似句编码层，同样使用双向GRU对s⁽ⁱ⁾编码，得到句子s⁽ⁱ⁾的注解h⁽ⁱ⁾。

文档注意力层，类似句注意力层，首先需要用全连接层对句子的注解h⁽ⁱ⁾进行处理，然后根据目标向量v_d计算相似度并归一化，得到注意力得分，然后通过加权的方式得到包含了文档中全部句子信息的文档向量d。

文档分类层，文档向量d是文档的高阶表示，可以直接用作文档分类的特征，通过softmax来计算每个类别的概率，实验证明这种模型在当时得到了对长文档分类的最好效果。

但是，HAN模型存在训练过程中全局目标向量无法关注到每个文本最明显的语义特征的问题，因此如何关注到每个文本最具区别性的语义特征是本发明亟待解决的关键。

发明内容

本发明提供一种基于短语向量的文本分类方法，所述方法包括：

S1、对文本进行分词及词性标注，依靠单词的词性标注和在文档中的相邻位置确定n元组，得到词项集合；

S2、通过自编码器中的编码器为所有词项构建对应的短语向量；

S3、确定文本中每个句子特定的目标向量，结合全局目标向量，分别对组成句子的每个词项计算其对应特定目标向量和全局目标向量的注意力得分，按照一定的权重相加作为词项的注意力得分，对所有词项及其注意力得分进行综合得到句编码；

S4、基于句编码，通过HAN模型中文档编码层、文档注意力层和文档分类层，获得文档对应每个类别的概率，即文本分类。

进一步的，所述步骤S2中的自编码器包括编码器和解码器，训练方法包括以下步骤：

S21、选取训练样本，获取词项集合；

S22、编码器部分采用CNN结构，主要包括三层：输入层、卷积层和池化层；在输入层，把词项c_j中各个单词的词向量连接起来作为网络的输入，通过卷积层计算卷积核和输入之间的点积，得到一个特征值，用池化操作选择最能代表特征的部分作为词项对应的短语向量的一个维度的值，设定的卷积核的数量W就是最终短语向量的维度；其中，c_j＝(x₁,x₂,…x_i…,x_K)，x_i是词项中第i个单词的词向量表示，K表示词项中的单词数量；

S23、在解码器部分，采用K个全连接网络，即词项中的每个单词对应一个全连接网络，输入层是编码器部分输出的短语向量，输出层是对应的词项c_j中单词的词向量；

S24、训练过程中模型的损失函数使用均方误差(Mean Squared Error，MSE)，即训练目标为使输入词项中各个词向量和输出词项中对应词向量之间的误差尽可能小。

作为优选，步骤S3中，所述每个句子特定的目标向量的计算公式为：

其中，

是句子s⁽ⁱ⁾的特定目标向量，

为

的第j维，W是短语向量维度，T是句子s⁽ⁱ⁾中词项的个数，

是句子s⁽ⁱ⁾中的第t个词项的短语向量的第j维的值。

作为优选，步骤S3中，所述词项对应句子的特定目标向量的注意力得分计算公式为：

其中，

是句子s⁽ⁱ⁾的特定目标向量，是经过全连接网络处理后的词项表示，

是句子s⁽ⁱ⁾使用双向GRU汇总来自两个方向的词项信息得到的结合了上下文信息的词项注解，a表示打分函数，这里具体使用的是点乘加指数函数，

表示

的转置，

是

对应

目标向量归一化后的分数。

作为优选，步骤S3中所述句编码的计算公式为：

其中，

和

分别是词项注解

对应全局目标向量v_g和句子的特定目标向量

的归一化后的分数，λ是权重。

作为优选，所述λ＝0.2。

有益效果

本发明所述的一种基于短语向量的文本分类方法，与现有文本分类方法相比，具有如下有益效果：

1、本发明提供的文本分类方法，既能解决词项语义信息不足问题，又能关注到每个文本最具区别性的语义特征，进一步提高长文本分类的准确率。

2、本发明通过短语向量，在句编码阶段可以更好地表示文本中词项结构，提供了比独立的词向量更完整更准确的语义信息。

3、本发明在提取句子的混合注意力机制时，在全局目标向量的基础上，从短语向量矩阵中利用最大池化提取句子中每个维度上的最大特征作为目标向量，更加突出具有明显类别特征的语义信息。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为训练短语向量所用的模型结构图；

图2为句编码阶段使用Maxpooling提取目标向量的结构图；

图3为本发明提供的一种基于短语向量的文本分类方法的模型图；

图4为本发明实验结果一级分类准确率变化曲线示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步说明。

为了使本申请实例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实例可以相互结合。

本发明提供一种基于短语向量的文本分类方法，如图3所示，该方法包括如下步骤：

S1、对原始文本d_i进行分词并标注词性，根据词性、位置、频率等保留n元组，得到词项集合。选取词项的依据是位置、词性、频率，即或者是位置挨着的具有某几种词性的n个词；或者是位置挨着共同出现了一定次数的n个词。

S2、对每个候选词项c_j＝(x₁,x₂,…,x_K)，通过自编码器中的编码器获得词项集合中词项的短语向量表示。其中，x_i是候选词项c_j中第i个单词的词向量表示，K表示候选词项中的单词数量。

自编码器包括编码器和解码器，如图1所示，编码器部分由输入层、卷积层和池化层组成，解码部分由全连接层组成。

在编码器部分，采用CNN结构，主要包括三层：输入层、卷积层和池化层。输入层把词项中各个单词词向量连接起来作为网络的输入，通过卷积层计算卷积核和输入之间的点积，得到一个特征值，用池化操作选择最能代表特征的部分，设定的卷积核的数量就是最终短语向量的维度。

在解码器部分，采用K个全连接网络，K为词项中的单词个数，词项中的每个单词对应一个全连接网络。输入层是自编码器输出的短语向量，输出层是还原后的单词的词向量，最后通过损失函数L最大化解码得到的正确单词的概率。

训练的目的是优化自编码器的参数，使解码器能够以编码器的输出为输入，最大程度的还原编码器输入的词项的语义信息。

具体的训练方法为：

(1)选取训练样本，然后与S1一样，对样本进行分词等操作，获得词项集合。选取词项的依据是位置、词性、频率，也即或者是位置挨着的，具有某几种词性的n个词；或者是位置挨着共同出现了一定次数的n个词。

词项用c_j＝(x₁,x₂,…x_i…,x_K)表示，其中，x_i是候选词项c_j中第i个单词的词向量表示，K表示候选词项中的单词数量。以候选词项c_j为“北京理工大学”为例，x₁是“北京”对应的词向量，x₂是“理工”对应的词向量，x₃是“大学”对应的词向量。

(2)使用大量词项对模型进行训练。以词项“北京理工大学”为例，输入为“北京”“理工”“大学”对应的词向量表示，经编码获得“北京理工大学”的短语向量表示，并通过该短语向量解码尽可能得到解码序列“北京”“理工”“大学”，通过损失函数使得输入词项各个词向量和输出词项对应词向量之间的误差尽可能小。

对词项c_j＝(x₁,x₂,…,x_K)，在编码部分，在输入层，把词项中各个单词对应的词向量连接起来作为网络的输入，即：

其中，x_i是输入单词的向量表示，i＝1,2,..,K，K为词项中单词的个数。然后，用一个长度为h的卷积核对输入序列进行卷积，计算卷积核和输入之间的点积，得到一个特征值c_i：

c_i＝f(w·x_i:i+h-1+b)

w·x_i:i+h-1就是卷积核w在输入序列的某个长度为h的子序列x_i:i+h-1上的卷积操作，b是偏置项，f为ReLU激活函数。

把卷积核w应用于全部输入窗口{x_1:h,x_2:h+1,…,x_K-h+1:K}，可以产生一个K-h+1维的激活图c：

c＝[c₁,c₂,…,c_K-h+1]

通过卷积层提取的特征在相邻区域内是相似且几乎不变的。此时，用池化操作选择最能代表特征的部分，这既可以减少数据量，又可以保留特征。这里为了获取c中的整体特征，采用了平均池化方法：

这样一个卷积核在输入序列上产生一个特征值

F个卷积核就能产生F个特征值，设定的卷积核的数量就是最终短语向量的维度，本发明中为W，因此，编码器输出的短语向量v即是：

解码器部分，采用K个全连接网络，K为词项中单词的个数，词项中的每个单词对应一个全连接网络。

在每个全连接网络中输入层是自编码器中编码器输出的短语向量，输出层是对应输入x_i还原后的单词

其中，W_i、b_i为各个全连接网络中的权重矩阵和偏置项，i＝1,2,..,K，f为ReLU激活函数。

训练过程中模型的损失函数使用均方误差(Mean Squared Error，MSE)，即训练目标为使输入词项和输出词项之间的误差尽可能小：

在自编码器训练结束后，其损失函数值趋于稳定。此时自编码器训练完成，将词项输入自编码器的编码器中，编码后的值即为短语向量。通过以上构建的自编码器，利用词项序列上的信息对词向量压缩，得到词项的短语向量表示。

S3、对于文档中的每个句子

其中，

是句子s⁽ⁱ⁾中的第t个词项的短语向量表示，t∈[1,T]，每个词项短语向量

W是短语向量维度。计算句子特定的目标向量

结合全局目标向量v_g，按照一定的权重相加作为句子的注意力得分，得到句子的最终编码值。

具体地，如图2所示，在计算句子特定的目标向量时，对全部T个词项的W个维度，取每个维度上的最大值作为特征，然后将全部W个维度上的最大值连接起来作为句子s⁽ⁱ⁾特有的目标向量

其中，

是句子s⁽ⁱ⁾的特有目标向量，

为

的第j维，

是句子s⁽ⁱ⁾中的第t个词项的短语向量的第j维的值。

然后，对于句子中的所有词项，分别计算它和

v_g的相似度并归一化，得到针对

和v_g的注意力得分：

其中，

是经过全连接网络处理后的词项表示，v_g是训练得到的全局目标向量，是在句子s⁽ⁱ⁾的短语向量矩阵上利用最大池化得到的句子特有的目标向量，a表示打分函数，这里具体使用的是点乘加指数函数，

表示的转置，

和分别是词项注解

对应v_g和

两个目标向量的归一化后的分数。

将两个分数按照一定的权重相加作为最终的注意力分数，根据所有词项及其注意力分数得到句子的编码：

通过这样的方式，对于文档中的每个句子，都能得到其对应的向量表示，而且其中分类特征比较明显的词得到的权重会更大，在最终的句子表示中会占据主导地位。

S4、通过HAN模型，获得文档对应每个类别的概率。

上述内容重点说明了本发明的创新点：词项短语表示、句编码中的句子目标向量，其中，词项短语表示解决了原有HAN模型使用的词向量无法表示复杂词项的语义信息问题，例如“北京理工大学”这种由三个词组合成的词项，单用词向量无法很好表达其语义，因此通过自编码器对复杂词项进行短语向量表示。句子目标向量的好处是：由于句子中每个单词对分类目标的贡献度是不一样的，在编码时对分类越重要的词的权值应该更大。在文本分类中，原有HAN模型的做法是在网络中学习一个全局的上下文向量作为目标向量，通过计算每个单词与目标向量的相似度来对单词打分。然而，当所有类别共同使用一个目标向量时，它在每个特征维度上的信息就会相对平均，不能突出句子的显著特征。如果句子里出现了有明显类别特征的词，全局的目标向量不能为它分配一个与其显著性相匹配的注意力得分。因此在句注意力层，本发明使用混合的注意力机制，除了使用全局目标向量v_g以外，对每个句子构建其特有的目标向量v_s。

综上所述，结合HAN模型，本发明对文本的分类过程如下所述：

1)词项短语向量表示，或者说是词项编码

输入：词项序列(x₁,x₂,…x_i…,x_K)其中，x_i是词项中第i个单词的词向量表示，K表示词项中的单词数量。举例，假设词项序列为“北京理工大学”，x₁是“北京”的词向量、x₂是“理工”的词向量、x₃是“大学”的词向量，这里的K是3。

输出：词项序列(x₁,x₂,…x_i…,x_K)的短语向量表示，也即为“北京理工大学”这个整体的短语向量表示。

短语向量训练过程：词项训练分为编码和解码两部分。编码部分采用的是CNN结构，主要包括三层：输入层、卷积层和池化层。在输入层，把词项中各个单词词向量连接起来作为网络的输入，通过卷积层计算卷积核和输入之间的点积，得到一个特征值，用池化操作选择最能代表特征的部分。解码部分采用的是K个全连接网络，输入编码部分得到的短语向量，输出K个还原后的单词对应的词向量。

2)句编码

输入：文档中的所有句子。具体来说，文档中每个句子

其中，是句子s⁽ⁱ⁾中的第t个词项的短语向量表示，t∈[1,T]。

输出：句子的编码s⁽ⁱ⁾：

编码过程：分为三步，对于s⁽ⁱ⁾，每个

是一个W维的向量。首先，利用双向GRU获得以

为中心的整个句子信息：

其次，计算句子特定的目标向量对全部T个单词的W个维度，取每个维度上的最大值作为特征，然后将全部W个维度上的最大值连接起来作为句子s⁽ⁱ⁾特有的目标向量

即特定目标向量。

同时设置一个全局的目标向量v_g来表示“哪些单词对于分类目标更重要”，在训练过程中随机初始化并作为一个参数不断学习。

最后，得到两个目标向量后，为了能够将单词的注解

和目标向量相乘，需要通过一层全连接网络对

进行处理，得到

然后对于句子中的所有词项，分别计算它和两个目标向量的相似度并归一化，得到针对两个目标向量的注意力得分

和

3)文档编码

输入：句编码层得到的句编码表示s⁽ⁱ⁾。

输出：包含了文档中全部句子信息的文档向量d。

编码过程：分为三步，对于句子的向量表示s⁽ⁱ⁾，首先，利用双向GRU对s⁽ⁱ⁾编码，得到句子s⁽ⁱ⁾的注解h⁽ⁱ⁾。

然后，类似句注意力层，用全连接层对句子的注解h⁽ⁱ⁾进行处理得到h′⁽ⁱ⁾，然后根据目标向量v_d计算相似度并归一化，得到注意力得分α⁽ⁱ⁾。

最后，通过加权的方式得到包含了文档中全部句子信息的文档向量d。

4)文档分类

输入：文档向量d。

输出：得到文档对应每个类别的概率。

分类过程：通过softmax来计算每个类别的概率。基于上述方法，本发明以年报数据为例，给出具体的基于短语向量的文本分类结果。

年报数据库中共有31230条企业数据，提供了企业董事会信息和经营产品信息，包括：记录ID、股票代码、股票简称、行业分类、产品名称、董事会讨论、主要产品、经营范围、年份等字段。其中，“董事会讨论”是企业董事会讨论与分析的文本内容，“行业分类”根据不同粒度划分为四个级别，本例以“董事会讨论”信息作为文本数据，分别提取一级分类和二级分类作为分类标签进行文本分类，其中一级分类共有18类，二级分类共有78类。

在进行文本分类时，将年报数据按9:1划分为训练数据和测试数据，训练数据中又取10％作为开发集。基于短语向量的文本分类方法，也即HMAN模型的部分训练参数设置如表1所示。

表1部分训练参数设置

需要说明的是，句注意力的超参数λ经过调整和验证，在λ＝0.2时取得的效果最好。

基于短语向量的文本分类方法所得一级行业分类，部分结果如表2所示。

表2各模型行业分类准确率

另外为了观察基于深度学习的分类模型在训练过程中的变化趋势，以一级分类为示例绘制了各模型开发集上的准确率变化曲线，如图4所示。HAN和HMAN在一级分类上的准确率均明显高于不使用层次模型的TextCNN、TextRNN。这说明引入文档的层次结构可以在不同层级分别关注文本的句子特征和文本特征，有助于提升文档级别的文本分类的效果。而本发明提出的HMAN在句子级别的注意力机制中，在全局目标向量的基础上，从词向量矩阵中利用最大池化提取句子中每个维度上的最大特征作为目标向量，能够更加突出具有明显类别特征的语义信息，分类效果好于HAN。同时，从图4中可以看出，由于直接通过提取的方式获得目标向量，不需要额外的参数训练，HMAN的收敛速度也比HAN快。

通过使用短语向量表示，同时从短语向量矩阵中利用最大池化提取句子中每个维度上的最大特征作为目标向量，能够更加突出具有明显类别特征的语义信息。本发明提出的模型可以进一步提高分类效果，模型收敛速度快。

本领域普通技术人员可以理解：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。