CN109558487A

CN109558487A - 基于层次性多注意力网络的文档分类方法

Info

Publication number: CN109558487A
Application number: CN201811314237.1A
Authority: CN
Inventors: 黄英仁; 王子文; 薛云
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2018-11-06
Filing date: 2018-11-06
Publication date: 2019-04-02

Abstract

本发明公开了一种基于层次性多注意力网络的文档分类方法，包括步骤：利用Bi‑GRU序列模型来对文档进行从词到句，句到文档建模；利用Bi‑GRU序列模型对每个词语进行编码，获取句子中的上下文信息，采用Soft attention来对每个词语进行注意力权重的分配；对于句子到文档这个过程，本发明引入CNN attention，利用CNN模型获取窗口内句子之间的局部相关特征，从而进一步得到每个句子的注意力权重。本发明能够根据文档特点从词到句，句到文档进行建模，充分考虑文档的层次性结构。同时，针对词语和句子级别，本发明分别采用不同的注意力机制来适当地对相关的内容进行权重的分配，从而提高文档分类的准确率。

Description

基于层次性多注意力网络的文档分类方法

技术领域

本发明属于自然语言处理技术与情感分析领域，具体地说是一种基于层次性多注意力网络的文档分类方法。

背景技术

文本分类是自然语言处理领域的重要课题之一。随着数据量以及硬件运算能力的不断提升，文本分类的理论与方法所发挥作用日益增大，受到广泛关注。早期文本分类研究主要是基于知识工程体系的方法，需要某领域的专家们为该领域的文本定制分类规则，但是这种方法需要大量的人力对规则的扩充或修改作大量的维护工作。后来随着机器学习技术的发展，基于机器学习的文本分类方法逐渐兴起，成为主流的研究方向。该类方法要求将文本映射到向量空间中进行有监督的训练后，从而利用训练好的分类器对未分类文本进行分类，但是在此过程中需要对大量的特征进行人工设计，而且这些方法都属于浅层学习模型，泛化能力也在一定程度上受到制约。

因此，为了解决传统模型需要人工设计特征的难题，自动抽象出高级特征，克服浅层学习模型的缺陷，近年来越来越多的文本分类研究方法都使用了深度神经网络，例如Kim和Kalchbrenner等人利用卷积神经网络(Convolutional Neural Network,CNN)来对文本进行建模。Longpre等人利用长短期记忆网络(Long-Short Term Memory,LSTM)及其变体解决文本情感分类的问题。Yu等人将多种深度学习模型应用于跨领域的文本情感分析任务。这些应用于文本分类的深度学习方法比起以往传统的浅层模型均获得较好的效果。

最近几年，注意力机制(Attention Mechanism)广泛被应用于文本分类任务当中，其原理借鉴了人类的选择性视觉注意力机制，目的是从众多信息中选择出对当前任务目标更关键的信息。而对于文本分类任务而言，并非文本内所有的部分对于分类任务都有着相同的贡献，因此引入注意力机制使得模型在处理数据时能将重心定位在对当前任务更加重要的信息上。

近年来，随着互联网的迅猛发展，在线文档信息迅速增加，如何有效地挖掘，利用海量文档信息成为了文本分类任务的一个关键点，因此本文致力于文本分类任务当中文档分类方法的研究。上文我们提到许多经典的模型，它们在许多文本分类问题上取得了显著的效果，然而，对于文档分类而言，这些模型仍然存在着以下问题：1、忽略了文档构成时从词到句，句到文档的层次性结构信息,直接将各个词向量作为深度网络的输入；2、采用单一的注意力机制决定文档中各部分的贡献权重，并没有充分考虑从词到句，句到文档两部分的组成特点，无法有效的利用文档内部结构信息。

针对上述问题，本发明提出一种层次性的多注意力深度网络模型(HierarchicalMulti-Attention Networks,HMAN)应用于文档分类，主要包括如下部分：(1)根据文本分类中文档的建模特点，利用Bi-GRU序列模型来对文档进行从词到句，句到文档建模，在本发明中充分体现文档的层次性结构；(2)针对从词到句这个过程，为了准确地表达出不同的词在句子中的重要程度，本发明利用Bi-GRU序列模型对每个词语进行编码，获取句子中的上下文信息，采用Soft attention来对每个词语进行注意力权重的分配；(3)对于句子到文档这个过程，本发明希望充分利用文档中句子与句子之间的局部相关信息决定每个句子在文档中重要性，因此，本发明引入CNN attention，利用CNN模型获取窗口内句子之间的局部相关特征，从而进一步得到每个句子的注意力权重。本发明能够根据文档特点从词到句，句到文档进行建模，充分考虑文档的层次性结构。同时，针对词语和句子级别，本发明分别采用不同的注意力机制来适当地对相关的内容进行权重的分配，从而提高文档分类的准确率。

发明内容

在针对文档分类的任务上，为了解决现有的问题，本发明提出基于层次性多注意力网络的文档分类方法。

本发明至少通过如下技术方案之一实现。

上述的基于层次性多注意力网络的文档分类方法中，步骤(1)具体是：

假设文档中有L个句子，第i个句子包含T_i个词语，x_it表示第i个句子中第t个词语，其向量化表示为w_it。本发明采用Bi-GRU网络对句子中的每个词语进行编码，以获取词语间上下文信息，具体过程为：

其中h_it由前向输出及后向输出拼接得到，包含序列的上下文信息。

上述的基于层次性多注意力网络的文档分类方法中，步骤(2)具体是：

(2-1)基于步骤(1)，经Bi-GRU网络输出的h_it有考虑到词语的先后关系，但是如果进行简单求和得到句子的向量表示，则该句子中的所有词语都作了相同的贡献，这不符合真实情况，因为一个句子中的每个词语于任务的重要性不同。因此针对从词到句这个过程，本发明利用每个词语在句子中的上下文信息，采用Soft attention来对每个词语进行注意力权重的分配，使得重要的词语在分类任务中起的作用更大。为此，本发明将当前词的Bi-GRU网络输出h_it输入到单层感知机(MLP)中，获得每个词相应的输出u_it，具体公式如下：

u_it＝tanh(W_wh_it+b_w)

其中W_w为h_it的权重矩阵，b_w为h_it的偏置。

(2-2)通过softmax函数归一化操作后得到注意力权重α_it，也就是每个词对应的重要性指标。具体公式如下：

上述的基于层次性多注意力网络的文档分类方法中，步骤(3)具体是：

基于上述步骤(1)所得的h_it和步骤(2)所得的α_it，通过加权求和来获得句子的向量表示：

上述的基于层次性多注意力网络的文档分类方法中，步骤(4)具体是：

文档中第i个句子的向量表示为s_i,与步骤(1)类似，利用Bi-GRU网络来对句向量进行编码，具体公式如下：

其中h_i由前向输出及后向输出拼接得到，包含序列的上下文信息。

上述的基于层次性多注意力网络的文档分类方法中，步骤(5)具体是：

本发明观察到在文档当中，往往相邻的几个句子之间存在较大的相关性，即窗口内的句子之间存在一定的局部相关模式。因此本发明基于文档中一定范围内句子与句子之间的局部相关关系，引入CNN attention决定文档中每个句子的注意力权重。CNN模型模拟了生物视觉机制，可以通过多网络结构、卷积运算和降采样来提取输入的局部特征。此外，本发明把句子Bi-GRU网络输出形成的向量矩阵作为CNN模型的输入，挖掘到文档中局部相关特征的同时，也保留了句子完整的上下文信息。

如图1所示为句子到文档所采用的注意力机制，具体公式如下：

h_i:i+k＝[h_i；h_i+1；…；h_i+k-1],i∈[1,L]

在此处CNN模型使用n个不同的卷积核进行单层的卷积。以其中第j个卷积核f_j∈R_kd为例，d为每个句子对应Bi-GRU隐含层维数。k个句子的窗口表示为h_i:i+k(∈R_kd)，h_i为第i个句子对应Bi-GRU隐含层输出，在此处，如果i+k>L，将会使用零向量对h_i:i+k进行补全。对h_i:i+k进行卷积后得到在卷积核f_j作用下第i个句子对应输出那么在n个不同卷积核卷积后可以得到n个第i个句子对应输出，本发明将其进行平均操作，最终获得第i个句子经CNN模型作用后的输出对文档所有的窗口进行n个不同卷积核卷积后，可以得到每个句子经CNN模型作用后的输出。最后本发明对每个句子对应输出进行归一化，可以得到第i个句子的注意力权重：

上述的基于层次性多注意力网络的文档分类方法中，步骤(6)具体是：

基于步骤(5)得到的α_i，对文档中所有句子的h_i进行加权求和可以得到整个文档的向量表示：

上述的基于层次性多注意力网络的文档分类方法中，步骤(7)具体是：

本发明将步骤(6)得到的文档向量d输入softmax层内进行文档分类，所以最终的分类输出可表示为：o＝soft max(Wd+b)，其中W为d的权重矩阵，b为d的偏置。

与现有技术相比，本发明具有如下优点和技术效果：

本发明根据文本分类中文档的建模特点，利用Bi-GRU序列模型来对文档进行从词到句，句到文档建模，在模型中充分体现文档的层次性结构；针对从词到句这个过程，为了准确地表达出不同的词在句子中的重要程度，本发明利用Bi-GRU序列模型对每个词语进行编码，获取句子中的上下文信息，采用Soft attention来对每个词语进行注意力权重的分配；对于句子到文档这个过程，本发明希望充分利用文档中句子与句子之间的局部相关信息决定每个句子在文档中重要性，因此，本发明引入了CNN attention，利用CNN模型获取窗口内句子之间的局部相关特征，从而进一步得到每个句子的注意力权重。本发明提出应用于文档分类的层次性多注意力深度网络模型，该模型充分考虑文档构成的层次特点。同时，对于文档中不同的层次，本发明可以通过不同的注意力机制准确表示出每个部分的重要程度，合理分配注意力权重。

附图说明

图1是实验中的流程示意图。

图2是CNN attention示意图。

图3是样本注意力权重示意图。

图4是样本注意力权重示意图。

具体实施方式

以下结合附图和实例对发明的实施方式作进一步说明，但本发明的实施和保护不限于此，以下若有未特别详细说明之过程或符号，均是本领域技术人员可参照现有技术理解或实现的。

本实例的一种基于层次性多注意力网络的文档分类方法，包括步骤：(1)根据文本分类中文档的建模特点，利用双向GRU序列模型来对文档进行从词到句，句到文档建模，在模型中充分体现文档的层次性结构；(2)针对从词到句这个过程，为了准确地表达出不同的词在句子中的重要程度，本发明利用双向GRU序列模型对每个词语进行编码，获取句子中的上下文信息，采用Soft attention来对每个词语进行注意力权重的分配；(3)对于句子到文档这个过程，本发明希望充分利用文档中句子与句子之间的局部相关信息决定每个句子在文档中重要性，因此，本文引入了CNN attention，利用CNN模型获取窗口内句子之间的局部相关特征，从而进一步得到每个句子的注意力权重。本发明能够根据文档特点从词到句，句到文档进行建模，充分考虑文档的层次性结构。同时，针对词语和句子级别，本发明分别采用不同的注意力机制来适当地对相关的内容进行权重的分配，从而提高文档分类的准确率。下面将进行详细地介绍。

图1为一种基于层次性多注意力网络的文档分类方法的流程示意图，具体描述如下：

(1)输入三个大规模的多标签数据集：Yelp reviews，Amazon Fine FoodReviews，Amazon Mobile Phones Reviews，分别对文档评论进行分句和分词操作，同时对文档进行去标点及大小写转换等操作。并且采用Pennington等人提出的GloVe构建词向量。针对Yelp reviews数据集(其他数据集操作类似)，假设某文档中有L个句子，第i个句子包含T_i个词语，x_it表示第i个句子中第t个词语，其向量化表示为w_it。本发明采用Bi-GRU网络对句子中的每个词语进行编码，以获取词语间上下文信息，具体过程为：

(2)引入Soft attention机制对句子中不同词语进行注意力权重分配，以表示句子中不同词语的重要程度，具体过程是：

u_it＝tanh(W_wh_it+b_w)

其中W_w为h_it的权重矩阵，b_w为h_it的偏置。

(3)基于上述步骤(1)所得的h_it和步骤(2)所得的α_it，通过加权求和来获得句子的向量表示：

(4)文档中第i个句子的向量表示为s_i,与步骤(1)类似，利用Bi-GRU网络来对句向量进行编码，具体公式如下：

(5)本发明观察到在文档当中，往往相邻的几个句子之间存在较大的相关性，即窗口内的句子之间存在一定的局部相关模式。因此本发明基于文档中一定范围内句子与句子之间的局部相关关系，引入CNN attention决定文档中每个句子的注意力权重。CNN模型模拟了生物视觉机制，可以通过多网络结构、卷积运算和降采样来提取输入的局部特征。此外，本发明把句子Bi-GRU网络输出形成的向量矩阵作为CNN模型的输入，挖掘到文档中局部相关特征的同时，也保留了句子完整的上下文信息。

如图2所示为句子到文档所采用的注意力机制，具体公式如下：

h_i:i+k＝[h_i；h_i+1；…；h_i+k-1],i∈[1,L]

(6)基于步骤(5)得到的α_i，对文档中所有句子的h_i进行加权求和可以得到整个文档的向量表示：

(7)本发明将步骤(6)得到的文档向量d输入softmax层内进行文档分类，所以最终的分类输出可表示为：o＝soft max(Wd+b)，其中W为d的权重矩阵，b为d的偏置。从而得到文档的分类

针对本发明方法进行实验论证，具体包括：

1、实验语料

本发明选取了三个大规模的多标签数据集来测试本发明的效果。本发明随机抽取数据集中80％的数据用于训练模型，20％的数据用于验证本发明效果。

Yelp reviews来自于Yelp Dataset Challenge 2017。Yelp是美国著名的商品点评网站，其数据集包含470万条用户点评，每条点评带有评分，从1分到5分。由于计算资源的限制，本发明从470万条评论数据中随机抽取形成两个数据集Yelp1、Yelp2用于模型研究,其中Yelp1包含199万条评论，Yelp2包含189万条评论。

Amazon Fine Food Reviews来自于亚马逊网站的食品评论，包括56万条评论，每条评论带有评分，从1分到5分，本发明使用全部数据用于模型研究。

Amazon Mobile Phones Reviews来自于亚马逊网站的手机评论，包括40万条评论，每条评论带有评分，从1分到5分，本发明使用全部数据用于模型研究。

2、实验数据预处理

本发明采用NLTK工具对评论文档进行分句以及分词的操作，同时对文档进行去标点及大小写转换等处理。为了构建词向量，本发明采用Pennington等人提出的GloVe词向量，其中每个词向量为300维。对于未登录词，采用均匀分布(0,1)来随机初始化词向量。

3、实验流程

本发明使用了tensorflow库来搭建网络结构，模型主要参数设置描述如下：学习率为0.01，批处理文件数为256，截断句子数为

30，截断单句词语数为40，隐藏单元数为100，卷积窗口为5，卷积核数量为5，Dropout值为0.5。

为了进行效果对比，本发明选取了与本发明相关的5种方法在4个数据集上进行5分类的实验：

(1)Bi-GRU.基于Kyunghyun提出的Gated Recurrent Unit模型，应用于文本分类。

(2)DCNN.Kalchbrenner N,Grefenstette E,Blunsom P提出的卷积神经网络模型，通过k-max-pooling方法获取句子中位置较远的词语之间的联系。

(3)Bi-GRU+attention.参考Zichao Yang,Diyi Yang,Chris Dyer等人提出的注意力机制模型，为了突出层次性的比较，本发明只构建一个层次，即从词语到文档。

(4)CRAN.Du J,Gui L,Xu R等人提出的基于注意力机制的LSTM模型，不同的是该模型只有单层结构，且注意力机制使用的是CNN attention。

(5)HSAN.为了对比不同的层次下使用不同注意力机制的效果，本发明在HMAN的基础上构建HSAN(Hierarchical Single Attention Networks)，与本发明不同的是该模型两层使用相同的注意力机制CNN attention。

4、实验结果

(1)本发明提出的HMAN模型在4个数据集上都取得不错的分类效果。通过表1可以看到4个数据集准确率出现明显差距，且Yelp reviews数据集与其他两个数据集相差10％以上。可知，在其他条件相同的情况下，由于不同数据集的差异性，模型的准确率也会有所不同。

(2)通过表1可以得出，与Bi-GRU+attention、CRAN模型相比较，HMAN模型的准确率分别高出2.3％和2.45％(数据集平均)，说明HMAN模型的层次性结构比起单层结构具有更好的效果，印证了从词到句、从句到文档模型思想的正确性。

表1不同模型分类准确率汇总(％)

(3)通过表1可以得出，Bi-GRU+attention、CRAN等基于注意力机制模型的准确率明显高于无注意力机制的Bi-GRU、DCNN模型，可见注意力机制能够准确表示出不同内容在文本当中的重要程度，获取更多有效的信息，改善分类的效果。同时，MAHN模型比起Bi-GRU、DCNN模型有4％的效果提升，也是因为模型适当地运用了注意力机制。

(4)另外，为了验证本发明能够选择出文档当中重要的词语以及句子，本发明将模型样本的注意力权重进行可视化。图3和图4为两个样本的注意力权重示意图，其中标注下划线和倾斜的句子以及词语具有更大的权重。从图3和图4中可以看出对于文档分类任务而言，重要性大的句子以及词语都被赋予了较大的权重，可以说明注意力机制在本发明中的有效应用。

Claims

1.基于层次性多注意力网络的文档分类方法，其特征在于，包括以下步骤：

(1)利用Bi-GRU模型对句子中每个词语依据其词向量进行编码，以获取词语间上下文信息；

(2)引入Soft attention机制对句子中不同词语依据对应的编码进行注意力权重分配，以表示句子中不同词语的重要程度；

(3)通过对句子中每个词语依据对应的编码和权重加权求和来获得句子的向量表示。

(4)由句子的向量表示，利用Bi-GRU模型对文档中每个句子进行编码，以获取句子间上下文信息；

(5)引入CNN attention机制对文档中不同句子依据其编码进行注意力权重分配，以表示文档中不同句子的重要程度；

(6)通过对文档中每个句子依据其编码和权重加权求和来获得文档的向量表示；

(7)由获得的文档的向量表示，通过softmax函数输出最终的分类结果。

2.如权利要求1所述基于层次性多注意力网络的文档分类方法，其特征在于所述步骤(1)具体是：假设文档中有L个句子，第i个句子包含T_i个词语，x_it表示第i个句子中第t个词语，其向量化表示为w_it；采用Bi-GRU网络对句子中的每个词语进行编码，以获取词语间上下文信息，具体过程为：

3.如权利要求1所述基于层次性多注意力网络的文档分类方法，其特征在于所述步骤(2)包括以下步骤：

(2-1)基于步骤(1)，经Bi-GRU网络输出的h_it有考虑到词语的先后关系，将当前词的Bi-GRU网络输出h_it输入到单层感知机(MLP)中，获得每个词相应的输出u_it，具体公式如下：

u_it＝tanh(W_wh_it+b_w)；

其中W_w为h_it的权重矩阵，b_w为h_it的偏置；

(2-2)通过softmax函数归一化操作后得到注意力权重α_it，也就是每个词对应的重要性指标，具体公式如下：

其中的为u_it的转置矩阵。

4.如权利要求1所述基于层次性多注意力网络的文档分类方法，其特征在于所述步骤(3)具体是：基于步骤(1)所得的h_it和步骤(2)所得的α_it，通过加权求和来获得句子的向量表示：

5.如权利要求1所述基于层次性多注意力网络的文档分类方法，其特征在于所述步骤(4)具体是：文档中第i个句子的向量表示为s_i,参照步骤(1)，利用Bi-GRU网络来对句向量进行编码，具体公式如下：

6.如权利要求1所述基于层次性多注意力网络的文档分类方法，其特征在于所述步骤(5)具体是：CNN模型使用n个不同的卷积核进行单层的卷积，对于其中第j个卷积核f_j∈R_kd，d为每个句子对应Bi-GRU隐含层维数；k个句子的窗口表示为h_i:i+k(∈R_kd)，h_i为第i个句子对应Bi-GRU隐含层输出，在此处，如果i+k>L，将会使用零向量对h_i:i+k进行补全；对h_i:i+k进行卷积后得到在卷积核f_j作用下第i个句子对应输出那么在n个不同卷积核卷积后可以得到n个第i个句子对应输出，将其进行平均操作，最终获得第i个句子经CNN模型作用后的输出对文档所有的窗口进行n个不同卷积核卷积后，得到每个句子经CNN模型作用后的输出；最后对每个句子对应输出进行归一化，得到第i个句子的注意力权重：

7.如权利要求1所述基于层次性多注意力网络的文档分类方法，其特征在于所述步骤(6)具体是：基于步骤(5)得到的α_i，对文档中所有句子的h_i进行加权求和得到整个文档的向量表示：

8.如权利要求1所述基于层次性多注意力网络的文档分类方法，其特征在于所述步骤(7)具体是：将步骤(6)得到的文档向量d输入softmax层内进行文档分类，所以最终的分类输出可表示为：o＝softmax(Wd+b)，

其中W为d的权重矩阵，b为d的偏置。