CN110765269A

CN110765269A - 基于动态词向量和层级神经网络的文档级情感分类方法

Info

Publication number: CN110765269A
Application number: CN201911051331.7A
Authority: CN
Inventors: 刘发贵; 郑来磊
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-02-07
Anticipated expiration: 2039-10-30
Also published as: CN110765269B

Abstract

本发明公开了基于动态词向量和层级神经网络的文档级情感分类方法。所述方法包括以下步骤：通过构建并训练双向语言模型来获得高质量的动态词向量；将得到的动态词向量输入到层级神经网络中以对文档进行建模，从而获得包含丰富语义信息的向量表示，并将该向量输入到softmax函数来对文档进行分类。本发明采用双向语言模型来生成高质量的动态词向量，并提出了一种层级神经网络来对文档进行建模，既解决了静态词向量对多义词的语义表达不足的问题，也进一步提升了情感分类任务中对文档建模的能力。

Description

基于动态词向量和层级神经网络的文档级情感分类方法

技术领域

本发明属于自然语言处理领域，尤其涉及一种基于动态词向量和层级神经网络的文档级情感分类方法。

背景技术

情感分类是自然语言处理领域中的重要任务之一，有着广泛的应用，包括电商网站评论分析，舆情分析与预测等。文档级情感分类任务的目的在于预测文档的情感极性，传统的方法使用tf-idf，SVM和

Bayes(Eibe Frank and Remco R Bouckaert.Naivebayes for text classification with unbalanced classes.In European Conferenceon Principles of Data Mining and Knowledge Discovery,pages 503–510.Springer,2006.)等算法建模文档(Bo Pang,Lillian Lee,and Shivakumar Vaithyanathan.Thumbsup？:sentiment classification using machine learning techniques.In Proceedingsof the ACL-02conference on Empirical methods in natural language processing-Volume 10,pages 79–86.Association for Computational Linguistics,2002.)，但是这些方法依赖于手工选择的特征，因此较为耗时。近年来，由于深度学习技术能够在大规模数据集中自动、高效地提取特征，在情感分类任务中获得了越来越多的应用。

目前深度学习技术在情感分类任务中的应用主要专注于捕获文档中的语义特征和句子间的语义关系(Jiacheng Xu,Danlu Chen,Xipeng Qiu,and XuanjingHuang.Cached long short-term memory neural networks for document-levelsentiment classification.In Proceedings of the 2016Conference on EmpiricalMethods in Natural Language Processing,pages 1660–1669,2016.)，但是现有模型主要有两种不足：

第一，忽略了词向量的质量在深度学习模型中的重要性，这限制了许多文档表征模型的性能。采用双层、双向的语言模型，能够训练出和上下文环境相关的词向量(MatthewE Peters,Mark Neumann,Mohit Iyyer,Matt Gardner,Christopher Clark,Kenton Lee,and Luke Zettlemoyer.Deep contextualized word representations.In Proceedingsof NAACL-HLT,pages 2227–2237,2018.)，提升词向量表达单词语义的能力，因此能进一步提高文档表征模型的效果。

第二，许多基于深度学习的模型一次性处理整个文档，当文档过长时会导致特征信息丢失。层级结构的神经网络(Zichao Yang,Diyi Yang,Chris Dyer,Xiaodong He,AlexSmola,and Eduard Hovy.Hierarchical attention networks for documentclassification.In Proceedings of the 2016conference of the North Americanchapter of the association for computational linguistics:human languagetechnologies,pages 1480–1489,2016；吴雨芯,蔡婷,张大斌.基于层级注意力机制与双向长短期记忆神经网络的智能合约自动分类模型[J/OL].计算机应用:1-9.)将文档划分为多个句子，又将句子划分为多个单词，并在第一层中输入句子中的每个单词对应的词向量，从而获得句子的表征；再在第二层中输入所有的句子表征，从而获得文档表征向量。这种分层处理的架构既能避免特征信息丢失的问题，也能更好地捕获文档的语义特征和句子间的语义关系。

发明内容

本发明提供了基于动态词向量和层级神经网络的文档级情感分类方法，具体包括高质量的动态词向量的生成方法，以及使用层级神经网络对文档进行建模的方法。

本发明的目的至少通过如下技术方案之一实现。

基于动态词向量和层级神经网络的文档级情感分类方法，包括以下步骤：

S1、通过构建并训练双向语言模型以获得高质量的动态词向量；高质量的动态词向量为与单词所在句子的语义相关的词向量；

S2、将得到的动态词向量输入到层级神经网络中以对文档进行建模以获得文档表征向量，并将该向量输入到softmax函数中以对文档进行分类。

进一步地，步骤S1包括以下步骤：

S1.1、构建并训练双向语言模型；

S1.2、将文档中的单词序列输入到训练好的双向语言模型中，得到高质量的动态词向量。

进一步地，步骤S1.1中，所述双向语言模型为一个两层的语言模型，每层均由双向长短期记忆神经网络biLSTM组成，该语言模型以句子作为输入单位，在输入层将句子输入到第一层语言模型中以计算该句子出现的概率，而句子的概率由计算句子中每一个单词从前向和后向出现的概率累乘得到；第一层的输出向量作为第二层语言模型的输入再进行训练，单词的动态词向量由输入层和两层语言模型的输出经加权求和得到；

每层biLSTM的隐藏层单元数均为128，输出的向量维度为256，所述双向语言模型的输入为一个由N个单词组成的句子序列(w₁,w₂,…,w_N)，该序列输入到两层biLSTM中，两层biLSTM分别从前向和后向提取输入的单词序列中的特征，第一层提取单词的语义特征，第二层提取和上下文环境相关的语法特征，最后的词向量由两层biLSTM的输出向量和输入层向量经加权求和后得到。

所述双向语言模型的训练目标为使得单词序列中的每一个单词都生成对应的词向量，双向语言模型的训练过程中，使用10亿单词训练集对该模型训练10个epoch，mini-batch设置为64，训练机器为GTX TitanX×4。

进一步地，步骤S1.2中，动态词向量的生成过程如下：

给定一个由N个单词组成的句子(w₁，w₂，...，w_N)，定义如下所示的计算句子的概率的双向语言模型(biLM)：

p(w₁，w₂，...，w_N)＝∏_k＝1p(w_k|w₁，w₂，...，w_k-1)； (1)

p(w₁，w₂，...，w_N)＝∏_k＝1p(w_k|w_k+1，w_k+2，...，w_N)； (2)

公式(1)和(2)分别表示从前向和后向处理输入语句的语言模型，w_k表示第k个单词，p()表示求取概率；biLM由最大化前向和后向语言模型的联合对数概率之和得到：

将biLM堆叠L层以进一步提取高级语义特征，单词w_k的表征通过聚合所有层的特征来计算：

其中，

表示输入层LM，

表示计算第k个单词时的第j层biLM，L为biLM堆叠的层数，设定L为2，即堆叠双层；

单词w_k的最终词向量通过对输入层LM、第1到第L层的biLM加权求和得到：

其中，Emb(w_k)为第k个单词的词向量表示，α_j为第j层的权重值，该值被随机初始化为[0，...，1]之间，在训练过程中作为超参数自动学习得到，R_k，j为单词w_k在第j层的表示。

进一步地，步骤S2包括以下步骤：

S2.1、构建层级神经网络；

S2.2、将步骤1中得到的动态词向量输入层级神经网络中，得到文档表征向量，该向量输入至softmax函数以得到文档的情感分类结果。

进一步地，步骤S2.1中，所述层级神经网络由两层网络构成：

第一层中，使用双向门控循环神经网络biGRU和注意力机制来对文档中的句子进行建模以获得句子表征；其中，biGRU用于捕获句子中的长依赖关系，注意力机制用于提取句子中的重要单词；

第二层中，将所有的句子表征传入另一个biGRU以获得文档的初步表征，biGRU由重置门和更新门组成，用于控制将哪些历史状态信息保存到当前状态中；此层使用了biGRU网络有两种不同类型的输出：

第一种，biGRU的每个神经单元都输出一个向量并组成一个矩阵，然后使用卷积神经网络CNN提取该矩阵的局部特征，获得局部特征向量；

第二种，将biGRU的最后一个神经单元作为输出以获得文档的全局特征向量；

将CNN提取的局部特征向量和biGRU提取到的全局特征向量相结合以得到最终的文档表征向量，该向量输入至softmax函数以得到文档的情感分类结果。

进一步地，双向门控循环神经网络biGRU中，GRU由两个门组成，即重置门r_t和更新门z_t，用于控制将哪些信息保存到当前状态g_t；在当前时间t，前向GRU

将信息更新为：

z_t＝sigmoid(W_zx_t+U_zg_t-1+b_z)； (7)

r_t＝sigmoid(W_rx_t+U_rg_t-1+b_r)；(8)

其中x_t，g_t-1，分别是输入向量，上一状态和当前候选状态；

表示乘法运算；公式(7)决定保留过去信息的状态单元的数量以及添加了多少新信息，而公式(8)控制过去状态对当前状态的贡献；如果(8)等于零，则丢弃先前的状态；

是在训练期间学习的超参数；H和d是隐藏单位和输入向量的维度；

前向GRU

处理从w₁到w_N的句子，而后向GRU

从w_N到w₁处理句子；将

和

相连接以得到biGRU：

x_i＝Emb(w_i)，i∈[1，N]； (10)

其中，

和

分别表示将单词x_i输入到前向和后向GRU中，两者对应的输出向量为

和

和

相连接后得到了双向门控循环神经网络biGRU的输出g_i。

进一步地，在一个句子中，不同的单词对句子的语义信息贡献并不相同，所述注意力机制用于提取出对句子语义重要的单词：

首先，使用单层MLP获得g_t的隐藏层表示u_t：

u_t＝tanh(W_wg_t+b_w)； (14)

其中，W_w和b_w在训练期间学习的超参数；使用softmax函数来衡量每个单词的重要性，表示为α_t：

最后，使用α_t计算单词注解g_t的加权和来获得句子S的表示：

S＝∑_t α_tg_t； (16)

每个句子S的表示是一个与

具有相同形状的向量，前向和后向GRU级联后是原始维度的两倍。

进一步地，所述卷积神经网络CNN的结构包含卷积层、最大池化层和全连接层。其中，卷积层中使用卷积滤波器对输入的矩阵进行卷积操作以得到特征图，最大池化层使用池化操作提取特征图中的最优特征，最后使用全连接层将最优特征向量映射至所需的维度；卷积神经网络CNN提取文档特征的过程如下：

给定包含L个句子的文档，通过层级神经网络的第一层得到句子向量集合[S₁，S₂，...，S_L]，将句子向量输入到biGRU中，该biGU的每个状态单元均输出一个向量并组成矩阵M＝[S′₁，S′₂，...，S′_L]，

令

为卷积滤波器，该卷积滤波器每次处理h个句子；使用卷积滤波器从文档矩阵M中提取特征并生成特征图m，第s个卷积滤波器的特征m_s由如下生成：

m_i＝tanh(fM_i：i+h-1+b)； (17)

其中，b是偏置项，tanh()为激活函数。最终生成的特征图m为：

m＝[m₁；m₂；…；m_L-h+1]； (18)

然后在m上应用最大池化操作，最大池化操作是指：对于特征图m的每一行向量，取其最大值作为该行向量的最优特征，然后通过全连接层将最大池化后的特征向量映射到

最终的文档表征向量由g_last和r级联后得到，其中g_last为第二种biGRU的输出向量。

进一步地，步骤S2.2中，文档的情感分类结果p经softmax函数计算得到：

p＝softmax(W_cv+b_c)； (19)

其中，W_c和b_c分别为权重值和偏置项，两者均为在训练期间学习得到的超参数，c为文档的情感类别数，v是最终的文档表征向量。

与现有技术相比，本发明具有如下的优点与技术效果：

1、本发明从词向量的表达、文档建模方法两个阶段均对情感分类方法进行了优化。

2、本发明为多义词根据其上下文环境生成不同的词向量，提升了词向量的语义表达能力。

3、本发明使用了层级神经网络，分别从句子和文档层对文档进行建模，能够更好地捕获句子间的依赖关系，有效避免了大多数现有方法中，一次性处理整个文档时长距离特征信息丢失的问题。

4、本发明使用了biGRU和注意力机制来对句子进行建模，既能提取到句子的全局特征，也能挖掘出对语义贡献较大的单词，从而提高了模型的精度。

5、本发明利用了biGRU每个状态单元均可输出向量的特点，将这些状态单元的输出向量组成矩阵，并经由CNN处理以提取局部特征，CNN输出的向量与biGRU的最后一个输出向量相级联后得到最终的文档表征向量。这一过程能够结合CNN和biGRU分别提取局部特征和全局特征的优势，有效提升了模型的效果。

附图说明

图1为本发明实施例中基于动态词向量和层级神经网络的文档级别情感分类方法的结构示意图。

图2为本发明实施例中用于生成动态词向量的双向语言模型的示意图。

图3a和图3b为本发明实施例中biGRU的两种不同输出类型的示意图。

图4为本发明实施例中CNN处理文档矩阵的示意图。

具体实施方式

为了使本发明的技术方案及优点更加清楚明白，以下结合附图和实施例，对本发明的具体实施进行进一步的详细说明，但本发明的实施和保护不限于此。

实施例：

基于动态词向量和层级神经网络的文档级情感分类方法，如图1所示，包括以下步骤：

S1、通过构建并训练双向语言模型以获得高质量的动态词向量；高质量的动态词向量为与单词所在句子的语义相关的词向量；包括以下步骤：

S1.1、构建并训练双向语言模型；

如图2所示，所述双向语言模型为一个两层的语言模型，每层均由双向长短期记忆神经网络biLSTM组成，该语言模型以句子作为输入单位，在输入层将句子输入到第一层语言模型中以计算该句子出现的概率，而句子的概率由计算句子中每一个单词从前向和后向出现的概率累乘得到；第一层的输出向量作为第二层语言模型的输入再进行训练，单词的动态词向量由输入层和两层语言模型的输出经加权求和得到；

每层biLSTM的隐藏层单元数均为128，输出的向量维度为256，所述双向语言模型的输入为一个由N个单词组成的句子序列，(w₁,w₂,…,w_N)，该序列输入到两层biLSTM中，两层biLSTM分别从前向和后向提取输入的单词序列中的特征，第一层提取单词的语义特征，第二层提取和上下文环境相关的语法特征，最后的词向量由两层biLSTM的输出向量和输入层向量经加权求和后得到。

所述双向语言模型的训练目标为使得单词序列中的每一个单词都生成对应的词向量，双向语言模型的训练过程中，使用论文(One Billion Word Benchmark forMeasuring Progress inStatistical Language Modeling，Ciprian et al.，数据集下载地址：http：//statmt.org/wmt11/training-monolingual.tgz)中所公开的10亿单词训练集对该模型训练10个epoch，mini-batch设置为64，训练机器为GTX TitanX×4。

S1.2、将文档中的单词序列输入到训练好的双向语言模型中，得到高质量的动态词向量，动态词向量的生成过程如下：

给定一个由N个单词组成的句子，(w₁，w₂，...，w_N)，定义如下所示的计算句子的概率的双向语言模型(biLM)：

p(w₁，w₂，...，w_N)＝∏_k＝1p(w_k|w₁，w₂，...，w_k-1)； (1)

p(w₁，w₂，...，w_N)＝∏_k＝1p(w_k|w_k+1，w_k+2，...，w_N)； (2)

其中，

表示输入层LM，

S2、将得到的动态词向量输入到层级神经网络中以对文档进行建模以获得文档表征向量，包括以下步骤：

S2.1、构建层级神经网络；该层级神经网络分别从句子级和文档级提取特征，能够挖掘出文档的深层语义信息，得到文档表征向量；

所述层级神经网络由两层网络构成：

双向门控循环神经网络biGRU中，GRU由两个门组成，即重置门r_t和更新门z_t，用于控制将哪些信息保存到当前状态g_t；在当前时间t，前向GRU

将信息更新为：

z_t＝sigmoid(W_zx_t+U_zg_t-1+b_z)； (7)

r_t＝sigmoid(W_rx_t+U_rg_t-1+b_r)； (8)

其中x_t，g_t-1，

分别是输入向量，上一状态和当前候选状态；表示乘法运算；公式(7)决定保留过去信息的状态单元的数量以及添加了多少新信息，而公式(8)控制过去状态对当前状态的贡献；如果(8)等于零，则丢弃先前的状态；

前向GRU

处理从w₁到w_N的句子，而后向GRU

从w_N到w₁处理句子；将

和

相连接以得到biGRU：

x_i＝Emb(w_i)，i∈[1，N]； (10)

其中，

和

和

和

相连接后得到了双向门控循环神经网络biGRU的输出g_i。

在一个句子中，不同的单词对句子的语义信息贡献并不相同，所述注意力机制用于提取出对句子语义重要的单词：

首先，使用单层MLP获得g_t的隐藏层表示u_t：

u_t＝tanh(W_wg_t+b_w)； (14)

其中，W_w和b_w在训练期间学习的超参数。使用softmax函数来衡量每个单词的重要性，表示为α_t：

S＝∑_t α_tg_t； (16)

每个句子S的表示是一个与

第二层中，假设文档具有L个句子，[s₁，s₂，...，s_L]，将所有的句子表征传入另一个biGRU以获得文档的初步表征，biGRU由重置门和更新门组成，用于控制将哪些历史状态信息保存到当前状态中。如图3a和图3b所示，biGRU网络有两种不同类型的输出：

图3a中，biGRU使用最后一个隐藏向量作为全局特征向量；图3b中，biGRU汇总了所有隐藏单元的输出，以形成文档矩阵

该矩阵经由CNN处理以获得局部特征向量

如图4所示，所述卷积神经网络CNN的结构包含卷积层、最大池化层和全连接层。其中，卷积层中使用卷积滤波器对输入的矩阵进行卷积操作以得到特征图，最大池化层使用池化操作提取特征图中的最优特征，最后使用全连接层将最优特征向量映射至所需的维度；卷积神经网络CNN提取文档特征的过程如下：

给定包含L个句子的文档，通过层级神经网络的第一层得到句子向量集合[S₁，S₂，...，S_L]，将句子向量输入到图3b所示的biGRU中，该biGU的每个状态单元均输出一个向量并组成矩阵M＝[S′₁，S′₂，...，S′_L]，

令

m_s＝tanh(fM_s：s+h-1+b)； (17)

m＝[m₁；m₂；…；m_L-h+1]； (18)

然后在m上应用最大池化操作，最大池化操作是指：对于特征图m的每一行向量，取其最大值作为该行向量的最优特征，然后通过全连接层将最大池化后的特征向量映射到最终的文档表征向量

由g_last和r级联后得到，其中g_last为第二种biGRU的输出向量。

S2.2、将步骤1中得到的动态词向量输入层级神经网络中，得到最终的文档表征向量，该向量输入至softmax函数以得到文档的情感分类结果：

p＝softmax(W_cv+b_c)； (19)

其中，W_c和b_c分别为权重值和偏置项，两者均为在训练期间学习得到的超参数，c为文档的情感类别数；v是最终的文档表征向量。

上述流程为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.基于动态词向量和层级神经网络的文档级情感分类方法，其特征在于，包括以下步骤：

S1、通过构建并训练双向语言模型以获得高质量的动态词向量；

2.根据权利要求1所述的基于动态词向量和层级神经网络的文档级情感分类方法，其特征在于，步骤S1包括以下步骤：

S1.1、构建并训练双向语言模型；

3.根据权利要求2所述的基于动态词向量和层级神经网络的文档级情感分类方法，其特征在于，步骤S1.1中，所述双向语言模型为一个两层的语言模型，每层均由双向长短期记忆神经网络biLSTM组成，该语言模型以句子作为输入单位，在输入层将句子输入到第一层语言模型中以计算该句子出现的概率，而句子的概率由计算句子中每一个单词从前向和后向出现的概率累乘得到；第一层的输出向量作为第二层语言模型的输入再进行训练，单词的动态词向量由输入层和两层语言模型的输出经加权求和得到；

每层biLSTM的隐藏层单元数均为128，输出的向量维度为256，所述双向语言模型的输入为一个由N个单词组成的句子序列(w₁，w₂，...，w_N)，该序列输入到两层biLSTM中，两层biLSTM分别从前向和后向提取输入的单词序列中的特征，第一层提取单词的语义特征，第二层提取和上下文环境相关的语法特征，最后的词向量由两层biLSTM的输出向量和输入层向量经加权求和后得到；

4.根据权利要求2所述的基于动态词向量和层级神经网络的文档级情感分类方法，其特征在于，步骤S1.2中，动态词向量的生成过程如下：

p(w₁，w₂，...，w_N)＝∏_k＝1p(w_k|w₁，w₂，...，w_k-1)； (1)

p(w₁，w₂，...，w_N)＝∏_k＝₁p(w_k|w_k+1，w_k+2，...，w_N)； (2)

其中，

表示输入层LM，

5.根据权利要求1所述的基于动态词向量和层级神经网络的文档级情感分类方法，其特征在于，步骤S2包括以下步骤：

S2.1、构建层级神经网络；

6.根据权利要求5所述的基于动态词向量和层级神经网络的文档级情感分类方法，其特征在于，步骤S2.1中，所述层级神经网络由两层网络构成：

第二层中，将所有的句子表征传入另一个biGRU以获得文档的初步表征，biGRU由重置门和更新门组成，用于控制将哪些历史状态信息保存到当前状态中；第二层中使用了biGRU网络两种不同类型的输出：

7.根据权利要求6所述的基于动态词向量和层级神经网络的文档级情感分类方法，其特征在于，双向门控循环神经网络biGRU中，GRU由两个门组成，即重置门r_t和更新门z_t，用于控制将哪些信息保存到当前状态g_t；在当前时间t，前向

将信息更新为：

z_t＝sigmoid(W_zx_t+U_zg_t-1+b_z)； (7)

r_t＝sigmoid(W_rx_t+U_rg_t-1+b_r)； (8)

其中x_t，g_t-1，

分别是输入向量，上一状态和当前候选状态；○表示乘法运算；公式(7)决定保留过去信息的状态单元的数量以及添加了多少新信息，而公式(8)控制过去状态对当前状态的贡献；如果(8)等于零，则丢弃先前的状态；

前向处理从w₁到w_N的句子，而后向

从w_N到w₁处理句子；将

和相连接以得到biGRU：

x_i＝Emb(w_i)，i∈[1，N]； (10)

其中，

和分别表示将单词x_i输入到前向和后向GRU中，两者对应的输出向量为

和

和

相连接后得到了双向门控循环神经网络biGRU的输出g_i。

8.根据权利要求6所述的基于动态词向量和层级神经网络的文档级情感分类方法，其特征在于，所述注意力机制用于提取出对句子语义重要的单词：

首先，使用单层MLP获得g_t的隐藏层表示u_t：

u_t＝tanh(W_wg_t+b_w)； (14)

S＝∑_tα_tg_t； (16)

每个句子S的表示是一个与

9.根据权利要求6所述的基于动态词向量和层级神经网络的文档级情感分类方法，其特征在于，所述卷积神经网络CNN的结构包含卷积层、最大池化层和全连接层；其中，卷积层中使用卷积滤波器对输入的矩阵进行卷积操作以得到特征图，最大池化层使用池化操作提取特征图中的最优特征，最后使用全连接层将最优特征向量映射至所需的维度；卷积神经网络CNN提取文档特征的过程如下：

给定包含L个句子的文档，通过层级神经网络的第一层得到句子向量集合[S₁，S₂，...，S_L]，将句子向量输入到biGRU中，该biGU的每个状态单元均输出一个向量并组成矩阵

令

m_s＝tanh(fM_s：s+h-1+b)； (17)

其中，b是偏置项，tanh()为激活函数；最终生成的特征图m为：

m＝[m₁；m₂；…；m_L-h+1]； (18)

最终的文档表征向量

由glast和r级联后得到，其中g_last为第二种biGRU的输出向量。

10.根据权利要求5所述的基于动态词向量和层级神经网络的文档级情感分类方法，其特征在于，步骤S2.2中，文档的情感分类结果p经softmax函数计算得到：

p＝softmax(W_cv+b_c)； (19)

其中，W_c和b_c分别为权重值和偏置项，两者均为在训练期间学习得到的超参数，c为文档的情感类别数，v表示最终的文档表征向量。