CN111858945A

CN111858945A - 基于深度学习的评论文本方面级情感分类方法及系统

Info

Publication number: CN111858945A
Application number: CN202010776165.3A
Authority: CN
Inventors: 刘文远; 郭智存; 于家新; 付闯
Original assignee: Shanghai Habee Information Technology Co ltd
Current assignee: Shanghai Habee Information Technology Co ltd
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2020-10-30
Anticipated expiration: 2040-08-05
Also published as: CN111858945B

Abstract

本发明提供一种基于深度学习的评论文本方面级情感分类方法，先将评论文本进行预处理，包括分词和去除停用词，然后对方面词及对应的标签进行平衡处理，生成平衡样本，再将平衡样本与原始样本中的中文词语进行向量化，获得平衡样本中的词向量；输入到模型中进行评论结果的预测；所述模型是根据深度神经网络构建的深度学习模型，通过方面词的词向量与句子其他词语进行相似度计算，生成平衡样本的方面情感语义矩阵。本发明通过平衡处理和构建Attn‑Bi‑LCNN模型，能够有效输出情感语义矩阵，提高了模型的精准度与实际应用时的预测速度，从而使本发明的方法适用于文本的方面级细粒度情感分类。

Description

基于深度学习的评论文本方面级情感分类方法及系统

【技术领域】

本发明涉及是深度学习在自然语言处理领域内的共识算法，尤其是一种基于深度学习的评论文本方面级情感分类方法，还涉及实现所述方法的系统。

【背景技术】

在当今的大数据时代，每天都有大量的数据产生。互联网的普及，不仅使得人与人之间的联系更为紧密，更是使得人与信息之间的联系更为频繁。互联网的出现不仅使得信息的传播更为便捷，更是激发起人们分享信息的欲望，尤其是当今的年轻人更是愿意在各种社交媒体和门户网站上发表自己的言论以此表达自己的情感。挖掘这种大量的含有个人情感的博客，微博，商品评价和事物评论等，不仅能够了解用户的情感倾向，同时也能够为其他文本应用领域带来辅助作用。

当今社会，互联网已经成为人们获取信息的主要来源，当人们通过网络浏览他人发表的带有情感倾向的言论时，往往受其影响，尤其是对商店或商品等评论，能够轻易地影响顾客的选择。例如，随着社会的发展和人们经济水平的提高，越来越多的人选择外出就餐，人们可以从互联网上获取到各种餐馆的信息。但是与餐馆自身介绍相比，人们往往更加看重其他顾客对于餐馆的评价。这是因为，顾客的评论往往更加真实，更加客观，与餐馆自身介绍相比更加贴合真实情况。从餐馆自身的长远发展来看，已经评论的顾客和浏览评论的顾客都是下一个潜在客户。因此，了解顾客在评论中所谈及餐馆的优点和不足显得尤为重要。但是，在信息社会的背景下，这种文本评论的数量依然还在快速增长中，想要依靠人力去判断文本中所包含的情感倾向是不现实的。所以，借助人工智能的方法来挖掘文本情感，是目前主流并且有效的方法。对于潜在客户而言，也无需再逐条浏览评论，人为归纳分析是否值得去消费。利用人工智能挖掘文本情感倾向也能够大幅度提升客户的获取信息效率，提升客户消费体验。

文本的情感分析是自然语言处理研究的重要领域之一，情感分析的目的就是挖掘出文本所蕴含的情感极性。传统的情感分析主要是针对整个句子的情感极性。随着技术的发展和用户的需求的增加，传统的情感分析显然不能够满足用户的需求。例如，“这个餐馆饭菜很好，但是卫生不行”，这时传统的情感分析就不能够进行很好的判断。因为，“饭菜”方面情感极性为好，“卫生”方面情感极性为差。如果单纯的判断句子的情感极性好坏，那么往往会误导顾客，影响顾客判断。所以，对文本进行方面级细粒度的情感分析无论对于商家自身的改进，还是帮助顾客进行更为精准的判断都是十分重要的。

【发明内容】

本发明的目的是针对现有技术缺陷，提供一种具有动态生成平衡样本同时预测所有方面的方面级情感分类方法，在传统卷积神经网络、长短期记忆网络等算法的基础上做出了改进和优化，提高了算法的实际应用能力，使之更适用于文本的方面级细粒度情感分类。

本发明的思路是在数据平衡方面采取批处理平衡方法替代传统的上采样和下采样，使之平衡方法适用于多标签多分类问题。其次，利用注意力机制实现同时对不同方面的情感倾向的关注，由传统的情感语义向量转化为情感语义矩阵，在保证算法准确度的前提下，提高了算法的预测速度。

为了实现上述目的，本发明提供一种基于深度学习评论文本方面级情感分类方法，所述方法包括以下步骤：

(1)将评论文本进行预处理，所述预处理包括分词和去除停用词，得到文本中的方面词及对应的标签；

(2)对所述方面词及对应的标签进行平衡处理，获得评论文本的平衡标签；根据所述平衡标签生成平衡样本；

(3)将平衡样本和原始样本中的中文词语进行向量化，获得平衡样本中的词向量；

(4)将所述词向量输入到模型中进行评论结果的预测；

所述的模型是根据深度神经网络构建的深度学习模型，通过方面词的词向量与句子其他词语进行相似度计算，生成平衡样本的方面情感语义矩阵；利用情感语义矩阵同时计算平衡样本内所有方面的情感倾向；所述模型根据训练文本的标签来计算模型损失，通过模型损失的反向传播优化神经网络中的权重；

(5)所述模型的输出结果采用Softmax函数进行激活：

其中e_i为对应标签得分，Softmax函数将得分转换为0-1之内的概率值，概率值最大的类别即为模型预测类别。

在本发明中，步骤(2)通过平衡标签生成平衡样本的意义在于避免模型对数量多的类别预测产生倾向性。例如一个batch中只有一个训练语句：“这个酒店环境很好，服务很好，菜品一般”，这条语句中涉及到三个方面：环境——好，服务——好，菜品——一般。但是积极标签有两个，中性标签有一个，标签出现了不平衡的现象。这时，自动生成法自动生成另外一条训练文本，自动生成文本可以直接为 “服务一般——中性”，这时训练数据就包括两个文本，一条为原始文本，一条为根据原始标签自动生成平衡文本，将这两条文本重新作为新的batch进行训练，这样每次训练的数据类别数量都是平衡的，因此能够避免模型对数量多的类别预测产生倾向性。

批处理平衡算法代码实现步骤如下：

对平衡样本中的中文词语进行向量化生成的平衡样本的方面情感语义矩阵的每一行即为每一方面的情感向量。但是不同的方面的情感极性不同，同时也意味着不同方面对于句子的关注点是不同的，所以在这里，本模型采用注意力机制解决这一问题。矩阵的每一行情感语义向量都是通过注意力机制与模型上一层输出计算得出的语义向量进行计算，并赋予不同的关注权重，实现对不同方面的情感更好地预测。

在本发明中，采用深度学习Attn-Bi-LCNN模型结构实现平衡处理，利用方面词向量进行注意力机制计算，形成情感语义矩阵，如图1所示。

Attn-Bi-LCNN模型结构各网络层作用如下所示：

(1)Embedding层

模型中的Embedding层的作用是将词语映射为词向量，Embedding 层的本质即为一层全连接层，其内部权重即为词向量。因此，我们可以将Word2vec训练好的词向量作为Embedding层权重，同时也可以使用腾讯提供词向量作为权重。

通过Embedding层之后，将训练文本转换为文本矩阵，矩阵的第i 行即为句子中第i个词的词向量，结果如公式(1)所示。

S＝R^L×d (1)

根据公式(1)可知，文本矩阵大小为L×d，其中L为矩阵行数，同时也是句子词语数，d为词语向量化维度。

(2)Bi-LSTM层

Bi-LSTM层的作用是为了提取句子中单词之间的顺序特征，并对句子表示进行记忆存储。Bi-LSTM表示双向LSTM，当文本矩阵中的词语按照时间顺序输入到双向LSTM中，会获取当前词的前向语义表示ht 和反向语义表示h’t，并将二者拼凑起来得到当前词的完整语义表示[ht， h’t]。

同样，文本向量矩阵经过Bi-LSTM层的输出为文本的高维语义表示，输出结果如公式(2)所示：

其中，S_lstm代表文本高维语义表示矩阵，l代表句子长度，d_lstm代表 Bi-LSTM隐藏层维度大小，矩阵的每一行即为对应词的完整语义表示 [ht，h't]。

(3)CNN层

CNN层的作用是为了提取高维语义表示中的词与词之间的关系。循环神经网络的第i个词会受到前i-1个词的记忆影响，与循环神经网络不同，此处CNN的作用是为了提取相邻若干个词之间的关系，对窗口之外的词并无任何影响。

本处CNN层采用的是前文介绍的CNN的一维卷积，其卷积结果由卷积核大小和卷积核步数决定。结果如公式(3)所示。

其中S_CNN为卷积之后的句子向量，C代表卷积操作，d_CNN代表_SCNN维度大小，具体值由设置超参数决定。

(4)Attention层

本文采用的是自我注意力机制，其注意力权重计算公式如公式(4) 所示。

A＝softmax(V_atanh(W_mD^T)) (4)

其中公式(4)中的A即为注意力权重矩阵，矩阵的每一列即代表一个方面的注意力权重；D_T代表卷积神经网络卷积核得出的语义向量所组成的矩阵，矩阵的每一行即为图2中的dⁱ _CNN，代表不同就不同卷积核卷积得到的特征向量；公式中的W_m代表D_T的权重矩阵，相当于一层全连接神经网络，其神经元数目为m个，为超参数；此处的V_a与原始作者提出的为随机初始向量不同，此处的V_a为方面词词向量矩阵，矩阵的每一行代表训练数据的各个方面词向量化得到的词向量，此处在实验中可以进行微调更新或者不参与更新。最后通过Softmax激活函数对结果进行激活得到注意力权重矩阵A。

得到不同方面的注意力权重之后，将权重矩阵A与卷积层得到的语义向量进行相乘，得到不同方面的情感语义矩阵。计算公式如公式(5) 所示。

S＝A×D (5)

(5)隐藏层

隐藏层等同于前面介绍的全连接神经网络，起到特征融合和降维的作用，对于特征向量，可以通过设置隐藏层大小，进行升维或降维的作用。

(6)输出层

本发明为了实现方面级细粒度情感分析，属于分类问题，所以选择Softmax函数作为输出层激活函数，其计算结果即为模型预测结果。

输出层Softmax层计算公式如公式(6)所示。

其中，分子e_i代表向量中第i个元素的值；分母∑_je_j代表向量中所有元素的和。

在本发明中，采用正态分布初始化和Kaiming初始化相结合的方式对所述隐藏层进行权重初始化，其中，全连接层采用正态分布初始化，模型中的卷积层采用Kaiming初始化，通过两种初始化结合的方式对网络模型各个代表层进行权重初始化。

基于上述方法，本发明还提供实现评论文本方面级情感分类方法的系统，所述系统包括：

(1)对文本数据预处理装置，所述预处理包括分词和去除停用词，得到文本中的方面词及对应的标签；

(2)数据平衡装置，针对原始文本动态生成平衡标签，根据平衡标签生成新的样本。将原始数据与生成数据一起作为新的训练样本。

(3)词向量生成装置，词向量生成装置的作用是将词语转化为高维向量，用以输入到模型中。

(4)神经网络训练装置，用以搭建系统所用的深度学习模型；

所述神经网络搭建方式是：定义模型的输入序列的同时，准备好其训练标签；定义输入样本X＝[x₁,…,x_n]，其对应标签为Y＝[y₁,…,y_n]；其中，y_i为第i方面的标签；将数据前向输入到模型中，根据其对应标签反向传播，通过优化模型权重W来减少损失；

利用注意力机制来关注句子中对不同方面的侧重点，形成情感语义矩阵，一次性预测所有方面的情感；

(5)神经网络预测装置，用以检验模型学习能力并投入到实际应用；

将待预测样本输入到预训练好的模型中，将模型预测结果的最大值作为模型预测结果。

与现有技术相比，传统的神经网络结构通常是将文本转化为单一语义向量，例如RCNN，LSTM+Attention等，但是由于文本往往蕴含多个方面的不同情感，单一语义向量可能无法准确预测所有方面的情感，需要重复预测。而本发明通过构建Attn-Bi-LCNN模型，模型输出结果为情感语义矩阵，矩阵的每一行即为一个方面的情感，大大提高了模型的精准度与实际应用时的预测速度，从而使本发明的方法适用于文本的方面级细粒度情感分类。

【附图说明】

图1为本发明的Attn-Bi-LCNN模型图；

图2为本发明中模型结构中的注意力层具体结构；

图3为全连接网络结构图；

图4为实施例1的流程图。

【具体实施方式】

以下实施例用于非限制性地解释本发明的技术方案。

实施例1

为了实现评论文本方面级细粒度情感分析，借助现有的神经网络技术，本发明在神经网络训练前加入神经网络权重的预处理。在神经网络计算过程中，其前向传播的本质即为矩阵乘法，而神经网络中的参数本质形式为参数矩阵。全连接神经网络如图3所示。

全连接神经网络由三层构成：输入层、隐藏层、输出层。其中输入层代表输入数据，用向量x表示，在上图中x∈3×1的列向量。隐藏层代表神经网络的权重层，其中包含隐藏层权重，以图3为例，隐藏层权重即为w∈4*3。在神经网络的前项计算中，数据由输入层流向隐藏层并参与计算，其计算结果o的数学表达式如公式(1)所示。

o＝w*x (1)

其中，o为大小为4×1的列向量。在上述计算过程中，表明神经网络的本质其实是矩阵乘法，输入数据是已知的，但是隐藏层的神经网络权重却是未知的，需要人为进行初始化，如果初始化的初始权重随意设置，可能会引起前向传播计算爆炸或计算消失等问题。如果初始化矩阵数值过大，并且神经网络层数较深，那么数据每一次经过隐藏层都会对原有结果进行放大，从而导致输出结果过大。输出结果过大则会导致神经网络在反向传播过程中更新缓慢，从而导致学习缓慢，甚至致使神经网络学习器无法学习。同理，如果神经网络初始权重过小，则会导致最终输出结果过小，从而导致输出结果计算的损失收敛缓慢或无法收敛，导致神经网络无法进行学习。

为了避免上述问题的出现，对神经网络的初始化显得尤为重要。常见的网络初始化有正态分布初始化，Kaiming初始化等。

其中正态分布初始化的意思是将神经网络的初始化权重按照正态分布进行初始化，其中正态分布的期望与方差需要根据具体情况人为设置。

Kaiming初始化也称为Kaiming均匀分布，由何凯明提出。其初始化表达为参数为bound的均匀分布：μ＝(-bound，bound)。其中bound 计算方式由公式(2)所示。

其中，a代表ReLU激活函数的负斜率，fan_in代表保持前向传播的权重方差的数量级。

为避免前向传播中出现输出结果爆炸或者结果消失等现象，本发明采用正态分布初始化和Kaiming初始化相结合的方式对神经网络的隐藏层进行权重初始化，其中全连接层采用正态分布初始化，模型中的卷积层采用Kaiming初始化，通过两种初始化结合的方式对网络模型各个代表层进行权重初始化。本发明的网络权重初始化算法如下：

假定训练句子s＝{W₁，W₂，…，W_i，…，W_n}，其中Wi代表句子中第i个词，句子共有n个词。模型的输入即为训练句子s的词向量矩阵 V，其中V∈R^n×d，d为词语向量化维度。句子矩阵的第i行即为句子中 W_i的词向量表示。

方面级别细粒度情感分类就是将训练数据输入到模型中，并由模型判断个方面情感极性。例如句子“这个酒店环境很好，就是有些贵”，需要将句子分词之后去除停用词之后得到的结果进行向量化，并将向量化之后的句子矩阵输入到模型中。当判断“环境”方面时，模型输出应为积极；当判断“价格”方面时，模型输入结果为消极。

通过采用批处理随机梯度下降和随机梯度下降相结合的方式，即每次输入模型中的数据为若干条或单条待训练文本。因为循环神经网络能够处理任意长度的文本序列，所以在输入数据中需要我们对数据进行可变长度处理——对较短长度的句子进行填充。最终输入到模型中的数据大小为R^B×L×d，其中B为批处理数据量，L为批处理数据中句子最大长度，d为词向量维度。

当确定好输入数据以及采用深度学习方法后，下一步即是训练模型。模型的训练本质上就是对模型中参数进行优化更新，找到最合适的参数集合。与此同时，为了更好更快地找到参数最优近似解，本发明采用批处理随机梯度下降法与随机梯度下降相结合的方式：即每次训练所有数据中的一部分或其中一个，然后利用上述介绍的反向传播算法进行参数更新，等所有数据完成一次训练即为一轮训练，随后进行多轮训练。梯度下降法与其他更新方式相比，梯度下降法需要选择步长，随后进行迭代求解，梯度下降法公式如公式(7)所示：

w＝w′-ηΔ (7)

其中，w代表更新之后的权重，w'代表更新之前的权重，η代表学习率，Δ代表网络中的权重梯度。

涉及到更新的权重如公式(8)所示：

P＝{W_R,W_C,W_A,W_O} (8)

其中W_R为循环神经网络层权重，W_C为卷积层权重，W_A为注意力层权重，W_O为输出层网络权重。

文本的情感分析是自言语言处理研究的重要领域之一，情感分析的目的就是挖掘出文本所蕴含的情感极性。传统的情感分析主要是针对整个句子的情感极性。本人在前人研究的基础上，结合当下的深度学习技术，对方面级细粒度文本情感分析问题进行了更加深入的研究，研究成果包含以下几个方面：

针对深度学习下的数据不平衡问题，提出了BB算法。针对每一次训练样本的标签分布，动态生成平衡样本，使得标签分布均匀。很大程度避免了学习器分类倾向问题。同时，为避免由于神经网络过深导致输出值消失问题，本文设计了一种权重初始化方法：将正态分布与 Kaiming分布相结合，达到输出值收敛的目的。

针对CNN与LSTM提取特征的特点，本发明将二者结合起来进行特征提取工作。利用注意力机制关注句子不同部位的特点生成情感语义矩阵。与传统模型生成情感向量不同，语义矩阵包含情感更为丰富，能够同时预测不同方面的不同情感。同时，模型在实际应用时，与其他模型相比，预测速度更快。

图4给出了一个方面级细粒度情感预测实例。

以评论文本“酒店卫生很好，价格也便宜，但是服务有点一般” 为例，首先对文本进行预处理，得到文本中的方面词及对应的标签“酒店卫生很好价格便宜服务一般”，进行平衡处理后得到平衡标签 “酒店卫生一般”。对平衡衡样本与原始样本中的中文词语进行向量化，得到：

[1,2,3,4,5,6,7]

[1,2,7,0,0,0,0]

将它作为Attn-Bi-LCNN模型Embedding层的输入，通过神经网络权重预处理进行初始化，转换为文本矩阵：

[0.1,0.2],

[0.3,0.4],

[0.5,0.6],

[0.7,0.8],

[0.9,1.0],

[1.1,1.2]

[1.3,1.4],

[[0.1,0.2],

[0.3,0.4],

[1.3,1.4],

[0,0],

[0,0]].

然后，通过LSTM层提取句子中单词之间的顺序特征得到文本高维语义表示矩阵，然后由CNN层通过一维卷积提取高维语义表示中的词与词之间的关系，再由Attention层计算不同方面的情感语义矩阵，得出注意力矩阵，然后与CNN层输出相乘，通过隐藏层和输出层得到判断结果矩阵。

本发明通过平衡处理和构建Attn-Bi-LCNN模型，能够有效输出情感语义矩阵，提高了模型的精准度与实际应用时的预测速度，从而使本发明的方法适用于文本的方面级细粒度情感分类。

Claims

1.一种基于深度学习的评论文本方面级情感分类方法，所述方法包括以下步骤：

(2)对所述方面词及对应的标签进行平衡处理，获得评论文本的平衡标签，根据所述平衡标签生成平衡样本；

(3)将平衡样本与原始样本中的中文词语进行向量化，获得平衡样本中的词向量；

(4)将所述词向量输入到模型中进行评论结果的预测；

所述的模型是根据深度神经网络构建的深度学习模型，通过方面词的词向量与句子其他词语进行相似度计算，生成平衡样本的方面情感语义矩阵；

利用情感语义矩阵同时计算所述平衡样本内所有方面的情感倾向；所述模型根据训练文本的标签来计算模型损失，通过模型损失的反向传播优化神经网络中的权重；

(5)所述模型的输出结果采用Softmax函数进行激活：

2.根据权利要求1所述的评论文本方面级情感分类方法，其特征在于针对情感分类问题，通过Attn-Bi-LCNN模型，利用方面词向量进行注意力机制计算，形成情感语义矩阵。

3.根据权利要求2所述的评论文本方面级情感分类方法，其特征在于所述Attn-Bi-LCNN模型结构包括Embedding层、Bi-LSTM层、CNN层、Attention层、隐藏层和输出层，其中：

(1)Embedding层

模型中的Embedding层用于将词语映射为词向量，训练文本通过Embedding层之后被转换为文本矩阵，矩阵的第i行即为句子中第i个词的词向量，其输出为S＝R^L×d，其中，文本矩阵大小为L×d，中L为矩阵行数，也是句子词语数，d为词语向量化维度；

(2)Bi-LSTM层

Bi-LSTM层用于提取句子中单词之间的顺序特征，并对句子表示进行记忆存储；当文本矩阵中的词语按照时间顺序输入到Bi-LSTM层中，会获取当前词的前向语义表示ht和反向语义表示h’t，并将所述前向语义表示ht和反向语义表示h’t拼凑得到当前词的完整语义表示[ht，h’t]；

文本向量矩阵经过Bi-LSTM层的输出为文本的高维语义表示，其输出为

其中，S_lstm代表文本高维语义表示矩阵，l代表句子长度，d_lstm代表Bi-LSTM隐藏层维度大小，矩阵的每一行即为对应词的完整语义表示[ht，h't]；

(3)CNN层

CNN层用于提取高维语义表示中的词与词之间的关系；其输出为

其中，S_CNN为卷积之后的句子向量，C代表卷积操作，d_CNN代表_SCNN维度大小；

(4)Attention层

注意力权重计算公式为A＝softmax(V_atanh(W_mD^T))，其中，A为注意力权重矩阵，矩阵的每一列即代表一个方面的注意力权重；D_T代表卷积神经网络卷积核得出的语义向量所组成的矩阵，矩阵的每一行为dⁱ _CNN，代表不同就不同卷积核卷积得到的特征向量；W_m代表D_T的权重矩阵，V_a为方面词词向量矩阵，矩阵的每一行代表训练数据的各个方面词向量化得到的词向量；通过Softmax激活函数对结果进行激活得到注意力权重矩阵A；

得到不同方面的注意力权重之后，将权重矩阵A与卷积层得到的语义向量进行相乘，得到不同方面的情感语义矩阵，输出为S＝A×D；

(5)隐藏层

隐藏层实现特征融合和降维；

(6)输出层

输出层激活函数为Softmax函数，其计算结果为模型预测结果，算公式为

4.根据权利要求3所述的评论文本方面级情感分类方法，其特征在于采用正态分布初始化和Kaiming初始化相结合的方式对所述隐藏层进行权重初始化，其中，全连接层采用正态分布初始化，模型中的卷积层采用Kaiming初始化，通过两种初始化结合的方式对网络模型各个代表层进行权重初始化。

5.实现权利要求1-4中任一项权利要求书所述方法的系统，所述系统包括：

(4)神经网络训练装置，用以搭建系统所用的深度学习模型；