CN109992779A

CN109992779A - 一种基于cnn的情感分析方法、装置、设备及存储介质

Info

Publication number: CN109992779A
Application number: CN201910249877.7A
Authority: CN
Inventors: 曾道建; 戴愿
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha University of Science and Technology
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2019-07-09
Anticipated expiration: 2039-03-29
Also published as: CN109992779B

Abstract

本发明公开了一种基于CNN的方面级别情感分析方法、装置、设备及计算机可读存储介质；在本方案中，使用卷积神经网络CNN作为基础架构，将待分析的目标文本输入CNN得到分析结果；通过使用CNN，可以在训练过程中很好地并行化计算；在CNN中的卷积与门控机制层中含有嵌入方面信息的GTRU单元，通过该GTRU单元，可以在给定方面信息的帮助下，通过门控机制更好地控制情感特征；进而，在CNN全连接层的损失函数中，含有至少一个语言规则的正则项，该正则项为通过语言学资源建模而成的，有助于识别情感极性；可以看出，本方案通过语言规则的正则项，可以提高CNN模型的可解释性，提高CNN模型的性能。

Description

一种基于CNN的情感分析方法、装置、设备及存储介质

技术领域

本发明涉及情感分析技术领域，更具体地说，涉及一种基于CNN的方面级别情感分析方法、装置、设备及计算机可读存储介质。

背景技术

随着文本评论数据的快速增长，情感分析在现代社交网络中不可或缺。它为智能环境、客户分析系统、文本数据安全保护等下游应用提供了基础。方面级别情感分析(Aspect-Based Sentiment Analysis，ABSA)这是情感分析中一项具有挑战性的核心子任务。ABSA的目的不是预测一个句子的整体情感极性，而是判断出一个句子中各个不同的特定方面的情感极性(积极、负面或中性)。例如，在“The environment is very beautiful,but the food is dreadful”这句话中，提到了两个不同的方面:“环境(environment)，食物(food)”。“ambience(氛围、环境)”这一方面表达的情感极性是积极的，而“food(食物)”这一方面的情感极性却是消极的。

传统的解决ABSA的方法主要侧重于人工设计一系列特征，如使用情感词典，将n-gram(语言模型)和情感词汇特征结合。然而，这种传统的特征工程属于一种劳动密集型工程，而且在表现上几乎达到了瓶颈。随着机器学习的快速发展，特别是其中的深度学习，一些研究者针对ABSA任务，设计了高效的神经网络，取得了不错的结果。例如递归神经网络和循环神经网络等等。然而虽然这些方法很有效，但它们仍然存在缺陷，如：神经网络在很大程度上依赖于大量的数据，而这种纯数据驱动的学习将会出现无法解释的结果。

发明内容

本发明的目的在于提供一种基于CNN的方面级别情感分析方法、装置、设备及计算机可读存储介质，以实现分析模型的可解释性，提高分析模型的性能。

为实现上述目的，本发明实施例提供了如下技术方案：

一种基于CNN的方面级别情感分析方法，包括：

获得待分析的目标文本，并将所述目标文本输入CNN分析模型；

通过所述CNN分析模型获得与所述目标文本对应的词向量矩阵，将所述词向量矩阵输入所述CNN分析模型的卷积与门控机制层；其中，所述卷积与门控机制层中具有方面嵌入的GTRU单元；

利用所述卷积与门控机制层确定与词向量矩阵对应的方面特征矩阵和情感特征矩阵，并通过所述方面特征矩阵和情感特征矩阵生成目标特征矩阵；

将所述目标特征矩阵输入最大池化层，通过所述最大池化层提取所述目标特征矩阵的重要的特征信息，并将所述最大池化层的输出结果输入全连接层，通过所述全连接层得到最终的分析结果；其中，所述全连接层的损失函数中包括至少一个语言规则的正则项。

其中，利用所述卷积与门控机制层确定与词向量矩阵对应的方面特征矩阵和情感特征矩阵，并通过所述方面特征矩阵和情感特征矩阵生成目标特征矩阵，包括：

确定与词向量矩阵X的方面特征矩阵a_i，a_i＝ReLU(W_a·X_i:i+h+V_a+b)；其中，ReLU为方面特征的激活函数，W_a为方面特征的权重矩阵，X_i:i+h为第i至第i+h的词向量矩阵，h为滤波器的长度，V_a为嵌入的方面信息，b为偏置项；

确定与词向量矩阵X的情感特征矩阵s_i，s_i＝tanh(W_s·X_i:i+h+b)；其中，tanh为情感特征的激活函数，W_s为情感特征的权重矩阵；

通过所述方面特征矩阵a_i和情感特征矩阵s_i生成目标特征矩阵c_i，其中，c_i＝a_i×s_i。

其中，所述损失函数L为：

其中，m为句子的索引，j为类的索引，为第m个句子中第j类的真实的情感分布，为第m个句子中第j类的预测的情感分布，α为正则化项的权重，为第m个句子中第j类的至少一个语言规则的正则项，λ为L₂正则化的控制系数，θ为相关参数。

其中，所述正则项为并列连词正则项和转折词正则项中的任意一者，或者并列连词正则项和转折词正则项的组合。

其中，所述并列连词正则项为R^(CCR)，R^(CCR)＝max(0,D_KL(P_E,P_F)-M)；

其中，P和Q是情感标签的分布，P_E为第一方面的情感分布，P_F为第二方面的情感分布，M为超参数，D_KL(P,Q)是对称KL散度；

其中，所述转折词正则项R^(ACR)，其中，P和Q是情感标签的分布，P_E为第一方面的情感分布，P_F为第二方面的情感分布，M为超参数，为第一方面经过变换矩阵T后的情感分布；T为变换矩阵。

一种基于CNN的方面级别情感分析装置，包括：

目标文本获取模块，用于获得待分析的目标文本，并将所述目标文本输入CNN分析模型；

词向量矩阵获取模块，用于通过所述CNN分析模型获得与所述目标文本对应的词向量矩阵，将所述词向量矩阵输入所述CNN分析模型的卷积与门控机制层；其中，所述卷积与门控机制层中具有方面嵌入的GTRU单元；

目标特征矩阵生成模块，用于利用所述卷积与门控机制层确定与词向量矩阵对应的方面特征矩阵和情感特征矩阵，并通过所述方面特征矩阵和情感特征矩阵生成目标特征矩阵；

特征信息生成模块，用于将所述目标特征矩阵输入最大池化层，通过所述最大池化层提取所述目标特征矩阵的重要的特征信息；

分析结果生成模块，用于将所述最大池化层的输出结果输入全连接层，通过所述全连接层得到最终的分析结果；其中，所述全连接层的损失函数中包括至少一个语言规则的正则项。

其中，所述目标特征矩阵生成模块包括：

方面特征矩阵确定单元，用于确定与词向量矩阵X的方面特征矩阵a_i，a_i＝ReLU(W_a·X_i:i+h+V_a+b)；其中，ReLU为方面特征的激活函数，W_a为方面特征的权重矩阵，X_i:i+h为第i至第i+h的词向量矩阵，h为滤波器的长度，V_a为嵌入的方面信息，b为偏置项；

情感特征矩阵确定单元，用于确定与词向量矩阵X的情感特征矩阵s_i，s_i＝tanh(W_s·X_i:i+h+b)；其中，tanh为情感特征的激活函数，W_s为情感特征的权重矩阵；

目标特征矩阵生成单元，用于通过所述方面特征矩阵a_i和情感特征矩阵s_i生成目标特征矩阵c_i，其中，c_i＝a_i×s_i。

一种基于CNN的方面级别情感分析设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述方面级别情感分析方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述方面级别情感分析方法的步骤。

通过以上方案可知，本发明实施例提供的一种基于CNN的方面级别情感分析方法、装置、设备及计算机可读存储介质；在本方案中，使用卷积神经网络CNN作为基础架构，将待分析的目标文本输入CNN得到分析结果；通过使用CNN，可以在训练过程中很好地并行化计算；并且，在CNN中的卷积与门控机制层中，具有方面嵌入的GTRU单元，通过该GTRU单元，可以在给定方面信息的帮助下，通过门控机制更好地控制情感特征；进而，在CNN全连接层的损失函数中，含有至少一个语言规则的正则项，该正则项为通过语言学资源建模而成的，有助于识别情感极性；可以看出，本方案通过语言规则的正则项，可以提高CNN模型的可解释性，提高CNN模型的性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种基于CNN的方面级别情感分析方法流程示意图；

图2为本发明实施例公开的CNN分析模型的结构示意图；

图3为本发明实施例公开的一种基于CNN的方面级别情感分析装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于CNN的方面级别情感分析方法、装置、设备及计算机可读存储介质，以实现分析模型的可解释性，提高分析模型的性能。

参见图1，本发明实施例提供的一种基于CNN的方面级别情感分析方法，包括：

S101、获得待分析的目标文本，并将所述目标文本输入CNN分析模型；

具体的，在本实施例中，该目标文本为一个连续的句子，CNN(ConvolutionalNeural Networks)分析模型为卷积神经网络，参见图2，图2为本实施例公开的CNN分析模型的结构示意图，通过该图可以看出，CNN包括输入层、卷积与门控机制层、最大池化层及全连接层，该输入层用来生成目标文本的词向量，全连接层也可以称之为输出层。

S102、通过所述CNN分析模型获得与所述目标文本对应的词向量矩阵，将所述词向量矩阵输入所述CNN分析模型的卷积与门控机制层；其中，所述卷积与门控机制层中具有方面嵌入的GTRU单元；

具体的，本方案中模型的第一部分是Word Embedding(词向量)部分。由于计算机不能直接处理文字，因此需要将文字转换成矩阵的形式。本模型使用Word2vec中的CBOW模型来对输入句子进行向量化。使用的Word2vec是通过预训练得到的，同时在模型训练过程中，会对Word2vec进行一个微调，以获得更好的向量化表示。将句子向量化表示后，得到一个矩阵：每一行代表一个词语，句子中有多少个词语，就有多少行。

该分析模型的输入为目标文本，即一个连续的句子，在本实施例中，以“Theenvironment is very beautiful,but the food is dreadful”为例进行说明。将该句子的长度为n，在必要时，句子长度可以填充。词向量可以通过神经网络模拟上下文以及上下文和目标词之间的关系，由于神经网络的灵活性，词向量的最大优点是它们可以代表复杂的上下文。在词向量的帮助下，各种自然语言处理(NLP，Neuro-Linguistic Programming)任务的性能得到了极大的提高。需要说明的是，对于如何获得高质量的词向量目前已有多种方法，在本方案中便不具体限定。

S103、利用所述卷积与门控机制层确定与词向量矩阵对应的方面特征矩阵和情感特征矩阵，并通过所述方面特征矩阵和情感特征矩阵生成目标特征矩阵；

在本实施例中，第二部分为Convolutions&Gating(GTRU)(卷积与门控机制层)部分。卷积与门控机制层中，卷积层的多个滤波器可以在每个感受野上以多个粒度有效地提取n-gram特征，并且，本方案还结合了门控机制，具体来说，卷积与门控机制层中的门控单元有两个非线性门，每个门与一个卷积层相连，利用给定的方面信息，门控单元可以选择性地提取那些特定于某方面的情绪信息以更好地进行情感极性预测。

S104、将所述目标特征矩阵输入最大池化层，通过所述最大池化层提取所述目标特征矩阵的重要的特征信息；

本模型的第三部分为Max Pooling(最大池化)。S103已经得到了输出的目标特征矩阵，下一步希望利用这些特征去做分类，理论上讲，人们可以利用所有提取得到的特征去训练分类器，例如softmax分类器，但这样做面临两个问题：1)卷积滤波输出的结果大小依赖于输入网络的句子长度s。2)同时也面临计算量的挑战。例如：对于一个长度为40的句子，假设使用50维词向量，并使用200个长度为3的卷积滤波器，卷积层就有3*50*200＝30000个参数，每一个卷积滤波器会得到40维的特征，由于有200个滤波器，所以每个样例都会得到40*200＝8000维的特征向量，假设有3个类别，softmax分类器就有2万多个参数，学习一个这样的网络十分不便，并且容易出现过拟合(Over-fitting)。

为解决上述两个问题，一个很自然的想法就是对不同位置的特征进行聚合统计，例如，人们可以计算卷积输出序列上的某个特定特征的平均值(或最大值)。这些概要统计特征不仅具有低得多的维度(相比使用所有提取得到的特征)，同时还会改善结果(不容易过拟合)。这种聚合的操作就叫做池化(Pooling)。目前已存在许多的池化函数，例如：max-pooling(最大池化函数)，global average pooling(全局平均池化函数)，k-max pooling(k最大池化函数)和dynamic pooling(动态池化函数)。在使用卷积网络进行自然语言处理时，一般对卷积滤波得到的序列上进行最大化池化操作max-pooling，max-pooling在情感分析中的表现要优于其他池化操作，通过max-pooling找出序列中最显著的特征，可以消除与句子长度的相关性，在卷积网络中得到广泛的使用。

S105、将所述最大池化层的输出结果输入全连接层，通过所述全连接层得到最终的分析结果；其中，所述全连接层的损失函数中包括至少一个语言规则的正则项。

在本实施例中，模型最后部分是带有语言学正则项的全连接层。在以往的研究中已经证明，语言学知识对于情感分析这一任务是十分有效的。例如，Hu和Liu用到的情感词典以及Wilson提出的MPQA词典。在本模型中，提出了两种语言学正则项：转折词正则项和并列连词正则项，充分利用现实生活中的语言资源(人类知识)来解决ABSA的同时提高模型的可解释性。

具体来说，通过对数据集的抽样分析，发现一些句子有明显的语言规则可以使用。例如，在“Decor is nice though service can be spotty.”句中，存在一个转折连接词(AC，Adversative Conjunction)“though”。连接词“though”在一个句子中起着重要的作用，一个AC表示着两个陈述之间的对立或对比，因此，“though”前后两个方面的情感极性应该是相反的。除了ACs，并列连词(CCs，Coordinating Conjunctions)也有类似的效果。“Best of all is the warm vibe,the owner is super friendly and service isfast.”，在这句话中，CC“and”表示每个方面的情感极性都是积极的。表1为2014年SemEval餐厅数据集的数据统计，表中给出了数据集中ACs和CCs的数量。如表1所示，语言规则在数据集中有着广泛的应用，这一现象直观地体现了在ABSA任务中使用语言资源的巨大潜力。

表1

Dataset	Train	Test
			#sentences in total	3518	973
#sentences containing CCS	2062	588
			#sentences containing ACS	654	151

若以“The environment is very beautiful,but the food is dreadful”为例，对于转折词正则项来说，该句子包含一个转折词“but”，句子中“but”前面的方面“environment”所表达的情感极性是积极的；而“but”后面的方面“food”所表达的情感极性是负面的。众所皆知，“but”这种转折词在语句中体现一个转折的作用，同一个句子中转折词前后两个不同方面表达的情感极性应该是相反的。因此可以把这个现象和前面的卷积与门控机制层结合起来：假定每一个包含转折词的语句，前后两个不同方面表达的情感极性是相反的。这样就可以利用第一个子句的情感极性直接预测第二个子句中的情感极性，进一步提升了效率。

同理，对于并列连词正则项来说，对于包含并列连词的句子，前后两个不同方面表达的情感极性是一致的(情感分布相差不远)。同样也可以利用第一个子句的情感极性直接预测第二个子句中的情感极性。

因此，在本实施例中，对发现的语言学资源进行建模，然后应用于分析模型，以帮助预测各个方面的情感极性。对语言学资源进行建模后生成的即为语言规则的正则项，该正则项可以包括并列连词正则项、转折词正则项的等等，在此并不具体限定。

在本实施例中，将最大池化层的输出结果输入全连接层(fully connectedlayers,FC)。在这一层，采用dropout策略来防止过拟合。然后在损失函数中添加一个约束作为调节项，该约束即为语言规则的正则项。进而，通过使用softmax函数来产生输出，从而得到最终的分析结果。

综上可以看出，在本方案中，使用卷积神经网络CNN作为基础架构，将待分析的目标文本输入CNN得到分析结果；通过使用CNN，可以在训练过程中很好地并行化计算；并且，在CNN中的卷积与门控机制层中，具有方面嵌入的GTRU单元，通过该GTRU单元，可以在给定方面信息的帮助下，通过门控机制更好地控制情感特征；进而，在CNN全连接层的损失函数中，含有至少一个语言规则的正则项，该正则项为通过语言学资源建模而成的，有助于识别情感极性；

需要说明的是，CNN是一个具有黑箱性质的深度学习模型，本方案在其中加入基于语言规则的正则项，其实就是相当于一种基于规则的方法。把转折词和并列连词这种语法常识引入到模型中，使得模型在预测包含转折词或者并列连词的句子中各个方面的情感极性时，预测出第一个方面类别的情感极性后，就可以根据规则，预测出第二个情感极性。这就是说在一定程度上提高了模型的可解释性，因为模型做出这个决策是有规则对应的。可以看出，本方案通过语言规则的正则项，可以提高CNN模型的可解释性，提高CNN模型的性能。

基于上述实施例，在本实施例中，利用所述卷积与门控机制层确定与词向量矩阵对应的方面特征矩阵和情感特征矩阵，并通过所述方面特征矩阵和情感特征矩阵生成目标特征矩阵，包括：

具体来说，在卷积与门控机制层这部分，首先分成两个单独的卷积层，参见图2的Convolutions&Gating(GTRU)中的画框部分和未画框部分。卷积操作可以看作是权重矩阵w和词向量矩阵x之间的计算，权重矩阵w相当于卷积的滤波器。例如，如果输入目标文本的长度是n，则它将表示为X＝[x₁,x₂,...,x_n],x_i是第i个字的位置的单词。卷积运算使用滤波器w和目标文本x执行点乘运算以获得新序列c_i，多个滤波器的卷积层可以有效地提取每个接受域上多个粒度的n-gram特征。

卷积层之后是门控单元，门控单元中有两个非线性门，两个中的每一个都和一个卷积层链接。在给定的aspect信息下(图2中的Aspect Embedding部分)，对于情感的预测就能够抽取到方面特征信息。比如说，在句子“The environment is very beautiful,butthe food is dreadful”中Environment这个aspect被提供，门单元能够自动忽视在第二个子句中Food这个aspect的消极情绪(dreadful)，并且只输出第一个子句的积极情绪。因为模型中的每个组成部分都能够并行，因此比LSTM和Attention机制需要更少的训练时间。这一层的输出c_i为情感特征矩阵s_i和方面类别特征矩阵a_i的组合。

具体的，特征c_i可以由x_i:i+h通过下列公式生成：

c_i＝f(W·X_i:i+h+b) (1)

其中是偏置项，h是滤波器的长度，f是非线性激活函数。在卷积层中使用多个滤波器(或特征映射)可以捕获不同的特征。在本实施例中，假设我们使用m个滤波器，会输出形如的矩阵。如图2所示，在本实施例中使用具有方面嵌入的GTRU(Gated Tanh-Relu，门控单元)(方面嵌入在每个位置t处连接两个卷积神经元)。通过GTRU，c_i将通过如下方式获得：

a_i＝ReLU(W_a·X_i:i+h+V_a+b) (2)

s_i＝tanh(W_s·X_i:i+h+b) (3)

c_i＝a_i×s_i (4)

需要说明的是，V_a是方面嵌入，该方面嵌入具体可以理解为消极、积极等方面的信息；卷积特征a_i接收附加的方面信息后再通过ReLU激活函数。具体而言，s_i和a_i分别负责生成情感特征和方面特征。在ABSA中，同一个句子中各个不同方面的情感极性可能不同，对于积极情感，ReLU门允许通过，但对其他情感极性不允许通过。因此，它可以根据给定的方面信息V_a和位置t的方面特征a_i之间的相关性输出相似性得分。如果得分为0，那么s_i将会不允许通过；否则，其幅度将相应地增加。

基于上述实施例，在本实施例中，所述损失函数L为：

其中，m为句子的索引，j为类的索引，为第m个句子中第j类的真实的情感分布，为第m个句子中第j类的预测的情感分布，α为正则化项的权重，为第m个句子中第j类的至少一个语言规则的正则项，λ为L₂正则化的控制系数，θ为相关参数。其中，所述正则项为并列连词正则项和转折词正则项中的任意一者，或者并列连词正则项和转折词正则项的组合。

在本实施例中，正则项包括如下两种：并列连词正则项为R^(CCR)，R^(CCR)＝max(0,D_KL(P_E,P_F)-M)；其中，P和Q是情感标签的分布，P_E为第一方面的情感分布，P_F为第二方面的情感分布，M为超参数，D_KL(P,Q)是对称KL散度；

转折词正则项R^(ACR)，其中，P和Q是情感标签的分布，P_E为第一方面的情感分布，P_F为第二方面的情感分布，M为超参数，为第一方面经过变换矩阵T后的情感分布；T为变换矩阵。

需要说明的是，在分析训练数据时，发现许多句子包含了不同的语言规则。例如，在“The restaurant was expensive,but the menu was great.”这句话中，“but”显然是一个转折点：在“but”之前，“price”方面的情感极性是负面的；在“but”之后，“food”方面的情感极性是正面的。因此，在本实施例中，以并列连词正则项和转折词正则项这两个正则项为例对本方案进行说明，但本方案中的正则项并不局限这两种。

1、并列连词正则项：并列连词是一种将相同状态或结构的两个语法元素进行连接的词语。从广义上讲，并列连词包括各种关系的词，如并列，选择，因果关系等。本实施例中的并列连词只包括代表并列关系的词。如：“Very good service and very goodprices.”，在这句话中出现了“service”和“price”两个方面，它们的情感极性都是积极的。像“and”这样的并列连词通常扮演着这样的角色：“and”之前和之后的方面的情感分布不应该有太大变化。在本实施例中，将这种现象建模如下，提出了CCR(CoordinatingConjunctions Regularizer,并列连词正则项)。：

R^(CCR)＝max(0,D_KL(P_E,P_F)-M) (5)

其中P_E,P_F分别代表方面第一方面E和第二方面F的情感分布，这里E和F用来代指一个句子中的不同方面。例如“The environment is very beautiful,but the food isdreadful”，E可以是代表“环境(environment)”这个方面，也可以是指“食物(food)”这个方面。M是超参数，D_KL(P,Q)是对称KL散度：

其中P,Q是情感标签的分布。

2、转折词正则项：像“but”和“though”这样的转折词在语句中起着转折的作用：它们将情感极性从积极转变到负面(或者相反)，这种转换高度依赖于它们所修改的语句背景。在本实施例中，对这种语言现象进行建模，提出了ACR(Adversative ConjunctionsRegularizer,转折词正则项)。ACR显示了AC如何改变句中各个方面的情感分布。当一个句子包含AC时，两个方面的情感分布应该相应改变。如：“The appetizers are ok,but theservice is slow.”。“but”之前的方面“taste(appetizers开胃菜)”的情感极性是积极的，而在“but”之后的方面“service”是负面的。在本实施例中收集了数据集中所出现过的AC，可以在表2中看到。

表2

当然，存在另一种情况：AC可能将情感极性从负变为正或中性。为了解决这些不同的情况，本方案提出了一个变换矩阵T，这个矩阵由模型训练得到.ACR表示当一个句子包含一个AC时，前一个方面的情感分布应该通过变换矩阵T变换到接近第二个方面的情感极性。

其中是方面E经过变换矩阵T后的情感分布。

进一步的，本方案为了充分利用上下文内容和两个语言正则化项，提出了一个新的损失函数，如下所示：

其中y表示句子中各个目标情感的真实分布，p是预测的情感分布，m为句子的索引，j是类的索引，R是上述正则项之一或两个正则项的组合。α是正则化项的权重，当没有CCR或ACR或者它们在句子中省略时，α将被设置为0。λ是L₂正则化的控制系数，θ是各种参数。

需要说明的是，机器学习中，非常关心模型的预测能力，即模型在新数据上的表现，而不希望过拟合(过拟合就是所谓的模型对可见的数据过度自信,非常完美的拟合上了这些数据)现象的发生，因此，本方案使用正则化(regularization)技术来防止过拟合情况。而L2正则化就是深度学习中用的比较多的正则化技术，其形式是在原先的损失函数后边再加多一项：加上L2正则项的损失函数就可以表示为：其中θ是网络层的待学习的参数，λ则控制正则项的大小，较大的取值将较大程度约束模型复杂度，反之亦然。

在本实施例中，通过使用SemEval2014 Task4餐馆数据集评估了本方案，这个数据集受到了广泛的使用。每个数据都包含注释，包括方面以及相应的极性。句子中的方面是(food,price,service,ambience,anecdotes/miscellaneous)。对于miscellaneous这个方面，它指的是句子中没有明确提到某个方面。例如，“This is as good as neighborhoodrestaurants come.”，在这句话中没有提到“food”这样的明显方面，所以这句话的方面是“miscellaneous”。值得注意的是，除了正，负和中性的一般三个极性之外，存在第四极性-冲突。冲突意味着对于句子中的某个方面，将存在两个极性，包括正面和负面。包含冲突这个情感极性的数据数量是195，这是非常小的，为了避免导致类不平衡问题，在本实施例中删除了冲突类别。餐馆数据集的统计数据如表3：

表3

在本实施例中使用Accuracy来评估我们的模型，其定义为：

其中J代表预测正确的句子，K代表所有句子。Accuracy是指正确样本所占整体数据的百分比。通常来说，模型越好，accuracy越高。

在本实施例中，使用word2vec中的C-BOW模型中的词向量，并通过训练进行微调，本方案使用300维的词向量。对于神经参数，本方案使用SGD(Stochastic GradientDescent，随机梯度下降法)和Adadelta更新策略，使用批量大小为50个示例来训练模型。在本实施例中使用Theano实现相应的工作。将本方案的分析模型与几个基准方法进行比较，实验结果如表4所示：

表4

所对比的基准方法如下：

-NRC-Can NRC-Can是Subtask 4 of SemEval2014 Task 4中的最佳系统。它结合了大量的人工特征。

-CNN卷积神经网络通过卷积和池化操作生成句子表示。

-LSTM LSTM是情感分析中常见的网络结构，无法捕捉句子中的任何方面信息。

-TD-LSTM TD-LSTM是LSTM的扩展，它将方面视为目标，使用前向LSTM和后向LSTM来抽取目标之前和之后的信息。

-TC-LSTM TC-LSTM是TDLSTM的扩展，它将一个目标纳入句子的代表中。

-ATAE-LSTM，一方面，ATAE-LSTM将方面嵌入另一个向量空间。另一方面，ATAE-LSTM将注意力机制加于LSTM。

-IAN交互式注意网络的主要思想是使用两个注意力网络以交互方式对目标和上下文进行建模。

-RAM RAM首先生成记忆。然后，该模型在记忆上多次运用注意力机制以获取重要信息。

-GCAE GCAE在嵌入层的顶部有两个独立的卷积层，其输出由GTRU组合。

-GCN GCN与GCAE相同，但GTRU没有将方面嵌入作为附加输入。

-LR-Bi-LSTM LR-Bi-LSTM用于句子级情感分析，在这个模型中作者提出了多种语言学正则项。

需要注意的是，本方案提出的分析模型即为GLRC(Gating and LinguisticallyRegularized CNN)模型。与传统方法SVM(支持向量机，Support Vector Machine)相比，本方案提供的GLRC模型有着显著的提升。正如背景技术所述，传统的方法严重依赖手工特征，但是这些特征很难设置。但是当SVM与多个情感词典相结合时，性能提高了7.6％。这证明了现实生活中的这些语言资源非常有用，将语言资源与DNN(Deep Neural Network，深度神经网络)结合起来是非常有潜力的。其次，我们与神经网络模型(CNN，ATAE-LSTM，RAM等)也进行了比较，分析结果如下：

-对于两个基本网络，CNN表现明显优于LSTM。ABSA是提取与给定方面密切相关的情感信息。一方面，CNN在特征提取方面具有优势。另一方面，LSTM无法捕捉任何方面信息。

-TD-LSTM和LSTM，作为LSTM的扩展模型表现要优于LSTM，但仍然比CNN差。它进一步证明了CNN在ABSA中的特有优势。

-ATAE-LSTM，IAN和RAM的表现值得强调。这些模型在LSTM架构的上加入了各种注意力机制并取得了一些进展。这激励我们在未来的CNN中引入注意力机制。

-GCN和GCAE表现出卓越的性能，表明CNN的优势和门控机制的有效性。

-与LSTM相比，LR-Bi-LSTM使用语言规则，取得了很大的进展，表明语言规则在ABSA中非常有用。

本方案是提出的分析模型是首次在ABSA任务中尝试将CNN与语言资源相结合，实验结果表明所提出模型是有效的。一般而言，在情感分析中，具有显着情绪极性的词语将对结果产生至关重要的影响，而CNN在特征提取方面具有很大优势。Yin等人发现GRU和CNN在文本长度较小的情感分析任务中表现结果差不多。此外，本方案的主要目的是尝试利用现实中丰富的语言资源，并开发一个简单的模型来整合这些语言资源。因此，本方案将CNN与这些语言学规则结合，可以看出，本方案提出的分析模型表现与先进技术相当，但本方案中的分析模型的网络结构显然简单的多。与此同时，本方案中的门控机制确实非常有效，它大大提高了模型的效率。

在本方案提出了的GLRC模型，将两个语言正则项加入其中。为了证明语言正则项的影响，通过实验进行了一些研究，实验结果见表5。

表5

Methods	Accuracy
		GCAE	79.35
GLRC w/o CCR	80.44
		GLRC w/o ACR	80.61
GLRC	82.31

表5中的结果显示当使用了语言学正则项的时候，模型有着显著的改善(GLRCVS.GCAE)。为了进一步揭示哪个语言正则项起着更重要的作用，我们分别删除不同的语言学正则项规则比较模型性能。表5中也列出了删除不同语言正则项时模型的表现。80.61VS.80.44直接告诉了我们结果：当数据集是SemEval 2014餐厅时，CCR对于ABSA更为重要。

对于门控机制的影响，本方案将比较CNN，GCN和GCAE，表6显示了结果。可以看出，与CNN不同，GCN增加了GTRU。与GCN相比，GCAE将方面嵌入作为附加输入。实验结果直观地表明了门控机制的有效性。

表6

Methods	Accuracy
		CNN	79.47
GCN	79.67
		GCAE	79.35

进一步的，本方案从测试数据中选择三个典型示例，以说明本方案提出的分析模型。从表7可以看出：ID 1和2是包含语言规则的示例。首先，对于本方案提出的语言规则(CCR和ACR)，句子1和2完美地证明了它们的优点。在第1句中，由于CCR的作用，分析模型正确地预测了不同方面的情感极性。同样，第2句也证明了ACR的有效性。

表7

综上可以看出，本方案为了解决ABSA中的问题，提出了GLRC模型，GLRC模型是第一个在ABSA任务中将CNN与语言资源相结合的，在数据集上的实验验证可以看出，GLRC可以将语言知识与CNN结合起来，并获得良好的性能。并且，现实生活中仍有丰富的未利用的语言规则，后续可对神经网络施加更多规则。

下面对本发明实施例提供的情感分析装置进行介绍，下文描述的情感分析装置与上文描述的情感分析方法可以相互参照。

参见图3，本发明实施例提供的一种基于CNN的方面级别情感分析装置，包括：

目标文本获取模块100，用于获得待分析的目标文本，并将所述目标文本输入CNN分析模型；

词向量矩阵获取模块200，用于通过所述CNN分析模型获得与所述目标文本对应的词向量矩阵，将所述词向量矩阵输入所述CNN分析模型的卷积与门控机制层；其中，所述卷积与门控机制层中具有方面嵌入的GTRU单元；

目标特征矩阵生成模块300，用于利用所述卷积与门控机制层确定与词向量矩阵对应的方面特征矩阵和情感特征矩阵，并通过所述方面特征矩阵和情感特征矩阵生成目标特征矩阵；

特征信息生成模块400，用于将所述目标特征矩阵输入最大池化层，通过所述最大池化层提取所述目标特征矩阵的重要的特征信息；

分析结果生成模块500，用于将所述最大池化层的输出结果输入全连接层，通过所述全连接层得到最终的分析结果；其中，所述全连接层的损失函数中包括至少一个语言规则的正则项。

其中，所述目标特征矩阵生成模块包括：

本发明实施例还公开了一种基于CNN的方面级别情感分析设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述方法实施例所述的方面级别情感分析方法的步骤。

本发明实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述方法实施例所述的方面级别情感分析方法的步骤。

其中，该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于CNN的方面级别情感分析方法，其特征在于，包括：

2.根据权利要求1所述的方面级别情感分析方法，其特征在于，利用所述卷积与门控机制层确定与词向量矩阵对应的方面特征矩阵和情感特征矩阵，并通过所述方面特征矩阵和情感特征矩阵生成目标特征矩阵，包括：

3.根据权利要求1所述的方面级别情感分析方法，其特征在于，所述损失函数L为：

4.根据权利要求3所述的方面级别情感分析方法，其特征在于，所述正则项为并列连词正则项和转折词正则项中的任意一者，或者并列连词正则项和转折词正则项的组合。

5.根据权利要求4所述的方面级别情感分析方法，其特征在于，所述并列连词正则项为R^(CCR)，R^(CCR)＝max(0,D_KL(P_E,P_F)-M)；

6.根据权利要求5所述的方面级别情感分析方法，其特征在于，所述转折词正则项为R^(ACR)，

其中，P和Q是情感标签的分布，P_E为第一方面的情感分布，P_F为第二方面的情感分布，M为超参数，为第一方面经过变换矩阵T后的情感分布；T为变换矩阵。

7.一种基于CNN的方面级别情感分析装置，其特征在于，包括：

8.根据权利要求7所述的方面级别情感分析装置，其特征在于，所述目标特征矩阵生成模块包括：

9.一种基于CNN的方面级别情感分析设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至6任一项所述方面级别情感分析方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方面级别情感分析方法的步骤。