CN116595975A

CN116595975A - 一种基于句信息进行词信息增强的方面级情感分析方法

Info

Publication number: CN116595975A
Application number: CN202310872147.9A
Authority: CN
Inventors: 琚生根; 李怡霖; 张宇馨; 夏欣
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2023-07-17
Filing date: 2023-07-17
Publication date: 2023-08-15

Abstract

本发明涉及计算机领域，公开了一种基于句信息进行词信息增强的方面级情感分析方法，包括以下步骤：步骤1：对句子进行预训练得到词向量；步骤2：将步骤1得到的词向量聚合得到句向量；步骤3：根据句向量构建正负样本集；步骤4：根据样本集和句向量进行对比学习；步骤5：词向量输入图卷积神经网络得到情感分类结果；构建损失函数，进行迭代，直到符合要求退出；本发明将对比学习的方法应用到方面级情感分析任务中；构建了正负样本数据集，在不引入外部数据的情况下，从语义差异角度提升对比学习的效果；结合多种不同句法距离的增强词表示可以更完善地利用句法依存树，更好地学习句子局部特征，充分考虑句子的整体信息。

Description

一种基于句信息进行词信息增强的方面级情感分析方法

技术领域

本发明涉及计算机领域，具体涉及一种基于句信息进行词信息增强的方面级情感分析方法。

背景技术

情感分析是自然语言处理的一个重要子任务，旨在判断给定文本的情感极性。电影评论、商品评论等互联网文本中含有丰富的信息，通过对这些文本信息进行情感分析，可以挖掘出用户的喜好。从粒度的角度看，情感分析可以被分为篇章级、句子级和方面级。其中句子级情感分析和篇章级情感分析旨在预测整个句子或者整篇文章的情感倾向，属于粗粒度情感分析。相比前两者，方面级情感分析根据文本中的意见词判断给定方面词的情感极性，属于细粒度的情感分析。例如，给定文本“Great food but the service wasdreadful.”，句中的“food”与“service”作为方面词，对应的意见词分别为“Great”和“dreadful”，显然两个方面词的情感极性相反。在实际的应用场景中，不光需要识别文章或句子所表达的意见，还需要识别观点所指向的对象，以及针对该对象所表达的具体情感倾向，利用方面级情感分析能够更加准确的判断文本中多个方面词的情感极性。基于上述原因，方面级情感分析成为了自然语言处理的热门研究领域。

方面级情感分析在2010年由Thet等人提出，将实体的属性或实体的组成部分定义为“方面词”。方面级情感分析的方法主要包括基于情感词典的方法，基于机器学习的方法以及基于深度学习的方法。情感词典最早由Whissell等人提出。目前英文情感词典有SentiWordNet等，中文情感词典有NTUSD、情感词汇本体库等。基于情感词典进行情感分析的效果很大程度取决于情感词典的质量，且在不同语境中，相同的词可能表示相反的语义，因此很难确定方面词对应的情感极性。

基于机器学习的方法通过人工提取特征，利用机器学习算法构建分类模型，并将其用于未标注文本的情感分类，常用的分类算法有朴素贝叶斯，支持向量机等。但此类方法依赖于复杂的特征工程以及分类器的选择，难以表示复杂数据。近年来，随着技术与硬件的发展，深度学习成为了研究方面级情感分析任务最主流的方法。与机器学习相比，深度学习的泛化能力更强，可以自动学习文本的特征，减少了特征工程的需求。深度学习使用的神经网络有卷积神经网络、循环神经网络、图神经网络等。目前，图神经网络与句法知识结合的方法被广泛应用于方面级情感分析任务。利用句法依存树获取词语的依赖关系，并根据依赖关系进行邻居节点的聚合，为意见词信息的传播提供了可解释性，但仍然存在不足之处。例如CNN及其变体的分类能力优于传统机器学习方法，但CNN存在无法捕捉长距离依赖关系的缺点。

发明内容

本发明针对现有技术存在的问题提供一种基于句信息进行词信息增强的方面级情感分析方法。

本发明采用的技术方案是：一种基于句信息进行词信息增强的方面级情感分析方法，包括以下步骤：

步骤1：对句子进行预训练得到词向量；

步骤2：将步骤1得到的词向量聚合得到句向量；

步骤3：根据步骤2得到的句向量构建正负样本集；

步骤4：根据步骤3构建的样本集和步骤2得到的句向量进行对比学习；

步骤5：步骤1得到的词向量输入图卷积神经网络得到情感分类结果；构建损失函数，进行迭代，直到符合要求退出。

进一步的，所述步骤5中图卷积神经网络包括图卷积层、平均池化层和归一化层；

图卷积层中图卷积操作如下：

式中：为第l层图卷积的节点更新，/>为节点i和节点j在句法距离k上的权重，/>为可训练权重，/>为偏置项，/>为非线性激活函数，n为节点个数，/>为节点j在l-1层的卷积操作后的向量；

l层的输出可以表示为，/>为句子i在句法距离为k的第l层卷积操作下的向量集合；

平均池化层：经过p次卷积后的增强整合后得到

其中：为对向量进行平均池化，/>～/>为每次卷积后的输出的增强句向量，H为经过平均池化操作后的句子向量；

增强句向量屏蔽掉非方面词经平均池化得到方面术语h _a：

其中h _a1、h _a2…h _am为方面术语中的词；

归一化层用于将方面术语h _a归一化处理：h _a经线性层降维后经softmax函数处理，得到定义的极性标签的概率分布：

式中：W _p为学习权重，b _p为偏置项。

进一步的，所述图卷积层中采用自注意力矩阵作为连接矩阵，自注意力矩阵A计算方法如下：

式中Q为查询矩阵，K为值矩阵，W ^Q为可学习权重矩阵，W ^K为可学习权重矩阵，T为矩阵的转置操作，d为节点的维度。

进一步的，所述图卷积层中采用句法掩码矩阵获取句法距离低于目标值的邻居信息，屏蔽掉句法距离高于设定值的间接相连节点；

掩码矩阵表示为，其中/>、/>…/>为根据不同距离限制参数构建的句法掩码矩阵；

式中：k为距离限制参数，为句法距离，i和j为节点，/>为句法距离为k的矩阵的值；

将自注意力矩阵和句法掩码矩阵整合，对邻接矩阵进行softmax运算，得到每一个邻居节点在图卷积中的参与比例，参与图卷积的第i个邻接矩阵为：

式中：为自注意力矩阵，/>为掩码矩阵。

进一步的，所述损失函数L包括交叉熵损失和对比学习损失：

式中：L _c为交叉熵损失，L _cl为对比学习损失，为正则化系数，/>为正则化项。

进一步的，所述交叉熵损失为：

式中：i为所选取的句子序号，n为句子的数量，c为标签，m为标签数，y _ic为句子i的标签，为预测标签c类的概率；

对比损失函数为：

式中：表示句子/>和/>的相似性计算方法，/>为温度系数，/>表示句子/>和/>的相似性计算方法；Data表示数据集，/>表示指数函数，X _i、X _s、X _d均表示句向量，T为矩阵的转置操作。

本发明的有益效果是：

（1）本发明将对比学习的方法应用到方面级情感分析任务中，构建新样本为原样本增加扰动，增强句向量表示，利用对比损失调整词向量；

（2）本发明构建了正负样本数据集，在不引入外部数据的情况下，从语义差异角度提升对比学习的效果；

（3）本发明结合多种不同句法距离的增强词表示可以更完善地利用句法依存树，更好地学习句子局部特征；能充分考虑句子的整体信息。

附图说明

图1为本发明模型结构示意图。

图2为本发明中对比学习模块结构示意图。

图3为本发明实施例4中不同句向量的对比结果示意图，a为不同句向量准确率对比，b为不同句向量的F1值对比。

图4为本发明实施例5中Laptops数据集句向量训练前后分布示意图，a为对比学习前词向量分布，b为对比学习后词向量分布。

具体实施方式

下面结合附图和具体实施例对本发明做进一步说明。

如图1所示，一种基于句信息进行词信息增强的方面级情感分析方法的分析系统（即WISI模型），包括预训练模块、样本构建模块、对比学习模块、图卷积模块；

预训练模块用于获取句子的初始词向量，词向量聚合得到句向量；

样本构建模块用于构建正样本集和负样本集；

对比学习模块用于根据正、负样本集和句向量进行对比学习，得到句向量的表示学习；

图卷积模块用于获取增强后的词向量。

一种基于句信息进行词信息增强的方面级情感分析方法，包括以下步骤：

步骤1：对句子进行预训练得到词向量；采用BERT（Bert Encoder）模型获取句子的隐状态。对于每一个句子，将输入的句子格式化为，输入后的句子表示为/>。/>表示格式化后的句子，[cls]表示BERT中的cls标志位，sentence表示按词分割好的句子，[sep]表示分隔符，aspect_term表示句子中指定的方面术语，H_i表示经过编码后的句子，Encoder表示BERT的编码器。

BERT得到词向量与传统的Word2Vec向量及Glove向量的不同在于，后两者为静态词向量，一经训练就不会再变化。通过查字典的方式获取词语的词向量，无法区分不同上下文中相同词语的不同含义。BERT充分考虑了语境，根据上下文输入语料的不同，在网络模型中经过模型计算返回词向量，这种根据上下文实时计算的特点，不仅考虑了全局语境也考虑了局部上下文信息，不同的上下文会得到不同的词向量，达到区分多义词的目的。

步骤2：将步骤1得到的词向量聚合得到句向量；

经过预训练获得了文本的词向量，句向量的表示由当前句子所有词向量计算得到，如下：

式中：为向量对应位置取最大值，/>为词向量中的词，X _i为词向量。

步骤3：根据步骤2得到的句向量构建正负样本集；

通过BERT获取语料中单词的隐状态，通过dropout丢弃向量的部分维度信息以加入噪声来构建正样本。

根据自然语言的特性，加入微小的扰动便可能更改句子的原始含义。例如，当句子中一些含有积极情感的形容词被替换为带有消极情感的词，句子的感情信息很容易与原句相反。采用反义词替换的方式进行负样本的构建。例如，给定句子“But the staff was sohorrible to us.”，本文将形容词“horrible”替换为“friendly”，不难看出，原句中“staff”的情感极性由消极变为了积极。利用nltk工具包进行反义词查找，对于一个句子，将其中的形容词比较级、形容词最高级、副词、副词比较级、副词最高级以及感叹词作为替换反义词的候选集，并将其中50%的词语进行反义词替换，构成负样本句/>。

对句子进行样本构建得到其正负样本，数据集由多个batch组成，一个batch的数据经过样本构建模块会生成对应的正负增强数据：以及/>，如图2所示，为m个句子的初始向量，/>为m个句子向量的集合，/>为/>所对应的正样本，/>为/>所对应的负样本，/>为正样本中m的句子的向量，/>为负样本中m的句子的向量。

采用正负增强数据对中的原句进行句向量的训练。在方面级情感分类任务中，分别存在“积极”、“消极”、“中立”三种标签。对于/>中的某一个句子，/>及/>中与原句相对应的数据分别作为正样例和负样例进行训练，训练的目标在于需要减小与之标签相同的句向量的距离，增大与之标签不同的句向量的距离。

利用正负样本为原始数据引入噪声，正负样本二者带有相反的标签信息，由两者共同训练的句向量表示会在语义空间上被调整至收敛的位置，因此由该方法所训练出的不同情感极性的句向量会在语义空间上呈现出聚类的效果。

步骤5：步骤2得到的句向量输入图卷积神经网络得到情感分类结果；构建损失函数，进行迭代，直到符合要求退出。

图卷积神经网络包括图卷积层、平均池化层和归一化层；

构建了p个句法距离不同的邻接矩阵，在图卷积层，使用p次图卷积操作来进行节点聚合，这些节点的最终状态包含了不同句法距离的邻居节点的信息。

图卷积层中图卷积操作如下（第l层图卷积的节点更新）：

平均池化层：经过p次卷积后会得到p个句子的增强后表示，将p组增强表示按照对应句子求平均的方式进行整合，得到最终的增强表示：

其中：为对向量进行平均池化，该嵌入表示包含了多种句法距离的信息，/>～/>为每次卷积后的输出的增强句向量，H为经过平均池化操作后的句子向量；

增强句向量屏蔽掉非方面词经平均池化得到方面术语（如果一个方面术语是由多个词组成，则同样使用平均池化得到方面术语的最终表示h _a来保留信息）h _a：

其中h _a1、h _a2…h _am为方面术语中的词；

式中：W _p为学习权重，b _p为偏置项。

图卷积层中采用自注意力矩阵作为连接矩阵，自注意力矩阵可以直接作为权重参与图卷积操作，并且注意力得分在卷积操作中可以直接作为聚合邻居节点时的权重。

自注意力矩阵A计算方法如下：

式中Q为查询矩阵，K为值矩阵，W ^Q为可学习权重矩阵，W ^K为可学习权重矩阵/>，T为矩阵的转置操作，d为节点的维度。

图卷积层中采用句法掩码矩阵获取句法距离低于目标值的邻居信息，屏蔽掉句法距离高于设定值的间接相连节点。

式中：k为距离限制参数，为句法距离，i和j为节点。利用k值可以起到屏蔽句法距离大于k的节点信息，使用不同的k值可以构建多个句法掩码矩阵，/>为句法距离为k的矩阵的值。

将句法依存树按照节点与邻居节点构建为邻接矩阵，句法距离定义为：

式中：表示节点i和j的路径距离，上式表明两个节点的句法距离为句法依存树上的最短距离。这样的设置避免了句法依存树上某些节点可以通过其他节点与目标节点间接相连而造成有多个句法距离的现象。

式中：为自注意力矩阵，/>为掩码矩阵。

损失函数L包括交叉熵损失和对比学习损失：

交叉熵损失为：

式中：i为所选取的句子序号，n为句子的数量，c为标签，m为标签数，y _ic为句子i的标签，为预测标签c类的概率；仅当标签值为真实标签c时y _ic=1。

对比学习损失衡量了整个batch中句向量与正负样本之间的差异；对比损失函数为：

式中：表示句子/>和/>的相似性计算方法，/>为温度系数，/>表示句子/>和/>的相似性计算方法；Data表示数据集，表示指数函数，X _i、X _s、X _d均表示句向量，T为矩阵的转置操作；上式最大化语义详细句子对X _i和X _s的度量，最小化语义相异句子对X _i和X _d的度量。

下面采用本发明模型极性对比实验、消融实验和案例说明，进行句向量影响的说明。

在Laptops和Restaurants数据集以及Twitter数据集上进行了实验。各个数据集的统计详情如下：

表1.数据集统计

本发明模型利用Bert编码器获取单词的隐状态向量，词向量维度为786。学习率设置为0.002，正则化系数设置为0.0001。句法方面，本发明使用了Stanford parser工具来获取文本的句法依存树。对于每个数据集采用的句法距离最大值均为5。

为了进一步说明本发明方法的性能，采用以下模型作为对比：

BERT：采用[CLS] +句子+[SEP]+方面词+[SEP]作为格式化输入，获取词向量后衔接情感极性判别。

R-GAT+BERT：基于BERT预训练的RGAT模型，重构了句法依存树，利用GAT编码依赖关系，建立方面词与意见词的联系。

DGEDT+BERT：基于BERT预训练的DGEDT模型，提出双Transformer结构交互文本信息和依赖信息。

BERT4GCN：集成了BERT的PLM中语法序列特征和依存图中的语法知识。

T-GCN：利用依存类型来区分图中的不同关系，通过注意力层集成学习来自不同GCN层的上下文信息。

SSEGCN+BERT：该模型提出Aspect-aware注意力机制作为注意力得分矩阵，学习方面词和句子的语义，并结合句法结构信息。

实施例1（对比实验）

为了衡量本发明模型（方法）的性能，将WISI与其他模型进行对比，采用准确率和F1值作为衡量指标，结果如表2所示。

表2.对比实验结果

结果表明，WISI在Restaurants和Twitter两个数据集上优于其他基线模型，在Laptops数据集上效果优于大多数模型。

在Laptops数据集中，与SSEGCN+BERT模型相比，本发明在准确率和F1值上分别落后0.31和0.25，经过统计，WISI在该数据集中，对标签为“积极”的数据准确率可达94.46%，但对于标签为“中立”和“消极”的数据，准确率仅为64.88%和70.70%，这是由于Laptops数据集整体数据量较少，“中立”和“消极”数据所包含的特征不完全，导致模型无法学习到该领域数据的完整特征，产生了过拟合的现象。通过对数据的统计结果显示，数据集中有约24%的数据并没有显式的意见词，这导致了聚合邻居节点时没有有效的信息传播到方面词，因此产生了错误的情感极性判断。

本发明模型在另外两个数据集上达到了领先。相比SSEGCN+BERT模型，WISI在Restaurants数据集的准确率指标上达到持平，在F1指标上超出了0.89%。在Twitter数据集上的准确率及F1值分别有1.03%和1.46%的领先。这是由于WISI从全局的句信息和局部的词信息两个角度出发对文本数据进行建模。

首先，WISI从全局语义的角度入手，进行了句向量的表示学习，再利用句子整体情感信息的变化对词向量进行调整，获取了高效的词向量表示。其次，与其他模型相比，WISI综合考虑了多个句法距离的邻居节点信息，聚合了不同距离邻居节点的信息。实验结果表明，对句子信息和词信息的有效利用，是WISI拥有良好性能的关键。

实施例2（消融实验）

为了说明模型结构带来的影响，进行了消融实验，结果如表3所示。

表3.实施例2结果

表中可以看出，去除了对比学习模块后，Restaurants评论、Laptops评论、Twitter评论的准确率指标分别有1.07%，0.32%，1.33%的下降，这验证了对比学习对于句子表示训练的有效性，全局的句子信息对于方面级情感分析任务是必要的。

在去除了句法掩码矩阵的情况下，三个数据集的准确率指标分别下降了0.72%，0.81%，1.11%，这说明结合多种不同句法距离的增强词表示可以更完善地利用句法依存树，更好地学习句子局部特征。这说明对比学习和句法掩模矩阵在方面级情感分析任务中起到了至关重要的作用。

实施例3（案例）

将本发明模型（系统）与ATAE-LSTM，LAN模型进行比较。表格中P，N，O分别表示情感标签为“积极”、“消极”以及“中立”。比较结果如表4所示，

表4.WISI与基线模型案例对比

第一个例子“Great food but the service was dreadful.”出现了两个方面词，且二者情感极性相反。这种情况会对两个方面词的情感极性判别造成影响，WISI利用图卷积模块，屏蔽了句法距离较远词对方面词的影响，因此没有受到无关意见词的影响。

第二个例子“If you are a Tequila fan you will not be disappointed.”出现了负面的意见词“disappointed”，ATAE-LSTM和IAN两个模型将该意见词的信息传播到了方面词中，而忽视了否定词“not”，产生了相反的情感极性判断。

第三个例子“Biggest complaint is Windows 8.”中出现了形容词最高级“Biggest”，这会对情感极性的判断引入噪声，ATAE-LSTM和IAN两个模型的判断结果显然受到了噪声的影响，而WISI充分获取了句子的整体信息，做出了正确的极性判断。

对于最后两个例子来说，两者并没有显式的负面意见词来表达对方面词的看法，而是通过“Not”否定积极意见词来表示消极的态度。WISI同样能充分的考虑句子的整体信息。

实施例4

使用对比学习的方法进行语料的句向量表示学习。获取句向量的方式有多种，本发明对不同的句向量进行对比，结果图3所示。

分别使用了三种方式获得句向量的表示，分别是将词向量进行Mean Pooling得到Mean句向量，将词向量进行对应位置Max Pooling得到Max句向量，以及直接使用BERT词向量中的标志位作为句向量。

从图3中可以看出，使用Max Pooling所获得的Max句向量在Restaurants和Twitter数据集上有着最好的效果，相比其他两种向量的提升幅度最大，而在Laptops数据集中，由于数据集特征，句向量最大特征位置存在噪声，导致Max Pooling没有将最恰当的信息提取出来，而Mean Pooling通过平均向量中的相应位置弱化了噪声对句向量的影响。直接使用作为句向量时，Laptops数据集获得了比Max Pooling稍高的指标，但相比之下，其在Restaurants和Twitter数据集上的表现仍然与Max Pooling有着一定的差距。[cls]并没有明确的语义含义，因此将其作为句向量缺乏可解释性。实验结果表明，通过提取词向量中最大值特征来获取句向量的方式可以较好的表达句子的整体语义。所以本发明采用了Max Pooling作为句子的句向量。

实施例5

为了更好的说明对比学习对句向量训练的有效性，采用t-SNE方法对句向量进行降维可视化，结果如图4所示。从图中可以看出，在经过对比学习前，不同标签的句向量无规律的分散在向量空间中，而经过对比学习后，三种不同标签的句向量大致分为了三块区域。这说明了对比学习模块对于互为正例的样本起到了拉近作用，互为负例的样本起到了推离的效果。本发明模型可以聚集相同情感极性的样本，说明利用句向量信息驱动词向量训练的合理性与有效性。

本发明通过数据增强扩充样本数量，利用更多的样本提升模型的泛化能力。为了使句向量包含所有局部信息，使用词向量计算句向量。通过聚合词向量信息得到句向量的表示，包含了句子的全局信息，再通过对比学习在语义空间中调整句向量，利用对比损失量化句信息的变化，指导词向量的调整。最后通过图卷积神经网络聚合物邻居节点信息，达到获取意见词信息的效果。

本发明系统将对比学习用于方面级情感分析任务中，构建新样本为原样本增加扰动，增强句向量表示，并利用对比损失调整词向量。在不引入外部数据的情况下，构建了负样本，从语义差异的角度提升对比学习的效果。本发明方法具有较好的效果能够利用句向量信息作为辅助信息进行情感极性的判断。

Claims

1.一种基于句信息进行词信息增强的方面级情感分析方法，其特征在于，包括以下步骤：

步骤1：对句子进行预训练得到词向量；

步骤2：将步骤1得到的词向量聚合得到句向量；

步骤3：根据步骤2得到的句向量构建正负样本集；

2.根据权利要求1所述的一种基于句信息进行词信息增强的方面级情感分析方法，其特征在于，所述步骤5中图卷积神经网络包括图卷积层、平均池化层和归一化层；

图卷积层中图卷积操作如下：

平均池化层：经过p次卷积后的增强整合后得到

增强句向量屏蔽掉非方面词经平均池化得到方面术语h _a：

其中h _a1、h _a2…h _am为方面术语中的词；

式中：W _p为学习权重，b _p为偏置项。

3.根据权利要求2所述的一种基于句信息进行词信息增强的方面级情感分析方法，其特征在于，所述图卷积层中采用自注意力矩阵作为连接矩阵，自注意力矩阵A计算方法如下：

4.根据权利要求3所述的一种基于句信息进行词信息增强的方面级情感分析方法，其特征在于，所述图卷积层中采用句法掩码矩阵获取句法距离低于目标值的邻居信息，屏蔽掉句法距离高于设定值的间接相连节点；

式中：为自注意力矩阵，/>为掩码矩阵。

5.根据权利要求4所述的一种基于句信息进行词信息增强的方面级情感分析方法，其特征在于，所述损失函数L包括交叉熵损失和对比学习损失：

6.根据权利要求5所述的一种基于句信息进行词信息增强的方面级情感分析方法，其特征在于，所述交叉熵损失为：

对比损失函数为：

式中：表示句子/>和/>的相似性计算方法，/>为温度系数，表示句子/>和/>的相似性计算方法；Data表示数据集，/>表示指数函数，X _i、X _s、X _d均表示句向量，T为矩阵的转置操作。