CN114943216A

CN114943216A - 基于图注意力网络的案件微博属性级观点挖掘方法

Info

Publication number: CN114943216A
Application number: CN202210511507.8A
Authority: CN
Inventors: 余正涛; 王静赟; 相艳
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2022-08-26
Anticipated expiration: 2042-05-12
Also published as: CN114943216B

Abstract

本发明涉及基于图注意力网络的案件微博属性级观点挖掘方法，属于自然语言处理技术领域。本发明首先使用斯坦福工具得到涉案微博评论句的句法依存关系；然后，重塑评论句的句法依存关系，只保留属性词与观点词之间的主要句法信息，丢弃次要句法信息；最后，使用关系图注意力网络模型进行编码，对属性词对应的观点词和情感倾向性进行联合抽取。本发明解决了现有方法不能有效的对案件微博评论的属性词和观点词的关系进行建模，从而利用抽取的观点词预测情感极性的问题。

Description

基于图注意力网络的案件微博属性级观点挖掘方法

技术领域

本发明涉及基于图注意力网络的案件微博属性级观点挖掘方法，属于自然语言处理技术领域。

背景技术

微博等社交媒体的蓬勃发展让人们获得更丰富、更及时的信息，同时每天也会产生大量评论。其中，与案件相关的评论在网络上迅速传播，所产生的舆论会干扰有关机构的工作。为此，获取案件微博评论属性词对应的观点词并判断其情感倾向性，有助于司法机关掌握大众的舆论走势，降低舆情事件带来的风险。案件微博观点挖掘主要包括观点词抽取和属性级情感分类，其目的是针对从微博用户评论文本中识别出的属性词，提取其对应的观点词并判断网友的情感倾向性。在这一任务中，本发明将情感倾向性分为三类：积极、消极、中性。由于涉案微博评论的属性词和观点词之间存在一定的句法关系，同时，观点词抽取和属性词情感分析是两个相互促进的任务。但是现有方法存在对属性词和观点词之间的关系利用不足的问题，因此，该任务的难点在于如何对属性词和观点词的关系进行建模，从而利用抽取的观点词预测情感极性。例如在“这个品牌也太嚣张了，大家一定要持续关注啊”这句评论中，出现了“了、啊”等这样的语气词，这些词包含的句法信息往往是无关紧要的，有时甚至会对模型造成负面影响。显然，这些次要的句法信息是需要被丢弃的。因此，可以对涉案微博评论的句法关系进行重塑，即只保留属性词与观点词之间的主要句法信息，丢弃次要句法信息。同时，直观来看，网友的情感倾向性往往是由观点词决定的，观点词抽取和属性级情感分类是两个相互促进的子任务，将它们的损失函数进行联合学习，可以进一步提升观点词抽取和属性级情感分类的性能。

发明内容

本发明提供了基于图注意力网络的案件微博属性级观点挖掘方法，以用于解决现有方法不能有效的对案件微博评论的属性词和观点词的关系进行建模，从而利用抽取的观点词预测情感极性等问题，本发明提升观点挖掘的精度。

本发明的技术方案是：基于图注意力网络的案件微博属性级观点挖掘方法，所述基于图注意力网络的案件微博属性级观点挖掘方法的具体步骤如下：

Step1、收集用于案件微博属性级观点挖掘的微博评论文本，对微博评论文本进行去重与筛选；

作为本发明的优选方案，所述Step1中，使用Scrapy作为爬取工具，收集用于案件微博属性级观点挖掘的微博评论文本，然后对其进行去重和筛选。

此优选方案设计是本发明的重要组成部分，主要为本发明收集语料过程，为本发明抽取涉案微博评价对象提供了数据支撑。

Step2、对涉案微博评论文本进行分词等预处理，定制案件微博属性级观点挖掘的标注体系，标记微博评价文本，将标记好的微博评论语料按照8：1：1的比例分配训练语料、验证语料和测试语料；

Step3、获取评论语句对应的词向量，训练数据经过预处理后输入斯坦福工具，得到评论的句法依存关系；

Step4、对评论的句法依存关系进行重塑，只保留属性词与观点词之间的直接句法关系，丢弃属性词与观点词之间的间接句法关系；

Step5、使用关系图注意力网络模型进行编码，对属性词对应的观点词和情感倾向性进行联合抽取。

作为本发明的优选方案，所述步骤Step2的具体步骤为：

Step2.1、定制的案件微博属性级观点挖掘的标注体系采用了XML的可扩展标记语言组织文本，分别针对属性词文本、属性词的开始位置、属性词的结束位置、观点词文本、观点词的开始位置、观点词的结束位置及属性词的情感极性对收集到的微博评论文本进行标记；

Step2.2、再将实验数据分为训练语料、验证语料和测试语料。

本发明使用的数据集为人工标注共2200条涉案微博评论，标注内容为涉案微博评论句中的属性词、观点词及其情感极性。

此优选方案设计是本发明的重要组成部分，主要为本发明提供语料预处理过程，为后续工作提供模型训练时所需训练语料和为模型验证时提供验证语料以及为模型测试时提供测试语料；并且为本发明抽取案件微博观点词和情感极性提供了支撑和挖掘的对象。

作为本发明的优选方案，本发明利用重塑的属性词和观点词之间的句法关系构建图注意力网络，对观点词抽取和属性级情感分类进行联合训练，从而提升观点挖掘的精度，其中：

所述步骤Step3的具体步骤为：将评论句

输入斯坦福工具，得到评论句的句法依存树T。

作为本发明的优选方案，所述步骤Step4的具体步骤为：

Step4.1、将属性词放在依存树的根部；

Step4.2、对于依存树中节点与节点之间的依存关系，只保留属性词与观点词之间的直接句法关系，丢弃属性词与观点词之间的间接句法关系；

Step4.3、如果一个评论句子包含多个属性词，将把句中每个属性词分别作为根，构造一棵唯一的树，减少无关节点和关系的影响。

此优选方案设计是本发明的重要组成部分，主要为本发明提供重塑依存句法关系的过程，通过重塑评论句的句法依存关系，只保留属性词与观点词之间的主要句法信息，丢弃次要句法信息，找到模型需要的句法关系。

作为本发明的优选方案，所述步骤Step5的具体步骤为：

Step5.1、将依存关系分别映射到两个向量空间：E[r_ij]和U[r_ij]。其中，E[r_ij]用于预测属性词的情感倾向性，U[r_ij]用于抽取观点词；

Step5.2、分别利用关系图注意力网络对隐状态节点进行更新，以此对属性词情感极性和观点词进行联合抽取。

作为本发明的优选方案，所述图注意力网络：

图注意力网络是将注意力机制运用到图神经网络上，图

中有n个节点，每个节点可以是一个词或一个句子的特征表示。在聚合特征信息时，通过计算网络中每个节点与邻居节点的相似度来控制节点中信息的传递，即确保只有同类节点的信息聚集到一起。

的边表示词与词之间的依存关系，节点i的邻域节点用N_i表示。具体运算公式如下：

其中，

是节点i在l+1层更新后的表征，

表示l层的注意力计算得到的归一化权重，W^l表示输入线性变换的权重矩阵。

为了对不同子空间中的注意力权重进行学习，聚合邻域节点的表征，图注意力网络还可以使用多头注意力来迭代更新每个节点的表征。具体更新过程如下：

其中，

表示从x₁到x_i的向量拼接，

表示l层的第k个注意力计算得到的归一化权重，

是输入线性变换的权重矩阵。本发明在计算注意力权重时采用了点积的方式。

作为本发明的优选方案，所述关系图注意力网络：

依存树用具有n个节点的图G来表示，其中每个节点表示句子中的一个词。G的边表示词与词之间的依存关系。节点i的邻域节点用N_i表示。GAT可以沿依存路径聚合邻域节点的表示。但是，这个过程没有考虑依存关系，可能会丢失一些重要的依存信息。具有不同依存关系的邻域节点应该具有不同的影响，因此，本发明使用额外的关系头来扩展原始的GAT，将这些关系头作为关系感知门来控制来自邻域节点的信息流。该方法的整体架构如图2所示。具体来说，首先将依存关系分别映射到两个向量空间：E[r_ij]和U[r_ij]。其中，E[r_ij]用于预测属性词的情感倾向性，U[r_ij] 用于抽取观点词。然后，分别利用关系图注意力网络对隐状态节点进行更新，以此对属性词情感极性和观点词进行联合抽取。

(1)属性词情感极性预测：将E[r_ij]作为查询向量，根据依存关系在句子和属性词组成的隐状态之间进行信息传递和特征聚集。节点i和j之间的关系系数计算如下：

其中r_ij表示节点i和j之间的关系嵌入。m表示关系图注意力网络中的第m个关系头。

在关系系数

的引导下，句子和属性词中的原始节点表征

选择性地融入邻居节点的特征信息。由于只预测属性词的情感极性，只选取了属性词节点，其被更新后的表示为：

其中M表示关系图注意力网络头数量。最后将属性词更新后的隐状态

和其在图注意力网络的输出

通过一个全连接层进行融合：

本发明使用BERT对树节点的词嵌入进行编码，并为叶子节点i的初始表示

获得其输出隐藏状态h_i。然后，使用BERT对属性词进行编码，并将其平均隐藏状态用作该根的初始表示

在面向属性词的依存树上应用关系图注意力网络之后，它的根表示

通过一个全连接的softmax层，判断情感极性。

最后，使用标准的交叉熵损失作为目标函数：

其中，D包含所有属性词—句子对，A表示出现在句子S中的属性词，θ包含所有可训练参数。

(2)观点词抽取：将U[r_ij]作为查询向量，根据依存关系在句子和属性词组成的隐状态之间进行信息传递和特征聚集。节点i和j之间的关系系数计算如下：

在关系系数

的引导下，句子和属性词中的原始节点表征

选择性地融入邻居节点的特征信息，从而被更新为：

其中M表示关系图注意力网络头数量。接着将句子和属性词更新后的隐状态

和其在图注意力网络的输出

通过一个全连接层进行融合：

其中，i表示句子和属性词组成的每一个隐状态。所有隐状态表示为L＝ {l₁,l₂,…l_t}，其中l_i是序列中第i个词的预测得分。设输入序列为x＝{x₁,x₂,…x_t}， BIO标签序列为y＝{y₁,y₂,…y_t}，标签预测的分数为：

P(y|x)＝softmax{score(x,y)} (18)

其中，Q是转移分数矩阵，Q_i,j表示从标签i转移到标签j的分数。对所有可能的标签序列的得分应用softmax函数，从而得到给定输入x的条件下标签序列y的概率 P(y|x)。本发明采用负对数似然函数作为损失函数,最后通过维特比算法得到条件概率最大的输出序列。

L′^(θ)＝-∑lnP(y|x) (19)

两个任务联合损失函数为：

L＝τL(θ)+(1-τ)L′^(θ) (20)

其中，τ∈[0,1]是一个用来平衡两个损失的超参数。

基于图注意力网络的观点挖掘模型框架如图2所示。

本发明的有益效果是：

1、本发明的基于图注意力网络的案件微博属性级观点挖掘方法，结合案件微博数据的特点，提出了利用属性词和观点词之间的直接句法关系指导评论中属性词对应的观点词和情感极性联合抽取；

2、本发明的基于图注意力网络的案件微博属性级观点挖掘方法，提出对案件微博评论的句法关系进行重塑，即只保留属性词与观点词之间的主要句法信息，丢弃次要句法信息；

3、本发明的基于图注意力网络的案件微博属性级观点挖掘方法，提出利用句法关系构建图注意力网络，对观点词抽取和属性级情感分类进行联合训练，从而提升观点挖掘的精度；

4、本发明的基于图注意力网络的案件微博属性级观点挖掘方法，解决了案件微博评论的属性级观点挖掘任务。

附图说明

图1为本发明提出的案件微博属性级观点挖掘流程图；

图2为本发明提出的基于图注意力网络的案件微博属性级观点挖掘模型图；

图3为本发明不同词嵌入维度的实验结果；

图4为本发明不同注意力头数的实验结果；

图5为本发明参数τ的不同取值的实验结果。

具体实施方式

实施例1：如图1-图5所示，基于图注意力网络的案件微博属性级观点挖掘方法，具体步骤如下：

作为本发明的优选方案，所述步骤Step2的具体步骤为：

Step2.2、再将实验数据分为训练语料、验证语料和测试语料。

所述步骤Step3的具体步骤为：将评论句

输入斯坦福工具，得到评论句的句法依存树T，r_ij表示从节点i到节点j的依存关系。

Step4、对评论的句法依存关系进行重塑，只保留属性词与观点词之间的主要句法信息，丢弃次要句法信息；主要句法信息指的是属性词与观点词之间的直接句法关系，次要句法信息值得是属性词与观点词之间的间接句法关系；

作为本发明的优选方案，所述步骤Step4的具体步骤为：

Step4.1、将属性词

放在依存树T的根部；

Step5、使用关系感知的图注意力网络模型进行编码，对属性词对应的观点词和情感倾向性进行联合抽取。

作为本发明的优选方案，所述步骤Step5的具体步骤为：

作为本发明的优选方案，所述图注意力网络：

图注意力网络是将注意力机制运用到图神经网络上，图

其中，

是节点i在l+1层更新后的表征，

其中，

表示从x₁到x_i的向量拼接，

表示l层的第k个注意力计算得到的归一化权重，

作为本发明的优选方案，所述关系图注意力网络：

在关系系数

的引导下，句子和属性词中的原始节点表征

和其在图注意力网络的输出

通过一个全连接层进行融合：

通过一个全连接的softmax层，判断情感极性。

最后，使用标准的交叉熵损失作为目标函数：

在关系系数

的引导下，句子和属性词中的原始节点表征

选择性地融入邻居节点的特征信息，从而被更新为：

和其在图注意力网络的输出

通过一个全连接层进行融合：

P(y|x)＝softmax{score(x,y)} (38)

L^′(θ)＝-∑lnP(y|x) (39)

两个任务联合损失函数为：

L＝τL(θ)+(1-τ)L′^(θ) (40)

其中，τ∈[0,1]是一个用来平衡两个损失的超参数。

Step6、分别对词嵌入维度、注意力头数和参数的取值进行实验探究，经过实验，证明模型设置的合理性与高效性，又将该模型与现有模型进行对比，证明本方法在案件微博属性级观点挖掘上具有较好效果。

实验采用采用精确率(P)、召回率(R)和F1值作为观点词抽取的评价指标，采用准确率(Accuracy)来评价属性级情感分类的性能。

其中，TP表示正例被判定为正例，预测成功，TN表示负例被判定为负例，预测成功，FP表示负例被判定为正例，预测失败，FN表示正例被判定为负例，预测失败。

本发明实验的训练和测试都是在RTX 2080Ti GPU上使用PyTorch实现的。实验使用的BERT预训练语言模型为Google发布的BERT-Base(Chinese)模型。Transformer 隐藏层大小为768，自注意力头数为6，预训练模型的参数总数为110M。实验设置dropout大小为0.2，epoch大小为50，初始学习率为2e-5，批次大小为16。

CRF：该方法是解决序列标注问题用的最多的方法之一，通过学习观察序列来预测标签序列，同时加入softmax层进行情感分类。

LSTM-CRF：该方法使用LSTM解决了远距离依赖问题，然后使用CRF抽取观点词，使用softmax层进行情感分类。

BiLSTM-CRF：该模型使用BiLSTM从两个方向编码信息，来更好的捕获上下文信息，使用CRF向最终的预测标签添加约束，同时添加softmax层进行情感分类。

BiLSTM-CNN-CRF：该模型在结合BiLSTM和CRF优势的基础上，又融合了 CNN抽取局部特征，再接一层全连接的softmax，进行观点词抽取和情感分类。

BERT-CRF：该方法将评论句和属性词输入预训练BERT模型，得到的表示送入 CRF，抽取观点词，同时使用softmax层预测情感极性。

为了保证比较的公平性，本发明实验将上述模型的学习率、dropout、批次等参数设置为与本文模型一致，LSTM的隐层向量大小设置为100，CNN卷积核的尺寸设置为(2,3,4)。实验分别在两个数据集上进行，表1给出了对比实验的结果。

表1基准模型对比实验结果(％)

通过表1可以看出，相比其他模型而言，使用基于传统机器学习的CRF模型进行观点词抽取和情感分类的性能都是最低的，在两个数据集上的F1值只有59.71％和53.79％，准确率也只达到了67.50％和63.04％。这是由于CRF模型需要定义大量的特征函数，根据自定义的语言特征模板进行观点词抽取，并没有抽取相应的语义特征，不能很好的判断情感极性。与CRF模型相比，LSTM-CRF模型的性能获得明显提升，这是由于LSTM-CRF模型利用LSTM对评论信息进行了抽取，有助于后续的观点词抽取和情感分类。在使用了前向和后向两个方向的LSTM对评论句子进行编码后，BiLSTM-CRF模型可以更好的捕获双向语义依赖关系，因此性能又有所提升。在融合了CNN模型之后，BiLSTM-CNN-CRF模型在两个任务上的性能都有所提升，说明CNN可以很好的捕获局部特征，提高了观点词边界预测的准确率。在基准模型中，基于预训练BERT的BERT-CRF模型的F1值和准确率都是最高的，这是由于BERT包含了很多预训练语料中蕴含的外部知识和语义信息。在两个数据集上，本发明方法的F1值对比所有基准模型均有所提高，验证了本发明方法对涉案微博评论观点词抽取和属性级情感分类的有效性。

为了验证本发明模型中BERT、重塑句法关系、关系图注意力网络和联合训练的有效性，针对#某品牌维权案#数据集进行了消融实验，实验结果如表2所示。

表2消融实验结果对比(％)

通过表2的实验结果可得，当使用Bi-LSTM代替BERT编码时，模型在观点词抽取和属性级情感分类方面的性能均大幅下降，说明预训练BERT可以很好的指导模型学习涉案微博评论的特征，进而抽取观点词和预测情感极性。当没有使用涉案微博评论句重塑的句法关系时，模型的性能有更明显的下降，说明属性词和观点词之间的主要句法关系有助于模型更多地关注相应的观点词。当没有使用关系图注意力网络时，模型在观点词抽取上的性能降低了1.88％，在属性级情感分类上的性能降低了2.81％，说明关系图注意力网络可以有效帮助模型更好地关注属性词与对应观点词之间的联系，对模型的指导作用更准确。当分别对观点词抽取和属性级情感分类进行单独训练时，模型的性能大幅下降，这是由于观点词抽取和属性级情感分类是两个互相促进的子任务，对其进行联合训练，使每个子任务在跨任务语义交互中对另一个子任务形成补充，从而提升了模型的性能。

为了探究词嵌入维度对模型性能的影响，本发明针对#某品牌维权案#数据集进行了实验，实验结果如图3所示。

通过图3的实验结果可以看出，当词嵌入维度选择300时，模型性能最好。当词嵌入维度选择256时，模型性能有明显下降，这是由于词嵌入维度较低时，会影响语义信息的表达能力，对模型造成负面影响。当词嵌入维度较高时，模型性能又有所下降，这是由于较高的词嵌入维度很可能会导致过拟合，从而降低模型性能。因此，本发明选择的词嵌入维度为300。

为了探究注意力头数对模型的影响，针对#某品牌维权案#数据集进行了实验，结果如图4所示。

根据图4可得，当注意力头数选择6时，模型性能最好。当注意力头数选择更少或更多时，模型性能均有所下降。因此，本发明选择的注意力头数为6。

为了探究联合损失函数中参数τ的取值对模型的影响，本发明针对#某品牌维权案#数据集进行了实验，结果如图5所示。

从以上数据可以看出，有效利用属性词和观点词之间的主要句法关系构建图注意力网络，对观点词抽取和属性级情感分类进行联合训练，可以提升观点挖掘的精度。所提出的属性词和观点词之间的主要句法关系和关系感知的注意力网络使模型能够更准确的抽取观点词和预测情感极性，同时联合训练的方法大大提升了模型的性能。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于图注意力网络的案件微博属性级观点挖掘方法，其特征在于：所述基于图注意力网络的案件微博属性级观点挖掘方法的具体步骤如下：

Step2、定制案件微博属性级观点挖掘的标注体系，标记微博评论文本，将标记好的微博评论语料分为训练语料、验证语料和测试语料；

2.根据权利要求1所述的基于图注意力网络的案件微博属性级观点挖掘方法，其特征在于：所述步骤Step1的具体步骤为：

Step1.1、使用Scrapy作为爬取工具，收集用于案件微博属性级观点挖掘的微博评论文本；

Step1.2、对收集到的微博评论文本进行去重与筛选。

3.根据权利要求1所述的基于图注意力网络的案件微博属性级观点挖掘方法，其特征在于：所述步骤Step2的具体步骤为：

Step2.2、再将实验数据分为训练语料、验证语料和测试语料。

4.根据权利要求1所述的基于图注意力网络的案件微博属性级观点挖掘方法，其特征在于：所述步骤Step3的具体步骤为：将评论句

输入斯坦福工具，得到评论句的句法依存树T。

5.根据权利要求1所述的基于图注意力网络的案件微博属性级观点挖掘方法，其特征在于：所述步骤Step4的具体步骤：

Step4.1、将属性词放在依存树的根部；

6.根据权利要求1所述的基于图注意力网络的案件微博属性级观点挖掘方法，其特征在于：所述步骤Step5的具体步骤为：

Step5.1、将依存关系分别映射到两个向量空间：E[r_ij]和U[r_ij]；其中，E[r_ij]用于预测属性词的情感倾向性，U[r_ij]用于抽取观点词；