CN112800229A

CN112800229A - 基于知识图嵌入的涉案领域的半监督方面级情感分析方法

Info

Publication number: CN112800229A
Application number: CN202110163044.6A
Authority: CN
Inventors: 毛存礼; 赵培莲; 余正涛; 相艳
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-05-14
Anticipated expiration: 2041-02-05
Also published as: CN112800229B

Abstract

本发明涉及基于知识图嵌入的涉案领域的半监督方面级情感分析方法，属于自然语言处理技术领域。本发明包括步骤：从涉案微博事件中爬取了包含8个案例、276个涉案热点话题的涉案领域的微博评论5W+，首先利用少量标记数据进行数据增强，通过预训练得到涉案领域的BERT词嵌入和涉案领域的知识图词嵌入，然后将两种词嵌入按照比例拼接放入下游任务中，从而对特定方面的涉案微博评论进行极性的分类。本发明是实验过程中获得的一个最优的技术方案，构建的分类模型取得了较好的效果，在典型的涉案微博评论数据集上比基线模型分别提高了3.1％。

Description

基于知识图嵌入的涉案领域的半监督方面级情感分析方法

技术领域

本发明涉及基于知识图嵌入的涉案领域的半监督方面级情感分析(Semi-ETEKGs)方法，属于自然语言处理技术领域。

背景技术

随着自媒体时代的到来、我国新媒体的蓬勃发展和网络舆情的深入，部分法院所审理的焦点案件在网络上迅速发酵，引发社会的广泛争议，司法部门通过实时有效的掌握并正确引导网络舆情有助于确保法院依法独立行使审判权，维护社会公平正义。而微博作为社会大众自由评论的社交媒体之一，其用户量庞大，发展较快，其中不少司法相关的案件会在微博中引起激烈讨论。因此，为了避免网络舆情对法院判决的影响，实时掌握用户对某一涉案热点事件的观点意见至关重要。该任务可以被视为是自然语言处理(NLP)中的子任务：涉案领域的方面级情感分析(ABSA)，旨在从文本中挖掘用户的情感或者观点。

方面级情感分析是观点挖掘的一个子任务，旨在发现用户对于特定目标的极性判断。其研究方法主要包括有监督的方法和半监督的方法。由于每天成千上万的评论在社交媒体上被产出，将这些评论都进行人工标注是不可能的事情。因此，一种常见的半监督方法(SSL)能够充分利用好少量标注数据集，从而估计在分类器上训练参数。半监督方法已经被证明在很多任务和领域中都取得了不错的效果。其中Bert等为半监督方法提出了一种自监督的方法MixMatch，同时在此基础上在分布的排列和扩增的锚点上改进了模型。

发明内容

本发明提供了基于知识图嵌入的涉案领域的半监督方面级情感分析方法，以用于解决目前涉案微博评论涉案领域知识不能很好的融入到模型和涉案领域中缺乏标记的训练语料的问题，本发明取得较好的情感分类效果。

本发明的技术方案是：基于知识图嵌入的涉案领域的半监督方面级情感分析方法，包括：

从涉案微博事件中爬取涉案领域的微博评论，首先利用标记数据进行数据增强，通过预训练得到涉案领域的BERT词嵌入和涉案领域的知识图词嵌入，然后将两种词嵌入按照比例拼接放入下游任务中，从而对特定方面的涉案微博评论进行极性的分类。

作为本发明的进一步方案，所述基于知识图嵌入的涉案领域的半监督方面级情感分析方法的具体步骤如下：

Step1、收集用于涉案微博评论的方面级情感分析方法的涉案微博正文和微博评论，根据微博正文所涉及的案件，对收集的微博评论设置该案件的案件要素，同时根据案件要素对微博评论进行去重、筛选，去除与案件无关的微博评论，同时标记涉案微博评论的评价对象、所对应的评价观点词和涉案微博评论的情感极性；

Step2、利用标记的数据集进行同义词替换，随机插入和随机交换方法的数据增强，利用构建的数据集基于BERT模型和TransGate模型构建预训练涉案领域的词嵌入网络，从而获得BERT的词向量和涉案领域的TransKGs词嵌入；

Step3、对于未标记的数据集进行标签的预测，并将得到的涉案微博BERT词嵌入和TransKGs词嵌入根据超参数的设置按照权重进行加权融合，获得带有涉案领域知识的词嵌入；

Step4、将获得的具有涉案领域知识特征的词向量放入下游任务中，以此实现涉案领域微博评论的方面级情感分类。

作为本发明的进一步方案，所述步骤Step1中，构建的涉案微博正文和微博评论的数据集，是使用Scrapy作为爬取工具，模仿用户操作，登录微博，获取涉案微博正文和微博评论，包含8个案例及其的276个热点话题的微博评论。

作为本发明的进一步方案，所述步骤Step1中，对根据微博正文所涉及的案件，对收集的微博评论设置该案件的案件要素，同时标记涉案微博评论的评价对象、所对应的评价观点词和涉案微博评论的情感极性包括：

Step1.1、设置的涉案微博评论的评价对象的标注体系采用了json格式的标记文本，首先根据涉案微博评论所涉及的案件，将案件的要素根据要素定义制定出来，主要包括每个案件的事发地点、人物案件要素，并标注出涉案微博评论的评价对象，分别标注评价对象，评价观点词和对应的情感极性。

作为本发明的进一步方案，所述步骤Step2的具体步骤：

Step2.1、利用三种数据增强方式，包括同义词替换，随机交换和随机插入，对标记的数据集进行语料的数据增强；

Step2.2、基于BERT语言模型构建涉案领域的预训练网络，从而通过数据增强后的数据集获得涉案领域的预训练词嵌入；

Step2.3、将数据增强后的数据集利用Trans-Gate模型构建预训练网络，从而获得涉案领域的词嵌入，其中一条数据集包括多个三元组，包含头实体h和尾实体t，r是h和t之间的关系；给定一个三元组h,r,t，利用一个有全连接层的基础门控分别表示两个实体之间的关系，在经过门控函数σ后，得到新的特定关系的词嵌入向量，记为：

其中W_h,

W_t,

b_h和b_t是需学习的参数，⊙表示Hadamard乘积，值得注意的是，为了减少参数的计算量，用两个权向量代替了门控中的矩阵，之后，分数函数被定义为：

f_r(h,t)＝||h_r+r-t_r|| (3)

在预训练涉案知识图后，将得到涉案知识的Trans-KGs词嵌入，预训练的损失函数记为：

其中，S'是词和关系的集合，由随机替换的实体或关系组成的训练三元组。

作为本发明的进一步方案，所述步骤Step3的具体步骤：

Step3.1、对于未标记的数据，先预测未标记数据的标签，其中

和

表示标记的扩增数据和未标记的扩增数据；然后，基于MixMatch的思想对标记数据和未标记数据进行插值，通过三个步骤得到最终的混合数据:

(a)首先，定义了一个微调修改版的MixMatch适应损失函数，其中α是Beta样本分布的超参数；

λ～Beta(α,α) (5)

λ'＝max(λ,1-λ) (6)

(b)通过公式(7)和公式(8)得到最终的样本数据集，其中(x₁,p₁)和(x₂,p₂)是两个带有预测标签的样本，λ'为了设置标记数据和未标记数据的比例阈值，根据

公式(6)确保混合数据集更趋近原始数据集；

x'＝λ'(BERT(x₁))+(1-λ')(BERT(x₂)) (7)

p'＝λ'(BERT(p₁))+(1-λ')(BERT(p₂)) (8)

(c)最后，为了更好的训练，将得到的混合数据进行随机洗牌。

Step3.2、对于标记的数据集和扩增的数据集，直接按照权重将两种词嵌入进行混合，利用β超参数来决定Trans-KGs嵌入和BERT嵌入的比重；然后就能得到混合层中每个字符的嵌入

记为：

其中，

表示通过知识图训练得到的涉案领域字符嵌入，

表示BERT预训练后的字符嵌入。

作为本发明的进一步方案，所述步骤Step4的具体步骤：

Step4.1、将融合后的词嵌入

经过softmax线性模型进行分类；

Step4.2、将融合后的词嵌入

经过卷积神经网络CNN模型，进行卷积操作，包括一层卷积层，一层池化层和一层全连接层，最终加入一层softmax函数进行分类；

Step4.3、将融合的词嵌入

基于循环神经网络RNN的模型GRU模型编码，最后通过softmax函数进行分类；

其中，f是sigmoid激活函数，r_t,z_t,

分别表示重置门，更新门和隐向量；W_z,W_r和W是GRU模型的参数，然后加入softmax函数作为最后一层，从而计算预测的概率，记为：

P(y_n|x_n)＝softmax(W_ohi_t+b_o) (14)

Step4.4、将融合的词嵌入

作为CRF模型的特征向量进行分类，以此得到全局最优的情感标签分类；

p(y_n|x_n)＝softmax(s(x,y)) (16)

其中M^A用于建模的随机初始化的转换矩阵，同时使用softmax函数来获得最终的输出。

本发明的有益效果是：

1、本发明的基于知识图嵌入的面向涉案领域的半监督方面级情感分析(Semi-ETEKGs)方法，利用案件要素与涉案微博评论中的评价对象的相关性，解决在涉案微博评论中，针对特定的评价对象进行情感极性分类的问题；

2、本发明的基于知识图嵌入的面向涉案领域的半监督方面级情感分析(Semi-ETEKGs)方法，使用数据增强的技术和未标记数据的标签预测，解决了涉案领域中训练数据集缺乏的问题。

3、本发明的基于知识图嵌入的面向涉案领域的半监督方面级情感分析(Semi-ETEKGs)方法，预训练了通用领域的BERT语言模型，并利用关系抽取任务中的关系对涉案领域的知识数据库进行训练了涉案领域的知识词嵌入，缓解了通用的ABSA(方面级情感分析)在涉案领域任务中未考虑涉案知识的问题。

4、本发明的基于知识图嵌入的面向涉案领域的半监督方面级情感分析(Semi-ETEKGs)方法，解决了涉案微博的微博评论中对于评价对象的情感极性分类任务。

附图说明

图1为本发明提出的Semi-ETEKGs模型的方面级情感极性分类任务的架构图；

图2为本发明提出的Semi-ETEKGs模型整体框架图。

具体实施方式

实施例1：如图1-2所示，基于知识图嵌入的涉案领域的半监督方面级情感分析方法，包括：

作为本发明的进一步方案，所述步骤Step1中，构建的涉案微博正文和微博评论的数据集，是使用Scrapy作为爬取工具，模仿用户操作，登录微博，获取涉案微博正文和微博评论，包含8个案例及其的276个热点话题的微博评论。并从每一个涉案的案例中随机选取出了500条数据集进行标记根据微博正文所涉及的案件，对收集的微博评论定制该案件的案件要素，并对于每一句评论进行标记涉及的涉案要素，以及涉案的微博评价对象，涉案评价的观点词和对于每一个评价对象进行情感极性的标注；

作为本发明的优选方案，所述Step1中，使用Scrapy作为爬取工具，模仿用户登录操作，登录微博网页版，爬取涉案微博的微博正文和涉案微博评论，根据微博正文涉及的案件以及案件要素的定义，为8个案件指定对应的案件要素，并根据案件要素，匹配出评论中与案件相关的微博评论，去除一些与评论中与该案件不相关的评论，并从这些评论中标记出评价对象，评价对象所对应的评价观点词和情感倾向性。

此优选方案设计是本发明的重要组成部分，主要为本发明收集语料过程，为本发明抽取微博评论中的方面级情感分类任务提供了数据支撑。

作为本发明的优选方案，所述步骤Step1中包括：

定制的涉案领域的方面级情感分析的标注体系采用了json格式的标记文本，通过json格式的文件，对涉案微博的每一句评论的词进行B(begin)、I(inside)和O(outside)序列标注，其中B(begin)表示评价对象的起始位置，I(inside)表示评价对象的内容，O(outside)表示微博评论中的其他部分，以及NEG(负向情感)、POS(正向情感)和NEU(中立情感)，故对于每一个词而言，可能出现的标记情况包括：B-POS、B-NEG、B-NEU、I-POS、I-NEG、I-NEU和O七种情况，并保存成json格式的文件；

作为本发明的进一步方案，所述步骤Step2的具体步骤：

Step2.1、利用三种数据增强方式，包括同义词替换，随机交换和随机插入，对标记的数据集进行语料的数据增强；其中对于通用的英文数据集采用NLTK工具中的同义词，而对于中文的数据集采用中文停止词列表进行数据增强；

Step2.2、将涉案领域的数据增强的数据集基于BERT语言模型进行预训练从而获得涉案领域的涉案BERT词嵌入，将每一句话中词作为BERT模型的输入，随机MASK词后进行预训练；

Step2.3、根据标记的数据集案件要素所构建的涉案知识语料库，采用三元组的形式来表征涉案知识；将数据增强后的数据集利用Trans-Gate模型构建预训练网络，从而获得涉案领域的词嵌入，其中一条数据集包括多个三元组，包含头实体h和尾实体t，r是h和t之间的关系；如图2所示，h和t分别是一个三元组的头实体和尾实体，r是h和t之间的关系。例如，(滴滴司机，判决，死刑)表示滴滴司机被判处死刑，而(犯罪成本,negative,太低)表示对于犯罪成本的情感极性是消极的。给定一个三元组h,r,t，利用一个有全连接层的基础门控分别表示两个实体之间的关系，在经过门控函数σ后，得到新的特定关系的词嵌入向量，记为：

其中W_h,W_rh,W_t,

f_r(h,t)＝||h_r+r-t_r|| (3)

此优选方案设计是本发明的重要组成部分，主要为本发明提供向量编码的过程，为结合预训练的词向量，进而提升模型的性能而提供了涉案领域词嵌入的有力支持。

作为本发明的进一步方案，所述步骤Step3的具体步骤：

Step3.1、对于未标记的数据，先预测未标记数据的标签，其中

和

λ～Beta(α,α) (5)

λ'＝max(λ,1-λ) (6)

(b)通过公式(7)和公式(8)得到最终的样本数据集，其中(x₁,p₁)和(x₂,p₂)是两个带有预测标签的样本，λ'为了设置标记数据和未标记数据的比例阈值，根据公式(6)确保混合数据集更趋近原始数据集；

x'＝λ'(BERT(x₁))+(1-λ')(BERT(x₂)) (7)

p'＝λ'(BERT(p₁))+(1-λ')(BERT(p₂)) (8)

其中预测标签的步骤如下：

在k次数据增强后，使用模型当前预测的平均值作为猜测标签，由标签词汇表计算。因此，我们可以得到每个未标记数据的软标签，记为:

其中，

是标签的输出分布模型，

是经过次数据增强后的数据集。另外，Sharpen函数用于预测分布从而减少标签分布的熵

根据MixMatch可以得到q_b中每一个预测的标签p，记为：

其中，T是区间[0,1]之间的超参数，V是词表大小。我们生成每一个

而不是常规的数据增加(DA)来获得进一步的性能改进，并设置k＝2表示扩增的次数。

记为：

其中，

表示通过知识图训练得到的涉案领域字符嵌入，

表示BERT预训练后的字符嵌入。

作为本发明的进一步方案，所述步骤Step4的具体步骤：

Step4.1、将融合后的词嵌入

经过softmax线性模型进行分类；

直接通过softmax激活函数计算概率从而进行预测，因此我们将混合嵌入层的输出作为线性模型的输入。定义为:

其中，W_o和b_o是线性模型的训练参数，

是混合嵌入层的输出。

Step4.2、将融合后的词嵌入

卷积神经网络(Convolutional neural network,CNN)用来提取网络的特征并应用到一些NLP任务中，它包含三个主要的模型层，分别是卷积层,池化层和全连接层。在卷积层中，会有一个或多个滤波器进行卷积来提取输入层的特征。然后，池化层用于减少数据大小。之后，一个完全连接的层用于在一个行维度上的扩展生成的特征图，并连接成一个向量。最后，CNN的输出定义为:

其中conv2表示卷积操作，

是混合层的输出作为CNN的输入。

Step4.3、将融合的词嵌入

递归神经网络(RNN)被提出后，有很多任务用其来解决NLP问题，并证明了其良好的性能。因此，我们对涉案领域中的E2E-ABSA任务中也使用基于RNN的GRU进行了研究。故可以得到在t-th的隐向量hi_t：

其中，f是sigmoid激活函数，r_t,z_t,

P(y_n|x_n)＝softmax(W_ohi_t+b_o) (18)

Step4.4、将融合的词嵌入

作为CRF模型的特征向量进行分类，以此得到全局最优的情感标签分类；条件随机场(CRF)被有效应用于序列建模中以解决NLP任务中序列分类问题；

p(y_n|x_n)＝softmax(s(x,y)) (20)

为了探究本文发明的涉案微博评论的评价对象方法的有效性，在半监督Semi-ETEKGs模型中，由于餐厅和笔记本电脑领域不存在任何涉案要素，因此无法利用涉案要素构建涉案知识图，故表1的最后一行不能得到模型的效果。另外，我们将BERT模型扩展为一些下游模型，如linear,CNN,GRU和CRF。F1值(F1_score)作为评价指标进行对比实验。实验结果如表1所示。

表1不同方法的实验结果

方法	Restaurant	Laptop	Case-related
				BERT-Linear	73.22*	60.43*	65.22
BERT-CNN	73.11	60.40	65.00
				BERT-GRU	74.87	62.12	66.61
BERT-CRF	74.06	61.78	66.30
				BERT-PT	76.90	62.03	68.40
BERT-FD	78.98*	69.17*	69.30
				Semi-ETEKGs	--	--	72.43

从表1中可以看出，BERT-PT和BERT-FD模型的性能要优于基于BERT模型的性能，而Semi-ETEKGs模型在与案例相关的数据中的性能也更好。具体来说，BERT-CNN的结果不如其他基于BERT的模型好，我们认为CNN忽略了全局特征提取，因此它不能考虑距离特定目标遥远的观点词。相反，BERT-GRU可以捕获上下文表示并克服了长距离依赖的问题，因此在所有数据集中基于BERT的模型能获得最佳性能。其次，由于采用了新的数据增强技术，BERT-FD模型在笔记本电脑和餐厅领域优于其他模型，其性能分别提高了2.22％和2.08％。但并不适用于涉案领域，而添加涉案领域的词嵌入后，Semi-ETEKGs的结果比基线模型提高了3.1％，主要原因可能是微博评论中的涉案评价对象之间存在关系，故它们的词嵌入在涉案领的向量空间中更接近。同时为了验证文本所提出的两层模型，本发明也分别做了各层的有效性实验，具体实验结果如表2所示，其中MHA-表示将多头注意力机制层去掉后的实验结果，同理，CE-表示将案件知识融入层去掉的实验结果。

表2模型各层有效性实验结果

方法	Restaurant	Laptop	Case-related
				BERT-FD	78.98*	67.30*	69.30
Semi-ETEKGs-DA<sup>-</sup>	--	--	71.40
				Semi-ETEKGs-Trans-KGs<sup>-</sup>	79.45	69.50	70.50
Semi-ETEKGs	--	--	72.43

从表2可以看出，Semi-ETEKGs模型在涉案领域数据集的性能提高了3.1％，同时在每一层都是有效的，分别提高了2.1％和1.2％。此外，在餐厅和笔记本电脑领域的数据增强策略也得到了应用，分别提高了0.47和2.2％。在没有其他两个数据集的法律特征的情况下，Semi-ETEKGs的结果无法进行，但是在方面级抽取任务中已经证明了领域词嵌入的有效性，所以相信在商品数据集中加入领域的特征词嵌入也是有效的。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。