CN111581474B

CN111581474B - 基于多头注意力机制的涉案微博评论的评价对象抽取方法

Info

Publication number: CN111581474B
Application number: CN202010254118.2A
Authority: CN
Inventors: 余正涛; 赵培莲; 毛存礼; 相艳; 郭军军; 黄于欣
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2022-07-29
Anticipated expiration: 2040-04-02
Also published as: CN111581474A

Abstract

本发明涉及基于多头注意力机制的涉案微博评论的评价对象抽取方法，首先收集涉案微博正文和微博评论；标记涉案微博评论的评价对象；获取涉案微博评论的字符向量、获取词向量、名词词性相关的词性向量、上下文向量和案件要素向量；将获取的字符向量和词向量进行拼接，并采用多头注意力机制获取词性向量和上下文向量的相关性，同时计算最大的案件要素和词性向量的相似概率权重；将获取得到的拼接向量、相关性权重和最大相似度概率权重进行点乘，得到的结果作为BiLSTM模型的输入，然后经过条件随机场CRF得到最后的序列标签，即抽取结果。本发明取得了较好的抽取效果，在两个典型的涉案微博评论数据集比基线模型分别提高了1％和1.9％。

Description

基于多头注意力机制的涉案微博评论的评价对象抽取方法

技术领域

本发明涉及基于多头注意力机制的涉案微博评论的评价对象抽取方法，属于数据挖掘技术领域。

背景技术

随着自媒体时代的到来、我国新媒体的蓬勃发展和网络舆情的深入，部分法院所审理的焦点案件在网络上迅速发酵，引发社会的广泛争议，甚至左右司法审判，严重影响社会稳定。在此背景下，国家也在推行智慧法院的建设，司法部门通过实时有效的掌握并正确引导网络舆情有助于确保法院依法独立行使审判权，维护社会公平正义。而微博作为社会大众自由评论的社交媒体之一，其用户量庞大，发展较快，其中不少司法相关的案件会在微博中引起激烈讨论。因此本文采用微博中的涉案事件，即涉案微博作为本文的研究重点。故涉案微博评论的评价对象抽取旨在：针对于案件相关的微博话题评论，将评论中的评价对象抽取出来，为涉案舆情的发展趋势预测做基础性工作。

发明内容

本发明提供了基于多头注意力机制的涉案微博评论的评价对象抽取方法，以用于解决目前涉案微博评论中大众评论的评价对象与涉案不相关的问题和大众在对涉案微博评论的评价对象进行评论时表述不一致的问题。

本发明的技术方案是：基于多头注意力机制的涉案微博评论的评价对象抽取方法，所述方法的具体步骤如下：

Step1、收集涉案微博正文和微博评论，对微博评论进行去重、筛选；

作为本发明的优选方案，所述Step1中，使用Scrapy作为爬取工具，模仿用户操作，登录微博，根据页面数据的XPath路径制定模板获取涉及案件的微博正文和微博评论。

此优选方案设计是本发明的重要组成部分，主要为本发明收集语料过程，为本发明抽取微博评论中的评价对象提供了数据支撑。

Step2、根据微博正文所涉及的案件，对筛选后的微博评论设置该案件的案件要素，标记涉案微博评论的评价对象，将标记好的微博评论语料按比例分为训练语料、测试语料和验证语料；

Step3、获取涉案微博评论的字符向量，并通过jieba工具对标记后的微博评论进行分词和词性标注，然后获取词向量、名词词性相关的词性向量、上下文向量和案件要素向量；

Step4、将获取的字符向量和词向量进行拼接，并采用多头注意力机制获取词性向量和上下文向量的相关性，同时计算最大的案件要素和词性向量的相似概率权重；

Step5、将获取得到的拼接向量、相关性权重和最大相似度概率权重进行点乘，得到的结果作为BiLSTM模型的输入，然后经过条件随机场CRF得到最后的序列标签，即抽取结果。

作为本发明的优选方案，所述Step2的具体步骤为：

Step2.1、涉案微博评论的评价对象的标注体系采用了json格式的标记文本，通过json格式的文件，对涉案微博评论进行B(begin)、I(inside)和O(outside)序列标注，其中B(begin)表示评价对象的起始位置，I(inside)表示评价对象的内容，O(outside)表示微博评论中的其他部分，即标记出评价对象，并保存成json格式的文件；

Step2.2、将标记的数据集按照8:1:1的比例切分为训练集、测试集和验证集；

其中，涉及到的案件要素包括何事、何时、何地、何物和何人。

作为本发明的优选方案，所述Step3的具体步骤为：

Step3.1、采用jieba工具对标记后的微博评论进行分词，并进行词性标注，通过分词后，根据已有的微博词向量，将微博的一句评论用微博词向量进行表征。同时，对于需要抽取的评价对象一般是一些名词性实体，因此通过jieba根据对名词性相关的实体选择出来，然后通过微博将选择出来的名词性相关的词性表征出来；

Step3.2、根据目前现有的微博词向量，获取得到字符向量，以及分词后的词向量，名词词性相关的词性向量和上下文向量；

Step3.3、根据已有的微博向量获取案件要素的向量。

由图2可以看出，给定一句涉案微博评论的评论C＝{c₁,c₂...c_m}(S＝{w₁,w₂...w_T}),和案件要素A＝{a₁,a₂...a_n}，其中c_i表示一句评论中的第i个字，w_i表示一句评论中第i个词，a_i表示评论涉及的第i个案件要素。通过中文分词工具jieba可以将一句话切分成若干个词，同时利用其词性标注功能，将每句评论中名词相关的词标记出来，得到词性e^POS＝{n₁,n₂...n_p}。字符嵌入和词嵌入分别将构成评论的字和词表征到高维向量空间中，获得微博评论的最终表征X＝{x₁,x₂,...x_T}，其中字和字符都用已经预训练好的微博中文词向量来表征，POS是词性标记的简称，part of speech。

此优选方案设计是本发明的重要组成部分，主要为本发明提供向量编码的过程，结合微博词向量，进而提升模型的性能。

本发明利用双向长短记忆神经网络预测抽取评价对象，通过多头注意力机制计算词性向量和上下文的相关性，通过最大相似度概率权重计算案件要素和词向量的相似度，再输入到双向长短记忆神经网络，最后经过条件随机场预测出评价对象；其中：

作为本发明的优选方案，所述Step4的具体步骤为：

Step4.1、将得到的字符向量和词性向量通过两个高速网络分别输出两个长度相同的序列，然后再进行拼接；

Step4.2、将得到上下文向量和词性向量根据多头注意力机制的定义，即把上下文与词性表征作为输入，且都有自己的原始Value，将名词词性特征作为Query，上下文作为Key,并将Query与各个Key的相似性作为权重，计算出多头注意力机制的相关性权重；

结合词性特征以及上下文的语义信息，可以有效的缓解抽取任务中的带有前缀或者后缀的问题，而导致抽取不准确的问题。

Step4.3、根据Step3获取得到的案件要素向量和微博评论的词向量根据相似度计算公式，得到相似度概率权重，并选择出最大的概率权重。

所述Step5中，将通过词性向量和字符向量拼接后得到向量与最大相似概率权重和相关性权重进行点乘后作为BiLSTM模型的输入G＝{g₁,g₂,...g_m}，模型首先进入一个LSTM层，通过公式(1)计算得到遗忘门，输入门和输出门。

其中W是输入层到隐藏层的参数矩阵，U是隐藏层到隐藏层的自循环参数矩阵，b为偏置参数矩阵，σ为sigmoid函数。然后通过遗忘门f_t和输入门i_t来控制忘记多少历史信息和保存多少新信息

从而更新内部记忆细胞状态

其计算公式(2)所示：

接着通过输出门控制输出的结果，从而得隐状态h_t，如公式(3)所示：

在完成LSTM后，本文还从后向运行了LSTM来生成后向隐向量

并将前向和后向隐向量进行了拼接，记为h_t，如公式(4)所示：

最后进入条件随机场进行抽取，其中条件随机场对模型的输出起到条件约束的作用，最后得到抽取的结果。

本发明的有益效果是：

1、本发明的基于多头注意力机制的涉案微博评论的评价对象抽取方法，利用案件要素与涉案微博评论中的评价对象的相干性，解决在涉案微博评论中，大众对于评价对象与案件不相关的问题；

2、本发明的基于多头注意力机制的涉案微博评论的评价对象抽取方法，使用多头注意力机制将词性特征与其上下文的关联性，解决了由于大众在评价中的前缀或后缀对于评价对象抽取不准确的问题。

3、本发明的基于多头注意力机制的涉案微博评论的评价对象抽取方法，结合词性、字符、词、上下文及案件要素的特征，利用BiLSTM和CRF对微博的评价对象进行抽取任务。

4、本发明的基于多头注意力机制的涉案微博评论的评价对象抽取方法，解决了涉案微博的微博评论中对于评价对象的抽取任务，且抽取效果好。

附图说明

图1为本发明评价对象抽取流程图；

图2为本发明提出的融入案件要素的评价对象抽取模型图。

具体实施方式

实施例1：如图1-2所示，基于多头注意力机制的涉案微博评论的评价对象抽取方法，所述方法的具体步骤如下：

Step1、使用Scrapy作为爬取工具，模仿用户操作，登录微博，根据页面数据的XPath路径制定模板获取涉及案件的微博正文和微博评论，例如爬取微博评论的“奔驰女车主维权案件”9万多条和“重庆坠江案件”近2.5万条进行实验研究，对微博评论进行去重、筛选；

Step3、获取涉案微博评论的字符向量，并通过jieba(https://github.com/fxsjy/jieba)工具对标记后的微博评论进行分词和词性标注，然后获取词向量、名词词性相关的词性向量、上下文向量和案件要素向量；

作为本发明的优选方案，所述Step2的具体步骤为：

作为本发明的优选方案，所述Step3的具体步骤为：

Step3.3、根据选择出来的案件要素及已有的微博向量获取案件要素的向量。

以本实施例中获取得到的涉案的微博评论的典型案例，可以整理和归纳得到表1所示的案件要素：

表1案件要素表

不难看出，除了何时(时)以外，其他案件要素主要以名词相关形式(名词、动名词)出现，正是涉案微博评论中的主要评价对象，也正是监控舆情中最为关心的对象。因此本发明也可以将除了何时(时)的其他案件要素作为外部知识引导神经网络抽取出评价对象。

作为本发明的优选方案，所述Step4的具体步骤为：

Step4.2、将得到上下文向量和词性向量根据多头注意力机制的定义，即把上下文与词性表征作为输入，且都有自己的原始Value，将名词词性特征作为Query，上下文作为Key,并将Query与各个Key的相似性作为权重，计算出多头注意力机制的相关性权重；其中把上下文各个字的Value融入词性特征的原始Value中，因此通过公式(2)和公式(3)得到注意力机制输出，记为公式(1).

head_i＝Attention(q_i,K,V) (1)

然后根据上述多头注意力机制的定义，将得到的注意力机制的结果进行拼接，如公式(4)：

Multi-Head＝Concat(head₁,head₂,...,head_h)W^O (4)

其中，

是需要学习的参数，因此上下文与词性表征进行多头注意力机制后的输出表示为公式(5)：

context^pos＝MHA(e^POS,e^context) (5)

其中，e^context表示上下文嵌入，e^POS表示名词相关的词性嵌入。

首先利用词嵌入和案件要素嵌入进行相似度计算，如公式(6)所示：

其中，S＝{w₁,w₂...w_T}表示一句涉案微博的评论，A＝{a₁,a₂...a_n}表示涉案的案件要素。不同于注意力机制，本文直接获取涉案微博的微博评论中每个词与所有案件要素的相似度得分的最大值作为该词的概率权重，如公式(7)所示：

o^sim＝max(similarity(S,A)) (7)

其中max表示在计算词嵌入和要素嵌入概率权重的最大值。

所述Step5中，将通过词性向量和字符向量拼接后得到向量与最大相似概率权重和相关性权重进行点乘后作为BiLSTM模型的输入G＝{g₁,g₂,...g_m}，模型首先进入一个LSTM层，通过公式(8)计算得到遗忘门，输入门和输出门。

从而更新内部记忆细胞状态

其计算公式(9)所示：

接着通过输出门控制输出的结果，从而得隐状态h_t，如公式(10)所示：

在完成LSTM后，本文还从后向运行了LSTM来生成后向隐向量

并将前向和后向隐向量进行了拼接，记为h_t，如公式(11)所示：

为了探究本发明抽取涉案微博评论的评价对象方法的有效性，本文采用了五个模型进行比较，包括传统的机器学习方法：隐马尔科夫模型(HMM)和条件随机场模型(CRF)，基于深度学习的方法：迭代扩张卷积神经网络模型(IDCNN)、双向Long-Short-Term网络(BiLSTM)和双向Long-Short-Term网络加条件随机场模型(BiLSTM_CRF)。其中，实验采用准确率(Pre)、召回率(Rec)、和F1值(F1_score)作为评价指标进行对比实验。实验结果如表2所示。

表2不同方法的实验结果

从表2中可以看出，本文提出的方法在两个数据集分别较基线模型BiLSTM-CRF提高了1％和1.9％。其中不管是在“重庆坠江案”，还是在“奔驰维权案”中基于隐马尔可夫模型方法的效果都不是很理想，而条件随机场的模型则取得了不错的效果，甚至比目前基于卷积神经网络的模型(迭代扩张卷积神经网络和卷积神经网络)方法还好。本文认为主要的原因可能是虽然卷积神经网络在提取局部特征中的效果较好，但是针对某些涉案微博中的评价对象的表述不同所导致的提取的特征不全。而基于长短时记忆网络的方法的优势在于能够最大化表征短文本的特征，从实验结果中也能看出双向长短时记忆网络的模型效果要优于基于卷积神经网络的方法。且本文的方法则在双向长短时记忆网络基础上加入词性特征和案件要素的表征，更加突出涉案微博的数据集中评价对象的特征，因此比基线模型的效果有所提高。

同时为了验证文本所提出的两层模型，本文也分别做了各层的有效性实验，具体实验结果如表3所示，其中MHA-表示将多头注意力机制层去掉后的实验结果，同理，CE-表示将案件知识融入层去掉的实验结果。

表3模型各层有效性实验结果

从表3可知，本文提出的多头注意力机制层和案件要素层均有不错的效果。在基线模型BiLSTM-CRF的基础上，仅加入案件知识融入层(MHA-)，在两个涉案微博的评论数据集中比基线模型分别提高了0.5％和1％。而仅加入多头注意力层(CE-)，在两个涉案微博的评论数据集中分别提高了0.4％和1.5％。因此，本文提出的两个方法对涉案微博评论的评价对象抽取任务均有提升作用，且将方法结合后，对于评价对象的抽取更加有效，分别提高了1％和1.9％。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于多头注意力机制的涉案微博评论的评价对象抽取方法，其特征在于：

所述方法的具体步骤如下：

Step4、将获取的字符向量和词向量进行拼接，并采用多头注意力机制获取词性向量和上下文向量的相关性，同时计算案件要素和词向量的最大相似概率权重；

2.根据权利要求1所述的基于多头注意力机制的涉案微博评论的评价对象抽取方法，其特征在于：所述Step1中，使用Scrapy作为爬取工具，模仿用户操作，登录微博，根据页面数据的XPath路径制定模板获取涉及案件的微博正文和微博评论。

3.根据权利要求1所述的基于多头注意力机制的涉案微博评论的评价对象抽取方法，其特征在于：所述Step2的具体步骤为：

Step2.1、涉案微博评论的评价对象的标注体系采用了json格式的标记文本，分别针对涉案微博评论的评价对象，涉及的案件要素进行标记，并保存成json格式的文件；

4.根据权利要求1所述的基于多头注意力机制的涉案微博评论的评价对象抽取方法，其特征在于：所述Step3的具体步骤为：

Step3.1、采用jieba工具对标记后的微博评论进行分词，并进行词性标注，同时将名词和名词性相关的实体选择出来；

Step3.3、根据目前现有的微博词向量获取案件要素的向量。

5.根据权利要求1所述的基于多头注意力机制的涉案微博评论的评价对象抽取方法，其特征在于：所述Step4的具体步骤为：

Step4.1、将得到的字符向量和词向量通过两个高速网络分别输出两个长度相同的序列，然后再进行拼接；

Step4.2、将得到的上下文向量和词性向量根据多头注意力机制的定义，即把上下文与词性表征作为输入，且都有自己的原始Value，将名词词性向量作为Query，上下文作为Key,并将Query与各个Key的相似性作为权重，计算出多头注意力机制的相关性权重；