CN113901172A

CN113901172A - 基于关键词结构编码的涉案微博评价对象抽取方法

Info

Publication number: CN113901172A
Application number: CN202111084571.4A
Authority: CN
Inventors: 余正涛; 王静赟; 相艳
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2022-01-07
Anticipated expiration: 2041-09-16
Also published as: CN113901172B

Abstract

本发明涉及基于关键词结构编码的涉案微博评价对象抽取方法，属自然语言处理领域。先将微博评论句的字符嵌入和词嵌入送入Bi‑LSTM进行编码，并将得到的编码表示进行拼接，输入双层高速网络，同时将案件关键词嵌入送入Bi‑LSTM编码，再通过结构编码机制(Structured Encoding)进一步提取结构编码表征；然后通过交互注意力(Cross Attention)机制将评论句子表征和案件关键词结构表征进行融合；最后将该特征表示送入CRF，抽取评价对象词项。本发明解决了现有方法通常将评价对象抽取视为一个序列标注任务，并未考虑涉案微博的领域特点，即评论通常围绕正文中出现的案件关键词展开讨论的问题。

Description

基于关键词结构编码的涉案微博评价对象抽取方法

技术领域

本发明涉及基于关键词结构编码的涉案微博评价对象抽取方法，属于自然语言处理技术领域。

背景技术

微博等社交媒体的蓬勃发展让人们获得更丰富、更及时的信息，同时每天也会产生大量评论。其中，与案件相关的评论在网络上迅速传播，所产生的舆论会干扰有关机构的工作。为此，获取涉案微博评论的评价对象，对于后续进行案件相关评论的细粒度情感分析，掌握案件舆论走向具有重要的作用。涉案微博评价对象抽取的目的是从微博用户的评论文本中识别出被评价的对象，例如，在“这次事故女司机是无辜的”这一评论中，需要识别出评价对象“女司机”。针对某个案件，网友的评论通常都会围绕微博正文中所提及的案件发生的人物、地点等关键词展开。换句话说，正文中出现的案件关键词构成了用户评论的评价对象。所以，微博正文中与案件相关的关键词信息对于涉案微博评价对象抽取任务是有效的。

发明内容

本发明提供了基于关键词结构编码的涉案微博评价对象抽取方法，以用于解决了涉案微博评论的评价对象抽取任务，以及解决现有方法通常将评价对象抽取视为一个序列标注任务，并未考虑涉案微博的领域特点，即评论通常围绕正文中出现的案件关键词展开讨论等问题。

本发明的技术方案是：基于关键词结构编码的涉案微博评价对象抽取方法，所述基于关键词结构编码的涉案微博评价对象抽取方法的具体步骤如下：

Step1、收集用于涉案微博评价对象抽取的微博正文和微博评论文本，对微博正文和微博评论文本进行去重与筛选，并从微博正文中获取多个案件关键词；

作为本发明的优选方案，所述Step1中，使用Scrapy作为爬取工具，收集用于涉案微博评价对象抽取的微博正文和微博评论文本，对微博正文和微博评论文本进行去重与筛选，然后使用TextRank从微博正文中抽取多个案件关键词。

此优选方案设计是本发明的重要组成部分，主要为本发明收集语料过程，为本发明抽取涉案微博评价对象提供了数据支撑。

Step2、对涉案微博评论文本进行分词，词性标注等预处理，定制涉案微博评价对象抽取的标注体系，标记微博评价文本，将标记好的微博评论语料按照8：1：1的比例分配训练语料、验证语料和测试语料；

Step3、获取评论语句对应的字符向量和词向量，训练数据经过预处理后作为BiLSTM的输入，然后送入双层高速网络；

Step4、获取案件关键词对应的词向量，训练数据经过预处理后作为BiLSTM的输入，然后经过结构编码操作，得到关键词的结构化表征；

Step5、采用交互注意力机制融合评论表征与关键词的结构化表征，训练涉案微博评价对象抽取模型；

Step6、将融合之后的表征输入CRF，用于进行涉案微博评价对象抽取。

作为本发明的优选方案，所述步骤Step2的具体步骤为：

Step2.1、定制的涉案微博评价对象抽取的标注体系采用了XML的可扩展标记语言组织文本，分别针对评价对象文本、评价对象的开始位置、评价对象的结束位置对收集到的微博评论文本进行标记；

Step2.2、再将实验数据分为训练语料、验证语料和测试语料。

本发明使用的数据集为人工标注共2200条涉案微博评论，标注内容为涉案微博评论句中的评价对象，分别是#奔驰女司机维权案#和#重庆公交车坠江案#两个数据集。

此优选方案设计是本发明的重要组成部分，主要为本发明提供语料预处理过程，为后续工作提供模型训练时所需训练语料和为模型验证时提供验证语料以及为模型测试时提供测试语料；并且为本发明抽取涉案微博评价对象提供了支撑和挖掘的对象。

作为本发明的优选方案，所述步骤Step3的具体步骤：

Step3.1、将评论语句中的字符与词输入到embedding层中得到评论语句对应的字符向量

和词向量

其中t表示句子中字符的总个数，

表示句子中第j个位置的字符，

表示第j个位置的字符对应的词；

Step3.2、将词嵌入和字符嵌入分别输入Bi-LSTM进行编码，并将编码得到的隐表示进行拼接；

Step3.3、将拼接之后的表示输入双层高速网络，以此平衡字符向量和词向量的贡献比，得到具有上下文语义特征的评论多粒度向量表示。

所述Bi-LSTM和高速网络：

将词嵌入和字符嵌入分别输入Bi-LSTM进行编码，并将编码得到的隐表示

和

进行拼接得到表示

H^c＝BiLSTM(X^c), (1)

H^w＝BiLSTM(X^w), (2)

其中，

表示拼接操作，d表示嵌入维度。

然后将其输入双层高速网络，以此平衡字符向量和词向量的贡献比，得到具有上下文语义特征的评论多粒度向量表示

K＝O(H^cw，W_O)·T(H^cw，W_T)+H^cw·C(H^cw，W_C)， (4)

其中，O表示非线性函数，T表示转换门，C表示携带门，W_O、W_T和W_C是权重矩阵。

模型输入如图2所示，

和

分别是评论语句对应的字符向量和词向量，其中t表示句子中字符的总个数，

表示句子中第j个位置的字符，

表示第j个位置的字符对应的词。

此优选方案设计是本发明的重要组成部分，主要为本发明提供向量编码的过程，利用结构编码操作，将关键词组合表示为多个语义片段，综合利用多个关键词的信息指导评价对象的抽取，进而提升模型的性能。

作为本发明的优选方案，本发明利用Bi-LSTM和结构编码机制提取关键词的结构编码表征，然后结合交互注意力机制将其与评论句子表征融合，最后送入CRF，进行评价对象抽取，其中：

所述步骤Step4的具体步骤为：

Step4.1、给定一个评论句对应的一组案件关键词，将其输入到embedding层中得到的词向量序列表示为U＝{u₁,u₂,…,u_f}，其中f表示关键词的总个数；

Step4.2、将词向量送入Bi-LSTM，得到具有上下文语义特征的案件关键词向量表示；

Step4.3、利用结构编码操作将具有上下文语义特征的案件关键词的向量表示转化为结构化表示。

作为本发明的优选方案，所述步骤Step5的具体步骤为：

Step5.1、将具有上下文语义特征的评论多粒度向量表示与关键词的结构化表示做交互注意力，由此得到的关键词表征用来表示评论句，；

Step5.2、将融合之后的信息与评论句字符嵌入通过Bi-LSTM得到的隐表示进行点乘，再和评论句词嵌入通过Bi-LSTM得到的隐表示进行简单拼接，得到最终的表征。

作为本发明的优选方案，所述步骤Step6的具体步骤为：将最终的特征表达输入到评价对象抽取层中，利用CRF得到条件概率最大的输出序列，从而实现涉案微博评价对象的抽取。

作为本发明的优选方案，所述结构编码机制：

给定一个评论句对应的一组案件关键词，其词向量序列表示为U＝{u₁,u₂,…,u_f}，其中f表示关键词的总个数。将其送入Bi-LSTM，得到具有上下文语义特征的案件关键词向量表示

L＝BiLSTM(U), (5)

然后使用结构编码操作将具有上下文语义特征的案件关键词的向量表示

转化为结构化表示

A＝Softmax(W₂ tanh(W₁L^T)), (6)

H＝AL, (7)

其中

是一个权重矩阵，W₁和W₂是可训练的两个参数。r是一个超参数，表示

转换为结构化表示的结构数量。

使用惩罚项Z作为损失函数中的一部分来保证H中结构化表示的多样性。

其中，I表示单位矩阵，||·||_F表示矩阵的Frobenius范数。

所述交互注意力机制：

将具有上下文语义特征的评论多粒度向量表示

与关键词编码层得到的结构化表示

做交互注意力，由此得到的关键词表征

用来表示评论句，具体操作如下。

对结构化表示

中的每一个特征表示进行加权求和，由此得到信息交互的关键词表征。

其中注意力权重α_j,i用相应的匹配分数s_j,i通过softmax函数计算得到，s_j,i通过特征向量k_j和h_i的双线性乘积计算得到的：

s_j,i＝tanh(k_jWh_i+b), (11)

其中，W和b是可训练的两个参数。

将上述融合之后的信息

与评论句子字符嵌入通过Bi-LSTM得到的隐表示

进行点乘，再和评论句子词嵌入通过Bi-LSTM得到的隐表示

进行简单拼接，得到最终的表征

其中，·表示按位相乘，

表示简单拼接。该表征既融合了关键词信息，又保留了原有的评论句的字符级信息和词级信息在时序上的上下文依赖关系。

作为本发明的优选方案，将最终的特征表达输入到评价对象抽取层中，利用CRF得到条件概率最大的输出序列，从而实现涉案微博评价对象的抽取。

将G＝{g₁,g₂,…g_t}通过一个线性层后，得到表示G′，其中G′_i,j是序列中第i个字符的标签j的得分。设输入序列为x＝{x₁,x₂,…x_t}，标签序列为y＝{y₁,y₂,…y_t}，标签预测的分数为：

P(y|x)＝softmax{score(x,y)}, (14)

其中，Q是转移分数矩阵，Q_i,j表示从标签i转移到标签j的分数。对所有可能的标签序列的得分应用softmax函数，从而得到给定输入x的条件下标签序列y的概率P(y|x)。本文采用负对数似然函数作为损失函数,最后利用维特比算法得到条件概率最大的输出序列。

loss＝L+Z_i, (16)

其中Z_i表示第i个训练实例的惩罚项(见公式(8))。

本发明的有益效果是：

1、本发明的基于关键词结构编码的涉案微博评价对象抽取方法，结合涉案微博数据的特点，提出了利用微博正文中的关键词信息指导评论中的评价对象抽取；

2、本发明的基于关键词结构编码的涉案微博评价对象抽取方法，提出利用结构编码机制对微博正文关键词进行编码，从而能综合利用多个关键词信息；

3、本发明的基于关键词结构编码的涉案微博评价对象抽取方法，加入了交互注意力机制，将评论句子表征和案件关键词结构表征进行深度融合；

4、本发明的基于关键词结构编码的涉案微博评价对象抽取方法，解决了涉案微博评论的评价对象抽取任务。

附图说明

图1为本发明提出的涉案微博评价对象抽取流程图；

图2为本发明提出的基于关键词结构编码的涉案微博评价对象抽取模型图；

图3为设置不同关键词数量的F1值对比示意图。

具体实施方式

实施例1：如图1-图3所示，基于关键词结构编码的涉案微博评价对象抽取方法，具体步骤如下：

作为本发明的优选方案，所述步骤Step2的具体步骤为：

Step2.2、再将实验数据分为训练语料、验证语料和测试语料。

作为本发明的优选方案，所述步骤Step3的具体步骤：

和词向量

其中t表示句子中字符的总个数，

表示句子中第j个位置的字符，

表示第j个位置的字符对应的词；

所述Bi-LSTM和高速网络：

和

进行拼接得到表示

H^c＝BiLSTM(X^c), (1)

H^w＝BiLSTM(X^w), (2)

其中，

表示拼接操作，d表示嵌入维度。

K＝O(H^cw，W_O)·T(H^cw，W_T)+H^cw·C(H^cw，W_C)， (4)

模型输入如图2所示，

和

表示句子中第j个位置的字符，

表示第j个位置的字符对应的词。

所述步骤Step4的具体步骤为：

作为本发明的优选方案，所述步骤Step5的具体步骤为：

作为本发明的优选方案，所述结构编码机制：

L＝BiLSTM(U), (5)

转化为结构化表示

A＝Softmax(W₂tanh(W₁L^T))， (6)

H＝AL， (7)

其中

转换为结构化表示的结构数量。

其中，I表示单位矩阵，||·||_F表示矩阵的Frobenius范数。

所述交互注意力机制：

将具有上下文语义特征的评论多粒度向量表示

与关键词编码层得到的结构化表示

做交互注意力，由此得到的关键词表征

用来表示评论句，具体操作如下。

对结构化表示

s_j，i＝tanh(k_jWh_i+b)， (II)

其中，W和b是可训练的两个参数。

将上述融合之后的信息

与评论句子字符嵌入通过Bi-LSTM得到的隐表示

进行点乘，再和评论句子词嵌入通过Bi-LSTM得到的隐表示

进行简单拼接，得到最终的表征

其中，·表示按位相乘，

P(y|x)＝softmax{score(x，y)}， (14)

loss＝L+Z_i， (16)

其中Z_i表示第i个训练实例的惩罚项(见公式(8))。

Step7、分别对案件关键词数量和质量进行实验探究，经过实验，证明模型设置的合理性与高效性，又将该模型与现有模型进行对比，证明本方法在涉案微博评价对象抽取上具有较好效果。

实验采用精确率(P)、召回率(R)、和F1值作为评价指标进行对比实验。

其中，TP表示正样本被识别为正样本，FP表示负样本被识别为正样本，FN表示正样本被识别为负样本。

本发明实验所使用的预训练词向量是基于CTB 6.0(Chinese Treebank 6.0)语料库训练得到，字符嵌入是基于大规模标准分词后的中文语料库Gigaword训练得到，嵌入维度均为50。通过实验比较，选择关键词个数为20。

实验使用随机梯度下降算法(SGD)优化参数，dropout的大小设置为0.4，学习率设置为0.012，L2设置为1e-8。

本发明模型分别与CRF、LSTM-CRF、BiLSTM-CRF、BiLSTM-CNN-CRF和BERT-CRF五个基准模型进行了对比实验。基准模型介绍如下。

CRF：该方法是解决序列标注问题用的最多的方法之一，通过学习观察序列来预测标签序列。

LSTM-CRF：该方法也是序列标注问题中常用的方法，使用LSTM解决了远距离依赖问题。

BiLSTM-CRF：该模型使用BiLSTM从两个方向编码信息，来更好的捕获上下文信息，同时使用CRF向最终的预测标签添加约束。

BiLSTM-CNN-CRF：该模型在结合BiLSTM和CRF优势的基础上，又融合了CNN抽取局部特征，进行评价对象抽取。

BERT-CRF：该方法将评论句输入预训练BERT模型，得到的表示送入CRF，抽取评价对象词项。

为了保证比较的公平性，本发明实验将上述模型的学习率、dropout、批次等参数设置为与本文模型一致，LSTM的隐层向量大小设置为100，CNN卷积核的尺寸设置为(2,3,4)。BERT-CRF实验中使用的BERT预训练语言模型为Google发布的BERT-Base(Chinese)模型。实验分别在两个数据集上进行，表1给出了对比实验的结果。

表1基准模型对比实验结果(％)

通过表1可以看出，相比其他模型而言，基于传统机器学习的CRF模型的性能都是最低的，在两个数据集上的F1值只有56.14％和45.81％，这是由于CRF模型需要定义大量的特征函数，根据自定义的语言特征模板进行评价对象抽取，并没有抽取相应的语义特征。与CRF模型相比，LSTM-CRF、BiLSTM-CRF和BiLSTM-CNN-CRF模型利用LSTM对评论信息进行了抽取，因此性能获得了提升。其中，BiLSTM-CRF模型比起LSTM-CRF模型性能提升明显，这是由于BiLSTM是从前后两个方向编码信息，能够更好的捕获双向语义依赖关系，可以提取到某些很重要词的完整特征，而单向的LSTM只能捕获到单向的词序列信息。融合了CNN模型之后，F1值又有所提升，说明CNN可以很好的捕获局部特征。在基准模型中，基于预训练BERT的BERT-CRF模型的P、R、F1值都是最高的，这是由于BERT包含了很多预训练语料中蕴含的外部知识和语义信息。在两个数据集上，本文模型的P、R、F1值对比所有基准模型均有所提高，验证了本文模型抽取涉案微博评论的评价对象的有效性。

为了验证本文模型中结构编码机制和案件关键词信息的有效性，针对#奔驰女司机维权案#数据集进行了消融实验，实验结果如表2所示。

表2消融实验结果对比(％)

通过表2的实验结果可以看出，当没有融入案件关键词时，模型的P、R、F1值均大幅下降，说明案件关键词的融入可以很好的指导模型学习涉案微博领域的特征，进而抽取评价对象词项。当没有使用结构编码机制时，模型的F1值降低了1.26％，P值降低了3.79％，R值反而升高了0.67％，可以看出结构编码机制以牺牲一部分召回率换取了评价对象抽取精确率大的提升，说明结构编码机制可以有效帮助模型综合利用各个案件关键词的信息，对模型的指导作用更准确。

本发明针对两个数据集分别采用不同数量的案件关键词进行了实验，实验结果如图3所示。

通过图3的实验结果可以看出，当案件关键词数量采用20和30时，性能相对较好。特别是当关键词数个数为20时，模型在两个数据集上的F1值都是最高的。说明当关键词数量过少时，其信息量不足，无法充分指导模型学习涉案微博领域的特征，而当关键词数量过多时，可能会引入噪声数据，让模型学习到错误的信息，导致模型性能下降。

为了探究案件关键词质量对模型的影响，本发明分别采用TextRank和TF-IDF两种关键词提取方法进行了实验。由于上述实验结果证明，抽取20个关键词融入模型的效果最好，所以从#女车主维权案#数据集的正文中利用两种方法分别抽取20个关键词，抽取结果如表3所示。

表3不同工具抽取到的案件关键词

通过表3可以看出，TextRank抽取到的关键词信息与正文中所提及的案件核心要素更相关，而TF-IDF会抽取到一些高频的噪声词，比如“热议、称有”等。

将表3得到的不同质量的关键词融入模型进行实验，实验结果如表4所示。

表4不同质量关键词的实验结果对比(％)

表4的实验结果证明了使用TextRank抽取关键词的效果要优于TF-IDF。原因可能是通过TF-IDF抽取到的关键词包含很多与评价对象无关的噪声词，这些词并不构成网友评论的评价对象，影响了模型的性能。

从以上数据可以看出，使用结构编码机制综合利用微博正文的案件关键词信息，并通过交互注意力机制将其融入评论句子表示，来指导评价对象的抽取。所提出的结构编码机制使模型能够更准确的抽取评价对象词项，且使用TextRank抽取一定数量的关键词融入模型能够得到最好的性能。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于关键词结构编码的涉案微博评价对象抽取方法，其特征在于：所述基于关键词结构编码的涉案微博评价对象抽取方法的具体步骤如下：

Step2、定制涉案微博评价对象抽取的标注体系，标记微博评论文本，将标记好的微博评论语料分为训练语料、验证语料和测试语料；

2.根据权利要求1所述的基于关键词结构编码的涉案微博评价对象抽取方法，其特征在于：所述步骤Step1的具体步骤为：

Step1.1、使用Scrapy作为爬取工具，收集用于涉案微博评价对象抽取的微博正文和微博评论文本；

Step1.2、对微博正文和微博评论文本进行去重与筛选，使用TextRank从微博正文中抽取多个案件关键词。

3.根据权利要求1所述的基于关键词结构编码的涉案微博评价对象抽取方法，其特征在于：所述步骤Step2的具体步骤为：

Step2.2、再将实验数据分为训练语料、验证语料和测试语料。

4.根据权利要求1所述的基于关键词结构编码的涉案微博评价对象抽取方法，其特征在于：所述步骤Step3的具体步骤为：

和词向量

其中t表示句子中字符的总个数，

表示句子中第j个位置的字符，

表示第j个位置的字符对应的词；

5.根据权利要求1所述的基于关键词结构编码的涉案微博评价对象抽取方法，其特征在于：所述步骤Step4的具体步骤：

6.根据权利要求1所述的基于关键词结构编码的涉案微博评价对象抽取方法，其特征在于：所述步骤Step5包括：

Step5.1、将具有上下文语义特征的评论多粒度向量表示与关键词的结构化表示做交互注意力，由此得到的关键词表征用来表示评论句；

7.根据权利要求1所述的基于关键词结构编码的涉案微博评价对象抽取方法，其特征在于：所述步骤Step6的具体步骤为：将最终的特征表达输入到评价对象抽取层中，利用CRF得到条件概率最大的输出序列，从而实现涉案微博评价对象的抽取。