CN113901172A - 基于关键词结构编码的涉案微博评价对象抽取方法 - Google Patents

基于关键词结构编码的涉案微博评价对象抽取方法 Download PDF

Info

Publication number
CN113901172A
CN113901172A CN202111084571.4A CN202111084571A CN113901172A CN 113901172 A CN113901172 A CN 113901172A CN 202111084571 A CN202111084571 A CN 202111084571A CN 113901172 A CN113901172 A CN 113901172A
Authority
CN
China
Prior art keywords
microblog
case
comment
representation
evaluation object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111084571.4A
Other languages
English (en)
Other versions
CN113901172B (zh
Inventor
余正涛
王静赟
相艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202111084571.4A priority Critical patent/CN113901172B/zh
Publication of CN113901172A publication Critical patent/CN113901172A/zh
Application granted granted Critical
Publication of CN113901172B publication Critical patent/CN113901172B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于关键词结构编码的涉案微博评价对象抽取方法,属自然语言处理领域。先将微博评论句的字符嵌入和词嵌入送入Bi‑LSTM进行编码,并将得到的编码表示进行拼接,输入双层高速网络,同时将案件关键词嵌入送入Bi‑LSTM编码,再通过结构编码机制(Structured Encoding)进一步提取结构编码表征;然后通过交互注意力(Cross Attention)机制将评论句子表征和案件关键词结构表征进行融合;最后将该特征表示送入CRF,抽取评价对象词项。本发明解决了现有方法通常将评价对象抽取视为一个序列标注任务,并未考虑涉案微博的领域特点,即评论通常围绕正文中出现的案件关键词展开讨论的问题。

Description

基于关键词结构编码的涉案微博评价对象抽取方法
技术领域
本发明涉及基于关键词结构编码的涉案微博评价对象抽取方法,属于自然语言处理技术领域。
背景技术
微博等社交媒体的蓬勃发展让人们获得更丰富、更及时的信息,同时每天也会产生大量评论。其中,与案件相关的评论在网络上迅速传播,所产生的舆论会干扰有关机构的工作。为此,获取涉案微博评论的评价对象,对于后续进行案件相关评论的细粒度情感分析,掌握案件舆论走向具有重要的作用。涉案微博评价对象抽取的目的是从微博用户的评论文本中识别出被评价的对象,例如,在“这次事故女司机是无辜的”这一评论中,需要识别出评价对象“女司机”。针对某个案件,网友的评论通常都会围绕微博正文中所提及的案件发生的人物、地点等关键词展开。换句话说,正文中出现的案件关键词构成了用户评论的评价对象。所以,微博正文中与案件相关的关键词信息对于涉案微博评价对象抽取任务是有效的。
发明内容
本发明提供了基于关键词结构编码的涉案微博评价对象抽取方法,以用于解决了涉案微博评论的评价对象抽取任务,以及解决现有方法通常将评价对象抽取视为一个序列标注任务,并未考虑涉案微博的领域特点,即评论通常围绕正文中出现的案件关键词展开讨论等问题。
本发明的技术方案是:基于关键词结构编码的涉案微博评价对象抽取方法,所述基于关键词结构编码的涉案微博评价对象抽取方法的具体步骤如下:
Step1、收集用于涉案微博评价对象抽取的微博正文和微博评论文本,对微博正文和微博评论文本进行去重与筛选,并从微博正文中获取多个案件关键词;
作为本发明的优选方案,所述Step1中,使用Scrapy作为爬取工具,收集用于涉案微博评价对象抽取的微博正文和微博评论文本,对微博正文和微博评论文本进行去重与筛选,然后使用TextRank从微博正文中抽取多个案件关键词。
此优选方案设计是本发明的重要组成部分,主要为本发明收集语料过程,为本发明抽取涉案微博评价对象提供了数据支撑。
Step2、对涉案微博评论文本进行分词,词性标注等预处理,定制涉案微博评价对象抽取的标注体系,标记微博评价文本,将标记好的微博评论语料按照8:1:1的比例分配训练语料、验证语料和测试语料;
Step3、获取评论语句对应的字符向量和词向量,训练数据经过预处理后作为BiLSTM的输入,然后送入双层高速网络;
Step4、获取案件关键词对应的词向量,训练数据经过预处理后作为BiLSTM的输入,然后经过结构编码操作,得到关键词的结构化表征;
Step5、采用交互注意力机制融合评论表征与关键词的结构化表征,训练涉案微博评价对象抽取模型;
Step6、将融合之后的表征输入CRF,用于进行涉案微博评价对象抽取。
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、定制的涉案微博评价对象抽取的标注体系采用了XML的可扩展标记语言组织文本,分别针对评价对象文本、评价对象的开始位置、评价对象的结束位置对收集到的微博评论文本进行标记;
Step2.2、再将实验数据分为训练语料、验证语料和测试语料。
本发明使用的数据集为人工标注共2200条涉案微博评论,标注内容为涉案微博评论句中的评价对象,分别是#奔驰女司机维权案#和#重庆公交车坠江案#两个数据集。
此优选方案设计是本发明的重要组成部分,主要为本发明提供语料预处理过程,为后续工作提供模型训练时所需训练语料和为模型验证时提供验证语料以及为模型测试时提供测试语料;并且为本发明抽取涉案微博评价对象提供了支撑和挖掘的对象。
作为本发明的优选方案,所述步骤Step3的具体步骤:
Step3.1、将评论语句中的字符与词输入到embedding层中得到评论语句对应的字符向量
Figure BDA0003265013080000021
和词向量
Figure BDA0003265013080000022
其中t表示句子中字符的总个数,
Figure BDA0003265013080000023
表示句子中第j个位置的字符,
Figure BDA0003265013080000024
表示第j个位置的字符对应的词;
Step3.2、将词嵌入和字符嵌入分别输入Bi-LSTM进行编码,并将编码得到的隐表示进行拼接;
Step3.3、将拼接之后的表示输入双层高速网络,以此平衡字符向量和词向量的贡献比,得到具有上下文语义特征的评论多粒度向量表示。
所述Bi-LSTM和高速网络:
将词嵌入和字符嵌入分别输入Bi-LSTM进行编码,并将编码得到的隐表示
Figure BDA0003265013080000031
Figure BDA0003265013080000032
进行拼接得到表示
Figure BDA0003265013080000033
Hc=BiLSTM(Xc), (1)
Hw=BiLSTM(Xw), (2)
Figure BDA0003265013080000034
其中,
Figure BDA0003265013080000035
表示拼接操作,d表示嵌入维度。
然后将其输入双层高速网络,以此平衡字符向量和词向量的贡献比,得到具有上下文语义特征的评论多粒度向量表示
Figure BDA0003265013080000036
K=O(Hcw,WO)·T(Hcw,WT)+Hcw·C(Hcw,WC), (4)
其中,O表示非线性函数,T表示转换门,C表示携带门,WO、WT和WC是权重矩阵。
模型输入如图2所示,
Figure BDA0003265013080000037
Figure BDA0003265013080000038
分别是评论语句对应的字符向量和词向量,其中t表示句子中字符的总个数,
Figure BDA0003265013080000039
表示句子中第j个位置的字符,
Figure BDA00032650130800000310
表示第j个位置的字符对应的词。
此优选方案设计是本发明的重要组成部分,主要为本发明提供向量编码的过程,利用结构编码操作,将关键词组合表示为多个语义片段,综合利用多个关键词的信息指导评价对象的抽取,进而提升模型的性能。
作为本发明的优选方案,本发明利用Bi-LSTM和结构编码机制提取关键词的结构编码表征,然后结合交互注意力机制将其与评论句子表征融合,最后送入CRF,进行评价对象抽取,其中:
所述步骤Step4的具体步骤为:
Step4.1、给定一个评论句对应的一组案件关键词,将其输入到embedding层中得到的词向量序列表示为U={u1,u2,…,uf},其中f表示关键词的总个数;
Step4.2、将词向量送入Bi-LSTM,得到具有上下文语义特征的案件关键词向量表示;
Step4.3、利用结构编码操作将具有上下文语义特征的案件关键词的向量表示转化为结构化表示。
作为本发明的优选方案,所述步骤Step5的具体步骤为:
Step5.1、将具有上下文语义特征的评论多粒度向量表示与关键词的结构化表示做交互注意力,由此得到的关键词表征用来表示评论句,;
Step5.2、将融合之后的信息与评论句字符嵌入通过Bi-LSTM得到的隐表示进行点乘,再和评论句词嵌入通过Bi-LSTM得到的隐表示进行简单拼接,得到最终的表征。
作为本发明的优选方案,所述步骤Step6的具体步骤为:将最终的特征表达输入到评价对象抽取层中,利用CRF得到条件概率最大的输出序列,从而实现涉案微博评价对象的抽取。
作为本发明的优选方案,所述结构编码机制:
给定一个评论句对应的一组案件关键词,其词向量序列表示为U={u1,u2,…,uf},其中f表示关键词的总个数。将其送入Bi-LSTM,得到具有上下文语义特征的案件关键词向量表示
Figure BDA0003265013080000041
L=BiLSTM(U), (5)
然后使用结构编码操作将具有上下文语义特征的案件关键词的向量表示
Figure BDA0003265013080000042
转化为结构化表示
Figure BDA0003265013080000043
A=Softmax(W2 tanh(W1LT)), (6)
H=AL, (7)
其中
Figure BDA0003265013080000044
是一个权重矩阵,W1和W2是可训练的两个参数。r是一个超参数,表示
Figure BDA0003265013080000045
转换为结构化表示的结构数量。
使用惩罚项Z作为损失函数中的一部分来保证H中结构化表示的多样性。
Figure BDA0003265013080000046
其中,I表示单位矩阵,||·||F表示矩阵的Frobenius范数。
所述交互注意力机制:
将具有上下文语义特征的评论多粒度向量表示
Figure BDA0003265013080000047
与关键词编码层得到的结构化表示
Figure BDA0003265013080000048
做交互注意力,由此得到的关键词表征
Figure BDA0003265013080000051
用来表示评论句,具体操作如下。
对结构化表示
Figure BDA0003265013080000052
中的每一个特征表示进行加权求和,由此得到信息交互的关键词表征。
Figure BDA0003265013080000053
其中注意力权重αj,i用相应的匹配分数sj,i通过softmax函数计算得到,sj,i通过特征向量kj和hi的双线性乘积计算得到的:
Figure BDA0003265013080000054
sj,i=tanh(kjWhi+b), (11)
其中,W和b是可训练的两个参数。
将上述融合之后的信息
Figure BDA0003265013080000055
与评论句子字符嵌入通过Bi-LSTM得到的隐表示
Figure BDA0003265013080000056
进行点乘,再和评论句子词嵌入通过Bi-LSTM得到的隐表示
Figure BDA0003265013080000057
进行简单拼接,得到最终的表征
Figure BDA0003265013080000058
Figure BDA0003265013080000059
其中,·表示按位相乘,
Figure BDA00032650130800000510
表示简单拼接。该表征既融合了关键词信息,又保留了原有的评论句的字符级信息和词级信息在时序上的上下文依赖关系。
作为本发明的优选方案,将最终的特征表达输入到评价对象抽取层中,利用CRF得到条件概率最大的输出序列,从而实现涉案微博评价对象的抽取。
将G={g1,g2,…gt}通过一个线性层后,得到表示G′,其中G′i,j是序列中第i个字符的标签j的得分。设输入序列为x={x1,x2,…xt},标签序列为y={y1,y2,…yt},标签预测的分数为:
Figure BDA00032650130800000511
P(y|x)=softmax{score(x,y)}, (14)
其中,Q是转移分数矩阵,Qi,j表示从标签i转移到标签j的分数。对所有可能的标签序列的得分应用softmax函数,从而得到给定输入x的条件下标签序列y的概率P(y|x)。本文采用负对数似然函数作为损失函数,最后利用维特比算法得到条件概率最大的输出序列。
Figure BDA0003265013080000061
loss=L+Zi, (16)
其中Zi表示第i个训练实例的惩罚项(见公式(8))。
本发明的有益效果是:
1、本发明的基于关键词结构编码的涉案微博评价对象抽取方法,结合涉案微博数据的特点,提出了利用微博正文中的关键词信息指导评论中的评价对象抽取;
2、本发明的基于关键词结构编码的涉案微博评价对象抽取方法,提出利用结构编码机制对微博正文关键词进行编码,从而能综合利用多个关键词信息;
3、本发明的基于关键词结构编码的涉案微博评价对象抽取方法,加入了交互注意力机制,将评论句子表征和案件关键词结构表征进行深度融合;
4、本发明的基于关键词结构编码的涉案微博评价对象抽取方法,解决了涉案微博评论的评价对象抽取任务。
附图说明
图1为本发明提出的涉案微博评价对象抽取流程图;
图2为本发明提出的基于关键词结构编码的涉案微博评价对象抽取模型图;
图3为设置不同关键词数量的F1值对比示意图。
具体实施方式
实施例1:如图1-图3所示,基于关键词结构编码的涉案微博评价对象抽取方法,具体步骤如下:
Step1、收集用于涉案微博评价对象抽取的微博正文和微博评论文本,对微博正文和微博评论文本进行去重与筛选,并从微博正文中获取多个案件关键词;
作为本发明的优选方案,所述Step1中,使用Scrapy作为爬取工具,收集用于涉案微博评价对象抽取的微博正文和微博评论文本,对微博正文和微博评论文本进行去重与筛选,然后使用TextRank从微博正文中抽取多个案件关键词。
Step2、对涉案微博评论文本进行分词,词性标注等预处理,定制涉案微博评价对象抽取的标注体系,标记微博评价文本,将标记好的微博评论语料按照8:1:1的比例分配训练语料、验证语料和测试语料;
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、定制的涉案微博评价对象抽取的标注体系采用了XML的可扩展标记语言组织文本,分别针对评价对象文本、评价对象的开始位置、评价对象的结束位置对收集到的微博评论文本进行标记;
Step2.2、再将实验数据分为训练语料、验证语料和测试语料。
Step3、获取评论语句对应的字符向量和词向量,训练数据经过预处理后作为BiLSTM的输入,然后送入双层高速网络;
作为本发明的优选方案,所述步骤Step3的具体步骤:
Step3.1、将评论语句中的字符与词输入到embedding层中得到评论语句对应的字符向量
Figure BDA0003265013080000071
和词向量
Figure BDA0003265013080000072
其中t表示句子中字符的总个数,
Figure BDA0003265013080000073
表示句子中第j个位置的字符,
Figure BDA0003265013080000074
表示第j个位置的字符对应的词;
Step3.2、将词嵌入和字符嵌入分别输入Bi-LSTM进行编码,并将编码得到的隐表示进行拼接;
Step3.3、将拼接之后的表示输入双层高速网络,以此平衡字符向量和词向量的贡献比,得到具有上下文语义特征的评论多粒度向量表示。
所述Bi-LSTM和高速网络:
将词嵌入和字符嵌入分别输入Bi-LSTM进行编码,并将编码得到的隐表示
Figure BDA0003265013080000075
Figure BDA0003265013080000076
进行拼接得到表示
Figure BDA0003265013080000077
Hc=BiLSTM(Xc), (1)
Hw=BiLSTM(Xw), (2)
Figure BDA0003265013080000078
其中,
Figure BDA0003265013080000079
表示拼接操作,d表示嵌入维度。
然后将其输入双层高速网络,以此平衡字符向量和词向量的贡献比,得到具有上下文语义特征的评论多粒度向量表示
Figure BDA00032650130800000710
K=O(Hcw,WO)·T(Hcw,WT)+Hcw·C(Hcw,WC), (4)
其中,O表示非线性函数,T表示转换门,C表示携带门,WO、WT和WC是权重矩阵。
模型输入如图2所示,
Figure BDA00032650130800000711
Figure BDA00032650130800000712
分别是评论语句对应的字符向量和词向量,其中t表示句子中字符的总个数,
Figure BDA0003265013080000081
表示句子中第j个位置的字符,
Figure BDA0003265013080000082
表示第j个位置的字符对应的词。
Step4、获取案件关键词对应的词向量,训练数据经过预处理后作为BiLSTM的输入,然后经过结构编码操作,得到关键词的结构化表征;
作为本发明的优选方案,本发明利用Bi-LSTM和结构编码机制提取关键词的结构编码表征,然后结合交互注意力机制将其与评论句子表征融合,最后送入CRF,进行评价对象抽取,其中:
所述步骤Step4的具体步骤为:
Step4.1、给定一个评论句对应的一组案件关键词,将其输入到embedding层中得到的词向量序列表示为U={u1,u2,…,uf},其中f表示关键词的总个数;
Step4.2、将词向量送入Bi-LSTM,得到具有上下文语义特征的案件关键词向量表示;
Step4.3、利用结构编码操作将具有上下文语义特征的案件关键词的向量表示转化为结构化表示。
作为本发明的优选方案,所述步骤Step5的具体步骤为:
Step5.1、将具有上下文语义特征的评论多粒度向量表示与关键词的结构化表示做交互注意力,由此得到的关键词表征用来表示评论句,;
Step5.2、将融合之后的信息与评论句字符嵌入通过Bi-LSTM得到的隐表示进行点乘,再和评论句词嵌入通过Bi-LSTM得到的隐表示进行简单拼接,得到最终的表征。
作为本发明的优选方案,所述步骤Step6的具体步骤为:将最终的特征表达输入到评价对象抽取层中,利用CRF得到条件概率最大的输出序列,从而实现涉案微博评价对象的抽取。
作为本发明的优选方案,所述结构编码机制:
给定一个评论句对应的一组案件关键词,其词向量序列表示为U={u1,u2,…,uf},其中f表示关键词的总个数。将其送入Bi-LSTM,得到具有上下文语义特征的案件关键词向量表示
Figure BDA0003265013080000083
L=BiLSTM(U), (5)
然后使用结构编码操作将具有上下文语义特征的案件关键词的向量表示
Figure BDA0003265013080000084
转化为结构化表示
Figure BDA0003265013080000085
A=Softmax(W2tanh(W1LT)), (6)
H=AL, (7)
其中
Figure BDA0003265013080000086
是一个权重矩阵,W1和W2是可训练的两个参数。r是一个超参数,表示
Figure BDA0003265013080000087
转换为结构化表示的结构数量。
使用惩罚项Z作为损失函数中的一部分来保证H中结构化表示的多样性。
Figure BDA0003265013080000091
其中,I表示单位矩阵,||·||F表示矩阵的Frobenius范数。
所述交互注意力机制:
将具有上下文语义特征的评论多粒度向量表示
Figure BDA0003265013080000092
与关键词编码层得到的结构化表示
Figure BDA0003265013080000093
做交互注意力,由此得到的关键词表征
Figure BDA0003265013080000094
用来表示评论句,具体操作如下。
对结构化表示
Figure BDA0003265013080000095
中的每一个特征表示进行加权求和,由此得到信息交互的关键词表征。
Figure BDA0003265013080000096
其中注意力权重αj,i用相应的匹配分数sj,i通过softmax函数计算得到,sj,i通过特征向量kj和hi的双线性乘积计算得到的:
Figure BDA0003265013080000097
sj,i=tanh(kjWhi+b), (II)
其中,W和b是可训练的两个参数。
将上述融合之后的信息
Figure BDA0003265013080000098
与评论句子字符嵌入通过Bi-LSTM得到的隐表示
Figure BDA0003265013080000099
进行点乘,再和评论句子词嵌入通过Bi-LSTM得到的隐表示
Figure BDA00032650130800000910
进行简单拼接,得到最终的表征
Figure BDA00032650130800000911
Figure BDA00032650130800000912
其中,·表示按位相乘,
Figure BDA00032650130800000913
表示简单拼接。该表征既融合了关键词信息,又保留了原有的评论句的字符级信息和词级信息在时序上的上下文依赖关系。
作为本发明的优选方案,将最终的特征表达输入到评价对象抽取层中,利用CRF得到条件概率最大的输出序列,从而实现涉案微博评价对象的抽取。
将G={g1,g2,…gt}通过一个线性层后,得到表示G′,其中G′i,j是序列中第i个字符的标签j的得分。设输入序列为x={x1,x2,…xt},标签序列为y={y1,y2,…yt},标签预测的分数为:
Figure BDA00032650130800000914
P(y|x)=softmax{score(x,y)}, (14)
其中,Q是转移分数矩阵,Qi,j表示从标签i转移到标签j的分数。对所有可能的标签序列的得分应用softmax函数,从而得到给定输入x的条件下标签序列y的概率P(y|x)。本文采用负对数似然函数作为损失函数,最后利用维特比算法得到条件概率最大的输出序列。
Figure BDA0003265013080000101
loss=L+Zi, (16)
其中Zi表示第i个训练实例的惩罚项(见公式(8))。
Step7、分别对案件关键词数量和质量进行实验探究,经过实验,证明模型设置的合理性与高效性,又将该模型与现有模型进行对比,证明本方法在涉案微博评价对象抽取上具有较好效果。
实验采用精确率(P)、召回率(R)、和F1值作为评价指标进行对比实验。
Figure BDA0003265013080000102
Figure BDA0003265013080000103
Figure BDA0003265013080000104
其中,TP表示正样本被识别为正样本,FP表示负样本被识别为正样本,FN表示正样本被识别为负样本。
本发明实验所使用的预训练词向量是基于CTB 6.0(Chinese Treebank 6.0)语料库训练得到,字符嵌入是基于大规模标准分词后的中文语料库Gigaword训练得到,嵌入维度均为50。通过实验比较,选择关键词个数为20。
实验使用随机梯度下降算法(SGD)优化参数,dropout的大小设置为0.4,学习率设置为0.012,L2设置为1e-8。
本发明模型分别与CRF、LSTM-CRF、BiLSTM-CRF、BiLSTM-CNN-CRF和BERT-CRF五个基准模型进行了对比实验。基准模型介绍如下。
CRF:该方法是解决序列标注问题用的最多的方法之一,通过学习观察序列来预测标签序列。
LSTM-CRF:该方法也是序列标注问题中常用的方法,使用LSTM解决了远距离依赖问题。
BiLSTM-CRF:该模型使用BiLSTM从两个方向编码信息,来更好的捕获上下文信息,同时使用CRF向最终的预测标签添加约束。
BiLSTM-CNN-CRF:该模型在结合BiLSTM和CRF优势的基础上,又融合了CNN抽取局部特征,进行评价对象抽取。
BERT-CRF:该方法将评论句输入预训练BERT模型,得到的表示送入CRF,抽取评价对象词项。
为了保证比较的公平性,本发明实验将上述模型的学习率、dropout、批次等参数设置为与本文模型一致,LSTM的隐层向量大小设置为100,CNN卷积核的尺寸设置为(2,3,4)。BERT-CRF实验中使用的BERT预训练语言模型为Google发布的BERT-Base(Chinese)模型。实验分别在两个数据集上进行,表1给出了对比实验的结果。
表1基准模型对比实验结果(%)
Figure BDA0003265013080000111
通过表1可以看出,相比其他模型而言,基于传统机器学习的CRF模型的性能都是最低的,在两个数据集上的F1值只有56.14%和45.81%,这是由于CRF模型需要定义大量的特征函数,根据自定义的语言特征模板进行评价对象抽取,并没有抽取相应的语义特征。与CRF模型相比,LSTM-CRF、BiLSTM-CRF和BiLSTM-CNN-CRF模型利用LSTM对评论信息进行了抽取,因此性能获得了提升。其中,BiLSTM-CRF模型比起LSTM-CRF模型性能提升明显,这是由于BiLSTM是从前后两个方向编码信息,能够更好的捕获双向语义依赖关系,可以提取到某些很重要词的完整特征,而单向的LSTM只能捕获到单向的词序列信息。融合了CNN模型之后,F1值又有所提升,说明CNN可以很好的捕获局部特征。在基准模型中,基于预训练BERT的BERT-CRF模型的P、R、F1值都是最高的,这是由于BERT包含了很多预训练语料中蕴含的外部知识和语义信息。在两个数据集上,本文模型的P、R、F1值对比所有基准模型均有所提高,验证了本文模型抽取涉案微博评论的评价对象的有效性。
为了验证本文模型中结构编码机制和案件关键词信息的有效性,针对#奔驰女司机维权案#数据集进行了消融实验,实验结果如表2所示。
表2消融实验结果对比(%)
Figure BDA0003265013080000112
通过表2的实验结果可以看出,当没有融入案件关键词时,模型的P、R、F1值均大幅下降,说明案件关键词的融入可以很好的指导模型学习涉案微博领域的特征,进而抽取评价对象词项。当没有使用结构编码机制时,模型的F1值降低了1.26%,P值降低了3.79%,R值反而升高了0.67%,可以看出结构编码机制以牺牲一部分召回率换取了评价对象抽取精确率大的提升,说明结构编码机制可以有效帮助模型综合利用各个案件关键词的信息,对模型的指导作用更准确。
本发明针对两个数据集分别采用不同数量的案件关键词进行了实验,实验结果如图3所示。
通过图3的实验结果可以看出,当案件关键词数量采用20和30时,性能相对较好。特别是当关键词数个数为20时,模型在两个数据集上的F1值都是最高的。说明当关键词数量过少时,其信息量不足,无法充分指导模型学习涉案微博领域的特征,而当关键词数量过多时,可能会引入噪声数据,让模型学习到错误的信息,导致模型性能下降。
为了探究案件关键词质量对模型的影响,本发明分别采用TextRank和TF-IDF两种关键词提取方法进行了实验。由于上述实验结果证明,抽取20个关键词融入模型的效果最好,所以从#女车主维权案#数据集的正文中利用两种方法分别抽取20个关键词,抽取结果如表3所示。
表3不同工具抽取到的案件关键词
Figure BDA0003265013080000121
通过表3可以看出,TextRank抽取到的关键词信息与正文中所提及的案件核心要素更相关,而TF-IDF会抽取到一些高频的噪声词,比如“热议、称有”等。
将表3得到的不同质量的关键词融入模型进行实验,实验结果如表4所示。
表4不同质量关键词的实验结果对比(%)
Figure BDA0003265013080000122
表4的实验结果证明了使用TextRank抽取关键词的效果要优于TF-IDF。原因可能是通过TF-IDF抽取到的关键词包含很多与评价对象无关的噪声词,这些词并不构成网友评论的评价对象,影响了模型的性能。
从以上数据可以看出,使用结构编码机制综合利用微博正文的案件关键词信息,并通过交互注意力机制将其融入评论句子表示,来指导评价对象的抽取。所提出的结构编码机制使模型能够更准确的抽取评价对象词项,且使用TextRank抽取一定数量的关键词融入模型能够得到最好的性能。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (7)

1.基于关键词结构编码的涉案微博评价对象抽取方法,其特征在于:所述基于关键词结构编码的涉案微博评价对象抽取方法的具体步骤如下:
Step1、收集用于涉案微博评价对象抽取的微博正文和微博评论文本,对微博正文和微博评论文本进行去重与筛选,并从微博正文中获取多个案件关键词;
Step2、定制涉案微博评价对象抽取的标注体系,标记微博评论文本,将标记好的微博评论语料分为训练语料、验证语料和测试语料;
Step3、获取评论语句对应的字符向量和词向量,训练数据经过预处理后作为BiLSTM的输入,然后送入双层高速网络;
Step4、获取案件关键词对应的词向量,训练数据经过预处理后作为BiLSTM的输入,然后经过结构编码操作,得到关键词的结构化表征;
Step5、采用交互注意力机制融合评论表征与关键词的结构化表征,训练涉案微博评价对象抽取模型;
Step6、将融合之后的表征输入CRF,用于进行涉案微博评价对象抽取。
2.根据权利要求1所述的基于关键词结构编码的涉案微博评价对象抽取方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、使用Scrapy作为爬取工具,收集用于涉案微博评价对象抽取的微博正文和微博评论文本;
Step1.2、对微博正文和微博评论文本进行去重与筛选,使用TextRank从微博正文中抽取多个案件关键词。
3.根据权利要求1所述的基于关键词结构编码的涉案微博评价对象抽取方法,其特征在于:所述步骤Step2的具体步骤为:
Step2.1、定制的涉案微博评价对象抽取的标注体系采用了XML的可扩展标记语言组织文本,分别针对评价对象文本、评价对象的开始位置、评价对象的结束位置对收集到的微博评论文本进行标记;
Step2.2、再将实验数据分为训练语料、验证语料和测试语料。
4.根据权利要求1所述的基于关键词结构编码的涉案微博评价对象抽取方法,其特征在于:所述步骤Step3的具体步骤为:
Step3.1、将评论语句中的字符与词输入到embedding层中得到评论语句对应的字符向量
Figure FDA0003265013070000011
和词向量
Figure FDA0003265013070000012
其中t表示句子中字符的总个数,
Figure FDA0003265013070000021
表示句子中第j个位置的字符,
Figure FDA0003265013070000022
表示第j个位置的字符对应的词;
Step3.2、将词嵌入和字符嵌入分别输入Bi-LSTM进行编码,并将编码得到的隐表示进行拼接;
Step3.3、将拼接之后的表示输入双层高速网络,以此平衡字符向量和词向量的贡献比,得到具有上下文语义特征的评论多粒度向量表示。
5.根据权利要求1所述的基于关键词结构编码的涉案微博评价对象抽取方法,其特征在于:所述步骤Step4的具体步骤:
Step4.1、给定一个评论句对应的一组案件关键词,将其输入到embedding层中得到的词向量序列表示为U={u1,u2,…,uf},其中f表示关键词的总个数;
Step4.2、将词向量送入Bi-LSTM,得到具有上下文语义特征的案件关键词向量表示;
Step4.3、利用结构编码操作将具有上下文语义特征的案件关键词的向量表示转化为结构化表示。
6.根据权利要求1所述的基于关键词结构编码的涉案微博评价对象抽取方法,其特征在于:所述步骤Step5包括:
Step5.1、将具有上下文语义特征的评论多粒度向量表示与关键词的结构化表示做交互注意力,由此得到的关键词表征用来表示评论句;
Step5.2、将融合之后的信息与评论句字符嵌入通过Bi-LSTM得到的隐表示进行点乘,再和评论句词嵌入通过Bi-LSTM得到的隐表示进行简单拼接,得到最终的表征。
7.根据权利要求1所述的基于关键词结构编码的涉案微博评价对象抽取方法,其特征在于:所述步骤Step6的具体步骤为:将最终的特征表达输入到评价对象抽取层中,利用CRF得到条件概率最大的输出序列,从而实现涉案微博评价对象的抽取。
CN202111084571.4A 2021-09-16 2021-09-16 基于关键词结构编码的涉案微博评价对象抽取方法 Active CN113901172B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111084571.4A CN113901172B (zh) 2021-09-16 2021-09-16 基于关键词结构编码的涉案微博评价对象抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111084571.4A CN113901172B (zh) 2021-09-16 2021-09-16 基于关键词结构编码的涉案微博评价对象抽取方法

Publications (2)

Publication Number Publication Date
CN113901172A true CN113901172A (zh) 2022-01-07
CN113901172B CN113901172B (zh) 2024-04-26

Family

ID=79028572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111084571.4A Active CN113901172B (zh) 2021-09-16 2021-09-16 基于关键词结构编码的涉案微博评价对象抽取方法

Country Status (1)

Country Link
CN (1) CN113901172B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114943216A (zh) * 2022-05-12 2022-08-26 昆明理工大学 基于图注意力网络的案件微博属性级观点挖掘方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019156875A1 (en) * 2018-02-09 2019-08-15 Salesforce.Com, Inc. Multitask learning as question answering
CN111581474A (zh) * 2020-04-02 2020-08-25 昆明理工大学 基于多头注意力机制的涉案微博评论的评价对象抽取方法
CN111597304A (zh) * 2020-05-15 2020-08-28 上海财经大学 一种中文企业名实体精准识别二次匹配方法
CN112256945A (zh) * 2020-11-06 2021-01-22 四川大学 一种基于深度神经网络的社交网络粤语谣言检测方法
CN112561718A (zh) * 2020-11-16 2021-03-26 昆明理工大学 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019156875A1 (en) * 2018-02-09 2019-08-15 Salesforce.Com, Inc. Multitask learning as question answering
CN111581474A (zh) * 2020-04-02 2020-08-25 昆明理工大学 基于多头注意力机制的涉案微博评论的评价对象抽取方法
CN111597304A (zh) * 2020-05-15 2020-08-28 上海财经大学 一种中文企业名实体精准识别二次匹配方法
CN112256945A (zh) * 2020-11-06 2021-01-22 四川大学 一种基于深度神经网络的社交网络粤语谣言检测方法
CN112561718A (zh) * 2020-11-16 2021-03-26 昆明理工大学 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HAO WEI等: "named entity recognition from biomedical texts using a fusion attention-based BiLSTM-CRF", IEEE ACCESS, 4 June 2019 (2019-06-04), pages 1 - 10 *
段宇翔;张仰森;张益兴;段瑞雪;: "基于LSTM-CNNS情感增强模型的微博情感分类方法", 北京信息科技大学学报(自然科学版), vol. 34, no. 06, 15 December 2019 (2019-12-15), pages 1 - 7 *
王静赟等: "基于关键词结构编码的涉案微博评价对象抽取模型", 数据采集与处理, vol. 37, no. 5, 15 September 2022 (2022-09-15), pages 1026 - 1035 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114943216A (zh) * 2022-05-12 2022-08-26 昆明理工大学 基于图注意力网络的案件微博属性级观点挖掘方法
CN114943216B (zh) * 2022-05-12 2024-04-19 昆明理工大学 基于图注意力网络的案件微博属性级观点挖掘方法

Also Published As

Publication number Publication date
CN113901172B (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
CN110348016B (zh) 基于句子关联注意力机制的文本摘要生成方法
CN110119765B (zh) 一种基于Seq2seq框架的关键词提取方法
CN110059188B (zh) 一种基于双向时间卷积网络的中文情感分析方法
CN110287323B (zh) 一种面向目标的情感分类方法
CN111581474B (zh) 基于多头注意力机制的涉案微博评论的评价对象抽取方法
CN108846017A (zh) 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法
CN110347836B (zh) 融入观点句特征的汉越双语新闻情感分类方法
Wahid et al. Cricket sentiment analysis from Bangla text using recurrent neural network with long short term memory model
CN111159414A (zh) 文本分类方法及系统、电子设备、计算机可读存储介质
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及系统
CN113392209A (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN114926150A (zh) 一种变压器技术符合性评估数字化智能审核方法与装置
CN112561718A (zh) 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法
CN114969304A (zh) 基于要素图注意力的案件舆情多文档生成式摘要方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN112163089A (zh) 一种融合命名实体识别的军事高技术文本分类方法及系统
CN111581943A (zh) 一种基于句子关联图的汉越双语多文档新闻观点句识别方法
Qi et al. DuReadervis: A Chinese dataset for open-domain document visual question answering
Bölücü et al. Hate Speech and Offensive Content Identification with Graph Convolutional Networks.
CN113220964B (zh) 一种基于网信领域短文本的观点挖掘方法
Ahmed et al. Context based emotion recognition from bengali text using transformers
CN113901172B (zh) 基于关键词结构编码的涉案微博评价对象抽取方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
Xu et al. Short text classification of chinese with label information assisting
CN114943216B (zh) 基于图注意力网络的案件微博属性级观点挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant