CN113901172A - 基于关键词结构编码的涉案微博评价对象抽取方法 - Google Patents
基于关键词结构编码的涉案微博评价对象抽取方法 Download PDFInfo
- Publication number
- CN113901172A CN113901172A CN202111084571.4A CN202111084571A CN113901172A CN 113901172 A CN113901172 A CN 113901172A CN 202111084571 A CN202111084571 A CN 202111084571A CN 113901172 A CN113901172 A CN 113901172A
- Authority
- CN
- China
- Prior art keywords
- microblog
- case
- comment
- representation
- evaluation object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 83
- 238000000605 extraction Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 24
- 230000007246 mechanism Effects 0.000 claims abstract description 21
- 238000002372 labelling Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 63
- 238000012549 training Methods 0.000 claims description 23
- 230000002452 interceptive effect Effects 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 6
- 230000009193 crawling Effects 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 10
- 238000012512 characterization method Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 2
- 238000002679 ablation Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及基于关键词结构编码的涉案微博评价对象抽取方法,属自然语言处理领域。先将微博评论句的字符嵌入和词嵌入送入Bi‑LSTM进行编码,并将得到的编码表示进行拼接,输入双层高速网络,同时将案件关键词嵌入送入Bi‑LSTM编码,再通过结构编码机制(Structured Encoding)进一步提取结构编码表征;然后通过交互注意力(Cross Attention)机制将评论句子表征和案件关键词结构表征进行融合;最后将该特征表示送入CRF,抽取评价对象词项。本发明解决了现有方法通常将评价对象抽取视为一个序列标注任务,并未考虑涉案微博的领域特点,即评论通常围绕正文中出现的案件关键词展开讨论的问题。
Description
技术领域
本发明涉及基于关键词结构编码的涉案微博评价对象抽取方法,属于自然语言处理技术领域。
背景技术
微博等社交媒体的蓬勃发展让人们获得更丰富、更及时的信息,同时每天也会产生大量评论。其中,与案件相关的评论在网络上迅速传播,所产生的舆论会干扰有关机构的工作。为此,获取涉案微博评论的评价对象,对于后续进行案件相关评论的细粒度情感分析,掌握案件舆论走向具有重要的作用。涉案微博评价对象抽取的目的是从微博用户的评论文本中识别出被评价的对象,例如,在“这次事故女司机是无辜的”这一评论中,需要识别出评价对象“女司机”。针对某个案件,网友的评论通常都会围绕微博正文中所提及的案件发生的人物、地点等关键词展开。换句话说,正文中出现的案件关键词构成了用户评论的评价对象。所以,微博正文中与案件相关的关键词信息对于涉案微博评价对象抽取任务是有效的。
发明内容
本发明提供了基于关键词结构编码的涉案微博评价对象抽取方法,以用于解决了涉案微博评论的评价对象抽取任务,以及解决现有方法通常将评价对象抽取视为一个序列标注任务,并未考虑涉案微博的领域特点,即评论通常围绕正文中出现的案件关键词展开讨论等问题。
本发明的技术方案是:基于关键词结构编码的涉案微博评价对象抽取方法,所述基于关键词结构编码的涉案微博评价对象抽取方法的具体步骤如下:
Step1、收集用于涉案微博评价对象抽取的微博正文和微博评论文本,对微博正文和微博评论文本进行去重与筛选,并从微博正文中获取多个案件关键词;
作为本发明的优选方案,所述Step1中,使用Scrapy作为爬取工具,收集用于涉案微博评价对象抽取的微博正文和微博评论文本,对微博正文和微博评论文本进行去重与筛选,然后使用TextRank从微博正文中抽取多个案件关键词。
此优选方案设计是本发明的重要组成部分,主要为本发明收集语料过程,为本发明抽取涉案微博评价对象提供了数据支撑。
Step2、对涉案微博评论文本进行分词,词性标注等预处理,定制涉案微博评价对象抽取的标注体系,标记微博评价文本,将标记好的微博评论语料按照8:1:1的比例分配训练语料、验证语料和测试语料;
Step3、获取评论语句对应的字符向量和词向量,训练数据经过预处理后作为BiLSTM的输入,然后送入双层高速网络;
Step4、获取案件关键词对应的词向量,训练数据经过预处理后作为BiLSTM的输入,然后经过结构编码操作,得到关键词的结构化表征;
Step5、采用交互注意力机制融合评论表征与关键词的结构化表征,训练涉案微博评价对象抽取模型;
Step6、将融合之后的表征输入CRF,用于进行涉案微博评价对象抽取。
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、定制的涉案微博评价对象抽取的标注体系采用了XML的可扩展标记语言组织文本,分别针对评价对象文本、评价对象的开始位置、评价对象的结束位置对收集到的微博评论文本进行标记;
Step2.2、再将实验数据分为训练语料、验证语料和测试语料。
本发明使用的数据集为人工标注共2200条涉案微博评论,标注内容为涉案微博评论句中的评价对象,分别是#奔驰女司机维权案#和#重庆公交车坠江案#两个数据集。
此优选方案设计是本发明的重要组成部分,主要为本发明提供语料预处理过程,为后续工作提供模型训练时所需训练语料和为模型验证时提供验证语料以及为模型测试时提供测试语料;并且为本发明抽取涉案微博评价对象提供了支撑和挖掘的对象。
作为本发明的优选方案,所述步骤Step3的具体步骤:
Step3.2、将词嵌入和字符嵌入分别输入Bi-LSTM进行编码,并将编码得到的隐表示进行拼接;
Step3.3、将拼接之后的表示输入双层高速网络,以此平衡字符向量和词向量的贡献比,得到具有上下文语义特征的评论多粒度向量表示。
所述Bi-LSTM和高速网络:
Hc=BiLSTM(Xc), (1)
Hw=BiLSTM(Xw), (2)
K=O(Hcw,WO)·T(Hcw,WT)+Hcw·C(Hcw,WC), (4)
其中,O表示非线性函数,T表示转换门,C表示携带门,WO、WT和WC是权重矩阵。
此优选方案设计是本发明的重要组成部分,主要为本发明提供向量编码的过程,利用结构编码操作,将关键词组合表示为多个语义片段,综合利用多个关键词的信息指导评价对象的抽取,进而提升模型的性能。
作为本发明的优选方案,本发明利用Bi-LSTM和结构编码机制提取关键词的结构编码表征,然后结合交互注意力机制将其与评论句子表征融合,最后送入CRF,进行评价对象抽取,其中:
所述步骤Step4的具体步骤为:
Step4.1、给定一个评论句对应的一组案件关键词,将其输入到embedding层中得到的词向量序列表示为U={u1,u2,…,uf},其中f表示关键词的总个数;
Step4.2、将词向量送入Bi-LSTM,得到具有上下文语义特征的案件关键词向量表示;
Step4.3、利用结构编码操作将具有上下文语义特征的案件关键词的向量表示转化为结构化表示。
作为本发明的优选方案,所述步骤Step5的具体步骤为:
Step5.1、将具有上下文语义特征的评论多粒度向量表示与关键词的结构化表示做交互注意力,由此得到的关键词表征用来表示评论句,;
Step5.2、将融合之后的信息与评论句字符嵌入通过Bi-LSTM得到的隐表示进行点乘,再和评论句词嵌入通过Bi-LSTM得到的隐表示进行简单拼接,得到最终的表征。
作为本发明的优选方案,所述步骤Step6的具体步骤为:将最终的特征表达输入到评价对象抽取层中,利用CRF得到条件概率最大的输出序列,从而实现涉案微博评价对象的抽取。
作为本发明的优选方案,所述结构编码机制:
L=BiLSTM(U), (5)
A=Softmax(W2 tanh(W1LT)), (6)
H=AL, (7)
使用惩罚项Z作为损失函数中的一部分来保证H中结构化表示的多样性。
其中,I表示单位矩阵,||·||F表示矩阵的Frobenius范数。
所述交互注意力机制:
其中注意力权重αj,i用相应的匹配分数sj,i通过softmax函数计算得到,sj,i通过特征向量kj和hi的双线性乘积计算得到的:
sj,i=tanh(kjWhi+b), (11)
其中,W和b是可训练的两个参数。
作为本发明的优选方案,将最终的特征表达输入到评价对象抽取层中,利用CRF得到条件概率最大的输出序列,从而实现涉案微博评价对象的抽取。
将G={g1,g2,…gt}通过一个线性层后,得到表示G′,其中G′i,j是序列中第i个字符的标签j的得分。设输入序列为x={x1,x2,…xt},标签序列为y={y1,y2,…yt},标签预测的分数为:
P(y|x)=softmax{score(x,y)}, (14)
其中,Q是转移分数矩阵,Qi,j表示从标签i转移到标签j的分数。对所有可能的标签序列的得分应用softmax函数,从而得到给定输入x的条件下标签序列y的概率P(y|x)。本文采用负对数似然函数作为损失函数,最后利用维特比算法得到条件概率最大的输出序列。
loss=L+Zi, (16)
其中Zi表示第i个训练实例的惩罚项(见公式(8))。
本发明的有益效果是:
1、本发明的基于关键词结构编码的涉案微博评价对象抽取方法,结合涉案微博数据的特点,提出了利用微博正文中的关键词信息指导评论中的评价对象抽取;
2、本发明的基于关键词结构编码的涉案微博评价对象抽取方法,提出利用结构编码机制对微博正文关键词进行编码,从而能综合利用多个关键词信息;
3、本发明的基于关键词结构编码的涉案微博评价对象抽取方法,加入了交互注意力机制,将评论句子表征和案件关键词结构表征进行深度融合;
4、本发明的基于关键词结构编码的涉案微博评价对象抽取方法,解决了涉案微博评论的评价对象抽取任务。
附图说明
图1为本发明提出的涉案微博评价对象抽取流程图;
图2为本发明提出的基于关键词结构编码的涉案微博评价对象抽取模型图;
图3为设置不同关键词数量的F1值对比示意图。
具体实施方式
实施例1:如图1-图3所示,基于关键词结构编码的涉案微博评价对象抽取方法,具体步骤如下:
Step1、收集用于涉案微博评价对象抽取的微博正文和微博评论文本,对微博正文和微博评论文本进行去重与筛选,并从微博正文中获取多个案件关键词;
作为本发明的优选方案,所述Step1中,使用Scrapy作为爬取工具,收集用于涉案微博评价对象抽取的微博正文和微博评论文本,对微博正文和微博评论文本进行去重与筛选,然后使用TextRank从微博正文中抽取多个案件关键词。
Step2、对涉案微博评论文本进行分词,词性标注等预处理,定制涉案微博评价对象抽取的标注体系,标记微博评价文本,将标记好的微博评论语料按照8:1:1的比例分配训练语料、验证语料和测试语料;
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、定制的涉案微博评价对象抽取的标注体系采用了XML的可扩展标记语言组织文本,分别针对评价对象文本、评价对象的开始位置、评价对象的结束位置对收集到的微博评论文本进行标记;
Step2.2、再将实验数据分为训练语料、验证语料和测试语料。
Step3、获取评论语句对应的字符向量和词向量,训练数据经过预处理后作为BiLSTM的输入,然后送入双层高速网络;
作为本发明的优选方案,所述步骤Step3的具体步骤:
Step3.2、将词嵌入和字符嵌入分别输入Bi-LSTM进行编码,并将编码得到的隐表示进行拼接;
Step3.3、将拼接之后的表示输入双层高速网络,以此平衡字符向量和词向量的贡献比,得到具有上下文语义特征的评论多粒度向量表示。
所述Bi-LSTM和高速网络:
Hc=BiLSTM(Xc), (1)
Hw=BiLSTM(Xw), (2)
K=O(Hcw,WO)·T(Hcw,WT)+Hcw·C(Hcw,WC), (4)
其中,O表示非线性函数,T表示转换门,C表示携带门,WO、WT和WC是权重矩阵。
Step4、获取案件关键词对应的词向量,训练数据经过预处理后作为BiLSTM的输入,然后经过结构编码操作,得到关键词的结构化表征;
作为本发明的优选方案,本发明利用Bi-LSTM和结构编码机制提取关键词的结构编码表征,然后结合交互注意力机制将其与评论句子表征融合,最后送入CRF,进行评价对象抽取,其中:
所述步骤Step4的具体步骤为:
Step4.1、给定一个评论句对应的一组案件关键词,将其输入到embedding层中得到的词向量序列表示为U={u1,u2,…,uf},其中f表示关键词的总个数;
Step4.2、将词向量送入Bi-LSTM,得到具有上下文语义特征的案件关键词向量表示;
Step4.3、利用结构编码操作将具有上下文语义特征的案件关键词的向量表示转化为结构化表示。
作为本发明的优选方案,所述步骤Step5的具体步骤为:
Step5.1、将具有上下文语义特征的评论多粒度向量表示与关键词的结构化表示做交互注意力,由此得到的关键词表征用来表示评论句,;
Step5.2、将融合之后的信息与评论句字符嵌入通过Bi-LSTM得到的隐表示进行点乘,再和评论句词嵌入通过Bi-LSTM得到的隐表示进行简单拼接,得到最终的表征。
作为本发明的优选方案,所述步骤Step6的具体步骤为:将最终的特征表达输入到评价对象抽取层中,利用CRF得到条件概率最大的输出序列,从而实现涉案微博评价对象的抽取。
作为本发明的优选方案,所述结构编码机制:
L=BiLSTM(U), (5)
A=Softmax(W2tanh(W1LT)), (6)
H=AL, (7)
使用惩罚项Z作为损失函数中的一部分来保证H中结构化表示的多样性。
其中,I表示单位矩阵,||·||F表示矩阵的Frobenius范数。
所述交互注意力机制:
其中注意力权重αj,i用相应的匹配分数sj,i通过softmax函数计算得到,sj,i通过特征向量kj和hi的双线性乘积计算得到的:
sj,i=tanh(kjWhi+b), (II)
其中,W和b是可训练的两个参数。
作为本发明的优选方案,将最终的特征表达输入到评价对象抽取层中,利用CRF得到条件概率最大的输出序列,从而实现涉案微博评价对象的抽取。
将G={g1,g2,…gt}通过一个线性层后,得到表示G′,其中G′i,j是序列中第i个字符的标签j的得分。设输入序列为x={x1,x2,…xt},标签序列为y={y1,y2,…yt},标签预测的分数为:
P(y|x)=softmax{score(x,y)}, (14)
其中,Q是转移分数矩阵,Qi,j表示从标签i转移到标签j的分数。对所有可能的标签序列的得分应用softmax函数,从而得到给定输入x的条件下标签序列y的概率P(y|x)。本文采用负对数似然函数作为损失函数,最后利用维特比算法得到条件概率最大的输出序列。
loss=L+Zi, (16)
其中Zi表示第i个训练实例的惩罚项(见公式(8))。
Step7、分别对案件关键词数量和质量进行实验探究,经过实验,证明模型设置的合理性与高效性,又将该模型与现有模型进行对比,证明本方法在涉案微博评价对象抽取上具有较好效果。
实验采用精确率(P)、召回率(R)、和F1值作为评价指标进行对比实验。
其中,TP表示正样本被识别为正样本,FP表示负样本被识别为正样本,FN表示正样本被识别为负样本。
本发明实验所使用的预训练词向量是基于CTB 6.0(Chinese Treebank 6.0)语料库训练得到,字符嵌入是基于大规模标准分词后的中文语料库Gigaword训练得到,嵌入维度均为50。通过实验比较,选择关键词个数为20。
实验使用随机梯度下降算法(SGD)优化参数,dropout的大小设置为0.4,学习率设置为0.012,L2设置为1e-8。
本发明模型分别与CRF、LSTM-CRF、BiLSTM-CRF、BiLSTM-CNN-CRF和BERT-CRF五个基准模型进行了对比实验。基准模型介绍如下。
CRF:该方法是解决序列标注问题用的最多的方法之一,通过学习观察序列来预测标签序列。
LSTM-CRF:该方法也是序列标注问题中常用的方法,使用LSTM解决了远距离依赖问题。
BiLSTM-CRF:该模型使用BiLSTM从两个方向编码信息,来更好的捕获上下文信息,同时使用CRF向最终的预测标签添加约束。
BiLSTM-CNN-CRF:该模型在结合BiLSTM和CRF优势的基础上,又融合了CNN抽取局部特征,进行评价对象抽取。
BERT-CRF:该方法将评论句输入预训练BERT模型,得到的表示送入CRF,抽取评价对象词项。
为了保证比较的公平性,本发明实验将上述模型的学习率、dropout、批次等参数设置为与本文模型一致,LSTM的隐层向量大小设置为100,CNN卷积核的尺寸设置为(2,3,4)。BERT-CRF实验中使用的BERT预训练语言模型为Google发布的BERT-Base(Chinese)模型。实验分别在两个数据集上进行,表1给出了对比实验的结果。
表1基准模型对比实验结果(%)
通过表1可以看出,相比其他模型而言,基于传统机器学习的CRF模型的性能都是最低的,在两个数据集上的F1值只有56.14%和45.81%,这是由于CRF模型需要定义大量的特征函数,根据自定义的语言特征模板进行评价对象抽取,并没有抽取相应的语义特征。与CRF模型相比,LSTM-CRF、BiLSTM-CRF和BiLSTM-CNN-CRF模型利用LSTM对评论信息进行了抽取,因此性能获得了提升。其中,BiLSTM-CRF模型比起LSTM-CRF模型性能提升明显,这是由于BiLSTM是从前后两个方向编码信息,能够更好的捕获双向语义依赖关系,可以提取到某些很重要词的完整特征,而单向的LSTM只能捕获到单向的词序列信息。融合了CNN模型之后,F1值又有所提升,说明CNN可以很好的捕获局部特征。在基准模型中,基于预训练BERT的BERT-CRF模型的P、R、F1值都是最高的,这是由于BERT包含了很多预训练语料中蕴含的外部知识和语义信息。在两个数据集上,本文模型的P、R、F1值对比所有基准模型均有所提高,验证了本文模型抽取涉案微博评论的评价对象的有效性。
为了验证本文模型中结构编码机制和案件关键词信息的有效性,针对#奔驰女司机维权案#数据集进行了消融实验,实验结果如表2所示。
表2消融实验结果对比(%)
通过表2的实验结果可以看出,当没有融入案件关键词时,模型的P、R、F1值均大幅下降,说明案件关键词的融入可以很好的指导模型学习涉案微博领域的特征,进而抽取评价对象词项。当没有使用结构编码机制时,模型的F1值降低了1.26%,P值降低了3.79%,R值反而升高了0.67%,可以看出结构编码机制以牺牲一部分召回率换取了评价对象抽取精确率大的提升,说明结构编码机制可以有效帮助模型综合利用各个案件关键词的信息,对模型的指导作用更准确。
本发明针对两个数据集分别采用不同数量的案件关键词进行了实验,实验结果如图3所示。
通过图3的实验结果可以看出,当案件关键词数量采用20和30时,性能相对较好。特别是当关键词数个数为20时,模型在两个数据集上的F1值都是最高的。说明当关键词数量过少时,其信息量不足,无法充分指导模型学习涉案微博领域的特征,而当关键词数量过多时,可能会引入噪声数据,让模型学习到错误的信息,导致模型性能下降。
为了探究案件关键词质量对模型的影响,本发明分别采用TextRank和TF-IDF两种关键词提取方法进行了实验。由于上述实验结果证明,抽取20个关键词融入模型的效果最好,所以从#女车主维权案#数据集的正文中利用两种方法分别抽取20个关键词,抽取结果如表3所示。
表3不同工具抽取到的案件关键词
通过表3可以看出,TextRank抽取到的关键词信息与正文中所提及的案件核心要素更相关,而TF-IDF会抽取到一些高频的噪声词,比如“热议、称有”等。
将表3得到的不同质量的关键词融入模型进行实验,实验结果如表4所示。
表4不同质量关键词的实验结果对比(%)
表4的实验结果证明了使用TextRank抽取关键词的效果要优于TF-IDF。原因可能是通过TF-IDF抽取到的关键词包含很多与评价对象无关的噪声词,这些词并不构成网友评论的评价对象,影响了模型的性能。
从以上数据可以看出,使用结构编码机制综合利用微博正文的案件关键词信息,并通过交互注意力机制将其融入评论句子表示,来指导评价对象的抽取。所提出的结构编码机制使模型能够更准确的抽取评价对象词项,且使用TextRank抽取一定数量的关键词融入模型能够得到最好的性能。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (7)
1.基于关键词结构编码的涉案微博评价对象抽取方法,其特征在于:所述基于关键词结构编码的涉案微博评价对象抽取方法的具体步骤如下:
Step1、收集用于涉案微博评价对象抽取的微博正文和微博评论文本,对微博正文和微博评论文本进行去重与筛选,并从微博正文中获取多个案件关键词;
Step2、定制涉案微博评价对象抽取的标注体系,标记微博评论文本,将标记好的微博评论语料分为训练语料、验证语料和测试语料;
Step3、获取评论语句对应的字符向量和词向量,训练数据经过预处理后作为BiLSTM的输入,然后送入双层高速网络;
Step4、获取案件关键词对应的词向量,训练数据经过预处理后作为BiLSTM的输入,然后经过结构编码操作,得到关键词的结构化表征;
Step5、采用交互注意力机制融合评论表征与关键词的结构化表征,训练涉案微博评价对象抽取模型;
Step6、将融合之后的表征输入CRF,用于进行涉案微博评价对象抽取。
2.根据权利要求1所述的基于关键词结构编码的涉案微博评价对象抽取方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、使用Scrapy作为爬取工具,收集用于涉案微博评价对象抽取的微博正文和微博评论文本;
Step1.2、对微博正文和微博评论文本进行去重与筛选,使用TextRank从微博正文中抽取多个案件关键词。
3.根据权利要求1所述的基于关键词结构编码的涉案微博评价对象抽取方法,其特征在于:所述步骤Step2的具体步骤为:
Step2.1、定制的涉案微博评价对象抽取的标注体系采用了XML的可扩展标记语言组织文本,分别针对评价对象文本、评价对象的开始位置、评价对象的结束位置对收集到的微博评论文本进行标记;
Step2.2、再将实验数据分为训练语料、验证语料和测试语料。
5.根据权利要求1所述的基于关键词结构编码的涉案微博评价对象抽取方法,其特征在于:所述步骤Step4的具体步骤:
Step4.1、给定一个评论句对应的一组案件关键词,将其输入到embedding层中得到的词向量序列表示为U={u1,u2,…,uf},其中f表示关键词的总个数;
Step4.2、将词向量送入Bi-LSTM,得到具有上下文语义特征的案件关键词向量表示;
Step4.3、利用结构编码操作将具有上下文语义特征的案件关键词的向量表示转化为结构化表示。
6.根据权利要求1所述的基于关键词结构编码的涉案微博评价对象抽取方法,其特征在于:所述步骤Step5包括:
Step5.1、将具有上下文语义特征的评论多粒度向量表示与关键词的结构化表示做交互注意力,由此得到的关键词表征用来表示评论句;
Step5.2、将融合之后的信息与评论句字符嵌入通过Bi-LSTM得到的隐表示进行点乘,再和评论句词嵌入通过Bi-LSTM得到的隐表示进行简单拼接,得到最终的表征。
7.根据权利要求1所述的基于关键词结构编码的涉案微博评价对象抽取方法,其特征在于:所述步骤Step6的具体步骤为:将最终的特征表达输入到评价对象抽取层中,利用CRF得到条件概率最大的输出序列,从而实现涉案微博评价对象的抽取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111084571.4A CN113901172B (zh) | 2021-09-16 | 2021-09-16 | 基于关键词结构编码的涉案微博评价对象抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111084571.4A CN113901172B (zh) | 2021-09-16 | 2021-09-16 | 基于关键词结构编码的涉案微博评价对象抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113901172A true CN113901172A (zh) | 2022-01-07 |
CN113901172B CN113901172B (zh) | 2024-04-26 |
Family
ID=79028572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111084571.4A Active CN113901172B (zh) | 2021-09-16 | 2021-09-16 | 基于关键词结构编码的涉案微博评价对象抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113901172B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114943216A (zh) * | 2022-05-12 | 2022-08-26 | 昆明理工大学 | 基于图注意力网络的案件微博属性级观点挖掘方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019156875A1 (en) * | 2018-02-09 | 2019-08-15 | Salesforce.Com, Inc. | Multitask learning as question answering |
CN111581474A (zh) * | 2020-04-02 | 2020-08-25 | 昆明理工大学 | 基于多头注意力机制的涉案微博评论的评价对象抽取方法 |
CN111597304A (zh) * | 2020-05-15 | 2020-08-28 | 上海财经大学 | 一种中文企业名实体精准识别二次匹配方法 |
CN112256945A (zh) * | 2020-11-06 | 2021-01-22 | 四川大学 | 一种基于深度神经网络的社交网络粤语谣言检测方法 |
CN112561718A (zh) * | 2020-11-16 | 2021-03-26 | 昆明理工大学 | 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法 |
-
2021
- 2021-09-16 CN CN202111084571.4A patent/CN113901172B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019156875A1 (en) * | 2018-02-09 | 2019-08-15 | Salesforce.Com, Inc. | Multitask learning as question answering |
CN111581474A (zh) * | 2020-04-02 | 2020-08-25 | 昆明理工大学 | 基于多头注意力机制的涉案微博评论的评价对象抽取方法 |
CN111597304A (zh) * | 2020-05-15 | 2020-08-28 | 上海财经大学 | 一种中文企业名实体精准识别二次匹配方法 |
CN112256945A (zh) * | 2020-11-06 | 2021-01-22 | 四川大学 | 一种基于深度神经网络的社交网络粤语谣言检测方法 |
CN112561718A (zh) * | 2020-11-16 | 2021-03-26 | 昆明理工大学 | 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法 |
Non-Patent Citations (3)
Title |
---|
HAO WEI等: "named entity recognition from biomedical texts using a fusion attention-based BiLSTM-CRF", IEEE ACCESS, 4 June 2019 (2019-06-04), pages 1 - 10 * |
段宇翔;张仰森;张益兴;段瑞雪;: "基于LSTM-CNNS情感增强模型的微博情感分类方法", 北京信息科技大学学报(自然科学版), vol. 34, no. 06, 15 December 2019 (2019-12-15), pages 1 - 7 * |
王静赟等: "基于关键词结构编码的涉案微博评价对象抽取模型", 数据采集与处理, vol. 37, no. 5, 15 September 2022 (2022-09-15), pages 1026 - 1035 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114943216A (zh) * | 2022-05-12 | 2022-08-26 | 昆明理工大学 | 基于图注意力网络的案件微博属性级观点挖掘方法 |
CN114943216B (zh) * | 2022-05-12 | 2024-04-19 | 昆明理工大学 | 基于图注意力网络的案件微博属性级观点挖掘方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113901172B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110348016B (zh) | 基于句子关联注意力机制的文本摘要生成方法 | |
CN110119765B (zh) | 一种基于Seq2seq框架的关键词提取方法 | |
CN110059188B (zh) | 一种基于双向时间卷积网络的中文情感分析方法 | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
CN111581474B (zh) | 基于多头注意力机制的涉案微博评论的评价对象抽取方法 | |
CN108846017A (zh) | 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法 | |
CN110347836B (zh) | 融入观点句特征的汉越双语新闻情感分类方法 | |
Wahid et al. | Cricket sentiment analysis from Bangla text using recurrent neural network with long short term memory model | |
CN111159414A (zh) | 文本分类方法及系统、电子设备、计算机可读存储介质 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及系统 | |
CN113392209A (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN114926150A (zh) | 一种变压器技术符合性评估数字化智能审核方法与装置 | |
CN112561718A (zh) | 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法 | |
CN114969304A (zh) | 基于要素图注意力的案件舆情多文档生成式摘要方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN112163089A (zh) | 一种融合命名实体识别的军事高技术文本分类方法及系统 | |
CN111581943A (zh) | 一种基于句子关联图的汉越双语多文档新闻观点句识别方法 | |
Qi et al. | DuReadervis: A Chinese dataset for open-domain document visual question answering | |
Bölücü et al. | Hate Speech and Offensive Content Identification with Graph Convolutional Networks. | |
CN113220964B (zh) | 一种基于网信领域短文本的观点挖掘方法 | |
Ahmed et al. | Context based emotion recognition from bengali text using transformers | |
CN113901172B (zh) | 基于关键词结构编码的涉案微博评价对象抽取方法 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
Xu et al. | Short text classification of chinese with label information assisting | |
CN114943216B (zh) | 基于图注意力网络的案件微博属性级观点挖掘方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |