CN112800229A - 基于知识图嵌入的涉案领域的半监督方面级情感分析方法 - Google Patents

基于知识图嵌入的涉案领域的半监督方面级情感分析方法 Download PDF

Info

Publication number
CN112800229A
CN112800229A CN202110163044.6A CN202110163044A CN112800229A CN 112800229 A CN112800229 A CN 112800229A CN 202110163044 A CN202110163044 A CN 202110163044A CN 112800229 A CN112800229 A CN 112800229A
Authority
CN
China
Prior art keywords
case
microblog
embedding
involved
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110163044.6A
Other languages
English (en)
Other versions
CN112800229B (zh
Inventor
毛存礼
赵培莲
余正涛
相艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202110163044.6A priority Critical patent/CN112800229B/zh
Publication of CN112800229A publication Critical patent/CN112800229A/zh
Application granted granted Critical
Publication of CN112800229B publication Critical patent/CN112800229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及基于知识图嵌入的涉案领域的半监督方面级情感分析方法,属于自然语言处理技术领域。本发明包括步骤:从涉案微博事件中爬取了包含8个案例、276个涉案热点话题的涉案领域的微博评论5W+,首先利用少量标记数据进行数据增强,通过预训练得到涉案领域的BERT词嵌入和涉案领域的知识图词嵌入,然后将两种词嵌入按照比例拼接放入下游任务中,从而对特定方面的涉案微博评论进行极性的分类。本发明是实验过程中获得的一个最优的技术方案,构建的分类模型取得了较好的效果,在典型的涉案微博评论数据集上比基线模型分别提高了3.1%。

Description

基于知识图嵌入的涉案领域的半监督方面级情感分析方法
技术领域
本发明涉及基于知识图嵌入的涉案领域的半监督方面级情感分析(Semi-ETEKGs)方法,属于自然语言处理技术领域。
背景技术
随着自媒体时代的到来、我国新媒体的蓬勃发展和网络舆情的深入,部分法院所审理的焦点案件在网络上迅速发酵,引发社会的广泛争议,司法部门通过实时有效的掌握并正确引导网络舆情有助于确保法院依法独立行使审判权,维护社会公平正义。而微博作为社会大众自由评论的社交媒体之一,其用户量庞大,发展较快,其中不少司法相关的案件会在微博中引起激烈讨论。因此,为了避免网络舆情对法院判决的影响,实时掌握用户对某一涉案热点事件的观点意见至关重要。该任务可以被视为是自然语言处理(NLP)中的子任务:涉案领域的方面级情感分析(ABSA),旨在从文本中挖掘用户的情感或者观点。
方面级情感分析是观点挖掘的一个子任务,旨在发现用户对于特定目标的极性判断。其研究方法主要包括有监督的方法和半监督的方法。由于每天成千上万的评论在社交媒体上被产出,将这些评论都进行人工标注是不可能的事情。因此,一种常见的半监督方法(SSL)能够充分利用好少量标注数据集,从而估计在分类器上训练参数。半监督方法已经被证明在很多任务和领域中都取得了不错的效果。其中Bert等为半监督方法提出了一种自监督的方法MixMatch,同时在此基础上在分布的排列和扩增的锚点上改进了模型。
发明内容
本发明提供了基于知识图嵌入的涉案领域的半监督方面级情感分析方法,以用于解决目前涉案微博评论涉案领域知识不能很好的融入到模型和涉案领域中缺乏标记的训练语料的问题,本发明取得较好的情感分类效果。
本发明的技术方案是:基于知识图嵌入的涉案领域的半监督方面级情感分析方法,包括:
从涉案微博事件中爬取涉案领域的微博评论,首先利用标记数据进行数据增强,通过预训练得到涉案领域的BERT词嵌入和涉案领域的知识图词嵌入,然后将两种词嵌入按照比例拼接放入下游任务中,从而对特定方面的涉案微博评论进行极性的分类。
作为本发明的进一步方案,所述基于知识图嵌入的涉案领域的半监督方面级情感分析方法的具体步骤如下:
Step1、收集用于涉案微博评论的方面级情感分析方法的涉案微博正文和微博评论,根据微博正文所涉及的案件,对收集的微博评论设置该案件的案件要素,同时根据案件要素对微博评论进行去重、筛选,去除与案件无关的微博评论,同时标记涉案微博评论的评价对象、所对应的评价观点词和涉案微博评论的情感极性;
Step2、利用标记的数据集进行同义词替换,随机插入和随机交换方法的数据增强,利用构建的数据集基于BERT模型和TransGate模型构建预训练涉案领域的词嵌入网络,从而获得BERT的词向量和涉案领域的TransKGs词嵌入;
Step3、对于未标记的数据集进行标签的预测,并将得到的涉案微博BERT词嵌入和TransKGs词嵌入根据超参数的设置按照权重进行加权融合,获得带有涉案领域知识的词嵌入;
Step4、将获得的具有涉案领域知识特征的词向量放入下游任务中,以此实现涉案领域微博评论的方面级情感分类。
作为本发明的进一步方案,所述步骤Step1中,构建的涉案微博正文和微博评论的数据集,是使用Scrapy作为爬取工具,模仿用户操作,登录微博,获取涉案微博正文和微博评论,包含8个案例及其的276个热点话题的微博评论。
作为本发明的进一步方案,所述步骤Step1中,对根据微博正文所涉及的案件,对收集的微博评论设置该案件的案件要素,同时标记涉案微博评论的评价对象、所对应的评价观点词和涉案微博评论的情感极性包括:
Step1.1、设置的涉案微博评论的评价对象的标注体系采用了json格式的标记文本,首先根据涉案微博评论所涉及的案件,将案件的要素根据要素定义制定出来,主要包括每个案件的事发地点、人物案件要素,并标注出涉案微博评论的评价对象,分别标注评价对象,评价观点词和对应的情感极性。
作为本发明的进一步方案,所述步骤Step2的具体步骤:
Step2.1、利用三种数据增强方式,包括同义词替换,随机交换和随机插入,对标记的数据集进行语料的数据增强;
Step2.2、基于BERT语言模型构建涉案领域的预训练网络,从而通过数据增强后的数据集获得涉案领域的预训练词嵌入;
Step2.3、将数据增强后的数据集利用Trans-Gate模型构建预训练网络,从而获得涉案领域的词嵌入,其中一条数据集包括多个三元组,包含头实体h和尾实体t,r是h和t之间的关系;给定一个三元组h,r,t,利用一个有全连接层的基础门控分别表示两个实体之间的关系,在经过门控函数σ后,得到新的特定关系的词嵌入向量,记为:
Figure BDA0002936283850000031
Figure BDA0002936283850000032
其中Wh,
Figure BDA0002936283850000033
Wt,
Figure BDA0002936283850000034
bh和bt是需学习的参数,⊙表示Hadamard乘积,值得注意的是,为了减少参数的计算量,用两个权向量代替了门控中的矩阵,之后,分数函数被定义为:
fr(h,t)=||hr+r-tr|| (3)
在预训练涉案知识图后,将得到涉案知识的Trans-KGs词嵌入,预训练的损失函数记为:
Figure BDA0002936283850000035
其中,S'是词和关系的集合,由随机替换的实体或关系组成的训练三元组。
作为本发明的进一步方案,所述步骤Step3的具体步骤:
Step3.1、对于未标记的数据,先预测未标记数据的标签,其中
Figure BDA0002936283850000036
Figure BDA0002936283850000037
表示标记的扩增数据和未标记的扩增数据;然后,基于MixMatch的思想对标记数据和未标记数据进行插值,通过三个步骤得到最终的混合数据:
(a)首先,定义了一个微调修改版的MixMatch适应损失函数,其中α是Beta样本分布的超参数;
λ~Beta(α,α) (5)
λ'=max(λ,1-λ) (6)
(b)通过公式(7)和公式(8)得到最终的样本数据集,其中(x1,p1)和(x2,p2)是两个带有预测标签的样本,λ'为了设置标记数据和未标记数据的比例阈值,根据
公式(6)确保混合数据集更趋近原始数据集;
x'=λ'(BERT(x1))+(1-λ')(BERT(x2)) (7)
p'=λ'(BERT(p1))+(1-λ')(BERT(p2)) (8)
(c)最后,为了更好的训练,将得到的混合数据进行随机洗牌。
Step3.2、对于标记的数据集和扩增的数据集,直接按照权重将两种词嵌入进行混合,利用β超参数来决定Trans-KGs嵌入和BERT嵌入的比重;然后就能得到混合层中每个字符的嵌入
Figure BDA0002936283850000041
记为:
Figure BDA0002936283850000042
其中,
Figure BDA0002936283850000043
表示通过知识图训练得到的涉案领域字符嵌入,
Figure BDA0002936283850000044
表示BERT预训练后的字符嵌入。
作为本发明的进一步方案,所述步骤Step4的具体步骤:
Step4.1、将融合后的词嵌入
Figure BDA0002936283850000045
经过softmax线性模型进行分类;
Step4.2、将融合后的词嵌入
Figure BDA0002936283850000046
经过卷积神经网络CNN模型,进行卷积操作,包括一层卷积层,一层池化层和一层全连接层,最终加入一层softmax函数进行分类;
Step4.3、将融合的词嵌入
Figure BDA0002936283850000047
基于循环神经网络RNN的模型GRU模型编码,最后通过softmax函数进行分类;
Figure BDA0002936283850000048
Figure BDA0002936283850000049
Figure BDA00029362838500000410
Figure BDA00029362838500000411
其中,f是sigmoid激活函数,rt,zt,
Figure BDA00029362838500000412
分别表示重置门,更新门和隐向量;Wz,Wr和W是GRU模型的参数,然后加入softmax函数作为最后一层,从而计算预测的概率,记为:
P(yn|xn)=softmax(Wohit+bo) (14)
Step4.4、将融合的词嵌入
Figure BDA00029362838500000413
作为CRF模型的特征向量进行分类,以此得到全局最优的情感标签分类;
Figure BDA00029362838500000414
p(yn|xn)=softmax(s(x,y)) (16)
其中MA用于建模的随机初始化的转换矩阵,同时使用softmax函数来获得最终的输出。
本发明的有益效果是:
1、本发明的基于知识图嵌入的面向涉案领域的半监督方面级情感分析(Semi-ETEKGs)方法,利用案件要素与涉案微博评论中的评价对象的相关性,解决在涉案微博评论中,针对特定的评价对象进行情感极性分类的问题;
2、本发明的基于知识图嵌入的面向涉案领域的半监督方面级情感分析(Semi-ETEKGs)方法,使用数据增强的技术和未标记数据的标签预测,解决了涉案领域中训练数据集缺乏的问题。
3、本发明的基于知识图嵌入的面向涉案领域的半监督方面级情感分析(Semi-ETEKGs)方法,预训练了通用领域的BERT语言模型,并利用关系抽取任务中的关系对涉案领域的知识数据库进行训练了涉案领域的知识词嵌入,缓解了通用的ABSA(方面级情感分析)在涉案领域任务中未考虑涉案知识的问题。
4、本发明的基于知识图嵌入的面向涉案领域的半监督方面级情感分析(Semi-ETEKGs)方法,解决了涉案微博的微博评论中对于评价对象的情感极性分类任务。
附图说明
图1为本发明提出的Semi-ETEKGs模型的方面级情感极性分类任务的架构图;
图2为本发明提出的Semi-ETEKGs模型整体框架图。
具体实施方式
实施例1:如图1-2所示,基于知识图嵌入的涉案领域的半监督方面级情感分析方法,包括:
从涉案微博事件中爬取涉案领域的微博评论,首先利用标记数据进行数据增强,通过预训练得到涉案领域的BERT词嵌入和涉案领域的知识图词嵌入,然后将两种词嵌入按照比例拼接放入下游任务中,从而对特定方面的涉案微博评论进行极性的分类。
作为本发明的进一步方案,所述基于知识图嵌入的涉案领域的半监督方面级情感分析方法的具体步骤如下:
Step1、收集用于涉案微博评论的方面级情感分析方法的涉案微博正文和微博评论,根据微博正文所涉及的案件,对收集的微博评论设置该案件的案件要素,同时根据案件要素对微博评论进行去重、筛选,去除与案件无关的微博评论,同时标记涉案微博评论的评价对象、所对应的评价观点词和涉案微博评论的情感极性;
作为本发明的进一步方案,所述步骤Step1中,构建的涉案微博正文和微博评论的数据集,是使用Scrapy作为爬取工具,模仿用户操作,登录微博,获取涉案微博正文和微博评论,包含8个案例及其的276个热点话题的微博评论。并从每一个涉案的案例中随机选取出了500条数据集进行标记根据微博正文所涉及的案件,对收集的微博评论定制该案件的案件要素,并对于每一句评论进行标记涉及的涉案要素,以及涉案的微博评价对象,涉案评价的观点词和对于每一个评价对象进行情感极性的标注;
作为本发明的进一步方案,所述步骤Step1中,对根据微博正文所涉及的案件,对收集的微博评论设置该案件的案件要素,同时标记涉案微博评论的评价对象、所对应的评价观点词和涉案微博评论的情感极性包括:
Step1.1、设置的涉案微博评论的评价对象的标注体系采用了json格式的标记文本,首先根据涉案微博评论所涉及的案件,将案件的要素根据要素定义制定出来,主要包括每个案件的事发地点、人物案件要素,并标注出涉案微博评论的评价对象,分别标注评价对象,评价观点词和对应的情感极性。
作为本发明的优选方案,所述Step1中,使用Scrapy作为爬取工具,模仿用户登录操作,登录微博网页版,爬取涉案微博的微博正文和涉案微博评论,根据微博正文涉及的案件以及案件要素的定义,为8个案件指定对应的案件要素,并根据案件要素,匹配出评论中与案件相关的微博评论,去除一些与评论中与该案件不相关的评论,并从这些评论中标记出评价对象,评价对象所对应的评价观点词和情感倾向性。
此优选方案设计是本发明的重要组成部分,主要为本发明收集语料过程,为本发明抽取微博评论中的方面级情感分类任务提供了数据支撑。
作为本发明的优选方案,所述步骤Step1中包括:
定制的涉案领域的方面级情感分析的标注体系采用了json格式的标记文本,通过json格式的文件,对涉案微博的每一句评论的词进行B(begin)、I(inside)和O(outside)序列标注,其中B(begin)表示评价对象的起始位置,I(inside)表示评价对象的内容,O(outside)表示微博评论中的其他部分,以及NEG(负向情感)、POS(正向情感)和NEU(中立情感),故对于每一个词而言,可能出现的标记情况包括:B-POS、B-NEG、B-NEU、I-POS、I-NEG、I-NEU和O七种情况,并保存成json格式的文件;
Step2、利用标记的数据集进行同义词替换,随机插入和随机交换方法的数据增强,利用构建的数据集基于BERT模型和TransGate模型构建预训练涉案领域的词嵌入网络,从而获得BERT的词向量和涉案领域的TransKGs词嵌入;
作为本发明的进一步方案,所述步骤Step2的具体步骤:
Step2.1、利用三种数据增强方式,包括同义词替换,随机交换和随机插入,对标记的数据集进行语料的数据增强;其中对于通用的英文数据集采用NLTK工具中的同义词,而对于中文的数据集采用中文停止词列表进行数据增强;
Step2.2、将涉案领域的数据增强的数据集基于BERT语言模型进行预训练从而获得涉案领域的涉案BERT词嵌入,将每一句话中词作为BERT模型的输入,随机MASK词后进行预训练;
Step2.3、根据标记的数据集案件要素所构建的涉案知识语料库,采用三元组的形式来表征涉案知识;将数据增强后的数据集利用Trans-Gate模型构建预训练网络,从而获得涉案领域的词嵌入,其中一条数据集包括多个三元组,包含头实体h和尾实体t,r是h和t之间的关系;如图2所示,h和t分别是一个三元组的头实体和尾实体,r是h和t之间的关系。例如,(滴滴司机,判决,死刑)表示滴滴司机被判处死刑,而(犯罪成本,negative,太低)表示对于犯罪成本的情感极性是消极的。给定一个三元组h,r,t,利用一个有全连接层的基础门控分别表示两个实体之间的关系,在经过门控函数σ后,得到新的特定关系的词嵌入向量,记为:
Figure BDA0002936283850000071
Figure BDA0002936283850000072
其中Wh,Wrh,Wt,
Figure BDA0002936283850000073
bh和bt是需学习的参数,⊙表示Hadamard乘积,值得注意的是,为了减少参数的计算量,用两个权向量代替了门控中的矩阵,之后,分数函数被定义为:
fr(h,t)=||hr+r-tr|| (3)
在预训练涉案知识图后,将得到涉案知识的Trans-KGs词嵌入,预训练的损失函数记为:
Figure BDA0002936283850000074
其中,S'是词和关系的集合,由随机替换的实体或关系组成的训练三元组。
此优选方案设计是本发明的重要组成部分,主要为本发明提供向量编码的过程,为结合预训练的词向量,进而提升模型的性能而提供了涉案领域词嵌入的有力支持。
Step3、对于未标记的数据集进行标签的预测,并将得到的涉案微博BERT词嵌入和TransKGs词嵌入根据超参数的设置按照权重进行加权融合,获得带有涉案领域知识的词嵌入;
作为本发明的进一步方案,所述步骤Step3的具体步骤:
Step3.1、对于未标记的数据,先预测未标记数据的标签,其中
Figure BDA0002936283850000081
Figure BDA0002936283850000082
表示标记的扩增数据和未标记的扩增数据;然后,基于MixMatch的思想对标记数据和未标记数据进行插值,通过三个步骤得到最终的混合数据:
(a)首先,定义了一个微调修改版的MixMatch适应损失函数,其中α是Beta样本分布的超参数;
λ~Beta(α,α) (5)
λ'=max(λ,1-λ) (6)
(b)通过公式(7)和公式(8)得到最终的样本数据集,其中(x1,p1)和(x2,p2)是两个带有预测标签的样本,λ'为了设置标记数据和未标记数据的比例阈值,根据公式(6)确保混合数据集更趋近原始数据集;
x'=λ'(BERT(x1))+(1-λ')(BERT(x2)) (7)
p'=λ'(BERT(p1))+(1-λ')(BERT(p2)) (8)
(c)最后,为了更好的训练,将得到的混合数据进行随机洗牌。
其中预测标签的步骤如下:
在k次数据增强后,使用模型当前预测的平均值作为猜测标签,由标签词汇表计算。因此,我们可以得到每个未标记数据的软标签,记为:
Figure BDA0002936283850000083
其中,
Figure BDA0002936283850000084
是标签的输出分布模型,
Figure BDA0002936283850000085
是经过次数据增强后的数据集。另外,Sharpen函数用于预测分布从而减少标签分布的熵
Figure BDA0002936283850000086
根据MixMatch可以得到qb中每一个预测的标签p,记为:
Figure BDA0002936283850000087
其中,T是区间[0,1]之间的超参数,V是词表大小。我们生成每一个
Figure BDA0002936283850000088
而不是常规的数据增加(DA)来获得进一步的性能改进,并设置k=2表示扩增的次数。
Step3.2、对于标记的数据集和扩增的数据集,直接按照权重将两种词嵌入进行混合,利用β超参数来决定Trans-KGs嵌入和BERT嵌入的比重;然后就能得到混合层中每个字符的嵌入
Figure BDA0002936283850000091
记为:
Figure BDA0002936283850000092
其中,
Figure BDA0002936283850000093
表示通过知识图训练得到的涉案领域字符嵌入,
Figure BDA0002936283850000094
表示BERT预训练后的字符嵌入。
Step4、将获得的具有涉案领域知识特征的词向量放入下游任务中,以此实现涉案领域微博评论的方面级情感分类。
作为本发明的进一步方案,所述步骤Step4的具体步骤:
Step4.1、将融合后的词嵌入
Figure BDA0002936283850000095
经过softmax线性模型进行分类;
直接通过softmax激活函数计算概率从而进行预测,因此我们将混合嵌入层的输出作为线性模型的输入。定义为:
Figure BDA0002936283850000096
其中,Wo和bo是线性模型的训练参数,
Figure BDA0002936283850000097
是混合嵌入层的输出。
Step4.2、将融合后的词嵌入
Figure BDA0002936283850000098
经过卷积神经网络CNN模型,进行卷积操作,包括一层卷积层,一层池化层和一层全连接层,最终加入一层softmax函数进行分类;
卷积神经网络(Convolutional neural network,CNN)用来提取网络的特征并应用到一些NLP任务中,它包含三个主要的模型层,分别是卷积层,池化层和全连接层。在卷积层中,会有一个或多个滤波器进行卷积来提取输入层的特征。然后,池化层用于减少数据大小。之后,一个完全连接的层用于在一个行维度上的扩展生成的特征图,并连接成一个向量。最后,CNN的输出定义为:
Figure BDA0002936283850000099
其中conv2表示卷积操作,
Figure BDA00029362838500000910
是混合层的输出作为CNN的输入。
Step4.3、将融合的词嵌入
Figure BDA00029362838500000911
基于循环神经网络RNN的模型GRU模型编码,最后通过softmax函数进行分类;
递归神经网络(RNN)被提出后,有很多任务用其来解决NLP问题,并证明了其良好的性能。因此,我们对涉案领域中的E2E-ABSA任务中也使用基于RNN的GRU进行了研究。故可以得到在t-th的隐向量hit
Figure BDA00029362838500000912
Figure BDA00029362838500000913
Figure BDA0002936283850000101
Figure BDA0002936283850000102
其中,f是sigmoid激活函数,rt,zt,
Figure BDA0002936283850000103
分别表示重置门,更新门和隐向量;Wz,Wr和W是GRU模型的参数,然后加入softmax函数作为最后一层,从而计算预测的概率,记为:
P(yn|xn)=softmax(Wohit+bo) (18)
Step4.4、将融合的词嵌入
Figure BDA0002936283850000104
作为CRF模型的特征向量进行分类,以此得到全局最优的情感标签分类;条件随机场(CRF)被有效应用于序列建模中以解决NLP任务中序列分类问题;
Figure BDA0002936283850000105
p(yn|xn)=softmax(s(x,y)) (20)
其中MA用于建模的随机初始化的转换矩阵,同时使用softmax函数来获得最终的输出。
为了探究本文发明的涉案微博评论的评价对象方法的有效性,在半监督Semi-ETEKGs模型中,由于餐厅和笔记本电脑领域不存在任何涉案要素,因此无法利用涉案要素构建涉案知识图,故表1的最后一行不能得到模型的效果。另外,我们将BERT模型扩展为一些下游模型,如linear,CNN,GRU和CRF。F1值(F1_score)作为评价指标进行对比实验。实验结果如表1所示。
表1不同方法的实验结果
方法 Restaurant Laptop Case-related
BERT-Linear 73.22* 60.43* 65.22
BERT-CNN 73.11 60.40 65.00
BERT-GRU 74.87 62.12 66.61
BERT-CRF 74.06 61.78 66.30
BERT-PT 76.90 62.03 68.40
BERT-FD 78.98* 69.17* 69.30
Semi-ETEKGs -- -- 72.43
从表1中可以看出,BERT-PT和BERT-FD模型的性能要优于基于BERT模型的性能,而Semi-ETEKGs模型在与案例相关的数据中的性能也更好。具体来说,BERT-CNN的结果不如其他基于BERT的模型好,我们认为CNN忽略了全局特征提取,因此它不能考虑距离特定目标遥远的观点词。相反,BERT-GRU可以捕获上下文表示并克服了长距离依赖的问题,因此在所有数据集中基于BERT的模型能获得最佳性能。其次,由于采用了新的数据增强技术,BERT-FD模型在笔记本电脑和餐厅领域优于其他模型,其性能分别提高了2.22%和2.08%。但并不适用于涉案领域,而添加涉案领域的词嵌入后,Semi-ETEKGs的结果比基线模型提高了3.1%,主要原因可能是微博评论中的涉案评价对象之间存在关系,故它们的词嵌入在涉案领的向量空间中更接近。同时为了验证文本所提出的两层模型,本发明也分别做了各层的有效性实验,具体实验结果如表2所示,其中MHA-表示将多头注意力机制层去掉后的实验结果,同理,CE-表示将案件知识融入层去掉的实验结果。
表2模型各层有效性实验结果
方法 Restaurant Laptop Case-related
BERT-FD 78.98* 67.30* 69.30
Semi-ETEKGs-DA<sup>-</sup> -- -- 71.40
Semi-ETEKGs-Trans-KGs<sup>-</sup> 79.45 69.50 70.50
Semi-ETEKGs -- -- 72.43
从表2可以看出,Semi-ETEKGs模型在涉案领域数据集的性能提高了3.1%,同时在每一层都是有效的,分别提高了2.1%和1.2%。此外,在餐厅和笔记本电脑领域的数据增强策略也得到了应用,分别提高了0.47和2.2%。在没有其他两个数据集的法律特征的情况下,Semi-ETEKGs的结果无法进行,但是在方面级抽取任务中已经证明了领域词嵌入的有效性,所以相信在商品数据集中加入领域的特征词嵌入也是有效的。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (7)

1.基于知识图嵌入的涉案领域的半监督方面级情感分析方法,其特征在于,包括:从涉案微博事件中爬取涉案领域的微博评论,首先利用标记数据进行数据增强,通过预训练得到涉案领域的BERT词嵌入和涉案领域的知识图词嵌入,然后将两种词嵌入按照比例拼接放入下游任务中,从而对特定方面的涉案微博评论进行极性的分类。
2.根据权利要求1所述的基于知识图嵌入的涉案领域的半监督方面级情感分析方法,其特征在于:所述基于知识图嵌入的涉案领域的半监督方面级情感分析方法的具体步骤如下:
Step1、收集用于涉案微博评论的方面级情感分析方法的涉案微博正文和微博评论,根据微博正文所涉及的案件,对收集的微博评论设置该案件的案件要素,同时根据案件要素对微博评论进行去重、筛选,去除与案件无关的微博评论,同时标记涉案微博评论的评价对象、所对应的评价观点词和涉案微博评论的情感极性;
Step2、利用标记的数据集进行同义词替换,随机插入和随机交换方法的数据增强,利用构建的数据集基于BERT模型和TransGate模型构建预训练涉案领域的词嵌入网络,从而获得BERT的词向量和涉案领域的TransKGs词嵌入;
Step3、对于未标记的数据集进行标签的预测,并将得到的涉案微博BERT词嵌入和TransKGs词嵌入根据超参数的设置按照权重进行加权融合,获得带有涉案领域知识的词嵌入;
Step4、将获得的具有涉案领域知识特征的词向量放入下游任务中,以此实现涉案领域微博评论的方面级情感分类。
3.根据权利要求1所述的基于知识图嵌入的涉案领域的半监督方面级情感分析方法,其特征在于:所述步骤Step1中,构建的涉案微博正文和微博评论的数据集,是使用Scrapy作为爬取工具,模仿用户操作,登录微博,获取涉案微博正文和微博评论,包含8个案例及其的276个热点话题的微博评论。
4.根据权利要求1所述的基于知识图嵌入的涉案领域的半监督方面级情感分析方法,其特征在于:所述步骤Step1中,对根据微博正文所涉及的案件,对收集的微博评论设置该案件的案件要素,同时标记涉案微博评论的评价对象、所对应的评价观点词和涉案微博评论的情感极性包括:
Step1.1、设置的涉案微博评论的评价对象的标注体系采用了json格式的标记文本,首先根据涉案微博评论所涉及的案件,将案件的要素根据要素定义制定出来,主要包括每个案件的事发地点、人物案件要素,并标注出涉案微博评论的评价对象,分别标注评价对象,评价观点词和对应的情感极性。
5.根据权利要求1所述的基于知识图嵌入的涉案领域的半监督方面级情感分析方法,其特征在于:所述步骤Step2的具体步骤:
Step2.1、利用三种数据增强方式,包括同义词替换,随机交换和随机插入,对标记的数据集进行语料的数据增强;
Step2.2、基于BERT语言模型构建涉案领域的预训练网络,从而通过数据增强后的数据集获得涉案领域的预训练词嵌入;
Step2.3、将数据增强后的数据集利用Trans-Gate模型构建预训练网络,从而获得涉案领域的词嵌入,其中一条数据集包括多个三元组,包含头实体h和尾实体t,r是h和t之间的关系;给定一个三元组h,r,t,利用一个有全连接层的基础门控分别表示两个实体之间的关系,在经过门控函数σ后,得到新的特定关系的词嵌入向量,记为:
Figure FDA0002936283840000021
Figure FDA0002936283840000022
其中Wh,
Figure FDA0002936283840000023
Wt,
Figure FDA0002936283840000024
bh和bt是需学习的参数,⊙表示Hadamard乘积,值得注意的是,为了减少参数的计算量,用两个权向量代替了门控中的矩阵,之后,分数函数被定义为:
fr(h,t)=||hr+r-tr|| (3)
在预训练涉案知识图后,将得到涉案知识的Trans-KGs词嵌入,预训练的损失函数记为:
Figure FDA0002936283840000025
其中,S'是词和关系的集合,由随机替换的实体或关系组成的训练三元组。
6.根据权利要求1所述的基于知识图嵌入的涉案领域的半监督方面级情感分析方法,其特征在于:所述步骤Step3的具体步骤:
Step3.1、对于未标记的数据,先预测未标记数据的标签,其中
Figure FDA0002936283840000026
Figure FDA0002936283840000027
表示标记的扩增数据和未标记的扩增数据;然后,基于MixMatch的思想对标记数据和未标记数据进行插值,通过三个步骤得到最终的混合数据:
(a)首先,定义了一个微调修改版的MixMatch适应损失函数,其中α是Beta样本分布的超参数;
λ~Beta(α,α) (5)
λ'=max(λ,1-λ) (6)
(b)通过公式(7)和公式(8)得到最终的样本数据集,其中(x1,p1)和(x2,p2)是两个带有预测标签的样本,λ'为了设置标记数据和未标记数据的比例阈值,根据公式(6)确保混合数据集更趋近原始数据集;
x'=λ'(BERT(x1))+(1-λ')(BERT(x2)) (7)
p'=λ'(BERT(p1))+(1-λ')(BERT(p2)) (8)
(c)最后,为了更好的训练,将得到的混合数据进行随机洗牌。
Step3.2、对于标记的数据集和扩增的数据集,直接按照权重将两种词嵌入进行混合,利用β超参数来决定Trans-KGs嵌入和BERT嵌入的比重;然后就能得到混合层中每个字符的嵌入
Figure FDA0002936283840000031
记为:
Figure FDA0002936283840000032
其中,
Figure FDA0002936283840000033
表示通过知识图训练得到的涉案领域字符嵌入,
Figure FDA0002936283840000034
表示BERT预训练后的字符嵌入。
7.根据权利要求1所述的基于知识图嵌入的涉案领域的半监督方面级情感分析方法,其特征在于:所述步骤Step4的具体步骤:
Step4.1、将融合后的词嵌入
Figure FDA0002936283840000035
经过softmax线性模型进行分类;
Step4.2、将融合后的词嵌入
Figure FDA0002936283840000036
经过卷积神经网络CNN模型,进行卷积操作,包括一层卷积层,一层池化层和一层全连接层,最终加入一层softmax函数进行分类;
Step4.3、将融合的词嵌入
Figure FDA0002936283840000037
基于循环神经网络RNN的模型GRU模型编码,最后通过softmax函数进行分类;
Step4.4、将融合的词嵌入
Figure FDA0002936283840000038
作为CRF模型的特征向量进行分类,以此得到全局最优的情感标签分类。
CN202110163044.6A 2021-02-05 2021-02-05 基于知识图嵌入的涉案领域的半监督方面级情感分析方法 Active CN112800229B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110163044.6A CN112800229B (zh) 2021-02-05 2021-02-05 基于知识图嵌入的涉案领域的半监督方面级情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110163044.6A CN112800229B (zh) 2021-02-05 2021-02-05 基于知识图嵌入的涉案领域的半监督方面级情感分析方法

Publications (2)

Publication Number Publication Date
CN112800229A true CN112800229A (zh) 2021-05-14
CN112800229B CN112800229B (zh) 2022-12-20

Family

ID=75814465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110163044.6A Active CN112800229B (zh) 2021-02-05 2021-02-05 基于知识图嵌入的涉案领域的半监督方面级情感分析方法

Country Status (1)

Country Link
CN (1) CN112800229B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128527A (zh) * 2021-06-21 2021-07-16 中国人民解放军国防科技大学 基于变换器模型和卷积神经网络的图像场景分类方法
CN113326287A (zh) * 2021-08-04 2021-08-31 山东大学 一种使用三步策略的在线跨模态检索方法及系统
CN115391570A (zh) * 2022-10-28 2022-11-25 聊城大学 一种基于方面的情感知识图谱构建方法及装置
CN116562302A (zh) * 2023-06-29 2023-08-08 昆明理工大学 融合汉越关联关系的多语言事件观点对象识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980650A (zh) * 2017-03-01 2017-07-25 平顶山学院 一种面向Twitter观点分类的情感增强词嵌入学习方法
CN108364028A (zh) * 2018-03-06 2018-08-03 中国科学院信息工程研究所 一种基于深度学习的互联网网站自动分类方法
CN111324734A (zh) * 2020-02-17 2020-06-23 昆明理工大学 融合情绪知识的案件微博评论情绪分类方法
CN111581474A (zh) * 2020-04-02 2020-08-25 昆明理工大学 基于多头注意力机制的涉案微博评论的评价对象抽取方法
CN111723209A (zh) * 2020-06-28 2020-09-29 上海携旅信息技术有限公司 半监督文本分类模型训练方法、文本分类方法、系统、设备及介质
US20200349229A1 (en) * 2019-05-02 2020-11-05 King Fahd University Of Petroleum And Minerals Open domain targeted sentiment classification using semisupervised dynamic generation of feature attributes
CN112287240A (zh) * 2020-09-23 2021-01-29 昆明理工大学 基于双嵌入多层卷积神经网络的案件微博评价对象抽取方法及装置
CN112287197A (zh) * 2020-09-23 2021-01-29 昆明理工大学 动态记忆案件描述的涉案微博评论讽刺句检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980650A (zh) * 2017-03-01 2017-07-25 平顶山学院 一种面向Twitter观点分类的情感增强词嵌入学习方法
CN108364028A (zh) * 2018-03-06 2018-08-03 中国科学院信息工程研究所 一种基于深度学习的互联网网站自动分类方法
US20200349229A1 (en) * 2019-05-02 2020-11-05 King Fahd University Of Petroleum And Minerals Open domain targeted sentiment classification using semisupervised dynamic generation of feature attributes
CN111324734A (zh) * 2020-02-17 2020-06-23 昆明理工大学 融合情绪知识的案件微博评论情绪分类方法
CN111581474A (zh) * 2020-04-02 2020-08-25 昆明理工大学 基于多头注意力机制的涉案微博评论的评价对象抽取方法
CN111723209A (zh) * 2020-06-28 2020-09-29 上海携旅信息技术有限公司 半监督文本分类模型训练方法、文本分类方法、系统、设备及介质
CN112287240A (zh) * 2020-09-23 2021-01-29 昆明理工大学 基于双嵌入多层卷积神经网络的案件微博评价对象抽取方法及装置
CN112287197A (zh) * 2020-09-23 2021-01-29 昆明理工大学 动态记忆案件描述的涉案微博评论讽刺句检测方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
JUN YUAN 等: ""TransGate: Knowledge Graph Embedding with Shared Gate Structure"", 《HTTPS://OJS.AAAI.ORG/INDEX.PHP/AAAI/ARTICLE/DOWNLOAD/4169》 *
MALTE OSTENDORFF 等: ""Enriching BERT with Knowledge Graph Embeddings for Document Classification"", 《HTTPS://WWW.RESEARCHGATE.NET/PUBLICATION/335908368_ENRICHING_BERT_WITH_KNOWLEDGE_GRAPH_EMBEDDINGS_FOR_DOCUMENT_CLASSIFICATION》 *
刘一飞: ""网络舆情信息识别与分析的关键技术研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
姚妮等: "基于BERT和BiGRU的在线评论文本情感分类研究", 《轻工学报》 *
王嘉宁等: "基于远程监督的关系抽取技术", 《华东师范大学学报(自然科学版)》 *
王宇涵: ""基于深度学习的微博评论情感倾向研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
秦欣: ""基于深度学习的微博短文本情感分析技术研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
高明鑫: "综合服务支付平台的建设思路", 《广东科技》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128527A (zh) * 2021-06-21 2021-07-16 中国人民解放军国防科技大学 基于变换器模型和卷积神经网络的图像场景分类方法
CN113326287A (zh) * 2021-08-04 2021-08-31 山东大学 一种使用三步策略的在线跨模态检索方法及系统
CN113326287B (zh) * 2021-08-04 2021-11-02 山东大学 一种使用三步策略的在线跨模态检索方法及系统
CN115391570A (zh) * 2022-10-28 2022-11-25 聊城大学 一种基于方面的情感知识图谱构建方法及装置
CN116562302A (zh) * 2023-06-29 2023-08-08 昆明理工大学 融合汉越关联关系的多语言事件观点对象识别方法

Also Published As

Publication number Publication date
CN112800229B (zh) 2022-12-20

Similar Documents

Publication Publication Date Title
CN112800229B (zh) 基于知识图嵌入的涉案领域的半监督方面级情感分析方法
CN112199608B (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
Li et al. Improving convolutional neural network for text classification by recursive data pruning
CN105260356A (zh) 基于多任务学习的中文交互文本情感与话题识别方法
Tang et al. Multi-label patent categorization with non-local attention-based graph convolutional network
Fu et al. Listening to the investors: A novel framework for online lending default prediction using deep learning neural networks
Ding et al. Adaptive regularization of labels
Kumar et al. Ontology driven sentiment analysis on social web for government intelligence
CN113254675B (zh) 基于自适应少样本关系抽取的知识图谱构建方法
CN109034186A (zh) 建立da-rbm分类器模型的方法
CN116383399A (zh) 一种事件舆情风险预测方法及系统
CN112069320A (zh) 一种基于跨度的细粒度情感分析方法
Saitulasi et al. Deep Belief Network and Sentimental analysis for extracting on multi-variable Features to predict Stock market Performance and accuracy
CN112148776A (zh) 基于引入语义信息的神经网络的学术关系预测方法和装置
Tang et al. Dropout Rate Prediction of Massive Open Online Courses Based on Convolutional Neural Networks and Long Short‐Term Memory Network
Liu et al. Hierarchical graph convolutional networks for structured long document classification
Fincham et al. Persistence and Performance in Co-Enrollment Network Embeddings: An Empirical Validation of Tinto's Student Integration Model
Addepalli et al. A proposed framework for measuring customer satisfaction and product recommendation for ecommerce
Verma et al. A scalable machine learning-based ensemble approach to enhance the prediction accuracy for identifying students at-risk
Joseph et al. Arab Spring: from newspaper
Vergara et al. A Schematic Review of Knowledge Reasoning Approaches Based on the Knowledge Graph
CN113869034A (zh) 基于强化依赖图的方面情感分类方法
CN113378571A (zh) 一种文本数据的实体数据关系抽取方法
CN113590819A (zh) 一种大规模类别层级文本分类方法
Alghalibi et al. Deep Tweets Analyzer Model for Twitter Mood Visualization and Prediction Based Deep Learning Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant