CN112800229A - 基于知识图嵌入的涉案领域的半监督方面级情感分析方法 - Google Patents
基于知识图嵌入的涉案领域的半监督方面级情感分析方法 Download PDFInfo
- Publication number
- CN112800229A CN112800229A CN202110163044.6A CN202110163044A CN112800229A CN 112800229 A CN112800229 A CN 112800229A CN 202110163044 A CN202110163044 A CN 202110163044A CN 112800229 A CN112800229 A CN 112800229A
- Authority
- CN
- China
- Prior art keywords
- case
- microblog
- embedding
- involved
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 39
- 238000004458 analytical method Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 28
- 230000009193 crawling Effects 0.000 claims abstract description 9
- 238000011156 evaluation Methods 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 25
- 238000013527 convolutional neural network Methods 0.000 claims description 14
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 7
- 238000003780 insertion Methods 0.000 claims description 6
- 230000037431 insertion Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 230000003321 amplification Effects 0.000 claims description 4
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000001537 neural effect Effects 0.000 claims 1
- 238000003058 natural language processing Methods 0.000 abstract description 7
- 230000008569 process Effects 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 238000013145 classification model Methods 0.000 abstract 2
- 238000002474 experimental method Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000288105 Grus Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及基于知识图嵌入的涉案领域的半监督方面级情感分析方法,属于自然语言处理技术领域。本发明包括步骤:从涉案微博事件中爬取了包含8个案例、276个涉案热点话题的涉案领域的微博评论5W+,首先利用少量标记数据进行数据增强,通过预训练得到涉案领域的BERT词嵌入和涉案领域的知识图词嵌入,然后将两种词嵌入按照比例拼接放入下游任务中,从而对特定方面的涉案微博评论进行极性的分类。本发明是实验过程中获得的一个最优的技术方案,构建的分类模型取得了较好的效果,在典型的涉案微博评论数据集上比基线模型分别提高了3.1%。
Description
技术领域
本发明涉及基于知识图嵌入的涉案领域的半监督方面级情感分析(Semi-ETEKGs)方法,属于自然语言处理技术领域。
背景技术
随着自媒体时代的到来、我国新媒体的蓬勃发展和网络舆情的深入,部分法院所审理的焦点案件在网络上迅速发酵,引发社会的广泛争议,司法部门通过实时有效的掌握并正确引导网络舆情有助于确保法院依法独立行使审判权,维护社会公平正义。而微博作为社会大众自由评论的社交媒体之一,其用户量庞大,发展较快,其中不少司法相关的案件会在微博中引起激烈讨论。因此,为了避免网络舆情对法院判决的影响,实时掌握用户对某一涉案热点事件的观点意见至关重要。该任务可以被视为是自然语言处理(NLP)中的子任务:涉案领域的方面级情感分析(ABSA),旨在从文本中挖掘用户的情感或者观点。
方面级情感分析是观点挖掘的一个子任务,旨在发现用户对于特定目标的极性判断。其研究方法主要包括有监督的方法和半监督的方法。由于每天成千上万的评论在社交媒体上被产出,将这些评论都进行人工标注是不可能的事情。因此,一种常见的半监督方法(SSL)能够充分利用好少量标注数据集,从而估计在分类器上训练参数。半监督方法已经被证明在很多任务和领域中都取得了不错的效果。其中Bert等为半监督方法提出了一种自监督的方法MixMatch,同时在此基础上在分布的排列和扩增的锚点上改进了模型。
发明内容
本发明提供了基于知识图嵌入的涉案领域的半监督方面级情感分析方法,以用于解决目前涉案微博评论涉案领域知识不能很好的融入到模型和涉案领域中缺乏标记的训练语料的问题,本发明取得较好的情感分类效果。
本发明的技术方案是:基于知识图嵌入的涉案领域的半监督方面级情感分析方法,包括:
从涉案微博事件中爬取涉案领域的微博评论,首先利用标记数据进行数据增强,通过预训练得到涉案领域的BERT词嵌入和涉案领域的知识图词嵌入,然后将两种词嵌入按照比例拼接放入下游任务中,从而对特定方面的涉案微博评论进行极性的分类。
作为本发明的进一步方案,所述基于知识图嵌入的涉案领域的半监督方面级情感分析方法的具体步骤如下:
Step1、收集用于涉案微博评论的方面级情感分析方法的涉案微博正文和微博评论,根据微博正文所涉及的案件,对收集的微博评论设置该案件的案件要素,同时根据案件要素对微博评论进行去重、筛选,去除与案件无关的微博评论,同时标记涉案微博评论的评价对象、所对应的评价观点词和涉案微博评论的情感极性;
Step2、利用标记的数据集进行同义词替换,随机插入和随机交换方法的数据增强,利用构建的数据集基于BERT模型和TransGate模型构建预训练涉案领域的词嵌入网络,从而获得BERT的词向量和涉案领域的TransKGs词嵌入;
Step3、对于未标记的数据集进行标签的预测,并将得到的涉案微博BERT词嵌入和TransKGs词嵌入根据超参数的设置按照权重进行加权融合,获得带有涉案领域知识的词嵌入;
Step4、将获得的具有涉案领域知识特征的词向量放入下游任务中,以此实现涉案领域微博评论的方面级情感分类。
作为本发明的进一步方案,所述步骤Step1中,构建的涉案微博正文和微博评论的数据集,是使用Scrapy作为爬取工具,模仿用户操作,登录微博,获取涉案微博正文和微博评论,包含8个案例及其的276个热点话题的微博评论。
作为本发明的进一步方案,所述步骤Step1中,对根据微博正文所涉及的案件,对收集的微博评论设置该案件的案件要素,同时标记涉案微博评论的评价对象、所对应的评价观点词和涉案微博评论的情感极性包括:
Step1.1、设置的涉案微博评论的评价对象的标注体系采用了json格式的标记文本,首先根据涉案微博评论所涉及的案件,将案件的要素根据要素定义制定出来,主要包括每个案件的事发地点、人物案件要素,并标注出涉案微博评论的评价对象,分别标注评价对象,评价观点词和对应的情感极性。
作为本发明的进一步方案,所述步骤Step2的具体步骤:
Step2.1、利用三种数据增强方式,包括同义词替换,随机交换和随机插入,对标记的数据集进行语料的数据增强;
Step2.2、基于BERT语言模型构建涉案领域的预训练网络,从而通过数据增强后的数据集获得涉案领域的预训练词嵌入;
Step2.3、将数据增强后的数据集利用Trans-Gate模型构建预训练网络,从而获得涉案领域的词嵌入,其中一条数据集包括多个三元组,包含头实体h和尾实体t,r是h和t之间的关系;给定一个三元组h,r,t,利用一个有全连接层的基础门控分别表示两个实体之间的关系,在经过门控函数σ后,得到新的特定关系的词嵌入向量,记为:
fr(h,t)=||hr+r-tr|| (3)
在预训练涉案知识图后,将得到涉案知识的Trans-KGs词嵌入,预训练的损失函数记为:
其中,S'是词和关系的集合,由随机替换的实体或关系组成的训练三元组。
作为本发明的进一步方案,所述步骤Step3的具体步骤:
(a)首先,定义了一个微调修改版的MixMatch适应损失函数,其中α是Beta样本分布的超参数;
λ~Beta(α,α) (5)
λ'=max(λ,1-λ) (6)
(b)通过公式(7)和公式(8)得到最终的样本数据集,其中(x1,p1)和(x2,p2)是两个带有预测标签的样本,λ'为了设置标记数据和未标记数据的比例阈值,根据
公式(6)确保混合数据集更趋近原始数据集;
x'=λ'(BERT(x1))+(1-λ')(BERT(x2)) (7)
p'=λ'(BERT(p1))+(1-λ')(BERT(p2)) (8)
(c)最后,为了更好的训练,将得到的混合数据进行随机洗牌。
作为本发明的进一步方案,所述步骤Step4的具体步骤:
P(yn|xn)=softmax(Wohit+bo) (14)
p(yn|xn)=softmax(s(x,y)) (16)
其中MA用于建模的随机初始化的转换矩阵,同时使用softmax函数来获得最终的输出。
本发明的有益效果是:
1、本发明的基于知识图嵌入的面向涉案领域的半监督方面级情感分析(Semi-ETEKGs)方法,利用案件要素与涉案微博评论中的评价对象的相关性,解决在涉案微博评论中,针对特定的评价对象进行情感极性分类的问题;
2、本发明的基于知识图嵌入的面向涉案领域的半监督方面级情感分析(Semi-ETEKGs)方法,使用数据增强的技术和未标记数据的标签预测,解决了涉案领域中训练数据集缺乏的问题。
3、本发明的基于知识图嵌入的面向涉案领域的半监督方面级情感分析(Semi-ETEKGs)方法,预训练了通用领域的BERT语言模型,并利用关系抽取任务中的关系对涉案领域的知识数据库进行训练了涉案领域的知识词嵌入,缓解了通用的ABSA(方面级情感分析)在涉案领域任务中未考虑涉案知识的问题。
4、本发明的基于知识图嵌入的面向涉案领域的半监督方面级情感分析(Semi-ETEKGs)方法,解决了涉案微博的微博评论中对于评价对象的情感极性分类任务。
附图说明
图1为本发明提出的Semi-ETEKGs模型的方面级情感极性分类任务的架构图;
图2为本发明提出的Semi-ETEKGs模型整体框架图。
具体实施方式
实施例1:如图1-2所示,基于知识图嵌入的涉案领域的半监督方面级情感分析方法,包括:
从涉案微博事件中爬取涉案领域的微博评论,首先利用标记数据进行数据增强,通过预训练得到涉案领域的BERT词嵌入和涉案领域的知识图词嵌入,然后将两种词嵌入按照比例拼接放入下游任务中,从而对特定方面的涉案微博评论进行极性的分类。
作为本发明的进一步方案,所述基于知识图嵌入的涉案领域的半监督方面级情感分析方法的具体步骤如下:
Step1、收集用于涉案微博评论的方面级情感分析方法的涉案微博正文和微博评论,根据微博正文所涉及的案件,对收集的微博评论设置该案件的案件要素,同时根据案件要素对微博评论进行去重、筛选,去除与案件无关的微博评论,同时标记涉案微博评论的评价对象、所对应的评价观点词和涉案微博评论的情感极性;
作为本发明的进一步方案,所述步骤Step1中,构建的涉案微博正文和微博评论的数据集,是使用Scrapy作为爬取工具,模仿用户操作,登录微博,获取涉案微博正文和微博评论,包含8个案例及其的276个热点话题的微博评论。并从每一个涉案的案例中随机选取出了500条数据集进行标记根据微博正文所涉及的案件,对收集的微博评论定制该案件的案件要素,并对于每一句评论进行标记涉及的涉案要素,以及涉案的微博评价对象,涉案评价的观点词和对于每一个评价对象进行情感极性的标注;
作为本发明的进一步方案,所述步骤Step1中,对根据微博正文所涉及的案件,对收集的微博评论设置该案件的案件要素,同时标记涉案微博评论的评价对象、所对应的评价观点词和涉案微博评论的情感极性包括:
Step1.1、设置的涉案微博评论的评价对象的标注体系采用了json格式的标记文本,首先根据涉案微博评论所涉及的案件,将案件的要素根据要素定义制定出来,主要包括每个案件的事发地点、人物案件要素,并标注出涉案微博评论的评价对象,分别标注评价对象,评价观点词和对应的情感极性。
作为本发明的优选方案,所述Step1中,使用Scrapy作为爬取工具,模仿用户登录操作,登录微博网页版,爬取涉案微博的微博正文和涉案微博评论,根据微博正文涉及的案件以及案件要素的定义,为8个案件指定对应的案件要素,并根据案件要素,匹配出评论中与案件相关的微博评论,去除一些与评论中与该案件不相关的评论,并从这些评论中标记出评价对象,评价对象所对应的评价观点词和情感倾向性。
此优选方案设计是本发明的重要组成部分,主要为本发明收集语料过程,为本发明抽取微博评论中的方面级情感分类任务提供了数据支撑。
作为本发明的优选方案,所述步骤Step1中包括:
定制的涉案领域的方面级情感分析的标注体系采用了json格式的标记文本,通过json格式的文件,对涉案微博的每一句评论的词进行B(begin)、I(inside)和O(outside)序列标注,其中B(begin)表示评价对象的起始位置,I(inside)表示评价对象的内容,O(outside)表示微博评论中的其他部分,以及NEG(负向情感)、POS(正向情感)和NEU(中立情感),故对于每一个词而言,可能出现的标记情况包括:B-POS、B-NEG、B-NEU、I-POS、I-NEG、I-NEU和O七种情况,并保存成json格式的文件;
Step2、利用标记的数据集进行同义词替换,随机插入和随机交换方法的数据增强,利用构建的数据集基于BERT模型和TransGate模型构建预训练涉案领域的词嵌入网络,从而获得BERT的词向量和涉案领域的TransKGs词嵌入;
作为本发明的进一步方案,所述步骤Step2的具体步骤:
Step2.1、利用三种数据增强方式,包括同义词替换,随机交换和随机插入,对标记的数据集进行语料的数据增强;其中对于通用的英文数据集采用NLTK工具中的同义词,而对于中文的数据集采用中文停止词列表进行数据增强;
Step2.2、将涉案领域的数据增强的数据集基于BERT语言模型进行预训练从而获得涉案领域的涉案BERT词嵌入,将每一句话中词作为BERT模型的输入,随机MASK词后进行预训练;
Step2.3、根据标记的数据集案件要素所构建的涉案知识语料库,采用三元组的形式来表征涉案知识;将数据增强后的数据集利用Trans-Gate模型构建预训练网络,从而获得涉案领域的词嵌入,其中一条数据集包括多个三元组,包含头实体h和尾实体t,r是h和t之间的关系;如图2所示,h和t分别是一个三元组的头实体和尾实体,r是h和t之间的关系。例如,(滴滴司机,判决,死刑)表示滴滴司机被判处死刑,而(犯罪成本,negative,太低)表示对于犯罪成本的情感极性是消极的。给定一个三元组h,r,t,利用一个有全连接层的基础门控分别表示两个实体之间的关系,在经过门控函数σ后,得到新的特定关系的词嵌入向量,记为:
fr(h,t)=||hr+r-tr|| (3)
在预训练涉案知识图后,将得到涉案知识的Trans-KGs词嵌入,预训练的损失函数记为:
其中,S'是词和关系的集合,由随机替换的实体或关系组成的训练三元组。
此优选方案设计是本发明的重要组成部分,主要为本发明提供向量编码的过程,为结合预训练的词向量,进而提升模型的性能而提供了涉案领域词嵌入的有力支持。
Step3、对于未标记的数据集进行标签的预测,并将得到的涉案微博BERT词嵌入和TransKGs词嵌入根据超参数的设置按照权重进行加权融合,获得带有涉案领域知识的词嵌入;
作为本发明的进一步方案,所述步骤Step3的具体步骤:
(a)首先,定义了一个微调修改版的MixMatch适应损失函数,其中α是Beta样本分布的超参数;
λ~Beta(α,α) (5)
λ'=max(λ,1-λ) (6)
(b)通过公式(7)和公式(8)得到最终的样本数据集,其中(x1,p1)和(x2,p2)是两个带有预测标签的样本,λ'为了设置标记数据和未标记数据的比例阈值,根据公式(6)确保混合数据集更趋近原始数据集;
x'=λ'(BERT(x1))+(1-λ')(BERT(x2)) (7)
p'=λ'(BERT(p1))+(1-λ')(BERT(p2)) (8)
(c)最后,为了更好的训练,将得到的混合数据进行随机洗牌。
其中预测标签的步骤如下:
在k次数据增强后,使用模型当前预测的平均值作为猜测标签,由标签词汇表计算。因此,我们可以得到每个未标记数据的软标签,记为:
Step4、将获得的具有涉案领域知识特征的词向量放入下游任务中,以此实现涉案领域微博评论的方面级情感分类。
作为本发明的进一步方案,所述步骤Step4的具体步骤:
直接通过softmax激活函数计算概率从而进行预测,因此我们将混合嵌入层的输出作为线性模型的输入。定义为:
卷积神经网络(Convolutional neural network,CNN)用来提取网络的特征并应用到一些NLP任务中,它包含三个主要的模型层,分别是卷积层,池化层和全连接层。在卷积层中,会有一个或多个滤波器进行卷积来提取输入层的特征。然后,池化层用于减少数据大小。之后,一个完全连接的层用于在一个行维度上的扩展生成的特征图,并连接成一个向量。最后,CNN的输出定义为:
递归神经网络(RNN)被提出后,有很多任务用其来解决NLP问题,并证明了其良好的性能。因此,我们对涉案领域中的E2E-ABSA任务中也使用基于RNN的GRU进行了研究。故可以得到在t-th的隐向量hit:
P(yn|xn)=softmax(Wohit+bo) (18)
p(yn|xn)=softmax(s(x,y)) (20)
其中MA用于建模的随机初始化的转换矩阵,同时使用softmax函数来获得最终的输出。
为了探究本文发明的涉案微博评论的评价对象方法的有效性,在半监督Semi-ETEKGs模型中,由于餐厅和笔记本电脑领域不存在任何涉案要素,因此无法利用涉案要素构建涉案知识图,故表1的最后一行不能得到模型的效果。另外,我们将BERT模型扩展为一些下游模型,如linear,CNN,GRU和CRF。F1值(F1_score)作为评价指标进行对比实验。实验结果如表1所示。
表1不同方法的实验结果
方法 | Restaurant | Laptop | Case-related |
BERT-Linear | 73.22* | 60.43* | 65.22 |
BERT-CNN | 73.11 | 60.40 | 65.00 |
BERT-GRU | 74.87 | 62.12 | 66.61 |
BERT-CRF | 74.06 | 61.78 | 66.30 |
BERT-PT | 76.90 | 62.03 | 68.40 |
BERT-FD | 78.98* | 69.17* | 69.30 |
Semi-ETEKGs | -- | -- | 72.43 |
从表1中可以看出,BERT-PT和BERT-FD模型的性能要优于基于BERT模型的性能,而Semi-ETEKGs模型在与案例相关的数据中的性能也更好。具体来说,BERT-CNN的结果不如其他基于BERT的模型好,我们认为CNN忽略了全局特征提取,因此它不能考虑距离特定目标遥远的观点词。相反,BERT-GRU可以捕获上下文表示并克服了长距离依赖的问题,因此在所有数据集中基于BERT的模型能获得最佳性能。其次,由于采用了新的数据增强技术,BERT-FD模型在笔记本电脑和餐厅领域优于其他模型,其性能分别提高了2.22%和2.08%。但并不适用于涉案领域,而添加涉案领域的词嵌入后,Semi-ETEKGs的结果比基线模型提高了3.1%,主要原因可能是微博评论中的涉案评价对象之间存在关系,故它们的词嵌入在涉案领的向量空间中更接近。同时为了验证文本所提出的两层模型,本发明也分别做了各层的有效性实验,具体实验结果如表2所示,其中MHA-表示将多头注意力机制层去掉后的实验结果,同理,CE-表示将案件知识融入层去掉的实验结果。
表2模型各层有效性实验结果
方法 | Restaurant | Laptop | Case-related |
BERT-FD | 78.98* | 67.30* | 69.30 |
Semi-ETEKGs-DA<sup>-</sup> | -- | -- | 71.40 |
Semi-ETEKGs-Trans-KGs<sup>-</sup> | 79.45 | 69.50 | 70.50 |
Semi-ETEKGs | -- | -- | 72.43 |
从表2可以看出,Semi-ETEKGs模型在涉案领域数据集的性能提高了3.1%,同时在每一层都是有效的,分别提高了2.1%和1.2%。此外,在餐厅和笔记本电脑领域的数据增强策略也得到了应用,分别提高了0.47和2.2%。在没有其他两个数据集的法律特征的情况下,Semi-ETEKGs的结果无法进行,但是在方面级抽取任务中已经证明了领域词嵌入的有效性,所以相信在商品数据集中加入领域的特征词嵌入也是有效的。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (7)
1.基于知识图嵌入的涉案领域的半监督方面级情感分析方法,其特征在于,包括:从涉案微博事件中爬取涉案领域的微博评论,首先利用标记数据进行数据增强,通过预训练得到涉案领域的BERT词嵌入和涉案领域的知识图词嵌入,然后将两种词嵌入按照比例拼接放入下游任务中,从而对特定方面的涉案微博评论进行极性的分类。
2.根据权利要求1所述的基于知识图嵌入的涉案领域的半监督方面级情感分析方法,其特征在于:所述基于知识图嵌入的涉案领域的半监督方面级情感分析方法的具体步骤如下:
Step1、收集用于涉案微博评论的方面级情感分析方法的涉案微博正文和微博评论,根据微博正文所涉及的案件,对收集的微博评论设置该案件的案件要素,同时根据案件要素对微博评论进行去重、筛选,去除与案件无关的微博评论,同时标记涉案微博评论的评价对象、所对应的评价观点词和涉案微博评论的情感极性;
Step2、利用标记的数据集进行同义词替换,随机插入和随机交换方法的数据增强,利用构建的数据集基于BERT模型和TransGate模型构建预训练涉案领域的词嵌入网络,从而获得BERT的词向量和涉案领域的TransKGs词嵌入;
Step3、对于未标记的数据集进行标签的预测,并将得到的涉案微博BERT词嵌入和TransKGs词嵌入根据超参数的设置按照权重进行加权融合,获得带有涉案领域知识的词嵌入;
Step4、将获得的具有涉案领域知识特征的词向量放入下游任务中,以此实现涉案领域微博评论的方面级情感分类。
3.根据权利要求1所述的基于知识图嵌入的涉案领域的半监督方面级情感分析方法,其特征在于:所述步骤Step1中,构建的涉案微博正文和微博评论的数据集,是使用Scrapy作为爬取工具,模仿用户操作,登录微博,获取涉案微博正文和微博评论,包含8个案例及其的276个热点话题的微博评论。
4.根据权利要求1所述的基于知识图嵌入的涉案领域的半监督方面级情感分析方法,其特征在于:所述步骤Step1中,对根据微博正文所涉及的案件,对收集的微博评论设置该案件的案件要素,同时标记涉案微博评论的评价对象、所对应的评价观点词和涉案微博评论的情感极性包括:
Step1.1、设置的涉案微博评论的评价对象的标注体系采用了json格式的标记文本,首先根据涉案微博评论所涉及的案件,将案件的要素根据要素定义制定出来,主要包括每个案件的事发地点、人物案件要素,并标注出涉案微博评论的评价对象,分别标注评价对象,评价观点词和对应的情感极性。
5.根据权利要求1所述的基于知识图嵌入的涉案领域的半监督方面级情感分析方法,其特征在于:所述步骤Step2的具体步骤:
Step2.1、利用三种数据增强方式,包括同义词替换,随机交换和随机插入,对标记的数据集进行语料的数据增强;
Step2.2、基于BERT语言模型构建涉案领域的预训练网络,从而通过数据增强后的数据集获得涉案领域的预训练词嵌入;
Step2.3、将数据增强后的数据集利用Trans-Gate模型构建预训练网络,从而获得涉案领域的词嵌入,其中一条数据集包括多个三元组,包含头实体h和尾实体t,r是h和t之间的关系;给定一个三元组h,r,t,利用一个有全连接层的基础门控分别表示两个实体之间的关系,在经过门控函数σ后,得到新的特定关系的词嵌入向量,记为:
fr(h,t)=||hr+r-tr|| (3)
在预训练涉案知识图后,将得到涉案知识的Trans-KGs词嵌入,预训练的损失函数记为:
其中,S'是词和关系的集合,由随机替换的实体或关系组成的训练三元组。
6.根据权利要求1所述的基于知识图嵌入的涉案领域的半监督方面级情感分析方法,其特征在于:所述步骤Step3的具体步骤:
(a)首先,定义了一个微调修改版的MixMatch适应损失函数,其中α是Beta样本分布的超参数;
λ~Beta(α,α) (5)
λ'=max(λ,1-λ) (6)
(b)通过公式(7)和公式(8)得到最终的样本数据集,其中(x1,p1)和(x2,p2)是两个带有预测标签的样本,λ'为了设置标记数据和未标记数据的比例阈值,根据公式(6)确保混合数据集更趋近原始数据集;
x'=λ'(BERT(x1))+(1-λ')(BERT(x2)) (7)
p'=λ'(BERT(p1))+(1-λ')(BERT(p2)) (8)
(c)最后,为了更好的训练,将得到的混合数据进行随机洗牌。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110163044.6A CN112800229B (zh) | 2021-02-05 | 2021-02-05 | 基于知识图嵌入的涉案领域的半监督方面级情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110163044.6A CN112800229B (zh) | 2021-02-05 | 2021-02-05 | 基于知识图嵌入的涉案领域的半监督方面级情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112800229A true CN112800229A (zh) | 2021-05-14 |
CN112800229B CN112800229B (zh) | 2022-12-20 |
Family
ID=75814465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110163044.6A Active CN112800229B (zh) | 2021-02-05 | 2021-02-05 | 基于知识图嵌入的涉案领域的半监督方面级情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800229B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128527A (zh) * | 2021-06-21 | 2021-07-16 | 中国人民解放军国防科技大学 | 基于变换器模型和卷积神经网络的图像场景分类方法 |
CN113326287A (zh) * | 2021-08-04 | 2021-08-31 | 山东大学 | 一种使用三步策略的在线跨模态检索方法及系统 |
CN115391570A (zh) * | 2022-10-28 | 2022-11-25 | 聊城大学 | 一种基于方面的情感知识图谱构建方法及装置 |
CN116562302A (zh) * | 2023-06-29 | 2023-08-08 | 昆明理工大学 | 融合汉越关联关系的多语言事件观点对象识别方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980650A (zh) * | 2017-03-01 | 2017-07-25 | 平顶山学院 | 一种面向Twitter观点分类的情感增强词嵌入学习方法 |
CN108364028A (zh) * | 2018-03-06 | 2018-08-03 | 中国科学院信息工程研究所 | 一种基于深度学习的互联网网站自动分类方法 |
CN111324734A (zh) * | 2020-02-17 | 2020-06-23 | 昆明理工大学 | 融合情绪知识的案件微博评论情绪分类方法 |
CN111581474A (zh) * | 2020-04-02 | 2020-08-25 | 昆明理工大学 | 基于多头注意力机制的涉案微博评论的评价对象抽取方法 |
CN111723209A (zh) * | 2020-06-28 | 2020-09-29 | 上海携旅信息技术有限公司 | 半监督文本分类模型训练方法、文本分类方法、系统、设备及介质 |
US20200349229A1 (en) * | 2019-05-02 | 2020-11-05 | King Fahd University Of Petroleum And Minerals | Open domain targeted sentiment classification using semisupervised dynamic generation of feature attributes |
CN112287240A (zh) * | 2020-09-23 | 2021-01-29 | 昆明理工大学 | 基于双嵌入多层卷积神经网络的案件微博评价对象抽取方法及装置 |
CN112287197A (zh) * | 2020-09-23 | 2021-01-29 | 昆明理工大学 | 动态记忆案件描述的涉案微博评论讽刺句检测方法 |
-
2021
- 2021-02-05 CN CN202110163044.6A patent/CN112800229B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980650A (zh) * | 2017-03-01 | 2017-07-25 | 平顶山学院 | 一种面向Twitter观点分类的情感增强词嵌入学习方法 |
CN108364028A (zh) * | 2018-03-06 | 2018-08-03 | 中国科学院信息工程研究所 | 一种基于深度学习的互联网网站自动分类方法 |
US20200349229A1 (en) * | 2019-05-02 | 2020-11-05 | King Fahd University Of Petroleum And Minerals | Open domain targeted sentiment classification using semisupervised dynamic generation of feature attributes |
CN111324734A (zh) * | 2020-02-17 | 2020-06-23 | 昆明理工大学 | 融合情绪知识的案件微博评论情绪分类方法 |
CN111581474A (zh) * | 2020-04-02 | 2020-08-25 | 昆明理工大学 | 基于多头注意力机制的涉案微博评论的评价对象抽取方法 |
CN111723209A (zh) * | 2020-06-28 | 2020-09-29 | 上海携旅信息技术有限公司 | 半监督文本分类模型训练方法、文本分类方法、系统、设备及介质 |
CN112287240A (zh) * | 2020-09-23 | 2021-01-29 | 昆明理工大学 | 基于双嵌入多层卷积神经网络的案件微博评价对象抽取方法及装置 |
CN112287197A (zh) * | 2020-09-23 | 2021-01-29 | 昆明理工大学 | 动态记忆案件描述的涉案微博评论讽刺句检测方法 |
Non-Patent Citations (8)
Title |
---|
JUN YUAN 等: ""TransGate: Knowledge Graph Embedding with Shared Gate Structure"", 《HTTPS://OJS.AAAI.ORG/INDEX.PHP/AAAI/ARTICLE/DOWNLOAD/4169》 * |
MALTE OSTENDORFF 等: ""Enriching BERT with Knowledge Graph Embeddings for Document Classification"", 《HTTPS://WWW.RESEARCHGATE.NET/PUBLICATION/335908368_ENRICHING_BERT_WITH_KNOWLEDGE_GRAPH_EMBEDDINGS_FOR_DOCUMENT_CLASSIFICATION》 * |
刘一飞: ""网络舆情信息识别与分析的关键技术研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
姚妮等: "基于BERT和BiGRU的在线评论文本情感分类研究", 《轻工学报》 * |
王嘉宁等: "基于远程监督的关系抽取技术", 《华东师范大学学报(自然科学版)》 * |
王宇涵: ""基于深度学习的微博评论情感倾向研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
秦欣: ""基于深度学习的微博短文本情感分析技术研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
高明鑫: "综合服务支付平台的建设思路", 《广东科技》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128527A (zh) * | 2021-06-21 | 2021-07-16 | 中国人民解放军国防科技大学 | 基于变换器模型和卷积神经网络的图像场景分类方法 |
CN113326287A (zh) * | 2021-08-04 | 2021-08-31 | 山东大学 | 一种使用三步策略的在线跨模态检索方法及系统 |
CN113326287B (zh) * | 2021-08-04 | 2021-11-02 | 山东大学 | 一种使用三步策略的在线跨模态检索方法及系统 |
CN115391570A (zh) * | 2022-10-28 | 2022-11-25 | 聊城大学 | 一种基于方面的情感知识图谱构建方法及装置 |
CN116562302A (zh) * | 2023-06-29 | 2023-08-08 | 昆明理工大学 | 融合汉越关联关系的多语言事件观点对象识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112800229B (zh) | 2022-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112800229B (zh) | 基于知识图嵌入的涉案领域的半监督方面级情感分析方法 | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
Li et al. | Improving convolutional neural network for text classification by recursive data pruning | |
CN105260356A (zh) | 基于多任务学习的中文交互文本情感与话题识别方法 | |
Tang et al. | Multi-label patent categorization with non-local attention-based graph convolutional network | |
Fu et al. | Listening to the investors: A novel framework for online lending default prediction using deep learning neural networks | |
Ding et al. | Adaptive regularization of labels | |
Kumar et al. | Ontology driven sentiment analysis on social web for government intelligence | |
CN113254675B (zh) | 基于自适应少样本关系抽取的知识图谱构建方法 | |
CN109034186A (zh) | 建立da-rbm分类器模型的方法 | |
CN116383399A (zh) | 一种事件舆情风险预测方法及系统 | |
CN112069320A (zh) | 一种基于跨度的细粒度情感分析方法 | |
Saitulasi et al. | Deep Belief Network and Sentimental analysis for extracting on multi-variable Features to predict Stock market Performance and accuracy | |
CN112148776A (zh) | 基于引入语义信息的神经网络的学术关系预测方法和装置 | |
Tang et al. | Dropout Rate Prediction of Massive Open Online Courses Based on Convolutional Neural Networks and Long Short‐Term Memory Network | |
Liu et al. | Hierarchical graph convolutional networks for structured long document classification | |
Fincham et al. | Persistence and Performance in Co-Enrollment Network Embeddings: An Empirical Validation of Tinto's Student Integration Model | |
Addepalli et al. | A proposed framework for measuring customer satisfaction and product recommendation for ecommerce | |
Verma et al. | A scalable machine learning-based ensemble approach to enhance the prediction accuracy for identifying students at-risk | |
Joseph et al. | Arab Spring: from newspaper | |
Vergara et al. | A Schematic Review of Knowledge Reasoning Approaches Based on the Knowledge Graph | |
CN113869034A (zh) | 基于强化依赖图的方面情感分类方法 | |
CN113378571A (zh) | 一种文本数据的实体数据关系抽取方法 | |
CN113590819A (zh) | 一种大规模类别层级文本分类方法 | |
Alghalibi et al. | Deep Tweets Analyzer Model for Twitter Mood Visualization and Prediction Based Deep Learning Approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |