CN114943216A - 基于图注意力网络的案件微博属性级观点挖掘方法 - Google Patents
基于图注意力网络的案件微博属性级观点挖掘方法 Download PDFInfo
- Publication number
- CN114943216A CN114943216A CN202210511507.8A CN202210511507A CN114943216A CN 114943216 A CN114943216 A CN 114943216A CN 202210511507 A CN202210511507 A CN 202210511507A CN 114943216 A CN114943216 A CN 114943216A
- Authority
- CN
- China
- Prior art keywords
- attribute
- words
- viewpoint
- microblog
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000005065 mining Methods 0.000 title claims abstract description 42
- 238000000605 extraction Methods 0.000 claims abstract description 27
- 230000002996 emotional effect Effects 0.000 claims abstract description 18
- 230000008451 emotion Effects 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 15
- 238000002372 labelling Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 230000009193 crawling Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 13
- 238000002474 experimental method Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 238000012512 characterization method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明涉及基于图注意力网络的案件微博属性级观点挖掘方法,属于自然语言处理技术领域。本发明首先使用斯坦福工具得到涉案微博评论句的句法依存关系;然后,重塑评论句的句法依存关系,只保留属性词与观点词之间的主要句法信息,丢弃次要句法信息;最后,使用关系图注意力网络模型进行编码,对属性词对应的观点词和情感倾向性进行联合抽取。本发明解决了现有方法不能有效的对案件微博评论的属性词和观点词的关系进行建模,从而利用抽取的观点词预测情感极性的问题。
Description
技术领域
本发明涉及基于图注意力网络的案件微博属性级观点挖掘方法,属于自然语言处理技术领域。
背景技术
微博等社交媒体的蓬勃发展让人们获得更丰富、更及时的信息,同时每天也会产生大量评论。其中,与案件相关的评论在网络上迅速传播,所产生的舆论会干扰有关机构的工作。为此,获取案件微博评论属性词对应的观点词并判断其情感倾向性,有助于司法机关掌握大众的舆论走势,降低舆情事件带来的风险。案件微博观点挖掘主要包括观点词抽取和属性级情感分类,其目的是针对从微博用户评论文本中识别出的属性词,提取其对应的观点词并判断网友的情感倾向性。在这一任务中,本发明将情感倾向性分为三类:积极、消极、中性。由于涉案微博评论的属性词和观点词之间存在一定的句法关系,同时,观点词抽取和属性词情感分析是两个相互促进的任务。但是现有方法存在对属性词和观点词之间的关系利用不足的问题,因此,该任务的难点在于如何对属性词和观点词的关系进行建模,从而利用抽取的观点词预测情感极性。例如在“这个品牌也太嚣张了,大家一定要持续关注啊”这句评论中,出现了“了、啊”等这样的语气词,这些词包含的句法信息往往是无关紧要的,有时甚至会对模型造成负面影响。显然,这些次要的句法信息是需要被丢弃的。因此,可以对涉案微博评论的句法关系进行重塑,即只保留属性词与观点词之间的主要句法信息,丢弃次要句法信息。同时,直观来看,网友的情感倾向性往往是由观点词决定的,观点词抽取和属性级情感分类是两个相互促进的子任务,将它们的损失函数进行联合学习,可以进一步提升观点词抽取和属性级情感分类的性能。
发明内容
本发明提供了基于图注意力网络的案件微博属性级观点挖掘方法,以用于解决现有方法不能有效的对案件微博评论的属性词和观点词的关系进行建模,从而利用抽取的观点词预测情感极性等问题,本发明提升观点挖掘的精度。
本发明的技术方案是:基于图注意力网络的案件微博属性级观点挖掘方法,所述基于图注意力网络的案件微博属性级观点挖掘方法的具体步骤如下:
Step1、收集用于案件微博属性级观点挖掘的微博评论文本,对微博评论文本进行去重与筛选;
作为本发明的优选方案,所述Step1中,使用Scrapy作为爬取工具,收集用于案件微博属性级观点挖掘的微博评论文本,然后对其进行去重和筛选。
此优选方案设计是本发明的重要组成部分,主要为本发明收集语料过程,为本发明抽取涉案微博评价对象提供了数据支撑。
Step2、对涉案微博评论文本进行分词等预处理,定制案件微博属性级观点挖掘的标注体系,标记微博评价文本,将标记好的微博评论语料按照8:1:1的比例分配训练语料、验证语料和测试语料;
Step3、获取评论语句对应的词向量,训练数据经过预处理后输入斯坦福工具,得到评论的句法依存关系;
Step4、对评论的句法依存关系进行重塑,只保留属性词与观点词之间的直接句法关系,丢弃属性词与观点词之间的间接句法关系;
Step5、使用关系图注意力网络模型进行编码,对属性词对应的观点词和情感倾向性进行联合抽取。
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、定制的案件微博属性级观点挖掘的标注体系采用了XML的可扩展标记语言组织文本,分别针对属性词文本、属性词的开始位置、属性词的结束位置、观点词文本、观点词的开始位置、观点词的结束位置及属性词的情感极性对收集到的微博评论文本进行标记;
Step2.2、再将实验数据分为训练语料、验证语料和测试语料。
本发明使用的数据集为人工标注共2200条涉案微博评论,标注内容为涉案微博评论句中的属性词、观点词及其情感极性。
此优选方案设计是本发明的重要组成部分,主要为本发明提供语料预处理过程,为后续工作提供模型训练时所需训练语料和为模型验证时提供验证语料以及为模型测试时提供测试语料;并且为本发明抽取案件微博观点词和情感极性提供了支撑和挖掘的对象。
作为本发明的优选方案,本发明利用重塑的属性词和观点词之间的句法关系构建图注意力网络,对观点词抽取和属性级情感分类进行联合训练,从而提升观点挖掘的精度,其中:
作为本发明的优选方案,所述步骤Step4的具体步骤为:
Step4.1、将属性词放在依存树的根部;
Step4.2、对于依存树中节点与节点之间的依存关系,只保留属性词与观点词之间的直接句法关系,丢弃属性词与观点词之间的间接句法关系;
Step4.3、如果一个评论句子包含多个属性词,将把句中每个属性词分别作为根,构造一棵唯一的树,减少无关节点和关系的影响。
此优选方案设计是本发明的重要组成部分,主要为本发明提供重塑依存句法关系的过程,通过重塑评论句的句法依存关系,只保留属性词与观点词之间的主要句法信息,丢弃次要句法信息,找到模型需要的句法关系。
作为本发明的优选方案,所述步骤Step5的具体步骤为:
Step5.1、将依存关系分别映射到两个向量空间:E[rij]和U[rij]。其中,E[rij]用于预测属性词的情感倾向性,U[rij]用于抽取观点词;
Step5.2、分别利用关系图注意力网络对隐状态节点进行更新,以此对属性词情感极性和观点词进行联合抽取。
作为本发明的优选方案,所述图注意力网络:
图注意力网络是将注意力机制运用到图神经网络上,图中有n个节点,每个节点可以是一个词或一个句子的特征表示。在聚合特征信息时,通过计算网络中每个节点与邻居节点的相似度来控制节点中信息的传递,即确保只有同类节点的信息聚集到一起。的边表示词与词之间的依存关系,节点i的邻域节点用Ni表示。具体运算公式如下:
为了对不同子空间中的注意力权重进行学习,聚合邻域节点的表征,图注意力网络还可以使用多头注意力来迭代更新每个节点的表征。具体更新过程如下:
作为本发明的优选方案,所述关系图注意力网络:
依存树用具有n个节点的图G来表示,其中每个节点表示句子中的一个词。G的边表示词与词之间的依存关系。节点i的邻域节点用Ni表示。GAT可以沿依存路径聚合邻域节点的表示。但是,这个过程没有考虑依存关系,可能会丢失一些重要的依存信息。具有不同依存关系的邻域节点应该具有不同的影响,因此,本发明使用额外的关系头来扩展原始的GAT,将这些关系头作为关系感知门来控制来自邻域节点的信息流。该方法的整体架构如图2所示。具体来说,首先将依存关系分别映射到两个向量空间:E[rij]和U[rij]。其中,E[rij]用于预测属性词的情感倾向性,U[rij] 用于抽取观点词。然后,分别利用关系图注意力网络对隐状态节点进行更新,以此对属性词情感极性和观点词进行联合抽取。
(1)属性词情感极性预测:将E[rij]作为查询向量,根据依存关系在句子和属性词组成的隐状态之间进行信息传递和特征聚集。节点i和j之间的关系系数计算如下:
其中rij表示节点i和j之间的关系嵌入。m表示关系图注意力网络中的第m个关系头。
本发明使用BERT对树节点的词嵌入进行编码,并为叶子节点i的初始表示获得其输出隐藏状态hi。然后,使用BERT对属性词进行编码,并将其平均隐藏状态用作该根的初始表示在面向属性词的依存树上应用关系图注意力网络之后,它的根表示通过一个全连接的softmax层,判断情感极性。
最后,使用标准的交叉熵损失作为目标函数:
其中,D包含所有属性词—句子对,A表示出现在句子S中的属性词,θ包含所有可训练参数。
(2)观点词抽取:将U[rij]作为查询向量,根据依存关系在句子和属性词组成的隐状态之间进行信息传递和特征聚集。节点i和j之间的关系系数计算如下:
其中rij表示节点i和j之间的关系嵌入。m表示关系图注意力网络中的第m个关系头。
其中,i表示句子和属性词组成的每一个隐状态。所有隐状态表示为L= {l1,l2,…lt},其中li是序列中第i个词的预测得分。设输入序列为x={x1,x2,…xt}, BIO标签序列为y={y1,y2,…yt},标签预测的分数为:
P(y|x)=softmax{score(x,y)} (18)
其中,Q是转移分数矩阵,Qi,j表示从标签i转移到标签j的分数。对所有可能的标签序列的得分应用softmax函数,从而得到给定输入x的条件下标签序列y的概率 P(y|x)。本发明采用负对数似然函数作为损失函数,最后通过维特比算法得到条件概率最大的输出序列。
L′(θ)=-∑lnP(y|x) (19)
两个任务联合损失函数为:
L=τL(θ)+(1-τ)L′(θ) (20)
其中,τ∈[0,1]是一个用来平衡两个损失的超参数。
基于图注意力网络的观点挖掘模型框架如图2所示。
本发明的有益效果是:
1、本发明的基于图注意力网络的案件微博属性级观点挖掘方法,结合案件微博数据的特点,提出了利用属性词和观点词之间的直接句法关系指导评论中属性词对应的观点词和情感极性联合抽取;
2、本发明的基于图注意力网络的案件微博属性级观点挖掘方法,提出对案件微博评论的句法关系进行重塑,即只保留属性词与观点词之间的主要句法信息,丢弃次要句法信息;
3、本发明的基于图注意力网络的案件微博属性级观点挖掘方法,提出利用句法关系构建图注意力网络,对观点词抽取和属性级情感分类进行联合训练,从而提升观点挖掘的精度;
4、本发明的基于图注意力网络的案件微博属性级观点挖掘方法,解决了案件微博评论的属性级观点挖掘任务。
附图说明
图1为本发明提出的案件微博属性级观点挖掘流程图;
图2为本发明提出的基于图注意力网络的案件微博属性级观点挖掘模型图;
图3为本发明不同词嵌入维度的实验结果;
图4为本发明不同注意力头数的实验结果;
图5为本发明参数τ的不同取值的实验结果。
具体实施方式
实施例1:如图1-图5所示,基于图注意力网络的案件微博属性级观点挖掘方法,具体步骤如下:
Step1、收集用于案件微博属性级观点挖掘的微博评论文本,对微博评论文本进行去重与筛选;
作为本发明的优选方案,所述Step1中,使用Scrapy作为爬取工具,收集用于案件微博属性级观点挖掘的微博评论文本,然后对其进行去重和筛选。
Step2、对涉案微博评论文本进行分词等预处理,定制案件微博属性级观点挖掘的标注体系,标记微博评价文本,将标记好的微博评论语料按照8:1:1的比例分配训练语料、验证语料和测试语料;
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、定制的案件微博属性级观点挖掘的标注体系采用了XML的可扩展标记语言组织文本,分别针对属性词文本、属性词的开始位置、属性词的结束位置、观点词文本、观点词的开始位置、观点词的结束位置及属性词的情感极性对收集到的微博评论文本进行标记;
Step2.2、再将实验数据分为训练语料、验证语料和测试语料。
Step3、获取评论语句对应的词向量,训练数据经过预处理后输入斯坦福工具,得到评论的句法依存关系;
作为本发明的优选方案,本发明利用重塑的属性词和观点词之间的句法关系构建图注意力网络,对观点词抽取和属性级情感分类进行联合训练,从而提升观点挖掘的精度,其中:
Step4、对评论的句法依存关系进行重塑,只保留属性词与观点词之间的主要句法信息,丢弃次要句法信息;主要句法信息指的是属性词与观点词之间的直接句法关系,次要句法信息值得是属性词与观点词之间的间接句法关系;
作为本发明的优选方案,所述步骤Step4的具体步骤为:
Step4.2、对于依存树中节点与节点之间的依存关系,只保留属性词与观点词之间的直接句法关系,丢弃属性词与观点词之间的间接句法关系;
Step4.3、如果一个评论句子包含多个属性词,将把句中每个属性词分别作为根,构造一棵唯一的树,减少无关节点和关系的影响。
Step5、使用关系感知的图注意力网络模型进行编码,对属性词对应的观点词和情感倾向性进行联合抽取。
作为本发明的优选方案,所述步骤Step5的具体步骤为:
Step5.1、将依存关系分别映射到两个向量空间:E[rij]和U[rij]。其中,E[rij]用于预测属性词的情感倾向性,U[rij]用于抽取观点词;
Step5.2、分别利用关系图注意力网络对隐状态节点进行更新,以此对属性词情感极性和观点词进行联合抽取。
作为本发明的优选方案,所述图注意力网络:
图注意力网络是将注意力机制运用到图神经网络上,图中有n个节点,每个节点可以是一个词或一个句子的特征表示。在聚合特征信息时,通过计算网络中每个节点与邻居节点的相似度来控制节点中信息的传递,即确保只有同类节点的信息聚集到一起。的边表示词与词之间的依存关系,节点i的邻域节点用Ni表示。具体运算公式如下:
为了对不同子空间中的注意力权重进行学习,聚合邻域节点的表征,图注意力网络还可以使用多头注意力来迭代更新每个节点的表征。具体更新过程如下:
作为本发明的优选方案,所述关系图注意力网络:
依存树用具有n个节点的图G来表示,其中每个节点表示句子中的一个词。G的边表示词与词之间的依存关系。节点i的邻域节点用Ni表示。GAT可以沿依存路径聚合邻域节点的表示。但是,这个过程没有考虑依存关系,可能会丢失一些重要的依存信息。具有不同依存关系的邻域节点应该具有不同的影响,因此,本发明使用额外的关系头来扩展原始的GAT,将这些关系头作为关系感知门来控制来自邻域节点的信息流。该方法的整体架构如图2所示。具体来说,首先将依存关系分别映射到两个向量空间:E[rij]和U[rij]。其中,E[rij]用于预测属性词的情感倾向性,U[rij] 用于抽取观点词。然后,分别利用关系图注意力网络对隐状态节点进行更新,以此对属性词情感极性和观点词进行联合抽取。
(1)属性词情感极性预测:将E[rij]作为查询向量,根据依存关系在句子和属性词组成的隐状态之间进行信息传递和特征聚集。节点i和j之间的关系系数计算如下:
其中rij表示节点i和j之间的关系嵌入。m表示关系图注意力网络中的第m个关系头。
本发明使用BERT对树节点的词嵌入进行编码,并为叶子节点i的初始表示获得其输出隐藏状态hi。然后,使用BERT对属性词进行编码,并将其平均隐藏状态用作该根的初始表示在面向属性词的依存树上应用关系图注意力网络之后,它的根表示通过一个全连接的softmax层,判断情感极性。
最后,使用标准的交叉熵损失作为目标函数:
其中,D包含所有属性词—句子对,A表示出现在句子S中的属性词,θ包含所有可训练参数。
(2)观点词抽取:将U[rij]作为查询向量,根据依存关系在句子和属性词组成的隐状态之间进行信息传递和特征聚集。节点i和j之间的关系系数计算如下:
其中rij表示节点i和j之间的关系嵌入。m表示关系图注意力网络中的第m个关系头。
其中,i表示句子和属性词组成的每一个隐状态。所有隐状态表示为L= {l1,l2,…lt},其中li是序列中第i个词的预测得分。设输入序列为x={x1,x2,…xt}, BIO标签序列为y={y1,y2,…yt},标签预测的分数为:
P(y|x)=softmax{score(x,y)} (38)
其中,Q是转移分数矩阵,Qi,j表示从标签i转移到标签j的分数。对所有可能的标签序列的得分应用softmax函数,从而得到给定输入x的条件下标签序列y的概率 P(y|x)。本发明采用负对数似然函数作为损失函数,最后通过维特比算法得到条件概率最大的输出序列。
L′(θ)=-∑lnP(y|x) (39)
两个任务联合损失函数为:
L=τL(θ)+(1-τ)L′(θ) (40)
其中,τ∈[0,1]是一个用来平衡两个损失的超参数。
Step6、分别对词嵌入维度、注意力头数和参数的取值进行实验探究,经过实验,证明模型设置的合理性与高效性,又将该模型与现有模型进行对比,证明本方法在案件微博属性级观点挖掘上具有较好效果。
实验采用采用精确率(P)、召回率(R)和F1值作为观点词抽取的评价指标,采用准确率(Accuracy)来评价属性级情感分类的性能。
其中,TP表示正例被判定为正例,预测成功,TN表示负例被判定为负例,预测成功,FP表示负例被判定为正例,预测失败,FN表示正例被判定为负例,预测失败。
本发明实验的训练和测试都是在RTX 2080Ti GPU上使用PyTorch实现的。实验使用的BERT预训练语言模型为Google发布的BERT-Base(Chinese)模型。Transformer 隐藏层大小为768,自注意力头数为6,预训练模型的参数总数为110M。实验设置dropout大小为0.2,epoch大小为50,初始学习率为2e-5,批次大小为16。
CRF:该方法是解决序列标注问题用的最多的方法之一,通过学习观察序列来预测标签序列,同时加入softmax层进行情感分类。
LSTM-CRF:该方法使用LSTM解决了远距离依赖问题,然后使用CRF抽取观点词,使用softmax层进行情感分类。
BiLSTM-CRF:该模型使用BiLSTM从两个方向编码信息,来更好的捕获上下文信息,使用CRF向最终的预测标签添加约束,同时添加softmax层进行情感分类。
BiLSTM-CNN-CRF:该模型在结合BiLSTM和CRF优势的基础上,又融合了 CNN抽取局部特征,再接一层全连接的softmax,进行观点词抽取和情感分类。
BERT-CRF:该方法将评论句和属性词输入预训练BERT模型,得到的表示送入 CRF,抽取观点词,同时使用softmax层预测情感极性。
为了保证比较的公平性,本发明实验将上述模型的学习率、dropout、批次等参数设置为与本文模型一致,LSTM的隐层向量大小设置为100,CNN卷积核的尺寸设置为(2,3,4)。实验分别在两个数据集上进行,表1给出了对比实验的结果。
表1基准模型对比实验结果(%)
通过表1可以看出,相比其他模型而言,使用基于传统机器学习的CRF模型进行观点词抽取和情感分类的性能都是最低的,在两个数据集上的F1值只有59.71%和53.79%,准确率也只达到了67.50%和63.04%。这是由于CRF模型需要定义大量的特征函数,根据自定义的语言特征模板进行观点词抽取,并没有抽取相应的语义特征,不能很好的判断情感极性。与CRF模型相比,LSTM-CRF模型的性能获得明显提升,这是由于LSTM-CRF模型利用LSTM对评论信息进行了抽取,有助于后续的观点词抽取和情感分类。在使用了前向和后向两个方向的LSTM对评论句子进行编码后,BiLSTM-CRF模型可以更好的捕获双向语义依赖关系,因此性能又有所提升。在融合了CNN模型之后,BiLSTM-CNN-CRF模型在两个任务上的性能都有所提升,说明CNN可以很好的捕获局部特征,提高了观点词边界预测的准确率。在基准模型中,基于预训练BERT的BERT-CRF模型的F1值和准确率都是最高的,这是由于BERT包含了很多预训练语料中蕴含的外部知识和语义信息。在两个数据集上,本发明方法的F1值对比所有基准模型均有所提高,验证了本发明方法对涉案微博评论观点词抽取和属性级情感分类的有效性。
为了验证本发明模型中BERT、重塑句法关系、关系图注意力网络和联合训练的有效性,针对#某品牌维权案#数据集进行了消融实验,实验结果如表2所示。
表2消融实验结果对比(%)
通过表2的实验结果可得,当使用Bi-LSTM代替BERT编码时,模型在观点词抽取和属性级情感分类方面的性能均大幅下降,说明预训练BERT可以很好的指导模型学习涉案微博评论的特征,进而抽取观点词和预测情感极性。当没有使用涉案微博评论句重塑的句法关系时,模型的性能有更明显的下降,说明属性词和观点词之间的主要句法关系有助于模型更多地关注相应的观点词。当没有使用关系图注意力网络时,模型在观点词抽取上的性能降低了1.88%,在属性级情感分类上的性能降低了2.81%,说明关系图注意力网络可以有效帮助模型更好地关注属性词与对应观点词之间的联系,对模型的指导作用更准确。当分别对观点词抽取和属性级情感分类进行单独训练时,模型的性能大幅下降,这是由于观点词抽取和属性级情感分类是两个互相促进的子任务,对其进行联合训练,使每个子任务在跨任务语义交互中对另一个子任务形成补充,从而提升了模型的性能。
为了探究词嵌入维度对模型性能的影响,本发明针对#某品牌维权案#数据集进行了实验,实验结果如图3所示。
通过图3的实验结果可以看出,当词嵌入维度选择300时,模型性能最好。当词嵌入维度选择256时,模型性能有明显下降,这是由于词嵌入维度较低时,会影响语义信息的表达能力,对模型造成负面影响。当词嵌入维度较高时,模型性能又有所下降,这是由于较高的词嵌入维度很可能会导致过拟合,从而降低模型性能。因此,本发明选择的词嵌入维度为300。
为了探究注意力头数对模型的影响,针对#某品牌维权案#数据集进行了实验,结果如图4所示。
根据图4可得,当注意力头数选择6时,模型性能最好。当注意力头数选择更少或更多时,模型性能均有所下降。因此,本发明选择的注意力头数为6。
为了探究联合损失函数中参数τ的取值对模型的影响,本发明针对#某品牌维权案#数据集进行了实验,结果如图5所示。
从以上数据可以看出,有效利用属性词和观点词之间的主要句法关系构建图注意力网络,对观点词抽取和属性级情感分类进行联合训练,可以提升观点挖掘的精度。所提出的属性词和观点词之间的主要句法关系和关系感知的注意力网络使模型能够更准确的抽取观点词和预测情感极性,同时联合训练的方法大大提升了模型的性能。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (6)
1.基于图注意力网络的案件微博属性级观点挖掘方法,其特征在于:所述基于图注意力网络的案件微博属性级观点挖掘方法的具体步骤如下:
Step1、收集用于案件微博属性级观点挖掘的微博评论文本,对微博评论文本进行去重与筛选;
Step2、定制案件微博属性级观点挖掘的标注体系,标记微博评论文本,将标记好的微博评论语料分为训练语料、验证语料和测试语料;
Step3、获取评论语句对应的词向量,训练数据经过预处理后输入斯坦福工具,得到评论的句法依存关系;
Step4、对评论的句法依存关系进行重塑,只保留属性词与观点词之间的直接句法关系,丢弃属性词与观点词之间的间接句法关系;
Step5、使用关系图注意力网络模型进行编码,对属性词对应的观点词和情感倾向性进行联合抽取。
2.根据权利要求1所述的基于图注意力网络的案件微博属性级观点挖掘方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、使用Scrapy作为爬取工具,收集用于案件微博属性级观点挖掘的微博评论文本;
Step1.2、对收集到的微博评论文本进行去重与筛选。
3.根据权利要求1所述的基于图注意力网络的案件微博属性级观点挖掘方法,其特征在于:所述步骤Step2的具体步骤为:
Step2.1、定制的案件微博属性级观点挖掘的标注体系采用了XML的可扩展标记语言组织文本,分别针对属性词文本、属性词的开始位置、属性词的结束位置、观点词文本、观点词的开始位置、观点词的结束位置及属性词的情感极性对收集到的微博评论文本进行标记;
Step2.2、再将实验数据分为训练语料、验证语料和测试语料。
5.根据权利要求1所述的基于图注意力网络的案件微博属性级观点挖掘方法,其特征在于:所述步骤Step4的具体步骤:
Step4.1、将属性词放在依存树的根部;
Step4.2、对于依存树中节点与节点之间的依存关系,只保留属性词与观点词之间的直接句法关系,丢弃属性词与观点词之间的间接句法关系;
Step4.3、如果一个评论句子包含多个属性词,将把句中每个属性词分别作为根,构造一棵唯一的树,减少无关节点和关系的影响。
6.根据权利要求1所述的基于图注意力网络的案件微博属性级观点挖掘方法,其特征在于:所述步骤Step5的具体步骤为:
Step5.1、将依存关系分别映射到两个向量空间:E[rij]和U[rij];其中,E[rij]用于预测属性词的情感倾向性,U[rij]用于抽取观点词;
Step5.2、分别利用关系图注意力网络对隐状态节点进行更新,以此对属性词情感极性和观点词进行联合抽取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210511507.8A CN114943216B (zh) | 2022-05-12 | 2022-05-12 | 基于图注意力网络的案件微博属性级观点挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210511507.8A CN114943216B (zh) | 2022-05-12 | 2022-05-12 | 基于图注意力网络的案件微博属性级观点挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114943216A true CN114943216A (zh) | 2022-08-26 |
CN114943216B CN114943216B (zh) | 2024-04-19 |
Family
ID=82906493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210511507.8A Active CN114943216B (zh) | 2022-05-12 | 2022-05-12 | 基于图注意力网络的案件微博属性级观点挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114943216B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116011447A (zh) * | 2023-03-28 | 2023-04-25 | 杭州实在智能科技有限公司 | 电商评论分析方法、系统及计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488734A (zh) * | 2020-04-14 | 2020-08-04 | 西安交通大学 | 基于全局交互和句法依赖的情感特征表示学习系统及方法 |
US10812424B1 (en) * | 2018-02-05 | 2020-10-20 | Beacon Tech Inc. | System and method for quantifying mental health within a group chat application |
CN111914185A (zh) * | 2020-07-06 | 2020-11-10 | 华中科技大学 | 一种基于图注意力网络的社交网络中文本情感分析方法 |
CN112561718A (zh) * | 2020-11-16 | 2021-03-26 | 昆明理工大学 | 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法 |
CN113657123A (zh) * | 2021-07-14 | 2021-11-16 | 内蒙古工业大学 | 基于目标模板指导和关系头编码的蒙语方面级情感分析方法 |
CN113901172A (zh) * | 2021-09-16 | 2022-01-07 | 昆明理工大学 | 基于关键词结构编码的涉案微博评价对象抽取方法 |
-
2022
- 2022-05-12 CN CN202210511507.8A patent/CN114943216B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10812424B1 (en) * | 2018-02-05 | 2020-10-20 | Beacon Tech Inc. | System and method for quantifying mental health within a group chat application |
CN111488734A (zh) * | 2020-04-14 | 2020-08-04 | 西安交通大学 | 基于全局交互和句法依赖的情感特征表示学习系统及方法 |
CN111914185A (zh) * | 2020-07-06 | 2020-11-10 | 华中科技大学 | 一种基于图注意力网络的社交网络中文本情感分析方法 |
CN112561718A (zh) * | 2020-11-16 | 2021-03-26 | 昆明理工大学 | 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法 |
CN113657123A (zh) * | 2021-07-14 | 2021-11-16 | 内蒙古工业大学 | 基于目标模板指导和关系头编码的蒙语方面级情感分析方法 |
CN113901172A (zh) * | 2021-09-16 | 2022-01-07 | 昆明理工大学 | 基于关键词结构编码的涉案微博评价对象抽取方法 |
Non-Patent Citations (2)
Title |
---|
PO YANG等: "comparison and modelling of country-level micro-blog user behaviour and activity in cyber physical social systems using weibo and twitter data", ACM TRANSACTIONS ON INTELLIGENT SYSTEMS AND TECHNOLOGY, vol. 10, no. 6, 30 June 2019 (2019-06-30), pages 1 - 8 * |
王静赟: "案件微博评论的属性级情感分析方法研究", 中国优秀硕士学位论文全文数据库, 1 February 2024 (2024-02-01), pages 1 - 88 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116011447A (zh) * | 2023-03-28 | 2023-04-25 | 杭州实在智能科技有限公司 | 电商评论分析方法、系统及计算机可读存储介质 |
CN116011447B (zh) * | 2023-03-28 | 2023-06-30 | 杭州实在智能科技有限公司 | 电商评论分析方法、系统及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114943216B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110348016B (zh) | 基于句子关联注意力机制的文本摘要生成方法 | |
CN108984724B (zh) | 利用高维表示提高特定属性情感分类准确率方法 | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
CN110347836B (zh) | 融入观点句特征的汉越双语新闻情感分类方法 | |
CN112528676A (zh) | 文档级别的事件论元抽取方法 | |
CN107818084B (zh) | 一种融合点评配图的情感分析方法 | |
CN107688870B (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
CN114564565A (zh) | 面向公共安全事件分析的深度语义识别模型及其构建方法 | |
CN112749274B (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN113254604B (zh) | 一种基于参考规范的专业文本生成方法及装置 | |
CN112989033B (zh) | 基于情绪类别描述的微博情绪分类方法 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及系统 | |
CN113326374B (zh) | 基于特征增强的短文本情感分类方法及系统 | |
CN113822340A (zh) | 一种基于注意力机制的图文情感识别方法 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN111914556A (zh) | 基于情感语义转移图谱的情感引导方法及系统 | |
CN113869055A (zh) | 基于深度学习的电网项目特征属性识别方法 | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN112926337A (zh) | 一种结合重构句法信息的端到端方面级情感分析方法 | |
Reddy et al. | Convolutional recurrent neural network with template based representation for complex question answering | |
CN114332519A (zh) | 一种基于外部三元组和抽象关系的图像描述生成方法 | |
CN113920379A (zh) | 一种基于知识辅助的零样本图像分类方法 | |
CN114943216A (zh) | 基于图注意力网络的案件微博属性级观点挖掘方法 | |
CN113886562A (zh) | 一种ai简历筛选方法、系统、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |