CN117312559A - 基于树结构信息感知的方面级情感四元组抽取方法及系统 - Google Patents
基于树结构信息感知的方面级情感四元组抽取方法及系统 Download PDFInfo
- Publication number
- CN117312559A CN117312559A CN202311257506.6A CN202311257506A CN117312559A CN 117312559 A CN117312559 A CN 117312559A CN 202311257506 A CN202311257506 A CN 202311257506A CN 117312559 A CN117312559 A CN 117312559A
- Authority
- CN
- China
- Prior art keywords
- emotion
- tree
- tree structure
- emotion analysis
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 144
- 230000008447 perception Effects 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 title claims description 17
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 230000006870 function Effects 0.000 claims abstract description 21
- 230000003993 interaction Effects 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims abstract description 9
- 230000004931 aggregating effect Effects 0.000 claims abstract description 4
- 230000002776 aggregation Effects 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000002347 injection Methods 0.000 claims description 4
- 239000007924 injection Substances 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9027—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于树结构信息感知的方面级情感四元组抽取方法及系统,包括:获取待抽取的评论语句,并将所述评论语句按照预定义的树结构模板构建为情感分析树;其中,所述情感分析树由构成评论语句的词嵌入向量以及树结构嵌入表示构成;对于获得的情感分析树,利用文本编码器获得情感分析树的嵌入表示;对于情感分析树中的节点,基于图注意网络对当前节点与其邻居节点之间的信息交互进行聚合表示,并将表示结果注入情感分析树的嵌入表示中,获得新的嵌入表示;基于新的嵌入表示以及预设的损失函数,通过解码获得待抽取评论语句中的所有情感元素,其中,所述情感元素包括方面类别、方面词、意见词以及方面情感。
Description
技术领域
本发明属于情感分析技术领域,尤其是涉及一种基于树结构信息感知的方面级情感四元组抽取方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
Cai等人研究了ASQP(Aspect sentiment quad prediction:细粒度情感四元组识别)任务,强调了隐性方面或意见。作者认为,隐含的方面或意见经常出现在现实世界的场景中,并使用"null"来表示它们在情感四边形中。他们引入了两个带有情感四元组注释的新数据集,并通过结合现有模型构建了一系列流水线基线,以对任务进行基准测试。之后有研究人员尝试将所需的情感元素序列作为生成模型的目标,以使用Seq2Seq的方式解决ABSA问题;Zhang等人提出了一个Paraphrase建模策略,以端到端的方式预测情感四元组。通过将注释的情感元素与预先建立的模板相结合,并使用获得的自然语言句子作为目标序列,他们将原来的四元组预测任务转化为文本生成问题,并通过Seq2Seq建模范式来解决。之后,Hu等人在发现模板中情感元素出现的顺序影响四元组抽取的性能,同时,他们提出组合多个模板可以通过数据增强来改善ASQP任务。然而这些模型虽然能够通过将自然语言标签编码到目标输出中来利用丰富的标签语义,但它们无法有效捕获方面词和意见词之间的语义结构。
发明内容
为了解决上述问题,本发明提供了一种基于树结构信息感知的方面级情感四元组抽取方法及系统,所述方案通过将评论语句建模为预定义的情感分析树,然后将树中的各个标签节点建模到预训练语言模型的提示模板中,对情感分析树的结构信息进行有效利用;同时,采用图注意网络来学习标签节点与其他节点之间的关联性,将树结构信息注入到模板嵌入中,实现对标签之间连接性的有效利用,进而能够有效提高方面级情感四元组的提取精度,为下游任务的实现奠定基础。
根据本发明实施例的第一方面,提供了一种基于树结构信息感知的方面级情感四元组抽取方法,包括:
获取待抽取的评论语句,并将所述评论语句按照预定义的树结构模板构建为情感分析树;其中,所述情感分析树由构成评论语句的词嵌入向量以及树结构嵌入表示构成;
对于获得的情感分析树,利用文本编码器获得情感分析树的嵌入表示;
对于情感分析树中的节点,基于图注意网络对当前节点与其邻居节点之间的信息交互进行聚合表示,并将表示结果注入情感分析树的嵌入表示中,获得新的嵌入表示;
基于新的嵌入表示以及预设的损失函数,通过解码获得待抽取评论语句中的所有情感元素,其中,所述情感元素包括方面类别、方面词、意见词以及方面情感。
进一步的,所述基于图注意网络对当前节点与其邻居节点之间的信息交互进行聚合表示,具体表示为:
其中,v表示节点u邻居节点集合中的一个节点,表示在第k层节点v的图注意表示,k表示图注意网络的第k层,N(u)表示节点u的邻居节点,cu是归一化常数,是可训练参数。
进一步的,所述情感分析树的模板中,每个模板词后均设置有用于对树节点进行预测的预设标记。
进一步的,通过预设标记划分不同位置的预测,实现对不同标签之间依赖关系的学习。
进一步的,为了有效利用树节点知识,通过创建若干虚拟节点,将虚拟节点与情感分析树嵌入表示中对应节点进行连接,获得情感分析树嵌入表示中节点新的嵌入表示。
进一步的,所述文本编码器采用BERT模型。
进一步的,所述预设的损失函数,包括掩码语言模型损失和二元交叉熵损失函数,其中,二元交叉熵损失函数基于方面类别、方面词、意见词以及方面情感进行分别设置。
根据本发明实施例的第二方面,提供了一种基于树结构信息感知的方面级情感四元组抽取系统,包括:
情感分析树构建单元,其用于获取待抽取的评论语句,并将所述评论语句按照预定义的树结构模板构建为情感分析树;其中,所述情感分析树由构成评论语句的词嵌入向量以及树结构嵌入表示构成;
嵌入表示单元,其用于对于获得的情感分析树,利用文本编码器获得情感分析树的嵌入表示;
树结构信息注入单元,其用于对于情感分析树中的节点,基于图注意网络对当前节点与其邻居节点之间的信息交互进行聚合表示,并将表示结果注入情感分析树的嵌入表示中,获得新的嵌入表示;
四元组抽取单元,其用于基于新的嵌入表示以及预设的损失函数,通过解码获得待抽取评论语句中的所有情感元素,其中,所述情感元素包括方面类别、方面词、意见词以及方面情感。
根据本发明实施例的第三个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,所述处理器执行所述程序时实现所述的一种基于树结构信息感知的方面级情感四元组抽取方法。
根据本发明实施例的第四个方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的一种基于树结构信息感知的方面级情感四元组抽取方法。
以上一个或多个技术方案存在以下有益效果:
(1)本发明提供了一种基于树结构信息感知的方面级情感四元组抽取方法及系统,所述方案通过将评论语句建模为预定义的情感分析树,然后将树中的各个标签节点建模到预训练语言模型的提示模板中,对情感分析树的结构信息进行有效利用;同时,采用图注意网络来学习标签节点与其他节点之间的关联性,将树结构信息注入到模板嵌入中,实现对标签之间连接性的有效利用,进而能够有效提高方面级情感四元组的提取精度,为下游任务的实现奠定基础;
(2)为了更好地利用树节点知识,所述方案通过创建若干虚拟节点,通过将虚拟节点与情感分析树嵌入表示中对应节点进行连接。这样,这些虚拟节点就可以通过人为的连接来聚合某个节点的信息,进一步提高了方面级情感四元组的提取精度。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例中所述的一种基于树结构信息感知的方面级情感四元组抽取方法流程图;
图2为本发明实施例中所述的树结构示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一:
本实施例的目的是提供一种基于树结构信息感知的方面级情感四元组抽取方法。
一种基于树结构信息感知的方面级情感四元组抽取方法,包括:
获取待抽取的评论语句,并将所述评论语句按照预定义的树结构模板构建为情感分析树;其中,所述情感分析树由构成评论语句的词嵌入向量以及树结构嵌入表示构成;
对于获得的情感分析树,利用文本编码器获得情感分析树的嵌入表示;
对于情感分析树中的节点,基于图注意网络对当前节点与其邻居节点之间的信息交互进行聚合表示,并将表示结果注入情感分析树的嵌入表示中,获得新的嵌入表示;
基于新的嵌入表示以及预设的损失函数,通过解码获得待抽取评论语句中的所有情感元素,其中,所述情感元素包括方面类别、方面词、意见词以及方面情感。
在具体实施中,所述基于图注意网络对当前节点与其邻居节点之间的信息交互进行聚合表示,具体表示为:
其中,v表示节点u邻居节点集合中的一个节点,表示在第k层节点v的图注意表示,k表示图注意网络的第k层,N(u)表示节点u的邻居节点,cu是归一化常数,/>是可训练参数。
在具体实施中,所述情感分析树模板中,每个模板词后均设置有用于对树节点进行预测的预设标记;同时,通过预设标记划分不同位置的预测,实现对不同标签之间依赖关系的学习。
在具体实施中,为了有效利用树节点知识,通过创建若干虚拟节点,将虚拟节点与情感分析树嵌入表示中对应节点进行连接,获得情感分析树嵌入表示中节点新的嵌入表示。
在具体实施中,所述文本编码器采用BERT模型。
在具体实施中,所述预设的损失函数,包括掩码语言模型损失和二元交叉熵损失函数,其中,二元交叉熵损失函数基于方面类别、方面词、意见词以及方面情感进行分别设置。
为了便于理解,以下结合附图对本实施例所述方案进行详细说明:
方面级情感分析中各个情感元素并非是独立正交的,它们之间存在层级的依赖关系。通过在数据集上进行实验,我们使用一种基于概率的方法,分别仅使用方面类别和意见词来预测对应的方面词和情感极性。实验结果证明了我们的猜想。具体而言,我们发现当仅使用方面类别时,有61.60%的概率可以在评论语句中准确提取出方面词;同样地,仅使用意见词时,有77.55%的概率可以得到对应方面的情感极性。这些结果表明方面类别与方面词,以及意见词与情感极性之间存在着依赖关系。因此,传统的将方面情感元素抽取作为序列到序列的任务是不严谨的。
本实施例提供了一种基于树结构信息感知的方面级情感四元组抽取方法,由于方面情感元素之间存在依赖关系,所以将方面情感元素抽取作为序列到序列的任务是不严谨的,因此我们首先将评论语句建模为预定义的情感分析树,然后将树中的各个标签节点建模到预训练语言模型的提示模板中,这样就可以更好地利用情感分析树的结构信息,但情感元素之间缺乏它们的连接性。为了以掩蔽语言模型(MLM)的方式充分利用树结构,我们进一步将树结构知识注入到模板嵌入中。即使用图注意网络(GAT)来学习标签节点与其他节点之间的关联性。最后经过预训练语言模型的重建后,我们即可解码出我们需要的所有情感元素。我们对模型及其不同组件进行了完整的分析,在两个常用的数据集上对提出的模型进行评估,我们的模型要优于对比方法。
如图1所示,本实施例所述方案具体包括如下步骤:
(1)问题定义
给定一个句子,S={x1,x2,…,xn},目标是获得该句子中所包含的所有情感四元组,即{C1,A1,O1,P1},…,{Cn,An,On,Pn},其中,C表示方面类别,A表示方面词,O表示意见词,P表示方面情感。
需要注意的是,一个句子中通常包含多个方面和意见词。四元组抽取任务不仅要识别四个元素,而且将它们组合成一组有效的四元组,同时考虑隐含的方面/观点。由于隐含的方面/观点不能显式表达为一个词或短语,因此在隐含方面的情况下,我们将A设置为空,并使用范畴C来描述意见词,在隐含的意见的情况下,我们将O设置为空,并使用情感S来描述其语义指向。
(2)树结构约束
为了保留更多的树结构信息,我们提出了基于树结构重构的提示(promptlearning)微调方法。由于标签结构是树的形式,因此我们根据树的结构来构建prompt,为了简单起见,我们将树结构定义为如图2所示(图2中所示评论语句中包含两个情感四元组)。给定输入文本x和预定义的方面情感树,其模板为[CLS]x[SEP][tc1][PRED][tp1][PRED][ta1][PRED][to1][PRED]…[tcM][PRED][ypM][PRED][taM][PRED][toM][PRED]。我们使用特殊的标记[PRED]来进行标签预测。其中M为4*S,S为评论语句中四元组的数量。
其中,模板中的tC1指的是第一个方面类别的标签,后跟的[PRED]指的是标签的预测,以此类推,tP1指的是第一个情感极性标签,tA1指的是第一个方面词标签,to1指的是第一个意见词标签,toM指的是第M个意见词标签。
上文中将意见词O设置为空仅在意见词为隐含表示的情况下有效,上文中已进行了明确说明。所谓的方面或意见隐含指的是评论语句中并没有明确地表明方面词或意见词,例如评论语句Had a party here(这里有个派对)。在这个语句中,方面词和意见词都没有明确地表明,只有方面类别为餐厅,情感极性为积极的。因此在这种情况下,我们才将A和O设置为空。
(3)编码模块
我们使用BERT作为文本编码器,其首先对输入的令牌(tokens)嵌入,以模型图中评论语句为例:
T=[x1,x2,…,xN,tc1,eP,tp1,eP,…,to2,eP]
其中,X=[x1,x2,…,xN]是输入文本的词嵌入向量,eP为特殊预测标签[PRED]的嵌入向量,它被BERT的[MASK]标记初始化,[tc1,eP,tp1,eP,…,to2,eP]是树结构prompt嵌入,prompt嵌入是随机初始化的,它通过训练来学习到相关知识。为了简单清楚地介绍原理,我们在这里省略了[CLS]和[SEP]这两个特殊标记。
然后对T进行编码,以获得其隐藏表示:
其中是第i个eP节点的隐藏表示。
对于标签词预测,我们为每个标签yi创建一个可学习的虚拟标签词vi,并以其对应的tokens的平均嵌入来初始化其嵌入vi。我们不是在一个槽(slot)中预测所有的标签,而是根据树标签的结构将其分为不同的组,并约束[PRED]只预测一个节点上的标签。为此,每个模板词[ti]后面都有一个[PRED]标记,用于对第i个树节点的预测。通过将预测分成不同的slot,模型可以更好地学习不同标签之间的依赖关系。其中,所述标签对应于待预测的方面类别、方面词、意见词以及方面情感;所述slot指的是一次预测标签的槽,如图1所示,其中的BCE Loss下边,我们是针对于每个标签单独的预测,而不是在一个槽中把所有的标签全部预测出来。
因此,对于我们定义其标签词预测Vm为:
其中,N是情感元素的标签集,表示其他。
(4)树结构信息注入
树结构约束只介绍了标签之间的关联性,但缺乏它们的连接性。为了以MLM的方式充分利用树结构,我们进一步将树结构知识注入到模板嵌入中。
我们采用K层堆叠的图注意网络(GAT)来模拟标签结构。给定GAT第k层的一个节点u,信息交互和聚合操作定义如下:
其中,N(u)表示节点u的邻居节点,cu是归一化常数,是可训练参数。
为了更好地利用树节点知识,我们创建了M个虚拟节点t1,t2,...,tM(M为4*S,S为四元组数量),然后将虚拟节点ti与H中第i个节点连接起来。这样,这些虚拟节点就可以通过人为的连接来聚合某个节点的信息。对于第一个GAT层,我们采用节点yi∈Y的虚拟标签词vi作为其节点特征,并将prompt嵌入分配给虚拟节点ti作为其节点特征。
然后将GAT应用于新图,并输出虚拟节点ti的表示该节点已经从第i个节点收集了知识。我们利用残差连接来实现第i个图模板嵌入:
其中嵌入了树结构信息的新t'i被注入到BERT中以替换输入文本中的ti。
(5)损失函数
我们方法的损失函数有两部分,分别为MLM损失和二元交叉熵损失。
(6)MLM损失
我们随机屏蔽文本中15%的单词来计算MLM损失LM。
(7)二元交叉熵损失
我们使用二元交叉熵损失作为分类的损失函数。针对于每一种细粒度情感元素(四种,分别为方面类别、方面情感极性、方面项、意见项),我们使用不同的分类头。我们对其中的每一类ePRED进行二元交叉熵损失计算,若其中的方面项或意见项的单词不止一个,则使用他们的平均值来表示。四种分类头的损失如下:
(8)联合训练
最后,总体损失函数可以表示为:
L=λ1LMLM+λ2LC+λ3LP+λ4LA+λ5LO
其中λ是超参数,用于确定各个任务的贡献度。
实施例二
本实施例的目的是提供一种基于树结构信息感知的方面级情感四元组抽取系统。
一种基于树结构信息感知的方面级情感四元组抽取系统,包括:
情感分析树构建单元,其用于获取待抽取的评论语句,并将所述评论语句按照预定义的树结构模板构建为情感分析树;其中,所述情感分析树由构成评论语句的词嵌入向量以及树结构嵌入表示构成;
嵌入表示单元,其用于对于获得的情感分析树,利用文本编码器获得情感分析树的嵌入表示;
树结构信息注入单元,其用于对于情感分析树中的节点,基于图注意网络对当前节点与其邻居节点之间的信息交互进行聚合表示,并将表示结果注入情感分析树的嵌入表示中,获得新的嵌入表示;
四元组抽取单元,其用于基于新的嵌入表示以及预设的损失函数,通过解码获得待抽取评论语句中的所有情感元素,其中,所述情感元素包括方面类别、方面词、意见词以及方面情感。
进一步的,本实施例所述系统与实施例一中所述方法相对应,其技术细节在实施例一中已经进行了详细描述,故此处不再赘述。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.一种基于树结构信息感知的方面级情感四元组抽取方法,其特征在于,包括:
获取待抽取的评论语句,并将所述评论语句按照预定义的树结构模板构建为情感分析树;其中,所述情感分析树由构成评论语句的词嵌入向量以及树结构嵌入表示构成;
对于获得的情感分析树,利用文本编码器获得情感分析树的嵌入表示;
对于情感分析树中的节点,基于图注意网络对当前节点与其邻居节点之间的信息交互进行聚合表示,并将表示结果注入情感分析树的嵌入表示中,获得新的嵌入表示;
基于新的嵌入表示以及预设的损失函数,通过解码获得待抽取评论语句中的所有情感元素,其中,所述情感元素包括方面类别、方面词、意见词以及方面情感。
2.如权利要求1所述的一种基于树结构信息感知的方面级情感四元组抽取方法,其特征在于,所述基于图注意网络对当前节点与其邻居节点之间的信息交互进行聚合表示,具体表示为:
其中,v表示节点u邻居节点集合中的一个节点,表示在第k层节点v的图注意表示,k表示图注意网络的第k层,N(u)表示节点u的邻居节点,cu是归一化常数,/>是可训练参数。
3.如权利要求1所述的一种基于树结构信息感知的方面级情感四元组抽取方法,其特征在于,所述情感分析树的模板中,每个模板词后均设置有用于对树节点进行预测的预设标记。
4.如权利要求3所述的一种基于树结构信息感知的方面级情感四元组抽取方法,其特征在于,通过预设标记划分不同位置的预测,实现对不同标签之间依赖关系的学习。
5.如权利要求1所述的一种基于树结构信息感知的方面级情感四元组抽取方法,其特征在于,为了有效利用树节点知识,通过创建若干虚拟节点,将虚拟节点与情感分析树嵌入表示中对应节点进行连接,获得情感分析树嵌入表示中节点新的嵌入表示。
6.如权利要求1所述的一种基于树结构信息感知的方面级情感四元组抽取方法,其特征在于,所述文本编码器采用BERT模型。
7.如权利要求1所述的一种基于树结构信息感知的方面级情感四元组抽取方法,其特征在于,所述预设的损失函数,包括掩码语言模型损失和二元交叉熵损失函数,其中,二元交叉熵损失函数基于方面类别、方面词、意见词以及方面情感进行分别设置。
8.一种基于树结构信息感知的方面级情感四元组抽取系统,其特征在于,包括:
情感分析树构建单元,其用于获取待抽取的评论语句,并将所述评论语句按照预定义的树结构模板构建为情感分析树;其中,所述情感分析树由构成评论语句的词嵌入向量以及树结构嵌入表示构成;
嵌入表示单元,其用于对于获得的情感分析树,利用文本编码器获得情感分析树的嵌入表示;
树结构信息注入单元,其用于对于情感分析树中的节点,基于图注意网络对当前节点与其邻居节点之间的信息交互进行聚合表示,并将表示结果注入情感分析树的嵌入表示中,获得新的嵌入表示;
四元组抽取单元,其用于基于新的嵌入表示以及预设的损失函数,通过解码获得待抽取评论语句中的所有情感元素,其中,所述情感元素包括方面类别、方面词、意见词以及方面情感。
9.一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种基于树结构信息感知的方面级情感四元组抽取方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的一种基于树结构信息感知的方面级情感四元组抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311257506.6A CN117312559A (zh) | 2023-09-26 | 2023-09-26 | 基于树结构信息感知的方面级情感四元组抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311257506.6A CN117312559A (zh) | 2023-09-26 | 2023-09-26 | 基于树结构信息感知的方面级情感四元组抽取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117312559A true CN117312559A (zh) | 2023-12-29 |
Family
ID=89287875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311257506.6A Pending CN117312559A (zh) | 2023-09-26 | 2023-09-26 | 基于树结构信息感知的方面级情感四元组抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117312559A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117592514A (zh) * | 2024-01-19 | 2024-02-23 | 中国传媒大学 | 评论文本观点预测方法、系统及设备和存储介质 |
-
2023
- 2023-09-26 CN CN202311257506.6A patent/CN117312559A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117592514A (zh) * | 2024-01-19 | 2024-02-23 | 中国传媒大学 | 评论文本观点预测方法、系统及设备和存储介质 |
CN117592514B (zh) * | 2024-01-19 | 2024-03-26 | 中国传媒大学 | 评论文本观点预测方法、系统及设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108416058A (zh) | 一种基于Bi-LSTM输入信息增强的关系抽取方法 | |
Xue et al. | A better way to attend: Attention with trees for video question answering | |
CN113535953B (zh) | 一种基于元学习的少样本分类方法 | |
CN113553850A (zh) | 一种基于有序结构编码指针网络解码的实体关系抽取方法 | |
CN117312559A (zh) | 基于树结构信息感知的方面级情感四元组抽取方法及系统 | |
Teng et al. | Bidirectional tree-structured lstm with head lexicalization | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN116069931A (zh) | 层级标签文本分类方法、系统、设备及存储介质 | |
CN114490954B (zh) | 一种基于任务调节的文档级生成式事件抽取方法 | |
CN116432611A (zh) | 文稿写作辅助方法、系统、终端及存储介质 | |
Xiao et al. | Introduction to Transformers: an NLP Perspective | |
CN112016299B (zh) | 计算机执行、利用神经网络生成依存句法树的方法及装置 | |
CN117349311A (zh) | 一种基于改进RetNet的数据库自然语言查询方法 | |
CN115879450B (zh) | 一种逐步文本生成方法、系统、计算机设备及存储介质 | |
CN116796288A (zh) | 一种面向工业文档的多模态信息提炼方法和系统 | |
Sekiyama et al. | Automated proof synthesis for the minimal propositional logic with deep neural networks | |
CN116362242A (zh) | 一种小样本槽值提取方法、装置、设备及存储介质 | |
CN112131879A (zh) | 一种关系抽取系统、方法和装置 | |
CN115203388A (zh) | 机器阅读理解方法、装置、计算机设备和存储介质 | |
CN115114930A (zh) | 一种基于序列到森林的非连续实体识别方法 | |
CN114297408A (zh) | 一种基于级联二进制标注框架的关系三元组抽取方法 | |
CN113392929A (zh) | 一种基于词嵌入与自编码器融合的生物序列特征提取方法 | |
CN113239703B (zh) | 基于多元因素融合的深层逻辑推理金融文本分析方法及系统 | |
CN114238579B (zh) | 文本分析方法、装置、介质和计算设备 | |
CN116882398B (zh) | 基于短语交互的隐式篇章关系识别方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |