CN116415592A - 一种方面情感三元组抽取方法 - Google Patents

一种方面情感三元组抽取方法 Download PDF

Info

Publication number
CN116415592A
CN116415592A CN202310033114.5A CN202310033114A CN116415592A CN 116415592 A CN116415592 A CN 116415592A CN 202310033114 A CN202310033114 A CN 202310033114A CN 116415592 A CN116415592 A CN 116415592A
Authority
CN
China
Prior art keywords
emotion
span
item
word
fragments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310033114.5A
Other languages
English (en)
Inventor
魏巍
梁硕
毛先领
付园园
陈当阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202310033114.5A priority Critical patent/CN116415592A/zh
Publication of CN116415592A publication Critical patent/CN116415592A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种方面情感三元组抽取方法,该方法包括以下步骤:1)对现有文本中的每一跨度进行标注;1.1)定义三种角色维度:方面项、观点项和情感片段;所述情感片段为包含一个匹配的(方面,观点)对,且共享其边界的文本片段;1.2)基于上述三种角色维度对文本中的每一跨度进行标注;2)将文本序列输入情感三元组抽取模型,进行方面情感三元组抽取;所述情感三元组抽取模型包括:编码层,用于建模跨度信息生成跨度表征;分类器,用于基于上述跨度表征预测出相应的标注结果;推理层,用于依据标注结果得到对应的方面情感三元组。本发明方法能够突破现有基于词级别标注方法的局限性,有效提高方面情感三元组抽取的性能。

Description

一种方面情感三元组抽取方法
技术领域
本发明涉及自然语言处理技术,尤其涉及一种方面情感三元组抽取方法。
背景技术
方面情感三元组提取(ASTE)已经成为情感分析研究中的一项新兴任务,旨在从一个给定的句子中提取方面项、其相应的观点项及其对应的情感极性的三元组。最近,许多基于神经网络的模型和不同的标记方案被提出,但现有的常见模型都有其局限性:1)严重依赖每个词只与一个角色(如方面项,或观点项等)相关联的先验假设;2)词级别(word-level)交互,将每个观点/方面视为一组独立的词。因此,它们在复杂的ASTE任务(如一个词与多个角色相关或者一个方面/观点术语与多个词相关)中表现不佳。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种方面情感三元组抽取方法。
本发明解决其技术问题所采用的技术方案是:一种方面情感三元组抽取方法,包括以下步骤:
1)对现有文本中的每一跨度进行标注;
1.1)定义三种角色维度:方面项、观点项和情感片段;所述情感片段为包含一个匹配的(方面,观点)对,且共享其边界的文本片段;共享边界为匹配的(方面,观点)对中的方面项与情感片段有相同的开始坐标,观点项与情感片段具有相同的结束坐标(对应于方面-观点匹配情况),或观点项与情感片段有相同的开始坐标,方面项与情感片段具有相同的结束坐标(对应于观点-方面匹配情况);
1.2)基于上述三种角色维度对文本中的每一跨度进行标注;使用的标注策略为:三种角色维度相互独立进行标注、方面项和观点项角色维度映射为同一维度进行标注或三种角色维度映射到同一维度进行标注;
步骤1.2)的标注过程可视为对大小为|n|×|n|的表T的上三角部分进行标注,其中,n是输入文本的长度,T[i][j]对应于开始坐标为i,结束坐标为j的子序列,记为跨度SPi,j
2)将文本序列输入情感三元组抽取模型,进行方面情感三元组抽取;
所述情感三元组抽取模型包括:
编码层,用于建模跨度信息生成跨度表征;所述编码层包括一个生成词表征的编码器及跨度表征生成器;
分类器,用于基于上述跨度表征预测出相应的标注结果;所述分类器训练基于步骤1)获得的标注结果;
推理层,用于依据标注结果得到对应的方面情感三元组。
按上述方案,所述步骤2)中编码层利用BERT编码器得到每个词的词表征,并通过向量拼接的方式,由边界信息和跨度中所有词信息得到跨度表征spi,j
Figure BDA0004047673710000031
Figure BDA0004047673710000032
Figure BDA0004047673710000033
其中,wi表示文本序列字符串;BertT(wi)返回BERT序列中词wi的子词坐标集合;||返回集合长度;Wfc和bfc为全连接层参数,该全连接层用于将BERT词表征映射到低维;
Figure BDA0004047673710000034
表示向量拼接。
按上述方案,所述步骤2)中分类器为将跨度表征送入带softmax激活函数的全相连层,生成词角色标签的概率分布如下:
p(spi,j)=softmax(Wrspi,j+br), (4)
其中,wr,br为分类器参数;
分类器训练的损失被定义为真实标签与预测标签之间的交叉熵损失,损失函数如下:
Figure BDA0004047673710000041
其中,yi,j表示真实标签。
按上述方案,所述步骤2)中推理层依据标注结果得到对应的方面情感三元组,采用的方法如下:
通过考虑跨度信息之间的相互约束,从所有候选情感片段中检索出最大长度的方面及观点作为匹配项,对匹配项抽取方面情感三元组;具体如下:
2.1)根据标注结果获得所有的方面项、观点项和情感片段;
2.2)对当前情感片段,获取其内部以开始边界为开始的方面项集合,获取其内部以结束边界为结束的观点项集合,当两个集合中的方面项和观点项同时存在时,从两个集合中分别选取长度最长的方面项和观点项,作为方面-观点匹配,并与该情感片段中的情感组成一个候选情感三元组;
2.3)对当前情感片段,获取其内部以开始边界为开始的观点项集合,获取其内部以结束边界为结束的方面项集合,当两个集合中的方面项和观点项同时存在时,从两个集合中分别选取长度最长的方面项和观点项,作为观点-方面匹配,并与该情感片段中的情感组成一个候选情感三元组;
2.4)重复步骤2.2)和步骤2.3),遍历所有的情感片段,获取步骤2.2)和步骤2.3)的所有候选三元组,作为最终的抽取结果。
按上述方案,所述步骤2.3)中当方面项集合中包含多个方面项,且其中整个情感片段也可作为方面项,则选取长度最长的方面项,选取的是除了情感片段以外具有最大长度的方面项;否则,选取情感片段。
本发明产生的有益效果是:
1、本发明基于自定义的三种角色维度对文本中的每一跨度进行标注,从而使得方法能够突破现有基于词级别标注方法的局限性,同时能够支持端到端一次性地抽取对应的方面项、观点项及其对应的匹配,可有效提高方面情感三元组抽取的性能;
2、本发明通过考虑跨度信息之间的相互约束,从情感片段中检索出最大长度的方面及观点作为匹配项,相较于传统方法可大幅降低复杂度,同时能在约束条件的指导下提高三元组抽取的准确性。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的方法流程图;
图2是本发明实施例的模型结构图;
图3是本发明实施例的推理层工作流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,一种方面情感三元组抽取方法,包括以下步骤:
1)对现有文本中的每一跨度进行标注;
1.1)定义三种角色维度:方面项、观点项和情感片段;所述情感片段为包含一个匹配的方面-观点对,且共享其边界的文本片段;
共享边界为匹配的(方面,观点)对中的方面项与情感片段有相同的开始坐标,观点项与情感片段具有相同的结束坐标(对应于方面-观点匹配情况),或观点项与情感片段有相同的开始坐标,方面项与情感片段具有相同的结束坐标(对应于观点-方面匹配情况);
1.2)基于上述三种角色维度对文本中的每一跨度进行标注;使用的标注策略为:三种角色维度相互独立进行标注、方面项和观点项角色维度映射为同一维度进行标注或三种角色维度映射到同一维度进行标注;
考虑角色的多样性,基于上述三种角色维度对每一跨度进行标注,具体含义如下:
A:一个方面项;
O:一个观点项;
NEG:一个包含负向情感极性的方面-观点对的情感片段;
NEU:一个包含中立情感极性的方面-观点对的情感片段;
POS:一个包含正向情感极性的方面-观点对的情感片段;
N:不属于该角色维度;
拟考虑三种标注策略:3D版本和其两种变种(2D-版本和1D-版本),具体细节如下表所示:
Figure BDA0004047673710000071
标注过程可视为对大小为|n|×|n|的表T的上三角部分进行标注,其中n是输入文本的长度,T[i][j]对应于开始坐标为i,结束坐标为j的子序列,记为跨度SPi,j。对于3D版本标注策略而言,可以处理跨度同时作为方面项和观点项的情况,而对于2D版本标注策略,由于方面和观点角色映射为同一维度,所以无法处理上述情况,而1D版本所受限制更多,无法处理多角色情况。但上述三种标注策略都能天然利用跨度信息,并能支持端到端的模型训练与推理,仍有其优越性。
2)将文本序列输入情感三元组抽取模型,进行方面情感三元组抽取;如图2所示,情感三元组抽取模型包括:
编码层,用于建模跨度信息生成跨度表征;所述编码层包括一个生成词表征的编码器及跨度表征生成器;
编码层利用BERT编码器得到每个词的词表征,并通过向量拼接的方式,由边界信息和跨度中所有词信息得到跨度表征spi,j
Figure BDA0004047673710000081
Figure BDA0004047673710000082
Figure BDA0004047673710000083
其中,wi表示文本序列字符串;BertT(wi)返回BERT序列中词wi的子词坐标集合;||返回集合长度;Wfc和bfc为全连接层参数,该全连接层用于将BERT词表征映射到低维;
Figure BDA0004047673710000084
表示向量拼接。
分类器,用于基于上述跨度表征预测出相应的标注结果;所述分类器训练基于步骤1)获得的标注结果;
分类器为将跨度表征送入带softmax激活函数的全相连层,生成词角色标签的概率分布如下:
p(spi,j)=softmax(Wrspi,j+br),(4)
其中,wr,br为分类器参数;
分类器训练的损失被定义为真实标签与预测标签之间的交叉熵损失,损失函数如下:
Figure BDA0004047673710000091
其中,yi,j表示真实标签。
推理层,用于依据标注结果得到对应的方面情感感知三元组;
如图3所示,推理层依据标注结果得到对应的方面情感感知三元组,采用的方法如下:
通过考虑跨度信息之间的相互约束,从候选情感片段中检索出最大长度的方面及观点作为匹配项,对匹配项抽取方面情感三元组;
考虑跨度信息之间的相互约束指的是,对于情感片段而言,其标签正确且其内部应该包含对应的方面项和情感项的匹配;对于方面项和情感项而言,其标签和边界正确,同时也需要在构成一个合法的情感片段。
具体如下:
2.1)根据标注结果获得所有的方面项、观点项和情感片段;
2.2)对当前情感片段,获取其内部以开始边界为开始的方面项集合,获取其内部以结束边界为结束的观点项集合,当两个集合中的方面项和观点项同时存在时,从两个集合中分别选取长度最长的方面项和观点项,作为方面-观点匹配,并与该情感片段中的情感组成一个候选情感三元组;
2.3)对当前情感片段,获取其内部以开始边界为开始的观点项集合,获取其内部以结束边界为结束的方面项集合,当两个集合中的方面项和观点项同时存在时,从两个集合中分别选取长度最长的方面项和观点项,作为观点-方面匹配,并与该情感片段中的情感组成一个候选情感三元组;
2.4)遍历所有情感片段,获得长度最长的候选情感三元组,作为最终抽取结果。
步骤2.3)中当方面项集合中包含多个方面项,且其中整个情感片段也可以作为方面项,那么选取的时候,选的是除了情感片段以外具有最大长度的那个(这时候情感片段不作为方面项考虑);相反,如果方面项集合中仅仅包含当前情感片段这一个元素,那么就选情感片段(这时候情感片段作为方面项考虑)。步骤2.2)中观点项集合亦同。
对标注的方面和观点进行两两配对判断是否为合法的三元组,本发明提出的方法利用双向的跨度级别约束信息(即,情感片段不仅需要有正确的情感标签,且应该包含合法的、共享其边界的、能成功配对的方面/观点项;而方面/观点项不仅需要其自身角色标签分类正确,且其它们对应的边界应能构成一个合法的情感片段),使得抽取结果更为准确,同时上述贪婪策略也使得推理操作的复杂度从O(n4)下降到O(n2),因此本发明提出的推理方法兼具准确性与效率。
经实验表明,相比已有主流方法,本发明的方面情感三元组抽取方法取得了更好的效果。实验采用四个基准序列标注数据集进行评估,即ASTE-Data-V2中的14lap,14res,15res和16res,数据集的详细信息如表1所示。
表1数据集统计信息
Figure BDA0004047673710000111
实验部分旨在评估本发明所提出的方面情感三元组抽取模型在不同数据集上的有效性。具体来说,我们列出了模型对比的精确率P,召回率R,和标准F1分数,实验对比结果分别在表2和表3中给出。
表2 14lap和14res数据集上模型实验结果
Figure BDA0004047673710000121
表3 15res和16res数据集上模型实验结果
Figure BDA0004047673710000131
值得注意的是,从表2和表3中可以观察到,本发明提出的方法(STAGE-1D/2D/3D)在不同的数据集上始终优于基准模型。因为这些模型大多无法有效利用跨度信息,且强依赖于“单一词角色、单一词对关系”的先验假设,因此存在较大的局限性。本发明通过将方面情感三元组抽取问题建模为多类别跨度分类问题,提出的方法能够天然利用跨度信息,建模词的多角色性以及词对的多关系性,从而提供一种更具泛化性的三元组抽取方法。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (5)

1.一种方面情感三元组抽取方法,其特征在于,包括以下步骤:
1)对现有文本中的每一跨度进行标注;
1.1)定义三种角色维度:方面项、观点项和情感片段;所述情感片段为包含一个匹配的(方面,观点)对,且共享其边界的文本片段;
1.2)基于上述三种角色维度对文本中的每一跨度进行标注;使用的标注策略为:三种角色维度相互独立进行标注、方面项和观点项角色维度映射为同一维度进行标注或三种角色维度映射到同一维度进行标注;
2)将文本序列输入情感三元组抽取模型,进行方面情感三元组抽取;所述情感三元组抽取模型包括:
编码层,用于建模跨度信息生成跨度表征;所述编码层包括一个生成词表征的编码器及跨度表征生成器;
分类器,用于基于上述跨度表征预测出相应的标注结果;所述分类器训练基于步骤1)获得的标注结果;
推理层,用于依据标注结果得到对应的方面情感三元组。
2.根据权利要求1所述的方面情感三元组抽取方法,其特征在于,所述步骤2)中编码层利用BERT编码器得到每个词的词表征,并通过向量拼接的方式,由边界信息和跨度中所有词信息得到跨度表征spi,j
Figure FDA0004047673700000021
Figure FDA0004047673700000022
Figure FDA0004047673700000023
其中,wi表示文本序列字符串;BertT(wi)返回BERT序列中词wi的子词坐标集合;||返回集合长度;Wfc和bfc为全连接层参数,该全连接层用于将BERT词表征映射到低维;⊕表示向量拼接。
3.根据权利要求1所述的方面情感三元组抽取方法,其特征在于所述步骤2)中分类器为将跨度表征送入带softmax激活函数的全相连层,生成词角色标签的概率分布如下:
p(spi,j)=softmax(Wrspi,j+br),(4)
其中,wr,br为分类器参数;
分类器训练的损失被定义为真实标签与预测标签之间的交叉熵损失,损失函数如下:
Figure FDA0004047673700000024
其中,yi,j表示真实标签。
4.根据权利要求1所述的方面情感三元组抽取方法,其特征在于所述步骤2)中推理层依据标注结果得到对应的方面情感三元组,采用的方法如下:
通过考虑跨度信息之间的相互约束,从候选情感片段中检索出最大长度的方面及观点作为匹配项,对匹配项抽取方面情感三元组;具体如下:
2.1)根据标注结果获得所有的方面项、观点项和情感片段;
2.2)对当前情感片段,获取其内部以开始边界为开始的方面项集合,获取其内部以结束边界为结束的观点项集合,当两个集合中的方面项和观点项同时存在时,从两个集合中分别选取长度最长的方面项和观点项,作为方面-观点匹配,并与该情感片段中的情感组成一个候选情感三元组;
2.3)对当前情感片段,获取其内部以开始边界为开始的观点项集合,获取其内部以结束边界为结束的方面项集合,当两个集合中的方面项和观点项同时存在时,从两个集合中分别选取长度最长的方面项和观点项,作为观点-方面匹配,并与该情感片段中的情感组成一个候选情感三元组;
2.4)重复步骤2.2)和步骤2.3),遍历所有的情感片段,获取步骤2.2)和步骤2.3)的所有候选三元组,作为最终的抽取结果。
5.根据权利要求4所述的方面情感三元组抽取方法,其特征在于所述步骤2.3)中当方面项集合中包含多个方面项,且其中整个情感片段也可作为方面项,则选取长度最长的方面项,选取的是除了情感片段以外具有最大长度的方面项;否则,选取情感片段。
CN202310033114.5A 2023-01-10 2023-01-10 一种方面情感三元组抽取方法 Pending CN116415592A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310033114.5A CN116415592A (zh) 2023-01-10 2023-01-10 一种方面情感三元组抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310033114.5A CN116415592A (zh) 2023-01-10 2023-01-10 一种方面情感三元组抽取方法

Publications (1)

Publication Number Publication Date
CN116415592A true CN116415592A (zh) 2023-07-11

Family

ID=87057187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310033114.5A Pending CN116415592A (zh) 2023-01-10 2023-01-10 一种方面情感三元组抽取方法

Country Status (1)

Country Link
CN (1) CN116415592A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117171610A (zh) * 2023-08-03 2023-12-05 江南大学 一种基于知识增强的方面情感三元组提取方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117171610A (zh) * 2023-08-03 2023-12-05 江南大学 一种基于知识增强的方面情感三元组提取方法及系统
CN117171610B (zh) * 2023-08-03 2024-05-03 江南大学 一种基于知识增强的方面情感三元组提取方法及系统

Similar Documents

Publication Publication Date Title
Shen et al. Zero-shot sketch-image hashing
Xu et al. Deep learning for molecular generation
CN110046656B (zh) 基于深度学习的多模态场景识别方法
US11062179B2 (en) Method and device for generative adversarial network training
CN106156004B (zh) 基于词向量的针对电影评论信息的情感分析系统及方法
Shi et al. Deep adaptively-enhanced hashing with discriminative similarity guidance for unsupervised cross-modal retrieval
CN110533024B (zh) 基于多尺度roi特征的双二次池化细粒度图像分类方法
CN109858015B (zh) 一种基于ctw和km算法的语义相似度计算方法及装置
CN112732864B (zh) 一种基于稠密伪查询向量表示的文档检索方法
CN111222318B (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN107818084A (zh) 一种融合点评配图的情感分析方法
CN110390017A (zh) 基于注意力门控卷积网络的目标情感分析方法及系统
CN114564593A (zh) 多模态知识图谱的补全方法、装置和电子设备
Wang et al. Sketchknitter: Vectorized sketch generation with diffusion models
Potrus et al. An evolutionary harmony search algorithm with dominant point detection for recognition-based segmentation of online Arabic text recognition
CN116415592A (zh) 一种方面情感三元组抽取方法
CN107452374A (zh) 基于单向自标注辅助信息的多视角语言识别方法
CN110598022A (zh) 一种基于鲁棒深度哈希网络的图像检索系统与方法
Wu et al. WTMED at MEDIQA 2019: A hybrid approach to biomedical natural language inference
CN112256727A (zh) 基于人工智能技术的数据库查询处理及优化方法
CN114065769B (zh) 情感原因对抽取模型的训练方法、装置、设备及介质
CN108805280A (zh) 一种图像检索的方法和装置
CN111737467B (zh) 一种基于分段卷积神经网络的对象级情感分类方法
CN111259176B (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法
CN111552817A (zh) 一种电力科技成果知识图谱补全方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination