CN116415592A - 一种方面情感三元组抽取方法 - Google Patents
一种方面情感三元组抽取方法 Download PDFInfo
- Publication number
- CN116415592A CN116415592A CN202310033114.5A CN202310033114A CN116415592A CN 116415592 A CN116415592 A CN 116415592A CN 202310033114 A CN202310033114 A CN 202310033114A CN 116415592 A CN116415592 A CN 116415592A
- Authority
- CN
- China
- Prior art keywords
- emotion
- span
- item
- word
- fragments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 107
- 238000000605 extraction Methods 0.000 title claims abstract description 28
- 239000012634 fragment Substances 0.000 claims abstract description 53
- 238000002372 labelling Methods 0.000 claims abstract description 39
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000012512 characterization method Methods 0.000 claims abstract description 12
- 238000013507 mapping Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种方面情感三元组抽取方法,该方法包括以下步骤:1)对现有文本中的每一跨度进行标注;1.1)定义三种角色维度:方面项、观点项和情感片段;所述情感片段为包含一个匹配的(方面,观点)对,且共享其边界的文本片段;1.2)基于上述三种角色维度对文本中的每一跨度进行标注;2)将文本序列输入情感三元组抽取模型,进行方面情感三元组抽取;所述情感三元组抽取模型包括:编码层,用于建模跨度信息生成跨度表征;分类器,用于基于上述跨度表征预测出相应的标注结果;推理层,用于依据标注结果得到对应的方面情感三元组。本发明方法能够突破现有基于词级别标注方法的局限性,有效提高方面情感三元组抽取的性能。
Description
技术领域
本发明涉及自然语言处理技术,尤其涉及一种方面情感三元组抽取方法。
背景技术
方面情感三元组提取(ASTE)已经成为情感分析研究中的一项新兴任务,旨在从一个给定的句子中提取方面项、其相应的观点项及其对应的情感极性的三元组。最近,许多基于神经网络的模型和不同的标记方案被提出,但现有的常见模型都有其局限性:1)严重依赖每个词只与一个角色(如方面项,或观点项等)相关联的先验假设;2)词级别(word-level)交互,将每个观点/方面视为一组独立的词。因此,它们在复杂的ASTE任务(如一个词与多个角色相关或者一个方面/观点术语与多个词相关)中表现不佳。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种方面情感三元组抽取方法。
本发明解决其技术问题所采用的技术方案是:一种方面情感三元组抽取方法,包括以下步骤:
1)对现有文本中的每一跨度进行标注;
1.1)定义三种角色维度:方面项、观点项和情感片段;所述情感片段为包含一个匹配的(方面,观点)对,且共享其边界的文本片段;共享边界为匹配的(方面,观点)对中的方面项与情感片段有相同的开始坐标,观点项与情感片段具有相同的结束坐标(对应于方面-观点匹配情况),或观点项与情感片段有相同的开始坐标,方面项与情感片段具有相同的结束坐标(对应于观点-方面匹配情况);
1.2)基于上述三种角色维度对文本中的每一跨度进行标注;使用的标注策略为:三种角色维度相互独立进行标注、方面项和观点项角色维度映射为同一维度进行标注或三种角色维度映射到同一维度进行标注;
步骤1.2)的标注过程可视为对大小为|n|×|n|的表T的上三角部分进行标注,其中,n是输入文本的长度,T[i][j]对应于开始坐标为i,结束坐标为j的子序列,记为跨度SPi,j;
2)将文本序列输入情感三元组抽取模型,进行方面情感三元组抽取;
所述情感三元组抽取模型包括:
编码层,用于建模跨度信息生成跨度表征;所述编码层包括一个生成词表征的编码器及跨度表征生成器;
分类器,用于基于上述跨度表征预测出相应的标注结果;所述分类器训练基于步骤1)获得的标注结果;
推理层,用于依据标注结果得到对应的方面情感三元组。
按上述方案,所述步骤2)中编码层利用BERT编码器得到每个词的词表征,并通过向量拼接的方式,由边界信息和跨度中所有词信息得到跨度表征spi,j:
按上述方案,所述步骤2)中分类器为将跨度表征送入带softmax激活函数的全相连层,生成词角色标签的概率分布如下:
p(spi,j)=softmax(Wrspi,j+br), (4)
其中,wr,br为分类器参数;
分类器训练的损失被定义为真实标签与预测标签之间的交叉熵损失,损失函数如下:
其中,yi,j表示真实标签。
按上述方案,所述步骤2)中推理层依据标注结果得到对应的方面情感三元组,采用的方法如下:
通过考虑跨度信息之间的相互约束,从所有候选情感片段中检索出最大长度的方面及观点作为匹配项,对匹配项抽取方面情感三元组;具体如下:
2.1)根据标注结果获得所有的方面项、观点项和情感片段;
2.2)对当前情感片段,获取其内部以开始边界为开始的方面项集合,获取其内部以结束边界为结束的观点项集合,当两个集合中的方面项和观点项同时存在时,从两个集合中分别选取长度最长的方面项和观点项,作为方面-观点匹配,并与该情感片段中的情感组成一个候选情感三元组;
2.3)对当前情感片段,获取其内部以开始边界为开始的观点项集合,获取其内部以结束边界为结束的方面项集合,当两个集合中的方面项和观点项同时存在时,从两个集合中分别选取长度最长的方面项和观点项,作为观点-方面匹配,并与该情感片段中的情感组成一个候选情感三元组;
2.4)重复步骤2.2)和步骤2.3),遍历所有的情感片段,获取步骤2.2)和步骤2.3)的所有候选三元组,作为最终的抽取结果。
按上述方案,所述步骤2.3)中当方面项集合中包含多个方面项,且其中整个情感片段也可作为方面项,则选取长度最长的方面项,选取的是除了情感片段以外具有最大长度的方面项;否则,选取情感片段。
本发明产生的有益效果是:
1、本发明基于自定义的三种角色维度对文本中的每一跨度进行标注,从而使得方法能够突破现有基于词级别标注方法的局限性,同时能够支持端到端一次性地抽取对应的方面项、观点项及其对应的匹配,可有效提高方面情感三元组抽取的性能;
2、本发明通过考虑跨度信息之间的相互约束,从情感片段中检索出最大长度的方面及观点作为匹配项,相较于传统方法可大幅降低复杂度,同时能在约束条件的指导下提高三元组抽取的准确性。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的方法流程图;
图2是本发明实施例的模型结构图;
图3是本发明实施例的推理层工作流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,一种方面情感三元组抽取方法,包括以下步骤:
1)对现有文本中的每一跨度进行标注;
1.1)定义三种角色维度:方面项、观点项和情感片段;所述情感片段为包含一个匹配的方面-观点对,且共享其边界的文本片段;
共享边界为匹配的(方面,观点)对中的方面项与情感片段有相同的开始坐标,观点项与情感片段具有相同的结束坐标(对应于方面-观点匹配情况),或观点项与情感片段有相同的开始坐标,方面项与情感片段具有相同的结束坐标(对应于观点-方面匹配情况);
1.2)基于上述三种角色维度对文本中的每一跨度进行标注;使用的标注策略为:三种角色维度相互独立进行标注、方面项和观点项角色维度映射为同一维度进行标注或三种角色维度映射到同一维度进行标注;
考虑角色的多样性,基于上述三种角色维度对每一跨度进行标注,具体含义如下:
A:一个方面项;
O:一个观点项;
NEG:一个包含负向情感极性的方面-观点对的情感片段;
NEU:一个包含中立情感极性的方面-观点对的情感片段;
POS:一个包含正向情感极性的方面-观点对的情感片段;
N:不属于该角色维度;
拟考虑三种标注策略:3D版本和其两种变种(2D-版本和1D-版本),具体细节如下表所示:
标注过程可视为对大小为|n|×|n|的表T的上三角部分进行标注,其中n是输入文本的长度,T[i][j]对应于开始坐标为i,结束坐标为j的子序列,记为跨度SPi,j。对于3D版本标注策略而言,可以处理跨度同时作为方面项和观点项的情况,而对于2D版本标注策略,由于方面和观点角色映射为同一维度,所以无法处理上述情况,而1D版本所受限制更多,无法处理多角色情况。但上述三种标注策略都能天然利用跨度信息,并能支持端到端的模型训练与推理,仍有其优越性。
2)将文本序列输入情感三元组抽取模型,进行方面情感三元组抽取;如图2所示,情感三元组抽取模型包括:
编码层,用于建模跨度信息生成跨度表征;所述编码层包括一个生成词表征的编码器及跨度表征生成器;
编码层利用BERT编码器得到每个词的词表征,并通过向量拼接的方式,由边界信息和跨度中所有词信息得到跨度表征spi,j:
分类器,用于基于上述跨度表征预测出相应的标注结果;所述分类器训练基于步骤1)获得的标注结果;
分类器为将跨度表征送入带softmax激活函数的全相连层,生成词角色标签的概率分布如下:
p(spi,j)=softmax(Wrspi,j+br),(4)
其中,wr,br为分类器参数;
分类器训练的损失被定义为真实标签与预测标签之间的交叉熵损失,损失函数如下:
其中,yi,j表示真实标签。
推理层,用于依据标注结果得到对应的方面情感感知三元组;
如图3所示,推理层依据标注结果得到对应的方面情感感知三元组,采用的方法如下:
通过考虑跨度信息之间的相互约束,从候选情感片段中检索出最大长度的方面及观点作为匹配项,对匹配项抽取方面情感三元组;
考虑跨度信息之间的相互约束指的是,对于情感片段而言,其标签正确且其内部应该包含对应的方面项和情感项的匹配;对于方面项和情感项而言,其标签和边界正确,同时也需要在构成一个合法的情感片段。
具体如下:
2.1)根据标注结果获得所有的方面项、观点项和情感片段;
2.2)对当前情感片段,获取其内部以开始边界为开始的方面项集合,获取其内部以结束边界为结束的观点项集合,当两个集合中的方面项和观点项同时存在时,从两个集合中分别选取长度最长的方面项和观点项,作为方面-观点匹配,并与该情感片段中的情感组成一个候选情感三元组;
2.3)对当前情感片段,获取其内部以开始边界为开始的观点项集合,获取其内部以结束边界为结束的方面项集合,当两个集合中的方面项和观点项同时存在时,从两个集合中分别选取长度最长的方面项和观点项,作为观点-方面匹配,并与该情感片段中的情感组成一个候选情感三元组;
2.4)遍历所有情感片段,获得长度最长的候选情感三元组,作为最终抽取结果。
步骤2.3)中当方面项集合中包含多个方面项,且其中整个情感片段也可以作为方面项,那么选取的时候,选的是除了情感片段以外具有最大长度的那个(这时候情感片段不作为方面项考虑);相反,如果方面项集合中仅仅包含当前情感片段这一个元素,那么就选情感片段(这时候情感片段作为方面项考虑)。步骤2.2)中观点项集合亦同。
对标注的方面和观点进行两两配对判断是否为合法的三元组,本发明提出的方法利用双向的跨度级别约束信息(即,情感片段不仅需要有正确的情感标签,且应该包含合法的、共享其边界的、能成功配对的方面/观点项;而方面/观点项不仅需要其自身角色标签分类正确,且其它们对应的边界应能构成一个合法的情感片段),使得抽取结果更为准确,同时上述贪婪策略也使得推理操作的复杂度从O(n4)下降到O(n2),因此本发明提出的推理方法兼具准确性与效率。
经实验表明,相比已有主流方法,本发明的方面情感三元组抽取方法取得了更好的效果。实验采用四个基准序列标注数据集进行评估,即ASTE-Data-V2中的14lap,14res,15res和16res,数据集的详细信息如表1所示。
表1数据集统计信息
实验部分旨在评估本发明所提出的方面情感三元组抽取模型在不同数据集上的有效性。具体来说,我们列出了模型对比的精确率P,召回率R,和标准F1分数,实验对比结果分别在表2和表3中给出。
表2 14lap和14res数据集上模型实验结果
表3 15res和16res数据集上模型实验结果
值得注意的是,从表2和表3中可以观察到,本发明提出的方法(STAGE-1D/2D/3D)在不同的数据集上始终优于基准模型。因为这些模型大多无法有效利用跨度信息,且强依赖于“单一词角色、单一词对关系”的先验假设,因此存在较大的局限性。本发明通过将方面情感三元组抽取问题建模为多类别跨度分类问题,提出的方法能够天然利用跨度信息,建模词的多角色性以及词对的多关系性,从而提供一种更具泛化性的三元组抽取方法。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (5)
1.一种方面情感三元组抽取方法,其特征在于,包括以下步骤:
1)对现有文本中的每一跨度进行标注;
1.1)定义三种角色维度:方面项、观点项和情感片段;所述情感片段为包含一个匹配的(方面,观点)对,且共享其边界的文本片段;
1.2)基于上述三种角色维度对文本中的每一跨度进行标注;使用的标注策略为:三种角色维度相互独立进行标注、方面项和观点项角色维度映射为同一维度进行标注或三种角色维度映射到同一维度进行标注;
2)将文本序列输入情感三元组抽取模型,进行方面情感三元组抽取;所述情感三元组抽取模型包括:
编码层,用于建模跨度信息生成跨度表征;所述编码层包括一个生成词表征的编码器及跨度表征生成器;
分类器,用于基于上述跨度表征预测出相应的标注结果;所述分类器训练基于步骤1)获得的标注结果;
推理层,用于依据标注结果得到对应的方面情感三元组。
4.根据权利要求1所述的方面情感三元组抽取方法,其特征在于所述步骤2)中推理层依据标注结果得到对应的方面情感三元组,采用的方法如下:
通过考虑跨度信息之间的相互约束,从候选情感片段中检索出最大长度的方面及观点作为匹配项,对匹配项抽取方面情感三元组;具体如下:
2.1)根据标注结果获得所有的方面项、观点项和情感片段;
2.2)对当前情感片段,获取其内部以开始边界为开始的方面项集合,获取其内部以结束边界为结束的观点项集合,当两个集合中的方面项和观点项同时存在时,从两个集合中分别选取长度最长的方面项和观点项,作为方面-观点匹配,并与该情感片段中的情感组成一个候选情感三元组;
2.3)对当前情感片段,获取其内部以开始边界为开始的观点项集合,获取其内部以结束边界为结束的方面项集合,当两个集合中的方面项和观点项同时存在时,从两个集合中分别选取长度最长的方面项和观点项,作为观点-方面匹配,并与该情感片段中的情感组成一个候选情感三元组;
2.4)重复步骤2.2)和步骤2.3),遍历所有的情感片段,获取步骤2.2)和步骤2.3)的所有候选三元组,作为最终的抽取结果。
5.根据权利要求4所述的方面情感三元组抽取方法,其特征在于所述步骤2.3)中当方面项集合中包含多个方面项,且其中整个情感片段也可作为方面项,则选取长度最长的方面项,选取的是除了情感片段以外具有最大长度的方面项;否则,选取情感片段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310033114.5A CN116415592A (zh) | 2023-01-10 | 2023-01-10 | 一种方面情感三元组抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310033114.5A CN116415592A (zh) | 2023-01-10 | 2023-01-10 | 一种方面情感三元组抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116415592A true CN116415592A (zh) | 2023-07-11 |
Family
ID=87057187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310033114.5A Pending CN116415592A (zh) | 2023-01-10 | 2023-01-10 | 一种方面情感三元组抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116415592A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117171610A (zh) * | 2023-08-03 | 2023-12-05 | 江南大学 | 一种基于知识增强的方面情感三元组提取方法及系统 |
-
2023
- 2023-01-10 CN CN202310033114.5A patent/CN116415592A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117171610A (zh) * | 2023-08-03 | 2023-12-05 | 江南大学 | 一种基于知识增强的方面情感三元组提取方法及系统 |
CN117171610B (zh) * | 2023-08-03 | 2024-05-03 | 江南大学 | 一种基于知识增强的方面情感三元组提取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shen et al. | Zero-shot sketch-image hashing | |
Xu et al. | Deep learning for molecular generation | |
CN110046656B (zh) | 基于深度学习的多模态场景识别方法 | |
US11062179B2 (en) | Method and device for generative adversarial network training | |
CN106156004B (zh) | 基于词向量的针对电影评论信息的情感分析系统及方法 | |
Shi et al. | Deep adaptively-enhanced hashing with discriminative similarity guidance for unsupervised cross-modal retrieval | |
CN110533024B (zh) | 基于多尺度roi特征的双二次池化细粒度图像分类方法 | |
CN109858015B (zh) | 一种基于ctw和km算法的语义相似度计算方法及装置 | |
CN112732864B (zh) | 一种基于稠密伪查询向量表示的文档检索方法 | |
CN111222318B (zh) | 基于双通道双向lstm-crf网络的触发词识别方法 | |
CN107818084A (zh) | 一种融合点评配图的情感分析方法 | |
CN110390017A (zh) | 基于注意力门控卷积网络的目标情感分析方法及系统 | |
CN114564593A (zh) | 多模态知识图谱的补全方法、装置和电子设备 | |
Wang et al. | Sketchknitter: Vectorized sketch generation with diffusion models | |
Potrus et al. | An evolutionary harmony search algorithm with dominant point detection for recognition-based segmentation of online Arabic text recognition | |
CN116415592A (zh) | 一种方面情感三元组抽取方法 | |
CN107452374A (zh) | 基于单向自标注辅助信息的多视角语言识别方法 | |
CN110598022A (zh) | 一种基于鲁棒深度哈希网络的图像检索系统与方法 | |
Wu et al. | WTMED at MEDIQA 2019: A hybrid approach to biomedical natural language inference | |
CN112256727A (zh) | 基于人工智能技术的数据库查询处理及优化方法 | |
CN114065769B (zh) | 情感原因对抽取模型的训练方法、装置、设备及介质 | |
CN108805280A (zh) | 一种图像检索的方法和装置 | |
CN111737467B (zh) | 一种基于分段卷积神经网络的对象级情感分类方法 | |
CN111259176B (zh) | 融合有监督信息的基于矩阵分解的跨模态哈希检索方法 | |
CN111552817A (zh) | 一种电力科技成果知识图谱补全方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |