CN113743097A - 基于跨度共享和语法依存关系增强的情感三元组抽取方法 - Google Patents
基于跨度共享和语法依存关系增强的情感三元组抽取方法 Download PDFInfo
- Publication number
- CN113743097A CN113743097A CN202110969975.5A CN202110969975A CN113743097A CN 113743097 A CN113743097 A CN 113743097A CN 202110969975 A CN202110969975 A CN 202110969975A CN 113743097 A CN113743097 A CN 113743097A
- Authority
- CN
- China
- Prior art keywords
- span
- emotion
- spans
- layer
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 80
- 238000000605 extraction Methods 0.000 title claims abstract description 55
- 238000013528 artificial neural network Methods 0.000 claims abstract description 11
- 238000001914 filtration Methods 0.000 claims abstract description 8
- 230000002708 enhancing effect Effects 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 45
- 239000011159 matrix material Substances 0.000 claims description 16
- 230000014509 gene expression Effects 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 12
- 230000002457 bidirectional effect Effects 0.000 claims description 8
- 230000002996 emotional effect Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 14
- 230000006870 function Effects 0.000 description 16
- 239000000284 extract Substances 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 238000002679 ablation Methods 0.000 description 6
- 235000013305 food Nutrition 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000007935 neutral effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 238000002347 injection Methods 0.000 description 3
- 239000007924 injection Substances 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 235000012149 noodles Nutrition 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 235000013311 vegetables Nutrition 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及情感分析技术领域,具体地说,涉及一种基于跨度共享和语法依存关系增强的情感三元组抽取方法,其包括以下步骤:一、通过编码器层获得特征表示;二、通过依赖图神经网络层增强语义表示;三、生成跨度并对过滤掉无效跨度;四、通过情感分类器完成分类。本发明能较佳地抽取三元组。
Description
技术领域
本发明涉及情感分析技术领域,具体地说,涉及一种基于跨度共享和语法依存关系增强的情感三元组抽取方法。
背景技术
方面级情感分析是自然语言处理中的一个重要领域,其涉及到的核心对象为方面术语和观点术语。在评论句中,方面术语通常为被描述的属性或实体,其所表达的情感通常由观点术语来表示。目前,大多数方法是将方面级情感分析任务分解成多个独立的子任务来解决,如方面术语提取(AE),其目标是提取出一个句子中的所有方面术语。此外,观点术语抽取(OE)通常依赖给定的方面术语进行观点术语提取。然而,这些方法需要以流水线的方式组合在一起才能解决一个完整的ABSA任务,这种方式容易产生错误传播,并忽略方面术语和观点术语之间的依赖关系。
子任务间存在的依赖关系使得目前的研究重点转向了联合提取。在联合提取任务中,具有代表性的工作是方面-观点术语的成对提取任务(Pair),其目的是完成成对的方面术语和观点术语的提取。然而,这种成对抽取忽略了它们之间的情感表达关系,依然无法完整地解决方面及情感分析任务。
与上述所提到的子任务不同,情感三元组的抽取任务可以完整地解决方面级情感分析任务。然而由于这项任务需要提取方面术语和观点术语以及对应的情感表达,所以这项任务具有很大的挑战性。
发明内容
本发明的内容是提供一种基于跨度共享和语法依存关系增强的情感三元组抽取方法,其能够克服现有技术的某种或某些缺陷。
根据本发明的基于跨度共享和语法依存关系增强的情感三元组抽取方法,其特征在于:包括以下步骤:
一、通过编码器层获得特征表示;
二、通过依赖图神经网络层增强语义表示;
三、生成跨度并对过滤掉无效跨度;
四、通过情感分类器完成分类。
作为优选,步骤一中,选择BERT双向编码表征作为核心主干来学习上下文语义的表示;
给定一个输入句子S,在句子的开头添加cls全局上下文语义表征,在句子的末尾添加[SEP]句子结束标记,然后将序列Sx={xcls,x1,...xi,...,xn,xsep}输入到BERT模型中;这些单词输入到BERT模型中得到单词的嵌入序列最后,得到输出的hidden layer隐藏层表示特征
其中BERT(*)是cased-base-BERT模型,hidden layer隐藏层为12层。
作为优选,步骤二中,使用Standford-NLP工具来获得评论语句的句法依存关系树,根据输入句子的依存关系树的连接情况将依存关系树转化为一个M阶图结构,其中节点表示每一个词,边表示词之间的关系;M阶图结构可以表示为N*N的邻接矩阵Aij;当两个单词节点之间存在连接或者是单词本身时,将相应的邻接矩阵的值设置为1;否则,将其设置为0;公式如下:
其中RELU为线性整流函数,Wl是GCN第l层的训练权重,bl是当前权重的偏移值。
跨度Spi={Indexstart,Indexstart1,...,Indexend}中的Indexstart表示索引的开始,Indexend表示索引的结束;Indexend-Indexstart≤Ls,其中Ls是跨度长度;
引入词嵌入Ek,并为每个跨度分配了一个固定大小的嵌入,其中k是嵌入维度;词嵌入Ek通过反向传播获得,是用于词嵌入的矩阵;此时跨度被重新定义为以下形式:
其中:表示连接符号;hstart和hend分别表示当前开始位置和结束位置的特征值,f表示最大池化函数;
跨度生成器中存在无效跨度,将无效跨度分类为Invalid类,并使用跨度分类器过滤掉分配给Invalid类的所有跨度;
将全局上下文语义特征cls与跨度进行最大池化的融合;
通过一个线性层Linear进行分类:
Lsp=Linear(Wsp(Spi:cls)+bsp);
其中Wsp的形状由隐藏层的大小和嵌入层Ek的维度所决定,bsp是偏移量;Lsp表示线性层的输出结果:
最后,通过softmax归一化指数函数对输出的结果进行归一化:
ysp表示模型预测跨度中包含方面术语和观点术语的概率,是一个归一化的值[0-1];
通过交叉熵损失函数来判断实际输出与预期输出之间的接近程度:
概率分布ρ是模型预测的概率分布,概率分布q是实际样本的概率分布。
I表示输入,rep表示具有代表性的跨度特征。
作为优选,利用情感分类器对候选跨度进行处理时,需要限制代表性跨度的数量;跨度候选对的组合是Sprep*Sprep,所以需要将跨度大小限制为:
Losssc(p,q)=-∑rep(p(rep)logq(rep)+(1-p(rep))log(1-q(rep)))。
本发明提出了一种结合句法依存关系树的跨度联合抽取模型来完成方面情感三元组的抽取任务。与序列标注方法不同的是,我们通过跨度生成器枚举出所有可能的候选词对,有效地解决了一个方面/意见术语对应多个意见/方面术语的情况。与流水线先抽取方面术语或观点术语的形式再进行对应的分类形式不同,我们一次性枚举出所有可能的候选跨度(包含方面或观点术语的跨度)并利用之间存在的关系进行联合抽取,这种联合抽取形式减少了错误传播的影响。同时,考虑到基于跨度的方法容易产生大量无效样本,影响跨度分类器和情感分类器的分类效果,我们对这两种分类器的负样本进行了不同的预处理,提高情感三元组提取的效果。此外,为了充分利用不同情感三元组之间的句法依赖关系,我们以图卷积的形式将句法依赖树融入到我们的模型中。这样,通过将图神经网络的输出特征与候选跨度拼接,可以更好地捕捉词对之间的相关性,从而减少不同情感三联体之间的影响。
附图说明
图1为实施例1中一种基于跨度共享和语法依存关系增强的情感三元组抽取方法的流程图;
图2为实施例1中模型整体架构的示意图;
图3为实施例1中转换后的句法依存关系树和对应的邻接矩阵示意图。
具体实施方式
为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。应当理解的是,实施例仅仅是对本发明进行解释而并非限定。
实施例1
任务定义
在给定由n个单词组成句子Sx={x1,...xi,...,xn}的情况下,方面级情感三元组抽取任务的目的是提取出评论语句中的所有情感三元组T={(ai,oi,si)|(ai,oi)∈p∧si∈S}。其中,p={<ai,oi>ai∈A,oi∈0}表示成对的方面术语和观点术语(AT,OT),其情感极性的表达S=(Positive,Neutral,Negative)。
整体架构
整体架构如图2所示,主要由四个部分组成:编码器层、依赖图神经网络层、跨度生成和过滤以及情感分类器。一般来说,给定一个评论语句句子S,我们使用BERT作为我们的核心骨架来学习上下文的语义。同时,考虑到不同三元组之间的干扰,我们需要更好地捕捉方面术语和观点术语之间的关系,我们设计了一种新的基于关系依赖树的图神经网络模型,然后通过指定跨度的大小来枚举所有可能的跨度。为了选出具有代表性的跨度,通过跨度过滤器过滤出不包含方面或观点的跨度。最后,得到一个具有代表性的跨度,并将其与局部上下文内容进行拼接,通过情感分类器完成情感三元组的提取。
附图2英文翻译:
INPUT表示输入的评论语句;
OUTPUT表示输出的情感三元组;
BERT Bidirectional Encoder Representations from Transformers,利用Transformer结构的双向编码表征,自然语言处理中文本数据预训练的模型,可以用于词向量的生成;
Syntactic Dependency Tree语法依赖树;
Span GENERATOR跨度生成器;
SPAN REPRESENTATIONS具有代表性的跨度表示;
Span Classifier跨度分类器;
Sentiment Classifier情感分类器;
GCN图卷积神经网络;
CLS BERT中用于分类任务的特殊符号,代表全局上下文语义;
X输入的令牌;
C上下文;
如图1所示,一种基于跨度共享和语法依存关系增强的情感三元组抽取方法分为四个步骤:
一、通过编码器层获得特征表示;
二、通过依赖图神经网络层增强语义表示;
三、生成跨度并对过滤掉无效跨度;
四、通过情感分类器完成分类。
1、通过编码器层获得特征表示
如图2所示,模型选择BERT(双向编码表征)作为核心主干来学习上下文语义的表示。之所以选择BERT(双向编码表征)模型,是因为它在多个领域取得了较好的效果。给定一个输入句子S,现在句子的开头添加[CLS](全局上下文语义表征),在句子的末尾添加[SEP](句子结束标记),然后将序列Sx={xcls,x1,...xi,...,xn,xsep}输入到BERT模型中。这些单词输入到BERT模型中得到单词的嵌入序列最后,得到输出的隐藏层表示特征:
其中BERT(*)是微调的BERT模型,我们采用cased-base-BERT模型(区分字母大小写的基础版的BERT模型),hidden layer(隐藏层)为12层。
2、通过依赖图神经网络层增强语义表示
在情感三元组抽取工作中,一个句子中通常存在多个情感三元组。然而,不同情感三元组之间的复杂的交互关系会干扰三元组的识别。因此,如何减少不同三元组之间的干扰是方面级情感三元组提取任务中的一个关键问题。近年来,在(方面术语,观点术语)的成对提取任务中,研究者主要通过注意机制来解决这一问题,但是这种方式可能会因为句法复杂性而失败,例如图3中,由于意见术语“terrible”比观点术语“delicious”更接近方面术语“noodles”,所以注意机制将更多的注意力分配给靠近方面术语“noodles”的观点术语“terrible”,从而导致错误的方面-观点词对的提取。
如图3所示,为转换后的句法依存关系树和对应的邻接矩阵,显然,语法依存关系树可以为我们的方面和观点术语地抽取提供依存关系。具体来说,方面术语“noodles”和观点术语“delicious”之间是名词主语依存关系(nsubj名词主语),表明该名词是被修饰的属性既为我们需要抽取的方面术语。同样,评论句中的“noodles”和“vegetables”这两个方面词之间存在连接依存关系,表明它们具有相同的属性或特征。
为了利用好这种语法依赖来提高三元组抽取的效率,我们使用Standford-NLP工具来获得评论语句的句法依存关系树,根据输入句子的依存关系树的连接情况将依存关系树转化为一个M阶的图结构,其中节点表示每一个词,边表示词之间的关系。这种图的结构可以表示为N*N的邻接矩阵。具体地说,当两个单词节点之间存在连接或者是单词本身时,我们将相应的邻接矩阵的值设置为1;否则,将其设置为0。公式如下:
其中RELU为线性整流函数,Wl是GCN第l层的训练权重,bl是当前权重的偏移值。
3、生成跨度并过滤掉无效跨度
在提取联合情感三元组时,需要特别注意以下两点:
a、如何有效处理实体重叠问题,这种实体重叠包括一个方面对应多观点以及一个观点对应多个方面。
b、如何解决方面术语和意见术语在一句话中往往用多个词来表示,而且这些词的跨度往往很大(≥3)。
出于这两方面的考虑,我们的模型做了两点改进。一方面,与传统的序列标注方法相比,我们采用了一种基于跨度的方法来提取方面术语和观点术语这种方式。另一方面,我们通过调整跨度长度ls这一超参数来获得合适的跨度长度,从而有效地提取包含多个单词或词组的方面术语和观点术语。例如,在图2中,我们枚举了所有跨度,包括较大跨度的Sp4。
具体来说,我们将依赖关系的特征和BERT输出的隐藏层特征进行拼接,然后通过跨度生成器将hj映射到不同的跨度。例如,图2中的“Great food but the servicewas dreadful”,通过跨度生成器将映射为“Great”,“but”,“Great food but”对应图中的Sp1,Sp3,Sp5。
跨度Spi={Indexstart,Indexstart 1,…,Indexend}中的Indexstart表示索引的开始,Indexend表示索引的结束;Indexend-Indexstart≤Ls,其中Ls是跨度长度.
我们通过最大池层对特征表示进行融合。考虑到具有代表性的跨度不太可能过长,我们引入了词嵌入Ek,并为每个跨度分配了一个固定大小的嵌入,其中k是嵌入维度。词嵌入Ek通过反向传播获得,是专门用于词嵌入的矩阵。此时我们的跨度被重新定义为以下形式:
其中:表示连接符号;hstart和hend分别表示当前开始位置和结束位置的特征值,f表示最大池化函数;
跨度生成器枚举了所有可能的跨度,但这之中存在着大量无效跨度。例如一些跨度中可能存在没有方面术语或观点术语的情况。对此,我们将此无效跨度分类为Invalid类,并使用跨度分类器过滤掉分配给Invalid类的所有跨度。
跨度分类器如图3所示,我们将全局上下文语义特征[cls]与跨度进行最大池化的融合。我们增加这一额外的cls(全局上下文语义特征)用于分类,是因为整个句子的语义往往会增强语义表达。例如,在图2中,当我们提取的跨度包含方面术语“food”时,句子中的关键字“great”对其有很强的引导性。
通过一个线性层(Linear)进行分类:
Lsp=Linear(Wsp(Spi:cls)+bsp) (5)
其中Wsp的形状由隐藏层的大小和嵌入层Ek的维度所决定,bsp是偏移量;Lsp表示线性层的输出结果.
最后,我们通过softmax(归一化指数函数)对输出的结果进行归一化:
注意,ysp包含invalid(无效,既不包含方面术语或观点术语的跨度)类。
通过交叉熵损失函数来判断实际输出与预期输出之间的接近程度:
概率分布p是模型预测的概率分布,概率分布q是实际样本的概率分布。
4、通过情感分类器完成分类
在前面的任务定义中,我们将情感极性定义为需要划分的三种情感类别。利用情感分类器对候选跨度进行处理,并估计是否存在相应的情感极性。这部分的工作有以下两点需要特别注意:
a、跨度分类器如何生成有效的候选跨度。考虑到上下文语义表达的重要性,我们同样引入了上下文表示。目前大多数方法都是直接添加由BERT(双向编码表征)产生的全局上下文特征[cls]。然而,对于方面级情感分析,一个句子往往包含多个方面或观点,并且之间的情感表达差异可能很大,这导致全局上下文并不能很好地适应我们的任务。因此,我们采用局部上下文语义下标表示选中的跨度的两个跨度的起始位置,并通过最大池化层进行融合:
输出表示为代表性跨度
b、需要限制代表性跨度的数量。虽然我们在前面的操作中对跨度数量做了一些限制,但是跨度候选对的组合仍然是Sprep*Sprep,所以我们需要将跨度大小限制为:
β表示为候选对的最大数量。在限制候选的同时,我们也考虑到一些句子过短以及候选样本不足的情况,例如“service is average服务一般”句子较短,同时在训练集中情感表达为中性的样本数量特别少。因此,我们引入了α来扩充候选词。最后,我们通过一个简单的分类器输出正确的分类:
其中,σ是Sigmoid(S型生长曲线)函数。的值越高,跨度候选对之间就越可能存在情感表达。设置置信度值э,任何情感分类得分>э都将被激活。如果它们都没有被激活,那么这句话将不存在对应的情感。我们将损失函数定义如下:
Losssc(p,q)=-∑rep(p(rep)logq(rep)+(1-p(rep))log(1-q(rep))) (12)
5、训练过程的细节
在模型的训练过程中,定义跨度分类和情感分类的联合训练损失函数如下:
Lossjoint=Losssp+Losssc (13)
其中Lossjoint是联合训练损失函数,Losssp是跨度分类器的交叉熵损失函数,Losssc是情感分类的交叉熵损失函数。在训练过程中,有以下两点值得注意:
a、与流水线形式不同,在跨度分类器中我们并没有对方面或观点术语进行单独抽取,而是联合抽取方面和观点术语的跨度。通过跨度分类器区分是否包含方面术语或观点术语,在情感分类阶段中,我们通过局部上下文可以有效地利用方面术语和观点术语之间的关系从而有效地降低错误传播。
b、对于跨度分类器和情感分类器的负样本的生成,进行了不同的预处理。在训练跨度分类器中,将句子中所有标记为方面术语和观点术语的跨度作为正样本,负样本从不包含方面术语和观点术语的跨度中随机抽取,具体如下:
考虑到负样本的数量问题,我们引入固定值λsp来限制负样本的数量。
在训练情感分类器中,我们将正确标签的情感三元组作为正样本,负样本Nsc为来自包含方面或意见的跨度Sgt×Sgt但之间不存在任何情感关系的样本。例如图2中的评论语句,我们选择(“food”,“great”,“pos”)和(“service”,“dreadful”,“neg”)作为正样本,而它们之间原本没有关系的方面观点对(“food”,*,“dreadful”)构成一个新的情感表达关系的负面样本,与随机抽样相比,这种负样本更具有代表性,这对于模型的鲁棒性的提升有很大的帮助。
我们在包含情感三元组的数据集ASTE-Data-V2上进行了案例分析,为了进一步分析我们的模型优于其他基准方法,我们选择了JET(联合抽取三元组)和GTS(网格标记方案)作为两个对比模型。本文选取了5个具有代表性的语句作为典型案例进行研究,如表1所示。
表1案例分析(标记Х表示错误的预测)
基于跨度进行抽取有效地解决了一个方面对应多个观点或一个观点对应多个方面的问题。例如,在S1中,一个方面对应两个观点术语,由于方面术语“internal cd driver内部光盘驱动”与观点术语“complaint投诉”较远,JET种中位置感知方法不能有效地将其抽取出来;同时,GTS虽然可以有效地抽取观点术语“complaint投诉”,但是由于“no没有”离方面术语距离较近,之间形成了干扰,所以无法有效的抽取,导致提取三元组的效果不佳。我们的方法成功抽取出了全部的情感三元组(internal cd drive,complaint,NEG),(internal cd drive,no,NEG)。同样,对于S4中的多对一情况,我们的模型也能正确提取出句子中的所有情感三元组。
句法依赖关系可以减少不同情感三元组之间的干扰。在相对复杂的S2、S3和S4语句中,一个方面对应多个观点,不同的三元组之间存在交互作用,导致了JET模型不能准确地抽取出任意一个情感三元组;而GTS模型虽然可以提取出一些的情感三元组,但是没能有效地提取出(ssd,stable,Pos)这一三元组。我们的模型通过图卷积注入语法依赖树,可以有效地捕获不同三元组之间的关系,减少不同三元组之间的干扰,从而有效地进行区分,完成了上述语句的情感三元组的正确抽取。
数据集
实验的数据集来源于(Pontiki et al.,2014,2015,2016),我们在现有的两个公开的数据集上评估我们的模型。第一个数据集TOWE来自(Fan et al.,2019),该数据集对AT方面术语和OT观点术语进行了成对标记。第二个数据集ASTE-Data-V2来自(Xu et al.,2020),其对(AT方面术语,OT观点术语,SP情感极性)这样的情感三元组进行了标记。ASTE-Data-V2包含一个方面|观点术语对应多个观点|方面术语情况,这种情况在现实中非常常见。这两个数据集详细信息如下表所示。
表2统计了ASTE-Data-V2数据集信息,其中#0、#+、#-分别表示三元组中情感极性为中性、积极、消极的数量;#S、#T分别表示句子数和三元组数量
表3统计了TOWE数据集信息,其中#A,#O和#P分别表示方面术语、观点术语和(AT,OT)方面-观点术语对的数量,#S表示句子数量
在我们的情感三元组任务中,我们使用Precision,Recall和micro-F1 scores作为我们模型的评价指标。我们在ASTE-Data-V2数据集上完成情感三元组的基准实验,同时为了更好地说明我们的模型的优越性,我们还在TOWE(Target-oriented Opinion WordsExtraction面向对象观点术语抽取)数据集完成消融实验。
实验结果分析
表4数据集源自ASTE-Data-V2。
表4英文说明
Methods方法;
P,R,F1分别表示precision准确率、Recall召回率、F1-Measure准确率和召回率加权调和平均;
Pipeline:Divided into two stages管道形式,将任务设计成两个阶段;
Joint:Joint extraction of triples in the form of serialized tags联合抽取:以统一的序列化标签进行联合抽取;
MRC:convert ASTE into the form of machine reading comprehension双向阅读理解:将方面级情感分析三元组抽取转换成阅读理解的形式;
14lap,14res,15res,16res 2014年笔记本评论数据集,2014年餐厅评论数据集,2015餐厅评论数据集和2016餐厅评论数据集;
Ours w/o GCN移除掉图神经网络的方法;
F-Measure Precision和Recall加权调和平均。
表4中的实验结果表明,我们的模型达到了最优性能。我们的联合抽取三元组方法比管道式(pipeline)基线方法的平均F1值高16.50%。同时,我们还考虑了准确率Precision和召回率Recall。我们的平均准确率和召回率分别比管道式方法高19.38%和6.59%,管道式方法效果不佳的其中一个原因是在抽取过程中存在大量的错误传播。我们的方法通过共享跨度的形式进行联合抽取,而不是单独抽取方面术语和观点术语,这种方式可以有效地减少了错误传播的干扰。在目前同样是联合抽取的方法中,我们的方法同样具有优越性。在联合抽取的基准方法中,GTS的性能优于JET,OTE-MTL方法,这是因为GTS对每个方面-意见术语对分配一个具体的关系表示,利用了方面和观点词之间存在的部分关系。但是这种关系表示并没有很好的解决方面和观点词之间存在的复杂的关系,比如一个评论语句中的三元组之间是相互干扰的。我们的方法有效地解决了上述问题,我们的方法通过跨度共享的形式有效地解决上述存在的一对多和多对一的情况,同时考虑到了一个评论语句中存在多个不同的三元组,我们引入了句法依赖树有效地减少了这种不同三元组之间的干扰。实验结果表明我们的方法在联合抽取形式上的平均F1指标值比上述方法高出了6.22%。
除与序列标注方法进行比较之外,我们还对比了将情感三元组抽取问题转换成阅读理解形式的Dual-MRC方法(双向机器阅读理解),这种方法有效地利用了方面术语和观点术语之间的交互性,从而解决上述序列标记存在的问题,但是这种方法没有对负样本的训练进行处理,这导致了当训练的样本数量不足时,模型效果并不能得到很好的提升。我们的模型在跨度分类器和情感分类器中做了不同的负样本的预处理,来提高我们模型的鲁棒性。实验结果表明,我们方法比上述方法取得了更优越的性能。尤其是在15res这个数据集上,我们的F1指标值比Dual-MRC高出了7.33%,我们认为这是由于在15res中训练集中,中性的样本仅占5%,这导致了大多数模型并不能很好的学习这些特征。
消融实验
为了探索图卷积注入的依赖树对我们模型的影响,我们对ASTE任务进行了消融研究。表4中的实验结果表明,当我们去除通过图神经网络注入的语法依赖时,模型的性能会下降。特别是在16res数据集上,消融后下降了2.94%,说明图卷积机制确实增强了词与词之间的关系。
表5方面级情感分析的跨度共享方法的消融实验结果(F1-score,%)
“A”、“O”和“Pair”代表方面术语提取、观点术语提取和(方面术语,观点术语)成对提取。
为了进一步分析图卷积注入依赖树对模型的影响,我们还对方面术语、观点术语和方面-观点术语成对抽取任务进行了消融实验,结果如表5所示。在方面术语提取的任务中,当我们移除掉图神经网络方式注入依赖树的模块后,我们的模型整体性能下降,特别是在16res数据集上,下降了2.11%。在观点术语提取任务中,虽然我们的模型在15res的提取效果略有下降,但在方面-观点术语成对提取任务中,我们得到了2.56%的显著提高。通过比较这些子任务的实验结果,我们发现通过图卷积网络注入语法依赖树有利于方面术语和意见术语的提取,同时这种效果对于意见词-方面词的成对提取也是有效的,这在一定程度上说明我们的方法可以有效地解决情感分析的各项子任务。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
Claims (6)
1.基于跨度共享和语法依存关系增强的情感三元组抽取方法,其特征在于:包括以下步骤:
一、通过编码器层获得特征表示;
二、通过依赖图神经网络层增强语义表示;
三、生成跨度并对过滤掉无效跨度;
四、通过情感分类器完成分类。
3.根据权利要求2所述的基于跨度共享和语法依存关系增强的情感三元组抽取方法,其特征在于:步骤二中,使用Standford-NLP工具来获得评论语句的句法依存关系树,根据输入句子的依存关系树的连接情况将依存关系树转化为一个M阶图结构,其中节点表示每一个词,边表示词之间的关系;M阶图结构可以表示为N*N的邻接矩阵Aij;当两个单词节点之间存在连接或者是单词本身时,将相应的邻接矩阵的值设置为1;否则,将其设置为0;公式如下:
其中RELU为线性整流函数,Wl是GCN第l层的训练权重,bl是当前权重的偏移值。
跨度Spi={Indexstart,Indexstart 1,…,Indexend}中的Indexstart表示索引的开始,Indexend表示索引的结束;Indexend-Indexstart≤Ls,其中Ls是跨度长度;
引入词嵌入Ek,并为每个跨度分配了一个固定大小的嵌入,其中k是嵌入维度;词嵌入Ek通过反向传播获得,是用于词嵌入的矩阵;此时跨度被重新定义为以下形式:
其中:表示连接符号;hstart和hend分别表示当前开始位置和结束位置的特征值,f表示最大池化函数;
跨度生成器中存在无效跨度,将无效跨度分类为Invalid类,并使用跨度分类器过滤掉分配给Invalid类的所有跨度;
将全局上下文语义特征cls与跨度进行最大池化的融合;
通过一个线性层Linear进行分类:
Lsp=Linear(Wsp(Spi:cls)+bsp);
其中Wsp的形状由隐藏层的大小和嵌入层Ek的维度所决定,bsp是偏移量;Lsp表示线性层的输出结果;
最后,通过softmax归一化指数函数对输出的结果进行归一化:
ysp表示模型预测跨度中包含方面术语和观点术语的概率,是一个归一化的值[0-1];
通过交叉熵损失函数来判断实际输出与预期输出之间的接近程度:
概率分布p是模型预测的概率分布,概率分布q是实际样本的概率分布。
6.根据权利要求5所述的基于跨度共享和语法依存关系增强的情感三元组抽取方法,其特征在于:利用情感分类器对候选跨度进行处理时,需要限制代表性跨度的数量;跨度候选对的组合是Sprep*Sprep,所以需要将跨度大小限制为:
Losssc(p,q)=-∑rep(p(rep)logq(rep)+(1-p(rep))log(1-q(rep)))。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110969975.5A CN113743097B (zh) | 2021-08-23 | 2021-08-23 | 基于跨度共享和语法依存关系增强的情感三元组抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110969975.5A CN113743097B (zh) | 2021-08-23 | 2021-08-23 | 基于跨度共享和语法依存关系增强的情感三元组抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113743097A true CN113743097A (zh) | 2021-12-03 |
CN113743097B CN113743097B (zh) | 2024-03-01 |
Family
ID=78732360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110969975.5A Active CN113743097B (zh) | 2021-08-23 | 2021-08-23 | 基于跨度共享和语法依存关系增强的情感三元组抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113743097B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114372153A (zh) * | 2022-01-05 | 2022-04-19 | 重庆大学 | 基于知识图谱的法律文书结构化入库方法及系统 |
CN114564955A (zh) * | 2022-03-11 | 2022-05-31 | 重庆大学 | 一种情感三元组提取方法及情感三元组提取模型 |
CN114564967A (zh) * | 2022-04-29 | 2022-05-31 | 天津大学 | 一种面向情感语义的语义标注及语义依存分析方法及装置 |
CN115048936A (zh) * | 2022-06-07 | 2022-09-13 | 昆明理工大学 | 融合词性信息的方面级情感三元组抽取方法 |
CN115168592A (zh) * | 2022-08-30 | 2022-10-11 | 华南师范大学 | 基于方面类别的语句情感分析方法、装置以及设备 |
CN116029294A (zh) * | 2023-03-30 | 2023-04-28 | 华南师范大学 | 词项配对方法、装置及设备 |
CN117171610A (zh) * | 2023-08-03 | 2023-12-05 | 江南大学 | 一种基于知识增强的方面情感三元组提取方法及系统 |
CN117648980A (zh) * | 2024-01-29 | 2024-03-05 | 数据空间研究院 | 基于矛盾纠纷数据的新型实体关系联合抽取算法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150154537A1 (en) * | 2013-11-29 | 2015-06-04 | International Business Machines Corporation | Categorizing a use scenario of a product |
CN111143559A (zh) * | 2019-12-24 | 2020-05-12 | 北京明略软件系统有限公司 | 基于三元组的词云展示方法及装置 |
CN112001185A (zh) * | 2020-08-26 | 2020-11-27 | 重庆理工大学 | 一种结合中文句法和图卷积神经网络的情感分类方法 |
CN112100384A (zh) * | 2020-11-10 | 2020-12-18 | 北京智慧星光信息技术有限公司 | 一种数据观点抽取方法、装置、设备及存储介质 |
US20210049213A1 (en) * | 2019-08-12 | 2021-02-18 | Nec Laboratories America, Inc. | Temporal context-aware representation learning for question routing |
-
2021
- 2021-08-23 CN CN202110969975.5A patent/CN113743097B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150154537A1 (en) * | 2013-11-29 | 2015-06-04 | International Business Machines Corporation | Categorizing a use scenario of a product |
US20210049213A1 (en) * | 2019-08-12 | 2021-02-18 | Nec Laboratories America, Inc. | Temporal context-aware representation learning for question routing |
CN111143559A (zh) * | 2019-12-24 | 2020-05-12 | 北京明略软件系统有限公司 | 基于三元组的词云展示方法及装置 |
CN112001185A (zh) * | 2020-08-26 | 2020-11-27 | 重庆理工大学 | 一种结合中文句法和图卷积神经网络的情感分类方法 |
CN112100384A (zh) * | 2020-11-10 | 2020-12-18 | 北京智慧星光信息技术有限公司 | 一种数据观点抽取方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
ZUOCHENG LI, LISHUANG LI: "JTSG: A joint term-sentiment generator for aspect-based sentiment analysis", 《NEUROCOMPUTING》, 6 July 2021 (2021-07-06) * |
林涌东: "面向细粒度情感分析的观点实体联合抽取技术", 《CNKI知网》, 7 December 2023 (2023-12-07) * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114372153A (zh) * | 2022-01-05 | 2022-04-19 | 重庆大学 | 基于知识图谱的法律文书结构化入库方法及系统 |
CN114564955A (zh) * | 2022-03-11 | 2022-05-31 | 重庆大学 | 一种情感三元组提取方法及情感三元组提取模型 |
CN114564967A (zh) * | 2022-04-29 | 2022-05-31 | 天津大学 | 一种面向情感语义的语义标注及语义依存分析方法及装置 |
CN115048936A (zh) * | 2022-06-07 | 2022-09-13 | 昆明理工大学 | 融合词性信息的方面级情感三元组抽取方法 |
CN115168592A (zh) * | 2022-08-30 | 2022-10-11 | 华南师范大学 | 基于方面类别的语句情感分析方法、装置以及设备 |
CN115168592B (zh) * | 2022-08-30 | 2022-12-27 | 华南师范大学 | 基于方面类别的语句情感分析方法、装置以及设备 |
CN116029294A (zh) * | 2023-03-30 | 2023-04-28 | 华南师范大学 | 词项配对方法、装置及设备 |
CN117171610A (zh) * | 2023-08-03 | 2023-12-05 | 江南大学 | 一种基于知识增强的方面情感三元组提取方法及系统 |
CN117171610B (zh) * | 2023-08-03 | 2024-05-03 | 江南大学 | 一种基于知识增强的方面情感三元组提取方法及系统 |
CN117648980A (zh) * | 2024-01-29 | 2024-03-05 | 数据空间研究院 | 基于矛盾纠纷数据的新型实体关系联合抽取算法 |
CN117648980B (zh) * | 2024-01-29 | 2024-04-12 | 数据空间研究院 | 基于矛盾纠纷数据的新型实体关系联合抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113743097B (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Selfdoc: Self-supervised document representation learning | |
CN113743097A (zh) | 基于跨度共享和语法依存关系增强的情感三元组抽取方法 | |
CN111581961B (zh) | 一种中文视觉词汇表构建的图像内容自动描述方法 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
RU2686000C1 (ru) | Извлечение информационных объектов с использованием комбинации классификаторов, анализирующих локальные и нелокальные признаки | |
Athar et al. | Detection of implicit citations for sentiment detection | |
CN113011533A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN110532328B (zh) | 一种文本概念图构造方法 | |
CN113569050B (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
WO2018056423A1 (ja) | シナリオパッセージ分類器、シナリオ分類器、及びそのためのコンピュータプログラム | |
US20200311345A1 (en) | System and method for language-independent contextual embedding | |
CN113377916B (zh) | 一种面向法律文本的多关系中主要关系的抽取方法 | |
CN112800184B (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN117574898A (zh) | 基于电网设备的领域知识图谱更新方法及系统 | |
CN116127099A (zh) | 基于图卷积网络的联合文本增强的表实体与类型注释方法 | |
CN117610567A (zh) | 一种基于ERNIE3.0_Att_IDCNN_BiGRU_CRF的命名实体识别算法 | |
CN106484676B (zh) | 基于句法树和领域特征的生物文本蛋白质指代消解方法 | |
CN110765781A (zh) | 一种领域术语语义知识库人机协同构建方法 | |
Peleshchak et al. | Text Tonality Classification Using a Hybrid Convolutional Neural Network with Parallel and Sequential Connections Between Layers. | |
Zhang et al. | A machine learning-based approach for building code requirement hierarchy extraction | |
CN110210033B (zh) | 基于主述位理论的汉语基本篇章单元识别方法 | |
CN116562302A (zh) | 融合汉越关联关系的多语言事件观点对象识别方法 | |
CN115270763B (zh) | 一种基于多数据库的风险控制方法 | |
CN116562291A (zh) | 一种基于边界检测的中文嵌套命名实体识别方法 | |
Zhai et al. | MLNet: a multi-level multimodal named entity recognition architecture |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |