CN117787267B - 一种基于神经网络的情感原因对提取方法及系统 - Google Patents
一种基于神经网络的情感原因对提取方法及系统 Download PDFInfo
- Publication number
- CN117787267B CN117787267B CN202311854149.1A CN202311854149A CN117787267B CN 117787267 B CN117787267 B CN 117787267B CN 202311854149 A CN202311854149 A CN 202311854149A CN 117787267 B CN117787267 B CN 117787267B
- Authority
- CN
- China
- Prior art keywords
- data
- emotion
- action
- representation
- chapter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 111
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 36
- 238000000605 extraction Methods 0.000 title claims abstract description 31
- 230000009471 action Effects 0.000 claims abstract description 102
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 25
- 230000007246 mechanism Effects 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 230000014509 gene expression Effects 0.000 claims description 45
- 239000013598 vector Substances 0.000 claims description 18
- 230000000875 corresponding effect Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 7
- 230000007704 transition Effects 0.000 claims description 5
- 238000012512 characterization method Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000002474 experimental method Methods 0.000 description 9
- 238000003058 natural language processing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000001364 causal effect Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于神经网络的情感原因对提取方法,包括:获取文档及文档对应的词索引序列;基于文档和词索引序列得到文本表示数据;对文本表示数据进行预处理,得到每个词的上下文表示数据;基于上下文表示数据并利用第一解析器的状态和预定义动作得到输入数据;通过第二解析器对文档进行处理,得到篇章特征数据;通过协同注意力机制对篇章特征数据整合,得到篇章表示数据;将篇章表示数据和输入数据分别输入至神经网络进行动作预测,得到动作预测结果;基于动作预测结果得到预测的情感、原因和情感原因关系对。有效融合了外部篇章知识,进一步解决了原因重叠的问题。
Description
技术领域
本发明涉及自然语言处理技术领域,更具体的说是涉及一种基于神经网络的情感原因对提取方法及系统。
背景技术
情感分析是指对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,是自然语言处理(Natural Language Processing,NLP)和人工智能领域的重要研究课题,相关技术已经被广泛用于社会舆情分析、产品质量评价等应用系统。然而,早期的情感分析主要集中于情感分类研究,仅仅能识别出文本所蕴含的情感类别,无法捕捉情感背后更深层次的原因。基于此,情感原因抽取(Emotion Cause Extraction,ECE)作为自然语言处理领域的一项新任务,近年来受到众多研究者的研究和关注。
情感-原因对抽取(Emotion-Cause Pair Extraction,ECPE)任务,即在文档中以配对的方式同时提取情感及其相应的原因子句。早期方法依赖于流水线方法,首先从文档中提取所有的情感和原因,再进行情感-原因对的检测。
但是,该方法会将前一阶段提取的误差传递到配对阶段,从而影响任务的性能;后续的研究更偏向于使用端到端的神经网络模型来解决该问题,然而,已有的联合抽取模型未能考虑子句之间的全局关系,无法捕捉子句之间的内部依赖关系。情感和原因之间的语义因果关系在篇章结构中具有内在的联系,融合篇章知识能够为ECPE任务提供额外信息。其次,一个情感可能会由多个原因子句触发,这种重叠原因的问题尚未被很好解决。
因此,如何有效地融合外部篇章知识,进而避免重叠原因问题是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于神经网络的情感原因对提取方法及系统,至少部分解决了有效地融合外部篇章知识,进而避免重叠原因的问题。
为了实现上述目的,本发明采用如下技术方案:
一种基于神经网络的情感原因对提取方法,包括:
获取文档及所述文档对应的词索引序列;
基于所述文档和所述词索引序列得到文本表示数据;
对所述文本表示数据进行预处理,得到每个词的上下文表示数据;
基于所述上下文表示数据并利用第一解析器的状态和预定义动作得到输入数据;
通过第二解析器对所述文档进行处理,得到篇章特征数据;
通过协同注意力机制对所述篇章特征数据整合,得到篇章表示数据;
将所述篇章表示数据和所述输入数据分别输入至神经网络进行动作预测,得到动作预测结果;
基于所述动作预测结果得到预测的情感、原因和情感原因关系对。
优选的,得到每个词的上下文表示数据,具体过程为:
通过预训练模型word2vec或BERT对所述文本表示数据进行处理,得到初始化词嵌入词向量,并通过随机初始化获得固定词向量;
将所述初始化词嵌入词向量和所述固定词向量进行拼接后输入至第一双层Bi-LSTM网络,得到每个词的上下文表示数据。
优选的,所述第一解析器的状态具体为:
所述状态由元组s表示:s=(σ,γ,λ,e,β,E,C,P),其中,σ表示存储已处理结果的栈,β表示存储未处理所述上下文表示数据的栈,γ表示暂存元素的缓冲区,λ表示生成元素,e表示解析出的情感元素或原因元素的索引缓存,E表示存储情感元素的存储器,C表示存储原因元素的存储器,P表示存储情感原因生成关系对的存储器。
优选的,所述预定义动作具体为:
至少包括:EMO-SHIFT动作、CAU-SHIFT动作、EMO-GEN动作、CAU-GEN动作、ARC动作、NO-ARC动作、SHIFT动作和DELETE动作;
所述EMO-SHIFT动作表示:获取情感表达数据中的一个元素;
所述CAU-SHIFT动作表示:获取原因表达数据中的一个元素;
所述EMO-GEN动作表示:一个情感表达数据构建完成;
所述CAU-GEN动作表示:一个原因表达数据构建完成;
所述ARC动作表示:情感表示数据和原因表达数据之间存在关系;
所述NO-ARC动作表示:情感表示数据和原因表达数据之间不存在关系;
所述SHIFT动作表示:执行所述ARC动作或所述NO-ARC动作后将已处理元素移到σ中;
所述DELETE动作表示:将单词从β中移出,不被包含在元素中。
优选的,所述预定义动作控制所述状态的转换,根据所述上下文表示数据和当前状态,选择并执行相应的动作。
优选的,得到输入数据,具体过程为:
通过第二Bi-LSTM网络对β中的数据初始化,得到时间步t时的β状态表示
通过Stack-LSTM网络分别学习σ、γ、e和A中各元素的表示,对应得到时间步t时的σ状态表示时间步t时的γ状态表示/>时间步t时的e状态表示/>和时间步t时的A的状态表示/>其中A表示记录历史动作的堆栈;
对λ进行处理,得到情感或原因的特征表示
将和/>进行拼接,得到输入数据gt:
优选的,得到篇章表示数据,具体过程为:
获取所述文档中的情感数据γ(εi)和原因数据λ(εj);
将所述情感数据和所述原因数据输入至所述第二解析器中,对应得到情感子句EDU(εi)和原因子句EDU(εj);
通过所述协同注意力机制中的第一关注通道获取EDU(εi)分别与γ(εi)和λ(εj)之间的相关程度:
其中,表示基于r(εk)和EDU(εi)计算得到的注意力得分的中间变量,r(εk)表示γ(εi)或λ(εj)的表征,Wa表示第一权重矩阵,Wb表示第二权重矩阵,b表示偏置项,αk1表示第一注意力权重,softmax(·)表示softmax函数计算操作,Oi表示文档中与特定情感相关的上下文数据;
通过所述协同注意力机制中的第二关注通道获取EDU(εj)分别与γ(εi)和λ(εj)之间的相关程度:
其中,表示基于r(εk)和EDU(εj)计算得到的注意力得分的中间变量,αk2表示第二注意力权重,Oj表示文档中与特定原因相关的上下文数据;
将Oj和Oi拼接得到所述篇章表示数据O:O=[Oi;Oj]。
优选的,得到动作预测结果,具体过程为:
将所述篇章表示数据和所述输入数据进行拼接,得到输入状态数据Dt;
基于如下公式预测下一步动作at+1的概率M(at+1):
M(at+1)=softmax(FFNs(Dt))
其中,FFNs(·)表示分层前馈神经网络;
采用集束搜索法保留前B个动作概率最高的状态设为新的状态项集;
所述状态项集用于下一步的列表更新,经过迭代更新,直至所有输入数据处理完,选取动作概率最高的状态项集作为预测结果。
一种基于神经网络的情感原因对提取系统,包括:数据获取模块、第一处理模块、第二处理模块、输入数据获取模块、特征数据获取模块、表示数据获取模块、预测模块和结果获取模块;
所述数据获取模块,用于获取文档及所述文档对应的词索引序列;
所述第一处理模块,用于基于所述文档和所述词索引序列得到文本表示数据;
所述第二处理模块,用于对所述文本表示数据进行预处理,得到每个词的上下文表示数据;
所述输入数据获取模块,用于基于所述上下文表示数据并利用第一解析器的状态和预定义动作得到输入数据;
所述特征数据获取模块,用于通过第二解析器对所述文档进行处理,得到篇章特征数据;
所述表示数据获取模块,用于通过协同注意力机制对所述篇章特征数据整合,得到篇章表示数据;
所述预测模块,用于将所述篇章表示数据和所述输入数据分别输入至神经网络进行动作预测,得到动作预测结果;
所述结果获取模块,用于基于所述动作预测结果得到预测的情感、原因和情感原因关系对。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于神经网络的情感原因对提取方法及系统,将ECPE任务建模为一个图预测问题,通过应用一系列操作来解析句子结构,并采用神经网络实现端到端的预测,避免了误差传播;整合RST解析器的篇章知识,提升情感原因配对的性能并缓解长距离依赖问题;引入协同注意力机制更好的整合篇章信息,解决了重叠原因的问题;能够有效地对文档进行建模,捕获子句间的内在联系,同时保持了较高的解码效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种基于神经网络的情感原因对提取方法流程示意图。
图2为本发明提供的生成情感-原因对示意图。
图3为本发明提供的篇章信息整合的协同注意力机制示意图。
图4为本发明提供的动作预测过程示意图。
图5为本发明提供的一种基于神经网络的情感原因对提取系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本发明实施例公开了一种基于神经网络的情感原因对提取方法,包括:
获取文档及文档对应的词索引序列;
基于文档和词索引序列得到文本表示数据;
对文本表示数据进行预处理,得到每个词的上下文表示数据;
基于上下文表示数据并利用第一解析器的状态和预定义动作得到输入数据;
通过第二解析器对文档进行处理,得到篇章特征数据;
通过协同注意力机制对篇章特征数据整合,得到篇章表示数据;
将篇章表示数据和输入数据分别输入至神经网络进行动作预测,得到动作预测结果;
基于动作预测结果得到预测的情感、原因和情感原因关系对。
实施例2
节点间的关系为有向边,ECPE的任务是识别文档中的情感表达数据E(ie→ij),原因表达数据C(it→ih)和情感-原因关系对P(ij→ih),其中,1≤e,j,t,h≤n。边的关系表示情感或者原因完整内部结构的边,或表示情感和原因之间因果关系的边。
如图2所示,给定例句(a),最终识别结果为:1)C中两段原因文本:“Tom plannedto play trick on Maria”(1→7)和“on his prank”(19→21);2)E中情感文本:“Tom felta deep sense of shame”(12→18为内疚情感);3)P中2个关系对(12→1),(12→19),其中数字是对应的词索引序列。
基于此,本发明实施例公开了一种基于神经网络的情感原因对提取方法,包括:
获取文档及文档对应的词索引序列。
优选的,文档为T={w1,w2,...,wn},词索引序列为I={i1,i2,...,in}。
基于文档和词索引序列得到文本表示数据。
对文本表示数据进行预处理,得到每个词的上下文表示数据。
优选的,得到每个词的上下文表示数据,具体过程为:
通过预训练模型word2vec或BERT对文本表示数据进行处理,得到初始化词嵌入词向量以及随机初始化获得的固定词向量;
将初始化词嵌入词向量和固定词向量进行拼接后输入至第一双层Bi-LSTM网络,得到每个词的上下文表示数据。
基于上下文表示数据并利用第一解析器的状态和预定义动作得到输入数据。
优选的,第一解析器的状态具体为:
状态由元组s表示:s=(σ,γ,λ,e,β,E,C,P),其中,σ表示存储已处理结果的栈,β表示存储未处理上下文表示数据的栈,γ表示暂存元素的缓冲区,λ表示生成元素,e表示解析出的情感元素或原因元素的索引缓存,E表示存储情感元素的存储器,C表示存储原因元素的存储器,P表示存储情感原因生成关系对的存储器,这种结构化表示有助于有效捕捉情感-原因关系。
优选的,本实施例第一解析器采用现有的解析器,解析器为通过状态和转移操作并结合神经网络进行动作预测的工具。
优选的,预定义动作具体为:
至少包括:EMO-SHIFT动作、CAU-SHIFT动作、EMO-GEN动作、CAU-GEN动作、ARC动作、NO-ARC动作、SHIFT动作和DELETE动作;
EMO-SHIFT动作表示:获取情感表达数据中的一个元素,即将情感表达数据从β中弹出至e中,作为部分情感表达数据;
CAU-SHIFT动作表示:获取原因表达数据中的一个元素,即将原因表达数据从β中弹出至e中,作为部分原因表达数据;
EMO-GEN动作表示:一个情感表达数据构建完成,将e中的所有项弹出,形成带有情感标签l的情感表达,并将其表示创建到λ;
CAU-GEN动作表示:一个原因表达数据构建完成,将e中的所有项弹出,形成一个完整原因表达,并将其表示创建到λ;
ARC动作表示:情感表示数据和原因表达数据之间存在关系,并构建有向图;
NO-ARC动作表示:情感表示数据和原因表达数据之间不存在关系;
SHIFT动作表示:执行ARC动作或NO-ARC动作后将已处理元素移到σ中;
DELETE动作表示:将单词从β中移出,不被包含在元素中。
优选的,预定义动作控制状态的转换,根据上下文表示数据和当前状态,选择并执行相应的动作。
优选的,得到输入数据,具体过程为:
通过第二Bi-LSTM网络对β中的数据初始化,得到时间步t时的β状态表示
通过Stack-LSTM网络分别学习σ、γ、e和A中各元素的表示,对应得到时间步t时的σ状态表示时间步t时的γ状态表示/>时间步t时的e状态表示/>和时间步t时的A的状态表示/>其中A表示记录历史动作的堆栈;
对λ进行处理,得到情感或原因的特征表示
将和/>进行拼接,得到输入数据gt:
优选的,对于第t步的σ,可以通过计算获得状态表示,其中,λt表示栈中的第t个元素,ds表示隐藏单元数。类似地,可以分别得到γ、e和A的表示。
通过第二解析器对文档进行处理,得到篇章特征数据。
优选的,本实施例对于隐式篇章信息,第二解析器采用了Liu等人提出的RST解析器作为外部资源,隐式地利用RST解析器生成的篇章特征数据。
优选的,在中文RST数据集上对解析器进行训练,然后采用预训练RST解析器对情感原因文本进行处理,得到篇章特征数据,包含了丰富的上下文信息。
通过协同注意力机制对篇章特征数据整合,得到篇章表示数据。
优选的,如图3所示,得到篇章表示数据,具体过程为:
获取文档中的情感数据γ(εi)和原因数据λ(εj);
将情感数据和原因数据输入至RST解析器中,对应得到情感子句EDU(εi)和原因子句EDU(εj);
通过协同注意力机制中的第一关注通道获取EDU(εi)分别与γ(εi)和λ(εj)之间的相关程度:
其中,表示基于r(εk)和EDU(εi)计算得到的注意力得分的中间变量,r(εk)表示γ(εi)或λ(εj)的表征,Wa表示第一权重矩阵,Wb表示第二权重矩阵,b表示偏置项,αk1表示第一注意力权重,softmax(·)表示softmax函数计算操作,Oi表示文档中与特定情感相关的上下文数据;
通过协同注意力机制中的第二关注通道获取EDU(εj)分别与γ(εi)和λ(εj)之间的相关程度:
其中,表示基于r(εk)和EDU(εj)计算得到的注意力得分的中间变量,αk2表示第二注意力权重,Oj表示文档中与特定原因相关的上下文数据;
将Oj和Oi拼接得到篇章表示数据O:O=[Oi;Oj]。
优选的,r(εk)和EDU(εi)分别经过第一权重矩阵Wa、第二权重矩阵Wb和偏置项b进行线性变换,并通过激活函数得到表示然后通过softmax函数计算得到第一注意力权重αk1={α11,α12},该权重表示EDU(εi)在Oi中的贡献程度。
优选的,优选的,r(εk)和EDU(εj)分别经过第一权重矩阵Wa、第二权重矩阵Wb和偏置项b进行线性变换,并通过激活函数得到表示然后通过softmax函数计算得到第一注意力权重αk2={α21,α22},该权重表示EDU(εj)在Oj中的贡献程度。
优选的,协同注意力机制通过查询候选情感和原因的篇章依存关系,充分捕捉他们之间的关系。
优选的,协同注意力机制具体为:
其中,Q、K和V分别表示查询、键和值矩阵,dk为键的维度。
优选的,通常情况下,RST中的子句只包含一个情感表达或一个原因表达。这种场景下,ECPE的情感或原因表达与RST的EDU子句一一对应。文档中的情感数据γ(εi)和原因数据λ(εj),与之对应的子句的表示分别为情感子句EDU(εi)和原因子句EDU(εj)。但有时一个分句可能会同时包含多个表达(情感或原因),针对这种情况,RST的同一EDU子句被同时用于表示情感和原因。例如,给定情感数据γ(εi)和原因数据λ(εj),它们对应的子句表示形式相同,即EDU(εi)=EDU(εj)。
将篇章表示数据和输入数据分别输入至神经网络进行动作预测,得到动作预测结果。
优选的,如图4所示,得到动作预测结果,具体过程为:
将篇章表示数据和输入数据进行拼接,得到输入状态数据Dt;
基于如下公式预测下一步动作at+1的概率M(at+1):
M(at+1)=softmax(FFNs(Dt))
其中,FFNs(·)表示分层前馈神经网络;
采用集束搜索法保留前B个动作概率最高的状态设为新的状态项集;
状态项集用于下一步的列表更新,经过迭代更新,直至所有输入数据处理完,选取动作概率最高的状态项集作为预测结果。
优选的,集束搜索法具体过程为:
创建一个有序列表,用于保存每个阶段产生的所有状态项,并按动作概率大小进行排序。在解码开始前,设定解析器的初始状态s。当处理单词时,列表中的每个候选状态会通过采取所有可能的动作进行扩展,从而产生一组新的状态。新的状态会被进行预测动作概率大小并排序,前B个动作概率最高的状态被设为新的状态项集,并用于下一步的列表更新。经过多轮迭代,直到所有输入的单词被处理完成,动作概率最高的状态项集被作为最终输出结果。
基于动作预测结果得到预测的情感、原因和情感原因关系对。
优选的,还包括:对神经网络进行训练;
将训练数据中的黄金输出结构转换为动作序列,在转移过程中,最小化相应黄金动作的负对数似然,训练的目标函数为交叉熵损失函数L:
其中,T表示动作序列的总大小,yt表示序列,表示第t步的黄金动作,p(yt|Θ)表示模型对位置t的标签的预测概率分布,Θ表示网络中的所有参数,ζ表示正则化项的系数。
优选的,训练目标是学习一个能够预测正确转移动作序列的神经网络,然后转移动作序列用来构建正确的情感原因,黄金输出结构表示正确输出结构,具体训练是减小网络预测的动作与黄金动作之间的损失。
优选的,还包括对训练的神经网络进行测试与评估:
测试与评估的性能指标采用精确度(Precision,简记为P)、召回率(Recall,简记为R)和F1值来度量实验中各个神经网络的性能,情感或原因表达的正确提取需要与黄金索引的起始和结束索引完全匹配。
优选的,在本实施例中,实验基于Xia等人为ECPE任务构建的中文情感原因数据集。数据集共有1,945篇文档,包含2,167个情感-原因对。每个文档平均含有87.18个分句。每个情感/原因平均含有6.08个分句。其中,有76对情感-原因对是两个原因与同一情感重叠,有3对是三个原因与同一情感重叠。62.1%的情感-原因对之间相隔一个句子,23.6%是相邻的,10.4%由两个分句隔开,剩余3.9%由两个以上的分句隔开。
在每次实验中,随机抽取80%的数据作为训练集,其余10%的数据分别作为开发集和测试集。主要任务包括情感-原因对提取(ECPE)任务以及单独的情感提取(EE)和原因提取(CE)子任务。
与Xia等人提出的方法一致,本文采用中文微博语料库中预训练的word2vec词向量作为初始词嵌入,词嵌入维度设置为200。此外,实验还评估了其它的预训练语言模型,如ELMo和BERT。对于ELMo,在相同的中文语料库上进行了预训练。而对于BERT则直接采用了官方发布的中文版本3。Bi-LSTM和Stack-LSTM的隐藏单元数设置为200,采用了双层的Bi-LSTM、Stack-LSTM和FFNs结构。状态维度设置为200。实验使用Adam优化器来训练神经网络模型,其学习率初始值为1e-5,衰减率为1e-3。在Adam优化器中,学习率会随着学习过程中的衰减率逐渐降低,以达到更好的性能和更稳定的收敛。本发明采用小批次(mini-batch)以及提前停止策略(early-stop)对模型进行训练。实验发现批次大小为16时达到最佳效果。根据实验,将设定为0.2。实验的环境为:NVIDIA GeForce GTX 1050Ti GPU和8GB内存。
实施例3
在另一实施例中,为了验证神经网络模型的有效性进行了多组对比实验:
对比方法包括Xia等人基于两步走策略提出了三种不同的流水线方法(Inter-CE、Inter-EC和Indep)。实验还开发了一个流水线抽取模型,称为BaseExt。在BaseExt模型中,情感提取和原因提取是独立进行的,这与Indep模型中的级联过程相同。不同的是,在情感提取阶段,BaseExt采用基于注意力机制的Bi-LSTM作为编码器,CRF作为解码器。近期提出的ECPE-2D和TransECPE模型也作为基线模型。接着,在配对阶段,采用CNN模型来确定情感和原因术语之间的关系,这些关系基于文档输入和提及配对表示。
进行对比测试,在ECPE中文微博语料库数据集上的实验结果如表1所示:
表1
从实验结果数据中看出,联合模型在三个任务中的表现均优于流水线模型,这证实了联合提取方案的有效性。具体的,本文提出的基于转移的神经网络模型Ours(BERT)表现最佳,在EE、CE和ECPE任务中分别达到了87.36%、70.62%和69.12%的F1值。本发明可以在层级图中对情感原因及其关系进行建模,并整合了隐含的篇章信息,使得性能显著的提升。
本发明方法及系统在不同输入表征消减的实验结果如表2所示:
表2
本发明首先将预训练词向量word2vec替换为Xavier方法随机初始化输入单词,可以发现模型性能有略微的下降。当采用上下文语境的词表示EMLo和BERT,任务性能得到较大幅度的提升。特别是采用预训练语言模型BERT,所提模型在ECPE任务上获得了69.12%的F1值,超过了当前的最优模型,证明了在该任务中使用上下文语境的词表示的重要性。
本发明方法及系统在篇章信息消减的实验结果如表3所示:
表3
其中,“w/o O”表示去除篇章信息表示O;“Concat”则表示将EDU(εi)、EDU(εj)、γ(εi)和λ(εj)合并为统一的表示O,不使用协同注意模块;“Prd clause”表示使用EDU的预测子句作为RST结构信息,而不使用标准子句。
表3首先移除篇章信息表示,观察到模型在ECPE任务上性能显著下降(65.97-64.52=1.45%的F1值);用更简单的“Concat”操作替换协同注意模块,也导致模型性能略有下降(65.97-65.04=0.93%的F1值),这验证了协同注意机制在利用篇章特征方面的有效性;在实验中,文档被预先分割成黄金子句(EDUs),即在RST解析树中,每个分句都是一个EDU,无需进一步分割。为了探究在没有使用黄金子句的情况下模型的性能,采用RST解析器将ECPE文档分成若干分段。将这些预测的分段和预测的RST树结构作为篇章输入,可以发现(见表3的“Prd clause”),使用RST解析器预测的分句导致次优的篇章信息整合,在ECPE任务上获得了65.08%的F1值,这一结果仍然优于不使用任何篇章信息的模型性能(64.52%的F1值)。
实施例4
如图5所示,本发明实施例公开了一种基于神经网络的情感原因对提取系统,包括:数据获取模块、第一处理模块、第二处理模块、输入数据获取模块、特征数据获取模块、表示数据获取模块、预测模块和结果获取模块;
数据获取模块,用于获取文档及文档对应的词索引序列;
第一处理模块,用于基于文档和词索引序列得到文本表示数据;
第二处理模块,用于对文本表示数据进行预处理,得到每个词的上下文表示数据;
输入数据获取模块,用于基于上下文表示数据并利用第一解析器的状态和预定义动作得到输入数据;
特征数据获取模块,用于通过第二解析器对文档进行处理,得到篇章特征数据;
表示数据获取模块,用于通过协同注意力机制对篇章特征数据整合,得到篇章表示数据;
预测模块,用于将篇章表示数据和输入数据分别输入至神经网络进行动作预测,得到动作预测结果;
结果获取模块,用于基于动作预测结果得到预测的情感、原因和情感原因关系对。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于神经网络的情感原因对提取方法及系统,将ECPE任务建模为一个图预测问题,通过应用一系列操作来解析句子结构,并采用神经网络实现端到端的预测,避免了误差传播;整合RST解析器的篇章知识,提升情感原因配对的性能并缓解长距离依赖问题;引入协同注意力机制更好的整合篇章信息,解决了重叠原因的问题;能够有效地对文档进行建模,捕获子句间的内在联系,同时保持了较高的解码效率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (3)
1.一种基于神经网络的情感原因对提取方法,其特征在于,包括:
获取文档及所述文档对应的词索引序列;
基于所述文档和所述词索引序列得到文本表示数据;
对所述文本表示数据进行预处理,得到每个词的上下文表示数据;
基于所述上下文表示数据并利用第一解析器的状态和预定义动作得到输入数据;
通过第二解析器对所述文档进行处理,得到篇章特征数据;
通过协同注意力机制对所述篇章特征数据整合,得到篇章表示数据;
将所述篇章表示数据和所述输入数据分别输入至神经网络进行动作预测,得到动作预测结果;
基于所述动作预测结果得到预测的情感、原因和情感原因对;
得到每个词的上下文表示数据,具体过程为:
通过预训练模型word2vec或BERT对所述文本表示数据进行处理,得到初始化词嵌入词向量,并通过随机初始化获得固定词向量;
将所述初始化词嵌入词向量和所述固定词向量进行拼接后输入至第一双层Bi-LSTM网络,得到每个词的上下文表示数据;
所述第一解析器的状态具体为:
所述状态由元组s表示:s=(σ,γ,λ,e,β,E,C,P),其中,σ表示存储已处理结果的栈,β表示存储未处理所述上下文表示数据的栈,γ表示暂存元素的缓冲区,λ表示生成元素,e表示解析出的情感元素或原因元素的索引缓存,E表示存储情感元素的存储器,C表示存储原因元素的存储器,P表示存储情感原因对的存储器;
所述预定义动作具体为:
至少包括:EMO-SHIFT动作、CAU-SHIFT动作、EMO-GEN动作、CAU-GEN动作、ARC动作、NO-ARC动作、SHIFT动作和DELETE动作;
所述EMO-SHIFT动作表示:获取情感表达数据中的一个元素;
所述CAU-SHIFT动作表示:获取原因表达数据中的一个元素;
所述EMO-GEN动作表示:一个情感表达数据构建完成;
所述CAU-GEN动作表示:一个原因表达数据构建完成;
所述ARC动作表示:情感表达数据和原因表达数据之间存在关系;
所述NO-ARC动作表示:情感表达数据和原因表达数据之间不存在关系;
所述SHIFT动作表示:执行所述ARC动作或所述NO-ARC动作后将已处理元素移到σ中;
所述DELETE动作表示:将单词从β中移出,不被包含在元素中;
得到输入数据,具体过程为:
通过第二Bi-LSTM网络对β中的数据初始化,得到时间步t时的β状态表示
通过Stack-LSTM网络分别学习σ、γ、e和A中各元素的表示,对应得到时间步t时的σ状态表示时间步t时的γ状态表示/>时间步t时的e状态表示/>和时间步t时的A的状态表示/>其中A表示记录历史动作的堆栈;
对λ进行处理,得到情感表达数据或原因表达数据的特征表示
将和/>进行拼接,得到输入数据gt:
得到篇章表示数据,具体过程为:
获取所述文档中的情感表达数据γ(εi)和原因表达数据λ(εj);
将所述情感表达数据和所述原因表达数据输入至所述第二解析器中,对应得到情感子句EDU(εi)和原因子句EDU(εj);
通过所述协同注意力机制中的第一关注通道获取EDU(εi)分别与γ(εi)和λ(εj)之间的相关程度:
其中,表示基于r(εk)和EDU(εi)计算得到的注意力得分的中间变量,r(εk)表示γ(εi)或λ(εj)的表征,Wa表示第一权重矩阵,Wb表示第二权重矩阵,b表示偏置项,αk1表示第一注意力权重,softmax(·)表示softmax函数计算操作,Oi表示文档中与特定情感相关的上下文数据;
通过所述协同注意力机制中的第二关注通道获取EDU(εj)分别与γ(εi)和λ(εj)之间的相关程度:
其中,表示基于r(εk)和EDU(εj)计算得到的注意力得分的中间变量,αk2表示第二注意力权重,Oj表示文档中与特定原因相关的上下文数据;
将Oj和Oi拼接得到所述篇章表示数据O:O=[Oi;Oj];
得到动作预测结果,具体过程为:
将所述篇章表示数据和所述输入数据进行拼接,得到输入状态数据Dt;
基于如下公式预测下一步动作at+1的概率M(at+1):
M(at+1)=softmax(FFNs(Dt))
其中,FFNs(·)表示分层前馈神经网络;
采用集束搜索法保留前B个动作概率最高的状态设为新的状态项集;
所述状态项集用于下一步的列表更新,经过迭代更新,直至所有输入数据处理完,选取动作概率最高的状态项集作为预测结果。
2.根据权利要求1所述的一种基于神经网络的情感原因对提取方法,其特征在于,所述预定义动作控制所述状态的转换,根据所述上下文表示数据和当前状态,选择并执行相应的动作。
3.一种应用权利要求1-2任一项所述的基于神经网络的情感原因对提取方法的基于神经网络的情感原因对提取系统,其特征在于,包括:数据获取模块、第一处理模块、第二处理模块、输入数据获取模块、特征数据获取模块、表示数据获取模块、预测模块和结果获取模块;
所述数据获取模块,用于获取文档及所述文档对应的词索引序列;
所述第一处理模块,用于基于所述文档和所述词索引序列得到文本表示数据;
所述第二处理模块,用于对所述文本表示数据进行预处理,得到每个词的上下文表示数据;
所述输入数据获取模块,用于基于所述上下文表示数据并利用第一解析器的状态和预定义动作得到输入数据;
所述特征数据获取模块,用于通过第二解析器对所述文档进行处理,得到篇章特征数据;
所述表示数据获取模块,用于通过协同注意力机制对所述篇章特征数据整合,得到篇章表示数据;
所述预测模块,用于将所述篇章表示数据和所述输入数据分别输入至神经网络进行动作预测,得到动作预测结果;
所述结果获取模块,用于基于所述动作预测结果得到预测的情感、原因和情感原因对。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311854149.1A CN117787267B (zh) | 2023-12-29 | 2023-12-29 | 一种基于神经网络的情感原因对提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311854149.1A CN117787267B (zh) | 2023-12-29 | 2023-12-29 | 一种基于神经网络的情感原因对提取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117787267A CN117787267A (zh) | 2024-03-29 |
CN117787267B true CN117787267B (zh) | 2024-06-07 |
Family
ID=90396063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311854149.1A Active CN117787267B (zh) | 2023-12-29 | 2023-12-29 | 一种基于神经网络的情感原因对提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117787267B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014017023A1 (ja) * | 2012-07-26 | 2014-01-30 | 日本電気株式会社 | 原因表現抽出装置、原因表現抽出方法および原因表現抽出プログラム |
CN111382565A (zh) * | 2020-03-09 | 2020-07-07 | 南京理工大学 | 基于多标签的情绪-原因对抽取方法及系统 |
KR20200119410A (ko) * | 2019-03-28 | 2020-10-20 | 한국과학기술원 | 전역 및 지역 문맥 기반 한국어 대화문 감정 인식 시스템 및 방법 |
CN112364127A (zh) * | 2020-10-30 | 2021-02-12 | 重庆大学 | 一种短文档情感原因对提取方法、系统、存储介质 |
CN113505583A (zh) * | 2021-05-27 | 2021-10-15 | 山东交通学院 | 基于语义决策图神经网络的情感原因子句对提取方法 |
CN113947074A (zh) * | 2021-10-12 | 2022-01-18 | 北京理工大学 | 一种深度协同交互的情感原因联合抽取方法 |
CN114004235A (zh) * | 2021-09-17 | 2022-02-01 | 西安交通大学深圳研究院 | 基于句向量和多特征融合的情感原因对抽取方法、系统及装置 |
CN114065769A (zh) * | 2022-01-14 | 2022-02-18 | 四川大学 | 情感原因对抽取模型的训练方法、装置、设备及介质 |
CN114116974A (zh) * | 2021-11-19 | 2022-03-01 | 深圳市东汇精密机电有限公司 | 一种基于注意力机制的情感原因提取方法 |
CN114357164A (zh) * | 2021-12-29 | 2022-04-15 | 武汉大学 | 情感-原因对抽取方法、装置、设备及可读存储介质 |
CN114416991A (zh) * | 2022-01-18 | 2022-04-29 | 中山大学 | 一种基于prompt的文本情感原因分析方法和系统 |
CN116578671A (zh) * | 2023-04-27 | 2023-08-11 | 西北工业大学 | 一种情感-原因对提取方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11921715B2 (en) * | 2014-01-27 | 2024-03-05 | Microstrategy Incorporated | Search integration |
-
2023
- 2023-12-29 CN CN202311854149.1A patent/CN117787267B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014017023A1 (ja) * | 2012-07-26 | 2014-01-30 | 日本電気株式会社 | 原因表現抽出装置、原因表現抽出方法および原因表現抽出プログラム |
KR20200119410A (ko) * | 2019-03-28 | 2020-10-20 | 한국과학기술원 | 전역 및 지역 문맥 기반 한국어 대화문 감정 인식 시스템 및 방법 |
CN111382565A (zh) * | 2020-03-09 | 2020-07-07 | 南京理工大学 | 基于多标签的情绪-原因对抽取方法及系统 |
CN112364127A (zh) * | 2020-10-30 | 2021-02-12 | 重庆大学 | 一种短文档情感原因对提取方法、系统、存储介质 |
CN113505583A (zh) * | 2021-05-27 | 2021-10-15 | 山东交通学院 | 基于语义决策图神经网络的情感原因子句对提取方法 |
CN114004235A (zh) * | 2021-09-17 | 2022-02-01 | 西安交通大学深圳研究院 | 基于句向量和多特征融合的情感原因对抽取方法、系统及装置 |
CN113947074A (zh) * | 2021-10-12 | 2022-01-18 | 北京理工大学 | 一种深度协同交互的情感原因联合抽取方法 |
CN114116974A (zh) * | 2021-11-19 | 2022-03-01 | 深圳市东汇精密机电有限公司 | 一种基于注意力机制的情感原因提取方法 |
CN114357164A (zh) * | 2021-12-29 | 2022-04-15 | 武汉大学 | 情感-原因对抽取方法、装置、设备及可读存储介质 |
CN114065769A (zh) * | 2022-01-14 | 2022-02-18 | 四川大学 | 情感原因对抽取模型的训练方法、装置、设备及介质 |
CN114416991A (zh) * | 2022-01-18 | 2022-04-29 | 中山大学 | 一种基于prompt的文本情感原因分析方法和系统 |
CN116578671A (zh) * | 2023-04-27 | 2023-08-11 | 西北工业大学 | 一种情感-原因对提取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117787267A (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Advanced data exploitation in speech analysis: An overview | |
CN112784532B (zh) | 用于短文本情感分类的多头注意力记忆系统 | |
CN111143553B (zh) | 一种实时文本数据流的特定信息识别方法及系统 | |
CN113987179A (zh) | 基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质 | |
CN117421595B (zh) | 一种基于深度学习技术的系统日志异常检测方法及系统 | |
WO2021061233A1 (en) | Inter-document attention mechanism | |
CN118296150B (zh) | 一种基于多对抗网络改进的评论情感识别方法 | |
CN115017299A (zh) | 一种基于去噪图自编码器的无监督社交媒体摘要方法 | |
CN113505583A (zh) | 基于语义决策图神经网络的情感原因子句对提取方法 | |
CN114238649A (zh) | 一种常识概念增强的语言模型预训练方法 | |
Soygazi et al. | THQuAD: Turkish historic question answering dataset for reading comprehension | |
CN114692605A (zh) | 一种融合句法结构信息的关键词生成方法及装置 | |
CN117235216A (zh) | 一种基于异构知识融合的知识推理方法 | |
Qiu et al. | Chinese Microblog Sentiment Detection Based on CNN‐BiGRU and Multihead Attention Mechanism | |
Jin et al. | WordTransABSA: enhancing Aspect-based Sentiment Analysis with masked language modeling for affective token prediction | |
CN118227790A (zh) | 基于多标签关联的文本分类方法、系统、设备及介质 | |
CN118093860A (zh) | 一种基于文本嵌入向量聚类的多层次科研主题挖掘方法 | |
CN117787267B (zh) | 一种基于神经网络的情感原因对提取方法及系统 | |
Fan et al. | Large margin nearest neighbor embedding for knowledge representation | |
Putra et al. | Textual Entailment Technique for the Bahasa Using BiLSTM | |
Zhang et al. | An improved math word problem (MWP) model using unified pretrained language model (UniLM) for pretraining | |
Bahaweres et al. | Hybrid software defect prediction based on LSTM (long short term memory) and word embedding | |
Noronha et al. | Summary generation using deep learning | |
Sravani et al. | Multimodal Sentimental Classification using Long-Short Term Memory | |
Dhingra | End-to-End Learning with Text & Knowledge Bases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |