CN115391534A - 文本情感原因识别方法、系统、设备及存储介质 - Google Patents

文本情感原因识别方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN115391534A
CN115391534A CN202211032385.0A CN202211032385A CN115391534A CN 115391534 A CN115391534 A CN 115391534A CN 202211032385 A CN202211032385 A CN 202211032385A CN 115391534 A CN115391534 A CN 115391534A
Authority
CN
China
Prior art keywords
clause
document
emotion
cause
causal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211032385.0A
Other languages
English (en)
Inventor
陈恩红
刘淇
曹卫
张琨
阮书岚
陶汉卿
王皓
赵思蕊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202211032385.0A priority Critical patent/CN115391534A/zh
Publication of CN115391534A publication Critical patent/CN115391534A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种文本情感原因识别方法、系统、设备及存储介质,针对情感因果文本蕴含的因果叙述信息,运用深度神经网络的语义建模技术,并融合注意力机制,建模文档的因果叙述信息并学习因果叙述下的原因和结果之间的因果关联,从而准确认知情感因果文本的情感因果语义,识别文本的情感原因,弥补了现有的文本原因识别研究中没有考虑文本的因果叙述信息的不足。

Description

文本情感原因识别方法、系统、设备及存储介质
技术领域
本发明涉及人工智能领域的文本情感原因识别技术领域,尤其涉及一种文本情感原因识别方法、系统、设备及存储介质。
背景技术
随着社交媒体技术的发展,社交媒体平台累积了大量文本数据,这些数据蕴含了丰富的情感信息,对其进行情感识别可以帮助商家更好地了解用户需求、调整商业决策等,对于社交媒体的情感智能十分有帮助。值得注意的是,文本情感识别仅是文本情感的“知其然”,还有必要对其情感进入深层次理解,认知其情感原因。从情感表象进行情感溯因,由表及里地认知情感的深层表达机理,也是社交媒体文本情感计算的重要研究内容。
目前,文本情感原因识别任务侧重于在词汇和句子层面的文本语义理解,并取得了很大的进展。然而,这些方法往往忽略了情感文本中蕴含的因果叙事信息,因此,识别性能还有待提升。从叙述学角度来说,因果叙事是指关于事件演化过程中因果关系的陈述,它影响了人类对事件的概念化方式,有助于长文本的表征和理解。比如,在本文的ECE(Emotion Cause Extraction,情感原因抽取)情感文本中,其叙述蕴含情感短语表达和相应的结果表达,这些表达所对应的子句序列(比如:蕴含情感短语表达的子句即为情感原因子句,蕴含相应结果信息的子句即为情感结果子句)共同构成了文本的因果叙事,并以语义结构的形式进行呈现,进而对结构层面的情绪原因认知非常有帮助。因此有必要充分认知和利用社交媒体文本的因果叙事信息,来更好地促进文本情感原因任务的性能提升。
发明内容
本发明的目的是提供一种文本情感原因识别方法、系统、设备及存储介质,考虑了情感文本中蕴含的因果叙事信息,可以准确预测情感原因子句。
本发明的目的是通过以下技术方案实现的:
一种文本情感原因识别方法,包括:
根据文档中已知的情感短语标记情感结果子句,并利用预训练语言模型将文档的各个子句进行矢量化,获得文档的向量化语义表示集合;
通过结果感知的情感注意力单元,结合文档的向量化语义表示集合,挖掘情感结果子句与其它子句之间的情感因果关联,初步理解文本的情感因果关系,获得文档的蕴含情绪因果关联信息的文本表示集合;
通过叙述感知的因果关联单元,利用因果叙事的语义连贯性学习文档中因果叙事,基于文档的蕴含情绪因果关联信息的文本表示集合,获得文档的因果叙事表征集合;
通过结果感知的情感注意力单元,结合文档的因果叙事表征集合,重新认知情感结果子句与其它子句之间的情感因果关联,获得重新认知后的文本表示集合;
基于所述重新认知后的文本表示集合进行情感原因子句预测。
一种文本情感原因识别系统,包括:
向量化语义表示集合获取单元,用于根据文档中已知的情感短语标记情感结果子句,并利用预训练语言模型将文档的各个子句进行矢量化,获得文档的向量化语义表示集合;
文本表示集合获取单元,用于通过结果感知的情感注意力单元,结合文档的向量化语义表示集合,挖掘情感结果子句与其它子句之间的情感因果关联,初步理解文本的情感因果关系,获得文档的蕴含情绪因果关联信息的文本表示集合;
因果叙事表征集合获取单元,用于通过叙述感知的因果关联单元,利用因果叙事的语义连贯性学习文档中因果叙事,基于文档的蕴含情绪因果关联信息的文本表示集合,获得文档的因果叙事表征集合;
重新认知后的文本表示集合获取单元,用于通过结果感知的情感注意力单元,结合文档的因果叙事表征集合,重新认知情感结果子句与其它子句之间的情感因果关联,获得重新认知后的文本表示集合;
预测单元,用于基于所述重新认知后的文本表示集合进行情感原因子句预测。
一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
由上述本发明提供的技术方案可以看出,针对情感因果文本蕴含的因果叙述信息,运用深度神经网络的语义建模技术,并融合注意力机制,建模文档的因果叙述信息并学习因果叙述下的原因和结果之间的因果关联,从而准确认知情感因果文本的情感因果语义,识别文本的情感原因,弥补了现有的文本原因识别研究中没有考虑文本的因果叙述信息的不足。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明实施例提供的一种文本情感原因识别方法的流程图;
图2为本发明实施例提供的两个候选原因区域的示意图;
图3为本发明实施例提供的一种文本情感原因识别系统的示意图;
图4为本发明实施例提供的一种处理设备的示意图;
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
下面对本发明所提供的一种文本情感原因识别方法、系统、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
实施例一
本发明实施例提供一种文本情感原因识别方法,旨在利用因果叙事信息来辅助文本的情感原因子句的识别,该方法充分利用因果文本中的已知情感标签来感知该段文本的因果结构,进而推测情感原因子句的候选区域。然后,在因果结构的指导下,通过建模因果叙述中的情感原因候选区与已知情感结果子句的强因果相关性,来预测情绪原因子句;主要原理可以描述为:根据叙述常识,代表情感因果文本(简称为文档)的整体情感标签的短语即为这段文档的情感短语,相应地,情感文本中与该情感短语在情感上一致的唯一子句可视为这段情感文本的情感结果子句。而且,在因果叙述研究中,学者们注意到原因叙述和结果叙述不仅在语义上有着强烈的一致性,而且在时序上存在确定的关联,即:因果叙述为顺序因果叙述(因果叙述中的情感原因子句在情感结果子句之前),或者因果叙述为倒叙因果叙事因果叙述中的情感原因子句在情感结果子句之后)。基于此,本发明侧重于情感因果文中的因果叙事认知理解,并基于文档的因果叙事中的情感语义相关性来识别情感原因子句。如图1所示,为本发明实施例提供的一种文本情感原因识别方法的流程图,其主要包括如下步骤:
步骤1、根据文档中已知的情感短语标记情感结果子句,并利用预训练语言模型将文档的各个子句进行矢量化,获得文档的向量化语义表示集合。
本发明实施例中,给定一个文档D和情感短语ep,其中,情感短语ep为文档D的整体情感标签,可视为这段情感因果文本的情感结果。考虑到情感结果短语ep与文档D的唯一一个子句在情感上一致,这个子句即为情感结果子句,基于此,将相关子句标记为情感结果子句,以认知文档D的因果叙述,便于后续阶段的叙述理解。特别的是,本发明实施例中,可通过字符串匹配操作来定位文档D中短语ep的位置,进而实现情感结果子句的标记过程。
本发明实施例中,将文档D的子句数目记为n,情感结果子句为第k个子句,则文档D的形式为:
Figure BDA0003817982650000041
其中,c表示一个子句,下标为子句的序号,
Figure BDA0003817982650000051
表示情感结果子句,k∈(1,n)。
之后,将文档D输入至预训练语言模型,以获得其向量形式的表达。考虑到预训练语言模型BERT在语义表示方面的出色表现,特别是其演化模型BERT-wwm基于全词掩蔽技术在大规模汉语语料库上的优良性能,因此,本发明实施例中,选择BERT-wwm模型对文档D进行矢量化,获得文档的向量化语义表示集合:
Figure BDA0003817982650000052
其中,Eb表示文档的向量化语义表示集合,x为一个子句的向量化语义表示,
Figure BDA0003817982650000053
为情感结果子句
Figure BDA0003817982650000054
的向量化语义表示。
步骤2、通过结果感知的情感注意力单元,结合文档的向量化语义表示集合,挖掘情感结果子句与其它子句之间的情感因果关联,初步理解文本的情感因果关系,获得文档的蕴含情绪因果关联信息的文本表示集合。
本步骤旨在利用已知的情感结果子句
Figure BDA0003817982650000058
设计一个结果感知的情绪注意单元(REA)来建模和学习情感文本中的情感因果关联,以初步认知文档的情绪因果关系。考虑到子句表征的质量在因果关联建模中的关键作用,本发明首先关注子句的准确表征,然后实施子句之间的情感因果关联建模。
由于BiLSTM(双向长短时记忆网络)擅长较长文本的建模及其上下文信息的捕获,本发明实施例中,采用BiLSTM来处理文档D,确保每个子句语义都不会偏离文档的上下文语境:
Eh=BiLSTM(Eb)
其中,
Figure BDA0003817982650000055
为BiLSTM处理的文档D中每个子句的隐藏状态,即文档的蕴含情绪因果关联信息的文本表示集合,dh为BiLSTM中隐藏状态的维数,h表示一个子句带有上下文信息的表征,
Figure BDA0003817982650000056
是情感结果子句的隐藏状态,此处即为情感结果子句
Figure BDA0003817982650000057
的带有文档上下文的表征,通过上述方式,文档D的上下文信息被合并到其每个子句的表征中。
通过整合文档上下文的方式获得文档D的各子句的良好表征之后,本发明实施例中,将根据已知的情感结果子句建模情感因果关联。根据叙事常识,因果叙述中的各个子句在因果关系的远近程度上存在差异。具体到本发明中,文档D的各个子句与情感结果子句的语义相关度越强,该子句更有可能是情感原因子句。鉴于深度学习模型中的注意机制可以模拟人的注意力,区分所接收信息的差异并关注更关键的信息,本发明采用注意机制来捕捉文档D的情感结果子句与其它各子句之间的不同因果关联,获得每一其它子句与情感结果子句的注意力权重分数,表示为:
Figure BDA0003817982650000061
Figure BDA0003817982650000062
其中,W1,W2和W3表示结果感知的情感注意力单元中可训练的参数,矩阵M为一个中间变量;
Figure BDA0003817982650000063
表示注意力权重分数向量,包含每一其它子句与情感结果子句的注意力权重分数,注意力的权重分数,表示子句与情感结果子句的表征
Figure BDA0003817982650000064
的情感因果关联。
之后,将注意力权重分数向量
Figure BDA0003817982650000065
与所有子句的带有上下文信息的表征集合Eh,促使本发明的模型(即本发明整个方案所构成的模型)更关注与情感结果的语义相关度更高的信息:
Figure BDA0003817982650000066
其中,
Figure BDA0003817982650000067
为文档的蕴含情绪因果关联信息的文本表示集合,表示对文档D的情绪因果关系的初步认知。
步骤3、通过叙述感知的因果关联单元,利用因果叙事的语义连贯性学习文档中因果叙事,基于文档的蕴含情绪因果关联信息的文本表示集合,获得文档的因果叙事表征集合。
本步骤利用叙述学的因果叙事特点来实现文档D的因果叙事信息建模。根据调研,现有的叙事学研究主要集中于文档子句的顺序语义建模。然而,这些基于顺序语义的叙事模型并不适用于因果文本的因果叙事关系建模。这是因为,因果文本中情感原因子句和情感结果子句并非总是按顺序语义进行叙述的。根据叙述学的因果叙事特点,因果叙事通常包括顺序叙事(情感原因子句在情感结果子句之前)和倒叙叙事(情感原因子句在情感结果子句之后)。这意味着因果文本中情感结果子句之前或之后的区域可以被视为文本的候选原因区域。
因此,本发明实施例中,根据因果叙事的特点,按照情感结果子句所在位置,将文档划分为前后两个候选原因区域。前后两个候选原因区域包括:第1个子句至第k个子句的区域,称为第1个候选原因区域;第k个子句到第n个子句的区域,称为第2个候选原因区域;其中,第k个子句为情感结果子句,n为文档的子句数目。根据前后两个候选原因区域从文档的蕴含情绪因果关联信息的文本表示中获得相应的文本表示,记为第一序列
Figure BDA0003817982650000068
与第二序列
Figure BDA0003817982650000069
s表示一个子句蕴含情绪因果关联信息的文本表示,来自所述文档的蕴含情绪因果关联信息的文本表示,下标为子句的序号,
Figure BDA0003817982650000071
表示情感结果子句蕴含情绪因果关联信息的文本表示。如图2所示,展示了前后两个候选原因区域及相关的序列。
以上论述表明,文档D可能包含两种候选的因果关系:一种可能存在于第1个候选原因区域与情感结果子句
Figure BDA0003817982650000072
之间,另一种可能存在于第2个候选原因区域与
Figure BDA0003817982650000073
之间。
根据因果关系在叙事理解中的作用,上述关于文档D的因果叙事认知有助于确定其因果子句的确切区域。在此基础上,本发明设计了一个叙事感知的因果关联单元(NCA),分别对文档D的情感结果子句
Figure BDA0003817982650000074
与两个候选原因区域的两种可能的因果叙事信息进行建模,获得两个因果叙述关联信息,将两个因果叙述关联信息进行整合,获得文档的因果叙事关联向量r;之后,将因果叙事关联向量r整合到文档的蕴含情绪因果关联信息的文本表示集合中,获得文档的因果叙事表征集合,表示为:
Ec=r·W4Eu
其中,Eu表示文档的蕴含情绪因果关联信息的文本表示集合,W4表示叙述感知的因果关联单元中可训练的参数。
Figure BDA0003817982650000075
代表文档D的因果叙事表征,dm是叙述感知的因果关联单元隐层的维度。在因果叙事表征的指导下,本发明能够捕获情感因果文档的因果叙述信息,有利于情感原因子句的识别。
下面针对上述方案中提及的将情感结果子句与前后两个候选原因区域的因果叙事信息进行建模,获得两个因果叙述关联信息,将两个因果叙述关联信息进行整合,得到文档的因果叙事关联向量的优选实施方式进行介绍。
(1)去掉第一序列的最后一个元素获得第一子序列,去掉第二序列的第一个元素获得第二子序列,利用长短时记忆网络分别对第一子序列与第二子序列进行处理,将长短时记忆网络最后一个时间步的输出作为每一子序列的整体语义表示。
以第1个候选原因区域为例,对应的第一序列为
Figure BDA0003817982650000076
考虑到情感结果子句的文本表征
Figure BDA0003817982650000077
是第1个候选原因区域的已知情感结果,第1个候选原因区域可能包含因果叙述。即,情感结果子句的文本表征
Figure BDA0003817982650000078
与第一子序列{s1,...,sk-1}(即第一序列去掉最后一个元素)之间可能存在因果关系。受因果叙事中的原因和结果的语义连贯性的启发,情感结果子句的文本表征
Figure BDA0003817982650000079
与第一子序列{s1,...,sk-1}之间可能的因果关联表现为二者之间具有很强的语义连贯性。因此,本发明建模情感结果子句的文本表征
Figure BDA00038179826500000710
与第一子序列{s1,...,sk-1}之间的语义关联,以衡量两者之间的可能的因果关系,进而实现第1个候选原因区域的因果叙事建模。
具体来说,根据语篇内部的语义一致性可知,在第1个候选原因区域中,第一子序列{s1,...,sk-1}与其相邻子句(即情感结果子句
Figure BDA0003817982650000083
)的文本表征的语义是一致性的。即,序列{s1,...,sk-1}的整体语义表示与相邻子句的文本表征
Figure BDA0003817982650000084
在语义上是及其相近的。考虑到LSTM在处理和理解序列语义方面的良好性能,本发明利用LSTM处理第一子序列{s1,...,sk-1},并将LSTM的最后一个时间步的输出作为此序列的整体语义表示:
fr1=LSTM([s1,s2,...,sk-1])
其中,
Figure BDA0003817982650000085
为序列{s1,s2,...,sk-1}的整体语义表示。
同样的,去掉第二序列第一个元素获得第二子序列{sk+1,...,sn},并输入至LSTM,获得对应的整体语义表示fr2:fr2=LSTM([sk+1,...,sn])。
(2)对于每一子序列,分别计算相应的整体语义表示与情感结果子句蕴含情绪因果关联信息的文本表示的相似度,将相似度作为子序列所属序列的因果叙述关联信息,每一序列对应的因果叙述关联信息的长度等同于序列长度,因果叙述关联信息中的每一元素等于相应的相似度。
本发明参考故事续写研究中关于叙事信息的建模方法,采用余弦相似度Similarity衡量第一子序列{s1,...,sk-1}的整体语义表示fr1与其实际的相邻子句的文本表征
Figure BDA0003817982650000086
之间的语义相似程度β1,公式如下:
Figure BDA0003817982650000081
同理,带入语义表示fr2计算出第二子序列{sk+1,...,sn}的整体语义表示fr2与其相邻子句的文本表征
Figure BDA0003817982650000087
之间的语义相似程度β2
Figure BDA0003817982650000082
(3)通过复制和填充操作将两个序列对应的因果叙述关联信息转换为同等维度的向量形式,再通过取均值的方式进行整合,获得文档的因果叙事关联向量。
如之前所述,每一序列(即第一序列、第二序列)对应的因果叙述关联信息的长度等同于序列长度,因果叙述关联信息中的每一元素等于相应的相似度,因此,可能存在两个序列长度不一致的情况,为了计算方便,本发明通过复制和填充操作将β1和β2转换为同等维度的向量形式:
Figure BDA0003817982650000091
其中,向量
Figure BDA0003817982650000092
表示第t个候选原因区域的因果叙述关联信息,第1个候选原因区域的子句数目为k,第2个候选原因区域的子句数目为n-k+1。此外,考虑到文档D与两个候选原因区域之间的全局与局部关系,ru1和ru2仅涉及文档D的可能存在的局部因果叙事。因此,有必要将ru1和ru2进行整合,以表达文档D的全局因果叙事关联。而且,鉴于ru1和ru2均蕴含位于第k个子句(即情感结果子句)的因果叙述关联信息,本发明通过取均值的方式实现ru1和ru2的整合,表示为:
r=(ru1+ru2)/2
其中,
Figure BDA0003817982650000093
为文档D的因果叙事关联向量。
步骤4、通过结果感知的情感注意力单元,结合文档的因果叙事表征集合,重新认知情感结果子句与其它子句之间的情感因果关联,获得重新认知后的文本表示集合。
考虑到人们在阅读长文本时的多次理解过程,本步骤再次使用REA单元进行文档D的因果关系理解。具体来说,本发明将上以步骤3获得的文档的因果叙事表征集合Ec输入到REA单元进行因果关联的二次建模,表示为:
Eru=REA(Ec)
其中,
Figure BDA0003817982650000094
是进行情感因果关联的重新认知后的文本表示集合。
在本步骤中,因为有了因果叙述信息的引导,可以更准确地认知文档D情感因果关系。本步骤的具体细节与步骤2基本类似,区别仅在于,之前带入的是文档的向量化语义表示集合Eb,此时带入的是蕴含有因果叙事表征信息Ec的文档D的语义表示,因此不再赘述。
步骤5、基于所述重新认知后的文本表示集合进行情感原因子句预测。
本发明实施例中,将所述重新认知后的文本表示集合中每个子句对应的重新认知后的文本表示依次输入至全连接网络与激活函数层进行处理,预测文档中每个子句为情感原因子句的概率,预测过程表示为:
p=Sigmoid(FC(Eru))
其中,FC表示全连接层,Sigmoid表示Sigmoid激活函数,
Figure BDA0003817982650000102
为预测的概率向量,每一元素表示每一子句为情感原因子句的概率。
之后,选出概率最大的子句作为情感原因子句,选出的情感原因子句即为文本情感原因识别结果。
以上介绍了本发明实施例提供的一种文本情感原因识别方法主要流程,需要说明的是,上述方法中所涉及的结果感知的情感注意力单元与叙述感知的因果关联单元需要进行训练,训练阶段,根据预测的文档中每个子句为情感原因子句的概率与真实标签构建损失函数,表示为:
Figure BDA0003817982650000101
其中,m表示训练语料库的文档数量,n代表一个文档中子句的数目,
Figure BDA0003817982650000103
为语料库中第i个文档的第j个子句的真实标签,
Figure BDA0003817982650000104
表示预测的第i个文档的第j个子句为情感原因子句的概率;
利用损失函数更新所述结果感知的情感注意力单元与叙述感知的因果关联单元中的参数,即前文提到的W1~W4四个可训练的参数,此处所涉及的参数更新方式可参照常规技术,本发明不做赘述。
实施例二
本发明还提供一种文本情感原因识别系统,其主要基于前述实施例提供的方法实现,如图3所示,该系统主要包括:
向量化语义表示集合获取单元,用于根据文档中已知的情感短语标记情感结果子句,并利用预训练语言模型将文档的各个子句进行矢量化,获得文档的向量化语义表示集合;
文本表示集合获取单元,用于通过结果感知的情感注意力单元,结合文档的向量化语义表示集合,挖掘情感结果子句与其它子句之间的情感因果关联,初步理解文本的情感因果关系,获得文档的蕴含情绪因果关联信息的文本表示集合;
因果叙事表征集合获取单元,用于通过叙述感知的因果关联单元,利用因果叙事的语义连贯性学习文档中因果叙事,基于文档的蕴含情绪因果关联信息的文本表示集合,获得文档的因果叙事表征集合;
重新认知后的文本表示集合获取单元,用于通过结果感知的情感注意力单元,结合文档的因果叙事表征集合,重新认知情感结果子句与其它子句之间的情感因果关联,获得重新认知后的文本表示集合;
预测单元,用于基于所述重新认知后的文本表示集合进行情感原因子句预测。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例三
本发明还提供一种处理设备,如图4所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
输出设备可以为显示终端;
存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
实施例四
本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (10)

1.一种文本情感原因识别方法,其特征在于,包括:
根据文档中已知的情感短语标记情感结果子句,并利用预训练语言模型将文档的各个子句进行矢量化,获得文档的向量化语义表示集合;
通过结果感知的情感注意力单元,结合文档的向量化语义表示集合,挖掘情感结果子句与其它子句之间的情感因果关联,初步理解文本的情感因果关系,获得文档的蕴含情绪因果关联信息的文本表示集合;
通过叙述感知的因果关联单元,利用因果叙事的语义连贯性学习文档中因果叙事,基于文档的蕴含情绪因果关联信息的文本表示集合,获得文档的因果叙事表征集合;
通过结果感知的情感注意力单元,结合文档的因果叙事表征集合,重新认知情感结果子句与其它子句之间的情感因果关联,获得重新认知后的文本表示集合;
基于所述重新认知后的文本表示集合进行情感原因子句预测。
2.根据权利要求1所述的一种文本情感原因识别方法,其特征在于,所述根据文档中已知的情感短语标记情感结果子句,并利用预训练语言模型将文档的各个子句进行矢量化,获得文档的向量化语义表示集合包括:
给定一个文档D和情感短语ep,其中,情感短语ep为文档D的整体情感标签,在文档D中,与情感短语ep的情感一致的子句即为情感结果子句;将文档D的子句数目记为n,情感结果子句为第k个子句,则文档D的形式为:
Figure FDA0003817982640000011
其中,c表示一个子句,下标为子句的序号,
Figure FDA0003817982640000012
表示情感结果子句,k∈(1,n);
将文档D输入至预训练语言模型,获得文档的向量化语义表示集合:
Figure FDA0003817982640000013
其中,Eb表示文档的向量化语义表示集合,x为一个子句的向量化语义表示,
Figure FDA0003817982640000014
为情感结果子句
Figure FDA0003817982640000015
的向量化语义表示。
3.根据权利要求1所述的一种文本情感原因识别方法,其特征在于,所述通过结果感知的情感注意力单元,结合文档的向量化语义表示集合,挖掘情感结果子句与其它子句之间的情感因果关联,初步理解文本的情感因果关系,获得文档的蕴含情绪因果关联信息的文本表示集合的步骤包括:
使用双向长短时记忆网络对文档的向量化语义表示集合进行处理,获得所有子句的带有上下文信息的表征集合Eh
Figure FDA0003817982640000021
h表示一个子句带有上下文信息的表征,下标为子句的序号,
Figure FDA0003817982640000022
表示情感结果子句的带有上下文信息的表征;
使用注意力机制挖掘情感结果子句与其它子句之间的情感因果关联,获得每一其它子句与情感结果子句的注意力权重分数,表示为:
Figure FDA0003817982640000023
Figure FDA0003817982640000024
其中,W1,W2和W3表示结果感知的情感注意力单元中可训练的参数,矩阵M为一个中间变量;
Figure FDA0003817982640000025
表示注意力权重分数向量,包含每一其它子句与情感结果子句的注意力权重分数;
将注意力权重分数向量
Figure FDA0003817982640000026
与所有子句的带有上下文信息的表征集合Eh,获得文档的蕴含情绪因果关联信息的文本表示集合。
4.根据权利要求1所述的一种文本情感原因识别方法,其特征在于,通过叙述感知的因果关联单元,利用因果叙事的语义连贯性学习文档中因果叙事,基于文档的蕴含情绪因果关联信息的文本表示集合,获得文档的因果叙事表征集合的步骤包括:
根据因果叙事的特点,按照情感结果子句所在位置,将文档划分为前后两个候选原因区域;
分别将情感结果子句与前后两个候选原因区域的因果叙事信息进行建模,获得两个因果叙述关联信息,将两个因果叙述关联信息进行整合,获得文档的因果叙事关联向量r;
将因果叙事关联向量r整合到文档的蕴含情绪因果关联信息的文本表示集合中,获得文档的因果叙事表征集合Ec,表示为:
Ec=r·W4Eu
其中,Eu表示文档的蕴含情绪因果关联信息的文本表示集合,W4表示叙述感知的因果关联单元中可训练的参数。
5.根据权利要求4所述的一种文本情感原因识别方法,其特征在于,所述分别将情感结果子句与前后两个候选原因区域的因果叙事信息进行建模,获得两个因果叙述关联信息,将两个因果叙述关联信息进行整合,得到文档的因果叙事关联向量包括:
前后两个候选原因区域包括:第1个子句至第k个子句的区域,称为第1个候选原因区域;第k个子句到第n个子句的区域,称为第2个候选原因区域;其中,第k个子句为情感结果子句,n为文档的子句数目;
根据前后两个候选原因区域从文档的蕴含情绪因果关联信息的文本表示中获得相应的文本表示,记为第一序列
Figure FDA0003817982640000031
与第二序列
Figure FDA0003817982640000032
s表示一个子句蕴含情绪因果关联信息的文本表示,来自所述文档的蕴含情绪因果关联信息的文本表示,下标为子句的序号,
Figure FDA0003817982640000033
表示情感结果子句蕴含情绪因果关联信息的文本表示;
去掉第一序列的最后一个元素获得第一子序列,去掉第二序列的第一个元素获得第二子序列,利用长短时记忆网络分别对第一子序列与第二子序列进行处理,将长短时记忆网络最后一个时间步的输出作为每一子序列的整体语义表示;
对于每一子序列,分别计算相应的整体语义表示与情感结果子句蕴含情绪因果关联信息的文本表示的相似度,将相似度作为子序列所属序列的因果叙述关联信息,每一序列对应的因果叙述关联信息的长度等同于序列长度,因果叙述关联信息中的每一元素等于相应的相似度;
通过复制和填充操作将两个序列对应的因果叙述关联信息转换为同等维度的向量形式,再通过取均值的方式进行整合,获得文档的因果叙事关联向量。
6.根据权利要求1所述的一种文本情感原因识别方法,其特征在于,所述基于所述重新认知后的文本表示集合进行情感原因子句预测包括:
将所述重新认知后的文本表示集合中每个子句对应的重新认知后的文本表示依次输入至全连接网络与激活函数层进行处理,预测文档中每个子句为情感原因子句的概率,选出概率最大的子句作为情感原因子句。
7.根据权利要求6所述的一种文本情感原因识别方法,其特征在于,该方法还包括:训练阶段,根据预测的文档中每个子句为情感原因子句的概率与真实标签构建损失函数,表示为:
Figure FDA0003817982640000034
其中,m表示训练语料库的文档数量,n代表一个文档中子句的数目,
Figure FDA0003817982640000035
为语料库中第i个文档的第j个子句的真实标签,
Figure FDA0003817982640000036
表示预测的第i个文档的第j个子句为情感原因子句的概率;
利用损失函数更新所述结果感知的情感注意力单元与叙述感知的因果关联单元中的参数。
8.一种文本情感原因识别系统,其特征在于,基于权利要求1~7任一项所述的方法实现,该系统包括:
向量化语义表示集合获取单元,用于根据文档中已知的情感短语标记情感结果子句,并利用预训练语言模型将文档的各个子句进行矢量化,获得文档的向量化语义表示集合;
文本表示集合获取单元,用于通过结果感知的情感注意力单元,结合文档的向量化语义表示集合,挖掘情感结果子句与其它子句之间的情感因果关联,初步理解文本的情感因果关系,获得文档的蕴含情绪因果关联信息的文本表示集合;
因果叙事表征集合获取单元,用于通过叙述感知的因果关联单元,利用因果叙事的语义连贯性学习文档中因果叙事,基于文档的蕴含情绪因果关联信息的文本表示集合,获得文档的因果叙事表征集合;
重新认知后的文本表示集合获取单元,用于通过结果感知的情感注意力单元,结合文档的因果叙事表征集合,重新认知情感结果子句与其它子句之间的情感因果关联,获得重新认知后的文本表示集合;
预测单元,用于基于所述重新认知后的文本表示集合进行情感原因子句预测。
9.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。
10.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。
CN202211032385.0A 2022-08-26 2022-08-26 文本情感原因识别方法、系统、设备及存储介质 Pending CN115391534A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211032385.0A CN115391534A (zh) 2022-08-26 2022-08-26 文本情感原因识别方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211032385.0A CN115391534A (zh) 2022-08-26 2022-08-26 文本情感原因识别方法、系统、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115391534A true CN115391534A (zh) 2022-11-25

Family

ID=84122329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211032385.0A Pending CN115391534A (zh) 2022-08-26 2022-08-26 文本情感原因识别方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115391534A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108836A (zh) * 2023-04-10 2023-05-12 之江实验室 文本情感识别方法、装置、计算机设备及可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108836A (zh) * 2023-04-10 2023-05-12 之江实验室 文本情感识别方法、装置、计算机设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN110502749B (zh) 一种基于双层注意力机制与双向gru的文本关系抽取方法
CN110609891B (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CA3055379C (en) Automated tool for question generation
CN107967257B (zh) 一种级联式作文生成方法
WO2021223323A1 (zh) 一种中文视觉词汇表构建的图像内容自动描述方法
CN110765775B (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
CN109344404B (zh) 情境感知的双重注意力自然语言推理方法
CN110096711B (zh) 序列全局关注和局部动态关注的自然语言语义匹配方法
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN111488739A (zh) 基于多粒度生成图像增强表示的隐式篇章关系识别方法
CN111738007B (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN111666758B (zh) 中文分词方法、训练设备以及计算机可读存储介质
CN112818118B (zh) 基于反向翻译的中文幽默分类模型的构建方法
CN112541356A (zh) 一种生物医学命名实体识别的方法和系统
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN111274829A (zh) 一种利用跨语言信息的序列标注方法
CN111368082A (zh) 一种基于层次网络的领域自适应词嵌入的情感分析方法
CN110968725A (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN115391534A (zh) 文本情感原因识别方法、系统、设备及存储介质
CN113705207A (zh) 语法错误识别方法及装置
CN116108840A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备
CN111813927A (zh) 一种基于主题模型和lstm的句子相似度计算方法
CN113254586B (zh) 一种基于深度学习的无监督文本检索方法
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN113012685B (zh) 音频识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination