CN116628203A - 基于动态互补图卷积网络的对话情感识别方法及系统 - Google Patents
基于动态互补图卷积网络的对话情感识别方法及系统 Download PDFInfo
- Publication number
- CN116628203A CN116628203A CN202310601734.4A CN202310601734A CN116628203A CN 116628203 A CN116628203 A CN 116628203A CN 202310601734 A CN202310601734 A CN 202310601734A CN 116628203 A CN116628203 A CN 116628203A
- Authority
- CN
- China
- Prior art keywords
- utterance
- representation
- knowledge
- dialogue
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 42
- 230000000295 complement effect Effects 0.000 title claims abstract description 22
- 230000008451 emotion Effects 0.000 claims description 37
- 238000005096 rolling process Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 abstract description 14
- 238000005516 engineering process Methods 0.000 abstract description 4
- 239000000203 mixture Substances 0.000 abstract description 3
- 239000013589 supplement Substances 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000009901 attention process Effects 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 206010063659 Aversion Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000994 depressogenic effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Animal Behavior & Ethology (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本公开涉及对话情感识别技术领域,提出了一种基于动态互补图卷积网络的对话情感识别方法及系统,使用了外部知识来补充话语本身的背景信息,同时为了防止在上下文信息的依赖建模中造成话语信息的冗余和丢失,创造性地提出了话语密度的概念,通过话语密度来动态确定话语内的依赖结构,将上下文信息充分融入到每句话的表示中。并在此过程中利用图卷积对话语的表示进行更新,最终使每句话都能够包含话语本身特有的知识与上下文背景,进而实现更加准确的对话情绪识别。
Description
技术领域
本公开涉及对话情感识别相关技术领域,具体的说,是涉及一种基于动态互补图卷积网络的对话情感识别方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,并不必然构成在先技术。
近年来,随着计算机技术和社交网络的快速发展,智能设备如对话机器人凭借其强大的人机对话功能,在许多应用领域逐步取代传统的人类工作者,比如智能医疗、早期教育以及各种服务平台。为了保证对话机器人沟通的逻辑,不仅需要评估对话的设置,而且需要评估人类在对话阶段的情感,所以对话情感检测的研究越来越重要。情绪是一种人类重要的生物属性,而对话则是这种属性表达的常见载体,对话中的情绪识别旨在识别出对话中每一句话背后隐藏的个人情感。随着智能设备对人机对话技术的高需求,如机器人对话技术,情感的准确识别能够提高人机交互的用户体验感。
对话情绪识别的关键在于利用有限的话语信息得到更加丰富的表示,以便正确反映说话者的实时情绪。但是话语中的情绪识别不同于常规的文本情感识别,对话天然具有信息量不足的特点,会导致难以正确分辨情感。因此在许多方法会通过引入外部知识以及通过各种方法获得对话的上下文的信息,以得到更加充足的情感信息。
发明人在研究中发现,不同的对话所需要关注的语境是有差别的,基于循环神经网络的方法只能够注意到话语的近距离信息,对于远程上下文的整合能力不足。而利用了图结构的建模方式,有的设置固定窗口大小,有的利用外部结构,导致话语图中的边无法根据话语的不同进行动态调整,导致上下文信息的获取受到限制。
发明内容
本公开为了解决上述问题,提出了一种基于动态互补图卷积网络的对话情感识别方法及系统,能够充分捕捉上下文信息以及外部知识,并通过动态调整的无向图实现了动态确定话语内的依赖结构,进而实现更加准确的对话情绪识别。
为了实现上述目的,本公开采用如下技术方案:
一个或多个实施例提供了基于动态互补图卷积网络的对话情感识别方法,包括如下步骤:
获取待识别的对话文本,针对对话文本以及上下文感知话语分别进行编码,提取对话文本上下文信息,得到对话的话语表示;
基于外部知识图谱中相关关系对待识别识别文本的词语进行抽象表示,编码后得到对话的知识表示;
基于说话者话语密度构建话语密度图,以及构建与知识表示相关的话语知识图,动态确定话语内的依赖结构,将上下文信息以及外部知识充分融入到每句话的话语表示,并基于图卷积对话语表示进行更新;
基于更新后的话语表示进行分类,得到对话情感类别。
一个或多个实施例提供了基于动态互补图卷积网络的对话情感识别系统,包括:
话语编码器:被配置为获取待识别的对话文本,针对对话文本以及上下文感知话语分别进行编码,提取对话文本上下文信息,得到对话的话语表示;
知识编码器:被配置为基于外部知识图谱中相关关系对待识别识别文本的词语进行抽象表示,编码后得到对话的知识表示;
话语表示更新模块:基于说话者话语密度构建话语密度图,以及构建与知识表示相关的话语知识图,动态确定话语内的依赖结构,将上下文信息以及外部知识充分融入到每句话的话语表示,并基于图卷积对话语表示进行更新;
分类模块:基于更新后的话语表示进行分类,得到对话情感类别。
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述方法所述的步骤。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述方法所述的步骤。
与现有技术相比,本公开的有益效果为:
本公开创新性地使用了话语密度的概念构建对话间的图结构,通过动态调整的无向图实现了动态确定话语内的依赖结构,将上下文信息以及外部知识充分融入到每句话的表示中,并在此过程中利用图卷积对话语的表示进行更新,最终使每句话都能够包含话语本身特有的知识、上下文背景以及外部知识,进而实现更加准确的对话情绪识别。
本公开的优点以及附加方面的优点将在下面的具体实施例中进行详细说明。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的限定。
图1是本公开实施例1的现有对话情感识别中固定窗口为3时,多人对话间的信息传递图;
图2是本公开实施例1的对话情感识别方法流程示意图;
图3是本公开实施例1的仿真示例在话语密度图的过程中,使用不同的基准密度得到结果;
图4是本公开实施例1的仿真示例采用本实施例的方法在不同数据集上图形卷积在DKG分支上的F1得分比较图;
图5是本公开实施例1的本公开实施例1的仿真示例采用本实施例的方法在不同数据集上图形卷积在DDG分支上的F1得分比较图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要说明的是,在不冲突的情况下,本公开中的各个实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。
本公开提出了一种新颖的基于动态互补图卷积网络的对话情感识别。能够在有限的对话信息中尽可能地发掘更多的背景信息,正确识别每一句话语的正确情感。
而对话中的背景信息主要以两种形式存在,一种是话语本身背后所隐藏的说话者的认知与意图等外部知识,另一种则是在对话上下文的语境信息。现有的方法在采用固定窗口整合上下文语境时往往会造成信息冗余,同时针对话语本身背后的不同知识也难以实现深度融合。如图1所示,使用固定窗口大小为3的图结构对上下文进行建模。在本段对话中,导致话语在接受上下文语境信息时产生冗余问题,而针对不同的对话采取相同的固定窗口接收信息,则会产生类似问题,无法对上下文信息实现有效的传递。
因此,为了解决这个问题,本公开提出了一个用于对话情绪识别的动态互补图卷积网络(DCGCN),在该方法中,为了充分丰富对话的信息,使用了外部知识来补充话语本身的背景信息,同时为了防止在上下文信息的依赖建模中造成话语信息的冗余和丢失,创造性地提出了话语密度的概念,通过话语密度来动态确定话语内的依赖结构,将上下文信息充分融入到每句话的表示中。并在此过程中利用图卷积对话语的表示进行更新,最终使每句话都能够包含话语本身特有的知识与上下文背景,进而实现更加准确的对话情绪识别。下面以具体的实施例进行说明。
实施例1
在一个或多个实施方式公开的技术方案中,如图2所示,一种基于动态互补图卷积网络的对话情感识别方法,包括如下步骤:
步骤1、获取待识别的对话文本,针对对话文本以及上下文感知话语分别进行编码,提取对话文本上下文信息,得到对话的话语表示;
步骤2、基于外部知识图谱中相关关系r对待识别识别文本的词语进行抽象表示,编码后得到对话的知识表示;
步骤3、基于说话者话语密度构建话语密度图,以及构建与知识表示相关的话语知识图,动态确定话语内的依赖结构,将上下文信息以及外部知识充分融入到每句话的话语表示,并基于图卷积对话语表示进行更新;
步骤4、基于更新后的话语表示进行分类,得到对话情感类别。
本实施例中,创造性地使用了话语密度的概念构建对话间的图结构,通过动态调整的无向图实现了动态确定话语内的依赖结构,将上下文信息以及外部知识充分融入到每句话的表示中,并在此过程中利用图卷积对话语的表示进行更新,最终使每句话都能够包含话语本身特有的知识、上下文背景以及外部知识,进而实现更加准确的对话情绪识别。
问题定义:
本任务的数据为一段对话的文字记录以及每个组成话语的说话者信息,旨在从一组预先定义的情绪中识别每个话语的情绪。在对话情感识别中,数据由多段对话{c1,c2,…,cn}组成,每段对话由若干话语ci=[u1,u2,…,um]和情感标签组成,其中S表示情感的类别。对于一个话语,它由一些词语组成ui={w1,w2,…,wL}组成。会话ci中的每个话语都是由某一个说话者发出的,可以表示为p(ci)=[p(u1),p(u2),…,p(um)],p(ui)∈P,i=1.2.3...m,其中P表示说话者的类别或姓名。因此,整个问题可以表示为基于一段对话中的上下文和说话者信息来获得每个话语情感标签:/>
可选的,情感标签可以包括:快乐,沮丧,惊讶,无感情色彩,恐惧,厌恶,愤怒等。
步骤1中,对获取的待识别对话进行话语级特征提取,采用的话语编辑器可以为预训练语言模型RoBERTa。RoBERTa Large遵循原有的BERT Large架构,有24层,每个块中有16个自注意头,隐藏维度为1024,总共有355M个参数。
使用前,对预训练语言模型RoBERTa进行微调,对于每个话语ui={w1,w2,…,wL},一个特殊的标记[CLS]连接到话语的开头,得到输入序列{[CLS],w1,w2,…,wL};将输入序列{[CLS],w1,w2,…,wL}以通过话语级情感分类任务微调预训练的RoBERTa模型,并将来自最后隐藏层的[CLS]标记输入到一个池化层来获得情感分类的结果;
在微调过程之后,为了获得由[CLS]标记表示的每个话语级特征向量u′i,以与{[CLS],w1,w2,···,wL}相同的输入格式输入每个话语:
u′i=RoBERTa([CLS],w1,w2,…,wL) (1)
其中,且dm是RoBERTa中隐藏状态的维度,并对来自最后四层的[CLS]令牌进行平均,以获得每个话语的话语级特征向量。然后将每个话语向量u′i通过线性投影转换为dh的维度,隐藏状态变换后维度变化,由dm变换为dh。定义每段会话ci的向量化表示是{s1,s2,…,sm}。
进一步地,需要对提取话语中的顺序信息,话语中的顺序信息对于预测每个话语的情感标签很重要。即为步骤1中提取对话文本的上下文信息,包括如下:
步骤11、为了获取话语中的顺序信息,采用单独的编码器为对话文本上下文感知话语进行特征编码;
步骤12、采用双向长短期记忆(Bi-LSTM)网络,编码对话文本的顺序的上下文信息,每句对话编码后的话语表示为:
步骤2中,获取外部知识并编码,外部知识可以采用ATOMIC知识图,包含87万条推理常识的知识图谱,ATOMIC常识图谱的架构由3大类型的关系、9个关系和877K的(事件,关系,事件)三元组构成。
本实施例中,可以使用ATOMIC知识图的在一个ATOMIC知识图上采用预训练的COMET模型,丢弃短语生成解码器模块。把待识别话语ui作为主语,将它和ATOMIC知识图谱中的关系短语r连接起来。将连接的传递给COMET编码器,并从最后的时间步中提取激活。
具体的,本实施例中,采用ATOMIC图谱四种关系,如下:
X reaction:X在此次事件之后的感受;
X want:X在这次事件之后想干什么;
X intent:X为什么想发起这次事件;
Other reaction:其他人在这次事件之后的感受;
其中,X是说话者,Other是倾听者。
可选的,利用ATOMIC知识图的关系对待识别的对话文本进行特征提取,对待识别文本中的词语ui进行抽象表示。具体的,本实施例中执行这个特征提取操作会为对话中的每个话语生成四个不同的向量(分别对应于四个不同的关系),这些向量是768维的。其抽象表示如下公式:
步骤3中,将上下文信息以及外部知识充分融入到每句话的话语表示,并基于图卷积对话语表示进行更新,包括如下步骤:
步骤31、基于说话者话语密度以及话语表示构建话语密度图,动态确定话语内的依赖结构,将上下文信息融入到每句话的话语表示,并基于图卷积对话语表示进行更新,得到具有语境信息的话语特征;
步骤32、基于说话者话语密度、话语表示以及知识表示构建话语知识图,动态确定话语内的依赖结构,将上下文信息以及外部知识融入到每句话的话语表示,并基于图卷积对话语表示进行更新,得到具有外部知识的话语特征;
下面对步骤3进行详细说明。
为了能够有效获取对话语境中的信息,并模拟现实对话中的相互影响,设计了一个话语密度图(Discourse density graph,下面简称为DDG)来实现话语间的信息传播。其中DDG=(V,E,W)。
DDG中的节点是会话中的话语表示,即V={h1,h2,...,hm};边(i,j,Ai,j)∈E表示从hi传播的信息到hj,其中Ai,j∈W是边的权重信息;边的权重大小W∈(0,1),
话语密度图,可以包括:
节点:每个话语密度图中的节点由原始话语特征hi表示,并初始化为一个原始话语表示hi为一个节点。给定一个包含N个话语的对话,可以构建一个具有N个节点的图。
边:表示每个话语与同一对话中的其他话语的联系。
进一步地,为表示话语密度图节点之间的联系,构建话语密度的概念来决定一个话语是否将信息传播给另一个话语。
具体的,话语密度的概念为:在一段对话中某一个说话人所说的话语占整段对话话语总数的比例,为该说话人的话语密度。
可以为任意一段对话设定每一个说话人的话语密度D=[d1,d2,…,da],a记为为该段对话中出现的说话人数量,为该说话人在此段对话中的话语密度。
进一步的技术方案,确定话语在DDG中连接关系方法,包括如下步骤:
(1)根据目标话语所在的位置,将整段对话切分为前向对话与后向对话。
(2)分别对前向对话与后向对话两段话语计算对应说话人的话语密度,分别得到两段对话中的话语密度最小值;
前向对话中出现的说话人话语密度最小值为:
后向对话说中出现的话人话语密度最小值为:
(3)将目标话语进行前向注意与后向注意,按照对话时间从目标话语前向和后向搜索,直到搜索到的话语对应的说话人话语密度不小于对应方向的最小值停止,将搜索结果中小于对应方向的话语密度最小值的话语节点建立连接。
将目标话语向其他话语进行注意时,分为前向注意过程与后向注意过程,以前向注意过程为例,具体的:
首先建立一个空列表L,目标话语从自我位置依次向时间更早的话语进行注意,并计算此时列表L中说话人的话语密度,若L中说话人话语密度时,则将注意话语添加到列表L并继续向前搜索,当添加某句话语后,L中有/>则不再继续向前进行注意,此时L中的话语即目标话语所需要融合的内容。
可选的,将话语节点建立连接,即为将各个节点通过边连接,其中边权重根据两个节点的相似度计算,相似度越高,边权重越大。
边权重:如果两个节点的相似度越高,它们之间的信息交互也越重要,它们之间的边权重应该越高。为了捕捉节点表示之间的相似性,可以使用角度相似度来表示两个节点之间的边权重。
边权重计算为:
其中,ni和nj表示图中第i个和第j个节点的特征表示。
可见,本实施例中的节点连接关系是根据说话人的话语密度确定的,对应不同的对话,话语密度图是不同的,实现了动态确定话语内的依赖结构,将上下文信息充分融入到每句话的表示中,并在此过程中利用图卷积对话语的表示进行更新,最终使每句话都能够包含话语本身特有的知识与上下文背景,进而实现更加准确的对话情绪识别。
具体的,如图2所示,在图卷积设置了l layer,即l层。
本实施例中通过话语密度构建的话语密度图,不再简单地设定固定窗口的大小,且每句话语都能够根据出现的对话人以及话语所处位置的不同,从而动态调整需要关注的对话信息,实现了上下文信息的有效传递。
步骤3中,为了能够在对话表示中融入充足的背景知识,同时在这个过程中也需要利用话语的语境信息对知识的融合产生影响,构建了话语知识图(Discourse knowledgegraph,下面简称为DKG)来进行这一过程,其中DKG=(V,E,W)。
DKG中的节点是会话中的话语与知识表示,即V=[H,K],其中H={h1,h2,...,hm},为其中的话语表示即为对话文本特征,表示其中的知识节点,即对话的知识表示。边(i,j,ei,j)∈E表示两个节点之间进行信息的传播,其中ei,j∈W是边的权重信息,边的权重大小W∈(0,1)。
构建话语知识图的过程如下:
节点:每个话语知识图中的话语节点包括话语表示以及知识表示对应的节点;即包括话语表示节点,图中采用圆形表示,知识表示节点,图2中采用方框表示。
每个话语知识图中的话语节点由原始话语特征hi表示,并初始化为其中的知识节点由ki,r表示,并初始化为/>因此,给定一个有N个话语的对话,我们构造一个有5N个节点的图。
边:每个话语的话语表示节点连接对应的知识表示节点,话语表示节点之间根据说话人的话语密度大小创建边。
具体的,在话语知识图中,含有两类节点,为了在语境中实现知识与话语的交互,将这两类节点使用不同的连接策略。其中话语节点之间采用于话语密度图相同的方式创建边,同时将每句话语与其对应的知识进行连接,以方便将知识信息传递给话语。
边权重:在这一部分的权重值设定中,可以依照话语密度图中的权值设置方式对节点间的相似性进行定义。即节点相似性越高,边权重越大。
话语知识图中有两种类型的边:1)连接话语表示节点的边,2)连接话语表示节点与话语知识节点的边。可以不同的边权重策略。对于第一种类型的边,边权重计算为公式(4),对于第二种类型的边,边权重计算为:
其中,ni和nj表示图中第i个和第j个节点的特征表示,γ为超参数。
通过话语知识图更新话语表示,并在此过程中利用图卷积对话语的表示进行更新,最终使每句话都能够包含话语本身特有的知识、上下文背景以及外部知识,进而实现更加准确的对话情绪识别。
具体的,如图2所示,在图卷积设置了t layer,即t层。
本实施例中,构建的话语密度图以及话语知识图分别为无向图,得到了话语表示之间的关系,以及话语表示与外部知识之间的关系。
基于图卷积对话语表示进行更新,具体的,构建了深度图卷积网络,以进一步编码上下文依赖关系,提取更深层次的特征。
具体的,给定无向图G=(V,E,W),令为G的重整化图拉普拉斯矩阵:
其中表示邻接矩阵,/>表示图G的对角度矩阵,/>表示单位矩阵。来自不同层的DDG迭代可以表示为:
其中:α和βl是两个超参数,σ表示激活函数,Wl是可学习的权重矩阵。为了确保权重矩阵的衰减在堆叠更多层时自适应增加,设置其中η也是一个超参数。到第一层/>的残差连接被添加到表示/>中,并且恒等映射/>被添加到权重矩阵/>中。有了这样的残差连接,可以使本实施例的话语图获取更深层次的信息以进一步提高性能。
本实施例中,通过话语密度图确定话语表示之间的关系以及通过图卷积对话语表示进行更新,得到了具有语境信息的话语特征通过知识密度图确定话语表示之间的关系以及话语表示与知识表示之间的依赖关系,通过图卷积对话语表示进行更新,得到了包含了外部知识的话语表示/>
在进行分类前,连接具有语境信息的话语特征和包含了外部知识的话语表示/>以生成每个话语的最终特征表示:
然后将ei输入到具有完全连接层的多层感知机(MLP)中,以预测话语的情感标签yi:
li=RELU(Wlei+bl) (9)
Pi=Softmax(Wsmaxli+bsmax) (10)
上述过程的实现过程可以通过如图2所示的网络实现,即为动态互补图卷积神经网络(简称为DCGCN),包括话语编码器与知识编码器,话语密度图的卷积更新、话语知识图的卷积更新以及情感预测模块。
话语编码器:被配置为用于针对获取待识别的对话文本,针对对话文本以及上下文感知话语分别进行编码,提取对话文本上下文信息,得到对话的话语表示;
知识编码器:被配置为用于基于外部知识图谱中相关关系r对待识别识别文本的词语进行抽象表示,编码后得到对话的知识表示;
话语密度图的卷积更新模块:被配置为用于基于话说话者话语数量以及话语表示构建话语密度图,动态确定话语内的依赖结构,将上下文信息融入到每句话的话语表示,并基于图卷积对话语表示进行更新,得到具有语境信息的话语特征;
话语知识图的卷积更新模块:被配置为用于基于话说话者话语数量、话语表示以及知识表示构建话语知识图,动态确定话语内的依赖结构,将上下文信息以及外部知识融入到每句话的话语表示,并基于图卷积对话语表示进行更新,得到具有外部知识的话语特征;
情感预测模块:被配置为用于基于更新后的话语表示进行分类,得到对话情感类别
训练过程中,可以采用分类交叉熵和L2正则化作为训练期间的损失函数:
其中,N是对话数,c(i)是对话i中的话语数,Pi,j是对话i中话语j的预测情感标签的概率分布,yi,j是话语j的预期类别标签在对话i中,λ是L2正则化权重,θ是所有可训练参数的集合。使用基于Adam优化器的随机梯度下降来训练的网络,使用网格搜索优化超参数。
为说明本实施例的方法的效果,在四个常用的对话情绪识别公共基准数据集上进行了实验评估了提出的模型,结果证明了动态互补图卷积网络的有效性,并在流行的指标评价上明显优于其他SOTA方法。所提出的DCGCN达到了超越基线的性能。此外,通过综合评价和烧蚀研究,本实施例提出的DCGCN的优势和模块的影响,提高了话语情感识别的性能。
将本实施例的方法与最先进的基线比较的结果。测试分数是根据测试集五轮平均值的最佳分数计算的。如表1所示,DCGCN在所有数据集中取得了新的最先进的结果。
表1
其中,表1中,横坐标为数据集:
IEMOCAP数据集:全称为the Interactive Emotional Dyadic Motion Capture,是一个多模态情绪识别数据集;
MELD数据集:主要用于对话中的情感识别,也有部分论文将其用于情感对话生成或者多模态对话生成。它包括1433个对话、13708个语句,提供了3大类粗粒度情感标签以及7种细粒度情感标签。视频被切割成按语句划分的短视频,可以通过语句索引获得该语句对应的视频。
DailyDialog数据集:DailyDialog主要包括13118个对话、102K个对话语句,标注了7种情感、4类对话动作(DA)以及10个对话主题。可以用于对话情感识别、对话动作识别任务,以及情感对话生成任务。
EmoryNLP数据集:来自于美剧《老友记》,这个数据集所包含的情绪标签是快乐、中性、强烈、疯狂、悲伤、恐惧和平静。
DialogueRNN(2019):这是一种基于递归的方法,用几个循环神经网络将对话上下文进行建模。
KET(2019):这是一个层次转换器,使用他们提出的图注意从知识库中提取信息进行对话建模得模型。
RGAT-POS(2020):是一种利用所提出的关系位置编码的关系感知图注意网络,在对话图中加入了位置信息。
DialogXL(2021):是一种对话关系模型,通过提取对话中的关系帮助对话情感识别任务。
DAG-ERC(2021):该模型根据不同的对话人建立图结构,并在图融合过程中使用了循环神经网络的思想取得了优异的效果。
SKAIG(2021):该模型在外部常识知识使用的过程中,利用了心理学的概念,实现了知识与话语的融合,并增加了模型的可解释性。
COSMIC(2020):该模型同样利用了外部知识,但它利用双向门控循环神经网络对说话人的状态进行了更精细的建模。
CoG-BART(2022):该模型利用了预训练模型对话语内容进行了详细的提取,同时引入了对比学习来区分对话中的相似情感。
TODKAT(2021):该模型识别了对话背后的主题,相关的常识知识,并强调对对话的这些整体属性(即对话主题和语气)进行对话建模。
本实施例中构建的模型,其中完整模型以及去掉某个常识知识后在四个数据集上的表现,表2中得分是F1得分,通过分数比较说明通过引入外部的常识知识能够大大提高识别的准确性。
表2
图3:在构建话语密度图的过程中,使用不同的基准密度得到结果。X轴上的五个点是根据实验中的话语密度设置的五个基准点,取对话中的最小和最大话语密度,以及它们的上四分位数、下四分位数和平均值。Y轴表示某个数据集的F1分数。在话语密度图构建方法中,每个话语不仅要获取对话中出现的每个个体的话语,而且要防止个体话语过多而造成冗余,通过图3可以说明本实施例中提出的最小话语密度图来构建话语语境图是一种有效的方法。
图4和图5:使用不同的卷积层对四个数据集在单独不同图形卷积分支下的性能建模。X轴表示卷积层数;Y轴表示F1分数。不同形状及线条的折线表示不同数据集在图形卷积分支上的F1得分,对应的阴影部分表示与完整模型的差异(互补运算下两个图形的卷积层数使用相同的值),通过图4和图5可以说明,本实施例中提出的模型中的任何单独的话语图分支都不能完整获取足够的上下文及外部知识信息。详细来说,在语篇知识图的融合过程中,外部知识的介入和较大权重的分配会影响语境信息在语篇知识图中的表达,导致语篇知识图中语境背景的缺失;而在话语密度图分支上缺乏常识知识信息,这些情况均导致模型的性能不足。因此所设置的互补操作是必要的。
实施例2
基于实施例1,本实施例中提供基于动态互补图卷积网络的对话情感识别方法,包括:
话语编码器:被配置为获取待识别的对话文本,针对对话文本以及上下文感知话语分别进行编码,提取对话文本上下文信息,得到对话的话语表示;
知识编码器:被配置为基于外部知识图谱中相关关系对待识别识别文本的词语进行抽象表示,编码后得到对话的知识表示;
话语表示更新模块:基于说话者话语密度构建话语密度图,以及构建与知识表示相关的话语知识图,动态确定话语内的依赖结构,将上下文信息以及外部知识充分融入到每句话的话语表示,并基于图卷积对话语表示进行更新;
分类模块:基于更新后的话语表示进行分类,得到对话情感类别。
此处需要说明的是,本实施例中的各个模块与实施例1中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
实施例3
本实施例提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1的方法所述的步骤。
实施例4
本实施例提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1的方法所述的步骤。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。
Claims (10)
1.基于动态互补图卷积网络的对话情感识别方法,其特征在于,包括如下步骤:
获取待识别的对话文本,针对对话文本以及上下文感知话语分别进行编码,提取对话文本上下文信息,得到对话的话语表示;
基于外部知识图谱中相关关系对待识别识别文本的词语进行抽象表示,编码后得到对话的知识表示;
基于说话者话语密度构建话语密度图,以及构建与知识表示相关的话语知识图,动态确定话语内的依赖结构,将上下文信息以及外部知识充分融入到每句话的话语表示,并基于图卷积对话语表示进行更新;
基于更新后的话语表示进行分类,得到对话情感类别。
2.如权利要求1所述的基于动态互补图卷积网络的对话情感识别方法,其特征在于,提取对话文本的上下文信息,包括如下:
采用单独的编码器为对话文本上下文感知话语进行特征编码;
采用双向长短期记忆网络,编码对话文本的顺序的上下文信息,得到每句对话编码后的话语表示。
3.如权利要求1所述的基于动态互补图卷积网络的对话情感识别方法,其特征在于:话语密度为在一段对话中某一个说话人所说的话语占整段对话话语总数的比例;
或者,将上下文信息以及外部知识充分融入到每句话的话语表示,并基于图卷积对话语表示进行更新,包括如下步骤:
基于说话者话语密度以及话语表示构建话语密度图,动态确定话语内的依赖结构,将上下文信息融入到每句话的话语表示,并基于图卷积对话语表示进行更新,得到具有语境信息的话语特征;
基于说话者话语密度、话语表示以及知识表示构建话语知识图,动态确定话语内的依赖结构,将上下文信息以及外部知识融入到每句话的话语表示,并基于图卷积对话语表示进行更新,得到具有外部知识的话语特征。
4.如权利要求1所述的基于动态互补图卷积网络的对话情感识别方法,其特征在于,构建的话语密度图,包括节点和连接节点的边;
话语密度图的节点:一个原始话语表示hi为一个节点;
话语密度图的边:表示每个话语与同一对话中的其他话语的连接关系;
其中,确定话语在话语密度图中连接关系方法,包括如下步骤:
根据目标话语所在的位置,将整段对话切分为前向对话与后向对话;
分别对前向对话与后向对话两段话语计算对应说话人的话语密度,分别得到两段对话中的话语密度最小值;
将目标话语进行前向注意与后向注意,按照对话时间从目标话语前向和后向搜索,直到搜索到的话语对应的说话人话语密度不小于对应方向的最小值停止,将搜索结果中小于对应方向的话语密度最小值的话语节点建立连接,并根据节点的相似度确定边权重。
5.如权利要求1所述的基于动态互补图卷积网络的对话情感识别方法,其特征在于:话语知识图包括节点和连接节点的边,每个话语知识图中的话语节点包括话语表示以及知识表示对应的节点,每个话语的话语表示节点连接对应的知识表示节点,话语表示节点之间根据说话人的话语密度大小创建边。
6.如权利要求1所述的基于动态互补图卷积网络的对话情感识别方法,其特征在于:对话语密度图以及话语知识图更新后的话语表示,采用深度深度图卷积网络进一步编码上下文依赖关系,提取更深层次的特征。
7.如权利要求1所述的基于动态互补图卷积网络的对话情感识别方法,其特征在于:将图卷积更新后的连接后通过多层感知机,进行情感类别的判断。
8.基于动态互补图卷积网络的对话情感识别系统,其特征在于,包括:
话语编码器:被配置为获取待识别的对话文本,针对对话文本以及上下文感知话语分别进行编码,提取对话文本上下文信息,得到对话的话语表示;
知识编码器:被配置为基于外部知识图谱中相关关系对待识别识别文本的词语进行抽象表示,编码后得到对话的知识表示;
话语表示更新模块:基于说话者话语密度构建话语密度图,以及构建与知识表示相关的话语知识图,动态确定话语内的依赖结构,将上下文信息以及外部知识充分融入到每句话的话语表示,并基于图卷积对话语表示进行更新;
分类模块:基于更新后的话语表示进行分类,得到对话情感类别。
9.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-7任一项方法所述的步骤。
10.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项方法所述的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310601734.4A CN116628203A (zh) | 2023-05-24 | 2023-05-24 | 基于动态互补图卷积网络的对话情感识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310601734.4A CN116628203A (zh) | 2023-05-24 | 2023-05-24 | 基于动态互补图卷积网络的对话情感识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116628203A true CN116628203A (zh) | 2023-08-22 |
Family
ID=87637783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310601734.4A Pending CN116628203A (zh) | 2023-05-24 | 2023-05-24 | 基于动态互补图卷积网络的对话情感识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116628203A (zh) |
-
2023
- 2023-05-24 CN CN202310601734.4A patent/CN116628203A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106202010B (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
CN113987179B (zh) | 基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质 | |
CN112633010B (zh) | 基于多头注意力和图卷积网络的方面级情感分析方法及系统 | |
CN114722838A (zh) | 基于常识感知和层次化多任务学习的对话情感识别方法 | |
CN112115687A (zh) | 一种结合知识库中的三元组和实体类型的生成问题方法 | |
CN110795549B (zh) | 短文本对话方法、装置、设备及存储介质 | |
CN115964467A (zh) | 一种融合视觉情境的富语义对话生成方法 | |
CN112949684B (zh) | 一种基于强化学习框架的多模态检测对话情感信息的方法 | |
CN113641822A (zh) | 一种基于图神经网络的细粒度情感分类方法 | |
CN114676259B (zh) | 一种基于因果感知交互网络的对话情绪识别方法 | |
CN112101044A (zh) | 一种意图识别方法、装置及电子设备 | |
Chen et al. | Sequence-to-sequence modelling for categorical speech emotion recognition using recurrent neural network | |
CN116821294A (zh) | 一种基于隐式知识反刍的问答推理方法和装置 | |
CN115858756A (zh) | 基于感知情绪倾向的共情人机对话系统 | |
Ai et al. | A Two-Stage Multimodal Emotion Recognition Model Based on Graph Contrastive Learning | |
CN116701566A (zh) | 一种基于情感的多轮对话模型及对话方法 | |
CN111414466A (zh) | 一种基于深度模型融合的多轮对话建模方法 | |
CN115795010A (zh) | 一种外部知识辅助的多因素层次建模共情对话生成方法 | |
CN113010662B (zh) | 一种层次化会话式机器阅读理解系统和方法 | |
CN116628203A (zh) | 基于动态互补图卷积网络的对话情感识别方法及系统 | |
Singh et al. | Textual Conversational Sentiment Analysis in Deep Learning using capsule network | |
CN115374281B (zh) | 基于多粒度融合和图卷积网络的会话情感分析方法 | |
CN116227484B (zh) | 模型训练方法、装置、设备、存储介质和计算机程序产品 | |
CN116484004B (zh) | 一种对话情绪识别分类方法 | |
CN116738359B (zh) | 基于预训练模型和高分辨网络的蒙古语多模态情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |