CN116467416A - 一种基于图神经网络的多模态对话情感识别方法及系统 - Google Patents
一种基于图神经网络的多模态对话情感识别方法及系统 Download PDFInfo
- Publication number
- CN116467416A CN116467416A CN202310437725.6A CN202310437725A CN116467416A CN 116467416 A CN116467416 A CN 116467416A CN 202310437725 A CN202310437725 A CN 202310437725A CN 116467416 A CN116467416 A CN 116467416A
- Authority
- CN
- China
- Prior art keywords
- representing
- node
- data
- mode
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 30
- 238000012512 characterization method Methods 0.000 claims abstract description 62
- 230000008451 emotion Effects 0.000 claims abstract description 38
- 230000004927 fusion Effects 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 46
- 230000000007 visual effect Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 9
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 230000002996 emotional effect Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000008447 perception Effects 0.000 abstract 1
- 239000000306 component Substances 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 229920002430 Fibre-reinforced plastic Polymers 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000003292 diminished effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 239000011151 fibre-reinforced plastic Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于图神经网络的多模态对话情感识别方法及系统,包括:S1:获取说话人和上下文感知的单模态表示;S2:根据说话人和上下文感知的单模态表示,提取各模态和会话上下文之间的多元和高阶信息,得到多变量表征数据;S3:提取各模态和会话上下文之间不同频率成分的不同重要性,得到多频率表征数据;S4:对多变量表征数据和多频率表征数据进行数据融合,得到输入对话的情感表征;S5:根据情感表征,得到输入对话的预测标签,并将预测标签作为多模态对话情感识别结果输出。本发明能够提高对话情感识别的准确性和效率。
Description
技术领域
本发明涉及情感计算技术领域,具体涉及一种基于图神经网络的多模态对话情感识别方法及系统。
背景技术
对话情感识别任务(Emotion Recognition in Conversation,ERC)旨在使机器能够利用多感官数据(包括文本、视觉和听觉信息等)检测对话中交互的人类情感。与在单一模态(例如文本、语音或面部图像)下或在非对话场景中进行的传统情感计算任务不同,ERC任务中存在一项独特且关键的挑战,即跨模态和上下文维度的多变量复杂关系。
研究人员一直在探索如何更有效地捕捉这其中复杂的关系。在现有的ERC模型中,一个主要的方式是使用上下文感知模块(如循环单元或Transformer)来捕获上下文关系,同时通过各种融合方法对多模态关系进行建模。尽管取得了一些进展,但这种方式往往低估了模态和上下文之间的多变量关系,因为它以松散耦合的方式编码多模态和上下文关系,限制了其中的自然相互作用,导致关系的学习不够充分。
最近,图神经网络(Graph Neural Network,GNN)在捕获数据关系方面显示出一定优势,为对话情感识别提供了新的解决方案。一种通常的解决方法是构建一个异构图,其中将话语的每个模态视为一个节点,并与同一话语的其他模态连接以及与同一对话中相同模态的话语连接。通常会遵循精心调整的边缘加权策略。在此基础上,可以通过消息传递同时对话语之间的多模态和上下文依赖关系进行建模,从而提供更紧密的纠缠和更丰富的交互。尽管这些基于GNN的方法非常强大,但它们仍然存在两个局限性:
i)多变量关系建模不充分。传统的GNN假定感兴趣对象拥有成对关系,并且只能通过多个成对组合提供高阶和多变量关系的近似。然而,将这些多变量关系退化为成对组合可能会损害表达能力。因此,现有的基于GNN的方法可能无法充分建模ERC中复杂的多变量关系。
ii)低估高频率信息。研究已经表明,GNN的传播规则(即聚合和平滑来自邻居节点的消息)类似于固定的低通滤波器,并且图中流动的主要是低频消息,而高频信息的效果大幅减弱。此外,有研究表明低频消息能保留节点特征的共性,且在同配图上表现更好(同配图即是图中相链接的节点往往具有相似的特征并共享相同的标签)。相比之下,反映差异和不一致的高频信息在异配图中更为重要。对于ERC,构建的图通常具有高度异配性,其中模态或短距离上下文之间可能存在不一致的情感信息。因此,高频信息可能会提供关键的指导,但是以前基于GNN的ERC模型严重忽略了这一点,从而导致性能提升的瓶颈。
发明内容
本发明的目的在于提供一种基于图神经网络的多模态对话情感识别方法及系统,通过研究模态和上下文之间的多元关系,充分利用反映情感差异和情感共性的不同频率信息,以能够提高对话情感识别的准确性和效率。
本发明解决上述技术问题的技术方案如下:
本发明提供一种基于图神经网络的多模态对话情感识别方法,所述基于图神经网络的多模态对话情感识别方法包括:
S1:获取说话人和上下文感知的单模态表示,其中,所述单模态表示包括文本、视觉和听觉;
S2:根据所述说话人和上下文感知的单模态表示,提取各模态和会话上下文之间的多元和高阶信息,得到多变量表征数据;
S3:提取各模态和会话上下文之间不同频率成分的不同重要性,得到多频率表征数据;
S4:对所述多变量表征数据和所述多频率表征数据进行数据融合,得到输入对话的情感表征;
S5:根据所述情感表征,得到输入对话的预测标签,并将所述预测标签作为多模态对话情感识别结果输出。
可选择地,所述S1包括:
S11:利用双向门控循环单元对输入对话的文本特征进行编码,得到文本编码数据;
S12:分别利用第一全连接网络和第二全连接网络对输入对话的听觉特征和视觉特征进行编码,得到视觉编码数据和听觉编码数据;
S13:计算说话人的嵌入表征;
S14:分别根据所述文本编码数据、所述视觉编码数据和听觉编码数据,以及所述嵌入表征,得到文本单模态表示、视觉单模态表示和听觉单模态表示。
可选择地,所述S11包括:
所述S12包括:
其中,表示文本编码数据,/>表示听觉编码数据,/>表示视觉编码数据,/>表示双向门控循环单元函数,/>表示输入对话的文本特征,/>表示/>或/>即输入双向门控循环单元/>的文本下文或上文,W1表示第一全连接网络,/>表示输入对话的听觉特征,/>表示听觉偏置,W2表示第二全连接网络,/>表示输入对话的视觉特征,/>表示视觉偏置;
所述S13包括:
Si=Wssi
其中,Si为第i轮对话的说话人的嵌入特征,Ws为可训练的权重,si为独热向量表示每个说话人;
所述S14包括:
其中,表示第i轮对话说话人和上下文感知的单模态表征,当x=t时,/>表示文本编码数据;当x=a时,/>表示听觉编码数据;当x=v时,/>表示视觉编码数据,Si表示说话人嵌入表征。
可选择地,所述S2包括:
S21:根据所述说话人和上下文感知的单模态表示,确定多个第一节点;
S22:构建各第一节点的多模态超边和上下文超边;
S23:分别为各超边和各第一节点分配权重;
S24:根据各所述第一节点、各超边、各超边分配权重以及各第一节点分配权重,生成超图;
S25:对所述超图进行第一节点卷积,通过聚合节点特征更新超边嵌入,并且,进行超边卷积以将超边消息传播至第一节点;
S26:重复S25直至最后一次迭代,并将最后一次迭代的输出作为多变量表征数据。
可选择地,所述S25包括:
其中,V(l)表示第l层的输入且 表示超图神经网络中第l层的某节点,vH表示超图中的节点集合,Dh表示网络隐藏层节点的特征维度,σ()是一个非线性激活函数,We为超边权重矩阵且/>diag()表示对角矩阵,w()表示权重,e1表示第1条超边,/>表示|εH|超边,εH表示超图中超边的集合,/>和/>分别是节点度矩阵和超边度矩阵,H表示超图节点与边连接的关联矩阵且/> 表示加权关联矩阵且/>T表示转置操作。
可选择地,所述S3包括:
S31:根据所述说话人和上下文感知的单模态表示,确定多个第二节点;
S32:根据所有第二节点,构建无向图;
S33:分别利用所述高通滤波器和所述低通滤波器提取所述无向图中当前节点节点特征的高频消息和低频消息;
S34:利用加权和组合所述高频消息和所述低频消息;
S35:根据邻居节点的高频信号和所述低频消息对当前节点的权重贡献,考虑当前节点和邻居节点之间的相关性,确定当前节点的主导信息以及是否接收当前节点和邻居节点之间的差异信息;
S36:将所述主导信息和差异信息传播至整张无向图上,通过堆叠K层,以使各第二节点接收来自K跳邻居节点的多频率信号;
S37:将最后一层的输出作为多频率表征数据。
可选择地,所述S32中,所述无向图的邻接矩阵为:
所述无向图的归一化图拉普拉斯矩阵为:其中,Dg是一个对角线度矩阵,I为单位矩阵,A为无向图的邻接矩阵,vg为节点;
所述S34包括:
其中,F(k)为第k层的输入且Rl,分别是低频信息和高频信息的权重矩阵,因此上式可以改写为:
Ni是节点i的邻居节点,Nj是节点j的邻居节点,和/>分别是节点j的低频信息和高频信息对节点i的贡献,满足约束/>
可选择地,所述S4包括:
所述S5包括:
其中,为输入对话的预测标签,Pi表示且/>W4为可训练的权重矩阵,/>为归一化后的情感表征且/>ei表示输入对话的情感特征,Pi[τ]表示第τ个类别的概率值,τ表示第τ个类别,b4表示可训练的权重矩阵的偏置,表示多变量表征数据,fi x,i∈[1,N],x∈{t,a,v}表示多频率表征数据。
可选择地,所述基于图神经网络的多模态对话情感识别方法的损失函数L为:
其中,Num是对话数量,c(i)是对话i中的语句数量,pij和yi,j分别是对话i中语句j的预测标签概率分布和真实标签,λ是L2的正则化权重,θ表示模型中的所有可训练参数,c(s)表示对话s中的语句数量。
本发明还提供一种基于上述的基于图神经网络的多模态对话情感识别方法的多模态对话情感识别系统,所述多模态对话识别系统包括:
模态编码模块,所述模态编码模块用于获取说话人和上下文感知的单模态表示;
多变量传播模块,所述多变量传播模块用于根据所述说话人和上下文感知的单模态表示,提取各模态和会话上下文之间的多元和高阶信息,得到多变量表征数据;
多频率传播模块,所述多频率传播模块用于提取各模态和会话上下文之间不同频率成分的不同重要性,得到多频率表征数据;
情感分类模块,所述情感分类模块用于对所述多变量表征数据和所述多频率表征数据进行数据融合,得到输入对话的情感表征;并根据所述情感表征,得到输入对话的预测标签,并将所述预测标签作为多模态对话情感识别结果输出。
本发明具有以下有益效果:
1)本发明通过研究模态和上下文之间的多元关系,充分利用反映情感差异和情感共性的不同频率信息,以能够提高对话情感识别的准确性和效率;
2)本发明超图中的超边可以连接任意数量的节点,因此可以自然地编码更多元的关系;同时,通过采用一组频率滤波器从节点特征中提取不同的频率成分,在无向图网络上对多频率信息进行建模,从而能够自适应地整合不同的频率信号以捕捉局部邻域中情感差异和情感共性的不同重要性,进而实现自适应的信息共享模式。
附图说明
图1为本发明基于图神经网络的多模态对话情感识别方法的流程图;
图2为本发明基于图神经网络的多模态对话情感识别系统的示意图;
图3为本发明基于图神经网络的多模态对话情感识别系统基于不同图网络层的结果示意图;
图4为本发明基于图神经网络的多模态对话情感识别系统与FAGCN的效果比较示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
本发明提供一种基于图神经网络的多模态对话情感识别方法,参考图1所示,所述基于图神经网络的多模态对话情感识别方法包括:
S1:获取说话人和上下文感知的单模态表示,其中,所述单模态表示包括文本、视觉和听觉;
一段对话包括N条语句{(u1,p1),(u2,p2),...,(uN,pN)},其中每条语句ui由说话人pi说出,包括多感官数据,即文本视觉/>和听觉/>
对话本质上是呈序列关系的,由多个说话人构成。因此,本发明首先使用说话人和上下文信息处理单模态语句,以获得说话人和上下文感知的单模态表示。
具体包括:
S11:利用双向门控循环单元对输入对话的文本特征进行编码,得到文本编码数据;
S12:分别利用第一全连接网络和第二全连接网络对输入对话的听觉特征和视觉特征进行编码,得到视觉编码数据和听觉编码数据;
所述S11包括:
所述S12包括:
其中,表示文本编码数据,/>表示听觉编码数据,/>表示视觉编码数据,/>表示双向门控循环单元函数,/>表示输入对话的文本特征,/>表示/>或/>即输入双向门控循环单元/>的文本下文或上文,W1表示第一全连接网络,/>表示输入对话的听觉特征,/>表示听觉偏置,W2表示第二全连接网络,/>表示输入对话的视觉特征,/>表示视觉偏置。
S13:计算说话人的嵌入表征;
Si=Wssi
其中,Si为第i轮对话的说话人的嵌入特征,Ws为可训练的权重,si为独热向量表示每个说话人。
S14:分别根据所述文本编码数据、所述视觉编码数据和听觉编码数据,以及所述嵌入表征,得到文本单模态表示、视觉单模态表示和听觉单模态表示。
其中,表示第i轮对话说话人和上下文感知的单模态表征,当x=t时,/>表示文本编码数据;当x=a时,/>表示听觉编码数据;当x=v时,/>表示视觉编码数据,Si表示嵌入表征。
S2:根据所述说话人和上下文感知的单模态表示,提取各模态和会话上下文之间的多元和高阶信息,得到多变量表征数据;
这一步的主要思想是探索多种模态和会话上下文之间的多元和高阶信息。本发明首先从上述序列编码的语句中构建一张超图H,总的来说,给定包含N个对话轮次的语句序列,构造一张超图H=(VH,εH,ω,γ),其中每个第一节点v∈VH(|VH|=3N)对应一条单模态语句,每条超边e∈εH(|εH|=3+N)编码多模态或上下文依赖关系。为每条超边e∈εH分配一个权重ω(e),并且为每个连接到每条超边e的节点v分配一个权重γe(v)。用表示关联矩阵,其中非零条目Hve=1表示节点v连接到超边e;否则Hve=0。
基于此,所述S2包括:
S21:根据所述说话人和上下文感知的单模态表示,确定多个第一节点;
每条语句的每种模态都表示为超图中的一个节点,即表示文本模态,/>表示听觉模态,/>表示视觉模态,分别用序列编码的表征/>初始化节点嵌入/>
S22:构建各第一节点的多模态超边和上下文超边;
参考图2所示,每个第一节点首先通过一条上下文超边,连接到同一对话同一模态中的所有其他语句/>此外,每个第一节点/>都通过一条多模态超边连接到相同语句的其他模态/>以这种方式,构造的超图能够捕获超越成对组合的高阶和多元信息
S23:分别为各超边和各第一节点分配权重;
与现有的基于GNN的ERC模型不同,这些模型使用复杂的关系学习或相似度指标手动调整边缘加权策略,而本发明使用随机初始化的权重值来避免使模型不必要地复杂化。具体来说,本发明在超图中定义了两种类型的权重:
i)每条超边e的边权重ω(e);
ii)每个连接到超边e的节点v的节点权重γe(v)(又名边依赖的节点权重)。
直观地,γe(v)测量节点v对超边e的贡献,从而加强细粒度的多模态和上下文依赖关系。因此,边缘依赖的节点权重可以用加权关联矩阵表示:
S24:根据各所述第一节点、各超边、各超边分配权重以及各第一节点分配权重,生成超图;
S25:对所述超图进行第一节点卷积,通过聚合节点特征更新超边嵌入,并且,进行超边卷积以将超边消息传播至第一节点;
其中,V(l)表示第l层的输入且 表示超图神经网络中第l层的某节点,vH表示超图中的节点集合,Dh表示网络隐藏层节点的特征维度,σ()是一个非线性激活函数,We为超边权重矩阵且/>diag()表示对角矩阵,w()表示权重,e1表示第1条超边,/>表示|εH|超边,εH表示超图中超边的集合,/>和/>分别是节点度矩阵和超边度矩阵,H表示超图节点与边连接的关联矩阵且/> 表示加权关联矩阵且/>T表示转置操作。
S26:重复S25直至最后一次迭代,并将最后一次迭代的输出作为多变量表征数据。
经过L次迭代,将最后一次迭代的输出作为多变量表征数据。
S3:提取各模态和会话上下文之间不同频率成分的不同重要性,得到多频率表征数据;
上述多变量传播模块能够捕获超出成对组合的高阶依赖关系,但它仍然遵循通用的图学习协议,即聚合和平滑来自邻域的信号。这可以解释为低通滤波器的一种形式,即消息的平滑性基本上是传播低频信息,同时擦除高频信息。然而,如前所述,反映节点情感差异的高频信息至关重要,并且将不同频率的消息的效果结合起来是值得探索的。因此,本发明提出一个多频率传播模块,以提炼出具有不同重要性的不同频率成分。为此,本发明另外基于序列编码的语句构建一个无向图g=(vg,εg),与多变量模块并行。
具体地,本发明构造一张无向图g=(vg,εg),其节点vg与H中的节点相同,记为{fi t,fi a,fi v}。节点嵌入也使用序列编码的表示进行初始化。与H不同,本发明构建了一组具有成对连接的边εg。类似地,本发明也将每个节点fi x连接到同一对话中相同模态的所有其他语句{fi x|j∈[1,N],j≠i},以及相同语句的其他模态{fi z|z∈{t,a,v},z≠x}。包括:
S31:根据所述说话人和上下文感知的单模态表示,确定多个第二节点;
S32:根据所有第二节点,构建无向图;
构建的无向图如图2所示,所述无向图的邻接矩阵为:所述无向图的归一化图拉普拉斯矩阵为:/>其中,Dg是一个对角线度矩阵,I为单位矩阵,A为无向图的邻接矩阵,vg为节点。
S33:分别利用所述高通滤波器和所述低通滤波器提取所述无向图中当前节点节点特征的高频消息和低频消息;
本发明首先设计一个低通滤波器Fl和一个高通滤波器Fh从节点特征中提取信号:
可以注意到,高通滤波器等效于归一化图拉普拉斯矩阵,这与图像信号处理中可以利用拉普拉斯核来突出高频边缘信息的理论是一致的。根据图傅里叶变换理论,给定一个信号Fl和Fh的滤波运算可以看作是/>和相应的卷积核之间的卷积*c:
具体地,Fl和Fh都是滤波器,给定一个信号的时候,将这个信号/>使用这两个滤波器进行滤波运算可以看成是/>和滤波器对应的卷积核间的卷积操作。
S34:利用加权和组合所述高频消息和所述低频消息;
其中,F(k)为第k层的输入且 分别是低频信息和高频信息的权重矩阵,因此上式可以改写为:
Ni是节点i的邻居节点,Nj是节点j的邻居节点,和/>分别是节点j的低频信息和高频信息对节点i的贡献,满足约束/>
S35:根据邻居节点的高频信号和所述低频消息对当前节点的权重贡献,考虑当前节点和邻居节点之间的相关性,确定当前节点的主导信息以及是否接收当前节点和邻居节点之间的差异信息;
考虑中心节点和邻居之间的相关性:
其中表示张量拼接运算,/>是一个可训练的权重矩阵,tanh()是双曲正切函数,将数值限制在[-1,1]。通过这种方式,系数/>以很容易地模拟不同频率成分的不同重要性。例如,如果/>则高频消息占主导地位,节点i接收节点i和邻居j之间的差异信息(即fi,(k)-fj,(k));反之亦然。
S36:将所述主导信息和差异信息传播至整张无向图上,通过堆叠K层,以使各第二节点接收来自K跳邻居节点的多频率信号;
S37:将最后一层的输出作为多频率表征数据。
S4:对所述多变量表征数据和所述多频率表征数据进行数据融合,得到输入对话的情感表征;
S5:根据所述情感表征,得到输入对话的预测标签,并将所述预测标签作为多模态对话情感识别结果输出。
其中,为输入对话的预测标签,Pi表示且/>W4为可训练的权重矩阵,/>为归一化后的情感表征且/>ei表示输入对话的情感特征,Pi[τ]表示第τ个类别的概率值,τ表示第τ个类别,b4表示可训练的权重矩阵的偏置,表示多变量表征数据,fi x,i∈[1,N],x∈{t,a,v}表示多频率表征数据。
本发明遵循常规设置,使用带有L2正则化的分类交叉熵作为损失函数:
其中,Num是对话数量,c(i)是对话i中的语句数量,pij和yi,j分别是对话i中语句j的预测标签概率分布和真实标签,λ是L2的正则化权重,θ表示模型中的所有可训练参数,c(s)表示对话s中的语句数量。
本发明还提供一种基于上述的基于图神经网络的多模态对话情感识别方法的多模态对话情感识别系统,所述多模态对话识别系统包括:
模态编码模块,所述模态编码模块用于获取说话人和上下文感知的单模态表示;
多变量传播模块,所述多变量传播模块用于根据所述说话人和上下文感知的单模态表示,提取各模态和会话上下文之间的多元和高阶信息,得到多变量表征数据;
多频率传播模块,所述多频率传播模块用于提取各模态和会话上下文之间不同频率成分的不同重要性,得到多频率表征数据;
情感分类模块,所述情感分类模块用于对所述多变量表征数据和所述多频率表征数据进行数据融合,得到输入对话的情感表征;并根据所述情感表征,得到输入对话的预测标签,并将所述预测标签作为多模态对话情感识别结果输出。
实施例2
本发明将提出的多模态对话识别系统(M3Net)的性能在两个流行的多模态数据集IEMOCAP和MELD上进行验证。采用三种模态,即文本,视频和音频。本发明使用预先提取的单模态特征,遵循先前工作中相同的提取程序。
所提出的模型是使用PyTorch和torch-geometric工具包实现的。模型在一台装置有1块NVIDIA GeForce RTX 3090的机器上训练。使用准确率和F1分数作为衡量性能的指标。模型使用Adam优化器进行训练,在两个数据集上的批量大小均为16。在1到7的范围内测试L和K,并呈现最佳性能结果。两个数据集的超参数的完整详细信息显示在表1中。
数据集 | Batch | 优化器 | Dh | L | K | Dropout |
IEMOCAP | 16 | Adam(学习率=1e-4) | 512 | 3 | 4 | 0.5 |
MELD | 16 | Adam(学习率=1e-4) | 512 | 3 | 3 | 0.4 |
表1超参数的详细信息
本发明将所提出模型与现有最先进的方法进行了对比,结果显示在表2中。可以看出,在这两个数据集上,M3Net超越了以前的方法,并在准确率和F1分数指标方面取得了新的最先进的记录。特别是,M3Net优于以前基于GNN的方法,包括DialogueGCN,MMGCN和MM-DFN,它们使用复杂的关系学习或相似性指标手动调整边缘加权策略,以捕获多模态和上下文关系。由此可见,本发明的优点是由于对模态和上下文之间的多变量和多频率信息的研究,这是以前的方法所忽略的。
表2 IEMOCAP和MELD上与以前最先进的方法进行比较。
(粗体表示最佳性能。表示数据来自CMN;*表示数据来自ICON;/>表示数据来自MetaDrop;/>表示数据来自使用开源代码的复现)
本发明对M3Net的关键组件进行了消融研究,来探索各个组成模块的有效性,并将结果呈现在表3中。
表3
多变量信息的作用
本发明首先探讨模态和上下文中的多变量信息的作用。为了实现这一点,本发明删除了多变量传播模块(即超图H),仅基于多频率表征执行分类,在表3中显示为变体1。在此设置下,可以观察到IEMOCAP上的准确率下降了2.40%,F1分数下降了2.44%。MELD上的准确率下降了0.54%,F1分数下降了0.69%。这证明了引入多变量传播的有效性,它可以有效地编码更多元的关系。
多频率信息的作用
M3Net的另一个核心组件是多频率传播模块。同样,本发明通过删除该模块并仅使用多变量表征执行预测来测试该模块的重要性。变体2显示了此配置的结果,从中可以观察到性能急剧下降。这证明了在ERC中引入不同频率信息的有效性,这可以指导模型捕捉局部邻域中情感差异和情感共性的不同重要性。
超图中权重的作用
超图H中定义了两种类型的权重,以捕获细粒度的多变量关系。因此,本发明进行了实验来验证这两种权重的效果。从变体3到5可以看出,删除其中一个或两个权重(即将权重值ω(e)或/和γe(v)设置为1)会损害两个数据集上的性能。这表明制定的权重有利于训练。
并行建模的作用
在M3Net中,本发明并行传播多变量和多频率信息。将并行建模与两步骤串行建模进行比较,并将结果显示为变体6和7。串行建模略微降低了MELD上的性能,但会导致IEMOCAP上的性能大幅下降,这意味着并行建模是有效的。
M3Net包含两个并行图,图传播起着关键作用。为了研究堆叠不同图网络层数的影响,本发明对层数展开了网格搜索。具体来说,在1到7的范围内搜索多变量传播(L)和多频率传播(K)的层数,并将结果总结在图3中。在IEMOCAP上,L和K的影响是相似的。起初,随着堆叠更多的层,结果稳步改善,峰值分别出现在L=3和K=4时。进一步堆叠更多层对性能几乎没有积极影响。另一方面,可以注意到MELD上的结果对图形层的数量不太敏感,没有特殊的模式,因为浅层或深层都可以产生不错的性能。
如前所述,本发明的多频率模块的图传播规则与FAGCN密切相关,但存在重要的区别。为了进一步证明本发明方法的有效性,展示与FAGCN的额外实验对比。具体来说,保留多变量模块,并将本发明的多频率建模策略(步骤S3)替换为FAGCN中提出的策略。由于FAGCN在定义滤波器时引入了超参数∈∈[0,1],因此以0.1的步长在[0,1]范围内测试∈。比较总结在图4中。显然,∈是一个至关重要的因素,它极大地影响了性能,尤其是在IEMOCAP上。但是,在任何情况下,这些带有FAGCN的变体都不能胜过原始的M3Net。这表明了本发明的多频率建模机制的优越性。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于图神经网络的多模态对话情感识别方法,其特征在于,所述基于图神经网络的多模态对话情感识别方法包括:
S1:获取说话人和上下文感知的单模态表示,其中,所述单模态表示包括文本、视觉和听觉;
S2:根据所述说话人和上下文感知的单模态表示,提取各模态和会话上下文之间的多元和高阶信息,得到多变量表征数据;
S3:提取各模态和会话上下文之间不同频率成分的不同重要性,得到多频率表征数据;
S4:对所述多变量表征数据和所述多频率表征数据进行数据融合,得到输入对话的情感表征;
S5:根据所述情感表征,得到输入对话的预测标签,并将所述预测标签作为多模态对话情感识别结果输出。
2.根据权利要求1所述的基于图神经网络的多模态对话情感识别方法,其特征在于,所述S1包括:
S11:利用双向门控循环单元对输入对话的文本特征进行编码,得到文本编码数据;
S12:分别利用第一全连接网络和第二全连接网络对输入对话的听觉特征和视觉特征进行编码,得到视觉编码数据和听觉编码数据;
S13:计算说话人的嵌入表征;
S14:分别根据所述文本编码数据、所述视觉编码数据和听觉编码数据,以及所述嵌入表征,得到文本单模态表示、视觉单模态表示和听觉单模态表示。
3.根据权利要求2所述的基于图神经网络的多模态对话情感识别方法,其特征在于,所述S11包括:
所述S12包括:
其中,表示文本编码数据,/>表示听觉编码数据,/>表示视觉编码数据,/>表示双向门控循环单元函数,/>表示输入对话的文本特征,/>表示/>或/>即输入双向门控循环单元/>的文本下文或上文,W1表示第一全连接网络,/>表示输入对话的听觉特征,/>表示听觉偏置,W2表示第二全连接网络,/>表示输入对话的视觉特征,/>表示视觉偏置;
所述S13包括:
Si=Wssi
其中,Si为第i轮对话的说话人的嵌入特征,Ws为可训练的权重,si为独热向量表示每个说话人;
所述S14包括:
其中,表示第i轮对话说话人和上下文感知的单模态表征,当x=t时,/>表示文本编码数据;当x=a时,/>表示听觉编码数据;当x=v时,/>表示视觉编码数据,Si表示说话人嵌入表征。
4.根据权利要求1所述的基于图神经网络的多模态对话情感识别方法,其特征在于,所述S2包括:
S21:根据所述说话人和上下文感知的单模态表示,确定多个第一节点;
S22:构建各第一节点的多模态超边和上下文超边;
S23:分别为各超边和各第一节点分配权重;
S24:根据各所述第一节点、各超边、各超边分配权重以及各第一节点分配权重,生成超图;
S25:对所述超图进行第一节点卷积,通过聚合节点特征更新超边嵌入,并且,进行超边卷积以将超边消息传播至第一节点;
S26:重复S25直至最后一次迭代,并将最后一次迭代的输出作为多变量表征数据。
5.根据权利要求4所述的基于图神经网络的多模态对话情感识别方法,其特征在于,所述S25包括:
其中,V(l)表示第l层的输入且 表示超图神经网络中第l层的某节点,vH表示超图中的节点集合,Dh表示网络隐藏层节点的特征维度,σ()是一个非线性激活函数,We为超边权重矩阵且/>diag()表示对角矩阵,w()表示权重,e1表示第1条超边,/>表示|εH|超边,εH表示超图中超边的集合,和/>分别是节点度矩阵和超边度矩阵,H表示超图节点与边连接的关联矩阵且/> 表示加权关联矩阵且/>T表示转置操作。
6.根据权利要求1所述的基于图神经网络的多模态对话情感识别方法,其特征在于,所述S3包括:
S31:根据所述说话人和上下文感知的单模态表示,确定多个第二节点;
S32:根据所有第二节点,构建无向图;
S33:分别利用高通滤波器和低通滤波器提取所述无向图中当前节点节点特征的高频消息和低频消息;
S34:利用加权和组合所述高频消息和所述低频消息;
S35:根据邻居节点的高频信号和所述低频消息对当前节点的权重贡献,考虑当前节点和邻居节点之间的相关性,确定当前节点的主导信息以及是否接收当前节点和邻居节点之间的差异信息;
S36:将所述主导信息和差异信息传播至整张无向图上,通过堆叠K层,以使各第二节点接收来自K跳邻居节点的多频率信号;
S37:将最后一层的输出作为多频率表征数据。
7.根据权利要求6所述的基于图神经网络的多模态对话情感识别方法,其特征在于,所述S32中,所述无向图的邻接矩阵为:
所述无向图的归一化图拉普拉斯矩阵为:其中,Dg是一个对角线度矩阵,I为单位矩阵,A为无向图的邻接矩阵,vg为节点;
所述S34包括:
其中,F(k)为第k层的输入且Rl,分别是低频信息和高频信息的权重矩阵,因此上式可以改写为:
Ni是节点i的邻居节点,Nj是节点j的邻居节点,和/>分别是节点j的低频信息和高频信息对节点i的贡献,满足约束/>
8.根据权利要求1所述的基于图神经网络的多模态对话情感识别方法,其特征在于,所述S4包括:
所述S5包括:
其中,为输入对话的预测标签,Pi表示且/>W4为可训练的权重矩阵,/>为归一化后的情感表征且/>ei表示输入对话的情感特征,Pi[τ]表示第τ个类别的概率值,τ表示第τ个类别,b4表示可训练的权重矩阵的偏置,/>i∈[1,N],x∈{t,a,v}表示多变量表征数据,/>i∈[1,N],x∈{t,a,v}表示多频率表征数据。
9.根据权利要求1-8中任意一项所述的基于图神经网络的多模态对话情感识别方法,其特征在于,所述基于图神经网络的多模态对话情感识别方法的损失函数L为:
其中,Num是对话数量,c(i)是对话i中的语句数量,pij和yi,j分别是对话i中语句j的预测标签概率分布和真实标签,λ是L2的正则化权重,θ表示模型中的所有可训练参数,c(s)表示对话s中的语句数量。
10.一种基于权利要求1-9中任意一项所述的基于图神经网络的多模态对话情感识别方法的多模态对话情感识别系统,其特征在于,所述多模态对话识别系统包括:
模态编码模块,所述模态编码模块用于获取说话人和上下文感知的单模态表示;
多变量传播模块,所述多变量传播模块用于根据所述说话人和上下文感知的单模态表示,提取各模态和会话上下文之间的多元和高阶信息,得到多变量表征数据;
多频率传播模块,所述多频率传播模块用于提取各模态和会话上下文之间不同频率成分的不同重要性,得到多频率表征数据;
情感分类模块,所述情感分类模块用于对所述多变量表征数据和所述多频率表征数据进行数据融合,得到输入对话的情感表征;并根据所述情感表征,得到输入对话的预测标签,并将所述预测标签作为多模态对话情感识别结果输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310437725.6A CN116467416A (zh) | 2023-04-21 | 2023-04-21 | 一种基于图神经网络的多模态对话情感识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310437725.6A CN116467416A (zh) | 2023-04-21 | 2023-04-21 | 一种基于图神经网络的多模态对话情感识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116467416A true CN116467416A (zh) | 2023-07-21 |
Family
ID=87181994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310437725.6A Pending CN116467416A (zh) | 2023-04-21 | 2023-04-21 | 一种基于图神经网络的多模态对话情感识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116467416A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117892237A (zh) * | 2024-03-15 | 2024-04-16 | 南京信息工程大学 | 一种基于超图神经网络的多模态对话情绪识别方法及系统 |
CN117892237B (zh) * | 2024-03-15 | 2024-06-07 | 南京信息工程大学 | 一种基于超图神经网络的多模态对话情绪识别方法及系统 |
-
2023
- 2023-04-21 CN CN202310437725.6A patent/CN116467416A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117892237A (zh) * | 2024-03-15 | 2024-04-16 | 南京信息工程大学 | 一种基于超图神经网络的多模态对话情绪识别方法及系统 |
CN117892237B (zh) * | 2024-03-15 | 2024-06-07 | 南京信息工程大学 | 一种基于超图神经网络的多模态对话情绪识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
Oord et al. | Representation learning with contrastive predictive coding | |
JP7337953B2 (ja) | 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム | |
CN108899051B (zh) | 一种基于联合特征表示的语音情感识别模型及识别方法 | |
Nakkiran et al. | Compressing deep neural networks using a rank-constrained topology | |
CN112818861B (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
CN109256118B (zh) | 基于生成式听觉模型的端到端汉语方言识别系统和方法 | |
CN110853656B (zh) | 基于改进神经网络的音频篡改识别方法 | |
Mo et al. | Neural architecture search for keyword spotting | |
CN110534101A (zh) | 一种基于多模融合深度特征的移动设备源识别方法及系统 | |
CN105895082A (zh) | 声学模型训练方法、语音识别方法及装置 | |
Lee et al. | Deep representation learning for affective speech signal analysis and processing: Preventing unwanted signal disparities | |
CN112183582A (zh) | 一种多特征融合的水下目标识别方法 | |
CN113571095B (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 | |
Liu et al. | Graph based emotion recognition with attention pooling for variable-length utterances | |
CN117539999A (zh) | 一种基于跨模态联合编码的多模态情感分析方法 | |
CN110619886B (zh) | 一种针对低资源土家语的端到端语音增强方法 | |
CN117672268A (zh) | 基于相对熵对齐融合的多模态语音情感识别方法 | |
Yang et al. | Speech emotion analysis of netizens based on bidirectional lstm and pgcdbn | |
CN116467416A (zh) | 一种基于图神经网络的多模态对话情感识别方法及系统 | |
CN116310770A (zh) | 基于梅尔倒谱和注意力残差网络的水声目标识别方法和系统 | |
CN112951270B (zh) | 语音流利度检测的方法、装置和电子设备 | |
CN115472182A (zh) | 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置 | |
CN114998698A (zh) | 动态时域卷积网络驱动的多模态情感识别方法 | |
CN108417204A (zh) | 基于大数据的信息安全处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |