CN116467416A

CN116467416A - 一种基于图神经网络的多模态对话情感识别方法及系统

Info

Publication number: CN116467416A
Application number: CN202310437725.6A
Authority: CN
Inventors: 陈飞宇; 邵杰; 朱树元; 申恒涛
Original assignee: Sichuan Artificial Intelligence Research Institute Yibin
Current assignee: Sichuan Artificial Intelligence Research Institute Yibin
Priority date: 2023-04-21
Filing date: 2023-04-21
Publication date: 2023-07-21

Abstract

本发明公开了一种基于图神经网络的多模态对话情感识别方法及系统，包括：S1：获取说话人和上下文感知的单模态表示；S2：根据说话人和上下文感知的单模态表示，提取各模态和会话上下文之间的多元和高阶信息，得到多变量表征数据；S3：提取各模态和会话上下文之间不同频率成分的不同重要性，得到多频率表征数据；S4：对多变量表征数据和多频率表征数据进行数据融合，得到输入对话的情感表征；S5：根据情感表征，得到输入对话的预测标签，并将预测标签作为多模态对话情感识别结果输出。本发明能够提高对话情感识别的准确性和效率。

Description

一种基于图神经网络的多模态对话情感识别方法及系统

技术领域

本发明涉及情感计算技术领域，具体涉及一种基于图神经网络的多模态对话情感识别方法及系统。

背景技术

对话情感识别任务(Emotion Recognition in Conversation,ERC)旨在使机器能够利用多感官数据(包括文本、视觉和听觉信息等)检测对话中交互的人类情感。与在单一模态(例如文本、语音或面部图像)下或在非对话场景中进行的传统情感计算任务不同，ERC任务中存在一项独特且关键的挑战，即跨模态和上下文维度的多变量复杂关系。

研究人员一直在探索如何更有效地捕捉这其中复杂的关系。在现有的ERC模型中，一个主要的方式是使用上下文感知模块(如循环单元或Transformer)来捕获上下文关系，同时通过各种融合方法对多模态关系进行建模。尽管取得了一些进展，但这种方式往往低估了模态和上下文之间的多变量关系，因为它以松散耦合的方式编码多模态和上下文关系，限制了其中的自然相互作用，导致关系的学习不够充分。

最近，图神经网络(Graph Neural Network,GNN)在捕获数据关系方面显示出一定优势，为对话情感识别提供了新的解决方案。一种通常的解决方法是构建一个异构图，其中将话语的每个模态视为一个节点，并与同一话语的其他模态连接以及与同一对话中相同模态的话语连接。通常会遵循精心调整的边缘加权策略。在此基础上，可以通过消息传递同时对话语之间的多模态和上下文依赖关系进行建模，从而提供更紧密的纠缠和更丰富的交互。尽管这些基于GNN的方法非常强大，但它们仍然存在两个局限性：

i)多变量关系建模不充分。传统的GNN假定感兴趣对象拥有成对关系，并且只能通过多个成对组合提供高阶和多变量关系的近似。然而，将这些多变量关系退化为成对组合可能会损害表达能力。因此，现有的基于GNN的方法可能无法充分建模ERC中复杂的多变量关系。

ii)低估高频率信息。研究已经表明，GNN的传播规则(即聚合和平滑来自邻居节点的消息)类似于固定的低通滤波器，并且图中流动的主要是低频消息，而高频信息的效果大幅减弱。此外，有研究表明低频消息能保留节点特征的共性，且在同配图上表现更好(同配图即是图中相链接的节点往往具有相似的特征并共享相同的标签)。相比之下，反映差异和不一致的高频信息在异配图中更为重要。对于ERC，构建的图通常具有高度异配性，其中模态或短距离上下文之间可能存在不一致的情感信息。因此，高频信息可能会提供关键的指导，但是以前基于GNN的ERC模型严重忽略了这一点，从而导致性能提升的瓶颈。

发明内容

本发明的目的在于提供一种基于图神经网络的多模态对话情感识别方法及系统，通过研究模态和上下文之间的多元关系，充分利用反映情感差异和情感共性的不同频率信息，以能够提高对话情感识别的准确性和效率。

本发明解决上述技术问题的技术方案如下：

本发明提供一种基于图神经网络的多模态对话情感识别方法，所述基于图神经网络的多模态对话情感识别方法包括：

S1：获取说话人和上下文感知的单模态表示，其中，所述单模态表示包括文本、视觉和听觉；

S2：根据所述说话人和上下文感知的单模态表示，提取各模态和会话上下文之间的多元和高阶信息，得到多变量表征数据；

S3：提取各模态和会话上下文之间不同频率成分的不同重要性，得到多频率表征数据；

S4：对所述多变量表征数据和所述多频率表征数据进行数据融合，得到输入对话的情感表征；

S5：根据所述情感表征，得到输入对话的预测标签，并将所述预测标签作为多模态对话情感识别结果输出。

可选择地，所述S1包括：

S11：利用双向门控循环单元对输入对话的文本特征进行编码，得到文本编码数据；

S12：分别利用第一全连接网络和第二全连接网络对输入对话的听觉特征和视觉特征进行编码，得到视觉编码数据和听觉编码数据；

S13：计算说话人的嵌入表征；

S14：分别根据所述文本编码数据、所述视觉编码数据和听觉编码数据，以及所述嵌入表征，得到文本单模态表示、视觉单模态表示和听觉单模态表示。

可选择地，所述S11包括：

所述S12包括：

其中，表示文本编码数据，/>表示听觉编码数据，/>表示视觉编码数据，/>表示双向门控循环单元函数，/>表示输入对话的文本特征，/>表示/>或/>即输入双向门控循环单元/>的文本下文或上文，W₁表示第一全连接网络，/>表示输入对话的听觉特征，/>表示听觉偏置，W₂表示第二全连接网络，/>表示输入对话的视觉特征，/>表示视觉偏置；

所述S13包括：

S_i＝W_ss_i

其中，S_i为第i轮对话的说话人的嵌入特征，W_s为可训练的权重，s_i为独热向量表示每个说话人；

所述S14包括：

其中，表示第i轮对话说话人和上下文感知的单模态表征，当x＝t时，/>表示文本编码数据；当x＝a时，/>表示听觉编码数据；当x＝v时，/>表示视觉编码数据，S_i表示说话人嵌入表征。

可选择地，所述S2包括：

S21：根据所述说话人和上下文感知的单模态表示，确定多个第一节点；

S22：构建各第一节点的多模态超边和上下文超边；

S23：分别为各超边和各第一节点分配权重；

S24：根据各所述第一节点、各超边、各超边分配权重以及各第一节点分配权重，生成超图；

S25：对所述超图进行第一节点卷积，通过聚合节点特征更新超边嵌入，并且，进行超边卷积以将超边消息传播至第一节点；

S26：重复S25直至最后一次迭代，并将最后一次迭代的输出作为多变量表征数据。

可选择地，所述S25包括：

其中，V^(l)表示第l层的输入且表示超图神经网络中第l层的某节点，v_H表示超图中的节点集合，D_h表示网络隐藏层节点的特征维度，σ()是一个非线性激活函数，W_e为超边权重矩阵且/>diag()表示对角矩阵，w()表示权重，e₁表示第1条超边，/>表示|ε_H|超边，ε_H表示超图中超边的集合，/>和/>分别是节点度矩阵和超边度矩阵，H表示超图节点与边连接的关联矩阵且/> 表示加权关联矩阵且/>T表示转置操作。

可选择地，所述S3包括：

S31：根据所述说话人和上下文感知的单模态表示，确定多个第二节点；

S32：根据所有第二节点，构建无向图；

S33：分别利用所述高通滤波器和所述低通滤波器提取所述无向图中当前节点节点特征的高频消息和低频消息；

S34：利用加权和组合所述高频消息和所述低频消息；

S35：根据邻居节点的高频信号和所述低频消息对当前节点的权重贡献，考虑当前节点和邻居节点之间的相关性，确定当前节点的主导信息以及是否接收当前节点和邻居节点之间的差异信息；

S36：将所述主导信息和差异信息传播至整张无向图上，通过堆叠K层，以使各第二节点接收来自K跳邻居节点的多频率信号；

S37：将最后一层的输出作为多频率表征数据。

可选择地，所述S32中，所述无向图的邻接矩阵为：

所述无向图的归一化图拉普拉斯矩阵为：其中，D_g是一个对角线度矩阵，I为单位矩阵，A为无向图的邻接矩阵，v_g为节点；

所述S34包括：

其中，F^(k)为第k层的输入且R^l，分别是低频信息和高频信息的权重矩阵，因此上式可以改写为：

N_i是节点i的邻居节点，N_j是节点j的邻居节点，和/>分别是节点j的低频信息和高频信息对节点i的贡献，满足约束/>

可选择地，所述S4包括：

所述S5包括：

其中，为输入对话的预测标签，P_i表示且/>W₄为可训练的权重矩阵，/>为归一化后的情感表征且/>e_i表示输入对话的情感特征，P_i[τ]表示第τ个类别的概率值，τ表示第τ个类别，b₄表示可训练的权重矩阵的偏置，表示多变量表征数据，f_i ^x，i∈[1，N]，x∈{t，a，v}表示多频率表征数据。

可选择地，所述基于图神经网络的多模态对话情感识别方法的损失函数L为：

其中，Num是对话数量，c(i)是对话i中的语句数量，p_ij和y_i,j分别是对话i中语句j的预测标签概率分布和真实标签，λ是L₂的正则化权重，θ表示模型中的所有可训练参数，c(s)表示对话s中的语句数量。

本发明还提供一种基于上述的基于图神经网络的多模态对话情感识别方法的多模态对话情感识别系统，所述多模态对话识别系统包括：

模态编码模块，所述模态编码模块用于获取说话人和上下文感知的单模态表示；

多变量传播模块，所述多变量传播模块用于根据所述说话人和上下文感知的单模态表示，提取各模态和会话上下文之间的多元和高阶信息，得到多变量表征数据；

多频率传播模块，所述多频率传播模块用于提取各模态和会话上下文之间不同频率成分的不同重要性，得到多频率表征数据；

情感分类模块，所述情感分类模块用于对所述多变量表征数据和所述多频率表征数据进行数据融合，得到输入对话的情感表征；并根据所述情感表征，得到输入对话的预测标签，并将所述预测标签作为多模态对话情感识别结果输出。

本发明具有以下有益效果：

1)本发明通过研究模态和上下文之间的多元关系，充分利用反映情感差异和情感共性的不同频率信息，以能够提高对话情感识别的准确性和效率；

2)本发明超图中的超边可以连接任意数量的节点，因此可以自然地编码更多元的关系；同时，通过采用一组频率滤波器从节点特征中提取不同的频率成分，在无向图网络上对多频率信息进行建模，从而能够自适应地整合不同的频率信号以捕捉局部邻域中情感差异和情感共性的不同重要性，进而实现自适应的信息共享模式。

附图说明

图1为本发明基于图神经网络的多模态对话情感识别方法的流程图；

图2为本发明基于图神经网络的多模态对话情感识别系统的示意图；

图3为本发明基于图神经网络的多模态对话情感识别系统基于不同图网络层的结果示意图；

图4为本发明基于图神经网络的多模态对话情感识别系统与FAGCN的效果比较示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

本发明提供一种基于图神经网络的多模态对话情感识别方法，参考图1所示，所述基于图神经网络的多模态对话情感识别方法包括：

一段对话包括N条语句{(u₁，p₁)，(u₂，p₂)，...，(u_N，p_N)}，其中每条语句u_i由说话人p_i说出，包括多感官数据，即文本视觉/>和听觉/>

对话本质上是呈序列关系的，由多个说话人构成。因此，本发明首先使用说话人和上下文信息处理单模态语句，以获得说话人和上下文感知的单模态表示。

具体包括：

所述S11包括：

所述S12包括：

其中，表示文本编码数据，/>表示听觉编码数据，/>表示视觉编码数据，/>表示双向门控循环单元函数，/>表示输入对话的文本特征，/>表示/>或/>即输入双向门控循环单元/>的文本下文或上文，W₁表示第一全连接网络，/>表示输入对话的听觉特征，/>表示听觉偏置，W₂表示第二全连接网络，/>表示输入对话的视觉特征，/>表示视觉偏置。

S13：计算说话人的嵌入表征；

S_i＝W_ss_i

其中，S_i为第i轮对话的说话人的嵌入特征，W_s为可训练的权重，s_i为独热向量表示每个说话人。

其中，表示第i轮对话说话人和上下文感知的单模态表征，当x＝t时，/>表示文本编码数据；当x＝a时，/>表示听觉编码数据；当x＝v时，/>表示视觉编码数据，S_i表示嵌入表征。

这一步的主要思想是探索多种模态和会话上下文之间的多元和高阶信息。本发明首先从上述序列编码的语句中构建一张超图H，总的来说，给定包含N个对话轮次的语句序列，构造一张超图H＝(V_H,ε_H,ω,γ)，其中每个第一节点v∈V_H(|V_H|＝3N)对应一条单模态语句，每条超边e∈ε_H(|ε_H|＝3+N)编码多模态或上下文依赖关系。为每条超边e∈ε_H分配一个权重ω(e)，并且为每个连接到每条超边e的节点v分配一个权重γ_e(v)。用表示关联矩阵，其中非零条目H_ve＝1表示节点v连接到超边e；否则H_ve＝0。

基于此，所述S2包括：

每条语句的每种模态都表示为超图中的一个节点，即表示文本模态，/>表示听觉模态，/>表示视觉模态，分别用序列编码的表征/>初始化节点嵌入/>

S22：构建各第一节点的多模态超边和上下文超边；

参考图2所示，每个第一节点首先通过一条上下文超边，连接到同一对话同一模态中的所有其他语句/>此外，每个第一节点/>都通过一条多模态超边连接到相同语句的其他模态/>以这种方式，构造的超图能够捕获超越成对组合的高阶和多元信息

S23：分别为各超边和各第一节点分配权重；

与现有的基于GNN的ERC模型不同，这些模型使用复杂的关系学习或相似度指标手动调整边缘加权策略，而本发明使用随机初始化的权重值来避免使模型不必要地复杂化。具体来说，本发明在超图中定义了两种类型的权重：

i)每条超边e的边权重ω(e)；

ii)每个连接到超边e的节点v的节点权重γ_e(v)(又名边依赖的节点权重)。

直观地，γ_e(v)测量节点v对超边e的贡献，从而加强细粒度的多模态和上下文依赖关系。因此，边缘依赖的节点权重可以用加权关联矩阵表示：

经过L次迭代，将最后一次迭代的输出作为多变量表征数据。

上述多变量传播模块能够捕获超出成对组合的高阶依赖关系，但它仍然遵循通用的图学习协议，即聚合和平滑来自邻域的信号。这可以解释为低通滤波器的一种形式，即消息的平滑性基本上是传播低频信息，同时擦除高频信息。然而，如前所述，反映节点情感差异的高频信息至关重要，并且将不同频率的消息的效果结合起来是值得探索的。因此，本发明提出一个多频率传播模块，以提炼出具有不同重要性的不同频率成分。为此，本发明另外基于序列编码的语句构建一个无向图g＝(v_g，ε_g)，与多变量模块并行。

具体地，本发明构造一张无向图g＝(v_g，ε_g)，其节点v_g与H中的节点相同，记为{f_i ^t,f_i ^a,f_i ^v}。节点嵌入也使用序列编码的表示进行初始化。与H不同，本发明构建了一组具有成对连接的边ε_g。类似地，本发明也将每个节点f_i ^x连接到同一对话中相同模态的所有其他语句{f_i ^x|j∈[1，N]，j≠i}，以及相同语句的其他模态{f_i ^z|z∈{t，a，v}，z≠x}。包括：

S32：根据所有第二节点，构建无向图；

构建的无向图如图2所示，所述无向图的邻接矩阵为：所述无向图的归一化图拉普拉斯矩阵为：/>其中，D_g是一个对角线度矩阵，I为单位矩阵，A为无向图的邻接矩阵，v_g为节点。

本发明首先设计一个低通滤波器F_l和一个高通滤波器F_h从节点特征中提取信号：

可以注意到，高通滤波器等效于归一化图拉普拉斯矩阵，这与图像信号处理中可以利用拉普拉斯核来突出高频边缘信息的理论是一致的。根据图傅里叶变换理论，给定一个信号F_l和F_h的滤波运算可以看作是/>和相应的卷积核之间的卷积*c：

具体地，F_l和F_h都是滤波器，给定一个信号的时候，将这个信号/>使用这两个滤波器进行滤波运算可以看成是/>和滤波器对应的卷积核间的卷积操作。

S34：利用加权和组合所述高频消息和所述低频消息；

其中，F^(k)为第k层的输入且分别是低频信息和高频信息的权重矩阵，因此上式可以改写为：

考虑中心节点和邻居之间的相关性：

其中表示张量拼接运算，/>是一个可训练的权重矩阵，tanh()是双曲正切函数，将数值限制在[-1,1]。通过这种方式，系数/>以很容易地模拟不同频率成分的不同重要性。例如，如果/>则高频消息占主导地位，节点i接收节点i和邻居j之间的差异信息(即f_i,(k)-f_j,(k))；反之亦然。

S37：将最后一层的输出作为多频率表征数据。

本发明遵循常规设置，使用带有L₂正则化的分类交叉熵作为损失函数：

实施例2

本发明将提出的多模态对话识别系统(M³Net)的性能在两个流行的多模态数据集IEMOCAP和MELD上进行验证。采用三种模态，即文本，视频和音频。本发明使用预先提取的单模态特征，遵循先前工作中相同的提取程序。

所提出的模型是使用PyTorch和torch-geometric工具包实现的。模型在一台装置有1块NVIDIA GeForce RTX 3090的机器上训练。使用准确率和F1分数作为衡量性能的指标。模型使用Adam优化器进行训练，在两个数据集上的批量大小均为16。在1到7的范围内测试L和K，并呈现最佳性能结果。两个数据集的超参数的完整详细信息显示在表1中。

数据集	Batch	优化器	D_h	L	K	Dropout
							IEMOCAP	16	Adam(学习率＝1e-4)	512	3	4	0.5
MELD	16	Adam(学习率＝1e-4)	512	3	3	0.4

表1超参数的详细信息

本发明将所提出模型与现有最先进的方法进行了对比，结果显示在表2中。可以看出，在这两个数据集上，M³Net超越了以前的方法，并在准确率和F1分数指标方面取得了新的最先进的记录。特别是，M³Net优于以前基于GNN的方法，包括DialogueGCN，MMGCN和MM-DFN，它们使用复杂的关系学习或相似性指标手动调整边缘加权策略，以捕获多模态和上下文关系。由此可见，本发明的优点是由于对模态和上下文之间的多变量和多频率信息的研究，这是以前的方法所忽略的。

表2 IEMOCAP和MELD上与以前最先进的方法进行比较。

(粗体表示最佳性能。表示数据来自CMN；*表示数据来自ICON；/>表示数据来自MetaDrop；/>表示数据来自使用开源代码的复现)

本发明对M³Net的关键组件进行了消融研究，来探索各个组成模块的有效性，并将结果呈现在表3中。

表3

多变量信息的作用

本发明首先探讨模态和上下文中的多变量信息的作用。为了实现这一点，本发明删除了多变量传播模块(即超图H)，仅基于多频率表征执行分类，在表3中显示为变体1。在此设置下，可以观察到IEMOCAP上的准确率下降了2.40％，F1分数下降了2.44％。MELD上的准确率下降了0.54％，F1分数下降了0.69％。这证明了引入多变量传播的有效性，它可以有效地编码更多元的关系。

多频率信息的作用

M³Net的另一个核心组件是多频率传播模块。同样，本发明通过删除该模块并仅使用多变量表征执行预测来测试该模块的重要性。变体2显示了此配置的结果，从中可以观察到性能急剧下降。这证明了在ERC中引入不同频率信息的有效性，这可以指导模型捕捉局部邻域中情感差异和情感共性的不同重要性。

超图中权重的作用

超图H中定义了两种类型的权重，以捕获细粒度的多变量关系。因此，本发明进行了实验来验证这两种权重的效果。从变体3到5可以看出，删除其中一个或两个权重(即将权重值ω(e)或/和γ_e(v)设置为1)会损害两个数据集上的性能。这表明制定的权重有利于训练。

并行建模的作用

在M³Net中，本发明并行传播多变量和多频率信息。将并行建模与两步骤串行建模进行比较，并将结果显示为变体6和7。串行建模略微降低了MELD上的性能，但会导致IEMOCAP上的性能大幅下降，这意味着并行建模是有效的。

M³Net包含两个并行图，图传播起着关键作用。为了研究堆叠不同图网络层数的影响，本发明对层数展开了网格搜索。具体来说，在1到7的范围内搜索多变量传播(L)和多频率传播(K)的层数，并将结果总结在图3中。在IEMOCAP上，L和K的影响是相似的。起初，随着堆叠更多的层，结果稳步改善，峰值分别出现在L＝3和K＝4时。进一步堆叠更多层对性能几乎没有积极影响。另一方面，可以注意到MELD上的结果对图形层的数量不太敏感，没有特殊的模式，因为浅层或深层都可以产生不错的性能。

如前所述，本发明的多频率模块的图传播规则与FAGCN密切相关，但存在重要的区别。为了进一步证明本发明方法的有效性，展示与FAGCN的额外实验对比。具体来说，保留多变量模块，并将本发明的多频率建模策略(步骤S3)替换为FAGCN中提出的策略。由于FAGCN在定义滤波器时引入了超参数∈∈[0,1]，因此以0.1的步长在[0,1]范围内测试∈。比较总结在图4中。显然，∈是一个至关重要的因素，它极大地影响了性能，尤其是在IEMOCAP上。但是，在任何情况下，这些带有FAGCN的变体都不能胜过原始的M³Net。这表明了本发明的多频率建模机制的优越性。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于图神经网络的多模态对话情感识别方法，其特征在于，所述基于图神经网络的多模态对话情感识别方法包括：

2.根据权利要求1所述的基于图神经网络的多模态对话情感识别方法，其特征在于，所述S1包括：

S13：计算说话人的嵌入表征；

3.根据权利要求2所述的基于图神经网络的多模态对话情感识别方法，其特征在于，所述S11包括：

所述S12包括：

所述S13包括：

S_i＝W_ss_i

所述S14包括：

4.根据权利要求1所述的基于图神经网络的多模态对话情感识别方法，其特征在于，所述S2包括：

S22：构建各第一节点的多模态超边和上下文超边；

S23：分别为各超边和各第一节点分配权重；

5.根据权利要求4所述的基于图神经网络的多模态对话情感识别方法，其特征在于，所述S25包括：

其中，V^(l)表示第l层的输入且表示超图神经网络中第l层的某节点，v_H表示超图中的节点集合，D_h表示网络隐藏层节点的特征维度，σ()是一个非线性激活函数，W_e为超边权重矩阵且/>diag()表示对角矩阵，w()表示权重，e₁表示第1条超边，/>表示|ε_H|超边，ε_H表示超图中超边的集合，和/>分别是节点度矩阵和超边度矩阵，H表示超图节点与边连接的关联矩阵且/> 表示加权关联矩阵且/>T表示转置操作。

6.根据权利要求1所述的基于图神经网络的多模态对话情感识别方法，其特征在于，所述S3包括：

S32：根据所有第二节点，构建无向图；

S33：分别利用高通滤波器和低通滤波器提取所述无向图中当前节点节点特征的高频消息和低频消息；

S34：利用加权和组合所述高频消息和所述低频消息；

S37：将最后一层的输出作为多频率表征数据。

7.根据权利要求6所述的基于图神经网络的多模态对话情感识别方法，其特征在于，所述S32中，所述无向图的邻接矩阵为：

所述S34包括：

8.根据权利要求1所述的基于图神经网络的多模态对话情感识别方法，其特征在于，所述S4包括：

所述S5包括：

其中，为输入对话的预测标签，P_i表示且/>W₄为可训练的权重矩阵，/>为归一化后的情感表征且/>e_i表示输入对话的情感特征，P_i[τ]表示第τ个类别的概率值，τ表示第τ个类别，b₄表示可训练的权重矩阵的偏置，/>i∈[1，N]，x∈{t，a，v}表示多变量表征数据，/>i∈[1，N]，x∈{t，a，v}表示多频率表征数据。

9.根据权利要求1-8中任意一项所述的基于图神经网络的多模态对话情感识别方法，其特征在于，所述基于图神经网络的多模态对话情感识别方法的损失函数L为：

10.一种基于权利要求1-9中任意一项所述的基于图神经网络的多模态对话情感识别方法的多模态对话情感识别系统，其特征在于，所述多模态对话识别系统包括：