CN115359576A

CN115359576A - 一种多模态情绪识别方法、装置、电子设备及存储介质

Info

Publication number: CN115359576A
Application number: CN202210906831.XA
Authority: CN
Inventors: 潘家辉; 方伟杰; 张志航; 王恒畅
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-11-18

Abstract

本发明涉及一种多模态情绪识别方法、装置、电子设备及存储介质。本发明所述的多模态情绪识别方法包括获取受试者的脑电信号、人脸信号和语音信号；分别对脑电信号、人脸信号和语音信号进行预处理后，分别将脑电信号、人脸信号和语音信号输入训练好的脑电情绪识别模型、人脸情绪识别模型和语音情绪识别模型，得到脑电信号、人脸信号和语音信号对应每种情绪的概率；使用最优权值分布算法，对脑电信号对应每种情绪的概率、人脸信号对应每种情绪的概率和语音信号对应每种情绪的概率进行权重赋值和加权融合，得到受试者对应的情绪类别。本发明的多模态情绪识别方法，有效地提高了情绪识别的准确率以及鲁棒性。

Description

一种多模态情绪识别方法、装置、电子设备及存储介质

技术领域

本发明涉及视觉智能处理技术领域，特别是涉及一种多模态情绪识别方法、装置、电子设备及存储介质。

背景技术

情绪作为人类特有的复杂心理现象，在日常生活中起着十分重要的作用，因此有必要去探索一个能够识别到人情绪的方法。情绪的传达方式也有很多种：一方面，情绪可以由面部表情、语音及肢体动作等这类外部特征表现出来，这类特征作为人的主观情绪表达方式，虽然获取方式相对来说更加简单，但相应的也容易被伪装；另一方面，情绪也可由人的内在生理信号所反应，如脑电、眼电等，这类信号不易因人的主观意愿而改变，更具有客观性，能够更加真实的反应出人的情绪。

但无论是外部信号还是内部生理信号，这些信号都在不同维度为情绪识别提供了判断依据，仅仅只利用某一个信号去判断人的情绪是不严谨也不够精确的。

在早期的情绪识别研究中，更多的是单单仅使用一个模态进行情绪识别，如面部表情、语音语调以及脑电等，这些模态能够反应出人的情绪，因此具有一定可行性。尽管基于单模态的情绪识别方法准确率达到了比较可观的数值，但设计出来的情绪识别模型都不具有较高的鲁棒性，容易因被试伪装而导致误判，无法保证能够投入到实际应用当中来。

由于不同人的情绪表达方式不同，且同一个人表达情绪的方式也并非一种，基于单一模态的情绪识别方法的泛化能力及鲁棒性还有所欠缺，而利用多种模态形成信息互补会大大提高情绪识别方法的鲁棒性，因此近年来也有部分研究人员开展了多模态情绪识别的研究。

目前，情绪识别相关的研究主要存在以下难点：

模态选择不够全面，尽管目前存在少部分多模态情绪识别方法，但大多数都是采用双模态的形式，并未考虑周全；情绪识别方法的准确率不高、鲁棒性差。

发明内容

基于此，本发明的目的在于，提供一种多模态情绪识别方法、装置、电子设备及存储介质，有效地提高了情绪识别的准确率以及鲁棒性。

第一方面，本发明提供一种多模态情绪识别方法，包括以下步骤：

获取受试者的脑电信号、人脸信号和语音信号；

分别对所述脑电信号、所述人脸信号和所述语音信号进行预处理后，分别将所述脑电信号、所述人脸信号和所述语音信号输入训练好的脑电情绪识别模型、人脸情绪识别模型和语音情绪识别模型，得到所述脑电信号、所述人脸信号和所述语音信号对应每种情绪的概率；

使用最优权值分布算法，对所述脑电信号对应每种情绪的概率、所述人脸信号对应每种情绪的概率和所述语音信号对应每种情绪的概率进行权重赋值；

使用所述最优权值分布算法得到的权重赋值，对所述脑电信号对应每种情绪的概率、所述人脸信号对应每种情绪的概率和所述语音信号对应每种情绪的概率进行加权融合，得到所述受试者对应的情绪类别。

进一步地，使用最优权值分布算法，对所述脑电信号对应每种情绪的概率、所述人脸信号对应每种情绪的概率和所述语音信号对应每种情绪的概率进行权重赋值，包括：

S31：获取所述脑电信号对应每种情绪的概率、所述人脸信号对应每种情绪的概率和所述语音信号对应每种情绪的概率，作为最优权值分布算法的输入，其中，n模态对应n个回归模型，共T次试验用于预测，第k个模型中试验t的预测平均唤醒评分为A_tk，k∈{1，2，3,…，n}，t∈{1，2，3,…,T}；

S32：初始化权重集

为{0.00，0.01，0.02，..。,0.98，0.99,1.00}，初始化均方根误差最小值RS_min；

S33：在

中循环枚举n个模态的权重，第k个模态的权重为ω_k，当所有权重之和为1时，使用以下公式，计算当前权重分布下的多模态融合得到的预测唤醒分数

其中，

为当前权重分布下的多模态融合得到的预测唤醒分数，k∈{1，2，3,…，n}，n为模态总数量，ω_k为第k个模态的权重，A_tk为第k个模型中试验t的预测平均唤醒评分；

S34：使用以下公式，计算当前权重分布下T次试验的均方根误差RS_cut：

其中，RS_cut为当前权重分布下T次试验的均方根误差，

为当前权重分布下的多模态融合得到的预测唤醒分数；y_t为真实的唤醒分数；

S35：比较RS_cut和RS_min的大小关系；当RS_cut<S_min时，将RS_min更新为RS_cut的值；当RS_cut≥RS_min，则保留当前RS_min；

S36：迭代执行S33-S35，直至循环枚举结束，保存RS_min对应的权重分布，作为所述脑电信号对应每种情绪的概率、所述人脸信号对应每种情绪的概率和所述语音信号对应每种情绪的概率的权重赋值。

进一步地，所述脑电情绪识别模型为tLSTM结构，包括由4层LSTM单元组成的树状部分、单个LSTM单元和全连接层；

所述树状部分的叶子节点上的LSTM单元的神经元数量相同。

进一步地，所述语音情绪识别模型为LFCNN，包括顺次连接的并行卷积结构部分、残差结构部分、连续卷积部分和输出部分；

所述并行卷积结构部分包括三个并行卷积层，三个并行卷积层的输出将被合并在一起输入至所述残差结构部分；

所述残差结构部分主边缘包含两个卷积层；

所述连续卷积部分包括四个连续的卷积层；

所述输出部分包括多个稠密层，或，所述输出部分包括稠密层和SoftMax层。

进一步地，对所述脑电信号进行预处理，包括：

使用独立成分分析法去除原始信号中的伪迹信号；

对于经过去伪迹得到的脑电信号，采用小波变换，提取所述脑电信号的功率谱密度，共提取5个频带的功率谱密度特征；

以10秒作为脑电分割的时间窗，并采用50％的重叠率扩充数据。

进一步地，对所述人脸信号进行预处理，包括：

对输入的图像进行人脸检测，即将与人脸无关的部分剔除，仅保留人脸图像；

对检测到的人脸图像进行人脸对齐、几何归一化及灰度归一化处理，得到处理好的人脸信号。

进一步地，对所述语音信号进行预处理，包括：

使用如下公式，将所述语音信号的原始频率f转换为Mel频率为F_mel：

根据所述Mel频率得到所述语音信号对应的梅尔频谱特征。

第二方面，本发明还提供一种多模态情绪识别装置，包括：

信号获取模块，用于获取受试者的脑电信号、人脸信号和语音信号；

情绪概率计算模块，用于分别对所述脑电信号、所述人脸信号和所述语音信号进行预处理后，分别将所述脑电信号、所述人脸信号和所述语音信号输入训练好的脑电情绪识别模型、人脸情绪识别模型和语音情绪识别模型，得到所述脑电信号、所述人脸信号和所述语音信号对应每种情绪的概率；

权重赋值模块，用于使用最优权值分布算法，对所述脑电信号对应每种情绪的概率、所述人脸信号对应每种情绪的概率和所述语音信号对应每种情绪的概率进行权重赋值；

情绪类别输出模块，用于使用所述最优权值分布算法得到的权重赋值，对所述脑电信号对应每种情绪的概率、所述人脸信号对应每种情绪的概率和所述语音信号对应每种情绪的概率进行加权融合，得到所述受试者对应的情绪类别。

第三方面，本发明还提供一种电子设备，包括：

至少一个存储器以及至少一个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如本发明第一方面任一所述的一种多模态情绪识别方法的步骤。

第四方面，本发明还提供一种计算机可读存储介质，

所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如本发明第一方面任一所述的一种多模态情绪识别方法的步骤。

本发明提供的一种多模态情绪识别方法、装置、电子设备及存储介质，在CK+数据集(包含人脸数据)、EMO-DB数据集(包含语音数据)以及MAHNOB-HCI数据集(包含脑电、语音、人脸数据)上进行了充分的验证实验，结果表明本专利提出的方法有效地提高了情绪识别的准确率以及鲁棒性。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本发明提供的一种多模态情绪识别方法的整体工作流程示意图；

图2为本发明提供的一种多模态情绪识别方法的步骤示意图；

图3为本发明在一个实施例中使用的最优权重分布算法流程示意图；

图4为本发明在一个实施例中使用的用于脑电情绪识别的tLSTM结构示意图；

图5为本发明在一个实施例中使用的Ghost bottleneck改进前后的结构对比示意图；

图6为本发明在一个实施例中使用的用于语音情绪识别的LFCNN结构示意图；

图7为本发明在一个实施例中在CK+数据集上训练得到的混淆矩阵示意图；

图8为本发明提供的一种多模态情绪识别装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

应当明确，所描述的实施例仅仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请实施例保护的范围。

在本申请实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

针对背景技术中的问题，本发明提出的多模态情绪识别的整体工作流程。如图1所示，首先被试者需要佩戴脑机接口设备，并面向一个带有语音采集功能的高清摄像头，这样我们便可以采集到被试者实验过程中的脑电信号、人脸信号以及语音信号。采集到原始信号后，我们需要对原始信号进行预处理以及特征提取，然后再送入训练好的模型中进行预测。三个模态分别送入不同的情绪预测模型，待识别结果都得到之后，再采用决策级融合的方式将结果进行加权融合，并最终得到融合后的识别结果。

基于上述信号采集设备，本申请实施例提供一种多模态情绪识别方法，如图2所示，该方法包括以下步骤：

S01：获取受试者的脑电信号、人脸信号和语音信号。

S02：分别对所述脑电信号、所述人脸信号和所述语音信号进行预处理后，分别将所述脑电信号、所述人脸信号和所述语音信号输入训练好的脑电情绪识别模型、人脸情绪识别模型和语音情绪识别模型，得到所述脑电信号、所述人脸信号和所述语音信号对应每种情绪的概率。

S03：使用最优权值分布算法，对所述脑电信号对应每种情绪的概率、所述人脸信号对应每种情绪的概率和所述语音信号对应每种情绪的概率进行权重赋值。

优选的，如图3所示，最优权值分布算法包括以下子步骤：

S31：获取所述脑电信号对应每种情绪的概率、所述人脸信号对应每种情绪的概率和所述语音信号对应每种情绪的概率，作为最优权值分布算法的输入，其中，n模态对应n个回归模型，共T次试验用于预测，第k个模型中试验t的预测平均唤醒评分为A_tk，k∈{1，2，3,…，n}，t∈{1，2，3,…,T}。

S32：初始化权重集

为{0.00，0.01，0.02，…,0.98，0.99,1.00}，初始化均方根误差最小值RS_min。

设权重集

为{0.00，0.01，0.02，…,0.98，0.99,1.00}，即一个从0.00开始到1.00结束，步长为0.01的数组。以均方根误差(Root MeanSquare Error，RMSE)作为衡量指标来评价当前权重分布的性能,当各模态处于性能最好的权重分布时，RMSE应该是最小的，记为RS_min。在一个优选的实施例中，初始化RS_min＝10。

S33：在

其中，

其中，RS_cut为当前权重分布下T次试验的均方根误差，

S35：比较RS_cut和RS_min的大小关系；当RS_cut<S_min时，将RS_min更新为RS_cut的值；当RS_cut≥RS_min，则保留当前RS_min。

通过比较RS_cut和RS_min的大小关系来判断当前权重分布是否拥有更好的性能，当RS_cut<S_min时，认为当前权重分布有更好的性能，所以将RS_min更新为RS_cut，保存当前权重分布。当RS_cut≥RS_min时，认为当前的权重分布没有表现出更好的性能，不需要对RS_min进行更新。但无论大小关系如何，都要再次执行步骤1枚举下一组权重分布。

S04：使用所述最优权值分布算法得到的权重赋值，对所述脑电信号对应每种情绪的概率、所述人脸信号对应每种情绪的概率和所述语音信号对应每种情绪的概率进行加权融合，得到所述受试者对应的情绪类别。

本发明提供的一种多模态情绪识别方法、装置、电子设备及存储介质，有效地提高了情绪识别的准确率以及鲁棒性。

本发明所使用的最优权值分布算法，可以对可靠性高的模式赋予较高的权重，对可靠性低的模式赋予较低的权重，从而使融合结果更准确、更稳健。

在一个优选的实施例中，如图4所示，包括由4层LSTM单元组成的树状部分、单个LSTM单元和全连接层。

对于树状部分，叶子节点上的LSTM单元的神经元数量都是相同的，以保证其输出形状的一致性。树状部分由4层组成，每层代表一个阶段的特征，而叶子节点位于不同的层，这样可以更好的融合每个阶段的特征。我们在树部分中使用的LSTM单元输出是整个序列的输出，而后续LSTM单元的输出是最后一个隐藏层的输出。最后，网络通过全连接层分别输出唤醒和效价分数。

基于上述脑电情绪识别模型，对所述脑电信号进行预处理，包括以下步骤：

S11：使用独立成分分析法去除原始信号中的伪迹信号。

S12：对于经过去伪迹得到的脑电信号，采用小波变换，提取所述脑电信号的功率谱密度，共提取5个频带的功率谱密度特征。

S13：以10秒作为脑电分割的时间窗，并采用50％的重叠率扩充数据。

具体地，基于脑电信号的情绪识别往往需要经过脑电信号预处理、特征提取及情绪分类四个步骤。受技术影响，我们采集的信号往往都并非纯洁的脑电信号，而是掺杂着一些诸如脑电、心电等一些与工作无关的伪迹，本文使用独立成分分析法(IndependentComponent Analysis,ICA)来去除这些伪迹。经过去伪迹得到的脑电信号仍然是仅包含时域特征的信号，而脑电信号的时域特征与频域特征均能反应一定的情感相关信息，在我们的研究中采用功率谱密度(Power spectral density,PSD)。本文提取PSD的方法采用小波变换，具体得到的方式可以理解为：令∈为展开尺度参数，τ为平移位置参数，则一维连续小波变换W_f(∈,τ)的过程可表示为:

其中ψ表示一维母小波函数，计算公式为：

此外，连续小波的逆变换定义为：

其中，C_ψ的计算公式表示为：

是ψ(t)的傅里叶变换。

本文选取了5个频带的PSD特征:theta(4Hz<f<8Hz)、slow alpha(8Hz<f<10Hz)、alpha(8Hz<f<12Hz)、beta(12Hz<f<30Hz)和gamma(30Hz<f<64Hz)，以及14个电极(FP1、FP2、F8、FC2、FC6、T7、CZ、C4、T8、CP1、CP2、CP6、PO4、OZ)作为我们的研究对象，此外我们还选择了三对对称电极(FP1-FP2、T7-T8、CP1-CP2)来扩展特征数量。

在一个优选的实施例中，基于改进的GhostNet人脸情绪识别模型如图5所示。本专利在人脸表情识别的模型中主要是对GhostNet的Ghost bottleneck结构进行了改进。原Ghost bottleneck分为步长为1和步长为2两种情况，具体结构如图5(a)所示。而我们改进的Ghost bottleneck结合了这两种操作的特点，因此能够学习到更全面的特征。改进后的Ghost bottleneck结构如图5(b)所示。此外，我们在网络中额外添加了若干个DropOut层，以防止训练时产生过拟合现象。

基于上述人脸情绪识别模型，对所述人脸信号进行预处理，包括以下步骤：

S21：对输入的图像进行人脸检测，即将与人脸无关的部分剔除，仅保留人脸图像。

S22：对检测到的人脸图像进行人脸对齐、几何归一化及灰度归一化处理，得到处理好的人脸信号。

具体的，基于人脸的情绪识别需要经过的步骤包括人脸检测、人脸图像预处理、特征提取及人脸表情分类四部分。首先需要对输入的图像进行人脸检测，即将与人脸无关的部分剔除，仅保留人脸图像。接着对检测到的人脸图像进行人脸对齐、几何归一化及灰度归一化等，使用这样的数据训练得到的网络模型泛化能力更强。其中左右眼中心坐标分别为(x₁,y₁)和(x₂,y₂)，设人脸对齐要旋转的角度为θ，则计算公式可以表示为：

为验证改进后的GhostNet在人脸表情识别方面的优越性，我们使用改进前后的GhostNet网络在CK+人脸表情数据集上进行了验证。

实验步骤：

CK+数据集中只有327个有效序列，我们提取了每个视频的最后三帧来作为训练验证的数据集。所以在CK+数据集中总共提取了981张有效人脸图像，每张图像都是大小为48×48的灰度图像。一次训练过程包含250个epochs，batchsize设置为64，使用固定学习率为10^-3的Adam优化器训练。在10折交叉验证中，记录每折训练结束后7种情绪在测试集上的预测正确的样本数量，并在10折交叉验证结束后得到由这7种情绪组成的混淆矩阵。

实验结果：

GhostNet和我们改进的GhostNet在CK+人脸表情识别数据集上得到的7种情绪的混淆矩阵如图7(a)和图7(b)所示。实验结果表明，使用原始的GhostNet训练得到的结果平均准确率只能达到90.21％，而改进后的GhostNet达到了平均98.27％的准确率，这足以说明我们改进后的方法是有效的。需要注意的是，恐惧表达的准确率只有95％，这可能与恐惧的数据量较少以及恐惧表情的特征和蔑视具有相似性有关。尽管如此，我们提出的方法在最近的研究中也取得了先进的成果，表1显示了与最近的一些研究的比较，从表中可以看出我们提出的改进的GhostNet优于其他经典分类模型，这充分证明了我们提出的方法的优越性。

表1与最近的一些在CK+数据集上的研究比较

在一个优选的实施例中，如图6所示，语音情绪识别模型为LFCNN，包括顺次连接的并行卷积结构部分、残差结构部分、连续卷积部分和输出部分。

所述并行卷积结构部分包括三个并行卷积层，三个并行卷积层的输出将被合并在一起输入至所述残差结构部分；所述残差结构部分主边缘包含两个卷积层；所述连续卷积部分包括四个连续的卷积层；根据数据集标签不同，所述输出部分会有所不同。当数据标签为维度标签时，所述输出部分包括多个稠密层；当数据标签为离散情绪时，所述输出部分包括稠密层和SoftMax层。

对于模型的最后一部分，我们可以根据训练样本的标签类型进行灵活的设计。当数据集使用维度模型来描述情绪时，这意味着需要将LFCNN设置为多任务回归模型，我们需要使用多个稠密层来输出多个维度的得分。在使用离散模型时，将LFCNN设置为分类任务模型，每个情绪的概率由SoftMax层输出。

具体的，本专利使用梅尔频谱(Mel-Spectrogram)特征进行语音情绪识别。Mel-Spectrogram是将频率转换为梅尔尺度的频谱图。基于上述语音情绪识别模型，对所述语音信号进行预处理，包括以下子步骤：

S31：使用如下公式，将所述语音信号的原始频率f转换为Mel频率为F_mel：

S32：根据所述Mel频率得到所述语音信号对应的梅尔频谱特征。

在EMO-DB上进行的实验

实验步骤

本专利设计的语音情绪识别方法在EMO-DB数据集上进行了验证。首先使用noisereduce库去除原音频文件中的噪声，并通过对原文件进行变速操作扩充数据集。经过上述操作之后再使用librosa库来提取语音的Mel-Spectrogram特征并将数据保存在一个numpy数组中，供我们用作模型的训练与验证。我们在一个训练过程中有300个epochs，batchsize设置为64，使用初始学习率为10^-4的Adam优化器，且从第150个epoch开始每10个epoch下降e^-0.10。为了验证我们提出的方法足够可靠，实验采用10折交叉验证方法进行。

实验结果

对EMO-DB的分类结果达到了94.36％的平均准确率和94.38％的F1值，并且我们提出的模型的大小仅为2.28MB，参数量如表2所示。表3展示了我们的工作与几年来的一些工作之间的比较，该表对比了预测精度和模型的大小。从表格数据可以看出，本文提出的LFCNN在轻量级方面拥有绝对的优势，并且有着更高的准确率，足以证明我们方法的优越性。

表2 LFCNN参数分布

表3与最近的一些在EMO-DB数据集上的研究比较

在MAHNOB-HCI上进行的实验

我们在MAHNOB-HCI数据集上验证了我们提出的决策级融合方法。实验采用了留一试交叉验证法,即每个受试者保留一次试验数据作为测试集，其他试验的数据用作训练集。

实验步骤

对于EEG数据，我们使用MNE库来提取原始的EEG信号特征。如第2.2.1节所述，我们使用10s的时间窗从5个频带中提取PSD特征，每个样本有85个特征。对于tLSTM模型，树状部分叶子节点的LSTM神经元数量设置为96，其他节点的数量设置为128，所有LSTM单元隐藏层之间的Dropout均设置为0.5。对于语音数据，处理过程与训练设置与EMO-DB上的实验基本相同。对于人脸数据，我们使用OpenCV库每10帧捕获一次图像并将图像转换为灰度图像，最后将图像大小调整为48×48并保存在numpy数组中用于模型训练。此外，对于人脸表情识别的模型训练，我们将首先使用FER2013数据集进行预训练，然后再使用MAHNOB-HCI的人脸数据进行模型微调。

值得注意的是，在MAHNOB-HCI上的实验需要将模型的输出改为两个分数，模型训练的损失函数也需要变化。MAHNOB-HCI情绪的描述是使用唤醒效价二维模型，分数区间为1-9，我们将分数分为高(≥5)和低(<5)两个类别来评估我们模型的性能，这也是对唤醒效价情感模型研究中使用最广泛的方法。三个模态的预测分数得到之后，分别使用传统的融合方法以及我们提出的最优权重分布算法进行加权融合，最后根据分数将结果划分为高或者两类，并与真实结果进行比较，得到最终的多模态情绪识别准确率。

实验结果

在MAHNOB-HCI数据集上获得的实验结果表明，tLSTM模型在脑电情绪识别以及我们提出的最优权重分布算法在决策级融合中均取得了较好的结果。表4展示了各方法得到的平均准确率。从中可以得知我们提出的融合方法在唤醒维度和效价维度上都达到了很高的精度，并且我们提出的最优权重分布算法相比于统的融合算法提高了分类准确率。需要注意的是,融合结果不一定比某一模态更准确，例如被试2号和被试13号的人脸表情识别准确率高于融合后的识别结果，这是因为融合结果综合考虑了多种模态的识别结果，能够适应更多情形。多模态情绪识别方法的意义不仅是为了提高识别准确率，还要考虑考虑到方法的鲁棒性。例如，当受试者表达与真实情绪不同的人脸表情时，多模态融合得到的结果不会与真实情绪有太大的偏差，因为受试者的脑电图仍然代表了他们真实的情绪状态。此外，语音情绪识别在MAHNOB-HCI中是一项非常具有挑战性的任务，因为数据集中的语音信号不仅包括被试者的声音，还包括大量刺激材料的声音，以至于难以对被试者的声音进行提纯,这使得我们很难在该数据集的语音方面中实现高识别率.

表4MAHNOB-HCI数据集上各方法得到的准确率(％).

本申请实施例还提供一种多模态情绪识别装置，如图8所示，该多模态情绪识别装置400包括：

信号获取模块401，用于获取受试者的脑电信号、人脸信号和语音信号；

情绪概率计算模块402，用于分别对所述脑电信号、所述人脸信号和所述语音信号进行预处理后，分别将所述脑电信号、所述人脸信号和所述语音信号输入训练好的脑电情绪识别模型、人脸情绪识别模型和语音情绪识别模型，得到所述脑电信号、所述人脸信号和所述语音信号对应每种情绪的概率；

权重赋值模块403，用于使用最优权值分布算法，对所述脑电信号对应每种情绪的概率、所述人脸信号对应每种情绪的概率和所述语音信号对应每种情绪的概率进行权重赋值。

情绪类别输出模块404，用于使用所述最优权值分布算法得到的权重赋值，对所述脑电信号对应每种情绪的概率、所述人脸信号对应每种情绪的概率和所述语音信号对应每种情绪的概率进行加权融合，得到所述受试者对应的情绪类别。

优选的，权重赋值模块包括：

输入数据获取单元，用于获取所述脑电信号对应每种情绪的概率、所述人脸信号对应每种情绪的概率和所述语音信号对应每种情绪的概率，作为最优权值分布算法的输入，其中，n模态对应n个回归模型，共T次试验用于预测，第k个模型中试验t的预测平均唤醒评分为A_tk，k∈{1，2，3,…，n}，t∈{1，2，3,…,T}；

数据初始化单元，用于初始化权重集

循环枚举单元，用于在

其中，

均方根误差计算单元，用于使用以下公式，计算当前权重分布下T次试验的均方根误差RS_cut：

其中，RS_cut为当前权重分布下T次试验的均方根误差，

均方根误差更新单元，用于比较RS_cut和RS_min的大小关系；当RS_cut<S_min时，将RS_min更新为RS_cut的值；当RS_cut≥RS_min，则保留当前RS_min；

迭代单元，用于迭代执行循环枚举、均方根误差计算和均方根误差更新，直至循环枚举结束，保存RS_min对应的权重分布，作为所述脑电信号对应每种情绪的概率、所述人脸信号对应每种情绪的概率和所述语音信号对应每种情绪的概率的权重赋值。

优选的，所述脑电情绪识别模型为tLSTM结构，包括由4层LSTM单元组成的树状部分、单个LSTM单元和全连接层；

所述树状部分的叶子节点上的LSTM单元的神经元数量相同。

优选的，所述语音情绪识别模型为LFCNN，包括顺次连接的并行卷积结构部分、残差结构部分、连续卷积部分和输出部分；

所述残差结构部分主边缘包含两个卷积层；

所述连续卷积部分包括四个连续的卷积层；

优选的，对所述脑电信号进行预处理，包括：

使用独立成分分析法去除原始信号中的伪迹信号；

优选的，对所述人脸信号进行预处理，包括：

优选的，对所述语音信号进行预处理，包括：

根据所述Mel频率得到所述语音信号对应的梅尔频谱特征。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种电子设备，包括：

至少一个存储器以及至少一个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如前所述的一种多模态情绪识别方法的步骤。

对于设备实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的设备实施例仅仅是示意性的，其中所述作为分离部件说明的组件可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本申请实施例还提供一种计算机可读存储介质，

所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如前所述的一种多模态情绪识别方法的步骤。

计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(R AM)、只读存储器(R OM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。