CN117195148A

CN117195148A - 基于表情、脑电及语音多模态融合的矿工情绪识别方法

Info

Publication number: CN117195148A
Application number: CN202311152044.1A
Authority: CN
Inventors: 汪梅; 田志鹏; 李�杰; 赵浩洋; 杨娜; 卢兆祥
Original assignee: Xian University of Science and Technology
Current assignee: Xian University of Science and Technology
Priority date: 2023-09-07
Filing date: 2023-09-07
Publication date: 2023-12-08

Abstract

本申请涉及数据处理技术领域，公开了一种基于表情、脑电及语音多模态融合的矿工情绪识别方法，包括改进主干特征提取网络下多尺度人脸情绪识别网络模型、基于Transformer的特征增强和注意力机制的脑电增强情绪识别网络、基于轻量级深度可分离卷积残差神经网络的语音情绪识别模型和多模态信息融合方法。本申请方法汇总的人脸情绪识别是基于矿工面部表情特征进行特征提取，然后将面部表情特征数据通过识别模型来达到人脸情绪识别的目的。通过多模态信息融合对精神状态识别进行补充，能够提升精神状态识别的准确性。

Description

基于表情、脑电及语音多模态融合的矿工情绪识别方法

技术领域

本申请涉及数据处理技术领域，具体涉及一种基于表情、脑电及语音多模态融合的矿工情绪识别方法。

背景技术

近年约七成的矿下事故是由于矿工的情绪状态不佳造成的。矿工的情绪状态较为低落、情绪不稳定等状态会导致重大的操作失误，造成煤矿事故。对煤矿工人的情绪状态进行及时判断，及时的预防事故的发生，这是有一定的现实意义的。

最近几年，脑科学的各项研究论述及实践发展迅猛，从其科学性来说脑电信号是可以客观地折射出大脑活动的范围和模式，以此更多研究者将注意力放在了通过脑电信号来进行情绪识别研究。语音情绪识别是对情绪反映特征的精准掌握以及不同情绪类型的分类提取研究，此项技术的主要目的是要提高识别精度，有关的专业研究者在不断探索创新，渐渐取得了推动性的成果。人脸情绪识别是对其判断研究的一个关键生理度量，通过对情绪状态的研究，不仅能够避免日常生活工作的风险，还能够提升工人和产业链的生产效率，此项工作渐渐也成了近几年重点学者的研究重点。

然而，现有技术存在以下问题：

一、人脸图像特征信息的差异化，导致了人脸信息提取时的各类问题：例如卷积操作时卷积核的大小难以选择；卷积神经网络的网络结构越深越容易导致过拟合；简单的堆叠卷积层消耗大量的计算资源等。

二、如何获取高质量脑电时频特征并运用到脑电情绪识别领域？获取高质量的脑电时频特征是一项复杂而具有挑战性的任务，需要结合合适的信号处理和分析方法，同时考虑到信号的复杂性、噪声干扰和个体差异等因素，才能获得准确、稳定和可靠的时频特征，才能为脑电情绪识别的信息。

三、如何获取更深层次的语音样本信息和语音情绪识别模型的轻量化？深层次语音样本特征信息难获取主要是由于数据量不足、高维数据、语音信号的复杂性、不确定性、数据预处理、标签标注难度以及模型设计和优化等多个因素共同作用的结果，这会使得语音样本的使用不充分并且会影响模型预测精准度。而模型的轻量化则会减少运算成本减少时间消耗。

四、单模态信息局限性和单模态算法准确度不够高的问题。单模态信息的局限性主要包括信息不全面、特征有限、数据不平衡等方面。由于单一模态的数据无法涵盖任务所需的全部信息，模型可能无法准确理解任务或处理复杂情况。此外，单模态信息容易受到环境噪声和干扰的影响，导致模型的鲁棒性降低，任务的准确性也会受到影响。在某些任务中，单一模态的数据可能存在数据不平衡问题，使得模型在处理少数类别或样本时性能较差。

针对上述问题，尚宇成等(电子世界,2021)，使用了EM-Xception神经网络结构实现了人脸的情绪识别，Xception和Inception-ResNet都是由Inception v3网络结构改进而来，EM-Xception通过减少Xception中的残差模块数量，并将激活函数RELU替换成ELU改进而成。该研究从结果看来，确实能够在识别情绪时达到一定精度，但是对于人脸多尺度特征的获取还有待进一步优化，同时识别精度还需进一步提升。Linlin Gong等(2023)，使用了CNN-Transformer网络结构实现了情绪识别，该网络能够有效的整合脑电信号的关键空间、光谱和时间信息并能够以高精度完成情绪识别。但是，该研究并不能对任务不相关的脑电通道进行抑制，而获得更高质量的脑电时频特征，从而提高识别精度。Z.Li等(2019)，使用了带有SVM的残差网络结构进行了语音情绪分析，该模型能够获得更高的精度。但是该研究没有提取到更从深层次的语音特征并且算法模型不够轻量级。黄颖等(计算机应用,2022)，多模态的融合识别方法使用的是可变权值的决策融合算法，对三个通道在全连接层后通过SoftMax获得后验概率，分别赋予W_f、W_s、W_g的权重W_f+W_s+W_g＝1，通过融合的加权概率，再进行判别分类。这里W_f、W_s、W_g，不再取固定值，而是采取可变权重的策略，在满足W_f+W_s+W_g＝1的条件下自动寻找最佳权重，实现了三种通道的融合并且实现了情绪识别。但是该研究使用的骨架模态对于情绪的识别准确度较低，从而会影响融合后算法精度。

发明内容

针对现有技术存在的上述不足，本申请的目的在于提供一种基于表情、脑电及语音多模态融合的矿工情绪识别方法。

为实现以上目的，本申请采用如下技术方案：

一种基于表情、脑电及语音多模态融合的矿工情绪识别方法，包括：

改进主干特征提取网络下多尺度人脸情绪识别网络模型：所述改进主干特征提取网络多尺度情绪识别模型包括一个改进主干特征提取网络、四个卷积层、两个最大池化层和两个多尺度特征提取层，图像输入后，依次经过改进主干特征提取网络、多尺度特征提取层、卷积层、最大池化层、多尺度特征提取层、卷积层、最大池化层、卷积层，最后通过一个全局平均池化层来输出特征并用SoftMax函数作为分类器得出人脸情绪信息；

基于Transformer的特征增强和注意力机制的脑电增强情绪识别网络：所述基于Transformer的特征增强和注意力机制的脑电增强情绪识别网络包括自动类时频特征提取模块、Transformer特征增强模块、深度特征变换卷积模块和和注意力层的特征融合和分类模块；在自动类时频特征提取模块中，每一个脑电通道都独立分配一个缩放卷积层来提取该通道的类时频特征，在脑电通道维度上将所有通道的类时频特征图进行堆叠得到类时频特征张量；然后通过Transformer特征增强模块进行特征强化；然后，与类时频特征进行加权相乘得到脑电特征增强重标定特征；再经过深度特征变换卷积模块提取脑电信号的深层信息；最后由注意力层进行特征融合层，最后连接一个全连接层和Softmax激活函数进行脑电情绪的分类，得到脑电情绪信息；

基于轻量级深度可分离卷积残差神经网络的语音情绪识别模型：所述的轻量级的深度可分离卷积残差神经网络模型包括并行卷积结构、残差结构以及串行卷积结构；所述并行卷积结构，包含三个并行的DSC卷积层，它们的输出将合并在一起送至模型的残差结构；所述残差结构，主干边包含有两个DSC卷积层；所述串行卷积结构包括四个连续的DSC卷积层；最后使用离散情绪模型将网络设置为一个语音情绪分类任务模型，通过Softmax层输出得到语音情绪信息；

多模态信息融合方法：采用多模态信息权值自适应的决策层信息融合算法，实现脑电情绪信息、语音情绪信息和人脸情绪信息的多模态信息的融合互补。

进一步地，所述基于轻量级深度可分离卷积残差神经网络的语音情绪识别模型中，除了串行卷积结构部分，所有的DSC卷积层后面都接有批归一化层(batchnormalization,BN)、线性整流函数ReLU激活层以及池化层。对于具体池化方法的选择，除模型的串行卷积结构结束时采用了全局平均池化外，所有的池化方法都采用平均池化。

进一步地，所述多尺度特征提取层，其结构分为两个部分，一个是自底层到顶层进行自下向上特征提取，一个是自顶层到底层的自上向下特征提取；先进行传统的卷积、池化的自下向上的特征卷积；输入经过改进主干特征提取网络的图像特征；在达到了顶层特征时，进入第二通道的自上向下部分，利用反卷积操作将特征图的尺寸进行扩大，然后融合相邻的特征图；每个层级特征层间使用1*1卷积连接，利用插值法进行上采样操作实现多尺度特征提取网络提取高层特征的语义信息和底层的位置信息；同时，使用侧向连接将高底层特征完全融合；最后将融合的特征通过合并层送入网络模型的下一阶段。

进一步地，在所述的改进主干特征提取网络多尺度情绪识别模型算法中引入交叉熵损失函数，表达式如下：

式中，S_j是SoftMax输出向量S的j值，它表示数据是j类发生的概率，范围[1,T]；y_j是真实标签，表示样本属于各类别的概率，a_j是输入向量a中的j个元素，a_k是输入向量a中第k个向量；

用交叉熵损失函数结合三元组损失函数作为矿工人脸情绪识别的总函数，得到如下公式：

L＝L_loss+L_c

其中，三元组损失函数L_loss适用于扩展欧式空间内不同类别的矿工人脸特征向量间的远近和减小欧氏空间内相同类别的人脸特征向量间远近。因此，通过多尺度特征提取网络能够很好地提取目标的多尺度特征进行学习，提升模型的整体识别精度。

优选的，所述自动类时频特征提取模块由32层独立的缩放卷积层组成。

优选的，所述Transformer特征增强模块由四组Transformer模型中的多头注意力、前馈神经网络以及额外添加的一个平均池化层和一个全连接层组成。

优选的，所述深度特征变换卷积模块由三层二维卷积神经网络层组成。

优选的，所述并行卷积结构中，三个并行的DSC卷积层的卷积核的数量均设置为16，不同之处在于它们的卷积核的大小分别为3×3、13×1和1×10；所述残差结构中两个DSC卷积层，每个卷积层为64个大小为3×3的卷积核；所述串行卷积结构中四个连续的DSC卷积层内核大小均为3×3，内核数量依次为128、160、256、300。

进一步地，所述的多模态信息权值自适应算法，具体策略如下：

步骤1：对不同模态信息的特征进行提取，寻求最适应当前信息特征的特征提取器，分类器获得n种识别结果概率矩阵[[w₁₁,w₁₂,...,w_1j],[w₂₁,w₂₂,...,w_2j],...,[w_n1,w_n2,...,w_nj]]，其中w_nj代表第n个样本属于第j个类别的概率；

步骤2：建立初始目标权重矩阵w＝[w₁,w₂,...,w_n]和动作状态选取矩阵A＝[-Δw,Δw]。其中权重w₁对应模态信息1结果概率矩阵[w₁₁,w₁₂,...,w_1j]；权重w₂对应模态信息2的结果概率矩阵[w₂₁,w₂₂,...,w_2j]，依次类推；Δw为智能体动作改变幅度值；

步骤3：建立Q表，同时建立损失函数loss和奖惩函数R

y'(t)＝w₁y'₁+w₂y'₂+...+w_ny'_n

其中，y(t)为真实值；y'(t)为多模态信息融合判定值；N为输入数据点数目；损失函数R如公式所示：

其中，loss_m为第m个样本的损失值；

步骤4：根据当前状态的Q表，基于ε-贪婪机制进行更新动作选取；其中动作的选择方法如下公式所示：

其中，是在奖励值Q表中取最大Q值时的选择动作，a_random为随机动作选取值，a_random∈(0,1)；

步骤5：采用时间差分法对Q表进行更新，值函数的计算公式如公式所示：

V(s)←V(s)+α(R_t+1+γV(s')-V(s))

其中，R_t+1+γV(s')被称为TD目标，R_t+1+γV(s')-V(s)为TD偏差；

Q表的更新方式如式所示：

Q(s,a)←Q(s,a)+α[γ+λMax_a'Q(s',a')]

其中α为学习率，λ为奖励性衰变系数；下一状态的最大λMax_a'Q(s',a')作为Q现实，过往Q表里的Q(s,a)作为Q估计；

步骤6：重复迭代以上步骤，直至取到最优奖励Q值，得出对应权重矩阵w＝[w₁,w₂,...,w_n]为多模态信息自适应最优权重，最后得到的多模态信息融合公式为：

y＝y₁w₁+y₂w₂+...+y_nw_n

其中，y_n代表不同种模态，权重w_n代表的各模态的概率矩阵。

优选的，所述步骤2中，Δw＝0.001。

与现有技术相比，本申请具有以下有益效果：

(1)本申请方法汇总的人脸情绪识别是基于矿工面部表情特征进行特征提取，然后将面部表情特征数据通过识别模型来达到人脸情绪识别的目的。精神状态信息与人体不同模态之间是存在直接联系的，综合不同模态对精神状态进行判断，具有更好的真实性。通过多模态信息融合对精神状态识别进行补充，能够提升精神状态识别的准确性。例如，在矿工下井前，采用本申请方法对煤矿工人的精神状态进行实时识别判断工人的消极负面状态，从而能够保证煤矿工人的工作精神状态，及时的预防事故的发生，防范于未然。从相关工作例如煤矿的安全开采角度出发，这是有一定的现实意义的。

(2)本申请采用Inception-ResNet多级联深度卷积神经网络当作主干特征提取网络，可以更好的利用网络内部的资源，该模型允许增加网络的深度与广度，且保持模型计算量不变；其次在算法中引入交叉熵损失函数，该函数用于对人脸表情类别进行分类并且辅助三元组损失函数的收敛，解决模型收敛困难的问题。通过多尺度特征提取网络能够很好地提取目标的多尺度特征进行学习，提升模型的整体识别精度.

(3)本申请构建了一种基于Transformer和注意力机制的脑电增强情绪识别模型来增强经典深度学习模型的特征学习能力，对脑电情绪识别任务相关的脑电通道进行增强，同时对与其任务不相关的脑电通道进行抑制，获得更高质量的脑电时频特征，从而达到提升多通道脑电情绪识别的准确率。

(4)本申请通过对语音数据进行对数梅尔谱图特征提取得到了更深层次的特征，并且语音情绪识别算法方面提出了轻量级的深度可分离卷积残差神经网络模型，算法采用了参数量少的DSC算法对残差网络进行了改进，使算法变得更加轻量级并且性能也得到了提升。

(5)本申请在多模态信息融合时选择了决策层信息融合，它的优势在于各个模态信息之间相互独立，融合后的分类模型来源于不同模态信息的分类器信息，避免了不同模态信息分类器的错误信息累加，并且使用了在单模态情绪识别时已经达到较高精度的三种模态，使得融合算法识别精度进一步提升。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本申请方法流程图；

图2为金字塔特征提取网络模型；

图3为改进主干特征提取网络多尺度情绪识别模型；

图4为主干特征提取网络；

图5为对主干特征提取网络各模块的改进示意图；

图6为Transformer结合注意力机制特征增强的脑电情绪识别流程图；

图7为基于Transformer的特征增强和注意力机制的脑电情绪识别网络结构；

图8为轻量级的深度可分离卷积残差神经网络模型；

图9为语音模态情绪识别流程图；

图10为多模态信息权值自适应算法；

图11为不同模型下人脸情绪状态识别准确率；

图12为不同模型的识别准确率；

图13为不同模型下的训练损失曲线和精确度曲线；

图14为不同模型下语音情绪状态识别准确率

图15为不同模态信息下的情绪识别结果。

具体实施方式

下面结合具体实施例对本申请进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本申请，但不以任何形式限制本申请。应当指出的是，对本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进。这些都属于本申请的保护范围。

实施例1

如图1所示，一种基于表情、脑电及语音多模态融合的矿工情绪识别方法，包括：

改进主干特征提取网络下多尺度人脸情绪识别网络模型：

在经过主干特征提取网络提取特征时，随着网络的深度增加提取特征的深度也在随之增加。但是伴随着深度的增加，一些深层的特征包含了本质的物理语义特征信息但丧失了特征的位置信息；而浅层的特征虽然包含了丰富的位置特征信息但缺少深层的语义特征信息。所以本申请提出多尺度特征提取网络，它的结构分为两个部分，一个是自底层到顶层进行特征提取，一个是自顶层到底层的特征提取。它先进行传统的卷积、池化的自下向上的特征卷积。输入经过改进主干特征提取网络的图像特征。在达到了顶层特征时，进入第二通道的自上向下部分，这一部分是利用反卷积操作将特征图的尺寸进行扩大，然后融合相邻的特征图。每个层级特征层间使用1*1卷积连接，利用插值法进行上采样操作实现多尺度特征提取网络提取高层特征的语义信息和底层的位置信息。同时，使用侧向连接将高底层特征完全融合，这样进行上采样可确保当前层和上一层的特征分辨率一致从而达到不同特征的叠加融合。最后将融合的特征通过合并层送入网络模型的下一阶段。根据上述理论知识，本申请提出一种交叉熵损失函数，它能提高网络针对训练下的收敛速率，以下为它的损失函数表达式：

式中，S_j是SoftMax输出向量S的j值，它表示数据是j类发生的概率，范围[1,T]，y_j是真实标签，表示样本属于各类别的概率，a_j是输入向量a中的j个元素，a_k是输入向量a中第k个向量；

本申请用交叉熵损失函数结合三元组损失函数作为矿工人脸情绪识别的总函数，得到如下公式：

L＝L_loss+L_c

其中，三元组损失函数L_loss适用于扩展欧式空间内不同类别的矿工人脸特征向量间的远近和减小欧氏空间内相同类别的人脸特征向量间远近。因此，通过多尺度特征提取网络能够很好地提取目标的多尺度特征进行学习，提升模型的整体识别精度。金字塔特征提取网络模型如图2所示。

本申请提出的改进主干特征提取网络下多尺度人脸情绪识别网络模型包括一个改进主干特征提取网络、四个卷积层、两个最大池化层和两个多尺度特征提取模块。改进主干特征提取网络多尺度情绪识别模型结构如图3所示。

如图4所示，主干特征提取网络是指Inception-ResNet多级联深度卷积神经网络，主要改进如下：

Step1：对Inception-ResNet-A模块做了改进变化，将图中最上边的卷积核大小由1×1×256改为1×1×384，模型中其余部分保持不变。随后，改进了Inception-ResNet-B板块，维持了模型中组织构成不变，并把图中左侧卷积核尺寸大小为1×1×128改成1×1×192，把右侧的3个卷积核从下到上尺寸大小改为1×1×128、1×7×160和7×1×192。最后把前两步融合之后图中最上边的卷积核尺寸大小变成1×1×1154。

Step2：Reduction-A模块改进，该模块中3×3卷积核，依照自右至左，由上而下的顺序，将卷积维度由256、256和256改为320、288和288。

Inception-ResNet-C模块改进，将图中右侧卷积核尺寸大小由下到上改为1×1×192、1×3×224和3×1×256，随后将最上部卷积核尺寸大小改为1×1×2048。针对网络不同模块改进后的网络结构见图5。

为了对人脸情绪图像信息的特征进行提取，本申请模型先经过改进主干特征提取网络进行人脸模态特征信息提取，该模块的主要特点是可以更好的利用网络内部的资源，也增加网络的深度与广度，且保持模型计算量不变。又为了提取人脸模态信息的多尺度深层次下的特征信息，引入了两个多尺度特征提取层是对传统的金字塔特征提取网络模型的改进，所以利用金字塔特征提取网络模型把底层特征信息和顶层的特征信息融合来进行不同尺寸下的特征信息的抽取就能够兼顾到底层的位置信息和高层的物理语义信息进行实现目标的多尺度特征提取。

通过这种高底层间特征的融合学习来兼顾到不同尺度的特征，识别效果有较大的提升。在每个卷积层后都引入一个最大池化层用以实现降低数据维度的同时对特征进行压缩从而降低网络模型学习和训练的复杂程度。最后通过一个全局平均池化层来输出特征并用SoftMax函数作为分类器得出情绪的分类识别结果。有效提高了矿工情绪识别的准确率。

基于Transformer和注意力机制的脑电增强情绪识别模型：

如图6所示，(a)图是详细的网络结构图，(b)图是包装后的网络结构图，本申请所改进的基于Transformer的特征增强和注意力机制的脑电情绪识别模型，其输入是多通道原始的脑电情绪信号，输出为积极情绪、中性情绪或消极情绪。网络的主要组成部分包括自动类时频特征提取模块、Transformer特征增强模块、深度特征变换模块和和注意力机制的特征融合和分类模块。图7所示为基于Transformer的特征增强和注意力机制的脑电情绪识别网络结构，该网络为端到端的情绪识别网络，其中自动类时频特征提取模块由32层独立的缩放卷积层组成，每一个脑电通道都独立分配一个缩放卷积层来提取该通道的类时频特征，在脑电通道维度上将所有通道的类时频特征图进行堆叠得到类时频特征张量。然后通过Transformer特征增强模块进行特征强化，Transformer特征增强模块由四组Transformer模型中的多头注意力、前馈神经网络以及额外添加的一个平均池化层和一个全连接层组成，然后，与类时频特征进行加权相乘得到脑电特征增强重标定特征。

再经过深度特征变换模块提取脑电信号的深层信息，深度特征变化模块由三层二维卷积神经网络层组成。最后由注意力层进行特征融合层，最后连接一个全连接层和Softmax激活函数进行脑电情绪的分类。

所述基于Transformer和注意力机制的脑电增强情绪识别模型融合了多通道原始脑电信号的时间和频率信息，利用缩放卷积层全自动提取脑电情绪信号的类时频特征，利用Transformer对脑电时频特征进行增强，同时抑制与脑电情绪识别任务不相关的脑电通道，有效提高了脑电情绪识别的准确率。

基于轻量级深度可分离卷积残差神经网络的语音情绪识别模型：

本申请搭建的轻量级的深度可分离卷积残差神经网络模型主要由并行卷积部分、残差结构部分以及串行卷积部分组成。在对有关卷积层的研究中发现，DSC的参数量相比传统卷积要少，并且Xception的成功证明了深度可分离卷积相比传统卷积的优越性。因此本申请将使用它来设计我们提出的网络模型。如图8所示为用于语音情绪识别的轻量级深度可分离卷积残差神经网络模型。本申请模型的第1部分为并行卷积结构，它包含三个并行的DSC卷积层，三个卷积层的卷积核的数量均设置为16，不同之处在于它们的卷积核的大小分别为3×3、13×1和1×10，它们的输出将合并在一起送至模型的第2部分。模型的第2部分采用残差结构思想，主干边包含有两个DSC卷积层，每个卷积层为64个大小为3×3的卷积核。模型的第3部分是四个连续的DSC卷积层,其内核大小均为3×3,内核数量依次为128、160、256、300。需要注意的是，除了第3部分，所有的DSC卷积层后面都接有批归一化层(batchnormalization,BN)、线性整流函数ReLU激活层以及池化层。对于具体池化方法的选择，除模型的第3部分结束时采用了全局平均池化(GlobalAverage-Pooling,GAPool)外，所有的池化方法都采用平均池化(Average Pooling,AvgPool)。模型的最后一部分，根据训练样本的标签类型设计，本申请使用离散模型将网络设置为一个语音情绪分类任务模型，每种语音情绪的概率通过Softmax层输出得到。

如图9所示为语音模态情绪识别流程图，音频文件分别经过预处理、对数梅尔普特征提取、轻量级深度可分离卷积残差神经网络的语音情绪识别模型后，得到语音模态情绪识别。

多模态信息融合方法：

为了对矿工的情绪状态有更加准确的识别结果，实现脑电情绪信息、语音情绪信息和人脸情绪信息的多模态信息的融合互补。本申请设计了多模态信息权值自适应的决策层信息融合算法。算法实现将脑电信息决策结果、语音信息决策结果和人脸情绪决策结果在决策层加权融合实现多模态信息的融合判断。自适应权值寻优算法的结构就是找到最佳的融合权值实现多模态信息的加权融合。算法主要思路来源于强化学习中智能体和环境的交互来学习最优策略，获得最优解。强化学习在智能体与环境交互过程中学习问题，进行不断试错来获取下一个动作过程中的奖惩。在获取最大奖励值的过程中对动作的选取进行优化提升，从而有效实现最终的目标要求。同时这个过程是不需要复杂环境的模型建立。多模态信息权值自适应的决策层信息融合算法通过强化学习中的学习方法自适应学习寻求多模态信息间的最优权值比重。算法迭代更新如图10所示。

多模态信息权值自适应算法主要是利用目标权重矩阵和动作状态矩阵联合建立的值集合，通过在强化学习中的奖励函数与外界环境交互时对表更新寻优，得到最佳权重矩阵实现最优权值下多模态信息的融合策略。算法具体策略如下：

步骤2：建立初始目标权重矩阵w＝[w₁,w₂,...,w_n]和动作状态选取矩阵A＝[-Δw,Δw]。其中权重w₁对应模态信息1结果概率矩阵[w₁₁,w₁₂,...,w_1j]；权重w₂对应模态信息2的结果概率矩阵[w₂₁,w₂₂,...,w_2j]，依次类推。Δw为智能体动作改变幅度值，本申请选择Δw＝0.001。

步骤3：建立Q表，同时建立损失函数loss和奖惩函数R。

y'(t)＝w₁y'₁+w₂y'₂+...+w_ny'_n

其中，y(t)为真实值；y'(t)为多模态信息融合判定值；N为输入数据点数目。损失函数R如公式所示：

其中，loss_m为第m个样本的损失值；

步骤4：根据当前状态的Q表，基于ε-贪婪机制进行更新动作选取。其中动作的选择方法如公式所示：

其中，是在奖励值Q表中取最大Q值时的选择动作，a_random为随机动作选取值，a_random∈(0,1)。

V(s)←V(s)+α(R_t+1+γV(s')-V(s))

其中，R_t+1+γV(s')被称为TD目标，R_t+1+γV(s')-V(s)为TD偏差。Q表的更新方式如式所示：

Q(s,a)←Q(s,a)+α[γ+λMax_a'Q(s',a')]

其中α为学习率，λ奖励性衰变系数。下一状态的最大λMax_a'Q(s',a')作为Q现实，过往Q表里的Q(s,a)作为Q估计。

y＝y₁w₁+y₂w₂+...+y_nw_n

其中，y_n代表不同种模态，权重w_n代表的各模态的概率矩阵

本申请中通过对脑电、人脸和语音三种模态下分别进行了预处理、特征提取和情绪状态识别的分类。三种模态信息通过分类器实现对积极、中性和消极等情绪的分类识别。最后通过将不同模态信息的权值进行寻优，利用最优的权重值实现多模态信息间的决策层信息融合，从而有效地减少了单一模态信息的局限性。

实施例2

煤矿工作人员从事井下作业过程中，其中人为因素导致的煤矿事故难以预测，矿工的工作情绪状态会直接影响到其工作质量，甚至做出误操作引起安全事故发生。针对于三种单模态不能准确的对矿工情绪进行识别的问题，本实施例从矿工的生理状态下的脑电情绪状态和非生理状态下的人脸和语音情绪三种情绪状态层面出发，研究了矿工情绪状态评估的问题。

改进主干特征提取网络下多尺度人脸情绪识别网络模型：

为了验证本申请提出的改进深度学习模型的性能，本申请改进人脸识别算法使用TensorFlow2.1框架深度学习空间进行构建，使用Window10作为操作系统，并根据实际需要使用Python3.7作为编程工具进行使用。

为了对矿工的情绪状态进行监测识别，搭建了一种改进主干特征提取网络多尺度人脸情绪识别模型。同时为了适应煤矿下的特殊环境，构建了适应矿工情绪监测的人脸情绪数据集。模型能够对开心、生气、厌恶、中性、伤心、惊讶、恐惧7种情绪进行识别。为了对模型的识别精度和性能进行评判，将改进主干特征提取网络多尺度识别网络结构和传统的VGG-Net、Inception等模型在本申请所构建的数据集上进行了比较。改进主干特征提取网络多尺度情绪识别模型在开心、生气、厌恶、中性、伤心、惊讶、恐惧7种类别上的测试精度与其五种识别模型对情绪状态的识别准确率如图11所示。

通过对模型的精准度进行绘制分析，可以看出模型对于惊讶、开心、伤心等情绪的识别准确度较高。能够分别达到90％、86％、81％的准确度。而对于厌恶、恐惧等情绪的识别度相对较低。这个问题主要是因为开心、惊讶等情绪的面部表情特征更加明显，所以模型对于这些情绪的特征提取也就更加准确，相反厌恶、恐惧等情绪则识别准确度就相对降低。

基于Transformer和注意力机制的脑电增强情绪识别模型：

为了识别矿工脑电情绪，选用公开数据集DEAP来对基于Transformer特征增强和注意力机制的脑电情绪识别网络的分类性能进行评估。DEAP数据集可用来对人的脑电情绪进行研究。DEAP数据集只有3两个通道用于脑电信号的记录，其中包含了被试根据效价、唤醒等程度对情绪视频的评分情况，并根据这些评分为所记录脑电信号打上对应的情绪标签。

实验选取被试去除基线后60s的脑电信号作为实验数据，并将其分为20组脑电数据，则每个被试可以得到800组脑电数据样本，32名被试共可以得到25600组脑电数据，采用十折交叉验证开展对模型的训练测试。实验配置为：1080Ti GPU,Intel i7-8700K CPU,TensorFlow框架，同时采用Adam优化器对边缘损失进行优化。

本申请提出的模型能够对脑电信号进行积极、中性和消极情绪分类。为了对模型的识别精度和性能进行评判，将改进的Transformer特征增强和注意力机制的脑电情绪识别模型与卷积神经网络(Convolutional Neural Network,CNN)、深度可分离卷积DSC和图卷积神经网络(Graph Convolutional Neural Network，GCNN)作为对比模型进行实验。本申请改进模型与其他四种识别模型对情绪状态的识别准确率如图12所示。

本申请提出的情绪识别模型基本完成了三种情绪识别任务。其中，对于积极和消极情绪的识别精度较高，平均识别准确率分别为89.73％和88.68％，对于中性情绪识别精度相对较低，平均识别准确率为87.43％。

如图13所示，可以看出多种识别模型经过一定步数的训练学习都能够最终趋于稳定，可以说明本申请针对矿工脑电情绪识别搭建的基于Transformer的特征增强和注意力机制网络相对于其他深度学习模型效果更好，准确率更高，性能更优。

为了对矿工的情绪状态进行更好识别，搭建了用于语音情绪识别的轻量级深度可分离卷积残差神经网络模型。模型能够对中性、生气、恐惧、高兴、悲伤和惊讶6种语音情绪进行识别。为了对模型的识别精度和性能进行评判，研究中将本申请模型和传统的深度学习模型在语音数据集进行了验证比较。本申请模型不同类别上的测试精度与其他三种识别模型对语音情绪状态的识别准确率对比如图14所示。

通过对不同情绪状态下的模型准确率对比来看，可以看出本申请提出的模型对于高兴和生气的识别准确度较高。能够分别达到90.56％和88.61％的准确度。通过对比了其他识别网络模型的识别精度，本申请搭建的轻量级深度可分离卷积残差神经网络模型达到了87.74％的识别精度，性能上有着一定的提升。该模型仅有少量参数但能很好的学习到情绪特征，而且在轻量级方面产生较好的效果，达到较高的准确率。

多模态自适应融合算法：

本申请提出了一种多模态自适应权值寻优算法来实现脑电信息、语音信息和人脸模态信息的决策层信息融合。三种不同模态信息分别在单独的网络分类器中得到独自的决策信息，通过权值组合将三种模态信息的决策结果加权组合实现信息的融合，从而提升判别精度。本申请提出的脑电信息、语音信息和人脸情绪信息多模态决策自适应融合情绪识别精度对比结果如图15所示。

从图15中可以看出在单一模态信息下，无论是在生理状态下的脑电模态信息还是非生理状态下的人脸图像和语音模态信息，对情绪状态的识别精度都不算很理想。经过多模态信息融合方法将脑电模态、语音模态和人脸模态信息融合后综合对情绪状态进行识别，情绪识别的精度整体上是要高于单一模态信息下的识别准确率的，也说明了多模态信息融合方法具有可行性。

以上对本申请的具体实施例进行了描述。需要理解的是，本申请并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本申请的实质内容。

Claims

1.一种基于表情、脑电及语音多模态融合的矿工情绪识别方法，其特征在于，包括：

改进主干特征提取网络多尺度情绪识别模型：包括一个改进主干特征提取网络、四个卷积层、两个最大池化层和两个多尺度特征提取层，图像输入后，依次经过改进主干特征提取网络、多尺度特征提取层、卷积层、最大池化层、多尺度特征提取层、卷积层、最大池化层、卷积层，最后通过一个全局平均池化层来输出特征并用SoftMax函数作为分类器得出人脸情绪信息；

基于Transformer的特征增强和注意力机制的脑电增强情绪识别网络：包括自动类时频特征提取模块、Transformer特征增强模块、深度特征变换卷积模块和和注意力层的特征融合和分类模块；在自动类时频特征提取模块中，每一个脑电通道都独立分配一个缩放卷积层来提取该通道的类时频特征，在脑电通道维度上将所有通道的类时频特征图进行堆叠得到类时频特征张量；然后通过Transformer特征增强模块进行特征强化；然后，与类时频特征进行加权相乘得到脑电特征增强重标定特征；再经过深度特征变换卷积模块提取脑电信号的深层信息；最后由注意力层进行特征融合层，最后连接一个全连接层和Softmax激活函数进行脑电情绪的分类，得到脑电情绪信息；

基于轻量级深度可分离卷积残差神经网络的语音情绪识别模型：包括并行卷积结构、残差结构以及串行卷积结构；所述并行卷积结构，包含三个并行的DSC卷积层，它们的输出将合并在一起送至模型的残差结构；所述残差结构，主干边包含有两个DSC卷积层；所述串行卷积结构包括四个连续的DSC卷积层；最后使用离散情绪模型将网络设置为一个语音情绪分类任务模型，通过Softmax层输出得到语音情绪信息；

2.根据权利要求1所述的基于表情、脑电及语音多模态融合的矿工情绪识别方法，其特征在于，所述基于轻量级深度可分离卷积残差神经网络的语音情绪识别模型中，除了串行卷积结构部分，所有的DSC卷积层后面都接有批归一化层、线性整流函数ReLU激活层以及池化层；对于具体池化方法的选择，除模型的串行卷积结构结束时采用了全局平均池化外，所有的池化方法都采用平均池化。

3.根据权利要求1所述的基于表情、脑电及语音多模态融合的矿工情绪识别方法，其特征在于，所述多尺度特征提取层，其结构分为两个部分，一个是自底层到顶层进行自下向上特征提取，一个是自顶层到底层的自上向下特征提取；先进行传统的卷积、池化的自下向上的特征卷积；输入经过改进主干特征提取网络的图像特征；在达到了顶层特征时，进入第二通道的自上向下部分，利用反卷积操作将特征图的尺寸进行扩大，然后融合相邻的特征图；每个层级特征层间使用1*1卷积连接，利用插值法进行上采样操作实现多尺度特征提取网络提取高层特征的语义信息和底层的位置信息；同时，使用侧向连接将高底层特征完全融合；最后将融合的特征通过合并层送入网络模型的下一阶段。

4.根据权利要求1所述的基于表情、脑电及语音多模态融合的矿工情绪识别方法，其特征在于，在所述的改进主干特征提取网络多尺度情绪识别模型算法中引入交叉熵损失函数，表达式如下：

L＝L_loss+L_c

其中，三元组损失函数L_loss适用于扩展欧式空间内不同类别的矿工人脸特征向量间的远近和减小欧氏空间内相同类别的人脸特征向量间远近。

5.根据权利要求1所述的基于表情、脑电及语音多模态融合的矿工情绪识别方法，其特征在于，所述自动类时频特征提取模块由32层独立的缩放卷积层组成。

6.根据权利要求1所述的基于表情、脑电及语音多模态融合的矿工情绪识别方法，其特征在于，所述Transformer特征增强模块由四组Transformer模型中的多头注意力、前馈神经网络以及额外添加的一个平均池化层和一个全连接层组成。

7.根据权利要求1所述的基于表情、脑电及语音多模态融合的矿工情绪识别方法，其特征在于，所述深度特征变换卷积模块由三层二维卷积神经网络层组成。

8.根据权利要求1所述的基于表情、脑电及语音多模态融合的矿工情绪识别方法，其特征在于，所述并行卷积结构中，三个并行的DSC卷积层的卷积核的数量均设置为16，不同之处在于它们的卷积核的大小分别为3×3、13×1和1×10；所述残差结构中两个DSC卷积层，每个卷积层为64个大小为3×3的卷积核；所述串行卷积结构中四个连续的DSC卷积层内核大小均为3×3，内核数量依次为128、160、256、300。

9.根据权利要求1所述的基于表情、脑电及语音多模态融合的矿工情绪识别方法，其特征在于，所述的多模态信息权值自适应算法，具体策略如下：

步骤2：建立初始目标权重矩阵w＝[w₁,w₂,...,w_n]和动作状态选取矩阵A＝[-Δw,Δw]；其中权重w₁对应模态信息1结果概率矩阵[w₁₁,w₁₂,...,w_1j]；权重w₂对应模态信息2的结果概率矩阵[w₂₁,w₂₂,...,w_2j]，依次类推；Δw为智能体动作改变幅度值；

步骤3：建立Q表，同时建立损失函数loss和奖惩函数R

y'(t)＝w₁y′₁+w₂y′₂+...+w_ny′_n

loss_m为第m个样本的损失值；

V(s)←V(s)+α(R_t+1+γV(s')-V(s))

其中，R_t+1+γV(s')被称为TD目标，R_t+1+γV(s')-V(s)为TD偏差；

Q表的更新方式如式所示：

Q(s,a)←Q(s,a)+α[γ+λMax_a'Q(s',a')]

y＝y₁w₁+y₂w₂+...+y_nw_n

10.根据权利要求9所述的基于表情、脑电及语音多模态融合的矿工情绪识别方法，其特征在于，所述步骤2中，Δw＝0.001。