CN116152887A

CN116152887A - 一种基于ds证据理论的动态人脸表情识别方法

Info

Publication number: CN116152887A
Application number: CN202211576932.1A
Authority: CN
Inventors: 舒明雷; 刘振宇; 王英龙; 刘瑞霞; 周书旺
Original assignee: Qilu University of Technology; Shandong Institute of Artificial Intelligence
Current assignee: Qilu University of Technology; Shandong Institute of Artificial Intelligence
Priority date: 2022-12-08
Filing date: 2022-12-08
Publication date: 2023-05-23
Anticipated expiration: 2042-12-08
Also published as: US11967180B1; CN116152887B

Abstract

一种基于DS证据理论的动态人脸表情识别方法，通过多特征融合的方式提高了表情视频的特征提取效果，并通过DS证据理论、多分支卷积、注意力机制深度学习了不平衡的动态表情特征。相较其他方法，本方法科学有效的降低了样本不平衡对表情识别带来的影响，充分利用时空特征挖掘视频表情的潜在语义信息，以此进行表情分类提高可靠性和准确率，解决表情识别的需求。

Description

一种基于DS证据理论的动态人脸表情识别方法

技术领域

本发明涉及人脸表情分类方法技术领域，具体涉及一种基于DS证据理论的动态人脸表情识别方法。

背景技术

人脸表情识别(FER)是从人工智能到心理学等广泛研究领域的重要研究课题。随着社会自动化程度的提高，FER在安全、医疗、刑事调查和教育领域的应用逐渐增加。传统方法使用手工制作的特征来实现表达式分类。然而，手工制作的特征只是人为设计的特征，其表现力较弱，缺乏准确表达语义信息的能力。这导致传统方法在FER任务上的性能较差。近年来，随着深度学习的蓬勃发展，各种深度学习FER方法被提出。然而，深度学习方法很难在表情数据集上实现相同的增强效果。这是因为人类在真实场景中以不同的频率表达表情，导致收集不同表情的难度不同。如RAF-DB和FER2013数据集上每个类别的表达式数量分布极不平衡，这被称为样本不平衡。这种现象将导致少数类的特征学习不足，并降低识别精度。

发明内容

本发明为了克服以上技术的不足，提供了一种使用DS证据理论作为指导的分类器以及包含注意力和多层感知机的特征提取模块，来提高表情识别精度的基于DS证据理论的动态人脸表情识别方法。

本发明克服其技术问题所采用的技术方案是：

一种基于DS证据理论的动态人脸表情识别方法，包括如下步骤：

a)对数据集中的视频数据V进行预处理，提取视频数据V最后N帧得到连续的视频帧，将视频帧进行人脸检测及人脸对齐剪裁操作得到人脸表情图像P；

b)构建DSER网络模型，该DSER网络模型由包含同身份的帧间共享模块M_s、空间域上的注意力模块M_att、时间域上的全连接单元V_FC、时间域上的多层感知机单元V_MLP、时空特征融合模块M_st及受DS证据理论指导的判别器D_ds；

c)将人脸表情图像P分别输入到DSER网络模型的同身份的帧间共享模块M_s及空间域上的注意力模块M_att中，输出得到同身份的帧间共享特征F_s ^P及空间域上的注意力特征

将同身份的帧间共享特征/>

乘以空间域上的注意力特征/>

得到空间域特征/>

d)将人脸表情图像P依次输入到DSER网络模型的时间域上的全连接单元V_FC与时间域上的多层感知机单元V_MLP中，输出得到时间域向量

e)将空间域特征

和时间域向量/>

输入到DSER网络模型的时空特征融合模块M_st中，输出得到时空特征/>

f)将时空特征

输入到DSER网络模型的受DS证据理论指导的判别器D_ds中，输出得到分类结果R，完成DSER网络模型的构建；

g)计算损失函数l；

h)通过损失函数l利用Adam优化器迭代DSER网络模型，得到训练后的DSER网络模型；

i)将待检测的视频数据利用步骤a)处理后得到人脸表情图像，将人脸表情图像输入到训练后的DSER网络模型中，得到分类结果R。

进一步，步骤a)中使用python中的VideoCapture类提取视频数据V最后16帧，得到连续的视频帧，对连续的视频帧使用DPM算法进行人脸检测，提取每个视频帧的人脸图像，得到连续的16帧人脸图像，将连续的16帧人脸图像使用PELD算法进行人脸对齐并剪裁，得到对齐后的连续的16帧人脸表情图像P。

进一步，步骤c)包括如下步骤：

c-1)同身份的帧间共享模块M_s依次由第一卷积模块、第二卷积模块、第三卷积模块构成，空间域上的注意力模块M_att依次由第一全连接模块、第二全连接模块构成；

c-2)同身份的帧间共享模块M_s的第一卷积模块依次由卷积核为3*3，步长为1的卷积层、批标准化层、ReLu激活函数层构成，将人脸表情图像P输入到第一卷积模块中，输出得到特征

c-3)同身份的帧间共享模块M_s的第二卷积模块依次由下采样模块及残差模块构成，所述下采样模块由第一分支和第二分支构成，第一分支依次由卷积核为3*3，步长为2的第一卷积层、第一批标准化层、第一ReLu激活函数层、卷积核为3*3，步长为1的第二卷积层、第二批标准化层、第二ReLu激活函数层构成；第二分支依次由卷积核为1*1，步长为2的第三卷积层、第三批标准化层、第三ReLu激活函数层构成；残差模块依次由卷积核为3*3，步长为1的第四卷积层、第四批标准化层、第四ReLu激活函数层、卷积核为3*3，步长为1的第五卷积层、第五批标准化层、第五ReLu激活函数层构成，将特征

输入到第二卷积模块的下采样模块的第一分支中，输出得到特征/>

将特征/>

输入到第二卷积模块的下采样模块的第二分支中，输出得到特征/>

将特征/>

和特征/>

相加操作得到特征/>

将特征/>

输入到第二卷积模块的残差模块中，输出得到特征/>

c-4)同身份的帧间共享模块M_s的第三卷积模块依次由下采样模块及残差模块构成，所述下采样模块由第一分支和第二分支构成，第一分支依次由卷积核为3*3，步长为2的第一卷积层、第一批标准化层、第一ReLu激活函数层、卷积核为3*3，步长为1的第二卷积层、第二批标准化层、第二ReLu激活函数层构成；第二分支依次由卷积核为1*1，步长为2的第三卷积层、第三批标准化层、第三ReLu激活函数层构成；残差模块依次由卷积核为3*3，步长为1的第四卷积层、第四批标准化层、第四ReLu激活函数层、卷积核为3*3，步长为1的第五卷积层、第五批标准化层、第五ReLu激活函数层构成，将特征

输入到第三卷积模块的下采样模块的第一分支中，输出得到特征/>

将特征/>

输入到第三卷积模块的下采样模块的第二分支中，输出得到特征/>

将特征/>

和特征/>

相加操作得到特征/>

将特征/>

输入到第三卷积模块的残差模块中，输出得到特征/>

/>

c-5)通过公式

计算得到同身份的帧间共享特征F_s ^P，式中/>

为特征/>

中第i个视频帧向量；

c-6)空间域上的注意力模块M_att的第一全连接模块依次由批标准化层、Flatten函数、全连接层及ReLU激活函数层构成，将人脸表情图像P输入到第一全连接模块中，输出得到特征

c-7)空间域上的注意力模块M_att的第二全连接模块依次由全连接层、Sigmoid函数层构成，将特征

输入到第二全连接模块中，输出得到空间域上的注意力特征/>

c-8)将同身份的帧间共享特征F_s ^P乘以空间域上的注意力特征

得到空间域特征/>

进一步，步骤d)包括如下步骤：

d-1)时间域上的全连接单元V_FC依次由patch分区模块、Flatten函数、全连接层FC、ReLU激活函数层构成，将人脸表情图像P输入到patch分区模块中进行patch分区，输出得到patch分区向量

将patch分区向量/>

输入到Flatten函数中，输出得到一维向量

将一维向量/>

依次输入到全连接层FC和ReLU激活函数层中，输出得到时间域上的全连接向量/>

d-2)时间域上的多层感知机单元V_MLP依次由批标准化层、全连接层FC及ReLU激活函数层构成，将时间域上的全连接向量

输入到时间域上的多层感知机单元V_MLP中，输出得到时间域向量/>

进一步，步骤e)包括如下步骤：

e-1)将空间域特征

和时间域向量/>

输入到DSER网络模型的时空特征融合模块M_st中，通过公式/>

计算得到得到时空特征/>

式中λ为可调超参数。

优选的，λ＝0.54。

进一步，步骤f)包括如下步骤：

f-1)受DS证据理论指导的判别器D_ds依次由多分支卷积模块、不确定性组合模块、多分支融合模块、判定模块构成；

f-2)多分支卷积模块由第一分支、第二分支、第三分支构成，第一分支、第二分支、第三分支均依次由卷积核为3*3，步长为1的第一卷积层、第一批标准化层、第一ReLu激活函数层、卷积核为3*3，步长为2的第二卷积层、第二批标准化层、第二ReLu激活函数层、平均池化层、Flatten函数、线性层构成，将时空特征

分别输入到多分支卷积模块由第一分支、第二分支、第三分支中，分别输出得到第一分支向量/>

第二分支向量/>

第三分支向量

f-3)将第一分支向量

第二分支向量/>

第三分支向量/>

输入到不确定性组合模块中，对第一分支向量/>

取以e为底的指数得到第一证据向量

为第一分支向量中第i个证据向量，k＝{1,2,...,K}，对第二分支向量/>

取以e为底的指数得到第二证据向量/>

为第二分支向量中第i个证据向量，对第三分支向量/>

取以e为底的指数得到第三证据向量

为第三分支向量中第i个证据向量，k＝{1,2,...,K}，K为样本类别数，K＝7，k的值与标签序列[1:惊讶,2:害怕,3.厌恶,4.高兴,5:伤心,6:生气,7:中性]中的数字一一对应，通过公式/>

计算得到第一证据向量e₁的第k类狄利克雷参数/>

通过公式/>

计算得到第二证据向量e₂的第k类狄利克雷参数/>

通过公式

计算得到第三证据向量e₃的第k类狄利克雷参数/>

通过公式/>

计算得到第一证据向量e₁的狄利克雷强度S₁，通过公式/>

计算得到第二证据向量e₂的狄利克雷强度S₂，通过公式/>

计算得到第三证据向量e₃的狄利克雷强度S₃，通过公式/>

计算得到第一不确定性u₁，通过公式/>

计算得到第二不确定性u₂，通过公式

计算得到第三不确定性u₃，通过公式/>

计算得到第一置信度b₁，通过公式

计算得到第二置信度b₂，通过公式/>

计算得到第三置信度b₃，通过公式C₁₂＝b₁b₂计算得到第一冲突因子C₁₂，通过公式C₂₃＝b₂b₃计算得到第二冲突因子C₂₃，通过公式/>

计算得到第二前缀权重w₂，通过公式/>

计算得到第三前缀权重w₃，第一前缀权重w₁＝1，将第一分支向量/>

乘以第一前缀权重w₁得到第一权重向量V₁ ^P，将第二分支向量/>

乘以第二前缀权重w₂得到第二权重向量V₂ ^P，将第三分支向量/>

乘以第三前缀权重w₃得到第三权重向量V₃ ^P；

f-4)将第一权重向量V₁ ^P、第二权重向量V₂ ^P、第三权重向量V₃ ^P输入到多分支融合模块中，通过公式

计算得到融合向量/>

f-5)判定模块由Softmax函数及max函数构成，将融合向量

输入到Softmax函数中进行归一化，将归一化后的融合向量/>

输入到max函数中，得到最大值的下标E_k，k＝{1,2,...,K}，k的值与标签序列[1:惊讶,2:害怕,3.厌恶,4.高兴,5:伤心,6:生气,7:中性]中的数字一一对应，将最大值的下标E_k与标签序列[1:惊讶,2:害怕,3.厌恶,4.高兴,5:伤心,6:生气,7:中性]进行对比，找到对应的表情标签作为判别结果R。

进一步的，步骤g)中通过公式

计算得到损失函数l，式中γ为调节因子，γ＝0.04，l_KL(E_k)为下标E_k的KL loss计算结果，/>

为融合向量/>

的BCE loss计算结果。

本发明的有益效果是：通过多特征融合的方式提高了表情视频的特征提取效果，并通过DS证据理论、多分支卷积、注意力机制深度学习了不平衡的动态表情特征。相较其他方法，本方法科学有效的降低了样本不平衡对表情识别带来的影响，充分利用时空特征挖掘视频表情的潜在语义信息，以此进行表情分类提高可靠性和准确率，解决表情识别的需求。

附图说明

图1为本发明的方法流程图；

图2为本发明的受DS证据理论指导的判别器结构图。

具体实施方式

下面结合附图1、附图2对本发明做进一步说明。

如附图1所示，一种基于DS证据理论的动态人脸表情识别方法，包括如下步骤：

a)对数据集中的视频数据V进行预处理，提取视频数据V最后N帧得到连续的视频帧，将视频帧进行人脸检测及人脸对齐剪裁操作得到人脸表情图像P。

b)构建DSER网络模型，该DSER网络模型由包含同身份的帧间共享模块M_s、空间域上的注意力模块M_att、时间域上的全连接单元V_FC、时间域上的多层感知机单元V_MLP、时空特征融合模块M_st及受DS证据理论指导的判别器D_ds。

将同身份的帧间共享特征F_s ^P乘以空间域上的注意力特征/>

得到空间域特征/>

e)将空间域特征

和时间域向量/>

f)将时空特征

输入到DSER网络模型的受DS证据理论指导的判别器D_ds中，输出得到分类结果R，完成DSER网络模型的构建。

g)计算损失函数l。

h)通过损失函数l利用Adam优化器迭代DSER网络模型，得到训练后的DSER网络模型。

使用一种帧间共享网络提取连续视频帧的共享空间特征，通过添加共享模块以补偿少数类特征学习的不足。同时为降低计算成本，使用简单的FC层捕获长期时间信息，通过引入多层感知机逐步发现时间特征的核心语义。在此基础上通过融合模块将空间特征与时间特征融合形成时空特征。最后，使用根据DS证据理论计算证据和不确定性，并通过DS证据理论对证据和不确定性进行组合，从而在保持良好性能的同时确保效率。该方法通过多特征融合的方式提高了表情视频的特征提取效果，并通过DS证据理论、多分支卷积、注意力机制深度学习了不平衡的动态表情特征。相较其他方法，本方法科学有效的降低了样本不平衡对表情识别带来的影响，充分利用时空特征挖掘视频表情的潜在语义信息，以此进行表情分类提高可靠性和准确率，解决表情识别的需求。

实施例1：

步骤a)中使用python中的VideoCapture类提取视频数据V最后16帧，得到连续的视频帧，对连续的视频帧使用DPM算法进行人脸检测，提取每个视频帧的人脸图像，得到连续的16帧人脸图像，将连续的16帧人脸图像使用PELD算法进行人脸对齐并剪裁，得到对齐后的连续的16帧人脸表情图像P。

实施例2：

步骤c)包括如下步骤：

c-1)同身份的帧间共享模块M_s依次由第一卷积模块、第二卷积模块、第三卷积模块构成，空间域上的注意力模块M_att依次由第一全连接模块、第二全连接模块构成。

c-2)同身份的帧间共享模块M_s的第一卷积模块依次由卷积核为3*3，步长为1的卷积层、批标准化层(Batch Normalization)、ReLu激活函数层构成，将人脸表情图像P输入到第一卷积模块中，输出得到特征

将特征/>

将特征/>

和特征/>

相加操作得到特征/>

将特征/>

输入到第二卷积模块的残差模块中，输出得到特征/>

将特征/>

将特征/>

和特征/>

相加操作得到特征/>

将特征/>

输入到第三卷积模块的残差模块中，输出得到特征/>

c-5)通过公式

计算得到同身份的帧间共享特征F_s ^P，式中/>

为特征/>

中第i个视频帧向量。

c-8)将同身份的帧间共享特征F_s ^P乘以空间域上的注意力特征

得到空间域特征/>

实施例3：

步骤d)包括如下步骤：

d-1)时间域上的全连接单元V_FC依次由patch分区模块、Flatten函数、全连接层FC、ReLU激活函数层构成，将人脸表情图像P输入到patch分区模块中沿着通道维度分成两组(每组中有24个通道)，进行patch分区，输出得到patch分区向量

将patch分区向量

输入到Flatten函数中，输出得到一维向量/>

将一维向量/>

实施例4：

步骤e)包括如下步骤：

e-1)将空间域特征

和时间域向量/>

输入到DSER网络模型的时空特征融合模块M_st中，通过公式/>

计算得到得到时空特征/>

式中λ为可调超参数。

实施例5：

λ＝0.54。

实施例6：

步骤f)包括如下步骤：

f-1)如附图2所示，受DS证据理论指导的判别器D_ds依次由多分支卷积模块、不确定性组合模块、多分支融合模块、判定模块构成。

第二分支向量/>

第三分支向量

f-3)将第一分支向量

第二分支向量/>

第三分支向量/>

输入到不确定性组合模块中，对第一分支向量/>

取以e为底的指数得到第一证据向量

取以e为底的指数得到第二证据向量/>

为第二分支向量中第i个证据向量，对第三分支向量/>

取以e为底的指数得到第三证据向量

为第三分支向量中第i个证据向量，k＝{1,2,...,K}，K为样本类别数，K＝7，k的值与标签序列[1:惊讶,2:害怕,3.厌恶,4.高兴,5:伤心,6:生气,7:中性]中的数字一一对应，即k＝1表示惊讶，k＝2表示害怕，k＝3表示厌恶，k＝4表示高兴，k＝5表示伤心，k＝6表示生气，k＝7表示中性，通过公式/>

计算得到第一证据向量e₁的第k类狄利克雷参数/>

通过公式/>

计算得到第二证据向量e₂的第k类狄利克雷参数/>

通过公式/>

计算得到第三证据向量e₃的第k类狄利克雷参数/>

通过公式

计算得到第一证据向量e₁的狄利克雷强度S₁，通过公式/>

计算得到第二证据向量e₂的狄利克雷强度S₂，通过公式/>

计算得到第三证据向量e₃的狄利克雷强度S₃，通过公式/>

计算得到第一不确定性u₁，通过公式/>

计算得到第二不确定性u₂，通过公式/>

计算得到第三不确定性u₃，通过公式/>

计算得到第一置信度b₁，通过公式/>

计算得到第二置信度b₂，通过公式/>

计算得到第二前缀权重w₂，通过公式/>

乘以第二前缀权重w₂得到第二权重向量V₂ ^P，将第三分支向量

乘以第三前缀权重w₃得到第三权重向量V₃ ^P。/>

计算得到融合向量/>

f-5)判定模块由Softmax函数及max函数构成，将融合向量/>

输入到Softmax函数中进行归一化，将归一化后的融合向量/>

实施例7：

步骤g)中通过公式

为融合向量/>

的BCEloss计算结果。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于DS证据理论的动态人脸表情识别方法，其特征在于，包括如下步骤：

将同身份的帧间共享特征F_s ^P乘以空间域上的注意力特征/>

得到空间域特征/>

e)将空间域特征

和时间域向量/>

f)将时空特征

g)计算损失函数l；

2.根据权利要求1所述的基于DS证据理论的动态人脸表情识别方法，其特征在于：步骤a)中使用python中的VideoCapture类提取视频数据V最后16帧，得到连续的视频帧，对连续的视频帧使用DPM算法进行人脸检测，提取每个视频帧的人脸图像，得到连续的16帧人脸图像，将连续的16帧人脸图像使用PELD算法进行人脸对齐并剪裁，得到对齐后的连续的16帧人脸表情图像P。

3.根据权利要求1所述的基于DS证据理论的动态人脸表情识别方法，其特征在于，步骤c)包括如下步骤：