CN116030521A

CN116030521A - 一种基于频域特征的微表情识别方法

Info

Publication number: CN116030521A
Application number: CN202310058672.7A
Authority: CN
Inventors: 付晓峰; 吴文彬; 孙曜
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-01-18
Filing date: 2023-01-18
Publication date: 2023-04-28

Abstract

本发明公开了一种基于频域特征的微表情识别方法，包括步骤：提取微表情序列中的起始帧和顶点帧，记顶点帧为选定帧；根据微表情序列的起始帧和选定帧计算稠密光流序列；对稠密光流序列中的光流图像进行预处理；将预处理后的光流图像作为输入，训练PDTNet模型；输入待测试图像到训练完成的PDTNet模型中，获得微表情识别结果。本发明融合频域特征中的相位特征和振幅特征得到带有全局信息的融合特征，用于PDTNet模型训练，进一步提高PDTNet模型识别的准确率。

Description

一种基于频域特征的微表情识别方法

技术领域

本发明属于计算机图像处理技术领域，具体涉及一种基于频域特征的微表情识别方法。

背景技术

早在1966年，Haggard和Isaacs首先发现了微表情的存在，然后Ekman和Friesen根据1969年一名精神病医生与一名抑郁症患者交谈的视频中捕捉到的隐藏在患者微笑下的痛苦表情并命名为微表情，微表情的持续时间从1/25秒到1/5秒不等，时间非常短暂且难以被人眼捕获，但微表情是自发的和不可控的，能够更加准确地反映一个人的真实情感，具有潜在的应用场景。

因此，对微表情识别的研究是有必要的，目前微表情在教育心理学、刑事侦查、临床诊断和情感分析等领域有着广泛的应用。但微表情的识别仍然是一个难题。随着人工智能网络的发展，研究者利用深度学习卷积神经网络用于微表情的识别，但深度学习卷积神经网络算子存在局部感受野较局限的问题，为了获得全局信息，需要多层堆叠，但是随着层数增大信息量会出现衰竭，提取的特征注意力集中在某些区域，使得部分特征丢失全局信息，导致识别精度降低。

发明内容

为了解决现有技术中特征丢失全局信息的问题，本发明提出了一种基于频域特征的微表情识别方法用于赋予特征全局信息来提高模型的识别精度。

本发明采用的技术方案为：一种基于频域特征的微表情识别方法，包括步骤：

步骤S1：提取微表情序列中的起始帧和顶点帧，记顶点帧为选定帧；

步骤S2：根据微表情序列的起始帧和选定帧计算稠密光流序列；

步骤S3：对稠密光流序列中的光流图像进行预处理；

步骤S4：将预处理后的光流图像作为输入，训练PDTNet模型；

步骤S5：输入待测试图像到训练完成的PDTNet模型中，获得微表情识别结果。

作为优选，步骤S1中，还包括步骤：提取微表情序列中顶点帧两侧预设帧数范围内的图像帧，记为选定帧。

作为优选，步骤S2中，所述光流序列的计算包括步骤：使用Gunnar Farneback方法进行计算，得到全局的稠密光流序列。

作为优选，步骤S3中，所述对稠密光流序列中的光流图像进行预处理包括步骤：

统一光流图像的尺寸大小；

对光流图像进行随机弧度旋转；

对图像进行随机水平翻转；

调整光流图像大小，并根据预设网络训练光流图像。

作为优选，步骤S4中，所述将预处理后的光流图像作为输入，训练PDTNet模型包括步骤：

步骤S4.1：构建PDTNet模型并初始化；

步骤S4.2：将光流图像分成n个tokens，记作光流图像X＝[x₁,x₂,...,x_n]，x_n为第n个token；

步骤S4.3：提取光流图像的振幅特征|X|和相位特征θ；

步骤S4.4：融合振幅特征|X|和相位特征θ得到融合特征Z；

步骤S4.5：将融合特征Z与光流图像的原始图片相加，获得新的融合特征，利用PDT模块进一步提取特征获得分类特征，并对分类特征进行分类获得对应的预测标签；

步骤S4.6：对光流图像进行多轮分类训练，获得训练完成的PDTNet模型。

作为优选，步骤S4.3中，所述提取光流图像的相位特征θ包括步骤：将光流图像X分别经过参数矩阵W_q、W_k和W_v卷积，得到对应的q、k和v三个向量；

对q乘以k的结果经转置函数转置后再加上正余弦位置编码，得到相似性分数a_s；

将相似性分数a_s经过softmax计算，得到归一化的相似性比值a_r；对相似性比值a_r乘以v得到相位特征θ。

作为优选，步骤S4.4中，所述融合振幅特征|X|和相位特征θ得到融合特征Z包括步骤：

根据预设的融合特征公式计算光流图像中token的融合特征z_j；

集合每个token的融合特征z_j构成光流图像相位和幅度的融合特征Z。

作为优选，预设的所述融合特征公式为：

z_j＝|x_j|⊙cosθ_j+|x_j|⊙i sinθ_j,j∈(1,2,...,n.)，

其中，i是虚数单位，|·|是绝对值运算，⊙是逐元素乘法，|x_j|和θ_j分别

表示第j个token的振幅特征和相位特征。

作为优选，步骤S4.5中，所述获得新的融合特征，利用PDT模块进一步提取特征获得分类特征，并对分类特征进行分类获得对应的预测标签包括步骤：

新的融合特征依序经过第一个ResNet模块、第二个ResNet模块和ViTTransformer模块进行卷积和池化后得到分类特征；

输入分类特征到MLP层模块进行分类，获得分类特征的预测标签。

本发明的有益效果是：本发明对光流图像进行频域信息提取，获得振幅特征和相位特征，对光流图像的振幅特征和相位特征进行融合，获得融合特征，用于保留全局信息。进一步地，将融合得到的频域特征与原始图片结合得到信息更丰富的融合特征，并将该融合特征加入到PDTNet模型进行训练，提升PDTNet模型识别精度。

附图说明

图1是本发明中一种基于频域特征的微表情识别方法的流程图，

图2是本发明中一种基于频域特征的微表情识别方法中的将预处理后的光流图像作为输入并训练PDTNet模型的流程的流程图，

图3是本发明中一种基于频域特征的微表情识别方法中提取光流图像的相位特征θ的流程图，

图4是本发明中一种基于频域特征的微表情识别方法中融合振幅特征|X|和相位特征θ得到融合特征Z的流程图。

图5是本发明的PDTNet模型中的分类模块—PDT模块的结构图；

图6是本发明的PDTNet模型中的ResNet模块的结构图；

图7是本发明的PDTNet模型中的ViT Transformer模块的结构图；

图8是本发明的PDTNet模型中的Dense层的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明，以使本发明的优点和特征能够更加容易地被本领域技术人员理解，从而对本发明的保护范围做出更加清楚的明确界定。

参考附图1，本实施例以本发明提出的深度学习模型即PDTNet模型作为图像特征分类模型，通过将光流图像的振幅特征和相位特征进行融合，得到融合特征，用于PDTNet模型分类训练，以提高PDTNet模型识别精度。

本实施例采用的技术方案包括步骤：

一种基于频域特征的微表情识别方法，包括步骤：

步骤S1：提取微表情序列中的起始帧和顶点帧，记顶点帧为选定帧。

进一步地，提取微表情序列中顶点帧两侧预设帧数范围内的图像帧，记为选定帧。

现有的微表情数据集仍然存在数据集不足和数据分布不均匀的问题，对于数据不足的问题，本实施例将顶点帧前后的两个帧添加到数据集以扩展数据，为了使训练更稳定，本实施例通过控制扩展样本的数量来平衡训练集的样本分布。具体地，记n_sur,n_neg,n_pos分别是在惊讶类、消极类和积极类中需要增加的样本数，wn_sur，wn_neg，wn_pos分别代表惊讶类、消极类和积极类的总样本数。由于惊讶类的数量最少，因此默认情况下将其所有增加的四帧添加到训练集，因此n_sur＝4，那么：

n_neg＝a*wn_sur÷wn_neg-1

n_pos＝a*wn_sur÷wn_pos-1

其中a为5，因为不同类别中的样本数量的最大差异是5倍。

步骤S2中，稠密光流序列的计算包括步骤：使用Gunnar Farneback方法进行计算，得到全局的稠密光流序列；

计算选定帧与起始帧之间的Gunnar Farneback光流。具体地，顶点帧指的是在一段微表情视频序列中，微表情最强烈的那一帧；起始帧指的是微表情开始产生的那一帧；Gunnar Farneback光流方法计算的是全局的稠密光流序列，它是基于两帧所有像素点的移动估计算法，效果要比稀疏光流算法更好。

步骤S3：对稠密光流序列中的光流图像进行预处理；

步骤S3中，对稠密光流序列中的光流图像进行预处理包括步骤：统一光流图像的尺寸大小，由于原始输入的微表情序列图片大小不一致，因此计算得到的光流图片大小也不一致，本实施例中将它们尺寸归一化到同样的大小234×240；

对光流图像进行随机弧度旋转以增加图像的差异性；

对图像进行随机水平翻转以防止过拟合；

调整光流图像大小，将图像统一成224×224的大小，并根据预设网络训练光流图像。

步骤S4：将预处理后的光流图像作为输入，训练PDTNet模型；

参考附图2，步骤S4中，将预处理后的光流图像作为输入，训练PDTNet模型包括步骤：

步骤S4.1：构建PDTNet模型并初始化；

网络PDTNet模型包括振幅特征提取器(振幅特征提取器采用两个全连接层(FC，Fully Connection)来提取振幅特征)、相位特征提取器(G模块)、特征融合器(Merging模块)和深度学习网络分类器(PDT模块)，分别将G模块的参数W_q、W_k、W_v进行初始化；

PDTNet网络采用一种端到端的训练方式，使用CrossEntropyLoss交叉熵函数和Dense Relative Localization Loss函数相加作为联合损失函数。

交叉熵函数中m代表当前标签状态下的分类情况，K代表总共的分类数量，y代表标签的值，p代表当前标签值状态下的分类概率，交叉熵函数公式如下：

Dense Relative Localization Loss(L_drloc)是一种针对小样本Transformer提出的损失函数，其中B为n个输入图片的一个mini-batch，e_b,c和e_p,h是随机选取的多对tokens，(g_u,g_r)^T是二维的归一化目标变换偏置，表示的是一对tokens中的两个token之间的实际距离，(d_u,d_r)^T则表示的是预测的变换偏置，即预测的一对tokens之间的距离，预测网络为一个MLP网络。Dense Relative Localization Loss的公式如下，其中x表示B中的每个样本，E表示期望值，|·|₁操作表示L1范数：

深度学习网络分类器PDT模块最后一层，使用的激活函数是Sigmoid函数,其中t表示特征，其公式如下:

其他各层使用的激活函数为ReLU函数，其中t表示特征，其公式如下：

ReLU(t)＝max(0,t)

网络选取的优化器为Adam优化器，batch_size大小为32，学习率learning rate为0.0001，学习率下降率为0.999，迭代次数epochs设置为100。

首先将图像分割成n个tokens，记作X＝[x₁,x₂,...,x_n]，每个token的大小为7×7。具体实现时使用一个大小为7×7的卷积核(kernel)滑动窗口，并设置步长(stride)为4，填充(padding)值为4，输出通道数为64，卷积完后使用BatchNorma2d函数对数据进行池化操作。步长设置为4小于token的大小，可以实现tokens之间的信息重叠，增加模型对于全局信息的感受范围。

步骤S4.3：提取光流图像的振幅特征|X|和相位特征θ；

参考附图3，G模块的相位特征提取步骤，即步骤S4.3中，提取光流图像的相位特征θ包括步骤：

将光流图像X分别经过参数矩阵W_q、W_k和W_v卷积，得到对应的q、k和v三个向量；

对q乘以k的结果经转置函数转置后再加上正余弦位置编码，得到相似性分数a_s；将相似性分数a_s经过softmax计算，得到归一化的相似性比值a_r；

对相似性比值a_r乘以v得到相位特征θ。

振幅信息通过两个全连接层来获取，具体地，将X经过一个输出通道为64，卷积核大小为1×1的卷积操作，得到振幅特征|X|。

参考附图4，Merging模块用于融合振幅特征|X|和相位特征θ，即实现步骤S4.4：融合振幅特征|X|和相位特征θ得到融合特征Z；

步骤S4.4中，融合振幅特征|X|和相位特征θ得到融合特征Z包括步骤：

第j个token的融合特征记为z_j，公式表示为：

很明显，提取的特征位于频域，为了将其映射到提出的网络，使用欧拉公式将其展开：用三角函数表达的融合特征公式表示为：

其中，i是虚数单位，|·|是绝对值运算，

是逐元素乘法，|x_j|和θ_j分别表示第j个token的振幅特征和相位特征。

对融合特征Z再经过一个输出通道64，卷积核大小为1×1的卷积操作和一个Dropout操作，防止网络过拟合。

由于以上步骤的输出通道与输入通道一致，采取的又都是1×1的卷积操作，因此得到的特征图大小与原始输入图像大小一致。通过将得到的联合特征与原始输入图相加，使得新的融合特征既包含空间域特征，也包含频域特征，使包含的信息更丰富。

参考附图5至附图7，首先是第一个ResNet模块，第一个ResNet模块的构成如下：

第一个ResNet模块中，输入为新的融合特征，首先是一个输入通道数为64、输出通道数为18、卷积核大小为3×3、padding值为1的卷积层，之后经过一个输出通道数为18的BatchNorm2d函数(批量归一化)和ReLU激活函数，紧接着再经过一个输出通道数为18、卷积核大小为3×3、padding值为1的卷积层，和一个输出通道数为18的BatchNorm2d函数和ReLU激活函数。ResNet模块中短接的部分将初始的输入Z通过一个输入通道数为64、输出通道数为18、卷积核大小为1×1的卷积层，将上述两个部分相加后经过核大小为2×2、步长为2的最大池化层。

将第一个ResNet模块的输出作为第二个ResNet模块的输入，第二个ResNet模块与第一个ResNet模块的结构相同，唯一不同的是卷积操作的输入通道数为18，输出通道数为28，池化操作的输出通道数为28。

第二个ResNet模块的输出作为ViT Transformer模块的输入，ViT Transformer模块将输入分为两条线进行输出，并在输出后相加，具体地，先将输入经过一个输入通道数为28、输出通道数为8、卷积核大小为1×1的卷积层；同时将输入经过一个输入通道数为28、输出通道数为8的多头自注意力层。将两个输出相加后，经过核大小为2×2、步长为2的最大池化层，得到输出。

将上述输出作为MLP层的输入，得到预测标签。具体地，先将ViT Transformer模块的最终输出的特征图扁平化(flatten)成向量，此时特征向量的维度为28×28×8。参考附图8，特征向量依序经过三组的Linear(线性)层、ReLU激活函数和Dropout层得到输出维度为64的特征向量，三个Linear(线性)层的输出维度分别为1024、64和64，将输出的维度为64的特征向量再输入到输入维度为64，输出维度为3的Linear层，得到最后的预测标签，即惊讶类、消极类和积极类微表情的三分类结果。

步骤S4.6：对光流图像进行多轮分类训练，获得训练完成的PDTNet模型。结合初始化中损失函数(CrossEntropyLoss交叉熵函数和Dense Relative Localization Loss函数相加作为联合损失函数)进行反向传播和网络训练。

另一方面，为了验证本发明的有效性，选取测试集对本发明提出的网络PDTNet进行测试。使用Leave One Subject Out(LOSO)的交叉验证方法用于确定训练集和测试集的分段，并确保受试者独立的评估。由于即使在合并数据库之后，微表情类的分布仍然不平衡，为了减少潜在的偏差，本发明的评估标准使用了两个平衡的度量：非加权F1分数(UF1)和非加权平均召回率(UAR)。表1给出了利用训练完成的PDTNet模型进行分类的效果以及和其他分类方法的比较。

表1.本发明的识别效果与其他方法的识别效果对比

经实验验证，结果如表1所示，通过本发明与其他方法相比，本发明在多个数据集上具有更强的效果。现有技术的参考文献如下：

文献[1]Zhao,G.,Pietikainen,M.:Dynamic texture recognition using localbinary patterns with an application to facial expressions.IEEE transactionson pattern analysis and machine intelligence 29(6),915–928(2007)

文献[2]Gan,Y.S.,Liong,S.-T.,Yau,W.-C.,Huang,Y.-C.,Tan,L.-K.:Offapexnet on micro-expression recognition system.Signal Processing:ImageCommunication 74,129–139(2019)

文献[3]Liong,S.-T.,See,J.,Wong,K.,Phan,R.C.-W.:Less is more:Microexpression recognition from video using apex frame.Signal Processing:Image Communication 62,82–92(2018)

文献[4]Zhou,L.,Mao,Q.,Xue,L.:Dual-inception network for cross-database micro-expression recognition.In:2019 14th IEEE InternationalConference on Automatic Face&Gesture Recognition(FG2019),pp.1–5(2019).IEEE

文献[5]Liu,Y.,Du,H.,Zheng,L.,Gedeon,T.:A neural micro-expressionrecognizer.In:2019 14th IEEE International Conference on Automatic Face&Gesture Recognition(FG 2019),pp.1–4(2019).IEEE

文献[6]Nie,X.,Takalkar,M.A.,Duan,M.,Zhang,H.,Xu,M.:Geme:Dual-streammulti-task gender-based micro-expression recognition.Neurocomputing 427,13–28(2021)

文献[7]Chen,B.,Liu,K.-H.,Xu,Y.,Wu,Q.-Q.,Yao,J.-F.:Block divisionconvolutional network with implicit deep features augmentation for micro-expression recognition.IEEE Transactions on Multimedia(2022)

以上的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明的保护范围内。

Claims

1.一种基于频域特征的微表情识别方法，其特征在于，包括步骤：

步骤S3：对稠密光流序列中的光流图像进行预处理；

步骤S4：将预处理后的光流图像作为输入，训练PDTNet模型；

2.如权利要求1所述的一种基于频域特征的微表情识别方法，其特征在于，步骤S1中，还包括步骤：提取微表情序列中顶点帧两侧预设帧数范围内的图像帧，记为选定帧。

3.如权利要求1所述的一种基于频域特征的微表情识别方法，其特征在于，步骤S2中，所述光流序列的计算包括步骤：使用Gunnar Farneback方法进行计算，得到全局的稠密光流序列。

4.如权利要求1所述的一种基于频域特征的微表情识别方法，其特征在于，步骤S3中，所述对稠密光流序列中的光流图像进行预处理包括步骤：

统一光流图像的尺寸大小；

对光流图像进行随机弧度旋转；

对图像进行随机水平翻转；

调整光流图像大小，并根据预设网络训练光流图像。

5.如权利要求1所述的一种基于频域特征的微表情识别方法，其特征在于，步骤S4中，所述将预处理后的光流图像作为输入，训练PDTNet模型包括步骤：

步骤S4.1：构建PDTNet模型并初始化；

步骤S4.3：提取光流图像的振幅特征|X|和相位特征θ；

步骤S4.4：融合振幅特征|X|和相位特征θ得到融合特征Z；

6.如权利要求5所述的一种基于频域特征的微表情识别方法，其特征在于，步骤S4.3中，所述提取光流图像的相位特征θ包括步骤：

将相似性分数a_s经过softmax计算，得到归一化的相似性比值a_r；

对相似性比值a_r乘以v得到相位特征θ。

7.如权利要求5所述的一种基于频域特征的微表情识别方法，其特征在于，步骤S4.4中，所述融合振幅特征|X|和相位特征θ得到融合特征Z包括步骤：

8.如权利要求7所述的一种基于频域特征的微表情识别方法，其特征在于，预设的所述融合特征公式为：

z_j＝|x_j|⊙cosθ_j+|x_j|⊙isinθ_j,j∈(1,2,...,n.)，

其中，i是虚数单位，|·|是绝对值运算，⊙是逐元素乘法，|x_j|和θ_j分别表示第j个token的振幅特征和相位特征。

9.如权利要求5所述的一种基于频域特征的微表情识别方法，其特征在于，步骤S4.5中，所述获得新的融合特征，利用PDT模块进一步提取特征获得分类特征，并对分类特征进行分类获得对应的预测标签包括步骤：

新的融合特征依序经过第一个ResNet模块、第二个ResNet模块和ViT Transformer模块进行卷积和池化后得到分类特征；