CN113408381B

CN113408381B - 基于自注意残差卷积神经网络的微表情分类方法

Info

Publication number: CN113408381B
Application number: CN202110635297.9A
Authority: CN
Inventors: 刘峰; 张嘉淏; 王晗阳; 齐佳音; 周爱民; 李志斌
Original assignee: Shanghai University Of International Business And Economics; East China Normal University
Current assignee: Shanghai University Of International Business And Economics; East China Normal University
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2023-09-19
Anticipated expiration: 2041-06-08
Also published as: CN113408381A

Abstract

本发明提供的基于自注意残差卷积神经网络的微表情分类方法，涉及计算机视觉技术领域，该方法包括：输入目标微表情数据集的顶点‑起始点光学流变与光学应变至残差卷积神经网络，得到网络输入张量；将网络输入张量输入至新型残差模块内进行运算，并迭代一次；新型残差模块包括：输入特征量；对特征量进行3×3卷积，并迭代一次；迭代后的结果加上原输入特征量后再进行1×1卷积；最后进行2×2最大池化得到新的输出特征量。在残差卷积神经网络引入多头注意力机制，将多头注意力结果进行分类输出。本发明有效提升了微表情识别的准确率，降低微表情识别模型的参数量，提升微表情识别模型的训练速度，便于在嵌入式设备进行部署，有效扩大其实际应用范围。

Description

基于自注意残差卷积神经网络的微表情分类方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于自注意残差卷积神经网络的微表情分类方法。

背景技术

微表情是一种自发的、在时间与空间尺度上都极为细微的脸部动作，可以揭示人的真实情感。即使在人有意识的掩盖其面部表情时，微表情也能发挥体现人真实情绪的作用。

微表情识别这一计算机视觉的细分领域发展时间较短，在2019年以前，基于人工构造特征的传统计算机视觉方法占主流；而从2019年至今，基于神经网络的微表情识别模型替代了传统方法，成为目前这一领域的研究重点。

目前，在微表情识别这一领域，较为主流的神经网络分类器在模型参数量与识别准确率这两个指标上不能取得较好的平衡。识别准确率较好的模型，其参数量过大，以至于难以在小型设备上进行部署；而轻量级的模型没有较好的识别效果。微表情识别这一领域发展时间较短，技术积累不足，这使得在微表情识别这一领域中引入较为先进的神经网络架构成为一个相当迫切的课题。

发明内容

针对上述技术问题，本发明提供的基于自注意残差卷积神经网络的微表情分类方法，有效平衡了微表情识别模型的识别准确率和模型参数量，且能够适配轻量级应用，有效扩大了其应用范围，使其更有利于应用到实际场景。

为实现上述目的，本发明采取的技术方案为：

本发明提供的基于自注意残差卷积神经网络的微表情分类方法，该方法包括以下步骤：

S1输入目标微表情数据集的顶点-起始点光学流变与光学应变至残差卷积神经网络，得到网络输入张量[N，C1，H，W]，其中N代表mini-batch，C1代表通道数量，H代表图像的高，W代表图像的宽；

S3将得到的网络输入张量输入至新型残差模块内进行运算，并迭代一次；所述新型残差模块包括：输入特征量；对特征量进行3×3卷积，并迭代一次；迭代后的结果加上原输入特征量后再进行1×1卷积；最后进行2×2最大池化得到新的输出特征量。

S4在残差卷积神经网络引入多头注意力机制，将迭代后的网络输入张量输入至注意力模块内得到多头注意力结果；

S5将多头注意力结果进行分类输出。

具体地，所述S1为通过TV-L1密集光流算法计算得到目标微表情数据集顶点-起始点光流向量场在(x，y)处的的水平分量u(x，y)和垂直分量v(x，y)；根据光学流变u(x，y)和v(x，y)计算出(x，y)处的光学应变的强度将u、v和ε进行通道拼接，构造mini-batch，得到网络输入张量。

具体地，所述S4中的注意力模块为：获取(x，y)点的位置编码r_xy＝pos(x，W)+pos(y，H)，其中pos(2i，d)＝sin(1/10000^2i/d)，pos(2i+1，d)＝cos(1/10000^2i/d)；计算1×1卷积层不同参数的单头注意力Attention(q，k，v，r)＝Softmax(qk^T+qr^T)v，其中q、k、v均由1×1卷积计算得到；将所有单头注意力的结果进行通道拼接，得到多头注意力的结果MultiHead(q，k，v，r)＝Concat(Attention₁(q，k，v，r)，Attention₂(q，k，v，r)，…，Attention_n(q，k，v，r))，其中，n为单头注意力的数量。

具体地，所述S5具体为将多头注意力结果经过最大池化层和全连接层进行Softmax微表情分类输出。

优选地，所述S3之前还包括：S2进行7×7卷积。

优选地，本方法使用Adam优化器进行优化。

优选地，该方法通过CASME1、CASME2，CAS(ME)^2的组合数据集进行训练。

上述技术方案具有如下优点或者有益效果：

本发明提供的基于自注意残差卷积神经网络的微表情分类方法，可以有效提升现有微表情识别的准确率，并大幅度降低微表情识别模型的参数量，提升微表情识别模型的训练速度，便于在嵌入式设备进行部署。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明及其特征、外形和优点将会变得更加明显。在全部附图中相同的标记指示相同的部分。并未刻意按照比例绘制附图，重点在于示出本发明的主旨。

图1是本发明实施例1提供的基于自注意残差卷积神经网络的微表情分类方法的简要流程图；

图2是本发明实施例1提供的基于自注意残差卷积神经网络的微表情分类方法的新型残差模块和ResNet-18式残差模块的对比图；

图3是本发明实施例1提供的基于自注意残差卷积神经网络的微表情分类方法中计算一个单头注意力的简要流程图；

图4是本发明实施例1提供的基于自注意残差卷积神经网络的微表情分类方法中计算多头注意力的简要流程图。

具体实施方式

下面结合附图和具体的实施例对本发明作进一步的说明，但是不作为本发明的限定。

实施例1：

本发明实施例1提供的基于自注意残差卷积神经网络的微表情分类方法在实施时，参照图1，首先通过CASME1、CASME2，CAS(ME)^2的组合数据集对本方法进行训练，接着将训练后的方法用于测试，为了保证数据的有效性，减少干扰数据，在进行训练与测试前都需要进行数据预处理，丢弃组合数据集中数量较少的类别和宏表情数据。测试时，对数据预处理后的目标微表情数据集中的人脸进行裁剪，然后将图像序列以三次插值方法正则化为112×112，并转化为黑白灰度图。由于微表情相邻帧之间的变化较为细微，因此一般不会将整个图像序列作为输入特征，而是使用顶点-起始点光学流变和光学应变作为残差卷积网络的输入，起始点为微表情出现的瞬间，顶点即为微表情幅度最大的瞬间，对于这两帧图片，使用TV-L1密集光流算法即可计算出顶点-起始点光流向量场在(x，y)处的的水平分量u(x，y)和垂直分量v(x，y)，再根据光学流变u(x，y)和v(x，y)计算出(x，y)处的光学应变的强度最后，将u、v和ε进行通道拼接，构造mini-batch，得到网络输入张量[N，3，112，112]。

得到网络输入张量后，对其进行7×7卷积来提取低层次特征，并降低特征图的大小至56×56，增大通道数至8。接着将网络输入张量输入新型残差模块，本发明提供的新型残差模块，参照图2，调整了ResNet-18式残差模块中1×1瓶颈卷积的位置，该新型残差模块具体为：对网络输入张量进行3×3卷积，并迭代一次；迭代后的结果加上原网络输入张量后再进行1×1卷积；最后进行2×2最大池化得到新的输出特征量。采用该种新型残差模块，当输入通道数小于输出通道数时可以大幅减少参数量。得到的新的输出特征量还需要再经过一次新型残差模块的运算，每通过一个新型残差模块时，图像的特征层次就会得到提升，特征图的长和宽均减半，通道数增加，经过第一次新型残差模块后，输出通道数为18，经过第二次新型残差模块后，输出通道数为28.

接着经过两次新型残差模块的网络输入张量进入注意力模块，参照图3及图4，注意力模块具体为：获取(x，y)点的位置编码r_xy＝pos(x，W)+pos(y，H)，其中pos(2i，d)＝sin(1/10000^2i/d)，pos(2i+1，d)＝cos(1/10000^2i/d)；计算1×1卷积层不同参数的单头注意力Attention(q，k，v，r)＝Softmax(qk^T+qr^T)v，其中q、k、v均由1×1卷积计算得到；将所有单头注意力的结果进行通道拼接，得到多头注意力的结果MultiHead(q，k，v，r)

＝Concat(Attention₁(q，k，v，r)，Attention₂(q，k，v，r)，…，Attention_n(q，k，v，r))

，其中，n为单头注意力的数量。由于注意力模块的参数量更小，且能够更高效地提取图像的高层次特征，有效提升了微表情识别的准确率，且单头注意力模块的输出通道减少至2，进行通道拼接后注意力模块的输出通道为8，能够明显降低后续全连接层的参数量，从而避免了过拟合的产生，最后经过最大池化层和全连接层得到情感分类。本方法有效平衡了微表情识别模型的准确率和参数量，可适配轻量级应用，且方法训练过程中使用Adam优化器并学习衰减技术，其实际适用场景得到极大扩展，更有利于在实际场景中进行推广。

以上对本发明的较佳实施例进行了描述；需要理解的是，本发明并不局限于上述特定实施方式，其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施；任何熟悉本领域的技术人员，在不脱离本发明技术方案作出许多可能的变动和修饰，或修改为等同变化的等效实施例，这并不影响本发明的实质内容；因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.基于自注意残差卷积神经网络的微表情分类方法，其特征在于，该方法包括以下步骤：

S1将目标微表情数据集的顶点-起始点光学流变与光学应变参数输入至残差卷积神经网络，得到网络输入张量[N,C1,H,W]，其中N代表批量大小batch，C1代表通道数量channels，H代表图像的高，W代表图像的宽；起始点为微表情出现的时刻，顶点为微表情幅度最大的时刻；具体为：

通过TV-L1密集光流算法计算得到目标微表情数据集顶点-起始点光流向量场在(x,y)处的水平分量u(x,y)和垂直分量v(x,y)；

根据光学流变u(x,y)和v(x,y)计算出(x,y)处的光学应变的强度

将u、v和ε进行通道拼接，构造mini-batch小批量数据，得到网络输入张量；

S2对得到的网络输入张量进行7×7卷积；

S3将卷积后的网络输入张量输入至新型残差模块内进行运算，并迭代一次；所述新型残差模块包括：输入特征量；对特征量进行3×3卷积，并迭代一次；迭代后的结果加上原输入特征量后再进行1×1卷积；最后进行2×2最大池化得到新的输出特征量；

S5将多头注意力结果进行分类输出。

2.如权利要求1所述的基于自注意残差卷积神经网络的微表情分类方法，其特征在于，所述S3中的注意力模块为：

获取(x,y)点的位置编码r_xy＝pos(x,W)+pos(y,H)，其中pos(2i,d)＝sin(1/10000²ⁱ ^/d),pos(2i+1,d)＝cos(1/10000^2i/d)；

计算1×1卷积层不同参数的单头注意力Attention(q,k,v,r)＝Softmax(qk^T+qr^T)v,其中q、k、v均由1×1卷积计算得到；

将所有单头注意力的结果进行通道拼接，得到多头注意力的结果

MultiHead(q,k,v,r)＝Concat(Attention₁(q,k,v,r),Attention₂(q,k,v,r),…,Attention_n(q,k,v,r0)，其中，n为单头注意力的数量。

3.如权利要求1所述的基于自注意残差卷积神经网络的微表情分类方法，其特征在于，所述S5具体为将多头注意力结果经过最大池化层和全连接层进行Softmax微表情分类输出。

4.如权利要求3所述的基于自注意残差卷积神经网络的微表情分类方法，其特征在于，本方法使用Adam优化器进行优化。

5.如权利要求4所述的基于自注意残差卷积神经网络的微表情分类方法，其特征在于，该方法通过CASME1、CASME2,CAS(ME)^2的组合数据集进行训练。