CN115862120A

CN115862120A - 可分离变分自编码器解耦的面部动作单元识别方法及设备

Info

Publication number: CN115862120A
Application number: CN202310138875.7A
Authority: CN
Inventors: 胡众旺; 张力洋; 徐素文; 柳欣; 倪亮亮; 黄忠湖
Original assignee: Tiandu Xiamen Science And Technology Co ltd
Current assignee: Tiandu Xiamen Science And Technology Co ltd
Priority date: 2023-02-21
Filing date: 2023-02-21
Publication date: 2023-03-28
Anticipated expiration: 2043-02-21
Also published as: CN115862120B

Abstract

本发明公开了一种可分离变分自编码器解耦的面部动作单元识别方法及设备，方法包括：对人脸图像中进行预处理获得面部区域图像；将面部区域图像输入可分离组合深度卷积模块中获得面部特征图；对面部特征图进行分割获得特征子图，通过全连接操作聚合得到局部块特征组；在局部块特征组中嵌入位置编码，相加后输入多头自注意力模块获得自注意力特征图；将自注意力特征图解耦为面部动作单元编码表征与面部姿态编码表征，并融合重建为面部表情置信度编码表征；通过联合约束学习获得判别性的面部动作单元编码、面部姿态编码和面部表情置信度编码表征值，以进行面部动作单元的识别。本发明具有面部动作单元编码识别精度高等优点。

Description

可分离变分自编码器解耦的面部动作单元识别方法及设备

技术领域

本发明涉及计算机视觉领域，尤其涉及一种可分离变分自编码器解耦的面部动作单元识别方法及设备。

背景技术

人脸面部表情映射着人类内心世界丰富的情感活动，是人体行为信息与情感的重要载体。然而，面部表情的产生是由丰富的面部肌肉之间的联合运动所得到的，因此常用的面部基本表情不足以对人类的所有面部表情进行精确的描述。面部动作单元是一组用于描述面部肌肉运动的编码，旨在描述面部肌肉群的微小运动，通过面部单元识别可对人面部状态进行更全面和精确的判断。通过计算机自动检测面部动作单元及其组合，有助于准确分析面部表情和理解个体情绪，并在虚拟人交互动画、驾驶员疲劳检测、心理诊断、活体检测和影视评估等场景中具有良好的应用前景。

人们在日常生活中面部活动通常以局部面部的动作来表达情感，如悲伤时嘴角下垂、惊讶时眉毛抬高等，因此对于更细粒度的面部表情识别而言，需要更多地关注局部面部动作而不仅仅是整体表情的识别。

人类的面部表情可以通过面部动作编码系统定义的不同面部动作单元的组合准确描述。面部动作单元的不同组合方式在描述人脸表情及其变化上作为基础起着极其重要的作用，因此面部动作单元识别与面部动作单元编码成为计算机视觉领域一个重要的研究课题，精确且快速的面部动作单元编码方法在学术界、工业界均引起了广泛关注。

早期面部动作编码系统是基于解剖学结构的面部编码结构，用于描述面部的肌肉运动。早期基于计算机视觉的面部动作编码与识别主要使用人工设计特征如方向梯度直方图、Gabor特征等以及如人脸关键点的几何特征。对于更高层的语义特征，早期的特征设计通常选用永久面部特征（如嘴巴、眼睛等）与瞬态面部特征（如皱纹等）分析面部动作的细微变化。基于这些人工设计的特征，一些早期的面部动作单元识别的方法主要使用支持向量机算法、随机森林、动态贝叶斯网络等算法，这些特征对于人脸表情识别有一定的可解释性并在一些在小数据集上均取得了较为准确的识别效果，但对于真实场景下大数据量的面部动作单元数据集，这些方法的识别效果准确性与稳健性大幅下滑。

近年来，随着深度学习在计算机视觉领域的普及，面部动作单元分析逐渐成为人们关注的热点。面部动作单元分析可以分为面部动作单元检测和面部动作单元强度识别两个不同的任意端到端的方式运行，提高了模型的整体学习能力和效率。在面部动作单元识别方面，大多通过收集大量面部动作单元样本，搭建卷积神经网络训练出面部动作单元特征识别模型，进而用来进行面部动作单元特征识别与分类，但该种方法对样本库样本质量和数量要求较高，训练往往依赖复杂的网络结构以及大量的数据样本，同时在神经网络前向传播过程中受网络层数、参数量的影响在非图形处理器环境下会受到较大的影响。此外，由于不同人的面部动作常常表现为不同强度、不同尺度范围的面部姿态细微变化，一些面部动作还存在强度的差异，这些因素和表情之间是非线性关系，因此直接送入神经网络训练的效果并不好，如此影响最终识别的准确率。

发明内容

有鉴于此，本发明的目的在于提供一种可分离变分自编码器解耦的面部动作单元识别方法及设备，以改善上述问题。

本发明实施例提供了一种可分离变分自编码器解耦的面部动作单元识别方法，其包括：

提取待识别的人脸图像，对人脸图像进行预处理以获得面部区域图像；

将所述面部区域图像输入到预先训练好的可分离组合深度卷积模块中，以获得面部特征图；

对所述面部特征图进行分割获得多个的特征子图，并对每个特征子图进行特征展平后通过全连接操作聚合得到局部块特征组；

在所述局部块特征组中嵌入位置编码以获取各局部块特征之间的位置关系，并将所述局部块特征组与位置编码相加后输入多头自注意力模块中获得面部自注意力特征图；

通过变分自编码器解耦表征的方法将所述面部自注意力特征图分解为面部动作单元编码表征与面部姿态编码表征，并将面部动作单元编码表征与面部姿态编码表征进行全连接层线性融合重建为面部表情置信度编码表征；

通过线性分解约束损失、变分自编码器解耦表征约束损失和各自编码损失约束联合学习获得判别性的面部动作单元编码、面部姿态编码和面部表情置信度编码表征值；

根据面部动作单元编码和面部表情置信度编码表征值识别与所述人脸图像对应的面部动作单元。

优选地，所述可分离组合深度卷积模块包含2层批归一化卷积层和3层深度可分离卷积层，则将预处理的面部区域图像输入到预先训练好的可分离组合深度卷积模块中，以获得面部特征图，具体包括：

根据给定的卷积步长，对预处理的面部区域图像利用激活函数进行非线性批归一化卷积操作处理：

其中，

为非线性激活函数；BN为批量归一化运算；conv为卷积算子操作；/>

和

分别为该层卷积中的权重参数与偏置项，/>

为对输入的面部区域图像I进行批归一化卷积操作；

将面部区域图像I作为输入经过2层批归一化卷积层操作

、/>

后，获得面部初始特征图h：

将面部初始特征图h输入深度可分离卷积层，利用激活函数进行非线性处理获取关键信息的身份特征图

：

其中，

为非线性激活函数、/>

和/>

为该深度可分离卷积层的权重参数与偏置项；

通过深度可分离卷积层的1×1卷积操作对身份特征图

进行特征卷积以获取除关键信息以外的辅助信息特征图/>

：

其中

为1×1卷积核操作；

由深度可分离卷积层通过批归一化卷积操作提取的面部初始特征图，再通过1×1卷积操作提取特征图中的辅助信息特征图，将这两部分特征通过拼接的方式完成特征融合，输出最终特征图

：

其中

为按通道维度拼接操作；

经过三层深度可分离卷积网络

，/>

，/>

获取面部特征图/>

：

。

优选地，对所述面部特征图进行分割获得多个特征子图，并对每个特征子图进行特征展平后通过全连接操作聚合得到局部块特征组，具体为：

将面部特征图

按照从左到右、从上到下的顺序分割为多个特征子图，并对特征子图内的特征展平后通过全连接操作聚合得到局部块特征组/>

：

其中，

操作表示面部特征图/>

按照从左到右、从上到下的顺序分割为

个特征子图，/>

代表面部特征图的分割行数，/>

代表面部特征图的分割列数，

为面部特征图/>

输出的单一特征向量维度；给定可分离卷积层/>

的卷积通道数/>

，flatten表示将特征图保留通道维度展开为/>

的特征组；FC表示通过全连接层将特征组聚合为/>

的特征；/>

为按通道维度拼接操作将/>

个

的特征拼接为/>

的局部块特征组。

优选地，在所述局部块特征组中嵌入位置编码以获取各局部块特征之间的位置关系，并将所述局部块特征组与位置编码相加后输入多头自注意力模块中获得面部自注意力特征图，具体包括：

在所述局部块特征组中嵌入位置编码以获取各局部块特征之间的位置关系：

其中

为频率，其值设置为/>

，i={1,2,3,...127}，d为输入的局部块特征的维度，k为位置编码中的第k个元素，t为局部块特征组/>

特征的序号，/>

代表第t个位置编码向量；

将局部块特征组

与位置编码pe相加输入多头自注意力模块MultiAtt中获得面部自注意力特征图/>

：

。

优选地，通过变分自编码器解耦表征的方法将所述面部自注意力特征图分解为面部动作单元编码表征与面部姿态编码表征，并将面部动作单元编码表征与面部姿态编码表征进行全连接层线性融合重建为面部表情置信度编码表征，具体包括：

由解耦表征模块以多头自注意力特征图

中的所有单通道/>

作为输入，通过全连接层将任一单通道/>

通过全连接层线性分解方式解耦为面部姿态编码表征/>

与面部动作单元编码表征/>

：

，/>

其中

为特征图/>

第row行第col列所对应的特征，row={1,2,...n _r}，col={1,2,...n _c}；则线性分解约束损失通过最小化以下函数进行解耦约束：

将面部动作单元编码表征与面部姿态编码表征进行全连接层线性融合重建为面部表情置信度编码表征z：

其中concat将

拼接为2×d的特征组；对于特征组/>

，经过解耦操作以及三层全连接层操作得到整体面部动作单元编码、面部姿态编码和面部表情置信度编码表征：

其中，σ表示面部动作单元编码表征，μ表示面部姿态编码表征，z表示面部表情置信度编码表征，其中FC ₃表示三层全连接操作。

优选地，通过线性分解约束损失、变分自编码器解耦表征约束损失和各自编码损失约束联合学习获得判别性的面部动作单元编码、面部姿态编码和面部表情置信编码表征值，具体包括：

构建基于变分自编码器解耦表征损失函数：

其中x为多头自注意力特征图

中的任一向量，/>

为先验概率分布；

为后验概率分布；/>

为极大似然概率分布；z符合正态分布/>

，

和/>

分别为正态分布的均值与标准差，E为期望，/>

为KL散度算子，/>

为超参数；

对面部动作编码表征σ采用全连接操作使特征尺寸与训练数据集真实面部动作单元编码尺寸

一致，生成面部动作单元编码/>

，并设计如下面部动作单元平方差损失函数：

对面部姿态编码表征

采用全连接操作使特征尺寸与训练数据集标注真实面部姿态编码/>

尺寸一致，生成面部姿态编码/>

，并设计如下面部姿态平方差损失函数：

对面部表情置信度编码表征z采用softmax二分类生成面部表情置信度概率值p=softmax(z)，并设计如下面部表情置信度交叉熵损失函数：

其中

为面部表情是否存在真实值，t ₀、t ₁分别代表对于面部表情存在与不存在的置信度，/>

为对应的预测概率值；

解耦通过组合线性分解约束损失、变分自编码器解耦表征损失、面部动作单元平方差损失函数、面部姿态平方差损失函数和面部表情置信度交叉熵损失函数来构成可分离变分自编码器解耦的联合约束损失函数：

其中

和/>

为平衡参数；

基于联合约束损失函数，通过联合约束学习获得判别性的面部动作单元编码、面部姿态编码和面部表情置信度编码表征值。

优选地，对于面部表情的预测概率值，设定p ₀>0.75则预测结果为面部存在面部表情单元，否则预测结果为面部不存在面部表情单元；若检测存在面部表情单元，则根据获得的面部动作单元编码进行面部动作单元识别。

优选地，还包括：

根据面部姿态编码对头部动作进行预测。

本发明实施例还提供了一种可分离变分自编码器解耦的面部动作单元识别设备，其包括存储器以及处理器，所述存储器内存储有计算机程序，所述计算机程序能够被所述处理器执行，以实现如上述的可分离变分自编码器解耦的面部动作单元识别方法。

综上所述，本实施例提供的可分离变分自编码器解耦的面部动作单元识别方法，通过在模型中附带位置编码特征信息的多头注意力机制进行特征提取，可以更有效地挖掘局部信息之间的语义，同时更有效地融合了局部特征与全局特征，获得更具判别性的融合特征。此外，本实施例中表征解耦将人脸特征图中潜在的面部动作单元特征与面部姿态特征在隐空间中分离，使这两项任务之间更具判别性，从而在训练结束之后可以很好的适应实际应用场景。

更进一步的，本实施例通过可分离组合深度卷积操作有效提取了特征中的辅助信息，并通过深度可分离卷积这一对计算机中央处理器计算要求较低的操作实现基于移动端的实时面部动作单元编码和面部姿态编码值，从而可在移动端实时检测用户面部动作单元及面部姿态并依此驱动虚拟数字人角色动画以达到表情随动的效果。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明第一实施例提供的可分离变分自编码器解耦的面部动作单元识别方法的流程示意图。

图2为本发明第一实施例提供的可分离变分自编码器解耦的面部动作单元识别方法的工作原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1和图2，本发明第一实施例提供了一种可分离变分自编码器解耦的面部动作单元识别方法，其可由可分离变分自编码器解耦的面部动作单元识别设备（以下简称识别设备）来执行，特别的，由所述识别设备内的一个或者多个处理器来执行，以实现如下步骤：

S101，提取待识别的人脸图像，对人脸图像中进行预处理以获得面部区域图像。

在本实施例中，所述识别设备可为智能移动终端、电脑、工作站或者服务器等具有数据处理能力的设备，本发明不做具体限定。

在本实施例中，所述人脸图像可通过识别设备上的图像采集装置来获取，例如通过摄像头来获取等，本发明不做具体限定。

在本实施例中，所述预处理包括从人脸图像中提取出面部区域图像以及对面部区域图像进行大小伸缩至标准尺寸等。其中，人脸的面部区域提取可通过预训练的MTCNN标准的人脸检测神经网络模型来获得，再通过线性插值的方法将面部区域图像的尺寸伸缩至预设的标准尺寸，如

。

S102，将所述面部区域图像输入到预先训练好的可分离组合深度卷积模块中，以获得面部特征图。

具体地，在本实施例中，首先构建可分离组合深度卷积模块，该可分离组合深度卷积模块包含2层批归一化卷积层和3层深度可分离卷积层。然后需对所述可分离组合深度卷积模块进行训练，其中，在训练时，获取不同人物、不同姿态、不同面部动作单元编码（编码需预先人工标注）的人脸图像样本数据集，然后对这些人脸图像样本数据集进行预处理后输入至可分离组合深度卷积模块进行训练，从而获得训练后的可分离组合深度卷积模块。

则步骤S102具体包括：

S1021，根据给定的卷积步长，对预处理的面部区域图像利用激活函数进行非线性批归一化卷积处理：

其中，

为非线性激活函数，此处选用sigmoid作为激活函数，该激活函数在定义域上均可导，且可将输出规范在/>

区间。BN为批量归一化运算；conv为卷积算子操作；

和/>

分别为该层卷积中的权重参数与偏置项，/>

为对输入的面部区域图像I进行批归一化卷积操作。

S1022，将面部区域图像I作为输入经过2层批归一化卷积层操作

、

后，获得面部初始特征图h：

其中，2层批归一化卷积层操作

、/>

的参数配置如表1所示：

表 1

通过上述的2层批归一化卷积层操作可以提取关于面部区域的纹理及边缘结构等有效信息用于后续进一步学习。此处的2层批归一化卷积层输出有较大的特征图尺寸，可以在较大的尺度内获取面部区域图像中的主要信息，同时筛除面部区域图像中非面部的环境信息。

S1023，将面部初始特征图h输入深度可分离卷积层，利用激活函数进行非线性处理获取关键信息的身份特征图

。

其中，将面部初始特征图h输入深度可分离卷积层，利用激活函数进行非线性处理获取关键信息的身份特征图

，可用于提取输入特征图中较为重要的信息。

具体地，设卷积核大小均为3x3，通道数量均为32，则身份特征图

如下式所示：

/>

其中，

为非线性激活函数、/>

和/>

为该深度可分离卷积层的权重参数与偏置项。

S1024，通过深度可分离卷积层的1x1卷积操作对身份特征图

进行特征卷积以获取除关键信息以外的辅助信息特征图/>

：

其中，

为1×1卷积核操作；通过1x1卷积操作对特征图进行特征卷积以获取除关键信息以外的辅助信息特征图/>

，能提高模型的稳健性。

S1025，由深度可分离卷积层通过批归一化卷积操作提取的面部初始特征图，再通过

卷积操作提取特征图中的辅助信息特征图，将这两部分特征通过拼接的方式完成特征融合，输出最终特征图/>

：

其中，

为按通道维度拼接操作；

经过三层深度可分离卷积网络

，/>

，/>

获取面部特征图/>

：/>

。

其中，三层深度可分离卷积具体参数配置如表2所示：

表2

通过批归一化卷积操作提取部分特征，再通过

卷积操作提取特征图中的辅助信息特征，将这两部分特征通过拼接的方式完成了特征融合，能获得更快的模型推理速度。

S103，对所述面部特征图进行分割获得多个的特征子图，并对每个特征子图进行特征展平后通过全连接操作聚合得到局部块特征组。

将面部特征图

：

其中，

操作表示面部特征图/>

按照从左到右、从上到下的顺序分割为

个特征子图，/>

代表面部特征图的分割行数，/>

代表面部特征图的分割列数，

为面部特征图/>

输出的单一特征向量维度；给定可分离卷积层/>

的卷积通道数/>

，flatten表示将特征图保留通道维度展开为/>

的特征组；FC表示通过全连接层将特征组聚合为/>

的特征；/>

为按通道维度拼接操作将/>

个

的特征拼接为/>

的局部块特征组。

在本实施例中，特别的，面部特征图的分割行数和列数可选取为8，面部特征图输出的单一特征向量维度可选256，即将面部特征图

分割为64个特征子图，然而应当理解的是，在本发明的其他实施例中，也可以根据实际的需要来设置分割行数和列数，这些方案均在本发明的保护范围之内。

S104，在所述局部块特征组中嵌入位置编码以获取各局部块特征之间的位置关系，并将所述局部块特征组与位置编码相加后输入多头自注意力模块中获得面部自注意力特征图。

在本实施例中，针对面部动作单元编码，面部的局部特征能够有效凸显动作状态。针对面部局部特征的提取，进一步采用基于多头自注意力机制的方式进行信息提取。所述多头自注意力模块能够用于对面部特征图中相邻的特征通过展平及全连接的操作聚合为同一特征，以此达到减少参数量与提取局部特征之间的平衡。

具体地：

首先，在所述局部块特征组中嵌入位置编码以获取各局部块特征之间的位置关系：

其中

为频率，其值设置为/>

特征的序号，/>

代表第t个位置编码向量。

然后，将局部块特征组

：

。

其中

为标准的多头自注意力模块。多头自注意力模块结构通过矩阵乘法生成的查询向量与键向量之间的向量内积生成注意力分数，以此种方式提取块特征向量之间的关系。同时由于特征图块向量与其余所有特征图块向量之间均进行了上述操作，该方法也能够对全局信息起到较好的提取作用，而其中的位置编码与块特征向量相加后有利于提取块间相对位置关系信息，可以增强模型的拟合能力和对不同任务的适应能力。

在本实施例中，通过上述操作，最终生成自注意力特征图

尺寸为

。

S105，通过变分自编码器解耦表征的方法将所述面部自注意力特征图分解为面部动作单元编码表征与面部姿态编码表征，并将面部动作单元编码表征与面部姿态编码表征进行全连接层线性融合重建为面部表情置信度编码表征。

在本实施例中，由于最终的任务分为面部动作单元编码预测、面部姿态编码预测和面部表情置信度预测。为了获取这些编码信息，本实施例采取解耦表征的方法对预测过程中的任务进行分离。

具体地：

首先，由解耦表征模块以多头自注意力特征图

中的所有单通道/>

作为输入，通过全连接层将任一单通道/>

通过全连接层线性分解方式解耦为面部姿态编码表征/>

与面部动作单元编码表征/>

：

，/>

其中

为特征图/>

其中concat将

拼接为2×d的特征组；对于特征组/>

S106，通过线性分解约束损失、变分自编码器解耦表征约束损失和各自编码损失约束联合学习获得判别性的面部动作单元编码、面部姿态编码和面部表情置信度编码表征值。

S107，根据面部动作单元编码和面部表情置信度编码表征值识别判断与所述人脸图像对应的面部动作单元。

在本实施例中，为使重建后表征在空间中符合预期分布，通过变分自编码器方式设计目标函数最大化面部表情置信度编码表征值，同时最小化真实和估计后验分布的Kullback-Leible散度（KL散度），相应的基于变分自编码器解耦表征损失函数如下式：

其中x为多头自注意力特征图

中的任一向量，/>

为先验概率分布；

为后验概率分布；/>

为极大似然概率分布；z符合正态分布/>

，

和/>

分别为正态分布的均值与标准差，E为期望，/>

为KL散度算子，/>

为超参数。

通过优化该解耦表征损失函数，面部姿态编码表征将作为面部动作单元表征的辅助信息，此种方式更有利于突出面部动作单元编码预测任务的主要性。

通过上述过程，本实施例已经生成了附带大量关键信息的对应不同任务的三种表征，则针对不同任务的输出形式与输出尺寸，有：

一致，生成面部动作单元编码/>

，并设计如下面部动作单元平方差损失函数：

对面部姿态编码表征

尺寸一致，生成面部姿态编码/>

，并设计如下面部姿态平方差损失函数：

其中

为对应的预测概率值。本实施例设定/>

则预测结果为面部存在面部表情单元，否则预测结果为面部不存在面部表情单元，当然，可以理解的是，在本发明的其他实施例中，可以根据实际的需要来设置/>

的阈值，本发明在此不做赘述。

根据线性分解约束损失、变分自编码器解耦表征损失函数、面部动作单元平方差损失函数、面部姿态平方差损失函数和面部表情置信度交叉熵损失函数的联合约束学习可生成如下可分离变分自编码器解耦的联合约束损失函数：

其中

和/>

为平衡参数。

最后，通过联合约束学习获得判别性的面部动作单元编码、面部姿态编码和面部表情置信度编码表征值。

在本实施例中，平衡参数

和/>

选取值分别为0.6和0.1，在获得判别性的面部动作单元编码、面部姿态编码和面部表情置信度编码表征值后，就可以根据其对待识别的人脸图像上的面部动作单元进行识别。而面部姿态编码可以对头部转动等姿态行为进行预测分析，适合头部动作的预测。

更进一步的，本实施例通过可分离组合深度卷积操作有效提取了特征中的辅助信息，并通过深度可分离卷积这一对计算机中央处理器计算要求较低的操作实现基于移动端的实时面部动作单元编码和面部姿态编码预测，从而可在移动端实时检测用户面部动作单元及面部姿态并依此驱动虚拟数字人角色动画以达到表情随动的效果。

为进一步说明本实施例，下面将从以一具体的实验来对本发明的效果进行验证。

本实验采集了50人的人脸表情数据进行测试，包括30名男性测试者与20名女性测试者。受试者通过苹果手机的单目3D深度摄像头采集在观看8 个不同内容影像时自发表现出的不同表情的记录视频，同时利用苹果手机自带的ARkit应用对面部编码并进行人工校准后获取52维面部动作单元维编码，3维面部姿态编码。此外，人脸图像中每个面部动作单元强度进行0到10的11个强度等级打分生成对应的面部动作单元编码，并标注了每张图像各个动作单元的标签状态，激活状态记为 1，非激活状态记为0，样本数量总计6000，实验按照7:2:1的比例划分训练集、验证集和测试集，分别用于模型的训练、验证和测试。

实验中，选取现有最先进方法进行检测效果对比实验，具体为用于面部动作单元检测的深度区域和多标签学习（文献1-Zhao K ,Chu W S,Zhang H . Deep Region andMulti-label Learning for Facial Action UnitDetection[C]// IEEE Conference onComputer Vision and Pattern Recognition(CVPR). 2016，pp.3391-3399），基于自监督学习的面部动作单元识别（文献2- Cheng H, Xie X, Liang S.H., Two-Stage Self-SupervisedLearning for Facial Action Unit Recognition[C]// 4th InternationalConferenceon Image, Video and Signal Processin，2022, pp 80–84），联合面部动作单元检测和面部对齐的深度自适应注意力方法（文献3- Shao, Z., Liu, Z., Cai,J., Ma,L.. Deep Adaptive Attention for Joint Facial Action Unit Detection andFaceAlignment[C]// European Conference on Computer Vision，2018:pp. 725–740），其中参数选择文献中默认参数。为公平比较实验结果，采用相同的训练方法并只比较面部动作单元编码和面部姿态编码测试结果。

评价标准采取方差来衡量算法的稳定性，方差是每个样本值与全体样本值的平均数之差的平方值的平均数，采用平均识别准确率来验证面部动作单元编码的有效性，面部动作单元编码预测正确视为识别准确，反之错误。

相同实验均进行3次，实验测试集面部动作单元编码、姿态编码及面部表情识别准确率如表3所示：

表3

方法	实验次数	平均面部动作单元编码方差	平均面部姿态编码方差	平均面部动作单元识别准确率
					文献1	3	6.1956	0.5956	93.8%
文献2	3	6.0424	0.4762	94.7%
					文献3	3	5.5123	0.4532	95.6%
本实施例	3	4.5526	0.2679	97.4%

实验结果表明，当使用本实施例时，各项指标均优于文献1、2、3中方法获取的结果。其中，平均面部动作单元编码方差和平均面部姿态编码方差均获得较小的方差值，结果表明本实施例能够取得精确稳定的面部动作单元编码和面部姿态编码特征集。同时本实施例在测试集中获得的最高的面部表情单元识别准确率，主要原因在于本本实施例提出的深度可分离卷积提取了特征图中的辅助信息，更好地获取细节特征，加强了神经网络的判别能力。此外，本实施例中的变分自编码器解耦模块通过解耦的方式将面部姿态编码表征这一潜在影响因子与面部动作单元表征分离，减少了表征耦合对面部动作单元特征提取的干扰，同时提出的局部特征编码方式及位置编码特征信息的嵌入加强了对面部动作单元特征编码元素的判别性。从实验结果来看，本实施例的面部动作单元编码方法具备一定的理论意义和实际应用价值，实验验证了本实施例的有效性。

本发明第二实施例还提供了一种可分离变分自编码器解耦的面部动作单元识别设备，其包括存储器以及处理器，所述存储器内存储有计算机程序，所述计算机程序能够被所述处理器执行，以实现如上述的可分离变分自编码器解耦的面部动作单元识别方法。

在本发明实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，电子设备或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。