CN112990077A

CN112990077A - 基于联合学习与光流估计的面部动作单元识别方法及装置

Info

Publication number: CN112990077A
Application number: CN202110360938.4A
Authority: CN
Inventors: 邵志文; 孙莹; 周勇
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2021-06-18
Anticipated expiration: 2041-04-02
Also published as: CN112990077B

Abstract

本发明公开了一种基于联合学习与光流估计的面部动作单元识别方法及装置，先从视频数据中抽取模型训练所需要的原始图像对组成训练数据集，再对原始图像对进行预处理得到扩增图像对，再构建卷积神经网络模块I提取扩增图像对的多尺度区域特征，再构建卷积神经网络模块II提取扩增图像对的静态全局特征，再构建卷积神经网络模块III提取扩增图像对的光流特征，最后构建卷积神经网络模块IV融合静态全局特征和光流特征进行面部动作单元识别。本发明采用端到端的深度学习框架联合学习动作单元识别和光流估计，利用任务间的关联性促进动作单元识别，能够有效识别面部肌肉在二维图像中的运动情况，实现统一的面部动作单元识别系统构建。

Description

基于联合学习与光流估计的面部动作单元识别方法及装置

技术领域

本发明涉及一种基于联合学习与光流估计的面部动作单元识别方法和装置，属于计算机视觉技术。

背景技术

光流估计是计算机视觉中一个基础性的研究任务，它是连接图像与视频的桥梁与纽带。其核心思想是给定前后两帧图像，估计出逐像素的对应关系。这也可以近似理解为3D物体在2D图像平面上的投影运动场。光流法在行为理解、视频处理、运动预测、多视角3D重建、自动驾驶、即时定位与地图构建(SLAM)中均发挥着重要作用。

为了更精细地研究人类面部表情，美国著名情绪心理学家Ekman等于1978年首次提出了面部动作编码系统(Facial Action Coding System，FACS)，又于2002年作了重要改进。面部动作编码系统根据人脸的解剖学特点划分成若干既相互独立又相互联系的面部动作单元(Action Units，AU)，通过这些面部动作单元的动作特征及其所控制的主要区域可以反映出面部表情。

现有的AU识别方法可简单分为传统方法和深度学习方法两大类。传统AU识别方法一般可分为预处理、特征提取和分类器学习3个步骤，其中：预处理主要包括人脸检测、关键点定位、面部配准、尺寸归一化等操作；特征提取即从人脸图像中提取具有较强AU判别性的特征；分类器训练即通过已获得的特征训练分类器识别AU是否出现。

随着计算机技术和信息技术的发展，深度学习技术得到了广泛的应用。在AU识别领域，基于深度学习模型研究AU识别已成为主流。目前，AU识别主要分成了两条研究路线：区域学习与AU关联学习。若不考虑AU之间的关联，一般来说仅有其对应面部肌肉所在的几块稀疏区域对它的识别是有贡献的，其他区域则不需要过多关注，因此找到那些需要关注的区域并加以重点学习才能更好地进行AU识别，专注于这一问题的解决方案一般被称为区域学习(Region Learning，RL)。此外，AU是在面部肌肉解剖学的基础上定义的，描述了一块或几块肌肉的运动，某些肌肉在运动过程中会牵动几个AU同时出现，因此AU之间存在一定程度的相关性，显然，AU之间的关联性信息会有助于模型识别性能的提升，因此如何挖掘AU之间的关联并基于相关性提升AU模型识别性能的解决方案一般被称为AU关联学习。

尽管面部动作单元的自动识别取得了令人印象深刻进展，但目前基于CNN的AU识别方法只能提取图像中的静态特征，不关心时间域上的信息。此外，目前的AU识别研究局限于强度显著的AU，按照FACS的定义，AU的强度由弱到强分为A、B、C、D、E五个级别，目前的AU识别实验中往往使用强度大于B或C的样本作为正样本，其他强度视为负样本，对于弱强度AU的识别研究还不多。由于弱强度AU与微表情紧密关联，面部动作微小且持续时间短，使得其识别准确率还不高，有进一步提升的空间。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种基于联合学习与光流估计的面部动作单元识别方法和装置，通过卷积层自动提取图像中的静态特征，即使在传统模型通用性不好、识别率不高的情况下，本发明也能够展现出更强的稳健性，显著提高了模型的表达能力。此外，本发明能够通过光流法提取动态时序信息，直观地展现面部肌肉在二维图像中的运动过程，有效识别出微小的肌肉运动，能够提高AU识别准确率，利用任务间的关联性促进动作单元识别，构建统一的面部动作单元识别系统。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于联合学习与光流估计的面部动作单元识别方法，包括如下步骤：

S01：从任意视频数据中抽取模型训练所需要的大量原始图像对组成训练数据集，原始图像对包括基准图像和目标图像，目标图像为基准图像之后的第设定帧数图像；针对视频序列，为了避免采集帧速过低使得提取的光流效果较差，或采集帧速过高使得相邻帧的画面难以捕获的情况，我们通常选择的图像以三帧为间隔，即将基准图像后的第三帧图像作为目标图像；

S02：对原始图像对进行预处理，获得扩增图像对；对原始图像进行预处理的方式包括随机平移、随机旋转、随机缩放、随机水平翻转或者随机裁剪等，对图像进行预处理能在一定程度上提高模型的泛化能力；

S03：构建卷积神经网络模块I提取扩增图像对的多尺度区域特征；

S04：利用步骤S03提取的多尺度区域特征，构建卷积神经网络模块II提取扩增图像对的静态全局特征；

S05：采用光流法获取扩增图像对的帧间光流并计算面部图像的光流矢量，将光流矢量作为扩增图像对的光流标签；

S06：利用步骤S03提取的多尺度区域特征和步骤S05获取的光流标签，构建卷积神经网络模块III提取扩增图像对的光流特征，并进行光流估计，光流特征为动态时序特征；

S07：构建卷积神经网络模块IV对步骤S04提取的静态全局特征和步骤S06提取的光流特征进行融合，实现面部动作单元的识别；

S08：使用训练数据集对整个卷积神经网络模型进行训练，以基于梯度的优化方法对各个卷积神经网络模块的参数进行更新；

S09：将给定的图像对输入到训练完成的卷积神经网络模型中，得到面部动作单元的预测结果；在进行预测时直接输出面部动作单元的预测结果，无需再利用步骤S05生成光流标签了。

具体的，所述步骤S03中，由于不同局部块的面部动作单元有不同的面部结构和纹理信息，因而需要对每个局部块进行独立的滤波处理，且不同局部块使用不同的滤波权值；为了获得多尺度区域特征，采用卷积神经网络模块I来学习不同尺度下每个局部块的特征，卷积神经网络模块I包括两层分层多尺度区域层，卷积神经网络模块I的输入作为第一层分层多尺度区域层的输入，第一层分层多尺度区域层的输出经过最大池化运算后作为第二层分层多尺度区域层的输入，第二层分层多尺度区域层的输出经过最大池化运算后作为卷积神经网络模块I的输出；将扩增图像对的两张图像进行通道级串联，作为卷积神经网络模块I的输入，卷积神经网络模块I的输出即为扩增图像对的多尺度区域特征；

每层分层多尺度区域层包括卷积层I-I、卷积层I-II-I、卷积层I-II-II和卷积层I-II-III，在卷积层I-I内，对输入整体进行一次卷积，将卷积结果作为卷积层I-I的输出；将卷积层I-I的输出作为卷积层I-II-I的输入，在卷积层I-II-I内，先将输入均匀划分为8×8尺度的局部块分别进行卷积，再对所有卷积结果进行拼接形成卷积层I-II-I的输出；将卷积层I-II-I的输出作为卷积层I-II-II的输入，在卷积层I-II-II内，先将输入均匀划分为4×4尺度的局部块分别进行卷积，再对所有卷积结果进行拼接形成卷积层I-II-II的输出；将卷积层I-II-II的输出作为卷积层I-II-III的输入，在卷积层I-II-III内，先将输入均匀划分为2×2尺度的局部块分别进行卷积，再对所有卷积结果进行拼接形成卷积层I-II-III的输出；对卷积层I-II-I、卷积层I-II-II和卷积层I-II-III的输出进行通道级串联后(通道级串联后输出的通道数与卷积层I-I输出的通道数相同)与卷积层I-I的输出进行加和，结果作为分层多尺度区域层的输出。

具体的，所述步骤S05中，光流法为Gunnar Farneback光流算法，GunnarFarneback光流算法是一种基于空间梯度的两帧估量算法，采用两帧图像来估计物体的光流矢量；包括如下步骤：

(51)通过图像建模、求解空间转换、权重分配和对偶转换得到单张图像中每个像素点的系数向量r；

(511)图像建模：将图像视为二维信号空间的函数，因变量是像素点在二维信号空间的坐标位置X＝(xy)^T，利用二次多项式对图像进行近似建模：

f(x)～X^TAX+b^TX+c

其中：A是一个2×2的对称矩阵，

b是一个2×1的矩阵向量，

c为标量，c＝r₁；系数化后将X^TAX+b^TX+c表示为：

(512)求解空间转换：将图像从二维信号空间转换到以(1,x,y,x²,y²,xy)作为基函数的空间，带入各像素点的坐标位置求解各像素点的灰度值；

Farneback算法对每帧图像中的每个像素点周围设定邻域(2n+1)×(2n+1)，在邻域内灰度值的(2n+1)×(2n+1)矩阵中，将矩阵按列优先次序拆分组成(2n+1)²×1的向量f，同时已知以(1,x,y,x²,y²,xy)作为基函数的转换矩阵B的维度为(2n+1)²×6，邻域内共有的系数向量r的维度为6×1，则有：

f＝B×r＝(b₁ b₂ b₃ b₄ b₅ b₆)×r

(513)权重分配：利用二维高斯分布将邻域内各像素点样本误差对中心点的影响力赋予权重，在任一邻域内二维高斯分布的(2n+1)×(2n+1)矩阵中，将矩阵按列优先次序拆分组合成(2n+1)²×1的向量a，则转换矩阵B变化为：

B＝(a·b₁ a·b₂ a·b₃ a·b₄ a·b₅ a·b₆)

(514)对偶转换：使用的对偶转换矩阵为：

对偶转换后，得到系数向量r为：

其中：·₁☆·₂表示·₁和·₂互相关；

(52)通过系数向量r计算中间变量；因为每个像素点都有着初始位移，将上一帧图像的初始位移增加到基准图像上的像素点X上，得到此像素点在目标图像上的大致位置

为初始位移场(最初设置为0)：

由此得到用于计算的中间变量A(X)和Δb(X)：

其中：A₁(X)和b₁(X)为基准图像在X处的展开系数，

和

为目标图像在

处的展开系数；

如果涉及到尺度变换，还会涉及尺度缩放矩阵S(X)，以提高算法的鲁棒性；由此得到中间变量G(X)和h(X)：

G(X)＝S(X)^TA(X)^TA(X)S(X)

h(X)＝S(X)^TA(X)^TΔb(X)

(53)对模糊后的中间变量，直接求解光流场：

d_out(X)＝G_avg(X)^-1h_avg(X)

其中：G_avg(X)和h_avg(X)为中间变量G(X)和h(X)进行局部模糊化处理后的变量，模糊化处理可选择均值模糊或者高斯模糊，使之满足光流的基本假设(光流的变化(向量场)几乎是光滑的)，d_out(X)为最终求解的光流场。

具体的，所述步骤S06中，在光流估计的有监督学习过程中提取包含动态时序信息的光流特征，并按照如下损失函数进行光流估计：

其中：E_mse表示光流估计的均方差损失函数；y表示基准图像与目标图像之间的真值光流矢量，即通过步骤S05计算获取到的光流矢量；

表示基准图像与目标图像之间的预测光流矢量，即通过卷积神经网络模块III提取到的光流特征。

具体的，所述步骤S07中，先对静态全局特征和光流特征进行通道级串联，再使用卷积神经网络模块IV对扩增图像对中每张图像的面部动作单元进行识别，采用的损失函数为：

E_{all_au}＝E_cross+E_dice

其中：E_cross表示面部动作单元识别的交叉熵损失函数，E_dice表示面部动作单元识别的Dice系数损失函数，E_{all_au}表示面部动作单元识别的总体损失函数；n_au为面部动作单元的数量；ω_i为第i个面部动作单元的权重，

ω_i是多标签学习任务下权值，用于改善数据的不平衡问题；r_i为训练数据集中第i个面部动作单元的出现率，取值范围为{0,1}；p_i为当前图像第i个面部动作单元出现的真值概率，取值范围为{0,1}；

为当前图像第i个面部动作单元出现的预测概率，通过卷积神经网络模块IV预测输出；ε为平滑系数。

具体的，所述步骤S08中，通过端到端的方法训练整个卷积神经网络模型，每次训练均包含面部动作单元识别和光流估计两个任务，提取静态全局特征和光流特征，在联合学习的框架中利用两个任务之间的关联性促进面部动作单元的识别。

一种用于实现上述任一基于联合学习与光流估计的面部动作单元识别方法的装置，包括图像获取单元、分层多尺度区域学习单元、全局特征学习单元、光流估计单元、AU识别单元和参数优化单元；

所述图像获取单元，用于从任意视频数据中抽取模型训练所需要的大量原始图像对组成训练数据集，并对原始图像对进行预处理，获得扩增图像对；

所述分层多尺度区域学习单元，包括卷积神经网络模块I，采用分层多尺度区域层来学习每张输入图像不同尺度下每个局部块的特征，并对每个局部块进行独立滤波；

所述全局特征学习单元，包括卷积神经网络模块II，用于获取输入图像的静态全局特征，静态全局特征包括输入图像的全局面部结构和纹理信息，将静态全局特征作为静态空间特征；

所述光流估计单元，包括卷积神经网络模块III，对输入图像对进行光流估计，提取输入图像对的光流特征，将光流特征作为动态时序特征；

所述AU识别单元，包括卷积神经网络模块IV，对静态空间特征和动态时序特征进行融合，共同指导图像对面部动作单元的识别；

所述参数优化单元，计算集对整个卷积神经网络模型中各个卷积神经网络模块的参数和总体损失函数值，并以基于梯度的优化方法对参数进行更新。

有益效果：本发明提供的基于联合学习与光流估计的面部动作单元识别方法和装置，通过卷积层自动提取图像中的静态特征，相对于传统模型通用性不好、识别率不高的问题，本发明展现出了更强的稳健性，显著提高了模型的表达能力；此外，本发明能够通过光流法提取动态时序信息，直观地展现面部肌肉在二维图像中的运动过程，有效识别出微小的肌肉运动，能够提高AU识别准确率，利用任务间的关联性促进动作单元识别，构建统一的面部动作单元识别系统。

附图说明

图1为本发明方法的实施流程示意图；

图2为Gunnar Farneback光流算法计算光流场的流程示意图；

图3为分层多尺度区域层的结构示意图；

图4为卷积神经网络模块II的结构示意图；

图5为卷积神经网络模块III的结构示意图；

图6为卷积神经网络模块IV的结构示意图；

图7为整个卷积神经网络模型的结构示意图。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

如图1所示为一种基于联合学习与光流估计的面部动作单元识别方法的流程示意图，该方法包括如下步骤：

S01：从任意视频数据中抽取模型训练所需要的大量原始图像对组成训练数据集，原始图像对包括基准图像和目标图像，目标图像为基准图像之后的第三帧数图像。

针对视频序列，为了避免采集帧速过低使得提取的光流效果较差，或采集帧速过高使得相邻帧的画面难以捕获的情况，我们通常选择的图像以三帧为间隔，即将基准图像后的第三帧图像作为目标图像。

S02：对原始图像对进行预处理，获得扩增图像对。

对原始图像进行预处理的方式包括随机平移、随机旋转、随机缩放、随机水平翻转或者随机裁剪等，对图像进行预处理能在一定程度上提高模型的泛化能力；

S03：构建卷积神经网络模块I提取扩增图像对的多尺度区域特征。

由于不同局部块的面部动作单元有不同的面部结构和纹理信息，因而需要对每个局部块进行独立的滤波处理，且不同局部块使用不同的滤波权值。

如图3所示，每层分层多尺度区域层包括卷积层I-I、卷积层I-II-I、卷积层I-II-II和卷积层I-II-III，在卷积层I-I内，对输入整体进行一次卷积，将卷积结果作为卷积层I-I的输出；将卷积层I-I的输出作为卷积层I-II-I的输入，在卷积层I-II-I内，先将输入均匀划分为8×8尺度的局部块分别进行卷积，再对所有卷积结果进行拼接形成卷积层I-II-I的输出；将卷积层I-II-I的输出作为卷积层I-II-II的输入，在卷积层I-II-II内，先将输入均匀划分为4×4尺度的局部块分别进行卷积，再对所有卷积结果进行拼接形成卷积层I-II-II的输出；将卷积层I-II-II的输出作为卷积层I-II-III的输入，在卷积层I-II-III内，先将输入均匀划分为2×2尺度的局部块分别进行卷积，再对所有卷积结果进行拼接形成卷积层I-II-III的输出；对卷积层I-II-I、卷积层I-II-II和卷积层I-II-III的输出进行通道级串联后(通道级串联后输出的通道数与卷积层I-I输出的通道数相同)与卷积层I-I的输出进行加和，结果作为分层多尺度区域层的输出。

卷积神经网络模块I中每层分层多尺度区域层后均有一层最大池化层，每层最大池化层的池化核大小为2×2，步长为2；第一层分层多尺度区域层中卷积层I-I、卷积层I-II-I、卷积层I-II-II和卷积层I-II-III的通道数分别为32、16、8、8，第一层分层多尺度区域层中卷积层I-I、卷积层I-II-I、卷积层I-II-II和卷积层I-II-III的滤波器个数分别为32×1、16×8×8、8×4×4、8×2×2；第二层分层多尺度区域层中卷积层I-I、卷积层I-II-I、卷积层I-II-II和卷积层I-II-III的通道数分别为64、32、16、16，第二层分层多尺度区域层中卷积层I-I、卷积层I-II-I、卷积层I-II-II和卷积层I-II-III的滤波器个数分别为64×1、32×8×8、16×4×4、16×2×2；卷积层中的滤波器大小均为3×3，步长均为1。

S04：利用步骤S03提取的多尺度区域特征，构建卷积神经网络模块II提取扩增图像对的静态全局特征。

如图4所示，卷积神经网络模块II是一个包含六层卷积层的卷积神经网络，每连续的两层卷积后均有一层最大池化层，每层最大池化层的池化核大小为2×2，步长为2；六层卷积层中每两层卷积层所对应的滤波器个数相同，第一层和第二层卷积层所对应的滤波器个数为96，第三层和第四层卷积层所对应的滤波器个数为128，第五层和第六层卷积层所对应的滤波器个数为160，且滤波器大小均为3×3，步长均为1。第三个最大池化层的输出为静态全局特征。

S05：采用光流法获取扩增图像对的帧间光流并计算面部图像的光流矢量，将光流矢量作为扩增图像对的光流标签。

所述光流法为Gunnar Farneback光流算法，Gunnar Farneback光流算法是一种基于空间梯度的两帧估量算法，采用两帧图像来估计物体的光流矢量；如图2所示，GunnarFarneback光流算法包括如下步骤：

f(x)～X^TAX+b^TX+c

其中：A是一个2×2的对称矩阵，

b是一个2×1的矩阵向量，

c为标量，c＝r₁；系数化后将X^TAX+b^TX+c表示为：

f＝B×r＝(b₁ b₂ b₃ b₄ b₅ b₆)×r

B＝(a·b₁ a·b₂ a·b₃ a·b₄ a·b₅ a·b₆)

(514)对偶转换：使用的对偶转换矩阵为：

对偶转换后，得到系数向量r为：

其中：·₁☆·₂表示·₁和·₂互相关；

为初始位移场(最初设置为0)：

由此得到用于计算的中间变量A(X)和Δb(X)：

其中：A₁(X)和b₁(X)为基准图像在X处的展开系数，

和

为目标图像在

处的展开系数；

G(X)＝S(X)^TA(X)^TA(X)S(X)

h(X)＝S(X)^TA(X)^TΔb(X)

(53)对模糊后的中间变量，直接求解光流场：

d_out(X)＝G_avg(X)^-1h_avg(X)

S06：利用步骤S03提取的多尺度区域特征和步骤S05获取的光流标签，构建卷积神经网络模块III提取扩增图像对的光流特征，并进行光流估计，光流特征为动态时序特征。

如图5所示，卷积神经网络模块III是一个包含六层卷积层以及两个全连接层的卷积神经网络，每连续的两层卷积后均有一层最大池化层，每层最大池化层的池化核大小为2×2，步长为2；六层卷积层中每两层卷积层所对应的滤波器个数相同，第一层和第二层卷积层所对应的滤波器个数为96，第三层和第四层卷积层所对应的滤波器个数为128，第五层和第六层卷积层所对应的滤波器个数为160，且滤波器大小均为3×3，步长为1。第三个最大池化层的输出为光流特征，其后跟着两个全连接层，其中最后一个全连接层输出光流矢量。

在光流估计的有监督学习过程中提取包含动态时序信息的光流特征，并按照如下损失函数进行光流估计：

S07：构建卷积神经网络模块IV对步骤S04提取的静态全局特征和步骤S06提取的光流特征进行融合，实现面部动作单元的识别。

先对静态全局特征和光流特征进行通道级串联，再使用卷积神经网络模块IV对扩增图像对中每张图像的面部动作单元进行识别。如图6所示，卷积神经网络模块IV是一个包含四层卷积层以及两个全连接层的卷积神经网络，每连续的两层卷积后均有一层最大池化层，每层最大池化层的池化核大小为2×2，步长为2；四层卷积层中每两层卷积层所对应的滤波器个数相同，第一层和第二层卷积层所对应的滤波器个数为192，第三层和第四层卷积层所对应的滤波器个数为224，且滤波器的大小均为3×3，步长均为1。在第二个最大池化层后跟着两个全连接层，其中最后一个全连接层输出n_au个面部动作单元出现的预测概率。

动作单元识别采用的损失函数为：

E_{all_au}＝E_cross+E_dice

其中：E_cross表示面部动作单元识别的交叉熵损失函数，E_dice表示面部动作单元识别的Dice系数损失函数，E_{all_au}表示面部动作单元识别的总体损失函数；ω_i为第i个面部动作单元的权重，

S08：使用训练数据集对整个卷积神经网络模型进行训练，以基于梯度的优化方法对各个卷积神经网络模块的参数进行更新。

通过端到端的方法训练整个卷积神经网络模型(如图7所示)，每次训练均包含面部动作单元识别和光流估计两个任务，提取静态全局特征和光流特征，在联合学习的框架中利用两个任务之间的关联性促进面部动作单元的识别。

S09：将给定的图像对输入到训练完成的卷积神经网络模型中，得到面部动作单元的预测结果。

在进行预测时直接输出面部动作单元的预测结果，无需再利用步骤S05生成光流标签了。

本发明方法可以完全通过计算机实现，无需人工辅助处理；这表明，本案可以实现批量化自动处理，能够大大提高处理效率、降低人工成本。

一种用于实现上述方法的装置，包括图像获取单元、分层多尺度区域学习单元、全局特征学习单元、光流估计单元、AU识别单元和参数优化单元；所述图像获取单元，用于从任意视频数据中抽取模型训练所需要的大量原始图像对组成训练数据集，并对原始图像对进行预处理，获得扩增图像对；所述分层多尺度区域学习单元，包括卷积神经网络模块I，采用分层多尺度区域层来学习每张输入图像不同尺度下每个局部块的特征，并对每个局部块进行独立滤波；所述全局特征学习单元，包括卷积神经网络模块II，用于获取输入图像的静态全局特征，静态全局特征包括输入图像的全局面部结构和纹理信息，将静态全局特征作为静态空间特征；所述光流估计单元，包括卷积神经网络模块III，对输入图像对进行光流估计，提取输入图像对的光流特征，将光流特征作为动态时序特征；所述AU识别单元，包括卷积神经网络模块IV，对静态空间特征和动态时序特征进行融合，共同指导图像对面部动作单元的识别；所述参数优化单元，计算集对整个卷积神经网络模型中各个卷积神经网络模块的参数和总体损失函数值，并以基于梯度的优化方法对参数进行更新。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于联合学习与光流估计的面部动作单元识别方法，其特征在于：包括如下步骤：

S01：从视频数据中抽取模型训练所需要的原始图像对组成训练数据集，原始图像对包括基准图像和目标图像，目标图像为基准图像之后的第设定帧数图像；

S02：对原始图像对进行预处理，获得扩增图像对；

2.根据权利要求1所述的基于联合学习与光流估计的面部动作单元识别方法，其特征在于：所述步骤S03中，采用卷积神经网络模块I来学习不同尺度下每个局部块的特征，卷积神经网络模块I包括两层分层多尺度区域层，卷积神经网络模块I的输入作为第一层分层多尺度区域层的输入，第一层分层多尺度区域层的输出经过最大池化运算后作为第二层分层多尺度区域层的输入，第二层分层多尺度区域层的输出经过最大池化运算后作为卷积神经网络模块I的输出；将扩增图像对的两张图像进行通道级串联，作为卷积神经网络模块I的输入，卷积神经网络模块I的输出即为扩增图像对的多尺度区域特征；

每层分层多尺度区域层包括卷积层I-I、卷积层I-II-I、卷积层I-II-II和卷积层I-II-III，在卷积层I-I内，对输入整体进行一次卷积，将卷积结果作为卷积层I-I的输出；将卷积层I-I的输出作为卷积层I-II-I的输入，在卷积层I-II-I内，先将输入均匀划分为8×8尺度的局部块分别进行卷积，再对所有卷积结果进行拼接形成卷积层I-II-I的输出；将卷积层I-II-I的输出作为卷积层I-II-II的输入，在卷积层I-II-II内，先将输入均匀划分为4×4尺度的局部块分别进行卷积，再对所有卷积结果进行拼接形成卷积层I-II-II的输出；将卷积层I-II-II的输出作为卷积层I-II-III的输入，在卷积层I-II-III内，先将输入均匀划分为2×2尺度的局部块分别进行卷积，再对所有卷积结果进行拼接形成卷积层I-II-III的输出；对卷积层I-II-I、卷积层I-II-II和卷积层I-II-III的输出进行通道级串联后与卷积层I-I的输出进行加和，结果作为分层多尺度区域层的输出。

3.根据权利要求1所述的基于联合学习与光流估计的面部动作单元识别方法，其特征在于：所述步骤S05中，光流法为Gunnar Farneback光流算法，Gunnar Farneback光流算法是一种基于空间梯度的两帧估量算法，采用两帧图像来估计物体的光流矢量。

4.根据权利要求1所述的基于联合学习与光流估计的面部动作单元识别方法，其特征在于：所述步骤S06中，在光流估计的有监督学习过程中提取包含动态时序信息的光流特征，并按照如下损失函数进行光流估计：

5.根据权利要求1所述的基于联合学习与光流估计的面部动作单元识别方法，其特征在于：所述步骤S07中，先对静态全局特征和光流特征进行通道级串联，再使用卷积神经网络模块IV对扩增图像对中每张图像的面部动作单元进行识别，采用的损失函数为：

E_{all_au}＝E_cross+E_dice

r_i为训练数据集中第i个面部动作单元的出现率，取值范围为{0,1}；p_i为当前图像第i个面部动作单元出现的真值概率，取值范围为{0,1}；

6.根据权利要求1所述的基于联合学习与光流估计的面部动作单元识别方法，其特征在于：所述步骤S08中，通过端到端的方法训练整个卷积神经网络模型，每次训练均包含面部动作单元识别和光流估计两个任务，提取静态全局特征和光流特征，在联合学习的框架中利用两个任务之间的关联性促进面部动作单元的识别。

7.一种用于实现权1～6所述的任一基于联合学习与光流估计的面部动作单元识别方法的装置，其特征在于：包括图像获取单元、分层多尺度区域学习单元、全局特征学习单元、光流估计单元、AU识别单元和参数优化单元；

所述图像获取单元，用于从视频数据中抽取模型训练所需要的原始图像对组成训练数据集，并对原始图像对进行预处理，获得扩增图像对；