CN113780099A

CN113780099A - 一种基于对抗学习的半监督面部运动单元检测方法和系统

Info

Publication number: CN113780099A
Application number: CN202110947948.8A
Authority: CN
Inventors: 喻莉; 杜聪炬
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2021-12-10
Anticipated expiration: 2041-08-18
Also published as: CN113780099B

Abstract

本发明公开了一种基于对抗学习的半监督面部运动单元检测方法和系统，充分运用光流可以有效地捕捉到微弱的运动位移，即可以捕捉到由面部表情引起的AUs变化的特点，构建基于光流融合的生成对抗网络模型用于实现对面部运动单元的精确检测；并且考虑到顶点帧的选取存在一定难度，将顶点帧及其附近的帧设置为顶点阶段，在顶点阶段内随机选择第一目标帧和第二目标帧，并将第一目标帧、源帧的光流矢量与源帧相结合得到运动图像作为生成器的输入，以第二目标帧作为标签对生成器进行训练，从而增强模型的鲁棒性，进一步提高检测效果。

Description

一种基于对抗学习的半监督面部运动单元检测方法和系统

技术领域

本发明属于图像识别领域，更具体地，涉及一种基于对抗学习的半监督面部运动单元检测方法和系统。

背景技术

在实时视频中，人脸表情往往与头部姿态同时发生，面部运动单元(ActionUnits，AUs)是人脸表情检测的关键因素，现有的面部运动单元检测方法的检测精度有待提高。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种面部运动单元检测方法和系统，由此解决现有的检测方法精度不高的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于对抗学习的半监督面部运动单元检测方法，包括：

S1，从训练视频中随机选取源帧、第一目标帧和第二目标帧，将源帧和第一目标帧的光流向量与源帧结合得到运动图像，输入生成对抗网络模型；

S2，所述生成对抗网络模型的生成器对所述运动图像进行编解码得到合成图像并输入判别器，以合成图像与所述第二目标帧相似度最高为目标，训练所述生成器；

S3，采用训练后的生成对抗网络模型对待测视频进行面部运动单元检测。

优选地，所述生成对抗网络模型的生成器对所述运动图像进行编解码得到合成图像，具体为：

分别对所述源帧及第一目标帧的光流向量进行编码，得到源帧编码和表征面部表情运动变化量的光流向量编码；

对所述源帧编码和所述光流向量编码进行融合解码，得到合成图像。

优选地，从训练视频的起点阶段随机选取源帧，从训练视频顶点阶段随机选取第一目标帧和第二目标帧。

优选地，以起点阶段第一帧至顶点阶段第一帧为第一窗口W1，以起点阶段最后一帧至顶点阶段最后一帧为第二窗口W2，按照预设距离相向滑动W1和W2；

所述第一目标帧、第二目标帧分别为滑动后的W1、W2一端的端点；

所述源帧为滑动后的W1、W2的另一端的端点之一。

优选地，所述预设距离为L，其中，L=[0，min(l_o，l_a)]， l_o为所述起点阶段的长度为，l_a为所述顶点阶段的长度。

优选地，所述训练中损失函数为：

其中

为生成器对应的损失函数，

为待测面部表情视频的数据分布，

为第二目标帧的AU标签，

为判别器，

，

个元素的实数集，

是面部运动单元的类别，

为混合编码，即源帧编码和光流向量编码的混合内嵌码。

按照本发明的另一方面，提供了一种基于对抗学习的半监督面部运动单元检测系统，包括：

随机选择模块，从训练视频中随机选取源帧、第一目标帧和第二目标帧，将源帧和第一目标帧的光流向量与源帧结合得到运动图像，输入生成对抗网络模型；

训练模块，所述生成对抗网络模型的生成器对所述运动图像进行编解码得到合成图像并输入判别器，以合成图像与所述第二目标帧相似度最高为目标，训练所述生成器；

处理模块，采用训练后的生成对抗网络模型对待测视频进行面部运动单元检测。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

1、本发明提供的基于对抗学习的半监督面部运动单元检测方法和系统，充分运用光流可以有效地捕捉到微弱的运动位移，即可以捕捉到由面部表情引起的AUs变化的特点，构建基于光流融合的生成对抗网络模型用于实现对面部运动单元的精确检测；并且考虑到顶点帧的选取存在一定难度，将顶点帧及其附近的帧设置为顶点阶段，在顶点阶段内随机选择第一目标帧和第二目标帧，并将第一目标帧、源帧的光流矢量与源帧相结合得到运动图像作为生成器的输入，以第二目标帧作为标签对生成器进行训练，从而增强模型的鲁棒性，进一步提高检测效果。

2、本发明提供的基于对抗学习的半监督面部运动单元检测方法和系统，构建基于光流融合的生成对抗网络模型时，考虑到光流可能同时产生大量的噪声，例如头部姿态变化信息，这些噪声将对面部表情的检测造成影响；对此，在生成器对源帧和光流矢量进行编码时，将头部姿态变化信息这一影响因素剔除，仅提取了光流矢量中面部表情的变化情况，从而在编解码器中进行了去噪，编码时仅采用表情的变化量，并通过解码进行进一步放大，在解码还原过程中生成合成图像，最后由判别器根据AUs标签对合成图像进行分类，得到检测结果，实现对面部运动单元的精确检测。

3、本发明提供的基于对抗学习的半监督面部运动单元检测方法和系统，构建的基于光流融合的生成对抗网络模型，遵循对抗学习的原理，学习具有强鉴别能力和鲁棒性的人脸动作特征，能够从人脸视频中分离出表情变化和头部姿态变化，从而实现对AUs的检测。

附图说明

图1为本发明提供的基于对抗学习的半监督面部运动单元检测方法的流程示意图之一；

图2为本发明提供的基于对抗学习的半监督面部运动单元检测方法的流程示意图之二；

图3为本发明提供的随机选择结果示意图；

图4为本发明提供的基于对抗学习的半监督面部运动单元检测方法与现有的检测方法所用信息对比示意图；

图5为本发明提供的基于对抗学习的半监督面部运动单元检测方法与现有的检测方法的仿真结果对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明实施例提供一种基于对抗学习的半监督面部运动单元检测方法，如图1所示，包括：

S1，从训练视频中随机选取源帧、第一目标帧和第二目标帧，将源帧和第一目标帧的光流向量与所述源帧结合得到运动图像，输入生成对抗网络模型。

具体地，从进行模型训练的面部表情视频的起点阶段随机采样源帧source、第一目标帧target（s）和第二目标帧target（e）；同时对源帧和第一目标帧进行光流处理，分别获取所述源帧和第一目标帧的光流向量，将所述光流向量与源帧结合得到运动图像，输入生成对抗网络模型的生成器中。

第一目标帧的光流矢量混合了头部姿态的刚性运动信息和面部表情变化的局部运动信息，通过将所述光流矢量与源帧结合，能够弱化头部姿态的变化，强化面部表情局部运动的变化。

如图2所示，所述生成对抗网络模型包括生成器和判别器。

S2，所述生成对抗网络模型的生成器对所述运动图像进行编解码得到合成图像并输入判别器，以合成图像与所述第二目标帧相似度最高为目标，训练所述生成器。

具体地，所述生成器是以合成图像为样本，以第二目标帧为标签进行监督训练得到的。

进一步地，从训练视频的起点阶段随机选取源帧，从训练视频顶点阶段随机选取第一目标帧和第二目标帧。

进一步地，以起点阶段第一帧至顶点阶段第一帧为第一窗口W1，以起点阶段最后一帧至顶点阶段最后一帧为第二窗口W2，按照预设距离相向滑动W1和W2；

所述源帧为滑动后的W1、W2的另一端的端点之一。

进一步地，所述预设距离为L，其中，L=[0，min(l_o，l_a)]， l_o为所述起点阶段的长度为，l_a为所述顶点阶段的长度。

具体地，为了增强OFS-GAN的鲁棒性和提高模型泛化能力，从起点阶段的候选帧中随机选取1帧作为源帧，从顶点阶段的候选帧中随机选取2帧分别第一目标帧和第二目标帧，随机选择的结果如图3所示，其中，左侧图像被选择的源帧，中间图像为第一目标帧，右侧人脸为第二目标帧。

以起点阶段第一帧至顶点阶段第一帧为第一窗口W1，以起点阶段最后一帧至顶点阶段最后一帧为第二窗口W2；起点阶段的长度为l_o，顶点阶段的长度为l_a。

按照预设距离L向右滑动W1，向左滑动W2。滑动完成后，两个窗口的两个端点就是随机选择的帧对，其中，两个窗口的一端对应两个源帧候选帧，另一端对应的两个目标帧则分别为第一目标帧和第二目标帧；从两个源帧候选帧中随机选择一个作为源帧。

通过训练生成器，不断提升内嵌编码的表征能力，内嵌编码通过判别器完成表情和AU的多标签分类任务。

进一步地，所述生成对抗网络模型的生成器对所述运动图像进行编解码得到合成图像，具体为：

具体地，所述生成器编码生成特征映射，再解码生成合成图像，所述合成图像包含了虚假的真实人脸表情；将合成图像与随机选择的第二目标帧进行对比，用于训练生成器。对源帧和第一目标帧、第二目标帧的随机选择算法，提高了模型的鲁棒性，增强了模型的泛化能力，有助于得到发生器变化的面部表情分布。

同时，将假真实感表情编码输入到判别器中，判别器对编码合成的表情进行分类，并根据AUs标签进行分类。最后，通过对OFS-GAN进行迭代训练，得到只关注面部表情随AUs变化而忽略其他面部属性的模型。

OFS-GAN（Optical Flow Synthesis-Generative Adversarial Networks，光流合成生成对抗式网络）基于GAN的原理，包括生成器和判别器。为了通过最小化二人博弈得到鲁棒模型，模型可在目标函数中定义为:

其中，

是数据分布的样本，x是结合源帧和光学流矢量及噪声解码的样本，S是源帧的编码，O是的光流矢量的编码。

OFS-GAN中的生成器决定了框架的效果，判别器利用编码器的特征获取模型。给定一个输入元组

，其中

是第二目标帧的one-hot编码标签，

是源帧的输入，

是光流向量，将

分别输入到人脸编码器和表情编码器，以获得相应的图像表示。将

表示为源帧编码器，

表示为光流编码器。因此，

两个输入的编码表示可以表示为:

其中，

为源帧特征，

为光流向量特征。

然后，通过嵌入模块将这两种表示进行融合:

其中，

为融合特征，Emb(x)为嵌入模块，con(x;y)为通道级联操作。

我们利用光流向量在图像生成中的小的变化作为模型的噪声随机量，

在特征融合过程中没有额外引入噪声向量，因为光流向量在生成的图像中有一些小的变化，例如，不同的角度，使模型在训练时更健壮。

位于一个隐藏空间中，它对输入的源帧和光流向量的高级语义进行编码。

因此，通过基于

的解码器生成合成图像，其表达式为:

其中，

表示判别器，G(x)表示整体生成器。理想情况下，

为生成的目标帧，良好情况下应该与第一目标帧和第二目标帧保持相同的面部表情(即AUs)。

通过生成器和判别器的对抗训练，生成器合成出符合AUs数据集数据分布的图像，即生成与目标帧一致的面部表情。因此，损失函数可以表示为:

其中，

为AUs判别器对应的损失函数。

为表情变化视频的数据分布，

为第二目标帧的AUs分类标签，

为判别器，

，

个元素的实数集，

是面部运动单元的类别，

为混合编码，即源帧编码和光流向量编码的混合内嵌码。

将本发明提出的方法与多种现有的检测方法基于DAFSA+和CK+融合数据集进行仿真，各检测方法所采用的信息如图4所示，图4中，RGB表示使用 RGB 信息，OF表示使用光流信息，GAN: 表示基于GAN的模型，VIDEO表示需要视频的上下文信息；上述各方法的仿真结果评分如图5所示，可见本发明提出的方法与其他方法相比，评分最高，为59.43。由此可见，本发明提出的方法具有较好的检测性能。

下面对本发明提供的基于对抗学习的半监督面部运动单元检测系统进行描述，下文描述的基于对抗学习的半监督面部运动单元检测系统与上文描述的基于对抗学习的半监督面部运动单元检测方法可相互对应参照。

本发明实施例提供一种基于对抗学习的半监督面部运动单元检测系统，包括：

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于对抗学习的半监督面部运动单元检测方法，其特征在于，包括：

2.如权利要求1所述的基于对抗学习的半监督面部运动单元检测方法，其特征在于，所述生成对抗网络模型的生成器对所述运动图像进行编解码得到合成图像，具体为：

3.如权利要求1或2所述的基于对抗学习的半监督面部运动单元检测方法，其特征在于，从训练视频的起点阶段随机选取源帧，从训练视频顶点阶段随机选取第一目标帧和第二目标帧。

4.如权利要求3所述的基于对抗学习的半监督面部运动单元检测方法，其特征在于，以起点阶段第一帧至顶点阶段第一帧为第一窗口W1，以起点阶段最后一帧至顶点阶段最后一帧为第二窗口W2，按照预设距离相向滑动W1和W2；

所述源帧为滑动后的W1、W2的另一端的端点之一。

5.如权利要求4所述的基于对抗学习的半监督面部运动单元检测方法，其特征在于，所述预设距离为L，其中，L=[0，min(l_o，l_a)]， l_o为所述起点阶段的长度，l_a为所述顶点阶段的长度。

6.如权利要求1所述的基于对抗学习的半监督面部运动单元检测方法，其特征在于，所述训练中损失函数为：

其中

为生成器对应的损失函数，

为待测面部表情视频的数据分布，

为第二目标帧的AU标签，

为判别器，

，

个元素的实数集，

是面部运动单元的类别，

为混合编码，即源帧编码和光流向量编码的混合内嵌码。

7.一种基于对抗学习的半监督面部运动单元检测系统，其特征在于，包括：