CN113392822A

CN113392822A - 基于特征分离表征学习的面部运动单元检测方法及系统

Info

Publication number: CN113392822A
Application number: CN202110949117.4A
Authority: CN
Inventors: 喻莉; 杜聪炬
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2021-09-14
Anticipated expiration: 2041-08-18
Also published as: CN113392822B

Abstract

本发明公开了一种基于特征分离表征学习的面部运动单元检测方法及系统，属于图像处理领域，方法包括：从训练视频中选取三帧包含人脸的图像并输入至特征分离编码器，得到与各图像对应的个人身份特征图、第一面部运动特征图和第一头部姿态运动特征图；对各第一面部运动特征图和各第一头部姿态运动特征图分别依次进行拼接和解码处理，并基于解码结果重构生成头部运动特征；以头部运动特征为采样器，对选取的第一帧图像进行采样，得到目标图像；以目标图像与选取的最后一帧图像相似度最高为目标，训练特征分离编码器，训练后的特征分离编码器用于对目标图片进行特征分离。分离出与面部运动特征无关的信息，提高面部运动单元检测准确率。

Description

基于特征分离表征学习的面部运动单元检测方法及系统

技术领域

本发明属于图像处理领域，更具体地，涉及一种基于特征分离表征学习的面部运动单元检测方法及系统。

背景技术

人类的面部表情是由面部肌肉的运动来体现的。美国心理学家艾克曼教授在20世纪60年代发布了面部运动编码系统（Facial Action Coding System，FACS），定义了人类面部的几十组运动单元（Action Unit，AU），每组AU由一块或多块肌肉的运动组成。FACS对每种AU定义了A到E五个级别的强度，各种AU之间自由组合，理论上人脸可以表达一万多种表情。AU和面部表情的联系十分紧密，可将表情分解为不同AU的组合，剖析人脸表情在面部的表象，把表情分解成具体的面部肌肉的运动，也即AU运动，并且给出了识别和衡量表情的方法与基准。

FACS对AU的定义是独立于其它假设和解释的，仅依靠解剖学上肌肉分布与运动特征，而不是根据特定面部表情的假设，为面部表情提供了更客观、更细粒度的描述，对于面部表情的分析更为直观并且更具有可解释性。因此，相对于通过人类语言的表情标签方式主观表达表情，可以通过一系列固定的人脸参数表示表情和人脸的行为。使用AU检测的方式表达面部表情框架，可以避免因为观测者不同引入标注的歧义性。

面部肌肉运动是人脸的局部运动，而运动信息无论在有没有标签的数据中都是容易获取的，通过运动信息来学习面部运动单元的特征是可行的。然而，实际应用场景中，视频中检测到的运动信息不仅包含面部局部肌肉运动特征，往往还融合了头部姿态的运动和个人的身份特征信息，从而引入了误差，导致面部运动单元检测的错误率较高。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种基于特征分离表征学习的面部运动单元检测方法及系统，其目的在于通过分离头部姿态运动、面部运动和个人身份特征，从而解决由于混入面部运动无关信息引入误差导致难以发现人脸潜在情感的问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于特征分离表征学习的面部运动单元检测方法，包括：S1，从训练视频中选取三帧包含人脸的图像，并将各所述图像分别输入至特征分离编码器，得到与各所述图像对应的个人身份特征图、第一面部运动特征图和第一头部姿态运动特征图；S2，对各所述第一面部运动特征图和各所述第一头部姿态运动特征图分别依次进行拼接和解码处理，并基于解码结果重构生成头部运动特征；S3，以所述头部运动特征为采样器，对所述S1中选取的第一帧图像进行采样，得到目标图像；S4，以所述目标图像与所述S1中选取的最后一帧图像相似度最高为目标，训练所述特征分离编码器，训练后的特征分离编码器用于对目标图片进行特征分离。

更进一步地，所述方法还包括：利用训练后的特征分离编码器对目标图片进行特征分离，得到分离的个人身份特征、面部运动特征和头部姿态运动特征；将所述面部运动特征输入面部运动单元分类器，生成与所述面部运动特征相应的预测结果。

更进一步地，所述训练视频包括起始帧、中间帧、峰值帧和结束帧，所述S1中从训练视频中选取三帧包含人脸的图像包括：利用随机选择法，在所述中间帧、所述起始帧中间的帧与所述起始帧之间选取第一帧图像，在所述第一帧图像与所述中间帧之间选取第二帧图像，在所述中间帧、所述峰值帧中间的帧与所述峰值帧之间选取第三帧图像。

更进一步地，所述S1中选取图像之后包括：将各所述图像分别剪裁为预设尺寸且包含所述人脸的人脸图像，将各所述人脸图像分别输入至所述特征分离编码器。

更进一步地，所述解码结果包括第二面部运动特征图、面部运动置信度图、第二头部姿态运动特征图和头部姿态运动置信度图，所述S2中根据解码结果重构生成头部运动特征包括：将所述第二面部运动特征图与所述面部运动置信度图做像素级别相乘，得到面部运动特征；将所述第二头部姿态运动特征图与所述头部姿态运动置信度图做像素级别相乘，得到头部姿态运动特征；将所述面部运动特征与所述头部姿态运动特征做像素级别相加，得到所述头部运动特征。

更进一步地，所述S2中的拼接和解码处理包括：对各所述第一面部运动特征图进行特征拼接生成面部肌肉运动嵌入层，将所述面部肌肉运动嵌入层输入面部运动解码器进行解码，得到第二面部运动特征图和面部运动置信度图；对各所述第一头部姿态运动特征图进行特征拼接生成头部姿态嵌入层，将所述头部姿态嵌入层输入头部姿态运动解码器进行解码，得到第二头部姿态运动特征图和头部姿态运动置信度图。

更进一步地，所述S4中训练过程中的综合损失函数

为：

其中，

为第一损失权重系数，

为第二损失权重系数，

为第三损失权重系数，

为第四损失权重系数，

为第五损失权重系数，

和

分别为所述目标图像的宽和高，

为模型L1范数损失，

为面部运动特征相关的L1范数损失，

为模型L2范数损失，

为个人身份特征相关的softmax交叉熵损失，

为面部运动特征相关的softmax交叉熵损失，

为所述目标图像，

为所述S1中选取的第三帧图像，

为面部运动位移，

、

、

分别为

输入所述特征分离编码器后得到的头部姿态运动特征、个人身份特征、面部运动特征，

、

、

分别为

为真实身份标签，

为预测身份标签，

为样本数量，

为第

个样本的真实身份标签，

为第

个样本的预测身份标签，

为第

个样本的第

个标签的真实运动单元标签，

为第

个样本的第

个标签的预测运动单元标签。

更进一步地，所述目标图像为：

其中，

为所述目标图像，

为所述S1中选取的第一帧图像，

为面部运动置信度，

为面部运动位移，

为头部姿态运动置信度，

为头部姿态运动位移。

按照本发明的另一个方面，提供了一种基于特征分离表征学习的面部运动单元检测系统，包括：选取及编码模块，用于从训练视频中选取三帧包含人脸的图像，并将各所述图像分别输入至特征分离编码器，得到与各所述图像对应的个人身份特征图、第一面部运动特征图和第一头部姿态运动特征图；解码及重构模块，用于对各所述第一面部运动特征图和各所述第一头部姿态运动特征图分别依次进行拼接和解码处理，并基于解码结果重构生成头部运动特征；采样模块，用于以所述头部运动特征为采样器，对所述选取及编码模块中选取的第一帧图像进行采样，得到目标图像；训练模块，用于以所述目标图像与所述选取及编码模块中选取的最后一帧图像相似度最高为目标，训练所述特征分离编码器，训练后的特征分离编码器用于对目标图片进行特征分离。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：提出了一种特征分离编码器的模型，可以分离头部姿态运动、面部运动和个人身份特征，通过特征重建的方式验证运动特征提取的有效性，通过个人身份特征分类器验证身份特征提取的有效性，通过不断迭代训练，最终形成一个能够有效提取用于面部运动单元检测的编码器，从而解决由于混入面部运动无关信息引入误差导致难以发现人脸潜在情感的问题。

附图说明

图1为本发明实施例提供的基于特征分离表征学习的面部运动单元检测方法的流程图。

图2为本发明实施例提供的视频位置定义示意图。

图3为本发明实施例提供的训练过程中的模型结构示意图。

图4为本发明实施例提供的基于特征分离表征学习的面部运动单元检测系统的框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

图1为本发明实施例提供的基于特征分离表征学习的面部运动单元检测方法的流程图。参阅图1，结合图2-图3，对本实施例中基于特征分离表征学习的面部运动单元检测方法进行详细说明，方法包括操作S1-操作S4。

操作S1，从训练视频中选取三帧包含人脸的图像，并将各图像分别输入至特征分离编码器，得到与各图像对应的个人身份特征图、第一面部运动特征图和第一头部姿态运动特征图。

本实施例中的训练视频为包含有动态表情的短表情视频，大量的训练视频形成训练数据集。动态表情训练数据集的一个subject中包含一段表情视频或者一段表情视频提取的帧序列。

训练视频包括起始帧、中间帧、峰值帧和结束帧，参阅图2，表情起始帧为onset帧，表情中间帧为middle帧，表情峰值帧为apex帧，表情结束帧为offset帧，middle帧为onset帧与apex帧中间的帧，middle帧与onset帧中间的帧标记为A帧，middle帧与apex帧中间的帧标记为B帧。

本实施例中，从训练视频中选取三帧包含人脸的图像并执行后续操作，这三帧图像依次为I_s1、I_s2、I_t，其中，I_s1为第一帧图像，I_s2为第二帧图像，I_t为第三帧图像。

三帧图像的选取策略为：利用随机选择法，在A帧与onset帧之间选取第一帧图像I_s1，离onset帧越近被选取的概率越大；在第一帧图像I_s1与middle帧之间随机选取第二帧图像I_s2，离第一帧图像I_s1越近被选取的概率越大；在B帧与apex帧之间随机选取第三帧图像I_t，离apex帧越近被选取的概率越大。

本实施例中，提出一种特征分离自动编码器（Feature DisentangledAutoencoder，FDAE），简称为特征分离编码器，可以分离出个人身份特征、面部运动特征和头部姿态运动特征，并通过运动特征重建的方式验证运动特征提取的有效性，通过个人身份特征分类器验证身份特征提取的有效性。通过不断的迭代训练，最终形成一个能够有效提取面部运动特征的编码器。

操作S1中，将各图像分别输入至特征分离编码器之前，可以将选取的各图像分别剪裁为预设尺寸且包含人脸的人脸图像，并将剪裁后得到的人脸图像分别输入至特征分离编码器，分别生成各自的特征图。预设尺寸例如为224*224。

每个图像编码后生成的特征图分为三个特征图，如图3所示。其中，f_x表示个人身份特征图，a_x表示面部运动特征图，p_x表示头部姿态运动特征图。例如第一帧图像I_s1对应的特征图分别为f_s1、a_s1、p_s1，第二帧图像I_s2对应的特征图分别为f_s2、a_s2、p_s2，第三帧图像I_t对应的特征图分别为f_t、a_t、p_t。

操作S2，对各第一面部运动特征图和各第一头部姿态运动特征图分别依次进行拼接和解码处理，并基于解码结果重构生成头部运动特征。

根据本发明的实施例，操作S2中的拼接和解码处理包括：对各第一面部运动特征图进行特征拼接生成面部肌肉运动嵌入层，将面部肌肉运动嵌入层输入面部运动解码器进行解码，得到第二面部运动特征图和面部运动置信度图；对各第一头部姿态运动特征图进行特征拼接生成头部姿态嵌入层，将头部姿态嵌入层输入头部姿态运动解码器进行解码，得到第二头部姿态运动特征图和头部姿态运动置信度图。

参阅图3，通过特征拼接方式生成面部肌肉运动嵌入层[a_s1，a_s2，a_t]，送入面部运动解码器D_a，生成第二面部运动特征图（面部运动位移）和面部运动置信度图。第二面部运动特征图表示I_s1、 I_s2和I_t的面部肌肉运动特征，面部运动置信度图表示面部肌肉运动信息的置信度。

通过特征拼接方式生成头部姿态嵌入层[p_s1，p_s2，p_t]，送入头部姿态运动解码器D_p，生成第二头部姿态运动特征图和头部姿态运动置信度图。第二头部姿态运动特征图表示I_s1、 I_s2和I_t的头部姿态运动特征，头部姿态运动置信度图表示头部姿态运动信息的置信度。

进一步地，还可以通过特征拼接方式生成个人身份特征嵌入层[f_s1，f_s2，f_t]，送入人脸分类器，分类得到subject的ID。

参阅图3，操作S2中根据解码结果重构生成头部运动特征包括：将第二面部运动特征图与面部运动置信度图做像素级别相乘，得到面部运动特征；将第二头部姿态运动特征图与头部姿态运动置信度图做像素级别相乘，得到头部姿态运动特征；将面部运动特征与头部姿态运动特征做像素级别相加，得到头部运动特征。

操作S3，以头部运动特征为采样器，对操作S1中选取的第一帧图像进行采样，得到目标图像。

以头部运动特征为采样器，对第一帧图像I_s1进行采样，得到目标图像

，用于验证头部运动特征的好坏。采样得到的目标图像为：

其中，

为目标图像，

为第一帧图像，

为位置

处的面部运动置信度，

为位置

处的面部运动位移，

为位置

处的头部姿态运动置信度，

为位置

处的头部姿态运动位移，

，

，

，

。

操作S4，以目标图像与操作S1中选取的最后一帧图像相似度最高为目标，训练特征分离编码器，训练后的特征分离编码器用于对目标图片进行特征分离。

头部运动采样器作为头部运动特征，对I_s1采样后生成的目标图像

应与I_t接近，因此训练中对模型添加L1范数损失：

其中，

为模型L1范数损失。

头部运动采样器对第一帧图像I_s1采样后生成的目标图像

应与I_t接近，那么目标图像

应与I_t分别通过特征分离编码器生成的特征嵌入层应相似，因此训练中为模型添加L2范数损失：

其中，

为模型L2范数损失，

、

、

分别为

输入特征分离编码器后得到的头部姿态运动特征、个人身份特征、面部运动特征，

、

、

分别为

输入特征分离编码器后得到的头部姿态运动特征、个人身份特征、面部运动特征。

头部运动与面部肌肉运动相比较，头部运动是刚性运动，具有全局性和显著性，面部肌肉运动是非刚性运动，具有局部性和微弱性。因此，在训练过程中会强化面部运动相关运动特征的局部性和微弱性，即会对面部肌肉运动特征添加L1范式损失，保证面部肌肉运动的稀疏性（局部性）和微弱性，面部运动特征相关的L1范数损失为：

其中，

为面部运动特征相关的L1范数损失，

为面部运动位移。

特征分离编码器会添加模型的个人身份特征分类器预测目标的身份特征编码，为个人身份特征引入softmax交叉熵损失函数：

其中，

为个人身份特征相关的softmax交叉熵损失，

为真实身份标签，

为预测身份标签，

为样本数量，

为第

个样本的真实身份标签，

为第

个样本的预测身份标签。

特征分离编码器会添加模型的面部运动单元分类器预测目标的面部运动单元标签，为面部运动单元分类引入softmax交叉熵损失函数：

其中，

为面部运动特征相关的softmax交叉熵损失，

为第

个样本的第

个标签的真实运动单元标签，

为第

个样本的第

个标签的预测运动单元标签。

训练过程中的综合损失函数

为：

其中，

为第一损失权重系数，

为第二损失权重系数，

为第三损失权重系数，

为第四损失权重系数，

为第五损失权重系数，

和

分别为目标图像的宽和高。

、

、

、

、

例如分别为0.01、0.1、0.1、0.1、0.1。

本实施例中的，当特征分离编码器训练完成之后，方法还包括：利用训练后的特征分离编码器对目标图片进行特征分离，得到分离的个人身份特征、面部运动特征和头部姿态运动特征；将面部运动特征输入面部运动单元分类器，生成与该面部运动特征相应的预测结果。

本实施例中基于特征分离表征学习的面部运动单元检测方法可以用于司法讯问、驾驶员情绪检测、师生情绪监督、金融面签欺诈监督、讯问测谎监督、安保访客情绪分析、面试情绪监督等应用场合。

图4为本发明实施例提供的基于特征分离表征学习的面部运动单元检测系统的框图。参阅图4，该基于特征分离表征学习的面部运动单元检测系统400包括选取及编码模块410、解码及重构模块420、采样模块430以及训练模块440。

选取及编码模块410例如执行操作S1，用于从训练视频中选取三帧包含人脸的图像，并将各图像分别输入至特征分离编码器，得到与各图像对应的个人身份特征图、第一面部运动特征图和第一头部姿态运动特征图。

解码及重构模块420例如执行操作S2，用于对各第一面部运动特征图和各第一头部姿态运动特征图分别依次进行拼接和解码处理，并基于解码结果重构生成头部运动特征。

采样模块430例如执行操作S3，用于以头部运动特征为采样器，对选取及编码模块410中选取的第一帧图像进行采样，得到目标图像。

训练模块440例如执行操作S4，用于以目标图像与选取及编码模块410中选取的最后一帧图像相似度最高为目标，训练特征分离编码器，训练后的特征分离编码器用于对目标图片进行特征分离。

基于特征分离表征学习的面部运动单元检测系统400用于执行上述图1-图3所示实施例中的基于特征分离表征学习的面部运动单元检测方法。本实施例未尽之细节，请参阅前述图1-图3所示实施例中的基于特征分离表征学习的面部运动单元检测方法，此处不再赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于特征分离表征学习的面部运动单元检测方法，其特征在于，包括：

S1，从训练视频中选取三帧包含人脸的图像，并将各所述图像分别输入至特征分离编码器，得到与各所述图像对应的个人身份特征图、第一面部运动特征图和第一头部姿态运动特征图；

S2，对各所述第一面部运动特征图和各所述第一头部姿态运动特征图分别依次进行拼接和解码处理，并基于解码结果重构生成头部运动特征；

S3，以所述头部运动特征为采样器，对所述S1中选取的第一帧图像进行采样，得到目标图像；

S4，以所述目标图像与所述S1中选取的最后一帧图像相似度最高为目标，训练所述特征分离编码器，训练后的特征分离编码器用于对目标图片进行特征分离。

2.如权利要求1所述的基于特征分离表征学习的面部运动单元检测方法，其特征在于，所述方法还包括：

利用训练后的特征分离编码器对目标图片进行特征分离，得到分离的个人身份特征、面部运动特征和头部姿态运动特征；

将所述面部运动特征输入面部运动单元分类器，生成与所述面部运动特征相应的预测结果。

3.如权利要求1所述的基于特征分离表征学习的面部运动单元检测方法，其特征在于，所述训练视频包括起始帧、中间帧、峰值帧和结束帧，所述S1中从训练视频中选取三帧包含人脸的图像包括：

利用随机选择法，在所述中间帧、所述起始帧中间的帧与所述起始帧之间选取第一帧图像，在所述第一帧图像与所述中间帧之间选取第二帧图像，在所述中间帧、所述峰值帧中间的帧与所述峰值帧之间选取第三帧图像。

4.如权利要求1-3任一项所述的基于特征分离表征学习的面部运动单元检测方法，其特征在于，所述S1中选取图像之后包括：将各所述图像分别剪裁为预设尺寸且包含所述人脸的人脸图像，将各所述人脸图像分别输入至所述特征分离编码器。

5.如权利要求1所述的基于特征分离表征学习的面部运动单元检测方法，其特征在于，所述解码结果包括第二面部运动特征图、面部运动置信度图、第二头部姿态运动特征图和头部姿态运动置信度图，所述S2中根据解码结果重构生成头部运动特征包括：

将所述第二面部运动特征图与所述面部运动置信度图做像素级别相乘，得到面部运动特征；

将所述第二头部姿态运动特征图与所述头部姿态运动置信度图做像素级别相乘，得到头部姿态运动特征；

将所述面部运动特征与所述头部姿态运动特征做像素级别相加，得到所述头部运动特征。

6.如权利要求1或5所述的基于特征分离表征学习的面部运动单元检测方法，其特征在于，所述S2中的拼接和解码处理包括：

对各所述第一面部运动特征图进行特征拼接生成面部肌肉运动嵌入层，将所述面部肌肉运动嵌入层输入面部运动解码器进行解码，得到第二面部运动特征图和面部运动置信度图；

对各所述第一头部姿态运动特征图进行特征拼接生成头部姿态嵌入层，将所述头部姿态嵌入层输入头部姿态运动解码器进行解码，得到第二头部姿态运动特征图和头部姿态运动置信度图。

7.如权利要求1所述的基于特征分离表征学习的面部运动单元检测方法，其特征在于，所述S4中训练过程中的综合损失函数

为：

其中，

为第一损失权重系数，

为第二损失权重系数，

为第三损失权重系数，

为第四损失权重系数，

为第五损失权重系数，

和

分别为所述目标图像的宽和高，

为模型L1范数损失，

为面部运动特征相关的L1范数损失，

为模型L2范数损失，

为个人身份特征相关的softmax交叉熵损失，

为面部运动特征相关的softmax交叉熵损失，

为所述目标图像，

为所述S1中选取的第三帧图像，

为面部运动位移，

、

、

分别为

、

、

分别为

为真实身份标签，

为预测身份标签，

为样本数量，

为第

个样本的真实身份标签，

为第

个样本的预测身份标签，

为第

个样本的第

个标签的真实运动单元标签，

为第

个样本的第

个标签的预测运动单元标签。

8.如权利要求1或7所述的基于特征分离表征学习的面部运动单元检测方法，其特征在于，所述目标图像为：

其中，

为所述目标图像，

为所述S1中选取的第一帧图像，

为面部运动置信度，

为面部运动位移，

为头部姿态运动置信度，

为头部姿态运动位移。

9.一种基于特征分离表征学习的面部运动单元检测系统，其特征在于，包括：

选取及编码模块，用于从训练视频中选取三帧包含人脸的图像，并将各所述图像分别输入至特征分离编码器，得到与各所述图像对应的个人身份特征图、第一面部运动特征图和第一头部姿态运动特征图；

解码及重构模块，用于对各所述第一面部运动特征图和各所述第一头部姿态运动特征图分别依次进行拼接和解码处理，并基于解码结果重构生成头部运动特征；

采样模块，用于以所述头部运动特征为采样器，对所述选取及编码模块中选取的第一帧图像进行采样，得到目标图像；

训练模块，用于以所述目标图像与所述选取及编码模块中选取的最后一帧图像相似度最高为目标，训练所述特征分离编码器，训练后的特征分离编码器用于对目标图片进行特征分离。