CN116311477A

CN116311477A - 一种面向跨身份一致性的面部运动单元检测模型构建方法

Info

Publication number: CN116311477A
Application number: CN202310543543.7A
Authority: CN
Inventors: 喻莉; 赵慧娟; 何双江; 杜聪炬
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2023-05-15
Filing date: 2023-05-15
Publication date: 2023-06-23
Anticipated expiration: 2043-05-15
Also published as: CN116311477B

Abstract

本发明属于计算机视觉与情感计算领域，具体涉及一种面向跨身份一致性的面部运动单元检测模型构建方法，包括：提出一种训练样本选择策略，提高每帧图像的困难正样本和困难负样本在训练样本集中的占比；还提出对比学习，在每次迭代训练时，计算第一对比损失，用于引导分离模块输出的相同身份的身份特征嵌入编码在空间中距离相近，不同身份的身份特征嵌入编码在空间中距离远离；计算第二对比损失，用于引导分离模块输出的相同面部运动单元标签的面部运动特征嵌入编码在空间中距离相近，不同面部运动单元标签的面部运动特征嵌入编码在空间中距离远离。本方法通过隐式地引入面部运动单元跨身份一致性定义先验知识，使得模型有效学习面部运动单元表征。

Description

一种面向跨身份一致性的面部运动单元检测模型构建方法

技术领域

本发明属于计算机视觉与情感计算领域，更具体地，涉及一种面向跨身份一致性的面部运动单元检测模型构建方法。

背景技术

面部表情是人与人之间互动的重要非语言方式，即传达情绪和发出理解、分歧和意图的信号。美国心理学家艾克曼教授在20世纪60年代发布了面部运动编码系统FACS，系统地定义了一套基于解剖的44个不重叠的面部原子肌肉运动，称为运动单元。它是客观和丰富的信号判断，描述几乎所有视觉上可辨别的面部动作的运动外观表现、实现方法以及强度等级等。面部运动单元和面部表情联系十分紧密，可以将面部表情分解为客观观察地面部运动的组合，剖析人类面部呈现的面部表情的外观变化。例如，开心的面部表情可以分解为AU6（脸颊抬起）和AU12（唇角拉动）。

作为情感计算领域最重要的研究课题之一，自动面部动作单元检测已经被研究了几十年，它在面部行为分析的各种应用中很有前景，例如司机疲劳检测、病人疼痛估计和谈判。人类具有通过他人面部动作的外观变化来识别其表情而忽略身份的变化的能力。但是，对于计算机来说这是一件非常困难的事情，因为每个个体都有其个人动作习惯和表达习惯，以及不同的面部骨骼结构和皮肤外观，导致了对于面部运动特征的识别不同个体间存在着极大的数据分布差异。现有的许多方法，通过基于面部结构特性的整体特征或者局部特征来构建面部运动单元表征以完成面部运动单元检测，获得了一定的识别能力。然而，它们在实现上大都忽略了个体身份的差异在面部运动单元检测中引入的干扰信号，使得可能通过学习与个体身份相关的差异信息而非与跨身份一致的面部运动特征相关的信息完成面部运动单元的检测，从而使得识别系统泛化能力不强，也就是说，它们在已存的具有少量身份的数据集上学习到的特征，对于训练中未见的新身份的个体做面部运动单元识别时，识别的准确率不高。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种面向跨身份一致性的面部运动单元检测模型构建方法，其目的在于学习跨身份一致的面部运动特征，用于面部运动单元检测。

为实现上述目的，按照本发明的一个方面，提供了一种面向跨身份一致性的面部运动单元检测模型构建方法，包括：构建训练样本集，训练包括用于分离面部运动特征和身份特征的分离模块的面部运动单元多标签学习检测网络，得到面部运动单元检测模型；

其中，每个训练样本包括两帧包含人脸的第一图像，并采用如下两两训练样本成对构建的方式构建训练样本集：从训练视频中，首先随机选取一帧图像作为锚点样本，继续选取与所述锚点样本身份相同且无相同面部运动单元标签的另一帧图像，作为所述锚点样本的困难负样本，与所述锚点样本构成一个训练样本；继续选取与所述锚点样本身份不同且相同面部运动单元标签数量占总面部运动单元总数量的比例大于预设值的另一帧图像，作为所述锚点样本的困难正样本，接着选择与所述困难正样本身份相同且无相同面部运动单元标签的另一帧图像，作为所述困难正样本的困难负样本，与所述困难正样本构成另一个训练样本，完成一对训练样本的构建；

所述分离模块用于编码输出每帧图像的身份特征嵌入编码和面部运动单元嵌入编码；在训练过程的参数更新中所基于的损失计算包括：分别将当前次迭代所输入的一批训练样本中各第一图像对应的身份特征嵌入编码中，每个身份特征嵌入编码作为对比锚点，将与对比锚点身份标签一致的其它身份特征嵌入编码作为正样本，剩余身份特征嵌入编码作为负样本，进行身份特征嵌入编码的对比损失计算，用于实现身份特征嵌入编码的类内紧凑型和类间可判别性；分别将所述一批训练样本中各第一图像对应的所有面部运动单元嵌入编码中，每个面部运动单元嵌入编码作为对比锚点，与该对比锚点标签相同的其它所有面部运动单元嵌入编码作为正样本，剩余的面部运动单元嵌入编码作为负样本，进行面部运动单元嵌入编码的对比损失计算，用于实现面部运动单元嵌入编码的类内紧凑型和类间可判别性。

进一步，所述困难正样本的选取方式具体为：

根据相同身份的短时间隔相似性和长时间隔不相似性的面部视频信号时域特性进行选取，其中，若锚点样本的面部运动单元标签有多个，选取至少包含两个面部运动单元标签与锚点样本的相同的视频帧，作为锚点样本的困难正样本；若锚点样本的面部运动单元标签只有一个，则选择与描点样本的面部运动单元标签相同的视频帧，作为锚点样本的困难正样本；或者，根据面部运动引起的面部外观变化远比不同身份引起的外观变化微弱的面部视频信号外观变化特性，在锚点样本的前后预设时间范围内，以预设的概率随机采样选择另一帧图像，作为锚点样本的困难正样本；

所述困难负样本的选取方式具体为：

根据相同身份的短时间隔相似性和长时间隔不相似性的面部视频信号时域特性，设定时间间隔为预设时间，从距离锚点样本的预设时间之前或者预设时间之后随机选取另一帧图像，作为锚点样本的困难负样本。

进一步，身份特征嵌入编码的对比损失计算方式为：

其中，

表示所述一批训练样本中各第一图像对应的身份特征嵌入编码中与第i个身份特征嵌入编码的身份标签相同的其它身份特征嵌入编码的下标集合；/>

表示其基数；/>

表示第i个身份特征嵌入编码，作为身份特征对比学习中的对比锚点；/>

表示所述一批训练样本中各第一图像对应的身份特征嵌入编码中与/>

身份标签相同的其它身份特征嵌入编码中的一个；/>

表示所述一批训练样本中各第一图像对应的身份特征嵌入编码中除了/>

以外的其它身份特征嵌入编码；/>

为第p个身份标签的权重；/>

是身份特征的温度参数。

进一步，面部运动单元嵌入编码的对比损失表示为：

其中，C表示面部运动单元的标签类别数量，

表示所述一批样本中各第一图像对应的面部运动单元标签为c的面部运动单元嵌入编码中与第i个训练样本的面部运动单元标签相同的其它面部运动单元嵌入编码的下标集合，/>

表示下标集合的基数，/>

表示第i个训练样本的标签为c的面部运动单元嵌入编码，其作为面部运动单元特征对比学习中的对比锚点，/>

表示所述一批训练样本中各第一图像对应的面部运动单元嵌入编码中与/>

面部运动单元标签相同的其它面部运动嵌入编码，/>

表示所述一批训练样本中各第一图像对应的面部运动单元嵌入编码中除了/>

以外的其它面部运动单元嵌入编码，/>

表示标签为c 的面部运动单元的权重，/>

表示标签为c 的面部运动单元的类别不平衡权重，/>

表示面部运动单元特征对比学习中的温度参数。

进一步，所述面部运动单元多标签学习检测网络还包括面部运动检测编码模块和嵌有面部运动单元关系先验知识的关系学习编码模块；

所述分离模块还输出每帧图像的面部运动特征嵌入编码，其中，所述面部运动特征嵌入编码是由该帧图像对应的所有面部运动单元嵌入编码进行元素级别相加得到；

所述面部运动检测编码模块用于对所述分离模块输出的面部运动特征嵌入编码，进行特征提取，得到面部运动检测特征；

所述关系学习编码模块用于向所述面部运动检测特征引入面部运动单元关系先验知识约束，以进行面部运动单元分类。

进一步，所述训练的方法使得到面部运动单元检测模型为基于解纠缠的面部运动单元检测模型。

进一步，方法还包括：建立包括面部图像生成器G的辅助训练网络；

所述分离模块还输出每帧图像的面部运动特征嵌入编码，其中，所述面部运动特征嵌入编码是由该帧图像对应的所有面部运动单元嵌入编码进行元素级别相加得到；则所述训练的过程包括：

对每个训练样本的两帧第一图像的面部运动特征嵌入编码交换，将每帧第一图像的身份特征嵌入编码与交换后的面部运动特征嵌入编码拼接并输入面部图像生成器G进行解码重构，生成第二图像；将两帧所述第二图像均输入用于分离面部运动特征和身份特征的分离模块，得到与各第二图像对应的面部运动特征嵌入编码和身份特征嵌入编码；同时将两帧第二图像输入面部图像判别器

，所述分离模块和所述面部图像生成器G与所述面部图像判别器/>

形成对抗学习，引导所述分离模块编码面部运动特征和身份特征边缘独立的有效对应信息，并使得面部图像生成器G生成符合输入样本数据分布的面部图像。

进一步，所述训练的过程还包括：基于所述一批样本中各第一图像对应的面部运动特征嵌入编码和身份特征嵌入编码，计算特征编码正交损失，计算方式为：

；

其中，

表示矩阵或者嵌入编码的模长；/>

表示所述分离模块中用于面部运动特征嵌入编码提取的面部运动特征编码器的最后一层参数矩阵；/>

表示/>

的转置，/>

表示所述分离模块中用于身份特征嵌入编码提取的身份特征嵌入编码器的最后一层参数矩阵，

和/>

分别表示第i个面部运动特征嵌入编码和第i个身份特征嵌入编码，/>

表示/>

的转置，N表示所述一批样本中图像的总帧数。

本发明还提供一种面部运动单元预测方法，包括：

采用如上所述的一种面向跨身份一致性的面部运动单元检测模型构建方法所构建的面部运动单元检测模型，基于待检测人脸图像，预测识别人脸的多个面部运动单元。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如上所述的一种面向跨身份一致性的面部运动单元检测模型构建方法和/或如上所述的一种面部运动单元预测方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

（1）本方法提出一种训练样本选择策略，提高每帧图像的困难正样本和困难负样本在训练样本集中的占比，另外还提出对比学习，在每次迭代训练时，计算身份特征嵌入编码的对比损失，用于引导分离模块对于身份编码的学习，使其输出的相同身份的身份特征嵌入编码在空间中距离相近，不同身份的身份特征嵌入编码在空间中距离远离；计算面部运动单元嵌入编码的对比损失，用于引导分离模块引导面部运动特征的学习，使其输出的相同面部运动单元标签的面部运动特征嵌入编码在空间中距离相近，不同面部运动单元标签的面部运动特征嵌入编码在空间中距离远离。本方法提出特定的训练样本构建方式并在训练过程中引入特定的对比损失计算以指导网络参数的修改。由于本方法特意构建的训练样本集，在对比学习中，可通过面部运动单元表征的锚点样本与其它样本的对比，而非传统的对比学习中将选择每个锚点的不同随机增强视角作为其正样本并与其它样本作为负样本进行对比，可以提高每帧图像的困难正样本和困难负样本在训练样本集中的占比，使得模型在对比学习中关注不同身份、相同面部运动单元标签的困难正样本和相同身份、不同面部运动单元标签的困难负样本，即使得模型学习中关注不同面部运动单元特征的显著差异，忽略身份差异，隐式地引入面部运动单元跨身份一致性定义先验知识，使得模型能够有效学习面部运动单元表征。

（2）本发明还提出面部运动单元多标签学习检测网络还包括面部运动检测编码模块和嵌有面部运动单元关系先验知识的关系学习编码模块。由于面部肌肉解剖结构的限制，面部运动单元存在固有的共生关系和互斥关系，在基于面部运动特征嵌入编码得到的面部运动检测特征中引入面部运动单元关系先验知识约束，获得面部运动单元关系一致性，有效利用面部运动单元关系的先验知识，以进行面部运动单元分类，提高分类性能。也就是，本方法在隐式地学习面部运动单元的内在关系的基础之上，还通过引入面部运动单元的先验知识，显式地进一步强化面部运动单元的关系特征学习，提升面部运动单元检测模型的能力。

（3）本发明优选的检测模型训练方法，使得到面部运动单元检测模型为基于解纠缠的面部运动单元检测模型。通过关系驱动解纠缠表征学习框架分离身份干扰信号，能够更好地解决由于混入面部运动无关信息引入误差导致发现人脸潜在情感难的问题。

（4）本发明在训练过程中引入一种特征编码正交损失，引导分离模块能够编码面部运动特征嵌入编码和身份特征嵌入编码的边缘独立的有效对应信息，从而使得分离模块更精准的学习到跨身份一致的面部运动特征，使得面部运动特征与身份特征更有效的分离。

附图说明

图1为本发明实施例提供的在面向跨身份一致性的面部运动单元检测模型训练过程中对比学习的方式示意图。

图2为本发明实施例提供的面向跨身份一致性的基于解纠缠的面部运动单元检测模型的构建结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例一

一种面向跨身份一致性的面部运动单元检测模型构建方法，包括：构建训练样本集，训练包括用于分离面部运动特征和身份特征的分离模块的面部运动单元多标签学习检测网络，得到面部运动单元检测模型；

其中，每个训练样本包括两帧包含人脸的第一图像，并采用如下两两训练样本成对构建的方式构建训练样本集：从训练视频中，首先随机选取一帧图像作为锚点样本，继续选取与锚点样本身份相同且无相同面部运动单元标签的另一帧图像，作为锚点样本的困难负样本，与锚点样本构成一个训练样本；继续选取与锚点样本身份不同且相同面部运动单元标签数量占总面部运动单元总数量的比例大于预设值的另一帧图像，作为锚点样本的困难正样本，接着选择与困难正样本身份相同且无相同面部运动单元标签的另一帧图像，作为困难正样本的困难负样本，与困难正样本构成另一个训练样本，完成一对训练样本的构建；

分离模块用于编码输出每帧图像的身份特征嵌入编码和面部运动单元嵌入编码；在训练过程的参数更新中所基于的损失计算包括：分别将当前次迭代所输入的一批训练样本中各第一图像对应的身份特征嵌入编码中，每个身份特征嵌入编码作为对比锚点，将与对比锚点身份标签一致的其它身份特征嵌入编码作为正样本，剩余身份特征嵌入编码作为负样本，进行身份特征嵌入编码的对比损失计算，用于实现身份特征嵌入编码的类内紧凑型和类间可判别性；分别将一批训练样本中各第一图像对应的所有面部运动单元嵌入编码中，每个面部运动单元嵌入编码作为对比锚点，与该对比锚点标签相同的其它所有面部运动单元嵌入编码作为正样本，剩余的面部运动单元嵌入编码作为负样本，进行面部运动单元嵌入编码的对比损失计算，用于实现面部运动单元嵌入编码的类内紧凑型和类间可判别性，获得基于面部运动单元语义定义的跨身份一致性特征。

面部运动单元识别的目标是通过面部图像同时识别多个面部运动单元在面部是否同时出现的状态。根据心理学面部运动单元系统，对于面部运动单元具有语义化的定义，具有跨身份一致性。同时根据面部肌肉的解剖结构分析，面部运动单元具有固有的内在联系，包括共生关系和互斥关系，例如AU6(脸颊提升)和AU12(拉动嘴角)在表达开心表情时往往同时出现，AU2(抬起眉毛外角)和AU4(皱眉)面部肌肉结构的限制往往很难同时出现。因此，本实施例提出隐式地利用面部运动单元的先验知识驱动学习，获得跨身份一致的面部运动特征。也就是，通过特定的训练样本构建方式和对比损失计算，隐式地引入面部运动单元跨身份一致性定义先验知识，使得分离模块编码输出每帧图像的信号分离的面部运动特征嵌入编码和身份特征嵌入编码，且面部运动特征嵌入编码具有类内紧凑型和类间可判别性，提高面部运动单元的预测精度。

具体的，首先，面部运动往往只在面部局部区域发生，并且面部运动相对微弱，相对于不同个体身份变化导致的面部差异，面部运动导致的面部外观变化的差异小的多。因此，对于跨身份的面部运动单元检测，模型可能学习的是与面部个体身份差异相关的特征，而不是跨身份一致的面部运动特征。因此，对于面部运动单元检测任务，如何在学习中让模型有效关注面部运动而非身份信息至关重要。由于本方法特意构建的训练样本集，在对比学习中，可通过面部运动单元表征的锚点样本与其它样本的对比，而非传统的对比学习中将选择每个锚点的不同随机增强视角作为其正样本并与其它样本作为负样本进行对比，可以提高每帧图像的困难正样本和困难负样本在训练样本集中的占比，使得模型在对比学习中关注不同身份、相同面部运动单元标签的困难正样本和相同身份、不同面部运动单元标签的困难负样本，也就是使得模型学习中关注不同面部运动单元特征的显著差异，以尽量减少的引入身份差异造成的干扰，使得模型在对比学习中学习面部运动单元的关键特征而非个体身份信息的差异化特征。

另外，提出身份特征嵌入编码的对比损失计算，用于引导分离模块对于身份编码的学习，使其输出的相同身份的身份特征嵌入编码在空间中距离相近，不同身份的身份特征嵌入编码在空间中距离远离；提出面部运动单元嵌入编码的对比损失计算，用于引导分离模块对于面部运动特征的学习，使其输出的相同面部运动单元标签的面部运动特征嵌入编码在空间中距离相近，不同面部运动单元标签的面部运动特征嵌入编码在空间中距离远离。

总的来说，本方法提出特定的训练样本构建方式并在训练过程中引入特定的对比损失计算以指导网络参数的修改。本方法构建的训练样本集中每帧图像的困难正样本和困难负样本在训练样本集中的占比相较传统构建方法的高，根据面部运动单元的跨身份一致性定义，可通过面部运动单元表征的锚点样本与其它样本的对比，而非随机选择的其他样本做对比，使得模型学习中关注不同面部运动单元特征的显著差异，忽略身份差异，使得模型能够有效学习面部运动单元表征。

为了使得模型在训练中学习到有效的跨身份一致的面部运动嵌入编码，优选的，本方法基于相同身份的短时间隔相似性和长时间隔不相似性的面部视频信号时域特性，以及面部运动引起的面部外观变化远比不同身份引起的外观变化微弱的面部视频信号外观变化特性，提出基于时域增强的训练样本采样策略，利用面部运动的时域变化特性和外观变化特性，提升对比学习训练样本集中困难正样本和困难负样本的比例，促进在对比学习训练中模型关注跨身份一致的面部运动特征，忽略与个体身份相关的面部特征，提升分离模块编码输出的面部运动特征嵌入和身份特征嵌入编码器的类内聚合能力和类间可判别性。

具体的，上述相同身份的短时间隔相似性和长时间隔不相似性的面部视频信号时域特性，以及面部运动引起的面部外观变化远比不同身份引起的外观变化微弱的面部视频信号外观变化特性的使用方式，通过以下样本选取方式体现，其中，困难正样本的选取方式具体为：

所述困难负样本的选取方式具体为：

可作为优选的实施方案，身份特征嵌入编码的对比损失计算方式可为：

其中，

表示当前次迭代输入的一批训练样本中各第一图像对应的身份特征嵌入编码中与第i个身份特征嵌入编码的身份标签相同的其它身份特征嵌入编码的下标集合；/>

表示其基数；/>

身份标签相同的其它身份特征嵌入编码中的一个；/>

以外的其它身份特征嵌入编码；/>

为第p个身份标签的权重；/>

是身份特征的温度参数。

可作为优选的实施方案，面部运动单元嵌入编码的对比损失可表示为：

；

其中，C表示面部运动单元的标签类别数量，

表示下标集合的基数，/>

面部运动单元标签相同的其它面部运动嵌入编码，/>

以外的其它面部运动单元嵌入编码，/>

表示标签为c 的面部运动单元的权重，/>

表示标签为c 的面部运动单元的类别不平衡权重，/>

表示面部运动单元特征对比学习中的温度参数。

进一步，由于面部肌肉解剖结构的限制，面部运动单元存在固有的共生关系和互斥关系，有效利用面部运动单元关系的先验知识，能够有效提升面部运动单元检测的性能。因此，可作为优选的实施方案，在本实施例方法通过多标签面部运动单元检测器建模，隐式地学习面部运动单元的内在关系的同时，还通过引入面部运动单元的先验知识，显式地进一步强化面部运动单元的关系特征学习，提升面部运动单元检测模型的能力。

具体的，提出面部运动单元多标签学习检测网络还包括面部运动检测编码模块和嵌有面部运动单元关系先验知识的关系学习编码模块。分离模块还输出每帧图像的面部运动特征嵌入编码，其中，面部运动特征嵌入编码是由该帧图像对应的所有面部运动单元嵌入编码进行元素级别相加得到；则面部运动检测编码模块用于对分离模块输出的面部运动特征嵌入编码，进行特征提取，得到面部运动检测特征；关系学习编码模块用于向面部运动检测特征引入面部运动单元关系先验知识约束，获得面部运动单元关系一致性，以进行面部运动单元分类，提高分类性能。

可作为优选的实施方案，所采用的检测模型训练方法，使得到面部运动单元检测模型为基于解纠缠的面部运动单元检测模型。

例如，构建辅助训练网络，利用辅助训练网络训练，面部运动单元多标签学习检测网络和辅助训练网络构成的整体结构如图2所示。分离模块包括面部运动编码器

和身份编码器/>

，分别用于编码输出面部运动特征嵌入编码和身份特征嵌入编码；面部运动单元多标签学习检测网络还包括面部运动检测编码模块F_au和嵌有面部运动单元关系先验知识的关系学习编码模块，辅助训练网络包括：面部图像生成器G，面部图像判别器/>

，几何特征检测器/>

，身份特征判别器/>

，以及几何特征判别器/>

。采用辅助训练网络训练预测模型的训练方式具体为：

S1、将选择得到的各图像分别输入至分离模块之前，可以将选取的各图像分别剪裁为预设尺寸且包含人脸的人脸图像，并将剪裁后得到的人脸图像分别输入至分离模块，分别生成各自的特征嵌入编码。预设尺寸例如为224*224。

每个第一图像编码后生成的特征图分为两个特征嵌入编码，其中

表示面部运动特征嵌入编码，/>

表示面部运动特征嵌入编码。面部运动特征嵌入编码生成中，首先面部运动编码器/>

生成C个相互独立的面部运动单元嵌入编码/>

，/>

表示第c个面部运动单元嵌入编码，然后有/>

个面部运动单元编码通过元素级别对应相加得到面部运动嵌入编码/>

，即/>

=/>

。例如第一帧第一图像/>

对应的特征图分别为/>

、/>

，对应C个面部运动单元嵌入编码，/>

表示第一帧图像对应的第c个面部运动单元嵌入编码。第二帧第一图像/>

对应的特征图分别为/>

、/>

，对应C个面部运动单元嵌入编码，/>

表示第二帧图像对应的第c个面部运动单元嵌入编码。

S2、将S1中第一图像

的面部运动特征嵌入编码和身份特征嵌入编码对(/>

，和/>

的面部运动特征嵌入编码和身份特征嵌入编码(/>

相互交换、拼接，获得交换后的第一帧嵌入编码对/>

和第二帧嵌入编码对/>

，分别将拼接获得的嵌入编码对送入面部图像生成器G，重建生成交换了面部运动特征的两帧第二图像，分别为图像/>

和/>

；图像/>

和/>

分别送入面部图像判别器/>

，由面部图像判别器/>

判别生成图像/>

和/>

是否符合输入样本的数据分布。面部图像生成器G和面部图像判别器/>

形成对抗学习模块引导所述分离模块编码面部运动特征和身份特征边缘独立的有效对应信息，提升分离模块对面部运动特征编码和身份特征编码的有效信息提取能力，也就使得面部运动特征编码器学习到跨身份一致的面部运动特征，并使得面部图像生成器G生成符合输入样本数据分布的面部图像。

具体地，S1得到的第一帧第一图像的特征嵌入编码为(

，第二帧第一图像的特征嵌入编码为/>

。交换后，第一帧第一图像的特征嵌入编码为/>

，第二帧第一图像的特征嵌入编码为/>

。交换后的特征嵌入编码分别送入面部图像生成器G中，生成第一帧第二图像/>

和第二帧第二图像/>

。面部图像生成器G与面部图像判别器/>

形成对抗模块，面部图像判别器/>

的训练目标是使得/>

能够正确判别输入的图像是面部图像生成器G生成的图像还是输入的样本。面部图像生成器G的训练目标是根据能够编码到有效的对应信息的面部运动特征编码器和身份特征编码器获得的面部运动特征嵌入编码和身份特征嵌入编码，学习到输入样本的数据分布，生成与输入样本数据分布一致的面部图像，同时包含第一帧的身份信息和第二帧的面部运动信息，或者包括第二帧的身份信息和第一帧的面部运动信息。训练中首先更新面部图像判别器/>

，其目的是为了使得面部图像判别器/>

学习到能够准确判别输入样本是来自输入的面部图像样本还是生成的面部图像样本。面部图像对抗的判别损失为：

；

；

然后在训练中更新面部图像生成器G，其目标是使得面部图像判别器

无法判断是输入的样本还是生成的面部图像。对抗训练中面部图像生成器G的面部图像对抗的生成损失为：

；

其中，

表示最小二乘损失。不影响公式说明的前提下简化公式，将输入的两帧图像/>

和/>

的下标移除，变为x，生成的两帧图像/>

和/>

的下标移除，变成/>

。

S3、将S2阶段重构生成的两帧人脸图像

和/>

，分别输入至面部运动编码器和身份编码器，生成图像/>

的面部运动特征嵌入编码和身份特征嵌入编码对为/>

，生成图像/>

的面部运动特征嵌入编码和身份特征嵌入编码对为/>

,/>

。

在本实施例中，为了生成图像保持与对应输入图像相同的信息，输入图像

的面部运动特征嵌入编码和身份特征嵌入编码，应该分别与/>

的面部运动特征嵌入编码和/>

的身份特征嵌入编码一致；输入图像/>

面部运动特征嵌入编码和身份特征嵌入编码，应该分别与/>

的面部运动特征嵌入编码和/>

的身份特征嵌入编码一致。因此，引入嵌入编码一致性损失为：

；

式中，

表示最小二乘损失。/>

和/>

分别为第一图像的第一帧和第二帧的身份特征嵌入编码，/>

和/>

分别为第一图像的第一帧和第二帧的面部运动特征嵌入编码。/>

和/>

分别为第二图像的第一帧和第二帧的身份特征嵌入编码，/>

和/>

分别为第二图像的第一帧和第二帧的面部运动特征嵌入编码。

S4、将S1阶段得到的将各第一图像对应的面部运动特征嵌入编码输入几何特征检测器

；通过几何特征检测器/>

，预测面部关键点的位置，通过面部关键点形成的面部重要几何结构特征引导面部运动特征嵌入编码的训练过程。

面部关键点描述的是人类面部的结构的关键信息，描述面部外部轮廓的关键点与头部姿态密切相关，而面部运动是面部内部外观变化，与面部内部的关键点相关。因此，本实施例中，面部关键点选取的是仅描述面部内部信息而不包含面部轮廓的49个面部关键点，采用分类的方式预测面部关键点的位置。将对应的面部运动特征嵌入编码输入到几何特征检测器

，生成面部关键点的响应图。面部关键点的分类损失为：

；

式中，n为面部关键点的个数，d为面部关键点响应图的边长，

为softmax激活函数，X为模型样本输入，Y为关键点标签，/>

是第y个面部关键点的标签。不影响公式说明的前提下简化公式，将输入的两帧图像/>

和/>

的下标移除，变为x。/>

S5、将S1得到的各第一图像对应的面部运动特征嵌入编码，输入到面部运动检测编码模块F_au，得到面部运动检测特征，输入嵌有面部运动单元关系先验知识的关系学习编码模块，得到各第一图像对应的各面部运动单元的分类结果。通过各第一图像对应的面部运动单元的分类标签来引导面部运动编码模块E_A、面部运动检测编码模块F_au和嵌有面部运动单元关系先验知识的关系学习编码模块的训练过程。

在该优选方案中，嵌有面部运动单元关系先验知识的关系学习编码模块采用双层图神经网络GCN编码面部运动单元关系先验知识。面部运动单元关系先验知识是根据训练数据中统计获得的面部运动单元出现概率的协方差矩阵表示的。面部运动单元的分类损失为：

；

式中，

是第j个面部运动单元的预测概率，/>

是第j个面部运动单元的标签，当第j个面部运动单元出现时，/>

，当第j个面部运动单元不存在时，/>

。/>

为第j个面部运动单元的权重，该权重用于解决训练中面部运动单元数据不平衡问题。C表示共有C个面部运动单元。

S6、将S1得到的各第一图像对应的面部运动特征嵌入编码输入身份特征判别器

，由身份特征判别器/>

判别输入的两帧是否来自同一个身份的样本。面部运动编码器E_A与身份特征判别器/>

形成对抗学习，面部运动编码器E_A的目标是编码输入的面部图像的面部运动信息，使得获得身份特征编码器不能根据面部运动嵌入编码判断输入的两帧是否来自同一身份。面部运动的身份对抗的判别损失为：

；

面部运动的身份对抗的生成损失为：

；

S7、将S1得到的各第一图像对应的身份特征嵌入编码输入几何特征判别器

。身份编码器/>

和几何特征判别器/>

形成对抗，其目的是使得身份编码器能够编码使几何特征判别器无法根据其身份特征判别其几何信息。身份特征嵌入编码的几何特征对抗的判别损失为：

；/>

身份特征嵌入编码的几何特征对抗的生成损失为：

；

式中，

表示最小二乘损失，n为面部关键点的个数，d为响应正方形响应图的边长。本实施例中几何特征判别器采用面部关键点检测方式完成。选取的是49个面部关键点，采用分类的方式预测面部关键点的位置的概率。对抗学习过程期望学习到的身份特征嵌入编码输入几何特征判别器/>

获得处处为/>

的几何特征响应图。

S8、将S1得到的各第一图像对应的身份特征嵌入编码送入对比学习模块，也就是进行对比损失计算，其目的是使得身份编码器对于相同身份的身份特征嵌入编码在空间中距离相近，对于不同身份的身份特征嵌入编码在空间中距离远离。

和/>

为S1由身份编码器生成的身份特征嵌入编码。在本操作中，在不影响表述的前提下简化表达，将/>

和/>

统称z，并使用/>

表示第i个样本的身份嵌入编码。将输入的第一帧和第二帧同时输入对比学习模块，将当前次迭代训练所输入的一批样本作为对比学习模块的对比样本，具体设当前第i个样本为对比锚点，/>

为与第i个样本身份标签相同的其它所有样本。对比模块的损失使得对比锚点的身份嵌入编码和与对比锚点标签相同的样本的身份嵌入编码相似，而使得与对比锚点标签不相同的样本的身份嵌入编码不相似，增强相同身份样本的身份嵌入编码的类内紧凑型和类间可判别性，获得与身份语义相关的信息。该对比损失的计算方式损为：

其中，

表示其基数；/>

身份标签相同的其它身份特征嵌入编码中的一个；/>

以外的其它身份特征嵌入编码；/>

为第p个身份标签的权重；/>

是身份特征的温度参数。

S9、将S1得到的各第一图像对应的面部运动单元特征嵌入编码送入对比学习模块，进行对比损失计算，其目的是使得面部运动编码器对于相同面部运动单元标签的面部运动单元特征嵌入编码在空间中距离相近，对于不同面部运动单元标签的面部运动单元特征嵌入编码在空间中距离远离。

将第一帧第一图像和第二帧第一图像的面部运动单元嵌入编码同时输入对比学习模块，所有面部运动单元嵌入编码作为对比学习模块的对比样本。设当前第i个样本的第c个面部运动单元嵌入编码为对比锚点，

为与第i个样本面部运动单元标签相同的其他所有面部运动单元嵌入编码。对比模块的损失使得对比锚点的面部运动单元嵌入编码和与对比锚点标签相同的样本的面部运动单元嵌入编码相似，而使得与对比锚点面部运动单元标签不相同的样本的面部运动单元嵌入编码不相似，增强相同标签的面部运动单元嵌入编码的类内紧凑型和类间可判别性，使得获得的面部运动单元嵌入编码能够有效编码对应面部运动单元标签的语义相关的信息，获得基于面部运动单元语义定义的跨身份一致性特征。该对比损失的计算方式为：

其中，C表示面部运动单元的标签类别数量，

表示下标集合的基数，/>

面部运动单元标签相同的其它面部运动嵌入编码，/>

以外的其它面部运动单元嵌入编码，/>

表示标签为c 的面部运动单元的权重，/>

表示标签为c 的面部运动单元的类别不平衡权重，/>

表示面部运动单元特征对比学习中的温度参数。

S10、将S3中图像

的面部运动特征嵌入编码和身份特征嵌入编码对(/>

，和

的面部运动特征嵌入编码和身份特征嵌入编码/>

,/>

相互交换、拼接，获得交换后的第一帧嵌入编码对(/>

和第二帧嵌入编码对/>

,/>

，分别将拼接获得的嵌入编码对送入面部图像生成器G，重建生成交换了面部运动特征的两帧图像，分别为第一帧第三图像

和第二帧第三图像/>

。输入的两帧图像经过S3和S10中两次面部运动嵌入编码和身份特征嵌入编码的交换后，生成的第一帧第三图像/>

应该与/>

相同，第二帧第三图像/>

应该与

相同，从而形成循环一致性，约束面部运动特征编码器和身份特征编码器学习到有效的面部运动特征和身份特征的编码。通过图像的循环一致性损失约束：

；

式中，

表示L1范数损失，/>

和/>

分别为第二图像的第一帧和第二帧的身份特征嵌入编码，/>

和/>

分别为第二图像的第一帧和第二帧的面部运动特征嵌入编码，/>

和

分别为第一图像的第一帧和第二帧图像。/>

在面向跨身份一致性的面部运动单元检测模型训练过程中对比学习的方式如图1所示。

S11、为了进一步使得模型训练过程稳定，以S10所述重构的人脸图像与S1中选取的两帧图像分别相似度最高为目标，训练面部运动单元多标签学习检测网络。添加的损失为：

；

式中，

表示L1范数损失，/>

和/>

分别为第一图像的第一帧和第二帧的身份特征嵌入编码，/>

和/>

分别为第一图像的第一帧和第二帧的面部运动特征嵌入编码，/>

和/>

分别为第一图像的第一帧和第二帧图像。

需要说明的是，在每次迭代训练中，先更新各对抗学习的判别器的参数，再综合各损失函数更新面部运动单元多标签学习检测网络的参数以及辅助训练网络中除各判别器以外其它部分的参数。

进一步地，为了引导面部运动特征编码器和身份特征编码器编码边缘独立的有效对应信息从而使得面部运动特征编码器学习到跨身份一致的面部运动特征，可作为优选的实施方案，提出一种特征编码正交损失，进一步使得面部运动特征与身份特征分离。特征编码正交损失损失定义为：

；

其中，

表示矩阵或者嵌入编码的模长；/>

表示/>

的转置，/>

和/>

表示

的转置，N表示所述一批样本中图像的总帧数。

实施例二

一种面部运动单元预测方法，包括：

相关技术方案同实施例一，在此不再赘述。

实施例三

一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如上所述的一种面向跨身份一致性的面部运动单元检测模型构建方法和/或如上所述的一种面部运动单元预测方法。

相关技术方案同实施例一和实施例二，在此不再赘述。

本方法可以用于驾驶员情绪检测、师生情绪监督、抑郁症治疗、康复患者情绪安抚、金融面签监督、讯问监督、安保访客情绪分析、面试情绪监督等应用场合。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向跨身份一致性的面部运动单元检测模型构建方法，其特征在于，包括：构建训练样本集，训练包括用于分离面部运动特征和身份特征的分离模块的面部运动单元多标签学习检测网络，得到面部运动单元检测模型；

所述分离模块用于编码每帧图像的身份特征嵌入编码和面部运动单元嵌入编码；在训练过程的参数更新中所基于的损失计算包括：分别将当前次迭代所输入的一批训练样本中各第一图像对应的身份特征嵌入编码中，每个身份特征嵌入编码作为对比锚点，将与对比锚点身份标签一致的其它身份特征嵌入编码作为正样本，剩余身份特征嵌入编码作为负样本，进行身份特征嵌入编码的对比损失计算，用于实现身份特征嵌入编码的类内紧凑型和类间可判别性；分别将所述一批训练样本中各第一图像对应的所有面部运动单元嵌入编码中，每个面部运动单元嵌入编码作为对比锚点，与该对比锚点标签相同的其它所有面部运动单元嵌入编码作为正样本，剩余的面部运动单元嵌入编码作为负样本，进行面部运动单元嵌入编码的对比损失计算，用于实现面部运动单元嵌入编码的类内紧凑型和类间可判别性。

2.根据权利要求1所述的面部运动单元检测模型构建方法，其特征在于，所述困难正样本的选取方式具体为：

所述困难负样本的选取方式具体为：

3.根据权利要求1所述的面部运动单元检测模型构建方法，其特征在于，身份特征嵌入编码的对比损失计算方式为：