CN114332711A

CN114332711A - 面部动作识别及模型训练的方法、装置、设备和存储介质

Info

Publication number: CN114332711A
Application number: CN202111646070.0A
Authority: CN
Inventors: 奚昌凤; 吴子扬
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-12

Abstract

本申请提供了一种面部动作识别及模型训练的方法、装置、设备和存储介质，其中模型训练方法包括：获得多个视频段样本；构建每个视频段样本的至少一个同源正样本对和至少一个同源负样本对；针对多个视频段样本构建至少一个非同源正样本对和至少一个非同源负样本对；基于多个视频段样本中的人脸图像样本，同源正样本对、同源负样本对、非同源正样本对及非同源负样本对，采用自监督学习方法训练面部动作特征模型，得到初始训练出的面部动作特征模型；利用标注有面部动作类别的多个面部图像样本，对该面部动作特征模型和面部动作分类器进行训练，得到包含面部动作识别模型。本申请的方案能够训练出可准确识别人脸面部动作的面部动作识别模型。

Description

面部动作识别及模型训练的方法、装置、设备和存储介质

技术领域

本申请涉及人脸表情识别技术领域，更具体的说，是涉及一种面部动作识别及模型训练的方法、装置、设备和存储介质。

背景技术

随着计算机技术和人工智能技术的不断发展，人脸表情识别技术的应用领域日益增多。

人脸表情识别技术能够从人脸图像中分析出人脸所具有的表情状态。但是由于情绪本身的主观性以及不同情绪之间的相似性，导致很难精准识别出人脸图像中的人脸表情。为了提升人脸表情识别的准确率，可以结合人脸图像的面部动作来辅助人脸表情识别。

可见，准确识别出人脸图像的面部动作是提升人脸表情识别的关键，因此，如何构建出能够准确识别人脸面部动作的人脸面部动作识别模型是本领域技术人员需要解决的技术问题。

发明内容

鉴于上述问题，本申请提供了面部动作识别及模型训练的方法、装置、设备和存储介质，以构建出能够准确识别人脸面部动作的面部动作识别模型。具体方案如下：

在本申请的第一方面，提供了一种面部动作识别模型的训练方法，包括：

获得多个视频段样本，每个所述视频段样本包括属于同一用户的多个人脸图像样本，且所述多个视频段样本内的人脸图像样本不完全属于同一用户；

针对每个视频段样本，构建所述视频段样本的至少一个同源正样本对和至少一个同源负样本对，所述同源正样本对包括属于同一个视频段样本且表情强度相似的两个人脸图像样本，所述同源负样本对包括属于同一个视频段样本且表情强度差值超过第一强度差值的两个人脸图像样本；

针对所述多个视频段样本构建至少一个非同源正样本对和至少一个非同源负样本对，所述非同源正样本对包括属于不同视频段样本且表情强度相似的两个人脸图像样本，所述非同源负样本对包括属于不同视频段样本且表情强度差值超过第二强度差值的两个人脸图像样本；

基于所述多个视频段样本中的人脸图像样本，所述同源正样本对、同源负样本对、非同源正样本对以及非同源负样本对，采用自监督学习方法训练面部动作特征模型，得到初始训练出的面部动作特征模型；

利用标注有面部动作类别的多个面部图像样本，对所述初始训练出的面部动作特征模型和待训练的面部动作分类器进行训练，得到包含训练出的面部动作特征模型和面部动作分类器的面部动作识别模型。

在一种可能的实现方式中，在所述采用自监督学习方法训练面部动作特征模型之前，还包括：

针对每个视频段样本中每个人脸图像样本，对所述人脸图像样本进行关键点检测，得到所述人脸图像样本中至少一种人脸部位的关键点分布；

针对每个视频段样本，将所述视频段样本中表情强度最低的人脸图像样本确定为所述视频段样本中的人脸模板图像；

针对每个视频段样本中每个人脸部位，基于所述视频段样本中各人脸图像样本中所述人脸部位的关键点分布，构建所述视频段样本中针对所述人脸部位的至少一个局部正样本对和至少一个局部负样本对，其中，所述局部正样本对包括：所述视频段样本中的人脸模板图像，以及，所述视频段样本中所述人脸部位的关键点分布与所述人脸模板图像的关键点分布相似的一个人脸图像样本；所述局部负样本对包括：所述视频段样本中的人脸模板图像，以及，所述视频段样本中所述人脸部位的关键点分布与所述人脸模板图像的关键点分布差距较大的至少一个人脸图像样本中的一个人脸图像样本；

所述基于所述多个视频段样本中的人脸图像样本，所述同源正样本对、同源负样本对、非同源正样本对以及非同源负样本对，采用自监督学习方法训练面部动作特征模型，包括：

基于所述视频段样本中的人脸图像样本，所述同源正样本对、同源负样本对、非同源正样本对、非同源负样本对、所述视频段样本中每个人脸部位对应的局部正样本对和局部负样本对，采用自监督学习方法训练面部动作特征模型。

又一方面，本申请还提供了一种人脸面部动作识别方法，包括：

获得待识别的人脸图像；

利用预先训练的面部动作识别模型识别出所述人脸图像中的面部动作，所述面部动作识别模型为利用本申请实施例任意一项所述的面部动作识别模型的训练方法得到。

又一方面，本申请还提供了一种面部动作识别模型的训练装置，包括：

视频段获得单元，用于获得多个视频段样本，每个所述视频段样本包括属于同一用户的多个人脸图像样本，且所述多个视频段样本内的人脸图像样本不完全属于同一用户；

第一样本构建单元，用于针对每个视频段样本，构建所述视频段样本的至少一个同源正样本对和至少一个同源负样本对，所述同源正样本对包括属于同一个视频段样本且表情强度相似的两个人脸图像样本，所述同源负样本对包括属于同一个视频段样本且表情强度差值超过第一强度差值的两个人脸图像样本；

第二样本构建单元，用于针对所述多个视频段样本构建至少一个非同源正样本对和至少一个非同源负样本对，所述非同源正样本对包括属于不同视频段样本且表情强度相似的两个人脸图像样本，所述非同源负样本对包括属于不同视频段样本且表情强度差值超过第二强度差值的两个人脸图像样本；

自监督学习单元，用于基于所述多个视频段样本中的人脸图像样本，所述同源正样本对、同源负样本对、非同源正样本对以及非同源负样本对，采用自监督学习方法训练面部动作特征模型，得到初始训练出的面部动作特征模型；

迁移学习单元，用于利用标注有面部动作类别的多个面部图像样本，对所述初始训练出的面部动作特征模型和待训练的面部动作分类器进行训练，得到包含训练出的面部动作特征模型和面部动作分类器的面部动作识别模型。

又一方面，本申请还提供了一种人脸面部动作识别装置，包括：

图像获得单元，用于获得待识别的人脸图像；

面部动作识别单元，用于利用预先训练的面部动作识别模型识别出所述人脸图像中的面部动作，所述面部动作识别模型为利用本申请任意一项所述的面部动作识别模型的训练方法得到。

又一方面，本申请还提供了一种计算机设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如本申请实施例中任一项所述的面部动作识别模型的训练方法的各个步骤。

又一方面，本申请还提供了一种存储介质，其上存储有计算机程序，，所述计算机程序被处理器执行时，实现本申请实施例中任一项所述的面部动作识别模型的训练方法的各个步骤。

借由上述技术方案，本申请在获得多个视频段样本之后，结合每个视频段样本中各人脸图像样本的表情强度，不仅会从同一视频段样本内选择人脸图像构建正样本对和负样本对，还会构建包含来自不同视频段样本的人脸图像的正样本对和负样本对。由于同一视频段样本内人脸图像样本属于同一用户，而不同视频段样本内的人脸图像样本可以属于不同的用户，因此，来源于同一视频段样本的正样本对和负样本对反映的同一用户的人脸动作之间的关系，而来源于两个不同视频段样本的正样本对和负样本可以反映出不同用户的人脸动作之间的关系，使得本申请在训练面部动作特征模型的过程中，既考虑了同一用户的不同人脸图像之间的面部动作关系，又考虑到不同用户的人脸图像之间的面部动作关系，从而使得训练出的面部动作特征模型可以更为准确提取人脸图像中的面部动作特征，进而使得最终训练出的面部动作识别模型可以准确识别人脸图像的面部动作。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例提供的面部动作识别模型的训练方法的一种流程示意图；

图2为本申请实施例提供的面部动作识别模型的训练方法的又一种流程示意图；

图3为本申请实施例提供的获得视频段样本的一种流程示意图；

图4为本申请实施例提供的面部动作识别模型的训练方法在一种应用示例中的流程示意图；

图5为本申请实施例提供的人脸面部动作识别方法的一种流程示意图；

图6为本申请实施例提供的面部动作识别模型的训练装置的一种组成结构示意图；

图7为本申请实施例提供的人脸面部动作识别装置的一种组成结构示意图；

图8为本申请实施例提供的计算机设备的一种组成架构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了能够训练出能够准确识别人脸面部动作特征的面部动作识别模型，本申请的发明人经过研究发现：由于人脸面部动作的标注数据较少，如果采用有监督的训练方式训练面部动作识别模型，可能会导致训练出的动作识别模型的精准度较低。而如果采用人工大规模标注人脸图像的面部动作，则会特别费时费力。基于此，为了避免需要人工大规模对人脸图像进行面部动作标注，发明人想到采用自监督的方式训练面部动作识别模型。

但是发明人进一步研究：同一个用户的视频段内时间距离较近的人脸图像帧之间的相似度，要高于时间相差较远的人脸图像帧之间的相似度。基于此，可以从同一个视频段内选择时间戳相邻的人脸图像构建正样本对，并选择时间戳相距较远的人脸图像构建负样本对，并基于正、负样本对来进行面部动作识别模型的自监督学习。但是，该种自监督学习方式仅仅考虑到同一个视频段内同一个用户的不同人脸图像之间的面部动作关系，局限性较大，不利于训练出精准度较高的面部动作识别模型。

在以上研究的基础上，本申请结合不同用户的不同视频段内人脸图像的表情强度，分别构建能够来源于同一视频段以及不同视频段的正、负样本对，使得构建出的多个正、负样本对既可以反映出同一用户的不同人脸图像之间的面部动作关系，又可以反映出不同用户的人脸图像之间的面部动作关系，从而可以训练出更为精细的面部动作识别模型。

下面结合流程图对本申请的面部动作识别模型的训练方法进行介绍。

如图1所示，其示出了本申请实施例提供的面部动作识别模型的训练方法的一种流程示意图，本实施例的方法可以应用于各种计算机设备，如个人计算机或者服务器等，对此不加限制。

本实施例的方法可以包括：

S101，获得多个视频段样本。

其中，每个视频段样本包括属于同一用户的多个人脸图像样本，且该多个视频段样本内的人脸图像样本不完全属于同一用户。

S102，针对每个视频段样本，构建该视频段样本的至少一个同源正样本对和至少一个同源负样本对。

其中，同源正样本对包括属于同一个视频段样本且表情强度相似的两个人脸图像样本，同源负样本对包括属于同一个视频段样本且表情强度差值超过第一强度差值的两个人脸图像样本。

其中，为了便于区分，本申请将来源自同一视频段样本内的人脸图像样本构成的正样本对称为同源正样本对，并将源自同一视频段样本内的人脸图像样本构成的负样本对称为同源负样本对；类似的，后续会将由来源于不同视频段样本内的人脸图像样本构成的正样本对以及负样本对分别称为非同源正样本对和非同源负样本对。

可以理解的是，面部动作与面部表情强度具有关联性，基于此，在本申请实施例中，针对每个视频段样本，可以确定视频段样本内各人脸图像样本的表情强度(也称为人脸表情的强度)。如，可以利用预先训练得到的表情强度识别模型识别出人脸图像样本的表情强度。相应的，可以结合视频段样本中各人脸图像样本的表情强度，构建表情强度相似的正样本对以及表情强度相差较大的负样本度。

其中，两个人脸图像样本的表情强度相似可以是：两个人脸图像样本的表情强度的差值小于设定阈值，或者是，两个人脸图像样本的表情强度属于同一强度区间等，具体可以根据需要设定。类似的，两个人脸图像样本的表情强度差值超过第一强度差值可以是两个人脸图像样本的表情强度的差值超过设定的差值，也可以是两个人脸图像样本的表情强度属于两个不同的表情强度区间，且这两个表情强度区间的差值超过设定的差值等。

如，在一种可能的实现方式中，针对每个视频段样本，可以先确定该视频样本中表情强度低于第一强度阈值的多个第一人脸图像样本以及表情强度高于第二强度阈值的多个第二人脸图像样本。

相应的，针对每个视频段样本，可以基于多个第一人脸图像样本和多个第二人脸图像样本，构建出至少一个同源正样本对和至少一个同源负样本对。其中，同源正样本对包括：属于同一个视频段样本中两个第一人脸图像样本或者两个第二人脸图像样本。同源负样本对包括：属于同一个视频段样本的一个第一人脸图像样本和一个第二人脸图像样本。

其中，该第二强度阈值大于第一强度阈值。其中，第一强度阈值和第二强度阈值可以根据表情强度的取值范围以及实际需要设定，对此不加限制。

如，表情强度可以分为：无表情、轻微表情、较强表情和重度表情这四大类别，表情强度低于第一强度阈值的人脸图像样本可以是属于轻微表情类别的人脸图像样本，而表情强度高于第二强度阈值的人脸图像样本可以为属于较强表情类别的人脸图像样本。例如，以表情强度的取值为区间【0,3】内的取值为例，则第一强度阈值可以为1，第二强度阈值可以为2。

在本申请中，针对一个视频段样本，为了避免表情强度相似的人脸图像样本被构建为负样本对，本申请实际上是分别从轻微表情类别的人脸图像样本和较为表情类别的人脸图像样本中选取配对负样本对的人脸图像样本。

可以理解的是，由于同一视频段样本内包含的是属于同一个用户的人脸图像样本，因此，来源自同一视频段样本内的人脸图像样本构成的正样本对和负样本对可以反映出同一用户的不同人脸图像样本之间的面部动作关系。

S103，针对多个视频段样本构建至少一个非同源正样本对和至少一个非同源负样本对。

其中，非同源正样本对包括属于不同视频段样本且表情强度相似的两个人脸图像样本。非同源负样本对包括属于不同视频段样本且表情强度差值超过第二强度差值的两个人脸图像样本。

此处，表情强度相似的含义可以与前面步骤S102相似。类似的，表情强度差值超过第二强度差值的含义也与表情强度差值超过第一强度差值的含义类似。其中，该第二强度差值可以不同于第一强度差值，也可以与第一强度差值相同，对此不加限制。

如，在一种可能的实现方式中，针对每个视频段样本，确定该视频段样本中表情强度低于第三强度阈值的多个第三人脸图像样本，以及，表情强度高于第四强度阈值的多个第四人脸图像样本，该第四强度阈值大于第三强度阈值。

相应的，本申请可以基于各视频段样本中的第三人脸图像样本和第四人脸图像样本，构建出至少一个非同源正样本对和至少一个非同源负样本对。每个非同源正样本对包括：属于不同视频段样本的两个第三人脸图像样本，每个非同源负样本对包括：属于不同视频段样本的一个第三人脸图像样本和一个第四人脸图像样本。

其中，第三强度阈值和第四强度阈值同样可以结合表情强度的取值范围及实际需要设定。如，本申请中，表情强度可以分为：无表情、轻微表情、较强表情和重度表情这四大类别，那么表情强度低于第三强度阈值的人脸图像样本可以是属于无表情类别的人脸图像样本，而表情强度高于第三强度阈值的人脸图像样本可以为属于较强表情类别的人脸图像样本。例如，以表情强度的取值为区间【0,3】内的取值为例，则第三强度阈值可以为0.5，第二强度阈值可以为2。

对于来自不同视频段样本的人脸图像样本，为了避免将不同类型的表情构建为正样本对或者是将相同类型的表情构建程负样本对，本申请在构建非同源正样本对时，仅仅从表情强度低于第三强度阈值的各人脸图像样本中选择配对。

可以理解的是，在该步骤中非同源正样本对和非同源负样本对中的两个人脸图像样本均来选取出不同的视频段样本。由于不同视频段样本中的人脸图像样本可以属于不同的用户，因此，通过非同源正样本对和非同源负样本对可以反映出不同用户的人脸图像样本之间的面部动作关系。

本申请中，基于人脸图像样本的表情强度的相似度和差异性，来构建正、负样本对，可以有效借助同类型表情的表情强度相似这一特征，在同一视频段样本以及不同视频段样本内构建正、负样本内对。

S104，基于多个视频段样本中的人脸图像样本，同源正样本对、同源负样本对、非同源正样本对以及非同源负样本对，采用自监督学习方法训练面部动作特征模型，得到初始训练出的面部动作特征模型。

可以理解的是，通过构建正、负样本对之后，可以通过度量正、负样本对的距离来实现自监督学习，自监督学习不需要标注样本标签，从而可以避免人工大规模标注人脸图像样本的面部动作特征所导致的费时和费力等问题。

本申请中，通过自监督学习可以使得面部动作特征模型提取出的正样本对之间的面部表情特征更为接近，而提取出的负样本对之间的面部动作特征差距逐步增大。当然，对于自监督学习的具体实现方式，本申请不加限制。

在一种实现方式中，本申请可以针对同一视频段样本构建出的同源正样本对和同源负样本对构建同源人脸整体损失函数，而针对基于不同视频段样本构建出的非同源正样本对和非同源负样本对，可以构建出非同源人脸损失函数。在此基础上，通过以上步骤S101到S104的不断训练学习，最终使得同源人脸整体损失函数值和同源人脸整体损失函数值在趋于稳定，从而完成自监督学习，得到训练出的用于提取人脸图像中面部动作特征的面部动作特征模型。

需要说明的是，自监督学习中所需训练的面部动作特征模型可以为任意神经网络模型，通过自监督学习对神经网络模型训练，最终训练出的神经网络模型就是面部动作特征模型。

S105，利用标注有面部动作类别的多个面部图像样本，对初始训练出的面部动作特征模型和待训练的面部动作分类器进行训练，得到包含训练出的面部动作特征模型和面部动作分类器的面部动作识别模型。

可以理解的是，通过自监督学习的方式训练出的面部动作识别模型仅可以提取出人脸图像的面部动作特征，而不能直接用来识别出面部动作。为了能够最终训练出能够应用于面部动作特征识别的面部动作识别模型，本申请实际上是利用有标签标注的面部图像样本对前面训练出的面部动作特征模型进行迁移学习，以进一步调整面部动作特征模型，并得到面部动作分类器，从而最终构建出包含面部动作特征模型和面部动作分类器的面部动作识别模型。

在本申请中，步骤S105实际上是通过迁移学习对面部动作特征模型进行二次训练，并最终训练出面部动作特征模型。相对直接利用大量标注数据来训练面部动作特征模型而言，基于自监督学习出的面部动作特征模型进行迁移学习所需的标注样本数据的数据量相对较小，也就无需人工大规模对人脸图像进行标签标注。

借由上述技术方案，本申请在获得多个视频段样本之后，结合每个视频段样本中各人脸图像样本的表情强度，不仅会从同一视频段样本内选择人脸图像构建正样本对和负样本对，还会构建包含来自不同视频段样本的人脸图像的正样本对和负样本对。由于同一视频段样本内人脸图像样本属于同一用户，而不同视频段样本内的人脸图像样本可以属于不同的用户，因此，来源于同一视频段样本的正样本对和负样本对反映的同一用户的人脸动作之间的关系，而来源于两个不同视频段样本的正样本对和负样本可以反映出不同用户的人脸动作之间的关系，使得本申请在训练面部动作特征模型的过程中，既考虑了同一用户的不同人脸图像之间的面部动作关系，又考虑到不同用户的人脸图像之间的面部动作关系，从而使得自监督学习过程不局限于单个用户的人脸图像进行对比学习，也在不同用户的人脸图像之间进行了对比学习，进而使得训练出的面部动作特征模型可以更为准确提取人脸图像中的面部动作特征，并使得最终训练出的面部动作识别模型可以准确识别人脸图像的面部动作。

可以理解的是，以上实施例在训练面部动作特征模型时，主要是基于人脸图像中的人脸整体进行的对比学习，而并未考虑局部面部动作的变化。而人脸的各个局部的肌肉动作变化均会影响到人脸面部动作的变化，因此，为了能够进一步提升面部动作识别模型识别面部动作的准确度，本申请还需要在训练面部动作识别模型的过程中，还可以构建用于反映人脸各个局部的面部动作变化的正负样本对，以更为使得面部动作识别模型能够学习到更精细的面部动作信息。

如图2所示，其示出了本申请的面部动作识别模型的训练方法的又一种流程示意图，本实施例的方法可以包括：

S201，获得多个视频段样本。

其中，每个视频段样本包括属于同一用户的多个人脸图像样本，且多个视频段样本内的人脸图像样本不完全属于同一用户。

S202，针对每个视频段样本，构建该视频段样本的至少一个同源正样本对和至少一个同源负样本对。

其中，同源正样本对包括属于同一个视频段样本且表情强度相似的两个人脸图像样本；同源负样本对包括属于同一个视频段样本且表情强度差值超过第一强度差值的两个人脸图像样本。

S203，针对多个视频段样本构建至少一个非同源正样本对和至少一个非同源负样本对。

其中，非同源正样本对包括属于不同视频段样本且表情强度相似的两个人脸图像样本，非同源负样本对包括属于不同视频段样本且表情强度差值超过第二强度差值的两个人脸图像样本。

以上步骤可以参见前面实施例的相关介绍，在此不再赘述。

S204，针对每个视频段样本中每个人脸图像样本，对该人脸图像样本进行关键点检测，得到人脸图像样本中至少一种人脸部位的关键点分布。

其中，对人脸图像样本中关键点检测可以确定出人脸图像样本中包含各个关键点以及每个关键点所属的人脸部位，从而得到不同人脸部位的关键点分布。人脸部位的关键点分布包含该人脸部位的各个关键点及其坐标位置。

在本申请中，可以根据需要，设定需要学习局部动作变化的人脸部位。如，本申请可以分别检测出人脸中的嘴巴、鼻子、左眉毛、右眉毛、左眼以及右眼等部分或者全部人脸部位的关键点分布。

S205，针对每个视频段样本，将视频段样本中表情强度最低的人脸图像样本确定为视频段样本中的人脸模板图像。

可以理解的是，视频段样本中某个人脸图像样本的表情强度最低说明该人脸图像样本是该视频段样本中用户面部动作最轻微的人脸图像。将该表情强度最低的人脸图像样本作为人脸模板图像之后，通过对比该视频段样本其他人脸图像样本与该人脸模板图像中各个人脸部位的变化，确定出各人脸部位的局部动作变化。

S206，针对每个视频段样本中每个人脸部位，基于视频段样本中各人脸图像样本中人脸部位的关键点分布，构建视频段样本中针对人脸部位的至少一个局部正样本对和至少一个局部负样本对。

其中，局部正样本对包括：视频段样本中的人脸模板图像，以及，视频段样本中人脸部位的关键点分布与人脸模板图像的关键点分布相似的一个人脸图像样本。

局部负样本对包括：视频段样本中的人脸模板图像，以及，视频段样本中人脸部位的关键点分布与人脸模板图像的关键点分布差距较大的至少一个人脸图像样本中的一个人脸图像样本。

如，在一种可能的实现方式中，针对一个视频段样本中每个人脸部位，基于该视频段样本中各人脸图像样本中该人脸部位的关键点分布，可以先确定视频段样本的人脸模板图像中人脸部位的基准长度和基准宽度。相应的，可以从视频段样本中选取满足第一条件的人脸图像样本与该人脸模板图像构成局部正样本对，并选取满足第二条件的人脸图像样本与该人脸模板图像构成局部负样本对。

其中，针对每个视频段样本中每个人脸部位：

第一条件为人脸图像样本对应的第一长度差和第二宽度差之和最小。该第一长度差为人脸图像样本的该人脸部位的长度与基准长度的长度差，第二宽度差为人脸图像样本的所述人脸部位的宽度与所述基准宽度的宽度差。

该第二条件包括：人脸图像样本的该人脸部位的长度与基准长度的第二长度差最大；或者，人脸图像样本的人脸部位的宽度与所述基准宽度的第二宽度差最大。

为了便于区分，将人脸模板图像中该人脸部位的长度称为基准长度，并该人脸部位的宽度称为基准宽度。人脸模板图像中人脸部位的基准长度可以是人脸模板图像中该人脸部位中横坐标上距离最远的两个关键点之间的距离；而基准宽度可以为人脸模板图像中该人脸部位中纵坐标上距离最远的两个关键点之间的距离。

类似的，对于人脸模板图像之外的人脸图像样本，可以将该人脸图像样本中该人脸部位上横坐标最远的两个关键点之间的距离作为人脸图像样本中该人脸部位的长度；而将该人脸部位上纵坐标最远的两个关键点之间的距离作为该人脸图像样本中该人脸部位的宽度。

如，以嘴巴这一人脸部位为例说明：

假设视频段样本除了人脸模板图像之外，还有M个人脸图像样本，M为大于1的自然数。且，人脸模板图像中嘴部的基准长度为x_{mould_mouth}(width)，嘴部的基准宽度为x_{mould_mouth}(height)，那么针对嘴部这一部位，能够与人脸模板图像组成正样本对的人脸图像样本x_{mould_mouth_positive}其与人脸模板图像的嘴部长和宽的总差值最小，可以通过如下公式一表示：

其中，p的取值为从1到M的任意自然数。x_{p_mouth}(width)表示视频段样本中第p个人脸图像样本的嘴部宽度，x_{p_mouth}(height)表示视频段样本中第p个人脸图像样本的嘴部长度。

类似的，能够与人脸模板图像组成负样本对的人脸图像样本可以包括：嘴部宽度差异最大的人脸图像样本x_{mould_mouth_negative_width}以及嘴部长度差异最大的人脸图像样本x_{mould_mouth_negative_height}，具体如以下公式二和公式三两种：

当然，以上是以嘴部部位为例，对于其他人脸部位构建局部正或者负样本对的过程也类似，在此不再赘述。

需要说明的是，构建局部正样本对和局部负样本对可以是在构建出同源正样本对和同源负样本对等样本对之后或者之前，也可以是在构建同源或者非同源正(负)样本对的同时，构建不同每个视频段样本中不同人脸部位的局部正样本对和负样本对，对此不加限制。

S207，基于视频段样本中的人脸图像样本，同源正样本对、同源负样本对、非同源正样本对、非同源负样本对、视频段样本中每个人脸部位对应的局部正样本对和局部负样本对，采用自监督学习方法训练面部动作特征模型。

本实施例中，自监督学习的目的是：通过不断学习使得面部动作特征模型预测出的同源正样本对、非同源正样本对以及局部正样本对内的人脸图像样本之间面部动作特征的差距逐步缩小，而使得同源负样本对、非同源负样本对以及各局部负样本对内的人脸图像样本之间的面部动作特征的差距逐渐增大。

如，在一种可能的实现方式中，可以基于视频段样本中的人脸图像样本，设定的同源人脸整体损失函数、非同源人脸整体损失函数以及不同种人脸部位对应的人脸局部损失函数，采用自监督学习方法对面部动作特征模型进行多损失函数联合训练。

其中，同源人脸整体损失函数为适用于同源正样本对和同源负样本对的损失函数；非同源人脸整体损失函数为适用于非同源正样本对和非同源负样本对的损失函数；而每个人脸部位的人脸局部损失函数为适用于该人脸部位对应的局部正样本对和局部负样本对的损失函数。

S208，利用标注有面部动作类别的多个面部图像样本，对初始训练出的面部动作特征模型和待训练的面部动作分类器进行训练，得到包含训练出的面部动作特征模型和面部动作分类器的面部动作识别模型。

该步骤S208可以参见前面实施例的相关介绍，在此不再赘述。

在本实施例中，在对面部动作特征模型进行自监督学习的过程中，不仅对同一用户以及不同用户的整体人脸面部动作进行学习之外，还利用了人脸局部部分的面部动作进行学习，从而可以学习到人脸中更为惊喜的面部动作特征，进而可以进一步提升最终训练出的面部动作识别模型识别面部动作的准确度。

在本申请中训练用的视频段样本可以通过多种方式得到。

在一种可能的实现方式中，本申请可以先获得多个视频段，每个视频段包括属于同一用户的多个人脸图像样本，且多个视频段中人脸图像样本不完全属于同一个用户。在此基础上，针对每个视频段，可以利用预先训练出的表情强度识别模型，分别确定该视频段中每个人脸图像样本的表情强度。相应的，可以从多个视频段中筛选出满足设定条件的多个视频段样本。

其中，满足设定条件的视频段样本包括：设定数量个表情强度符合低表情强度条件的第五人脸图像样本，以及设定数量个表情强度符合高表情强度条件的第六人脸图像样本，且，设定数量个第五人脸图像样本中表情强度符合无表情条件的人脸图像样本的占比为设定比例。

其中，低表情强度条件为使得人脸图像样本的表情强度属于设定的低表情强度范围的条件。例如，低表情强度条件可以为表情强度低于设定的低强度阈值。

类似的，高表情强度条件为使得人脸图像样本的表情强度属于设定的较强表情强度范围的条件。例如，高表情强度条件可以为表情强度低于设定的高强度阈值。

在该种实现方式中，筛选出的视频段样本中需要同时低表情强度的人脸图像和高表情强度的人脸图像，而且低表情强度的人脸图像和高表情强度的人脸图像的数量相同，以保证能够合理构建出较为丰富的正样本对和负样本对。

可以理解的是，用于筛选视频段样本的多个视频段可以是从网络平台中获取到的电影、电视剧以及短视频中提取出的包含人脸的视频段。为了得到不同用户的视频段且每个视频段中仅包含一个用户的人脸图像，本申请在从网络平台等途径获得视频段之后，需要对视频段进行清洗，以得到可筛选视频段样本的多个视频段。

如图3所示，其示出了本申请中获得视频段样本的一种实现流程示意图，本实施例的流程可以包括如下步骤：

S301，获得多个候选视频段。

其中，候选视频段包括多帧人脸图像。

候选视频段可以是从不同途径获得包含有人脸的视频段，但是每个候选视频段中可能会包含多个用户的人脸图像，而且候选视频段中还可能会存在一些不适合用于学习面部动作特征的人脸图像等。

如，可以在通过网络平台等途径获得初始视频段之后，针对每个初始视频段抽取图像帧，然后，对图像帧进行人脸检测，如果图像帧不包含人脸的图像，则丢弃该图像帧。最后，将初始视频段中抽取出且包含人脸的图像帧按照先后顺序组合为一个候选视频段。

S302，针对每帧候选视频段，利用预先训练的头部姿态估计模型分别确定该候选视频段帧中各帧人脸图像的头部姿态，基于人脸图像的头部姿态，筛选出该候选视频段中人脸相对设定的人脸正朝向的偏移角度小于设定角度值的至少一个人脸图像样本，得到过滤后的候选视频段。

其中，过滤后的候选视频段中包含筛选出的该至少一个人脸图像样本。

本申请中，该头部姿态估计模型可以目前已有的用于估计人脸图像中头部姿态的任意模型，对此不加限制。如，头部姿态估计模型可以为利用标注有头部姿态的多个人脸图像对神经网络模型进行训练得到的。

其中，设定的人脸正朝向也称为人脸正向，是表征人脸正对相机的方向。

该设定角度值可以根据需要设定，如设定角度值可以为20度。

可以理解的是，人脸图像的头部姿态可以表征人脸图像中人脸的方向，也就可以确定出人脸图像中人脸相对人脸正朝向的偏移角度等信息。基于此，如果依据候选视频段中人脸图像的头部姿态，确定出该人脸图像中能够人脸偏离人脸正朝向的角度超过设定角度值(如20度)，则需要丢弃该人脸图像，使得候选视频段中仅保留人脸偏离人脸正朝向的角度小于设定角度值的人脸图像，而保留下来的人脸图像就是人脸图像样本。

S303，针对每个过滤后的候选视频段，分别提取该候选视频段中每个人脸图像样本的人脸特征，按照该候选视频段中各人脸图像样本的人脸特征以及各人脸图像样本的先后顺序，将该候选视频段拆分为至少一个视频段，得到从多个候选视频段中拆分出的多个视频段。

其中，每个视频段中包括同一个用户的至少一个人脸图像样本。

如，按照候选视频段中各人脸图像样本的人脸特征，可以依次计算任意相邻两帧人脸图像样本的人脸相似度。如果两帧人脸图像样本的人脸相似度超过设定相似度阈值，则确认这两帧人脸图像样本属于同一用户的人脸图像。

在此基础上，按照候选视频段中各帧人脸图像样本的先后顺序，可以将属于同一用户且彼此连续的多帧人脸图像样本划分到一个视频段，而不同用户的人脸图像样本会划分到不同的视频段，从而将候选视频段划分为多个不同用户对应的视频段。

作为一种可选方式，考虑到人脸的情绪变化是个连续的过程，若视频段的时长较短，则难以反应人脸情绪的变化过程，因此，本申请还可以丢弃时长小于设定时长(如两秒)的视频段。

S304，针对每个视频段，利用预先训练出的表情强度识别模型，分别确定该视频段中每个人脸图像样本的表情强度。

其中，表情强度识别模型可以采用现有已有的用于识别表情强度的识别模型；也可以是预先利用标注了表情强度的多个人脸图像样本训练得到的，如，基于标注有表情强度的人脸图像样本数据，采用回归的方式训练网络模型，得到训练出的表情强度识别模型。

S305，从该多个视频段中筛选出满足设定条件的多个视频段样本。

该步骤S305可以参见前面的相关介绍，在此不再赘述。

需要说明的是，图3是以获得视频段样本的一种实现方式为例进行说明，在实际应用中，还可以通过其他方式获得视频段样本，对此不加限制。

为了便于理解本申请的方案，下面结合一个实例进行说明。以人脸图像的表情强度分为四个强度等级为例说明。这四个强度等级依次为：无表情、轻微表情、强表情、重度表情。相应的，本申请的人脸图像样本的表情强度的取值表情强度值在区间[0，3]之间，其中表情强度的取值为0表示无表情，取值为3则表示重度表情。

如图4所示，其示出了本申请实施例提供的面部动作识别模型的训练方法在一种应用实例中的流程示意图，本实施例的方法可以包括：

S401，获得多个视频段。

每个视频段中包括同一个用户的至少一个人脸图像样本，且多个视频段中的人脸图像样本不完全属于同一个用户。

S402，针对每个视频段，利用预先训练出的表情强度识别模型，分别确定视频段中每个人脸图像样本的表情强度，将视频段样本中表情强度最低的人脸图像样本确定为视频段样本中的人脸模板图像。

S403，从该多个视频段中选取出目标数量个满足设定条件的视频段样本。

在本实施例中，目标数量为K，该目标数量为选取视频段样本的数量，其为大于1的自然数。

其中，满足设定条件的视频段样本中包括：设定数量N个表情强度小于1的人脸图像样本，以及N个表情强度大于2的人脸图像样本，且，设定数量N个表情强度小于1的人脸图像样本中，表情强度小于0.5的人脸图像样本的占比为1/2。

S404，针对每个视频段样本，构建该视频段样本的至少一个同源正样本对和至少一个同源负样本对。

其中，同源正样本对包括：属于同一个视频段样本且表情强度均小于1的两个人脸图像样本x_strength＜1；或者，属于同一个视频段样本且表情强度均大于2的两个人脸图像样本x_strength＞2。

同源负样本对包括：属于同一个视频段样本，且一个表情强度小于1的人脸图像样本x_strength＜1和一个表情强度大于2的人脸图像样本x_strength＞2。

S405，针对多个视频段样本构建至少一个非同源正样本对和至少一个非同源负样本对。

其中，非同源正样本对包括：属于不同视频段样本且表情强度均小于0.5的人脸图像样本x_{strength＜0.5}。

非同源负样本对包括：属于不同视频段样本，且一个表情强度小于0.5的人脸图像样本x_{strength＜0.5}以及一个表情强度大于2的人脸图像样本x_strength＞2。

可见，对于来自于不同视频段的帧图像，为了避免不同类型的表情被作为正样本对或者相同类型的表情被当作负样本对，本申请值只对不同视频段样本中表情强度低于0.5的各接近无表情的人脸图像样本之间进行非同源正样本对配对，而在不同视频段样本中接近无表情的人脸图像与具有较强表情的人脸图像样本之间进行负样本对配对。

S406，针对每个视频段样本中每个人脸图像样本，对该人脸图像样本进行关键点检测，得到人脸图像样本中至少一种人脸部位的关键点分布。

S407，针对每个视频段样本中每个人脸部位，基于该视频段样本中各人脸图像样本中人脸部位的关键点分布，从该视频段样本中选取满足第一条件的人脸图像样本与该视频段样本中的人脸模板图像构成局部正样本对，选取满足第二条件的人脸图像样本与该人脸模板图像构成局部负样本对。

其中，针对一个视频段样本中每个人脸部位，第一条件为人脸图像样本对应的第一长度差和第二宽度差之和最小。该第一长度差为人脸图像样本的人脸部位的长度与该人脸模板图像中人脸部位的基准长度的长度差，该第二宽度差为人脸图像样本的人脸部位的宽度与人脸模板图像中该人脸部位的基准宽度的宽度差。

该第二条件包括：人脸图像样本的人脸部位的长度与该基准长度的第二长度差最大；或者，人脸图像样本的该人脸部位的宽度与该基准宽度的第二宽度差最大。

其中，针对每个人脸部位，人脸图像样本(对于人脸模板图像也适用)中该人脸部位的宽度为：该人脸图像样本中该人脸部位对应的横坐标上最远的两个关键点的距离；而人脸部位的长度为：该人脸图像样本中该人脸部位对应的纵坐标上最远的两个关键点的距离。

S408，基于各视频段样本中的人脸图像样本，设定的同源人脸整体损失函数、非同源人脸整体损失函数以及不同种人脸部位对应的人脸局部损失函数，采用自监督学习方法对面部动作特征模型进行多损失函数联合训练。

在本实施例中，同源人脸整体损失函数为适用于同源正样本对和同源负样本对的损失函数。该同源人脸整体损失函数值L_{same_video}可以参见如下公式四：

其中，K为选取出的视频段样本的数量(即目标数量)；N为视频段样本中包含的表情强度小于1的人脸图像样本的数量，或者说是，表情强度大于2的人脸图像样本的数量；p₁和p₂的取值均为从1到2N的自然数。

l_{same_video}(p1,p2)表示同一个视频段样本内表情强度小于1和表情强度大于2的2N个人脸图像样本中，第p₁个人脸图像样本与第p₂个人脸图像样本之间的损失函数值；

l_{same_video}(p2,p1)表示同一个视频段样本内表情强度小于1和表情强度大于2的2N个人脸图像样本中，第p₂个人脸图像样本与第p₁个人脸图像样本之间的损失函数值；

l_{same_video}(p1,p2)和l_{same_video}(p2,p1)可以通过如下公式五计算得到。

公式五表示对于同一个视频段样本内表情强度小于1和表情强度大于2的2N个人脸图像样本中，第i个人脸图像样本与第j个人脸图像样本之间的损失函数值L_{same_video}(i,j)：

其中，i和j为从1到2N的自然数。k的取值为从1到K的自然数，m的取值为从1到N的自然数。

表示视频段样本k中第i个表情强度小于1的人脸图像样本；

表示视频段样本k中第j个表情强度小于1的人脸图像样本；

表示视频段样本k中第i个表情强度大于2的人脸图像样本；

表示视频段样本k中第j个表情强度大于2的人脸图像样本；

表示视频段样本k中第m个表情强度大于2的人脸图像样本；

f()为面部动作特征模型的函数表示，如，

表示向面部动作特征模型输入人脸图像样本

后，输出的面部动作特征。

其中，非同源人脸整体损失函数为适用于非同源正样本对和非同源负样本对的损失函数。非同源人脸整体损失函数值L_{different_video}可以表示为如下公式六：

其中，l_{different_video}(p1,p2)表示一个视频段样本中属于2N个人脸图像样本中的第p₁个人脸图像样本，与另一个视频段样本中属于2N个人脸图像样本中的第p₂个人脸图像样本之间的损失函数值；每个视频图像样本中2N个人脸图像样本为该视频图像样本中表情强度小于1和表情强度大于2的2N个人脸图像样本。

l_{different_video}(p2,p1)表示一个视频段样本中属于2N个人脸图像样本中的第p₂个人脸图像样本，与另一个视频段样本中属于2N个人脸图像样本中的第p₁个人脸图像样本之间的损失函数值。

类似的，l_{different_video}(p1,p2)和l_{different_video}(p2,p1)可以通过如下公式七计算得到。

公式七表示对于同一个视频段样本内的2N个人脸图像样本中第i个人脸图像样本，与另一个视频段样本的2N个人脸图像样本中第j个人脸图像样本之间的损失函数值。

其中，q的取值为从1到K的自然数。

表示视频段样本k中第i个表情强度小于0.5的人脸图像样本；

表示视频段样本k中第j个表情强度小于0.5的人脸图像样本；

表示视频段样本q中第m个表情强度大于2的人脸图像样本。

类似的，每个人脸部位的人脸局部损失函数为适用于该人脸部位对应的局部正样本对和局部负样本对的损失函数。

如，人脸中嘴部的局部损失函数的函数值L_mouth可以参见如下公式八：

其中，

表示视频段样本k中的人脸模板图像。

在此基础上，自监督学习的总损失函数对应的损失函数值L可以表示为如下公式九：

L＝L_{same_video}+λ₁L_{different_video}+λ₂L_mouth+λ₃L_{left_eyebrow}+λ₄L_{right_eyebrow}+λ₅L_{left_eye}+λ₆L_{right_eye}， (公式九)；

其中，λ₁、λ₂、λ₃、λ₄、λ₅、λ₆均为预先设定的不同参数值，具体可以根据实际需要设定或者调整。L_{left_eyebrow}、L_{right_eyebrow}、L_{left_eye}、L_{right_eye}分别表示左眉毛、右眉毛、左眼以及右眼睛的自监督学习的损失函数值。

S409，利用标注有面部动作类别的多个面部图像样本，对初始训练出的面部动作特征模型和待训练的面部动作分类器进行训练，得到包含训练出的面部动作特征模型和面部动作分类器的面部动作识别模型。

该步骤S409可以参见前面实施例的相关介绍，在此不再赘述。

又一方面，本申请还提供了一种人脸面部动作识别方法。

如图5所示，其示出了本申请提供的人脸面部动作识别方法的一种流程示意图，本实施例的方法可以包括：

S501，获得待识别的人脸图像。

该人脸图像为需要识别面部动作类别的人脸图像。

S502，利用预先训练的面部动作识别模型识别出该人脸图像中的面部动作。

其中，该面部动作识别模型可以为利用前面任意一个实施例描述的面部动作识别模型的训练方法得到。

又一方面，对应本申请的面部动作识别模型的训练方法，本申请还提供了一种面部动作识别模型的训练方法。

如图6所示，其示出了本申请一种面部动作识别模型的训练装置的一种组成结构示意图，本实施例的装置可以包括：

视频段获得单元601，用于获得多个视频段样本，每个所述视频段样本包括属于同一用户的多个人脸图像样本，且所述多个视频段样本内的人脸图像样本不完全属于同一用户；

第一样本构建单元602，用于针对每个视频段样本，构建所述视频段样本的至少一个同源正样本对和至少一个同源负样本对，所述同源正样本对包括属于同一个视频段样本且表情强度相似的两个人脸图像样本，所述同源负样本对包括属于同一个视频段样本且表情强度差值超过第一强度差值的两个人脸图像样本；

第二样本构建单元603，用于针对所述多个视频段样本构建至少一个非同源正样本对和至少一个非同源负样本对，所述非同源正样本对包括属于不同视频段样本且表情强度相似的两个人脸图像样本，所述非同源负样本对包括属于不同视频段样本且表情强度差值超过第二强度差值的两个人脸图像样本；

自监督学习单元604，用于基于所述多个视频段样本中的人脸图像样本，所述同源正样本对、同源负样本对、非同源正样本对以及非同源负样本对，采用自监督学习方法训练面部动作特征模型，得到初始训练出的面部动作特征模型；

迁移学习单元605，用于利用标注有面部动作类别的多个面部图像样本，对所述初始训练出的面部动作特征模型和待训练的面部动作分类器进行训练，得到包含训练出的面部动作特征模型和面部动作分类器的面部动作识别模型。

在一种可能的实现方式中，该装置还包括：

关键点检测单元，用于在自监督学习单元采用自监督学习方法训练面部动作特征模型之前，针对每个视频段样本中每个人脸图像样本，对所述人脸图像样本进行关键点检测，得到所述人脸图像样本中至少一种人脸部位的关键点分布；

模板确定单元，用于针对每个视频段样本，将所述视频段样本中表情强度最低的人脸图像样本确定为所述视频段样本中的人脸模板图像；

第三样本构建单元，用于针对每个视频段样本中每个人脸部位，基于所述视频段样本中各人脸图像样本中所述人脸部位的关键点分布，构建所述视频段样本中针对所述人脸部位的至少一个局部正样本对和至少一个局部负样本对，其中，所述局部正样本对包括：所述视频段样本中的人脸模板图像，以及，所述视频段样本中所述人脸部位的关键点分布与所述人脸模板图像的关键点分布相似的一个人脸图像样本；所述局部负样本对包括：所述视频段样本中的人脸模板图像，以及，所述视频段样本中所述人脸部位的关键点分布与所述人脸模板图像的关键点分布差距较大的至少一个人脸图像样本中的一个人脸图像样本；

该自监督学习单元，具体为，用于基于所述视频段样本中的人脸图像样本，所述同源正样本对、同源负样本对、非同源正样本对、非同源负样本对、所述视频段样本中每个人脸部位对应的局部正样本对和局部负样本对，采用自监督学习方法训练面部动作特征模型。

在又一种可能的实现方式中，自监督学习单元，包括：

自监督学习子单元，用于基于所述视频段样本中的人脸图像样本，设定的同源人脸整体损失函数、非同源人脸整体损失函数以及不同种人脸部位对应的人脸局部损失函数，采用自监督学习方法对面部动作特征模型进行多损失函数联合训练；

其中，所述同源人脸整体损失函数为适用于同源正样本对和同源负样本对的损失函数；

所述非同源人脸整体损失函数为适用于非同源正样本对和非同源负样本对的损失函数；

每个人脸部位的人脸局部损失函数为适用于所述人脸部位对应的局部正样本对和局部负样本对的损失函数。

在又一种可能的实现方式中，第一样本构建单元，包括：

第一样本初选子单元，用于针对每个视频段样本，确定所述视频样本中表情强度低于第一强度阈值的多个第一人脸图像样本以及表情强度高于第二强度阈值的多个第二人脸图像样本，所述第二强度阈值大于所述第一强度阈值；

第一样本构建子单元，用于针对每个视频段样本，基于所述多个第一人脸图像样本和多个第二人脸图像样本，构建出至少一个同源正样本对和至少一个同源负样本对，所述同源正样本对包括：属于同一个视频段样本的两个第一人脸图像样本或者两个第二人脸图像样本，所述同源负样本对包括：属于同一个视频段样本的一个第一人脸图像样本和一个第二人脸图像样本。

在又一种可能的实现方式中，第二样本构建单元，包括：

第二样本初选子单元，用于针对每个视频段样本，确定所述视频段样本中表情强度低于第三强度阈值的多个第三人脸图像样本，以及，表情强度高于第四强度阈值的多个第四人脸图像样本，所述第四强度阈值大于第三强度阈值；

第二样本构建子单元，用于基于各视频段样本中的第三人脸图像样本和第四人脸图像样本，构建出至少一个非同源正样本对和至少一个非同源负样本对，所述非同源正样本对包括：属于不同视频段样本的两个第三人脸图像样本，所述非同源负样本对包括属于不同视频段样本的一个第三人脸图像样本和一个第四人脸图像样本。

在又一种可能的实现方式中，该第三样本构建单元包括：

第三样本构建子单元，用于针对每个视频段样本中每个人脸部位，基于所述视频段样本中各人脸图像样本中所述人脸部位的关键点分布，确定所述视频段样本的人脸模板图像中所述人脸部位的基准长度和基准宽度，从所述视频段样本中选取满足第一条件的人脸图像样本与所述人脸模板图像构成局部正样本对，选取满足第二条件的人脸图像样本与所述人脸模板图像构成局部负样本对；

其中，第一条件为人脸图像样本对应的第一长度差和第二宽度差之和最小，所述第一长度差为人脸图像样本的所述人脸部位的长度与所述基准长度的长度差，所述第二宽度差为人脸图像样本的所述人脸部位的宽度与所述基准宽度的宽度差；

所述第二条件包括：人脸图像样本的所述人脸部位的长度与所述基准长度的第二长度差最大；或者，人脸图像样本的所述人脸部位的宽度与所述基准宽度的第二宽度差最大。

在又一种可能的实现方式中，视频段获得单元包括：

初始视频获得单元，用于获得多个视频段，每个视频段包括属于同一用户的多个人脸图像样本，且多个视频段中人脸图像样本不完全属于同一个用户；

表情识别单元，用于针对每个视频段，利用预先训练出的表情强度识别模型，分别确定所述视频段中每个人脸图像样本的表情强度；

视频段筛选单元，用于从所述多个视频段中筛选出满足设定条件的多个视频段样本，其中，满足设定条件的视频段样本包括：设定数量个表情强度符合低表情强度条件的第五人脸图像样本，以及设定数量个表情强度符合高表情强度条件的第六人脸图像样本，且，所述设定数量个第五人脸图像样本中表情强度符合无表情条件的人脸图像样本的占比为设定比例。

在一种可选方式中，该初始视频获得单元，包括：

候选视频获得单元，用于获得多个候选视频段，所述候选视频段包括多帧人脸图像；

候选视频筛选单元，用于针对每帧候选视频段，利用预先训练的头部姿态估计模型分别确定所述候选视频段帧中各帧人脸图像的头部姿态，基于所述人脸图像的头部姿态，筛选出所述候选视频段中人脸相对设定的人脸正朝向的偏移角度小于设定角度值的至少一个人脸图像样本，得到过滤后的候选视频段，所述过滤后的候选视频段中包含筛选出的至少一个人脸图像样本；

候选视频拆分单元，用于针对每个过滤后的候选视频段，分别提取所述候选视频段中每个人脸图像样本的人脸特征，按照所述候选视频段中各人脸图像样本的人脸特征以及各人脸图像样本的先后顺序，将所述候选视频段拆分为至少一个视频段，每个视频段中包括同一个用户的至少一个人脸图像样本。

又一方面，对应本申请的一种人脸面部动作识别方法，本申请还提供了一种人脸面部动作识别装置。如图7所示，其示出了本申请提供一种人脸面部动作识别装置的一种组成结构示意图，本实施例的装置包括：

图像获得单元701，用于获得待识别的人脸图像；

面部动作识别单元702，用于利用预先训练的面部动作识别模型识别出所述人脸图像中的面部动作，所述面部动作识别模型为利用权利要求1至8任意一项所述的面部动作识别模型的训练方法得到。

本申请实施例提供的面部动作识别模型的训练方法可应用于计算机设备，个人计算机或者服务器等。可选的，图8示出了本申请提供的计算机设备的一种硬件结构框图，参照图8，该计算机设备的硬件结构可以包括：至少一个处理器801，至少一个通信接口802，至少一个存储器803和至少一个通信总线804；

在本申请实施例中，处理器801、通信接口802、存储器803、通信总线804的数量为至少一个，且处理器801、通信接口802、存储器803通过通信总线804完成相互间的通信；

处理器801可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器803可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获得多个视频段样本，每个视频段样本包括属于同一用户的多个人脸图像样本，且该多个视频段样本内的人脸图像样本不完全属于同一用户；

针对每个视频段样本，构建该视频段样本的至少一个同源正样本对和至少一个同源负样本对，该同源正样本对包括属于同一个视频段样本且表情强度相似的两个人脸图像样本，该同源负样本对包括属于同一个视频段样本且表情强度差值超过第一强度差值的两个人脸图像样本；

针对该多个视频段样本构建至少一个非同源正样本对和至少一个非同源负样本对，该非同源正样本对包括属于不同视频段样本且表情强度相似的两个人脸图像样本，该非同源负样本对包括属于不同视频段样本且表情强度差值超过第二强度差值的两个人脸图像样本；

基于该多个视频段样本中的人脸图像样本，该同源正样本对、同源负样本对、非同源正样本对以及非同源负样本对，采用自监督学习方法训练面部动作特征模型，得到初始训练出的面部动作特征模型；

利用标注有面部动作类别的多个面部图像样本，对该初始训练出的面部动作特征模型和待训练的面部动作分类器进行训练，得到包含训练出的面部动作特征模型和面部动作分类器的面部动作识别模型。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种面部动作识别模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述采用自监督学习方法训练面部动作特征模型之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述视频段样本中的人脸图像样本，所述同源正样本对、同源负样本对、非同源正样本对、非同源负样本对、所述视频段样本中每个人脸部位对应的局部正样本对和局部负样本对，采用自监督学习方法训练面部动作特征模型，包括：

基于所述视频段样本中的人脸图像样本，设定的同源人脸整体损失函数、非同源人脸整体损失函数以及不同种人脸部位对应的人脸局部损失函数，采用自监督学习方法对面部动作特征模型进行多损失函数联合训练；

4.根据权利要求1所述的方法，其特征在于，所述针对每个视频段样本，构建所述视频段样本的至少一个同源正样本对和至少一个同源负样本对，包括：

针对每个视频段样本，确定所述视频样本中表情强度低于第一强度阈值的多个第一人脸图像样本以及表情强度高于第二强度阈值的多个第二人脸图像样本，所述第二强度阈值大于所述第一强度阈值；

针对每个视频段样本，基于所述多个第一人脸图像样本和多个第二人脸图像样本，构建出至少一个同源正样本对和至少一个同源负样本对，所述同源正样本对包括：属于同一个视频段样本的两个第一人脸图像样本或者两个第二人脸图像样本，所述同源负样本对包括：属于同一个视频段样本的一个第一人脸图像样本和一个第二人脸图像样本。

5.根据权利要求1或4所述的方法，其特征在于，所述针对所述多个视频段样本构建至少一个非同源正样本对和至少一个非同源负样本对，包括：

针对每个视频段样本，确定所述视频段样本中表情强度低于第三强度阈值的多个第三人脸图像样本，以及，表情强度高于第四强度阈值的多个第四人脸图像样本，所述第四强度阈值大于第三强度阈值；

基于各视频段样本中的第三人脸图像样本和第四人脸图像样本，构建出至少一个非同源正样本对和至少一个非同源负样本对，所述非同源正样本对包括：属于不同视频段样本的两个第三人脸图像样本，所述非同源负样本对包括属于不同视频段样本的一个第三人脸图像样本和一个第四人脸图像样本。

6.根据权利要求2所述的方法，其特征在于，所述针对每个视频段样本中每个人脸部位，基于所述视频段样本中各人脸图像样本中所述人脸部位的关键点分布，构建所述视频段样本中针对所述人脸部位的至少一个局部正样本对和至少一个局部负样本对，包括：

针对每个视频段样本中每个人脸部位，基于所述视频段样本中各人脸图像样本中所述人脸部位的关键点分布，确定所述视频段样本的人脸模板图像中所述人脸部位的基准长度和基准宽度，从所述视频段样本中选取满足第一条件的人脸图像样本与所述人脸模板图像构成局部正样本对，选取满足第二条件的人脸图像样本与所述人脸模板图像构成局部负样本对；

7.根据权利要求1所述的方法，其特征在于，所述获得多个视频段样本，包括：

获得多个视频段，每个视频段包括属于同一用户的多个人脸图像样本，且多个视频段中人脸图像样本不完全属于同一个用户；

针对每个视频段，利用预先训练出的表情强度识别模型，分别确定所述视频段中每个人脸图像样本的表情强度；

从所述多个视频段中筛选出满足设定条件的多个视频段样本，其中，满足设定条件的视频段样本包括：设定数量个表情强度符合低表情强度条件的第五人脸图像样本，以及设定数量个表情强度符合高表情强度条件的第六人脸图像样本，且，所述设定数量个第五人脸图像样本中表情强度符合无表情条件的人脸图像样本的占比为设定比例。

8.根据权利要求7所述的方法，其特征在于，所述获得多个视频段，包括：

获得多个候选视频段，所述候选视频段包括多帧人脸图像；

针对每帧候选视频段，利用预先训练的头部姿态估计模型分别确定所述候选视频段帧中各帧人脸图像的头部姿态，基于所述人脸图像的头部姿态，筛选出所述候选视频段中人脸相对设定的人脸正朝向的偏移角度小于设定角度值的至少一个人脸图像样本，得到过滤后的候选视频段，所述过滤后的候选视频段中包含筛选出的至少一个人脸图像样本；

针对每个过滤后的候选视频段，分别提取所述候选视频段中每个人脸图像样本的人脸特征，按照所述候选视频段中各人脸图像样本的人脸特征以及各人脸图像样本的先后顺序，将所述候选视频段拆分为至少一个视频段，每个视频段中包括同一个用户的至少一个人脸图像样本。

9.一种人脸面部动作识别方法，其特征在于，包括：

获得待识别的人脸图像；

利用预先训练的面部动作识别模型识别出所述人脸图像中的面部动作，所述面部动作识别模型为利用权利要求1至8任意一项所述的面部动作识别模型的训练方法得到。

10.一种面部动作识别模型的训练装置，其特征在于，包括：

11.一种人脸面部动作识别装置，其特征在于，包括：

图像获得单元，用于获得待识别的人脸图像；

面部动作识别单元，用于利用预先训练的面部动作识别模型识别出所述人脸图像中的面部动作，所述面部动作识别模型为利用权利要求1至8任意一项所述的面部动作识别模型的训练方法得到。

12.一种计算机设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～8中任一项所述的面部动作识别模型的训练方法的各个步骤。

13.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～8中任一项所述的面部动作识别模型的训练方法的各个步骤。