CN113762173B

CN113762173B - 人脸光流估计及光流值预测模型的训练方法和装置

Info

Publication number: CN113762173B
Application number: CN202111058295.4A
Authority: CN
Inventors: 于雷; 隋伟; 张骞
Original assignee: Beijing Horizon Information Technology Co Ltd
Current assignee: Beijing Horizon Information Technology Co Ltd
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2024-05-07
Anticipated expiration: 2041-09-09
Also published as: CN113762173A

Abstract

本公开实施例公开了一种人脸光流估计及光流值预测模型的训练方法和装置，其中，人脸光流估计方法包括：对在视频中相邻的第一图像帧和第二图像帧分别进行人脸关键点识别，得到第一关键点组和第二关键点组；基于第一关键点组和第二关键点组，确定第一图像帧对应的第一面片组和第二图像帧对应的第二面片组；基于第一面片组中多个第一面片与第二面片组中多个第二面片之间的对应关系，确定每个第一面片中多个第一像素点与第一面片对应的第二面片中多个第二像素点之间的对应关系；基于每个第一像素点和对应的第二像素点之间的位移信息，确定第一图像帧对应的人脸光流值。本实施例得到的人脸光流值精细度高、准确性好。

Description

人脸光流估计及光流值预测模型的训练方法和装置

技术领域

本公开涉及计算机视觉技术，尤其是一种人脸光流估计及光流值预测模型的训练方法和装置。

背景技术

人脸稠密光流估计用于得到人脸图像中每个像素点在帧间的运动，在表情/微表情识别、行为识别等领域有着广泛的应用。近年来随着深度学习技术的发展，基于深度学习的稠密光流估计技术已经超过了传统方法，取得了更好的效果。基于深度学习的有监督光流估计算法往往需要大量的真值进行模型训练，但真实场景的人脸光流真值非常难以获取。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种人脸光流估计及光流值预测模型的训练方法和装置。

根据本公开实施例的一个方面，提供了一种人脸光流估计方法，包括：

对在视频中相邻的第一图像帧和第二图像帧分别进行人脸关键点识别，得到第一关键点组和第二关键点组；

基于所述第一关键点组中包括的多个第一人脸关键点和所述第二关键点组中包括的多个第二人脸关键点，确定所述第一图像帧对应的第一面片组和所述第二图像帧对应的第二面片组；

基于所述第一面片组中多个第一面片与所述第二面片组中多个第二面片之间的对应关系，确定每个所述第一面片中多个第一像素点与所述第一面片对应的所述第二面片中多个第二像素点之间的对应关系；

基于每个所述第一像素点和对应的所述第二像素点之间的位移信息，确定所述第一图像帧对应的人脸光流值。

根据本公开实施例的另一方面，提供了一种光流值预测模型的训练方法，包括：

基于上述任意一项实施例所述的人脸光流估计方法，确定相邻的第一图像帧和第二图像帧之间的人脸光流值；

将所述第一图像帧和所述第二图像帧输入到待训练的光流值预测模型中，得到预测光流值；

以所述人脸光流值和所述预测光流值，确定网络损失；

基于所述网络损失对所述光流值预测模型进行训练。

根据本公开实施例的又一方面，提供了一种人脸光流估计装置，包括：

关键点识别模块，用于对在视频中相邻的第一图像帧和第二图像帧分别进行人脸关键点识别，得到第一关键点组和第二关键点组；

面片确定模块，包括基于所述关键点识别模块得到的第一关键点组中包括的多个第一人脸关键点和所述关键点识别模块得到的第二关键点组中包括的多个第二人脸关键点，确定所述第一图像帧对应的第一面片组和所述第二图像帧对应的第二面片组；

像素点对应模块，用于基于所述面片确定模块确定的第一面片组中多个第一面片与所述面片确定模块确定的第二面片组中多个第二面片之间的对应关系，确定每个所述第一面片中多个第一像素点与所述第一面片对应的所述第二面片中多个第二像素点之间的对应关系；

光流值确定模块，用于基于所述像素点对应模块确定的每个所述第一像素点和对应的所述第二像素点之间的位移信息，确定所述第一图像帧对应的人脸光流值。

根据本公开实施例的还一方面，提供了一种光流值预测模型的训练装置，包括：

人脸光流估计模块，用于基于上述任意一项实施例所述的人脸光流估计方法，确定相邻的第一图像帧和第二图像帧之间的人脸光流值；

模型预测模块，用于将所述第一图像帧和所述第二图像帧输入到待训练的光流值预测模型中，得到预测光流值；

网络损失确定模块，用于以所述人脸光流估计模块确定的人脸光流值和所述模型预测模块确定的预测光流值，确定网络损失；

模型训练模块，用于基于所述网络损失确定模块确定的网络损失对所述光流值预测模型进行训练。

根据本公开实施例的再一方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一实施例所述的方法。

根据本公开实施例的再一方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述任一实施例所述的方法。

基于本公开上述实施例提供的一种人脸光流估计及光流值预测模型的训练方法和装置，由于人脸关键点在某种程度上反应了面部肌肉的分布，本实施例利用面片剖分的方式可以看作对人脸进行了运动区域划分，通常同一区域的运动整体性较高；因此，得到的人脸光流值精细度高、准确性好。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1A是本公开一示例性实施例提供的人脸光流估计方法的流程示意图。

图1B是本公开一示例性实施例提供的人脸光流估计方法中一可选示例中的关键点检测结果示意图。

图1C是基于图1B所示的人脸关键点得到的第一帧人脸图像对应的人脸剖分示意图。

图1D是对应图1C所示的第一帧人脸图像的第二帧人脸图像的人脸剖分示意图。

图2是本公开另一示例性实施例提供的人脸光流估计方法的流程示意图。

图3是本公开图2所示的实施例中步骤201的一个流程示意图。

图4是本公开图2所示的实施例中步骤202的一个流程示意图。

图5是本公开图2所示的实施例中步骤203的一个流程示意图。

图6是本公开图2所示的实施例中步骤204的一个流程示意图。

图7是本公开一示例性实施例提供的光流值预测模型的训练方法的流程示意图。

图8是本公开一示例性实施例提供的人脸光流估计装置的结构示意图。

图9是本公开另一示例性实施例提供的人脸光流估计装置的结构示意图。

图10是本公开一示例性实施例提供的光流值预测模型的训练装置的结构示意图。

图11是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

在实现本公开的过程中，发明人发现，基于传统光流算法获取人脸光流真值，至少存在以下问题：这些算法并未针对人脸进行调优，效果往往不佳。

示例性方法

图1A是本公开一示例性实施例提供的人脸光流估计方法的结构示意图。光流描述的是相邻两帧图像之间像素点位移，所以原始数据是相邻两帧包含人脸的图像。如图1所示，本实施例提供的方法包括：

步骤101：对输入的第一帧人脸图像和第二帧人脸图像分别进行人脸关键点检测，得到多个人脸关键点，例如，对一个可选示例中的人脸进行关键点检测，得到如图1B所示的68个人脸关键点。

步骤102，人脸剖分：基于第一帧人脸图像对应的多个人脸关键点，对第一帧人脸图像进行剖分得到多个第一三角面片；基于第一帧人脸图像中多个三角面片顶点坐标在多个关键点中的顺序位置，可以对应得到第二帧人脸图像的三角剖分结果，得到多个第二三角面片。

步骤103，面片内部点的对应：基于多个第一三角面片和多个第二三角片面之间的一一对应关系，对每对对应的三角面片，通过三角形内部点的参数化表示计算这两个三角形内部点的对应关系：

例如，对上述图1B所示实施例中的68个人脸关键点中的部分关键点进行连接得到如图1C所示的多个第一三角面片，设第一帧人脸图像中三角面片的三个顶点A、B、C，坐标分别为a、b、c(三个顶点都为人脸关键点，其对应的坐标已知)，对于该三角形任意内部点P，计算参数p₁＝S(PBC)/S(ABC)、p₂＝S(PAC)/S(ABC)、p₃＝S(PAB)/S(ABC)，满足p₁+p₂+p₃＝1，S表示对应三角形面积，即S(PBC)表示三角形PBC的面积，S(ABC)表示三角面片ABC的面积，S(PAC)表示三角形PAC的面积，S(PAB)表示三角形PAB的面积；可知，P的坐标p的可表示为p₁a+p₂b+p₃c。

如图1D所示，与图1C所示的多个第一三角面片相对应的第二帧人脸图像对应的多个三角面片，其中，第二帧人脸图像中对应三角面片的三个顶点A’、B’、C’，坐标分别为a’、b’、c’(三个顶点都为人脸关键点，其对应的坐标已知)，基于相似三角形原理，那么P点在第二帧人脸图像中对应三角面片中的对应点P’的坐标p’即为p₁a’+p₂b’+p₃c’。

步骤104，光流值确定：根据得到的两帧人脸图像中像素点的对应关系，计算对应像素点之间的位移，作为第一帧人脸图像中人脸内部点的光流真值。该光流真值为一个两通道的矩阵(一个通道对应x方向，另一个通道对应y方向)，用于表达人脸所有点的光流值。

图2是本公开另一示例性实施例提供的人脸光流估计方法的流程示意图。本实施例可应用在电子设备上，如图2所示，包括如下步骤：

步骤201，对在视频中相邻的第一图像帧和第二图像帧分别进行人脸关键点识别，得到第一关键点组和第二关键点组。

可选地，本实施例可采用现有技术中任意可实现人脸关键点识别的技术实现对第一图像帧和第二图像帧的人脸关键点识别，例如，人脸关键点识别神经网络等；其中，第一关键点组中包括多个第一人脸关键点，第二关键点组中包括多个第二人脸关键点；人脸关键点可以实现对不同人脸进行描述，本实施例中通常情况下第一图像帧和第二图像帧中仅包括一个人脸图像，当存在多个人脸图像时，可将图像帧进行分割，使分割得到的图像中仅包括一个人脸图像以实现对一个人脸中的光流值进行确定；或通过人脸关键点确定两帧图像中两个人脸之间的对应关系，从而避免由于多个人脸导致的光流值计算错误的情况。

步骤202，基于第一关键点组中包括的多个第一人脸关键点和第二关键点组中包括的多个第二人脸关键点，确定第一图像帧对应的第一面片组和第二图像帧对应的第二面片组。

本实施例中，可基于第一人脸关键点确定第一面片组，再基于第一面片组对应的第一人脸关键点连接关系连接第二人脸关键点确定第二面片组；或者，基于第二关键点确定出第二面片组，再基于第二面片组对应的第二人脸关键点连接关系连接第一人脸关键点确定第一片面组。本实施例中的第一面片组包括多个第一面片，第二面片组包括多个第二面片，第一面片和第二面片为相同类型的面片，例如，三角面片等。

步骤203，基于第一面片组中多个第一面片与第二面片组中多个第二面片之间的对应关系，确定每个第一面片中多个第一像素点与第一面片对应的第二面片中多个第二像素点之间的对应关系。

可选地，当第一面片和第二面片都为三角面片时，其中，每个第一面片与其对应的第二面片之间为相似三角形，基于相似三角形的原理，可确定该对面片中多个第一像素点和第二像素点之间的对应关系；例如，可通过图1所示系统中面片内部点的对应部分的技术方案实现该步骤中第一像素点与第二像素点之间对应关系的确定。

步骤204，基于每个第一像素点和对应的第二像素点之间的位移信息，确定第一图像帧对应的人脸光流值。

可选地，在上述步骤确定了每个第一像素点与第二像素点之间的对应关系之后，通过计算每个第一像素点到对应的第二像素点的位移，即可得到第一图像帧中每个第一像素点的光流值；进而得到第一图像帧中的人脸的人脸光流值。

本公开上述实施例提供的一种人脸光流估计方法，由于人脸关键点在某种程度上反应了面部肌肉的分布，本实施例利用面片剖分的方式可以看作对人脸进行了运动区域划分，通常同一区域的运动整体性较高；因此，得到的人脸光流值精细度高、准确性好。

如图3所示，在上述图2所示实施例的基础上，步骤201可包括如下步骤：

步骤2011，对第一图像帧和第二图像帧分别进行人脸检测，得到第一图像帧对应的第一人脸检测框和第二图像帧对应的第二人脸检测框。

可选地，可通过现有技术中任一可实现人脸检测的技术手段对第一图像帧和第二图像帧进行人脸检测，例如，人脸检测网络等；通过人脸检测可得到第一图像中人脸对应的第一人脸检测框，第二图像帧中人脸对应的第二人脸检测框，其中第一人脸检测框和第二人脸检测框中对应同一个人脸在不同时间的显示。

步骤2012，基于第一人脸检测框和第二人脸检测框确定最小外接框。

可选地，第一图像帧和第二图像帧的大小相同，在确定第一人脸检测框和第二人脸检测框后，可将第二人脸检测框对应的位置在第一图像帧中框选出，并第一图像帧中确定第一人脸检测框和第二人脸检测框的最小外接框。

步骤2013，分别对第一图像帧中的最小外接框和第二图像帧中的最小外接框进行人脸关键点识别，得到多个第一人脸关键点的是第一关键点组和包括多个第二人脸关键点的第二关键点组。

本实施例通过确定的最小外接框确定第一图像帧和第二图像帧中进行人脸关键点识别的范围，实现适当的扩大了人脸关键点识别的范围，实现了用同一个框将第一图像帧的人脸和第二图像帧的人脸都框选在内，这样可以避免因为人脸检测框的抖动引入不必要的运动，保证获得的光流只包含人脸的运动信息，不包含因检测框抖动引入的运动信息，通过在最小外接框中进行人脸关键点识别，提高了关键点检测的准确性和全面性，使每个第一人脸关键点都存在对应的第二人脸关键点。

可选地，上述实施例中步骤2013可以包括：

步骤a1，确定第一人脸检测框和第二人脸检测框之间的交并比。

其中，交并比(Intersection-over-Union，IoU)，是目标检测中使用的一个概念，是产生的候选框(candidate bound)与原标记框(ground truth bound)的交叠率，即它们的交集与并集的比值；本实施例中为第一人脸检测框和第二人脸检测框之间的交叠率。

步骤a2，响应于第一人脸检测框和第二人脸检测框之间的交并比大于设定比值，分别对第一图像帧中的最小外接框和第二图像帧中的最小外接框进行人脸关键点识别，得到多个第一人脸关键点的第一关键点组和包括多个第二人脸关键点的第二关键点组。

本实施例中，由于光流更适合捕捉细节动作，因此，当第一图像帧与第二图像帧之间人脸的运动幅度超出一定范围时，对两帧图像帧之间计算人脸光流值将导致不准确的问题，并且不符合本公开想获得的人脸细节动作的初衷；因此，本实施例通过设置设定比值来控制当交并比大于该设定比值时，才进行人脸光流值的计算，而当交并比小于该设定比值时，可认为两帧之间的人脸变动幅度超出光流值计算的条件，此时不对最小外接框进行人脸关键点识别；可选地，该设定比值可根据实际情况进行设置，例如，设定比值为0.8等。

如图4所示，在上述图2所示实施例的基础上，步骤202可包括如下步骤：

步骤2021，基于第一关键点组中包括的多个第一人脸关键点，对第一图像帧中的人脸进行剖分，得到多个第一面片。

本实施例中，人脸关键点可以实现对人脸轮廓和五官轮廓的描述，可选地，可通过德劳内三角剖分法对第一帧人脸进行剖分，会得到若干三角面片。

步骤2022，按照第一图像帧中的多个第一面片中对应的第一人脸关键点的顺序连接多个第二人脸关键点，确定第二图像帧中的多个第二面片。

其中，每个第二面片对应一个第一面片。

可选地，由于采用相同的关键点识别方法，例如，68点人脸检测方法，第一关键点组中包括的第一人脸关键点与第二人脸关键点组中的第二人脸关键点一一对应；因此，当基于多个第一人脸关键点获得多个第一面片之后，连接对应的第二人脸关键点即可获得第二图像帧中的多个第二面片，此时，无需对第二图像帧采用德劳内三角剖分法，即可获得多个第二面片，极大的提高了面片剖分的效率。

可选地，上述实施例中步骤2021可以包括：

以多个第一人脸关键点中的每个第一人脸关键点作为角点；按照每个第一面片包括的角点数量连接多个第一人脸关键点，得到多个第一面片。

本实施例在对第一图像帧中的人脸进行剖分时，将每个第一人脸关键点作为每个第一面片的一个角点，例如，当第一面片为三角面片时，每个第一面片包括三个第一人脸关键点，连接这三个第一人脸关键点得到的三角形即为该第一面片，为基于第一面片确定相应的第二面片提供了条件。

上述实施例中步骤2022可以包括：

步骤b1：确定多个第一人脸关键点中每个第一人脸关键点对应的编号标识和多个第二人脸关键点中每个第二人脸关键点对应的编号标识。

本实施例中，可以对多个第一人脸关键点(例如，68个点等)分别进行编号，编号的目的在于区分同一图像帧中的不同人脸关键点，不限制其具体的编号标识顺序等。

步骤b2：通过编号标识，确定每个第一人脸关键点与一个第二人脸关键点之间的对应关系。

可选地，通过将在第一图像帧和第二图像帧中相对应的第一人脸关键点和第二人脸关键点赋予相同编号标识，以保证可基于第一面片确定第二面片。

步骤b3：按照多个第一面片中多个第一人脸关键点对应的编号标识的顺序，连接多个编号标识对应的多个第二人脸关键点，得到多个第二面片。

本实施例通过对第一图像帧中的人脸进行剖分，可以得到每个第一面片对应的关键点编号标识(例如，由三个人脸关键点确定一个第一面片)，基于这些具有连接关系的编号标识可在第二图像帧中确定对应的第二人脸关键点之间的连接关系，基于确定的连接关系连接对应的第二人脸关键点，即可得到多个第二面片，本实施例对于第二图像帧无需采用人脸剖分的方式确定第二面片，提高了第二面片的确定效率，并且，由于关键点之间的编号标识相同，因此，在确定第二面片的同时直接确定了每个第二面片与一个第一面片之间的对应关系。

如图5所示，在上述图2所示实施例的基础上，步骤203可包括如下步骤：

步骤2031，针对每个第一面片，确定第一面片中的每个第一像素点的坐标与第一面片对应的多个第一关键点的坐标之间的对应关系。

本实施例中，该对应关系可参照图1所示系统中面片内部点的对应部分进行理解，例如，该对应关系可表示为第一像素点P的坐标p的可表示为p₁a+p₂b+p₃c。

步骤2032，基于对应关系以及第一面片对应的第二面片对应的多个第二关键点的坐标，确定每个第一像素点在第二面片中对应的第二像素点。

本实施例中，在第一图像帧和第二图像帧中存在对应关系的第一面片和第二面片是一对相似三角形，基于相似三角形的特性，确定在第二图像帧中与第一像素点P对应的第二像素点P’的坐标为p’即为p₁a’+p₂b’+p₃c’，基于该坐标即可确定该第二像素点P’在第二图像帧中的位置，即，确定了与第一像素点对应的第二像素点；本实施例应用相似三角形的特性，提高了两帧图像中像素点之间对应关系的确定效率。

如图6所示，在上述图2所示实施例的基础上，步骤204可包括如下步骤：

步骤2041，基于每个第一像素点和对应的第二像素点之间的位移信息，确定每个第一像素点对应的像素光流值。

可选地，在确定了每对相互对应的第一像素点和第二像素点之后，可确定每对像素点之间的位移信息，该位移信息的确定可基于现有技术中任意技术手段实现，本实施例不限制具体计算每对像素点之间的位移信息的技术手段。

步骤2042，基于每个第一像素点对应的像素光流值，确定第一图像帧中的人脸对应的人脸光流值。

本实施例通过第一图像帧中每个第一像素点对应的光流值，可确定第一图像帧中中的人脸对应的人脸光流真值，该人脸光流值为一个两通道的矩阵(一个通道对应x方向，另一个通道对应y方向)，用于表达人脸所有点的光流值；通过本实施方法确定人脸光流值，可操作性强、计算复杂度低、运算所需时间短，并且，全流程自动化，便于处理大批量数据，适用于多种应用场景。

图7是本公开一示例性实施例提供的光流值预测模型的训练方法的流程示意图。本实施例可应用在电子设备上，如图7所示，包括如下步骤：

步骤701，基于上述任意一项实施例提供的人脸光流估计方法，确定相邻的第一图像帧和第二图像帧之间的人脸光流值。

可选地，基于上述图2-6任一实施例提供的人脸光流估计方法确定相邻的第一图像帧和第二图像帧之间的人脸光流值，并以该人脸光流值作为第一图像帧对应的真值，作为对光流值预测模型进行训练的监督信息，为基于深度学习的有监督光流估计算法提供了大量的真值进行模型训练。

步骤702，将第一图像帧和第二图像帧输入到待训练的光流值预测模型中，得到预测光流值。

本实施例中，光流值预测模型为深度学习中的任一可实现光流值预测的神经网络，本实施例不限制该光流值预测模型的网络结构。

步骤703，以人脸光流值和预测光流值，确定网络损失。

可选地，可通过现有深度学习技术中确定网络损失的方法确定该网络损失，例如，人脸光流值和预测光流值都是二维矩阵，确定两个二维矩阵之间的差异，得到网络损失等。

步骤704，基于网络损失对光流值预测模型进行训练。

本实施例中，基于上述实施例提供的人脸光流估计方法生成的人脸光流真值有监督训练深度学习模型，训练流程简单，并且，由于所得到的光流值预测模型的人脸光流值预测效果好、成本低、效率高，因此使得光流值预测模型更适合大范围应用和工业化应用。

本公开实施例提供的任一种人脸光流估计或光流值预测模型的训练方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种人脸光流估计或光流值预测模型的训练方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种人脸光流估计或光流值预测模型的训练方法。下文不再赘述。

示例性装置

图8是本公开一示例性实施例提供的人脸光流估计装置的结构示意图。如图8所示，本实施例提供的装置包括：

关键点识别模块81，用于对在视频中相邻的第一图像帧和第二图像帧分别进行人脸关键点识别，得到第一关键点组和第二关键点组。

面片确定模块82，包括基于关键点识别模块81得到的第一关键点组中包括的多个第一人脸关键点和关键点识别模块得到的第二关键点组中包括的多个第二人脸关键点，确定第一图像帧对应的第一面片组和第二图像帧对应的第二面片组。

像素点对应模块83，用于基于面片确定模块82确定的第一面片组中多个第一面片与面片确定模块确定的第二面片组中多个第二面片之间的对应关系，确定每个第一面片中多个第一像素点与第一面片对应的第二面片中多个第二像素点之间的对应关系。

光流值确定模块84，用于基于像素点对应模块83确定的每个第一像素点和对应的第二像素点之间的位移信息，确定第一图像帧对应的人脸光流值。

本公开上述实施例提供的一种人脸光流估计装置，由于人脸关键点在某种程度上反应了面部肌肉的分布，本实施例利用面片剖分的方式可以看作对人脸进行了运动区域划分，通常同一区域的运动整体性较高；因此，得到的人脸光流值精细度高、准确性好。

图9是本公开另一示例性实施例提供的人脸光流估计装置的结构示意图。如图9所示，本实施例提供的装置中，关键点识别模块81包括：

人脸检测单元811，用于对第一图像帧和第二图像帧分别进行人脸检测，得到第一图像帧对应的第一人脸检测框和第二图像帧对应的第二人脸检测框；

外接框确定单元812，用于基于第一人脸检测框和第二人脸检测框确定最小外接框；

关键点确定单元813，用于分别对第一图像帧中的最小外接框和第二图像帧中的最小外接框进行人脸关键点识别，得到多个第一人脸关键点的是第一关键点组和包括多个第二人脸关键点的第二关键点组。

可选地，关键点确定单元813，具体用于确定所述第一人脸检测框和所述第二人脸检测框之间的交并比；响应于所述第一人脸检测框和所述第二人脸检测框之间的交并比大于设定比值，分别对所述第一图像帧中的最小外接框和所述第二图像帧中的最小外接框进行人脸关键点识别，得到多个第一人脸关键点的所述第一关键点组和包括多个第二人脸关键点的所述第二关键点组。

在一些可选的实施例中，面片确定模块82可以包括：

第一人脸剖分单元821，用于基于第一关键点组中包括的多个第一人脸关键点，对第一图像帧中的人脸进行剖分，得到多个第一面片；

第二面片确定单元822，用于按照第一图像帧中的多个第一面片中对应的第一人脸关键点的顺序连接多个第二人脸关键点，确定第二图像帧中的多个第二面片；其中，每个第二面片对应一个第一面片。

可选地，第一人脸剖分单元821，具体用于以所述多个第一人脸关键点中的每个第一人脸关键点作为角点；按照每个所述第一面片包括的角点数量连接所述多个第一人脸关键点，得到多个所述第一面片；

第二面片确定单元822，具体用于确定所述多个第一人脸关键点中每个第一人脸关键点对应的编号标识和所述多个第二人脸关键点中每个第二人脸关键点对应的编号标识；通过所述编号标识，确定每个所述第一人脸关键点与一个所述第二人脸关键点之间的对应关系；按照所述多个第一面片中多个第一人脸关键点对应的编号标识的顺序，连接所述多个编号标识对应的多个第二人脸关键点，得到多个所述第二面片。

在一些可选的实施例中，像素点对应模块83可以包括：

第一像素点确定单元831，用于针对每个第一面片，确定第一面片中的每个第一像素点的坐标与第一面片对应的多个第一关键点的坐标之间的对应关系；

第二像素点确定单元832，用于基于对应关系以及第一面片对应的第二面片对应的多个第二关键点的坐标，确定每个第一像素点在第二面片中对应的第二像素点。

在一些可选的实施例中，光流值确定模块84，包括：

像素光流确定单元841，用于基于每个第一像素点和对应的第二像素点之间的位移信息，确定每个第一像素点对应的像素光流值；

人脸光流确定单元842，用于基于每个第一像素点对应的像素光流值，确定第一图像帧中的人脸对应的人脸光流值。

图10是本公开一示例性实施例提供的光流值预测模型的训练装置的结构示意图。如图10所示，本实施例提供的装置包括：

人脸光流估计模块11，用于基于上述任意一项实施例提供的人脸光流估计方法，确定相邻的第一图像帧和第二图像帧之间的人脸光流值。

模型预测模块12，用于将第一图像帧和第二图像帧输入到待训练的光流值预测模型中，得到预测光流值。

网络损失确定模块13，用于以人脸光流估计模块11确定的人脸光流值和模型预测模块12确定的预测光流值，确定网络损失。

模型训练模块14，用于基于网络损失确定模块13确定的网络损失对光流值预测模型进行训练。

本实施例中，基于上述实施例提供的人脸光流估计方法生成的人脸光流真值有监督训练深度学习模型，训练流程简单，所得到的光流值预测模型的人脸光流值预测效果好、成本低、效率高，并且，得到的光流值预测模型更适合大范围应用和工业化应用。

示例性电子设备

下面，参考图11来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图11图示了根据本公开实施例的电子设备的框图。

如图11所示，电子设备110包括一个或多个处理器111和存储器112。

处理器111可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备110中的其他组件以执行期望的功能。

存储器112可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器111可以运行所述程序指令，以实现上文所述的本公开的各个实施例的人脸光流估计或光流值预测模型的训练方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备110还可以包括：输入装置113和输出装置114，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备100或第二设备200时，该输入装置113可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置113可以是通信网络连接器，用于从第一设备100和第二设备200接收所采集的输入信号。

此外，该输入装置113还可以包括例如键盘、鼠标等等。

该输出装置114可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图11中仅示出了该电子设备110中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备110还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的人脸光流估计或光流值预测模型的训练方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的人脸光流估计或光流值预测模型的训练方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种人脸光流估计方法，包括：

基于所述第一面片组中多个第一面片与所述第二面片组中多个第二面片之间的对应关系，确定每个所述第一面片中多个第一像素点与所述第一面片对应的所述第二面片中多个第二像素点之间的对应关系；其中，所述第一面片和所述第二面片为三角面片，每个所述第一面片与其对应的所述第二面片之间为相似三角形，基于相似三角形可确定所述多个第一像素点和所述多个第二像素点之间的对应关系；

2.根据权利要求1所述的方法，其中，所述对在视频中相邻的第一图像帧和第二图像帧分别进行人脸关键点识别，得到第一关键点组和第二关键点组，包括：

对所述第一图像帧和所述第二图像帧分别进行人脸检测，得到所述第一图像帧对应的第一人脸检测框和所述第二图像帧对应的第二人脸检测框；

基于所述第一人脸检测框和所述第二人脸检测框确定最小外接框；

分别对所述第一图像帧中的最小外接框和所述第二图像帧中的最小外接框进行人脸关键点识别，得到多个第一人脸关键点的是第一关键点组和包括多个第二人脸关键点的所述第二关键点组。

3.根据权利要求2所述的方法，其中，所述分别对所述第一图像帧中的最小外接框和所述第二图像帧中的最小外接框进行人脸关键点识别，得到所述第一关键点组和所述第二关键点组，包括：

确定所述第一人脸检测框和所述第二人脸检测框之间的交并比；

响应于所述第一人脸检测框和所述第二人脸检测框之间的交并比大于设定比值，分别对所述第一图像帧中的最小外接框和所述第二图像帧中的最小外接框进行人脸关键点识别，得到多个第一人脸关键点的所述第一关键点组和包括多个第二人脸关键点的所述第二关键点组。

4.根据权利要求1-3任一项所述的方法，其中，所述基于所述第一关键点组中包括的多个第一人脸关键点和所述第二关键点组中包括的多个第二人脸关键点，确定所述第一图像帧对应的第一面片组和所述第二图像帧对应的第二面片组，包括：

基于所述第一关键点组中包括的多个第一人脸关键点，对所述第一图像帧中的人脸进行剖分，得到多个所述第一面片；

按照所述第一图像帧中的多个第一面片中对应的第一人脸关键点的顺序连接所述多个第二人脸关键点，确定所述第二图像帧中的多个第二面片；其中，每个所述第二面片对应一个第一面片。

5.根据权利要求1-4任一项所述的方法，其中，所述基于所述第一面片组中多个第一面片与所述第二面片组中多个第二面片之间的对应关系，确定每个所述第一面片中多个第一像素点与所述第一面片对应的所述第二面片中多个第二像素点之间的对应关系，包括：

针对每个所述第一面片，确定所述第一面片中的每个第一像素点的坐标与所述第一面片对应的多个第一关键点的坐标之间的对应关系；

基于所述对应关系以及所述第一面片对应的第二面片对应的多个第二关键点的坐标，确定每个所述第一像素点在所述第二面片中对应的第二像素点。

6.一种光流值预测模型的训练方法，包括：

基于上述权利要求1-5任意一项所述的人脸光流估计方法，确定相邻的第一图像帧和第二图像帧之间的人脸光流值；

以所述人脸光流值和所述预测光流值，确定网络损失；

基于所述网络损失对所述光流值预测模型进行训练。

7.一种人脸光流估计装置，包括：

像素点对应模块，用于基于所述面片确定模块确定的第一面片组中多个第一面片与所述面片确定模块确定的第二面片组中多个第二面片之间的对应关系，确定每个所述第一面片中多个第一像素点与所述第一面片对应的所述第二面片中多个第二像素点之间的对应关系；其中，所述第一面片和所述第二面片为三角面片，每个所述第一面片与其对应的所述第二面片之间为相似三角形，基于相似三角形可确定所述多个第一像素点和所述多个第二像素点之间的对应关系；

8.一种光流值预测模型的训练装置，包括：

人脸光流估计模块，用于基于上述权利要求1-5任意一项所述的人脸光流估计方法，确定相邻的第一图像帧和第二图像帧之间的人脸光流值；

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-6任一所述的方法。

10.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-6任一所述的方法。