CN110321822B

CN110321822B - 基于最邻近检索的人脸对齐初始化方法及装置、存储介质

Info

Publication number: CN110321822B
Application number: CN201910550199.8A
Authority: CN
Inventors: 杨恒
Original assignee: Shenzhen Aimo Technology Co ltd
Current assignee: Shenzhen Aimo Technology Co ltd
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2022-09-27
Anticipated expiration: 2039-06-24
Also published as: CN110321822A

Abstract

本发明实施例公开一种基于最邻近检索的人脸对齐初始化方法及装置、存储介质，其中方法包括如下步骤：基于预先训练的卷积神经网络模型估计测试图像的头部姿态信息，在训练样本集中搜索与头部姿态信息最相似的训练样本，根据头部姿态信息对应的人脸边框和训练样本对应的人脸边框之间的相似性变换，计算测试图像中人脸位置的初始化结果。采用本发明，可以在头部姿态变化较大的情况下，保证初始化在收敛半径内，进而提高此种情况下人脸对齐的精度。

Description

基于最邻近检索的人脸对齐初始化方法及装置、存储介质

技术领域

本发明涉及头部姿态估计和人脸对齐技术领域，尤其涉及一种基于最邻近检索的人脸对齐初始化方法及装置、存储介质。

背景技术

头部姿态估计和人脸对齐在人机交互、阿凡达动画以及人脸识别\验证等方面有着广泛的应用，因此近些年得以广泛地研究。这两个问题交错关联，放在一起相辅相成。由于人脸图像的高度多样性，二维图像的头部姿态估计仍具挑战。最新的方法曾尝试用深度数据来估计头部姿态。与此相反，人脸对齐技术已经取得长足进步，已有多种方法能在户外图像上良好的表现。当然这些方法也存在不足。研究发现，这些失败案例具有一个重要属性，这些图像中的头部（面部）通常以大角度从正面姿势旋转。近年提出的最好的人脸对齐技术也有一个类似的级联姿态回归框架，也就是说，面部对齐从一个原始形状开始(一个目标位置的矢量表示)，并以从粗到细的方式更新形状。该框架下的对齐方案对初始化方法具有强的依赖性。因此，即使相同的图像输入，在不同的初始化方法下，一个级联人脸对齐系统的输出结果可能也会不同。每个模型都有一个收敛性半径。如果初始化在实际形状的范围内，则模型能够输出合理的对齐结果，否则可能导致形状定位在错误位置上。如图1所示。像传统初始化中提到的方法，采用在面部边框内的平均脸型或从训练集随机选择的形状作为初始化，并不能保证该初始化在收敛半径之内，尤其是头部姿势变化很大的情况。

为改善头部姿态大变化的情况下，人脸对齐的性能，需要一种更好的初始化方案，用于基于级联面部对齐的显式头部姿态估计。

发明内容

本发明实施例提供一种基于最邻近检索的人脸对齐初始化方法及装置、存储介质，可以在头部姿态变化较大的情况下，保证初始化在收敛半径内。

本发明实施例第一方面提供了一种基于最邻近检索的人脸对齐初始化方法，可包括：

基于预先训练的卷积神经网络模型估计测试图像的头部姿态信息；

在训练样本集中搜索与头部姿态信息最相似的训练样本；

根据头部姿态信息对应的人脸边框和训练样本对应的人脸边框之间的相似性变换，计算测试图像中人脸位置的初始化结果。

进一步的，上述方法还包括：

搜索训练样本集的第k阶近邻得到k阶初始化结果。

进一步的，上述方法还包括：

对训练样本集中的训练样本进行增强头部姿态标注；

采用标注后的训练样本集训练卷积神经网络模型。

进一步的，上述方法还包括：

基于卷积神经网络模型估计测试图像的头部姿态，标注测试图像中的人脸边框。

进一步的，上述方法还包括：

基于所标注的人脸边框估计测试图像中的头部姿态信息。

进一步的，上述方法还包括：

基于初始化结果对测试图像进行人脸对齐。

本发明实施例第二方面提供了一种基于最邻近检索的人脸对齐初始化装置，可包括：

姿态参数估计模块，用于基于预先训练的卷积神经网络模型估计测试图像的头部姿态信息；

最邻近样本搜索模块，用于在训练样本集中搜索与头部姿态信息最相似的训练样本；

初始化结果计算模块，用于根据头部姿态信息对应的人脸边框和训练样本对应的人脸边框之间的相似性变换，计算测试图像中人脸位置的初始化结果。

进一步的，上述初始化结果计算模块，还用于搜索训练样本集的第k阶近邻得到k阶初始化结果。

进一步的，上述装置还包括：

姿态标注模块，用于对训练样本集中的训练样本进行增强头部姿态标注；

模型训练模块，用于采用标注后的训练样本集训练卷积神经网络模型。

进一步的，上述装置还包括：

人脸框标注模块，用于基于卷积神经网络模型估计测试图像的头部姿态，标注测试图像中的人脸边框。

进一步的，上述姿态参数估计模块，具体用于基于所标注的人脸边框估计测试图像中的头部姿态信息。

进一步的，上述装置还包括：

人脸对齐模块，用于基于初始化结果对测试图像进行人脸对齐。

本发明实施例第三方面提供了一种计算机存储介质，计算机存储介质存储有多条指令，指令适于由处理器加载并执行以下步骤：

在训练样本集中搜索与头部姿态信息最相似的训练样本；

在本发明实施例中，通过训练的卷积神经网络模型估计测试图像的头部姿态信息，在训练样本集中搜索与上述头部姿态信息最相似的训练样本，再根据头部姿态信息对应的人脸边框和训练样本对应的人脸边框之间的相似性变换，计算测试图像中人脸位置的初始化结果，在头部姿态变化较大的情况下，保证了初始化在收敛半径内，进而提高了此种情况下人脸对齐的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于最邻近检索的人脸对齐初始化方法的流程示意图；

图2是本发明实施例提供的一种基于最邻近检索的人脸对齐初始化装置的结构示意图；

图3是本发明实施例提供的另一种基于最邻近检索的人脸对齐初始化装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

本发明实施例涉及的基于最邻近检索的人脸对齐初始化装置可以是手机、电脑等终端设备。

如图1所示，基于最邻近检索的人脸对齐初始化方法至少可以包括以下几个步骤：

S101，基于预先训练的卷积神经网络模型估计测试图像的头部姿态信息。

可以理解的是，上述装置可以对训练样本集中的训练样本进行增强头部姿态标注，然后采用标注后的训练样本集训练一个卷积神经网络模型，用于对训练集中的样本进行头部姿态估计。具体的，在采用上述模型对样本的头部姿态估计时，可以在人脸边框上进行小排列，使样本增加3倍。所训练的卷积神经网络模型，网络输入96x96灰度人脸图像，归一化在0-1之间。特征提取阶段包括3个卷积层、3个汇集层、2个全连通层和3个退出层。当将其作为一个回归问题提出时，输出层为3x1，分别表示头部姿态的俯仰、偏航和翻滚角。这些角在-1和1之间进行归一化。可选的，可以使用Nesterov加速梯度下降法进行参数优化，并将动量设置为0.9，学习率设置为0.01。由提前停止策略控制训练，在具体训练示例中，在TeslaK40c GPU上训练了1300次迭代约两小时后训练结束。

具体的，上述装置可以基于训练好的卷积神经网络模型估计测试图像的头部姿态信息，可选的，可以在估计测试图像的头部姿态时，标注测试图像中的人脸边框，然后基于标注的人脸边框确认测试图像对应的头部姿态信息。可以理解的是，上述头部姿态信息可以是三维关键点信息，例如可以是68个关键点。

在可选实施例中，上述装置可以使用Viola-Jones检测器和HeadHunter检测器对测试图像提供不同的人脸边框进行公平比较，对于人脸检测失败的输入图像，可以获取手动设置的合理边框。

S102，在训练样本集中搜索与上述头部姿态信息最相似的训练样本。

可以理解的是，对测试图像的头部姿态信息标注后，可以基于所标注的头部姿态信息与训练样本集中三维样本进行头部姿态相似性的比较，找到最相似的训练样本。

具体实现中，上述装置可以假设计算得到的头部姿态三个角度为ɑ，β，θ。训练样本中的第i个样本的姿态为ɑ_i，β_i，θ_i，当前图像的角度与样本图像的姿态距离为欧式距离，确定最紧邻的训练样本即为最小欧式距离的样本。

在可选实施例中，上述装置可以过搜索训练集的第k阶近邻来提供k阶初始化。在多初始化的情况下，可以取平均估算值来计算输出。

S103，根据头部姿态信息对应的人脸边框和训练样本对应的人脸边框之间的相似性变换，计算测试图像中人脸位置的初始化结果。

需要说明的是，上述两个边框的变换包含位置变换和尺度变换，位置变换首先移动训练样本的人脸边框中心点到目标边框，平移两位t_x，t_y，然后对x方向和y方向进行缩放，得到缩放参数s_x，s_y。再把人脸关键点按照（t_x，t_y）进行平移，x和y方向按照s_x，s_y方向进行缩放即可实现两个边框的相似性变换。进一步的，可以根据相似性变换的结果计算测试图像中人脸位置的初始化结果。

可以理解的是，上述装置可以根据上述初始化结果对测试图像进行人脸对齐，具体的对齐方法可以与现有技术中的一直，此处不再详述。

下面将结合附图2，对本发明实施例提供的基于最邻近检索的人脸对齐初始化装置进行详细介绍。需要说明的是，附图2所示的人脸对齐图像初始化装置，用于执行本发明图1所示实施例的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明图1所示的实施例。

请参见图2，为本发明实施例提供了一种基于最邻近检索的人脸对齐初始化装置的结构示意图。如图2所示，本发明实施例的人脸对齐图像初始化装置10可以包括：姿态参数估计模块101、最邻近样本搜索模块102、初始化结果计算模块103、姿态标注模块104、模型训练模块105、人脸框标注模块106和人脸对齐模块107。

姿态参数估计模块101，用于基于预先训练的卷积神经网络模型估计测试图像的头部姿态信息。

可以理解的是，姿态标注模块104可以对训练样本集中的训练样本进行增强头部姿态标注，然后模型训练模块105可以采用标注后的训练样本集训练一个卷积神经网络模型，用于对训练集中的样本进行头部姿态估计。具体的，在采用上述模型对样本的头部姿态估计时，可以在人脸边框上进行小排列，使样本增加3倍。所训练的卷积神经网络模型，网络输入96x96灰度人脸图像，归一化在0-1之间。特征提取阶段包括3个卷积层、3个汇集层、2个全连通层和3个退出层。当将其作为一个回归问题提出时，输出层为3x1，分别表示头部姿态的俯仰、偏航和翻滚角。这些角在-1和1之间进行归一化。可选的，可以使用Nesterov加速梯度下降法进行参数优化，并将动量设置为0.9，学习率设置为0.01。由提前停止策略控制训练，在具体训练示例中，在TeslaK40c GPU上训练了1300次迭代约两小时后训练结束。

具体实现中，姿态参数估计模块101可以基于训练好的卷积神经网络模型估计测试图像的头部姿态信息，可选的，人脸框标注模块106可以在估计测试图像的头部姿态时，标注测试图像中的人脸边框，然后姿态参数估计模块101基于标注的人脸边框确认测试图像对应的头部姿态信息。可以理解的是，上述头部姿态信息可以是三维关键点信息，例如可以是68个关键点。

在可选实施例中，上述装置10可以使用Viola-Jones检测器和HeadHunter检测器对测试图像提供不同的人脸边框进行公平比较，对于人脸检测失败的输入图像，可以获取手动设置的合理边框。

最邻近样本搜索模块102，用于在训练样本集中搜索与上述头部姿态信息最相似的训练样本。

可以理解的是，对测试图像的头部姿态信息标注后，最邻近样本搜索模块102可以基于所标注的头部姿态信息与训练样本集中三维样本进行头部姿态相似性的比较，找到最相似的训练样本。

具体实现中，最邻近样本搜索模块102可以假设计算得到的头部姿态三个角度为ɑ，β，θ。训练样本中的第i个样本的姿态为ɑ_i，β_i，θ_i，当前图像的角度与样本图像的姿态距离为欧式距离，确定最紧邻的训练样本即为最小欧式距离的样本。

在可选实施例中，上述装置10可以过搜索训练集的第k阶近邻来提供k阶初始化。在多初始化的情况下，可以取平均估算值来计算输出。

初始化结果计算模块103，用于根据头部姿态信息对应的人脸边框和训练样本对应的人脸边框之间的相似性变换，计算测试图像中人脸位置的初始化结果。

需要说明的是，上述两个边框的变换包含位置变换和尺度变换，位置变换首先移动训练样本的人脸边框中心点到目标边框，平移两位t_x，t_y，然后对x方向和y方向进行缩放，得到缩放参数s_x，s_y。再把人脸关键点按照（t_x，t_y）进行平移，x和y方向按照s_x，s_y方向进行缩放即可实现两个边框的相似性变换。进一步的，初始化结果计算模块103可以根据相似性变换的结果计算测试图像中人脸位置的初始化结果。

可以理解的是，人脸对齐模块107可以根据上述初始化结果对测试图像进行人脸对齐，具体的对齐方法可以与现有技术中的一直，此处不再详述。

本发明实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图1所示实施例的方法步骤，具体执行过程可以参见图1所示实施例的具体说明，在此不进行赘述。

本申请实施例还提供了另外一种基于最邻近检索的人脸对齐初始化装置。如图3所示，基于最邻近检索的人脸对齐初始化装置20可以包括：至少一个处理器201，例如CPU，至少一个网络接口204，用户接口203，存储器205，至少一个通信总线202，可选地，还可以包括显示屏206。其中，通信总线202用于实现这些组件之间的连接通信。其中，用户接口203可以包括触摸屏、键盘或鼠标等等。网络接口204可选的可以包括标准的有线接口、无线接口（如WI-FI接口），通过网络接口604可以与服务器建立通信连接。存储器205可以是高速RAM存储器，也可以是非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器，存储器205包括本发明实施例中的flash。存储器205可选的还可以是至少一个位于远离前述处理器201的存储系统。如图3所示，作为一种计算机存储介质的存储器205中可以包括操作系统、网络通信模块、用户接口模块以及程序指令。

需要说明的是，网络接口204可以连接接收器、发射器或其他通信模块，其他通信模块可以包括但不限于WiFi模块、蓝牙模块等，可以理解，本发明实施例中基于最邻近检索的人脸对齐初始化装置也可以包括接收器、发射器和其他通信模块等。

处理器201可以用于调用存储器205中存储的程序指令，并使基于最邻近检索的人脸对齐初始化装置20执行以下操作：

在训练样本集中搜索与头部姿态信息最相似的训练样本；

在一些实施例中，装置20还用于搜索训练样本集的第k阶近邻得到k阶初始化结果。

在一些实施例中，装置20还用于对训练样本集中的训练样本进行增强头部姿态标注；

采用标注后的训练样本集训练卷积神经网络模型。

在一些实施例中，装置20还用于基于卷积神经网络模型估计测试图像的头部姿态，标注测试图像中的人脸边框。

在一些实施例中，装置20还用于基于所标注的人脸边框估计测试图像中的头部姿态信息。

在一些实施例中，装置20还用于基于初始化结果对测试图像进行人脸对齐。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（RandomAccessMemory，RAM）等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于最邻近检索的人脸对齐初始化方法，其特征在于，包括：

在训练样本集中搜索与所述头部姿态信息最相似的训练样本；

根据所述头部姿态信息对应的人脸边框和所述训练样本对应的人脸边框之间的相似性变换，计算所述测试图像中人脸位置的初始化结果，所述相似性变换包括位置变换和尺度变换，所述位置变换首先移动所述训练样本的人脸边框中心点到目标边框，平移两位t_x，t_y，然后对x方向和y方向进行缩放，得到缩放参数s_x，s_y，再把人脸关键点按照（t_x，t_y）进行平移，x和y方向按照s_x，s_y方向进行缩放即可实现两个边框的所述相似性变换。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

搜索所述训练样本集的第k阶近邻得到k阶初始化结果。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对训练样本集中的训练样本进行增强头部姿态标注；

采用标注后的训练样本集训练卷积神经网络模型。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

基于所述卷积神经网络模型估计所述测试图像的头部姿态，标注所述测试图像中的人脸边框。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

基于所标注的所述人脸边框估计测试图像中的头部姿态信息。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述初始化结果对所述测试图像进行人脸对齐。

7.一种基于最邻近检索的人脸对齐初始化装置，其特征在于，包括：

最邻近样本搜索模块，用于在训练样本集中搜索与所述头部姿态信息最相似的训练样本；

初始化结果计算模块，用于根据所述头部姿态信息对应的人脸边框和所述训练样本对应的人脸边框之间的相似性变换，计算所述测试图像中人脸位置的初始化结果，所述相似性变换包括位置变换和尺度变换，所述位置变换首先移动所述训练样本的人脸边框中心点到目标边框，平移两位t_x，t_y，然后对x方向和y方向进行缩放，得到缩放参数s_x，s_y，再把人脸关键点按照（t_x，t_y）进行平移，x和y方向按照s_x，s_y方向进行缩放即可实现两个边框的所述相似性变换。

8.根据权利要求7所述的装置，其特征在于：

所述初始化结果计算模块，还用于搜索所述训练样本集的第k阶近邻得到k阶初始化结果。

9.根据权利要求7所述的装置，其特征在于，所述装置还包括：

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行以下步骤：