CN110765976B

CN110765976B - 人脸特征点的生成方法、数据网络的训练方法及相关装置

Info

Publication number: CN110765976B
Application number: CN201911059060.XA
Authority: CN
Inventors: 王猛; 董欢
Original assignee: Chongqing Unisinsight Technology Co Ltd
Current assignee: Chongqing Unisinsight Technology Co Ltd
Priority date: 2019-11-01
Filing date: 2019-11-01
Publication date: 2021-02-09
Anticipated expiration: 2039-11-01
Also published as: CN110765976A

Abstract

本发明实施例涉及人脸对齐技术领域，提供一种人脸特征点的生成方法、人脸数据网络的训练方法及相关装置，所述人脸特征点的生成方法包括：获取原始图像及原始图像的噪声图；将原始图像及噪声图进行融合，生成第一融合图像；将第一融合图像输入预先训练的生成式对抗GAN网络，生成第二融合图像，其中，第二融合图像融合有原始图像及原始图像的人脸热度图；将第二融合图像进行处理，得到原始图像对应的多个人脸特征点。本发明实施例通过自动生成人脸特征点，解决人工标注人脸特征点效率低下的问题。

Description

人脸特征点的生成方法、数据网络的训练方法及相关装置

技术领域

本发明实施例涉及人脸对齐技术领域，具体而言，涉及一种人脸特征点的生成方法、人脸数据网络的训练方法及相关装置。

背景技术

人脸识别是指利用分析比较人脸视觉特征信息进行身份鉴别的计算机技术。近年来，人脸识别技术在各种领域中的应用越来越广泛。比如，交通领域、商业领域、公共安全领域等。为了使用户的生活、工作等更加便利，越来越多的业务处理引入了人脸识别技术。

为了提高人脸识别的准确性，通常会采用大量的人脸数据对预先建立的人脸识别网络模型进行训练，最终得到可以准确识别人脸的人脸识别网络模型。

人脸数据通常是包括人脸图像及预先在该人脸图像中标注的人脸特征点，现有技术采用人工的方式对人脸特征点进行标注。

发明内容

本发明实施例的目的在于提供一种人脸特征点的生成方法、人脸数据网络的训练方法及相关装置，其能够自动生成人脸特征点，解决人工标注人脸特征点效率低下的问题。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供一种人脸特征点的生成方法，所述方法包括：获取原始图像及原始图像的噪声图；将原始图像及噪声图进行融合，生成第一融合图像；将第一融合图像输入预先训练的生成式对抗GAN网络，生成第二融合图像，其中，第二融合图像融合有原始图像及原始图像的人脸热度图；将第二融合图像进行处理，得到原始图像对应的多个人脸特征点。

第二方面，本发明实施例提供一种人脸数据网络的训练方法，所述方法包括：利用前述实施方式中任一项的人脸特征点的生成方法生成的人脸特征点及原始图像，分别对预先建立的第一网络和第二网络进行训练，得到训练后的第一网络和训练后的第二网络，其中，第一网络的层数和通道数均大于第二网络；利用训练后的第二网络对预先建立的第三网络进行微调，其中，第三网络的网络结构与第二网络的网络结构相同且第三网络的输入图像的大小小于第二网络的输入图像的大小；将训练后的第一网络作为教师网络、训练后的第三网络作为学生网络，基于知识蒸馏对第三网络进行训练，直至第三网络满足第二预设条件，得到训练后的第三网络。

第三方面，本发明实施例提供一种人脸特征点的生成装置，所述装置包括：获取模块，用于获取原始图像及原始图像的噪声图；融合模块，用于将原始图像及噪声图进行融合，生成第一融合图像；生成模块，用于将第一融合图像输入预先训练的生成式对抗GAN网络，生成第二融合图像，其中，第二融合图像融合有原始图像及原始图像的人脸热度图；处理模块，用于将第二融合图像进行处理，得到原始图像对应的多个人脸特征点。

第四方面，本发明实施例提供一种人脸数据网络的训练装置，所述装置包括：第一训练模块，用于利用前述实施方式中任一项的人脸特征点的生成方法生成的人脸特征点及原始图像，分别对预先建立的第一网络和第二网络进行训练，得到训练后的第一网络和训练后的第二网络，其中，第一网络的层数和通道数均大于第二网络；微调模块，用于利用训练后的第二网络对预先建立的第三网络进行微调，其中，第三网络的网络结构与第二网络的网络结构相同且第三网络的输入图像的大小小于第二网络的输入图像的大小；第二训练模块，用于将训练后的第一网络作为教师网络、训练后的第三网络作为学生网络，基于知识蒸馏对第三网络进行训练，直至第三网络满足第二预设条件，得到训练后的第三网络。

第五方面，本发明实施例提供一种电子设备，所述电子设备包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如前述实施方式中任一项所述的人脸特征点的生成方法，或者，如前述实施方式所述的人脸数据网络的训练方法。

第六方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前述实施方式中任一项所述的人脸特征点的生成方法，或者，如前述实施方式所述的人脸数据网络的训练方法。

相对于现有技术，本发明实施例提供一种人脸特征点的生成方法、人脸数据网络的训练方法及相关装置，通过引入人脸热度图，将原始图像及原始图像的噪声图融合成第一融合图像，将第一融合图像输入预先训练的生成式对抗GAN(Generative AdversarialNetworks，GAN)网络，生成融合有原始图像及原始图像的人脸热度图的第二融合图像，再从第二融合图像中得到原始图像对应的多个人脸特征点，由此实现了自动生成原始图像中的多个人脸特征点，从而解决了人工标注人脸特征点效率低下的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例提供的一种GAN网络的训练过程的流程图。

图2示出了本发明实施例提供的另一种GAN网络的训练过程的流程图。

图3示出了本发明实施例提供的另一种GAN网络的训练过程的流程图。

图4示出了本发明实施例提供的一种人脸特征点的生成方法的流程图。

图5示出了本发明实施例提供的另一种人脸特征点的生成方法的流程图。

图6示出了本发明实施例提供的一种人脸数据网络的训练方法的流程图。

图7示出了本发明实施例提供的人脸特征点的生成装置的功能模块图。

图8示出了本发明实施例提供的人脸数据网络的训练装置的功能模块图。

图9示出了本发明实施例提供的电子设备的方框示意图。

图标：10-电子设备；11-存储器；12-通信接口；13-处理器；14-总线；100-人脸特征点的生成装置；110-获取模块；120-融合模块；130-生成模块；140-处理模块；150-训练模块；200-人脸数据网络的训练装置；210-第一训练模块；220-微调模块；230-第二训练模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在不冲突的情况下，本发明的实施例中的特征可以相互结合。

在对人脸识别网络进行训练时，首先需要得到人脸数据，即人脸图像及在该人脸图像中已经标注的人脸特征点，目前网络上可以获取到大量的开源的人脸特征点数据集，由于大多数开源数据集对人脸特征点的标注数量不统一，并不能直接利用，用之前通常需要先对不同的开源数据集中的人脸特征点加以统一，然后才可以使用，带来了开源人脸特征点数据集使用上的种种不便，另外，开源数据集数量也非常有限，如果想扩充开源数据集，只能获取更多的原始图像，并对该原始图像的人脸特征点进行人工标注，人工标注的标注效率及其低下。

由鉴于此，本发明实施例通过自动生成人脸图像中的人脸特征点，从而解决了手工标注人脸特征点标注效率低下的问题。

为了更清楚地描述整个方案，本发明实施例首先描述GAN网络的训练过程，然后再描述通过训练的GAN网络进行人脸特征点的生成过程。

请参考图1，图1示出了本发明实施例提供的一种GAN网络的训练过程的流程图。该GAN网络的训练过程包括：

步骤S101，获取训练图像及训练图像中的多个人脸特征点。

在本实施例中，训练图像可以是人脸的图像，也可以包括除了人脸之外的其他的图像，例如证件照，除了人脸，还有人的颈部的图像。人脸特征点为人脸上可以表征出人脸面部关键特征的特征点，如眼睛、鼻尖、嘴角点、眉毛以及人脸各部件轮廓点，通常情况下，人脸特征点可以为14个点，分别为左右眉毛角点、左右眼角点、鼻子角点、嘴角点、下嘴唇点和下巴点，根据识别准确性的需求，人脸特征点的个数也可以为68或者81。

步骤S102，依据训练图像中的多个人脸特征点生成训练图像的人脸热度图。

在本实施例中，每个人脸特征点均对应一张热度图，热度图也称为heatmap，一个人脸特征点对应的热度图用于表征该人脸特征点的预设区域内像素点的概率分布情况，距离该人脸特征点越近的像素点，概率值(即热度值)越大，反之，概率值(即热度值)越小。由于训练图像包括多个人脸特征点，因此训练图像的人脸热度图是由多个人脸特征点对应的多张热度图融合后生成的。人脸热度图可以用于突出表征人脸特征点在训练图像中的位置信息。

步骤S103，将训练图像与训练图像的人脸热度图进行融合，生成第三融合图像。

在本实施例中，训练图像与训练图像的人脸热度图进行融合可以是训练图像的颜色通道与训练图像的人脸热度图的热度通道的融合，也可以是训练图像的颜色通道、透明通道与训练图像的人脸热度图的热度图通道的融合。

步骤S104，将第三融合图像输入GAN网络进行训练，直至满足第一预设条件，得到训练的GAN网络。

在本实施例中，GAN网络属于深度学习模型中无监督学习的方法之一，GAN网络包括生成网络和判别网络，通过生成网络和判别网络的互相博弈学习，产生效果好的输出。具体GAN网络的训练过程可以是：

首先，生成网络用于根据随机的噪声生成训练噪声图像，并且将该训练噪声图像的大小设置与第三融合图像的大小相同、且该训练噪声图像的结构与第三融合图像的结构相同，其中，结构相同可以是具有相同的通道数。

在本实施例中，该训练噪声图像可以是一张包括随机数据的、与第三融合图像的大小相同、通道数也相同的图像，也可以是一张人脸图像与一个噪声图融合后得到的图像。

其次，将第三融合图像作为真实数据，将训练噪声图像作为假数据，对GAN网络进行迭代训练，GAN网络的目标函数可以为：

其中，x为输入的真实数据，z为输入的噪声数据，D为判别网络，D(x)为真实数据通过判别网络的输出，G为生成网络，D(G(z))为噪声数据先通过生成网络再通过判别网络的输出，

为x服从真实数据的期望，

为z服从噪声数据的期望，min_G为最小化生成网络，max_D为最大化判别网络。由判别网络判别该图像是不是真实的图像，不断地迭代训练，直至满足第一预设条件，得到训练的GAN网络，其中，第一预设条件可以是预先设置的迭代的次数，也可以是损失函数的值达到预设值，迭代的次数或者预设值可以根据需要预先设置。GAN网络的生成器可以将输入的原始图像及原始图像的噪声图融合后的第一融合图像转化为融合有原始图像及原始图像的人脸热度图的第二融合图像。

本发明实施例提供上述方法，通过依据训练图像的多个人脸特征点生成训练图像的人脸热度图，将训练图像与训练图像的人脸热度图融合为第三融合图像，将第三融合图像作为真实数据，将随机生成的训练噪声图作为假数据，对GAN网络进行训练，最终得到的训练的GAN网络可以将原始图像及原始图像的噪声图融合后的第一融合图像转换为融合有原始图像及原始图像的人脸热度图的第二融合图像，以便于后续从原始图像的人脸热度图中分离出原始图像的多个人脸特征点。

在图1的基础上，本发明实施例还提供了另一种GAN网络的训练过程，请参照图2，图2示出了本发明实施例提供的另一种GAN网络的训练过程的流程图，步骤S102包括如下子步骤：

子步骤S1021，基于目标人脸特征点，生成训练图像对应的初始热度图，其中，初始热度图包括目标人脸特征点在训练图像的预设区域内的热度值矩阵。

在本实施例中，目标人脸特征点可以为多个人脸特征点中的任意一个人脸特征点，即当前正在处理的人脸特征点。初始热度图的大小与训练图像相同，例如，训练图像为8*8，初始热度图的大小也为8*8。热度图矩阵包括目标人脸特征点与预设区域内每个像素点之间的距离。预设区域可以是以人脸特征点为中心，预设大小的方形区域，在初始热度图中，在该预设区域外的像素点与该目标人脸特征点的距离为0。

作为一种具体实施方式，生成初始热度图的方法可以是：

首先，以目标人脸特征点为中心，设置一个预设大小的预设区域。

在本实施例中，预设区域可以为正方形、长方形或者圆形。如表1，表1示例了一个大小为8*8像素的训练图像的像素，表中每一个单元格代表一个像素点，该训练图像一共有3个人脸特征点，分别为：A22、B22、C22和D22，A11～A44、B11～B44、C11～C44、D11～D44的区域分别代表人脸特征点A22、B22、C22、D22的预设区域。

表1

A11

A12

A13

A14

B11

B12

B13

B14

A21

A22

A23

A24

B21

B22

B23

B24

A31

A32

A33

A34

B31

B32

B33

B34

A41

A42

A43

A44

B41

B42

B43

B44

C11

C12

C13

C14

D11

D12

D13

D14

C21

C22

C23

C24

D21

D22

D23

D24

C31

C32

C33

C34

D31

D32

D33

D34

C41

C42

C43

C44

D41

D42

D43

D44

其次，计算目标人脸特征点与预设区域内像素点之间的热度，得到其热度值矩阵。

在本实施例中，目标人脸特征点与预设区域内像素点之间的热度与二者之间的距离相关，二者距离越近，热度值越大，二者距离越远，热度值越小。

目标人脸特征点与预设区域内像素点之间的热度值可以通过如下公式计算：

其中，(x，y)为预设区域内任意一个像素点的坐标，(lx，ly)为目标人脸特征点的坐标，

为(x，y)与(lx，ly)之间的距离。

需要说明的是，该公式中的距离也可以是欧式距离等其他距离。

最后，根据热度值矩阵，得到初始热度图。

在本实施例中，初始热度图中预设范围内每个像素点对应的值为该像素点与目标人脸特征点之间的热度值，在预设范围外每个像素点对应的值为0。

例如，表1中人脸特征点A22的初始热度图如表2所示：

表2

0.5	0.8	0.7	0.5	0	0	0	0
								0.8	1	0.8	0.6	0	0	0	0
0.7	0.8	0.6	0.5	0	0	0	0
								0.5	0.6	0.5	0.4	0	0	0	0
0	0	0	0	0	0	0	0
								0	0	0	0	0	0	0	0
0	0	0	0	0	0	0	0
								0	0	0	0	0	0	0	0

子步骤S1022，遍历每个人脸特征点，得到多张初始热度图。

子步骤S1023，将多张初始热度图进行融合，得到训练图像的人脸热度图。

在本实施例中，每个人脸特征点均对应一张初始热度图，将多张初始热度图进行融合，得到训练图像的人脸热度图。具体的融合方式，可以取多张初始热度图中相同位置的像素点的最大值，或者将多张初始热度图中相同位置的像素点的值相加，融合后得到一张人脸热度图，该人脸热度图即为训练图像的人脸热度图。

继续参照图2，作为一种具体实施方式，步骤S103包括：

子步骤S1031，将训练图像的颜色通道与训练图像的人脸热度图的热度通道进行合并，生成第三融合图像。

在本实施例中，训练图像包括颜色通道，颜色通道可以是R、G、B三个通道，也可以是R、G、B三个通道再加上透明通道，训练图像的人脸热度图包括热度通道，将训练图像与训练图像的人脸热度图进行融合，可以通过将训练图像的颜色通道与训练图像的人脸热度图的热度通道进行合并实现。

在本实施例中，为了提高训练的GAN网络的准确性，可以对不同拍摄角度得到的原始图像进行处理，得到融合有不同拍摄角度的原始图像及该原始图像的人脸热度图，本发明实施例基于图2还提供了另一种GAN网络的训练过程。请参照图3，图3示出了本发明实施例提供的另一种GAN网络的训练过程的流程图，步骤S103还包括以下子步骤：

子步骤S1032，将训练图像按照至少一个预设角度进行旋转，得到至少一张中间图像，其中，中间图像包括多个人脸特征点。

在本实施例中，预设角度可以根据需要进行设置，例如，预设角度可以为：10°、15°、20°、25°等。

作为一种实施方式，得到一张中间图像的步骤可以是：

首先，从训练图像中的多个人脸特征点中选取预设个数及处于预设位置的人脸特征点。

在本发明实施例中，预设个数及预设位置可以根据需要设置，与需要自动生成的人脸特征点的个数及位置是对应的。

其次，定义个三维的人脸结构，在该人脸结构中设置选取的人脸特征点。

然后，基于预设角度，按照普通的位姿估计，计算出旋转矩阵。

最后，利用旋转矩阵对训练图像进行旋转，得到将训练图像旋转预设角度后的中间图像。

子步骤S1033，依据每一张中间图像中的多个人脸特征点，生成每一张中间图像的人脸热度图。

在本实施例中，生成每一张中间图像的人脸热度图的方法与生成原始图像的人脸热度图的方法类似，此处不再赘述。

子步骤S1034，将每一张中间图像与对应的人脸热度图均进行融合，生成第三融合图像。

在本实施例中，对于任意一张中间图像，将该中间图像与对应的人脸热度图进行融合的方法与将原始图像与对应的人脸热度图进行融合的方法类似，此处不再赘述。

需要说明的是，当第三融合图像为多张时，步骤S103的子步骤S1032-S1034也可以与图2或者图1进行组合，即代替图2中的步骤S1031或者图1中的步骤S103。图2中的步骤S1021-S1023也可以代替图1或者图3中的S102。

本发明实施例提供的上述方法，通过将训练图像按照至少一个预设角度进行旋转，并将旋转后的中间图像与其对应的人脸热度图进行融合，得到多张第一融合图像，一方面，通过一个训练图像生成多张融合图像，多张融合图像可以作为训练GAN网络所需的多个训练样本，高效地扩充了训练GAN网络所需的训练样本，提高GAN网络的准确性，另一方面，由于多个训练样本是基于训练图像旋转不同预设角度得到的，极大地丰富了训练样本的多样性，由此得到的GAN网络也更鲁棒，后续利用GAN网络可以得到不同拍摄角度的原始图像的人脸特征点。

基于与上述实施例同一发明思路，本发明实施例还提供了一种利用训练的GAN网络生成人脸特征点的方法，请参照图4，图4示出了本发明实施例提供的一种人脸特征点的生成方法的流程图，该人脸特征点的生成方法包括以下步骤：

步骤S201，获取原始图像及原始图像的噪声图。

在本实施例中，原始图像可以是人脸的图像，也可以包括除了人脸之外的其他的图像，例如证件照，除了人脸，还有人的颈部的图像。原始图像的噪声图可以是随机生成的、与原始图像的大小相同的一通道图像，也可以预先设置的、与原始图像的大小相同的一通道图像。

步骤S202，将原始图像及噪声图进行融合，生成第一融合图像。

在本实施例中，将原始图像与噪声图进行融合可以是将原始图像的颜色通道与噪声图的通道的融合，也可以是将原始图像的颜色通道、透明通道与噪声图的通道的融合。

步骤S203，将第一融合图像输入预先训练的生成式对抗GAN网络，生成第二融合图像，其中，第二融合图像融合有原始图像及原始图像的人脸热度图。

在本实施例中，GAN网络的训练过程在上述实施方式中已有描述，此处不再赘述。

步骤S204，将第二融合图像进行处理，得到原始图像对应的多个人脸特征点。

在本实施例中，由于第二融合图像是通过GAN网络得到的、且融合有原始图像及原始图像的人脸热度图的图像，因此可以按照与训练GAN网络时生成第三融合图像过程的逆过程，对第二融合图像进行处理，得到原始图像对应的多个人脸特征点，其步骤可以包括：首先，从第二融合图像中分离出人脸热度图，然后，从人脸热度图中提取出多个人脸特征点。

本发明实施例提供上述方法，通过将原始图像的人脸热度图和原始图像进行融合，生成第一融合图像，再利用训练的GAN网络根据第一融合图像生成多张第二融合图像，从第二融合图像中分离出原始图像和对应的人脸热度图，并从人脸热度图中提取多个人脸特征点，实现了人脸特征点的自动生成，提高了人脸特征点生成的效率，解决了人工标注人脸特征点效率低下的问题，同时，解决了人工标注人脸特征点容易受主观因素影响而造成的标注效果差的问题。

在图4的基础上，本发明实施例还提供了另一种人脸特征点的生成方法，请参照图5，图5示出了本发明实施例提供的另一种人脸特征点的生成方法的流程图，步骤S204包括以下子步骤：

子步骤S2041，对第二融合图像进行分离，得到第二融合图像对应的人脸图像及人脸热度图。

在本实施例中，第二融合图像与步骤S103生成的第一融合图像具有相同的通道，因此，可以通过对第二融合图像的通道进行分离，即与步骤S103中的融合的逆操作得到该第二融合图像对应的人脸图像及人脸热度图。

子步骤S2042，从第二融合图像对应的人脸热度图中提取中多个人脸特征点。

在本实施例中，人脸热度图包括多个热度区，热度区与第一融合图像的预设区域一一对应，作为一种具体实施方式，提取人脸特征点的方法可以是：

将人脸热度图中每一热度区中像素值最大的像素点作为该热度区对应的人脸特征点，得到多个人脸特征点。

作为另一种实施方式，也可以将人脸热度图中每一热度区中与所有像素值的平均值最接近的像素点作为每一热度区对应的人脸特征点。

本发明实施例提供上述方法，通过先确定人脸热度图上的每个热度区，再提取每一热度区对应的人脸特征点，最终得到原始图像对应的多个人脸特征点，按照热度区划分提取人脸特征点，可以进一步提高人脸特征点的提取效率。

基于与上述提供的任一种人脸特征点的生成方法相同的发明思路，本发明实施例还提供一种人脸数据网络的训练方法，利用上述提供的任一种人脸特征点的生成方法对人脸数据网络进行训练，得到训练后的人脸数据网络，将任意一张不包括任何人脸特征点的原始图像输入该训练后的人脸数据网络，可以生成该原始图像的多个人脸特征点，实现人脸特征点的自动标注，请参照图6，图6示出了本发明实施例提供的一种人脸数据网络的训练方法的流程图，该方法包括以下步骤：

步骤S301，利用前述实施方式中任一项的人脸特征点的生成方法生成的人脸特征点及原始图像，分别对预先建立的第一网络和第二网络进行训练，得到训练后的第一网络和训练后的第二网络，其中，第一网络的层数和通道数均大于第二网络。

在本实施例中，第一网络和第二网络均可以是卷积神经网络CNN(ConvolutionalNeural Network，CNN)，每个CNN包括多个卷积层和池化层，第一网络的卷积层的层数均大于第二网络的卷积层的层数，同时，第一网络的通道数(即卷积核的个数)也大于第二网络的通道数。由于CNN的层数和通道数越多，可以捕捉到的特征也越丰富，训练后的CNN的效果也越好，同时运行效率也会降低，因此，由于第一网络的层数和通道数均大于第二网络，训练后的第一网络的效果比第二网络的效果好，但是由于第一网络具有较多的层数及通道数，因此第一网络的运行效率也比较低。

需要说明的是，第一网络输入的人脸数据中的人脸图像的大小可以与第二网络输入的人脸数据中的人脸图像的大小相同，也可以不同，例如，第一网络输入的人脸图像和第二网络的人脸图像均为96*96。

步骤S302，利用训练后的第二网络对预先建立的第三网络进行微调，其中，第三网络的网络结构与第二网络的网络结构相同且第三网络的输入图像的大小小于第二网络的输入图像的大小。

在本实施例中，第二网络输入的人脸图像的大小大于第三网络且网络结构与第三网络相同，例如，第二网络的输入为96*96，第二网络的结构为10个卷积层、10个池化层，20个通道，第三网络的输入为64*64，第三网络的结构也为10个卷积层、10个池化层，20个通道。利用训练后的第二网络对第三网络进行微调，可以通过将第二网络的各层参数迁移到第三网络实现。

步骤S303，将训练后的第一网络作为教师网络、训练后的第三网络作为学生网络，基于知识蒸馏对第三网络进行训练，直至第三网络满足第二预设条件，得到训练后的第三网络。

在本实施例中，在第三网络训练起始时，训练后的第一网络的效果最好，训练后的第二网络的效果次之，此时的第三网络的效果最差。以第一网络作为教师网络，第三网络作为学生网络，利用知识蒸馏的方式，指导第三网络的训练，最终使得训练后的第三网络的效果接近第一网络的效果。

在本实施例中，第二预设条件可以是第三网络的效果达到预设效果值，或者是第三网络的效果高于或者接近第一网络。

本发明实施例提供的上述方法，通过引入第二网络，先利用第二网络对第三网络进行微调，再利用第一网络对第三网络进行知识蒸馏，最终得到的效果达到第一网络且运行效率高于第一网络的第三网络。在第三网络训练前首先利用第二网络对第三进行微调，因此使得第三网络在训练开始时就具有比较合适的参数，无需从零开始进行训练，从而可以提高第三网络的训练效率。

为了执行上述实施例及各个可能的实施方式中的相应步骤，下面给出一种人脸特征点的生成装置的实现方式。请参阅图7，图7示出了本发明实施例提供的人脸特征点的生成装置100的功能模块图。需要说明的是，本实施例所提供的人脸特征点的生成装置100，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本实施例部分未提及指出，可参考上述实施例中的相应内容。人脸特征点的生成装置100包括获取模块110、融合模块120、生成模块130、处理模块140及训练模块150。

获取模块110，用于获取原始图像及原始图像的噪声图。

融合模块120，用于将原始图像及噪声图进行融合，生成第一融合图像。

作为一种实施方式，融合模块120具体用于：基于目标人脸特征点，生成原始图像对应的初始热度图，其中，初始热度图包括目标人脸特征点在原始图像的预设区域内的热度值矩阵；遍历每个人脸特征点，得到多张初始热度图；将多张初始热度图进行融合，得到原始图像的人脸热度图。

生成模块130，用于将第一融合图像输入预先训练的生成式对抗GAN网络，生成第二融合图像，其中，第二融合图像融合有原始图像及原始图像的人脸热度图。

作为一种实施方式，第一融合图像为多张时，生成模块130具体用于：将原始图像按照至少一个预设角度进行旋转，得到至少一张中间图像，其中，中间图像包括多个人脸特征点；依据每一张中间图像中的多个人脸特征点，生成每一张中间图像的人脸热度图；将每一张中间图像与对应的人脸热度图均进行融合，生成第一融合图像。

处理模块140，用于将第二融合图像进行处理，得到原始图像对应的多个人脸特征点。

作为一种实施方式，处理模块140具体用于：对第二融合图像进行分离，得到原始图像及原始图像对应的人脸热度图；从原始图像对应的人脸热度图中提取多个人脸特征点。

作为一种实施方式，人脸热度图包括多个热度区，处理模块140在执行从原始图像对应的人脸热度图中提取多个人脸特征点步骤时，具体用于：将原始图像对应的人脸热度图中每一热度区中像素值最大的像素点作为每一热度区对应的人脸特征点，得到多个人脸特征点。

训练模块150，用于：获取训练图像及训练图像中的多个人脸特征点；依据训练图像中的多个人脸特征点生成训练图像的人脸热度图；将训练图像与训练图像的人脸热度图进行融合，生成第三融合图像；将第三融合图像输入GAN网络进行训练，直至满足第一预设条件，得到训练的GAN网络。

作为一种实施方式，训练模块150具体用于：基于目标人脸特征点，生成训练图像对应的初始热度图，其中，初始热度图包括目标人脸特征点在训练图像的预设区域内的热度值矩阵；遍历每个人脸特征点，得到多张初始热度图；将多张初始热度图进行融合，得到训练图像的人脸热度图。

作为一种实施方式，第三融合图像包括多张，训练模块150在执行将训练图像与人脸热度图进行融合，生成第三融合图像的步骤时，具体还用于：将训练图像按照至少一个预设角度进行旋转，得到至少一张中间图像，其中，中间图像包括多个人脸特征点；依据每一张中间图像中的多个人脸特征点，生成每一张中间图像的人脸热度图；将每一张中间图像与对应的人脸热度图均进行融合，生成第三融合图像。

作为一种实施方式，训练图像包括颜色通道，人脸热度图包括热度通道，训练模块150在执行将训练图像与人脸热度图进行融合，生成第三融合图像的步骤时，具体还用于：将训练图像的颜色通道与训练图像的人脸热度图的热度通道进行合并，生成第三融合图像。

本发明实施例还给出一种人脸数据网络的训练装置的实现方式。请参阅图8，图8示出了本发明实施例提供的人脸数据网络的训练装置200的功能模块图。需要说明的是，本实施例所提供的人脸数据网络的训练装置200，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本实施例部分未提及指出，可参考上述实施例中的相应内容。人脸数据网络的训练装置200包括第一训练模块210、微调模块220及第二训练模块230。

第一训练模块210，用于利用前述实施方式中任一项所述的人脸特征点的生成方法生成的人脸特征点及原始图像，分别对预先建立的第一网络和第二网络进行训练，得到训练后的第一网络和训练后的第二网络，其中，第一网络的层数和通道数均大于第二网络。

微调模块220，用于利用训练后的第二网络对预先建立的第三网络进行微调，其中，第三网络的网络结构与第二网络的网络结构相同且所述第三网络的输入图像的大小小于所述第二网络的输入图像的大小。

第二训练模块230，用于将训练后的第一网络作为教师网络、训练后的第三网络作为学生网络，基于知识蒸馏对第三网络进行训练，直至第三网络满足第二预设条件，得到训练后的第三网络。

为了执行上述的人脸特征点的生成方法或者人脸数据网络的训练方法，本发明实施例还提供一种电子设备10，请参照图9，图9示出了本发明实施例提供的电子设备10的方框示意图，电子设备10还包括存储器11、通信接口12、处理器13和总线14。存储器11、通信接口12，处理器13通过总线14连接。

存储器11用于存储程序，例如图7所述的人脸特征点的生成装置100，或者图8示的人脸数据网络的训练装置200，人脸特征点的生成装置100或者人脸数据网络的训练装置200均包括至少一个可以软件或固件(firmware)的形式存储于存储器11中的软件功能模块，处理器13在接收到执行指令后，执行所述程序以实现上述实施例揭示的人脸特征点的生成方法或者人脸数据网络的训练方法。

存储器11可能包括高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非易失存储器(non-volatile memory)，例如至少一个磁盘存储器。可选地，存储器11可以是内置于处理器13中的存储装置，也可以是独立于处理器13的存储装置。

通过至少一个通信接口12(可以是有线或者无线)实现与其他外部设备的通信连接。

总线14可以是ISA总线、PCI总线或EISA总线等。图9仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器13可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器13中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器13可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如前述实施方式中任一项所述的人脸特征点的生成方法，或者，如前述实施方式所述的人脸数据网络的训练方法。

本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前述实施方式中任一项所述的人脸特征点的生成方法，或者，如前述实施方式所述的人脸数据网络的训练方法。

综上所述，本发明实施例提供了一种人脸特征点的生成方法、人脸数据网络的训练方法及相关装置，所述方法包括：获取原始图像及原始图像的噪声图；将原始图像及噪声图进行融合，生成第一融合图像；将第一融合图像输入预先训练的生成式对抗GAN网络，生成第二融合图像，其中，第二融合图像融合有原始图像及原始图像的人脸热度图；将第二融合图像进行处理，得到原始图像对应的多个人脸特征点。相对于现有技术，本发明实施例通过引入人脸热度图，将原始图像及原始图像的人脸热度图融合成第一融合图像，将第一融合图像输入预先训练的GAN网络，生成多张第二融合图像，再从第二融合图像中得到人脸图像及人脸图像中的多个人脸特征点，由此实现了自动生成人脸图像及人脸图像中的多个人脸特征点，从而解决了人工标注人脸特征点效率低下的问题。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种人脸特征点的生成方法，其特征在于，所述方法包括：

获取原始图像及所述原始图像的噪声图；

将所述原始图像的颜色通道及所述噪声图的颜色通道进行融合，生成第一融合图像；

将所述第一融合图像输入预先训练的生成式对抗GAN网络，生成第二融合图像，其中，所述第二融合图像融合有所述原始图像的颜色通道及所述原始图像的人脸热度图的热度通道；

对所述第二融合图像进行分离，得到所述原始图像及所述原始图像对应的人脸热度图；

从所述原始图像对应的人脸热度图中提取多个人脸特征点，得到所述原始图像对应的多个人脸特征点。

2.如权利要求1所述的人脸特征点的生成方法，其特征在于，所述人脸热度图包括多个热度区，所述从所述原始图像对应的人脸热度图中提取多个人脸特征点的步骤，包括：

将所述原始图像对应的人脸热度图中每一热度区中像素值最大的像素点作为所述每一热度区对应的人脸特征点，得到多个人脸特征点。

3.如权利要求1所述的人脸特征点的生成方法，其特征在于，对所述GAN网络进行训练的过程包括：

获取训练图像及所述训练图像中的多个人脸特征点；

依据所述训练图像中的多个人脸特征点生成所述训练图像的人脸热度图；

将所述训练图像与所述训练图像的人脸热度图进行融合，生成第三融合图像；

将所述第三融合图像输入所述GAN网络进行训练，直至满足第一预设条件，得到训练的所述GAN网络。

4.如权利要求3所述的人脸特征点的生成方法，其特征在于，所述依据所述训练图像中的多个人脸特征点生成所述训练图像的人脸热度图的步骤，包括：

基于目标人脸特征点，生成所述训练图像对应的初始热度图，其中，所述初始热度图包括所述目标人脸特征点在所述训练图像的预设区域内的热度值矩阵；

遍历每个所述人脸特征点，得到多张初始热度图；

将所述多张初始热度图进行融合，得到所述训练图像的人脸热度图。

5.如权利要求3所述的人脸特征点的生成方法，其特征在于，所述第三融合图像包括多张，所述将所述训练图像与所述人脸热度图进行融合，生成第三融合图像的步骤，包括：

将所述训练图像按照至少一个预设角度进行旋转，得到至少一张中间图像，其中，所述中间图像包括多个人脸特征点；

依据每一张所述中间图像中的多个人脸特征点，生成每一张所述中间图像的人脸热度图；

将每一张所述中间图像与对应的人脸热度图均进行融合，生成第三融合图像。

6.如权利要求3所述的人脸特征点的生成方法，其特征在于，所述训练图像包括颜色通道，所述人脸热度图包括热度通道，所述将所述训练图像与所述训练图像的人脸热度图进行融合，生成第三融合图像的步骤，包括：

将所述训练图像的颜色通道与所述训练图像的人脸热度图的热度通道进行合并，生成第三融合图像。

7.一种人脸数据网络的训练方法，其特征在于，所述方法包括：

利用权利要求1～6中任一项所述的人脸特征点的生成方法生成的人脸特征点及原始图像，分别对预先建立的第一网络和第二网络进行训练，得到训练后的第一网络和训练后的第二网络，其中，所述第一网络的层数和通道数均大于所述第二网络；

利用所述训练后的第二网络对预先建立的第三网络进行微调，其中，所述第三网络的网络结构与所述第二网络的网络结构相同且所述第三网络的输入图像的大小小于所述第二网络的输入图像的大小；

将所述训练后的第一网络作为教师网络、所述第三网络作为学生网络，基于知识蒸馏对所述第三网络进行训练，直至所述第三网络满足第二预设条件，得到训练后的第三网络。

8.一种人脸特征点的生成装置，其特征在于，所述装置包括：

获取模块，用于获取原始图像及所述原始图像的噪声图；

融合模块，用于将所述原始图像的颜色通道及所述噪声图的颜色通道进行融合，生成第一融合图像；

生成模块，用于将所述第一融合图像输入预先训练的生成式对抗GAN网络，生成第二融合图像，其中，所述第二融合图像融合有所述原始图像的颜色通道及所述原始图像的人脸热度图的热度通道；

处理模块，用于对所述第二融合图像进行分离，得到所述原始图像及所述原始图像对应的人脸热度图；以及从所述原始图像对应的人脸热度图中提取多个人脸特征点，得到所述原始图像对应的多个人脸特征点。

9.一种人脸数据网络的训练装置，其特征在于，所述装置包括：

第一训练模块，用于利用权利要求1～6中任一项所述的人脸特征点的生成方法生成的人脸数据，分别对预先建立的第一网络和第二网络进行训练，得到训练后的第一网络和训练后的第二网络，其中，所述第一网络的层数和通道数均大于所述第二网络；

微调模块，用于利用所述训练后的第二网络对预先建立的第三网络进行微调，其中，所述第三网络的网络结构与所述第二网络的网络结构相同且所述第三网络的输入图像的大小小于所述第二网络的输入图像的大小；

第二训练模块，用于将所述训练后的第一网络作为教师网络、所述第三网络作为学生网络，基于知识蒸馏对所述第三网络进行训练，直至所述第三网络满足第二预设条件，得到训练后的第三网络。

10.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1～6中任一项所述的人脸特征点的生成方法，或者，如权利要求7所述的人脸数据网络的训练方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1～6中任一项所述的人脸特征点的生成方法，或者，如权利要求7所述的人脸数据网络的训练方法。