CN110163082A

CN110163082A - 一种图像识别网络模型训练方法、图像识别方法及装置

Info

Publication number: CN110163082A
Application number: CN201910262855.4A
Authority: CN
Inventors: 葛政; 揭泽群; 王浩; 李志鋒; 龚迪洪; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-02
Filing date: 2019-04-02
Publication date: 2019-08-23
Also published as: EP3951646A4; US20210264205A1; WO2020199926A1; EP3951646B1; EP3951646A1; US11908239B2

Abstract

本申请公开了一种图像识别网络模型训练方法，包括：获取待训练图像集合所对应的第一图像特征；通过待训练身份分类器获取第一身份预测结果，通过待训练姿态分类器获取第一姿态预测结果；根据第一身份预测结果以及身份标签得到身份分类器，根据第一姿态预测结果以及姿态标签得到姿态分类器；通过待训练生成器对第一图像特征进行姿态转换，得到待训练图像集合所对应的第二图像特征；通过身份分类器获取第二身份预测结果，通过姿态分类器获取第二姿态预测结果；对待训练生成器进行训练，得到生成器。本申请还公开图像识别方法及装置。本申请基于经过组织的图像特征进行训练，相对于原始图像而言具有较小的空间维度，降低了训练的难度。

Description

一种图像识别网络模型训练方法、图像识别方法及装置

技术领域

本申请涉及人工智能领域，尤其涉及一种图像识别网络模型训练方法、图像识别方法及装置。

背景技术

随着人脸识别技术快速发展，人脸识别被应用到包括生活以及安全监控等很多方面。侧脸识别在人脸识别中具有非常重要的意义，在很多情况下会很难得到人的正脸图像，例如：在监控场景下拍摄到人正脸的概率就比较小，因此提高侧脸识别的准确率是人脸识别需要解决的一项非常关键的技术问题。

目前，对侧脸图像进行检测的方式是，首先训练得到一个对抗生成网络(Generative Adversarial Network，GAN)模型，然后将侧脸图像输入至该GAN模型，通过GAN模型将侧脸图像进行空间身份不变的人脸转正处理，得到转正后的人脸图像。最后将该人脸图像输入至神经网络进行识别。

然而，目前所使用的方法是基于原始的侧脸图像进行人脸转正，也就是对原始图像空间进行转正处理，由于原始图像空间是未经过组织的，比如原始图像的长为128，宽为128，即空间大小为3×128×128，因此需要一个很大的神经网络对原始图像空间进行训练，这个过程计算量非常大，由此会增加训练的难度，并且增加了模型的复杂度，需要消耗大量的计算资源。

发明内容

本申请实施例提供了一种图像识别网络模型训练方法、图像识别方法及装置，仅基于图像特征进行训练，而图像特征是经过组织的，因此相对于原始图像而言具有较小的空间维度，从而降低了训练的难度，并且降低了模型的复杂度，可以减少计算资源的消耗。

有鉴于此，本申请第一方面提供一种图像识别网络模型训练方法，包括：

获取待训练图像集合所对应的第一图像特征，其中，所述待训练图像集合包括至少一个待训练图像，所述待训练图像具有身份标签以及姿态标签，所述身份标签用于表示所述待训练图像中目标对象的身份信息，所述姿态标签用于表示所述待训练图像中所述目标对象的姿态信息；

通过待训练身份分类器获取所述第一图像特征所对应的第一身份预测结果，通过待训练姿态分类器获取所述第一图像特征所对应的第一姿态预测结果；

根据所述第一身份预测结果以及所述身份标签对所述待训练身份分类器进行训练，得到身份分类器，根据所述第一姿态预测结果以及所述姿态标签对所述待训练姿态分类器进行训练，得到姿态分类器；

通过待训练生成器对所述第一图像特征进行姿态转换，得到所述待训练图像集合所对应的第二图像特征，其中，所述第二图像特征对应于目标姿态；

通过所述身份分类器获取所述第二图像特征所对应的第二身份预测结果，通过所述姿态分类器获取所述第二图像特征所对应的第二姿态预测结果；

根据所述第二身份预测结果、所述身份标签、所述第二姿态预测结果、目标姿态标签、所述第二图像特征以及第三图像特征，对所述待训练生成器进行训练，得到生成器，其中，所述第三图像特征为所述待训练图像集合中属于所述目标姿态的待训练图像所对应的图像特征，所述目标姿态标签表示所述目标姿态的信息，所述生成器用于生成图像识别网络模型。

本申请第二方面提供一种图像识别方法，包括：

获取第一待识别图像，其中，所述第一待检测图像中包括第一目标对象，所述第一目标对象对应于第一姿态信息，所述第一目标对象对应于目标身份信息；

通过图像识别网络模型中的生成器，获取所述第一待识别图像所对应的第二待识别图像，其中，所述第二待识别图像包括第二目标对象，所述第二目标对象对应于第二姿态信息，所述第二目标对象对应于所述目标身份信息，所述生成器用于对图像中的对象进行姿态转换；

通过所述图像识别网络模型中的识别模块，确定所述第二待识别图像的识别结果。

本申请第三方面提供一种人脸姿态转换方法，包括：

获取待转正人脸图像，其中，所述待转正人脸图像对应于第一姿态信息，所述待转正人脸图像对应于目标身份信息，所述第一姿态信息表示转正前图像的姿态信息；

通过生成器对所述待转正人脸图像进行转换处理，得到所述待转正人脸图像所对应的转正人脸图像，其中，所述转正人脸图像对应于第二姿态信息，所述转正人脸图像对应于所述目标身份信息，所述第二姿态信息表示转正后图像的姿态信息，所述生成器用于对图像中的对象进行姿态转换。

本申请第四方面提供一种模型训练装置，包括：

获取模块，用于获取待训练图像集合所对应的第一图像特征，其中，所述待训练图像集合包括至少一个待训练图像，所述待训练图像具有身份标签以及姿态标签，所述身份标签用于表示所述待训练图像中目标对象的身份信息，所述姿态标签用于表示所述待训练图像中所述目标对象的姿态信息；

所述获取模块，还用于通过待训练身份分类器获取所述第一图像特征所对应的第一身份预测结果，通过待训练姿态分类器获取所述第一图像特征所对应的第一姿态预测结果；

训练模块，用于根据所述获取模块获取的所述第一身份预测结果以及所述身份标签对所述待训练身份分类器进行训练，得到身份分类器，根据所述获取模块获取的所述第一姿态预测结果以及所述姿态标签对所述待训练姿态分类器进行训练，得到姿态分类器；

转换模块，用于通过待训练生成器对所述获取模块获取的所述第一图像特征进行姿态转换，得到所述待训练图像集合所对应的第二图像特征，其中，所述第二图像特征对应于目标姿态；

所述获取模块，还用于通过所述训练模块训练得到的所述身份分类器获取所述第二图像特征所对应的第二身份预测结果，通过所述训练模块训练得到的所述姿态分类器获取所述第二图像特征所对应的第二姿态预测结果；

所述训练模块，还用于根据所述获取模块获取的所述第二身份预测结果、所述身份标签、所述第二姿态预测结果、目标姿态标签、所述第二图像特征以及第三图像特征，对所述待训练生成器进行训练，得到生成器，其中，所述第三图像特征为所述待训练图像集合中属于所述目标姿态的待训练图像所对应的图像特征，所述目标姿态标签表示所述目标姿态的信息，所述生成器用于生成图像识别网络模型。

在一种可能的设计中，在本申请实施例的第四方面的第一种实现方式中，

所述获取模块，具体用于根据所述待训练身份分类器的网络权重值、所述第一图像特征以及身份类别，计算得到每个类别的身份输出概率；

根据所述每个类别的身份输出概率确定所述第一图像特征所对应的所述第一身份预测结果；

所述训练模块，具体用于根据所述第一身份预测结果以及所述身份标签，采用第一损失函数确定所述待训练身份分类器的模型参数；

采用所述待训练身份分类器的模型参数生成所述身份分类器。

在一种可能的设计中，在本申请实施例的第四方面的第二种实现方式中，

所述获取模块，具体用于采用如下方式计算得到所述每个类别的身份输出概率：

其中，所述表示第j个身份类别的身份输出概率，所述i表示所述身份类别的总个数，所述E(x)表示所述第一图像特征，所述表示所述第j个身份类别对应的所述待训练身份分类器的网络权重值，所述表示第i个身份类别对应的所述待训练身份分类器的网络权重值；

所述第一损失函数表示为：

L_I＝-E[logP(y_I|Y_I)]；

其中，所述L_I表示所述第一损失函数，所述E表示期望值计算，所述P(y_I|Y_I)表示所述Y_I属于所述y_I的概率，所述y_I表示所述身份标签，所述Y_I表示所述第一身份预测结果。

在一种可能的设计中，在本申请实施例的第四方面的第三种实现方式中，

所述获取模块，具体用于根据所述待训练姿态分类器的网络权重值、所述第一图像特征以及姿态类别，计算得到每个类别的姿态输出概率；

根据所述每个类别的姿态输出概率确定所述第一图像特征所对应的所述第一姿态预测结果；

所述训练模块，具体用于根据所述第一姿态预测结果以及所述姿态标签，采用第二损失函数确定所述待训练姿态分类器的模型参数；

采用所述待训练姿态分类器的模型参数生成所述姿态分类器。

在一种可能的设计中，在本申请实施例的第四方面的第四种实现方式中，

所述获取模块，具体用于采用如下方式计算得到所述每个类别的姿态输出概率：

其中，所述表示第j个姿态类别的身份输出概率，所述i表示所述姿态类别的总个数，所述E(x)表示所述第一图像特征，所述表示所述第j个姿态类别对应的所述待训练姿态分类器的网络权重值，所述表示第i个姿态类别对应的所述待训练姿态分类器的网络权重值；

所述第二损失函数表示为：

L_P＝-E[logP(y_P|Y_P)]；

其中，所述L_P表示所述第二损失函数，所述E表示期望值计算，所述P(y_P|Y_P)表示所述Y_P属于所述y_P的概率，所述y_P表示所述姿态标签，所述Y_P表示所述第二身份预测结果。

在一种可能的设计中，在本申请实施例的第四方面的第五种实现方式中，

所述获取模块，具体用于通过所述姿态分类器以及所述第二图像特征所对应的目标姿态标签，获取所述第二图像特征所对应的所述第二姿态预测结果；

通过所述身份分类器以及所述第一图像特征所对应的身份标签，获取所述第二图像特征所对应的所述第二身份预测结果。

在一种可能的设计中，在本申请实施例的第四方面的第六种实现方式中，

所述训练模块，具体用于根据所述第二身份预测结果以及所述身份标签，采用第三损失函数确定第一最小损失结果；

根据所述第二姿态预测结果以及所述目标姿态标签，采用第四损失函数确定第二最小损失结果；

根据所述第二图像特征以及所述第三图像特征，采用第五损失函数确定第三最小损失结果，其中，所述第二图像特征为判别器的假输入，所述第三图像特征为所述判别器的真输入，所述判别器用于对所述第二图像特征以及所述第三图像特征进行真实度判别；

根据所述第三图像特征，采用第六损失函数确定第四最小损失结果；

根据所述第一最小损失结果、所述第二最小损失结果、所述第三最小损失结果以及所述第四最小损失结果，对所述待训练生成器进行训练，得到所述生成器。

在一种可能的设计中，在本申请实施例的第四方面的第七种实现方式中，

所述第三损失函数表示为：

L_IG＝-E[logP(y_I|Y_IG)]；

其中，所述L_IG表示所述第三损失函数，所述E表示期望值计算，所述P(y_I|Y_IG)表示所述Y_IG属于所述y_I的概率，所述y_I表示所述身份标签，所述Y_IG表示所述第二身份预测结果；

所述第四损失函数表示为：

L_PG＝-E[logP(y_F|Y_PG)]；

其中，所述L_PG表示所述第四损失函数，所述(y_F|Y_PG)表示所述Y_PG属于所述y_F的概率，所述y_F表示所述目标姿态标签，所述Y_PG表示所述第二姿态预测结果。

在一种可能的设计中，在本申请实施例的第四方面的第八种实现方式中，

所述第五损失函数表示为：

其中，所述L_advD表示所述第五损失函数，所述D_{in_fake}表示所述第二图像特征，所述D_{in_real}表示所述第三图像特征，所述E表示期望值计算，所述D()表示所述判别器的输入，所述f表示输入特征；

所述第六损失函数表示为：

其中，所述L_advG表示所述第六损失函数。

本申请第五方面提供一种图像识别装置，包括：

获取模块，用于获取第一待识别图像，其中，所述第一待检测图像中包括第一目标对象，所述第一目标对象对应于第一姿态信息，所述第一目标对象对应于目标身份信息；

所述获取模块，还用于通过图像识别网络模型中的生成器，获取所述第一待识别图像所对应的第二待识别图像，其中，所述第二待识别图像包括第二目标对象，所述第二目标对象对应于第二姿态信息，所述第二目标对象对应于所述目标身份信息，所述生成器用于对图像中的对象进行姿态转换；

确定模块，用于通过所述图像识别网络模型中的识别模块，确定所述获取模块获取的所述第二待识别图像的识别结果。

本申请第六方面提供一种人脸姿态转换装置，包括：

获取模块，用于获取待转正人脸图像，其中，所述待转正人脸图像对应于第一姿态信息，所述待转正人脸图像对应于目标身份信息，所述第一姿态信息表示转正前图像的姿态信息；

处理模块，用于通过生成器对所述获取模块获取的所述待转正人脸图像进行转换处理，得到所述待转正人脸图像所对应的转正人脸图像，其中，所述转正人脸图像对应于第二姿态信息，所述转正人脸图像对应于所述目标身份信息，所述第二姿态信息表示转正后图像的姿态信息，所述生成器用于对图像中的对象进行姿态转换。

本申请第七方面提供一种服务器，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

根据所述第二身份预测结果、所述身份标签、所述第二姿态预测结果、目标姿态标签、所述第二图像特征以及第三图像特征，对所述待训练生成器进行训练，得到生成器，其中，所述第三图像特征为所述待训练图像集合中属于所述目标姿态的待训练图像所对应的图像特征，所述目标姿态标签表示所述目标姿态的信息，所述生成器用于生成图像识别网络模型；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

本申请第八方面提供一种终端设备，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

通过所述图像识别网络模型中的识别模块，确定所述第二待识别图像的识别结果；

本申请第九方面提供一种终端设备，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

通过生成器对所述待转正人脸图像进行转换处理，得到所述待转正人脸图像所对应的转正人脸图像，其中，所述转正人脸图像对应于第二姿态信息，所述转正人脸图像对应于所述目标身份信息，所述第二姿态信息表示转正后图像的姿态信息，所述生成器用于对图像中的对象进行姿态转换；

本申请的第十方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种图像识别网络模型训练方法，首先获取待训练图像集合所对应的第一图像特征，然后通过待训练身份分类器获取第一图像特征所对应的第一身份预测结果，并通过待训练姿态分类器获取第一图像特征所对应的第一姿态预测结果，再根据第一身份预测结果以及身份标签对待训练身份分类器进行训练，得到身份分类器，并根据第一姿态预测结果以及姿态标签对待训练姿态分类器进行训练，得到姿态分类器，通过待训练生成器对第一图像特征进行姿态转换，得到待训练图像集合所对应的第二图像特征，通过身份分类器获取第二图像特征所对应的第二身份预测结果，通过姿态分类器获取第二图像特征所对应的第二姿态预测结果，最后根据第二身份预测结果、身份标签、第二姿态预测结果、目标姿态标签、第二图像特征以及第三图像特征，对待训练生成器进行训练，得到生成器。通过上述方式，仅基于图像特征进行训练，而图像特征是经过组织的，因此相对于原始图像而言具有较小的空间维度，从而降低了训练的难度，并且降低了模型的复杂度，可以减少计算资源的消耗。

附图说明

图1为本申请实施例中图像识别系统的一个架构示意图；

图2为本申请实施例中对非正面图像进行转正的一个框架示意图；

图3为本申请实施例中基于名人多姿态人脸数据集的一个识别使用示例示意图；

图4为本申请实施例中基于名人多姿态人脸数据集的一个验证使用示例示意图；

图5为本申请实施例中基于名人多姿态人脸数据集的一个个人照片统计分布示意图；

图6为本申请实施例中基于名人多姿态人脸数据集的一个国籍翻译统计示意图；

图7为本申请实施例中自动数据集采集系统的一个结构示意图；

图8为本申请实施例中基于名人多姿态人脸数据集的一个注释信息示意图；

图9为本申请实施例中图像识别网络模型训练方法一个实施例示意图；

图10为本申请实施例中图像识别网络模型的一个结构示意图；

图11为本申请实施例中图像识别方法一个实施例示意图；

图12为本申请实施例中人脸姿态转换方法一个实施例示意图；

图13为本申请实施例中侧脸识别的一个流程示意图；

图14为本申请实验场景中基于Multi-PIE数据集可视化的一个示意图；

图15为本申请实验场景中基于名人正侧脸数据集可视化一个示意图；

图16为本申请实验场景中图像识别网络模型在15度上的识别能力一个示意图；

图17为本申请实验场景中图像识别网络模型在90度上的识别能力一个示意图；

图18为本申请实施例中模型训练装置的一个实施例示意图；

图19为本申请实施例中图像识别装置的一个实施例示意图；

图20为本申请实施例中人脸姿态转换装置的一个实施例示意图；

图21为本申请实施例中服务器的一个结构示意图；

图22为本申请实施例中终端设备的一个结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请应用于人工智能领域，具体可以应用于人工智能领域的图像识别场景，更具体地，还可以应用于人脸识别场景以及检测跟踪场景等人脸相关技术领域中。在实际应用中，姿态、眼镜、表情以及阴影等众多干扰因素普遍存在，都不同程度地会对识别效果产生影响，其中，由于姿态的变化而导致的侧面人脸识别问题尤为显著。对图像中的脸部进行正面化处理，不仅是后续处理工作的基础，而且对于安防(比如采集到嫌疑人的图像时，可以对图像正面化处理，以识别嫌疑人身份)、金融(比如在支付的时候可以对人脸图像进行正面化处理，以识别支付者身份)、考勤(比如采集到员工打卡的照片时，可以对照片进行正面化处理，以识别员工身份)、以及海关(比如采集到游客的头像是时，可以对头像进行正面化处理，以识别游客身份)领域等也有广泛的应用价值。本申请所提供的方法可以部署到摄像头或云端服务器中，提供侧脸识别技术，放宽人脸识别摄像头在安置过程中的位置限制，使一些极端人体姿态条件下的人脸识别成为可能。此外可以部署到手机中，用于手机解锁或支付，从而提升便捷性和易用性。

为了便于理解，本申请提出了一种图像识别方法，该方法应用于图1所示的图像识别系统，请参阅图1，图1为本申请实施例中图像识别系统的一个架构示意图，如图所示，本申请所提供的模型训练方法可以应用于服务器，由服务器训练得到一个图像识别网络模型，该图像识别网络模型可以部署在客户端中或云端服务器中。如果部署在客户端中，则客户端可以在离线的状态下对图像进行正面化处理，然后对正面化图像进行识别。如果部署在云端服务器中，则客户端可以在联网的状态下，将待识别的图像发送至云端服务器，由云端服务器对该图像进行正面化处理，然后对正面化图像进行识别，最后可以将识别结果反馈给客户端。

需要说明的是，客户端部署于终端设备上，其中，终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机、语音交互设备、个人电脑(personal computer，PC)、闸机、打卡机以及摄像头，此处不做限定。其中，语音交互设备包含但不仅限于智能音响以及智能家电。

在模型训练的流程中，首先利用卷积神经网络训练得到一个常规的人脸识别网络，然后将该人脸识别网络中训练好的人脸特征层作为GAN的输入，生成一个与原特征具有相同维度的修正特征。这个修正特征便是任意角度人脸的转正后的特征表达。在训练GAN的阶段，需要利用人脸识别网络最后的分类层用于为新的特征提供身份不变损失，此外还需要使用一个预先训好的人脸姿态评估网络的最终分类层，用于为新的特征提供姿态约束信息。最后，为了缓解转正后特征对姿态约束和身份约束过拟合的问题，还可以为生成的特征添加了对抗损失，判别器的真输入为正脸样本通过人脸识别网络的特征输出，假输入为任意样本通过生成器修正后的转正特征。通过调整身份约束、姿态约束和对抗约束三个损失的权重，使得转正后的人脸特征可以达到比原始侧脸特征更好的侧脸识别效果，从而能够显著提高侧脸识别准确率，大大提高人脸考勤和人脸闸机等应用场景的摄像头性能，同时弱化对被识别者姿态的限制，提升人脸打卡、闸机、支付以及搜索等场景下的舒适度。

基于上述介绍，本申请在模型训练的时候所使用的数据集可以是Multi-PIE数据集，也可以是名人正侧脸(celebrity frontal-probile，CFP)数据集。然而，基于姿态鲁棒的人脸识别(pose invariant face recognition，PIFR)所公开的基准中，这些数据集可能会在实验室环境中受到限制，或可能仅包含少量测试图像，因此，这些图像不足以评估不同算法的能力。鉴于上述问题，本申请所使用的是名人多姿态人脸数据集(celebrity poseface datase，CPFD)，CPFD是一种从网络引擎抓取的百万级人脸数据集，具有较大的姿势变化，可用于姿势不变的人脸验证和识别。本申请引入一种面部正面化模块来学习所有面部(正面和非正面)特征空间中的正面表示，即称为对抗特征转正(adversarial featurefrontalization，AFF)。

为了便于介绍，请参阅图2，图2为本申请实施例中对非正面图像进行转正的一个框架示意图，如图所示，获取目标对象的两个姿态所对应的图像，分别为图像A和图像B。首先将图像A和图像B输入至卷积神经网络(Convolutional Neural Networks，CNN)的特征提取器中，采用常规的人脸识别网络输出图像A的初始特征和图像B的初始特征。将图像A的初始特征和图像B的初始特征进行比对，得到是特征的欧氏距离为1.36，假设阈值为0.95，1.36大于0.95，则表示识别到图像A和图像B的身份不一致。将图像A的初始特征和图像B的初始特征输入至本申请训练得到的AFF生成器中，得到图像A的正面化特征以及图像B的正面化特征，即经过AFF生成器以后，非正脸特征都变成了正脸特征。将图像A的正面化特征以及图像B的正面化特征进行比对，得到是特征的欧氏距离为0.52，0.52小于0.95，则表示识别到图像A和图像B的身份一致。

进一步地，请参阅图3，图3为本申请实施例中基于名人多姿态人脸数据集的一个识别使用示例示意图，如图所示，对于提前注册在系统里的每个人脸，在包含百万规模查询图库中找到属于同一身份的人脸，以会场签到的场景为例，查询图库用于查询会场签到时采集到的人脸数据，将采集到的人脸与提前注册在系统中的人脸进行匹配，找出欧式距离最小，且小于阈值(比如0.95)的人脸作为识别结果。图3中的简单难度表示人脸偏移角度较小的情况，中等难度表示人脸偏移角度稍大的情况，困难难度表示人脸偏移角度最大的情况。请参阅图4，图4为本申请实施例中基于名人多姿态人脸数据集的一个验证使用示例示意图，如图所示，在匹配人脸图像的过程中，需要先将具有偏移角度的人脸图像转正，得到正脸图像，然后将正脸图像与不同难度等级的人脸图像进行比对，判断属于同一个人的可能性，可以应用于解锁等场景。因此，CPFD可以很好地反馈人脸识别算法在各种场景下的性能。

基于现有的PIFR测试集规模与CPFD规模，本申请提供了一个对比示意表，请参阅表1。

表1

基准	图像数量	验证对(1:1)	图库中的图像(1:N)
				Multi-PIE数据集	149,400	-	99
CFP数据集	7,000	7,000	-
				CPFD	886,577	137,196	1,000,000

由表1可见，本申请采用的CPFD相对于PIFR测试集而言，具有较好的评价基准，并且包括了更多的图像数据量，增强CPFD的泛化能力。CPFD中有图像数量为886,577，比现有的基准大很多，验证对的数量和图库中图像的数量也较多，有利于开放式训练。

请参阅图5，图5为本申请实施例中基于名人多姿态人脸数据集的一个个人照片统计分布示意图，如图所示，以CPFD一共包含9071个身份标签为例，假设包括2,596,325个图像，每个身份标签平均有286个图像，鉴于CPFD包含的数据集都是属于名人的，比如张三有400张图像，李四有200张图像，从图5可以看出，有1个身份标签具有0到10张图像，有178个身份标签具有0到30张图像，有1816个身份标签具有30到100张图像，有5499个身份标签具有100到500张图像，有1577个身份标签具有500张以上的图像。由于CPFD中的大多数身份都是亚洲人，具体请参阅图6，图6为本申请实施例中基于名人多姿态人脸数据集的一个国籍翻译统计示意图，如图所示，CPFD中76％的人脸图像来源于中国，10％的人脸图像来源于韩国，11％的人脸图像来源于日本，3％的人脸图像来源于亚洲其他国家。

为了便于采集数据，本申请提供了一种自动数据集采集系统，请参阅图7，图7为本申请实施例中自动数据集采集系统的一个结构示意图，如图所示，该自动数据集采集系统包括名称列表，通过层次聚类的方法收集和清理图像，系统的输入是子名单Lseed，预训练得到的模型M作为特征提取器，系统输出高质量的人脸识别数据集以及训练完成的人脸识别网络。采集流程具体为，首先收集一个子名单Lseed，假设Lseed可以包括600人，用这600人的身份去网站中搜索相关的图像，从而将Lseed扩充到10000人以上的名单，可以理解的是，10000仅为一个示意，还实际应用中还可以设置其他人数的扩充名单。然后从网站上下载属于扩充名单的图像(可以是照片或者合成图像等)，从而得到一个图像池。通过多任务卷积神经网络(multi-task Convolutional Neural Networks，MTCNN)将图像池里的人脸图像检测出来，检测出来的人脸图像用于训练得到一个初步的人脸识别网络。在训练完人脸识别网络之后，抽取每个人的特征，再根据每个人的特征，将图像里不属于这个人的图像通过聚类算法过滤掉，比如搜索张三的图像，但是可能返回赵五的图像，这时需要过滤掉赵五的图像。将过滤后的图像再用来训练一个新的人脸识别网络，这个新的人脸识别网络具有更好的识别效果。基于新的人脸识别网络继续过滤数据集，经过多次迭代后可以把数据集里的噪声清洗干净，从而得到理想数据集(如CPFD)。请参阅图8，图8为本申请实施例中基于名人多姿态人脸数据集的一个注释信息示意图，如图所示，在CPFD中每个身份标签下对应于注释信息，该注释信息包括性别以及人脸的偏移角度。

结合上述介绍，下面将对本申请中图像识别网络模型训练方法进行介绍，请参阅图9，本申请实施例中图像识别网络模型训练方法一个实施例包括：

101、获取待训练图像集合所对应的第一图像特征，其中，待训练图像集合包括至少一个待训练图像，待训练图像具有身份标签以及姿态标签，身份标签用于表示待训练图像中目标对象的身份信息，姿态标签用于表示待训练图像中目标对象的姿态信息；

本实施例中，模型训练装置首先获取待训练图像集合，其中，待训练图像集合可以包括至少一个待训练图像，但是为了保证训练效率，待训练图像集合可以包括265个待训练图像。需要说明的是，待训练图像集合可以来自于CPFD，也可以来自于其他类型的数据集，此处不做限定。模型训练装置可以部署在服务器上，也可以部署在终端设备上，此处不做限定。待训练图像可以是人脸图像，也可以是动物图像、风景图像或者其他类型的图像，本申请中是以待训练图像为人脸图像为例进行说明的，但这不应理解为对本申请的限定。

为了便于理解，请参阅图10，图10为本申请实施例中图像识别网络模型的一个结构示意图，如图所示，图像识别网络模型的训练主要包括这两部分网络的训练，分别为多任务学习的主干网络(multi-task main branch)以及基于对抗学习的特征转正网络。多任务学习的主干网络可以同时进行图像识别(具体是人脸识别)以及姿态预测。将待训练图像集合中的每个待训练图像输入至特征提取器(E)中，由特征提取器(E)输出每个待训练图像对应的第一图像特征E(x)。其中，第一图像特征表示待训练图像集合中每个待训练图像的初始人脸表征，且第一图像特征长度为m，m可以是64浮点数或者128浮点数。

可以理解的是，特征提取器(E)可以是任意的深度卷积神经网络，比如残差神经网络(Residual Neural Network，ResNet)或者视觉几何组(Visual Geometry Group，VGG)网络等，此处不做限定。

可以理解的是，每个待训练图像具有相应的身份标签以及姿态标签，其中，身份标签用于表示待训练图像中目标对象的身份信息，目标对象具体可以指图像中的人物，身份信息可以表示为一个标识，比如001，标识为001的身份信息为“张三”。姿态标签用于表示待训练图像中目标对象的姿态信息，姿态信息可以表示为一个标识，比如标识100，标识100的姿态信息表示偏移角度范围在5度至15度内。

在本申请中，姿态标签是针对偏移角度(yaw)设计的，每个姿态标签对应一个范围内的偏移角度，可以理解的是，在实际应用中，还可以对俯仰角度(pitch)以及旋转角度(roll)进行设计。

102、通过待训练身份分类器获取第一图像特征所对应的第一身份预测结果，通过待训练姿态分类器获取第一图像特征所对应的第一姿态预测结果；

本实施例中，基于步骤101得到的第一图像特征，模型训练装置将该第一图像特征输入到待训练身份分类器，由待训练身份分类器输出第一身份预测结果，比如，待训练图像集合中待训练图像A的身份标签为001(张三)，待训练图像A的第一身份预测结果为026(李四)。类似地，基于步骤101得到的第一图像特征，将该第一图像特征输入到待训练姿态分类器，由待训练姿态分类器输出第一姿态预测结果，比如，待训练图像集合中待训练图像A的姿态标签为101(偏移角度范围在-5度至0度内)，待训练图像A的第一姿态预测结果为103(偏移角度范围在0度至5度内)。

103、根据第一身份预测结果以及身份标签对待训练身份分类器进行训练，得到身份分类器，根据第一姿态预测结果以及姿态标签对待训练姿态分类器进行训练，得到姿态分类器；

本实施例中，模型训练装置可以采用交叉熵分类损失函数训练图10所示的多任务学习的主干网络，即根据第一身份预测结果以及身份标签，采用交叉熵分类损失函数对待训练身份分类器进行训练，从而得到身份分类器。类似地，根据第一姿态预测结果以及姿态标签，采用交叉熵分类损失函数对待训练姿态分类器进行训练，从而得到姿态分类器。

104、通过待训练生成器对第一图像特征进行姿态转换，得到待训练图像集合所对应的第二图像特征，其中，第二图像特征对应于目标姿态；

本实施例中，在完成步骤101至步骤103之后，即训练得到如图10所示的身份分类器C_I以及姿态分类器C_P，请继续参阅图10，在基于对抗学习的特征转正网络中包括由多层感知机(Multi-Layer Perception，MLP)组成的生成器(G)和判别器(D)，其中，生成器(G)主要用于生成维持原始身份信息的正脸特征表达，判别器(D)主要用于判断输入为原始特征还是生成的特征。

模型训练装置将待训练图像集合中每个待训练图像所对应的第一图像特征E(x)输入至待训练生成器，由该待训练生成器输出每个待训练图像所对应的第二图像特征G(E(x)，也就是经过待训练生成器后将会改变待训练图像原来的姿态特征，使得待训练图像对应于目标姿态，目标姿态具体可以是正脸所对应的姿态，该姿态下的偏移角度为90度。

105、通过身份分类器获取第二图像特征所对应的第二身份预测结果，通过姿态分类器获取第二图像特征所对应的第二姿态预测结果；

本实施例中，模型训练装置将该第二图像特征输入到身份分类器，由身份分类器输出第二身份预测结果，其中，原则上需要第二身份预测结果与待训练图像的身份标签保持一致，比如，待训练图像集合中待训练图像A的身份标签为001(张三)，那么输出的第二身份预测结果为001(张三)。类似地，将该第二图像特征输入到姿态分类器，由姿态分类器输出第二姿态预测结果，其中，原则上第二姿态预测结果应该是人脸转正后的姿态。

可以理解的是，身份分类器C_I以及姿态分类器C_P中的网络权重值呈固定状态。

106、根据第二身份预测结果、身份标签、第二姿态预测结果、目标姿态标签、第二图像特征以及第三图像特征，对待训练生成器进行训练，得到生成器，其中，第三图像特征为待训练图像集合中属于目标姿态的待训练图像所对应的图像特征，目标姿态标签表示目标姿态的信息，生成器用于生成图像识别网络模型。

本实施例中，模型训练装置将每个待训练图像所对应的第二图像特征G(E(x)作为判别器(D)的假输入，将待训练图像集合中目标姿态所对应的第三图像特征作为判别器(D)的真输入，其中，目标姿态具体可以是正脸所对应的姿态，该姿态下的偏移角度为90度，第三图像特征就是将待训练图像集合中属于正脸的那部分待训练图像进行特征表达后得到的结果。其中，将真实的正脸特征(第三图像特征)作为判别器(D)的真输入，目的在于防止因为转正前后姿态不同导致判别器(D)将姿态作为判别的主要依据，而不能合理捕捉正常人脸特征的特征分布。

模型训练装置采用损失函数，根据二图像特征以及第三图像特征对判别器进行训练，得到训练后的判别器。基于训练得到的判别器，模型训练装置继续采用损失函数，根据第二身份预测结果、身份标签、第二姿态预测结果以及目标姿态标签，对待训练生成器进行训练，得到生成器。该生成器作为图像识别网络模型的一部分，用于将侧面人脸图像转换为正面人脸图像，图像识别网络模型的另一部分为识别模块，识别模块用于对转正后的人脸图像进行识别，进而确定该人脸图像的身份。

可选地，在上述图9对应的实施例的基础上，本申请实施例提供的图像识别网络模型训练方法第一个可选实施例中，通过待训练身份分类器获取第一图像特征所对应的第一身份预测结果，可以包括：

根据待训练身份分类器的网络权重值、第一图像特征以及身份类别，计算得到每个类别的身份输出概率；

根据每个类别的身份输出概率确定第一图像特征所对应的第一身份预测结果；

根据第一身份预测结果以及身份标签对待训练身份分类器进行训练，得到身份分类器，包括：

根据第一身份预测结果以及身份标签，采用第一损失函数确定待训练身份分类器的模型参数；

采用待训练身份分类器的模型参数生成身份分类器。

本实施例中，介绍了一种训练得到身份分类器的方法。具体地，首先模型训练装置将待训练图像集合中的各个待训练图像输入至特征提取器。其中，特征提取器、待训练身份分类器和待训练姿态分类器的网络参数都是需要训练的，通过姿态标签和身份标签可以对神经网络的输出进行约束，这个约束过程就是让特征提取器能够提取图像中的特征。待训练身份分类器通过身份标签对神经网络进行约束，使得反向传播一个梯度，该梯度同时对特征提取器和待训练身份分类器进行更新。接下来，模型训练装置根据待训练身份分类器的网络权重值、预测得到的第一图像特征以及身份类别，计算得到每个类别的身份输出概率，其中，身份类别可以有1000个，第一图像特征可以是待训练图像集合中所有待训练图像的初始图像特征。基于每个类别的身份输出概率，进而确定待训练图像集合中每个待训练图像的第一身份预测结果，即得到每个第一图像特征所对应的第一身份预测结果。

最后，模型训练装置采用第一损失函数对每个待训练图像的第一身份预测结果以及每个待训练图像的身份标签进行计算，当最小化第一损失函数的结果时，获取该最小值所对应的模型参数，采用待训练身份分类器的模型参数生成身份分类器。

可以理解的是，整个多任务学习的主干网络是共同训练的，这是因为特征提取器需要从身份标签和姿态标签中学习到有用的信息，才能得到一个有效的特征提取器。在初始阶段，特征提取器的网络参数和待训练姿态分类器的网络参数是没有意义的，但是经过联合训练之后，特征提取器和待训练姿态分类器会同步训练，从而得到一个较好的特征提取器和姿态分类器。

其次，本申请实施例中，提供了一种训练得到身份分类器的方法，首先根据待训练身份分类器的网络权重值、第一图像特征以及身份类别，计算得到每个类别的身份输出概率，然后根据每个类别的身份输出概率确定第一图像特征所对应的第一身份预测结果，再第一身份预测结果以及身份标签，采用第一损失函数确定待训练身份分类器的模型参数，最后采用待训练身份分类器的模型参数生成身份分类器。通过上述方式，采用交叉熵分类损失函数对真实值和预测值进行计算，在最小化交叉熵分类损失函数的结果时，即可得到模型参数，其中，采用交叉熵作为损失函数的优势在于，使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题，因为学习速率可以被输出的误差所控制。

可选地，在上述图9对应的第一个实施例的基础上，本申请实施例提供的图像识别网络模型训练方法第二个可选实施例中，根据待训练身份分类器的网络权重值、第一图像特征以及身份类别，计算得到每个类别的身份输出概率，可以包括：

采用如下方式计算得到每个类别的身份输出概率：

其中，表示第j个身份类别的身份输出概率，i表示身份类别的总个数，E(x)表示第一图像特征，表示第j个身份类别对应的待训练身份分类器的网络权重值，表示第i个身份类别对应的待训练身份分类器的网络权重值；

第一损失函数可以表示为：

L_I＝-E[logP(y_I|Y_I)]；

其中，L_I表示第一损失函数，E表示期望值计算，P(y_I|Y_I)表示Y_I属于y_I的概率，y_I表示身份标签，Y_I表示第一身份预测结果。

本实施例中，介绍了一种如何计算得到每个类别的身份输出概率的方法。基于图10所示的多任务学习的主干网络，为了将更多的身份信息编码到第一图像特征E(x)，可以在第一图像特征E(x)上添加身份分类器C_I，由此，将主分支变为多任务学习。让w_I表示身份分类器C_I中的网络权重值，来自身份分类分支的输出Y_I可以公式化为：

Y_I＝C_I(E(x))；

其中，表示第j个身份类别的身份输出概率，i表示身份类别的总个数，E(x)表示第一图像特征，表示第j个身份类别对应的待训练身份分类器的网络权重值，表示第i个身份类别对应的待训练身份分类器的网络权重值。

接下来联合训练特征提取器，待训练身份分类器和待训练姿态分类器，分别由身份分类损失(即第一损失函数)L_I和姿态分类损失(即第二损失函数)L_P监督，其中，第一损失函数可以表示为：

L_I＝-E[logP(y_I|Y_I)]；

其中，L_I表示第一损失函数，E表示期望值计算，P(y_I|Y_I)表示Y_I属于y_I的概率，yI表示身份标签，Y_I表示第一身份预测结果。

再次，本申请实施例中，提供了第一损失函数的具体形式，通过上述方式，能够为方案的实现提供可行的依据，从而提升模型训练的可行性和可操作性。

可选地，在上述图9对应的第一个实施例的基础上，本申请实施例提供的图像识别网络模型训练方法第三个可选实施例中，通过待训练姿态分类器获取第一图像特征所对应的第一姿态预测结果，可以包括：

根据待训练姿态分类器的网络权重值、第一图像特征以及姿态类别，计算得到每个类别的姿态输出概率；

根据每个类别的姿态输出概率确定第一图像特征所对应的第一姿态预测结果；

根据第一姿态预测结果以及姿态标签对待训练姿态分类器进行训练，得到姿态分类器，包括：

根据第一姿态预测结果以及姿态标签，采用第二损失函数确定待训练姿态分类器的模型参数；

采用待训练姿态分类器的模型参数生成姿态分类器。

本实施例中，介绍了一种训练得到姿态分类器的方法。具体地，首先模型训练装置将待训练图像集合中的各个待训练图像输入至特征提取器。其中，特征提取器、待训练姿态分类器和待训练姿态分类器的网络参数都是需要训练的，通过姿态标签和身份标签可以对神经网络的输出进行约束，这个约束过程就是让特征提取器能够提取图像中的特征。待训练姿态分类器通过姿态标签对神经网络进行约束，使得反向传播一个梯度，该梯度同时对特征提取器和待训练姿态分类器进行更新。接下来，模型训练装置根据待训练姿态分类器的网络权重值、预测得到的第一图像特征以及姿态类别，计算得到每个类别的姿态输出概率，其中，姿态类别可以有1000个，第一图像特征可以是待训练图像集合中所有待训练图像的初始图像特征。基于每个类别的姿态输出概率，进而确定待训练图像集合中每个待训练图像的第一姿态预测结果，即得到每个第一图像特征所对应的第一姿态预测结果。

最后，模型训练装置采用第一损失函数对每个待训练图像的第一姿态预测结果以及每个待训练图像的姿态标签进行计算，当最小化第一损失函数的结果时，获取该最小值所对应的模型参数，采用待训练姿态分类器的模型参数生成姿态分类器。

可以理解的是，整个多任务学习的主干网络是共同训练的，这是因为特征提取器需要从姿态标签和姿态标签中学习到有用的信息，才能得到一个有效的特征提取器。在初始阶段，特征提取器的网络参数和待训练姿态分类器的网络参数是没有意义的，但是经过联合训练之后，特征提取器和待训练姿态分类器会同步训练，从而得到一个较好的特征提取器和姿态分类器。

其次，本申请实施例中，提供了一种训练得到姿态分类器的方法，首先根据待训练姿态分类器的网络权重值、第一图像特征以及姿态类别，计算得到每个类别的姿态输出概率，然后根据每个类别的姿态输出概率确定第一图像特征所对应的第一姿态预测结果，再第一姿态预测结果以及姿态标签，采用第一损失函数确定待训练姿态分类器的模型参数，最后采用待训练姿态分类器的模型参数生成姿态分类器。通过上述方式，采用交叉熵分类损失函数对真实值和预测值进行计算，在最小化交叉熵分类损失函数的结果时，即可得到模型参数，其中，采用交叉熵作为损失函数的优势在于，使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题，因为学习速率可以被输出的误差所控制。

可选地，在上述图9对应的第三个实施例的基础上，本申请实施例提供的图像识别网络模型训练方法第四个可选实施例中，根据待训练姿态分类器的网络权重值、第一图像特征以及姿态类别，计算得到每个类别的姿态输出概率，可以包括：

采用如下方式计算得到每个类别的姿态输出概率：

其中，表示第j个姿态类别的身份输出概率，i表示姿态类别的总个数，E(x)表示第一图像特征，表示第j个姿态类别对应的待训练姿态分类器的网络权重值，表示第i个姿态类别对应的待训练姿态分类器的网络权重值；

第二损失函数可以表示为：

L_P＝-E[logP(y_P|Y_P)]；

其中，L_P表示第二损失函数，E表示期望值计算，P(y_P|Y_P)表示Y_P属于y_P的概率，y_P表示姿态标签，Y_P表示第二身份预测结果。

本实施例中，介绍了一种如何计算得到每个类别的姿态输出概率的方法。基于图10所示的多任务学习的主干网络，为了将更多的姿态信息编码到第一图像特征E(x)，可以在第一图像特征E(x)上添加姿态分类器C_P，由此，将主分支变为多任务学习。多任务学习过程中的监督信息来自于用深度姿态(DeepPose)算法进行预测所得到的姿态值，再以固定间隔的方式将所有得到的姿态值进行分段归类，得到姿态的真值，用于训练。让w_P表示姿态分类器C_P中的网络权重值，来自姿态分类分支的输出Y_P可以公式化为：

Y_P＝C_P(E(x))；

其中，表示第j个姿态类别的身份输出概率，i表示姿态类别的总个数，E(x)表示第一图像特征，表示第j个姿态类别对应的待训练姿态分类器的网络权重值，表示第i个姿态类别对应的待训练姿态分类器的网络权重值。

接下来联合训练特征提取器，待训练身份分类器和待训练姿态分类器，分别由身份分类损失(即第一损失函数)和姿态分类损失(即第二损失函数)监督，其中，第二损失函数可以表示为：

L_P＝-E[logP(y_P|Y_P)]；

再次，本申请实施例中，提供了第二损失函数的具体形式，通过上述方式，能够为方案的实现提供可行的依据，从而提升模型训练的可行性和可操作性。

可选地，在上述图9以及图9对应的第一个至第四个实施例中任一项的基础上，本申请实施例提供的图像识别网络模型训练方法第五个可选实施例中，通过身份分类器获取第二图像特征所对应的第二身份预测结果，通过姿态分类器获取第二图像特征所对应的第二姿态预测结果，可以包括：

通过姿态分类器以及第二图像特征所对应的目标姿态标签，获取第二图像特征所对应的第二姿态预测结果；

通过身份分类器以及第一图像特征所对应的身份标签，获取第二图像特征所对应的第二身份预测结果。

本实施例中，在训练得到姿态分类器和身份分类器后，基于图10所示的基于对抗学习的特征转正网络，将主干网络输出的第一图像特征E(x)作为待训练生成器的输入，得到经过待训练生成器改变姿态后的第二图像特征G(E(x))，再将第二图像特征G(E(x))输入到已训练好的姿态分类器和身份分类器中，并固定姿态分类器和身份分类器的网络权重。此时，在对待训练生成器进行训练的时候，加入第二图像特征所对应的目标姿态标签以及第一图像特征所对应的身份标签，以真实值作为约束。

具体地，在预测第二图像特征所对应的第二姿态预测结果时，需要以第二图像特征所对应的目标姿态标签作为监督，目标姿态标签是指转正后的姿态真实值，从而保证转正后的第二图像特征G(E(x))拥有正脸姿态。在预测第二图像特征所对应的第二身份预测结果时，需要以第一图像特征所对应的身份标签作为监督，身份标签也就是身份真实值，从而保证转正后的第二图像特征G(E(x))与转正前的第一图像特征E(x)具有相同的身份。

进一步地，本申请实施例中，提供了一种姿态分类器获取第二图像特征所对应的第二姿态预测结果以及第二身份预测结果的方法，即通过姿态分类器以及第二图像特征所对应的目标姿态标签，获取第二图像特征所对应的第二姿态预测结果，并且通过身份分类器以及第一图像特征所对应的身份标签，获取第二图像特征所对应的第二身份预测结果。通过上述方式，在固定身份分类器的网络参数和姿态分类器的网络参数时，配以转正后的姿态真实值和转正前的身份真实值作为监督，可以强制约束转正后的特征能够保持与转正前相同的身份，同时，约束转正后的特征能够拥有正脸姿态。

可选地，在上述图9对应的实施例的基础上，本申请实施例提供的图像识别网络模型训练方法第六个可选实施例中，根据第二身份预测结果、身份标签、第二姿态预测结果、目标姿态标签、第二图像特征以及第三图像特征，对待训练生成器进行训练，得到生成器，可以包括：

根据第二身份预测结果以及身份标签，采用第三损失函数确定第一最小损失结果；

根据第二姿态预测结果以及目标姿态标签，采用第四损失函数确定第二最小损失结果；

根据第二图像特征以及第三图像特征，采用第五损失函数确定第三最小损失结果，其中，第二图像特征为判别器的假输入，第三图像特征为判别器的真输入，判别器用于对第二图像特征以及第三图像特征进行真实度判别；

根据第三图像特征，采用第六损失函数确定第四最小损失结果；

根据第一最小损失结果、第二最小损失结果、第三最小损失结果以及第四最小损失结果，对待训练生成器进行训练，得到生成器。

本实施例中，介绍了如何对生成器进行训练，具体地，需要对四个部分进行训练，即依次交替最小化损失函数结果。假设有待训练图像集合中包括265张待训练的人脸图像，其中，有60张人脸图像是正脸图像，于是将对这60张正脸图像进行特征提取，从得到第三图像特征。在得到特征训练器、身份分类器和姿态分类器之后，可以迭代地训练生成器和判别器，生成器的更新需要保证身份不变，且姿态变为正面，因此，需要通过第三损失函数(用于保持身份不变性)以及第四损失函数(用于保证姿态正面化)进行训练，并且采用第五损失函数(用于对抗性训练判别器)和第六损失函数进行监督(用于对抗性训练生成器)。

其次，本申请实施例中，提供了一种训练得到生成器的具体方式，可以根据第二身份预测结果以及身份标签，采用第三损失函数确定第一最小损失结果，根据第二姿态预测结果以及目标姿态标签，采用第四损失函数确定第二最小损失结果，根据第二图像特征以及第三图像特征，采用第五损失函数确定第三最小损失结果，根据第三图像特征，采用第六损失函数确定第四最小损失结果，最后利用根四个最小损失结果，对待训练生成器进行训练，得到生成器。通过上述方式，依靠交替最小化第三损失函数、第四损失函数、第五损失函数和第六损失函数，来训练得到生成器，使其能够在确保身份不变的情况下，得到正常人脸特征分类的正脸特征，从而提升人脸转正的可行性和可靠性。

可选地，在上述图9对应的第六个实施例的基础上，本申请实施例提供的图像识别网络模型训练方法第七个可选实施例中，第三损失函数可以表示为：

L_IG＝-E[logP(y_I|Y_IG)]；

其中，L_IG表示第三损失函数，E表示期望值计算，P(y_I|Y_IG)表示Y_IG属于y_I的概率，y_I表示身份标签，Y_IG表示第二身份预测结果；

第四损失函数可以表示为：

L_PG＝-E[logP(y_F|Y_PG)]；

其中，L_PG表示第四损失函数，(y_F|Y_PG)表示Y_PG属于y_F的概率，y_F表示目标姿态标签，Y_PG表示第二姿态预测结果。

本实施例中，采用第三损失函数对第二身份预测结果以及身份标签进行计算，第三损失函数L_IG具体可以是交叉熵损失函数，将转正后的第二图像特征输入至身份分类器C_I中，即可得到如下第三损失函数：

Y_IG＝C_I(G(E(x)))；

L_IG＝-E[logP(y_I|Y_IG)]；

其中，L_IG表示第三损失函数，E表示期望值计算，P(y_I|Y_IG)表示Y_IG属于y_I的概率，y_I表示身份标签，Y_IG表示第二身份预测结果。

类似地，采用第四损失函数对第二姿态预测结果以及目标姿态标签进行计算，第四损失函数L_PG具体可以是交叉熵损失函数，将转正后的第二图像特征输入至姿态分类器C_P中，即可得到如下第四损失函数：

Y_PG＝C_P(G(E(x)))；

L_PG＝-E[logP(y_F|Y_PG)]；

再次，本申请实施例中，提供了第三损失函数和第四损失函数的具体形式，通过上述方式，能够为方案的实现提供可行的依据，从而提升模型训练的可行性和可操作性。

可选地，在上述图9对应的第六个实施例的基础上，本申请实施例提供的图像识别网络模型训练方法第八个可选实施例中，第五损失函数表示可以为：

其中，L_advD表示第五损失函数，D_{in_fake}表示第二图像特征，D_{in_real}表示第三图像特征，E表示期望值计算，D()表示判别器的输入，f表示输入特征；

第六损失函数可以表示为：

其中，L_advG表示第六损失函数。

本实施例中，采用第五损失函数对第二图像特征以及第三图像特征进行计算，第三图像特征是属于待训练图像集合中正脸图像所对应的图像特征，假设待训练图像集合共有265张人脸图像，其中60张人脸图像是正脸图像，那么第三图像特征就是对这60张正脸图像提取的特征。第二图像特征为判别器的假输入，第三图像特征为判别器的真输入，即得到真实的正脸图像特征(即第三图像特征)为：

D_{in_real}＝E(x)_frontal；

侧脸经过转正后的特征(即第二图像特征)为：

D_{in_fake}＝G(E(x))；

基于第二图像特征和第三图像特征，可以得到第五损失函数，其中，该第五损失函数主要用于训练判别器，第五损失函数表示为：

其中，L_advD表示第五损失函数，D_{in_fake}表示第二图像特征，D_{in_real}表示第三图像特征，E表示期望值计算，D()表示判别器的输入，f表示输入特征。

基于第三图像特征，可以得到第六损失函数，其中，该第六损失函数主要用于训练生成器器，第六损失函数表示为：

再次，本申请实施例中，提供了第五损失函数和第六损失函数的具体形式，通过上述方式，能够为方案的实现提供可行的依据，从而提升模型训练的可行性和可操作性。

结合上述介绍，下面将对本申请中图像识别方法进行介绍，请参阅图11，本申请实施例中图像识别方法一个实施例包括：

201、获取第一待识别图像，其中，第一待检测图像中包括第一目标对象，第一目标对象对应于第一姿态信息，第一目标对象对应于目标身份信息；

本实施例中，首先获取一张第一待识别图像，其中，该第一待识别图像通常是具有偏移角度的，比如偏移角度为15度，于是，对应的第一姿态信息为15度。在实际应用中，待第一待识别图像可能本身就是一张正脸图像，其对应的第一姿态信息为0度。第一待识别图像包括第一目标对象，其中，第一目标对象通常是人物，也可以是动物。假设第一待识别图像中有一个两个人存在，分别为张三和李四，那么此时可以从中选择一个第一目标对象，比如是张三，那么获取张三对应的目标身份信息。

202、通过图像识别网络模型中的生成器，获取第一待识别图像所对应的第二待识别图像，其中，第二待识别图像包括第二目标对象，第二目标对象对应于第二姿态信息，第二目标对象对应于目标身份信息，生成器用于对图像中的对象进行姿态转换；

本实施例中，将第一待识别图像输入至图像识别网络模型的生成器中，可以理解的是，该生成器的生成方式请参考图9对应的各个实施例，此处不做赘述。由生成器对第一待识别图像进行转换处理，具体可以对人脸做转正处理，从而得到第一待识别图像所对应的第二待识别图像。其中，第二待识别图像包括第二目标对象，第二目标对象与第一目标对象属于同一个对象，即对应于相同的目标身份信息，但是第二目标对象与第二目标对象的姿态不同，第二目标对象对应于第二姿态信息，第二姿态信息具体可以是指正脸姿态。

203、通过图像识别网络模型中的识别模块，确定第二待识别图像的识别结果。

本实施例中，最后将转正后的第二待识别图像输入至图像识别网络模型中的识别模块，由该识别模块对第二待识别图像中的对象进行识别，从而得到识别结果。

本申请实施例中，提供了一种图像识别的方法，首先获取第一待识别图像，然后通过图像识别网络模型中的生成器，获取第一待识别图像所对应的第二待识别图像，最后通过图像识别网络模型中的识别模块，确定第二待识别图像的识别结果。通过上述方式，利用生成器对侧脸图像进行转正处理，能够显著提高侧脸识别准确率，大大提高人脸考勤以及人脸闸机等应用场景的摄像头性能，并同时弱化对被识别者姿态的限制，提升人脸打卡、闸机、支付以及搜索等场景下的舒适度。

结合上述介绍，下面将对本申请中人脸姿态转换方法进行介绍，请参阅图12，本申请实施例中人脸姿态转换方法一个实施例包括：

301、获取待转正人脸图像，其中，待转正人脸图像对应于第一姿态信息，待转正人脸图像对应于目标身份信息，第一姿态信息表示转正前图像的姿态信息；

本实施例中，首先获取一张待转正人脸图像，其中，该待转正人脸图像通常是具有偏移角度的，比如偏移角度为15度，于是，对应的第一姿态信息为15度。在实际应用中，待转正人脸图像可能本身就是一张正脸图像，其对应的第一姿态信息为0度。待转正人脸图像对应于目标身份信息，该目标身份信息是表示这个待转正人脸图像的身份，比如，属于“张三”或者“李四”。

302、通过生成器对待转正人脸图像进行转换处理，得到待转正人脸图像所对应的转正人脸图像，其中，转正人脸图像对应于第二姿态信息，转正人脸图像对应于目标身份信息，第二姿态信息表示转正后图像的姿态信息，生成器用于对图像中的对象进行姿态转换。

本实施例中，为了便于说明，请参阅图13，图13为本申请实施例中侧脸识别的一个流程示意图，如图所示，在步骤S1中获取图像，该图像即为待转正人脸图像。在步骤S2中，将该待转正人脸图像输入至训练好的生成器中，可以理解的是，该生成器的生成方式请参考图9对应的各个实施例，此处不做赘述。由生成器对待转正人脸图像进行转换处理，具体可以对人脸做转正处理，从而得到待转正人脸图像所对应的转正人脸图像。其中，转正人脸图像对应于第二姿态信息，第二姿态信息可以是正脸姿态，也可以是根据实际情况设定的某个姿态，本申请以正脸姿态为例进行说明，然而这不应理解为对本申请的限定。转正人脸图像与对待转正人脸图像具有相同的目标身份信息。在步骤S3中，可以进一步采用分类器对目标身份信息进行识别。

可以理解的是，本申请除了可以将人脸转正，还可以利用对抗网络进行人脸特征微调。

本申请实施例中，提供了一种人脸姿态转换方法，首先获取待转正人脸图像，然后将待转正人脸图像输入至生成器，通过生成器对待转正人脸图像进行转换处理，得到待转正人脸图像所对应的转正人脸图像。通过上述方式，可以利用训练得到的生成器，将人脸图像进行转正处理，从而生成正脸图像，该生成器能够保证转正后的人脸图像与转正前的人脸图像属于相同的身份，且具有不同的姿态，使得转正后的人脸特征可以达到比原始侧脸特征更好的侧脸识别效果。

为了便于介绍，请参阅图14，图14为本申请实验场景中基于Multi-PIE数据集可视化的一个示意图，如图所示，第一行是输入的图像，第二行是基于原始Margin-MT1特征映射的构建图像空间，其中，Margin-MT表示带有分类间隙的多任务人脸识别网络，第三行是由AFF模块正面化得到的图像。请参阅图15，图15为本申请实验场景中基于名人正侧脸数据集可视化一个示意图，如图所示，第一行是输入的图像，第二行是基于原始Margin-MT1特征映射的构建图像空间，其中，Margin-MT表示带有分类间隙的多任务人脸识别网络，第三行是由AFF模块正面化得到的图像。

进一步地，为了便于介绍，请参阅图16，图16为本申请实验场景中图像识别网络模型在15度上的识别能力一个示意图，如图所示，在偏移角度为15度时，本申请所提供的图像识别网络模型具有更好地判别能力。请参阅图17，图17为本申请实验场景中图像识别网络模型在90度上的识别能力一个示意图，如图所示，图像识别网络模型在90度的时候判别能力最佳。

基于上述介绍，下面将对本申请应用于几类不同数据集为例进行说明，为了便于理解，请参阅表2，表2为Multi-PIE数据集中识别准确度示意表。

表2

方法	±90°	±75°	±60°	±45°	±30°	±15°
							CPF	-	-	-	71.65	81.05	89.45
TP-GAN	64.03	84.10	92.93	98.58	99.85	99.78
							PIM2	75.00	91.20	97.70	98.30	99.40	99.80
Margin-MT1	81.17	93.51	99.12	99.82	99.97	99.92
							AFF1	84.85	95.06	99.34	99.95	100	99.96
Margin-MT2	81.96	93.08	98.27	99.67	99.92	99.99
							AFF2	87.49	95.08	99.41	100	100	100

其中，Margin-MT1和Margin-MT2表示带有分类间隙的多任务人脸识别网络，Margin-MT1和AFF1的的主干结构为Resnet18，Margin-MT2和AFF2的的主干结构为Resnet50，TP-GAN表示双通道生成模型，PIM2表示姿态不变模块。由表2可见，AFF2的识别准确度最高，尤其在±45°、±30°和±15°上表现地更为优异。

请参阅表3，表3为Multi-PIE数据集对于消融研究的识别准确度示意表。

表3

设置	±90°	±75°	±60°	±45°
					没有L<sub>adv</sub>	83.35	93.14	99.38	99.96
没有L<sub>PG</sub>	83.81	94.49	99.36	99.96
					没有L<sub>adv</sub>&L<sub>PG</sub>	82.75	94.48	99.33	99.97
AFF1	84.19	94.58	99.54	99.97

由表3可见，AFF1在Multi-PIE数据集上对于消融研究的识别准确度最高。

请参阅表4，表4为基于CPFD的识别准确度示意表。其中，Top1表示从预先存好的图像底库里识别出与某个人物最接近的1个人，且返回的这个人就是正确答案的概率。Top5表示从预先存好的图像底库里识别出与某个人物最接近的5个人，且返回的5个人就是正确答案的概率。100K和1M分别表示图像底库的大小，底库越大，识别难度越大。

表4

请参阅表5，图5为CPFD验证任务的评估结果示意表。在对验证任务进行评估时采用如下三个指标，分别为准确率(accuracy，Acc)、等错误率(equal error rate，EER)以及真正例率(true positive rate，TPR)。

表5

请参阅表6，表6为CFP数据集的评估结果示意表。

表6

方法	Acc	EER	TPR@FPR＝0.1％
				DR-GAN	93.41	-	-
PIM2	93.10	7.69	-
				Uvmap	94.05	-	-
DREAM	-	6.02	-
				GNAP-LRes18	95.19	4.97	78.31
Human	94.57	5.02	-
				Margin-MT1	96.10	3.83	75.91
AFF1	96.51	3.31	79.54
				Margin-MT2	97.21	2.66	76.80
AFF2	97.37	2.29	79.89

其中，TPR@假阳率(false positive rate，FPR)＝0.1％表示千分之一误识率下的识别率，DR-GAN表示解耦生成网络，GNAP-LRes18表示全局归一平均池化残差网络18，Human是指人的表现，DREAM表示等变换残差模块。由表2可见，AFF2的评估结果最优。

请参阅表7，表7为在MegaFace挑战1的评估结果示意表。

表7

数据集	批大小	训练迭代数	Top1(％)
				CASIA	128/2	60k	73.09
VggFace	128/2	60k	76.29
				CASIA+CPFD	128/2	60k	78.82
VggFace2+CASIA	128/2	60k	78.62
				VggFace+CPFD	256/4	100k	84.46

其中，CASIA表示中科院自动化研究所，VGGFace表示牛津视觉几何组人脸数据集。

下面对本申请中的模型训练装置进行详细描述，请参阅图18，图18为本申请实施例中模型训练装置一个实施例示意图，模型训练装置40包括：

获取模块401，用于获取待训练图像集合所对应的第一图像特征，其中，所述待训练图像集合包括至少一个待训练图像，所述待训练图像具有身份标签以及姿态标签，所述身份标签用于表示所述待训练图像中目标对象的身份信息，所述姿态标签用于表示所述待训练图像中所述目标对象的姿态信息；

所述获取模块401，还用于通过待训练身份分类器获取所述第一图像特征所对应的第一身份预测结果，通过待训练姿态分类器获取所述第一图像特征所对应的第一姿态预测结果；

训练模块402，用于根据所述获取模块401获取的所述第一身份预测结果以及所述身份标签对所述待训练身份分类器进行训练，得到身份分类器，根据所述获取模块获取的所述第一姿态预测结果以及所述姿态标签对所述待训练姿态分类器进行训练，得到姿态分类器；

转换模块403，用于通过待训练生成器对所述获取模块401获取的所述第一图像特征进行姿态转换，得到所述待训练图像集合所对应的第二图像特征，其中，所述第二图像特征对应于目标姿态；

所述获取模块401，还用于通过所述训练模块402训练得到的所述身份分类器获取所述转换模块403转换得到的所述第二图像特征所对应的第二身份预测结果，通过所述训练模块402训练得到的所述姿态分类器获取所述第二图像特征所对应的第二姿态预测结果；

所述训练模块402，还用于根据所述获取模块401获取的所述第二身份预测结果、所述身份标签、所述第二姿态预测结果、目标姿态标签、所述第二图像特征以及第三图像特征，对所述待训练生成器进行训练，得到生成器，其中，所述第三图像特征为所述待训练图像集合中属于所述目标姿态的待训练图像所对应的图像特征，所述目标姿态标签表示所述目标姿态的信息，所述生成器用于生成图像识别网络模型。

本实施例中，获取模块401获取待训练图像集合所对应的第一图像特征，其中，所述待训练图像集合包括至少一个待训练图像，所述待训练图像具有身份标签以及姿态标签，所述身份标签用于表示所述待训练图像中目标对象的身份信息，所述姿态标签用于表示所述待训练图像中所述目标对象的姿态信息，所述获取模块401通过待训练身份分类器获取所述第一图像特征所对应的第一身份预测结果，通过待训练姿态分类器获取所述第一图像特征所对应的第一姿态预测结果，训练模块402根据所述获取模块401获取的所述第一身份预测结果以及所述身份标签对所述待训练身份分类器进行训练，得到身份分类器，根据所述获取模块获取的所述第一姿态预测结果以及所述姿态标签对所述待训练姿态分类器进行训练，得到姿态分类器，转换模块403通过待训练生成器对所述获取模块401获取的所述第一图像特征进行姿态转换，得到所述待训练图像集合所对应的第二图像特征，其中，所述第二图像特征对应于目标姿态，所述获取模块401通过所述训练模块402训练得到的所述身份分类器获取所述转换模块403转换得到的所述第二图像特征所对应的第二身份预测结果，通过所述训练模块402训练得到的所述姿态分类器获取所述第二图像特征所对应的第二姿态预测结果，所述训练模块402根据所述获取模块401获取的所述第二身份预测结果、所述身份标签、所述第二姿态预测结果、目标姿态标签、所述第二图像特征以及第三图像特征，对所述待训练生成器进行训练，得到生成器，其中，所述第三图像特征为所述待训练图像集合中属于所述目标姿态的待训练图像所对应的图像特征，所述目标姿态标签表示所述目标姿态的信息，所述生成器用于生成图像识别网络模型。

本申请实施例中，提供了一种模型训练装置，首先模型训练装置获取待训练图像集合所对应的第一图像特征，然后通过待训练身份分类器获取第一图像特征所对应的第一身份预测结果，并通过待训练姿态分类器获取第一图像特征所对应的第一姿态预测结果，再根据第一身份预测结果以及身份标签对待训练身份分类器进行训练，得到身份分类器，并根据第一姿态预测结果以及姿态标签对待训练姿态分类器进行训练，得到姿态分类器，通过待训练生成器对第一图像特征进行姿态转换，得到待训练图像集合所对应的第二图像特征，通过身份分类器获取第二图像特征所对应的第二身份预测结果，通过姿态分类器获取第二图像特征所对应的第二姿态预测结果，最后根据第二身份预测结果、身份标签、第二姿态预测结果、目标姿态标签、第二图像特征以及第三图像特征，对待训练生成器进行训练，得到生成器。通过上述方式，仅基于图像特征进行训练，而图像特征是经过组织的，因此相对于原始图像而言具有较小的空间维度，从而降低了训练的难度，并且降低了模型的复杂度，可以减少计算资源的消耗。

可选地，在上述图18所对应的实施例的基础上，本申请实施例提供的模型训练装置40的另一实施例中，

所述获取模块401，具体用于根据所述待训练身份分类器的网络权重值、所述第一图像特征以及身份类别，计算得到每个类别的身份输出概率；

所述训练模块402，具体用于根据所述第一身份预测结果以及所述身份标签，采用第一损失函数确定所述待训练身份分类器的模型参数；

所述获取模块401，具体用于采用如下方式计算得到所述每个类别的身份输出概率：

所述第一损失函数表示为：

L_I＝-E[logP(y_I|Y_I)]；

所述获取模块401，具体用于根据所述待训练姿态分类器的网络权重值、所述第一图像特征以及姿态类别，计算得到每个类别的姿态输出概率；

所述训练模块402，具体用于根据所述第一姿态预测结果以及所述姿态标签，采用第二损失函数确定所述待训练姿态分类器的模型参数；

所述获取模块401，具体用于采用如下方式计算得到所述每个类别的姿态输出概率：

所述第二损失函数表示为：

L_P＝-E[logP(y_P|Y_P)]；

所述获取模块401，具体用于通过所述姿态分类器以及所述第二图像特征所对应的目标姿态标签，获取所述第二图像特征所对应的所述第二姿态预测结果；

所述训练模块402，具体用于根据所述第二身份预测结果以及所述身份标签，采用第三损失函数确定第一最小损失结果；

所述第三损失函数表示为：

L_IG＝-E[logP(y_I|Y_IG)]；

所述第四损失函数表示为：

L_PG＝-E[logP(y_F|Y_PG)]；

所述第五损失函数表示为：

所述第六损失函数表示为：

其中，所述L_advG表示所述第六损失函数。

下面对本申请中的图像识别装置进行详细描述，请参阅图19，图19为本申请实施例中图像识别装置一个实施例示意图，图像识别装置50包括：

获取模块501，用于获取第一待识别图像，其中，所述第一待检测图像中包括第一目标对象，所述第一目标对象对应于第一姿态信息，所述第一目标对象对应于目标身份信息；

所述获取模块501，还用于通过图像识别网络模型中的生成器，获取所述第一待识别图像所对应的第二待识别图像，其中，所述第二待识别图像包括第二目标对象，所述第二目标对象对应于第二姿态信息，所述第二目标对象对应于所述目标身份信息，所述生成器用于对图像中的对象进行姿态转换；

确定模块502，用于通过所述图像识别网络模型中的识别模块，确定所述获取模块502获取的所述第二待识别图像的识别结果。

本实施例中，获取模块501获取第一待识别图像，其中，所述第一待检测图像中包括第一目标对象，所述第一目标对象对应于第一姿态信息，所述第一目标对象对应于目标身份信息，所述获取模块501通过图像识别网络模型中的生成器，获取所述第一待识别图像所对应的第二待识别图像，其中，所述第二待识别图像包括第二目标对象，所述第二目标对象对应于第二姿态信息，所述第二目标对象对应于所述目标身份信息，所述生成器用于对图像中的对象进行姿态转换，确定模块502通过所述图像识别网络模型中的识别模块，确定所述获取模块502获取的所述第二待识别图像的识别结果。

下面对本申请中的人脸姿态转换装置进行详细描述，请参阅图20，图20为本申请实施例中人脸姿态转换装置一个实施例示意图，人脸姿态转换装置60包括：

获取模块601，用于获取待转正人脸图像，其中，所述待转正人脸图像对应于第一姿态信息，所述待转正人脸图像对应于目标身份信息，所述第一姿态信息表示转正前图像的姿态信息；

处理模块602，用于通过生成器对所述获取模块601获取的所述待转正人脸图像进行转换处理，得到所述待转正人脸图像所对应的转正人脸图像，其中，所述转正人脸图像对应于第二姿态信息，所述转正人脸图像对应于所述目标身份信息，所述第二姿态信息表示转正后图像的姿态信息，所述生成器用于对图像中的对象进行姿态转换。

本实施例中，获取模块601获取待转正人脸图像，其中，所述待转正人脸图像对应于第一姿态信息，所述待转正人脸图像对应于目标身份信息，所述第一姿态信息表示转正前图像的姿态信息，处理模块602通过生成器对所述获取模块601获取的所述待转正人脸图像进行转换处理，得到所述待转正人脸图像所对应的转正人脸图像，其中，所述转正人脸图像对应于第二姿态信息，所述转正人脸图像对应于所述目标身份信息，所述第二姿态信息表示转正后图像的姿态信息，所述生成器用于对图像中的对象进行姿态转换。

本申请实施例中，提供了一种人脸姿态转换装置，首先获取待转正人脸图像，然后将待转正人脸图像输入至生成器，通过生成器对待转正人脸图像进行转换处理，得到待转正人脸图像所对应的转正人脸图像。通过上述方式，可以利用训练得到的生成器，将人脸图像进行转正处理，从而生成正脸图像，该生成器能够保证转正后的人脸图像与转正前的人脸图像属于相同的身份，且具有不同的姿态，使得转正后的人脸特征可以达到比原始侧脸特征更好的侧脸识别效果。

图21是本申请实施例提供的一种服务器结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器722可以设置为与存储介质730通信，在服务器700上执行存储介质730中的一系列指令操作。

服务器700还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口758，和/或，一个或一个以上操作系统741，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图21所示的服务器结构。

在本申请实施例中，该终端所包括的CPU 722还具有以下功能：

本申请实施例还提供了另一种图像识别装置以及人脸姿态转换装置，如图22所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(PersonalDigital Assistant，PDA)、销售终端设备(Point of Sales，POS)、车载电脑等任意终端设备设备，以终端设备为手机为例：

图22示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图22，手机包括：射频(Radio Frequency，RF)电路810、存储器820、输入单元830、显示单元840、传感器850、音频电路860、无线保真(wireless fidelity，WiFi)模块870、处理器880、以及电源890等部件。本领域技术人员可以理解，图22中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图22对手机的各个构成部件进行具体的介绍：

RF电路810可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器880处理；另外，将设计上行的数据发送给基站。通常，RF电路810包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路810还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器820可用于存储软件程序以及模块，处理器880通过运行存储在存储器820的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器820可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元830可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元830可包括触控面板831以及其他输入设备832。触控面板831，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板831上或在触控面板831附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板831可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器880，并能接收处理器880发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板831。除了触控面板831，输入单元830还可以包括其他输入设备832。具体地，其他输入设备832可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元840可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元840可包括显示面板841，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板841。进一步的，触控面板831可覆盖显示面板841，当触控面板831检测到在其上或附近的触摸操作后，传送给处理器880以确定触摸事件的类型，随后处理器880根据触摸事件的类型在显示面板841上提供相应的视觉输出。虽然在图22中，触控面板831与显示面板841是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板831与显示面板841集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器850，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板841的亮度，接近传感器可在手机移动到耳边时，关闭显示面板841和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路860、扬声器861，传声器862可提供用户与手机之间的音频接口。音频电路860可将接收到的音频数据转换后的电信号，传输到扬声器861，由扬声器861转换为声音信号输出；另一方面，传声器862将收集的声音信号转换为电信号，由音频电路860接收后转换为音频数据，再将音频数据输出处理器880处理后，经RF电路810以发送给比如另一手机，或者将音频数据输出至存储器820以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块870可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图22示出了WiFi模块870，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器880是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器820内的软件程序和/或模块，以及调用存储在存储器820内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器880可包括一个或多个处理单元；可选的，处理器880可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器880中。

手机还包括给各个部件供电的电源890(比如电池)，可选的，电源可以通过电源管理系统与处理器880逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端设备所包括的处理器880还具有以下功能：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像识别网络模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述通过待训练身份分类器获取所述第一图像特征所对应的第一身份预测结果，包括：

根据所述待训练身份分类器的网络权重值、所述第一图像特征以及身份类别，计算得到每个类别的身份输出概率；

所述根据所述第一身份预测结果以及所述身份标签对所述待训练身份分类器进行训练，得到身份分类器，包括：

根据所述第一身份预测结果以及所述身份标签，采用第一损失函数确定所述待训练身份分类器的模型参数；

3.根据权利要求2所述的方法，其特征在于，所述根据所述待训练身份分类器的网络权重值、所述第一图像特征以及身份类别，计算得到每个类别的身份输出概率，包括：

采用如下方式计算得到所述每个类别的身份输出概率：

所述第一损失函数表示为：

L_I＝-E[log P(y_I|Y_I)]；

4.根据权利要求1所述的方法，其特征在于，所述通过待训练姿态分类器获取所述第一图像特征所对应的第一姿态预测结果，包括：

根据所述待训练姿态分类器的网络权重值、所述第一图像特征以及姿态类别，计算得到每个类别的姿态输出概率；

所述根据所述第一姿态预测结果以及所述姿态标签对所述待训练姿态分类器进行训练，得到姿态分类器，包括：

根据所述第一姿态预测结果以及所述姿态标签，采用第二损失函数确定所述待训练姿态分类器的模型参数；

5.根据权利要求4所述的方法，其特征在于，所述根据所述待训练姿态分类器的网络权重值、所述第一图像特征以及姿态类别，计算得到每个类别的姿态输出概率，包括：

采用如下方式计算得到所述每个类别的姿态输出概率：

所述第二损失函数表示为：

L_P＝-E[log P(y_P|Y_P)]；

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述通过所述身份分类器获取所述第二图像特征所对应的第二身份预测结果，通过所述姿态分类器获取所述第二图像特征所对应的第二姿态预测结果，包括：

通过所述姿态分类器以及所述第二图像特征所对应的目标姿态标签，获取所述第二图像特征所对应的所述第二姿态预测结果；

7.根据权利要求1所述的方法，其特征在于，所述根据所述第二身份预测结果、所述身份标签、所述第二姿态预测结果、目标姿态标签、所述第二图像特征以及第三图像特征，对所述待训练生成器进行训练，得到生成器，包括：

根据所述第二身份预测结果以及所述身份标签，采用第三损失函数确定第一最小损失结果；

8.根据权利要求7所述的方法，其特征在于，所述第三损失函数表示为：

L_IG＝-E[log P(y_I|Y_IG)]；

所述第四损失函数表示为：

L_PG＝-E[log P(y_F|Y_PG)]；

9.根据权利要求7所述的方法，其特征在于，所述第五损失函数表示为：

所述第六损失函数表示为：

其中，所述L_advG表示所述第六损失函数。

10.一种图像识别方法，其特征在于，包括：

11.一种人脸姿态转换方法，其特征在于，包括：

12.一种模型训练装置，其特征在于，包括：

13.一种图像识别装置，其特征在于，包括：

14.一种服务器，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

15.一种终端设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：