CN117218693A

CN117218693A - 人脸属性预测网络生成方法、人脸属性预测方法及装置

Info

Publication number: CN117218693A
Application number: CN202210607681.2A
Authority: CN
Inventors: 袁瑾; 肖嵘; 王孝宇
Original assignee: Qingdao Yuntian Lifei Technology Co ltd; Shenzhen Intellifusion Technologies Co Ltd
Current assignee: Qingdao Yuntian Lifei Technology Co ltd; Shenzhen Intellifusion Technologies Co Ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2023-12-12
Also published as: WO2023231399A1

Abstract

本申请适用于图像处理技术领域，提供了一种人脸属性预测网络生成方法、人脸属性预测方法及装置，该人脸属性预测网络生成方法包括：获取样本人脸图像集；对每帧样本人脸图像进行增广处理，得到第一增广图像和第二增广图像；根据多个第一增广图像和多个第二增广图像，对第一分支网络和第二分支网络进行交替训练，得到训练后的第一分支网络；将训练后的第一分支网络确定为人脸属性预测网络。从而，本申请可以通过第一分支网络与第二分支网络的相互监督以使训练后的第一分支网络能够提取人脸图像中人脸对应的属性的特征，避免了对样本人脸图像进行属性标注，减少属性标注的人力资源和时间成本。

Description

人脸属性预测网络生成方法、人脸属性预测方法及装置

技术领域

本申请属于图像处理技术领域，尤其涉及一种人脸属性预测网络生成方法、人脸属性预测方法及装置。

背景技术

一张人脸图像所包含的信息是非常丰富的，在实际应用中，需要对人脸图像中的人脸进行属性预测，以获取与人脸对应的多个属性。例如，对人脸图像进行属性预测，获取人脸对应的性别属性、年龄属性等。

由此，为获取人脸图像中人脸对应的多个属性而设计多任务属性预测方法，以便于能够同时获取与人脸对应的多个属性，至关重要。

相关技术中，采用的多任务属性预测方法为基于卷积神经网络的监督学习模型。

然而，对上述模型进行训练时，需要先对样本人脸图像集中每帧样本人脸图像设置人脸对应的属性标签才能训练，而对每帧样本人脸图像设置属性标签会消耗大量的时间及人力成本，导致模型的训练效率较低。

发明内容

本申请提供了一种人脸属性预测网络生成方法、人脸属性预测方法及装置，可以避免训练网络时对样本人脸图像集中每帧样本人脸图像设置属性标签而消耗大量的时间及人力成本，保证了网络的训练效率，节省了时间成本和人力资源。

第一方面，本申请提供一种人脸属性预测网络生成方法，包括：

获取样本人脸图像集，所述样本人脸图像集包括多帧样本人脸图像；

对每帧样本人脸图像进行增广处理，得到第一增广图像和第二增广图像，所述第一增广图像和所述第二增广图像保持与对应的样本人脸图像中人脸对应的属性相同；

根据多个所述第一增广图像和多个所述第二增广图像，对第一分支网络和第二分支网络进行交替训练，得到训练后的第一分支网络，以使所述训练后的第一分支网络通过所述第一分支网络与所述第二分支网络的相互监督能够提取人脸图像中人脸对应的属性的特征，所述人脸对应的属性至少包括年龄属性和性别属性；

将所述训练后的第一分支网络确定为人脸属性预测网络。

本申请通过对每帧样本人脸图像进行增广处理，得到第一增广图像和第二增广图像，根据多个第一增广图像和多个所述第二增广图像，对第一分支网络和第二分支网络进行交替训练，得到训练后的第一分支网络。由此，借助通过第二分支网络与第一分支网络互相监督学习，使得训练后的第一分支网络能够提取人脸图像中人脸对应的属性的特征，避免了对样本人脸图像进行属性标注，减少属性标注的人力资源和时间成本。

第二方面，本申请提供了一种人脸属性预测方法，包括：

获取待测人脸图像中人脸对应的区域；

将所述人脸对应的区域输入到人脸属性预测网络中，输出所述人脸对应的预测属性，所述人脸属性预测网络用于预测人脸图像中人脸对应的属性的特征，所述人脸对应的属性至少包括年龄属性和性别属性，所述人脸属性预测网络为根据如上所述的人脸属性预测网络生成方法得到的。

本申请通过将人脸对应的区域输入到人脸属性预测网络中，输出人脸对应的预测属性。通过将每帧样本随机增广处理，得到的两帧增广图像输入第一分支网络和第二分支网络交替训练，得到的人脸属性预测网络，对人脸对应的属性的预测准确率更高。

第三方面，本申请提供了一种人脸属性预测网络生成装置，该装置用于执行上述第一方面或第一方面的任一可能的实现方式中的方法。具体地，该装置可以包括：

获取模块，用于获取样本人脸图像集，所述样本人脸图像集包括多帧样本人脸图像；

增广模块，用于对每帧样本人脸图像进行增广处理，得到第一增广图像和第二增广图像，所述第一增广图像和所述第二增广图像保持与对应的样本人脸图像中人脸对应的属性相同；

训练模块，用于根据多个所述第一增广图像和多个所述第二增广图像，对第一分支网络和第二分支网络进行交替训练，得到训练后的第一分支网络，以使所述训练后的第一分支网络通过所述第一分支网络与所述第二分支网络的相互监督能够提取人脸图像中人脸对应的属性的特征，所述人脸对应的属性至少包括年龄属性和性别属性；

确定模块，用于将所述训练后的第一分支网络确定为人脸属性预测网络。

第四方面，本申请提供了一种人脸属性预测装置，该装置用于执行上述第二方面或第二方面的任一可能的实现方式中的方法。具体地，该装置可以包括：

获取模块，用于获取待测人脸图像中人脸对应的区域；

预测模块，用于将所述人脸对应的区域输入到人脸属性预测网络中，输出所述人脸对应的预测属性，所述人脸属性预测网络用于预测人脸图像中所述人脸对应的属性的特征，所述人脸对应的属性至少包括年龄属性和性别属性，所述人脸属性预测网络为根据如上所述的人脸属性预测网络生成方法得到的。

第五方面，本申请提供了一种电子设备，该设备包括存储器与处理器。该存储器用于存储指令；该处理器执行该存储器存储的指令，使得该设备执行第一方面或第一方面的任一可能的实现方式中人脸属性预测网络生成方法，和/或第二方面或第二方面的任一可能的实现方式中人脸属性预测方法。

第六方面，提供一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当该指令在计算机上运行时，使得计算机执行第一方面或第一方面的任一可能的实现方式中人脸属性预测网络生成方法，和/或第二方面或第二方面的任一可能的实现方式中人脸属性预测方法。

第七方面，提供一种包含指令的计算机程序产品，当该指令在设备上运行时，使得设备执行第一方面或第一方面的任一可能的实现方式中人脸属性预测网络生成方法，和/或第二方面或第二方面的任一可能的实现方式中人脸属性预测方法。

可以理解的是，上述第三方面至第七方面的有益效果可以参见上述第一方面和/或第二方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的人脸属性预测网络生成方法的流程示意图；

图2a是本申请一实施例提供的人脸属性预测网络生成方法的流程示意图；

图2b是本申请一实施例提供的人脸属性预测网络的示意图；

图3a是本申请一实施例提供的人脸属性预测方法的流程示意图；

图3b是本申请一实施例提供的人脸属性预测网络预测属性的流程示意图；

图4是本申请一实施例提供的人脸属性预测网络生成装置的结构示意图；

图5是本申请一实施例提供的人脸属性预测装置的结构示意图；

图6是本申请一实施例提供的电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请提供一种人脸属性预测网络生成方法、人脸属性预测方法及装置，该人脸属性预测方法应用于案件侦查、失踪人口查找和智能安防等场景中。

人脸属性预测网络生成方法和人脸属性预测方法均可通过电子设备实现。

其中，电子设备可通过网络训练系统执行人脸属性预测网络生成方法；电子设备可通过识别系统执行人脸属性预测方法。

应理解，执行人脸属性预测网络生成方法和人脸属性预测方法的电子设备可以是相同的设备，也可以是不同的设备。

其中，电子设备可以为智能手机、平板电脑、台式电脑、笔记本电脑、手持设备、服务器、车载设备等。本申请实施例对电子设备的具体类型不作任何限制。

在介绍本申请实施例提供的人脸属性预测网络生成方法和人脸属性预测方法之前，先对该人脸属性预测网络生成方法和人脸属性预测方法适用的场景进行举例说明：

以失踪人口查找为例，通过将失踪人口甲的人脸对应的区域输入通过人脸属性预测网络生成方法训练得到的人脸属性识别网络中，输出失踪人口甲的预测属性。在获取失踪人口甲的预测属性后，根据失踪人口甲的预测属性在失踪人口库中查找与失踪人口甲匹配的图像。

该失踪人口甲的预测属性包括但不限于性别属性和年龄属性，例如，还可以包括头发属性、发际线属性、单/双眼皮属性、帽子属性、口罩属性等。

基于上述场景描述，下面，本申请以电子设备为例，结合附图和应用场景，对本申请实施例提供的人脸属性预测网络生成方法进行详细说明。

请参阅图1，图1示出了本申请一实施例提供的人脸属性预测网络生成方法的流程示意图。

如图1所示，本申请提供的人脸属性预测网络生成方法可以包括：

S101、获取样本人脸图像集。

样本人脸图像集包括多帧样本人脸图像。

可选地，样本人脸图像集至少包括一帧样本人脸图像。

其中，样本人脸图像集可以从现有公开的人脸图像数据集中选取得到，也可以预先通过摄像头拍摄人脸图像得到，又可以从互联网中下载得到。

在一些实施例中，通过摄像头拍摄人脸图像时，需要采用精度较高的摄像头对样本人脸从多个角度进行拍摄，以便于获得清晰的任意角度的样本人脸图像。

其中，拍摄人脸图像的摄像头可以是相机、智能手机的摄像头、笔记本电脑的摄像头、平板电脑的摄像头。

S102、对每帧样本人脸图像进行增广处理，得到第一增广图像和第二增广图像。

其中，第一增广图像和第二增广图像保持与对应的样本人脸图像中人脸对应的属性相同。

例如，某一样本人脸图像的人脸属性中性别属性为男、年龄属性为八岁，那么，对该样本人脸图像进行增广处理后，得到的第一增广图像和第二增广图像的性别均属性为男、年龄属性均为八岁。

增广处理(image augmentation)为通过对样本图像做一系列随机改变，来产生相似但又不同的训练样本，从而扩大训练数据集的规模的方法。

其中，增广处理可以为随机水平翻转、随机剪裁、随机平移、随机旋转、随机缩放、随机变化颜色、随机增加噪声、随机灰度变换、随机尺寸变换、随机镜像变换、随机颜色空间变换等中选取的一个或者多个。

举例说明，对样本人脸图像集中的某一样本人脸图像分别进行翻转处理和剪裁处理，得到经翻转处理后的第一增广图像，和经剪裁处理处理后的第二增广图像。

再次举例说明，对样本人脸图像集中的某一样本人脸图像依次进行随机水平翻转、随机剪裁、随机平移处理两次，得到第一增广图像和第二增广图像。

S103、根据多个所述第一增广图像和多个所述第二增广图像，对第一分支网络和第二分支网络进行交替训练，得到训练后的第一分支网络。

电子设备对第一分支网络和第二分支网络进行交替训练，以使所述训练后的第一分支网络通过所述第一分支网络与所述第二分支网络的相互监督能够提取人脸图像中人脸对应的属性的特征。

其中，人脸对应的属性至少包括年龄属性和性别属性。

在一些实施例中，电子设备通过执行以下步骤对第一分支网络和第二分支网络进行交替训练：

将多个所第一增广图像输入到所述第一分支网络中，输出第一特征，并将多个所述第二增广图像输入到所述第二分支网络中，输出第二特征；

将多个所述第二增广图像输入到所述第一分支网络中，输出第三特征，并将多个所述第一增广图像输入到所述第二分支网络中，输出第四特征；

根据所述第一特征、所述第二特征、所述第三特征和所述第四特征，调整所述第一分支网络的网络参数，得到所述训练后的第一分支网络。

在一些实施例中，所述第一分支网络包括第一主干网络和初始预测网络，所述第一主干网络用于提取人脸图像中人脸的特征，所述初始预测网络用于提取人脸图像中所述人脸对应的属性的特征。

其中，初始预测网络包括多个属性预测模块，每个属性预测模块用于预测不同的属性。初始预测网络包括的属性预测模块的数量根据需要预测的属性类型设置，在此不多做赘述。

例如，初始预测网络包括两个属性预测模块，分别用于预测人脸对应的性别属性和年龄属性。

所述第二分支网络包括第二主干网络，所述第二主干网络用于提取人脸图像中人脸的特征。

需要说明的是，第一主干网络和第二主干网络均为骨干网络。第一主干网络和第二主干网络的结构相同，且共享权重。

在一些实施例中，第一主干网络和第二主干网络均包括编码器f和投影多层感知器(multilayer perceptron，MLP)。

其中，编码器f为卷积网络，例如，残差网络(ResNet)、深度可分离卷积网络(MobileNet)。

在一些实施例中，初始预测网络为预测器h，预测器h具体为预测多层感知器(multilayer perceptron，MLP)。

电子设备通过第一分支网络输出的人脸图像中人脸的特征，以及第二分支网络输出的人脸图像中人脸的特征进行互相监督学习，以使得训练后的第一分支网络通过第一分支网络与第二分支网络的相互监督能够提取人脸图像中人脸对应的属性的特征。

S104、将所述训练后的第一分支网络确定为人脸属性预测网络。

可以理解的是，人脸属性预测网络为改造后的孪生网络，不同的是步骤S104的网络中，所述第一分支网络包括第一主干网络和初始预测网络，所述第二分支网络包括第二主干网络。

本申请提供的人脸属性预测网络生成方法，通过电子设备对每帧样本人脸图像进行增广处理，得到第一增广图像和第二增广图像，根据多个第一增广图像和多个所述第二增广图像，对第一分支网络和第二分支网络进行交替训练，得到训练后的第一分支网络。由此，借助第二分支网络，通过第二分支网络与第一分支网络互相监督学习，使得训练后的第一分支网络能够提取人脸图像中人脸对应的属性的特征，避免了对样本人脸图像进行属性标注，减少属性标注的人力资源和时间成本。

基于上述图1所示实施例的描述，电子设备在根据第一特征、第二特征、第三特征和所述第四特征，调整第一分支网络的网络参数时借助损失函数对第一分支网络的网络参数进行调整。

下面，结合图2a，详细介绍本申请的人脸属性预测网络生成方法的具体实现过程。

电子设备通过损失函数对第一分支网络的网络参数进行调整，其中，损失函数采用随机梯度下降法计算对称损失函数。

随机梯度下降(Stochastic Gradient Descent，SGD)，是指在机器学习算法中，有时候需要对原始的网络构建损失函数，然后通过优化算法对损失函数进行优化，以便寻找到最优的参数，使得损失函数的值最小；而在求解机器学习参数的优化算法中，使用较多的就是基于梯度下降的优化算法。

可选地，对称损失函数采用停止梯度运算时的对称损失函数。

请参阅图2a，图2a示出了本申请一实施例提供的人脸属性预测网络生成方法的流程示意图。

如图2a所示，本申请提供的人脸属性预测网络生成方法可以包括：

S201、根据所述第一特征、所述第二特征、所述第三特征和所述第四特征，确定对称损失函数或优化后的所述对称损失函数。

在一些实施例中，电子设备通过执行以下步骤计算对称损失函数：

将所述第一特征和所述第二特征之间的相似度，确定为第一相似度，将所述第三特征和所述第四特征之间的相似度，确定为第二相似度；

根据所述第一相似度和所述第二相似度，确定所述对称损失函数或优化后的所述对称损失函数。

其中，上述的优化后的对称损失函数指停止梯度运算时的对称损失函数。

对于相似度以及对称损失函数的计算，如下所示：

第一特征的特征向量的计算公式为：

其中，p₁表示第一特征的特征向量，x₁表示第一增广图像。

第二特征的特征向量的计算公式为：

其中，z₂表示第二特征的特征向量，x₂表示第二增广图像。

第三特征的特征向量的计算公式为：

其中，p₂表示第三特征的特征向量。

第四特征的特征向量的计算公式为：

其中，z₁表示第四特征的特征向量。

第一相似度的计算公式为：

其中，D(p1,z2)表示第一相似度，即第一特征和第二特征之间的负余弦相似度，p₁表示第一特征的特征向量，z₂表示第二特征的特征向量，||p₁||₂表示第一特征的特征向量的模，||z₂||₂表示第二特征的特征向量的模。

第二相似度的计算公式为：

其中，D(p2,z1)表示第二相似度，即第三特征和第四特征之间的负余弦相似度，p₂表示第三特征的特征向量，z₁表示第四特征的特征向量，||p₂||₂表示第三特征的特征向量的模，||z₁||₂表示第四特征的特征向量的模。

对称损失函数的计算公式为：

其中，D(p₁,z₂)表示第一相似度，即第一特征和第二特征之间的相似度；

D(p₂,z₁)表示第二相似度，即第三特征和第四特征之间的相似度。

在一些实施例中，对第二分支网络停止梯度(stop-grad)操作。

那么，停止梯度运算时的对称损失函数计算公式为：

其中，stopgrad()表示停止梯度操作，(p₁,stopgrad(z₂))表示在计算对称损失时，将第一增广图像x₁经过第一分支网络输出p₁，第二增广图像x₂经过第二分支网络输出z₂，相当于第一增广图像x₁在第一分支网络有经过初始预测网络的处理，第二增广图像x₂在第二分支网络中不经过初始预测网络的处理，由于第二分支网络有停止梯度(stop-grad)，代表z₂不参与网络参数的梯度更新；

同理，(p₂,stopgrad(z₁))表示在计算对称损失函数时，将第二增广图像x₂经过第一分支网络输出p₂，第一增广图像x₁经过第二分支网络输出z₂，相当于第二增广图像x₂在第一分支网络有经过初始预测网络的处理，第二增广图像x₁在第二分支网络中不经过初始预测网络的处理，由于第二分支网络有停止梯度(stop-grad)，代表z₁不参与网络参数的梯度更新；

第一项(p₁,stopgrad(z₂))中，第二主干网络不接收来自z₂的梯度，接收来自p₁的梯度；

第二项(p₂,stopgrad(z₁))中，第二主干网络不接收来自z₁的梯度，接收来自p₂的梯度。

其中，网络参数表示包含该网络所有参数的向量，更新网络参数的过程即是表征在逐步进行网络优化的过程。网络的优化目标就是最小化对称损失，对称损失对网络参数求导，以更新网络参数。

第一分支网络和第二分支在交替训练多次后(比如，100次)，趋于收敛，此时得到的第一分支网络便是最终训练完成的第一分支网络。

可以理解的是，停止梯度操作，可以最大化第一分支网络和第二分支网络输出的特征的向量之间的相似性。

S202、根据所述对称损失函数或优化后的所述对称损失函数，调整所述初始预测网络的网络参数。

在一些实施例中，电子设备根据对称损失函数，调整初始预测网络的网络参数。

在另一些实施例中，电子设备根据优化后的对称损失函数(停止梯度运算时的对称损失函数)，调整初始预测网络的网络参数。

S203、根据所述对称损失函数或优化后的所述对称损失函数与所述初始预测网络包括的属性预测模块的数量，确定总损失函数。

其中，总损失函数的计算公式为：

其中，n表示初始预测网络包括的属性预测模块的数量，i表示第i个属性预测模块。

S203、根据所述总损失函数，调整所述第一主干网络的网络参数。

S204、将调整后的所述初始预测网络连接在调整后的所述第一主干网络的输出端，得到所述训练后的第一分支网络。

在一些实施例中，调整后的初始预测网络连接在调整后的第一主干网络的输出端，在调整后的第一主干网络输出人脸图像中人脸的特征后，将人脸对应的特征输入调整后的预测网络，调整后的预测网络输出人脸图像中人脸对应的属性的特征。

本申请中，电子设备通过第一特征、第二特征、第三特征和第四特征，确定对称损失函数或优化后的对称损失函数，再根据对称损失函数或优化后的对称损失函数，调整初始预测网络的网络参数，最后根据总损失函数，调整第一主干网络的网络参数。由此，电子设备通过优化后的对称损失函数(停止梯度运算时的对称损失函数)调整初始预测网络，可以最大化第一分支网络和第二分支网络输出的特征的相似度，保证初始预测网络和第一分支网络的网络参数更优，输出的人脸图像中的人脸特征更加准确。

基于上述描述，在一个具体的实施例中，如图2b所示，左侧为第一分支网络，右侧为第二分支网络，第一分支网络包括编码器f(第一主干网络)和预测器h(初始预测网络)，第二分支网络包括编码器f(第二主干网络)，两个编码器f共享权重。

基于上述内容，电子设备执行人脸属性预测网络生成方法可以包括如下步骤：

步骤11、电子设备将人脸图像x依次进行随机水平翻转、随机剪裁、随机平移处理两次，得到人脸图像x1和人脸图像x2。

步骤12、电子设备将人脸图像x1输入第一分支网络的编码器f中，输出人脸对应的特征，电子设备将人脸对应的特征输入第一分支网络的预测器h中，输出人脸对应的属性的特征。

步骤13、电子设备将人脸图像x2输入第二分支网络的编码器f中，输出人脸对应的特征。

步骤14、电子设备计算第一分支网络输出的人脸对应的属性的特征与第二分支网络输出的人脸对应的特征之间的负余弦相似度。

步骤15、电子设备根据负余弦相似度计算停止梯度运算时的对称损失函数。

步骤16、电子设备根据停止梯度运算时的对称损失函数，调整预测器h的网络参数。

步骤17、电子设备根据停止梯度对应的对称损失函数和预测器h包括的属性预测模块的数量，计算总损失函数。

步骤18、电子设备根据总损失函数调整第一分支网络的编码器f的网络参数；

步骤19、电子设备根据调整后的预测器h和调整后的编码器f，确定训练后的第一分支网络。

步骤20、电子设备将训练后的第一分支网络确定为人脸属性预测网络。

可以理解的是，步骤12和步骤13，以及步骤16和步骤17的执行顺序不分先后，可以同时进行。

基于上述场景描述，下面，本申请以电子设备为例，结合附图和应用场景，对本申请实施例提供的人脸属性预测方法进行详细说明。

请参阅图3a，图3a示出了本申请一实施例提供的人脸属性预测方法的流程示意图。

如图3a所示，本申请提供的人脸属性预测方法可以包括：

S301、获取待测人脸图像中人脸对应的区域。

在一些实施例中，人脸对应的区域是通过对待测人脸图像进行人脸检测，获得检测窗口，对检测窗口中的图像进行截取得到的。

待测人脸图像可以是用户直接给定的，也可以是从监控摄像头、摄像机等图像采集设备采集的视频/图像数据中抽取得到的。

在一些实施例中，图像采集设备与电子设备通信连接，图像采集设备将采集的视频/图像发送给电子设备，电子设备从视频/图像中获取待测人脸图像。

可以理解的是，检测窗口是指可提取待测人脸图像中人脸的线框。

其中，对待测人脸进行人脸检测可采用人脸检测算法。

人脸检测算法可存储在存储设备中。存储设备可与电子设备进行通信，使得电子设备能够从存储设备中调取人脸检测算法。本申请对存储设备的存储方式和具体类型不做限定。

在一些实施例中，采用YOLO(you only look once)算法对待测人脸图像进行人脸检测。YOLO算法是一种基于深度神经网络的对象识别和定位算法，其最大的特点是运行速度快。

举例说明，电子设备在获取待测人脸图像后，调取人脸检测算法对监控摄像头拍摄的图像进行人脸检测，获取待测人脸图像对应的人脸区域。

S302、将所述人脸对应的区域输入到人脸属性预测网络中，输出所述人脸对应的预测属性。

人脸属性预测网络用于预测人脸图像中人脸对应的属性的特征，所述人脸对应的属性至少包括年龄属性和性别属性。

其中，人脸属性预测网络包括主干网络和预测网络，所述主干网络用于提取人脸图像中人脸的特征，所述预测网络用于预测所述人脸对应的属性的特征。

预测网络包括多个属性预测模块，每个属性预测模块用于预测不同的人脸属性。例如，预测网络包括两个属性预测模块，其中一个为年龄属性预测模块，另一个为性别属性预测模块。

年龄属性预测模块用于预测人脸对应的年龄属性，性别属性预测模块用于预测人脸对应的性别属性。

当然，预测网络也可以设置其他数量的属性预测模块，具体根据需要预测的人脸对应的属性类别设置。

例如，预测网络还可以包括头发属性预测模块、发际线属性预测模块、单/双眼皮属性预测模块、帽子属性预测模块、口罩属性预测模块等。

在一些实施例中，将所述人脸对应的区域输入到所述主干网络中，输出所述人脸的特征；将所述人脸的特征输入到所述预测网络中，输出所述人脸对应的预测属性。

主干网络和预测网络作为人脸属性预测网络，预先存储在与电子设备通信的存储设备中。

需要说明的是，人脸属性预测网络为训练后的第一分支网络，训练后的第一分支网络通过第一增广图像和第二增广图像对第一主干网络和第二分支网络交替训练，通过所述第一分支网络与所述第二分支网络的相互监督以使训练后的第一分支网络能够提取人脸图像中人脸对应的属性的特征，第一增广图像和第二增广图像通过对每帧样本人脸图像进行增广处理得到，每帧样本图像来自于样本人脸图像集。

第一增广图像和第二增广图像保持与对应的样本人脸图像中人脸对应的属性相同。

增广处理可以为随机水平翻转、随机剪裁、随机平移、随机旋转、随机缩放、随机变化颜色、随机增加噪声、随机灰度变换、随机图像尺寸变换、随机镜像变换、随机颜色空间变换等中选取的一个或者多个。

举例说明，电子设备在获取待测人脸图像后，调取人脸检测算法对待测人脸图像进行人脸检测，获取待测人脸图像对应的人脸区域。电子设备将人脸对应的区域输入到主干网络中，输出人脸的特征，再将人脸的特征输入到预测网络中，输出人脸对应的预测属性。

在失踪人口查找场景中，通过将失踪人口甲的人脸对应的区域输入通过人脸属性识别网络中，输出失踪人口甲的性别属性和年龄属性。在获取失踪人口甲的性别属性和年龄属性后，根据失踪人口甲的性别属性和年龄属性在失踪人口库中查找与失踪人口甲匹配的图像。

如图3b所示，主干网络作为共享网络输出人脸的特征，预测网络作为任务特定网络接收共享网络输出的人脸对应的特征，并输出人脸对应的预测属性。

本申请提供的人脸属性预测方法，通过电子设备将人脸对应的区域输入到主干网络中，输出人脸的特征，再将人脸的特征输入到预测网络中，输出人脸对应的预测属性。也就是说，通过将每帧样本随机增广处理得到的两帧增广图像输入第一分支网络和第二分支网络交替训练，得到的人脸属性预测网络，可对人脸对应的属性的预测准确率更高。

对应于上述图1所示实施例所述的一种人脸属性预测网络生成方法，本申请还提供了一种人脸属性预测网络生成装置。

下面，结合图4，对本申请一实施例提供的人脸属性预测网络生成装置进行详细说明。

请参阅图4，图4示出了本申请一实施例提供的人脸属性预测网络生成装置的示意性框图。

如图4所示，本申请一实施例提供的一种人脸属性预测网络生成装置，包括获取模块401、增广模块402、训练模块403和确定模块404。

获取模块401，用于获取样本人脸图像集，所述样本人脸图像集包括多帧样本人脸图像；

增广模块402，用于对每帧样本人脸图像进行增广处理，得到第一增广图像和第二增广图像，所述第一增广图像和所述第二增广图像保持与对应的样本人脸图像中人脸对应的属性相同；

训练模块403，用于根据多个所述第一增广图像和多个所述第二增广图像，对第一分支网络和第二分支网络进行交替训练，得到训练后的第一分支网络，以使所述训练后的第一分支网络通过所述第一分支网络与所述第二分支网络的相互监督能够提取人脸图像中人脸对应的属性的特征，所述人脸对应的属性至少包括年龄属性和性别属性；

确定模块404，用于将所述训练后的第一分支网络确定为人脸属性预测网络。

在一些实施例中，训练模块403，具体用于：

将多个所述第一增广图像输入到所述第一分支网络中，输出第一特征，并将多个所述第二增广图像输入到所述第二分支网络中，输出第二特征；

在一些实施例中，所述第一分支网络包括第一主干网络和初始预测网络，所述第一主干网络用于提取人脸图像中人脸的特征，所述初始预测网络用于提取人脸图像中所述人脸对应的属性的特征；。

在一些实施例中，所述第二分支网络包括第二主干网络，所述第二主干网络用于提取人脸图像中人脸的特征。

在一些实施例中，训练模块403，具体用于：

根据所述第一特征、所述第二特征、所述第三特征和所述第四特征，确定对称损失函数或优化后的所述对称损失函数；

根据所述对称损失函数或优化后的所述对称损失函数，调整所述初始预测网络的网络参数；

根据所述对称损失函数或优化后的所述对称损失函数与所述初始预测网络包括的属性预测模块的数量，确定总损失函数；

根据所述总损失函数，调整所述第一主干网络的网络参数；

将调整后的所述初始预测网络连接在调整后的所述第一主干网络的输出端，得到所述训练后的第一分支网络。

在一些实施例中，训练模块403，具体用于：

将所述第一特征和所述第二特征之间的相似度，确定为第一相似度；

将所述第三特征和所述第四特征之间的相似度，确定为第二相似度；

对应于上述图3a所示实施例所述的一种人脸属性预测方法，本申请还提供了一种人脸属性预测装置500。

下面，结合图5，对本申请一实施例提供的人脸属性预测装置进行详细说明。

请参阅图5，图5示出了本申请一实施例提供的人脸属性预测装置的示意性框图。

如图5所示，本申请一实施例提供的一种人脸属性预测装置，包括获取模块501和预测模块502。

获取模块501，用于获取待测人脸图像中人脸对应的区域；

预测模块502，用于将所述人脸对应的区域输入到人脸属性预测网络中，输出所述人脸对应的预测属性，所述人脸属性预测网络用于预测人脸图像中所述人脸对应的属性的特征，所述人脸对应的属性至少包括年龄属性和性别属性。

在一些实施例中，所述人脸属性预测网络包括主干网络和预测网络，所述主干网络用于提取人脸图像中人脸的特征，所述预测网络用于预测所述人脸对应的属性的特征。

在一些实施例中，预测模块，具体用于：

将所述人脸对应的区域输入到所述主干网络中，输出所述人脸的特征；

将所述人脸的特征输入到所述预测网络中，输出所述人脸对应的预测属性。

应理解的是，本申请的人脸属性预测网络生成装置400和/或人脸属性预测装置500可以通过专用集成电路(application-specific integrated circuit，ASIC)实现，或可编程逻辑器件(programmable logic device，PLD)实现，上述PLD可以是复杂程序逻辑器件(complex programmable logical device，CPLD)，现场可编程门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。也可以通过软件实现图1所示的人脸属性预测网络生成方法和/或图3所示的人脸属性预测方法，当通过软件实现图1所示的人脸属性预测网络生成方法和/或图3所示的人脸属性预测方法时，人脸属性预测网络生成装置400和/或人脸属性预测装置500及其各个模块也可以为软件模块。

图6为本申请提供的一种电子设备的结构示意图。如图6所示，其中设备600包括处理器601、存储器602、通信接口603和总线604。其中，处理器601、存储器602、通信接口603通过总线604进行通信，也可以通过无线传输等其他手段实现通信。该存储器602用于存储指令，该处理器601用于执行该存储器602存储的指令。该存储器602存储程序代码6021，且处理器601可以调用存储器602中存储的程序代码6021执行图1所示的人脸属性预测网络生成方法和/或图3所示的人脸属性预测方法。

应理解，在本申请中，处理器601可以是CPU，处理器601还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。

该存储器602可以包括只读存储器和随机存取存储器，并向处理器601提供指令和数据。存储器602还可以包括非易失性随机存取存储器。该存储器602可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electricallyEPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double datadate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

该总线604除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图6中将各种总线都标为总线604。

应理解，根据本申请的设备600可对应于本申请中的装置400和/或装置500，并可以对应于本申请图图1和/或图3a所示方法中的设备，当设备600对应于图1和/或图3a所示方法中的设备时，设备600中的各个模块的上述和其它操作和/或功能分别为了实现图1和/或图3a中的由设备执行的方法的操作步骤，为了简洁，在此不再赘述。

本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行时实现可实现上述各个方法实施例中的步骤。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请的实施过程构成任何限定。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种人脸属性预测网络生成方法，其特征在于，包括：

将所述训练后的第一分支网络确定为人脸属性预测网络。

2.如权利要求1所述的方法，其特征在于，所述根据多个所述第一增广图像和多个所述第二增广图像，对第一分支网络和第二分支网络进行交替训练，得到所述训练后的第一分支网络，包括：

3.如权利要求2所述的方法，其特征在于，

所述第一分支网络包括第一主干网络和初始预测网络，所述第一主干网络用于提取人脸图像中人脸的特征，所述初始预测网络用于提取人脸图像中所述人脸对应的属性的特征；

4.如权利要求3所述的方法，其特征在于，所述根据所述第一特征、所述第二特征、所述第三特征和所述第四特征，调整所述第一分支网络的网络参数，得到所述训练后的第一分支网络，包括：

根据所述总损失函数，调整所述第一主干网络的网络参数；

5.如权利要求4所述的方法，其特征在于，所述根据所述第一特征、所述第二特征、所述第三特征和所述第四特征，确定所述对称损失函数或优化后的所述对称损失函数，包括：

6.一种人脸属性预测方法，其特征在于，包括：

获取待测人脸图像中人脸对应的区域；

将所述人脸对应的区域输入到人脸属性预测网络中，输出所述人脸对应的预测属性，所述人脸属性预测网络用于预测人脸图像中人脸对应的属性的特征，所述人脸对应的属性至少包括年龄属性和性别属性，所述人脸属性预测网络为根据如权利要求1-5任一项所述的人脸属性预测网络生成方法得到的。

7.如权利要求6所述的方法，其特征在于，所述人脸属性预测网络包括主干网络和预测网络，所述主干网络用于提取人脸图像中人脸的特征，所述预测网络用于预测所述人脸对应的属性的特征；

所述将所述人脸对应的区域输入到人脸属性预测网络中，输出所述人脸对应的预测属性，包括：

8.一种人脸属性预测网络生成装置，其特征在于，包括：

9.一种人脸属性预测装置，其特征在于，包括：

获取模块，用于获取待测人脸图像中人脸对应的区域；

预测模块，用于将所述人脸对应的区域输入到人脸属性预测网络中，输出所述人脸对应的预测属性，所述人脸属性预测网络用于预测人脸图像中所述人脸对应的属性的特征，所述人脸对应的属性至少包括年龄属性和性别属性，所述人脸属性预测网络为根据如权利要求1-5任一项所述的人脸属性预测网络生成方法得到的。

10.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-5任一项所述的方法，和/或如权利要求6或7所述的方法。

11.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5任一项所述的方法，和/或如权利要求6或7所述的方法。