CN114170654A

CN114170654A - 年龄识别模型的训练方法、人脸年龄识别方法及相关装置

Info

Publication number: CN114170654A
Application number: CN202111421021.7A
Authority: CN
Inventors: 陈仿雄
Original assignee: Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Current assignee: Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-03-11

Abstract

本申请实施例涉及人脸图像识别技术领域，公开了一种年龄识别模型的训练方法、人脸年龄识别方法及相关装置，训练得到的年龄识别模型包括年龄分类模型、不确定性模型和年龄回归模型。第一阶段，采用不确定性模型将噪声干扰对由训练得到的年龄分类模型输出的第一预测年龄值的影响转化为不确定性概率。第二阶段，采用该训练集对回归神经网络进行训练，并将各人脸图像对应的不确定性概率引入损失函数，得到年龄回归模型。不确定性概率的引入相当于告诉年龄回归模型：对于各人脸图像提取的特征具有一定概率的不确定性。从而在训练过程中，不确定性概率较高的图像特性，需要重点学习，能够减轻上述噪声带来的影响，提高模型的泛化能力和准确度。

Description

年龄识别模型的训练方法、人脸年龄识别方法及相关装置

技术领域

本申请实施例涉及人脸图像识别技术领域，尤其涉及一种年龄识别模型的训练方法、人脸年龄识别方法及相关装置。

背景技术

人脸图像包含了多种人脸特征信息，如人脸脸型、人脸皮肤状态、人脸表情、人脸五官、人脸年龄等，其中，人脸年龄作为一项较重要的特征信息，在人脸图像识别领域得到了广泛的应用。例如，在移动设备上运行的一些客户端上，具有人脸年龄识别的功能，其中，客户端通过获取人脸图像，并基于获取到的人脸图像输出识别得到的人脸年龄，以反馈给用户。

对于这些具备人脸年龄识别功能的客户端来说，年龄识别的准确度，即识别出来的年龄与用户的真实年龄之间的差距，是一项较为重要的内容。目前，在人脸年龄识别的有关技术中，通常是将人脸的真实年龄作为一个单独的标签信息，将真实年龄作为人脸图像的标签，在人脸图像与真实年龄之间建立一一对应的关系，然后进行人脸年龄识别模型的训练。由于用户身份存在唯一性，相同年龄的不同人脸的人脸特征有所不同，在人脸年龄识别模型的训练过程中，每输入一张训练人脸图像，对于人脸年龄识别模型来说都是属于新的一类图像，人脸年龄识别模型只能学到训练数据的人脸特征，容易受到训练数据中噪声影响。当将人脸年龄识别模型用于识别人脸年龄时，新输入至人脸年龄识别模型的人脸图像对人脸年龄识别模型来说又是新的一类图像，由于没有学习到这类图像的人脸特征，较难适应于新输入的人脸图像的唯一性特征，导致实际应用时准确度偏低。

发明内容

本申请实施例主要解决的技术问题是提供一种年龄识别模型的训练方法、人脸年龄识别方法及相关装置，能够解决现有人脸年龄识别技术中准确度偏低的技术问题。

为解决上述技术问题，第一方面，本申请实施例中提供给了一种年龄识别模型的训练方法，所述年龄识别模型包括年龄分类模型、不确定性模型和年龄回归模型，所述方法包括：

获取训练集，所述训练集包括多个人脸图像；

采用所述训练集，对分类神经网络进行训练，直至所述分类神经网络收敛，得到所述年龄分类模型，所述年龄分类模型输出所述训练集中各人脸图像的年龄概率向量；

根据目标人脸图像的年龄概率向量，确定所述目标人脸图像的第一预测年龄值，其中，所述目标人脸为所述训练集中任意一个人脸图像；

建立所述不确定性模型，以获取所述目标人脸图像的第一预测年龄值对应的不确定性概率；

采用所述训练集和损失函数，对回归神经网络进行训练，直至所述回归神经网络收敛，得到所述年龄回归模型，其中，所述损失函数包括各所述人脸图像对应的不确定性概率的损失。

在一些实施例中，所述分类神经网络包括依次连接的多个特征提取卷积层、全连接层和softmax层，所述多个特征提取卷积层中最后一个特征提取卷积层输出的特征图为年龄特征图，所述年龄特征图包括各年龄的年龄特征向量，所述全连接层用于将所述年龄特征图进行卷积处理后输出一维向量,所述softmax层用于对所述一维向量进行分类，得到所述年龄概率向量；所述年龄识别模型还包括度量学习模型；

所述根据目标人脸图像的年龄概率向量，确定所述目标人脸图像的第一预测年龄值，包括：

采用所述度量学习模型，计算所述目标人脸图像对应的一维向量分别和与所述目标人脸图像对应的年龄特征图中各年龄特征向量之间的第一相似度；

根据各所述第一相似度，确定所述目标人脸图像的第一预测年龄值。

在一些实施例中，所述采用所述度量学习模型，计算所述目标人脸图像对应的年龄概率向量中各年龄概率分别与对应的年龄特征向量之间的第一相似度，包括：

采用以下公式，计算所述第一相似度；

(＝1,2,…,100)

其中，

表示所述目标人脸图像对应的一维向量，i表示年龄的标号，

表示第i个年龄对应的年龄特征向量，cosθ_i表示所述目标人脸图像对应的一维向量与第i个年龄对应的年龄特征向量之间的第一相似度。

在一些实施例中，所述根据各所述第一相似度，确定所述目标人脸图像的第一预测年龄值，包括：

确定所述目标人脸图像的第一预测年龄值为各所述第一相似度中的最大值对应的年龄。

在一些实施例中，所述建立所述不确定性模型，以获取所述目标人脸图像的第一预测年龄值对应的不确定性概率，包括：

对所述目标人脸图像进行人脸特征丢弃处理，获取多个目标变化人脸图像；

将所述多个目标变化人脸图像分别输入所述年龄分类模型，得到所述多个目标变化人脸图像分别对应的年龄概率向量；

根据所述多个目标变化人脸图像分别对应的年龄概率向量，分别确定各所述目标变化人脸图像的第二预测年龄值；

根据所述第一预测年龄值和各所述第二预测年龄值，确定所述目标人脸图像的第一预测年龄值对应的不确定性概率。

在一些实施例中，所述对所述目标人脸图像进行人脸特征丢弃处理，获取多个目标变化人脸图像，包括：

对所述目标人脸图像分别按不同的长宽比进行裁剪，得到所述多个目标变化人脸图像。

在一些实施例中，所述根据所述第一预测年龄值和各所述第二预测年龄值，确定所述目标人脸图像的第一预测年龄值对应的不确定性概率，包括：

获取所述第一预测年龄值和各所述第二预测年龄值的平均值，以及，获取所述第一预测年龄值和各所述第二预测年龄值的方差；

根据所述平均值和所述方差，采用高斯分布计算所述目标人脸图像的第一预测年龄值对应的不确定性概率。

在一些实施例中，所述损失函数包括以下公式：

其中，Loss为损失，N为所述训练集中人脸图像的数量，i为人脸图像的标号，xi为训练集中的第i张人脸图像，Yi为所述第i张人脸图像的真实年龄，p(xi)为所述第i张人脸图像的不确定概率，f(x_i)为所述回归神经网络输出的预测年龄值。

为解决上述技术问题，第二方面，本申请实施例中提供给了一种人脸年龄识别方法，包括：

获取待识别人脸图像；

将所述待识别人脸图像输入年龄识别模型中，得到所述待识别人脸图像的预测年龄值和所述待识别人脸图像的不确定性概率，其中，所述年龄识别模型为采用如上第一方面所述的方法训练得到；

根据所述待识别人脸图像的不确定性概率和所述所述待识别人脸图像的预测年龄值，确定所述待识别人脸图像的最终年龄。

在一些实施例中，所述根据所述待识别人脸图像对应的不确定性概率和所述所述待识别人脸图像对应的预测年龄值，确定所述待识别人脸图像的最终年龄，包括：

采用以下公式计算所述待识别人脸图像的最终年龄；

Age＝(1-p(z))*f(z)；

其中，Age为所述最终年龄，z为所述待识别人脸图像，p(z)为所述待识别人脸图像对应的不确定性概率，f(z)为所述待识别人脸图像的预测年龄。

为解决上述技术问题，第三方面，本申请实施例中提供给了一种电子设备，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器，其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上第一方面或第二方面所述的方法。

为解决上述技术问题，第四方面，本申请实施例中提供给了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使电子设备执行如上第一方面或第二方面所述的方法。

本申请实施例的有益效果：区别于现有技术的情况，本申请实施例提供的年龄识别模型的训练方法，训练得到的年龄识别模型包括年龄分类模型、不确定性模型和年龄回归模型。第一阶段，采用训练集对分类神经网络进行训练，得到年龄分类模型，在训练结束后，该年龄分类模型输出训练集中各人脸图像的年龄概率向量；对于训练集中的任意一个人脸图像(目标人脸图像)，根据其年龄概率向量，确定目标人脸图像的第一预测年龄值。由于受人脸特征具有唯一性、脸部表情、皮肤状态以及年龄分类模型自身误差等噪声的干扰，使得第一预测年龄值因受噪声干扰而准确率较弱，为了克服噪声干扰，采用不确定性模型将这种噪声干扰对第一预测年龄值的影响转化为不确定性概率，即不确定性概率反映第一预测年龄值与实际年龄值的偏差。

第二阶段，采用该训练集对回归神经网络进行训练，并将各人脸图像对应的不确定性概率引入损失函数，得到年龄回归模型。不确定性概率的引入相当于告诉年龄回归模型：对于各人脸图像提取的特征具有一定概率的不确定性。从而在训练过程中，针对个别人脸图像的第一预测年龄值与实际年龄偏差较大，即不确定性概率较高的图像特性，需要重点学习，从而能够减轻上述噪声带来的影响，提高年龄识别模型的泛化能力，提高年龄预测的准确度。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1为本申请一些实施例中年龄识别模型的训练方法的流程示意图；

图2为本申请一些实施例中分类神经网络的结构和处理过程示意图；

图3为图1所示方法中步骤S30的一子流程示意图；

图4为本申请一些实施例中年龄识别模型的结构示意图；

图5为图1所示方法中步骤S40的一子流程示意图；

图6为图5所示方法中步骤S44的一子流程示意图；

图7为本申请一些实施例中年龄识别方法的流程示意图；

图8为本申请一些实施例中电子设备的结构示意图。

具体实施方式

下面结合具体实施例对本申请进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本申请，但不以任何形式限制本申请。应当指出的是，对本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进。这些都属于本申请的保护范围。

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，如果不冲突，本申请实施例中的各个特征可以相互结合，均在本申请的保护范围之内。另外，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。此外，本文所采用的“第一”、“第二”、“第三”等字样并不对数据和执行次序进行限定，仅是对功能和作用基本相同的相同项或相似项进行区分。

除非另有定义，本说明书所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本说明书中在本申请的说明书中所使用的术语只是为了描述具体的实施方式的目的，不是用于限制本申请。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

此外，下面所描述的本申请各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本申请的技术方案可适用于人脸识别的各种场景，具体地，本申请的技术方案可用于在人脸识别的场景中用于识别人脸图像对应的人脸年龄。在人脸识别的场景中，在一些实现方式中，是通过具备年龄识别功能的年龄识别模型对该场景的人脸图像进行识别，从而确定该人脸图像对应的人脸年龄，其中，年龄识别模型经过预先训练得到。

在训练年龄识别模型的过程中，通过获取大量的人脸图像，并对每个人脸图像打上对应的年龄标签，然后将各人脸图像以及各人脸图像对应的年龄标签输入至还未经训练的神经网络中进行训练，使得训练得到的年龄识别模型基于各人脸图像输出的年龄识别结果能够无限逼近于各年龄图像对应的年龄标签，从而使年龄识别模型学习到这些人脸图像的人脸特征，进而具备分辨不同年龄的人脸图像的能力，具备分辨不同年龄的人脸图像的能力的年龄识别模型即可用于识别人脸图像对应的人脸年龄。

为便于理解本申请的技术方案，先通过一个示例对发明人所知的年龄识别模型的训练过程进行具体介绍。以要识别的年龄范围在1至100之间为例，通过N张人脸图像作为训练集对分类神经网络进行训练为例。可以理解的是，分类神经网络即为用于解决分类问题的神经网络，相当于将年龄分为100类，预测年龄即预测类别。一次训练过程如下：

1)给每张人脸图像打上年龄标签。具体地，可采用热编码标识年龄标签。由于要识别的年龄范围在1至100之间，则用100维向量作为一张人脸图像对应的年龄标签，一个100维向量用于指示一张人脸图像对应的年龄。可以理解的是，采用热编码打标签的方式是本领域技术人员的常用手段，在此不再对其进行详细介绍。

2)将各人脸图像输入至分类神经网络，针对每张人脸图像，分类神经网络(这里分类神经网络可以理解为训练过程中的年龄识别模型)均会输出一个年龄检测结果，每个年龄检测结果包括人脸图像对应各年龄的概率。具体地，将N张人脸图像输入至年龄识别模型后，分类神经网络输出的每个检测结果均为一个100维向量，每个100维向量中包含了100个概率值，每个概率值均在0至1的范围内，以分别指示100维向量对应的人脸图像的年龄为属于1～100的概率。

3)计算分类神经网络的输出结果与年龄标签之间的差距，以确定分类神经网络的损失，其中，分类神经网络的损失表示了年龄识别的精准度，损失越小，则说明分类神经网络的精准度越高，与真实情况越接近。具体地，可采用损失函数，计算分类神经网络的输出结果与年龄标签之间的损失。可以理解的是，采用损失函数进行反向传播以训练模型，是本领域技术人员所熟知的，在此不再对其原理进行详细介绍。

4)根据损失调整分类神经网络的网络参数。

以上，即为发明人所知的关于分类神经网络的一次调参过程，在实际训练的过程中，会获取大量的人脸图像，将人脸图像对应的真实年龄作为年龄标签，进行多次迭代调参训练，直至分类神经网络收敛，即可得到年龄识别模型。这里，分类神经网络收敛可以包括损失达到最小、损失在一个范围内波动或训练次数达到一定数量。

在使用年龄识别模型时，将一人脸图像输入该年龄识别模型，年龄识别模型输出一个100维年龄概率向量，通常将概率最大的年龄作为检测结果反馈给用户。

由于在人脸图像的各种人脸特征中，除了有表征年龄的人脸特征外，还有表征用户身份的人脸特征、表情特征和皮肤状态特征等。对于训练好的年龄识别模型来说，在人脸特征、标签特征和皮肤状态特征方面，新输入的人脸图像属于新的一类图像，年龄识别模型没有学习到与该新输入的人脸图像的身份、表情和皮肤状态相关的特征，因而会对年龄识别模型的识别造成干扰，导致年龄识别的准确率较差。

有鉴于此，本申请的技术方案提出了一种新的年龄识别模型的训练方法，训练得到的年龄识别模型是一个复合模型，包括年龄分类模型、不确定性模型和年龄回归模型。第一阶段，采用训练集对分类神经网络进行训练，得到年龄分类模型，在训练结束后，该年龄分类模型输出训练集中各人脸图像的年龄概率向量；对于训练集中的任意一个人脸图像(目标人脸图像)，根据其年龄概率向量，确定目标人脸图像的第一预测年龄值。由于受人脸特征具有唯一性、脸部表情、皮肤状态以及年龄分类模型自身误差等噪声的干扰，使得第一预测年龄值因受噪声干扰而准确率较弱，为了克服噪声干扰，采用不确定性模型将这种噪声干扰对第一预测年龄值的影响转化为不确定性概率，即不确定性概率反映第一预测年龄值与实际年龄值的偏差。

以下具体介绍本申请的技术方案。

首先参见图1，图1为本申请实施例提供的一种年龄识别模型的训练方法的流程示意图，该年龄识别模型包括年龄分类模型、不确定性模型和年龄回归模型。

该方法可应用于各种人脸识别设备上，如图1所示，该方法包括如下步骤：

S10：获取训练集，训练集包括多个人脸图像。

训练集包括大量的人脸图像，其中，每一人脸图像均包括人脸。可以理解的是，在训练集中，每一人脸图像均标注有年龄标签(即真实年龄)，各年龄标签覆盖年龄范围可以包括1-100岁。

其中，各人脸图像的年龄标签可以采用如上述1)所述的热编码打标签的方式进行打标签，例如要识别的年龄范围在1至100之间，则用100维向量作为一张人脸图像对应的年龄标签，一个100维向量用于指示一张人脸图像对应的年龄。

在一些实施例中，可将训练集中的人脸图像进行预处理，归一化为320*320*3大小。由于在实际图像收集中，存在不同年龄的人脸图像数量不均衡的问题，在一些实施例中，可以对人脸图像进行光照变换、旋转等操作以进行数据增强，有助于提高模型的鲁棒性。

S20：采用训练集，对分类神经网络进行训练，直至分类神经网络收敛，得到年龄分类模型，该年龄分类模型输出训练集中各人脸图像的年龄概率向量。

该分类神经网络的训练过程可以与上述1)-4)中所述的训练过程一致，在此不再重复赘述。当分类神经网络收敛后，将收敛时对应的网络参数作为最终的模型参数，即可得到年龄分类模型。

在一些实施例中，分类神经网络可以为现有的Mob i l eNet或YOLOV3等神经网络。在一些实施例中，分类神经网络包括多个依次连接的特征提取卷积层、全连接层和softmax层，每一特征提取卷积层后均配置有激活函数层和归一化层。

该分类神经网络的数学表达式可采用如下公式表示：

其中，

表示第l层的第m个特征图，

表示第l+l层的第n个特征图，W表示卷积核，B表示偏置项，σ(·)表示Relu激活函数，IN表示实例归一化。

在一些实施例中，特征提取卷积层中卷积核的大小设置为3×3，有助于减小特征图融合后的混叠效应。由于下采样和上采样会带来信息损失，所以可以采用均步长卷积，即每特征提取卷积层的卷积核的步长一致。其中，特征提取卷积层的数量可以为5层，每层所包括的卷积核的数量可以依次设置为16，32，64，128,100。

如图2所示，输入分类神经网络的人脸图像的大小为320*320*3，在经过5个特征提取卷积层和激活函数层处理后，得到10*10*100的特征图，然后经归一化层(IN)处理后，得到100*100的年龄特征图，即多个特征提取卷积层中最后一个特征提取卷积层输出的特征图为年龄特征图。随后，年龄特征图进入全连接层(FC)，经全连接层(FC)进行卷积处理后输出一维向量1*100，最后，该一维向量输入softmax层进行分类，输出大小为100*1的年龄概率向量P_i。其中，年龄概率向量包括人脸图像对应的年龄可能为1-100岁中各年龄的概率。

可以理解的是，年龄特征图包括各年龄的年龄特征向量，例如，100*1的年龄概率向量中，第1个年龄的年龄特征向量为100*100的年龄特征图的第1列，第2个年龄的年龄特征向量为年龄特征图的第2列，......，第100个年龄的年龄特征向量为年龄特征图的第100列。

在分类神经网络训练的过程中，可采用多类别交叉熵损失函数进行模型训练，多类别交叉熵损失函数如下公式所示：

其中，Y_i表示真实的年龄标签，P_i表示预测的年龄概率向量,n表示预测的年龄值。

以及，采用adam算法优化模型参数，迭代次数设置为500次，初始化学习率设置为0.001,权重衰减设置为0.0005，每50次迭代，学习率衰减为原来的1/10，进行分类神经网络训练直到收敛，保存年龄分类模型。

可以理解的是，该年龄分类模型输出训练集中各人脸图像的年龄概率向量P_i。

S30：根据目标人脸图像的年龄概率向量，确定目标人脸图像的第一预测年龄值，其中，目标人脸为训练集中任意一个人脸图像。

这里，以训练集中任意一个人脸图像(目标人脸图像)为例进行示意性说明，在一些实施例中，可以将年龄概率向量中最大概率对应的年龄值作为目标人脸图像的第一预测年龄值。

在一些实施例中，年龄识别模型还包括度量学习模型。在此实施例中，请参阅图3，上述步骤S30具体包括：

S31：采用度量学习模型，计算目标人脸图像对应的一维向量分别和与目标人脸图像对应的年龄特征图中各年龄特征向量之间的第一相似度。

基于目标人脸图像的年龄特征图中每一列对应一个年龄值的年龄特征向量，从而，如图4所示，可以采用预先设置的度量学习模型，计算目标人脸图像对应的一维向量分别与目标人脸图像对应的年龄特征图中各年龄特征向量之间的第一相似度。可以理解的是，第一相似度越大，说明年龄概率对应的年龄值越接近真实年龄值。

在一些实施例中，上述步骤S31具体包括：

采用以下公式，计算所述第一相似度；

(＝1,2,…,100)

其中，

表示目标人脸图像对应的一维向量，i表示年龄的标号，

表示第i个年龄对应的年龄特征向量，cosθ_i表示目标人脸图像对应的一维向量与第i个年龄对应的年龄特征向量之间的第一相似度。

S32：根据各所述第一相似度，确定所述目标人脸图像的第一预测年龄值。

例如，在一些实施例中，可以将大小排名前3的第一相似度对应的年龄的平均值，作为目标人脸图像的第一预测年龄。例如大小排名前3的第一相似度对应的年龄分别为21岁、24岁和25岁，则第一预测年龄为(21+24+25)/3＝23.3，取整为24岁。

基于第一相似度越大，说明年龄特征向量对应的年龄越接近真实年龄值，在一些实施例中，上述步骤S32具体包括：确定目标人脸图像的第一预测年龄值为各所述第一相似度中的最大值对应的年龄。

例如，1-100岁中，25岁的年龄特征向量与全连接层输出的一维向量之间的第一相似度最大，则将25岁作为目标人脸图像的第一预测年龄值。

在此实施例中，采用度量学习模型计算全连接层输出的一维向量和各年龄特征向量之间的第一相似度，以确定第一预测年龄值。基于第一预测年龄值后续以不确性概率的方式引入回归神经网的训练，在反向传播中，能够更好地使得相同年龄的年龄特征向量尽量相近，不同年龄的年龄特征向量之间的距离尽量更大，进而增强模型的泛化能力。

S40：建立不确定性模型，以获取目标人脸图像的第一预测年龄值对应的不确定性概率。

由于受人脸特征具有唯一性、脸部表情、皮肤状态以及年龄分类模型自身误差等噪声的干扰，使得第一预测年龄值因受噪声干扰而准确率较弱，为了克服噪声干扰，请再次参阅图4，采用不确定性模型将这种噪声干扰对第一预测年龄值的影响转化为不确定性概率，即不确定性概率反映第一预测年龄值与实际年龄值的偏差。

在一些实施例中，请参阅图5，步骤S40具体包括：

S41：对目标人脸图像进行人脸特征丢弃处理，获取多个目标变化人脸图像。

例如将目标人脸图像A进行(T-1)次人脸特征丢弃处理后，获得(T-1)个目标变化人脸图像。其中，人脸特征丢弃处理包括抹去部分人脸特征，例如可以用像素覆盖的方式去掉部分人脸特征(比如1/3的额头特征等)。

在一些实施例中，步骤S41具体包括：对目标人脸图像分别按不同的长宽比进行裁剪，得到多个目标变化人脸图像。

在此实施例中，是通过图像裁剪的方式，进行人脸特征丢弃处理。例如，设置裁剪比例1:0.95,1:0.9,0.95:1等不同的比例，然后，将目标人脸图像A按不同的比例进行(T-1)次裁剪后，得到(T-1)个目标变化人脸图像。

S42：将多个目标变化人脸图像分别输入年龄分类模型，得到多个目标变化人脸图像分别对应的年龄概率向量。

在此过程中，对(T-1)个目标变化人脸图像，采用训练好的年龄分类模型进行检测年龄，输出(T-1)个目标变化人脸图像对应的年龄概率向量。

S43：根据多个目标变化人脸图像分别对应的年龄概率向量，分别确定各目标变化人脸图像的第二预测年龄值。

对于任意一个目标变化人脸图像，可以根据其年龄概率向量，确定其第二预测年龄值。例如可以采用上述度量学习模型(即参照步骤S31和S32)，计算目标变化人脸图像对应一维向量分别和与目标变化人脸图像对应的年龄特征图中各年龄特征向量之间的第二相似度，确定目标变化人脸图像的第二预测年龄值为各第二相似度中的最大值对应的年龄。

S44：根据第一预测年龄值和各第二预测年龄值，确定目标人脸图像的第一预测年龄值对应的不确定性概率。

例如第一预测年龄值为y0，各第二预测年龄值为y1，y2，.....y(T-1)，从而，引入概率分布(例如贝叶斯分布)，将y0,y1，y2，.....y(T-1)采用概率分布的公式进行计算，得到第一预测年龄值对应的不确定性概率。

在一些实施例中，请参阅图6，步骤S44具体包括：

S441：获取第一预测年龄值和各第二预测年龄值的平均值，以及，获取第一预测年龄值和各第二预测年龄值的方差。

S442：根据平均值和方差，采用高斯分布计算目标人脸图像的第一预测年龄值对应的不确定性概率。

例如，采用以下公式获取平均值μ、方差σ²以及目标人脸图像的第一预测年龄值对应的不确定性概率p(x)。

其中，y₀为第一预测年龄值，y₁，y₂，.....y_(T-1)为各第二预测年龄值，p(x)表示目标人脸图像x进行高斯分布后获得的不确定性概率。

在此实施例中，采用高斯分布计算目标人脸图像的第一预测年龄值对应的不确定性概率，简单准确。

S50：采用训练集和损失函数，对回归神经网络进行训练，直至回归神经网络收敛，得到年龄回归模型，其中，损失函数包括各人脸图像对应的不确定性概率的损失。

这里，请再次参阅图4，回归神经网络的特征提取卷积层与分类神经网络的特征提取卷积层结构可以相同，最后接一个1*1大小的全连接层，输出最终预测的年龄值。在此实施例中，回归神经网络可以为现有的做回归预测的神经网络，不对回归神经网络的结构进行任何限制。

采用该训练集对回归神经网络进行训练，在训练过程中，由于损失函数包括各人脸图像对应的不确定性概率的损失，使得将各人脸图像对应的不确定性概率引入损失函数，得到年龄回归模型。

在一些实施例中，可以采用adam算法优化模型参数，迭代次数设置为500次，初始化学习率设置为0.001,权重衰减设置为0.0005，每50次迭代，学习率衰减为原来的1/10。进行回归神经网络训练直到收敛，得到年龄回归模型。

从而，上述年龄分类模型、不确定性模型和年回归模型可以构成年龄识别模型。

在此实施例中，不确定性概率的引入相当于告诉年龄回归模型：对于各人脸图像提取的特征具有一定概率的不确定性。从而在训练过程中，针对个别人脸图像的第一预测年龄值与实际年龄偏差较大，即不确定性概率较高的图像特性，需要重点学习，从而能够减轻上述噪声(人脸特征具有唯一性、脸部表情、皮肤状态以及年龄分类模型自身误差等噪声)带来的影响，提高年龄识别模型的泛化能力，提高年龄预测的准确度。

在一些实施例中，损失函数包括以下公式：

其中，Loss为损失，N为训练集中人脸图像的数量，i为人脸图像的标号，x_i为训练集中的第i张人脸图像，Y_i为第i张人脸图像的真实年龄，p(x_i)为第i张人脸图像的不确定概率，f(x_i)表示回归神经网络输出的预测年龄值。

在本申请实施例中，训练得到的年龄识别模型包括年龄分类模型、不确定性模型和年龄回归模型。第一阶段，采用训练集对分类神经网络进行训练，得到年龄分类模型，在训练结束后，该年龄分类模型输出训练集中各人脸图像的年龄概率向量；对于训练集中的任意一个人脸图像(目标人脸图像)，根据其年龄概率向量，确定目标人脸图像的第一预测年龄值。由于受人脸特征具有唯一性、脸部表情、皮肤状态以及年龄分类模型自身误差等噪声的干扰，使得第一预测年龄值因受噪声干扰而准确率较弱，为了克服噪声干扰，首先采用不确定性模型将这种噪声干扰对第一预测年龄值的影响转化为不确定性概率，即不确定性概率反映第一预测年龄值与实际年龄值的偏差。

在通过本申请提供的年龄识别模型训练方法后，可利用该年龄识别模型进行人脸年龄识别。参见图7，图7为本申请实施例提供的人脸年龄识别方法的流程示意图，如图7所示，该方法包括如下步骤：

S60：获取待识别人脸图像。

这里，待识别人脸图像是指待识别人脸年龄的人脸图像。

具体实现中，可以通过本地获取、直接拍摄等方式获取待识别人脸图像。

S70：将待识别人脸图像输入年龄识别模型中，得到待识别人脸图像的预测年龄值和待识别人脸图像的不确定性概率。

这里，年龄识别模型是指通过前述图1-图6的方法实施例训练得到的年龄识别模型。如前所述，年龄识别模型包括年龄分类模型、不确定性模型和年龄回归模型，因此，待识别人脸图像首先输入年龄分类模型，得到初步预测的年龄概率向量，进而年龄分类模型根据该初步预测的年龄概率向量，得到初步预测到的年龄。然后，初步预测到的年龄和待识别人脸图像输入不确定性模型，得到该初步预测到的年龄的不确定性概率。最后，该待识别人脸图像和不确定性概率输入年龄回归模型中，得到该待识别人脸图像的预测年龄值。

S80：根据待识别人脸图像的不确定性概率和待识别人脸图像的预测年龄值，确定待识别人脸图像的最终年龄。

这里，最终年龄是考虑到不确定新概率和预测年龄值后的结果，使得最终年龄更加接近真实年龄。

在一些实施例中，步骤S80具体包括：

采用以下公式计算待识别人脸图像的最终年龄；

Age＝(1-p(z))*f(z)；

其中，Age为最终年龄，z为待识别人脸图像，p(z)为待识别人脸图像对应的不确定性概率，f(z)为待识别人脸图像的预测年龄。

比如一个真实年龄36岁，年龄回归模型预测的年龄值是38岁，但是其不确定性是0.05，则最终年龄值为38*(1-0.05)＝36.1约等于36岁。

在此实施例中，将年龄回归模型预测的预测年龄值与不确定性概率进行融合，使得最终年龄更加接近真实年龄值。

基于年龄识别模型是由上述复合神经网络(包括分类神经网络、不确定性模型和回归神经网络)训练得到，具有与上述复合神经网络相同的结构和功能，关于年龄识别模型对待识别人脸图像的具体处理方式，与上述实施例中复合神经网络对待识别人脸图像的处理方式相同，在此不再一一赘述。

以上介绍了本申请的方法，为了更好地实施本申请的各方法，接下来介绍本申请的设备。

请参阅图8，为本申请实施例提供的一种电子设备60的硬件结构图，具体的，如图8所示，电子设备60包括通信连接的至少一个处理器61和存储器62(图8中以总线连接、一个处理器为例)。

其中，处理器61用于提供计算和控制能力，以控制电子设备60执行相应任务，控制电子设备60执行上述实施例提供的任意一种年龄识别模型的训练方法或人脸年龄识别方法。

可以理解的是，处理器61可以是通用处理器，包括中央处理器(CentralProcessing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

存储器62作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态性计算机可执行程序以及模块，如本发明实施例中年龄识别模型的训练方法对应的程序指令/模块，或，人脸年龄识别方法对应的程序指令/模块。处理器61通过运行存储在存储器62中的非暂态软件程序、指令以及模块，可以实现上述实施例提供的任意一种年龄识别模型的训练方法或人脸年龄识别方法。具体地，存储器62可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器62还可以包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被计算机执行时使计算机执行如前述年龄识别模型的训练方法、人脸年龄识别方法。

需要说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请的不同方面的许多其它变化，为了简明，它们没有在细节中提供；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种年龄识别模型的训练方法，其特征在于，所述年龄识别模型包括年龄分类模型、不确定性模型和年龄回归模型，所述方法包括：

获取训练集，所述训练集包括多个人脸图像；

2.根据权利要求1所述的方法，其特征在于，所述分类神经网络包括依次连接的多个特征提取卷积层、全连接层和softmax层，所述多个特征提取卷积层中最后一个特征提取卷积层输出的特征图为年龄特征图，所述年龄特征图包括各年龄的年龄特征向量，所述全连接层用于将所述年龄特征图进行卷积处理后输出一维向量,所述softmax层用于对所述一维向量进行分类，得到所述年龄概率向量；所述年龄识别模型还包括度量学习模型；

3.根据权利要求2所述的方法，其特征在于，所述采用所述度量学习模型，计算所述目标人脸图像对应的年龄概率向量中各年龄概率分别与对应的年龄特征向量之间的第一相似度，包括：

采用以下公式，计算所述第一相似度；

其中，

表示所述目标人脸图像对应的一维向量，i表示年龄的标号，

4.根据权利要求3所述的方法，其特征在于，所述根据各所述第一相似度，确定所述目标人脸图像的第一预测年龄值，包括：

5.根据权利要求1-4任意一项所述的方法，其特征在于，所述建立所述不确定性模型，以获取所述目标人脸图像的第一预测年龄值对应的不确定性概率，包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述目标人脸图像进行人脸特征丢弃处理，获取多个目标变化人脸图像，包括：

7.根据权利要求5所述的方法，其特征在于，所述根据所述第一预测年龄值和各所述第二预测年龄值，确定所述目标人脸图像的第一预测年龄值对应的不确定性概率，包括：

8.根据权利要求1所述的方法，其特征在于，所述损失函数包括以下公式：

9.一种人脸年龄识别方法，其特征在于，包括：

获取待识别人脸图像；

将所述待识别人脸图像输入年龄识别模型中，得到所述待识别人脸图像的预测年龄值和所述待识别人脸图像的不确定性概率，其中，所述年龄识别模型为采用如权利要求1-8任意一项所述的方法训练得到；

10.根据权利要求9所述的方法，其特征在于，所述根据所述待识别人脸图像对应的不确定性概率和所述所述待识别人脸图像对应的预测年龄值，确定所述待识别人脸图像的最终年龄，包括：

采用以下公式计算所述待识别人脸图像的最终年龄；

Age＝(1-p(z))*f(z)；

11.一种电子设备，其特征在于，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器，其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10任一项所述的方法。

12.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使电子设备执行如权利要求1-10任一项所述的方法。