CN114332994A

CN114332994A - 训练年龄预测模型的方法、年龄检测方法及相关装置

Info

Publication number: CN114332994A
Application number: CN202111564635.0A
Authority: CN
Inventors: 陈仿雄
Original assignee: Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Current assignee: Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-04-12

Abstract

本申请实施例涉及人脸图像属性预测技术领域，公开了一种训练年龄预测模型的方法、年龄检测方法及相关装置，采用包括多个人脸图像的训练集，对至少两个教师神经网络进行迭代训练，得到至少两个教师模型，各教师模型分别输出训练集中各人脸图像的软标签。然后，采用训练集和损失函数，对学生神经网络进行迭代训练，得到年龄预测模型。损失函数包括各人脸图像的真实标签和各教师模型分别输出的各人脸图像的软标签之间的第一损失以及各人脸图像的真实标签和学生神经网络输出的预测标签之间的第二损失，使得各教师模型能够指导学生神经网络学习年龄特征信息，训练得到的年龄预测模型具有各教师模型的年龄特征学习能力，从而，能够提高年龄检测准确性。

Description

训练年龄预测模型的方法、年龄检测方法及相关装置

技术领域

本申请实施例涉及人脸图像属性预测技术领域，尤其涉及一种训练年龄预测模型的方法、年龄检测方法及相关装置。

背景技术

人脸图像包含了多种人脸特征信息，如人脸脸型、人脸皮肤状态、人脸表情、人脸五官、人脸年龄等，其中，人脸年龄作为一项较重要的特征信息，在人脸图像检测领域得到了广泛的应用。例如，在移动设备上运行的一些客户端上，具有年龄检测的功能，其中，客户端通过获取人脸图像，并基于获取到的人脸图像输出检测得到的年龄，以反馈给用户。

年龄检测是一项充满挑战的任务，不同人在相同年龄阶段存在一些相似的特征，不同人在相同年龄阶段也存在一些不同的特征。目前，在人脸年龄检测的有关技术中，通常将年龄作为一个单独的标签信息，因此针对年龄的预测，其本质转为年龄值的分类问题。然而，在实际应用中需要考虑到模型的大小和检测速度，以能够更好的在终端设备上得到应用，因此，在不增加模型大小和检测速度的情况下，提升年龄检测的准确度是一个亟待解决的技术问题。

发明内容

本申请实施例主要解决的技术问题是提供一种训练年龄预测模型的方法、年龄检测方法及相关装置，能够实现在尽可能减小模型大小、提高检测速度的情况下，提高年龄检测的准确度。

为解决上述技术问题，第一方面，本申请实施例中提供给了一种训练年龄预测模型的方法，包括：

获取包括多个人脸图像的训练集，各所述人脸图像标注有真实标签；

采用所述训练集，对至少两个教师神经网络进行迭代训练，得到至少两个教师模型，其中，所述至少两个教师模型分别输出所述训练集中各人脸图像的软标签；

采用所述训练集和损失函数，对学生神经网络进行迭代训练，得到所述年龄预测模型，其中，所述损失函数包括所述训练集中各人脸图像的真实标签和所述至少两个教师模型分别输出的所述训练集中各人脸图像的软标签之间的第一损失以及所述训练集中各人脸图像的真实标签和所述学生神经网络输出的预测标签之间的第二损失。

在一些实施例中，所述学生神经网络包括N个特征提取模块；

在所述采用所述训练集和损失函数，对学生神经网络进行迭代训练，得到所述年龄预测模型之前，所述方法还包括：

根据终端设备的性能，调整所述特征提取模块的数量N和各所述特征提取模块对应的输出通道数。

在一些实施例中，所述至少两个教师神经网络的网络深度不同，各所述教师神经网络包括基础网络和至少一个多重融合残差模块，所述至少一个多重融合残差模块分别穿插于所述基础网络中，其中，所述基础网络通过调整所述学生神经网络中特征提取模块的数量N和各所述特征提取模块对应的输出通道数得到。

在一些实施例中，所述多重融合残差模块包括多个卷积层，各所述卷积层输出中间特征图，所述多重融合残差模块输出的特征图为至少两个所述中间特征图融合得到的特征图。

在一些实施例中，所述损失函数还包括各所述教师模型在特征提取过程中的最后一个特征图和所述学生神经网络在特征提取过程中与所述最后一个特征图大小对应的特征图之间的第三损失。

在一些实施例中，所述损失函数为

其中，Loss为一人脸图像对应的损失，L_r为所述第一损失，L_s为所述第二损失，Ll为所述第三损失，n为年龄范围最大值，M为所述至少两个教师模型的数量，M≥2，

为第j个教师模型预测为年龄i的概率值，P_i ^S为学生神经网络预测为年龄i的概率值，y_i为真实年龄，

为第j个教师模型在特征提取过程中的最后一个特征图，

为所述学生神经网络在特征提取过程中与

大小对应的特征图。

在一些实施例中，所述获取包括多个人脸图像的训练集，包括：

获取图像样本集，所述图像样本集包括多个图像；

采用人脸关键算法，获取所述图像样本集中各图像中人脸的关键点；

根据各所述图像中人脸的关键点，将各所述图像中的人脸调整为正脸，并截取人脸有效区域，得到各所述人脸图像。

为解决上述技术问题，第二方面，本申请实施例中提供给了一种年龄检测方法，包括：

获取待检测人脸图像；

将所述待检测人脸图像输入年龄预测模型，得到所述待检测人脸图像对应的年龄，其中，所述年龄预测模型为采用如上第一方面中任意一项所述的方法训练得到。

为解决上述技术问题，第三方面，本申请实施例中提供给了一种电子设备，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器，其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上第一方面中的方法或第二方面中的方法。

为解决上述技术问题，第四方面，本申请实施例中提供给了一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使电子设备执行如上第一方面中的方法或第二方面中的方法。

本申请实施例的有益效果：区别于现有技术的情况，本申请实施例提供的训练年龄预测模型的方法，首先，采用包括多个人脸图像的训练集，对至少两个教师神经网络进行迭代训练，得到至少两个教师模型，各教师模型分别输出训练集中各人脸图像的软标签。然后，采用训练集和损失函数，对学生神经网络进行迭代训练，得到年龄预测模型。损失函数包括训练集中各人脸图像的真实标签和各教师模型分别输出的训练集中各人脸图像的软标签之间的第一损失以及训练集中各人脸图像的真实标签和学生神经网络输出的预测标签之间的第二损失，使得各教师模型能够指导学生神经网络学习年龄特征信息，训练得到的年龄预测模型具有各教师模型的年龄特征学习能力，从而，能够提高年龄检测准确性。也即基于至少两个教师模型所提取学习到的年龄特征信息不同，利用不同教师模型提取学习到的年龄特征信息指导学生神经网络进行训练，使得训练得到的年龄预测模型学习的年龄特征信息更具有容错性，更好的兼容真实年龄与实际皮肤年龄相差较大的情况，即具有更好的鲁棒性和准确性。此外，各教师模型指导年龄预测模型的训练，但当应用年龄预测模型进行年龄检测时，可以直接调用年龄预测模型(相当于学生模型)即可，各教师模型在检测时不再参与，从而，使得年龄预测模型不仅准确度高，还具有模型小、轻量化和检测速度高的特点。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1为本申请一些实施例中训练年龄预测模型的方法的流程示意图；

图2为图1所示方法中步骤S21的一子流程示意图；

图3为本申请一些实施例中特征提取模块的结构示意图；

图4为本申请一些实施例中学生神经网络的结构示意图；

图5为本申请一些实施例中各教师神经网络的结构示意图；

图6为本申请一些实施例中多重融合残差模块的结构示意图；

图7为本申请一些实施例中学生神经网络的训练示意图；

图8为本申请一些实施例中年龄检测方法的流程示意图；

图9为本申请一些实施例中电子设备的结构示意图。

具体实施方式

下面结合具体实施例对本申请进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本申请，但不以任何形式限制本申请。应当指出的是，对本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进。这些都属于本申请的保护范围。

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，如果不冲突，本申请实施例中的各个特征可以相互结合，均在本申请的保护范围之内。另外，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。此外，本文所采用的“第一”、“第二”、“第三”等字样并不对数据和执行次序进行限定，仅是对功能和作用基本相同的相同项或相似项进行区分。

除非另有定义，本说明书所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本说明书中在本申请的说明书中所使用的术语只是为了描述具体的实施方式的目的，不是用于限制本申请。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

此外，下面所描述的本申请各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本申请的技术方案可适用于人脸检测的各种场景，具体地，本申请的技术方案可用于在人脸检测的场景中用于检测人脸图像对应的人脸年龄。在人脸检测的场景中，在一些实现方式中，是通过具备年龄检测功能的年龄预测模型对该场景的人脸图像进行检测，从而确定该人脸图像对应的人脸年龄，其中，年龄预测模型经过预先训练得到。

在训练年龄预测模型的过程中，通过获取大量的人脸图像，并对每个人脸图像打上对应的年龄标签，然后将各人脸图像以及各人脸图像对应的年龄标签输入至还未经训练的神经网络中进行训练，使得训练得到的年龄预测模型基于各人脸图像输出的年龄检测结果能够无限逼近于各年龄图像对应的年龄标签，从而使年龄预测模型学习到这些人脸图像的年龄特征，进而具备分辨不同年龄的人脸图像的能力，具备分辨不同年龄的人脸图像的能力的年龄预测模型即可用于检测人脸图像对应的人脸年龄。

为便于理解本申请的技术方案，先通过一个示例对发明人所知的年龄预测模型的训练过程进行具体介绍。以要检测的年龄范围在1至100之间为例，通过N张人脸图像作为训练集对分类神经网络进行训练为例。可以理解的是，分类神经网络即为用于解决分类问题的神经网络，相当于将年龄分为100类，预测年龄即预测类别。一次训练过程如下：

1)给每张人脸图像打上年龄标签。具体地，可采用热编码标识年龄标签。由于要识别的年龄范围在1至100之间，则用100维向量作为一张人脸图像对应的年龄标签，一个100维向量用于指示一张人脸图像对应的年龄。可以理解的是，采用热编码打标签的方式是本领域技术人员的常用手段，在此不再对其进行详细介绍。

2)将各人脸图像输入至分类神经网络，针对每张人脸图像，分类神经网络(这里分类神经网络可以理解为训练过程中的年龄预测模型)均会输出一个年龄检测结果，每个年龄检测结果包括人脸图像对应各年龄的概率。具体地，将N张人脸图像输入至分类神经网络后，分类神经网络输出的每个检测结果均为一个100维向量，每个100维向量中包含了100个概率值，每个概率值均在0至1的范围内，以分别指示100维向量对应的人脸图像的年龄为属于1～100的概率。

3)计算分类神经网络的输出结果与年龄标签之间的差距，以确定分类神经网络的损失，其中，分类神经网络的损失表示了年龄检测的精准度，损失越小，则说明分类神经网络的精准度越高，与真实情况越接近。具体地，可采用损失函数，计算分类神经网络的输出结果与年龄标签之间的损失。可以理解的是，采用损失函数进行反向传播以训练模型，是本领域技术人员所熟知的，在此不再对其原理进行详细介绍。

4)根据损失调整分类神经网络的模型参数，这里，模型参数包括分类神经网络中卷积核配置的权重和偏差。

以上，即为发明人所知的关于分类神经网络的一次调参过程，在实际训练的过程中，会获取大量的人脸图像，将人脸图像对应的真实年龄作为年龄标签，进行多次迭代调参训练，直至分类神经网络收敛，即可得到年龄预测模型。这里，分类神经网络收敛可以包括损失达到最小、损失在一个范围内波动或训练次数达到一定数量。

在使用年龄预测模型时，将一人脸图像输入该年龄预测模型，年龄预测模型输出一个100维年龄概率向量，通常将概率最大的年龄作为检测结果反馈给用户。

为了提高年龄预测模型的准确性，在本申请发明人所知晓的一些实施例中，采用集成模型检测年龄，即年龄预测模型为集成模型，集成模型包括由多个深度不同的神经网络训练得到的多个子模型，将多个子模型的检测结果平均或投票组合后输出最终检测结果。但是，集成模型存在这些缺点：信息或知识冗余、计算量大、运行慢且需要较大的运行内存。

考虑到，在实际应用中，训练好的年龄预测模型通常装载于终端设备中，例如装载于智能手机或美容仪中，以供用户随时使用。可以理解的是，年龄预测模型还需要与终端设备的性能相匹配，若年龄预测模型过大，会导致运行慢或无法在终端设备上运行应用，使得包括年龄预测模型的应用软件无法推广。

有鉴于此，本申请的技术方案提出了一种训练年龄预测模型的方法，首先，采用包括多个人脸图像的训练集，对至少两个教师神经网络进行迭代训练，得到至少两个教师模型，各教师模型分别输出训练集中各人脸图像的软标签。然后，采用训练集和损失函数，对学生神经网络进行迭代训练，得到年龄预测模型。损失函数包括训练集中各人脸图像的真实标签和各教师模型分别输出的训练集中各人脸图像的软标签之间的第一损失以及训练集中各人脸图像的真实标签和学生神经网络输出的预测标签之间的第二损失，使得各教师模型能够指导学生神经网络学习年龄特征信息，训练得到的年龄预测模型具有各教师模型的年龄特征学习能力，从而，能够提高年龄检测准确性。也即基于至少两个教师模型所提取学习到的年龄特征信息不同，利用不同教师模型提取学习到的年龄特征信息指导学生神经网络进行训练，使得训练得到的年龄预测模型学习的年龄特征信息更具有容错性，更好的兼容真实年龄与实际皮肤年龄相差较大的情况，即具有更好的鲁棒性和准确性。此外，各教师模型指导年龄预测模型的训练，但当应用年龄预测模型进行年龄检测时，可以直接调用年龄预测模型(相当于学生模型)即可，各教师模型在检测时不再参与，从而，使得年龄预测模型不仅准确度高，还具有模型小、轻量化和检测速度高的特点。

以下具体介绍本申请的技术方案。

首先参见图1，图1为本申请实施例提供的一种训练年龄预测模型的方法的流程示意图，如图1所示，该方法S20包括但不限制于以下步骤：

S21：获取包括多个人脸图像的训练集，各人脸图像标注有真实标签。

训练集包括大量的人脸图像，其中，每一人脸图像均包括人脸。可以理解的是，在训练集中，每一人脸图像均标注有真实标签(即真实年龄)，各真实标签覆盖年龄范围可以包括1-100岁。

其中，各人脸图像的真实标签可以采用如上述1)所述的热编码打标签的方式进行打标签，例如要检测的年龄范围在1至100之间，则用100维向量作为一张人脸图像对应的真实标签，一个100维向量用于指示一张人脸图像对应的真实年龄。

在一些实施例中，训练集中的人脸图像是经过预处理得到的。可以理解的是，在实际图像收集中，图像不仅包括人脸还包括大量繁杂的背景，以及各图像中的人脸大小不同，从而，会影响模型训练，为模型训练带来计算以及检测障碍。由此，对收集来的图像进行预处理，得到前述训练集中的人脸图像。

具体地，请参阅图2，前述步骤S21具体包括：

S211：获取图像样本集，该图像样本集包括多个图像。

S212：采用人脸关键算法，获取该图像样本集中各图像中人脸的关键点。

S213：根据各图像中人脸的关键点，将各图像中的人脸调整为正脸，并截取人脸有效区域，得到各人脸图像。

可以理解的是，该图像样本集中的多个图像可以是收集得到，图像中包括至少一个人的人脸。可以理解的是，图像不仅包括人脸还包括大量繁杂的背景，以及各图像中的人脸大小不同。

为了去除背景干扰以及人脸大小不一致的干扰，对于图像样本集中的每一个图像，首先，需要识别出人脸，可以采用人脸关键点算法识别图像中的人脸，并获取人脸的关键点。人脸的关键点关键点包括眉毛、眼睛、鼻子、嘴巴、脸部轮廓等区域的点。其中，人脸关键点算法可以为active appearance models(AAMs)、constrained local models(CLMs)、explicit shape regression(ESR)或supervised descent method(SDM)等。可以理解的是，若一图像中有多个人脸，可以选取其中像素面积较大的人脸进行后续处理。

然后，根据图像中人脸的关键点，将人脸调整为正脸，具体地，获取两个眼球的中心和鼻子中心，计算出人脸的旋转角度θ，采用下述旋转变化矩阵以鼻子中心为旋转中心对图像进行旋转调整。

其中，(x,y)为原图像中像素的坐标，(x’,y’)为旋转后图像中像素的坐标，θ为前述旋转角度。

旋转后图像中人脸为正脸，针对旋转后图像(即正脸调整后的图像)，以鼻子中心为截取框中心，人脸关键点之间的最大距离为截取框的边长，截取人脸有效区域，从而，得到只包括人脸的人脸图像。

然后，对各人脸图像进行尺度归一化处理，将各人脸图像压缩统一为256*256的分辨率，得到上述训练集。

在此实施例中，通过人脸关键点算法，获取图像中人脸的关键点，然后，基于人脸的关键点，进行正脸调整以及截取人脸有效区域，并进行分辨率压缩统一处理，得到尺寸大小一致且仅包括人脸区域的人脸图像，使得训练集中的人脸图像尺寸大小一致且仅包括人脸区域，一方面，能够去除背景干扰以及分辨率不一致的干扰，另一方面，有利于神经网络学习人脸特征，加快模型收敛，并且，能够减少训练过程中的计算量。

S22：采用训练集，对至少两个教师神经网络进行迭代训练，得到至少两个教师模型，其中，至少两个教师模型分别输出训练集中各人脸图像的软标签。

教师神经网络的数量大于或等于2，对于每一个教师神经网络均可以以下述方式进行训练，得到一个教师模型。

教师神经网络的训练过程可以与上述1)-4)中所述的训练过程一致，在此不再重复赘述。当教师神经网络收敛后，将收敛时对应的网络参数作为最终的模型参数，即可得到教师模型。

在一些实施例中，教师神经网络可以为现有的MobileNet神经网络、基于YOLOV3网络变形得到的VGG神经网络或基于YOLOV3网络变形得到的Efficientnet等神经网络。在对教师神经网络进行训练时，教师神经网络配置有多类别的softmax层，对于一人脸图像，该softmax层输出一个长度为n的一维向量Yc＝{y_c1，y_c2，...，y_cn}，其中，y_c1表示预测结果为1岁的概率。

可以采用如下损失函数计算一人脸图像的预测结果与真实标签之间的误差，以进行反向传播训练：

其中，L_c为一人脸图像对应的误差，n为年龄范围最大值，YT_i表示真实标签即真实年龄。

可以理解的是，采用训练集中的人脸图像对教师神经网络进行训练，则教师神经网络对应的损失为各人脸图像对应的误差L_c的和，通过损失不断优化模型参数，直到教师神经网络收敛，得到教师模型。

在一些实施例中，可以采用adam算法优化模型参数，迭代次数设置为500次，初始化学习率设置为0.001,权重衰减设置为0.0005，每50次迭代，学习率衰减为原来的1/10，进行教师神经网络训练直到收敛，保存教师模型。

可以理解的是，教师神经网络收敛时，教师模型输出的训练集中各人脸图像的检测结果，即为训练集中各人脸图像的软标签。即软标签即为教师模型输出的检测结果，软标签也是一个长度为n的一维向量，向量中每一数值代表检测年龄为对应年龄的概率。可以理解的是，一人脸图像的软标签的数量与教师模型的数量一致。若有3个教师模型，则人脸图像对应有3个软标签。

S23：采用训练集和损失函数，对学生神经网络进行迭代训练，得到年龄预测模型。

学生神经网络的训练过程可以与上述1)-4)中所述的训练过程一致，在此不再重复赘述。当学生神经网络收敛后，将收敛时对应的网络参数作为最终的模型参数，即可得到年龄预测模型。

在一些实施例中，学生神经网络可以为现有的MobileNet或YOLOV3等神经网络。

在对学生神经网络进行训练时，采用的损失函数包括训练集中各人脸图像的真实标签和至少两个教师模型分别输出的训练集中各人脸图像的软标签之间的第一损失以及训练集中各人脸图像的真实标签和学生神经网络输出的预测标签之间的第二损失。

例如若一人脸图像1#的真实标签为向量T，对应3个软标签分别为向量P1，P2和P3，学生神经网络输出的预测标签为向量S，则该人脸图像1#对应的第一损失包括预测标签S分别与软标签P1，P2和P3之间的误差和，该人脸图像1#对应的第二损失包括预测标签S与真实标签T之间的误差。

可以理解的是，在对学生神经网络进行训练时采用的损失函数包括训练集中各人脸图像对应的第一损失以及各人脸图像对应的第二损失。通过损失函数不断优化模型参数，直到学生神经网络收敛，得到年龄预测模型。

在一些实施例中，也可以采用adam算法优化模型参数，迭代次数设置为500次，初始化学习率设置为0.001,权重衰减设置为0.0005，每50次迭代，学习率衰减为原来的1/10，进行学生神经网络训练直到收敛，保存年龄预测模型。

通过设置损失函数包括训练集中各人脸图像的真实标签和各教师模型分别输出的训练集中各人脸图像的软标签之间的第一损失以及训练集中各人脸图像的真实标签和学生神经网络输出的预测标签之间的第二损失，使得各教师模型能够指导学生神经网络学习年龄特征信息，训练得到的年龄预测模型具有各教师模型的年龄特征学习能力，从而，能够提高年龄检测准确性。也即基于至少两个教师模型所提取学习到的年龄特征信息不同，利用不同教师模型提取学习到的年龄特征信息指导学生神经网络进行训练，使得训练得到的年龄预测模型学习的年龄特征信息更具有容错性，更好的兼容真实年龄与实际皮肤年龄相差较大的情况，即具有更好的鲁棒性和准确性。此外，各教师模型指导年龄预测模型的训练，但当应用年龄预测模型进行年龄检测时，可以直接调用年龄预测模型(相当于学生模型)即可，各教师模型在检测时不再参与，从而，使得年龄预测模型不仅准确度高，还具有模型小、轻量化和检测速度高的特点。

在一些实施例中，该学生神经网络包括N个特征提取模块，用于对输入的图像进行下采样以提取特征。一特征提取模块可以包括至少一层卷积层、归一化层、激活层或融合层等，本领域技术人员可根据需要自行设置特征提取模块的结构。其中，卷积层、归一化层、激活层或融合层为神经网络结构的基本单元，在此不再对它们进行详细介绍。

例如，在一些实施例中，特征提取模块可以为残差模块。具体地，请参阅图3，特征提取模块包括串接的3个卷积层，每个卷积层后均设置有激活函数Re l u，其中，第1个卷积层配置的卷积核的大小为1*1，卷积核的个数为64，第2个卷积层配置的卷积核的大小为3*3，卷积核的个数为64，第3个卷积层配置的卷积核的大小为1*1，卷积核的个数为256。可以理解的是，卷积层中卷积核的个数决定该卷层输出的中间特征图的通道数。

如图3所示，一通道数为256的特征图x输入该特征提取模块后，先经过一个1*1的卷积层，输出的中间特征图x1的通道数减少至64，再经过3*3卷积层，输出的中间特征图x2的通道数保持不变仍为64，最后经过一个1*1的卷积层，输出的中间特征图x3的通道数扩张至256，然后，中间特图x3和特征图x进行融合，得到该特征提取模块输出的特征图y，特征图y的通道数为256。

在一些实施例中，请参阅图4，学生神经网络的开头设置一初始卷积层进行特征提取，该初始卷积层中卷积核的配置可以为3*3*16。该初始卷积层后为N个特征提取模块(图4中以N＝5进行示例性说明)，每个特征提取模块后配置有最大池化层(图未示)，采用最大池化层进行降维操作。学生神经网络的尾部设置有全连接层和softmax层。其中，全连接层和softmax层是神经网络中常用的基本单元，在此不再对它们进行详细介绍。

若人脸图像的大小为256*256*3，经过初始卷积层、N个特征提取模块和最大池化层后，可以获取最后一个特征图，该最后一个特征图的大小可以为4*4*96，该最后一个特征图经全连接层处理后，获得一个1*1024的一维向量，随后，将该一维向量输入softmax层进行分类，可以得到一个1*100的预测年龄向量。可以将该预测年龄向量中最大概率对应的年龄值作为预测年龄值。

在前述步骤S23之前，该方法S20还包括：

S24：根据终端设备的性能，调整所述特征提取模块的数量N和各所述特征提取模块对应的输出通道数。

其中，终端设备为运行年龄预测模型的设备，例如，终端设备可以是各种具有无线通信功能的手持设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(User Equipment,UE),移动台(Mobile Station,MS),移动终端(terminal device)等等，例如，智能手机、平板电脑、智能手表、PDA(Personal DigitalAssistant，个人数字助理)等。

终端设备的性能是指运行性能，一般由终端设备的硬件配置决定，例如，处理器(CPU)、运行内存和存储内存等硬件配置决定了终端设备的性能。可以理解的是，受硬件配置约束，终端设备的性能有限，同时，终端设备还可能同时运行多个应用软件，若年龄预测模型太大则无法在终端设备上运行。

为了使得年龄预测模型在终端设备上运行流畅，该方法S20还包括：根据终端设备的性能，调整前述特征提取模块的数量N和各特征提取模块对应的输出通道数。

可以理解的是，特征提取模块的数量N越大，网络越深，运行计算量越大，模型也越大，从而，可以根据终端设备的性能，调整特征提取模块的数量N，使得网络深度和计算量与终端设备相匹配。

此外，特征提取模块中卷积层配置的卷积核个数越多，运行计算量也越大，导致模型也越大，从而，可以调整各特征提取模块对应的输出通道数，以调整模型大小。

可以理解的是，特征提取模块对应的输出通道数为特征提取模块中最后一个卷积层配置的卷积核个数。例如，如图3中所示，图3中特征提取模块对应的输出通道数即为最后一个3*3卷积层中卷积核个数256。

在此实施例中，针对不同的终端设备的性能要求，对学生神经网络，进行动态调整网络结构，确保训练得到的年龄预测模型能够在终端设备上应用。

在一些实施例中，前述至少两个教师神经网络的网络深度不同，各教师神经网络包括基础网络和至少一个多重融合残差模块，该至少一个多重融合残差模块分别穿插于前述基础网络中。

其中，前述基础网络通过调整学生神经网络中特征提取模块的数量N和各特征提取模块对应的输出通道数得到。

例如，可以设置3个教师神经网络，这3个教师神经网络的网络深度不同，即网络中卷积层总层数不同。网络深度越大，能够学习到的语义特征也越层。因此，可以将这3个教师神经网络的网络深度设置为浅层、中层和深层，从而，训练得到的3个教师模型可以指导学生神经网络学习浅层语义特征、中层语义特征和深度语义特征，提高由学生神经网络训练得到的年龄预测模型的准确性。

在此例子中，3个教师神经网络均包括基础网络和至少一个多重融合残差模块，至少一个多重融合残差模块分别穿插于基础网络中。基础网络是通过调整学生神经网络中特征提取模块的数量N和各特征提取模块对应的输出通道数得到的。例如，请参阅图5，学生神经网络包括5个特征提取模块(即N＝5)，教师神经网络1#则可以包括3个特征提取模块和1个多重融合残差模块，该教师神经网络1#可以学习浅层语义特征；教师神经网络2#可以包括4个特征提取模块和2个多重融合残差模块，该该教师神经网络2#可以学习中层语义特征；教师神经网络3#可以包括4个特征提取模块和3个多重融合残差模块，该该教师神经网络3#可以学习深度语义特征。

在此实施例中，构建至少两个不同网络深度的教师模型，并且教师模型的基础网络是通过不同调整学生神经网络的深度得到，在基础网络中添加穿插不同数据的多重融合残差模块，能够使得各教师模型学习到不同深度的年龄特征信息，从而，可以指导学生神经网络学习不同深度的年龄特征信息，提高由学生神经网络训练得到的年龄预测模型的准确性。

在一些实施例中，多重融合残差模块包括多个卷积层，各卷积层输出中间特征图，多重融合残差模块输出的特征图为至少两个中间特征图融合得到的特征图。

如图6所示，图6为一个多重融合残差模块的示意图。在图6中，多重融合残差模块包括7个卷积层和1个融合层。各卷积层输出的图像称为中间特征图，融合层输出的图像称为多重融合残差模块输出的特征图。在图6中，第2个卷积层、第4个卷积层和第7个卷积层输出的中间特征图，大小一致，分别输入融合层进行特征融合，得到多重融合残差模块输出的特征图。由于多重融合残差模块输出的特征图融合了不同层次的中间特征图的信息，使得特征不会丢失。

本领域技术人员可以理解的是，该融合层可以通过线性函数融合或非线性函数融合的方式将第2个卷积层、第4个卷积层和第7个卷积层输出的中间特征图进行融合处理。

在此实施例中，通过在教师网络的基础网络中穿插多重融合残差模块，以设置教师网络的网络深度，可以在保证输入多重融合残差模块的特征图与输出多重融合残差模块的特征图大小不变的前提下，使得特征图融合不同层次的中间特征图的信息，确保在不断加深网络结构的同时，不会导致丢失大量特征信息。

在一些实施例中，损失函数还包括各教师模型在特征提取过程中的最后一个特征图和学生神经网络在特征提取过程中与最后一个特征图大小对应的特征图之间的第三损失。

本领域技术人员可以理解的是，用于分类的神经网络在对输入的人脸图像进行的处理主要包括特征提取，全连接和分类，特征提取主要由特征提取模块实现，各特征提取模块中卷积层的配置不同，导致各特征提取模块输出的特征图的尺寸大小不同。

基于教师模型由教师神经网络训练得到，从而，教师模型也会在特征提取过程中输出多个尺寸大小不同的特征图。可以理解的是，这里的“特征提取过程”相当于从输入人脸图像至进入全连接层前的整个卷积运算过程。如图7所示，对于人脸图像A，教师模型1#在对人脸图像A进行特征提取时，最后一个特征提取模块输出该教师模型1#对应的最后一个特征图Te1，该最后一个特征图的尺寸为16*16*64。学生神经网络在对人脸图像A进行特征提取时，第3个特征提取模块输出的特征图的尺寸大小为16*16*64，即教师模型1#对应的最后一个特征图Te1与学生神经网络中第3个特征提取模块输出的特征图S3的尺寸大小相同。同理，对于人脸图像A，教师模型2#对应的最后一个特征图Te2的尺寸为8*8*64，与学生神经网络中第4个特征提取模块输出的特征图S4的尺寸大小相同。对于人脸图像A，教师模型3＃对应的最后一个特征图Te3的尺寸为4*4*96，与学生神经网络中第5个特征提取模块输出的特征图S5的尺寸大小相同。

训练集中人脸图像A的第三损失包括教师模型1＃对应的最后一个特征图Te1与学生神经网络中第3个特征提取模块输出的特征图S3之间的误差，教师模型2＃对应的最后一个特征图Te2与学生神经网络中第4个特征提取模块输出的特征图S4，以及教师模型3＃对应的最后一个特征图Te3与学生神经网络中第5个特征提取模块输出的特征图S5之间的误差。

通过将人脸图像A的第三损失引入损失函数，使得特征图S3无线逼近于最后一个特征图Te1，特征图S4无线逼近于最后一个特征图Te2，特征图S5无线逼近于最后一个特征图Te3。

可以理解的是，上述仅是以人脸图像A进行示意性说明。在学生神经网络的训练过程中，训练集中的每一人脸图像的第三损失，均在反向传播中指导学生神经网络进行特征提取与学习，使得学生神经网络输出的不同网络深度处的特征图分别无线逼近于对应深度处的教师模型的特征图。

从而，学生神经网络在网络深度不变的情况下(即大小不变的情况下)，能够学习到不同层次的特征信息，实现教师模型指导学生神经网络学习特征，能够提高训练得到的年龄预测模型的准确性，并且年龄预测模型还能保持轻量化和较高的检测速度。

在一些实施例中，损失函数为

其中，Loss为一人脸图像对应的损失，L_r为第一损失，L_s为第二损失，L_l为第三损失，n为年龄范围最大值，M为教师模型的数量，M≥2，

为第j个教师模型预测为年龄i的概率值，P_i ^S为学生神经网络预测为年龄i的概率值，_yi为真实年龄，

为第j个教师模型在特征提取过程中的最后一个特征图，

为所述学生神经网络在特征提取过程中与

大小对应的特征图。

在此实施例中，训练集中一人脸图像的损失包括第一损失、第二损失和第三损失的加权和，使得用于训练学生神经网络的损失函数在反向传播中，指导学生神经网络能够学习不同层次的年龄特征信息，使得训练得到的年龄预测模型学习的年龄特征信息更具有容错性，更好的兼容真实年龄与实际皮肤年龄相差较大的情况，即具有更好的鲁棒性和准确性。此外，年龄预测模型在能够保证轻量化和快速检测的同时，还具体多个不同深度的教师模型的学习性能。

综上所述，本申请实施例提供的训练年龄预测模型的方法，首先，采用包括多个人脸图像的训练集，对至少两个教师神经网络进行迭代训练，得到至少两个教师模型，各教师模型分别输出训练集中各人脸图像的软标签。然后，采用训练集和损失函数，对学生神经网络进行迭代训练，得到年龄预测模型。损失函数包括训练集中各人脸图像的真实标签和各教师模型分别输出的训练集中各人脸图像的软标签之间的第一损失以及训练集中各人脸图像的真实标签和学生神经网络输出的预测标签之间的第二损失，使得各教师模型能够指导学生神经网络学习年龄特征信息，训练得到的年龄预测模型具有各教师模型的年龄特征学习能力，从而，能够提高年龄检测准确性。也即基于至少两个教师模型所提取学习到的年龄特征信息不同，利用不同教师模型提取学习到的年龄特征信息指导学生神经网络进行训练，使得训练得到的年龄预测模型学习的年龄特征信息更具有容错性，更好的兼容真实年龄与实际皮肤年龄相差较大的情况，即具有更好的鲁棒性和准确性。此外，各教师模型指导年龄预测模型的训练，但当应用年龄预测模型进行年龄检测时，可以直接调用年龄预测模型(相当于学生模型)即可，各教师模型在检测时不再参与，从而，使得年龄预测模型不仅准确度高，还具有模型小、轻量化和检测速度高的特点。

在通过本申请提供的训练年龄预测模型的方法后，可利用该年龄预测模型进行人脸年龄检测。参见图8，图8为本申请实施例提供的年龄检测方法的流程示意图，如图8所示，该方法S30包括如下步骤：

S31：获取待检测人脸图像。

这里，待检测人脸图像是指待检测年龄的人脸图像。

具体实现中，可以通过本地获取、直接拍摄等方式获取待检测人脸图像。

S32：将待检测人脸图像输入年龄预测模型，得到待检测人脸图像对应的年龄，其中，年龄预测模型为采用如上实施例中的方法训练得到。

这里，年龄预测模型是指通过前述图1-图7的方法实施例训练得到的年龄预测模型。

基于年龄识别模型是由上述至少两个教师模型指导学生神经网络训练得到，具有与上述学生神经网络相同的结构以及包括各教师模型的功能，关于年龄预测模型对待检测人脸图像的具体处理方式，与上述实施例中学生神经网络对待检测人脸图像的处理方式相同，在此不再一一赘述。

以上介绍了本申请的方法，为了更好地实施本申请的各方法，接下来介绍本申请的设备。

请参阅图9，为本申请实施例提供的一种电子设备60的硬件结构图，具体的，如图9所示，电子设备60包括通信连接的至少一个处理器61和存储器62(图9中以总线连接、一个处理器为例)。

其中，处理器61用于提供计算和控制能力，以控制电子设备60执行相应任务，控制电子设备60执行上述实施例提供的任意一种训练年龄预测模型的方法或年龄检测方法。

可以理解的是，处理器61可以是通用处理器，包括中央处理器(CentralProcessing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

存储器62作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态性计算机可执行程序以及模块，如本发明实施例中年龄识别模型的训练方法对应的程序指令/模块，或，人脸年龄识别方法对应的程序指令/模块。处理器61通过运行存储在存储器62中的非暂态软件程序、指令以及模块，可以实现上述实施例提供的任意一种训练年龄预测模型的方法或年龄检测方法。具体地，存储器62可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器62还可以包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被计算机执行时使计算机执行如前述训练年龄预测模型的方法、年龄检测方法。

需要说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请的不同方面的许多其它变化，为了简明，它们没有在细节中提供；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种训练年龄预测模型的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述学生神经网络包括N个特征提取模块；

3.根据权利要求2所述的方法，其特征在于，所述至少两个教师神经网络的网络深度不同，各所述教师神经网络包括基础网络和至少一个多重融合残差模块，所述至少一个多重融合残差模块分别穿插于所述基础网络中，其中，所述基础网络通过调整所述学生神经网络中特征提取模块的数量N和各所述特征提取模块对应的输出通道数得到。

4.根据权利要求3所述的方法，其特征在于，所述多重融合残差模块包括多个卷积层，各所述卷积层输出中间特征图，所述多重融合残差模块输出的特征图为至少两个所述中间特征图融合得到的特征图。

5.根据权利要求1-4任意一项所述的方法，其特征在于，所述损失函数还包括各所述教师模型在特征提取过程中的最后一个特征图和所述学生神经网络在特征提取过程中与所述最后一个特征图大小对应的特征图之间的第三损失。

6.根据权利要求5所述的方法，其特征在于，所述损失函数为

其中，Loss为一人脸图像对应的损失，L_r为所述第一损失，L_s为所述第二损失，L_l为所述第三损失，n为年龄范围最大值，M为所述至少两个教师模型的数量，M≥2，

为第j个教师模型预测为年龄i的概率值，

为学生神经网络预测为年龄i的概率值，y_i为真实年龄，

为第j个教师模型在特征提取过程中的最后一个特征图，

为所述学生神经网络在特征提取过程中与

大小对应的特征图。

7.根据权利要求1所述的方法，其特征在于，所述获取包括多个人脸图像的训练集，包括：

获取图像样本集，所述图像样本集包括多个图像；

8.一种年龄检测方法，其特征在于，包括：

获取待检测人脸图像；

将所述待检测人脸图像输入年龄预测模型，得到所述待检测人脸图像对应的年龄，其中，所述年龄预测模型为采用如权利要求1-7中任意一项所述的方法训练得到。

9.一种电子设备，其特征在于，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器，其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8任一项所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使电子设备执行如权利要求1-8任一项所述的方法。