CN110287942A

CN110287942A - 年龄估计模型的训练方法、年龄估计方法以及对应的装置

Info

Publication number: CN110287942A
Application number: CN201910595412.7A
Authority: CN
Inventors: 章超; 刘帅成
Original assignee: Chengdu Wide-Sighted Jinzhi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2019-09-27
Anticipated expiration: 2039-07-03
Also published as: CN110287942B

Abstract

本申请实施例提供了一种年龄估计模型的训练方法、年龄估计方法以及对应的装置，该训练方法包括：获取训练样本，各样本为标注有对应的年龄标签的人脸图像；确定各样本的年龄标签所对应的年龄标签分布；基于样本以及年龄标签分布，对年龄估计模型进行训练，直至年龄估计模型的总损失函数收敛；其中，总损失函数包括分布损失函数和回归损失函数，分布损失函数表征了样本的年龄标签分布和预测年龄分布的差异，回归损失函数表征了样本的年龄标签和预测年龄值的差异。基于本申请实施例所提供的方案，能够有效提供年龄预测的准确性，更好的满足了实际应用需求。

Description

年龄估计模型的训练方法、年龄估计方法以及对应的装置

技术领域

本申请涉及计算机技术领域，具体而言，本申请涉及一种年龄估计模型的训练方法、年龄估计方法以及对应的装置。

背景技术

人脸的年龄进程是比较难可控的、非常个性化的，深度学习之前的传统的方法经常会存在泛化能力不足的问题。最近几年，在年龄估计中，深度CNN(Convolutional NeuralNetwork，卷积神经网络)因其具有较强的泛化能力而成为主要的研究方法。虽然当前对于年龄估计的研究已经有了很大程度的改进，但是由于人脸年龄是一个“动态”变化的个性化过程，现有的年龄估计方案仍有待改进。

发明内容

本申请实施例提供了一种年龄估计模型的训练方法、年龄估计方法以及对应的装置，具体技术方案如下：

第一方面，本申请实施例提供了一种年龄估计模型的训练方法，年龄估计模型包括依次级联的特征提取模块、概率分布预测模块和年龄值预测模块，其中，特征提取模块，用于提取输入至模型的人脸图像的图像特征，概率分布预测模块，用于根据图像特征输出人脸图像中的人脸年龄对应于各个预划分的年龄端点值的预测年龄分布；年龄值预测模块，用于根据预测年龄分布输出人脸年龄的预测年龄值；该训练方法包括：

获取训练样本，各样本为标注有对应的年龄标签的人脸图像；

确定各样本的年龄标签所对应的年龄标签分布；

基于样本以及年龄标签分布，对年龄估计模型进行训练，直至年龄估计模型的总损失函数收敛；

其中，总损失函数包括分布损失函数和回归损失函数，分布损失函数表征了样本的年龄标签分布和预测年龄分布的差异，回归损失函数表征了样本的年龄标签和预测年龄值的差异。

可选的，确定各样本的年龄标签所对应的年龄标签分布，包括：

根据预划分的年龄端点值中与年龄标签相邻的至少两个年龄端点值，确定年龄标签分布；

其中，年龄标签分布中的非零元素值为年龄标签属于相邻的至少两个年龄端点值中各端点值的概率。

可选的，年龄标签为相邻的至少两个年龄端点值的凸组合，年龄标签属于相邻的至少两个年龄端点值中各端点值的概率为凸组合中相邻的至少两个年龄端点值中各端点值所对应的权重值。

可选的，预划分的年龄端点值包括基于至少两种切分粒度分别对年龄范围进行划分得到的端点值；

根据预划分的年龄端点值中与年龄标签相邻的至少两个年龄端点值，确定年龄标签分布，包括：

分别根据每种切分粒度所对应的端点值中与年龄标签相邻的至少两个年龄端点值，确定每种切分粒度所对应的年龄标签分布；

基于样本以及年龄标签分布，对年龄估计模型进行训练，直至年龄估计模型的总损失函数收敛，包括：

基于样本和每种切分粒度所对应的年龄标签分布，分别对年龄估计模型进行训练，直至每种切分粒度所对应的总损失函数均收敛。

可选的，若年龄标签为预划分的年龄端点值中的一个，确定各样本中的年龄标签所对应的年龄标签分布，包括以下任一种：

根据等于年龄标签的年龄端点值确定年龄标签分布，年龄标签分布中的非零元素值为年龄标签属于与年龄标签相等的年龄端点值的概率，非零元素值的取值为1；

根据等于年龄标签的年龄端点值，以及与等于年龄标签的年龄端点值相邻的至少两个年龄端点值，确定年龄标签分布，年龄标签分布中的非零元素值为年龄标签分别属于至少三个年龄端点值的概率，该至少三个年龄端点值包括等于年龄标签的年龄端点值，以及与等于年龄标签的年龄端点值相邻的至少两个年龄端点值；

根据与等于年龄标签的年龄端点值相邻的至少两个年龄端点值，确定年龄标签分布。

可选的，相邻的至少两个年龄端点值是与年龄标签直接相邻的两个年龄端点值。

可选的，分布损失函数为KL-散度，回归损失函数为MAE(Mean Absolute Error，平均绝对误差)。

可选的，特征提取模块包括级联的卷积神经网络和第一全连接层，概率分布预测模块为第二全连接层，年龄值预测模块为第三全连接层；

卷积神经层用于提取输入至模型的人脸图像的特征图，第一全连接层用于将卷积神经网络所提取的特征图映射为特征向量，第二全连接层用于根据特征映射模块输出的特征向量输出对应的预测年龄分布。

第二方面，本申请实施例提供了一种年龄估计方法，该方法包括：

获取待处理人脸图像；

将待处理人脸图像输入至年龄估计模型中，基于年龄估计模型的输出得到待处理人脸图像中人脸的预测年龄值，其中，年龄估计模型是基于本申请第一方面中任一方案中所示的方法训练得到的。

第三方面，本申请实施例提供了一种年龄估计模型的训练装置，该年龄估计模型包括依次级联的特征提取模块、概率分布预测模块和年龄值预测模块，其中，特征提取模块，用于提取输入至模型的人脸图像的图像特征，概率分布预测模块，用于根据图像特征输出人脸图像中的人脸年龄对应于各个预划分的年龄端点值的预测年龄分布；年龄值预测模块，用于根据预测年龄分布输出人脸年龄的预测年龄值；该训练装置包括：

训练数据获取模块，获取训练样本，各样本为标注有对应的年龄标签的人脸图像；

标签分布确定模块，用于确定各样本的年龄标签所对应的年龄标签分布；

模型训练模块，用于基于样本以及年龄标签分布，对年龄估计模型进行训练，直至年龄估计模型的总损失函数收敛；

可选的，标签分布确定模块具体用于：

标签分布确定模块在根据预划分的年龄端点值中与年龄标签相邻的至少两个年龄端点值，确定年龄标签分布时，具体用于：

相应的，模型训练模块具体用于：

基于样本和每种切分粒度所对应的年龄标签分布，分布对年龄估计模型进行训练，直至每种切分粒度所对应的总损失函数均收敛。

可选的，在年龄标签为预划分的年龄端点值中的一个时，标签分布确定模块在确定各样本中的年龄标签所对应的年龄标签分布时，具体用于执行以下任一项：

根据等于年龄标签的年龄端点值，以及与等于年龄标签的年龄端点值相邻的至少两个年龄端点值，确定年龄标签分布，年龄标签分布中的非零元素值为年龄标签分别属于至少三个年龄端点值的概率，至少三个年龄端点值包括等于年龄标签的年龄端点值，以及与等于年龄标签的年龄端点值相邻的至少两个年龄端点值；

可选的，分布损失函数为KL-散度，回归损失函数为MAE。

可选的，特征提取模块包括卷积神经网络和第一全连接层，概率分布预测模块为第二全连接层，年龄值预测模块为第三全连接层，其中，卷积神经网络用于提取输入至模型的人脸图像的特征图，第一全连接层用于将卷积神经网络所提取的特征图映射为特征向量，第二全连接层用于根据特征映射层输出的特征向量输出对应的预测年龄分布。

第四方面，本申请实施例提供了一种年龄估计装置，该装置包括：

图像获取模块，用于获取待处理人脸图像；

年龄预测模块，用于将待处理人脸图像输入至年龄估计模型中，基于年龄估计模型的输出得到待处理人脸图像中人脸的预测年龄值，其中，年龄估计模型是基于本申请第一方面中任一方案中所示的方法训练得到的。

第五方面，本申请实施例提供了一种电子设备，该电子设备包括存储器和处理器；其中，存储器中存储有计算机程序；处理器用于调用该计算机程序，以执行本申请第一方面或第二方面的任一方案中所提供的方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，该存储介质中存储有计算机程序，计算机程序被处理器执行时实现本申请第一方面或第二方面的任一方案中所提供的方法。

本申请所提供的技术方案的有益效果：

本申请实施例所提供的年龄估计模型的训练方法，除了使用年龄的准确值信息外，还将该年龄值表示成一个分布(即年龄标签分布)，在对模型进行训练时，采用两个目标损失函数(即分布损失函数和回归损失函数)，基于这两个目标损失函数，综合考虑了模型预测的年龄值估计损失以及年龄分布估计损失，使得模型能够从年龄值信息以及年龄分布两个层面进行学习，从这两个层面更好的保证了训练所得到的模型的性能，提升了模型的预测效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍：

图1示出了本申请实施例提供的一种年龄估计模型的结构示意图；

图2示出了本申请一示例中提供的一种年龄估计模型的结构示意图；

图3示出了本申请实施例提供的一种年龄估计模型的训练方法的流程示意图；

图4示出了本申请一示例中提供的一种年龄划分方案的示意图；

图5示出了本申请一示例中提供的另一种年龄划分方案的示意图；

图6示出了基于图4中所示的划分方案的年龄分布表示的示意图；

图7示出了基于图5中所示的划分方案的年龄分布表示的示意图；

图8中示出了本申请一示例中提供的一种通过级联的学习模型嵌入年龄分布的原理示意图；

图9示出了本申请实施例提供的一种年龄估计模型的训练装置的结构示意图；

图10示出了本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1示出了本申请实施例提供的一种年龄估计模型的结构示意图，如图中所示，该年龄估计模型100主要可以包括依次级联的特征提取模块110、概率分布预测模块120和年龄值预测模块130。其中：

特征提取模块110，用于提取输入至模型的人脸图像的图像特征；

概率分布预测模块120，用于根据特征提取模块110所提取到的图像特征输出人脸图像中的人脸年龄对应于各个预划分的年龄端点值的预测年龄分布；

年龄值预测模块130，用于根据预测年龄分布预测模块120所输出的预测年龄分布输出人脸年龄的预测年龄值。

需要说明的是，在实际应用中，年龄估计模型100中各网络的具体实现形式可以根据实际需求和应用场景配置。

作为一可选方案，图2中示出了本申请实施例中提供的一种年龄估计模型的结构示意图，如图2中所示，该模型中的特征提取模块110可以选用级联的CNN(ConvolutionalNeural Networks，卷积神经网络)和第一全连接层(图中所示的全连接层1)，概率分布预测模块110可以选用第二全连接层(图中所示的全连接层2)，年龄值预测模块120为第三全连接层(图中所示的全连接层3)，此时，CNN具体用于提取输入至模型的人脸图像的特征图，第一全连接层则用于将CNN所提取的特征图映射为特征向量，概率分布预测模块110即第二全连接层则用于将特征映射层(第一全连接层)所输出的特征向量映射为预测年龄分布，再由第三全连接层基于第二全连接层所输出的预测概率分布得到对应的预测年龄值。其中，可以理解的是，在实际应用中，各模块的层的数量可以是一个，也可以是多个，如CNN可以包括至少一个卷积层，第一全连接层所输出的特征向量的维度与第二全连接层所输出的概率分布的维度是相同的，也就是，第一全连接层和第二全连接层的神经元的个数是相同的。

为了说明本申请实施例所提供的年龄估计模型的有益效果，下面对该年龄估计模型的训练方法以及应用进行进一步详细的说明。

图3示出了本申请实施例所提供的一种年龄估计模型的训练方法的流程示意图，如图中所示，该训练方法主要可以包括以下步骤：

步骤S110：获取训练样本，各样本为标注有对应的年龄标签的人脸图像；

步骤S120：确定各样本的年龄标签所对应的年龄标签分布；

步骤S130：基于样本以及年龄标签分布，对年龄估计模型进行训练，直至年龄估计模型的总损失函数收敛。

对于本领域技术人员来说清楚的是，年龄标签即样本图像中人脸的真实年龄值，年龄标签分布即该真实年龄值所对应的年龄概率分布。例如，假设年龄的范围为[0，100]，预先将该年龄范围划分为[0,10)、[10,20)、[20,30)、…、[90,100]这10个年龄段，则预划分的年龄端点值则包括0、10、20、…、100这11个端点值，也就是预设的年龄类别为11个，对于一个具体的年龄值，其概率分布即为该年龄值属于这11个年龄端点值的概率，这11个端点值分别对应的概率之和等于1。

需要说明的是，在实际应用中，年龄范围的设置以及年龄端点值的划分方式是可以根据实际需求配置的，并不是唯一的，也就是说，年龄范围的切分粒度可以采用多尺度的切分方式。

本申请实施例所提供的该年龄估计模型的训练方法，除了使用年龄的准确值信息(即年龄标签)外，还将该年龄值表示成一个分布(即年龄标签分布)，在对模型进行训练时，采用两个目标损失函数(即分布损失函数和回归损失函数)，基于这两个目标损失函数，综合考虑了模型预测的年龄值估计损失以及年龄分布估计损失，使得模型能够从年龄值信息以及年龄分布两个层面进行学习，从这两个层面更好的保证了训练所得到的模型的性能，提升了模型的预测效果。

本申请的可选实施例中，确定各样本的年龄标签所对应的年龄标签分布，包括：

本申请的可选实施例中，年龄标签为相邻的至少两个年龄端点值的凸组合，年龄标签分布中的非零元素值为凸组合中相邻的至少两个年龄端点值所对应的权重值。

目前常用的深度学习中基于分布的学习方法，普遍存在着分布难以获得的问题，需要耗费大量的人力物力，尤其是对于人脸图像来说，常规的解决方法是采用大量的人工标注，并采用众包模式来获得分布信息，需要付出大量的人力物力，并且这种方法一般只适用于表面的年龄估计(Apparent age estimation)，对于真实的年龄估计(Real ageestimation)，无法获得所谓的年龄分布。

为了解决该问题，本申请的发明人通过研究有序性问题中的类别信息(category)、有序性信息(ordinal)和分布信息(distributional)发现，年龄相近的人脸特征通常是高度相似的，年龄差距越小，具有的相似年龄特征也就越多，也就是说，人脸图像的真实年龄一般与其相邻年龄具有较高的关联度，因此，对于一个年龄值而言，在预划分的多个年龄端点值中，该年龄值可以较好的通过与其相邻的两个或多个年龄端点值表示出来，即年龄分布中的非零概率为与年龄标签相邻的至少两个年龄端点值所对应的概率(从数学的角度上来说，也就是权重值)。

基于本申请实施例所提供的该年龄标签分布的确定方案，能够较好且快捷方便的将年龄值转化为年龄分布，且无需另外进行大量数据的标注，也没有任何代价。另外，该方案采用与年龄标签相邻的年龄端点值实现年龄标签的表示，使得得到的年龄分布是稀疏的，能够有效提高训练过程中数据的处理及计算效率。此外，基于该方案所得到的年龄分布的表示中还同时包含有序性分布问题中的分类的信息(即分布由至少两个端点值标识)、回归的信息(非零元素值)和分布的信息，从而考虑了年龄预测问题中的多个问题层面，使得训练所得到的模型具有更好的效果和鲁棒性，能够更好的满足应用需求。

本申请的可选实施例中，相邻的至少两个年龄端点值可以是与年龄标签直接相邻的两个年龄端点值。

作为实际应用中的一种可选方案，对于一年龄标签即实际年龄值，可以基于预划分的多个年龄端点值中与该实际年龄值直接相邻的两个年龄端点值来表示该实际年龄值。也就是说，该年龄标签的年龄标签分布中只有这两个直接相邻的年龄端点值所对应的概率为非零取值，每个年龄标签分布可以通过两点(两个端点值)表示。

下面结合一个示例对本申请实施例所提供的该基于两点表示的年龄表示方法进行具体说明。

由前文描述可知，本申请实施例提供的该年龄表示方法将年龄定义成了一个分布，该分布中只有两个相邻的元素是非零的。对于给定的一个数据集{(I_n,y_n)}，其中，n＝1，2，···，N，对于深度回归模型(本申请实施例的年龄估计模型即为其中一种)，其可以形式化为一个映射F:I→Y(表示映射F的作用是将输入I映射为输出Y)，对于给定的数据集，I_n和y_n分别表示模型的输入和输出，即输入和输出数据对，N为数据集中数据对的数量，对于训练样本而言，N则表示样本的数量，I_n和y_n则分别表示为样本和回归标签(也就是预测年龄值)，任何的回归标签y_n都能够表示成另外两个数(如记为和)的凸组合，也即是其中，λ₁和λ₂表示权重值，也就是y_n分别属于和的概率，λ₁和λ₂均为正实数，即λ₁∈R⁺，λ₂∈R⁺，且λ₁+λ₂＝1。

作为一个示例，图4中示出了基于一种划分粒度对年龄范围进行划分的示意图。如图中所示，该数轴上的取值范围即为本示例中年龄范围，即[0,100]，切分粒度为10，也就是刻度间距(bin，区间间隔)为10，则划分得到的端点值即为图中所示的0、10、20、…、100。如5中示出了基于另一种划分粒度对该年龄范围进行划分的示意图，如图中所示，该示例中的切分粒度即刻度间距为20，则划分得到的端点值即为图中所示的0、20、40、60、80和100。

由前文描述可知，基于两点表示的年龄表示方法中，该数轴上的任何一点都可以由与其相邻的两个刻度点表示，而不是由数据轴上任何两个或多个刻度点表示。

例如，对于一年龄值68即y_n＝68时，对于图4中所示的划分方式得到的年龄端点值，由于与68的直接相邻的两个端点值为60和70，如图6中所示，68和端点值60的距离与68与端点值70的距离的比值为8/2，因此，68属于60的概率以及68属于70的概率(归一化的概率)分别为0.2和0.8，则68可以表示为端点值60和70的凸组合：即68＝60*0.2+70*0.8，则68所对应的年龄标签分布y_n(也就是概率向量)则可以表示为：y_n＝[0，0，0，0，0，0，0.2，0.8，0，0，0]。再例如对于年龄值74，与其相邻的两个端点值为70和80，如图6中所示，74和端点值70的距离与74与端点值80的距离的比值为4:6，因此，74属于70的概率以及74属于80的概率分别为0.6和0.4，因此，则74可以表示为端点值70和80的凸组合，即74＝70*0.6+80*0.4，则74所对应的年龄标签分布y_n可以表示为：y_n＝[0，0，0，0，0，0，0，0.6，0.4，0，0]。

对于图5中所示的划分方式得到的年龄端点值，对于年龄值68而言，与68相邻的两个端点值则为60和80，如图7中所示，68和端点值60的距离与68与端点值80的距离的比值为8/12即2/3，因此，68属于60的概率以及68属于80的概率分别为0.6和0.4，则68可以表示为：68＝60*0.6+80*0.4，其年龄分布标签可以表示为：y_n＝[0，0，0，0.6，0.4，0]；同样的，与74相邻的两个端点值也是60和80，如图7中所示，74可以表示为：74＝60*0.3+80*0.7，其年龄分布标签可以表示为：y_n＝[0，0，0，0.3，0.7，0]。

由前文的描述可知，上述权重值λ₁和λ₂分别表示样本(即年龄标签)属于两个不同刻度的概率，其包含了丰富的年龄分布信息。由图4中可以看出，对于年龄标签68其更有可能属于刻度点70，而不是刻度点60，而基于本申请实施例所提供的年龄分布表示方案，是能够很好的表征出这一客观信息的。虽然在最近几年中也有一些基于年龄分布的年龄估计方式，但是现有技术中，如对于年龄标签68，通常在使用类别(category)信息时很可能会将68直接归指派给60或70的刻度，而本申请实施例所提供的概率分布表示方案可以很自然地消除这个容易带来歧义的问题。虽然现有技术中还可以通过学习来获得较好的分布表示，然而该方式是需要广泛的众包(Crowdsourcing)标签来获得分布信息的，代价是非常昂贵的。而本申请实施例所提供的年龄分布表示方案，能够很好的将年龄值转化为年龄分布，且方案方便快捷，无需另外进行数据标注，能够大大节省人力及物力资源，更好的满足了实际应用需求。

另外，更重要的是，两点表示实际上有用的信息只包含两个相邻刻度及其位置,其他的元素都被分配为0，事实上，如图4中所示，线段上的任何一点可以由其他的两点或多点线性表示，并且组合方式非常多样，并且往往这些点不是相邻的。比如，50＝0.5×0+0.5×100＝0.25×10+0.25×40+0.25×60+0.25×90，当然，除了示出了的这两种外，还存在大量的其它表示方式，但是对于人的年龄而言，一般的表示方式多是没有用的，是不能表现出人脸年龄的分类信息以及分布信息的。因此，对于深度回归模型来说，是有必要消除这些不理想的表示方式。而由前文描述以及示例可知，年龄越相近，人脸特征越相似，本申请实施例所提供的基于至少两个(如两个)相邻的年龄端点值来表示年龄标签的方式是能够很好的表现出年龄的分类信息、回归信息以及分布信息的，是理想的年龄表示方式，因此，本申请实施例提供的年龄分布表示方式，能够很好的表征人脸真实年龄的，且该方式无需进行大量的人工标注，保证了模型的效果，且节省了大量的人力以及物力资源。

本申请的可选实施例中，预划分的年龄端点值包括基于至少两种切分粒度分别对年龄范围进行划分得到的端点值；

由前文的描述可知，在实际应用中，可以根据实际应用需求，采用不同的切分粒度对年龄范围进行切分。为了提高模型的鲁棒性，在模型训练过程中，可以采用不同的切分粒度所得到的年龄端点值来表示年龄标签的概率分布(即年龄标签分布)，并基于不同切分粒度所对应的年龄标签分布来进行模型的训练，使训练得到的模型的总损失函数在不同切分粒度所对应的训练数据上均收敛，从而得到具有更好的鲁棒性的年龄预测模型。

本申请的可选实施例中，若年龄标签为预划分的年龄端点值中的一个，确定各样本中的年龄标签所对应的年龄标签分布，包括以下任一种：

也就是说，在实际应用中，若样本中人脸年龄的年龄标签即真实年龄值等于划分的年龄端点值中的一个，该年龄标签的标签分布中可以只有该对应的端点值所对应的概率取值为1，其他端点值对应的概率均为0，也可以仍采用上述与该年龄标签相邻的至少两个端点值来确定该标签分布，或者还可以采用与该年龄标签相邻的至少两个端点值以及与该年龄标签相等的年龄端点值来确定，当然，采用最后一种方式确定时，等于该年龄标签的端点值的概率可以大于其他端点值所对应的概率。例如，对于图4中所示的年龄划分方案，假设一年龄标签为50，则该年龄标签对应的年龄标签分布可以为[0，0，0，0，0，1，0，0，0，0，0]，也可以表示为[0，0，0，0，0.5，0，0.5，0，0，0，0]，还可以表示为[0，0，0，0，0.2，0.6，0.2，0，0，0，0]。另外，可以理解的是，对于最后一种表示方式，其表示方式并不是唯一的，例如，还可以表示为[0，0，0，0，0.1，0.8，0.1，0，0，0，0]。

本申请的可选实施例中，分布损失函数为KL-散度，回归损失函数为MAE。

本申请实施例所提供的训练方法，同时考虑了分布损失函数和回归损失函数，并采用级联的方式进行模型训练，采用该方案中的这两个损失函数时，分布损失函数用于最小化年龄标签分布与年龄预测分布之间的KL损失，回归损失函数用于优化离散年龄标签与预测年龄值之间的均方误差，在训练过程中，这两个目标采用级联的方式，整个训练过程可以没有任何预训练操作。通过该训练方法得到的年龄估计模型，与现有的年龄估计模型相比，在性能上获得了进一步的提升，能够更好的满足实际应用需求。

为了更好的说明本申请实施例所提供的方案，下面结合一个具体示例对该方案进行说明。该示例中通过两点表示方式来表示年龄标签分布。

图8中示出了本示例中的通过级联的学习模型嵌入年龄分布的原理示意图。由前文的描述可知，年龄值y_n可以用分布向量即年龄分布y_n来表示，然而y_n的年龄表示的组合方式是非常多样化的，本示例中通过两点表示对其进行合理的控制。那接下来的问题是，如何将该向量信息嵌入到端到端的网络模型中。本申请提供的方案中，可以通过级联模型来实现，如图8中所示的模型结构中，可以在特征层(即特征提取层，本示例中的CNN和第一全连接层(图中所示的全连接层1)，用于输出人脸图像特征向量)和回归层(即第三全连接层，图中所示的全连接层3，用于输出预测年龄值y)之间插入一个具有语义分布(年龄分布)的全连接层(即第二全连接层，图中所示的全连接层2，用于输出预测年龄分布)。

从模型设计的角度来看，特征层到年龄值y的映射关系f可以分解成两步：f1和f2，也即是f＝f2·f1，可以理解的是，映射f1用于将CNN和第一全连接层提取的图像特征X(即第一全连接层输出的特征向量)映射为预测年龄分布(如图中所示的预测年龄分布y)即第二全连接层的作用，映射f2则用于基于预测年龄分布输出预测年龄值，即实现预测年龄分布与预测年龄值之间的映射。该示例中，如图中的直方图所示意的年龄分布，直方图中的横轴标示出的年龄端点值为0、10、20、…、90、100，纵轴示出了对应于各端点值的概率，可以理解的是，概率的取值范围为[0，1]，本示例中直方图的纵轴只示出了部分。

为了将两点表示理论嵌入到网络中，本申请实施例提出了采用级联的端到端的训练方式，训练两个级联的任务，相应的定义了两个损失函数，第一个损失函数(即分布损失函数)衡量年龄标签分布和年龄预测分布之间的差异，并采用KL-散度作为测量方式。第二个损失函数(即回归损失函数)控制最终的年龄预测值，采用MAE(L1distance即L1损失)。

在对模型进行训练时，对于标注有年龄标签(即实际年龄值)的样本，通过两点表示的方式确定出年龄标签所对应的年龄标签分布。将样本(如图8中所示的人脸图像)输入至模型中，由CNN进行图像特征的提取，并经由第一全连接层将CNN所提取的图像特征映射为特征向量，第二全连接层基于第一全连接层所提取的图像特征向量输出预测年龄分布，第三全连接层则基于第二全连接层输出的年龄预测分布输出对应的预测年龄值。如图中所示，在每次训练过程中，可以基于年龄标签分布与年龄预测分布计算KL损失(图中所示的第一损失，即第一损失函数的值)，可以基于年龄标签和预测年龄值计算分布损失(图中所示的第二损失，即MAE损失)，从而得到总损失，基于总损失来确定损失函数是否收敛，是否可以停止训练，若总损失函数未收敛，则调整模型的参数(参数W1和W2)，并重复训练过程，直至总损失函数收敛，完成模型训练。

对于本申请实施例所提供的方案，采用该方案以及现有技术在Morph II数据集上进行了实验，实验结果对比如下表1中所示：

表1

方式	MAE	内存	参数量
				非级联	2.98	0.23MB	39.4K
级联	2.92	0.24MB	39.5K

其中，表中第一列表示网络即模型的学习方式，非级联即w/o-cascade则表示采用非级联的网络学习方式(基于所提取的图像特征直接预测年龄值的方式)，级联即cascade则表示采用级联的网络学习方式，代表本申请实施例的方案，MAE、内存(即Memory)以及参数量(即Parameters)均为模型性能评估指标，MAE越低，模型预测结果越准确，Memory表示所占用的内存资源，Parameters表示模型参数的数量，39.4k则表示模型参数的数量为39.4*1000个。由该对比结果中可以看出，本申请所提供的级联的训练方法，通过加入分布损失(如KL损失)后对于系统的代价(所占用的内存资源、模型参数的规模等)并不大，但是却能够在模型性能上获得进一步的提升。

基于与图3中所示的方法相同的原理，本申请实施例还提供了一种年龄估计模型的训练装置，该年龄估计模型包括依次级联的特征提取模块、概率分布预测模块和年龄值预测模块，其中，特征提取模块，用于提取输入至模型的人脸图像的图像特征，概率分布预测模块，用于根据图像特征输出人脸图像中的人脸年龄对应于各个预划分的年龄端点值的预测年龄分布；年龄值预测模块，用于根据预测年龄分布输出人脸年龄的预测年龄值。如图9中所示，该训练装置200主要可以包括训练数据获取模块210、标签分布确定模块220和模型训练模块230。其中：

训练数据获取模块210，获取训练样本，各样本为标注有对应的年龄标签的人脸图像；

标签分布确定模块220，用于确定各样本的年龄标签所对应的年龄标签分布；

模型训练模块230，用于基于样本以及年龄标签分布，对年龄估计模型进行训练，直至年龄估计模型的总损失函数收敛；

可选的，标签分布确定模块具体用于：

相应的，模型训练模块具体用于：

可选的，若年龄标签为预划分的年龄端点值中的一个，标签分布确定模块在确定各样本中的年龄标签所对应的年龄标签分布时，可以用于执行以下任一方案：

根据等于年龄标签的年龄端点值确定年龄标签分布，年龄标签分布中的非零元素值为年龄标签属于等于年龄标签的年龄端点值的概率，非零元素值的取值为1；

根据等于年龄标签的年龄端点值，以及与等于年龄标签的年龄端点值相邻的至少两个年龄端点值，确定年龄标签分布，年龄标签分布中的非零元素值为年龄标签分布属于至少三个年龄端点值的概率，该至少三个年龄端点值等于年龄标签的年龄端点值以及与等于年龄标签的年龄端点值相邻的至少两个年龄端点值；

可选的，分布损失函数为KL-散度，回归损失函数为MAE。

可选的，特征提取模块包括卷积神经网络和第二全连接层，概率分布预测模块为第二全连接层，年龄值预测模块为第三全连接层，其中，卷积神经网络用于提取输入至模型的人脸图像的特征图，第一全连接层用于将卷积神经网络所提取的特征图映射为特征向量，第二全连接层用于根据特征映射层输出的特征向量输出对应的预测年龄分布。

可以理解的是，本申请实施例的所提供的训练装置的各模块，可以具有实现本申请实施例所提供的训练方法中的相应步骤的功能，其中，该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。上述各模块可以是软件和/或硬件，各模块可以单独实现，也可以多个模块集成实现。对于训练装置的各模块的功能描述具体可以参见上述各实施例中的训练方法中的相应描述，在此不再赘述。

基于本申请实施例所提供的年龄估计模型，本申请实施例还提供了一种年龄估计方法，该方法主要可以包括：

获取待处理人脸图像；

将所述待处理人脸图像输入至年龄估计模型中，基于所述年龄估计模型的输出得到所述待处理人脸图像中人脸的预测年龄值，其中，所述年龄估计模型是基于本申请任一实施例中所提供的训练方法训练得到的。

相应的，本申请实施例还提供了一种年龄估计装置，该装置主要可以包括：

图像获取模块，用于获取待处理人脸图像；

年龄预测模块，用于将所述待处理人脸图像输入至年龄估计模型中，基于所述年龄估计模型的输出得到所述待处理人脸图像中人脸的预测年龄值，其中，所述年龄估计模型是基于本申请任一实施例中所提供的训练方法训练得到的。

可以理解的是，本申请实施例所提供的年龄估计方法或装置具体可以运行于任一电子设备中，如智能手机、电脑、服务器等电子设备，该电子设备中通过运行本申请实施例所提供的年龄估计方法，实现对人脸图像中人脸年龄的预测，且具有很好的预测准确性。

基于与本申请上述所提供的各方法以及装置相同的原理，本申请实施例还提供了一种电子设备，该电子设备可以包括存储器和处理器；其中，存储器中存储有计算机程序；处理器用于调用该计算机程序，以执行本申请任一实施例中所提供的方法或者任一装置所执行的步骤。

本申请实施例还提供了一种计算机可读存储介质，该存储介质中存储有计算机程序，计算机程序被处理器执行时实现本申请任一实施例中所提供的方法或者任一装置所执行的步骤。

作为一可选方案，图10中示出了本申请实施例所适用的一种电子设备的结构示意图，如图10所示，该电子设备4000可以包括处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI总线或EISA总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本申请方案的计算机程序，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序，以实现前述任一方法实施例所示的内容。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种年龄估计模型的训练方法，其特征在于，所述年龄估计模型包括依次级联的特征提取模块、概率分布预测模块和年龄值预测模块，其中，所述特征提取模块，用于提取输入至模型的人脸图像的图像特征，所述概率分布预测模块，用于根据所述图像特征输出所述人脸图像中的人脸年龄对应于各个预划分的年龄端点值的预测年龄分布；所述年龄值预测模块，用于根据所述预测年龄分布输出所述人脸年龄的预测年龄值；

所述训练方法包括：

获取训练样本，各所述样本为标注有对应的年龄标签的人脸图像；

确定各所述样本的年龄标签所对应的年龄标签分布；

基于所述样本以及所述年龄标签分布，对所述年龄估计模型进行训练，直至所述年龄估计模型的总损失函数收敛；

其中，所述总损失函数包括分布损失函数和回归损失函数，所述分布损失函数表征了所述样本的年龄标签分布和预测年龄分布的差异，所述回归损失函数表征了所述样本的年龄标签和预测年龄值的差异。

2.根据权利要求1所述的方法，其特征在于，所述确定各所述样本的年龄标签所对应的年龄标签分布，包括：

根据预划分的年龄端点值中与所述年龄标签相邻的至少两个年龄端点值，确定所述年龄标签分布；

其中，所述年龄标签分布中的非零元素值为所述年龄标签属于所述相邻的至少两个年龄端点值中各端点值的概率。

3.根据权利要求2所述的方法，其特征在于，所述年龄标签为所述相邻的至少两个年龄端点值的凸组合，所述年龄标签属于所述相邻的至少两个年龄端点值中各端点值的概率为所述凸组合中所述相邻的至少两个年龄端点值中各端点值所对应的权重值。

4.根据权利要求2所述的方法，其特征在于，所述预划分的年龄端点值包括基于至少两种切分粒度分别对年龄范围进行划分得到的端点值；

所述根据预划分的年龄端点值中与所述年龄标签相邻的至少两个年龄端点值，确定所述年龄标签分布，包括：

分别根据每种切分粒度所对应的端点值中与所述年龄标签相邻的至少两个年龄端点值，确定每种切分粒度所对应的年龄标签分布；

所述基于所述样本以及所述年龄标签分布，对所述年龄估计模型进行训练，直至所述年龄估计模型的总损失函数收敛，包括：

基于所述样本和每种切分粒度所对应的年龄标签分布，分别对所述年龄估计模型进行训练，直至每种切分粒度所对应的所述总损失函数均收敛。

5.根据权利要求1所述的方法，其特征在于，若所述年龄标签为预划分的年龄端点值中的一个，所述确定各所述样本中的年龄标签所对应的年龄标签分布，包括以下任一种：

根据等于所述年龄标签的年龄端点值确定所述年龄标签分布，所述年龄标签分布中的非零元素值为所述年龄标签属于与所述年龄标签相等的年龄端点值的概率，非零元素值的取值为1；

根据等于所述年龄标签的年龄端点值，以及与等于所述年龄标签的年龄端点值相邻的至少两个年龄端点值，确定所述年龄标签分布，所述年龄标签分布中的非零元素值为所述年龄标签分别属于至少三个年龄端点值的概率，所述至少三个年龄端点值包括等于所述年龄标签的年龄端点值，以及与等于所述年龄标签的年龄端点值相邻的至少两个年龄端点值；

根据与等于所述年龄标签的年龄端点值相邻的至少两个年龄端点值，确定所述年龄标签分布。

6.根据权利要求2至5中任一项所述的方法，其特征在于，所述相邻的至少两个年龄端点值是与所述年龄标签直接相邻的两个年龄端点值。

7.根据权利要求1至5中任一项所述的方法，其特征在于，所述分布损失函数为KL-散度，所述回归损失函数为平均绝对误差MAE。

8.根据权利要求1至5中任一项所述的方法，其特征在于，所述特征提取模块包括级联的卷积神经网络和第一全连接层，所述概率分布预测模块为第二全连接层，所述年龄值预测模块为第三全连接层；

其中，所述卷积神经网络用于提取输入至模型的人脸图像的特征图，所述第一全连接层用于将所述卷积神经网络所提取的特征图映射为特征向量，所述第二全连接层用于根据特征映射层输出的特征向量输出对应的预测年龄分布。

9.一种年龄估计方法，其特征在于，包括：

获取待处理人脸图像；

将所述待处理人脸图像输入至年龄估计模型中，基于所述年龄估计模型的输出得到所述待处理人脸图像中人脸的预测年龄值，其中，所述年龄估计模型是基于权利要求1至8中任一项所述的方法训练得到的。

10.一种年龄估计模型的训练装置，其特征在于，所述年龄估计模型包括依次级联的特征提取模块、概率分布预测模块和年龄值预测模块，其中，所述特征提取模块，用于提取输入至模型的人脸图像的图像特征，所述概率分布预测模块，用于根据所述图像特征输出所述人脸图像中的人脸年龄对应于各个预划分的年龄端点值的预测年龄分布；所述年龄值预测模块，用于根据所述预测年龄分布输出所述人脸年龄的预测年龄值；所述装置包括：

训练数据获取模块，获取训练样本，各所述样本为标注有对应的年龄标签的人脸图像；

标签分布确定模块，用于确定各所述样本的年龄标签所对应的年龄标签分布；

模型训练模块，用于基于所述样本以及所述年龄标签分布，对所述年龄估计模型进行训练，直至所述年龄估计模型的总损失函数收敛；

11.一种年龄估计装置，其特征在于，包括：

图像获取模块，用于获取待处理人脸图像；

年龄预测模块，用于将所述待处理人脸图像输入至年龄估计模型中，基于所述年龄估计模型的输出得到所述待处理人脸图像中人脸的预测年龄值，其中，所述年龄估计模型是基于权利要求1至8中任一项所述的方法训练得到的。

12.一种电子设备，其特征在于，包括存储器和处理器；

所述存储器中存储有计算机程序；

所述处理器，用于调用所述计算机程序，以执行权利要求1至9中任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法。