CN113920562A

CN113920562A - 年龄预测模型的训练方法、年龄预测方法及装置

Info

Publication number: CN113920562A
Application number: CN202111121195.1A
Authority: CN
Inventors: 陈仿雄
Original assignee: Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Current assignee: Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2022-01-11
Anticipated expiration: 2041-09-24
Also published as: CN113920562B

Abstract

本发明公开了一种年龄预测模型的训练方法，该年龄预测模型包括三维形变统计模型、可微分渲染器、第一特征提取网络、第二特征提取网络和年龄预测层，首先通过三维形变统计模型和可微分渲染器将目标人脸图像转换为二维渲染图像，该二维渲染图像具备三维特征信息。然后将目标人脸图像输入第一特征提取网络并将二维渲染图像输入第二特征提取网络以进行特征提取，将第一特征提取网络和第二特征提取网络中对应同一特征尺度的两个特征提取层输出的特征图进行特征融合，以输出目标特征图；从而将三维特征信息融合到不同尺度的特征图中，进而约束同一个人因不同表情导致的特征变化，使得整个预测模型具有更高的准确度和适应性。

Description

年龄预测模型的训练方法、年龄预测方法及装置

技术领域

本发明涉及图像分析技术领域，尤其是涉及年龄预测模型的训练方法、年龄预测方法及装置。

背景技术

人脸训练图像中包含有很多的人脸特征信息，其中年龄作为一项很重要的特征信息，在人脸识别领域中十分受到重视，然而人脸年龄预测是一项充满挑战的任务。人脸的衰老体现在皮肤的松弛程度、皱纹等细节上，但在人脸年龄的预测过程中，当脸部表情发生变化时，会导致这些细节也发生一定变化，从而影响年龄预测结果的准确性，这样训练出来的预测模型在实际应用中就会出现鲁棒性较差的问题。

发明内容

基于此，有必要针对上述问题，提供解决因脸部表情变化而导致年龄预测出现偏差的年龄预测模型的训练方法、年龄预测方法及装置。

一种年龄预测模型的训练方法，所述年龄预测模型包括三维形变统计模型、可微分渲染器、第一特征提取网络、第二特征提取网络和年龄预测层，所述第一特征提取网络与所述第二特征提取网络的结构相同，其中，所述第一特征提取网络与所述第二特征提取网络均包括依次连接的多个特征提取层，所述多个特征提取层分别用于输出不同特征尺度的特征图，所述方法包括：

获取训练数据集，所述训练数据集包括多个人脸训练图像，一个人脸训练图像有一个对应标注的真实年龄标签；

将目标人脸图像输入所述年龄预测模型，通过所述三维形变统计模型将所述目标人脸图像转换为三维人脸网格，通过所述可微分渲染器对所述三维人脸网格进行渲染，以得到二维渲染图像；所述目标人脸图像为所述多个人脸训练图像中的任意一个，所述二维渲染图像为将所述三维人脸网格投射在二维平面后得到的图像，所述目标人脸图像与所述二维渲染图像的尺寸相同；

将所述目标人脸图像输入所述第一特征提取网络并将所述二维渲染图像输入所述第二特征提取网络以进行特征提取，并将所述第一特征提取网络和所述第二特征提取网络中对应同一特征尺度的两个特征提取层输出的特征图进行特征融合，以输出目标特征图，所述目标特征图为所述第一特征提取网络和所述第二特征提取网络中的最后一个特征提取层输出的特征图的融合；

将所述目标特征图输入至所述年龄预测层，以预测所述目标人脸图像的预测年龄值，根据所述预测年龄值、所述目标人脸图像的真实年龄标签计算损失值，根据所述损失值调整所述年龄预测模型的参数，返回执行将目标人脸图像输入所述年龄预测模型的步骤，直至所述年龄预测模型收敛。

在其中一个实施例中，所述通过所述三维形变统计模型将所述目标人脸图像转换为三维人脸网格，包括：

从三维形变统计数据库中获取正交基向量，所述正交基向量基于对预设数量的三维人脸样本进行主成分分析得到，所述正交基向量包括在所述三维人脸网格中表征位置特征的位置基向量和表征颜色特征的颜色基向量；

将所述目标人脸图像输入生成器，通过所述生成器生成所述目标人脸图像符合人脸顶点分布的人脸三维重构系数，其中所述生成器在对生成对抗网络进行对抗训练后得到，一个人脸三维重构系数与一个正交基向量对应；

通过所述三维形变统计模型将所述正交基向量与所述人脸三维重构系数进行线性组合，以得到所述三维人脸网格。

在其中一个实施例中，所述生成对抗网络还包括判别器；在所述将所述目标人脸图像输入生成器之前，还包括：

获取用于进行对抗训练的人脸图像样本，将所述人脸图像样本输入所述生成器，以对所述人脸图像样本对应的人脸三维重构系数进行预测，得到回归结果；

获取真实三维重构系数，将所述回归结果和所述真实三维重构系数输入所述判别器进行数据类别的判别，所述真实三维重构系数为对真实三维人脸的系数进行采样得到的值；

根据判别结果对所述生成器和所述判别器进行对抗生成学习，以使得所述生成器生成的回归结果接近所述真实三维重构系数，且增大所述判别器判别的准确性，得到训练后的生成对抗网络。

在其中一个实施例中，所述多个特征提取层的数量为N；所述将所述目标人脸图像输入所述第一特征提取网络并将所述二维渲染图像输入所述第二特征提取网络以进行特征提取，并将所述第一特征提取网络与所述第二特征提取网络中的相同特征提取层输出的特征图进行特征融合，以输出目标特征图，包括：

将第(n-1)个融合特征图输入至所述第一特征提取网络中的第n个特征提取层，得到第n个第一特征图；

将第(n-1)个第二特征图输入至所述第二特征提取网络中的第n个特征提取层，得到第n个第二特征图；

将所述第n个第一特征图与所述第n个第二特征图进行特征融合，以得到第n个融合特征图；

将第N个融合特征图确定为目标特征图；其中，1≤n≤N，当n＝1时，所述第(n-1)个融合特征图为所述目标人脸图像，所述第(n-1)个第二特征图为所述二维渲染图像。

在其中一个实施例中，所述将所述第n个第一特征图与所述第n个第二特征图进行特征融合，以得到第n个融合特征图，包括：

将所述第n个第一特征图和所述第n个第二特征图在相同位置处的值进行相加，以得到所述第n个融合特征图。

在其中一个实施例中，所述根据所述预测年龄值、所述目标人脸图像的真实年龄标签计算损失值，包括：

根据所述真实年龄标签在所述训练数据集中占所有年龄标签的比值确定各个年龄的权重；

根据所述预测年龄值、所述真实年龄标签和带所述权重的损失函数计算公式计算所述损失值；其中，带所述权重的损失函数计算公式为：

Wi为权重，Y_Ti为真实年龄标签，P_i预测年龄值为i时的概率。

在其中一个实施例中，在所述根据所述损失值调整所述年龄预测模型的参数，包括：

根据自适应矩阵估计算法和所述损失值调整所述年龄预测模型的参数。

一种年龄预测方法，应用上述年龄预测模型，所述方法包括：

获取待预测人脸图像，将所述待预测人脸图像输入所述年龄预测模型，以得到所述待预测人脸图像的预测年龄值。

一种年龄预测模型的训练装置，所述年龄预测模型包括三维形变统计模型、可微分渲染器、第一特征提取网络、第二特征提取网络和年龄预测层，所述第一特征提取网络与所述第二特征提取网络的结构相同，其中，所述第一特征提取网络与所述第二特征提取网络均包括依次连接的多个特征提取层，所述多个特征提取层分别用于输出不同特征尺度的特征图，所述装置包括：

数据集获取模块，用于获取训练数据集，所述训练数据集包括多个人脸训练图像，一个人脸训练图像有一个对应标注的真实年龄标签；

二维渲染图像生成模块，用于将目标人脸图像输入所述年龄预测模型，通过所述三维形变统计模型将所述目标人脸图像转换为三维人脸网格，通过所述可微分渲染器对所述三维人脸网格进行渲染，以得到二维渲染图像；所述目标人脸图像为所述多个人脸训练图像中的任意一个，所述二维渲染图像为将所述三维人脸网格投射在二维平面后得到的图像，所述目标人脸图像与所述二维渲染图像的尺寸相同；

特征提取模块，用于将所述目标人脸图像输入所述第一特征提取网络并将所述二维渲染图像输入所述第二特征提取网络以进行特征提取，并将所述第一特征提取网络和所述第二特征提取网络中对应同一特征尺度的两个特征提取层输出的特征图进行特征融合，以输出目标特征图，所述目标特征图为所述第一特征提取网络和所述第二特征提取网络中的最后一个特征提取层输出的特征图的融合；

参数调整模块，用于将所述目标特征图输入至所述年龄预测层，以预测所述目标人脸图像的预测年龄值，根据所述预测年龄值、所述目标人脸图像的真实年龄标签计算损失值，根据所述损失值调整所述年龄预测模型的参数，返回执行将目标人脸图像输入所述年龄预测模型的步骤，直至所述年龄预测模型收敛。

一种年龄预测装置，上述年龄预测模型，所述装置包括：

年龄预测模块，用于获取待预测人脸图像，将所述待预测人脸图像输入所述年龄预测模型，以得到所述待预测人脸图像的预测年龄值。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如上述方法的步骤。

一种年龄预测设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如上述方法的步骤。

本发明提供了年龄预测模型的训练方法、年龄预测方法及装置，该年龄预测模型包括三维形变统计模型、可微分渲染器、第一特征提取网络、第二特征提取网络和年龄预测层，首先通过三维形变统计模型将目标人脸图像转换为三维人脸网格，并通过可微分渲染器对三维人脸网格进行渲染，以得到二维渲染图像；该二维渲染图像为将三维人脸网格投射在二维平面后得到的图像，因此具备三维特征信息。然后将目标人脸图像输入第一特征提取网络并将二维渲染图像输入第二特征提取网络以进行特征提取，并将第一特征提取网络和第二特征提取网络中对应同一特征尺度的两个特征提取层输出的特征图进行特征融合，以输出目标特征图；从而将三维特征信息融合到不同尺度的特征图中，该三维特征信息可以极大减少由于表情的变化而导致的人脸特征信息的变化程度，进而保证输入到全连接层的目标特征图中特征信息的稳定性，进而使得整个预测模型具有更高的准确度和适应性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为一个实施例中年龄预测模型的训练方法的流程示意图；

图2为第一实施例中的年龄预测模型的示意图；

图3为第二实施例中的年龄预测模型的示意图；

图4为一个实施例中年龄预测模型的训练装置的结构示意图；

图5为一个实施例中年龄预测设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，图1为一个实施例中年龄预测模型的训练方法的流程示意图，如图2所示，该年龄预测模型包括三维形变统计模型(3D Morphable Face Model，3DMM模型)、可微分渲染器、第一特征提取网络、第二特征提取网络和年龄预测层。其中，3DMM模型和可微分渲染器用于生成对应于输入图像的渲染图像，该渲染图像中添加了三维特征信息。而第一特征提取网络与第二特征提取网络的结构相同，第一特征提取网络与第二特征提取网络均包括依次连接的多个特征提取层，多个特征提取层分别用于进行特征提取并输出不同特征尺度的特征图。年龄特征层用于基于这两个特征提取网络输出的特征图去进行年龄预测。

具体的，本实施例中年龄预测模型的训练方法提供的步骤包括：

步骤102，获取训练数据集。

其中，该训练数据集包括多个二维的人脸训练图像，该人脸训练图像是不带三维特征信息的，并且一个人脸训练图像有一个对应标注的真实年龄标签，从而用于确定预测的准确与否。

初始获得的人脸训练图像是有差异的，或者是人脸角度的差异，或者是图像大小的差异等。因此还对这些初始获得的人脸训练图像进行一定的预处理操作，该预处理操作包括：根据人脸关键点算法，例如使用Dlib库的人脸68点Landmark模型算法，来获取两个眼球的中心位置和鼻子的中心位置，再将这两个中心位置连线并结合垂直线计算出人脸左右旋转的角度θ，最后利用旋转变化矩阵以鼻子坐标信息为中心对人脸图像进行调整，具体计算公式如下：

其中x,y分别是原图中像素所在的二维坐标，x′和y′为调整后的二维坐标。这样就能对歪了的人脸训练图像进行角度校正。

针对校正后的图像，还可以根据人脸关键点坐标，以鼻子中心坐标为中心，人脸关键点之间的最大距离作为长度，截取人脸有效区域，从而后续只对有效的人脸图像部分进行预测，以适当提高处理效率。再进行尺度归一化操作，得到大小一致的人脸训练图像，归一化后的大小统一为256×256。这样就能使得初始获得的人脸训练图像均达到一定的处理标准，可以提高后续年龄检测的效率。

步骤104，将目标人脸图像输入年龄预测模型，通过三维形变统计模型将目标人脸图像转换为三维人脸网格，通过可微分渲染器对三维人脸网格进行渲染，以得到二维渲染图像。

其中，目标人脸图像是这多个人脸训练图像中的任意一个，二维渲染图像为将三维人脸网格投射到二维平面后得到的图像，该二维渲染图像中带有三维特征信息，且与目标人脸图像与的尺寸相同，均为256×256。

其中，该3DMM模型是预先基于100位年轻男性和100位年轻女性的脸部激光扫描数据集而形成的一个数理统计模型。该3DMM模型可以将一个新的目标人脸图像对应的三维人脸网格通过如下公式进行表达：

其中，S表示三维人脸网格中每个顶点在笛卡尔坐标系下的位置信息，即(x,y,z)，而T表示三维人脸网格中每个顶点在RGB空间下的颜色信息，即(r,g,b)。

是这200个实验对象在不同顶点(预设的位置，例如嘴角、鼻尖等)的xyz位置信息的平均值，

是这200个实验对象在不同顶点的rgb颜色信息的平均值。

和

是确定的，而每张人脸图像的差异特性体现在公式中α_i和s_i的线性组合以及β_i和T_i的线性组合上。其中s_i是表征位置特征的位置基向量，T_i是表征颜色特征的颜色基向量，分别是对预设数量的三维人脸样本进行主成分分析(principal components analysis，PCA)后得到，主成分分析是一个可以将三维数据投射到一个低维子空间实现降维的过程，可以实现数据压缩。本实施例中的s_i和T_i则可以直接从已公开的3DMM数据库BaselFaceModel中获得。α_i和β_i均为人脸三维重构系数，其中，α_i是对应于位置基向量s_i的系数，β_i是对应于颜色基向量T_i的系数，可以利用训练好的生成器来生成系数α＝(α₁,α₂,…,α₁₉₉)，β＝(β₁,β₂,…,β₁₉₉)，该生成器包括有多个残差层构成的深度神经网络，其结构可以仿造Resnet50，并在深度神经网络的输出接一个398维的全连接层，将目标人脸图像输入生成器以提取特征并在398维的全连接层输出398个人脸三维重构系数(包括199个α_i和199个β_i)，将这199个α_i与s_i进行线性组合以得到

再相加

从而得到S；及将这199个β_i与T_i进行线性组合以得到

再相加

从而得到T。这样便得到对应于目标人脸图像的三维人脸网格，而该三维人脸网格便是具备三维特征信息的。

在一个具体实施例中，基于生成对抗网络来对生成器进行训练，而该训练过程中还需要对生成对抗网络中的判别器一同进行训练。首先需获取用于进行对抗训练的人脸图像样本，该人脸图像样本为二维图像，将人脸图像样本输入到生成器，在每一次对抗生成学习中，生成器都会对人脸图像样本对应的人脸三维重构系数进行预测，从而得到预测的3DMM系数α_i和β_i，作为回归结果。同时还获取真实三维重构系数，该真实三维重构系数为对真实三维人脸的系数α_i和β_i进行采样得到的值。在每一次对抗生成学习中，同时将一个回归结果和一个真实三维重构系数输入判别器中进行数据类别的判别，也即判定输入的α_i和β_i到底是通过生成器生成的，还是真实从三维人脸中采样得到的α_i和β_i，在每完成一次对抗生成学习后都会对生成器和判别器的参数进行优化，以使得生成器生成的回归结果接近真实三维重构系数，也即生成器生成的回归结果越来越逼真；且增大判别器判别的准确性，也即使判别器努力的去判别某一组输入系数的真假，最终得到训练后的生成对抗网络。可见，上述目标是由生成对抗网络的min-max对抗过程实现的，其目标函数表示为：

其中，y～p_3DMM(y)表示属于真实三维重构系数的数据，x～p_data(X)表述属于回归结果的数据，G(·)代表生成器的回归过程，即生成器根据输入的人脸图像回归得到的3DMM系数；D(·)代表判别器的判别过程，即判别器给出的对于某样本取样于真实三维重构系数而不是生成器的回归结果的概率，随着时间的推移，该概率会基本接近0.5，也就认定生成对抗网络训练完成。

然后在通过可微分渲染器对该三维人脸网格进行渲染时，首先使用渲染器中的Phong光照模型对三维人脸网格每个顶点的颜色做处理，以产生适当的均匀照明，使得三维人脸网格具有光照的真实感。该过程中随机地使用不同强度的两个点光源，在离脸几米远的区域内对脸进行照射，并扰动点光源的颜色以避免过度拟合。然后进行光栅化，用于将三维人脸网格基于顶点投影至屏幕空间缓冲区，以形成一个个栅格组成的投影图像。该屏幕空间缓冲区专门用来保存将要传送到系统显示屏上的信息。光栅化过程中会使用到光栅化器，该光栅化器在屏幕空间缓存区会存储每个像素处包含的三维人脸网格中的三角面片id和重心坐标。在光栅化过后，使用这些重心坐标和三角面片id在投影图像中进行插值，以填充图像变换时像素之间存在的空隙，从而生成二维渲染图像。但从可微分渲染器输出的二维渲染图像的大小为160×160，因此还需进行尺寸调整操作来调整其尺寸，从而将二维渲染图像的大小设置为256×256。这样就能得到具有三维特征信息的二维渲染图像，并且该二维渲染图也能通过特征提取网络进行特征的提取，从而提取出三维特征信息。

步骤106，将目标人脸图像输入第一特征提取网络并将二维渲染图像输入第二特征提取网络以进行特征提取，并将第一特征提取网络和第二特征提取网络中对应同一特征尺度的两个特征提取层输出的特征图进行特征融合，以输出目标特征图。

其中，第一特征提取网络和第二特征提取网络均包括N个特征提取层，目标特征图为第一特征提取网络和第二特征提取网络中的最后一个特征提取层输出的特征图的融合。

具体的，参见图3，该实施例中，特征提取网络中特征提取层的数量N＝4。其中每个特征提取层包括依次连接的卷积层、激活函数层和归一化层(图3中仅示出卷积层)。这4个特征提取层中使用的卷积核的大小均设置为3×3，步长均为2，这样设置卷积核有助于减小特征图融合后的混叠效应，并且由于下采样和上采样会带来信息损失，所以采用相同的较小步长来减少信息的损失。本实施例中，第一个特征提取层中的卷积核的数量为16个，第二个特征提取层中的卷积核的数量为32个，第三个特征提取层中的卷积核的数量为64个，第四个特征提取层中的卷积核的数量为128个。则，每个特征提取层输出的特征图可以由如下的公式进行表示：

其中，

表示第l层的第n个特征图，

表示第l-1层的第m个特征图，W表示卷积核，B表示对第l层的第n个特征图设置的偏置项，σ(·)表示LeakyRelu激活函数，可用于后续在更新年龄预测模型的参数时，避免梯度消失问题的出现，IN表示对特征图的高度和宽度做归一化。

下面阐述本实施例的特征提取方式：首先在第二特征提取网络中，二维渲染图像作为第二特征提取网络中的第1个特征提取层的输入，得到第1个第二特征图。然后该第1个第二特征图作为第2个特征提取层的输入，得到第2个第二特征图，依次类推，也即将第(n-1)个第二特征图输入至第二特征提取网络中的第n个特征提取层，得到第n个第二特征图，2≤n≤4。应理解的是，每一个特征提取层输出的特征图数量与特征提取层包括的卷积核数量有关。以图3为例，第1个特征提取层输出的第1个第二特征图有16个。

在第一特征提取网络中，目标人脸图像作为第一特征提取网络中的第1个特征提取层的输入，得到第1个第一特征图，然后将第1个第一特征图与第1个第二特征图进行特征融合，得到第1个融合特征图。然后将第1个融合特征图融合特征图输入至第一特征提取网络中的第2个特征提取层，得到第2个第一特征图，再将第2个第一特征图与第2个第二特征图进行特征融合，得到第2个融合特征图，依此类推，也即将第(n-1)个融合特征图输入至第一特征提取网络中的第n个特征提取层，得到第n个第一特征图，将第n个第一特征图与第n个第二特征图进行特征融合便可得到第n个融合特征图。最后当n＝4时，得到的融合特征图即为本实施例中的目标特征图。这样就能使得输出的目标特征图具备三维特征信息。

本实施例中，是通过add策略来进行特征融合的，也即将第n个第一特征图和第n个第二特征图在相同位置处的值进行相加，以得到第n个融合特征图。示例性的，若第一特征图和第二特征图均为一行两列的矩阵，当第一特征图为(1,1)，第二特征图为(2,2)时，进行add融合后得到的特征图为(3,3)。可见，在add策略下图像特征的信息量增多了，但是描述图像的维度本身并没有增加，这样在进行年龄预测时就会考虑到表情变化造成的影响。

步骤108，将目标特征图输入至年龄预测层，以预测目标人脸图像的预测年龄值，根据预测年龄值、目标人脸图像的真实年龄标签计算损失值，根据损失值调整年龄预测模型的参数，返回执行将目标人脸图像输入年龄预测模型的步骤，直至年龄预测模型收敛。

其中，该年龄预测层包括依次连接的全连接层和softmax层。本实施例中，可以用16×16×128×1024的全连接层来对该16×16×128的目标特征图进行全连接运算，从而得到1×1×1024的输出结果。再将该1×1×1024的输出结果输入至softmax层，以得到预设的K个年龄值的分数，该K个年龄值中分数最大的那个也即预测年龄值。

再将softmax层输出的K个年龄值的分数标记为Yci＝{y_c1,y_c2,…,y_cn}，其中n表示年龄为n。进一步的，再通过构建的一个带权重的交叉熵损失函数来计算损失值，该带权重的交叉熵损失函数表示为：

其中，Y_Ti为真实年龄标签，表示真实的年龄为i，P_i为预测年龄值为i时的概率，Wi为权重，确定为真实年龄标签Y_Ti在训练数据集中占所有年龄标签的比值。由此可见，当某一真实年龄标签Y_Ti的数量较多时，其对应的Wi也较大，这样对求得的损失值的影响也较大，反之当某一真实年龄标签Y_Ti的数量较少时，其对应的Wi也较小，这样对求得的损失值的影响也较小，从而有助于解决训练数据集中因样本的年龄不均衡而导致损失值计算不准确的问题。

基于该损失值L再用自适应矩阵估计算法(adam算法)对年龄预测模型中的参数进行调整。本实施例中，adam算法的迭代次数设置为500次，初始化学习率设置为0.001,权重衰减设置为0.0005，每50次迭代，学习率衰减为原来的1/10。训练完成后，得到所需的年龄预测模型。

上述年龄预测模型包括三维形变统计模型、可微分渲染器、第一特征提取网络、第二特征提取网络和年龄预测层，首先通过三维形变统计模型将目标人脸图像转换为三维人脸网格，并通过可微分渲染器对三维人脸网格进行渲染，以得到二维渲染图像；该二维渲染图像为将三维人脸网格投射在二维平面后得到的图像，因此具备三维特征信息。然后将目标人脸图像输入第一特征提取网络并将二维渲染图像输入第二特征提取网络以进行特征提取，并将第一特征提取网络和第二特征提取网络中对应同一特征尺度的两个特征提取层输出的特征图进行特征融合，以输出目标特征图；最后根据目标特征图得到预测年龄值，并计算损失值，根据损失值调整年龄预测模型的参数，返回执行将目标人脸图像输入年龄预测模型的步骤，直至年龄预测模型收敛。可见，上述训练方法中将三维特征信息融合到不同尺度的特征图中，该三维特征信息可以极大减少由于表情的变化而导致的人脸特征信息的变化程度，进而保证输入到全连接层的目标特征图中特征信息的稳定性，进而使得整个预测模型具有更高的准确度和适应性。

进一步的，在进行人脸图像的年龄预测时，便可应用上述训练得到的年龄预测模型。获取到待预测人脸图像，将该待预测人脸图像输入年龄预测模型，基于年龄预测模型中的三维形变统计模型和可微分渲染器将待预测人脸图像转换为带有三维特征信息的二维渲染图像，将待预测人脸图像输入第一特征提取网络并将二维渲染图像输入第二特征提取网络以进行特征提取，并将第一特征提取网络和第二特征提取网络中对应同一特征尺度的两个特征提取层输出的特征图进行特征融合，以输出带有三维特征信息的特征图，再将特征图输入年龄预测模型中的年龄预测层进行预测，从而得到待预测人脸图像的预测年龄值。由于结合了人脸的三维特征信息，因此即使脸部有各种表情，也能对年龄进行准确的预测。

在一个实施例中，如图4所示，提出了一种年龄预测模型的训练装置，年龄预测模型包括三维形变统计模型、可微分渲染器、第一特征提取网络、第二特征提取网络和年龄预测层，第一特征提取网络与第二特征提取网络的结构相同，其中，第一特征提取网络与第二特征提取网络均包括依次连接的多个特征提取层，多个特征提取层分别用于输出不同特征尺度的特征图，该装置包括：

数据集获取模块402，用于获取训练数据集，训练数据集包括多个人脸训练图像，一个人脸训练图像有一个对应标注的真实年龄标签；

二维渲染图像生成模块404，用于将目标人脸图像输入年龄预测模型，通过三维形变统计模型将目标人脸图像转换为三维人脸网格，通过可微分渲染器对三维人脸网格进行渲染，以得到二维渲染图像；目标人脸图像为多个人脸训练图像中的任意一个，二维渲染图像为将三维人脸网格投射在二维平面后得到的图像，目标人脸图像与二维渲染图像的尺寸相同；

特征提取模块406，用于将目标人脸图像输入第一特征提取网络并将二维渲染图像输入第二特征提取网络以进行特征提取，并将第一特征提取网络和第二特征提取网络中对应同一特征尺度的两个特征提取层输出的特征图进行特征融合，以输出目标特征图，目标特征图为第一特征提取网络和第二特征提取网络中的最后一个特征提取层输出的特征图的融合；

参数调整模块408，用于将目标特征图输入至年龄预测层，以预测目标人脸图像的预测年龄值，根据预测年龄值、目标人脸图像的真实年龄标签计算损失值，根据损失值调整年龄预测模型的参数，返回执行将目标人脸图像输入年龄预测模型的步骤，直至年龄预测模型收敛。

一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器可执行时上述年龄预测模型的训练方法和年龄预测方法的步骤。

图5示出了一个实施例中年龄预测设备的内部结构图。如图5所示，该年龄预测设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该年龄预测设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现年龄预测方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行年龄预测方法。本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的年龄预测设备的限定，具体的年龄预测设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

一种年龄预测设备，包括存储器、处理器以及存储在该存储器中并可在该处理器上执行的计算机程序，该处理器执行该计算机程序时实现上述年龄预测模型的训练方法和年龄预测方法的步骤。

需要说明的是，上述年龄预测模型的训练方法、年龄预测方法及装置属于一个总的发明构思，年龄预测模型的训练方法、年龄预测方法及装置的内容可相互适用。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种年龄预测模型的训练方法，其特征在于，所述年龄预测模型包括三维形变统计模型、可微分渲染器、第一特征提取网络、第二特征提取网络和年龄预测层，所述第一特征提取网络与所述第二特征提取网络的结构相同，其中，所述第一特征提取网络与所述第二特征提取网络均包括依次连接的多个特征提取层，所述多个特征提取层分别用于输出不同特征尺度的特征图，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述通过所述三维形变统计模型将所述目标人脸图像转换为三维人脸网格，包括：

3.根据权利要求2所述的方法，其特征在于，所述生成对抗网络还包括判别器；在所述将所述目标人脸图像输入生成器之前，还包括：

4.根据权利要求1所述的方法，其特征在于，所述多个特征提取层的数量为N；所述将所述目标人脸图像输入所述第一特征提取网络并将所述二维渲染图像输入所述第二特征提取网络以进行特征提取，并将所述第一特征提取网络与所述第二特征提取网络中的相同特征提取层输出的特征图进行特征融合，以输出目标特征图，包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述第n个第一特征图与所述第n个第二特征图进行特征融合，以得到第n个融合特征图，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述预测年龄值、所述目标人脸图像的真实年龄标签计算损失值，包括：

Wi为权重，Y_Ti为真实年龄标签，P_i预测年龄值为i时的概率。

7.根据权利要求1所述的方法，其特征在于，在所述根据所述损失值调整所述年龄预测模型的参数，包括：

8.一种年龄预测方法，其特征在于，所述方法包括：

获取待预测人脸图像，将所述待预测人脸图像输入年龄预测模型，以得到所述待预测人脸图像的预测年龄值，所述年龄预测模型为通过如权利要求1-7任一项所述的方法训练得到。

9.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1-8任一项所述方法的步骤。

10.一种年龄预测设备，包括存储器和处理器，其特征在于，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1-8任一项所述方法的步骤。