CN113076823B - 一种年龄预测模型的训练方法、年龄预测方法及相关装置 - Google Patents

一种年龄预测模型的训练方法、年龄预测方法及相关装置 Download PDF

Info

Publication number
CN113076823B
CN113076823B CN202110290472.5A CN202110290472A CN113076823B CN 113076823 B CN113076823 B CN 113076823B CN 202110290472 A CN202110290472 A CN 202110290472A CN 113076823 B CN113076823 B CN 113076823B
Authority
CN
China
Prior art keywords
face
age
prediction
sample image
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110290472.5A
Other languages
English (en)
Other versions
CN113076823A (zh
Inventor
陈仿雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Original Assignee
Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Shuliantianxia Intelligent Technology Co Ltd filed Critical Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Priority to CN202110290472.5A priority Critical patent/CN113076823B/zh
Publication of CN113076823A publication Critical patent/CN113076823A/zh
Application granted granted Critical
Publication of CN113076823B publication Critical patent/CN113076823B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/178Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种年龄预测模型的训练方法、年龄预测方法及相关装置,该模型包括人脸检测模型和多输入回归模型;其中方法包括:获取第一训练样本,包括第一人脸样本图像对应的年龄标签和年龄段标签;通过人脸检测模型输出带有多个目标框的第一人脸样本图像以及对应的第一概率预测值,包括各目标框对应的人脸区域分别属于各年龄段的概率;从第一人脸样本图像中提取各目标框所在的人脸区域图;基于人脸区域图对多输入回归模型进行训练,通过多输入回归模型输出第一人脸样本图像对应的年龄预测值及第二概率预测值,第二概率预测值包括各人脸区域图中的人脸区域分别属于各年龄段的概率;根据标签与各预测值,更新多输入回归模型的参数。

Description

一种年龄预测模型的训练方法、年龄预测方法及相关装置
技术领域
本发明涉及图像处理技术领域,尤其涉及一种年龄预测模型的训练方法、年龄预测方法及相关装置。
背景技术
人脸图像通常包含很多人脸特征信息,其中,年龄作为一项很重要的人脸特征信息,在人脸识别领域得到的了广泛的应用。
目前,在人脸图像的年龄预测技术中,通常将年龄作为一个单独的类别,在训练用于预测人脸图像的年龄的模型时,是将已知年龄的训练图像和年龄之间建立一对一的映射关系作为训练数据对模型进行训练的。
然而,使用通过上述方法得到的模型进行年龄预测,存在预测的准确性较差的问题。
发明内容
本申请实施例提供一种年龄预测模型的训练方法、年龄预测方法及相关装置,可以有效提高对人脸图像进行年龄预测的准确性。
在第一方面,本申请提供一种年龄预测模型的训练方法,其中,所述年龄预测模型包括人脸检测模型和多输入回归模型;所述训练方法包括:
获取第一训练样本,其中,所述第一训练样本包括第一人脸样本图像对应的年龄标签以及所述第一人脸样本图像对应的年龄段标签;
通过所述人脸检测模型输出所述带有多个目标框的第一人脸样本图像以及所述第一人脸样本图像对应的第一概率预测值,其中,所述多个目标框的尺寸各不相同,分别用于指示所述第一人脸样本图像中的人脸区域所在的,可能性最大的多个位置;所述第一概率预测值包括各目标框对应的人脸区域分别属于各年龄段的概率;
从所述第一人脸样本图像中提取所述各目标框所在的人脸区域图;
基于所述各目标框所在的人脸区域图对所述多输入回归模型进行训练,通过所述多输入回归模型输出所述第一人脸样本图像对应的年龄预测值及第二概率预测值,所述第二概率预测值包括各所述人脸区域图中的人脸区域分别属于各年龄段的概率;
根据所述年龄标签与所述年龄预测值,以及,所述第一人脸样本图像对应的年龄段标签、所述第一概率预测值和所述第二概率预测值,更新所述多输入回归模型的参数,并返回执行所述获取第一训练样本的步骤,直至所述年龄预测模型收敛。
在第二方面,本申请提供一种年龄预测模型的训练装置,所述年龄预测模型包括人脸检测模型和多输入回归模型;所述训练装置包括:
获取单元,用于获取第一训练样本,其中,所述第一训练样本包括第一人脸样本图像对应的年龄标签以及所述第一人脸样本图像对应的年龄段标签;
第一训练单元,用于通过所述人脸检测模型输出所述带有多个目标框的第一人脸样本图像以及所述第一人脸样本图像对应的第一概率预测值,其中,所述多个目标框的尺寸各不相同,分别用于指示所述第一人脸样本图像中的人脸区域所在的,可能性最大的多个位置;所述第一概率预测值包括各目标框对应的人脸区域分别属于各年龄段的概率;
提取单元,用于从所述第一人脸样本图像中提取所述各目标框所在的人脸区域图;
第二训练单元,用于基于所述各目标框所在的人脸区域图对所述多输入回归模型进行训练,通过所述多输入回归模型输出所述第一人脸样本图像对应的年龄预测值及第二概率预测值,所述第二概率预测值包括各所述人脸区域图中的人脸区域分别属于各年龄段的概率;
更新单元,用于根据所述年龄标签与所述年龄预测值,以及,所述第一人脸样本图像对应的年龄段标签、所述第一概率预测值和所述第二概率预测值,更新所述多输入回归模型的参数,并返回执行所述获取第一训练样本的步骤,直至所述年龄预测模型收敛。
在第三方面,本申请提供一种年龄预测方法,该方法包括:
获取待预测人脸图像;
将所述待预测人脸图像输入年龄预测模型,其中,所述年龄预测模型通过如第一方面所述的年龄预测模型的训练方法训练得到;
通过所述年龄预测模型确定所述待预测人脸图像的年龄值。
在第四方面,本申请提供一种年龄预测装置,所述装置包括:
第一获取模块,用于获取待预测人脸图像;
输入模块,用于将所述待预测人脸图像输入年龄预测模型,其中,所述年龄预测模型通过如第一方面所述的年龄预测模型的训练方法训练得到;
预测模块,用于通过所述年龄预测模型确定所述待预测人脸图像的年龄值。
在第五方面,本申请提供一种计算机存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得处理器执行第一方面所述的年龄预测模型的训练方法中的各个步骤或使得处理器执行第三方面所述的年龄预测方法中的各个步骤。
在第六方面,本申请提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如第一方面所述的年龄预测模型的训练方法中的各个步骤或使得所述处理器执行如第三方面所述的年龄预测方法中的各个步骤。
本申请实施例中,年龄预测模型包括人脸检测模型和多输入回归模型,可以获取第一训练样本,其中,第一训练样本包括第一人脸样本图像对应的年龄标签以及对应的年龄段标签,通过人脸检测模型输出带有多个目标框的第一人脸样本图像以及第一人脸样本图像对应的第一概率预测值,其中,多个目标框的尺寸各不相同,分别用于指示第一人脸样本图像中的人脸区域所在的,可能性最大的多个位置,上述第一概率预测值包括各目标框对应的人脸区域分别属于各年龄段的概率;再从第一人脸样本图像中提取各目标框所在的人脸区域图;然后,基于各目标框所在的人脸区域图对多输入回归模型进行训练,通过多输入回归模型输出第一人脸样本图像对应的年龄预测值及第二概率预测值,上述第二概率预测值包括各人脸区域图中的人脸区域分别属于各年龄段的概率;进而根据年龄标签与所述年龄预测值,以及,第一人脸样本图像对应的年龄段标签、第一概率预测值和第二概率预测值,更新多输入回归模型的参数,并返回执行获取第一训练样本的步骤,直至年龄预测模型收敛。本申请实施例中通过人脸检测模型可以先获得不同尺寸的有效人脸区域图,再输入多输入回归模型训练,增加多输入回归模型对于不同尺度特征的学习;通过人脸检测模型和多输入回归模型,进行由粗到细的人脸年龄段预测,并且通过增加对年龄段的预测,获得年龄段损失值来约束年龄值的预测,提高了预测年龄值的准确性,使得整个预测模型具有更高的准确度和适应性。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
图1为本申请实施例提供的一种年龄预测模型的训练方法的一流程示意图;
图2为本申请实施例提供的一种年龄预测模型的结构示意图;
图3为本申请实施例提供的一种年龄预测模型的训练方法的另一流程示意图;
图4为本申请实施例提供的一种年龄预测模型的训练装置的结构框图;
图5为本申请实施例提供的一种年龄预测方法的流程示意图;
图6为本申请实施例提供的一种年龄预测装置的结构框图;
图7为本申请实施例提供的一种计算机设备的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施中,实际应用的年龄预测模型为经过训练的年龄预测模型,这样,将待预测人脸图像输入经过训练的年龄预测模型,即可输出该待预测人脸图像的年龄值。因此,本申请实施例提供一种年龄预测模型的训练方法,通过该训练方法以得到实际应用的年龄预测模型,如图1所示。图1示例了本发明提供的一种年龄预测模型的训练方法的流程示意图,该年龄预测模型的训练方法包括:
步骤101、获取第一训练样本,其中,上述第一训练样本包括第一人脸样本图像对应的年龄标签以及上述第一人脸样本图像对应的年龄段标签;
具体地,在训练之前需要构建初始年龄预测模型。图2为本申请实施例提供的一种初始年龄预测模型的结构示意图,该初始年龄预测模型包括初始人脸检测模型201和初始多输入回归模型202。
其中,该初始人脸检测模型201包括依次级联的特征提取模块2011、平均池化模块2013以及第一全连接模块2015。其中,特征提取模块2011包括通用特征提取模块2011a以及特殊特征提取模块2011b。
该通用特征提取模块2011a与该特殊特征提取模块2011b连接。在一实施例中,通用特征提取模块2011a为1个第一卷积层,该第一卷积层的卷积核大小为3*3,步长设置为2。
特殊特征提取模块2011b包含6个相同且依次级联的深度可分离卷积模块,且每个深度可分离卷积模块均包括依次级联的归一化层、非线性激活层、第二卷积层以及第三卷积层,第二卷积层与第三卷积层的通道数相同,但卷积核大小不同。在一实施例中,该第二卷积层的卷积核大小为3*1,第三卷积层的卷积核大小为1*3。
其中,该归一化层采用softmax函数。该非线性激活层采用relu激活函数。该平均池化模块2013为平均池化层,用于对特殊特征提取模块2011b中最后一个深度可分离卷积模块输出的数据进行平均池化,以减少计算量且不破坏数据。该第一全连接模块2015为1个全连接层,该全连接层的卷积核大小为1*1。
进一步地,继续参阅图2,如图2所示,该初始多输入回归模型202包括多个基础特征提取模块2020、多个softmax层模块2021、特征融合模块2022以及第二全连接模块2023,多个基础特征提取模块2020与多个softmax层模块2021一一对应连接,且多个基础特征提取模块2020还与所述特征融合模块2022连接,所述特征融合模块2022与所述第二全连接模块2023连接,其中,多个基础特征提取模块2020和多个softmax层模块2021的数量与所述目标框的数量相同,图2中示意性地表示三个。
其中,每个基础特征提取模块2020均包括5个级联的第四卷积层和1个全连接层。
在本申请实施例中,基础特征提取模块2020、softmax层模块2021以及目标框的个数较佳为3个。
需要说明的是,卷积核表示对输入的图像进行卷积处理时,每次从图像中提取的区域大小,步长则是指在利用卷积核提取区域时,每次移动的像素点的个数,激活函数的作用则是给训练模型加入非线性因素,使得训练得到的年龄预测模型能够更好的解决年龄预测的问题。
在构建上述初始年龄预测模型之后,可以对该模型进行训练,以获得训练好的年龄预测模型,用于人脸年龄预测处理。
其中,上述第一训练样本可以用于初始年龄预测模型中多输入回归模型的训练。该第一训练样本包括多组样本数据,每一组样本数据中均包括第一人脸样本图像对应的年龄标签以及该第一人脸样本图像对应的年龄段标签。其中,年龄标签则为具体的年龄值,例如,若第一人脸样本图像对应的年龄值为15岁,则该第一人脸样本图像的年龄标签为15,且进一步的,其年龄段标签则可以用数字或字符串表示,以划分第一人脸样本图像的年龄标签所属的年龄层区域位置。
其中,年龄段的划分可以有多种方式,在一种可行的实现方式中,年龄段划分可以按10年为一层进行划分,并采用one-hot标注方式设置相应的年龄段标签,本申请实施例中,该年龄段标签为位数为10位的二进制字符串,具体地,该二进制字符串中用1表示预测年龄所属的年龄段所在位置,0表示预测年龄不属于的年龄段。以最低年龄为0,最高年龄为100为年龄范围划分年龄段,可以得到的年龄段包括:(0,10],(10,20],(20,30],(30,40],(40,50],(50,60],(60,70],(70,80],(80,90]及(90,100],假设预测的年龄为16,那么该年龄所属的年龄段为第2个年龄段,该年龄对应的年龄段标签设置为[0,1,0,0,0,0,0,0,0,0]。
在一可行方式中,该年龄段标签也可以设置为数字标签,其基于上述年龄段划分,分别设置为0,1,2,3,4,5,6,7,8及9。
由于初始多输入回归模型的训练样本基于初始人脸检测模型的输出数据,因此,为提高初始人脸检测模型的训练准确性,通常,年龄段标签的位数与年龄段划分关联。若年龄段划分为10段,则年龄段标签的位数即为10。因此,年龄段标签通常为10位二进制字符串。
进一步地,该10位数值中仅用1表示当前年龄标签对应的年龄段标签,其余位数均用0表示。例如,上述年龄标签为15,则其对应的年龄段标签可以为[0,1,0,0,0,0,0,0,0,0],表示其所处的年龄段为(10,20]。
步骤102、通过上述人脸检测模型输出上述带有多个目标框的第一人脸样本图像以及上述第一人脸样本图像对应的第一概率预测值,其中,上述多个目标框的尺寸各不相同,分别用于指示上述第一人脸样本图像中的人脸区域所在的,可能性最大的多个位置;上述第一概率预测值包括各目标框对应的人脸区域分别属于各年龄段的概率;
人脸检测模型可以检测人脸图像中的人脸区域。在本申请实施例中,将第一训练样本输入至初始人脸检测模型进行训练,首先通过初始人脸检测模型中的人脸检测模型进行人脸检测,得到标注有多个目标框的第一人脸样本图像及第一人脸样本图像的第一概率预测值。
需要说明的是,通过人脸检测模型获得的多个第一人脸样本图像中带有不同尺寸大小的预测框,多个预测框用于指示第一人脸样本图像中的人脸区域所在的多个可能位置。从多个预测框筛选出多个尺寸不同的目标框,分别指示该第一人脸样本图像中的人脸区域所在的,可能性最大的多个位置,并且还可以获得各目标框对应的人脸区域分别属于各年龄段的概率。
步骤103、从上述第一人脸样本图像中提取上述各目标框所在的人脸区域图;
由于目标框用于指示第一人脸样本图像中的人脸区域所在的,可能性最大的多个位置,即目标框所在位置最可能接近第一人脸样本图像中人脸区域,因此,可以获取各目标框所在的人脸区域图,作为初始多输入回归模型的训练样本。即首先采用人脸检测模型获得不同尺寸的有效人脸区域图,可以增加多输入回归模型对于不同尺度特征的学习,使得训练出的完整模型具有更高的准确度和适应性。
步骤104、基于上述各目标框所在的人脸区域图对上述多输入回归模型进行训练,通过上述多输入回归模型输出上述第一人脸样本图像对应的年龄预测值及第二概率预测值,上述第二概率预测值包括各上述人脸区域图中的人脸区域分别属于各年龄段的概率;
在本申请实施例中,基于步骤103,将提取出来的多个人脸区域图作为初始多输入回归模型的训练样本,通过该训练样本对其进行迭代训练,每次迭代通过通过多输入回归模型可以获得该第一人脸样本图像对应的年龄预测值及第二概率预测值,其中,第二概率预测值包括各人脸区域图中的人脸区域分别属于各年龄段的概率。
步骤105、根据上述年龄标签与上述年龄预测值,以及,上述第一人脸样本图像对应的年龄段标签、上述第一概率预测值和上述第二概率预测值,更新上述多输入回归模型的参数,并返回执行上述获取第一训练样本的步骤,直至上述年龄预测模型收敛。
在本申请实施例中,上述年龄标签和年龄段标签,为训练样本中所标记的真实标签,上述年龄预测值、第一概率预测值和第二概率预测值,为通过模型训练时获得的预测结果。在训练过程中,可以通过上述数据计算损失值,根据损失值更新多输入回归模型的参数。
本申请实施例中对人脸样本图像的处理涉及年龄和年龄段两部分,因此总损失值的计算可以分为对应的两部分:年龄损失值和年龄段损失值。
具体的,可以根据年龄标签以及年龄预测值,计算多输入回归模型的年龄损失值;根据第一人脸样本图像对应的年龄段标签、第一概率预测值和第二概率预测值,计算多输入回归模型的年龄段损失值;再根据上述年龄损失值及上述年龄段损失值,得到该多输入回归模型的总损失值,从而可以根据该总损失值更新多输入回归模型的参数。
在一种实施方式中,因为每一类损失值之间的数量级和学习难度并不一样,因此对于年龄损失值和年龄段损失值两部分,可以根据需要设定不同的权重,即在计算总损失值时,可以根据设定的权重进行加权。
上述步骤101至步骤105,在年龄预测模型进行训练时,通过人脸检测模型可以先获得不同尺寸的有效人脸区域图,再输入多输入回归模型训练,增加后续的多输入回归模型对于不同尺度特征的学习;通过人脸检测模型和多输入回归模型,综合考虑了人脸检测模型以及多输入回归模型对年龄段的预测,并且通过增加对年龄段的预测,获得年龄段损失值来约束年龄值的预测,使得整个预测模型具有更高的准确度和适应性。
如图3所示,在一可行方式中,步骤102细化步骤包括:
步骤31、将第一人脸样本图像输入至人脸检测模型,得到第一人脸样本图像对应的多个候选预测框、各候选预测框对应的置信度以及上述各候选预测框对应的年龄段概率值,上述多个候选预测框用于指示上述第一人脸样本图像中的人脸区域所在的多个可能位置,一个候选预测框对应的置信度用于指示上述一个候选预测框对应的人脸区域为真实人脸的可能性,一个候选预测框对应的年龄段概率值包括上述一个候选预测框中的人脸区域属于各年龄段的概率;
步骤32、从上述多个候选预测框中选取最大置信度对应的候选预测框作为参考框,计算上述参考框与上述多个候选预测框中的其余候选预测框之间的交并比,得到交并比结果;
步骤33、按照预设的交并比阈值区间端点划分成多个交并比区间,并根据上述交并比计算结果确定每个候选预测框所属的交并比区间;其中,上述交并比区间的个数与上述目标框的个数相同;
步骤34、选取划分后的各交并比区间中置信度最大的候选预测框,作为上述目标框,并将上述置信度最大的候选预测框的年龄段概率值作为上述第一人脸样本图像对应的第一概率预测值。
具体地,上述人脸检测模型为一种目标检测算法,可以获得输出类别,以及输出类别所对应的位置信息以及该输出类别的概率。在本申请实施例中,在训练人脸检测模型的时候,样本图像会标注人脸区域以及人脸对应年龄段,根据样本图像进行训练使得人脸检测模型学会检测人脸图像的人脸区域以及对应的预测的年龄段概率值,其中人脸区域可以是通过锚点框(anchorbox)确定的,锚点框为预先设定的矩形框,用于标示人脸区域的位置所在。在人脸检测模型应用时,基于预先设定的锚点框,可以检测出很多可能有人脸区域的多个矩形框,这些矩形框,每个矩形框均对应了人脸图像中的一个位置,作为人脸区域可能存在的位置,这些位置对应的矩形框,在本申请实施例中被定义为候选预测框。每个候选预测框对应有一个置信度,用于指示该候选预测框对应的位置中存在人脸的可能性。另外,每个候选预测框还对应有年龄段概率值,候选预测框对应的年龄段概率值一般以向量的形式体现,用于指示该候选预测框中的人脸区域分别属于各个年龄段的概率,各个年龄段的概率之和为1。
上述置信度,也叫置信水平。它是指特定样本对总体样本真实性相信的程度,即总体参数值落在样本统计值某一区内的概率。在本申请实施例中上述置信度指的是各候选预测框对应的位置中存在人脸的可能性。
训练后的人脸检测模型,可以检测出多个人脸区域,即获得对应的多个候选预测框。总体而言,通过其中特征提取模块可以提取第一人脸样本图像在这些候选预测框区域内的特征,并通过后接的第一全连接模块,将提取的特征整合转化为不同区域分类(是否为人脸区域)下的概率,该概率即为将提取的特征整合转化为多个区域分类(是否为人脸区域)下的概率,该概率即为候选预测框对应的置信度。相应的,可将提取的特征整合转化为多个年龄段分类(不同年龄段)下的概率,即可以获得第一人脸样本图像对应的多个年龄段概率值。其中对候选预测框的筛选和其他操作可以根据需要进行设置,以下进一步介绍。
进一步地,需要从多个候选预测框中筛选出最接近人脸区域的预测框。在筛选过程中,需要先选取参考框。选取参考框的方式有多种,可以为从所有候选预测框中任意选取一个预测框作为参考框,也可以为根据候选预测框的置信度来选取参考框。通常选取最大置信度值的候选预测框作为参考框,因为最大置信度值表示该框中的图像为人脸区域的可能性最大。接着遍历其余候选预测框,计算该参考框与其余候选预测框之间的交并比(Intersection over Union,IoU)值。该交并比值表示为两个矩形框交集与并集的比值,其交并比值的范围在[0,1]之间。可以通过IoU的阈值确定两个框的重合程度。显然,当IoU=0时,预测框与参考框的没有交集;当IoU=1时,预测框与参考框重合,即IoU越接近于1,重合程度越高。再基于交并比结果,根据交并比大小对所得到交并比进行排序,即根据交并比排序结果对所有候选预测框进行排序,得到候选预测框的排序结果;然后获取预设的交并比阈值区间端点值,该相邻交并比阈值区间端点划分一交并比阈值区间。该交并比阈值区间端点用于表示最接近真实框的预测框的有效阈值范围。
可以根据需要设置对初始人脸检测模型配置的交并比阈值区间端点的个数。上述目标框的个数与有效交并比阈值区间的个数相同。比如,目标框的个数与上述有效交并比阈值区间均设置为3个,也可以根据实际情况进行选择,本申请实施例对此不做限制。
需要理解的是,本申请中需要获取多个不同尺寸且置信度相对较高的人脸区域,作为多输入回归模型的输入,因此同时考虑交并比和置信度来选取预测框。通过选取与参考框交并比值小于1(若为1则重合了)的预测框,可以选出与参考框不同尺寸的预测框,同时,也需要置信度相对较大,来保证所选预测框的图像为人脸区域的可能性较大。
在一种可行方式中,初始人脸检测模型预先配置的交并比阈值区间端点为{0.9,0.8,0.7}。根据交并比阈值区间端点划分为交并比阈值区间。例如,交并比阈值区间端点为{0.9,0.8,0.7}划分为3个交并比阈值区间,分别为[0.7,0.8],(0.8,0.9],(0.9,1)。由于在选取最大置信度值的预测框作为参考框的情况下,通常不考虑最小的交并比阈值区间,比如上述划分时的[0,0.7),对应的交并比值较低,即对应的预测框与参考框的重合程度相对过低,预测框中的图像为人脸区域的概率(置信度)也相对更小,可认为这类预测框用于人脸检测的参考价值低,因此,可以将该交并比阈值区间[0,0.7)舍弃,忽略对该交并比阈值区间[0,0.7)对应的预测框的处理,减少数据处理量。
当然,在实际年龄预测过程中,可根据不同需求设定该交并比阈值区间端点及划分对应的有效并比阈值区间,本申请实施例对此不做限制。
这样,将交并比的计算结果对所有预测框按照预设的交并比阈值区间端点划分;然后基于划分的有效交并比阈值区间,确定各预测框的交并比值所属的有效交并比阈值区域,从而将所有预测框划分到对应的交并比阈值区间。因此,每个有效交并比阈值区间可能存在多个预测框。
然后获取各有效交并比阈值区间内预测框的置信度,对每个有效交并比阈值区间内的预测框按照置信度大小排序,选取出每个有效交并比阈值区间内符合预设条件的预测框作为对应有效交并比阈值区间内的目标框。在本实施例中,预设条件为置信度最大的预测框作为目标框。
这样,在确定划分后的各交并比区间中置信度最大的预测框后,将所确定的各预测框作为各交并比区间对应的目标框。
本申请实施例中没有将置信度最大的预测框直接作为人脸检测的结果,而是通过交并比,选择出多个不同尺寸的预测框进行年龄预测处理,考虑了不同尺寸的人脸区域,对输入图像的特征提取更全面,而同时在每个交并比区间下考虑了预测框的置信度,选择每个交并比区间中置信度最大的目标框,从而可以选择出不同尺寸的、置信度较高的多个人脸区域,作为后续模型的输入,进行年龄预测,可以进一步提高模型的准确度。
在一可行方式中,步骤102之前还包括:
步骤11、获取第二训练样本,其中,上述第二训练样本包括带有真实框的第二人脸样本图像对应的年龄段标签以及上述第二人脸样本图像对应的年龄段标签,上述真实框用于指示上述第二人脸样本图像中的人脸的真实位置;
具体地,该第二训练样本包括多组样本数据,每一组样本数据中均包括第二人脸样本图像对应的年龄段标签且第二人脸样本图像带有真实框。上述真实框用于标注第二人脸样本图像中的人脸区域。其中,年龄段标签则可以用数字或字符串表示,以划分第二人脸样本图像所属的年龄层区域位置。
其中,年龄段的划分可以有多种方式,在一种可行的实现方式中,年龄段划分可以按10年为一层进行划分,并采用one-hot标注方式设置相应的年龄段标签,本申请实施例中,该年龄段标签为位数为10位的二进制字符串,具体地,该二进制字符串中用1表示预测年龄所属的年龄段所在位置,0表示预测年龄不属于的年龄段。以最低年龄为0,最高年龄为100为年龄范围划分年龄段,可以得到的年龄段包括:(0,10],(10,20],(20,30],(30,40],(40,50],(50,60],(60,70],(70,80],(80,90]及(90,100],假设预测的年龄为16,那么该年龄所属的年龄段为第2个年龄段,该年龄对应的年龄段标签设置为[0,1,0,0,0,0,0,0,0,0]。
在一可行方式中,该年龄段标签也可以设置为数字标签,其基于上述年龄段划分,分别设置为0,1,2,3,4,5,6,7,8及9。
为了提高年龄预测训练的准确性以及训练的随机性,在获取的训练样本时需要包括多个不同年龄段标签的人脸样本图像。
步骤12、基于上述第二训练样本,对上述人脸检测模型进行训练,通过上述人脸检测模型输出上述第二人脸样本图像对应的预测框以及上述第二人脸样本图像对应的第三概率预测值,上述预测框用于指示上述第二人脸样本图像中的人脸区域的预测位置,上述第三概率预测值包括上述预测框对应的人脸区域属于各年龄段的概率;
具体地,本申请实施例中的训练后人脸检测模型可以执行如上述步骤102中的处理方法,在图3所示实施例的基础上,对人脸检测模型的训练过程进行描述。
在训练人脸检测模型时,上述第二人脸样本图像标注了人脸区域,以及标注了人脸对应年龄段,其中人脸区域通过预先标定的矩形框来标示,矩形框标示人脸区域的真实位置所在,即本申请实施例提到的真实框。
在人脸检测模型训练时,与应用时类似,第二人脸样本图像输入模型,检测出可能有人脸区域的多个矩形框,每个矩形框均对应了人脸图像中的一个位置,作为人脸区域可能存在的位置,这些位置对应的矩形框,在本申请实施例中被定义为预测框。每个预测框对应有一个置信度,用于指示该预测框对应的位置中存在人脸的可能性。另外,每个预测框还对应有第三概率预测值,即预测框对应的人脸区域属于各年龄段的概率,各个年龄段的概率之和为1,预测框对应的年龄段概率值一般以向量的形式体现。可以通过对特定预测框区域进行特征提取和识别来确定对应的第三概率预测值。
步骤13、根据上述真实框与上述预测框,以及上述第二人脸样本图像对应的年龄段标签与上述第三概率预测值,更新上述人脸检测模型的参数,并返回执行获取第二训练样本的步骤,直至上述人脸检测模型收敛。
具体地,人脸检测模型对人脸样本图像的处理涉及人脸区域检测框和人脸的年龄段,因此总损失的计算可以分为对应的两部分:通过预测框与真实框计算第一部分损失值,通过预测获得的第三概率预测值与标注的年龄段标签计算第二部分的年龄段损失值,得到该人脸检测模型的总损失值,从而可以根据该总损失值更新人脸检测模型的参数,直至模型收敛,训练完成。
在一可行方式中,步骤104的细化步骤包括:
步骤10、对所述各目标框所在的人脸区域图分别进行归一化操作,得到目标人脸区域图;
本申请实施例中所得到的目标框的尺寸是不同的,需要将获得的目标框所在的人脸区域图转换为对应的特定尺寸,此处被称为归一化操作。具体地,利用所述各目标框的置信度对所述目标框进行排序,得到目标框序列,一个目标框对应的置信度用于指示所述一个目标框对应的人脸区域为真实人脸的可能性;获取预设的归一化尺寸序列,将所述目标框序列中的第m个目标框的人脸区域图按照所述归一化尺寸序列中的第m个尺寸进行归一化,得到归一化后的人脸区域图,所述目标框序列中的目标框的数量与所述归一化尺寸序列中的尺寸的数量相同,所述目标框序列中目标框的排序方式与所述归一化尺寸序列中的排序方式相反。
例如:人脸样本图像的人脸区域标注有目标框1、目标框2以及目标框3,其中,目标框1的置信度最大,目标框2的置信度次之,目标框3的置信度最小。对目标人脸区域图上目标框1所在的人脸区域进行归一化操作,得到第一尺度的人脸区域图;对目标人脸区域图上的目标框2所在的人脸区域进行归一化操作,得到第二尺度的人脸区域图;对目标人脸区域图上的目标框3所在的人脸区域进行归一化操作,得到第三尺度的人脸区域图。各人脸区域图的大小分别为64*64、96*96以及112*112。归一化操作是为了统一特征图像的尺寸,以便于后续特征提取的计算和减少特征的维数。其中,预设的归一化尺寸可以根据需要进行设置,本申请实施例中可以根据目标框的置信度来确定对应的归一化尺寸,与目标框采集时自身的尺寸可以无关。其中,之所以根据置信度的大小设定归一化尺度,主要是由于不同的置信度所获取得到的人脸区域是不同的,在训练的过程中,置信度越大则表示获取的目标框越接近真实框,因此默认置信度最大的目标框是最理想的检测的人脸区域,因此置信度不同所对应获取的人脸区域大小是不一样的。为了提高年龄估计模型对于不同大小的预测框的处理稳定性,在获取不同输入尺度(采集的不同尺寸的目标框)时,则根据置信度进行划分,通常置信度越小,需要更大目标框中的人脸区域来学习人脸特征,以提高模型的准确度。
本申请实施例中没有将置信度最大的预测框直接作为人脸检测的结果,再用于年龄预测模型的训练,而是通过上述方法获得不同尺寸的人脸区域图用于多输入回归模型的训练,可以增加多输入回归模型对于不同尺度特征的学习,使得训练出的完整模型具有更高的准确度和适应性。
步骤20、将上述目标人脸区域图输入至上述目标人脸区域图对应的基础特征提取模块,得到上述目标人脸区域图对应的第一人脸特征图,上述目标人脸区域图为任一归一化后的人脸区域图;
对于输入的目标人脸区域图,可以调用多输入回归模型的基础特征提取模块进行特征提取,比如对于不同尺度的输入,调用共同的基础特征提取模型,分别都输出10*1维的第一人脸特征图。其中,10*1表示在基础特征提取模型中对每一个尺度的输入网络最终输出的大小。其中,多输入回归模型的结构可以参见图1所示实施例中的具体描述,此处不再赘述。
具体的,通过训练后的多输入回归模型,可以通过基础特征提取模块中的卷积层提取目标人脸区域图的特征,然后在全连接层中可以将提取的特征整合转化为多个分类(不同年龄段)下的概率,即可以获得目标人脸区域图对应的第一人脸特征图,另一种形式即为对应的多个年龄段概率值。
步骤30、将目标人脸区域图对应的第二人脸特征图输入至上述目标人脸区域对应的softmax层模块,得到上述目标人脸区域图对应的年龄段概率预测值,上述目标人脸区域图对应的年龄段概率值包括上述目标人脸区域图中的人脸区域属于各年龄段的概率;
例如,在模型训练时,将三个基础特征提取模型输出的10*1维的特征,通过各自连接的softmax层,可以对神经网络的输出结果进行换算,将输出结果用概率的形式表现出来,获得年龄段预测结果,包括多个年龄段概率值,具体的,该年龄段预测结果可表示为:
其中,i为第i个目标框,Hi用于表示每个目标框下所有年龄段预测结果的集合。
步骤40、将各归一化后的人脸区域图对应的第一人脸特征图输入至上述特征融合模块进行融合,得到第二特征图;
具体地,将三个10*1维的第一特征图输入至特征融合模块进行融合,通过该特征融合模块输出与人脸样本图像尺度相同的第二特征图,该第二特征图为1个30*1维的特征图。
步骤50、将第二特征图输入至上述全连接模块,得到上述第一人脸样本图像对应的年龄预测值;
全连接层的作用是可以把分布式特征映射到样本标记空间。本申请实施例中全连接模块的作用是分类,即将第一人脸样本图像确定为某一年龄预测值。第二特征图包含了各归一化后的人脸区域图的特征,在全连接模块中可以将特征整合转化为多个分类(不同年龄值)下的概率,通常选择输出概率最大的年龄预测值,即获得第一人脸样本图像对应的年龄预测值。
步骤60、将各人脸区域图对应的年龄段概率值确定为所述第一人脸样本图像对应的第二概率预测值。
在一可行方式中,步骤105部分细化步骤包括:
步骤70、根据所述年龄标签以及年龄预测值,确定所述多输入回归模型的年龄损失值;
可以按照如下公式计算上述年龄损失值:
其中,L1表示年龄损失值,N表示第一训练样本中第一人脸样本图像的数量,Y表示预测年龄值,T表示年龄标签标注的真实年龄值。
步骤80、根据所述第一人脸样本图像对应的年龄段标签、所述第一概率预测值和所述第二概率预测值,确定所述多输入回归模型的年龄段损失值;
其中,按照如下公式计算所述年龄段损失值:
其中,L2表示年龄段损失值,N表示第一训练样本中第一人脸样本图像的数量,I表示目标框的数量,表示上述第二概率预测值,具体对应第j个人脸样本图像,第i个基础特征提取模块输出的年龄段概率值。Hj表示第一人脸样本图像的年龄段标签,即真实的年龄段标签;Fj i表示上述第一概率预测值,具体对应第j个人脸样本图像,人脸检测模型输出的第i个人脸检测模型有效区域预测的年龄段值。
步骤90、根据所述年龄损失值及所述年龄段损失值,得到所述多输入回归模型的总损失值,根据所述总损失值更新所述多输入回归模型的参数。
具体地,采用加权方式构建总损失函数,在一可行方式中,该总损失函数可以使用以下公式得到:
其中,N表示第一训练样本中第一人脸样本图像的数量,Y表示预测年龄值,L表示总损失值,L1表示年龄损失值,L2表示年龄段损失值,α表示年龄损失对应的权重,β表示年龄段损失对应的权重,T表示年龄标签标注的真实年龄值。表示上述第二概率预测值,也对应第j个人脸样本图像,第i个基础特征提取模块输出的年龄段概率值。Hj表示第一人脸样本图像的年龄段标签,即真实的年龄段标签。/>表示上述第一概率预测值,具体对应第j个人脸样本图像,人脸检测模型输出的第i个人脸检测模型有效区域预测的年龄段值。α和β分别表示年龄损失的权重以及年龄段损失的权重。
其中,上述权重用于对年龄预测模型中人脸检测模型101和多输入回归模型102的参数进行调整,可以达到第i年龄预测模型的损失函数最小化。
因此,上述的年龄损失权重和年龄段损失权重可以根据实际情况进行灵活的设置,例如,可以设置年龄损失权重为0.6,年龄段损失权重为0.4,通过设置不同部分的损失权重的方式,可以有效提高训练得到的年龄预测模型进行年龄预测的准确性。
根据总损失值更新所述多输入回归模型的参数,以使得年龄预测模型收敛。
具体地,若总损失值符合收敛条件,即总损失值L与预设的损失阈值近似相等或总损失值L不再变化,则确定收敛时的年龄预测模型为经过训练的年龄预测模型,结束训练。
其中,确定第i年龄预测模型收敛的条件为第i总损失值是否收敛,或第i总损失值L是否小于等于预设损失阈值,或第i总损失值L是否不再变化。
例如:根据总损失值确定第i年龄预测模型是否收敛的一种可行的实现方式为:确定第i年龄预测模型的总损失值与第i-1年龄预测模型的总损失值的差值是否小于预设值,若小于预设值,则第i年龄预测模型收敛,若大于预设值,则第i年龄预测模型不收敛。
因此,在本申请实施例中,在一次训练过程中,在得到总损失值之后,可根据该总损失值确定第i年龄预测模型是否收敛。
若第i总损失值L满足收敛条件,则确定第i年龄预测模型作为训练完成后的年龄预测模型,结束训练;
若第i总损失值L不满足收敛条件,即第i年龄预测模型不收敛,则根据第i总损失值L对第i年龄预测模型进行参数优化,得到第i+1年龄预测模型,令i=i+1,返回执行。
在进行参数优化时,可以利用该i的值对自适应矩估计(Adaptive momentestimation,adam)算法的学习率进行更新,得到更新后的学习率,并利用总损失值、更新后的学习率及adam算法对第i年龄预测模型进行参数优化,得到第i+1年龄预测模型。
需要说明的是,使用adam算法需要预先配置参数,包括迭代次数的设置,初始学习率,学习率的权重衰减等等,每一次迭代训练,都需要更新adam算法的学习率。例如,迭代次数可以设置为500次,初始化学习率设置为0.001,学习率的权重衰减设置为0.0005,经过50次迭代,学习率将衰减成原来的1/10,其中,可以将学习率、总损失值输入adam算法中,得到adam输出的调整参数,利用该调整参数实现第i年龄预测模型的参数优化。
进一步地,需要说明的是,在训练阶段,为了更进一步提高年龄预测模型的年龄预测结果的准确性,在另一种可行的实现方式中,还可以通过对训练样本进行数据增强的方式,进一步提高利用该训练数据进行训练得到的年龄预测模型的适用性及鲁棒性,具体的:目前对人脸图像的年龄进行预测的模型存在预测的准确性不稳定的问题,例如,对于某一个年龄的预测的准确性较高,对于另一个年龄的预测的准确性较低。针对该问题,本申请实施例中可通过对训练数据进行增强的方式达到各年龄或者各年龄段的训练数据均衡,使得基于该训练数据训练得到的年龄预测模型能够适用于各个年龄段或者各个年龄的预测,避免出现预测的准确性不稳定的问题,进一步提高年龄预测模型的适用性及鲁棒性。例如:按照年龄段标签或者年龄标签将训练数据划分成各年龄段标签或者各年龄标签对应的子训练数据;利用数据增强方式对上述的子训练数据进行数据均衡处理,得到增强后的训练数据,将增强后的训练数据作为初始人脸检测模型的输入数据。
在本申请实施例中,对训练数据进行增强有多种可实现的方式,包括但不限于基于年龄段标签的增强方式,及基于年龄标签的增强方式,下面将分别进行介绍:
(1)基于年龄段标签的增强方式:遍历上述的训练数据,获取遍历到的人脸样本图像的年龄段标签,并进行归类,使得具有相同年龄段标签的人脸样本图像在同一子训练数据中,具有不通过年龄段标签的人脸样本图像则在不同的子训练数据中。进一步的,利用数据增强方式对各个年龄段标签对应的子训练数据进行数据均衡处理,且数据均衡处理后的子训练数据则构成了增强后的训练数据。在一种可行的实现方式中,数据均衡处理具体可以包括:统计各个年龄段标签对应的子训练数据中包含的人脸样本图像的数量,并确定最大数量为均衡时的目标数量,对于人脸样本图像的数量未达到该目标数量的子训练数据,将采用数据增强的方式对该子训练数据进行处理,使得该子训练数据中包含的人脸样本图像的数量达到上述目标数量。其中,数据增强的方式有多种,例如,可以通过对人脸样本图像进行亮度不变,且进行角度旋转的方式,则可利用一张人脸样本图像得到不同角度的多张人脸样本图像,以使得人脸样本图像的数量增加。可以理解的是,通过数据增强方式对人脸样本图像A进行处理,得到的多张人脸样本图像B,则该多张人脸样本图像B的年龄标签及年龄段标签,均与人脸样本图像A的相同。
(2)基于年龄标签的增强方式:遍历上述的训练数据,获取遍历到的人脸样本图像的年龄标签,并进行归类,使得具有相同年龄标签的人脸样本图像在同一子训练数据中,具有不通过年龄标签的人脸样本图像则在不同的子训练数据中。进一步的,利用数据增强方式对各个年龄标签对应的子训练数据进行数据均衡处理,且数据均衡处理后的子训练数据则构成了增强后的训练数据。在一种可行的实现方式中,数据均衡处理具体可以包括:统计各个年龄标签对应的子训练数据中包含的人脸样本图像的数量,并确定最大数量为均衡时的目标数量,对于人脸样本图像的数量未达到该目标数量的子训练数据,将采用数据增强的方式对该子训练数据进行处理,使得该子训练数据中包含的人脸样本图像的数量达到上述目标数量。其中,数据增强的方式有多种,例如,可以通过对人脸样本图像进行亮度不变,且进行角度旋转的方式,则可利用一张人脸样本图像得到不同角度的多张人脸样本图像,以使得人脸样本图像的数量增加。可以理解的是,通过数据增强方式对人脸样本图像C进行处理,得到的多张人脸样本图像D,则该多张人脸样本图像D的年龄标签及年龄段标签,均与人脸样本图像C的相同。
在本申请实施例中,可以通过上述方式实现对训练数据的增强,使得训练数据更加均衡,且使用该增强后的训练数据训练得到的年龄预测模型对各个年龄段或各个年龄的预测的准确性相似,能够有效提高年龄预测模型的适用性及鲁棒性更强。
请参阅图4,为本申请实施例中年龄预测模型的训练装置的结构示意图,该年龄预测模型如图1所示,包含人脸检测模型101和多输入回归模型102;上述训练装置包括:
获取单元401,用于获取第一训练样本,其中,上述第一训练样本包括第一人脸样本图像对应的年龄标签以及上述第一人脸样本图像对应的年龄段标签;
第一训练单元402,用于通过上述人脸检测模型输出上述带有多个目标框的第一人脸样本图像以及上述第一人脸样本图像对应的第一概率预测值,其中,上述多个目标框的尺寸各不相同,分别用于指示上述第一人脸样本图像中的人脸区域所在的,可能性最大的多个位置;上述第一概率预测值包括各目标框对应的人脸区域分别属于各年龄段的概率;
提取单元403,用于从上述第一人脸样本图像中提取上述各目标框所在的人脸区域图;
第二训练单元404,用于基于上述各目标框所在的人脸区域图对上述多输入回归模型进行训练,通过上述多输入回归模型输出上述第一人脸样本图像对应的年龄预测值及第二概率预测值,上述第二概率预测值包括各上述人脸区域图中的人脸区域分别属于各年龄段的概率;
更新单元405,用于根据上述年龄标签与上述年龄预测值,以及,上述第一人脸样本图像对应的年龄段标签、上述第一概率预测值和上述第二概率预测值,更新上述多输入回归模型的参数,并返回执行上述获取第一训练样本的步骤,直至上述年龄预测模型收敛。
在本申请实施例中,上述的年龄预测模型的训练装置中的获取单元401、第一训练单元402、提取单元403、第二训练单元404以及更新单元405的相关内容可以参阅上述方法实施例中的年龄预测模型的训练方法中的相关描述,此处不做赘述。
请参阅图5,为本申请实施例中年龄预测方法的流程示意图,该年龄预测方法将使用到前面上述的实施例中训练得到的年龄预测模型,该方法包括:
步骤501、获取待预测人脸图像;
步骤502、将上述待预测人脸图像输入年龄预测模型;
步骤503、通过上述年龄预测模型确定上述待预测人脸图像的年龄值。
其中,年龄预测模型包括人脸检测模型和多输入回归模型,上述多输入回归模型包括多个基础特征提取模块、特征融合模块以及全连接模块,多个基础特征提取模块均与上述特征融合模块连接,上述将上述待预测人脸图像输入至年龄预测模型,包括:
将上述待预测人脸图像输入至上述人脸检测模型,通过上述人脸检测模型输出上述待预测人脸图像的目标人脸区域图;
将目标人脸区域图输入至上述目标人脸区域图对应的基础特征提取模块,得到上述目标人脸区域图对应的第一人脸特征图;
将第一人脸特征图输入至上述特征融合模块进行融合,得到第二特征图;
将第二特征图输入至上述全连接模块,通过上述全连接模块输出上述待预测人脸图像的年龄值,具体如上述方法所述。
在本申请实施例中,使用该年龄预测模型对待预测人脸图像进行年龄预测,可充分考虑到相近年龄阶段特征的相似性,且使用该年龄预测模型可以先进行不同年龄段的预测,并在预测到的年龄段的范围内进行年龄的预测,该方式能够有效的提升年龄预测的准确性。
请参阅图6,为本申请实施例中年龄预测装置的结构示意图,该年龄预测装置将使用基于本申请实施例中的年龄预测模型的训练方法训练得到的年龄预测模型,该装置包括:
第一获取模块601,用于获取待预测人脸图像;
输入模块602,用于将上述待预测人脸图像输入年龄预测模型;
预测模块603,用于通过上述年龄预测模型确定上述待预测人脸图像的年龄值。
在本申请实施例中,年龄预测装置中的第一获取模块601、输入模块602以及预测模块603的相关内容可以参阅本申请方法实施例中年龄预测方法的相关描述,此处不做赘述。
图7示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端,也可以是服务器。如图7所示,该计算机设备包括通过系统总线24连接的处理器20、存储器22、通信接口23以及显示屏21。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现年龄预测模型的训练方法,和/或实现年龄预测方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行年龄预测模型的训练方法,和/或实现年龄预测方法。本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取第一训练样本,其中,上述第一训练样本包括第一人脸样本图像对应的年龄标签以及上述第一人脸样本图像对应的年龄段标签;
通过上述人脸检测模型输出上述带有多个目标框的第一人脸样本图像以及上述第一人脸样本图像对应的第一概率预测值,其中,上述多个目标框的尺寸各不相同,分别用于指示上述第一人脸样本图像中的人脸区域所在的,可能性最大的多个位置;上述第一概率预测值包括各目标框对应的人脸区域分别属于各年龄段的概率;
从上述第一人脸样本图像中提取上述各目标框所在的人脸区域图;
基于上述各目标框所在的人脸区域图对上述多输入回归模型进行训练,通过上述多输入回归模型输出上述第一人脸样本图像对应的年龄预测值及第二概率预测值,上述第二概率预测值包括各上述人脸区域图中的人脸区域分别属于各年龄段的概率;
根据上述年龄标签与上述年龄预测值,以及,上述第一人脸样本图像对应的年龄段标签、上述第一概率预测值和上述第二概率预测值,更新上述多输入回归模型的参数,并返回执行上述获取第一训练样本的步骤,直至上述年龄预测模型收敛。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取待预测人脸图像;
将上述待预测人脸图像输入至年龄预测模型;
通过上述年龄预测模型确定上述待预测人脸图像的年龄值。
在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,上述计算机程序被处理器执行时,使得上述处理器执行以下步骤:
获取待预测人脸图像;
将上述待预测人脸图像输入至年龄预测模型;
通过上述年龄预测模型确定上述待预测人脸图像的年龄值。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。本申请专利的保护范围应以所附权利要求为准。

Claims (13)

1.一种年龄预测模型的训练方法,其特征在于,所述年龄预测模型包括人脸检测模型和多输入回归模型;所述方法包括:
获取第一训练样本,其中,所述第一训练样本包括第一人脸样本图像对应的年龄标签以及所述第一人脸样本图像对应的年龄段标签;
通过所述人脸检测模型输出所述带有多个目标框的第一人脸样本图像以及所述第一人脸样本图像对应的第一概率预测值,其中,所述多个目标框的尺寸各不相同,分别用于指示所述第一人脸样本图像中的人脸区域所在的,可能性最大的多个位置;所述第一概率预测值包括各目标框对应的人脸区域分别属于各年龄段的概率;
从所述第一人脸样本图像中提取所述各目标框所在的人脸区域图;
基于所述各目标框所在的人脸区域图对所述多输入回归模型进行训练,通过所述多输入回归模型输出所述第一人脸样本图像对应的年龄预测值及第二概率预测值,所述第二概率预测值包括各所述人脸区域图中的人脸区域分别属于各年龄段的概率;
根据所述年龄标签与所述年龄预测值,以及,所述第一人脸样本图像对应的年龄段标签、所述第一概率预测值和所述第二概率预测值,更新所述多输入回归模型的参数,并返回执行所述获取第一训练样本的步骤,直至所述年龄预测模型收敛。
2.根据权利要求1所述的方法,其特征在于,所述通过所述人脸检测模型输出所述带有多个目标框的第一人脸样本图像以及所述第一人脸样本图像对应的第一概率值,具体包括:
将所述第一人脸样本图像输入至所述人脸检测模型,得到所述第一人脸样本图像对应的多个候选预测框、各候选预测框对应的置信度以及所述各候选预测框对应的年龄段概率值,所述多个候选预测框用于指示所述第一人脸样本图像中的人脸区域所在的多个可能位置,一个候选预测框对应的置信度用于指示所述一个候选预测框对应的人脸区域为真实人脸的可能性,一个候选预测框对应的年龄段概率值包括所述一个候选预测框中的人脸区域属于各年龄段的概率;
从所述多个候选预测框中选取最大置信度对应的候选预测框作为参考框,计算所述参考框与所述多个候选预测框中的其余候选预测框之间的交并比,得到交并比结果;
按照预设的交并比阈值区间端点划分成多个交并比区间,并根据所述交并比计算结果确定每个候选预测框所属的交并比区间;其中,所述交并比区间的个数与所述目标框的个数相同;
选取划分后的各交并比区间中置信度最大的候选预测框,作为所述目标框,并将所述置信度最大的候选预测框的年龄段概率值作为所述第一人脸样本图像对应的第一概率预测值。
3.根据权利要求1或2所述的方法,其特征在于,所述通过所述人脸检测模型输出所述带有多个目标框的人脸样本图像以及所述人脸样本图像对应的第一概率预测值之前,还包括:
获取第二训练样本,其中,所述第二训练样本包括带有真实框的第二人脸样本图像以及所述第二人脸样本图像对应的年龄段标签,所述真实框用于指示所述第二人脸样本图像中的人脸的真实位置;
基于所述第二训练样本,对所述人脸检测模型进行训练,通过所述人脸检测模型输出所述第二人脸样本图像对应的预测框以及所述第二人脸样本图像对应的第三概率预测值,所述预测框用于指示所述第二人脸样本图像中的人脸区域的预测位置,所述第三概率预测值包括所述预测框对应的人脸区域属于各年龄段的概率;
根据所述真实框与所述预测框,以及所述第二人脸样本图像对应的年龄段标签与所述第三概率预测值,更新所述人脸检测模型的参数,并返回执行获取第二训练样本的步骤,直至所述人脸检测模型收敛。
4.根据权利要求1所述的方法,其特征在于,所述多输入回归模型包括多个基础特征提取模块、多个softmax层模块、特征融合模块以及全连接模块,多个基础特征提取模块均与所述特征融合模块连接,所述特征融合模块与所述全连接模块连接,且所述多个基础特征提取模块与多个softmax层模块一一对应连接,其中,所述多个基础特征提取模块和所述多个softmax层模块的数量与所述目标框的数量相同;
所述基于所述各目标框所在的人脸区域图对所述多输入回归模型进行训练,通过所述多输入回归模型输出所述第一人脸样本图像对应的年龄预测值及第二概率预测值具体包括:
对所述各目标框所在的人脸区域图分别进行归一化操作,得到所述目标人脸区域图;
将所述目标人脸区域图输入至所述目标人脸区域图对应的基础特征提取模块,得到所述目标人脸区域图对应的第一人脸特征图,所述目标人脸区域图为任一归一化后的人脸区域图;
将目标人脸区域图对应的第二人脸特征图输入至所述目标人脸区域对应的softmax层模块,得到所述目标人脸区域图对应的年龄段概率预测值,所述目标人脸区域图对应的年龄段概率值包括所述目标人脸区域图中的人脸区域属于各年龄段的概率;
将各归一化后的人脸区域图对应的第一人脸特征图输入至所述特征融合模块进行融合,得到第二特征图;
将第二特征图输入至所述全连接模块,得到所述第一人脸样本图像对应的年龄预测值;
将各人脸区域图对应的年龄段概率值确定为所述第一人脸样本图像对应的第二概率预测值。
5.根据权利要求4所述的方法,其特征在于,所述对所述各目标框所在的人脸区域图进行归一化操作,得到各归一化后的人脸区域图,包括:
利用所述各目标框的置信度对所述目标框进行排序,得到目标框序列,一个目标框对应的置信度用于指示所述一个目标框对应的人脸区域为真实人脸的可能性;
获取预设的归一化尺寸序列,将所述目标框序列中的第m个目标框的人脸区域图按照所述归一化尺寸序列中的第m个尺寸进行归一化,得到归一化后的人脸区域图,所述目标框序列中的目标框的数量与所述归一化尺寸序列中的尺寸的数量相同,所述目标框序列中目标框的排序方式与所述归一化尺寸序列中的排序方式相反。
6.根据权利要求1所述的方法,其特征在于,所述根据所述年龄标签与所述年龄预测值,以及,所述第一人脸样本图像对应的年龄段标签、所述第一概率预测值和所述第二概率预测值,更新所述多输入回归模型的参数具体包括:
根据所述年龄标签以及年龄预测值,确定所述多输入回归模型的年龄损失值;
根据所述第一人脸样本图像对应的年龄段标签、所述第一概率预测值和所述第二概率预测值,确定所述多输入回归模型的年龄段损失值;
根据所述年龄损失值及所述年龄段损失值,得到所述多输入回归模型的总损失值,根据所述总损失值更新所述多输入回归模型的参数。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一人脸样本图像对应的年龄段标签、所述第一概率预测值和所述第二概率预测值,确定所述多输入回归模型的年龄段损失值,包括:
按照如下公式计算所述年龄段损失值:
其中,L2表示所述年龄段损失值,N表示所述第一训练样本中第一人脸样本图像的数量,I表示所述目标框的数量,表示所述第二概率预测值,Hj表示所述第一人脸样本图像的年龄段标签,Fj i表示所述第一概率预测值。
8.一种年龄预测模型的训练装置,其特征在于,所述年龄预测模型包括人脸检测模型和多输入回归模型;所述训练装置包括:
获取单元,用于获取第一训练样本,其中,所述第一训练样本包括第一人脸样本图像对应的年龄标签以及所述第一人脸样本图像对应的年龄段标签;
第一训练单元,用于通过所述人脸检测模型输出所述带有多个目标框的第一人脸样本图像以及所述第一人脸样本图像对应的第一概率预测值,其中,所述多个目标框的尺寸各不相同,分别用于指示所述第一人脸样本图像中的人脸区域所在的,可能性最大的多个位置;所述第一概率预测值包括各目标框对应的人脸区域分别属于各年龄段的概率;
提取单元,用于从所述第一人脸样本图像中提取所述各目标框所在的人脸区域图;
第二训练单元,用于基于所述各目标框所在的人脸区域图对所述多输入回归模型进行训练,通过所述多输入回归模型输出所述第一人脸样本图像对应的年龄预测值及第二概率预测值,所述第二概率预测值包括各所述人脸区域图中的人脸区域分别属于各年龄段的概率;
更新单元,用于根据所述年龄标签与所述年龄预测值,以及,所述第一人脸样本图像对应的年龄段标签、所述第一概率预测值和所述第二概率预测值,更新所述多输入回归模型的参数,并返回执行所述获取第一训练样本的步骤,直至所述年龄预测模型收敛。
9.一种年龄预测方法,其特征在于,所述方法包括:
获取待预测人脸图像;
将所述待预测人脸图像输入至年龄预测模型,其中,所述年龄预测模型通过如权利要求1-7任一项所述的年龄预测模型的训练方法训练得到;
通过所述年龄预测模型确定所述待预测人脸图像的年龄值。
10.根据权利要求9所述的年龄预测方法,其特征在于,所述年龄预测模型包括人脸检测模型和多输入回归模型,所述多输入回归模型包括多个基础特征提取模块、特征融合模块以及全连接模块,多个基础特征提取模块均与所述特征融合模块连接,所述将所述待预测人脸图像输入至年龄预测模型,包括:
将所述待预测人脸图像输入至所述人脸检测模型,通过所述人脸检测模型输出所述待预测人脸图像的待预测人脸区域图;
将所述待预测人脸区域图输入至所述基础特征提取模块,得到所述待预测人脸图像对应的第一人脸特征图;
将所述待预测人脸图像对应的第一人脸特征图输入至所述特征融合模块进行融合,得到所述待预测人脸图像对应的第二特征图;
将第二特征图输入至所述全连接模块,通过所述全连接模块输出所述待预测人脸图像的年龄值。
11.一种年龄预测装置,应用于如权利要求9或10所述的年龄预测方法,其特征在于,所述装置包括:
第一获取模块,用于获取待预测人脸图像;
输入模块,用于将所述待预测人脸图像输入年龄预测模型,其中,所述年龄预测模型通过如权利要求1-7任一项所述的年龄预测模型的训练方法训练得到;
预测模块,用于通过所述年龄预测模型确定所述待预测人脸图像的年龄值。
12.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至7中任一项或权利要求9或10所述的方法中的各个步骤。
13.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项或权利要求9或10所述的方法中的各个步骤。
CN202110290472.5A 2021-03-18 2021-03-18 一种年龄预测模型的训练方法、年龄预测方法及相关装置 Active CN113076823B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110290472.5A CN113076823B (zh) 2021-03-18 2021-03-18 一种年龄预测模型的训练方法、年龄预测方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110290472.5A CN113076823B (zh) 2021-03-18 2021-03-18 一种年龄预测模型的训练方法、年龄预测方法及相关装置

Publications (2)

Publication Number Publication Date
CN113076823A CN113076823A (zh) 2021-07-06
CN113076823B true CN113076823B (zh) 2023-12-12

Family

ID=76612749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110290472.5A Active CN113076823B (zh) 2021-03-18 2021-03-18 一种年龄预测模型的训练方法、年龄预测方法及相关装置

Country Status (1)

Country Link
CN (1) CN113076823B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113920562B (zh) * 2021-09-24 2024-04-30 深圳数联天下智能科技有限公司 年龄预测模型的训练方法、年龄预测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091109A (zh) * 2019-12-24 2020-05-01 厦门瑞为信息技术有限公司 基于人脸图像进行年龄和性别预测的方法、系统和设备
CN111881737A (zh) * 2020-06-18 2020-11-03 深圳数联天下智能科技有限公司 年龄预测模型的训练方法及装置、年龄预测方法及装置
WO2020221298A1 (zh) * 2019-04-30 2020-11-05 北京金山云网络技术有限公司 文本检测模型训练方法、文本区域、内容确定方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020221298A1 (zh) * 2019-04-30 2020-11-05 北京金山云网络技术有限公司 文本检测模型训练方法、文本区域、内容确定方法和装置
CN111091109A (zh) * 2019-12-24 2020-05-01 厦门瑞为信息技术有限公司 基于人脸图像进行年龄和性别预测的方法、系统和设备
CN111881737A (zh) * 2020-06-18 2020-11-03 深圳数联天下智能科技有限公司 年龄预测模型的训练方法及装置、年龄预测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于卷积神经网络的人脸年龄估计方法;杨国亮;张雨;;北京联合大学学报(第01期);全文 *

Also Published As

Publication number Publication date
CN113076823A (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
CN111860670B (zh) 域自适应模型训练、图像检测方法、装置、设备及介质
CN111723860B (zh) 一种目标检测方法及装置
CN108764195B (zh) 手写模型训练方法、手写字识别方法、装置、设备及介质
CN111881737B (zh) 年龄预测模型的训练方法及装置、年龄预测方法及装置
CN110569696A (zh) 用于车辆部件识别的神经网络系统、方法和装置
WO2021114809A1 (zh) 车辆损伤特征检测方法、装置、计算机设备及存储介质
CN109086653B (zh) 手写模型训练方法、手写字识别方法、装置、设备及介质
CN111950643B (zh) 图像分类模型训练方法、图像分类方法及对应装置
CN110705233B (zh) 基于文字识别技术的笔记生成方法、装置和计算机设备
CN109886330B (zh) 文本检测方法、装置、计算机可读存储介质和计算机设备
CN112116599A (zh) 基于弱监督学习的痰涂片结核杆菌语义分割方法及系统
CN114549913B (zh) 一种语义分割方法、装置、计算机设备和存储介质
CN112070069A (zh) 遥感图像的识别方法和装置
CN110929638A (zh) 一种人体关键点识别方法、装置及电子设备
CN111666932A (zh) 单据审核方法、装置、计算机设备及存储介质
CN111275051A (zh) 字符识别方法、装置、计算机设备和计算机可读存储介质
CN113076823B (zh) 一种年龄预测模型的训练方法、年龄预测方法及相关装置
CN111666974A (zh) 图像匹配方法、装置、计算机设备及存储介质
CN109101984B (zh) 一种基于卷积神经网络的图像识别方法及装置
CN110929724A (zh) 字符识别方法、装置、计算机设备和存储介质
CN112183525B (zh) 一种文本识别模型的构建及文本识别方法和装置
CN116910571A (zh) 一种基于原型对比学习的开集域适应方法及系统
CN113592045B (zh) 从印刷体到手写体的模型自适应文本识别方法和系统
CN112699809B (zh) 痘痘类别识别方法、装置、计算机设备及存储介质
CN114693997A (zh) 基于迁移学习的图像描述生成方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant