CN108564029B - 基于级联多任务学习深度神经网络的人脸属性识别方法 - Google Patents

基于级联多任务学习深度神经网络的人脸属性识别方法 Download PDF

Info

Publication number
CN108564029B
CN108564029B CN201810323645.7A CN201810323645A CN108564029B CN 108564029 B CN108564029 B CN 108564029B CN 201810323645 A CN201810323645 A CN 201810323645A CN 108564029 B CN108564029 B CN 108564029B
Authority
CN
China
Prior art keywords
network
face
cascaded
task
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810323645.7A
Other languages
English (en)
Other versions
CN108564029A (zh
Inventor
严严
庄妮
王菡子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN201810323645.7A priority Critical patent/CN108564029B/zh
Publication of CN108564029A publication Critical patent/CN108564029A/zh
Application granted granted Critical
Publication of CN108564029B publication Critical patent/CN108564029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

基于级联多任务学习深度神经网络的人脸属性识别方法,涉及计算机视觉技术。首先设计级联的深度卷积神经网络,然后在级联的深度卷积神经网络里,对于每一个级联的子网络,采用多任务学习,同时学习人脸分类、边框回归、人脸关键点检测、人脸属性分析四个任务,接着在基于级联多任务学习的深度卷积神经网络里,采用一种动态损失权重机制,来计算人脸属性的损失权重,最终根据训练好的网络模型,将级联的最后一个子网络的人脸属性识别结果作为最终的人脸属性识别结果。使用级联的方法联合训练了三个不同的子网络,达到了端到端的训练,优化了人脸属性识别的结果,不同于在损失函数里使用固定的损失权重,本发明考虑到不同人脸属性间的差异性。

Description

基于级联多任务学习深度神经网络的人脸属性识别方法
技术领域
本发明涉及计算机视觉技术,具体是涉及一种基于级联多任务学习深度神经网络的人脸 属性识别方法。
背景技术
在过去几年,人脸属性识别吸引了越来越多计算机视觉及模式识别领域的专家学者的关 注。人脸属性识别的目标在于,对于给定的人脸图片,能预测出其所包含的人脸属性,包括 微笑、性别、吸引力等。人脸属性识别有着广泛而实际的应用,包括人脸验证、图片查找以 及图片检索等。然而由于人脸视角、光照、表情等人脸表观的变化,进行人脸属性识别仍然 是一个极大的挑战。
当前,由于卷积神经网络的突出表现,很多人脸属性识别的工作采用卷积神经网络来预 测人脸属性。通常来说,基于卷积神经网络的人脸属性识别方法可以大致分为两类:基于单 标签学习的方法和基于多标签学习的方法。
基于单标签学习的方法,首先通过卷积神经网络提取人脸图片的特征,接着采用支持向 量机来对每个人脸属性分别进行预测。相反地,基于多标签学习的方法能同时预测多个人脸 属性。Liu等人(Z.Liu,P.Luo,X.Wang and X.Tang,“Deep learning faceattributes in the wild”,IEEE International Conference on Computer Vision,2015,pp.3730-3738.) 提出了一种基于深度学习的人脸属性识别方法,其为单标签的学习方法。
而Rudd等人(E.M.Rudd,M.Günther,T.E.Boult,“Moon:A mixed objectiveoptimization network for the recognition of facial attributes”,in Proceedingsof the European Conference on Computer Vision,2016,pp.19-35.)提出了一种混合目标 优化网络的方法用于人脸属性识别,其为多标签的学习方法。一般来说,上面这些方法通常 首先对输入的图像进行预处理(即进行人脸检测及人脸对齐),接着再进行人脸属性分析。 换句话说,人脸分类、边框回归、人脸关键点检测、人脸属性识别这四个任务分别被独立地 进行训练。所以,这四个任务间隐含的关联性被忽略了。进一步来说,对于这些方法中的损 失函数,各个人脸属性所对应的损失权重是固定且相等的。因此,由于人脸属性间的差异性 没有被有效地利用,人脸属性识别的效果不能被优化。
发明内容
本发明的目的在于提供一种基于级联多任务学习深度神经网络的人脸属性识别方法。
本发明包括以下步骤:
1)准备训练样本集:
Figure BDA0001625927520000021
Figure BDA0001625927520000022
N为训练样本数,box_k为人脸标注框的坐标向量长度,landmark_p为人脸关 键点的坐标向量长度,attr_q为人脸属性的总类别数,N、box_k、landmark_p、attr_q 为自然数;
Figure BDA0001625927520000023
表示训练样本对应的固定大小的图像;
Figure BDA0001625927520000024
表示训练样本
Figure BDA0001625927520000025
是否属于人脸的类 别:
Figure BDA0001625927520000026
Figure BDA0001625927520000027
表示训练样本
Figure BDA0001625927520000028
的人脸标注框的坐标;
Figure BDA0001625927520000029
表示训练样本
Figure BDA00016259275200000210
的人脸关键点的坐标;
Figure BDA00016259275200000211
表示训练样本
Figure BDA00016259275200000212
的人脸属性的类别:
Figure RE-GDA00016590326000000213
2)对于训练样本集中每幅输入图像,采用均值池化(average pooling)的方式将输入 图像调整到三个不同的尺度,作为三个级联子网络的输入,构造一个图像金字塔作为级联的 深度卷积神经网络的输入;
3)设计级联的深度卷积神经网络结构;
4)在级联的深度卷积神经网络内,对于每一个级联的子网络,采用多任务学习,同时 学习人脸分类、边框回归、人脸关键点检测、人脸属性分析四个任务;
5)在级联的深度卷积神经网络内采用一种动态损失权重机制,用于计算人脸属性的损 失权重;
6)将训练样本集中的所有图像放进基于级联多任务学习的深度卷积神经网络内利用反 向传播算法进行端到端的训练,得到训练好的模型;
7)利用模型进行人脸属性识别,其中级联网络里的最后一个级联子网络得到的人脸属 性分析结果为最终的识别结果。
在步骤1)中,所述准备训练样本集需要整合多个人脸任务标签,包括以下子步骤:
(1)分别获取人脸分类、边框回归、人脸关键点检测、人脸属性识别的标注;
(2)将人脸分类、边框回归、人脸关键点检测、人脸属性识别的标注整合到一起组成 训练样本集
Figure BDA0001625927520000031
N为训 练样本数,box_k为人脸标注框的坐标向量长度,landmark_p为人脸关键点的坐标向量长 度,attr_q为人脸属性的总类别数,N、box_k、landmark_p、attr_q为自然数;
Figure BDA0001625927520000032
表示训练样本对应的固定大小的图像;
Figure BDA0001625927520000033
表示训练样本
Figure BDA0001625927520000034
的人脸类别;
Figure BDA0001625927520000035
表示训练 样本
Figure BDA0001625927520000036
的人脸标注框的坐标,
Figure BDA0001625927520000037
为实数,总共四个;
Figure BDA0001625927520000038
表示 训练样本
Figure BDA0001625927520000039
的人脸关键点的坐标,
Figure BDA00016259275200000310
为实数;
Figure BDA00016259275200000311
表示训练样 本
Figure BDA00016259275200000312
的人脸属性的类别。
在步骤3)中,所述设计级联的深度卷积神经网络结构包括以下子步骤:
(1)级联的第一个子网络为小型全卷积网络,小型全卷积网络输入图像的大小为输入的 图像重新调整大小到56×56,用于提取输入的图像的粗粒度特征;对于小型全卷积网络的前 几层,采用VGG-16(K.Simonyan,A.Zisserman,“Very deep convolutionalnetworks for large-scale image recognition”,arXiv:1409.1556,2014.)中的第一阶段到第三阶段 ('conv1_1'-'conv3_3')的网络结构,小型全卷积网络最后一层共享卷积层的大小为 1×256×1×1;
(2)级联的第二个子网络为中型网络,中型网络输入图像的大小为输入的图像重新调整 大小到112×112,用于提取输入图像的中等粒度特征;对于中型网络的前几层,采用VGG-16 (K.Simonyan,A.Zisserman,“Very deep convolutional networks for large-scale image recognition”,arXiv:1409.1556,2014.)中的第一阶段到第四阶段('conv1_1'-'conv4_3') 的网络结构,中型网络先输出一个1024维的全连接层,接着连接上由小型全卷积网络平铺得 到的一个256维的全连接层,中型网络最后一层共享全连接层的大小为1×1028;
(3)级联的第三个子网络为大型网络,大型网络输入图像的大小为输入的图像固定好的 大小,即224×224,用于提取输入的图像的细粒度特征;对于大型网络的前几层,采用VGG-16 (K.Simonyan,A.Zisserman,“Very deep convolutional networks for large-scale image recognition”,arXiv:1409.1556,2014.)中的第一阶段到第五阶段('conv1_1'-'conv5_3') 的网络结构,大型网络先输出一个1024维的全连接层,接着连接上中型网络最后一层大小为 1×1028的共享全连接层,大型网络最后一层共享全连接层的大小为1×2052。
在步骤4)中,所述在级联的深度卷积神经网络内,对于每一个级联的子网络,采用多 任务学习,包括以下子步骤:
(1)对于人脸分类任务,用于对给定的图片判断是否包含人脸,对于每一个训练样本
Figure BDA0001625927520000041
计算人脸分类任务的损失,采用交叉熵损失函数:
Li cls=-(yi clslog(pi)+(1-yi cls)(1-log(pi))) (1)
pi表示网络计算得到的表明训练样本
Figure BDA0001625927520000042
是否为人脸的概率;
Figure BDA0001625927520000043
为标签;
(2)对于边框回归任务,视为回归问题,其目标在于预测人脸候选框的坐标;对于每 一个训练样本
Figure BDA0001625927520000044
计算边框回归任务的损失,采用欧式损失函数:
Figure BDA0001625927520000045
其中,
Figure BDA0001625927520000046
表示从网络中得到的回归人脸候选框的坐标向量,所述坐标向量包括左边、 上边、高度和宽度;
Figure BDA0001625927520000047
表示标注的人脸候选框的坐标向量;
(3)对于人脸关键点检测任务,类似于边框回归任务,也是一个回归问题,对于每一 个训练样本
Figure BDA0001625927520000048
计算人脸关键点检测任务的损失,采用欧式损失函数:
Figure BDA0001625927520000049
其中,
Figure BDA00016259275200000410
表示从网络中得到的人脸关键点的坐标向量,总共采用5个人脸关键点;
Figure BDA00016259275200000411
表示标注的人脸关键点的坐标向量;
(4)对于人脸属性分析任务,类似于人脸分类任务,可视为二分类问题,对于每一个 训练样本
Figure BDA00016259275200000412
计算人脸属性分析任务的损失,采用带有动态损失权重机制的交叉熵损失函数:
Figure BDA00016259275200000413
其中,μω∈Rd(参照公式(6))表示对应于d个人脸属性的动态权重向量;
Figure BDA0001625927520000051
表示对于每一个训练样本
Figure BDA0001625927520000052
所对应的d个人脸属性的交叉熵损 失向量;
(5)三个级联子网络的损失构成一个联合损失,所述三个级联子网络为小型全卷积网 络、中型网络、大型网络;
Figure BDA0001625927520000053
其中,N表示训练样本的数量,j表示三个子网络的索引,整个网络通过反向传播算法进行 优化。
在步骤5)中,所述在级联的深度卷积神经网络内采用一种动态损失权重机制,为了学 习动态权重,对每一个子网络的最后的共享特征x增加一层网络层和一层softmax层,所述 网络层,在小型全卷积网络里为卷积层,在中型网络以及大型网络里为全连接层;
定义ωw∈RD×d和εω∈Rd分别为卷积层或者全连接层中的权重矩阵和偏差向量,softmax 层的输出为:
Figure BDA0001625927520000054
其中,
Figure BDA0001625927520000055
其中,μω=[μ12,…,μd]T表示d维的动态权重向量,且μ12+…+μd=1.0; α=[α12,…,αd]T表示一个d维的向量,softmax函数将d个动态权重转换成正实数值,且 其和为1.0。
本发明首先设计级联的深度卷积神经网络,然后在级联的深度卷积神经网络里,对于每 一个级联的子网络,采用多任务学习,同时学习人脸分类、边框回归、人脸关键点检测、人 脸属性分析四个任务,接着在基于级联多任务学习的深度卷积神经网络里,采用一种动态损 失权重机制,来计算人脸属性的损失权重,最终根据训练好的网络模型,将级联的最后一个 子网络的人脸属性识别结果作为最终的人脸属性识别结果。
本发明使用多任务学习来同时训练四个相关的人脸任务,同时预测多个人脸属性。通过 利用不同任务间的内在依赖,本发明使得人脸属性识别的结果能被有效地提高。本发明使用 级联的方法联合训练了三个不同的子网络,达到了端到端的训练,优化了人脸属性识别的结 果。不同于在损失函数里使用固定的损失权重,本发明考虑到不同人脸属性间的差异性,提 出了一种动态损失权重机制来自动并动态地计算人脸属性的损失权重。
附图说明
图1为本发明实施例的框架图。
图2为在CelebA数据集上,本发明提出的方法中多任务学习级联不同的任务的结果对比 图。在图2中,标记A为本发明提出的方法,T1为人脸关键点检测,T2为人脸检测,T3为 人脸属性识别。
具体实施方式
以下实施例将结合附图对本发明作详细说明,本实施例在以本发明技术方案为前提下进 行实施,给出了实施方式和具体操作过程,但本发明的保护范围不限于下述的实施例。
参见图1,本发明实施例包括以下步骤:
1.设计级联的深度卷积神经网络。对于输入的图像,采用均值池化(ave-pooling)的方 式将图像调整到三个不同的尺度,作为三个级联子网络的输入,构造一个图像金字塔。
A1.级联的第一个子网络为小型全卷积网络,其输入图像的大小为输入的图像重新调整 大小到56×56,用于提取输入的图像的粗粒度特征。对于小型全卷积网络的前几层,采用 VGG-16(K.Simonyan,A.Zisserman,“Very deep convolutional networks forlarge-scale image recognition”,arXiv:1409.1556,2014.)中的第一阶段到第三阶段('conv1_1'-'conv3_3')的网络结构。小型全卷积网络最后一层共享卷积层的大小为 1×256×1×1。
A2.级联的第二个子网络为中型网络,其输入图像的大小为输入的图像重新调整大小到 112×112,用于提取输入图像的中等粒度特征。对于中型网络的前几层,采用VGG-16(K. Simonyan,A.Zisserman,“Very deep convolutional networks for large-scaleimage recognition”,arXiv:1409.1556,2014.)中的第一阶段到第四阶段('conv1_1'-'conv4_3') 的网络结构。中型网络先输出一个1024维的全连接层,接着连接上由小型全卷积网络平铺得 到的一个256维的全连接层,因此中型网络最后一层共享全连接层的大小为1×1028。
A3.级联的第三个子网络为大型网络,其输入图像的大小为输入的图像固定好的大小(即 224×224),用于提取输入的图像的细粒度特征。对于大型网络的前几层,采用VGG-16(K. Simonyan,A.Zisserman,“Very deep convolutional networks for large-scale image recognition”,arXiv:1409.1556,2014.)中的第一阶段到第五阶段('conv1_1'-'conv5_3') 的网络结构。大型网络先输出一个1024维的全连接层,接着连接上中型网络最后一层大小为 1×1028的共享全连接层。因此,大型网络最后一层共享全连接层的大小为1×2052。
2.在级联的深度卷积神经网络里,对于每一个级联的子网络,采用多任务学习,同时学 习人脸分类、边框回归、人脸关键点检测、人脸属性分析四个任务。
B1.对于人脸分类任务,用于对给定的图片判断是否包含人脸,对于每一个训练样本
Figure BDA0001625927520000071
计 算人脸分类任务的损失,采用交叉熵损失函数:
Li cls=-(yi clslog(pi)+(1-yi cls)(1-log(pi))), (1)
pi表示网络计算得到的表明训练样本
Figure BDA0001625927520000072
是否为人脸的概率;
Figure BDA0001625927520000073
为标签。
B2.对于边框回归任务,可视为回归问题,其目标在于预测人脸候选框的坐标,对于每一 个训练样本
Figure BDA0001625927520000074
计算边框回归任务的损失,采用欧式损失函数:
Figure BDA0001625927520000075
其中,
Figure BDA0001625927520000076
表示从网络中得到的回归人脸候选框的坐标向量(包括,左边、上边、高度 和宽度);
Figure BDA0001625927520000077
表示标注的人脸候选框的坐标向量。
B3.对于人脸关键点检测任务,类似于边框回归任务,也是一个回归问题。对于每一个训 练样本
Figure BDA0001625927520000078
计算人脸关键点检测任务的损失,采用欧式损失函数:
Figure BDA0001625927520000079
其中,
Figure BDA00016259275200000710
表示从网络中得到的人脸关键点的坐标向量,总共采用五个人脸关键点;
Figure BDA00016259275200000711
表示标注的人脸关键点的坐标向量。
B4.对于人脸属性分析任务,类似于人脸分类任务,可视为二分类问题,对于每一个训练 样本
Figure BDA0001625927520000081
计算人脸属性分析任务的损失,采用带有动态损失权重机制的交叉熵损失函数:
Figure BDA0001625927520000082
其中,μω∈Rd(参照公式(6))表示对应于d个人脸属性的动态权重向量;
Figure BDA0001625927520000083
表示对于每一个训练样本
Figure BDA0001625927520000084
所对应的d个人脸属性的交叉熵损失向量。
B5.三个级联子网络(即小型全卷积网络、中型网络、大型网络)的损失构成一个联合损 失:
Figure BDA0001625927520000085
其中,N表示训练样本的数量,j表示三个子网络的索引。整个网络通过反向传播算法进行 优化。
3.为了学习动态损失权重,对每一个子网络的最后的共享特征x增加一层网络层(即在 小型全卷积网络里为卷积层和在中型以及大型网络里为全连接层)和一层softmax层。定义 ωw∈RD×d和εω∈Rd分别为卷积层或者全连接层中的权重矩阵和偏差向量,因此softmax层的 输出为:
Figure BDA0001625927520000086
其中,
Figure BDA0001625927520000087
其中,μω=[μ12,…,μd]T表示d维的动态权重向量,且μ12+…+μd=1.0; α=[α12,…,αd]T表示一个d维的向量。softmax函数将d个动态权重转换成正实数值,且 其和为1.0。
表1为在CelebA和LFWA数据集上本发明提出的方法与其他方法的人脸属性分析结果对 比。
表1
Figure BDA0001625927520000091
其中,FaceTracer对应N.Kumar等人提出的方法(N.Kumar,P.Belhumeur,S.Nayar,“Facetracer:A search engine for large collections of images with faces”,inProceedings of the European Conference on Computer Vision,2008,pp.340-353.);
PANDA-w和PANDA-l对应N.Zhang等人提出的方法(N.Zhang,M.Paluri,M.Ranzato,T.Darrel,“Panda:Pose aligned networks for deep attribute modeling”,inProceedings of the IEEE Conference on Computer Vision and PatternRecognition,2014, pp.1637-1644.);
ANet对应J.Li等人提出的方法(J.Li,Y.Zhang,“Learning surf cascade forfast and accurate object detection”,in Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2013,pp.3468-3475.);
LNets+ANet(w/o)和LNets+ANet对应Z.Liu等人提出的方法(Z.Liu,P.Luo,X.Wang, X.Tang,“Deep learning face attributes in the wild”,in Proceedings ofthe IEEE International Conference on Computer Vision,2015,pp.3730-3738.);
MT-RBM(PCA)对应M.Ehrlich等人提出的方法(M.Ehrlich,T.J.Shields,T.Almaev,M. R.Amer,“Facial attributes classification using multi-taskrepresentation learning”,in Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition,2016,pp.47-55.)。
在CelebA数据集上,本发明提出的方法中多任务学习级联不同的任务的结果对比图,参 见图2。

Claims (1)

1.基于级联多任务学习深度神经网络的人脸属性识别方法,其特征在于包括以下步骤:
1)准备训练样本集:
Figure FDA0002722080710000011
i=1,…,N,N为训练样本数,box_k为人脸标注框的坐标向量长度,landmark_p为人脸关键点的坐标向量长度,attr_q为人脸属性的总类别数,N、box_k、landmark_p、attr_q为自然数;
Figure FDA0002722080710000012
表示训练样本对应的固定大小的图像;
Figure FDA0002722080710000013
表示训练样本
Figure FDA0002722080710000014
是否属于人脸的类别:
Figure FDA0002722080710000015
Figure FDA0002722080710000016
表示训练样本
Figure FDA0002722080710000017
的人脸标注框的坐标;
Figure FDA0002722080710000018
表示训练样本
Figure FDA0002722080710000019
的人脸关键点的坐标;
Figure FDA00027220807100000110
表示训练样本
Figure FDA00027220807100000111
的人脸属性的类别:
Figure FDA00027220807100000112
所述准备训练样本集需要整合多个人脸任务标签,包括以下子步骤:
(1)分别获取人脸分类、边框回归、人脸关键点检测、人脸属性识别的标注;
(2)将人脸分类、边框回归、人脸关键点检测、人脸属性识别的标注整合到一起组成训练样本集
Figure FDA00027220807100000113
2)对于训练样本集中每幅输入图像,采用均值池化的方式将输入图像调整到三个不同的尺度,作为三个级联子网络的输入,构造一个图像金字塔作为级联的深度卷积神经网络的输入;
3)设计级联的深度卷积神经网络结构,包括以下子步骤:
(1)级联的第一个子网络为小型全卷积网络,用于提取输入的图像的粗粒度特征,小型全卷积网络输入图像的大小为56×56;对于小型全卷积网络的前几层,采用VGG-16中的第一阶段到第三阶段'conv1_1'~'conv3_3'的网络结构,小型全卷积网络最后一层共享卷积层的大小为1×256×1×1;
(2)级联的第二个子网络为中型全卷积网络,用于提取输入图像的中等粒度特征,中型全卷积网络输入图像的大小为112×112;对于中型网络的前几层,采用VGG-16中的第一阶段到第四阶段'conv1_1'~'conv4_3'的网络结构,中型网络先输出一个1024维的全连接层,接着连接上由小型全卷积网络平铺得到的一个256维的全连接层,中型网络最后一层共享全连接层的大小为1×1028;
(3)级联的第三个子网络为大型全卷积网络,用于提取输入的图像的细粒度特征,大型全卷积网络输入图像的大小为224×224;对于大型网络的前几层,采用VGG-16中的第一阶段到第五阶段'conv1_1'~'conv5_3'的网络结构,大型网络先输出一个1024维的全连接层,接着连接上中型网络最后一层大小为1×1028的共享全连接层,大型网络最后一层共享全连接层的大小为1×2052;
4)在级联的深度卷积神经网络内,对于每一个级联的子网络,采用多任务学习,同时学习人脸分类、边框回归、人脸关键点检测、人脸属性分析四个任务;
所述在级联的深度卷积神经网络内,对于每一个级联的子网络,采用多任务学习,包括以下子步骤:
(1)对于人脸分类任务,用于对给定的图片判断是否包含人脸,对于每一个训练样本
Figure FDA0002722080710000021
计算人脸分类任务的损失,采用交叉熵损失函数:
Li cls=-(yi clslog(pi)+(1-yi cls)(1-log(pi))) (1)
pi表示网络计算得到的表明训练样本
Figure FDA0002722080710000022
是否为人脸的概率;
Figure FDA0002722080710000023
为标签;
(2)对于边框回归任务,视为回归问题,其目标在于预测人脸候选框的坐标;对于每一个训练样本
Figure FDA0002722080710000024
计算边框回归任务的损失,采用欧式损失函数:
Figure FDA0002722080710000025
其中,
Figure FDA0002722080710000026
表示从网络中得到的回归人脸候选框的坐标向量,所述坐标向量包括左边、上边、高度和宽度;
Figure FDA0002722080710000027
表示标注的人脸候选框的坐标向量;
(3)对于人脸关键点检测任务,是一个回归问题,对于每一个训练样本
Figure FDA0002722080710000031
计算人脸关键点检测任务的损失,采用欧式损失函数:
Figure FDA0002722080710000032
其中,
Figure FDA0002722080710000033
表示从网络中得到的所有人脸关键点的坐标向量,总共采用5个人脸关键点;
Figure FDA0002722080710000034
表示标注的人脸关键点的坐标向量;
(4)对于人脸属性分析任务,视为二分类问题,对于每一个训练样本
Figure FDA0002722080710000035
计算人脸属性分析任务的损失,采用带有动态损失权重机制的交叉熵损失函数:
Figure FDA0002722080710000036
其中,μω∈Rd表示对应于d个人脸属性的动态权重向量,具体定义参照公式(6);
Figure FDA0002722080710000037
表示对于每一个训练样本
Figure FDA0002722080710000038
所对应的d个人脸属性的交叉熵损失向量;
(5)三个级联子网络的损失构成一个联合损失,所述三个级联子网络为小型全卷积网络、中型网络、大型网络;
Figure FDA0002722080710000039
其中,N表示训练样本的数量,j表示三个子网络的索引,整个网络通过反向传播算法进行优化;
5)在级联的深度卷积神经网络内采用一种动态损失权重机制,用于计算人脸属性的损失权重;
所述在级联的深度卷积神经网络内采用一种动态损失权重机制,为了学习动态权重,对每一个子网络的最后的共享特征x增加一层网络层和一层softmax层,所述网络层,在小型全卷积网络里为卷积层,在中型网络以及大型网络里为全连接层;
定义ωw∈RD×d和εω∈Rd分别为卷积层或者全连接层中的权重矩阵和偏差向量,softmax层的输出为:
Figure FDA0002722080710000041
其中,
Figure FDA0002722080710000042
其中,μω=[μ12,…,μd]T表示d维的动态权重向量,且μ12+…+μd=1.0;α=[α12,…,αd]T表示一个d维的向量,softmax函数将d个动态权重转换成正实数值,且其和为1.0;
6)将训练样本集中的所有图像放进基于级联多任务学习的深度卷积神经网络内利用反向传播算法进行端到端的训练,得到训练好的模型;
7)利用模型进行人脸属性识别,其中级联网络里的最后一个级联子网络得到的人脸属性分析结果为最终的识别结果。
CN201810323645.7A 2018-04-12 2018-04-12 基于级联多任务学习深度神经网络的人脸属性识别方法 Active CN108564029B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810323645.7A CN108564029B (zh) 2018-04-12 2018-04-12 基于级联多任务学习深度神经网络的人脸属性识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810323645.7A CN108564029B (zh) 2018-04-12 2018-04-12 基于级联多任务学习深度神经网络的人脸属性识别方法

Publications (2)

Publication Number Publication Date
CN108564029A CN108564029A (zh) 2018-09-21
CN108564029B true CN108564029B (zh) 2020-12-01

Family

ID=63534695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810323645.7A Active CN108564029B (zh) 2018-04-12 2018-04-12 基于级联多任务学习深度神经网络的人脸属性识别方法

Country Status (1)

Country Link
CN (1) CN108564029B (zh)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109272061B (zh) * 2018-09-27 2021-05-04 安徽理工大学 一种包含两个cnn的深度学习模型的构建方法
CN109523569B (zh) * 2018-10-18 2020-01-31 中国科学院空间应用工程与技术中心 一种基于多粒度网络融合的光学遥感图像分割方法和装置
CN109377535A (zh) * 2018-10-24 2019-02-22 电子科技大学 面部属性自动编辑系统、方法、存储介质和终端
CN109376659A (zh) * 2018-10-26 2019-02-22 北京陌上花科技有限公司 用于人脸关键点网络检测模型的训练方法、人脸关键点检测方法、装置
CN109409303A (zh) * 2018-10-31 2019-03-01 南京信息工程大学 一种基于深度的级联多任务人脸检测与配准方法
CN109344806B (zh) * 2018-10-31 2019-08-23 第四范式(北京)技术有限公司 利用多任务目标检测模型执行目标检测的方法和系统
CN109558815A (zh) * 2018-11-16 2019-04-02 恒安嘉新(北京)科技股份公司 一种实时多人脸的检测及跟踪方法
CN109543606B (zh) * 2018-11-22 2022-09-27 中山大学 一种加入注意力机制的人脸识别方法
CN109800648B (zh) * 2018-12-18 2021-09-28 北京英索科技发展有限公司 基于人脸关键点校正的人脸检测识别方法及装置
CN109685213B (zh) * 2018-12-29 2022-01-07 百度在线网络技术(北京)有限公司 一种训练样本数据的获取方法、装置和终端设备
CN109447053A (zh) * 2019-01-09 2019-03-08 江苏星云网格信息技术有限公司 一种基于双重限制注意力神经网络模型的人脸识别方法
CN109711386B (zh) * 2019-01-10 2020-10-09 北京达佳互联信息技术有限公司 获取识别模型的方法、装置、电子设备及存储介质
CN110427795A (zh) * 2019-01-28 2019-11-08 厦门瑞为信息技术有限公司 一种基于头部照片的属性分析方法、系统和计算机设备
CN109961006A (zh) * 2019-01-30 2019-07-02 东华大学 一种低像素多目标人脸检测和关键点定位方法以及对齐方法
CN109829520B (zh) * 2019-01-31 2021-12-21 北京字节跳动网络技术有限公司 图像处理方法和装置
CN109919059B (zh) * 2019-02-26 2021-01-26 四川大学 基于深度网络层次化与多任务训练的显著性物体检测方法
CN109919097A (zh) * 2019-03-08 2019-06-21 中国科学院自动化研究所 基于多任务学习的人脸和关键点联合检测系统、方法
CN110059753A (zh) * 2019-04-19 2019-07-26 北京朗镜科技有限责任公司 模型训练方法、层间隔识别方法、装置、设备及介质
CN110046595B (zh) * 2019-04-23 2022-08-09 福州大学 一种基于级联式多尺度的密集人脸检测方法
CN110222565A (zh) * 2019-04-26 2019-09-10 合肥进毅智能技术有限公司 一种人脸检测方法、装置、电子设备及存储介质
CN110084221B (zh) * 2019-05-08 2023-02-03 南京云智控产业技术研究院有限公司 一种基于深度学习的带中继监督的序列化人脸关键点检测方法
CN110188692B (zh) * 2019-05-30 2023-06-06 南通大学 一种有效目标快速识别的强化循环级联方法
CN110335248B (zh) * 2019-05-31 2021-08-17 上海联影智能医疗科技有限公司 医学图像病灶检测方法、装置、计算机设备和存储介质
CN110458005B (zh) * 2019-07-02 2022-12-27 重庆邮电大学 一种基于多任务渐进配准网络的旋转不变人脸检测方法
CN110490052A (zh) * 2019-07-05 2019-11-22 山东大学 基于级联多任务学习的人脸检测及人脸属性分析方法及系统
CN110490057B (zh) * 2019-07-08 2020-10-27 光控特斯联(上海)信息科技有限公司 一种基于人脸大数据人工智能聚类的自适应识别方法与系统
CN110580445B (zh) * 2019-07-12 2023-02-07 西北工业大学 一种基于GIoU和加权NMS改进的人脸关键点检测方法
CN110443189B (zh) * 2019-07-31 2021-08-03 厦门大学 基于多任务多标签学习卷积神经网络的人脸属性识别方法
CN110598595B (zh) * 2019-08-29 2022-03-18 合肥工业大学 一种基于人脸关键点和姿态的多属性人脸生成算法
CN110516642A (zh) * 2019-08-30 2019-11-29 电子科技大学 一种轻量化人脸3d关键点检测方法及系统
CN112668362B (zh) * 2019-10-15 2023-06-16 浙江中正智能科技有限公司 一种动态优化类代理的人证比对模型训练方法
CN112825119A (zh) * 2019-11-20 2021-05-21 北京眼神智能科技有限公司 人脸属性判断方法、装置、计算机可读存储介质及设备
CN110889446A (zh) * 2019-11-22 2020-03-17 高创安邦(北京)技术有限公司 人脸图像识别模型训练及人脸图像识别方法和装置
CN111340760B (zh) * 2020-02-17 2022-11-08 中国人民解放军国防科技大学 基于多任务两级卷积神经网络的膝关节定位方法
CN111507263B (zh) * 2020-04-17 2022-08-05 电子科技大学 一种基于多源数据的人脸多属性识别方法
CN111612785B (zh) * 2020-06-03 2024-02-02 浙江大华技术股份有限公司 人脸图片质量评估方法、装置及存储介质
CN111898406B (zh) * 2020-06-05 2022-04-29 东南大学 基于焦点损失和多任务级联的人脸检测方法
CN111695522B (zh) * 2020-06-15 2022-10-18 重庆邮电大学 一种平面内的旋转不变人脸检测方法、装置及存储介质
CN111861909B (zh) * 2020-06-29 2023-06-16 南京理工大学 一种网络细粒度图像分类方法
CN111931929B (zh) * 2020-07-29 2023-06-16 深圳地平线机器人科技有限公司 一种多任务模型的训练方法、装置及存储介质
CN111984879A (zh) * 2020-08-19 2020-11-24 交控科技股份有限公司 应用于列车的用户引导方法、装置、设备和存储介质
CN112200260B (zh) * 2020-10-19 2022-06-14 厦门大学 一种基于丢弃损失函数的人物属性识别方法
CN113095211B (zh) * 2021-04-08 2023-08-25 第六镜科技(成都)有限公司 一种图像处理方法、系统及电子设备
CN114155496B (zh) * 2021-11-29 2024-04-26 西安烽火软件科技有限公司 一种基于自注意力的车辆属性多任务协同识别方法
CN115984804B (zh) * 2023-03-14 2023-07-07 安徽蔚来智驾科技有限公司 一种基于多任务检测模型的检测方法及车辆

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912990A (zh) * 2016-04-05 2016-08-31 深圳先进技术研究院 人脸检测的方法及装置
CN107038429A (zh) * 2017-05-03 2017-08-11 四川云图睿视科技有限公司 一种基于深度学习的多任务级联人脸对齐方法
CN107239736A (zh) * 2017-04-28 2017-10-10 北京智慧眼科技股份有限公司 基于多任务级联卷积神经网络的人脸检测方法及检测装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912990A (zh) * 2016-04-05 2016-08-31 深圳先进技术研究院 人脸检测的方法及装置
CN107239736A (zh) * 2017-04-28 2017-10-10 北京智慧眼科技股份有限公司 基于多任务级联卷积神经网络的人脸检测方法及检测装置
CN107038429A (zh) * 2017-05-03 2017-08-11 四川云图睿视科技有限公司 一种基于深度学习的多任务级联人脸对齐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Joint Face Detection and Alignment Using Multitask Cascaded Convolutional Networks;Kaipeng Zhang等;《IEEE Signal Processing Letters》;20160826;论文第1500页第2栏第2段、第1501页第1栏第1-2段 *
Multi-Task Convolutional Neural Network for Pose-Invariant Face Recognition;Xi Yin等;《IEEE Transactions on Image Processing》;20171023;论文第967页第一栏最后两段、第967页第2栏第1-3段及公式7 *

Also Published As

Publication number Publication date
CN108564029A (zh) 2018-09-21

Similar Documents

Publication Publication Date Title
CN108564029B (zh) 基于级联多任务学习深度神经网络的人脸属性识别方法
Hang et al. Classification of hyperspectral and LiDAR data using coupled CNNs
CN107766850B (zh) 基于结合人脸属性信息的人脸识别方法
CN110956185B (zh) 一种图像显著目标的检测方法
CN111368896B (zh) 基于密集残差三维卷积神经网络的高光谱遥感图像分类方法
Lin et al. Automated defect inspection of LED chip using deep convolutional neural network
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
Ji et al. Spectral-spatial constraint hyperspectral image classification
Liu et al. Composite neighbor-aware convolutional metric networks for hyperspectral image classification
CN110633708A (zh) 一种基于全局模型和局部优化的深度网络显著性检测方法
CN112308115B (zh) 一种多标签图像深度学习分类方法及设备
CN110728694B (zh) 一种基于持续学习的长时视觉目标跟踪方法
CN110555060A (zh) 基于成对样本匹配的迁移学习方法
Cai et al. Classification complexity assessment for hyper-parameter optimization
Liu et al. RGB-D joint modelling with scene geometric information for indoor semantic segmentation
Zhao et al. Transfer learning with ensemble of multiple feature representations
CN111652240B (zh) 一种基于cnn的图像局部特征检测与描述方法
CN112115806B (zh) 基于Dual-ResNet小样本学习的遥感影像场景精确分类方法
CN112381179A (zh) 一种基于双层注意力机制的异质图分类方法
CN110211127A (zh) 基于双相关性网络的图像分割方法
CN110473195A (zh) 一种可自动定制的医学病灶检测架构及方法
CN117992805A (zh) 基于张量积图融合扩散的零样本跨模态检索方法、系统
CN116089645A (zh) 一种基于层次化风格的条件文本-电商图片检索方法和系统
CN113449808B (zh) 多源图文信息分类方法及其相应的装置、设备、介质
Logacjov et al. Learning then, learning now, and every second in between: lifelong learning with a simulated humanoid robot

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant