CN111339818B - 一种人脸多属性识别系统 - Google Patents

一种人脸多属性识别系统 Download PDF

Info

Publication number
CN111339818B
CN111339818B CN201911310537.7A CN201911310537A CN111339818B CN 111339818 B CN111339818 B CN 111339818B CN 201911310537 A CN201911310537 A CN 201911310537A CN 111339818 B CN111339818 B CN 111339818B
Authority
CN
China
Prior art keywords
face
attribute
network
image
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911310537.7A
Other languages
English (en)
Other versions
CN111339818A (zh
Inventor
吴元明
袁利娟
万军
孙茂
李子青
谭资昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fourth Military Medical University FMMU
Original Assignee
Fourth Military Medical University FMMU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fourth Military Medical University FMMU filed Critical Fourth Military Medical University FMMU
Priority to CN201911310537.7A priority Critical patent/CN111339818B/zh
Publication of CN111339818A publication Critical patent/CN111339818A/zh
Application granted granted Critical
Publication of CN111339818B publication Critical patent/CN111339818B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种人脸多属性识别系统,属于人脸识别技术领域。该系统包括:预处理单元,用于确定人脸图像,将人脸图像裁剪成预设尺寸;人脸属性网络单元包括底层特征抽取模块、ARM和CRM,底层特征抽取模块用于抽取底层的神经网络特征,ARM用于发现和捕获多个属性之间的相关性,CRM用于探索不同图像区域之间的上下文关系;训练单元,用于训练一个人脸属性预测网络,通过人脸属性预测网络预测各个属性;预测单元,用于将预处理好的人脸图像输入到训练好的人脸属性预测网络中,得到各个人脸属性的预测值。本发明通过探索人脸多属性识别问题中属性之间相关性和图像区域中的上下文关系,将属性合并到同一个框架中学习,以获得更加精准的人脸属性识别。

Description

一种人脸多属性识别系统
技术领域
本发明涉及人脸识别技术领域,特别涉及一种人脸多属性识别系统。
背景技术
人脸属性识别往往需要同时识别几十个属性,比如性别、年龄、太阳镜和发型。在这些属性中,有些是密切相关的,如“发型”属性往往与“女性”属性相关联;眼角的皱纹、胡须属性可以为判断年龄提供一定的信息。针对这样的现象,提高人脸属性识别的有效方法是找到多元人脸属性之间的内在联系。
现有技术中,大多数仅通过简单的多任务学习(multi-task learning,MTL),来利用多个属性之间的关系框架,仅在共享的低层中允许不同属性之间的信息交换。由于MTL利用损失函数和最后的层来指导其学习,因此不同属性之间的显式信息交换和传播可能不足,因而这样的框架缺乏属性之间关系的全面表示。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种人脸多属性识别系统,所述系统包括:
预处理单元,用于确定人脸图像,并将所述人脸图像裁剪成预设尺寸;
人脸属性网络单元,所述人脸属性网络单元包括底层特征抽取模块、人脸属性关系模块ARM和上下文关系模块CRM,所述底层特征抽取模块用于抽取底层的神经网络特征,所述ARM用于发现和捕获多个属性之间的相关性,所述CRM用于探索不同图像区域之间的上下文关系;
训练单元,用于训练一个人脸属性预测网络,通过所述人脸属性预测网络预测各个属性;
预测单元,用于将预处理好的人脸图像输入到训练好的人脸属性预测网络中,得到各个人脸属性的预测值。
可选地,所述预处理单元具体用于:
输入图像,对所述图像进行人脸检测,判断所述图像中是否包含人脸,如果不包含人脸,则放弃所述图像;
如果所述图像包含人脸,则将所述图像确定为人脸图像,并对所述图像进行关键点定位,得到两眼中心及上嘴唇点的位置;
根据所述两眼中心及上嘴唇点的位置,对图像进行旋转、缩放、对齐,并裁剪成预设尺寸,输出裁剪后的图像。
可选地,所述底层特征抽取模块具体用于:
利用残差网络结构ResNet-50中除最后三个残差单元外的剩余网络作为底层特征抽取模块,抽取底层的神经网络特征。
可选地,所述ARM具体用于:
基于高级特征
Figure GDA0004150333000000021
提取具有S个完全连接层的特定于属性的特征,每个所述完全连接层对应于一个具体属性,所述高级特征在全局平均池化GAP层之后获得,且c=2048表示特征通道数;
将ith图像的jth属性的特定属性的特征表示为xij∈Rc,维数为d,从xij生成jth属性的第一预测分数,以确保仅在jth的监督下学习,具体如下公式(1)所示:
Figure GDA0004150333000000022
其中,所述σ是sigmoid函数,所述BN表示批归一化(BatchNormalization,BN)层,所述
Figure GDA0004150333000000023
表示分类器中所述jth属性的参数;
给定特定属性的特征
Figure GDA0004150333000000024
的矩阵形式),以输入为基础构造GCN层,确定多个人脸属性之间的关系/>
Figure GDA0004150333000000025
具体如下公式(2)所示:
Figure GDA0004150333000000026
其中,AA是学习的邻接矩阵,wA是滤波器的参数矩阵,DA-1/2(AA+I)DA-1/2是规范化的相邻矩阵,图卷积是使用滤波器wA执行卷积,然后将输入特征与规范化的相邻矩阵DA-1/2(AA+I)DA-1/2相乘;
通过使用来自所有节点的信息来生成更新的节点,将wA设置为d×1的大小,并且所述GCN层的输出是S×1的矩阵,每个输出对应一个属性,使用所述BN层和基于所述
Figure GDA0004150333000000031
的sigmoid激活函数,生成第二预测分数,具体如下公式(3)所示:
Figure GDA0004150333000000032
可选地,所述CRM具体用于:
给定输入要素
Figure GDA0004150333000000033
所述输入要素在GAP层之前获得,所述h、所述w分别表示要素图的高度和宽度;
采用图形投影方法将二维图像投影到一组聚类/节点上,预先指定v的数量,采用软分配方案计算权重,以将Pth像素
Figure GDA0004150333000000034
分配给Kth簇,具体如下公式(4)所示:
Figure GDA0004150333000000035
其中,
Figure GDA0004150333000000036
和bk是Kth集群的可训练参数,/>
Figure GDA0004150333000000037
和bl也是可训练参数,所述/>
Figure GDA0004150333000000038
bl
Figure GDA0004150333000000039
bk的索引不同;/>
Figure GDA00041503330000000310
是第p个像素的特征值,Pth是指第p个像素,/>
Figure GDA00041503330000000311
是指一个输入的特征值;
给定v个可学习的节点
Figure GDA00041503330000000312
通过使用输入要素/>
Figure GDA00041503330000000313
和顶点Ck之间的残差加权平均值聚合节点的特征,具体如公式(5)所示:/>
Figure GDA00041503330000000314
聚合的特征
Figure GDA00041503330000000315
进行L2归一化,得到如下公式(6):
Figure GDA00041503330000000316
不同的节点包含来自不同图像区域的特征,所有节点
Figure GDA00041503330000000317
的特征表示为矩阵形式,每行代表一个图形节点,具体如下公式(7):
Figure GDA0004150333000000041
基于特征Vi的具有v个节点的图,根据如下公式(8),用GCN层在所有节点之间传递信息并更新状态,捕获不同区域之间的前后关系:
Figure GDA0004150333000000042
其中,
Figure GDA0004150333000000043
表示ReLU函数,Ac是学习的相邻矩阵,/>
Figure GDA0004150333000000044
是规范化相邻矩阵,Wc表示另一个图卷积层中滤波器的参数矩阵;
串联所有节点
Figure GDA0004150333000000045
的新状态,并表示为/>
Figure GDA0004150333000000046
根据更新的状态获得第三预测分数,具体如下公式(9)所示:
Figure GDA0004150333000000047
其中,wc指分类器的参数。
可选地,所述训练单元具体用于:
将所有的训练图像,经过所述预处理单元处理;
随机挑选出n张图像,输入到CNN提取高级特征
Figure GDA0004150333000000048
和/>
Figure GDA0004150333000000049
将所述高级特征/>
Figure GDA00041503330000000410
Figure GDA00041503330000000411
分别输入到并行的两个网络单元ARM和CRM中进行网络训练;
CNN前向传递,得到子网络特征层输出和最终特征输出;
计算损失函数,用于引导整个网络训练的损失函数包括学习特殊属性特征
Figure GDA00041503330000000412
的约束损失函数、训练ARM和CRM模块的损失函数,所有分类器都采用二进制交叉熵损失函数,所述学习特殊属性特征/>
Figure GDA00041503330000000413
的约束损失函数如下公式(10)所示:
Figure GDA00041503330000000414
其中,ρij是用于解决人脸属性识别中不平衡数据所带来的问题而设定的惩罚系数,yij代表训练样本的属性标签,将学习特殊属性特征
Figure GDA0004150333000000051
的约束损失函数表示为如下公式(11):
Figure GDA0004150333000000052
其中,训练ARM和CRM模型的损失函数也用相同的方法定义,分别表示为LA和LC,训练整个网络的总损失如下公式(12)所示:
L=λ1LA,cons2LA3LC (12)
其中,λ1、λ2、λ3是这些损失的权重参数;
判断训练损失是否收敛,若收敛则终止训练,得到人脸属性预测模型;
若所述训练损失不收敛,则终止训练计算网络参数梯度,采用Adam优化算法更新网络参数,返回所述随机挑选出n张图像,输入到CNN提取高级特征
Figure GDA0004150333000000053
和/>
Figure GDA0004150333000000054
将所述高级特征/>
Figure GDA0004150333000000055
和/>
Figure GDA0004150333000000056
分别输入到并行的两个网络单元ARM和CRM中进行网络训练的步骤。
可选地,所述预测单元具体用于:
将目标图像输入到所述预处理单元处理;
将预处理过的人脸图像输入训练好的人脸属性预测模型中,网络前向传递,经过所述ARM和所述CRM两个分支以后,得到人脸属性预测值
Figure GDA0004150333000000057
和/>
Figure GDA0004150333000000058
将所述
Figure GDA0004150333000000059
和所述/>
Figure GDA00041503330000000510
做算数平均,生成最终的预测值,表示为如下公式(13):
Figure GDA00041503330000000511
以计算年龄、性别、是否戴墨镜、长短发等属性的概率。
本发明实施例提供的技术方案带来的有益效果是:
值得说明的是,本发明提供了一种人脸多属性识别系统,通过探索人脸多属性识别问题中属性之间相关性和图像区域中的上下文关系,将属性合并到同一个框架中学习,以考虑多元人脸属性之间的内在联系,通过构造两个图模块ARM和CRM,利用GCN来捕获人脸多属性之间相关性和不同图像区域之间的上下文关系,以此提升人脸属性分析性能,从而获得更加精准的人脸属性识别,可以应用到安全监控、人机交互、视频检索等诸多领域。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种人脸多属性识别系统的结构框架图;
图2是本发明实施例提供的一种预处理单元的工作流程图;
图3是本发明实施例提供的一种人脸属性网络单元的工作流程图;
图4是本发明实施例提供的一种训练单元的工作流程图;
图5是本发明实施例提供的一种预测单元的工作流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。为了便于理解,在对本发明实施例进行详细的解释说明之前,先对本发明实施例涉及的应用场景进行介绍。
通常人脸属性识别往往需要同时分析几十个属性,在这些属性中,有些是密切相关的,因而一种提高人脸属性识别的有效方法是找到多元人脸属性之间的内在联系,目前仅通过简单的MTL(multi-task learning,多任务学习)来利用多个属性之间的关系框架,仅在共享的低层中允许不同属性之间的信息交换,缺乏属性之间关系的全面表示。为了解决上述问题,本发明提供了一种人脸多属性识别系统,引入了GCN(GraphConvolutionalNetwork,图卷积网络),它具有强大的能力对依赖关系进行建模,并可以在图结构上传播概念之间的信息。
图1是本发明实施例提供的一种人脸多属性识别系统的结构框架图,参见图1,本发明提供的人脸多属性识别系统包括:预处理单元、人脸属性网络单元、训练单元、预测单元,其中:
预处理单元,用于确定人脸图像,并将人脸图像裁剪成预设尺寸;
人脸属性网络单元,人脸属性网络单元包括底层特征抽取模块、ARM(AttributeRelation Module,人脸属性关系模块)和CRM(Contextual Relation Module,上下文关系模块),底层特征抽取模块用于抽取底层的神经网络特征,ARM用于发现和捕获多个属性之间的相关性,CRM用于探索不同图像区域之间的上下文关系;
训练单元,用于训练一个人脸属性预测网络,通过人脸属性预测网络预测各个属性;
预测单元,用于将预处理好的人脸图像输入到训练好的人脸属性预测网络中,得到各个人脸属性的预测值。
需要说明的是,人脸属性网络单元主要采用两个新的深度网络结构ARM和CRM,来解决人脸属性识别问题。
进一步地,图2是本发明实施例提供的一种预处理单元的工作流程图,参见图2,该预处理单元的具体工作流程可以为:
先输入图像,然后对该图像进行人脸检测,判断该图像中是否包含人脸,如果不包含人脸,则放弃该图像;
如果该图像包含人脸,则将该图像确定为人脸图像,并对该图像进行关键点定位,得到两眼中心及上嘴唇点的位置,然后根据上述两关键点的位置,对图像进行旋转、缩放、对齐,并裁剪成预设尺寸,输出裁剪后的图像。
需要说明的是,预设尺寸可以根据实际情况所需预先进行设置,如预设尺寸可以为224*224。
进一步地,图3是本发明实施例提供的一种人脸属性网络单元的工作流程图,由于人脸属性网络单元包括底层特征抽取模块、ARM和CRM,因而分别对上述三个模块的具体工作流程分别进行介绍:
(1)底层特征抽取模块
利用残差网络结构ResNet-50中除最后三个残差单元外的剩余网络作为底层特征抽取模块,抽取底层的神经网络特征。需要说明的是,该底层特征抽取模块主要包括一些卷积层,用于抽取底层的神经网络特征。
(2)ARM
需要说明的是,此模块旨在发现和捕获属性关系,它使用ResNet-50的最后三个剩余网络作为主要体系结构提取高级特征。参见图3,首先基于高级特征提取具有S个完全连接层的特定于属性的特征,该模块的特征提取主要基于CNN(Convolutional NeuralNetwork,卷积神经网络),其中每个完全连接层对应于一个具体属性;然后通过约束损失函数来学习特定于属性的特征,每个特征都对应于一个属性,每个学习到的特征将被视为图中的一个节点;之后,根据给定特定属性的特征,并以输入为基础构造GCN层,以探索多个人脸属性之间的关系;最后,使用BN层和sigmoid激活函数来生成预测分数。
具体地,先基于高级特征
Figure GDA0004150333000000081
提取具有S个完全连接层的特定于属性的特征,每个完全连接层对应于一个具体属性,该高级特征在GAP(GlobalAveragePooling,全局平均池化)层之后获得,且c=2048表示特征通道数;然后将ith图像的jth属性的特定属性的特征表示为xij∈Rc,维数为d,仅从xij生成jth属性的第一预测分数,以确保仅在jth的监督下学习,具体如下公式(1)所示:
Figure GDA0004150333000000082
其中,σ是sigmoid函数,BN表示批归一化(BatchNormalization,BN)层,
Figure GDA0004150333000000083
表示分类器中jth属性的参数;
之后,给定特定属性的特征
Figure GDA0004150333000000084
的矩阵形式),以输入为基础构造GCN层,确定多个人脸属性之间的关系,具体如下公式(2)所示:
Figure GDA0004150333000000085
其中,AA是学习的邻接矩阵,wA是滤波器的参数矩阵,DA-1/2(AA+I)DA-1/2是规范化的相邻矩阵,图卷积是使用滤波器wA执行卷积,然后将输入特征与规范化的相邻矩阵DA-1/2(AA+I)DA-1/2相乘;
最后,通过使用来自所有节点的信息来生成更新的节点,将wA设置为d×1的大小,并且GCN层的输出是S×1的矩阵,每个输出对应一个属性,使用BN层和sigmoid激活函数,生成第二预测分数,具体如下公式(3)所示:
Figure GDA0004150333000000091
需要说明的是,BN层用于平衡正输出和负输出,可以缓解数据不平衡问题。首先用零均值和单位方差归一化预测向量,然后学习缩放其值,并为其添加适当的偏差。因此,它改变了正样本和负样本的输出分布,并使输出分布适应不平衡数据,以实现更好的性能。
(3)CRM
需要说明的是,该模块旨在探索不同图像区域之间的上下文关系,它也是使用ResNet-50的最后三个剩余网络作为主要体系结构提取高级特征
Figure GDA0004150333000000092
给定输入要素,参见图3,首先采用图形投影方法将二维图像投影到一组聚类/节点上,之后采用一种软分配方案来计算权重,这一步骤可以通过softmax函数实现;之后,给定v个可学习的节点,通过使用输入要素和顶点之间的残差加权平均值来聚合节点的特征,然后聚合的特征通过L2进一步做归一化处理,这样,不同的节点包含来自不同图像区域的特征。另外,所有节点的特征也可以表示为矩阵形式,每行代表一个图形节点。为了捕获不同区域之间的上下文关系,考虑基于特征具有v个节点的图,并用GCN层在所有节点之间传递信息并更新其状态到,然后串联所有节点的新状态,根据更新的状态获得第三预测分数。
具体地,给定输入要素
Figure GDA0004150333000000093
该输入要素在GAP层之前获得,h、w分别表示要素图的高度和宽度;然后采用图形投影方法将二维图像投影到一组聚类/节点上,预先指定v的数量,采用软分配方案计算权重,以将Pth像素/>
Figure GDA0004150333000000094
分配给Kth簇,具体如下公式(4)所示:
Figure GDA0004150333000000095
其中,
Figure GDA0004150333000000096
和bk是Kth集群的可训练参数,/>
Figure GDA0004150333000000097
和bl也是可训练参数,/>
Figure GDA0004150333000000098
bl和/>
Figure GDA0004150333000000099
bk的索引不同;/>
Figure GDA00041503330000000910
是第p个像素的特征值,Pth是指第p个像素,/>
Figure GDA00041503330000000911
是指一个输入的特征值;
给定v个可学习的节点
Figure GDA0004150333000000101
通过使用输入要素/>
Figure GDA0004150333000000102
和顶点Ck之间的残差加权平均值聚合节点的特征,具体如公式(5)所示:
Figure GDA0004150333000000103
聚合的特征
Figure GDA0004150333000000104
进行L2归一化,得到如下公式(6):
Figure GDA0004150333000000105
不同的节点包含来自不同图像区域的特征,所有节点
Figure GDA0004150333000000106
的特征表示为矩阵形式,每行代表一个图形节点,具体如下公式(7):
Figure GDA0004150333000000107
基于特征Vi的具有v个节点的图,根据如下公式(8),用GCN层在所有节点之间传递信息并更新状态,捕获不同区域之间的前后关系:
Figure GDA0004150333000000108
其中,
Figure GDA0004150333000000109
表示ReLU函数,Ac是学习的相邻矩阵,/>
Figure GDA00041503330000001010
是规范化相邻矩阵,Wc表示另一个图卷积层中滤波器的参数矩阵;
串联所有节点
Figure GDA00041503330000001011
的新状态,并表示为/>
Figure GDA00041503330000001012
根据更新的状态获得第三预测分数,具体如下公式(9)所示:
Figure GDA00041503330000001013
其中,wc指分类器的参数。
进一步地,图4是本发明实施例提供的一种训练单元的工作流程图,参见图4,该训练单元的具体工作流程可以为:
(1)将所有的训练图像,经过预处理单元处理。
(2)随机挑选出n张图像,输入到CNN提取高级特征
Figure GDA0004150333000000111
和/>
Figure GDA0004150333000000112
然后将高级特征
Figure GDA0004150333000000113
和/>
Figure GDA0004150333000000114
分别输入到并行的两个网络单元ARM和CRM中进行网络训练。
(3)CNN前向传递,得到子网络特征层输出和最终特征输出(特征向量)。
(4)计算损失函数,用于引导整个网络训练的损失函数包括学习特殊属性特征
Figure GDA0004150333000000115
的约束损失函数、训练ARM和CRM模块的损失函数,所有分类器都采用二进制交叉熵损失函数,学习特殊属性特征/>
Figure GDA0004150333000000116
的约束损失函数如下公式(10)所示:
Figure GDA0004150333000000117
其中,ρij是用于解决人脸属性识别中不平衡数据所带来的问题而设定的惩罚系数,yij代表训练样本的属性标签,将学习特殊属性特征
Figure GDA0004150333000000118
的约束损失函数表示为如下公式(11):
Figure GDA0004150333000000119
其中,训练ARM和CRM模型的损失函数也用相同的方法定义,分别表示为LA和LC,训练整个网络的总损失如下公式(12)所示:
L=λ1LA,cons2LA3LC (12)
其中,λ1、λ2、λ3是这些损失的权重参数。
需要说明的是,ρij是用于解决人脸属性识别中不平衡数据所带来的问题而设定的惩罚系数,假设rj表示具有jth属性的图像的比例,如果yij=1,则设置
Figure GDA00041503330000001110
否则
Figure GDA00041503330000001111
具体来说,对于一个正面例子,ρij随着rj的减小而变大,这将分类器的注意力转移到了少数类上面。
另外,考虑到CRM分支仅在LC的监督下进行训练,只需将其权重设置为1。然而,ARM的分支是在LA,cons和LA的监督下进行训练的,因此需要通过实验选择相应的损失权重λ1、λ2。这些损失函数可以同时优化,以充分探究人脸多属性识别问题中属性之间相关性和不同图像区域之间的上下文关系。
(5)判断训练损失是否收敛,若收敛则终止训练,得到人脸属性预测模型;
(6)若训练损失不收敛,则终止训练计算网络参数梯度,梯度反向传播,采用Adam优化算法更新网络参数,返回步骤(2)。
进一步地,图5是本发明实施例提供的一种预测单元的工作流程图,参见图5,该预测单元的具体工作流程可以为:
(1)将目标图像输入到预处理单元处理。
(2)将预处理过的人脸图像输入训练好的人脸属性预测模型中,网络前向传递,经过ARM和CRM两个分支以后,得到人脸属性预测值
Figure GDA0004150333000000121
和/>
Figure GDA0004150333000000122
(3)将
Figure GDA0004150333000000123
和/>
Figure GDA0004150333000000124
做算数平均,生成最终的预测值,表示为如下公式(13):
Figure GDA0004150333000000125
以计算年龄、性别、是否戴墨镜、长短发等属性的概率。
值得说明的是,本发明提供了一种人脸多属性识别系统,通过探索人脸多属性识别问题中属性之间相关性和图像区域中的上下文关系,将属性合并到同一个框架中学习,以考虑多元人脸属性之间的内在联系,通过构造两个图模块ARM和CRM,利用GCN来捕获人脸多属性之间相关性和不同图像区域之间的上下文关系,以此提升人脸属性分析性能,从而获得更加精准的人脸属性识别,可以应用到安全监控、人机交互、视频检索等诸多领域。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种人脸多属性识别系统,其特征在于,所述系统包括:
预处理单元,用于确定人脸图像,并将所述人脸图像裁剪成预设尺寸;
人脸属性网络单元,所述人脸属性网络单元包括底层特征抽取模块、人脸属性关系模块ARM和上下文关系模块CRM,所述底层特征抽取模块用于抽取底层的神经网络特征,所述ARM用于发现和捕获多个属性之间的相关性,所述CRM用于探索不同图像区域之间的上下文关系;
训练单元,用于训练一个人脸属性预测网络,通过所述人脸属性预测网络预测各个属性;
预测单元,用于将预处理好的人脸图像输入到训练好的人脸属性预测网络中,得到各个人脸属性的预测值;
所述CRM具体用于:
给定输入要素
Figure FDA0004150332990000011
所述输入要素在GAP层之前获得,所述h、所述w分别表示要素图的高度和宽度;
采用图形投影方法将二维图像投影到一组聚类/节点上,预先指定v的数量,采用软分配方案计算权重,以将Pth像素
Figure FDA0004150332990000012
分配给k th簇,具体如下公式(4)所示:
Figure FDA0004150332990000013
其中,
Figure FDA0004150332990000014
和bk是kth集群的可训练参数,/>
Figure FDA0004150332990000015
和bl也是可训练参数,所述/>
Figure FDA0004150332990000016
bl和/>
Figure FDA0004150332990000017
bk的索引不同;/>
Figure FDA0004150332990000018
是第p个像素的特征值,Pth是指第p个像素,/>
Figure FDA0004150332990000019
是指一个输入的特征值;
给定v个可学习的节点
Figure FDA0004150332990000021
通过使用输入要素/>
Figure FDA0004150332990000022
和顶点Ck之间的残差加权平均值聚合节点的特征,具体如公式(5)所示:
Figure FDA0004150332990000023
聚合的特征
Figure FDA0004150332990000024
进行L2归一化,得到如下公式(6):
Figure FDA0004150332990000025
不同的节点包含来自不同图像区域的特征,所有节点
Figure FDA0004150332990000026
的特征表示为矩阵形式,每行代表一个图形节点,具体如下公式(7):
Figure FDA0004150332990000027
基于特征Vi的具有v个节点的图,根据如下公式(8),用GCN层在所有节点之间传递信息并更新状态,捕获不同区域之间的前后关系:
Figure FDA0004150332990000028
其中,
Figure FDA0004150332990000029
表示ReLU函数,Ac是学习的相邻矩阵,/>
Figure FDA00041503329900000210
是规范化相邻矩阵,Wc表示另一个图卷积层中滤波器的参数矩阵;
串联所有节点
Figure FDA00041503329900000211
的新状态,并表示为/>
Figure FDA00041503329900000212
根据更新的状态获得第三预测分数,具体如下公式(9)所示:
Figure FDA00041503329900000213
其中,wc指分类器的参数;
所述预测单元具体用于:
将目标图像输入到所述预处理单元处理;
将预处理过的人脸图像输入训练好的人脸属性预测模型中,网络前向传递,经过所述ARM和所述CRM两个分支以后,得到人脸属性预测值
Figure FDA0004150332990000031
和/>
Figure FDA0004150332990000032
将所述
Figure FDA0004150332990000033
和所述/>
Figure FDA0004150332990000034
做算数平均,生成最终的预测值,表示为如下公式(13):
Figure FDA0004150332990000035
以计算年龄、性别、是否戴墨镜、长短发属性的概率。
2.根据权利要求1所述的系统,其特征在于,所述预处理单元具体用于:
输入图像,对所述图像进行人脸检测,判断所述图像中是否包含人脸,如果不包含人脸,则放弃所述图像;
如果所述图像包含人脸,则将所述图像确定为人脸图像,并对所述图像进行关键点定位,得到两眼中心及上嘴唇点的位置;
根据所述两眼中心及上嘴唇点的位置,对图像进行旋转、缩放、对齐,并裁剪成预设尺寸,输出裁剪后的图像。
3.根据权利要求1所述的系统,其特征在于,所述底层特征抽取模块具体用于:
利用残差网络结构ResNet-50中除最后三个残差单元外的剩余网络作为底层特征抽取模块,抽取底层的神经网络特征。
4.根据权利要求1所述的系统,其特征在于,所述ARM具体用于:
基于高级特征
Figure FDA0004150332990000036
提取具有S个完全连接层的特定属性的特征,每个所述完全连接层对应于一个具体属性,所述高级特征在全局平均池化GAP层之后获得,且c=2048表示特征通道数;
将ith图像的jth属性的特定属性的特征表示为xij∈Rc,维数为d,从xij生成jth属性的第一预测分数,以确保仅在jth的监督下学习,具体如下公式(1)所示:
Figure FDA0004150332990000041
其中,所述σ是sigmoid函数,所述BN表示批归一化(Batch Normalization,BN)层,所述
Figure FDA0004150332990000042
表示分类器中所述jth属性的参数;
给定特定属性的特征xi∈Rs×d(
Figure FDA0004150332990000043
的矩阵形式),以输入为基础构造图卷积网络GCN层,确定多个人脸属性之间的关系/>
Figure FDA0004150332990000044
具体如下公式(2)所示:
Figure FDA0004150332990000045
其中,AA是学习的邻接矩阵,wA是滤波器的参数矩阵,DA-12(AA+I)DA-12是规范化的相邻矩阵,图卷积是使用滤波器wA执行卷积,然后将输入特征与规范化的相邻矩阵DA-12(AA+I)DA-12相乘;
A
通过使用来自所有节点的信息来生成更新的节点,将w设置为d×1的大小,并且所述GCN层的输出是S×1的矩阵,每个输出对应一个属性,使用所述BN层和基于所述x~i的sigmoid激活函数,生成第二预测分数,具体如下公式(3)所示:
Figure FDA0004150332990000046
5.根据权利要求1所述的系统,其特征在于,所述训练单元具体用于:
将所有的训练图像,经过所述预处理单元处理;
随机挑选出n张图像,输入到卷积神经网络CNN提取高级特征
Figure FDA0004150332990000051
和/>
Figure FDA0004150332990000052
将所述高级特征/>
Figure FDA0004150332990000053
和/>
Figure FDA0004150332990000054
分别输入到并行的两个网络单元ARM和CRM中进行网络训练;
CNN前向传递,得到子网络特征层输出和最终特征输出;
计算损失函数,用于引导整个网络训练的损失函数包括学习特殊属性特征
Figure FDA0004150332990000055
的约束损失函数、训练ARM和CRM模块的损失函数,所有分类器都采用二进制交叉熵损失函数,所述学习特殊属性特征/>
Figure FDA0004150332990000056
的约束损失函数如下公式(10)所示:
Figure FDA0004150332990000057
其中,ρij是用于解决人脸属性识别中不平衡数据所带来的问题而设定的惩罚系数,yij代表训练样本的属性标签,将学习特殊属性特征
Figure FDA0004150332990000058
的约束损失函数表示为如下公式(11):
Figure FDA0004150332990000059
其中,训练ARM和CRM模型的损失函数也用相同的方法定义,分别表示为LA和LC,训练整个网络的总损失如下公式(12)所示:
L=λ1LA,cons2LA3LC (12)
其中,λ1、λ2、λ3是这些损失的权重参数;
判断训练损失是否收敛,若收敛则终止训练,得到人脸属性预测模型;
若所述训练损失不收敛,则终止训练计算网络参数梯度,采用Adam优化算法更新网络参数,返回所述随机挑选出n张图像,输入到CNN提取高级特征
Figure FDA0004150332990000061
和/>
Figure FDA0004150332990000062
将所述高级特征
Figure FDA0004150332990000063
和/>
Figure FDA0004150332990000064
分别输入到并行的两个网络单元ARM和CRM中进行网络训练的步骤。/>
CN201911310537.7A 2019-12-18 2019-12-18 一种人脸多属性识别系统 Active CN111339818B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911310537.7A CN111339818B (zh) 2019-12-18 2019-12-18 一种人脸多属性识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911310537.7A CN111339818B (zh) 2019-12-18 2019-12-18 一种人脸多属性识别系统

Publications (2)

Publication Number Publication Date
CN111339818A CN111339818A (zh) 2020-06-26
CN111339818B true CN111339818B (zh) 2023-06-06

Family

ID=71183322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911310537.7A Active CN111339818B (zh) 2019-12-18 2019-12-18 一种人脸多属性识别系统

Country Status (1)

Country Link
CN (1) CN111339818B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183299B (zh) * 2020-09-23 2024-02-09 成都佳华物链云科技有限公司 行人属性预测方法、装置、电子设备及存储介质
US20230290134A1 (en) * 2020-09-25 2023-09-14 Intel Corporation Method and system of multiple facial attributes recognition using highly efficient neural networks
CN112329801B (zh) * 2020-12-03 2022-06-14 中国石油大学(华东) 一种卷积神经网络非局部信息构建方法
CN112528897B (zh) * 2020-12-17 2023-06-13 Oppo(重庆)智能科技有限公司 人像的年龄估测方法、装置、计算机设备及存储介质
CN113033581B (zh) * 2021-05-07 2024-02-23 刘慧烨 髋关节图像中骨骼解剖关键点定位方法、电子设备及介质
CN113569732B (zh) * 2021-07-27 2023-06-06 厦门理工学院 基于并行共享多任务网络的人脸属性识别方法及系统
CN113642541B (zh) * 2021-10-14 2022-02-08 环球数科集团有限公司 一种基于深度学习的人脸属性识别系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101344914A (zh) * 2007-07-09 2009-01-14 上海耀明仪表控制有限公司 基于特征点的人脸识别方法
CN102819730A (zh) * 2012-07-23 2012-12-12 常州蓝城信息科技有限公司 一种人脸特征提取和识别的方法
CN106529402A (zh) * 2016-09-27 2017-03-22 中国科学院自动化研究所 基于多任务学习的卷积神经网络的人脸属性分析方法
CN107808129A (zh) * 2017-10-17 2018-03-16 南京理工大学 一种基于单个卷积神经网络的面部多特征点定位方法
CN108875489A (zh) * 2017-09-30 2018-11-23 北京旷视科技有限公司 人脸检测方法、装置、系统、存储介质和抓拍机
CN109190514A (zh) * 2018-08-14 2019-01-11 电子科技大学 基于双向长短期记忆网络的人脸属性识别方法及系统
KR20190062030A (ko) * 2017-11-28 2019-06-05 삼성전자주식회사 영상 표시 장치 및 그 동작 방법

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101344914A (zh) * 2007-07-09 2009-01-14 上海耀明仪表控制有限公司 基于特征点的人脸识别方法
CN102819730A (zh) * 2012-07-23 2012-12-12 常州蓝城信息科技有限公司 一种人脸特征提取和识别的方法
CN106529402A (zh) * 2016-09-27 2017-03-22 中国科学院自动化研究所 基于多任务学习的卷积神经网络的人脸属性分析方法
CN108875489A (zh) * 2017-09-30 2018-11-23 北京旷视科技有限公司 人脸检测方法、装置、系统、存储介质和抓拍机
CN107808129A (zh) * 2017-10-17 2018-03-16 南京理工大学 一种基于单个卷积神经网络的面部多特征点定位方法
KR20190062030A (ko) * 2017-11-28 2019-06-05 삼성전자주식회사 영상 표시 장치 및 그 동작 방법
CN109190514A (zh) * 2018-08-14 2019-01-11 电子科技大学 基于双向长短期记忆网络的人脸属性识别方法及系统

Also Published As

Publication number Publication date
CN111339818A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN111339818B (zh) 一种人脸多属性识别系统
Wang et al. Deep learning for real-time crime forecasting and its ternarization
Singh et al. A deeply coupled ConvNet for human activity recognition using dynamic and RGB images
CN109508360B (zh) 一种基于元胞自动机的地理多元流数据时空自相关分析方法
CN108921051B (zh) 基于循环神经网络注意力模型的行人属性识别网络及技术
WO2022083536A1 (zh) 一种神经网络构建方法以及装置
CN104424634B (zh) 对象跟踪方法和装置
WO2019100724A1 (zh) 训练多标签分类模型的方法和装置
WO2021022521A1 (zh) 数据处理的方法、训练神经网络模型的方法及设备
US20220375213A1 (en) Processing Apparatus and Method and Storage Medium
CN113807399A (zh) 一种神经网络训练方法、检测方法以及装置
CN110222718B (zh) 图像处理的方法及装置
CN114283316A (zh) 一种图像识别方法、装置、电子设备和存储介质
CN113297972B (zh) 一种基于数据融合深度学习的变电站设备缺陷智能分析方法
Xu et al. Spectral–spatial residual graph attention network for hyperspectral image classification
CN113780584B (zh) 标签预测方法、设备、存储介质
Dai et al. Hybrid deep model for human behavior understanding on industrial internet of video things
CN112819024B (zh) 模型处理方法、用户数据处理方法及装置、计算机设备
CN113536970A (zh) 一种视频分类模型的训练方法及相关装置
CN114708637A (zh) 一种基于元学习的人脸动作单元检测方法
Shariff et al. Artificial (or) fake human face generator using generative adversarial network (GAN) machine learning model
CN114358250A (zh) 数据处理方法、装置、计算机设备、介质及程序产品
CN116434010A (zh) 一种多视图的行人属性识别方法
CN116110074A (zh) 一种基于图神经网络的动态小股行人识别方法
CN114565791A (zh) 一种人物档案识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant