CN111339818B

CN111339818B - 一种人脸多属性识别系统

Info

Publication number: CN111339818B
Application number: CN201911310537.7A
Authority: CN
Inventors: 吴元明; 袁利娟; 万军; 孙茂; 李子青; 谭资昌
Original assignee: Fourth Military Medical University FMMU
Current assignee: Fourth Military Medical University FMMU
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2023-06-06
Anticipated expiration: 2039-12-18
Also published as: CN111339818A

Abstract

本发明公开了一种人脸多属性识别系统，属于人脸识别技术领域。该系统包括：预处理单元，用于确定人脸图像，将人脸图像裁剪成预设尺寸；人脸属性网络单元包括底层特征抽取模块、ARM和CRM，底层特征抽取模块用于抽取底层的神经网络特征，ARM用于发现和捕获多个属性之间的相关性，CRM用于探索不同图像区域之间的上下文关系；训练单元，用于训练一个人脸属性预测网络，通过人脸属性预测网络预测各个属性；预测单元，用于将预处理好的人脸图像输入到训练好的人脸属性预测网络中，得到各个人脸属性的预测值。本发明通过探索人脸多属性识别问题中属性之间相关性和图像区域中的上下文关系，将属性合并到同一个框架中学习，以获得更加精准的人脸属性识别。

Description

一种人脸多属性识别系统

技术领域

本发明涉及人脸识别技术领域，特别涉及一种人脸多属性识别系统。

背景技术

人脸属性识别往往需要同时识别几十个属性，比如性别、年龄、太阳镜和发型。在这些属性中，有些是密切相关的，如“发型”属性往往与“女性”属性相关联；眼角的皱纹、胡须属性可以为判断年龄提供一定的信息。针对这样的现象，提高人脸属性识别的有效方法是找到多元人脸属性之间的内在联系。

现有技术中，大多数仅通过简单的多任务学习(multi-task learning，MTL)，来利用多个属性之间的关系框架，仅在共享的低层中允许不同属性之间的信息交换。由于MTL利用损失函数和最后的层来指导其学习，因此不同属性之间的显式信息交换和传播可能不足，因而这样的框架缺乏属性之间关系的全面表示。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种人脸多属性识别系统，所述系统包括：

预处理单元，用于确定人脸图像，并将所述人脸图像裁剪成预设尺寸；

人脸属性网络单元，所述人脸属性网络单元包括底层特征抽取模块、人脸属性关系模块ARM和上下文关系模块CRM，所述底层特征抽取模块用于抽取底层的神经网络特征，所述ARM用于发现和捕获多个属性之间的相关性，所述CRM用于探索不同图像区域之间的上下文关系；

训练单元，用于训练一个人脸属性预测网络，通过所述人脸属性预测网络预测各个属性；

预测单元，用于将预处理好的人脸图像输入到训练好的人脸属性预测网络中，得到各个人脸属性的预测值。

可选地，所述预处理单元具体用于：

输入图像，对所述图像进行人脸检测，判断所述图像中是否包含人脸，如果不包含人脸，则放弃所述图像；

如果所述图像包含人脸，则将所述图像确定为人脸图像，并对所述图像进行关键点定位，得到两眼中心及上嘴唇点的位置；

根据所述两眼中心及上嘴唇点的位置，对图像进行旋转、缩放、对齐，并裁剪成预设尺寸，输出裁剪后的图像。

可选地，所述底层特征抽取模块具体用于：

利用残差网络结构ResNet-50中除最后三个残差单元外的剩余网络作为底层特征抽取模块，抽取底层的神经网络特征。

可选地，所述ARM具体用于：

基于高级特征

提取具有S个完全连接层的特定于属性的特征，每个所述完全连接层对应于一个具体属性，所述高级特征在全局平均池化GAP层之后获得，且c＝2048表示特征通道数；

将i^th图像的j^th属性的特定属性的特征表示为x_ij∈R^c，维数为d，从x_ij生成j^th属性的第一预测分数，以确保仅在j^th的监督下学习，具体如下公式(1)所示：

其中，所述σ是sigmoid函数，所述BN表示批归一化(BatchNormalization，BN)层，所述

表示分类器中所述j^th属性的参数；

给定特定属性的特征

的矩阵形式)，以输入为基础构造GCN层，确定多个人脸属性之间的关系

具体如下公式(2)所示：

其中，A^A是学习的邻接矩阵，w^A是滤波器的参数矩阵，D^A-1/2(A^A+I)D^A-1/2是规范化的相邻矩阵，图卷积是使用滤波器w^A执行卷积，然后将输入特征与规范化的相邻矩阵D^A-1/2(A^A+I)D^A-1/2相乘；

通过使用来自所有节点的信息来生成更新的节点，将w^A设置为d×1的大小，并且所述GCN层的输出是S×1的矩阵，每个输出对应一个属性，使用所述BN层和基于所述

的sigmoid激活函数，生成第二预测分数，具体如下公式(3)所示：

可选地，所述CRM具体用于：

给定输入要素

所述输入要素在GAP层之前获得，所述h、所述w分别表示要素图的高度和宽度；

采用图形投影方法将二维图像投影到一组聚类/节点上，预先指定v的数量，采用软分配方案计算权重，以将P^th像素

分配给K^th簇，具体如下公式(4)所示：

其中，

和b_k是K^th集群的可训练参数，

和b_l也是可训练参数，所述

b_l和

b_k的索引不同；

是第p个像素的特征值，P^th是指第p个像素，

是指一个输入的特征值；

给定v个可学习的节点

通过使用输入要素

和顶点C_k之间的残差加权平均值聚合节点的特征，具体如公式(5)所示：

聚合的特征

进行L2归一化，得到如下公式(6)：

不同的节点包含来自不同图像区域的特征，所有节点

的特征表示为矩阵形式，每行代表一个图形节点，具体如下公式(7)：

基于特征V_i的具有v个节点的图，根据如下公式(8)，用GCN层在所有节点之间传递信息并更新状态，捕获不同区域之间的前后关系：

其中，

表示ReLU函数，A^c是学习的相邻矩阵，

是规范化相邻矩阵，W^c表示另一个图卷积层中滤波器的参数矩阵；

串联所有节点

的新状态，并表示为

根据更新的状态获得第三预测分数，具体如下公式(9)所示：

其中，w^c指分类器的参数。

可选地，所述训练单元具体用于：

将所有的训练图像，经过所述预处理单元处理；

随机挑选出n张图像，输入到CNN提取高级特征

和

将所述高级特征

和

分别输入到并行的两个网络单元ARM和CRM中进行网络训练；

CNN前向传递，得到子网络特征层输出和最终特征输出；

计算损失函数，用于引导整个网络训练的损失函数包括学习特殊属性特征

的约束损失函数、训练ARM和CRM模块的损失函数，所有分类器都采用二进制交叉熵损失函数，所述学习特殊属性特征

的约束损失函数如下公式(10)所示：

其中，ρ_ij是用于解决人脸属性识别中不平衡数据所带来的问题而设定的惩罚系数，y_ij代表训练样本的属性标签，将学习特殊属性特征

的约束损失函数表示为如下公式(11)：

其中，训练ARM和CRM模型的损失函数也用相同的方法定义，分别表示为L^A和L^C，训练整个网络的总损失如下公式(12)所示：

L＝λ₁L^A,cons+λ₂L^A+λ₃L^C (12)

其中，λ₁、λ₂、λ₃是这些损失的权重参数；

判断训练损失是否收敛，若收敛则终止训练，得到人脸属性预测模型；

若所述训练损失不收敛，则终止训练计算网络参数梯度，采用Adam优化算法更新网络参数，返回所述随机挑选出n张图像，输入到CNN提取高级特征

和

将所述高级特征

和

分别输入到并行的两个网络单元ARM和CRM中进行网络训练的步骤。

可选地，所述预测单元具体用于：

将目标图像输入到所述预处理单元处理；

将预处理过的人脸图像输入训练好的人脸属性预测模型中，网络前向传递，经过所述ARM和所述CRM两个分支以后，得到人脸属性预测值

和

将所述

和所述

做算数平均，生成最终的预测值，表示为如下公式(13)：

以计算年龄、性别、是否戴墨镜、长短发等属性的概率。

本发明实施例提供的技术方案带来的有益效果是：

值得说明的是，本发明提供了一种人脸多属性识别系统，通过探索人脸多属性识别问题中属性之间相关性和图像区域中的上下文关系，将属性合并到同一个框架中学习，以考虑多元人脸属性之间的内在联系，通过构造两个图模块ARM和CRM，利用GCN来捕获人脸多属性之间相关性和不同图像区域之间的上下文关系，以此提升人脸属性分析性能，从而获得更加精准的人脸属性识别，可以应用到安全监控、人机交互、视频检索等诸多领域。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种人脸多属性识别系统的结构框架图；

图2是本发明实施例提供的一种预处理单元的工作流程图；

图3是本发明实施例提供的一种人脸属性网络单元的工作流程图；

图4是本发明实施例提供的一种训练单元的工作流程图；

图5是本发明实施例提供的一种预测单元的工作流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。为了便于理解，在对本发明实施例进行详细的解释说明之前，先对本发明实施例涉及的应用场景进行介绍。

通常人脸属性识别往往需要同时分析几十个属性，在这些属性中，有些是密切相关的，因而一种提高人脸属性识别的有效方法是找到多元人脸属性之间的内在联系，目前仅通过简单的MTL(multi-task learning，多任务学习)来利用多个属性之间的关系框架，仅在共享的低层中允许不同属性之间的信息交换，缺乏属性之间关系的全面表示。为了解决上述问题，本发明提供了一种人脸多属性识别系统，引入了GCN(GraphConvolutionalNetwork，图卷积网络)，它具有强大的能力对依赖关系进行建模，并可以在图结构上传播概念之间的信息。

图1是本发明实施例提供的一种人脸多属性识别系统的结构框架图，参见图1，本发明提供的人脸多属性识别系统包括：预处理单元、人脸属性网络单元、训练单元、预测单元，其中：

预处理单元，用于确定人脸图像，并将人脸图像裁剪成预设尺寸；

人脸属性网络单元，人脸属性网络单元包括底层特征抽取模块、ARM(AttributeRelation Module，人脸属性关系模块)和CRM(Contextual Relation Module，上下文关系模块)，底层特征抽取模块用于抽取底层的神经网络特征，ARM用于发现和捕获多个属性之间的相关性，CRM用于探索不同图像区域之间的上下文关系；

训练单元，用于训练一个人脸属性预测网络，通过人脸属性预测网络预测各个属性；

需要说明的是，人脸属性网络单元主要采用两个新的深度网络结构ARM和CRM，来解决人脸属性识别问题。

进一步地，图2是本发明实施例提供的一种预处理单元的工作流程图，参见图2，该预处理单元的具体工作流程可以为：

先输入图像，然后对该图像进行人脸检测，判断该图像中是否包含人脸，如果不包含人脸，则放弃该图像；

如果该图像包含人脸，则将该图像确定为人脸图像，并对该图像进行关键点定位，得到两眼中心及上嘴唇点的位置，然后根据上述两关键点的位置，对图像进行旋转、缩放、对齐，并裁剪成预设尺寸，输出裁剪后的图像。

需要说明的是，预设尺寸可以根据实际情况所需预先进行设置，如预设尺寸可以为224*224。

进一步地，图3是本发明实施例提供的一种人脸属性网络单元的工作流程图，由于人脸属性网络单元包括底层特征抽取模块、ARM和CRM，因而分别对上述三个模块的具体工作流程分别进行介绍：

(1)底层特征抽取模块

利用残差网络结构ResNet-50中除最后三个残差单元外的剩余网络作为底层特征抽取模块，抽取底层的神经网络特征。需要说明的是，该底层特征抽取模块主要包括一些卷积层，用于抽取底层的神经网络特征。

(2)ARM

需要说明的是，此模块旨在发现和捕获属性关系，它使用ResNet-50的最后三个剩余网络作为主要体系结构提取高级特征。参见图3，首先基于高级特征提取具有S个完全连接层的特定于属性的特征，该模块的特征提取主要基于CNN(Convolutional NeuralNetwork，卷积神经网络)，其中每个完全连接层对应于一个具体属性；然后通过约束损失函数来学习特定于属性的特征，每个特征都对应于一个属性，每个学习到的特征将被视为图中的一个节点；之后，根据给定特定属性的特征，并以输入为基础构造GCN层，以探索多个人脸属性之间的关系；最后，使用BN层和sigmoid激活函数来生成预测分数。

具体地，先基于高级特征

提取具有S个完全连接层的特定于属性的特征，每个完全连接层对应于一个具体属性，该高级特征在GAP(GlobalAveragePooling，全局平均池化)层之后获得，且c＝2048表示特征通道数；然后将i^th图像的j^th属性的特定属性的特征表示为x_ij∈R^c，维数为d，仅从x_ij生成j^th属性的第一预测分数，以确保仅在j^th的监督下学习，具体如下公式(1)所示：

其中，σ是sigmoid函数，BN表示批归一化(BatchNormalization，BN)层，

表示分类器中j^th属性的参数；

之后，给定特定属性的特征

的矩阵形式)，以输入为基础构造GCN层，确定多个人脸属性之间的关系，具体如下公式(2)所示：

最后，通过使用来自所有节点的信息来生成更新的节点，将w^A设置为d×1的大小，并且GCN层的输出是S×1的矩阵，每个输出对应一个属性，使用BN层和sigmoid激活函数，生成第二预测分数，具体如下公式(3)所示：

需要说明的是，BN层用于平衡正输出和负输出，可以缓解数据不平衡问题。首先用零均值和单位方差归一化预测向量，然后学习缩放其值，并为其添加适当的偏差。因此，它改变了正样本和负样本的输出分布，并使输出分布适应不平衡数据，以实现更好的性能。

(3)CRM

需要说明的是，该模块旨在探索不同图像区域之间的上下文关系，它也是使用ResNet-50的最后三个剩余网络作为主要体系结构提取高级特征

给定输入要素，参见图3，首先采用图形投影方法将二维图像投影到一组聚类/节点上，之后采用一种软分配方案来计算权重，这一步骤可以通过softmax函数实现；之后，给定v个可学习的节点，通过使用输入要素和顶点之间的残差加权平均值来聚合节点的特征，然后聚合的特征通过L2进一步做归一化处理，这样，不同的节点包含来自不同图像区域的特征。另外，所有节点的特征也可以表示为矩阵形式，每行代表一个图形节点。为了捕获不同区域之间的上下文关系，考虑基于特征具有v个节点的图，并用GCN层在所有节点之间传递信息并更新其状态到，然后串联所有节点的新状态，根据更新的状态获得第三预测分数。

具体地，给定输入要素

该输入要素在GAP层之前获得，h、w分别表示要素图的高度和宽度；然后采用图形投影方法将二维图像投影到一组聚类/节点上，预先指定v的数量，采用软分配方案计算权重，以将P^th像素

分配给K^th簇，具体如下公式(4)所示：

其中，

和b_k是K^th集群的可训练参数，

和b_l也是可训练参数，

b_l和

b_k的索引不同；

是第p个像素的特征值，P^th是指第p个像素，

是指一个输入的特征值；

给定v个可学习的节点

通过使用输入要素

聚合的特征

进行L2归一化，得到如下公式(6)：

不同的节点包含来自不同图像区域的特征，所有节点

其中，

表示ReLU函数，A^c是学习的相邻矩阵，

串联所有节点

的新状态，并表示为

根据更新的状态获得第三预测分数，具体如下公式(9)所示：

其中，w^c指分类器的参数。

进一步地，图4是本发明实施例提供的一种训练单元的工作流程图，参见图4，该训练单元的具体工作流程可以为：

(1)将所有的训练图像，经过预处理单元处理。

(2)随机挑选出n张图像，输入到CNN提取高级特征

和

然后将高级特征

和

分别输入到并行的两个网络单元ARM和CRM中进行网络训练。

(3)CNN前向传递，得到子网络特征层输出和最终特征输出(特征向量)。

(4)计算损失函数，用于引导整个网络训练的损失函数包括学习特殊属性特征

的约束损失函数、训练ARM和CRM模块的损失函数，所有分类器都采用二进制交叉熵损失函数，学习特殊属性特征

的约束损失函数如下公式(10)所示：

的约束损失函数表示为如下公式(11)：

L＝λ₁L^A,cons+λ₂L^A+λ₃L^C (12)

其中，λ₁、λ₂、λ₃是这些损失的权重参数。

需要说明的是，ρ_ij是用于解决人脸属性识别中不平衡数据所带来的问题而设定的惩罚系数，假设r_j表示具有j^th属性的图像的比例，如果y_ij＝1，则设置

否则

具体来说，对于一个正面例子，ρ_ij随着r_j的减小而变大，这将分类器的注意力转移到了少数类上面。

另外，考虑到CRM分支仅在L^C的监督下进行训练，只需将其权重设置为1。然而，ARM的分支是在L^A,cons和L^A的监督下进行训练的，因此需要通过实验选择相应的损失权重λ₁、λ₂。这些损失函数可以同时优化，以充分探究人脸多属性识别问题中属性之间相关性和不同图像区域之间的上下文关系。

(5)判断训练损失是否收敛，若收敛则终止训练，得到人脸属性预测模型；

(6)若训练损失不收敛，则终止训练计算网络参数梯度，梯度反向传播，采用Adam优化算法更新网络参数，返回步骤(2)。

进一步地，图5是本发明实施例提供的一种预测单元的工作流程图，参见图5，该预测单元的具体工作流程可以为：

(1)将目标图像输入到预处理单元处理。

(2)将预处理过的人脸图像输入训练好的人脸属性预测模型中，网络前向传递，经过ARM和CRM两个分支以后，得到人脸属性预测值

和

(3)将

和

做算数平均，生成最终的预测值，表示为如下公式(13)：

以计算年龄、性别、是否戴墨镜、长短发等属性的概率。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种人脸多属性识别系统，其特征在于，所述系统包括：

预测单元，用于将预处理好的人脸图像输入到训练好的人脸属性预测网络中，得到各个人脸属性的预测值；

所述CRM具体用于：

给定输入要素

分配给k ^th簇，具体如下公式(4)所示：

其中，

和b_k是k^th集群的可训练参数，

和b_l也是可训练参数，所述

b_l和

b_k的索引不同；

是第p个像素的特征值，P^th是指第p个像素，

是指一个输入的特征值；

给定v个可学习的节点

通过使用输入要素

聚合的特征

进行L2归一化，得到如下公式(6)：

不同的节点包含来自不同图像区域的特征，所有节点

其中，

表示ReLU函数，A^c是学习的相邻矩阵，

串联所有节点

的新状态，并表示为

根据更新的状态获得第三预测分数，具体如下公式(9)所示：

其中，w^c指分类器的参数；

所述预测单元具体用于：

将目标图像输入到所述预处理单元处理；

和

将所述

和所述

做算数平均，生成最终的预测值，表示为如下公式(13)：

以计算年龄、性别、是否戴墨镜、长短发属性的概率。

2.根据权利要求1所述的系统，其特征在于，所述预处理单元具体用于：

3.根据权利要求1所述的系统，其特征在于，所述底层特征抽取模块具体用于：

4.根据权利要求1所述的系统，其特征在于，所述ARM具体用于：

基于高级特征

提取具有S个完全连接层的特定属性的特征，每个所述完全连接层对应于一个具体属性，所述高级特征在全局平均池化GAP层之后获得，且c＝2048表示特征通道数；

其中，所述σ是sigmoid函数，所述BN表示批归一化(Batch Normalization，BN)层，所述

表示分类器中所述j^th属性的参数；

给定特定属性的特征x_i∈R^s×d(

的矩阵形式)，以输入为基础构造图卷积网络GCN层，确定多个人脸属性之间的关系

具体如下公式(2)所示：

其中，A^A是学习的邻接矩阵，w^A是滤波器的参数矩阵，D^A-12(A^A+I)D^A-12是规范化的相邻矩阵，图卷积是使用滤波器w^A执行卷积，然后将输入特征与规范化的相邻矩阵D^A-12(A^A+I)D^A-12相乘；

A

通过使用来自所有节点的信息来生成更新的节点，将w设置为d×1的大小，并且所述GCN层的输出是S×1的矩阵，每个输出对应一个属性，使用所述BN层和基于所述x～_i的sigmoid激活函数，生成第二预测分数，具体如下公式(3)所示：

5.根据权利要求1所述的系统，其特征在于，所述训练单元具体用于：

将所有的训练图像，经过所述预处理单元处理；

随机挑选出n张图像，输入到卷积神经网络CNN提取高级特征

和

将所述高级特征

和

分别输入到并行的两个网络单元ARM和CRM中进行网络训练；

CNN前向传递，得到子网络特征层输出和最终特征输出；

的约束损失函数如下公式(10)所示：

的约束损失函数表示为如下公式(11)：

L＝λ₁L^A,cons+λ₂L^A+λ₃L^C (12)

其中，λ₁、λ₂、λ₃是这些损失的权重参数；

和

将所述高级特征

和