CN112200260B

CN112200260B - 一种基于丢弃损失函数的人物属性识别方法

Info

Publication number: CN112200260B
Application number: CN202011116242.9A
Authority: CN
Inventors: 严严; 许友泽; 王菡子
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2022-06-14
Anticipated expiration: 2040-10-19
Also published as: CN112200260A

Abstract

一种基于丢弃损失函数的人物属性识别方法，涉及基于内容的图像识别。首先设计基于ResNet‑50的深度卷积神经网络，然后设计丢弃损失函数中包含的离群样本丢弃策略，计算梯度值，选择性丢弃梯度值大于一定阈值的样本权重，再设计丢弃损失函数中包含的样本加权丢弃策略，选择性丢弃其梯度值最小的一部分样本，通过对样本加权的方式来平衡其正负类别的样本的分布，最后将训练样本集中的图像放进基于ResNet‑50的深度卷积神经网络计算得到总体损失，并利用反向传播算法进行端到端的训练，利用训练好的模型进行多属性识别，神经网络输出的特征即为识别结果。性能卓越，可有效识别图片中的多个属性，在平衡精度标准上有明显优势。

Description

一种基于丢弃损失函数的人物属性识别方法

技术领域

本发明涉及基于内容的图像识别领域，具体是涉及可通用的基于人工智能的智能监控等领域属性识别模型的一种基于丢弃损失函数的人物属性识别方法。

背景技术

在过去几年中，人物属性识别引起了越来越多计算机视觉和模式识别领域专家的关注，主要应用公共安全、心理学、医学、数字娱乐和司机监控等。人物属性识别的目标在于，对于给定的人物图片，能预测出其所包含的属性，包括微笑、性别、吸引力、上衣颜色等。人物属性识别有广泛而实际的应用，包括人脸验证、图片检索、行人重识别等领域。虽然属性识别的任务只是图像级别的分类任务，目前还存在很多的挑战，主要是因为图像通常受到光照、姿势、年龄、性别、身份等因素的干扰。中国专利CN111738213A公开一种人物属性识别方法，包括：按照遮挡区域对待识别人物图像进行分类，得到所述待识别人物图像的图像类型；若所述待识别人物图像是遮挡图像，则将所述待识别人物图像和所述图像类型输入多尺度生成对抗网络，所述多尺度生成对抗网络根据所述图像类型生成所述待识别人物图像的去遮挡图像；将所述待识别人物图像的去遮挡图像输入属性识别网络进行属性识别。

随着深度神经网络的飞速发展，目前主流的属性识别方法都使用卷积神经网络来预测多个属性，这些方法通常将发现属性之间的潜在关系的问题公式化为设计适当的深度神经网络的问题。这些深度卷积神经网络的拓扑结构以共享层(提取低层详细特征)和属性特定层(提取高层语义特征)的形式捕获属性的潜在结构。然而这些方法忽略了多属性数据集中天然存在的两个不平衡问题：1)不平衡的离群样本数量问题；2)不平衡的类别样本分布问题。不平衡的离群样本问题会对优化目标损失函数产生负面影响，这会迫使模型着重于学习离群样本的分布。使得训练好的模型对于正确标记的样本具有较差的判别能力。而类别不平衡数据会导致学习过程中的偏好问题，对于非常不平衡的属性，模型倾向于将所有的样本预测成多数类，这就导致训练好的模型在多数类别上表现良好，但在少数类别上表现较差，因此，类别数据分布不平衡给学习准确的深度模型带来了另一个巨大挑战，本发明受到以上两个问题启发，提出了一种基于深度不平衡学习的人物多属性识别方法。

发明内容

本发明的目的在于提供可通用的基于人工智能的智能监控等领域属性识别模型的一种基于丢弃损失函数的人物属性识别方法。

本发明包括以下步骤：

A.准备样本集，并划分为训练样本集与验证样本集；

B.设计基于ResNet-50的深度卷积神经网络，对于训练集中的每幅输入图像，通过设计的神经网络得到固定维度的特征；

C.设计丢弃损失函数中包含的离群样本丢弃策略，在通过设计的深度卷积神经网络得到每个属性的特征之后，根据属性的特征计算其对应的梯度值，选择性地丢弃梯度值大于一定阈值的样本权重，这种方式能够适应性地处理不平衡的离群样本问题；

D.设计丢弃损失函数中包含的样本加权丢弃策略，基于离群样本丢弃策略中未被丢弃的样本集与其对应的梯度值，选择性地丢弃其梯度值最小的一部分样本，并在此基础上，通过对样本加权的方式来平衡其正负类别样本的分布；

E.将训练样本集中的所有图像放进设计的基于ResNet-50的深度卷积神经网络里使用设计的丢弃损失函数计算得到总体损失，并利用反向传播算法进行端到端的训练，得到训练好的模型；

F.利用训练好的模型进行多属性识别，神经网络输出的特征即为识别结果。

在步骤A中，所述准备样本集，并划分为训练样本集与验证样本集的具体步骤可为：

A1.获取样本对应的属性识别标注，获取样本集中的划分标准；

A2.将获得的样本集及其对应的属性识别标注整合一起，并按照样本集中的划分标准将其划分为训练样本集与验证样本集：训练样本集表示为

i＝1,…,N,N为训练样本数，而验证样本集表示为

j＝1,…,M，M为数据集中的属性个数，其中attr_q为属性的总类别数，N,M,attr_q为自然数，

表示训练样本对应的固定大小的图像；

表示训练样本

具有的属性类别：

在步骤B中，所述设计基于ResNet-50的深度卷积神经网络，对于训练集中的每幅输入图像，通过设计的神经网络得到固定维度的特征的具体步骤可为：

B1.设计基于ResNet-50的深度卷积神经网络，使用ResNet-50(K.He,Z.Wang,Y.Fu,R.Feng,Y.-G.Jiang,and X.Xue,“Adaptively weighted multi-task deep networkfor person attribute classification,”in Proceedings of the 25th ACMinternational conference on Multimedia.ACM,2017,pp.1636–1644.)网络中的卷积部分用来提取输入的图片的特征，去除ResNet-50中最后的全连接分类层后，新增一层大小为2048*attr_q的全连接分类层，其中attr_q为训练样本集中的属性个数；

B2.对所有的原始图像的归一化大小为一定的尺寸，对于CelebA数据集(Z.Liu,P.Luo,X.Wang,X.Tang,“Deep learning face attributes in the wild”,inProceedings of the IEEE International Conference on Computer Vision,2015,pp.3730-3738.)，归一化大小为178*216，对于Market-1501行人数据集(Y.Lin,L.Zheng,Z.Zheng,Y.Wu,Z.Hu,C.Yan,and Y.Yang,“Improving person re-identification byattribute and identity learning,”Pattern Recognition,2019.)归一化大小为288*144；

B3.对于训练集中的每幅预处理的输入图像，将其输入到设计的神经网络中，得到attr_q维的特征向量，每个特征值分别对应着每个属性的特征。

在步骤C中，所述设计丢弃损失函数中包含的离群样本丢弃策略，在通过设计的深度卷积神经网络得到每个属性的特征之后，根据属性的特征计算其对应的梯度值，选择性地丢弃梯度值大于一定阈值的样本权重的具体步骤可为：

C1.选定离群样本候选集，在训练过程中，每个属性都具有一个离群样本候选集；给定一个批次训练样本集T，其中第i个样本Ι_i，如果其梯度大于一定阈值，则将其加入离群样本候选集，对第j个属性的离群样本候选集而言，其定义如下：

其中，

代表的第i个样本的第j个属性的模型输出，

代表第i个样本的第j个属性的梯度，来自算法GHM-C(B.Li,Y.Liu,and X.Wang,“Gradient harmonized single-stage detector,”in Proceedings of the AAAI Conference on ArtificialIntelligence,vol.33,2019,pp.8577–8584.)所定义的梯度概念，α代表离群样本候选集的阈值，对于离群样本候选集

而言，按照概率的形式进行丢弃其权重；

C2.计算每个属性对应的丢弃率，在得到每个属性的离群样本候选集

之后，需要考虑每个属性的离群样本候选集的丢弃比率，使用损失的相对大小来设计丢弃率，考虑传统的sigmoid cross-entropy损失函数，得到当前批次的各个属性的损失，对于第j个属性的批次损失大小如下：

其中，n表示当前批次的数目，

代表第i个样本的第j个属性的模型预测值，

代表第i个样本的第j个属性的正确标签，得到属性的批次损失大小

后，需要对所有属性的批次损失进行归一化，采用min-max normalization正则函数，得到当前批次的各个属性的丢弃概率，第j个属性的丢弃率计算公式如下：

C3.根据每个属性的丢弃率，对属性对应的离群样本候选集按前面计算的丢弃比例进行按比例丢弃，得到丢弃样本集

此时对于第j个属性，其现有的批次训练样本集为

现有的批次训练样本集为

此时的丢弃损失函数计算公式如下：

其中，

代表第j个属性的现有训练样本集，

为现有训练样本集中第i个样本的第j个属性的预测值,

为其对应的正确标签；

在步骤D中，所述设计丢弃损失函数中包含的样本加权丢弃策略，基于离群样本丢弃策略中未被丢弃的样本集与其对应的梯度值，选择性地丢弃其梯度值最小的一部分样本，并在此基础上，通过对样本加权的方式来平衡其正负类别样本的分布的具体步骤可为：

D1.样本加权丢弃策略首先对极端简单多数类样本集合进行定义，给定一个已经丢弃完离群样本后的批次训练样本集

代表的是第j个属性的多数类训练样本集，

代表的是第j个属性的少数类样本集，对于第j个属性而言，其具有的极端简单多数类样本集定义为：

其中，k代表极端简单样本的梯度阈值，I_i表示训练样本集

中的第i个样本，

为I_i所对应的第j个属性的梯度值，将所有极端简单多数类样本集

的权重进行丢弃，即其损失不会计入总体的损失内；此时丢弃后的批次训练样本集为

代表的是第j个属性的未被丢弃的多数类样本集，

D2.再根据未被丢弃的类别样本个数对未被丢弃的样本进行加权，此时权重大小定义为：

其中，

代表的是现存批次训练样本集

中未被丢弃的第i个样本；将权重带入sigmoid cross-entropy损失函数中，可得新的损失函数为：

其中，

为批次训练样本集

中未被丢弃的第i个样本的第j个属性的模型输出，

代表的是sigmoid cross-entropy损失函数计算公式；

最终得到丢弃损失函数可定义为：

本发明首先设计基于ResNet-50的深度卷积神经网络。然后设计丢弃损失函数中包含的离群样本丢弃策略。在得到每个属性的特征之后，计算其对应的梯度值，选择性地丢弃梯度值大于一定阈值的样本权重。其次再设计丢弃损失函数中包含的样本加权丢弃策略，基于离群样本丢弃策略中未被丢弃的样本集与其对应的梯度值，选择性地丢弃其梯度值最小的一部分样本，并在此基础上，通过对样本加权的方式来平衡其正负类别的样本的分布。最后将训练样本集中的所有图像放进专门设计的基于ResNet-50的深度卷积神经网络里使用设计的丢弃损失函数计算得到总体损失，并利用反向传播算法进行端到端的训练，得到训练好的模型。利用训练好的模型进行多属性识别，神经网络输出的特征即为识别结果。通过实验分析可知，本发明性能卓越，可以有效地识别图片中的多个属性，在两个代表性的人物多属性分类任务(包括面部和行人属性分类)上的实验结果表明，与几种最新方法相比，本发明在平衡精度标准上均具有明显的优势。

具体实施方式

以下实施例将对本发明的方法作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了实施方式和具体操作过程，但本发明的保护范围不限于下述的实施例。

本发明实施例包括以下步骤：

1.准备样本集，并按照划分规则将其划分为训练样本集与验证样本集。

A1.获取样本对应的属性识别标注，获取样本集中的划分标准。

i＝1,…,N,N为训练样本数，而验证样本集表示为

表示训练样本对应的固定大小的图像。

表示训练样本

具有的属性类别：

2.设计基于ResNet-50的深度卷积神经网络，对于训练集中的每幅输入图像，通过设计的神经网络得到固定维度的特征。

B1.设计基于ResNet-50的深度卷积神经网络，使用ResNet-50(K.He,Z.Wang,Y.Fu,R.Feng,Y.-G.Jiang,and X.Xue,“Adaptively weighted multi-task deep networkfor person attribute classification,”in Proceedings of the 25th ACMinternational conference on Multimedia.ACM,2017,pp.1636–1644.)网络中的卷积部分用来提取输入的图片的特征，去除ResNet-50中最后的全连接分类层后，新增一层大小为2048*attr_q的全连接分类层，其中attr_q为训练样本集中的属性个数。

B2.对所有的原始图像的归一化大小为一定的尺寸，对于CelebA数据集(Z.Liu,P.Luo,X.Wang,X.Tang,“Deep learning face attributes in the wild”,inProceedings of the IEEE International Conference on Computer Vision,2015,pp.3730-3738.)，归一化大小为178*216，对于Market-1501行人数据集(Y.Lin,L.Zheng,Z.Zheng,Y.Wu,Z.Hu,C.Yan,and Y.Yang,“Improving person re-identification byattribute and identity learning,”Pattern Recognition,2019.)归一化大小为288*144。

3.设计丢弃损失函数中包含的离群样本丢弃策略。在通过设计的深度卷积神经网络得到每个属性的特征之后，根据属性的特征计算其对应的梯度值，选择性地丢弃梯度值大于一定阈值的样本权重，这种方式能够适应性地处理了不平衡的离群样本问题。

C1.选定离群样本候选集，在训练过程中，每个属性都具有一个离群样本候选集。给定一个批次训练样本集T，其中第i个样本Ι_i，如果其梯度大于一定阈值，则将其加入离群样本候选集，对第j个属性的离群样本候选集而言，其定义如下：

其中,

代表的第i个样本的第j个属性的模型输出，

而言，按照概率的形式进行丢弃其权重。

其中,n表示当前批次的数目，

代表第i个样本的第j个属性的模型预测值，

此时对于第j个属性，其现有的批次训练样本集为

现有的批次训练样本集为

此时的丢弃损失函数计算公式如下：

其中，

代表第j个属性的现有训练样本集，

为现有训练样本集中第i个样本的第j个属性的预测值,

为其对应的正确标签。

4.设计丢弃损失函数中包含的样本加权丢弃策略，基于离群样本丢弃策略中未被丢弃的样本集与其对应的梯度值，选择性地丢弃其梯度值最小的一部分样本，并在此基础上，通过对样本加权的方式来平衡其正负类别的样本的分布。

代表的是第j个属性的多数类训练样本集，

其中，k代表极端简单样本的梯度阈值，I_i表示训练样本集

中的第i个样本，

的权重进行丢弃，即其损失不会计入总体的损失内。此时丢弃后的批次训练样本集为

代表的是第j个属性的未被丢弃的多数类样本集，

其中

代表的是现存批次训练样本集

中未被丢弃的第i个样本。将权重带入sigmoid cross-entropy损失函数中，可得新的损失函数为：

其中

为批次训练样本集

中未被丢弃的第i个样本的第j个属性的模型输出，

代表的是sigmoid cross-entropy损失函数计算公式。

最终得到丢弃损失函数可定义为：

表1为本发明在CelebA数据集上，本发明提出的方法与其他人脸属性识别方法结果对比；表2为本发明在Market-1501行人属性数据集上，本发明提出的方法与其他人脸属性识别方法结果对比，对比的标准为平衡准确率(％)。其中平衡准确率(％)代表的是所有属性分别在正、负样本上的准确率平均值。

在多属性人脸识别中，本发明与Down-sampling、Over-sampling、Cost-sensitive、MOON、LMLE、CRL-I、GHM-C和CLMLE方法在CelebA人脸属性识别数据集上的平衡准确率(％)比较如表1所示，与Down-sampling、Over-sampling、Cost-sensitive和MOON方法在Market-1501行人属性数据集上的平衡准确率(％)比较如表2所示。

表1

表2

在表1和2中：

Down-sampling与Over-sampling对应的方法为C.Drummond等提出的方法(C.Drummond,R.C.Holte et al.,“C4.5,class imbalance,and cost sensitivity:whyunder-sampling beats over-sampling,”in Workshop on learning from imbalanceddatasets II,vol.11,2003,pp.1–8.)

Cost-sensitive对应的方法为H.He等提出的方法(H.He and E.A.Garcia,“Learning from imbalanced data,”IEEE Transactions on knowledge and dataengineering,vol.21,no.9,pp.1263–1284,2009.)

MOON对应的方法为E.M.Rudd等提出的方法(E.M.Rudd,M.Gunther,andT.E.Boult,“Moon:A mixed objective optimization network for the recognition offacial attributes,”in European Conference on Computer Vision.Springer,2016,pp.19–35)

LMLE对应的方法为C.Huang等提出的方法(C.Huang,Y.Li,C.Change Loy,andX.Tang,“Learning deep representation for imbalanced classification,”inProceedings of the IEEE conference on computer vision and patternrecognition,2016,pp.5375–5384.)

CRL-I对应的方法为Q.Dong等提出的方法(Q.Dong,S.Gong,and X.Zhu,“Imbalanced deep learning by minority class incremental rectification,”IEEEtransactions on pattern analysis and machine intelligence,vol.41,no.6,pp.1367–1381,2018.)

GHM-C对应的方法为B.Li等提出的方法(B.Li,Y.Liu,and X.Wang,“Gradientharmonized single-stage detector,”in Proceedings of the AAAI Conference onArtificial Intelligence,vol.33,2019,pp.8577–8584.)

CLMLE对应的方法为C.Huang等提出的方法(C.Huang,Y.Li,C.L.Chen,andX.Tang,“Deep imbalanced learning for face recognition and attributeprediction,”IEEE transactions on pattern analysis and machine intelligence,2019.)

从表1与2可以看出，本发明的模型在两个数据集下的平均平衡准确率(％)上取得了优秀结果。因此，本发明的模型简单且性能良好，保证了其实用性。