CN110070044B

CN110070044B - 基于深度学习的行人属性识别方法

Info

Publication number: CN110070044B
Application number: CN201910328041.6A
Authority: CN
Inventors: 张良; 袁配配
Original assignee: Civil Aviation University of China
Current assignee: Civil Aviation University of China
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2023-03-10
Anticipated expiration: 2039-04-23
Also published as: CN110070044A

Abstract

一种基于深度学习的行人属性识别方法。其包括将行人图像作为Deeplab‑v2网络的输入而得到掩码图；利用掩码图与行人图像逐元素相乘得到前景图，掩码图取反并与行人图像逐元素相乘得到背景图；构建行人属性识别网络并将区域级三元损失函数和加权交叉熵损失函数联合作为网络的损失函数；将行人图像和前景图、背景图作为行人属性识别网络的输入，利用损失函数计算网络损失值，通过随机梯度下降法对网络进行优化并保存网络参数；利用行人属性识别网络参数初始化行人属性识别网络，输入行人图像即可得到属性识别结果等步骤。本发明方法设计合理，因此能够大幅度提高行人属性识别的准确率。

Description

基于深度学习的行人属性识别方法

技术领域

本发明属于图像处理技术领域，特别是涉及一种基于深度学习的行人属性识别方法。

背景技术

近年来，人们对公共安防问题日益关注，大量的监控摄像头应用在商场、地铁站、十字路口等人群密集且易发生公共安全事件的场所，监控视频可为人们提供大量有用信息。行人属性识别可以识别监控场景中行人的一些可被观察到的外部特征信息，例如性别、年龄、服饰、携带品等，这些信息可以为公安部门侦破诸如商场盗窃、聚众斗殴等刑事案件提供线索，对维护国家安全起到重要作用。

目前，行人属性识别方法分为两大类：传统手工特征方法和深度学习方法。但是由于行人属性数据集中的行人图像易受运动模糊影响，且分辨率较低，因此传统手工特征方法识别的准确率不高。现有的深度学习方法如多个属性联合识别框架DeepMAR方法[D.Li,X.Chen,and K.Huang.Multi-attribute learning for pedestrian attributerecognition in surveillance scenarios.In Pattern Recognition(ACPR),2015 3rdIAPR Asian Conference on,2015.]，从整张图像的特征中识别每一种行人的属性，联合循环学习(JRL)方法[J.Wang,X.Zhu,S.Gong,and W.Li.Attribute recognition by jointrecurrent learning of context and correlation.In ICCV,2017.]，使用循环神经网络逐步挖掘行人属性之间的语义关联关系(穿裙子的一般是女人等)，虽然都取得不错的识别效果，但都是从整张图像中提取特征，忽视了嘈杂的背景对于行人属性识别的影响，因此难以得到更高的识别精度。

行人属性识别的焦点集中在图像中行人区域的部分，背景会影响行人属性识别的准确率。因此，如果将行人属性数据集中的行人图像分割得到只有行人的前景图与只有背景的背景图，然后提取前景图、背景图、行人图像的特征向量，并采用区域级三元损失函数和加权交叉熵损失函数共同训练网络，就能使网络学习到的特征全部集中于行人区域的部分，达到抑制嘈杂的背景干扰的目的，大大提高行人属性识别的准确率。区域级三元损失函数的主要作用是可以约束前景图与行人图像的特征向量相似，背景图与行人图像的特征向量相异。但目前尚缺少相应的方法。

发明内容

为了解决上述问题，本发明的目的在于提供一种基于深度学习的行人属性识别方法。

为了达到上述目的，本发明提供的基于深度学习的行人属性识别方法包括按顺序进行的下列步骤：

(1)使用图像语义分割方法中比较经典的Deeplab-v2网络，将行人属性数据集中的行人图像作为Deeplab-v2网络的输入，输出即为行人图像的掩码图；

(2)利用上述步骤(1)中的掩码图与行人图像逐元素相乘得到前景图，掩码图取反并与行人图像逐元素相乘得到背景图；

(3)构建行人属性识别网络并将区域级三元损失函数和加权交叉熵损失函数联合作为为行人属性识别网络的损失函数；

(4)将行人图像和上述步骤(2)中得到的前景图、背景图输入到行人属性识别网络中进行特征提取，利用步骤(3)中定义的损失函数计算行人属性识别网络的损失值，通过随机梯度下降法对行人属性识别网络参数进行更新并保存行人属性识别网络参数；

(5)利用上述步骤(4)中得到的行人属性识别网络参数初始化行人属性识别网络，输入行人图像即可得到属性识别的结果。

在步骤(1)中，所述的行人图像在数学上可以表述为一个多维矩阵，掩码图是一个与行人图像维度相同的矩阵；将行人图像中行人人体区域元素置为1，背景区域元素置为0所得的矩阵即为掩码图。

在步骤(2)中，所述的取反的方法是用一个与行人图像维度相同且所有元素均为1的矩阵减去掩码图；前景图与背景图计算的数学表达式如下：

H_foreground＝H_full*H_mask

H_background＝H_full*(H_ones-H_mask)

其中，H_full为行人图像，H_mask为掩码图，H_ones为与行人图像维度相同且所有元素均为1的矩阵，H_foreground为前景图，其等于H_full与H_mask的哈达玛积，即两个矩阵元素对应相乘，H_background为背景图，其等于H_full与(H_ones-H_mask)的哈达玛积。

在步骤(3)中，所述的行人属性识别网络采用Inception-v3网络；利用pytorch框架构建行人属性识别网络；所述的区域级三元损失函数的数学表达式如下：

其中，m由实验获得，F_full、F_foreground、F_background分别为将行人图像、前景图、背景图输入行人属性识别网络而得到的行人图像、前景图、背景图特征向量；

所述的加权交叉熵损失函数的数学表达式如下：

其中，

p_l为第l个属性的正例数量在训练集中所占的比率，σ设置为1，y_il为样例x_i的第l个属性的标签，

为属性识别网络预测的样例x_i是否包含第l个属性的概率；

所述的行人属性识别网络的损失函数的数学表达式为：

L_all＝L_att+λL_trip

其中，λ由实验获得。

在步骤(4)中，所述的将行人图像和上述步骤(2)中得到的前景图、背景图输入到行人属性识别网络中进行特征提取，利用步骤(3)中定义的损失函数计算行人属性识别网络的损失值，通过随机梯度下降法对行人属性识别参数进行优化并保存行人属性识别网络参数的方法是：

设置行人属性识别网络的学习率和权重衰减，将行人图像、背景图、前景图分别输入到行人属性识别网络中，得到行人图像、前景图和背景图特征向量，再利用损失函数计算行人属性识别网络的损失值，并通过随机梯度下降法对行人属性识别网络参数进行更新；在设置的最大迭代次数下，不断迭代学习，直至行人属性识别网络损失函数的损失值最小，保存此时的行人属性识别网络参数。

本发明提供的基于深度学习的行人属性识别方法联合加权交叉熵损失函数和区域级三元损失函数两个损失函数共同训练，利用加权交叉熵损失函数解决样本不均衡的问题，利用区域级三元损失函数解决属性识别时背景杂乱而影响准确率的问题，并且本发明方法设计合理，因此能够大幅度提高行人属性识别的准确率。

附图说明

图1是本发明提供的基于深度学习的行人属性识别方法中训练过程流程图。

图2是本发明提供的基于深度学习的行人属性识别方法中识别过程流程图。

具体实施方式

下面结合附图和具体实施例对本发明提供的基于深度学习的行人属性识别方法进行详细说明。

如图1、图2所示，本发明提供的基于深度学习的行人属性识别方法包括按顺序进行的下列步骤：

所述的行人图像在数学上可以表述为一个多维矩阵，掩码图是一个与行人图像维度相同的矩阵；将行人图像中行人人体区域元素置为1，背景区域元素置为0所得的矩阵即为掩码图。所述的Deeplab-v2网络是一种神经网络，用于图像语义分割，目的是逐像素分类。

所述的取反的方法是用一个与行人图像维度相同且所有元素均为1的矩阵减去掩码图；前景图与背景图的数学表达式如下：

H_foreground＝H_full*H_mask

H_background＝H_full*(H_ones-H_mask)

(3)构建行人属性识别网络并将区域级三元损失函数和加权交叉熵损失函数联合作为行人属性识别网络的损失函数；该损失函数可以在提取行人属性特征的同时约束行人属性识别网络提取的特征不会因为背景的影响而改变。

所述的行人属性识别网络采用Inception-v3网络。Inception网络是一种谷歌开源的卷积神经网络，Inception-v3网络是Inception网络的第三个版本，其在前两个版本的基础上提出分解大尺寸的卷积核，既可以加速计算又可以增加网络的非线性能力。Inception-v3网络可在增加网络深度和宽度的同时减少参数，增加了网络的非线性能力，可以尽量避免网络过拟合。

采用pytorch框架构建行人属性识别网络，pytorch框架是一个深度学习框架库。

所述的区域级三元损失函数可以强制行人属性识别网络学习的特征具有背景杂乱不变性，以达到抑制背景影响的作用，其数学表达式如下：

其中，m由实验获得，F_full、F_foreground、F_background分别为将行人图像、前景图、背景图输入行人属性识别网络而得到的行人图像、前景图、背景图特征向量。该损失函数计算的是行人图像分别与前景图、背景图的欧氏距离。随着该损失函数的最小化，行人属性识别网络提取的行人图像特征向量与前景图特征向量的欧氏距离越来越小，即，行人属性识别网络提取的行人图像特征与前景图特征相似；行人图像特征向量与背景图特征向量的欧氏距离越来越大，即，行人属性识别网络提取的行人图像特征与背景图特征相异。

所述的加权交叉熵损失函数的作用是计算属性识别的损失，其数学表达式如下：

其中，

为属性识别网络预测的样例x_i是否包含第l个属性的概率。行人属性数据集中每个属性正负样本数目不均衡，加权交叉熵损失函数为正样本数目较少的属性赋予较大的惩罚权重，为正样本数目较多的属性赋予较小的惩罚权重，以此来解决样本不均衡的问题。

所述的行人属性识别网络的损失函数的数学表达式为：

L_all＝L_att+λL_trip

其中，λ由实验获得。

设置行人属性识别网络的学习率和权重衰减，将行人图像、背景图、前景图分别输入到行人属性识别网络中而得到行人图像、前景图和背景图特征向量，再计算损失值，并对行人属性识别网络参数进行更新；在设置的最大迭代次数下，不断迭代学习，直至行人属性识别网络损失函数的损失值最小，保存此时的行人属性识别网络参数。

(5)利用上述步骤(4)中得到的行人属性识别网络参数初始化行人属性识别网络，最后在经过初始化的行人属性识别网络中输入任意的行人图像即可得到该图像的属性识别结果。

Claims

1.一种基于深度学习的行人属性识别方法，其特征在于：所述的方法包括按顺序进行的下列步骤：

(3)构建行人属性识别网络并将区域级三元损失函数和加权交叉熵损失函数联合作为行人属性识别网络的损失函数；

2.根据权利要求1所述的基于深度学习的行人属性识别方法，其特征在于：在步骤(1)中，所述的行人图像在数学上表述为一个多维矩阵，掩码图是一个与行人图像维度相同的矩阵；将行人图像中行人人体区域元素置为1，背景区域元素置为0所得的矩阵即为掩码图。

3.根据权利要求1所述的基于深度学习的行人属性识别方法，其特征在于：在步骤(2)中，所述的取反的方法是用一个与行人图像维度相同且所有元素均为1的矩阵减去掩码图；前景图与背景图计算的数学表达式如下：

H_foreground＝H_full*H_mask

H_background＝H_full*(H_ones-H_mask)

4.根据权利要求1所述的基于深度学习的行人属性识别方法，其特征在于：在步骤(3)中，所述的行人属性识别网络采用Inception-v3网络；利用pytorch框架构建行人属性识别网络；所述的区域级三元损失函数的数学表达式如下：

所述的加权交叉熵损失函数的数学表达式如下：

其中，

为属性识别网络预测的样例x_i是否包含第l个属性的概率；

所述的行人属性识别网络的损失函数的数学表达式为：

L_all＝L_att+λL_trip

其中，λ由实验获得。

5.根据权利要求1所述的基于深度学习的行人属性识别方法，其特征在于：在步骤(4)中，所述的将行人图像和上述步骤(2)中得到的前景图、背景图输入到行人属性识别网络中进行特征提取，利用步骤(3)中定义的损失函数计算行人属性识别网络的损失值，通过随机梯度下降法对行人属性识别网络参数进行优化并保存行人属性识别网络参数的方法是：