CN110569779B

CN110569779B - 基于行人局部和整体属性联合学习的行人属性识别方法

Info

Publication number: CN110569779B
Application number: CN201910820960.5A
Authority: CN
Inventors: 张顺; 万帅
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2022-10-04
Anticipated expiration: 2039-08-28
Also published as: CN110569779A

Abstract

本发明提供了一种基于行人局部和整体属性联合学习的行人属性识别方法，通过设计基于行人局部和整体属性联合学习的卷积神经网络结构，融合行人部位属性和全身属性进行具有关联性多任务学习，联合学习行人局部和整体属性的判别性特征表示，得到更具判别性的行人属性特征。本发明可以有效融合行人部位属性和全身属性进行具有关联性多任务学习，提高属性特征的判别性能力，实现对复杂场景中行人部位属性的更精准的识别，从而提升行人属性的识别性能。

Description

基于行人局部和整体属性联合学习的行人属性识别方法

技术领域

本发明涉及计算机视觉与模式识别技术领域，尤其是一种行人属性识别方法。

背景技术

近些年来，随着社会对暴恐事件防范、刑事犯罪侦察等安全防范的日益重视，摄像机网络被广泛应用于地铁、机场、校园、超市等公共场所中，利用智能监控技术可以从多摄像机监控网络对感兴趣目标进行大范围、长时间、高精度的检索、定位等分析。对于大部分监控场景来说，行人是监控视频中最为常见也最为关注的目标。行人属性识别是分析监控视频中行人的属性特征，如性别、年龄、头发长短、衣服类型和颜色等，可以有效提高视频监控中行人检索和行人重识别等技术的准确率，因此行人属性识别技术有着广泛的应用前景。

监控视频中的行人图像往往存在遮挡、姿态变化、光照变化、低分辨率等问题，使行人识别问题成为智能视频监控领域最具挑战性的问题之一。为了解决以上问题，传统的行人属性识别方法采用人工设计的特征训练特征匹配模板，然而该方法不仅成本高，而且容易受到光照和环境的影响。与传统方法相比，深度学习方法将特征学习和分类器优化整合到一个统一的深度卷积神经网络框架中，利用深层网络的非线性映射提取图像的整体特征。虽然这些方法能有效提高行人属性识别性能，但是忽略了图像的局部特征对属性识别的影响。

发明内容

为了克服现有技术的不足，本发明提供一种基于行人局部和整体属性联合学习的行人属性识别方法。提供了一种实用性强、可明显提高行人再识别准确率的基于行人局部和整体属性联合学习的行人属性识别方法。通过设计基于行人局部和整体属性联合学习的卷积神经网络结构，融合行人部位属性和全身属性进行具有关联性多任务学习，联合学习行人局部和整体属性的判别性特征表示，得到更具判别性的行人属性特征。与现有方法相比，本发明大幅提高了行人属性识别的准确率。

本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤1：准备行人属性识别训练集；

行人属性识别训练集包含行人图片和对应的行人属性标签，其中所有行人属性的类别组成整体行人属性集，按行人的上、下半身部位分别划分为上、下半身行人属性集；所使用的训练图片在现实场景中由多个无重叠视野的摄像机拍摄的图片，经过行人检测器检测或手工标定得到的包含行人大部分部位的图片，行人属性标签由手工标定，行人属性识别数据集包含Market-1501、DukeMTMC-reID和PETA；

行人属性识别训练集表示为

共包含N张行人图片，每张行人图片I_i共含有M_G个行人属性类别，类别包括但不限于年龄、性别、头发长度、上衣长度、上衣颜色、背包、手提包、裤子类型、裤子颜色、鞋子类型和鞋子颜色，以上M_G个行人属性类别组合成第i张行人图片I_i的整体行人属性

其中G表示本属性指示整体行人属性，

是行人图片I_i的整体行人属性中第j个属性。对整体行人属性集

划分为上、下半身两类行人属性集，分别是

和

其中U表示本属性指示上半身行人属性，D表示本属性指示下半身行人属性，

是行人图片I_i的上半身行人属性中第j个属性，

是行人图片I_i的下半身行人属性中第j个属性，上半身行人属性集

含有M_U个行人属性类别，下半身属性集

含有M_D个属性类别；

步骤2：设计基于行人局部和整体属性联合学习的深度卷积神经网络结构；

深度卷积神经网络包含两个子网络：整体属性学习子网络和局部属性学习子网络；整体属性学习子网络是学习行人全身所有的属性特征并对训练集中行人图片预测整体行人属性类别；局部属性学习子网络包含三个分支，分别学习行人整体和上、下半身的属性特征并预测其对应的属性类别；

采用深度卷积神经网络主体框架为50层的深度残差网络模型——ResNet50模型；ResNet50模型包含多个卷积层和池化层，最后一个隐含层经过全局平均池化操作后，接一个用于分类的全连接分类层fc，用于预测数据集的图片类别，表1给出ResNet50模型的网络层名称：

其中，ResNet50模型包含5个不同的卷积模块：conv1,conv2_x(x＝1,2,3),conv3_x(x＝1,2,3,4),conv4_x(x＝1,2,:::,6)和conv5_x(x＝1,2,3)，其中x表示卷积模块叠加的数量；

基于行人局部和整体属性联合学习的深度卷积神经网络对ResNet50模型的网络结构进行了修改，所述深度卷积神经网络中，conv4_1层以及之前的网络层与ResNet50模型中的网络层保持一致，conv4_1层之后的网络分开形成两个子网络：整体属性学习子网络和局部属性学习子网络。

在整体属性学习子网络中，所有conv4层和conv5层都同原ResNet50模型的参数设置保持一致，最后的隐含层经过全局最大池化操作后连接一个连接层，学习行人的整体属性特征f^G，最后一层属性分类层包含M_G个行人整体属性类别，对f^G进行如下整体属性预测：

整体属性学习子网络对训练集中行人图片I_i预测M_G个行人属性的类别与真实属性类别计算误差，整体属性学习子网络使用的目标函数是二值交叉熵损失函数；对批量处理的n_bs张行人图片，二值交叉熵损失函数L_attr计算如下：

式中，

是第i张行人图片I_i的整体属性集中第j个真实属性类别，

是神经网络预测行人图片I_i属性类别为

的概率；

在局部属性学习子网络中，所有conv4层与原ResNet50模型的参数设置保持一致，不同的是conv5_1层未经过下采样操作，在conv5_1层后网络分成三个分支：一个分支是对conv5_1层输出的完整特征图进行全身属性学习，与整体属性学习子网络的属性特征学习方法一致；另外两支是采用行人部位生成策略，对conv5_1层输出的特征图的尺寸在竖直方向上一分为二，分成上半身和下半身，然后对上下半身输出的特征图分别进行局部属性学习；三个分支从conv5_1层输出的特征图都经过全局池化操作，然后和全连接层连接，分别得到全身和上、下半身的特征

和

最后将

和

分别输入全身和上、下半身的属性分类层；其中，全身的属性分类层包含对所有属性类别

进行分类识别，上半身的属性分类层是对上半身属性集

的分类识别，而下半身的属性分类层包含对上半身属性集

的分类识别；

对全身属性特征

输出给属性分类层进行属性预测，通过计算目标函数进行预测，分类层包含M_G个行人全身属性类别，对训练集中行人图片I_i预测M_G个行人属性的类别，并与真实属性类别计算误差，对全身属性特征

输出给属性分类层进行属性预测，使用的目标函数是二值交叉熵损失函数；对批量处理的n_bs张行人图片，二值交叉熵损失函数

计算如下：

对上半身属性特征

输出给属性分类层进行属性预测，分类层包含M_U个行人全身属性类别，对训练集中行人图片I_i预测M_U个行人属性的类别，并与真实属性类别计算误差，其使用的目标函数是二值交叉熵损失函数。对批量处理的n_bs张行人图片，二值交叉熵损失函数

计算如下：

式中，

是第i张行人图片I_i的上半身属性集中第j个真实属性类别，

是神经网络预测行人图片I_i属性类别

的概率；

对下半身属性特征

输出给属性分类层进行属性预测，分类层包含M_D个行人全身属性类别；对训练集中行人图片I_i预测M_D个行人属性的类别，并与真实属性类别计算误差，其使用的目标函数是二值交叉熵损失函数，对批量处理的n_bs张行人图片，二值交叉熵损失函数

计算如下：

式中，

是第i张行人图片I_i的上半身属性集中第j个真实属性类别，

是神经网络预测行人图片I_i属性类别

的概率；

总的损失函数由

和

四个损失函数加权组成：

式中，λ₁、λ₂和λ₃为常数，整个深度卷积神经网络使用多任务学习方法对整体和局部属性学习子网络进行关联性训练；

步骤3：测试阶段：使用已经训练好的深度卷积神经网络对测试集的行人图片提取f^G、

和

特征，并分别用对应的属性分类层输出结果采用投票法，即对四个分类层，每个结果都给一票，最后综合票最多的属性，逐个预测图片的行人属性类别，取票数最多的属性预测结果。

本发明的有益效果在于本发明的基于行人局部和整体属性联合学习的行人属性识别方法，可以有效融合行人部位属性和全身属性进行具有关联性多任务学习，提高属性特征的判别性能力，实现对复杂场景中行人部位属性的更精准的识别，从而提升行人属性的识别性能。

附图说明

图1为本发明的流程示意图。

图2是本发明实例中卷积神经网络的结构示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明提出了一种基于行人局部和整体属性联合学习的行人属性识别方法，有效融合行人部位属性和全身属性进行具有关联性的多任务学习，使深度卷积神经网络学习到学习更具判别性和鲁棒性的行人属性特征，实现对复杂场景中行人部位属性的更精准的识别，提高行人属性识别的准确度。

如图1所示，本发明所述的基于行人局部和整体属性联合学习的行人属性识别方法，包括以下步骤：

步骤1：准备行人属性识别训练集；

行人属性识别训练集表示为

共包含N张行人图片，每张行人图片I_i共含有M_G个行人属性类别，类别包括年龄、性别、头发长度、上衣长度、上衣颜色、背包、手提包、裤子类型、裤子颜色、鞋子类型和鞋子颜色，以上M_G个行人属性类别组合成第i张行人图片I_i的整体行人属性

其中G表示本属性指示整体行人属性，

划分为上、下半身两类行人属性集，分别是

和

是行人图片I_i的上半身行人属性中第j个属性，

含有M_U个行人属性类别(如年龄、性别、头发长度、上衣长度、上衣颜色、背包等)，下半身属性集

含有M_D个属性类别(如裤子类型、裤子颜色、手提包、鞋子类型、鞋子颜色等)；

设计的深度卷积神经网络包含两个子网络：整体属性学习子网络和局部属性学习子网络；整体属性学习子网络是学习行人全身所有的属性特征并对训练集中行人图片预测整体行人属性类别；局部属性学习子网络包含三个分支，分别学习行人整体和上、下半身的属性特征并预测其对应的属性类别；

本发明采用的深度卷积神经网络主体框架为50层的深度残差网络模型——ResNet50模型；深度残差网络模型借鉴了highway网络的思想，在构造网络时增加了捷径连接，使后续层的输出不是传统神经网络中输入的映射，而是输入的映射和输入的叠加，从而解决了深度神经网络训练的梯度消失或爆炸以及特征分布不均匀等问题。同时，神经网络深度的增加使网络具有学习到更多隐含判别性特征的能力。ResNet50模型包含大量的卷积层和池化层，最后一个隐含层经过全局平均池化操作后，会接一个用于分类的全连接分类层fc，用于预测数据集的图片类别。表1给出ResNet50模型的网络层名称：

其中，ResNet50模型包含5个不同的卷积模块：conv1,conv2_x(x＝1,2,3),conv3_x(x＝1,2,3,4),conv4_x(x＝1,2,:::,6)和conv5_x(x＝1,2,3)，其中x表示卷积模块叠加的数量，更多细节可参考文献“He,K.,Zhang,X.,Ren,S.,&Sun,J.Deep residual learningfor image recognition.In Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition,2016(pp.770-778)”。

本发明设计的基于行人局部和整体属性联合学习的深度卷积神经网络(如图2所示)对ResNet50模型的网络结构进行了修改。所提深度卷积神经网络中，conv4_1层以及之前的网络层与ResNet50模型中的网络层保持一致，conv4_1层之后的网络分开形成两个子网络：整体属性学习子网络和局部属性学习子网络。

在整体属性学习子网络中，所有conv4层和conv5层都同原ResNet50模型的参数设置保持一致，最后的隐含层经过全局最大池化操作后连接一个1024维连接层，学习行人的整体属性特征f^G，最后一层属性分类层包含M_G个行人整体属性类别，对f^G进行如下整体属性预测：

式中，

是第i张行人图片I_i的整体属性集中第j个真实属性类别，

是神经网络预测行人图片I_i属性类别为

的概率；

在局部属性学习子网络中，所有conv4层与原ResNet50模型(原ResNet50模型见论文“He,K.,Zhang,X.,Ren,S.,&Sun,J.Deep residual learning for imagerecognition.In Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,2016(pp.770-778)”)的参数设置保持一致，不同的是conv5_1层未经过下采样操作，以保护局部特征感受野；在conv5_1层后网络分成三个分支：一个分支是对conv5_1层输出的完整特征图进行全身属性学习，与整体属性学习子网络的属性特征学习方法一致；另外两支是采用行人部位生成策略，对conv5_1层输出的特征图的尺寸在竖直方向上一分为二，分成上半身和下半身，然后对上下半身输出的特征图分别进行局部属性学习。三个分支从conv5_1层输出的特征图都经过全局池化操作，然后和512维的全连接层连接，分别得到全身和上、下半身的特征

和

最后将

和

进行分类识别，上半身的属性分类层是对上半身属性集

的分类识别，而下半身的属性分类层包含对上半身属性集

的分类识别。

对全身属性特征

输出给属性分类层进行属性预测，分类层包含M_G个行人全身属性类别，对训练集中行人图片I_i预测M_G个行人属性的类别，并与真实属性类别计算误差，对全身属性特征

计算如下：

对上半身属性特征

计算如下：

式中，

是第i张行人图片I_i的上半身属性集中第j个真实属性类别，

是神经网络预测行人图片I_i属性类别

的概率；

对下半身属性特征

输出给属性分类层进行属性预测，分类层包含M_D个行人全身属性类别；对训练集中行人图片I_i预测M_D个行人属性的类别，并与真实属性类别计算误差，其使用的目标函数是二值交叉熵损失函数。对批量处理的n_bs张行人图片，二值交叉熵损失函数

计算如下：

式中，

是第i张行人图片I_i的上半身属性集中第j个真实属性类别，

是神经网络预测行人图片I_i属性类别

的概率。

总的损失函数由

和

四个损失函数加权组成：

式中，λ₁、λ₂和λ₃为常数，用于平衡各个损失函数的权重，整个深度卷积神经网络使用多任务学习方法对整体和局部属性学习子网络进行关联性训练。

本发明设计的基于局部和整体属性联合学习的深度卷积神经网络模型，可以有效融合行人部位属性和全身属性进行具有关联性多任务学习，提高属性特征的判别性能力，实现对复杂场景中行人部位属性的更精准的识别，从而提升行人属性的识别性能。

和