CN108510000B

CN108510000B - 复杂场景下行人细粒度属性的检测与识别方法

Info

Publication number: CN108510000B
Application number: CN201810295592.2A
Authority: CN
Inventors: 于重重; 马先钦; 周兰; 王鑫
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2021-06-15
Anticipated expiration: 2038-03-30
Also published as: CN108510000A

Abstract

本发明公布了一种复杂场景下行人细粒度属性的识别方法，采用分类模型对检测出的行人的子部件进行细粒度属性识别；将识别出的属性分别与行人性别进行关联分析，选取相关性强的属性进行多任务学习；再训练多任务学习构建的卷积神经网络模型，并针对多个属性选出识别正确率最高的卷积神经网络模型结果，作为最终结果；最后根据自定义的决策函数来判断行人的性别属性。本发明可实现对复杂场景中行人由整体到局部的检测，实现对行人子部件属性更精准的检测与识别，能够避免背景等信息的干扰，同时也解决了模型对小目标检测正确率低的问题，具有较高的识别精度。

Description

复杂场景下行人细粒度属性的检测与识别方法

技术领域

本发明属于模式识别和机器视觉技术领域，涉及目标检测与识别技术，尤其涉及一种针对复杂场景下行人细粒度属性的检测与识别方法。

背景技术

近年来，随着模式识别和机器视觉的发展，目标检测与识别技术得到了很大的发展，并且在视频场景监控，机器人控制，智能交通，以及无人驾驶汽车等领域实现了大量的应用。

目标检测与识别的方法主要分为两个步骤，第一步是目标检测，第二步是图像分类。传统的目标检测方法主要是采用滑动窗口+手工设计特征，主要方法有基于特征描述子的、基于形状特征的和基于边缘的目标检测；传统的分类方法主要采用Adaboost集成学习、支持向量机(Support Vector Machine，SVM)等。传统的目标检测与识别方法，主要是采用滑动窗口的方法进行窗口提名，这种方法的实质是穷举法。此方法不仅复杂度高、鲁棒性差，而且产生了大量的候选区冗余区域。

2014年，Ross B.Girshick使用候选区域(region proposal)+分类卷积神经网络(CNN)模型，设计了R-CNN框架，使得目标检测与识别取得巨大突破，并开启了基于深度学习的目标检测与识别的热潮。(Liang M,Hu X.Recurrent convolutional neural networkfor object recognition[C]Computer Vision and Pattern Recognition(CVPR).IEEE,2015:3367-3375.)

Ren S等提出了Faster R-CNN：在实时对象检测和候选区域网络间引入了一个区域建议网络(RPN)，它与检测网络共享映像卷积功能，从而提供了一个近乎没有成本的区域建议。(Ren S,He K,Girshick R,et al.Faster R-CNN:Towards Real-Time ObjectDetection with Region Proposal Networks[J].IEEE Transactions on PatternAnalysis&Machine Intelligence,2017,39(6):1137-1149.)

Wang X等提出了A-Fast-RCNN：通过对手的硬阳性生成对象检测,建议学习一个对抗性的网络，产生的例子与闭塞和变形，在框架中的原始探测器和对手的共同学习的方式。(Wang X,Shrivastava A,Gupta A.A-Fast-RCNN:Hard Positive Generation viaAdversary for Object Detection[J].2017.)

Liu L等提出了Highly Occluded Face Detection：改进的R-FCN，提出的算法是基于区域全卷积网络(R-FCN)与两个改进的部分，鲁棒人脸检测，包括多尺度训练和一个新的特征融合方案。(Liu L,Jiang F,Shen R.Highly Occluded Face Detection:AnImproved R-FCN Approach[M]Neural Information Processing.2017.)

基于R-CNN框架的深度学习方法，解决了传统目标检测使用的滑动窗口存在的问题，在鲁棒性和准确率方面有明显进步，但是存在重复计算、训练耗时、步骤繁琐等问题。基于回归方法的端到端的深度学习目标检测算法无需region proposal，直接采用回归完成目标位置和类别的判定。

行人检测与识别一直是目标检测与识别领域的一个热点课题。但是在复杂场景中，存在着姿态、光照、遮挡、背景干扰等诸多不确定因素，因此，现有的行人检测与识别技术存在精度低、时效性差等问题，实现对行人子部件属性更精准的检测与识别是一项极具挑战性的技术任务。

发明内容

为了克服上述现有技术的不足，本发明提供一种针对复杂场景下行人细粒度属性的检测与识别方法(Fusion of Convolutional Neural Networks Based On MultitaskLearning for Recognition of Pedestrian Attribute，FMRPA)，通过融和多属性的多任务学习的卷积神经网络(Convolutional Neural Network,CNN)模型，实现对行人子部件属性更精准的检测与识别，能够解决现有方法存在的精度低、时效性差等问题，具有较高的识别精度。

本发明的目的是提供一种新的方法，实现对行人细粒度属性进行检测与识别。首先为了实现对行人子部件属性更精准的检测与识别，借助于标注框对行人进行二次检测与识别；然后通过对行人子部件属性之间进行关联分析，选出相关性比较强的属性，构建多个基于多属性的多任务学习的CNN分类模型，并将这些模型结果进行融合，最后采用投票法实现对行人细粒度属性更精确的识别。

本发明提供的技术方案如下：

一种复杂场景下行人细粒度属性的检测与识别方法，采用CNN分类模型对检测出的行人的子部件进行细粒度属性识别，将识别出的属性分别与行人性别进行关联分析，选取相关性强的属性进行多任务学习，再训练多任务学习构建的卷积神经网络模型(VGGNet16与ResNet50)，并将模型结果采用投票策略，针对多个属性选出识别正确率最高的模型的结果，作为最终结果，最后根据自定义的决策函数来判断行人的性别属性；包括如下步骤：

第一步：复杂场景中行人肢体的各个部分的定义

本发明将行人本身所固有的特征，如头、上肢和下肢定义为行人子部件，用X_i＝{x_i1,x_i2,…x_ij,…x_im}表示，其中X_i表示行人i，x_ij表示行人i的第j个子部件，其中i∈(1,M),j∈(1,m)，M是检测到行人的数量，m表示行人子部件个数；将外在附属物，如头发类型、衣服类型、鞋子类型定义为子部件属性，用Y_ij＝{y_ij1,y_ij2,…y_ijk,…y_ijn}表示，其中Y_ij表示行人i的第j个子部件，y_ijk表示行人子部件j的第k个属性，其中,i∈(1,M)j∈(1,m)，k∈(1,n)，n是行人子部件属性的个数。

第二步：复杂场景中行人的二次检测；利用目标检测方法YOLOv2(You Only LookOnce v2)模型(Molchanov V V,Vishnyakov B V,Vizilter Y V,et al.Pedestriandetection in video surveillance using fully convolutional YOLO neural network[C]//SPIE Optical Metrology.2017:103340Q.DOI:10.1117/12.2270326)两次检测行人子部件，第一次对行人进行粗粒度检测，第二次对行人子部件进行细粒度检测；

本发明采用二次检测方法对对行人进行检测。首先对视频中的行人进行粗粒度检测，检测出行人整体；然后对检测出的行人进行细粒度检测，检测出行人的头部、上肢和下肢三个子部件，检测过程如图2所示，具体步骤如下：

1)选取模型训练的样本U_i，测试样本L_i；

具体实施时，从RAP数据集中随机选取33268张为训练集，8317张为测试集。

设迭代总次数为T，从1到T每次迭代训练依次完成下面2)-8)步：

2)对输入到卷积神经网络模型的训练样本通过卷积、池化操作进行特征提取，并且在每一次卷积操作后进行批量规范化处理，加快网络的收敛速度；

3)采用K-means聚类，通过对数据集中人的标注框聚类，找到人的标注框的统计规律，然后以聚类个数k作为候选框(anchor boxes)的个数，以k个聚类中心框的维度为候选框的维度；

4)利用候选框预测回归边框以及类别C类；预测出一幅图中待检测行人目标的类别个数；

回归边框是模型预测出的目标位置区域；C为待检测目标的类别数量；

5)预测每个回归边框的坐标，并且预测每个回归边框中含有行人目标的置信度；

6)在卷积神经网络模型的最后几层，分别采用3×3和1×1交替三次的卷积层，进行检测分类；

7)采用非极大值(Non Maximum Suppression,NMS)抑制，输出最终结果；

8)根据前向传播计算过程得到Loss函数值，根据Loss函数损失值进行反向传播更新各层权重；

通过网络的前向传播过程得到预测值，Loss函数值为预测值与真实值之间的差。

9)根据步骤2)-8)多次迭代，首先检测出行人(整体)，然后检测出行人子部件Y_ij(行人的肢体)。

第三步，对检测出来的子部件进行细粒度属性识别，得到子部件的属性；

采用分类的卷积神经网络(如ResNet50模型)进行识别，检测得到的子部件的属性包括发型、衣服类型，鞋子类型等；

第四步，利用分类器融合与判别决策算法，识别得到行人的性别，即为行人识别结果。

具体地，将第三步识别出的子部件的属性与行人的性别进行关联分析，根据式(1)分别求出每个子部件的每个属性y_ijk与性别M_iu之间的相关系数，得到相关系数矩阵R_k，其中u∈(0,1)，k∈(1,n)；然后根据置信度从高到低排序选出相关系数较大(如大于0.5的值)的L个属性构建基于多属性的多任务学习的CNN模型，将这些模型的结果进行融合，通过采用投票法及自定义的决策函数对待识别目标进行最终的判决，从而得到行人识别结果。

行人细粒度属性检测与识别主要利用分类器融合与判别决策算法。本发明提出由多个属性组成的多任务共享参数的CNN分类模型，网络结构如图3所示。对于多任务，多个CNN分类模型共享底层卷积层和池化层，来提取各自模型的特征，然后通过各自模型的全连接层和softmax层，输出模型各自最终的识别结果。

本发明中提出的分类器融合与判别决策算法实现对行人细粒度属性检测与识别。分类器融合与判别决策算法的流程如图4所示。

分类器融合与判别决策算法具体执行如下操作：

1)输入第二步选取得到的行人子部件训练样本数据U_k，测试样本数据L_k到卷积神经网络模型。

具体实施时，利用第二步得到的只包含行人子部件的数据，随机选取80％的数据作为训练集，20％的数据作为测试集；设迭代总次数为K，从1到K每次迭代训练依次完成下面2)-6)步：

2)采用模二加(异或运算)的方法，即利用model1和model2对第二步识别出来的行人子部件Y_ij进行细粒度属性y_ijk识别；

3)定义M_iu表示行人的性别，分别求出y_ijk与性别M_iu之间的相关系数矩阵R_k，以相关系数的大小作为置信度，并按照置信度从高到低排序选出相关系数较大的L个属性(细粒度属性y_ijk)作为多任务学习的子任务p_ijl，其中相关系数最大的作为主要任务p_ij1，其余的作为次要任务。对于主要任务和次要任务的选取按照以下原则：

选取原则：首先将行人的细粒度属性与性别进行关联分析，利用如下公式1分别求出每个子部件的每个子属性y_ijk与性别M_iu之间的相关系数，得到相关系数矩阵R_k，其中u∈(0,1)，k∈(1,n)；然后根据置信度从高到低排序选出相关系数较大的L个属性作为多属性的多任务的每个子任务{p_ij1,p_ij2,…,p_ijl,…,p_ijL}，i∈(1,M),j∈(1,m)，l∈(1,L)，其中相关系数最大的作为主要任务p_ij1，其余的作为次要任务。

其中，R_k为相关系数矩阵，y_ijk是第i个行人的第j个部件中的第k个属性，M_iu是第i个行人的性别u，i∈(1,M),j∈(1,m)，u∈(0,1)。

4)求出每个次要任务与主要任务之间的相关系数r_l，再对每个任务赋予权值w_q。其中相关系数、权重赋值原则如下：

任务权重赋值原则：利用如下公式2分别求出每个次要任务与主要任务之间的相关系数r_l，其中l∈(1,L)；然后依据与主要任务相关性越大的次要任务越多的参与主要任务的决策，与主要任务相关性越小的次要任务越少参与主要任务的决策这一原则，将次要任务与主要任务之间的相关系数按照置信度从高到底排序，并按公式3对每个任务赋予权值w_q，其中q∈(1,L)。

在式2中，r_l是次要任务i与主要任务之间的相关系数,p_ij1是相关系数最大的主要任务，

其中，h_q表示按照每个次要任务与主要任务之间相关性的等级取相应的值，q∈(1,L)，16是根据h_q的取值而确定的。

5)根据式4的函数，对每个任务与目标之间进行编码解码，得到每个任务预测的性别标签，然后通过式5对分类器的融合结果采用Arrogance投票法得到各自的最佳识别结果；

通过以上原则得到主、次要任务以及权重赋值原则后，鉴于训练样本中每个任务以及性别的标签均是0和1的离散值，因此本发明采用每个任务分别与性别通过模二加进行编码，得到每个任务与性别之间的函数关系，如式4所示：

其中，i＝1,2,3,…,M，q＝1,2,…,L，定义attribute_i1表示性别属性，attribute_iq表示多任务的属性。

其中，Z表示分类器的个数，Q表示属性类别个数，C表示分类矩阵。

6)根据式6得到目标的最终判别结果；

其中，i＝1,2,……,M，C_i代表了每个行人性别的最终判断结果，w_q表示每个任务的权重。

结束K次迭代，即得到最终的行人识别结果C_i，由此确认行人的性别。

与现有技术相比，本发明的有益效果是：

本发明提供一种针对复杂场景下行人细粒度属性的检测与识别方法—FMRPA方法。利用本发明提供的技术方案，通过融和多属性的多任务学习的CNN模型，实现对复杂场景中行人由整体到局部的检测，实现对行人子部件属性更精准的检测与识别，可以避免背景等信息的干扰，同时也解决了模型对小目标检测正确率低的问题，具有较高的识别精度。

本发明利用CNN分类模型对检测出的行人的头部、上肢和下肢三个子部件进行细粒度属性识别，根据识别出的这些属性，分别与行人性别进行关联分析，选取相关性比较强的属性进行多任务学习，再训练多任务学习构建的卷积神经网络模型VGGNet16与ResNet50，并将这两个模型的结果进行采用投票策略，对6个属性选出识别正确率最高的模型的结果作为其最终的结果，最后根据自定义的决策函数来判断行人的性别属性。通过与其他方法进行对比，得出本发明提出的方法具有更好的识别效果。与现有技术相比，本发明具有以下技术优势：

(一)采用二次检测对复杂场景中的行人实现由整体到局部的检测与识别，即首先对行人整体进行检测与识别，然后在此基础上对行人子部件进行检测与识别，不仅可以去除背景噪声的干扰，而且改善了CNN检测模型对小目标检测正确率低的问题，提高了对行人子部件检测与识别的正确率。

(二)通过对行人子部件属性之间进行关联分析，选出相关性比较强的属性构建多个基于多属性的多任务学习的CNN分类模型，并将这些模型结果进行融合，然后采用投票法实现对行人细粒度属性更精确的识别。

附图说明

图1为本发明提供的行人属性识别方法的流程框图。

图2为本发明实施例中复杂场景行人二次检测过程的示意图；

其中，(a)为行人；(b)为检测到行人；(c)为检测行人子部件。

图3为基于多属性的多任务的CNN分类模型结构框图。

图4为分类器融合与决策判别流程框图。

图5为本发明实施例中每个模型对应的每种属性的正确率图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种复杂场景下行人细粒度属性的检测与识别方法，采用CNN分类模型对检测出的行人的子部件进行细粒度属性识别，将识别出的属性分别与行人性别进行关联分析，选取相关性强的属性进行多任务学习，再训练多任务学习构建的卷积神经网络模型(VGGNet16与ResNet50)，并将模型结果采用投票策略，针对多个属性选出识别正确率最高的模型的结果，作为最终结果，最后根据自定义的决策函数来判断行人的性别属性；图1为本发明提供的行人属性识别方法的流程框图。

以下实施例针对多摄像头复杂监控场景中的Richly Annotated Pedestrian(RAP)数据，进行行人的检测和识别；具体包括如下步骤：

数据的预处理：复杂场景中行人的二次检测；

1)将RAP数据集分为模型训练的样本U_i和测试样本L_i

2)对输入的训练样本通过CNN分类模型的卷积、池化操作进行特征提取，并且在每一次卷积操作后进行批量规范化处理，加快网络的收敛速度；

3)采用K-means聚类，通过对数据集中人的标注框聚类，得到k个聚类，再获得人的标注框的统计规律，然后以聚类个数k作为候选框的个数，以k个聚类中心框的维度为候选框的维度；

4)利用候选框预测回归边框以及类别C类；

5)每个回归边框预测坐标，并且预测每个回归边框中含有目标的置信度；

6)在网络的最后采用三个3×3和1×1交替排序的卷积层，进行检测分类；

7)采用NMS抑制，输出最终结果；

8)根据前向传播输出向量计算Loss函数值，根据损失值进行反向传播更新各层权重；

9)根据步骤(2)-(8)首先检测出行人，然后检测出行人子部件。

行人细粒度属性检测与识别

本部分使用的发明中提出的分类器融合与判别决策算法

1)将第二部分训练样本U_i识别出的行人子部件样本数据U_k，测试数据L_i识别出的行人子部件样本数据L_k，作为该部分的输入。

设迭代总次数为K，从1到K每次迭代训练依次完成下面2)-6)步：

2)采用模二加的方法，即利用model1和model2对第二步识别出来的行人子部件Y_ij进行细粒度属性y_ijk识别；

3)利用下式(7)分别求出y_ijk与M_iu之间的相关系数矩阵R_k，并按照置信度从高到低排序选出相关系数较大的L个属性作为多任务学习的子任务p_ijl，其中相关系数最大的作为主要任务p_ij1，其余的作为次要任务。

4)求出每个次要任务与主要任务之间的相关系数r_l，公式如下(8)：

根据式(9)对每个任务赋予权值w_q：

5)根据式(10)的函数，对每个任务与目标之间进行编码解码，

得到每个任务预测的性别标签，然后通过式(11)对分类器的融合结果采用Arrogance投票法得道各自的最佳识别结果；

6)根据式(12)得到目标的最终判别结果；

结束K次迭代。

以下实施案例采用Richly Annotated Pedestrian(RAP)数据集，该数据集是用于行人属性分析的多摄像机监控场景，总共有41585个行人样本数据，每个样本都注有72个属性以及观点，遮挡，身体部位信息。我们选取部分属性进行实验，如表1所示。实验过程中训练集和测试集随机分配，其中训练集为33268张，测试集为8317张。

表1 RAP数据集的行人部位属性

Parts	Attribute
		Head	Hair style,hair color,occlusion types
Upper	Clothes style,
		Lower	Clothes style,foot-ware style

在上述数据预处理，进行复杂场景中行人的二次检测。采用YOLOv2对复杂场景中的行人进行两次检测，模型第一次和第二次检测部分超参数如表2所示，其余参数均为默认值。

表2两次检测模型的部分超参数

采用YOLOv2对视频中复杂场景的行人进行两次检测，实现对行人的头部、上肢和下肢三个子部件进行定位。在训练模型时，根据loss函数曲线来评判模型的稳定性，以及作为参数调节的依据。第二次检测时，迭代次数设置为80000，其中每迭代20次显示一次结果，绘制loss函数曲线图。根据loss函数曲线图，在迭代到低90次时，损失函数开始陡降；迭代200次左右之后，Loss值基本趋近于0，并保持稳定，由此反映出模型具有一定的可靠性。最终得到模型的平均召回率为100.00％，平均IOU为92.98％，头部检测正确率为79％，上肢检测正确率为85％，下肢检测正确率为62％。

在此基础上继续行人细粒度属性识别，首先进行数据预处理，检测出每个行人的头部、上肢和下肢三个子部件，并利用ResNet50模型对每个子部件的细粒度属性进行识别；然后将识别出的子部件属性分别求取与行人性别之间的相关系数如表3所示：

表3行人性别与其他各属性的相关系数

Attributes	Sex
		Bald-Head	-0.0383
Long-Hair	0.7039
		Black-Hair	-0.0042
Skirt	0.3833
		Short-Skirt	0.3833
Dress	0.3833
		Shoes-Leather	-0.2102
Shoes-Sport	-0.1279
		Shoes-Boots	0.5387
Shoes-Cloth	0.1373
		Shoes-Casual	-0.1108

从表3可以看出，有的属性与性别成正相关，说明该属性有利于性别的判断；有的属性则与性别成负相关，说明该属性对性别起负作用，不利于性别的判断，。因此选出具有关联关系的6个属性分别为Long-Hair、Shoes-Boots、Skirt、Short-Skirt、Dress、shoes-Cloth。其中Long-Hair与性别的相关性最强，因此，将Long-Hair定为主要任务，其他5个属性定为次要任务。

选出主要任务和次要任务之后，基于共享参数的多任务学习原则，构建多任务学习的多标签模型VGGNet16和ResNet50。在模型训练阶段，各自的部分超参数如表4所示，其余采用默认值。

表4 VGGNet16和ResNet50模型的超参数

以ResNet50为例，模型训练结束后可绘制出每个属性对应的网络损失曲线图；每个属性的Loss函数值均低于1，在训练过程中，有些地方虽存在波动，但是整体趋于平稳，说明采用多任务学习训练出的多标签模型具有一定的稳定性。

VGGNet16和ResNet50模型对每个子属性的识别结果图5所示。通过图5可以看出VGGNet16对Skirt、Short-Skirt与Dress的识别更准确；ResNet50对Long-Hair、shoes-Boots与shoes-Cloth的识别更准确。因此按照置信度排序，基于Arrogance的投票方法，Long-Hair、shoes-Boots与shoes-Cloth三个属性采用ResNet50模型进行识别；Skirt、Short-Skirt与Dress三个属性采用VGGNet16模型进行识别。

在最终目标判定时，主要任务起决定性作用，次要任务来辅助修正主要任务对判决目标的决策。根据此原则，求出主要任务与各个次要任务之间的相关系数矩阵如表5所示：

表5主要任务与次要任务的相关系数

从表5可以看出，Shoes-Boots与主要任务的关联性最强，Skirt、Short-Skirt和Dress与主要任务的关联性一样，Shoes-Cloth与主要任务的关联性最弱。根据每个属性对性别的影响程度，根据式(7)权重分别设为3/8，3/16，1/8，1/8，1/8，1/16。然后根据式(10)判断出性别。然后采用多个方法作为基线模型进行对比，各种方法识别的正确率如表6所示：

表6不同方法识别的正确率

通过表6中各方法的对比可以看出，基于主要任务的单任务学习来训练模型时，识别效果比价差，正确率均低于70％；采用多任务学习来训练模型时，识别效果均由提升，而且与用性别作为标签训练模型时正确率更高，分别提升了0.313％、1.743％；采用本文提出的方法，正确率最高达到75.64％。通过对比可以看出，本文提出的方法具有一定的可行性。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种复杂场景下行人细粒度属性的识别方法，采用分类模型对检测出的行人的子部件进行细粒度属性识别；通过将识别出的属性分别与行人性别进行关联分析，选取属性进行多任务学习；再训练多任务学习构建的卷积神经网络模型，并针对多个属性选出识别正确率最高的卷积神经网络模型结果，作为最终结果；最后根据决策函数来判断行人的性别属性；包括如下步骤：

第一步：定义复杂场景中行人的子部件，将行人子部件表示为X_i＝{x_i1,x_i2,…x_ij,…x_im}，其中，X_i表示行人i，x_ij表示行人i的第j个子部件，i∈(1,M),j∈(1,m)，M是检测到行人的数量，m表示行人子部件的个数，行人子部件包括行人的头、上肢和下肢；将行人外在附属物定义为子部件属性，用Y_ij＝{y_ij1,y_ij2,…y_ijk,…y_ijn}表示，其中，Y_ij表示行人i的第j个子部件，y_ijk表示行人子部件j的第k个属性，其中,i∈(1,M)j∈(1,m)，k∈(1,n)，n是行人子部件属性的个数；

第二步：对复杂场景中行人进行两次检测；

利用目标检测方法模型对行人子部件进行两次检测，其中，第一次检测对行人进行粗粒度检测，得出行人整体；第二次检测对行人子部件进行细粒度检测，检测得出行人的多个子部件Y_ij；包括如下步骤：

21)选取模型训练的样本和测试样本；设迭代总次数为T，从1到T每次迭代训练依次完成步骤22)-28)：

22)对输入到卷积神经网络模型的训练样本进行特征提取；

23)采用聚类方法，通过对数据集中人的标注框聚类，得到人的标注框聚类个数k；然后以k作为候选框的个数，以k个聚类中心框的维度为候选框的维度；

24)利用候选框预测回归边框和类别；预测出一幅图中待检测行人目标的类别的个数；

25)预测每个回归边框的坐标，并且预测每个回归边框中含有行人目标的置信度；

26)对卷积神经网络模型采用3×3和1×1交替三次的卷积层进行检测分类；

27)采用非极大值抑制，输出最终结果；

28)根据前向传播计算过程得到损失函数值，根据损失函数值进行反向传播更新各层权重；

29)执行步骤22)-28)的迭代操作，首先检测出行人整体，然后检测出行人子部件Y_ij；

第三步，对检测出来的行人子部件进行细粒度属性识别，得到子部件的属性；

具体采用模二加的方法，对第二步识别出来的行人子部件Y_ij进行细粒度属性识别，得到细粒度属性y_ijk，即子部件的属性；

第四步，利用分类器融合与判别决策算法，识别得到行人的性别；

首先将第三步识别出的子部件的属性与行人的性别进行关联分析，分别求出每个子部件的每个属性y_ijk与性别M_iu之间的相关系数，得到相关系数矩阵R_k，其中u∈(0,1)，k∈(1,n)；

然后根据置信度从高到低排序，按相关系数从大到小的顺序选出L个属性，构建基于多属性的多任务学习的CNN模型；

将模型的结果进行融合，采用投票法及决策函数对待识别目标进行最终判决，从而得到行人的性别，即为识别结果；

所述分类器融合与判别决策算法具体包括如下步骤：

41)将第二步选取得到的行人子部件训练样本数据和测试样本数据输入到卷积神经网络模型，进行迭代训练；设迭代总次数为K，每次迭代训练依次执行步骤42)-46)：

42)采用模二加的方法，对第二步识别出来的行人子部件Y_ij进行细粒度属性识别，得到细粒度属性y_ijk；

43)定义M_iu表示行人的性别，通过式1求出y_ijk与性别M_iu之间的相关系数矩阵R_k，并按照置信度从高到低排序选出L个属性作为多任务学习的子任务p_ijl，其中相关系数最大的属性作为主要任务，记为p_ij1，其余的作为次要任务；

其中，R_k为相关系数矩阵，y_ijk是第i个行人的第j个部件中的第k个属性，M_iu是第i个行人的性别u，i∈(1,M),j∈(1,m)，u∈(0,1)；

44)求出每个次要任务与主要任务之间的相关系数r_l，再对每个任务赋予权值w_q；具体执行如下操作：

首先，利用式2分别求出每个次要任务与主要任务之间的相关系数r_l，其中l∈(1,L)；

式2中，r_l是次要任务l与主要任务之间的相关系数,p_ij1是相关系数最大的主要任务；

然后，按照与主要任务相关性越大的次要任务越多参与主要任务的决策，与主要任务相关性越小的次要任务越少参与主要任务的决策，将次要任务与主要任务之间的相关系数按照置信度从高到底排序，通过式3对每个任务赋予权值w_q：

其中，h_q表示按照每个次要任务与主要任务之间相关性的等级取相应的值，q∈(1,L)；

45)通过式4将每个任务分别与性别通过模二加进行编码，得到每个任务与性别之间的函数关系：

其中，i＝1,2,3,…,M；q＝1,2,…,L；attribute_i1表示性别属性；attribute_iq表示多任务的属性；

通过式5对分类器的融合结果采用Arrogance投票法得到各自的最佳识别结果：

其中，Z表示分类器的个数，Q表示属性类别个数，C表示分类矩阵；

46)再通过决策函数式6计算得到目标的最终判别结果：

其中，i＝1,2,……,M，C_i代表了每个行人性别的最终判断结果，w_q表示每个任务的权重；

通过K次迭代，将步骤45)中的投票法式5及式4进行融合，得到每个行人性别的最终判别结果C_i，由此识别出行人的性别。

2.如权利要求1所述的复杂场景下行人细粒度属性的识别方法，其特征是，子部件属性包括行人的头发类型、衣服类型、鞋子类型。

3.如权利要求1所述的复杂场景下行人细粒度属性的识别方法，其特征是，第二步目标检测方法模型具体采用YOLOv2模型。

4.如权利要求1所述的复杂场景下行人细粒度属性的识别方法，其特征是，步骤22)对输入模型的训练样本具体通过卷积操作和池化操作进行特征提取，并在每一次卷积操作后进行批量处理，以加快网络的收敛速度。

5.如权利要求1所述的复杂场景下行人细粒度属性的识别方法，其特征是，卷积神经网络模型为VGGNet16或ResNet50。