CN108510000B - 复杂场景下行人细粒度属性的检测与识别方法 - Google Patents
复杂场景下行人细粒度属性的检测与识别方法 Download PDFInfo
- Publication number
- CN108510000B CN108510000B CN201810295592.2A CN201810295592A CN108510000B CN 108510000 B CN108510000 B CN 108510000B CN 201810295592 A CN201810295592 A CN 201810295592A CN 108510000 B CN108510000 B CN 108510000B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- attributes
- task
- attribute
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公布了一种复杂场景下行人细粒度属性的识别方法,采用分类模型对检测出的行人的子部件进行细粒度属性识别;将识别出的属性分别与行人性别进行关联分析,选取相关性强的属性进行多任务学习;再训练多任务学习构建的卷积神经网络模型,并针对多个属性选出识别正确率最高的卷积神经网络模型结果,作为最终结果;最后根据自定义的决策函数来判断行人的性别属性。本发明可实现对复杂场景中行人由整体到局部的检测,实现对行人子部件属性更精准的检测与识别,能够避免背景等信息的干扰,同时也解决了模型对小目标检测正确率低的问题,具有较高的识别精度。
Description
技术领域
本发明属于模式识别和机器视觉技术领域,涉及目标检测与识别技术,尤其涉及一种针对复杂场景下行人细粒度属性的检测与识别方法。
背景技术
近年来,随着模式识别和机器视觉的发展,目标检测与识别技术得到了很大的发展,并且在视频场景监控,机器人控制,智能交通,以及无人驾驶汽车等领域实现了大量的应用。
目标检测与识别的方法主要分为两个步骤,第一步是目标检测,第二步是图像分类。传统的目标检测方法主要是采用滑动窗口+手工设计特征,主要方法有基于特征描述子的、基于形状特征的和基于边缘的目标检测;传统的分类方法主要采用Adaboost集成学习、支持向量机(Support Vector Machine,SVM)等。传统的目标检测与识别方法,主要是采用滑动窗口的方法进行窗口提名,这种方法的实质是穷举法。此方法不仅复杂度高、鲁棒性差,而且产生了大量的候选区冗余区域。
2014年,Ross B.Girshick使用候选区域(region proposal)+分类卷积神经网络(CNN)模型,设计了R-CNN框架,使得目标检测与识别取得巨大突破,并开启了基于深度学习的目标检测与识别的热潮。(Liang M,Hu X.Recurrent convolutional neural networkfor object recognition[C]Computer Vision and Pattern Recognition(CVPR).IEEE,2015:3367-3375.)
Ren S等提出了Faster R-CNN:在实时对象检测和候选区域网络间引入了一个区域建议网络(RPN),它与检测网络共享映像卷积功能,从而提供了一个近乎没有成本的区域建议。(Ren S,He K,Girshick R,et al.Faster R-CNN:Towards Real-Time ObjectDetection with Region Proposal Networks[J].IEEE Transactions on PatternAnalysis&Machine Intelligence,2017,39(6):1137-1149.)
Wang X等提出了A-Fast-RCNN:通过对手的硬阳性生成对象检测,建议学习一个对抗性的网络,产生的例子与闭塞和变形,在框架中的原始探测器和对手的共同学习的方式。(Wang X,Shrivastava A,Gupta A.A-Fast-RCNN:Hard Positive Generation viaAdversary for Object Detection[J].2017.)
Liu L等提出了Highly Occluded Face Detection:改进的R-FCN,提出的算法是基于区域全卷积网络(R-FCN)与两个改进的部分,鲁棒人脸检测,包括多尺度训练和一个新的特征融合方案。(Liu L,Jiang F,Shen R.Highly Occluded Face Detection:AnImproved R-FCN Approach[M]Neural Information Processing.2017.)
基于R-CNN框架的深度学习方法,解决了传统目标检测使用的滑动窗口存在的问题,在鲁棒性和准确率方面有明显进步,但是存在重复计算、训练耗时、步骤繁琐等问题。基于回归方法的端到端的深度学习目标检测算法无需region proposal,直接采用回归完成目标位置和类别的判定。
行人检测与识别一直是目标检测与识别领域的一个热点课题。但是在复杂场景中,存在着姿态、光照、遮挡、背景干扰等诸多不确定因素,因此,现有的行人检测与识别技术存在精度低、时效性差等问题,实现对行人子部件属性更精准的检测与识别是一项极具挑战性的技术任务。
发明内容
为了克服上述现有技术的不足,本发明提供一种针对复杂场景下行人细粒度属性的检测与识别方法(Fusion of Convolutional Neural Networks Based On MultitaskLearning for Recognition of Pedestrian Attribute,FMRPA),通过融和多属性的多任务学习的卷积神经网络(Convolutional Neural Network,CNN)模型,实现对行人子部件属性更精准的检测与识别,能够解决现有方法存在的精度低、时效性差等问题,具有较高的识别精度。
本发明的目的是提供一种新的方法,实现对行人细粒度属性进行检测与识别。首先为了实现对行人子部件属性更精准的检测与识别,借助于标注框对行人进行二次检测与识别;然后通过对行人子部件属性之间进行关联分析,选出相关性比较强的属性,构建多个基于多属性的多任务学习的CNN分类模型,并将这些模型结果进行融合,最后采用投票法实现对行人细粒度属性更精确的识别。
本发明提供的技术方案如下:
一种复杂场景下行人细粒度属性的检测与识别方法,采用CNN分类模型对检测出的行人的子部件进行细粒度属性识别,将识别出的属性分别与行人性别进行关联分析,选取相关性强的属性进行多任务学习,再训练多任务学习构建的卷积神经网络模型(VGGNet16与ResNet50),并将模型结果采用投票策略,针对多个属性选出识别正确率最高的模型的结果,作为最终结果,最后根据自定义的决策函数来判断行人的性别属性;包括如下步骤:
第一步:复杂场景中行人肢体的各个部分的定义
本发明将行人本身所固有的特征,如头、上肢和下肢定义为行人子部件,用Xi={xi1,xi2,…xij,…xim}表示,其中Xi表示行人i,xij表示行人i的第j个子部件,其中i∈(1,M),j∈(1,m),M是检测到行人的数量,m表示行人子部件个数;将外在附属物,如头发类型、衣服类型、鞋子类型定义为子部件属性,用Yij={yij1,yij2,…yijk,…yijn}表示,其中Yij表示行人i的第j个子部件,yijk表示行人子部件j的第k个属性,其中,i∈(1,M)j∈(1,m),k∈(1,n),n是行人子部件属性的个数。
第二步:复杂场景中行人的二次检测;利用目标检测方法YOLOv2(You Only LookOnce v2)模型(Molchanov V V,Vishnyakov B V,Vizilter Y V,et al.Pedestriandetection in video surveillance using fully convolutional YOLO neural network[C]//SPIE Optical Metrology.2017:103340Q.DOI:10.1117/12.2270326)两次检测行人子部件,第一次对行人进行粗粒度检测,第二次对行人子部件进行细粒度检测;
本发明采用二次检测方法对对行人进行检测。首先对视频中的行人进行粗粒度检测,检测出行人整体;然后对检测出的行人进行细粒度检测,检测出行人的头部、上肢和下肢三个子部件,检测过程如图2所示,具体步骤如下:
1)选取模型训练的样本Ui,测试样本Li;
具体实施时,从RAP数据集中随机选取33268张为训练集,8317张为测试集。
设迭代总次数为T,从1到T每次迭代训练依次完成下面2)-8)步:
2)对输入到卷积神经网络模型的训练样本通过卷积、池化操作进行特征提取,并且在每一次卷积操作后进行批量规范化处理,加快网络的收敛速度;
3)采用K-means聚类,通过对数据集中人的标注框聚类,找到人的标注框的统计规律,然后以聚类个数k作为候选框(anchor boxes)的个数,以k个聚类中心框的维度为候选框的维度;
4)利用候选框预测回归边框以及类别C类;预测出一幅图中待检测行人目标的类别个数;
回归边框是模型预测出的目标位置区域;C为待检测目标的类别数量;
5)预测每个回归边框的坐标,并且预测每个回归边框中含有行人目标的置信度;
6)在卷积神经网络模型的最后几层,分别采用3×3和1×1交替三次的卷积层,进行检测分类;
7)采用非极大值(Non Maximum Suppression,NMS)抑制,输出最终结果;
8)根据前向传播计算过程得到Loss函数值,根据Loss函数损失值进行反向传播更新各层权重;
通过网络的前向传播过程得到预测值,Loss函数值为预测值与真实值之间的差。
9)根据步骤2)-8)多次迭代,首先检测出行人(整体),然后检测出行人子部件Yij(行人的肢体)。
第三步,对检测出来的子部件进行细粒度属性识别,得到子部件的属性;
采用分类的卷积神经网络(如ResNet50模型)进行识别,检测得到的子部件的属性包括发型、衣服类型,鞋子类型等;
第四步,利用分类器融合与判别决策算法,识别得到行人的性别,即为行人识别结果。
具体地,将第三步识别出的子部件的属性与行人的性别进行关联分析,根据式(1)分别求出每个子部件的每个属性yijk与性别Miu之间的相关系数,得到相关系数矩阵Rk,其中u∈(0,1),k∈(1,n);然后根据置信度从高到低排序选出相关系数较大(如大于0.5的值)的L个属性构建基于多属性的多任务学习的CNN模型,将这些模型的结果进行融合,通过采用投票法及自定义的决策函数对待识别目标进行最终的判决,从而得到行人识别结果。
行人细粒度属性检测与识别主要利用分类器融合与判别决策算法。本发明提出由多个属性组成的多任务共享参数的CNN分类模型,网络结构如图3所示。对于多任务,多个CNN分类模型共享底层卷积层和池化层,来提取各自模型的特征,然后通过各自模型的全连接层和softmax层,输出模型各自最终的识别结果。
本发明中提出的分类器融合与判别决策算法实现对行人细粒度属性检测与识别。分类器融合与判别决策算法的流程如图4所示。
分类器融合与判别决策算法具体执行如下操作:
1)输入第二步选取得到的行人子部件训练样本数据Uk,测试样本数据Lk到卷积神经网络模型。
具体实施时,利用第二步得到的只包含行人子部件的数据,随机选取80%的数据作为训练集,20%的数据作为测试集;设迭代总次数为K,从1到K每次迭代训练依次完成下面2)-6)步:
2)采用模二加(异或运算)的方法,即利用model1和model2对第二步识别出来的行人子部件Yij进行细粒度属性yijk识别;
3)定义Miu表示行人的性别,分别求出yijk与性别Miu之间的相关系数矩阵Rk,以相关系数的大小作为置信度,并按照置信度从高到低排序选出相关系数较大的L个属性(细粒度属性yijk)作为多任务学习的子任务pijl,其中相关系数最大的作为主要任务pij1,其余的作为次要任务。对于主要任务和次要任务的选取按照以下原则:
选取原则:首先将行人的细粒度属性与性别进行关联分析,利用如下公式1分别求出每个子部件的每个子属性yijk与性别Miu之间的相关系数,得到相关系数矩阵Rk,其中u∈(0,1),k∈(1,n);然后根据置信度从高到低排序选出相关系数较大的L个属性作为多属性的多任务的每个子任务{pij1,pij2,…,pijl,…,pijL},i∈(1,M),j∈(1,m),l∈(1,L),其中相关系数最大的作为主要任务pij1,其余的作为次要任务。
其中,Rk为相关系数矩阵,yijk是第i个行人的第j个部件中的第k个属性,Miu是第i个行人的性别u,i∈(1,M),j∈(1,m),u∈(0,1)。
4)求出每个次要任务与主要任务之间的相关系数rl,再对每个任务赋予权值wq。其中相关系数、权重赋值原则如下:
任务权重赋值原则:利用如下公式2分别求出每个次要任务与主要任务之间的相关系数rl,其中l∈(1,L);然后依据与主要任务相关性越大的次要任务越多的参与主要任务的决策,与主要任务相关性越小的次要任务越少参与主要任务的决策这一原则,将次要任务与主要任务之间的相关系数按照置信度从高到底排序,并按公式3对每个任务赋予权值wq,其中q∈(1,L)。
在式2中,rl是次要任务i与主要任务之间的相关系数,pij1是相关系数最大的主要任务,
其中,hq表示按照每个次要任务与主要任务之间相关性的等级取相应的值,q∈(1,L),16是根据hq的取值而确定的。
5)根据式4的函数,对每个任务与目标之间进行编码解码,得到每个任务预测的性别标签,然后通过式5对分类器的融合结果采用Arrogance投票法得到各自的最佳识别结果;
通过以上原则得到主、次要任务以及权重赋值原则后,鉴于训练样本中每个任务以及性别的标签均是0和1的离散值,因此本发明采用每个任务分别与性别通过模二加进行编码,得到每个任务与性别之间的函数关系,如式4所示:
其中,i=1,2,3,…,M,q=1,2,…,L,定义attributei1表示性别属性,attributeiq表示多任务的属性。
其中,Z表示分类器的个数,Q表示属性类别个数,C表示分类矩阵。
6)根据式6得到目标的最终判别结果;
其中,i=1,2,……,M,Ci代表了每个行人性别的最终判断结果,wq表示每个任务的权重。
结束K次迭代,即得到最终的行人识别结果Ci,由此确认行人的性别。
与现有技术相比,本发明的有益效果是:
本发明提供一种针对复杂场景下行人细粒度属性的检测与识别方法—FMRPA方法。利用本发明提供的技术方案,通过融和多属性的多任务学习的CNN模型,实现对复杂场景中行人由整体到局部的检测,实现对行人子部件属性更精准的检测与识别,可以避免背景等信息的干扰,同时也解决了模型对小目标检测正确率低的问题,具有较高的识别精度。
本发明利用CNN分类模型对检测出的行人的头部、上肢和下肢三个子部件进行细粒度属性识别,根据识别出的这些属性,分别与行人性别进行关联分析,选取相关性比较强的属性进行多任务学习,再训练多任务学习构建的卷积神经网络模型VGGNet16与ResNet50,并将这两个模型的结果进行采用投票策略,对6个属性选出识别正确率最高的模型的结果作为其最终的结果,最后根据自定义的决策函数来判断行人的性别属性。通过与其他方法进行对比,得出本发明提出的方法具有更好的识别效果。与现有技术相比,本发明具有以下技术优势:
(一)采用二次检测对复杂场景中的行人实现由整体到局部的检测与识别,即首先对行人整体进行检测与识别,然后在此基础上对行人子部件进行检测与识别,不仅可以去除背景噪声的干扰,而且改善了CNN检测模型对小目标检测正确率低的问题,提高了对行人子部件检测与识别的正确率。
(二)通过对行人子部件属性之间进行关联分析,选出相关性比较强的属性构建多个基于多属性的多任务学习的CNN分类模型,并将这些模型结果进行融合,然后采用投票法实现对行人细粒度属性更精确的识别。
附图说明
图1为本发明提供的行人属性识别方法的流程框图。
图2为本发明实施例中复杂场景行人二次检测过程的示意图;
其中,(a)为行人;(b)为检测到行人;(c)为检测行人子部件。
图3为基于多属性的多任务的CNN分类模型结构框图。
图4为分类器融合与决策判别流程框图。
图5为本发明实施例中每个模型对应的每种属性的正确率图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种复杂场景下行人细粒度属性的检测与识别方法,采用CNN分类模型对检测出的行人的子部件进行细粒度属性识别,将识别出的属性分别与行人性别进行关联分析,选取相关性强的属性进行多任务学习,再训练多任务学习构建的卷积神经网络模型(VGGNet16与ResNet50),并将模型结果采用投票策略,针对多个属性选出识别正确率最高的模型的结果,作为最终结果,最后根据自定义的决策函数来判断行人的性别属性;图1为本发明提供的行人属性识别方法的流程框图。
以下实施例针对多摄像头复杂监控场景中的Richly Annotated Pedestrian(RAP)数据,进行行人的检测和识别;具体包括如下步骤:
数据的预处理:复杂场景中行人的二次检测;
1)将RAP数据集分为模型训练的样本Ui和测试样本Li
设迭代总次数为T,从1到T每次迭代训练依次完成下面2)-8)步:
2)对输入的训练样本通过CNN分类模型的卷积、池化操作进行特征提取,并且在每一次卷积操作后进行批量规范化处理,加快网络的收敛速度;
3)采用K-means聚类,通过对数据集中人的标注框聚类,得到k个聚类,再获得人的标注框的统计规律,然后以聚类个数k作为候选框的个数,以k个聚类中心框的维度为候选框的维度;
4)利用候选框预测回归边框以及类别C类;
5)每个回归边框预测坐标,并且预测每个回归边框中含有目标的置信度;
6)在网络的最后采用三个3×3和1×1交替排序的卷积层,进行检测分类;
7)采用NMS抑制,输出最终结果;
8)根据前向传播输出向量计算Loss函数值,根据损失值进行反向传播更新各层权重;
9)根据步骤(2)-(8)首先检测出行人,然后检测出行人子部件。
行人细粒度属性检测与识别
本部分使用的发明中提出的分类器融合与判别决策算法
1)将第二部分训练样本Ui识别出的行人子部件样本数据Uk,测试数据Li识别出的行人子部件样本数据Lk,作为该部分的输入。
设迭代总次数为K,从1到K每次迭代训练依次完成下面2)-6)步:
2)采用模二加的方法,即利用model1和model2对第二步识别出来的行人子部件Yij进行细粒度属性yijk识别;
3)利用下式(7)分别求出yijk与Miu之间的相关系数矩阵Rk,并按照置信度从高到低排序选出相关系数较大的L个属性作为多任务学习的子任务pijl,其中相关系数最大的作为主要任务pij1,其余的作为次要任务。
4)求出每个次要任务与主要任务之间的相关系数rl,公式如下(8):
根据式(9)对每个任务赋予权值wq:
5)根据式(10)的函数,对每个任务与目标之间进行编码解码,
得到每个任务预测的性别标签,然后通过式(11)对分类器的融合结果采用Arrogance投票法得道各自的最佳识别结果;
6)根据式(12)得到目标的最终判别结果;
结束K次迭代。
以下实施案例采用Richly Annotated Pedestrian(RAP)数据集,该数据集是用于行人属性分析的多摄像机监控场景,总共有41585个行人样本数据,每个样本都注有72个属性以及观点,遮挡,身体部位信息。我们选取部分属性进行实验,如表1所示。实验过程中训练集和测试集随机分配,其中训练集为33268张,测试集为8317张。
表1 RAP数据集的行人部位属性
Parts | Attribute |
Head | Hair style,hair color,occlusion types |
Upper | Clothes style, |
Lower | Clothes style,foot-ware style |
在上述数据预处理,进行复杂场景中行人的二次检测。采用YOLOv2对复杂场景中的行人进行两次检测,模型第一次和第二次检测部分超参数如表2所示,其余参数均为默认值。
表2两次检测模型的部分超参数
采用YOLOv2对视频中复杂场景的行人进行两次检测,实现对行人的头部、上肢和下肢三个子部件进行定位。在训练模型时,根据loss函数曲线来评判模型的稳定性,以及作为参数调节的依据。第二次检测时,迭代次数设置为80000,其中每迭代20次显示一次结果,绘制loss函数曲线图。根据loss函数曲线图,在迭代到低90次时,损失函数开始陡降;迭代200次左右之后,Loss值基本趋近于0,并保持稳定,由此反映出模型具有一定的可靠性。最终得到模型的平均召回率为100.00%,平均IOU为92.98%,头部检测正确率为79%,上肢检测正确率为85%,下肢检测正确率为62%。
在此基础上继续行人细粒度属性识别,首先进行数据预处理,检测出每个行人的头部、上肢和下肢三个子部件,并利用ResNet50模型对每个子部件的细粒度属性进行识别;然后将识别出的子部件属性分别求取与行人性别之间的相关系数如表3所示:
表3行人性别与其他各属性的相关系数
Attributes | Sex |
Bald-Head | -0.0383 |
Long-Hair | 0.7039 |
Black-Hair | -0.0042 |
Skirt | 0.3833 |
Short-Skirt | 0.3833 |
Dress | 0.3833 |
Shoes-Leather | -0.2102 |
Shoes-Sport | -0.1279 |
Shoes-Boots | 0.5387 |
Shoes-Cloth | 0.1373 |
Shoes-Casual | -0.1108 |
从表3可以看出,有的属性与性别成正相关,说明该属性有利于性别的判断;有的属性则与性别成负相关,说明该属性对性别起负作用,不利于性别的判断,。因此选出具有关联关系的6个属性分别为Long-Hair、Shoes-Boots、Skirt、Short-Skirt、Dress、shoes-Cloth。其中Long-Hair与性别的相关性最强,因此,将Long-Hair定为主要任务,其他5个属性定为次要任务。
选出主要任务和次要任务之后,基于共享参数的多任务学习原则,构建多任务学习的多标签模型VGGNet16和ResNet50。在模型训练阶段,各自的部分超参数如表4所示,其余采用默认值。
表4 VGGNet16和ResNet50模型的超参数
以ResNet50为例,模型训练结束后可绘制出每个属性对应的网络损失曲线图;每个属性的Loss函数值均低于1,在训练过程中,有些地方虽存在波动,但是整体趋于平稳,说明采用多任务学习训练出的多标签模型具有一定的稳定性。
VGGNet16和ResNet50模型对每个子属性的识别结果图5所示。通过图5可以看出VGGNet16对Skirt、Short-Skirt与Dress的识别更准确;ResNet50对Long-Hair、shoes-Boots与shoes-Cloth的识别更准确。因此按照置信度排序,基于Arrogance的投票方法,Long-Hair、shoes-Boots与shoes-Cloth三个属性采用ResNet50模型进行识别;Skirt、Short-Skirt与Dress三个属性采用VGGNet16模型进行识别。
在最终目标判定时,主要任务起决定性作用,次要任务来辅助修正主要任务对判决目标的决策。根据此原则,求出主要任务与各个次要任务之间的相关系数矩阵如表5所示:
表5主要任务与次要任务的相关系数
从表5可以看出,Shoes-Boots与主要任务的关联性最强,Skirt、Short-Skirt和Dress与主要任务的关联性一样,Shoes-Cloth与主要任务的关联性最弱。根据每个属性对性别的影响程度,根据式(7)权重分别设为3/8,3/16,1/8,1/8,1/8,1/16。然后根据式(10)判断出性别。然后采用多个方法作为基线模型进行对比,各种方法识别的正确率如表6所示:
表6不同方法识别的正确率
通过表6中各方法的对比可以看出,基于主要任务的单任务学习来训练模型时,识别效果比价差,正确率均低于70%;采用多任务学习来训练模型时,识别效果均由提升,而且与用性别作为标签训练模型时正确率更高,分别提升了0.313%、1.743%;采用本文提出的方法,正确率最高达到75.64%。通过对比可以看出,本文提出的方法具有一定的可行性。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (5)
1.一种复杂场景下行人细粒度属性的识别方法,采用分类模型对检测出的行人的子部件进行细粒度属性识别;通过将识别出的属性分别与行人性别进行关联分析,选取属性进行多任务学习;再训练多任务学习构建的卷积神经网络模型,并针对多个属性选出识别正确率最高的卷积神经网络模型结果,作为最终结果;最后根据决策函数来判断行人的性别属性;包括如下步骤:
第一步:定义复杂场景中行人的子部件,将行人子部件表示为Xi={xi1,xi2,…xij,…xim},其中,Xi表示行人i,xij表示行人i的第j个子部件,i∈(1,M),j∈(1,m),M是检测到行人的数量,m表示行人子部件的个数,行人子部件包括行人的头、上肢和下肢;将行人外在附属物定义为子部件属性,用Yij={yij1,yij2,…yijk,…yijn}表示,其中,Yij表示行人i的第j个子部件,yijk表示行人子部件j的第k个属性,其中,i∈(1,M)j∈(1,m),k∈(1,n),n是行人子部件属性的个数;
第二步:对复杂场景中行人进行两次检测;
利用目标检测方法模型对行人子部件进行两次检测,其中,第一次检测对行人进行粗粒度检测,得出行人整体;第二次检测对行人子部件进行细粒度检测,检测得出行人的多个子部件Yij;包括如下步骤:
21)选取模型训练的样本和测试样本;设迭代总次数为T,从1到T每次迭代训练依次完成步骤22)-28):
22)对输入到卷积神经网络模型的训练样本进行特征提取;
23)采用聚类方法,通过对数据集中人的标注框聚类,得到人的标注框聚类个数k;然后以k作为候选框的个数,以k个聚类中心框的维度为候选框的维度;
24)利用候选框预测回归边框和类别;预测出一幅图中待检测行人目标的类别的个数;
25)预测每个回归边框的坐标,并且预测每个回归边框中含有行人目标的置信度;
26)对卷积神经网络模型采用3×3和1×1交替三次的卷积层进行检测分类;
27)采用非极大值抑制,输出最终结果;
28)根据前向传播计算过程得到损失函数值,根据损失函数值进行反向传播更新各层权重;
29)执行步骤22)-28)的迭代操作,首先检测出行人整体,然后检测出行人子部件Yij;
第三步,对检测出来的行人子部件进行细粒度属性识别,得到子部件的属性;
具体采用模二加的方法,对第二步识别出来的行人子部件Yij进行细粒度属性识别,得到细粒度属性yijk,即子部件的属性;
第四步,利用分类器融合与判别决策算法,识别得到行人的性别;
首先将第三步识别出的子部件的属性与行人的性别进行关联分析,分别求出每个子部件的每个属性yijk与性别Miu之间的相关系数,得到相关系数矩阵Rk,其中u∈(0,1),k∈(1,n);
然后根据置信度从高到低排序,按相关系数从大到小的顺序选出L个属性,构建基于多属性的多任务学习的CNN模型;
将模型的结果进行融合,采用投票法及决策函数对待识别目标进行最终判决,从而得到行人的性别,即为识别结果;
所述分类器融合与判别决策算法具体包括如下步骤:
41)将第二步选取得到的行人子部件训练样本数据和测试样本数据输入到卷积神经网络模型,进行迭代训练;设迭代总次数为K,每次迭代训练依次执行步骤42)-46):
42)采用模二加的方法,对第二步识别出来的行人子部件Yij进行细粒度属性识别,得到细粒度属性yijk;
43)定义Miu表示行人的性别,通过式1求出yijk与性别Miu之间的相关系数矩阵Rk,并按照置信度从高到低排序选出L个属性作为多任务学习的子任务pijl,其中相关系数最大的属性作为主要任务,记为pij1,其余的作为次要任务;
其中,Rk为相关系数矩阵,yijk是第i个行人的第j个部件中的第k个属性,Miu是第i个行人的性别u,i∈(1,M),j∈(1,m),u∈(0,1);
44)求出每个次要任务与主要任务之间的相关系数rl,再对每个任务赋予权值wq;具体执行如下操作:
首先,利用式2分别求出每个次要任务与主要任务之间的相关系数rl,其中l∈(1,L);
式2中,rl是次要任务l与主要任务之间的相关系数,pij1是相关系数最大的主要任务;
然后,按照与主要任务相关性越大的次要任务越多参与主要任务的决策,与主要任务相关性越小的次要任务越少参与主要任务的决策,将次要任务与主要任务之间的相关系数按照置信度从高到底排序,通过式3对每个任务赋予权值wq:
其中,hq表示按照每个次要任务与主要任务之间相关性的等级取相应的值,q∈(1,L);
45)通过式4将每个任务分别与性别通过模二加进行编码,得到每个任务与性别之间的函数关系:
其中,i=1,2,3,…,M;q=1,2,…,L;attributei1表示性别属性;attributeiq表示多任务的属性;
通过式5对分类器的融合结果采用Arrogance投票法得到各自的最佳识别结果:
其中,Z表示分类器的个数,Q表示属性类别个数,C表示分类矩阵;
46)再通过决策函数式6计算得到目标的最终判别结果:
其中,i=1,2,……,M,Ci代表了每个行人性别的最终判断结果,wq表示每个任务的权重;
通过K次迭代,将步骤45)中的投票法式5及式4进行融合,得到每个行人性别的最终判别结果Ci,由此识别出行人的性别。
2.如权利要求1所述的复杂场景下行人细粒度属性的识别方法,其特征是,子部件属性包括行人的头发类型、衣服类型、鞋子类型。
3.如权利要求1所述的复杂场景下行人细粒度属性的识别方法,其特征是,第二步目标检测方法模型具体采用YOLOv2模型。
4.如权利要求1所述的复杂场景下行人细粒度属性的识别方法,其特征是,步骤22)对输入模型的训练样本具体通过卷积操作和池化操作进行特征提取,并在每一次卷积操作后进行批量处理,以加快网络的收敛速度。
5.如权利要求1所述的复杂场景下行人细粒度属性的识别方法,其特征是,卷积神经网络模型为VGGNet16或ResNet50。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810295592.2A CN108510000B (zh) | 2018-03-30 | 2018-03-30 | 复杂场景下行人细粒度属性的检测与识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810295592.2A CN108510000B (zh) | 2018-03-30 | 2018-03-30 | 复杂场景下行人细粒度属性的检测与识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108510000A CN108510000A (zh) | 2018-09-07 |
CN108510000B true CN108510000B (zh) | 2021-06-15 |
Family
ID=63380248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810295592.2A Active CN108510000B (zh) | 2018-03-30 | 2018-03-30 | 复杂场景下行人细粒度属性的检测与识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108510000B (zh) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344762B (zh) * | 2018-09-26 | 2020-12-18 | 北京字节跳动网络技术有限公司 | 图像处理方法和装置 |
CN110245544A (zh) * | 2018-09-26 | 2019-09-17 | 浙江大华技术股份有限公司 | 一种确定停车状态的方法及装置 |
CN109598186A (zh) * | 2018-10-12 | 2019-04-09 | 高新兴科技集团股份有限公司 | 一种基于多任务深度学习的行人属性识别方法 |
CN109284733B (zh) * | 2018-10-15 | 2021-02-02 | 浙江工业大学 | 一种基于yolo和多任务卷积神经网络的导购消极行为监控方法 |
CN109583481B (zh) * | 2018-11-13 | 2021-08-10 | 杭州电子科技大学 | 一种基于卷积神经网络的细粒度服装的属性识别方法 |
CN109754362B (zh) * | 2018-12-24 | 2022-12-13 | 哈尔滨工程大学 | 一种用可旋转的边界框标注海参目标检测结果的方法 |
CN111428730B (zh) * | 2019-01-09 | 2022-07-08 | 中国科学技术大学 | 弱监督细粒度物体分类方法 |
CN109829415A (zh) * | 2019-01-25 | 2019-05-31 | 平安科技(深圳)有限公司 | 基于深度残差网络的性别识别方法、装置、介质和设备 |
CN109919106B (zh) * | 2019-03-11 | 2023-05-12 | 同济大学 | 渐进式目标精细识别与描述方法 |
CN110139067B (zh) * | 2019-03-28 | 2020-12-25 | 北京林业大学 | 一种野生动物监测数据管理信息系统 |
CN110020682B (zh) * | 2019-03-29 | 2021-02-26 | 北京工商大学 | 一种基于小样本学习的注意力机制关系对比网络模型方法 |
CN111814513B (zh) * | 2019-04-11 | 2024-02-13 | 富士通株式会社 | 行人物品检测装置及方法、电子设备 |
CN110197202A (zh) * | 2019-04-30 | 2019-09-03 | 杰创智能科技股份有限公司 | 一种局部特征细粒度目标检测算法 |
CN111930476B (zh) * | 2019-05-13 | 2024-02-27 | 百度(中国)有限公司 | 一种任务调度方法、装置及电子设备 |
CN110263712B (zh) * | 2019-06-20 | 2021-02-23 | 江南大学 | 一种基于区域候选的粗精行人检测方法 |
CN110348416A (zh) * | 2019-07-17 | 2019-10-18 | 北方工业大学 | 一种基于多尺度特征融合卷积神经网络的多任务人脸识别方法 |
CN110458233B (zh) * | 2019-08-13 | 2024-02-13 | 腾讯云计算(北京)有限责任公司 | 混合粒度物体识别模型训练及识别方法、装置及存储介质 |
CN110569779B (zh) * | 2019-08-28 | 2022-10-04 | 西北工业大学 | 基于行人局部和整体属性联合学习的行人属性识别方法 |
CN110826391A (zh) * | 2019-09-10 | 2020-02-21 | 中国三峡建设管理有限公司 | 泌水区域检测方法、系统、计算机设备和存储介质 |
CN110929794B (zh) * | 2019-11-28 | 2022-12-13 | 哈尔滨工程大学 | 一种基于多任务学习的侧扫声呐图像分类方法 |
CN111274945B (zh) * | 2020-01-19 | 2023-08-08 | 北京百度网讯科技有限公司 | 一种行人属性的识别方法、装置、电子设备和存储介质 |
CN111414994B (zh) * | 2020-03-03 | 2022-07-12 | 哈尔滨工业大学 | 一种基于FPGA的Yolov3网络计算加速系统及其加速方法 |
CN111598107B (zh) * | 2020-04-17 | 2022-06-14 | 南开大学 | 一种基于特征动态选择的多任务联合检测方法 |
CN111598164B (zh) * | 2020-05-15 | 2023-06-23 | 北京百度网讯科技有限公司 | 识别目标对象的属性的方法、装置、电子设备和存储介质 |
CN111783630B (zh) * | 2020-06-29 | 2022-07-01 | 上海高德威智能交通系统有限公司 | 一种数据处理方法、装置及设备 |
CN111898462B (zh) * | 2020-07-08 | 2023-04-07 | 浙江大华技术股份有限公司 | 对象属性的处理方法、装置、存储介质以及电子装置 |
CN111914777B (zh) * | 2020-08-07 | 2021-07-06 | 广东工业大学 | 一种跨模态识别机器人指令的方法及系统 |
CN112084913B (zh) * | 2020-08-15 | 2022-07-29 | 电子科技大学 | 一种端到端的人体检测与属性识别方法 |
CN112200005A (zh) * | 2020-09-15 | 2021-01-08 | 青岛邃智信息科技有限公司 | 一种社区监控场景下基于穿着特征和人体特征的行人性别识别方法 |
CN112699759A (zh) * | 2020-12-24 | 2021-04-23 | 深圳数联天下智能科技有限公司 | 一种训练性别识别模型的方法及相关装置 |
CN113762108A (zh) * | 2021-08-23 | 2021-12-07 | 浙江大华技术股份有限公司 | 一种目标识别方法及装置 |
CN114826776B (zh) * | 2022-06-06 | 2023-05-02 | 中国科学院高能物理研究所 | 一种用于加密恶意流量的弱监督检测方法及系统 |
CN117274953A (zh) * | 2023-09-28 | 2023-12-22 | 深圳市厚朴科技开发有限公司 | 一种车辆和行人属性识别方法系统、设备及介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101373519A (zh) * | 2007-08-20 | 2009-02-25 | 富士通株式会社 | 字符识别装置和方法 |
CN103544516A (zh) * | 2012-07-12 | 2014-01-29 | 中国移动通信集团公司 | 二维码的编、解码方法及二维码编码器、解码器 |
CN105930875A (zh) * | 2016-05-05 | 2016-09-07 | 清华大学 | 用户退课行为预测方法及装置 |
CN106383912A (zh) * | 2016-10-14 | 2017-02-08 | 上海谦问万答吧云计算科技有限公司 | 一种图片检索方法和装置 |
CN106529442A (zh) * | 2016-10-26 | 2017-03-22 | 清华大学 | 一种行人识别方法和装置 |
CN106778705A (zh) * | 2017-02-04 | 2017-05-31 | 中国科学院自动化研究所 | 一种行人个体分割方法及装置 |
CN106778603A (zh) * | 2016-12-13 | 2017-05-31 | 中国科学院信息工程研究所 | 一种基于梯度式级联svm分类器的行人识别方法 |
CN106845373A (zh) * | 2017-01-04 | 2017-06-13 | 天津大学 | 面向监控视频的行人属性预测方法 |
CN107239565A (zh) * | 2017-06-14 | 2017-10-10 | 电子科技大学 | 一种基于显著性区域的图像检索方法 |
CN107330387A (zh) * | 2017-06-21 | 2017-11-07 | 哈尔滨工业大学深圳研究生院 | 基于图像数据的行人检测方法 |
CN107480261A (zh) * | 2017-08-16 | 2017-12-15 | 上海荷福人工智能科技(集团)有限公司 | 一种基于深度学习细粒度人脸图像快速检索方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9111231B2 (en) * | 2012-09-28 | 2015-08-18 | Google Inc. | Associating a web session with a household member |
-
2018
- 2018-03-30 CN CN201810295592.2A patent/CN108510000B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101373519A (zh) * | 2007-08-20 | 2009-02-25 | 富士通株式会社 | 字符识别装置和方法 |
CN103544516A (zh) * | 2012-07-12 | 2014-01-29 | 中国移动通信集团公司 | 二维码的编、解码方法及二维码编码器、解码器 |
CN105930875A (zh) * | 2016-05-05 | 2016-09-07 | 清华大学 | 用户退课行为预测方法及装置 |
CN106383912A (zh) * | 2016-10-14 | 2017-02-08 | 上海谦问万答吧云计算科技有限公司 | 一种图片检索方法和装置 |
CN106529442A (zh) * | 2016-10-26 | 2017-03-22 | 清华大学 | 一种行人识别方法和装置 |
CN106778603A (zh) * | 2016-12-13 | 2017-05-31 | 中国科学院信息工程研究所 | 一种基于梯度式级联svm分类器的行人识别方法 |
CN106845373A (zh) * | 2017-01-04 | 2017-06-13 | 天津大学 | 面向监控视频的行人属性预测方法 |
CN106778705A (zh) * | 2017-02-04 | 2017-05-31 | 中国科学院自动化研究所 | 一种行人个体分割方法及装置 |
CN107239565A (zh) * | 2017-06-14 | 2017-10-10 | 电子科技大学 | 一种基于显著性区域的图像检索方法 |
CN107330387A (zh) * | 2017-06-21 | 2017-11-07 | 哈尔滨工业大学深圳研究生院 | 基于图像数据的行人检测方法 |
CN107480261A (zh) * | 2017-08-16 | 2017-12-15 | 上海荷福人工智能科技(集团)有限公司 | 一种基于深度学习细粒度人脸图像快速检索方法 |
Non-Patent Citations (7)
Title |
---|
Bilinear CNN Models for Fine-grained Visual Recognition;Tsung-Yu Lin 等;《IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences》;20151230;第1449-1457页 * |
Large-Scale Person Re-Identification Based on Deep Hash Learning;Xian-Qin Ma 等;《Entropy》;20190430;第21卷(第5期);第1-15页 * |
Pedestrian Detection for Transformer Substation Based on Gaussian Mixture Model and YOLO;Qiwei Peng 等;《2016 8th International Conference on Intelligent Human-Machine Systems and Cybernetics》;20160828;第562-565页 * |
Pedestrian detection in video surveillance using fully convolutional YOLO neural network;Molchanov V V 等;《SPIE Optical Metrology》;20170626;第10334卷;第1-7页 * |
基于深度卷积限制玻尔兹曼机的步态识别;周兰 等;《计算机工程与设计》;20180131;第39卷(第1期);第244-248页 * |
目标提取与哈希机制的多标签图像检索;陈飞 等;《中国图象图形学报》;20170228;第22卷(第2期);第232-240页 * |
行人细粒度识别与重识别技术研究;周兰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20191215(第12期);第I138-568页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108510000A (zh) | 2018-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108510000B (zh) | 复杂场景下行人细粒度属性的检测与识别方法 | |
CN108268838B (zh) | 人脸表情识别方法及人脸表情识别系统 | |
CN106709449B (zh) | 一种基于深度学习和强化学习的行人重识别方法及系统 | |
CN109800648B (zh) | 基于人脸关键点校正的人脸检测识别方法及装置 | |
CN108520226B (zh) | 一种基于躯体分解和显著性检测的行人重识别方法 | |
Tissainayagam et al. | Object tracking in image sequences using point features | |
CN106096561B (zh) | 基于图像块深度学习特征的红外行人检测方法 | |
CN110033007B (zh) | 基于深度姿态预估和多特征融合的行人衣着属性识别方法 | |
CN107633226B (zh) | 一种人体动作跟踪特征处理方法 | |
Panagiotakis et al. | Region-based fitting of overlapping ellipses and its application to cells segmentation | |
CN108009509A (zh) | 车辆目标检测方法 | |
CN109583482A (zh) | 一种基于多特征融合与多核迁移学习的红外人体目标图像识别方法 | |
CN106529499A (zh) | 基于傅里叶描述子和步态能量图融合特征的步态识别方法 | |
CN111027493A (zh) | 一种基于深度学习多网络软融合的行人检测方法 | |
JP2014511530A (ja) | ウェブベース材料内の不均一性の検出システム | |
CN107767416B (zh) | 一种低分辨率图像中行人朝向的识别方法 | |
CN107239777B (zh) | 一种基于多视角图模型的餐具检测和识别方法 | |
CN109740537B (zh) | 人群视频图像中行人图像属性的精确标注方法及系统 | |
CN106023257A (zh) | 一种基于旋翼无人机平台的目标跟踪方法 | |
CN112149538A (zh) | 一种基于多任务学习的行人重识别方法 | |
Li et al. | Hierarchical semantic parsing for object pose estimation in densely cluttered scenes | |
CN110008899B (zh) | 一种可见光遥感图像候选目标提取与分类方法 | |
Khan et al. | SOM and fuzzy based color image segmentation | |
CN106611158A (zh) | 人体3d特征信息的获取方法及设备 | |
Liu et al. | Gait recognition using deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |