CN114038010B - 一种行人属性识别方法、设备和介质 - Google Patents
一种行人属性识别方法、设备和介质 Download PDFInfo
- Publication number
- CN114038010B CN114038010B CN202111306979.1A CN202111306979A CN114038010B CN 114038010 B CN114038010 B CN 114038010B CN 202111306979 A CN202111306979 A CN 202111306979A CN 114038010 B CN114038010 B CN 114038010B
- Authority
- CN
- China
- Prior art keywords
- attribute
- feature map
- pedestrian
- deep
- shallow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims description 79
- 238000011176 pooling Methods 0.000 claims description 54
- 238000000605 extraction Methods 0.000 claims description 20
- 238000002372 labelling Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 17
- 238000001514 detection method Methods 0.000 claims description 11
- 230000009467 reduction Effects 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种行人属性识别方法、设备和介质,将待检测行人图像输入到训练好的行人属性识别网络;通过主干网络对待检测行人图像进行特征提取,并通过特征卷积模块对提取到的浅层特征图、中层特征图和深层特征图分别进行1*1卷积处理,进而通过通道加权模块分别提取行人属性区域特征;通过分类模块对提取到的浅层属性区域特征、中层属性区域特征、深层属性区域特征和深层特征图进行行人属性识别,并结合得到的浅层属性区域特征、中层属性区域特征、深层属性区域特征和深层特征图对应的属性类别预测结果获取待检测行人图像的最终属性类别,改善了现有技术需要对行人的局部属性区域进行预定位,再进行行人属性识别,存在识别速度慢的技术问题。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种行人属性识别方法、设备和介质。
背景技术
目前,行人属性识别方法主要有两种,分别为提取手工设计特征的传统识别方法和基于卷积神经网络(CNN)提取特征的深度学习方法。传统方法先手工设计定位行人的位置信息,再提取对应行人的属性特征,最后通过SVM、KNN等分类器进行行人属性识别。深度学习方法是先定位行人的空间位置信息,再把定位好的行人图片送入CNN自动学习数据中包含的特征进行行人属性识别。传统方法由于是人工设计的特征,在实际应用中,鲁棒性不高,容易受到相机安装角度、环境光照变化等问题的影响,导致识别精度不高。已有的深度学习方法,为了预测特定属性是否存在,需要对该属性相关的局部区域(如头部、上半身等)进行定位,需要额外的计算和复杂的训练过程,使得识别速度慢。
发明内容
本申请提供了一种行人属性识别方法、设备和介质,用于改善现有技术需要对行人的局部属性区域进行预定位,再进行行人属性识别,存在识别速度慢的技术问题。
有鉴于此,本申请第一方面提供了一种行人属性识别方法,包括:
获取到待检测行人图像后,将所述待检测行人图像输入到训练好的行人属性识别网络,所述行人属性识别网络包括主干网络、特征卷积模块、通道加权模块和分类模块;
通过所述主干网络对所述待检测行人图像进行特征提取,得到浅层特征图、中层特征图和深层特征图;
通过所述特征卷积模块对所述浅层特征图、所述中层特征图和所述深层特征图分别进行1*1卷积处理,以对所述浅层特征图、所述中层特征图和所述深层特征图不同通道上的特征进行线性整合;
通过所述通道加权模块分别提取卷积后的所述浅层特征图、卷积后的所述中层特征图和卷积后的所述深层特征图中的行人属性区域特征,得到浅层属性区域特征、中层属性区域特征和深层属性区域特征;
通过所述分类模块对所述浅层属性区域特征、所述中层属性区域特征、所述深层属性区域特征和所述深层特征图进行行人属性识别,并结合得到的所述浅层属性区域特征、所述中层属性区域特征、所述深层属性区域特征和所述深层特征图对应的属性类别预测结果获取所述待检测行人图像的最终属性类别。
可选的,所述主干网络由串联连接的卷积层和10个特征提取层构成;
所述通过所述主干网络对所述待检测行人图像进行特征提取,得到浅层特征图、中层特征图和深层特征图,包括:
通过所述主干网络中的卷积层对所述待检测行人图像进行卷积处理得到卷积特征图,通过所述特征提取层对所述卷积特征图进行特征提取,输出第二个特征提取层提取到的浅层特征图、第六个特征提取层提取到的中层特征图和第十个特征提取层提取到的深层特征图。
可选的,所述通过所述通道加权模块分别提取卷积后的所述浅层特征图、卷积后的所述中层特征图和卷积后的所述深层特征图中的行人属性区域特征,得到浅层属性区域特征、中层属性区域特征和深层属性区域特征,包括:
通过所述通道加权模块对卷积后的所述浅层特征图、卷积后的所述中层特征图和卷积后的所述深层特征图分别进行全局池化,得到浅层池化特征图、中层池化特征图和深层池化特征图;
分别对所述浅层池化特征图、所述中层池化特征图和所述深层池化特征图进行1*1卷积处理,以对所述浅层池化特征图、所述中层池化特征图和所述深层池化特征图进行特征降维;
分别对降维后的所述浅层池化特征图、降维后的所述中层池化特征图和降维后的所述深层池化特征图依次进行非线性变换、特征升维和归一化处理,得到归一化浅层池化特征图、归一化中层池化特征图和归一化深层池化特征图;
对所述归一化浅层池化特征图和所述浅层池化特征图进行通道加权处理,得到浅层属性区域特征;
对所述归一化中层池化特征图和所述中层特征图进行通道加权处理,得到中层属性区域特征;
对所述归一化深层池化特征图和所述深层特征图进行通道加权处理,得到深层属性区域特征。
可选的,所述通过所述分类模块对所述浅层属性区域特征、所述中层属性区域特征、所述深层属性区域特征和所述深层特征图进行行人属性识别,并结合得到的所述浅层属性区域特征、所述中层属性区域特征、所述深层属性区域特征和所述深层特征图对应的属性类别预测结果获取所述待检测行人图像的最终属性类别,包括:
通过所述分类模块对所述浅层属性区域特征、所述中层属性区域特征、所述深层属性区域特征和所述深层特征图进行行人属性识别,输出所述浅层属性区域特征、所述中层属性区域特征、所述深层属性区域特征和所述深层特征图对应的属性类别预测概率值;
在同一属性类别维度上选择所述浅层属性区域特征、所述中层属性区域特征、所述深层属性区域特征和所述深层特征图对应的属性类别预测概率值中的最大概率值,将各属性类别维度上的最大概率值对应的属性类别作为所述待检测行人图像的最终属性类别。
可选的,所述行人属性识别网络的训练过程为:
获取各属性类别下的训练样本;
通过所述训练样本训练行人属性识别网络,得到所述训练样本的浅层属性区域特征、中层属性区域特征、深层属性区域特征和深层特征图对应的属性类别预测结果;
根据所述训练样本的浅层属性区域特征对应的属性类别预测结果和该训练样本的真实属性类别计算损失值,得到浅层损失值;
根据所述训练样本的中层属性区域特征对应的属性类别预测结果和该训练样本的真实属性类别计算损失值,得到中层损失值;
根据所述训练样本的深层属性区域特征对应的属性类别预测结果和该训练样本的真实属性类别计算损失值,得到第一深层损失值;
根据所述训练样本的深层特征图对应的属性类别预测结果和该训练样本的真实属性类别计算损失值,得到第二深层损失值;
通过所述浅层损失值、所述中层损失值、所述第一深层损失值和所述第二深层损失值反向更新所述行人属性识别网络的参数;
判断所述行人属性识别网络是否满足收敛条件,若是,则停止训练,得到训练好的行人属性识别网络,若否,则返回所述通过所述训练样本的行人感兴趣区域训练行人属性识别网络的步骤,进入下一轮迭代训练。
可选的,所述方法还包括:
当所述训练样本的属性类别之间存在样本数量分布不均衡时,在计算损失值的过程中,对样本数量较少的属性类别对应的损失值乘以权重系数,以提高该属性类型对应的损失值。
可选的,所述训练样本的获取过程为:
采集行人图像;
通过行人检测模型对所述行人图像进行行人检测,获取所述行人图像的行人感兴趣区域和置信度;
根据所述行人感兴趣区域对所述行人图像进行裁剪,获取单个行人图像;
根据所述置信度对所述单个行人图像进行筛选,去掉低于预置置信度阈值的单个行人图像;
通过预置标注模型对筛选后的单个行人图像进行属性类别标注,得到标注样本;
对所述标注样本进行筛选,对筛选得到的错误标注进行修正,得到训练样本。
可选的,所述分类模块包括全局池化层和全连接层。
本申请第二方面提供了一种行人属性识别设备,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面任一种所述的行人属性识别方法。
本申请第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码被处理器执行时实现第一方面任一种所述的行人属性识别方法。
从以上技术方案可以看出,本申请具有以下优点:
本申请提供了一种行人属性识别方法,包括:获取到待检测行人图像后,将待检测行人图像输入到训练好的行人属性识别网络,行人属性识别网络包括主干网络、特征卷积模块、通道加权模块和分类模块;通过主干网络对待检测行人图像进行特征提取,得到浅层特征图、中层特征图和深层特征图;通过特征卷积模块对浅层特征图、中层特征图和深层特征图分别进行1*1卷积处理,以对浅层特征图、中层特征图和深层特征图不同通道上的特征进行线性整合;通过通道加权模块分别提取卷积后的浅层特征图、卷积后的中层特征图和卷积后的深层特征图中的行人属性区域特征,得到浅层属性区域特征、中层属性区域特征和深层属性区域特征;通过分类模块对浅层属性区域特征、中层属性区域特征、深层属性区域特征和深层特征图进行行人属性识别,并结合得到的浅层属性区域特征、中层属性区域特征、深层属性区域特征和深层特征图对应的属性类别预测结果获取待检测行人图像的最终属性类别。
本申请中,将待检测行人图像输入到行人属性设备网络后,通过主干网络提取浅层特征图、中层特征图和深层特征图三个不同维度的特征,以充分利用浅层、中层和深层的特征信息;通过特征卷积模块对浅层特征图、中层特征图和深层特征图不同通道上的特征进行线性整合,以增强特征表示;通过通道加权模块自动判别和提取卷积后的浅层特征图、卷积后的中层特征图和卷积后的深层特征图中的行人属性区域特征,不需要在图像输入行人属性识别网络之前预先定位行人的局部属性区域,提高了识别速度;通过分类模块对多个维度的特征进行行人属性识别并结合多个属性类别预测结果获取待检测行人图像的最终属性类别,有助于提高行人属性识别精度,从而改善了现有技术需要对行人的局部属性区域进行预定位,再进行行人属性识别,存在识别速度慢的技术问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种行人属性识别方法的一个流程示意图;
图2为本申请实施例提供的训练样本的一个示意图;
图3为本申请实施例提供的主干网络的一个结构示意图;
图4为本申请实施例提供的Block1的一个结构示意图;
图5为本申请实施例提供的Block2的一个结构示意图;
图6为本申请实施例提供的Block3的一个结构示意图;
图7为本申请实施例提供的Block4的一个结构示意图;
图8为本申请实施例提供的Block5的一个结构示意图;
图9为本申请实施例提供的Block6的一个结构示意图;
图10为本申请实施例提供的Block7的一个结构示意图;
图11为本申请实施例提供的Block8的一个结构示意图;
图12为本申请实施例提供的Block9的一个结构示意图;
图13为本申请实施例提供的Block10的一个结构示意图;
图14为本申请实施例提供的最终属性类别预测结果获取过程的一个示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,本申请实施例提供了一种行人属性识别方法,包括:
步骤101、获取到待检测行人图像后,将待检测行人图像输入到训练好的行人属性识别网络,行人属性识别网络包括主干网络、特征卷积模块、通道加权模块和分类模块。
可以通过摄像头采集各个场景下的图像(图像中包含行人),然后可以通过现有的行人检测模型对该图像进行行人检测,根据行人检测模型检测到的行人感兴趣区域对原始的行人图像进行裁剪,获取对应的单个行人图像,可以筛选掉质量较差的图像,例如模糊、重叠较多、重复较多等行人图像;可以对筛选后的单个行人图像进行预处理,具体可以将单个行人图像缩放到预置大小和归一化处理(可以是将单个行人图像各个通道的像素点的像素值除以255,使得每个像素点的像素值缩放到0到1之间);最后将预处理后的单个行人图像作为待检测行人图像输入到预先训练好的行人属性识别网络进行行人属性识别,本申请实施例中的行人属性识别网络包括主干网络、特征卷积模块、通道加权模块和分类模块。
进一步,行人属性识别网络的训练过程为:
S1011、获取各属性类别下的训练样本。
训练样本的获取过程为:采集行人图像;通过行人检测模型对行人图像进行行人检测,获取行人图像的行人感兴趣区域和置信度;根据行人感兴趣区域对行人图像进行裁剪,获取单个行人图像;根据置信度对单个行人图像进行筛选,去掉低于预置置信度阈值的单个行人图像;通过预置标注模型对筛选后的单个行人图像进行属性类别标注,得到标注样本;对标注样本进行筛选,对筛选得到的错误标注进行修正,得到训练样本。
先通过摄像头采集行人图像,然后通过现有的行人检测模型对行人图像进行行人检测,根据行人检测模型检测到的行人感兴趣区域对原始的行人图像进行裁剪,获取对应的单个行人图像,裁剪得到单个行人图像后自动进行保存。单个行人图像保存时的命名,可以根据预先设置好的格式(例如原始行人图像的名称_该图像的第几个行人_该行人的置信度)进行自动保存。保存后,根据各图像命名中的置信度可以快速对图像进行筛选,去掉置信度小于0.9的图像,这类图像可能存在模糊、遮挡的问题,会影响模型的训练效果。
获取到单个行人图像后,需要对其进行标签标注,属性类别可以参考图2,大类为属性类别,大类下面为细分类(性别为大类属性,女性、男性为性别对应的小类属性),对应的数字表示在数据集中对应细分类别样本数量。具体的,可以通过预置标注模型对筛选后的单个行人图像进行属性类别的预标注,得到标注样本,预置标注模型可以是开源模型或预先训练好的标注模型。考虑到模型标注可能会存在错误标注的情况,可以进一步对标注样本进行筛选,对筛选到错误标注的样本进行修正,修正后的标注样本和正确标注的标注样本即为训练样本,用于模型训练。
每个属性类别的标签可以用0或1表示,0表示不存在这个属性类别,1表示含有这个属性类别(例如某样本的性别属性,女性类别的标签值为1,男性标签值为0,则表示该样本中的行人的性别属性为女性),预测时可以通过设置阈值0.5判断各小类属性是否存在。若预测的小类属性概率值大于0.5,则认为包含这个小类属性,如果小于0.5则认为不包含这个小类属性,如果大类属性下的二个及以上的小类属性都大于0.5或者都小于0.5,则取最大的概率值所对应的小类属性作为大类最后的属性,比如大类属性性别中,如果预测的两个子类属性男性概率值为0.8,子类属性女性概率值为0.6,因为只能有一种大类属性,且男性类别概率值大于女性类别概率值,因此性别属性最终预测为男性,类似的,如果都小于0.5,则取最大的为对应的大类属性,如果都小于一个阈值,则大类属性直接设定为不确定。这个阈值根据不同属性统计获得,如果属性对应的子类属性类别过多则设定小一些。
S1012、通过训练样本训练行人属性识别网络,得到训练样本的浅层属性区域特征、中层属性区域特征、深层属性区域特征和深层特征图对应的属性类别预测结果。
通过前述步骤获取的训练样本训练行人属性识别网络。
通过主干网络对训练样本进行特征提取,得到浅层特征图、中层特征图和深层特征图;通过特征卷积模块对浅层特征图、中层特征图和深层特征图分别进行1*1卷积处理,以对浅层特征图、中层特征图和深层特征图不同通道上的特征进行线性整合;通过通道加权模块分别提取卷积后的浅层特征图、卷积后的中层特征图和卷积后的深层特征图中的行人属性区域特征,得到浅层属性区域特征、中层属性区域特征和深层属性区域特征;通过分类模块对浅层属性区域特征、中层属性区域特征、深层属性区域特征和深层特征图进行行人属性识别,得到浅层属性区域特征、中层属性区域特征、深层属性区域特征和深层特征图对应的属性类别预测结果,即有4个分支进行属性类别预测。
S1013、根据训练样本的浅层属性区域特征对应的属性类别预测结果和该训练样本的真实属性类别计算损失值,得到浅层损失值。
本申请实施例中的属性类别为多类,对应的属性类别预测结果为多个属性类别的预测结果。假设本申请实施例中的属性类别包括性别、是否戴帽子和是否戴口罩三类,对应的,浅层属性区域特征对应的属性类别预测结果包括这个三个类别的预测结果。在计算损失值时,分别计算性别类别对应的预测结果与真实值的损失值、是否戴帽子类别对应的预测结果与真实值的损失值以及是否戴口罩类别对应的预测结果与真实值的损失值,再将这三个类别的损失值求平均值得到浅层损失值。
S1014、根据训练样本的中层属性区域特征对应的属性类别预测结果和该训练样本的真实属性类别计算损失值,得到中层损失值。
S1015、根据训练样本的深层属性区域特征对应的属性类别预测结果和该训练样本的真实属性类别计算损失值,得到第一深层损失值。
S1016、根据训练样本的深层特征图对应的属性类别预测结果和该训练样本的真实属性类别计算损失值,得到第二深层损失值。
可以采用相同的损失函数(例如交叉熵损失函数)计算浅层损失值、中层损失值、第一深层损失值和第二深层损失值,总的训练损失为浅层损失值、中层损失值、第一深层损失值和第二深层损失值之和。
进一步,由于某些类别的训练样本不容易获取,导致该类的训练样本的数量相对于其他类别的训练样本数量较少,使得属性类别之间存在样本数量分布不均衡的问题。当训练样本的属性类别之间存在样本数量分布不均衡时,在计算损失值的过程中,对样本数量较少的属性类别对应的损失值乘以权重系数,以提高该属性类型对应的损失值,进而提高训练效果。沿用上述例子,假设由于采集的行人图像中的行人为背面的图像较多,导致是否带口罩这一类别的训练样本较少,可以在对计算得到的是否戴口罩类别对应的预测结果与真实值的损失值乘以权重系数,以提高是否戴口罩这一属性类型对应的损失值,进而改善训练样本不均衡导致的训练效果差的问题。
S1017、通过浅层损失值、中层损失值、第一深层损失值和第二深层损失值反向更新行人属性识别网络的参数。
本申请实施例中采用4个分支进行属性类别预测,这4个分支的属性类别预测结果由真实标签直接监督,进行有监督训练,而在实际预测过程中,融合这4个分支的预测结果获取最终的预测结果。
由于这4个分支的属性类别预测结果由真实标签直接监督,通道加权模块可以直接接受局部区域是否准确的反馈。如果只采用融合预测结果的监督,则在反向更新梯度时,梯度对于每个特征层的执行情况没有足够的信息,会导致某些分支的训练不足,使得模型的训练效果较差,进而影响属性识别精度。
S1018、判断行人属性识别网络是否满足收敛条件,若是,则停止训练,得到训练好的行人属性识别网络,若否,则返回S1012,进入下一轮迭代训练。
可以通过训练误差是否低于误差阈值来判断是否满足收敛条件,也可以通过迭代次数是否达到最大迭代次数来判断是否满足收敛条件。得到的训练好的行人属性识别网络可以嵌入到具体的电子设备中,用于实际情况中的行人属性识别。
步骤102、通过主干网络对待检测行人图像进行特征提取,得到浅层特征图、中层特征图和深层特征图。
行人属性识别网络进行行人属性识别的过程中,先通过主干网络对输入的待检测行人图像进行特征提取,并且将浅层特征图、中层特征图和深层特征图三个不同维度的特征作为输出特征,以便后续处理过程中可以充分利用不同维度的特征信息,以提高识别精度。
本申请实施例中的主干网络由串联连接的卷积层(Conv2d)和10个特征提取层(Block)构成,具体结构可以参考图3,10个特征提取层的具体结构可以参考图4至图13。通过主干网络中的卷积层对待检测行人图像进行卷积处理得到卷积特征图,通过特征提取层对卷积特征图进行特征提取,输出第二个特征提取层提取到的浅层特征图、第六个特征提取层提取到的中层特征图和第十个特征提取层提取到的深层特征图。
步骤103、通过特征卷积模块对浅层特征图、中层特征图和深层特征图分别进行1*1卷积处理,以对浅层特征图、中层特征图和深层特征图不同通道上的特征进行线性整合。
为了增强特征表示,本申请实施例通过特征卷积模块对浅层特征图、中层特征图和深层特征图分别进行1*1卷积处理,以对浅层特征图、中层特征图和深层特征图不同通道上的特征进行线性整合。其中,特征卷积模块由并联的第一1*1卷积层、第二1*1卷积层和第三1*1卷积层构成,第一1*1卷积层的卷积核的数量为768,用于对浅层特征图进行1*1卷积处理,以对浅层特征图不同通道上的特征进行线性整合;第二1*1卷积层的卷积核的数量为512,用于对中层特征图进行1*1卷积处理,以对中层特征图不同通道上的特征进行线性整合;第三1*1卷积层的卷积核的数量为256,以对深层特征图进行1*1卷积处理,以对深层特征图不同通道上的特征进行线性整合。
步骤104、通过通道加权模块分别提取卷积后的浅层特征图、卷积后的中层特征图和卷积后的深层特征图中的行人属性区域特征,得到浅层属性区域特征、中层属性区域特征和深层属性区域特征。
通过通道加权模块对卷积后的浅层特征图、卷积后的中层特征图和卷积后的深层特征图分别进行全局池化,得到浅层池化特征图、中层池化特征图和深层池化特征图;分别对浅层池化特征图、中层池化特征图和深层池化特征图进行1*1卷积处理,以对浅层池化特征图、中层池化特征图和深层池化特征图进行特征降维;分别对降维后的浅层池化特征图、降维后的中层池化特征图和降维后的深层池化特征图依次进行非线性变换(可以通过Relu激活实现非线性变换)、特征升维(可以通过1*1卷积层实现特征升维)和归一化处理,得到归一化浅层池化特征图、归一化中层池化特征图和归一化深层池化特征图;对归一化浅层池化特征图和浅层池化特征图进行通道加权处理,得到浅层属性区域特征;对归一化中层池化特征图和中层特征图进行通道加权处理,得到中层属性区域特征;对归一化深层池化特征图和深层特征图进行通道加权处理,得到深层属性区域特征。
可以理解的是,本申请实施例中的通道加权模块包括浅层通道加权子模块、中层通道加权子模块、深层通道加权子模块,对应处理卷积后的浅层特征图、卷积后的中层特征图和卷积后的深层特征图,对应输出浅层属性区域特征、中层属性区域特征和深层属性区域特征。
浅层通道加权子模块的数量与行人属性类别数量一致,一个浅层通道加权子模块用于提取卷积后的浅层特征图在一个属性类别对应的属性区域特征,进而得到浅层特征图在各个属性类别的属性区域特征(包括头部、上半身、下半身等局部特征)。同样的,中层通道加权子模块的数量与行人属性类别数量一致,一个中层通道加权子模块用于提取卷积后的中层特征图在一个属性类别对应的属性区域特征,进而得到中层特征图在各个属性类别的属性区域特征;深层通道加权子模块的数量与行人属性类别数量一致,一个深层通道加权子模块用于提取卷积后的深层特征图在一个属性类别对应的属性区域特征,进而得到深层特征图在各个属性类别的属性区域特征。也就意味着,本申请中的通道加权模块可以自动判别和提取浅层、中层和深层三个维度上的各个属性区域特征,也就不需要通过训练额外的属性定位模型来提取头部、上半身、下半身等属性区域特征,再将属性区域特征输入到行人属性识别模型进行属性识别,不需要额外的区域标注,可以端到端的进行训练和行人属性识别,提高了识别效率,也达到了节省资源的目的。
步骤105、通过分类模块对浅层属性区域特征、中层属性区域特征、深层属性区域特征和深层特征图进行行人属性识别,并结合得到的浅层属性区域特征、中层属性区域特征、深层属性区域特征和深层特征图对应的属性类别预测结果获取待检测行人图像的最终属性类别。
通过分类模块对浅层属性区域特征、中层属性区域特征、深层属性区域特征和深层特征图分别进行行人属性识别,输出浅层属性区域特征、中层属性区域特征、深层属性区域特征和深层特征图对应的属性类别预测概率值;在同一属性类别维度上选择浅层属性区域特征、中层属性区域特征、深层属性区域特征和深层特征图对应的属性类别预测概率值中的最大概率值,将各属性类别维度上的最大概率值对应的属性类别作为待检测行人图像的最终属性类别。
分类模块包括浅层分类子模块、中层分类子模块、第一深层分类子模块和第二深层分类子模块,各分类子模块均由全局池化层和全连接层构成。浅层分类子模块、中层分类子模块、第一深层分类子模块的数量也与属性类别数量一致,一个浅层分类子模块用于对一种属性类别对应的浅层属性区域特征进行属性类别识别,一个中层分类子模块用于对一种属性类别对应的中层属性区域特征进行属性类别识别,一个第一深层分类子模块用于对一种属性类别对应的深层属性区域特征进行属性类别识别,第二深层分类子模块的数量为1个,用于对深层特征图整体(全局特征)进行多个属性类别识别。浅层分类子模块输出浅层属性区域特征在各属性类别的属性类别预测概率值,中层分类子模块输出中层属性区域特征在各属性类别的属性类别预测概率值,第一深层分类子模块输出深层属性区域特征在各属性类别的属性类别预测概率值,第二深层分类子模块输出深层特征图在各属性类别的属性类别预测概率值,最终在同一属性类别维度上选择浅层属性区域特征、中层属性区域特征、深层属性区域特征和深层特征图对应的属性类别预测概率值中的最大概率值,将各属性类别维度上的最大概率值对应的属性类别作为待检测行人图像的最终属性类别,具体可以参考图14,第一列为输出的浅层属性区域特征在N个属性类别对应的属性类别预测概率值,第二列为输出的中层属性区域特征在N个属性类别对应的属性类别预测概率值,第三列为输出的深层属性区域特征在N个属性类别对应的属性类别预测概率值,第四列为输出的深层特征图在N个属性类别对应的属性类别预测概率值,同一行的属性类别预测概率值对应同一属性类别,最终选择每一行最大的属性类别预测概率值作为各行最终的概率预测值,从而得到待检测行人图像在各个属性类别维度的最终属性类别。
本申请实施例中,将待检测行人图像输入到行人属性设备网络后,通过主干网络提取浅层特征图、中层特征图和深层特征图三个不同维度的特征,以充分利用浅层、中层和深层的特征信息;通过特征卷积模块对浅层特征图、中层特征图和深层特征图不同通道上的特征进行线性整合,以增强特征表示;通过通道加权模块自动判别和提取卷积后的浅层特征图、卷积后的中层特征图和卷积后的深层特征图中的行人属性区域特征,不需要在图像输入行人属性识别网络之前预先定位行人的局部属性区域,提高了识别速度;通过分类模块对多个维度的特征进行行人属性识别并结合多个属性类别预测结果获取待检测行人图像的最终属性类别,有助于提高行人属性识别精度,从而改善了现有技术需要对行人的局部属性区域进行预定位,再进行行人属性识别,存在识别速度慢的技术问题。
本申请实施例还提供了一种行人属性识别设备,设备包括处理器以及存储器;
存储器用于存储程序代码,并将程序代码传输给处理器;
处理器用于根据程序代码中的指令执行前述方法实施例中的行人属性识别方法。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码被处理器执行时实现前述方法实施例中的行人属性识别方法。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种行人属性识别方法,其特征在于,包括:
获取到待检测行人图像后,将所述待检测行人图像输入到训练好的行人属性识别网络,所述行人属性识别网络包括主干网络、特征卷积模块、通道加权模块和分类模块;
通过所述主干网络对所述待检测行人图像进行特征提取,得到浅层特征图、中层特征图和深层特征图;
通过所述特征卷积模块对所述浅层特征图、所述中层特征图和所述深层特征图分别进行1*1卷积处理,以对所述浅层特征图、所述中层特征图和所述深层特征图不同通道上的特征进行线性整合;
通过所述通道加权模块分别提取卷积后的所述浅层特征图、卷积后的所述中层特征图和卷积后的所述深层特征图中的行人属性区域特征,得到浅层属性区域特征、中层属性区域特征和深层属性区域特征;
通过所述分类模块对所述浅层属性区域特征、所述中层属性区域特征、所述深层属性区域特征和所述深层特征图进行行人属性识别,并结合得到的所述浅层属性区域特征、所述中层属性区域特征、所述深层属性区域特征和所述深层特征图对应的属性类别预测结果获取所述待检测行人图像的最终属性类别。
2.根据权利要求1所述的行人属性识别方法,其特征在于,所述主干网络由串联连接的卷积层和10个特征提取层构成;
所述通过所述主干网络对所述待检测行人图像进行特征提取,得到浅层特征图、中层特征图和深层特征图,包括:
通过所述主干网络中的卷积层对所述待检测行人图像进行卷积处理得到卷积特征图,通过所述特征提取层对所述卷积特征图进行特征提取,输出第二个特征提取层提取到的浅层特征图、第六个特征提取层提取到的中层特征图和第十个特征提取层提取到的深层特征图。
3.根据权利要求1所述的行人属性识别方法,其特征在于,所述通过所述通道加权模块分别提取卷积后的所述浅层特征图、卷积后的所述中层特征图和卷积后的所述深层特征图中的行人属性区域特征,得到浅层属性区域特征、中层属性区域特征和深层属性区域特征,包括:
通过所述通道加权模块对卷积后的所述浅层特征图、卷积后的所述中层特征图和卷积后的所述深层特征图分别进行全局池化,得到浅层池化特征图、中层池化特征图和深层池化特征图;
分别对所述浅层池化特征图、所述中层池化特征图和所述深层池化特征图进行1*1卷积处理,以对所述浅层池化特征图、所述中层池化特征图和所述深层池化特征图进行特征降维;
分别对降维后的所述浅层池化特征图、降维后的所述中层池化特征图和降维后的所述深层池化特征图依次进行非线性变换、特征升维和归一化处理,得到归一化浅层池化特征图、归一化中层池化特征图和归一化深层池化特征图;
对所述归一化浅层池化特征图和所述浅层池化特征图进行通道加权处理,得到浅层属性区域特征;
对所述归一化中层池化特征图和所述中层特征图进行通道加权处理,得到中层属性区域特征;
对所述归一化深层池化特征图和所述深层特征图进行通道加权处理,得到深层属性区域特征。
4.根据权利要求1所述的行人属性识别方法,其特征在于,所述通过所述分类模块对所述浅层属性区域特征、所述中层属性区域特征、所述深层属性区域特征和所述深层特征图进行行人属性识别,并结合得到的所述浅层属性区域特征、所述中层属性区域特征、所述深层属性区域特征和所述深层特征图对应的属性类别预测结果获取所述待检测行人图像的最终属性类别,包括:
通过所述分类模块对所述浅层属性区域特征、所述中层属性区域特征、所述深层属性区域特征和所述深层特征图进行行人属性识别,输出所述浅层属性区域特征、所述中层属性区域特征、所述深层属性区域特征和所述深层特征图对应的属性类别预测概率值;
在同一属性类别维度上选择所述浅层属性区域特征、所述中层属性区域特征、所述深层属性区域特征和所述深层特征图对应的属性类别预测概率值中的最大概率值,将各属性类别维度上的最大概率值对应的属性类别作为所述待检测行人图像的最终属性类别。
5.根据权利要求1所述的行人属性识别方法,其特征在于,所述行人属性识别网络的训练过程为:
获取各属性类别下的训练样本;
通过所述训练样本训练行人属性识别网络,得到所述训练样本的浅层属性区域特征、中层属性区域特征、深层属性区域特征和深层特征图对应的属性类别预测结果;
根据所述训练样本的浅层属性区域特征对应的属性类别预测结果和该训练样本的真实属性类别计算损失值,得到浅层损失值;
根据所述训练样本的中层属性区域特征对应的属性类别预测结果和该训练样本的真实属性类别计算损失值,得到中层损失值;
根据所述训练样本的深层属性区域特征对应的属性类别预测结果和该训练样本的真实属性类别计算损失值,得到第一深层损失值;
根据所述训练样本的深层特征图对应的属性类别预测结果和该训练样本的真实属性类别计算损失值,得到第二深层损失值;
通过所述浅层损失值、所述中层损失值、所述第一深层损失值和所述第二深层损失值反向更新所述行人属性识别网络的参数;
判断所述行人属性识别网络是否满足收敛条件,若是,则停止训练,得到训练好的行人属性识别网络,若否,则返回所述通过所述训练样本的行人感兴趣区域训练行人属性识别网络的步骤,进入下一轮迭代训练。
6.根据权利要求5所述的行人属性识别方法,其特征在于,所述方法还包括:
当所述训练样本的属性类别之间存在样本数量分布不均衡时,在计算损失值的过程中,对样本数量较少的属性类别对应的损失值乘以权重系数,以提高该属性类型对应的损失值。
7.根据权利要求5所述的行人属性识别方法,其特征在于,所述训练样本的获取过程为:
采集行人图像;
通过行人检测模型对所述行人图像进行行人检测,获取所述行人图像的行人感兴趣区域和置信度;
根据所述行人感兴趣区域对所述行人图像进行裁剪,获取单个行人图像;
根据所述置信度对所述单个行人图像进行筛选,去掉低于预置置信度阈值的单个行人图像;
通过预置标注模型对筛选后的单个行人图像进行属性类别标注,得到标注样本;
对所述标注样本进行筛选,对筛选得到的错误标注进行修正,得到训练样本。
8.根据权利要求1所述的行人属性识别方法,其特征在于,所述分类模块包括全局池化层和全连接层。
9.一种行人属性识别设备,其特征在于,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-8任一项所述的行人属性识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码被处理器执行时实现权利要求1-8任一项所述的行人属性识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111306979.1A CN114038010B (zh) | 2021-11-05 | 2021-11-05 | 一种行人属性识别方法、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111306979.1A CN114038010B (zh) | 2021-11-05 | 2021-11-05 | 一种行人属性识别方法、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114038010A CN114038010A (zh) | 2022-02-11 |
CN114038010B true CN114038010B (zh) | 2024-05-07 |
Family
ID=80143004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111306979.1A Active CN114038010B (zh) | 2021-11-05 | 2021-11-05 | 一种行人属性识别方法、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114038010B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114913339B (zh) * | 2022-04-21 | 2023-12-05 | 北京百度网讯科技有限公司 | 特征图提取模型的训练方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020164270A1 (zh) * | 2019-02-15 | 2020-08-20 | 平安科技(深圳)有限公司 | 基于深度学习的行人检测方法、系统、装置及存储介质 |
CN112232231A (zh) * | 2020-10-20 | 2021-01-15 | 城云科技(中国)有限公司 | 行人属性的识别方法、系统、计算机设备和存储介质 |
CN113033321A (zh) * | 2021-03-02 | 2021-06-25 | 深圳市安软科技股份有限公司 | 目标行人属性识别模型的训练方法及行人属性识别方法 |
-
2021
- 2021-11-05 CN CN202111306979.1A patent/CN114038010B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020164270A1 (zh) * | 2019-02-15 | 2020-08-20 | 平安科技(深圳)有限公司 | 基于深度学习的行人检测方法、系统、装置及存储介质 |
CN112232231A (zh) * | 2020-10-20 | 2021-01-15 | 城云科技(中国)有限公司 | 行人属性的识别方法、系统、计算机设备和存储介质 |
CN113033321A (zh) * | 2021-03-02 | 2021-06-25 | 深圳市安软科技股份有限公司 | 目标行人属性识别模型的训练方法及行人属性识别方法 |
Non-Patent Citations (1)
Title |
---|
基于深度卷积神经网络的图像分类算法;陈瑞瑞;;河南科技学院学报(自然科学版);20180831(第04期);第56-60,67页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114038010A (zh) | 2022-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107895367B (zh) | 一种骨龄识别方法、系统及电子设备 | |
US11392792B2 (en) | Method and apparatus for generating vehicle damage information | |
CN110070029B (zh) | 一种步态识别方法及装置 | |
CN111767882A (zh) | 一种基于改进yolo模型的多模态行人检测方法 | |
CN110543857A (zh) | 基于图像分析的违禁物识别方法、装置、系统和存储介质 | |
CN112580458B (zh) | 人脸表情识别方法、装置、设备及存储介质 | |
CN109086811A (zh) | 多标签图像分类方法、装置及电子设备 | |
CN109242826B (zh) | 基于目标检测的移动设备端签状物根数计数方法及系统 | |
CN110610123A (zh) | 一种多目标车辆检测方法、装置、电子设备及存储介质 | |
CN111008576A (zh) | 行人检测及其模型训练、更新方法、设备及可读存储介质 | |
CN115170792B (zh) | 红外图像处理方法、装置及设备、存储介质 | |
CN110781980A (zh) | 目标检测模型的训练方法、目标检测方法及装置 | |
CN108615401B (zh) | 基于深度学习的室内非均匀光线车位状况识别方法 | |
CN114581709A (zh) | 识别医学图像中的目标的模型训练、方法、设备及介质 | |
CN111814690A (zh) | 一种目标重识别方法、装置和计算机可读存储介质 | |
CN114038010B (zh) | 一种行人属性识别方法、设备和介质 | |
CN111275694B (zh) | 一种注意力机制引导的递进式划分人体解析系统及方法 | |
CN117036948A (zh) | 一种基于注意力机制的致敏植物识别方法 | |
CN112052702A (zh) | 一种识别二维码的方法和装置 | |
Salama et al. | Enhancing Medical Image Quality using Neutrosophic Fuzzy Domain and Multi-Level Enhancement Transforms: A Comparative Study for Leukemia Detection and Classification | |
CN105404682B (zh) | 一种基于数字图像内容的图书检索方法 | |
CN117078602A (zh) | 图像拉伸识别及模型训练方法、装置、设备、介质及产品 | |
Curran et al. | Accurate New Zealand wildlife image classification-deep learning approach | |
CN112633089B (zh) | 一种视频行人重识别方法、智能终端及存储介质 | |
CN115270841A (zh) | 条码检测方法、装置、存储介质及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |