CN112446340B - 结合行人局部特征和服饰属性分类的行人搜索方法、系统及存储介质 - Google Patents
结合行人局部特征和服饰属性分类的行人搜索方法、系统及存储介质 Download PDFInfo
- Publication number
- CN112446340B CN112446340B CN202011414929.0A CN202011414929A CN112446340B CN 112446340 B CN112446340 B CN 112446340B CN 202011414929 A CN202011414929 A CN 202011414929A CN 112446340 B CN112446340 B CN 112446340B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- map
- picture
- feature
- clothing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000003860 storage Methods 0.000 title claims abstract description 8
- 238000013145 classification model Methods 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000012544 monitoring process Methods 0.000 claims abstract description 14
- 238000005520 cutting process Methods 0.000 claims abstract description 10
- 238000012916 structural analysis Methods 0.000 claims abstract description 8
- 238000011176 pooling Methods 0.000 claims description 24
- 238000010586 diagram Methods 0.000 claims description 23
- 238000001514 detection method Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 15
- OIGNJSKKLXVSLS-VWUMJDOOSA-N prednisolone Chemical compound O=C1C=C[C@]2(C)[C@H]3[C@@H](O)C[C@](C)([C@@](CC4)(O)C(=O)CO)[C@@H]4[C@@H]3CCC2=C1 OIGNJSKKLXVSLS-VWUMJDOOSA-N 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 5
- 230000003213 activating effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 11
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000013461 design Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 238000013135 deep learning Methods 0.000 description 11
- 230000007246 mechanism Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 240000002853 Nelumbo nucifera Species 0.000 description 1
- 235000006508 Nelumbo nucifera Nutrition 0.000 description 1
- 235000006510 Nelumbo pentapetala Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及行人结构化属性分析技术,为结合行人局部特征和服饰属性分类的行人搜索方法、系统及存储介质,优化了监控场景下的有效行人定位和服饰属性多标签分类识别的算法流程,提高了行人服饰风格、服饰纹理多标签识别率,提升了系统的行人特征搜索能力。其方法包括步骤:提取监控场景图像中行人的位置信息;根据位置信息裁剪出目标结果图片,对目标结果图片提取有效行人图片的特征;训练行人服饰多标签分类模型,利用训练好的行人服饰多标签分类模型对上半身和下半身的服饰风格、服饰纹理进行多标签分类识别;根据识别结果,结合行人基本属性信息,进行行人结构化分析,得到行人特征后进行行人特征搜索。
Description
技术领域
本发明涉及行人结构化属性分析技术,具体为结合行人局部特征和服饰属性分类的行人搜索方法、系统及存储介质。
背景技术
行人结构化属性分析在智慧城市、雪亮工程等项目建设中具有重要的价值,是海量监控视频进行深度分析应用的基础,是提升业务部门对上层视频进行深度应用的重要能力,为构建城市智慧、雪亮工程等应用提供关键技术支撑。
目前,在行人结构化属性分析过程中,行人目标提取和服饰属性识别基本都采用深度学习的方法实现。较为常用的行人服饰属性识别方法主要有基于深度学习的多标签行人服饰属性识别方法、基于特征图水平均匀划分的行人服饰属性识别方法、基于深度学习和注意力机制的行人服饰属性识别方法、基于神经网络模型精细分类的服饰属性标签识别方法、基于深度学习的服饰属性标签识别方法等。
在基于深度学习的多标签行人服饰属性识别方法中,直接对行人图片的全局特征进行多标签分类,对每个标签单独训练了一个分类器,对每个标签,使用相应的分类器分类。
在基于深度学习和注意力机制的行人服饰属性识别方法中,采用卷积神经网络提取特征,引入“注意力机制”进行更精细化的识别,关注感兴趣区域,尽可能地排除图片内的干扰或不完整的信息。
在基于神经网络模型精细分类的服饰属性标签识别方法中,针对计算机视觉在穿衣搭配等时尚方面的应用,以领为例子,会得到脖颈设计、领子设计、翻领设计、颈线设计、细节设计等,其中每一种设计又包含很多不同的设计类型;以脖颈设计为例,又包含荷叶半高领、常规半高领、堆堆领、高常规领等;这类方法采用Faster RCNN检测目标,将NasNet和inceptionresnetv2训练的网络模型进行融合,采用加权平均的融合方法,输出服饰的属性标签;模型推理耗时较多,不具有实时性。
在基于深度学习的服饰属性标签识别方法中,针对购物网站商品数量剧增,导致用户难以快速挑选出满意的服饰,购物体验不佳的问题,对服饰部件进行细分,数据集采用阿里电商数据的网络服饰图像数据库,包含8种属性维度,包括:颈线设计、领子设计、脖颈设计、翻领设计、袖长、衣长、裙长、裤长,采用JppNet细粒度语义分割方法进行服饰属性分类;模型推理耗时较多,不具有实时性。
总的来说,现有的行人服饰属性识别分类技术中,将行人全身图片经过卷积神经网络中主干网络后的特征图进行水平均匀划分的方法,分块后的特征都不能与真实行人的上半身和下半身的区域形成一种合理的逻辑映射;而通过像素分割的方法生成对应全身图片的掩膜过程存在着设计繁琐、不具有实用意义的缺陷。
发明内容
为解决现有技术所存在的技术问题,本发明提供结合行人局部特征和服饰属性分类的行人搜索方法、系统及存储介质,优化了监控场景下的有效行人定位和服饰属性多标签分类识别的算法流程,能合理地区分行人上衣和下衣的有效和无效的部件特征,提高了行人的上半身和下半身的服饰风格、服饰纹理多标签识别率,提升了行人结构化系统的分析能力和行人特征搜索能力。
本发明方法采用以下技术方案来实现:结合行人局部特征和服饰属性分类的行人搜索方法,包括以下步骤:
S1、提取监控场景图像中行人的位置信息,若提取到的位置信息中有目标结果且置信度大于阈值,则判断完成了行人的检测定位,进入步骤S2;
S2、根据行人的位置信息裁剪出目标结果图片,对目标结果图片提取有效行人图片的特征,过滤无效行人图片;
S3、训练行人服饰多标签分类模型,利用训练好的行人服饰多标签分类模型对行人的上半身和下半身的服饰风格、服饰纹理进行多标签分类识别;
S4、根据步骤S3多标签分类识别的结果,并结合行人基本属性信息,进行行人结构化分析,得到行人特征后进行行人特征搜索。
在优选的实施例中,步骤S3中训练行人服饰多标签分类模型时,包括以下步骤:
预处理:对完整行人图片进行预处理,增加样本图像的多样性;
特征提取:对预处理后的行人图片进行特征提取,产生特征张量图,输出N维特征图Fi;
生成半身掩膜概率图:对N维特征图Fi进行处理,得到上半身掩膜概率图WUP和下半身掩膜概率图WLOW;
特征加权处理:将上半身掩膜概率图WUP、下半身掩膜概率图WLOW分别和每一维特征图Fi对应的像素点进行点乘操作,分别得到上半身特征图TUP和下半身特征图TLOW;然后上半身特征图TUP和下半身特征图TLOW分别通过2个分类组合模块,对上衣纹理、上衣风格、下衣纹理和下衣风格进行分类识别,获得对应类别的分类结果;
动态调整模型参数:通过动态加权损失函数,分别对上半身掩膜概率图WUP和下半身掩膜概率图WLOW求和,得到上半身系数CUpper和下半身系数CLower;根据上半身系数CUpper和下半身系数CLower对上半身纹理参数损失值LTexU、下半身纹理参数损失值LTexL、上半身风格参数损失值LStyleU、下半身风格参数损失值LStyleL加权求和得到总损失值Loss;通过训练使总损失值Loss下降,收敛得到最终的行人服饰多标签分类模型。
而步骤S3利用训练好的行人服饰多标签分类模型进行多标签分类识别时,包括以下步骤:
预处理:对完整行人图片进行预处理,将行人图片按宽高比缩放至统一尺寸;
特征提取:对预处理后的行人图片进行特征提取,产生特征张量图,输出N维特征图Fi;
生成半身掩膜概率图:对N维特征图Fi进行处理,得到上半身掩膜概率图WUP和下半身掩膜概率图WLOW;
特征加权处理:将上半身掩膜概率图WUP、下半身掩膜概率图WLOW分别和每一维特征图Fi对应的像素点进行点乘操作,分别得到上半身特征图TUP和下半身特征图TLOW;然后上半身特征图TUP和下半身特征图TLOW分别通过2个分类组合模块,对上衣纹理、上衣风格、下衣纹理和下衣风格进行分类识别,获得对应类别的分类结果。
本发明系统采用如下技术方案:结合行人局部特征和服饰属性分类的行人搜索系统,包括:
行人检测单元,利用行人定位模型提取监控场景图像中行人的位置信息,若提取到的位置信息中有目标结果且置信度大于阈值,则判断完成了行人的检测定位;
无效行人目标过滤单元,根据行人的位置信息裁剪出目标结果图片,对目标结果图片提取有效行人图片的特征,过滤无效行人图片;
行人服饰多标签分类单元,用于训练行人服饰多标签分类模型,并利用训练好的行人服饰多标签分类模型对行人的上半身和下半身的服饰风格、服饰纹理进行多标签分类识别;
行人特征搜索单元,根据行人服饰多标签分类单元的多标签分类识别的结果,并结合行人基本属性信息,进行行人结构化分析,得到行人特征后进行行人特征搜索;
其中,行人服饰多标签分类单元在训练行人服饰多标签分类模型时,首先对完整行人图片进行预处理,增加样本图像的多样性;对预处理后的行人图片进行特征提取,产生特征张量图,输出N维特征图Fi;对N维特征图Fi进行处理,得到上半身掩膜概率图WUP和下半身掩膜概率图WLOW;将上半身掩膜概率图WUP、下半身掩膜概率图WLOW分别和每一维特征图Fi对应的像素点进行点乘操作,分别得到上半身特征图TUP和下半身特征图TLOW;然后上半身特征图TUP和下半身特征图TLOW分别通过2个分类组合模块,对上衣纹理、上衣风格、下衣纹理和下衣风格进行分类识别,获得对应类别的分类结果;通过动态加权损失函数,分别对上半身掩膜概率图WUP和下半身掩膜概率图WLOW求和,得到上半身系数CUpper和下半身系数CLower;根据上半身系数CUpper和下半身系数CLower对上半身纹理参数损失值LTexU、下半身纹理参数损失值LTexL、上半身风格参数损失值LStyleU、下半身风格参数损失值LStyleL加权求和得到总损失值Loss;通过训练使总损失值Loss下降,收敛得到最终的行人服饰多标签分类模型;
生成半身掩膜概率图时,从N维特征图Fi中随机激活预设比例的特征图,组成多维被激活的特征图Fi2,对多维被激活的特征图Fi2先后进行平均池化、全局平均池化处理,将平均池化结果所对应的特征图减去全局平均池化后特征图的全局均值,得到多维变化量特征图ΔF;然后通过卷积操作将多维变化量特征图ΔF映射到2维,再对2维变化量特征图ΔF对应的像素点进行归一化处理,得到上半身掩膜概率图WUP和下半身掩膜概率图WLOW。
本发明的存储介质,其上存储有计算机指令,当计算机指令被处理器执行时,实现本发明行人搜索方法的各步骤。
本发明与现有技术相比,具有如下优点和有益效果:
1、优化了监控场景下的有效行人定位和服饰属性多标签分类识别的算法流程,主要包括三个过程:①行人检测定位,②无效行人目标过滤,③行人服饰多标签分类,即上半身和下半身的服饰风格、服饰纹理多标签分类识别;这三个过程需要分别构建行人检测模型、有效行人分类模型、行人服饰多标签分类模型。通过有效行人分类模型可以把有效的行人图片挑选出来,为下一步行人服饰多标签分类模型的训练作有效样本的收集准备,在推理时使上半身和下半身的服饰风格、服饰纹理多标签分类识别更符合实际使用需求,提高服饰风格和纹理多标签分类识别算法的整体效率。
2、对于服饰风格和纹理多标签分类识别算法,本发明提出半身掩膜生成模块生成掩膜概率图,引入自适应生成掩膜(Mask)概率图的注意力机制策略,并对特征张量图加权处理,简化了注意力机制的过程。本发明使得卷积神经网络更加合理地区分行人上衣和下衣的有效和无效的部件特征,提高了行人的上半身和下半身的服饰风格、服饰纹理多标签识别率,大大减少了识别所耗时间,提升了行人结构化系统的分析能力和行人特征搜索能力。
3、对于服饰风格和纹理多标签分类识别算法,本发明在行人服饰多标签分类模型训练时通过引入动态加权损失函数的训练策略,自适应地更新服饰风格和纹理多标签分类识别模型的参数,使该模型具有较好的鲁棒性,更有利于对上衣和下衣进行细粒度的分析,分类效果更佳。
附图说明
图1是本发明实施例中的完整行人图片的筛选流程图;
图2是本发明实施例中的行人服饰多标签分类识别的流程示意图;
图3是本发明实施例中的行人服饰多标签分类模型结构示意图;
图4是本发明实施例中的半身掩膜生成模块结构示意图;
图5是常用分类组合模块SP-Layer的示意图;
图6是本发明实施例中的行人特征搜索流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
本实施例中结合行人局部特征和服饰属性分类的行人搜索方法,如图1-6所示,主要包括以下步骤:
S1、行人检测:通过行人在行人图片库中的位置标签信息,使用行人检测网络进行行人定位模型的训练;采用训练好的行人定位模型提取监控场景图像中行人的位置信息,若提取到的位置信息中有目标结果且置信度大于阈值,则判断完成了行人的检测定位,进入步骤S2;否则,结束行人检测流程。
行人检测网络首先根据位于行人图片库的训练样本中的行人标签样本数据分布,使用k均值聚类算法(k-means clustering algorithm,k-means)计算各层默认框的生成参数。由于监控场景图像分辨率较大,行人检测网络的输入图片尺寸设置为512*256以较好地达到平衡推理速度和行人定位精度的效果;行人检测网络在训练过程中使用多种数据增强的方法以增加样本图像的多样性,包括水平翻转、裁剪、缩放等。
本实施例中,行人定位模型采用但不限于YOLOv3-Tiny卷积神经网络对行人进行检测定位。YOLOv3-Tiny的主干网络采用8个卷积层(Convolution)、批归一化层(BatchNormalization)和非线性层(Leaky RELU)组成卷积模块,对特征进行提取,得到相应的特征图;YOLOv3-Tiny的嫁接网络将经过上采样处理的特征图连接结合,得到13*13、26*26和52*52三种不同分辨率的特征图,再把不同分辨率的特征图接到各检测分支网络,构成行人定位模型。
S2、无效行人目标过滤:根据行人定位模型得到的位置信息裁剪出目标结果图片;使用经分类网络训练后的行人过滤模型,对目标结果图片提取有效行人图片的特征,过滤无效行人图片,从而实现有效行人图片的筛选。
本实施例中,采用但不限于AlexNet卷积神经网络对无效行人图片进行过滤。根据步骤S1中获得的行人检测网络的位置信息裁剪出目标结果图片,把图片分成有效行人类图片(较为完整的行人全身图片)和无效行人类图片(行人半身图片、非机动车图片、背景图片等)。
S3、训练行人服饰多标签分类模型,利用训练好的行人服饰多标签分类模型对行人的上半身和下半身的服饰风格、服饰纹理进行多标签分类识别。
如图2、3所示,本实施例中,对上半身和下半身的服饰风格、服饰纹理进行多标签分类识别时,所设计的行人服饰多标签分类模型包括四个模块:特征提取模块(用于产生特征张量图)、半身掩膜生成模块(也叫上下身定位模块,用于自适应生成掩膜概率图)、特征加权模块(用于对特征张量图和掩膜概率图进行加权处理)、动态加权损失函数模块。其中,训练时,用特征提取模块提取有效行人图片的上半身、下半身的服饰纹理和服饰风格的特征,通过半身掩膜生成模块和特征加权模块实现对上半身和下半身服饰的简化注意力机制策略而进行细粒度分析,通过动态加权损失函数模块对分类模型参数进行动态调整;推理时,使用训练好的分类模型,通过特征提取模块、半身掩膜生成模块、特征加权模块提取有效的特征,从而实现上半身和下半身的服饰风格、服饰纹理多标签分类,对行人服饰属性进行识别。步骤S3具体包括以下步骤:
S31、对完整行人图片进行预处理
根据完整行人图片样本集统计结果,行人图片的宽高比约为1:2.5。训练时将行人图片按宽高比缩放至125*312的统一尺寸,通过随机裁剪得到100*250大小的图片,再对随机裁剪后的图片进行归一化处理。这样的预处理方式利用了卷积神经网络的平移不变性以增加样本图像的多样性;推理时的预处理方法则为将行人图片按宽高比缩放至100*250的统一尺寸。
S32、特征提取
行人图片经过预处理后,进入特征提取模块提取全图的特征,产生特征张量图,输出N维特征图Fi。本实施例中,特征提取模块优先为常用于图像分类的ResNet18主干网络。
S33、生成半身掩膜概率图
如图4所示,半身掩膜生成模块包括依次连接的Dropout层、平均池化层、全局平均池化层、卷积层和Softmax层。在半身掩膜生成模块中,通过Dropout层从N维特征图Fi中随机激活预设比例(例如50%)的特征图,组成N/2维被激活的特征图Fi2,以防止模型过拟合,在模型的推理时也提高了上半身和下半身的服饰风格、服饰纹理多标签分类的效率。被激活的特征图Fi2经过2*2的平均池化层(AvgPooling,Average Pooling)后得到N/2维的Fh,其中平均池化层的作用是在保留特征图的主要特征的同时减少参数和计算量。Fh再经过全局平均池化层(GAP,Global Average Pooling)的处理,求得Fh每一维特征图的全局均值,再利用Fh对应的特征图减去对应的全局均值得到N/2维的变化量特征图ΔF。然后通过1*1的卷积层(1×1Conv)将N/2维的变化量特征图ΔF映射到2维,再通过Softmax层将2维变化量特征图ΔF对应的像素点进行归一化处理,得到2张掩膜概率图,分别是上半身掩膜概率图WUP和下半身掩膜概率图WLOW。
S34、对特征图和半身掩膜概率图进行特征加权
利用特征加权模块,首先对步骤S33得到的上半身掩膜概率图WUP和下半身掩膜概率图WLOW分别和每一维特征图Fi对应的像素点进行点乘,即进行WUP·Fi和WLOW·Fi的点乘操作,分别得到上半身特征图TUP和下半身特征图TLOW;然后上半身特征图TUP和下半身特征图TLOW分别通过2个SP-Layer模块,对上衣纹理、上衣风格、下衣纹理和下衣风格进行分类识别,获得对应类别的分类结果。其中,SP-Layer模块为分类组合模块,如图5所示,其包括依次连接的1*1卷积层、平均池化层和全连接层(FC,Fully-Connection)。
S35、通过动态加权损失函数模块对行人服饰多标签分类模型的参数进行动态调整
利用动态加权损失函数模块,首先分别对步骤S33中得到上半身掩膜概率图WUP和下半身掩膜概率图WLOW求和,得到上半身系数CUpper和下半身系数CLower,其中系数越大表示行人的上半身或者下半身在完整行人图片(即全身图)中有价值的行人特征占比概率越大。也就是说,掩模图反映了行人在图片中的区域,上半身系数和下半身系数用于表示全身图中有价值的行人特征占比概率。训练分类模型时,动态加权损失函数的计算公式如下:
公式(1)中,LTexU为上半身纹理参数损失值,LTexL为下半身纹理参数损失值,LStyleU为上半身风格参数损失值,LStyleL为下半身风格参数损失值,这四个参数损失值具体通过公式(3)来计算,四个参数损失值通过加权后得到总损失值Loss。上半身系数CUpper和下半身系数CLower分别通过宽为w和高为h的上半身掩膜概率图WUP和下半身掩膜概率图WLOW求和得到,如公式(2)所示;公式(2)中的x表示上半身掩膜概率图WUP或下半身掩膜概率图WLOW,其中是概率图在i行j列的概率。公式(3)中的属性t表示上衣风格(StyleU)、下衣风格(StyleL)、上衣纹理(TexU)和下衣纹理(TexL)其中之一,其原理是通过计算每种属性类别与真实值的交叉熵方法求得损失值Lt;其中M指属性t的类别数量;指属性t的变量(0或1),若属性类别(也叫属性标签)与观测样本相同则为1,否则为0;表示观测样本属于属性类别c的预测概率。图2也示意了本实施例对上半身和下半身的服饰风格、服饰纹理多标签分类网络的训练过程;模型推理过程则分别去掉上半身和下半身的服饰风格、服饰纹理多标签分类中的各属性的损失函数计算。也就是说,本步骤S35为行人服饰多标签分类模型的训练环节,通过训练使总损失值Loss下降,收敛得到最终的行人服饰多标签分类模型。
S4、行人特征搜索:根据行人服饰多标签分类模型所输出的识别结果,即行人的上半身和下半身的服饰风格、服饰纹理多标签分类情形,并结合行人性别、年龄等基本属性信息,进行行人结构化分析,得到行人特征后,在行人特征库中进行行人特征搜索。
行人结构化包括行人性别、年龄、衣服颜色、风格、纹理等结构化信息;行人的上半身和下半身服饰风格、服饰纹理特征,是行人结构化分析提取的重要内容,可以用于行人特征搜索。行人特征搜索流程图如图6所示。
基于相同的发明构思,本实施例还提供结合行人局部特征和服饰属性分类的行人搜索系统,包括:
行人检测单元,利用行人定位模型提取监控场景图像中行人的位置信息,若提取到的位置信息中有目标结果且置信度大于阈值,则判断完成了行人的检测定位;
无效行人目标过滤单元,根据行人的位置信息裁剪出目标结果图片,对目标结果图片提取有效行人图片的特征,过滤无效行人图片;
行人服饰多标签分类单元,用于训练行人服饰多标签分类模型,并利用训练好的行人服饰多标签分类模型对行人的上半身和下半身的服饰风格、服饰纹理进行多标签分类识别;
行人特征搜索单元,根据行人服饰多标签分类单元的多标签分类识别的结果,并结合行人基本属性信息,进行行人结构化分析,得到行人特征后进行行人特征搜索;
其中,行人服饰多标签分类单元在训练行人服饰多标签分类模型时,首先对完整行人图片进行预处理,增加样本图像的多样性;对预处理后的行人图片进行特征提取,产生特征张量图,输出N维特征图Fi;对N维特征图Fi进行处理,得到上半身掩膜概率图WUP和下半身掩膜概率图WLOW;将上半身掩膜概率图WUP、下半身掩膜概率图WLOW分别和每一维特征图Fi对应的像素点进行点乘操作,分别得到上半身特征图TUP和下半身特征图TLOW;然后上半身特征图TUP和下半身特征图TLOW分别通过2个分类组合模块,对上衣纹理、上衣风格、下衣纹理和下衣风格进行分类识别,获得对应类别的分类结果;通过动态加权损失函数,分别对上半身掩膜概率图WUP和下半身掩膜概率图WLOW求和,得到上半身系数CUpper和下半身系数CLower;根据上半身系数CUpper和下半身系数CLower对上半身纹理参数损失值LTexU、下半身纹理参数损失值LTexL、上半身风格参数损失值LStyleU、下半身风格参数损失值LStyleL加权求和得到总损失值Loss;通过训练使总损失值Loss下降,收敛得到最终的行人服饰多标签分类模型;
生成半身掩膜概率图时,从N维特征图Fi中随机激活预设比例的特征图,组成多维被激活的特征图Fi2,对多维被激活的特征图Fi2先后进行平均池化、全局平均池化处理,将平均池化结果所对应的特征图减去全局平均池化后特征图的全局均值,得到多维变化量特征图ΔF;然后通过卷积操作将多维变化量特征图ΔF映射到2维,再对2维变化量特征图ΔF对应的像素点进行归一化处理,得到上半身掩膜概率图WUP和下半身掩膜概率图WLOW。
同样地,本实施例还提供存储介质,其上存储有计算机指令,当计算机指令被处理器执行时,实现上述行人搜索方法的步骤S1-S4。
从上述详细的实施过程可知,本发明取得的技术效果包括如下:
1、本发明提出一种改进注意力机制的细粒度分析策略,自适应生成掩膜概率图,并对特征张量图加权处理,实现对上半身和下半身服饰的注意力机制策略的细粒度分析;还提出一种动态加权损失函数,实现对上半身和下半身服饰的注意力机制网络模型参数的动态调整。
2、本发明相较基于深度学习的多标签行人服饰属性识别方法,直接对行人图片的全局特征上进行多标签分类,关注了图片的局部特征,避免过多关注行人图片的背景细节信息等,在实际应用中的效果较好,鲁棒性较强。本发明相较基于深度学习和注意力机制的行人服饰属性识别方法(通过像素分割的方法生成对应全身图片的掩膜),避免对全身图片的掩膜运用了卷积模块和反卷积操作,模型推理耗时大幅度较少,实用价值高。本发明相较基于神经网络模型精细分类的服饰属性标签识别方法、基于深度学习的服饰属性标签识别方法,针对智慧城市监控场景下的行人服饰属性识别,行人目标图片服饰细节较少,背景干扰和遮挡情况较多,提出一种结合行人局部特征和服饰属性多标签分类的行人搜索方法,具有较高实时性,在监控场景下具有较好的实用性。
3、本发明采用主干网络提取全图的特征,是一种基于全身行人图片的端到端的行人服饰属性识别方法,能够较好的提取全身行人属性特征,保证连衣裙等服饰属性识别的准确率,优于上半身、下半身多模型的服饰属性识别方法。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (8)
1.结合行人局部特征和服饰属性分类的行人搜索方法,其特征在于,包括以下步骤:
S1、提取监控场景图像中行人的位置信息,若提取到的位置信息中有目标结果且置信度大于阈值,则判断完成了行人的检测定位,进入步骤S2;
S2、根据行人的位置信息裁剪出目标结果图片,对目标结果图片提取有效行人图片的特征,过滤无效行人图片;
S3、训练行人服饰多标签分类模型,利用训练好的行人服饰多标签分类模型对行人的上半身和下半身的服饰风格、服饰纹理进行多标签分类识别;
S4、根据步骤S3多标签分类识别的结果,并结合行人基本属性信息,进行行人结构化分析,得到行人特征后进行行人特征搜索;
步骤S3中训练行人服饰多标签分类模型时,包括以下步骤:
预处理:对完整行人图片进行预处理,增加样本图像的多样性;
特征提取:对预处理后的行人图片进行特征提取,产生特征张量图,输出N维特征图Fi;
生成半身掩膜概率图:对N维特征图Fi进行处理,得到上半身掩膜概率图WUP和下半身掩膜概率图WLOW;
特征加权处理:将上半身掩膜概率图WUP、下半身掩膜概率图WLOW分别和每一维特征图Fi对应的像素点进行点乘操作,分别得到上半身特征图TUP和下半身特征图TLOW;然后上半身特征图TUP和下半身特征图TLOW分别通过2个分类组合模块,对上衣纹理、上衣风格、下衣纹理和下衣风格进行分类识别,获得对应类别的分类结果;
动态调整模型参数:通过动态加权损失函数,分别对上半身掩膜概率图WUP和下半身掩膜概率图WLOW求和,得到上半身系数CUpper和下半身系数CLower;根据上半身系数CUpper和下半身系数CLower对上半身纹理参数损失值LTexU、下半身纹理参数损失值LTexL、上半身风格参数损失值LStyleU、下半身风格参数损失值LStyleL加权求和得到总损失值Loss;通过训练使总损失值Loss下降,收敛得到最终的行人服饰多标签分类模型;
生成半身掩膜概率图时,从N维特征图Fi中随机激活预设比例的特征图,组成多维被激活的特征图Fi2,对多维被激活的特征图Fi2先后进行平均池化、全局平均池化处理,将平均池化结果所对应的特征图减去全局平均池化后特征图的全局均值,得到多维变化量特征图ΔF;然后通过卷积操作将多维变化量特征图ΔF映射到2维,再对2维变化量特征图ΔF对应的像素点进行归一化处理,得到上半身掩膜概率图WUP和下半身掩膜概率图WLOW。
2.根据权利要求1所述的行人搜索方法,其特征在于,预处理时,利用卷积神经网络的平移不变性增加样本图像的多样性,将完整行人图片按宽高比缩放至一个统一尺寸,通过随机裁剪得到另一统一尺寸的图片,再对随机裁剪后的图片进行归一化处理。
3.根据权利要求1所述的行人搜索方法,其特征在于,动态加权损失函数的计算公式如下:
上半身系数CUpper和下半身系数CLower分别通过宽为w和高为h的上半身掩膜概率图WUP和下半身掩膜概率图WLOW求和得到,公式(2)中的x表示上半身掩膜概率图WUP或下半身掩膜概率图WLOW,其中pxij是概率图在i行j列的概率;公式(3)中的属性t表示上衣风格StyleU、下衣风格StyleL、上衣纹理TexU和下衣纹理TexL其中之一,通过计算每种属性类别与真实值的交叉熵方法求得损失值Lt,其中M指属性t的类别数量;ytc指属性t的变量,若属性类别与观测样本相同则为1,否则为0;ptc表示观测样本属于属性类别c的预测概率。
4.根据权利要求1所述的行人搜索方法,其特征在于,步骤S3中利用训练好的行人服饰多标签分类模型进行多标签分类识别时,包括以下步骤:
预处理:对完整行人图片进行预处理,将行人图片按宽高比缩放至统一尺寸;
特征提取:对预处理后的行人图片进行特征提取,产生特征张量图,输出N维特征图Fi;
生成半身掩膜概率图:对N维特征图Fi进行处理,得到上半身掩膜概率图WUP和下半身掩膜概率图WLOW;
特征加权处理:将上半身掩膜概率图WUP、下半身掩膜概率图WLOW分别和每一维特征图Fi对应的像素点进行点乘操作,分别得到上半身特征图TUP和下半身特征图TLOW;然后上半身特征图TUP和下半身特征图TLOW分别通过2个分类组合模块,对上衣纹理、上衣风格、下衣纹理和下衣风格进行分类识别,获得对应类别的分类结果。
5.根据权利要求1所述的行人搜索方法,其特征在于,步骤S2中,采用AlexNet卷积神经网络对无效行人图片进行过滤,根据行人的位置信息裁剪出目标结果图片,把图片分成有效行人类图片和无效行人类图片,有效行人类图片为完整的行人全身图片,无效行人类图片包括行人半身图片、非机动车图片、背景图片。
6.根据权利要求1所述的行人搜索方法,其特征在于,步骤S1中采用YOLOv3-Tiny卷积神经网络作为行人定位模型对行人进行检测定位;YOLOv3-Tiny的主干网络采用8个卷积层、批归一化层和非线性层组成卷积模块,对特征进行提取,得到相应的特征图;YOLOv3-Tiny的嫁接网络将经过上采样处理的特征图连接结合,得到三种不同分辨率的特征图,再把不同分辨率的特征图接到各检测分支网络,构成行人定位模型。
7.结合行人局部特征和服饰属性分类的行人搜索系统,其特征在于,包括:
行人检测单元,利用行人定位模型提取监控场景图像中行人的位置信息,若提取到的位置信息中有目标结果且置信度大于阈值,则判断完成了行人的检测定位;
无效行人目标过滤单元,根据行人的位置信息裁剪出目标结果图片,对目标结果图片提取有效行人图片的特征,过滤无效行人图片;
行人服饰多标签分类单元,用于训练行人服饰多标签分类模型,并利用训练好的行人服饰多标签分类模型对行人的上半身和下半身的服饰风格、服饰纹理进行多标签分类识别;
行人特征搜索单元,根据行人服饰多标签分类单元的多标签分类识别的结果,并结合行人基本属性信息,进行行人结构化分析,得到行人特征后进行行人特征搜索;
其中,行人服饰多标签分类单元在训练行人服饰多标签分类模型时,首先对完整行人图片进行预处理,增加样本图像的多样性;对预处理后的行人图片进行特征提取,产生特征张量图,输出N维特征图Fi;对N维特征图Fi进行处理,得到上半身掩膜概率图WUP和下半身掩膜概率图WLOW;将上半身掩膜概率图WUP、下半身掩膜概率图WLOW分别和每一维特征图Fi对应的像素点进行点乘操作,分别得到上半身特征图TUP和下半身特征图TLOW;然后上半身特征图TUP和下半身特征图TLOW分别通过2个分类组合模块,对上衣纹理、上衣风格、下衣纹理和下衣风格进行分类识别,获得对应类别的分类结果;通过动态加权损失函数,分别对上半身掩膜概率图WUP和下半身掩膜概率图WLOW求和,得到上半身系数CUpper和下半身系数CLower;根据上半身系数CUpper和下半身系数CLower对上半身纹理参数损失值LTexU、下半身纹理参数损失值LTexL、上半身风格参数损失值LStyleU、下半身风格参数损失值LStyleL加权求和得到总损失值Loss;通过训练使总损失值Loss下降,收敛得到最终的行人服饰多标签分类模型;
生成半身掩膜概率图时,从N维特征图Fi中随机激活预设比例的特征图,组成多维被激活的特征图Fi2,对多维被激活的特征图Fi2先后进行平均池化、全局平均池化处理,将平均池化结果所对应的特征图减去全局平均池化后特征图的全局均值,得到多维变化量特征图ΔF;然后通过卷积操作将多维变化量特征图ΔF映射到2维,再对2维变化量特征图ΔF对应的像素点进行归一化处理,得到上半身掩膜概率图WUP和下半身掩膜概率图WLOW。
8.存储介质,其上存储有计算机指令,其特征在于,所述计算机指令被处理器执行时,实现权利要求1-6中任一项所述的行人搜索方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011414929.0A CN112446340B (zh) | 2020-12-07 | 2020-12-07 | 结合行人局部特征和服饰属性分类的行人搜索方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011414929.0A CN112446340B (zh) | 2020-12-07 | 2020-12-07 | 结合行人局部特征和服饰属性分类的行人搜索方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112446340A CN112446340A (zh) | 2021-03-05 |
CN112446340B true CN112446340B (zh) | 2024-06-28 |
Family
ID=74740101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011414929.0A Active CN112446340B (zh) | 2020-12-07 | 2020-12-07 | 结合行人局部特征和服饰属性分类的行人搜索方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112446340B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115147860A (zh) * | 2021-03-30 | 2022-10-04 | 中国移动通信有限公司研究院 | 一种行人属性识别方法及装置 |
CN113657486B (zh) * | 2021-08-16 | 2023-11-07 | 浙江新再灵科技股份有限公司 | 基于电梯图片数据的多标签多属性分类模型建立方法 |
CN116434334B (zh) * | 2023-03-28 | 2024-02-06 | 湖南工商大学 | 一种基于Transformer的WiFi人体手势识别方法、电子设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105303191A (zh) * | 2014-07-25 | 2016-02-03 | 中兴通讯股份有限公司 | 一种前视监视场景下的行人计数方法和装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019041360A1 (zh) * | 2017-09-04 | 2019-03-07 | 华为技术有限公司 | 行人属性识别与定位方法以及卷积神经网络系统 |
CN109255312A (zh) * | 2018-08-30 | 2019-01-22 | 罗普特(厦门)科技集团有限公司 | 一种基于表观特征的异常着装检测方法以及装置 |
CN109508675B (zh) * | 2018-11-14 | 2020-07-28 | 广州广电银通金融电子科技有限公司 | 一种针对复杂场景的行人检测方法 |
CN109711266A (zh) * | 2018-11-30 | 2019-05-03 | 天津大学 | 基于神经网络模型精细分类的服饰属性标签识别方法 |
CN109919106B (zh) * | 2019-03-11 | 2023-05-12 | 同济大学 | 渐进式目标精细识别与描述方法 |
CN110188701A (zh) * | 2019-05-31 | 2019-08-30 | 上海媒智科技有限公司 | 基于人体关键节点预测的服饰识别方法、系统及终端 |
CN111178178B (zh) * | 2019-12-16 | 2023-10-10 | 汇纳科技股份有限公司 | 结合区域分布的多尺度行人重识别方法、系统、介质及终端 |
CN111178251B (zh) * | 2019-12-27 | 2023-07-28 | 汇纳科技股份有限公司 | 一种行人属性识别方法及系统、存储介质及终端 |
CN111783576B (zh) * | 2020-06-18 | 2023-08-18 | 西安电子科技大学 | 基于改进型YOLOv3网络和特征融合的行人重识别方法 |
-
2020
- 2020-12-07 CN CN202011414929.0A patent/CN112446340B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105303191A (zh) * | 2014-07-25 | 2016-02-03 | 中兴通讯股份有限公司 | 一种前视监视场景下的行人计数方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112446340A (zh) | 2021-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112446340B (zh) | 结合行人局部特征和服饰属性分类的行人搜索方法、系统及存储介质 | |
CN111860499B (zh) | 一种基于特征分组的双线性卷积神经网络的汽车品牌识别方法 | |
Dai et al. | TIRNet: Object detection in thermal infrared images for autonomous driving | |
CN111259905B (zh) | 一种基于下采样的特征融合遥感图像语义分割方法 | |
CN107564025B (zh) | 一种基于深度神经网络的电力设备红外图像语义分割方法 | |
CN108830280B (zh) | 一种基于区域提名的小目标检测方法 | |
Zhao et al. | Structural analysis of attributes for vehicle re-identification and retrieval | |
Wang et al. | Adaptive DropBlock-enhanced generative adversarial networks for hyperspectral image classification | |
CN111027493B (zh) | 一种基于深度学习多网络软融合的行人检测方法 | |
CN107679250A (zh) | 一种基于深度自编码卷积神经网络的多任务分层图像检索方法 | |
CN106354735A (zh) | 一种图像中目标的检索方法和装置 | |
CN111259786A (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN105528575B (zh) | 基于上下文推理的天空检测方法 | |
CN111461039B (zh) | 基于多尺度特征融合的地标识别方法 | |
CN113762138B (zh) | 伪造人脸图片的识别方法、装置、计算机设备及存储介质 | |
CN110163286A (zh) | 一种基于混合池化的领域自适应图像分类方法 | |
CN115393596B (zh) | 一种基于人工智能的服装图像分割方法 | |
CN110413825B (zh) | 面向时尚电商的街拍推荐系统 | |
Tao et al. | Smoke vehicle detection based on multi-feature fusion and hidden Markov model | |
CN111199212B (zh) | 基于注意力模型的行人属性识别方法 | |
Nuanmeesri | A hybrid deep learning and optimized machine learning approach for rose leaf disease classification | |
CN113139501B (zh) | 一种联合局部区域检测与多级特征抓取的行人多属性识别方法 | |
CN112949655A (zh) | 一种结合注意力混合裁剪的细粒度图像识别方法 | |
Yun et al. | Part-level convolutional neural networks for pedestrian detection using saliency and boundary box alignment | |
CN111582057B (zh) | 一种基于局部感受野的人脸验证方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |