CN115100681A - 一种衣着识别方法、系统、介质及设备 - Google Patents

一种衣着识别方法、系统、介质及设备 Download PDF

Info

Publication number
CN115100681A
CN115100681A CN202210721153.XA CN202210721153A CN115100681A CN 115100681 A CN115100681 A CN 115100681A CN 202210721153 A CN202210721153 A CN 202210721153A CN 115100681 A CN115100681 A CN 115100681A
Authority
CN
China
Prior art keywords
layer
output
module
fusion module
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210721153.XA
Other languages
English (en)
Inventor
黄斐然
李志颖
陈唯彬
赵容
吴永东
陈志彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN202210721153.XA priority Critical patent/CN115100681A/zh
Publication of CN115100681A publication Critical patent/CN115100681A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种衣着识别方法、系统、介质及设备,该方法包括下述步骤:获取多场景下的摄像头视频,将其中的黑白视频着色,整合得到全彩色的图像数据库,对图像数据库进行解帧和标注,构建衣着数据集,基于YOLOv5模型构建衣着识别网络,在主干网络层尾部增加坐标注意力模块,在Neck网络层将YOLOv5模型中的拼接模块替换为Concat_bifpn模块;基于衣着数据集训练衣着识别网络;进行复合检测,基于YOLOv5模型对测试集中的人物进行识别,裁剪提取得到人像结果集,输入衣着识别网络得到衣着识别结果图像集。本发明解决了摄像头环境下目标检测难的问题,实现了精度与速度平衡的高效目标检测效果。

Description

一种衣着识别方法、系统、介质及设备
技术领域
本发明涉及计算机视觉的图像分析技术领域,具体涉及衣着识别方法、系统、介质及设备。
背景技术
近年来,城市的各条街道以及小区,乃至各大商场、超市都装上了视频监控,每天全国每条街道、小区、商场、超市里的视频监控产生的数据都是以TB为单位的海量数据流,随着未来信息技术的迅猛发展,可能会达到更高的数量级。人们接收的信息越来越多,也越来越复杂,而在这海量的数据里,并不都是人们需要的,于是开始思考如何利用图像处理技术去解决这一难题一从海量视频数据中挖掘有价值的信息。
在视频监控中,行人作为主要目标么一,对其有效识别问题的研究尤为重要。对人物识别一般指面部识别,但由于监控图像的清晰度不高,希望通过面部识别来识别不同行人是非常困难的,所以不少研究者将视频图像中行人外观识别问题作为研究重点。若能进行有效的外观识别,如对视频中行人衣着颜色或者衣着类型进行有效识别,配合视频检索技术,可以提高视频监控人员的工作效率。因此,研究如何提升衣着识别算法的准确性和高效性以满足实际需求,具有重要的实际意义。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种衣着识别方法,通过收集摄像头视频,进行预处理,将视频通过着色网络,得到着色后的视频图像,解帧后进行标注,形成数据集,用于训练该衣着识别模型,使之能用于该场景下的衣着识别任务,最后采用复合检测的方式,来提升识别的准确性。
本发明的第二目的在于提供一种衣着识别系统。
本发明的第三目的在于提供一种存储介质。
本发明的第四目的在于提供一种计算设备。
为了达到上述目的,本发明采用以下技术方案:
本发明提供一种衣着识别方法,包括下述步骤:
获取多场景下的摄像头视频,划分为黑白视频以及非黑白视频,将黑白视频通过着色网络进行颜色的填充,将着色后的视频与非黑白视频整合得到全彩色的图像数据库;
对全彩色的图像数据库进行解帧,对有效数据图片进行标注,构建衣着数据集;
基于YOLOv5模型构建衣着识别网络,设有依次连接的主干网络层、Neck网络层和输出层;
在主干网络层尾部增加坐标注意力模块,坐标注意力模块采用坐标注意力机制获取特征信息;
在Neck网络层将YOLOv5模型中的拼接模块替换为融合多尺度特征融合算法的Concat_bifpn模块,用于融合浅层网络跟深层网络的特征,通过预设可学习的权重学习不同输入特征的重要性;
Neck网络层设有多个Concat_bifpn模块,包括第一融合模块、第二融合模块、第三融合模块、第四融合模块、第五融合模块和第六融合模块;输出层设有多个预测头,包括第一预测头、第二预测头、第三预测头和第四预测头;
第一融合模块将自身上一层输出与主干网络层输出进行融合,融合后经过下一层输出至第五融合模块;
第二融合模块将自身上一层输出与主干网络层输出进行融合,融合后经过下一层输出至第四融合模块;
第三融合模块将自身上一层输出与主干网络层输出进行融合,融合后经过下一层输出至输出层的第一预测头,输出第一尺度特征;
第四融合模块将自身上一层输出、第二融合模块下一层输出以及主干网络层输出进行融合,融合后经过下一层输出至输出层的第二预测头,输出第二尺度特征;
第五融合模块将自身上一层输出、第一融合模块下一层输出以及主干网络层输出进行融合,融合后经过下一层输出至输出层的第三预测头,输出第三尺度特征;
第六融合模块将自身上一层输出与主干网络层输出进行融合,融合后经过下一层输出至输出层的第四预测头,输出第四尺度特征;
坐标注意力模块经过卷积层和上采样层后输出特征至第一融合模块;
基于衣着数据集训练衣着识别网络;
进行复合检测,基于YOLOv5模型对测试集中的人物进行识别,裁剪提取得到人像结果集,将人像结果集输入衣着识别网络进行识别,得到衣着识别结果图像集。
作为优选的技术方案,所述着色网络包括实例着色网络和全图像着色网络,分别进行实例着色和全图像着色,实例着色网络和全图像着色网络对应层级进行端到端训练;
实例着色网络和全图像着色网络提取得到实例图像特征和全图像特征,经过多层卷积层训练得到全图像权重与实例权重,对实例图像特征和实例权重进行结合形成全图像特征大小,对全图像特征和每组实例图像特征分别按照对应权重进行加权融合,获得着色后的图像,进而得到着色后的视频图像。
作为优选的技术方案,所述坐标注意力模块采用坐标注意力机制获取特征信息,具体计算过程为:
坐标注意力模块对每个输入特征从维度h和 w分解,分解后的张量分别经过全局池化处理,生成张量Xh和张量Xw,在卷积块中输入连接的张量Xh和Xw生成一个编码的Y,具体表示为:
Figure DEST_PATH_IMAGE001
其中,
Figure 100002_DEST_PATH_IMAGE002
表示连接Xw和Xh,*表示卷积运算,G和f分别表示归一化和激活函数,W表示卷积滤波器;
再次拆分Y得到
Figure DEST_PATH_IMAGE003
Figure DEST_PATH_IMAGE005
,具体表示为:
Figure 641139DEST_PATH_IMAGE007
其中,Split()表示Split函数,用于分割字符串;
卷积并激活
Figure 777722DEST_PATH_IMAGE003
Figure 384284DEST_PATH_IMAGE005
,最终输出为:
Figure 100002_DEST_PATH_IMAGE008
其中,F表示卷积,
Figure 100002_DEST_PATH_IMAGE010
表示激活函数。
作为优选的技术方案,Concat_bifpn模块通过预设可学习的权重学习不同输入特征的重要性,每一个输入层的权重具体表示为:
Figure DEST_PATH_IMAGE011
其中,X i 表示每一层的输入,W i 表示每一个输入层的权重,
Figure DEST_PATH_IMAGE013
表示常数;
输出结果表示为:
Figure DEST_PATH_IMAGE014
其中,Yfin表示输出结果,Conv表示卷积操作,Relu是激活函数,N表示输入层数。
作为优选的技术方案,第一融合模块将主干网络层第八层输出与第一融合模块上一层上采样层输出进行融合,融合后输出至第一融合模块下一层C3模块,
第五融合模块将第一融合模块下一层C3模块输出、主干网络层第八层输出以及第五融合模块上一层卷积层输出进行融合,融合后输出至第五融合模块下一层C3模块,并经过输出层的第三预测头输出第三尺度特征;
第二融合模块将主干网络层第六层输出与第二融合模块上一层上采样层输出进行融合,并输出至第二融合模块下一层C3模块;
第四融合模块将主干网络层第六层输出、第二融合模块下一层C3模块输出以及第四融合模块上一层卷积层输出进行融合,并输出至第四融合模块下一层C3模块,并经过输出层的第二预测头输出第二尺度特征;
第三融合模块将主干网络层第四层输出与第三融合模块上一层上采样层输出进行融合,并输出至第三融合模块下一层C3模块,并经过输出层的第一预测头输出第一尺度特征;
第六融合模块将主干网络层第十一层输出与第六融合模块上一层卷积层进行融合,并输出至第六融合模块下一层C3模块,并经过输出层的第四预测头输出第四尺度特征;
所述C3模块包括3个卷积层加上BottleneckCSP模块。
为了达到上述第二目的,本发明采用以下技术方案:
一种衣着识别系统,包括:视频获取模块、视频划分模块、着色模块、图像数据库构建模块、视频解帧模块、标注模块、衣着数据集构建模块、衣着识别网络构建模块、衣着识别网络训练模块和复合检测模块;
所述视频获取模块用于获取多场景下的摄像头视频;
所述视频划分模块用于划分为黑白视频以及非黑白视频;
所述着色模块用于将黑白视频通过着色网络进行颜色的填充,
所述图像数据库构建模块用于将着色后的视频与非黑白视频整合得到全彩色的图像数据库;
所述视频解帧模块用于对全彩色的图像数据库进行解帧;
所述标注模块用于对有效数据图片进行标注;
所述衣着数据集构建模块用于构建衣着数据集;
所述衣着识别网络构建模块用于基于YOLOv5模型构建衣着识别网络,设有依次连接的主干网络层、Neck网络层和输出层;
在主干网络层尾部增加坐标注意力模块,坐标注意力模块采用坐标注意力机制获取特征信息;
在Neck网络层将YOLOv5模型中的拼接模块替换为融合多尺度特征融合算法的Concat_bifpn模块,用于融合浅层网络跟深层网络的特征,通过预设可学习的权重学习不同输入特征的重要性;
Neck网络层设有多个Concat_bifpn模块,包括第一融合模块、第二融合模块、第三融合模块、第四融合模块、第五融合模块和第六融合模块;输出层设有多个预测头,包括第一预测头、第二预测头、第三预测头和第四预测头;
第一融合模块将自身上一层输出与主干网络层输出进行融合,融合后经过下一层输出至第五融合模块;
第二融合模块将自身上一层输出与主干网络层输出进行融合,融合后经过下一层输出至第四融合模块;
第三融合模块将自身上一层输出与主干网络层输出进行融合,融合后经过下一层输出至输出层的第一预测头,输出第一尺度特征;
第四融合模块将自身上一层输出、第二融合模块下一层输出以及主干网络层输出进行融合,融合后经过下一层输出至输出层的第二预测头,输出第二尺度特征;
第五融合模块将自身上一层输出、第一融合模块下一层输出以及主干网络层输出进行融合,融合后经过下一层输出至输出层的第三预测头,输出第三尺度特征;
第六融合模块将自身上一层输出与主干网络层输出进行融合,融合后经过下一层输出至输出层的第四预测头,输出第四尺度特征;
坐标注意力模块经过卷积层和上采样层后输出特征至第一融合模块;
所述衣着识别网络训练模块用于基于衣着数据集训练衣着识别网络;
所述复合检测模块用于进行复合检测,基于YOLOv5模型对测试集中的人物进行识别,裁剪提取得到人像结果集,将人像结果集输入衣着识别网络进行识别,得到衣着识别结果图像集。
作为优选的技术方案,所述着色网络包括实例着色网络和全图像着色网络,分别进行实例着色和全图像着色,实例着色网络和全图像着色网络对应层级进行端到端训练;
实例着色网络和全图像着色网络提取得到实例图像特征和全图像特征,经过多层卷积层训练得到全图像权重与实例权重,对实例图像特征和实例权重进行结合形成全图像特征大小,对全图像特征和每组实例图像特征分别按照对应权重进行加权融合,获得着色后的图像,进而得到着色后的视频图像。
作为优选的技术方案,第一融合模块将主干网络层第八层输出与第一融合模块上一层上采样层输出进行融合,融合后输出至第一融合模块下一层C3模块,
第五融合模块将第一融合模块下一层C3模块输出、主干网络层第八层输出以及第五融合模块上一层卷积层输出进行融合,融合后输出至第五融合模块下一层C3模块,并经过输出层的第三预测头输出第三尺度特征;
第二融合模块将主干网络层第六层输出与第二融合模块上一层上采样层输出进行融合,并输出至第二融合模块下一层C3模块;
第四融合模块将主干网络层第六层输出、第二融合模块下一层C3模块输出以及第四融合模块上一层卷积层输出进行融合,并输出至第四融合模块下一层C3模块,并经过输出层的第二预测头输出第二尺度特征;
第三融合模块将主干网络层第四层输出与第三融合模块上一层上采样层输出进行融合,并输出至第三融合模块下一层C3模块,并经过输出层的第一预测头输出第一尺度特征;
第六融合模块将主干网络层第十一层输出与第六融合模块上一层卷积层进行融合,并输出至第六融合模块下一层C3模块,并经过输出层的第四预测头输出第四尺度特征;
所述C3模块包括3个卷积层加上BottleneckCSP模块。
为了达到上述第三目的,本发明采用以下技术方案:
一种计算机可读存储介质,存储有程序,所述程序被处理器执行时实现如上述衣着识别方法。
为了达到上述第四目的,本发明采用以下技术方案:
一种计算设备,包括处理器和用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现如上述衣着识别方法。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明将原始YOLOv5模型与改进后的深度神经网络模型的输出融合,同时构建了适配于检测目标环境的数据集与深度神经网络进行协同训练,解决了摄像头环境下目标检测难的问题,实现了精度与速度平衡的高效目标检测效果。
(2)针对普遍的衣着识别方法,大部分都采用影棚环境下拍摄的图片进行识别,在清晰度很高的情况下,识别效果较好,而摄像头拍摄出的图像数据相对而言,清晰度较低,而本发明将衣着识别网络直接针对于复杂的摄像头视频环境识别,基于清晰度较低的图像数据进行衣着识别,检测范围更广。
(3)本发明在预处理阶段加入了着色网络,能够对多种场景下的夜间摄像头视频进行着色处理,并且着色效果也较好,准确率很高,能够很好的还原场景本来的颜色,使得黑白的摄像头视频不再是无效、无意义的训练数据,拓展了数据集的规模,同时也具有很好的延展性和可塑性,能应用于多种场景和领域。
(4)本发明的衣着识别网络是直接处理摄像头视频环境,基于YOLO算法,集成了多检测头、坐标注意力机制以及多尺度特征融合,与现有经典模型相比,本发明更加高效、快捷,并采用复合检测的方式,限定识别范围,从而提升识别的准确性。
附图说明
图1为本发明衣着识别方法的框架示意图;
图2为本发明着色网络的框架示意图;
图3为本发明衣着数据集构建的框架示意图;
图4为本发明衣着识别网络的各层级结构示意图;
图5为本发明的复合检测的框架示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
如图1所示,一种衣着识别方法,包括下述步骤:
S1:构建视频数据库,输入待处理的视频图像,利用着色网络进行上色,由此将原本不可用的黑白类型视频转变为有效数据,拓展数据库的规模,提高辨识度;
如图2所示,步骤S1中建立视频数据库的具体步骤如下:
S11、视频收集与分类。收集各种场景下的摄像头视频,将视频分为黑白视频以及非黑白视频,若视频为黑白视频,则需要通过着色网络进行颜色的填充,提升辨识度;
S12、建立着色网络模型。通过构建两个端到端训练的骨干网络,包括实例着色网络和全图像着色网络,进行实例着色和全图像着色,再构建两个着色网络对应层级,进行端到端训练的全卷积神经网络;
S13、建立融合模块。将实例着色网络和全图像着色网络中提取到的特征,在经过三层卷积层从而学习到全图像权重与实例权重,再对实例图像特征和实例权重进行结合形成全图像特征大小,最后对全图像特征和每组实例图像特征分别按照对应权重进行加权融合,从而获得着色后的图像,进而得到着色后的视频图像。
S2:建立衣着数据集,整合各场景的视频,对视频进行解帧,通过高准确率的人工标注的方式对有效的数据图片进行标注,形成标注后的可用训练数据集;
如图3所示,步骤S2中建立数据集的具体步骤如下:
S21:整合有效数据:将步骤S11上色后的视频与非黑白视频进行整合,滤除失真数据,将着色后的视频与非黑白视频进行整合,涵盖多场景多应用的监控视频环境,一定程度上消除场景单一带来的不可扩展性,构建视频数据库;
S22:数据集标注:先对整合后的有效视频数据进行解帧,然后采用标注工具对其中有效数据图片(图像分辨率高,存在检测目标)进行标注(标注内容主要为头饰、上衣、裤子、鞋子、手持物),建立衣着数据集。
S3:构建衣着识别网络,基于YOLO算法,在实验条件下对模型结构进行修改、调整模型参数,保留有效的模型改进策略,集成了多检测头、坐标注意力机制以及多尺度特征融合三种方法,使得该网络更加适配于摄像头环境下的识别检测,更加高效地利用之前构建的数据集进行训练,得到适配效果良好、效果提升的衣着识别模型;
如图4所示,衣着识别模型基于原始YOLOv5模型进行搭建,设有依次连接的主干网络Backbone、Neck(PANet)网络层和输出层Output,Neck网络层设有多个Concat_bifpn模块,包括第一融合模块、第二融合模块、第三融合模块、第四融合模块、第五融合模块和第六融合模块;输出层设有多个预测头,包括第一预测头、第二预测头、第三预测头和第四预测头;
如图4所示,Focus结构表示切片操作,例如:原始608*608*3的图像输入Focus结构,采用切片操作,先变成304*304*12的特征图,再经过一次32个卷积核的卷积操作,最终变成304*304*32的特征图。箭头表示该层得到的特征图传递到哪一层。
Conv模块表示普通的卷积操作。C3模块由3个Conv层加上一个BottleneckCSP模块,BottleneckCSP模块在Backbone网络中用于提取图像的深度语义信息,在Neck网络中用于融合不同尺度的特征图来丰富语义信息,SPP模块又被称为特征金字塔模型,采用空间金字塔池化将任意大小的特征图转换成固定大小的特征向量。坐标注意力模块CoordAtt采用坐标注意力机制,Concat_bifpn模块表示融合了多尺度特征融合算法的拼接模块,Upsample模块表示上采样模块
P3、P4、P5、P6表示预测头,通过四个预测头得到的特征图,再进行整合,最终得到输出结果。原先的YOLOv5模块只含有三个预测头,对现有的数据进行分析,发现由摄像头拍摄的数据已经将人物成比例的缩小,人身上的衣着的可识别区域也相应变小了,导致人身上的衣着不明显,因此本实施例增加了一个用于小物体的预测头,本实施例的多个预测头结构由于能够检测到的尺度范围更加广,可以应对由于物体的尺度剧烈的变换带来的负面影响。
其中,在YOLOv5模型的Backbone网络尾部增加一个坐标注意力模块CoordAtt,利用坐标注意力捕获跨通道的信息,而且还能捕获方向感知和位置感知的信息,帮助模型更加精准的定位和识别感兴趣的目标;
具体地,每个输入 X 从维度h和 w分解,分解后的张量分别经过全局池化处理,生成Xh和Xw。特别是,在池化之前进行分解有利于保留空间位置信息。在卷积块中输入连接的张量Xh和Xw将生成一个编码的Y,它融合了Xw和Xh的提取特征。这一系列操作表述如下:
Figure 101616DEST_PATH_IMAGE001
其中,
Figure 26584DEST_PATH_IMAGE002
表示连接Xw和Xh,*表示卷积运算,G和f分别表示归一化和激活函数,W表示卷积滤波器;
再次拆分Y得到
Figure 435700DEST_PATH_IMAGE003
Figure 755823DEST_PATH_IMAGE005
,具体表示为:
Figure 857771DEST_PATH_IMAGE007
其中,Split()表示Split函数,用于分割字符串;
卷积并激活
Figure 771501DEST_PATH_IMAGE003
Figure 217263DEST_PATH_IMAGE005
,最终输出为:
Figure 329576DEST_PATH_IMAGE008
其中,F表示卷积,
Figure 868004DEST_PATH_IMAGE010
表示激活函数,具体表示为:
Figure DEST_PATH_IMAGE015
通过上述操作,使得模型更加精准定位和识别感兴趣的目标。
在本实施例中,利用多尺度特征的思想,将原始YOLOv5模型中普通的拼接模块更换为融合了BiFPN的拼接模块,即图中的Concat_bifpn模块,融合浅层网络跟深层网络的特征,按照图4中箭头指引的方向,从浅层模块中传递到深层模块中进行特征的融合,并且通过给定可学习的权重来学习不同输入特征的重要性,多次重复的操作,自上而下,自底向上的多尺度特征融合,以此来增加模型的识别精准度;
每一个输入层的权重具体表示为:
Figure 705248DEST_PATH_IMAGE011
其中,X i 表示每一层的输入,W i 表示每一个输入层的权重,
Figure DEST_PATH_IMAGE017
表示常数,设定为0.0001;
输出结果表示为:
Figure 393850DEST_PATH_IMAGE014
其中,Yfin表示输出结果,Conv表示卷积操作,Relu是激活函数,N表示输入层数。
通过特征融合和映射的方式,语义特征和空间地理特征都可以在不同深度的网络中进行迁移。这种方法有利于模型提取和表达特征的能力,提高整体检测性能。
结合图4所示,将Focus视为第0层,箭头表示各层级传递关系,第一融合模块(第十五层)将主干网络层第八层输出与第一融合模块上一层上采样层输出进行融合,融合后输出至第一融合模块下一层C3模块,
第五融合模块将第一融合模块下一层C3模块输出、主干网络层第八层输出以及第五融合模块上一层卷积层输出进行融合,融合后输出至第五融合模块下一层C3模块,并经过输出层的第三预测头(P5)输出第三尺度特征;
第二融合模块(第十九层)将主干网络层第六层输出与第二融合模块上一层上采样层输出进行融合,并输出至第二融合模块下一层C3模块;
第四融合模块(第二十六层)将主干网络层第六层输出、第二融合模块下一层C3模块输出以及第四融合模块上一层卷积层输出进行融合,并输出至第四融合模块下一层C3模块,并经过输出层的第二预测头(P4)输出第二尺度特征;
第三融合模块(第二十三层)将主干网络层第四层输出与第三融合模块上一层上采样层输出进行融合,并输出至第三融合模块下一层C3模块,并经过输出层的第一预测头(P3)输出第一尺度特征;
第六融合模块(第三十二层)将主干网络层第十一层输出与第六融合模块上一层卷积层进行融合,并输出至第六融合模块下一层C3模块,并经过输出层的第四预测头(P6)输出第四尺度特征。
将步骤S22所得的衣着数据集用于训练该衣着识别模型,将其运用于摄像头视频环境下的检测,检测内容包含头饰、上衣、裤子、鞋子、手持物等;
训练过程中,调整模型参数,采用数据增强、正则化等方法来防止过拟合,使得该模型更加适配于衣着识别的检测,通过训练得到衣着识别模型。
表1中示出了几种常用手段与本发明方法使用的核心检测模型的各项指标的对比:
表1 现有常见技术方法与本实施例方法的各项指标对比表
Figure DEST_PATH_IMAGE018
S4:进行复合检测,先采用通用YOLOv5模型对测试集中人物进行识别,以较高的速度对测试集中的人物图像进行识别,进行裁剪与提取,再将处理之后的检测源放入衣着识别检测网络中进行更高精度的识别检测。通过这样的方法,可以降低识别的错误率,防止将别的颜色与衣服相仿的物理错认成本实施例的数据类别。
如图5所示,步骤S4中进行复合检测的具体步骤如下:
S41:将所需检测的数据,放入通用的YOLOv5模型中,进行人像的检测,该通用的YOLOv5模型所采用的数据集是MSCOCO数据集,涵盖了80个类别,该数据集有非常成熟的人体检测性能,所以用该数据来训练YOLOv5,用该模型来检测整体人像,反馈检测到的整体人像坐标;
S42:将步骤S41中反馈得到的整体人像坐标,通过裁剪,将人像裁剪出来,将处理后的数据放入到步骤S3中训练得到的衣着识别检测网络,进行识别,最终得到结果。
实施例2
本实施例提供一种衣着识别系统,包括:视频获取模块、视频划分模块、着色模块、图像数据库构建模块、视频解帧模块、标注模块、衣着数据集构建模块、衣着识别网络构建模块、衣着识别网络训练模块和复合检测模块;
作为优选的技术方案,视频获取模块用于获取多场景下的摄像头视频;
作为优选的技术方案,视频划分模块用于划分为黑白视频以及非黑白视频;
作为优选的技术方案,着色模块用于将黑白视频通过着色网络进行颜色的填充,
作为优选的技术方案,图像数据库构建模块用于将着色后的视频与非黑白视频整合得到全彩色的图像数据库;
作为优选的技术方案,视频解帧模块用于对全彩色的图像数据库进行解帧;
作为优选的技术方案,标注模块用于对有效数据图片进行标注;
作为优选的技术方案,衣着数据集构建模块用于构建衣着数据集;
作为优选的技术方案,衣着识别网络构建模块用于基于YOLOv5模型构建衣着识别网络,设有依次连接的主干网络层、Neck网络层和输出层;
在主干网络层尾部增加坐标注意力模块,坐标注意力模块采用坐标注意力机制获取特征信息;
在Neck网络层将YOLOv5模型中的拼接模块替换为融合多尺度特征融合算法的Concat_bifpn模块,用于融合浅层网络跟深层网络的特征,通过预设可学习的权重学习不同输入特征的重要性;
Neck网络层设有多个Concat_bifpn模块,包括第一融合模块、第二融合模块、第三融合模块、第四融合模块、第五融合模块和第六融合模块;输出层设有多个预测头,包括第一预测头、第二预测头、第三预测头和第四预测头;
第一融合模块将自身上一层输出与主干网络层输出进行融合,融合后经过下一层输出至第五融合模块;
第二融合模块将自身上一层输出与主干网络层输出进行融合,融合后经过下一层输出至第四融合模块;
第三融合模块将自身上一层输出与主干网络层输出进行融合,融合后经过下一层输出至输出层的第一预测头,输出第一尺度特征;
第四融合模块将自身上一层输出、第二融合模块下一层输出以及主干网络层输出进行融合,融合后经过下一层输出至输出层的第二预测头,输出第二尺度特征;
第五融合模块将自身上一层输出、第一融合模块下一层输出以及主干网络层输出进行融合,融合后经过下一层输出至输出层的第三预测头,输出第三尺度特征;
第六融合模块将自身上一层输出与主干网络层输出进行融合,融合后经过下一层输出至输出层的第四预测头,输出第四尺度特征;
坐标注意力模块经过卷积层和上采样层后输出特征至第一融合模块;
作为优选的技术方案,衣着识别网络训练模块用于基于衣着数据集训练衣着识别网络;
作为优选的技术方案,复合检测模块用于进行复合检测,基于YOLOv5模型对测试集中的人物进行识别,裁剪提取得到人像结果集,将人像结果集输入衣着识别网络进行识别,得到衣着识别结果图像集。
在本实施例中,着色网络包括实例着色网络和全图像着色网络,分别进行实例着色和全图像着色,实例着色网络和全图像着色网络对应层级进行端到端训练;
实例着色网络和全图像着色网络提取得到实例图像特征和全图像特征,经过多层卷积层训练得到全图像权重与实例权重,对实例图像特征和实例权重进行结合形成全图像特征大小,对全图像特征和每组实例图像特征分别按照对应权重进行加权融合,获得着色后的图像,进而得到着色后的视频图像。
在本实施例中,第一融合模块将主干网络层第八层输出与第一融合模块上一层上采样层输出进行融合,融合后输出至第一融合模块下一层C3模块,
第五融合模块将第一融合模块下一层C3模块输出、主干网络层第八层输出以及第五融合模块上一层卷积层输出进行融合,融合后输出至第五融合模块下一层C3模块,并经过输出层的第三预测头输出第三尺度特征;
第二融合模块将主干网络层第六层输出与第二融合模块上一层上采样层输出进行融合,并输出至第二融合模块下一层C3模块;
第四融合模块将主干网络层第六层输出、第二融合模块下一层C3模块输出以及第四融合模块上一层卷积层输出进行融合,并输出至第四融合模块下一层C3模块,并经过输出层的第二预测头输出第二尺度特征;
第三融合模块将主干网络层第四层输出与第三融合模块上一层上采样层输出进行融合,并输出至第三融合模块下一层C3模块,并经过输出层的第一预测头输出第一尺度特征;
第六融合模块将主干网络层第十一层输出与第六融合模块上一层卷积层进行融合,并输出至第六融合模块下一层C3模块,并经过输出层的第四预测头输出第四尺度特征;
在本实施例中,C3模块包括3个卷积层加上BottleneckCSP模块。
实施例3
本实施例提供一种存储介质,存储介质可以是ROM、RAM、磁盘、光盘等储存介质,该存储介质存储有一个或多个程序,程序被处理器执行时,实现实施例1的衣着识别方法。
实施例4
本实施例提供一种计算设备,该计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有显示功能的终端设备,该计算设备包括处理器和存储器,存储器存储有一个或多个程序,处理器执行存储器存储的程序时,实现实施例1的衣着识别方法。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种衣着识别方法,其特征在于,包括下述步骤:
获取多场景下的摄像头视频,划分为黑白视频以及非黑白视频,将黑白视频通过着色网络进行颜色的填充,将着色后的视频与非黑白视频整合得到全彩色的图像数据库;
对全彩色的图像数据库进行解帧,对有效数据图片进行标注,构建衣着数据集;
基于YOLOv5模型构建衣着识别网络,设有依次连接的主干网络层、Neck网络层和输出层;
在主干网络层尾部增加坐标注意力模块,坐标注意力模块采用坐标注意力机制获取特征信息;
在Neck网络层将YOLOv5模型中的拼接模块替换为融合多尺度特征融合算法的Concat_bifpn模块,用于融合浅层网络跟深层网络的特征,通过预设可学习的权重学习不同输入特征的重要性;
Neck网络层设有多个Concat_bifpn模块,包括第一融合模块、第二融合模块、第三融合模块、第四融合模块、第五融合模块和第六融合模块;输出层设有多个预测头,包括第一预测头、第二预测头、第三预测头和第四预测头;
第一融合模块将自身上一层输出与主干网络层输出进行融合,融合后经过下一层输出至第五融合模块;
第二融合模块将自身上一层输出与主干网络层输出进行融合,融合后经过下一层输出至第四融合模块;
第三融合模块将自身上一层输出与主干网络层输出进行融合,融合后经过下一层输出至输出层的第一预测头,输出第一尺度特征;
第四融合模块将自身上一层输出、第二融合模块下一层输出以及主干网络层输出进行融合,融合后经过下一层输出至输出层的第二预测头,输出第二尺度特征;
第五融合模块将自身上一层输出、第一融合模块下一层输出以及主干网络层输出进行融合,融合后经过下一层输出至输出层的第三预测头,输出第三尺度特征;
第六融合模块将自身上一层输出与主干网络层输出进行融合,融合后经过下一层输出至输出层的第四预测头,输出第四尺度特征;
坐标注意力模块经过卷积层和上采样层后输出特征至第一融合模块;
基于衣着数据集训练衣着识别网络;
进行复合检测,基于YOLOv5模型对测试集中的人物进行识别,裁剪提取得到人像结果集,将人像结果集输入衣着识别网络进行识别,得到衣着识别结果图像集。
2.根据权利要求1所述的衣着识别方法,其特征在于,所述着色网络包括实例着色网络和全图像着色网络,分别进行实例着色和全图像着色,实例着色网络和全图像着色网络对应层级进行端到端训练;
实例着色网络和全图像着色网络提取得到实例图像特征和全图像特征,经过多层卷积层训练得到全图像权重与实例权重,对实例图像特征和实例权重进行结合形成全图像特征大小,对全图像特征和每组实例图像特征分别按照对应权重进行加权融合,获得着色后的图像,进而得到着色后的视频图像。
3.根据权利要求1所述的衣着识别方法,其特征在于,所述坐标注意力模块采用坐标注意力机制获取特征信息,具体计算过程为:
坐标注意力模块对每个输入特征从维度h和 w分解,分解后的张量分别经过全局池化处理,生成张量Xh和张量Xw,在卷积块中输入连接的张量Xh和Xw生成一个编码的Y,具体表示为:
Figure 971249DEST_PATH_IMAGE001
其中,
Figure DEST_PATH_IMAGE002
表示连接Xw和Xh,*表示卷积运算,G和f分别表示归一化和激活函数,W表示卷积滤波器;
再次拆分Y得到
Figure 357231DEST_PATH_IMAGE003
Figure DEST_PATH_IMAGE004
,具体表示为:
Figure 714132DEST_PATH_IMAGE005
其中,Split()表示Split函数,用于分割字符串;
卷积并激活
Figure 906079DEST_PATH_IMAGE003
Figure 126975DEST_PATH_IMAGE004
,最终输出为:
Figure DEST_PATH_IMAGE006
其中,F表示卷积,
Figure DEST_PATH_IMAGE007
表示激活函数。
4.根据权利要求1所述的衣着识别方法,其特征在于,Concat_bifpn模块通过预设可学习的权重学习不同输入特征的重要性,每一个输入层的权重具体表示为:
Figure DEST_PATH_IMAGE008
其中,X i 表示每一层的输入,W i 表示每一个输入层的权重,
Figure 13021DEST_PATH_IMAGE009
表示常数;
输出结果表示为:
Figure DEST_PATH_IMAGE010
其中,Yfin表示输出结果,Conv表示卷积操作,Relu是激活函数,N表示输入层数。
5.根据权利要求1所述的衣着识别方法,其特征在于,第一融合模块将主干网络层第八层输出与第一融合模块上一层上采样层输出进行融合,融合后输出至第一融合模块下一层C3模块,
第五融合模块将第一融合模块下一层C3模块输出、主干网络层第八层输出以及第五融合模块上一层卷积层输出进行融合,融合后输出至第五融合模块下一层C3模块,并经过输出层的第三预测头输出第三尺度特征;
第二融合模块将主干网络层第六层输出与第二融合模块上一层上采样层输出进行融合,并输出至第二融合模块下一层C3模块;
第四融合模块将主干网络层第六层输出、第二融合模块下一层C3模块输出以及第四融合模块上一层卷积层输出进行融合,并输出至第四融合模块下一层C3模块,并经过输出层的第二预测头输出第二尺度特征;
第三融合模块将主干网络层第四层输出与第三融合模块上一层上采样层输出进行融合,并输出至第三融合模块下一层C3模块,并经过输出层的第一预测头输出第一尺度特征;
第六融合模块将主干网络层第十一层输出与第六融合模块上一层卷积层进行融合,并输出至第六融合模块下一层C3模块,并经过输出层的第四预测头输出第四尺度特征;
所述C3模块包括3个卷积层加上BottleneckCSP模块。
6.一种衣着识别系统,其特征在于,包括:视频获取模块、视频划分模块、着色模块、图像数据库构建模块、视频解帧模块、标注模块、衣着数据集构建模块、衣着识别网络构建模块、衣着识别网络训练模块和复合检测模块;
所述视频获取模块用于获取多场景下的摄像头视频;
所述视频划分模块用于划分为黑白视频以及非黑白视频;
所述着色模块用于将黑白视频通过着色网络进行颜色的填充,
所述图像数据库构建模块用于将着色后的视频与非黑白视频整合得到全彩色的图像数据库;
所述视频解帧模块用于对全彩色的图像数据库进行解帧;
所述标注模块用于对有效数据图片进行标注;
所述衣着数据集构建模块用于构建衣着数据集;
所述衣着识别网络构建模块用于基于YOLOv5模型构建衣着识别网络,设有依次连接的主干网络层、Neck网络层和输出层;
在主干网络层尾部增加坐标注意力模块,坐标注意力模块采用坐标注意力机制获取特征信息;
在Neck网络层将YOLOv5模型中的拼接模块替换为融合多尺度特征融合算法的Concat_bifpn模块,用于融合浅层网络跟深层网络的特征,通过预设可学习的权重学习不同输入特征的重要性;
Neck网络层设有多个Concat_bifpn模块,包括第一融合模块、第二融合模块、第三融合模块、第四融合模块、第五融合模块和第六融合模块;输出层设有多个预测头,包括第一预测头、第二预测头、第三预测头和第四预测头;
第一融合模块将自身上一层输出与主干网络层输出进行融合,融合后经过下一层输出至第五融合模块;
第二融合模块将自身上一层输出与主干网络层输出进行融合,融合后经过下一层输出至第四融合模块;
第三融合模块将自身上一层输出与主干网络层输出进行融合,融合后经过下一层输出至输出层的第一预测头,输出第一尺度特征;
第四融合模块将自身上一层输出、第二融合模块下一层输出以及主干网络层输出进行融合,融合后经过下一层输出至输出层的第二预测头,输出第二尺度特征;
第五融合模块将自身上一层输出、第一融合模块下一层输出以及主干网络层输出进行融合,融合后经过下一层输出至输出层的第三预测头,输出第三尺度特征;
第六融合模块将自身上一层输出与主干网络层输出进行融合,融合后经过下一层输出至输出层的第四预测头,输出第四尺度特征;
坐标注意力模块经过卷积层和上采样层后输出特征至第一融合模块;
所述衣着识别网络训练模块用于基于衣着数据集训练衣着识别网络;
所述复合检测模块用于进行复合检测,基于YOLOv5模型对测试集中的人物进行识别,裁剪提取得到人像结果集,将人像结果集输入衣着识别网络进行识别,得到衣着识别结果图像集。
7.根据权利要求6所述的衣着识别系统,其特征在于,所述着色网络包括实例着色网络和全图像着色网络,分别进行实例着色和全图像着色,实例着色网络和全图像着色网络对应层级进行端到端训练;
实例着色网络和全图像着色网络提取得到实例图像特征和全图像特征,经过多层卷积层训练得到全图像权重与实例权重,对实例图像特征和实例权重进行结合形成全图像特征大小,对全图像特征和每组实例图像特征分别按照对应权重进行加权融合,获得着色后的图像,进而得到着色后的视频图像。
8.根据权利要求6所述的衣着识别系统,其特征在于,第一融合模块将主干网络层第八层输出与第一融合模块上一层上采样层输出进行融合,融合后输出至第一融合模块下一层C3模块,
第五融合模块将第一融合模块下一层C3模块输出、主干网络层第八层输出以及第五融合模块上一层卷积层输出进行融合,融合后输出至第五融合模块下一层C3模块,并经过输出层的第三预测头输出第三尺度特征;
第二融合模块将主干网络层第六层输出与第二融合模块上一层上采样层输出进行融合,并输出至第二融合模块下一层C3模块;
第四融合模块将主干网络层第六层输出、第二融合模块下一层C3模块输出以及第四融合模块上一层卷积层输出进行融合,并输出至第四融合模块下一层C3模块,并经过输出层的第二预测头输出第二尺度特征;
第三融合模块将主干网络层第四层输出与第三融合模块上一层上采样层输出进行融合,并输出至第三融合模块下一层C3模块,并经过输出层的第一预测头输出第一尺度特征;
第六融合模块将主干网络层第十一层输出与第六融合模块上一层卷积层进行融合,并输出至第六融合模块下一层C3模块,并经过输出层的第四预测头输出第四尺度特征;
所述C3模块包括3个卷积层加上BottleneckCSP模块。
9.一种计算机可读存储介质,存储有程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7任一项所述衣着识别方法。
10.一种计算设备,包括处理器和用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现如权利要求1-7任一项所述衣着识别方法。
CN202210721153.XA 2022-06-24 2022-06-24 一种衣着识别方法、系统、介质及设备 Pending CN115100681A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210721153.XA CN115100681A (zh) 2022-06-24 2022-06-24 一种衣着识别方法、系统、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210721153.XA CN115100681A (zh) 2022-06-24 2022-06-24 一种衣着识别方法、系统、介质及设备

Publications (1)

Publication Number Publication Date
CN115100681A true CN115100681A (zh) 2022-09-23

Family

ID=83292414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210721153.XA Pending CN115100681A (zh) 2022-06-24 2022-06-24 一种衣着识别方法、系统、介质及设备

Country Status (1)

Country Link
CN (1) CN115100681A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116343132A (zh) * 2023-05-26 2023-06-27 南方电网数字电网研究院有限公司 一种复杂场景电力设备缺陷识别方法、装置和计算机设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116343132A (zh) * 2023-05-26 2023-06-27 南方电网数字电网研究院有限公司 一种复杂场景电力设备缺陷识别方法、装置和计算机设备
CN116343132B (zh) * 2023-05-26 2023-09-15 南方电网数字电网研究院有限公司 一种复杂场景电力设备缺陷识别方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
CN111931684B (zh) 一种基于视频卫星数据鉴别特征的弱小目标检测方法
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN108520226B (zh) 一种基于躯体分解和显著性检测的行人重识别方法
CN111814661B (zh) 基于残差-循环神经网络的人体行为识别方法
CN111985325B (zh) 特高压环境评价中的航拍小目标快速识别方法
CN111563452A (zh) 一种基于实例分割的多人体姿态检测及状态判别方法
CN111914643A (zh) 一种基于骨骼关键点检测的人体动作识别方法
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、系统及设备
CN113610070A (zh) 一种基于多源数据融合的滑坡灾害识别方法
CN111508006A (zh) 一种基于深度学习的运动目标同步检测、识别与跟踪方法
CN114821286A (zh) 一种基于图像增强的轻量化水下目标检测方法和系统
CN115861619A (zh) 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与系统
CN113139489A (zh) 基于背景提取和多尺度融合网络的人群计数方法及系统
Zhang et al. Finding nonrigid tiny person with densely cropped and local attention object detector networks in low-altitude aerial images
CN116469020A (zh) 一种基于多尺度和高斯Wasserstein距离的无人机图像目标检测方法
CN115937736A (zh) 基于注意力和上下文感知的小目标检测方法
CN115188066A (zh) 基于协同注意力和多尺度融合的运动目标检测系统及方法
CN115035381A (zh) 一种SN-YOLOv5的轻量化目标检测网络及农作物采摘检测方法
CN114283326A (zh) 一种结合局部感知和高阶特征重构的水下目标重识别方法
CN115100681A (zh) 一种衣着识别方法、系统、介质及设备
CN114937298A (zh) 一种基于特征解耦的微表情识别方法
CN113486712B (zh) 一种基于深度学习的多人脸识别方法、系统和介质
Akanksha et al. A Feature Extraction Approach for Multi-Object Detection Using HoG and LTP.
CN111178370B (zh) 车辆检索方法及相关装置
CN117274627A (zh) 一种基于图像转换的多时相积雪遥感图像匹配方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination