CN111783576B - 基于改进型YOLOv3网络和特征融合的行人重识别方法 - Google Patents
基于改进型YOLOv3网络和特征融合的行人重识别方法 Download PDFInfo
- Publication number
- CN111783576B CN111783576B CN202010562392.6A CN202010562392A CN111783576B CN 111783576 B CN111783576 B CN 111783576B CN 202010562392 A CN202010562392 A CN 202010562392A CN 111783576 B CN111783576 B CN 111783576B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- network
- module
- convolution
- residual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于改进型YOLOv3网络和特征融合的行人重识别方法,主要解决现有技术在视频监控场景中对特定行人检索精度低且速度慢的问题。其方案为:1)构建行人图片数据集;2)搭建改进型YOLOv3网络;3)搭建融合全局特征和多尺度局部特征的行人重识别网络;4)利用数据集训练改进型YOLOv3网络和行人重识别网络;5)融合2)和3)训练后的这两个网络得到行人重识别系统;6)将监控视频和待检索的目标行人图片输入到行人重识别系统,对待检索目标行人进行检索,输出目标行人的重识别结果。本发明增强了对不同姿态行人的敏感度,提高了行人重识别的检索速度和精度,可用于区域安防、刑事侦查、视频监控及行为理解。
Description
技术领域
本发明属于计算机视觉领域,特别是涉及一种行人重识别方法,可用于区域安防、刑事侦查、视频监控及行为理解。
背景技术
近年来,越来越多的摄像机被部署到公共场所中。如何借助人工智能技术实现海量视频数据的智能分析和应用,已成为构建智能安防的关键。其中,行人重识别ReID正属于其中的核心课题之一。
随着人脸识别技术的发展,行业开始寻求更多技术应用的可能性。行人重识别技术作为人脸技术的重要补充和扩展,越来越多互联网巨头和科技独角兽开始意识到它的重要性,并逐渐在行人重识别研究领域投入资源。行人重识别ReID技术能够识别人的服装穿着、体态与发型,主要解决跨摄像头跨场景情况下对行人的识别、追踪与检索。
行人重识别是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术,广泛被认为是一个图像检索的子问题。不同于人脸识别,行人重识别是将同一个人在不同摄像设备下的影像匹配起来,生成跨摄像头跨空间的目标人物检索。
一套以视频为输入的行人重识别系统包括行人检测和行人重识别。如图2所示。行人检测系统将输入的原始视频转化为待检索的行人图像,行人重识别对待检索的行人图像进行特征提取和相似度度量,实现对给定目标人物的识别。
传统的行人重识别方法依赖手工图像特征,比如颜色、Haar-like特征、直方图HOG、尺度不变特征变换SIFT、局部二值模式LBP和局部最大发生LOMO,这些方法均忽略了目标敏感区域,易受非目标区域的干扰,导致检测精度降低,运算量大。
发明内容
本发明的目的在于针对上述现有技术的不足,提供一种基于改进型YOLOv3网络和特征融合的行人重识别方法,以减小运算量,提高检测精度,保证检测的实时性。
本发明的技术方案是这样实现的:
一.技术原理
由于视频监控场景中行人数量众多且不同行人个体差异较小、难以区分,影响计算机在视频中检测特定行人的性能。如何使网络将不同行人的特征进行区分,学习到更具代表性的特征至关重要。因此,本发明主要基于深度学习的行人重识别研究,通过调整训练获得深度卷积神经网络模型,采用该模型进行特征提取,结合分类器进行网络训练,形成基于深度学习的行人重识别系统。通过对YOLOv3网络进行修改、剪枝以改进优化行人检测网络框架,使得行人检测网络更适用于对行人进行识别和检测,有效提升行人检测的速度和准确度;同时在全局特征的基础上,通过引入基于局部特征的方法,利用图片切块模型提取到的行人局部特征进行相似度度量,得到融合全局特征和多尺度局部特征的行人重识别方法。
二.技术方案
根据上述原理,本发明的实现步骤包括如下:
(1)构建训练数据集:
(1a)采集至少30000张像素不低于64×128的图像,图像必须包含行人目标,且每个行人至少由两个摄像头捕捉到;
(1b)对每一张图像中行人的边界框进行人工标注,绘制行人检测矩形框;
(1c)将所采集到的行人图像按照3:1的比例构建成训练集和验证集;
(2)构建改进型YOLOv3行人检测网络:
(2a)对YOLOv3网络中的特征提取网络Darknet-53进剪枝优化,得到改进的特征提取网络Darknet-37;
(2b)根据特征金字塔网络结构,设计4个尺度检测模块,通过上采样和融合不同层的特征,在4个不同尺度的特征图上检测物体的类别;
(2c)利用标签平滑正则化优化方法优化行人检测类的概率分布,得到改进后的YOLOv3行人检测网络;
(3)构建全局特征和局部特征融合的行人重识别网络:
(3a)输入数据,并采用随机擦除对其进行数据增广,通过随机擦除,原图部分区域被一个布满随机值的矩形框给覆盖了,来表示行人图片被遮挡,并以此进行输入数据的增强;
(3b)搭建一个50层的残差网络ResNet50,加载ImageNet数据集的预训练权重,利用ResNet50残差网络从输入图像提取特征;
(3c)对提取的特征分别进行全局池化和水平池化,分别得到全局特征和局部特征,融合全局特征和局部特征进行相似度度量,检索特定行人目标;
(4)对(2)和(3)构建的两个网络分别进行训练:
(4a)将三元组损失、中心损失、ID损失进行结合得到训练用的损失函数L,结合损失函数L在(1c)构建的训练集中分别对(2)和(3)构建的两个网络进行初步训练,使网络学习到更多有区别的特征;
(4b)用(1c)构建的验证集分别对(4a)初步训练后两个网络进行超参数调整和初步评估,输出分类预测,进行迭代训练,直到分类准确率超过设定的阈值0.96,得到训练后的改进型YOLOv3网络和重识别网络;
(5)将训练后的改进型YOLOv3网络和训练后的重识别网络进行整合,得到一个行人重识别系统框架;
(6)采集监控视频,并存储至计算机硬盘;
(7)输入待检索的目标行人图片;
(8)用(5)得到的行人重识别系统框架对(6)采集到的监控视频进行端到端的检索,并与(7)给定的目标行人图片进行比对,得到对给定目标行人的重识别结果。
与现有技术相比较,本发明具有如下优点:
第一,由于本发明构建了一个改进型YOLOv3行人检测网络,对特征提取网络进行优化和剪枝,得到卷积层数量减少到37层的特征提取网络Darknet-37,降低了网络参数量,提升了检测效率;同时由于在该网络中引入了标签平滑正则化计算类的概率分布,促进了神经网络通过激活函数后分类概率向正确分类靠近;此外由于在该网络中引入特征金字塔网络模块,通过上采样和融合不同层的特征,利用底层特征的高分辨率和高层特征的语义信息,在4个不同尺度的特征图上检测物体,给不同尺度特征图分配准确的锚点框,提高了行人检测的精度。
第二,由于本发明构建了一个残差网络ResNet50对待检索的行人图像进行特征提取,采用随机擦除进行数据增广,扩充样本,有效提升了模型的泛化能力和鲁棒性;同时该网络通过结合全局池化和水平池化,分别得到全局特征和局部特征,对全局特征和局部特征进行融合,可有效解决行人身体部分被遮挡、行人姿态的改变以及人体变形问题下的重识别问题;
第三,由于本发明在行人重识别系统中使用改进的YOLOv3网络和全局特征和局部特征融合的行人重识别网络,并结合三元组损失、中心损失、ID损失进行训练,实现了对模型的约束,有效降低了模型的过拟合程度,提升网络框架的泛化能力,能够快速、高精度地针对监控视频中的特定行人进行检索。
附图说明
图1为本发明的实现流程图;
图2为本发明中的行人重识别系统示意图;
图3为本发明中的Darknet-37网络框架示意图;
图4为本发明中的ResNet50网络框架示意图;
图5为用本发明对室外行人进行重识别的实验结果图;
图6为用本发明对室内行人进行重识别的实验结果图。
具体实施方式
以下结合附图对本发明的实施例和效果作进一步详细描述。
参照图1本实例的实现步骤如下:
步骤1,构建行人图片训练样本数据集。
采集至少30000张像素不低于64×128的图像,图像必须包含行人目标,并且每个行人至少由两个摄像头捕捉到;
对包含行人的每一张图像中行人的边界框进行人工标注,绘制行人检测矩形框;
将所采集到的行人图像按照3:1的比例构建成训练数据集和验证数据集。
步骤2,构建改进型YOLOv3行人检测网络。
2.1)对YOLOv3网络中的特征提取网络Darknet-53进剪枝优化,得到改进的特征提取网络Darknet-37:
参照图3,本实例改进后的特征提取网络Darknet-37的网络框架包括输入层,多个卷积层,多个组合模块,全局平均池化层,全连接层;其结构依次为:输入层→第一卷积层→第二卷积层→第一组合模块→第三卷积层→第二组合模块→第四卷积层→第三组合模块→第五卷积层→第四组合模块→第六卷积层→第五组合模块→全局平均池化层→全连接层;所述的第一组合模块由通道数分别为32和64的两个卷积层和一个残差模块依次连接组成;所述的第二组合模块由两组通道数分别为64和128的两个卷积层和一个残差模块依次连接组成;所述的第三组合模块由四组通道数分别为128和256的两个卷积层和一个残差模块依次连接组成;所述的第四组合模块由四组通道数分别为256和512的两个卷积层和一个残差模块依次连接组成;所述的第五组合模块由四组通道数分别为512和1024的两个卷积层和一个残差模块依次连接组成。
2.2)根据特征金字塔网络结构,通过上采样和融合不同层的特征,利用底层特征的高分辨率和高层特征的语义信息,设计4个尺度检测模块,给不同尺度特征图分配准确的锚点框,在4个不同尺度的特征图上检测物体的类别;
2.3)利用标签平滑正则化优化方法计算标签平滑后的样本标签s':
其中s为当前样本的单热分布标签,ε为平滑因子,K是行人标签类的总数;
2.4)利用标签平滑后的样本标签s'优化行人检测类的概率分布,促进神经网络通过激活函数后的分类概率向正确分类靠近,即正确的分类概率输出大,得到改进后的YOLOv3行人检测网络。
步骤3,构建全局特征和局部特征融合的行人重识别网络。
3.1)输入数据,并采用随机擦除对其进行数据增广:
3.1.1)设原始图片宽为W,高为H,图片面积为S=W×H;
3.1.2)设随机擦除区域宽为Wr,高为Hr,擦除面积为Sr=Wr×Hr;
3.1.3)设擦除区域的矩形长宽比rr满足条件:擦除区域的矩形面积Sr满足条件:S1<Sr=Hr×Wr<S2,其中r1,r2分别是矩形长宽比rr的上下阈值,S1,S2分别是矩形面积Sr的上下阈值;
3.1.4)设置随机擦除的概率为P,对输入图像进行随机擦除,0<P<1;
3.2)构建残差网络ResNet50:
参照图4,本步骤搭建的50层的残差网络ResNet50,其网络结构依次为:输入层→特征提取层→最大池化层→组合模块;
所述特征提取层,其包括64个特征映射图,每一个特征映射图的卷积核大小为7×7个像素,步长为2个像素;
所述的组合模块,由十六个残差模块依次连接组成,每个残差模块由三个卷积层组成,其中第三个卷积层的输出与第一个卷积层的输入相连接;
该第一残差模块、第二残差模块、第三残差模块中第一个卷积层的特征映射图均为64个,每一个特征映射图的卷积核大小均为1×1个像素,步长均为1个像素;第二个卷积层的特征映射图均为64个,每一个特征映射图的卷积核大小均为3×3个像素,步长均为1个像素;第三个卷积层的特征映射图均为256个,每一个特征映射图的卷积核大小均为1×1个像素,步长均为1个像素;
该第四残差模块、第五残差模块、第六残差模块和第七残差模块中第一个卷积层的特征映射图均为128个,每一个特征映射图的卷积核大小均为1×1个像素,步长均为2个像素;第二个卷积层的特征映射图均为128个,每一个特征映射图的卷积核大小均为3×3个像素,步长均为1个像素;第三个卷积层的特征映射图均为512个,每一个特征映射图的卷积核大小均为1×1个像素,步长均为1个像素;
该第八残差模块、第九残差模块、第十残差模块、第十一残差模块、第十二残差模块、第十三残差模块中第一个卷积层的特征映射图均为256个,每一个特征映射图的卷积核大小均为1×1个像素,步长均为2个像素;第二个卷积层的特征映射图均为256个,每一个特征映射图的卷积核大小均为3×3个像素,步长均为1个像素;第三个卷积层的特征映射图均为1024个,每一个特征映射图的卷积核大小均为1×1个像素,步长均为1个像素;
该第十四残差模块、第十五残差模块、第十六残差模块中第一个卷积层的特征映射图均为512个,每一个特征映射图的卷积核大小均为1×1个像素,步长均为2个像素;第二个卷积层的特征映射图均为512个,每一个特征映射图的卷积核大小均为3×3个像素,步长均为1个像素;第三个卷积层的特征映射图均为2048个,每一个特征映射图的卷积核大小均为1×1个像素,步长均为1个像素;
3.3)加载ImageNet数据集的预训练权重,利用ResNet50残差网络从输入图像提取特征图;
3.4)对残差网络ResNet50输出的特征分别进行全局池化和水平池化,分别得到每张图片的全局特征和局部特征:
3.4.1)全局池化,即基于整张特征图提取特征,得到全局特征;
3.4.2)水平池化,即基于水平方向对每一张特征图的2048×7×7的特征向量通过水平池化和1×1卷积生成128×7的特征图,得到每行的局部特征fi,i∈1,2,3,...,7;
3.5)计算两张图片的全局特征距离和局部特征距离:
3.5.1)利用欧几里得距离度量函数计算两张图片的全局特征距离L2:
其中I1,I2分别为两张图片的P维向量;
3.5.2)计算两张图片的局部特征距离Si,j:
首先,从上到下动态匹配同一个行人的两个局部图像,通过逐元素变换将局部特征距离进行归一化,得到最短路径di,j:
其中di,j是第一图像的第i个垂直部分和第二图像的第j个垂直部分之间的距离,fi,gi分别为两个图像每行的局部特征;
然后,通过最短路径di,j找到两张图片对齐的最佳局部特征距离Si,j:
3.6)对全局特征距离L2和最佳局部特征距离Si,j进行求和,得到相似度度量LS:
LS=L2+Si,j。
步骤4,对步骤二和步骤三构建的两个网络分别进行训练。
4.1)结合三元组损失、中心损失、ID损失得到网络的损失函数L:
三元组损失:LTriplet=[dp-dn+α]+=max{(dp-dn+α),0},其中dp与dn分别表示正样本对与负样本对的特征距离,α是三元组损失的权重,设置α为0.3;
中心损失:其中fj表示全连接层之前第j张样本的特征,yj表示小批量中第j张样本的标签,/>表示第yj个类的特征中心,B是小批量的个数,2-范数的最大奇异值;
ID损失:其中q(k)通过图片x的ID标签得到,p(k)为图片x属于第k(k∈1,2,3,...,M)个行人ID的概率;
网络的损失函数L为:L=LTriplet+βLCenter+LID,其中β是中心损失的权重,取值为0.001;
4.2)在构建的训练数据集中分别对改进的YOLOv3网络和ResNet50残差网络进行初步训练,直到损失函数L收敛,使网络学习到更多有区别的特征;
4.3)用构建的验证数据集分别对初步训练后的两个网络进行超参数调整和评估,输出分类预测结果,并计算其分类准确率:
其中,P表示分类准确率,TP表示将正类预测为正类的训练样本总数,FN表示将正类预测为反类的训练样本总数,FP表示将反类预测为正类的训练样本总数,TN表示将反类预测为反类的训练样本总数;
4.4)设定网络的分类准确率阈值Pt为0.96,将网络的分类准确率P与阈值Pt比较:
若P≥Pt,得到训练后的改进型YOLOv3网络和重识别网络;
若P<Pt,则返回4.2),进行迭代训练,直到网络的分类准确率超过设定的阈值0.96,得到训练后的改进型YOLOv3网络和重识别网络。
步骤5,构建行人重识别系统。
将训练后的改进型YOLOv3网络和训练后的行人重识别网络进行整合,即去掉两个网络中的训练部分,保留其中的行人检测和识别部分框架,得到行人重识别系统,如图2所示。
步骤6,采集监控视频,并存储至计算机硬盘,输入给行人重识别系统。
步骤7,将待检索的目标行人图片输入给行人重识别系统。
步骤8,使用行人重识别系统对采集到的监控视频进行端到端的检索,并与待检索的目标行人图片进行比对,输出对给定目标行人的检索结果,完成行人重识别。
本发明的效果可通过以下实验进一步说明:
1.实验条件。
实验环境:计算机采用Inte(R)Core(TM)i5-8400 CPU@2.80GHz 2.81GHz,16GB内存,GPU处理器为GeForce GTX 1060 6GB。
实验设置物体置信度阈值conf-thres=0.5,非极大值阈值nms-thres=0.3,行人置信度阈值dis-thres=1.0。
2.实验内容与结果分析。
实验1,用本发明对采集到的室外行人监控视频进测试,得到多张行人重识别结果,如图5所示,其中图5(a)为输入的特定目标行人图片,图5(b)为行人重识别系统检索监控视频输出的全部该目标行人图片,图5(c)为从图5(b)中挑选放大行人部分的图片。
从图5中可以看到,本发明针对室外行人姿态变换、人物方向变换、行人不对齐、部分遮挡、图片质量低的问题都有良好的鲁棒性。
实验2,用本发明对采集到的室内行人监控视频进测试,得到多张行人重识别结果,如图6所示,其中图6(a)为输入的特定目标行人图片,图6(b)为行人重识别系统检索监控视频输出的全部该目标行人图片,图6(c)为从图6(b)中挑选放大行人部分的图片。
从图6中可以看到,本发明针对室内行人姿态变换、人物方向变换、部分遮挡、图片质量低、行人目标与背景颜色相似的问题都有良好的鲁棒性。
实验3,用本发明中改进后的网络框架与改进前的网络框架分别对相同的监控视频进行行人重识别,分别得到行人重识别结果所用时间,如表1,表2所示。其中表1为原始网络框架的运行用时,每秒传输帧数为14-15,表2为本发明剪枝、优化后的网络框架的运行用时,每秒传输帧数为17-18。
表1原始网络框架检索一帧视频所用时间
当前帧数 | 视频总帧数 | 检索到行人/个 | 所用时间/s | 每秒传输帧数 |
4458 | 40889 | 1 | 0.056 | 18 |
4461 | 40889 | 1 | 0.058 | 17 |
4464 | 40889 | 1 | 0.056 | 18 |
4467 | 40889 | 1 | 0.056 | 18 |
4469 | 40889 | 1 | 0.058 | 17 |
表2改进后的网络框架检索一帧视频所用时间
当前帧数 | 视频总帧数 | 检索到行人/个 | 所用时间/s | 每秒传输帧数 |
4458 | 40889 | 1 | 0.066 | 15 |
4461 | 40889 | 1 | 0.067 | 15 |
4464 | 40889 | 1 | 0.069 | 14 |
4467 | 40889 | 1 | 0.067 | 15 |
4469 | 40889 | 1 | 0.070 | 14 |
从表1和表2中可以看到,本发明改进后的网络框架相较改进前的网络框架在运行速度方面有较大提升。
综上所述,本发明提出的一种改进型YOLOv3网络和全局特征与局部特征融合的行人重识别方法可以更好的帮助对齐不同图像中人体区域特征,增强局部细节信息的表示能力,有效提升检索速度和精度,且网络的泛化能力和鲁棒性也得到增强。
以上仅为本发明的一个具体实例,以便于本技术领域的技术人员理解本发明,但本发明不限于该具体实例的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在本发明的保护之列。
Claims (7)
1.基于改进型YOLOv3网络和特征融合的行人重识别方法,其特征在于,包括如下:
(1)构建训练数据集:
(1a)采集至少30000张像素不低于64×128的图像,图像必须包含行人目标,且每个行人至少由两个摄像头捕捉到;
(1b)对每一张图像中行人的边界框进行人工标注,绘制行人检测矩形框;
(1c)将所采集到的行人图像按照3:1的比例构建成训练集和验证集;
(2)构建改进型YOLOv3行人检测网络:
(2a)对YOLOv3网络中的特征提取网络Darknet-53进剪枝优化,得到改进的特征提取网络Darknet-37;其结构依次为:
输入层→第一卷积层→第二卷积层→第一组合模块→第三卷积层→第二组合模块→第四卷积层→第三组合模块→第五卷积层→第四组合模块→第六卷积层→第五组合模块→全局平均池化层→全连接层,其中:
第一组合模块,由通道数分别为32和64的两个卷积层和一个残差模块依次连接组成;
第二组合模块,由两组通道数分别为64和128的两个卷积层和一个残差模块依次连接组成;
第三组合模块,由四组通道数分别为128和256的两个卷积层和一个残差模块依次连接组成;
第四组合模块,由四组通道数分别为256和512的两个卷积层和一个残差模块依次连接组成;
第五组合模块,由四组通道数分别为512和1024的两个卷积层和一个残差模块依次连接组成;
(2b)根据特征金字塔网络结构,设计4个尺度检测模块,通过上采样和融合不同层的特征,在4个不同尺度的特征图上检测物体的类别;
(2c)利用标签平滑正则化优化方法优化行人检测类的概率分布,得到改进后的YOLOv3行人检测网络;
(3)构建全局特征和局部特征融合的行人重识别网络:
(3a)输入数据,并采用随机擦除对其进行数据增广;
(3b)搭建一个50层的残差网络ResNet50,加载ImageNet数据集的预训练权重,利用ResNet50残差网络从输入图像提取特征;
(3c)对提取的特征分别进行全局池化和水平池化,分别得到全局特征和局部特征,融合全局特征和局部特征进行相似度度量,检索特定行人目标;
(4)对(2)和(3)构建的两个网络分别进行训练:
(4a)将三元组损失、中心损失、ID损失进行结合得到训练用的损失函数L,结合损失函数L在(1c)构建的训练集中分别对(2)和(3)构建的两个网络进行初步训练,使网络学习到更多有区别的特征;
(4b)用(1c)构建的验证集分别对(4a)初步训练后两个网络进行超参数调整和评估,输出分类预测,进行迭代训练,直到分类准确率超过设定的阈值0.96,得到训练后的改进型YOLOv3网络和重识别网络;
(5)将训练后的改进型YOLOv3网络和训练后的重识别网络进行整合,得到行人重识别系统;
(6)采集监控视频,输入给行人重识别系统;
(7)将待检索的目标行人图片输入给行人重识别系统;
(8)用(5)得到的行人重识别系统对(6)输入的监控视频进行端到端的检索,并与(7)给定的目标行人图片进行比对,得到对给定目标行人的重识别结果。
2.根据权利要求1所述的方法,其特征在于,(2c)中利用标签平滑正则化优化方法优化行人检测类的概率分布,公式如下:
其中s为当前样本的单热分布标签,s'为标签平滑后的样本标签,ε为平滑因子,K是行人标签类别的总数。
3.根据权利要求1所述的方法,其特征在于,(3a)中的随机擦除,实现如下:
(3a1)设原始图片宽为W,高为H,图片面积为S=W×H;
(3a2)设随机擦除区域宽为Wr,高为Hr,擦除面积为Sr=Wr×Hr;
(3a3)设擦除区域的矩形长宽比rr满足条件:擦除区域的矩形面积Sr满足条件:S1<Sr=Hr×Wr<S2,其中r1,r2分别是矩形长宽比rr的上下阈值,S1,S2分别是矩形面积Sr的上下阈值;
(3a4)设置随机擦除的概率为P,对输入图像进行随机擦除,0<P<1。
4.根据权利要求1所述的方法,其特征在于,(3b)中的残差网络ResNet50,其结构依次为:输入层→特征提取层→最大池化层→组合模块;
所述特征提取层,其特征映射图为64个,卷积核大小为7×7个像素,步长为2个像素;
所述的组合模块,由十六个残差模块依次连接组成,每个残差模块由三个卷积层组成,其中第三个卷积层的输出与第一个卷积层的输入相连接;
该第一残差模块、第二残差模块、第三残差模块中第一个卷积层的特征映射图均为64个,卷积核大小均为1×1个像素,步长均为1个像素;第二个卷积层的特征映射图均为64个,卷积核大小均为3×3个像素,步长均为1个像素;第三个卷积层的特征映射图均为256个,卷积核大小均为1×1个像素,步长均为1个像素;
该第四残差模块、第五残差模块、第六残差模块、第七残差模块中第一个卷积层的特征映射图均为128个,卷积核大小均为1×1个像素,步长均为2个像素;第二个卷积层的特征映射图均为128个,卷积核大小均为3×3个像素,步长均为1个像素;第三个卷积层的特征映射图均为512个,卷积核大小均为1×1个像素,步长均为1个像素;
该第八残差模块、第九残差模块、第十残差模块、第十一残差模块、第十二残差模块、第十三残差模块中第一个卷积层的特征映射图均为256个,卷积核大小均为1×1个像素,步长均为2个像素;第二个卷积层的特征映射图均为256个,卷积核大小均为3×3个像素,步长均为1个像素;第三个卷积层的特征映射图均为1024个,卷积核大小均为1×1个像素,步长均为1个像素;
该第十四残差模块、第十五残差模块、第十六残差模块中第一个卷积层的特征映射图均为512个,卷积核大小均为1×1个像素,步长均为2个像素;第二个卷积层的特征映射图均为512个,卷积核大小均为3×3个像素,步长均为1个像素;第三个卷积层的特征映射图均为2048个,卷积核大小均为1×1个像素,步长均为1个像素。
5.根据权利要求1所述的方法,其特征在于,(3c)中融合全局特征和局部特征进行相似度度量,实现如下:
(3c1)利用欧几里得距离度量函数计算两张图片的全局特征距离L2:
其中I1,I2为两张图片的P维向量;
(3c2)计算局部特征距离Si,j:
首先,从上到下动态匹配同一个行人的两个局部图像,通过逐元素变换将距离归一化最短路径di,j:
其中di,j是第一图像的第i个垂直部分和第二图像的第j个垂直部分之间的距离,fi,gi分别为两个图像的局部特征;
然后,通过该最短路径di,j找到两张图片对齐的最佳局部特征距离Si,j:
(3c3)对全局特征距离L2和局部特征距离Si,j进行求和,得到相似度度量LS:
LS=L2+Si,j。
6.根据权利要求1所述的方法,其特征在于,(4a)将三元组损失、中心损失、ID损失进行结合得到训练用的损失函数L,实现如下:
(4a1)三元组损失、中心损失、ID损失分别表示如下:
三元组损失:LTriplet=[dp-dn+α]+=max{(dp-dn+α),0},其中dp与dn分别表示正样本对与负样本对的特征距离,α是三元组损失的权重,设置α为0.3;
中心损失:其中fj表示全连接层之前第j张样本的特征,yj表示小批量中第j张样本的标签,/>表示第yj个类的特征中心,B是小批量的个数,2-范数的最大奇异值;
ID损失:其中q(k)通过图片x的ID标签得到,p(k)为图片x属于第k(k∈1,2,3,...,M)个行人ID的概率;
(4a2)根据三元组损失、中心损失、ID损失,得到网络训练的损失函数L为:
L=LTriplet+βLCenter+LID;
其中β是中心损失的权重,取值为0.001。
7.根据权利要求1所述的方法,其特征在于,(4b)中的分类准确率,计算如下:
其中,P表示分类准确率,TP表示将正类预测为正类的训练样本总数,FN表示将正类预测为反类的训练样本总数,FP表示将反类预测为正类的训练样本总数,TN表示将反类预测为反类的训练样本总数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010562392.6A CN111783576B (zh) | 2020-06-18 | 2020-06-18 | 基于改进型YOLOv3网络和特征融合的行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010562392.6A CN111783576B (zh) | 2020-06-18 | 2020-06-18 | 基于改进型YOLOv3网络和特征融合的行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111783576A CN111783576A (zh) | 2020-10-16 |
CN111783576B true CN111783576B (zh) | 2023-08-18 |
Family
ID=72756777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010562392.6A Active CN111783576B (zh) | 2020-06-18 | 2020-06-18 | 基于改进型YOLOv3网络和特征融合的行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111783576B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111968064B (zh) * | 2020-10-22 | 2021-01-15 | 成都睿沿科技有限公司 | 一种图像处理方法、装置、电子设备及存储介质 |
CN112699730B (zh) * | 2020-12-01 | 2023-01-10 | 贵州电网有限责任公司 | 一种基于yolo及卷积-循环网络的机房人物重识别方法 |
CN112507854B (zh) * | 2020-12-04 | 2023-07-25 | 南京理工大学 | 一种基于自适应识别网络的车间人员信息采集和识别方法 |
CN112446340B (zh) * | 2020-12-07 | 2024-06-28 | 深圳市信义科技有限公司 | 结合行人局部特征和服饰属性分类的行人搜索方法、系统及存储介质 |
CN112541453A (zh) * | 2020-12-18 | 2021-03-23 | 广州丰石科技有限公司 | 一种行李重识别模型训练及行李重识别方法 |
CN112580786B (zh) * | 2020-12-22 | 2021-09-28 | 之江实验室 | 一种用于ReID的神经网络构造方法及其训练方法 |
WO2022134104A1 (en) * | 2020-12-25 | 2022-06-30 | Alibaba Group Holding Limited | Systems and methods for image-to-video re-identification |
CN112801008B (zh) * | 2021-02-05 | 2024-05-31 | 电子科技大学中山学院 | 行人重识别方法、装置、电子设备及可读存储介质 |
CN113095174B (zh) * | 2021-03-29 | 2024-07-23 | 深圳力维智联技术有限公司 | 重识别模型训练方法、装置、设备及可读存储介质 |
CN113516012B (zh) * | 2021-04-09 | 2022-04-15 | 湖北工业大学 | 一种基于多层级特征融合的行人重识别方法及系统 |
CN113591532A (zh) * | 2021-04-13 | 2021-11-02 | 电子科技大学 | 一种基于自选择机制的实时行人检测与特征提取模块 |
CN113658223B (zh) * | 2021-08-11 | 2023-08-04 | 山东建筑大学 | 一种基于深度学习的多行人检测与跟踪方法及系统 |
CN114299539B (zh) * | 2021-12-24 | 2024-08-13 | 泰康保险集团股份有限公司 | 一种模型训练方法、行人重识别方法和装置 |
CN114663643A (zh) * | 2022-03-14 | 2022-06-24 | 北京达佳互联信息技术有限公司 | 标识识别方法、装置、电子设备及计算机可读存储介质 |
CN114639165B (zh) * | 2022-03-16 | 2024-05-10 | 平安科技(深圳)有限公司 | 基于人工智能的行人重识别方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271895A (zh) * | 2018-08-31 | 2019-01-25 | 西安电子科技大学 | 基于多尺度特征学习和特征分割的行人重识别方法 |
CN109919246A (zh) * | 2019-03-18 | 2019-06-21 | 西安电子科技大学 | 基于自适应特征聚类和多重损失融合的行人重识别方法 |
WO2019204824A1 (en) * | 2018-04-20 | 2019-10-24 | XNOR.ai, Inc. | Improving image classification through label progression |
CN110532859A (zh) * | 2019-07-18 | 2019-12-03 | 西安电子科技大学 | 基于深度进化剪枝卷积网的遥感图像目标检测方法 |
CN111126360A (zh) * | 2019-11-15 | 2020-05-08 | 西安电子科技大学 | 基于无监督联合多损失模型的跨域行人重识别方法 |
WO2020098158A1 (zh) * | 2018-11-14 | 2020-05-22 | 平安科技(深圳)有限公司 | 行人重识别方法、装置及计算机可读存储介质 |
-
2020
- 2020-06-18 CN CN202010562392.6A patent/CN111783576B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019204824A1 (en) * | 2018-04-20 | 2019-10-24 | XNOR.ai, Inc. | Improving image classification through label progression |
CN109271895A (zh) * | 2018-08-31 | 2019-01-25 | 西安电子科技大学 | 基于多尺度特征学习和特征分割的行人重识别方法 |
WO2020098158A1 (zh) * | 2018-11-14 | 2020-05-22 | 平安科技(深圳)有限公司 | 行人重识别方法、装置及计算机可读存储介质 |
CN109919246A (zh) * | 2019-03-18 | 2019-06-21 | 西安电子科技大学 | 基于自适应特征聚类和多重损失融合的行人重识别方法 |
CN110532859A (zh) * | 2019-07-18 | 2019-12-03 | 西安电子科技大学 | 基于深度进化剪枝卷积网的遥感图像目标检测方法 |
CN111126360A (zh) * | 2019-11-15 | 2020-05-08 | 西安电子科技大学 | 基于无监督联合多损失模型的跨域行人重识别方法 |
Non-Patent Citations (1)
Title |
---|
面向移动端的单阶段端到端目标检测压缩算法;童鸣;何楚;何博琨;王文伟;;信号处理(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111783576A (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783576B (zh) | 基于改进型YOLOv3网络和特征融合的行人重识别方法 | |
CN111126360B (zh) | 基于无监督联合多损失模型的跨域行人重识别方法 | |
Zhang et al. | Real-time sow behavior detection based on deep learning | |
CN111709311B (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
CN106096561B (zh) | 基于图像块深度学习特征的红外行人检测方法 | |
CN108520226B (zh) | 一种基于躯体分解和显著性检测的行人重识别方法 | |
CN111814661B (zh) | 基于残差-循环神经网络的人体行为识别方法 | |
Lei et al. | Region-enhanced convolutional neural network for object detection in remote sensing images | |
Yang et al. | Tracking based multi-orientation scene text detection: A unified framework with dynamic programming | |
CN109033944B (zh) | 一种全天空极光图像分类与关键局部结构定位方法及系统 | |
CN111339975A (zh) | 基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法 | |
CN111582126B (zh) | 基于多尺度行人轮廓分割融合的行人重识别方法 | |
CN113052185A (zh) | 一种基于Faster R-CNN的小样本目标检测方法 | |
Wang et al. | A coupled encoder–decoder network for joint face detection and landmark localization | |
CN109635726B (zh) | 一种基于对称式深度网络结合多尺度池化的滑坡识别方法 | |
CN105243154A (zh) | 基于显著点特征和稀疏自编码的遥感图像检索方法及系统 | |
He et al. | Distinguishing individual red pandas from their faces | |
CN111275010A (zh) | 一种基于计算机视觉的行人重识别方法 | |
CN112541403B (zh) | 一种利用红外摄像头的室内人员跌倒检测方法 | |
CN112991280B (zh) | 视觉检测方法、系统及电子设备 | |
CN113378675A (zh) | 一种同时检测和特征提取的人脸识别方法 | |
CN108898623A (zh) | 目标跟踪方法及设备 | |
CN104200218B (zh) | 一种基于时序信息的跨视角动作识别方法及系统 | |
CN116091946A (zh) | 一种基于YOLOv5的无人机航拍图像目标检测方法 | |
Tian et al. | Robust joint learning network: improved deep representation learning for person re-identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |