CN116631008A - 基于OSNet的可疑人员跟踪定位方法 - Google Patents
基于OSNet的可疑人员跟踪定位方法 Download PDFInfo
- Publication number
- CN116631008A CN116631008A CN202310596858.8A CN202310596858A CN116631008A CN 116631008 A CN116631008 A CN 116631008A CN 202310596858 A CN202310596858 A CN 202310596858A CN 116631008 A CN116631008 A CN 116631008A
- Authority
- CN
- China
- Prior art keywords
- image
- images
- pedestrian
- osnet
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000011159 matrix material Substances 0.000 claims abstract description 51
- 230000006870 function Effects 0.000 claims description 37
- 238000005286 illumination Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 16
- 238000012544 monitoring process Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 9
- 230000003014 reinforcing effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000004313 glare Effects 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000004807 localization Effects 0.000 claims 4
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000012886 linear function Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 241001061106 Sargocentron rubrum Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于OSNet的可疑人员跟踪定位方法,步骤为:获取视频数据,切割成图像;使用YOLOV5网络结构对图像进行检测,特征提取,最终输出行人图像结果;使用宽度学习系统对行人图像进行分类,排除没有行人或者多个行人的图像,保留只有单一行人的图像,输出矩阵标签Y,将标签矩阵Y对应的单一行人图像保存;使用CycleGAN网络对输出单一行人图像进行图片风格的统一;被识别人有图像的情况,使用OSNet网络对行人图像进行重识别,输出特征相似度高的行人图像,以实现人员的跟踪;被识别人无图像的情况,使用OSNet网络先进行属性识别,接着对行人图像进行重识别,输出特征相似度高的行人图像,以实现人员的跟踪。本发明公共场所中对可疑人员跟踪定位困难的问题。
Description
技术领域
本发明属于计算机视觉和深度学习领域,涉及行人检测、行人筛选、数据预处理、行人属性识别以及行人重识别技术。具体来说涉及一种基于OSNet的可疑人员跟踪定位方法。
背景技术
近年来公共场所的人流量在逐年递增,特别是在节假日期间,火车站、商城、游乐园等公共场所人员更加密集,环境更加复杂,想在这种复杂的场景下对可疑人员进行跟踪定位是十分困难的,传统的广播和人工寻找等方式不仅十分耗时,而且效率很低,对于该情况考虑使用神经网络辅助我们在复杂场景下完成可疑人员跟踪定位的工作。
通过使用行人重识别技术可以满足我们的需求,因为其广泛的应用而受到越来越多的人的关注,它能够应用于许多真实的场景,如火车站、商城、游乐园等。一般情况下,行人重识别被看作是图片检索问题:通过给定一个可疑人员,查询此人是否在不同摄像机的不同时间内出现。在实践中,首先获取几份视频监控数据作为原始数据,利用行人检测技术生成相应的检测框,接着对获得的行人数据进行标注,最后通过行人重识别模型的训练对可疑人员进行检索,找到其所在的位置与时间信息。
行人重识别技术在最近几年得到了快速的发展,但是应用在实际场景还是存在一些问题和挑战。例如由于环境而引发的光照变化,同一行人在不同摄像机的拍摄下出现颜色不匹配问题。具体来说,相同行人身穿红色上衣在不同的摄像头下由于光照影响,呈现出的图像中行人的上衣颜色出现差异,并且公共场所的环境比较复杂,行人的背景信息会存在干扰问题。这使得行人重识别从理论研究落实到实际应用仍存在较大的差异。
发明内容
发明目的:针对目前公共场所迅速准确的寻找可疑人员的需求以及行人重识别技术在光照不同的情况下存在的问题,本发明提供了一种基于OSNet的可疑人员跟踪定位方法,其中包括行人检测、行人筛选、数据预处理、行人属性识别以及行人重识别。
本发明所采用的技术方案如下:
本发明提出一种基于OSNet的可疑人员跟踪定位方法,步骤为:
步骤一:获取公共场所的监控视频数据,并切割成图像;
步骤二:使用YOLOV5网络结构对步骤一获得的图像进行检测,YOLOV5网络结构对图像中的行人进行特征提取,根据提取的特征计算出行人的位置坐标以及类别,通过损失函数调整YOLOV5网络结构,最终输出行人图像结果;
步骤三:使用宽度学习系统对步骤二检测出的行人图像进行分类,排除没有行人或者多个行人的图像,保留只有单一行人的图像,输出矩阵Y;
步骤四:使用CycleGAN网络对输出矩阵Y中的图像进行图片风格的统一;
步骤五:被识别人有图像的情况,使用OSNet网络对步骤四得到的风格统一的行人图像进行重识别,得到待识别人图像和被识别人图像的特征,将待识别人图像与被识别人图像进行特征匹配,输出特征相似度高的行人图像,以实现人员的跟踪;
步骤六:被识别人无图像的情况,使用OSNet网络对步骤四得到的风格统一的行人图像进行重识别,得到待识别人图像的特征,将待识别人图像与被识别人进行特征匹配,输出特征相似度高的行人图像,以实现人员的跟踪。
进一步的,步骤二中YOLOV5网络结构检测的步骤为:
步骤2-1:获取步骤一中的监控图像作为输入图像,对输入图像进行自适应图片放缩,将输入图像的尺寸统一调整成Ni×Mi×J;其中Ni代表图像的长度尺寸,Mi代表图像的宽度尺寸;
步骤2-2:特征融合,输入图像为Ni×Mi×J,经卷积获取到尺寸为Nc×Mc×Jc的特征图,将多个特征进行融合;
步骤2-3:通过步骤2-2得到的尺寸为Nc×Mc×Jc的特征图与真实框之间的矩形框损失函数,以及置信度损失函数和分类损失函数计算损失;
步骤2-4:通过损失函数调整YOLOV5网络结构,最终输出行人图像结果。
进一步的,步骤2-3中,
矩形框损失函数为:
式中,Lc为损失值,d为真实框和预测框到中心点距离,l为真实框和预测框所包围矩形最小的对角线长度,h为真实框和预测框的宽高比相似度,IOU为S1和S2为两个矩形框的面积之比,wl、hl、wp、hp为真实框和预测框的宽、高,α为h的影响因子;
置信度损失函数为:
Ld(z,x,y)=-C(z,x,y)*logV(z,x,y)-(1-C9z,x,y))*log(1-V(z,x,y))
式中,C为置信度标签矩阵,V为预测置信度矩阵,其中x、y、z代表置信度矩阵的维度;
分类损失函数为:
Lf(z,x,y,t)=-Lm(z,x,y,t)*logV(z,x,y,t)-(1-Lm(z,x,y,t))*log(1
-V(z,x,y,t))
Lm=L(1-τ)+τ/G
式中,Lm为置信度标签矩阵,V为预测置信度矩,x、y、z、t代表置信度矩阵的维度,G代表类别数,τ为平滑系数,取值范围0~1。
进一步的,步骤三中宽度学习系统的分类方法为:
步骤3-1:获取步骤二中获得的行人图像结果作为输入图形数据X,将X在宽度学习系统中进行特征映射,并得到全部映射特征Zs;
步骤3-2:根据Zs,随机生成的矩阵Wtj和βtj,非线性函数ξj计算对应的增强节点Hl;
步骤3-3:将映射特征Zs和增强节点Hl合并在一起成为一个矩阵,将合并后矩阵和送入宽度学习系统计算输出Y。
进一步的,步骤3-3中输出Y的表达式为:
Y=[Zs|Hl]W=PW
其中P为映射特征Zs和增强节点Hl合并后的矩阵P=[Zs|Hl],W作为连接网络的权重,表示为:
式中,γ→0,I为单位矩阵,limγ→0(γI+PTP)-1PT计算矩阵P的伪逆。进一步的,步骤四中CycleGAN网络对图像进行图片风格统一的步骤为:
步骤4-1:准备两个数据集B1、B2,其中B1用于存放弱光照的图像,B2用于存放强光照的图像;两个生成器分别为G1、G2,两个判别器分别为D1、D2;
步骤4-2:训练生成器,对于生成器G1,输入一个弱光照背景图像b1,输出一个强光照背景图像b2′,即G1(b1)=b2′b1∈B1对于生成器G2,输入一个强光照背景图像b2,生成一个弱光照背景图像b1′,即G2(b2)=b1′b2∈B2;
步骤4-3:训练判别器,对于判别器D2,要对生成器G1生成的图像进行打分,记为D2(G1(b1)),对于判别器D1,对生成器G2生成的图像进行打分,记为D1(G2(b2));
步骤4-4:输出结果,判别器无法分辨生成器生成的图像和真实图像的区别,此时网络达到最优,生成器生成能力最大化,最后输出生成器生成图像。
进一步的,步骤4-2和步骤4-4中训练的损失函数包括第一损失函数LossG和第二损失函数LossC,
LossG=LG(G1,D2,B1,D2)+LH(H2,D1,B1,B2)
式中,B1表示用于存放弱光照背景图像的数据集,B2表示用于存放强光照背景图像的数据集,G1、G2为两个生成器,D1、D2为两个判别器,b1代表输入的弱光照背景图像,b2代表输入的强光照背景图像。
进一步的,步骤五和步骤六中OSNet网络对行人图像进行重识别的方法如下:步骤(1)通过深度可分离卷积,将OSNet网络的参数计算量从ho·wo·ao 2·do·do′下降到ho·wo·(ao 2+do)·do′;
步骤(2)通过多尺度特征学习步骤四中得到的风格统一的图像结果的特征;
步骤(3)采用动态尺度融合对步骤(2)中学习的特征进行组合。
进一步的,步骤(2)中多尺度特征学习表示如下:
式中,x是输入数据,Ft(x)代表深度可分离卷积的结果,p表示不同感受野的数量。
进一步的,步骤(3)中动态尺度融合是根据统一聚合门实现的;
式中,Q代表一个子网络包含一个全局平均池化层和两个全连接层,xo p表示的是深度可分离卷积的结果Ft(xo),⊙表示阿达玛乘积,通过累加的方式对特征进行组合。
有益效果:
本发明为一种基于OSNet的可疑人员跟踪定位方法,引入CycleGAN网络消除行人背景信息存在干扰的问题,使用YOLOV5对消除背景干扰信息后的行人进行检测,最后使用OSNet对检测到的行人进行重识别,本发明可以解决以火车站为例的公共场所中对可疑人员跟踪定位困难的问题。
附图说明
图1为本发明监控视频切割成图像结果图;
图2为本发明行人检测结果图;
图3为本发明切割行人结果图;
图4为本发明统一图片风格结果图;
图5为行人重识别结果图;
图6为本发明的流程图;
图7为YOLOV5的网络模型图;
图8为CycleGAN的网络模型图。
具体实施方式
下文将结合附图对本发明的具体实施方式进行详细说明。
本发明为一种基于OSNet的可疑人员跟踪定位方法,先对行人进行检测,然后通过宽度学习系统和CycleGAN网络对数据进行预处理工作,最后使用OSNet进行行人属性识别和重识别。整个流程如图6所示,本实施例中的公共场所以火车站为例进行说明,其他如商场、游乐场等同样适用。
一种基于OSNet的可疑人员跟踪定位方法,主要步骤如下:
步骤一:获取公共场所的监控视频数据,并切割成图像;
获取目标以火车站为例的公共场所的若干摄像头的监控视频数据,并切割成图像;摄像头的覆盖位置要相对较多,例如安检前、安检后、候车大厅等。对获取到的监控视频按照固定的帧率,切割成图像,如附图1所示,图中为火车站安检前后和候车大厅不同位置摄像头视频切割成图像后的结果。
步骤二:使用YOLOV5网络结构对步骤一获得的图像进行检测,YOLOV5网络结构对图像中的行人进行特征提取,根据提取的特征计算出行人的位置坐标以及类别,通过损失函数调整YOLOV5网络结构,最终输出行人图像结果;
使用YOLOV5网络结构如图7所示,将步骤1中切割出的火车站图像送入YOLOV5网络,对行人进行特征提取,根据提取的特征计算出行人的位置坐标以及类别,通过损失函数调整网络,最终输出行人图像结果。如附图2所示,类别主要包括两部分:行人、非行人。将检测到的行人从整张监控图像中切割下来,得到如附图3所示的图像,一个行人为一张图像,将时间戳作为图像的标注信息。
YOLOV5网络结构对行人进行检测,其检测过程如下:
步骤2-1:获取步骤一中的监控图像作为输入图像,对输入图像进行自适应图片放缩,将输入图像的尺寸统一调整成Ni×Mi×J;其中Ni代表图像的长度尺寸,Mi图像的宽度尺寸;
初始输入图像信息包括图像尺寸N×M×J,其中N代表图像的长度尺寸,M代表图像的宽度尺寸,J代表图像的通道数量。
所述自适应图片放缩计算方法:
为了统一输入图像的大小,对图像进行自适应放缩,具体步骤如下:
A:首先计算自适应缩放的比例,原始尺寸为N×M,自适应缩放的原始目标尺寸为N1×M1,缩放系数Z1,Z2通过如下公式计算;
B:如果Z1<Z2我们选择Z1作为最终的缩放系数Z,反之选择Z2作为最终的缩放系数Z;
C:计算自适应缩放后的尺寸,使用原始图像的长宽和缩放系数Z相乘得到待填充图像的长宽N2和M2;
D:如果N2=N1,选择M2作为待填充位置,反之选择N2作为待填充位置;
E:计算黑边填充数值,以M2作为待填充位置为例,计算原本需要填充的高度,在计算图片两端需要填充的数组a,最终计算图像缩放后的尺寸Ni和Mi;
Ni=N1=N2(3)
步骤2-2:特征融合,输入图像为Ni×Mi×J,通过此步骤获取到尺寸为Nc×Mc×Jc的特征图,将多个特征进行融合;
在此步骤中,获取输入的图像,其尺寸为Ni×Mi×J,使用切片操作得到尺寸为 的特征图;
其中网络的卷积核为b,通过卷积得到新的尺寸为Nc×Mc×Jc的特征图, Jc=b。
步骤2-3:计算损失,计算预测框与真实框的重叠面积和中心点距离,当真实框包裹预测框的时候,直接度量两个框的距离,在此基础上增加一个影响因子,以此计算网络的损失;
本发明在行人检测阶段时的损失包含三部分,矩形框损失、置信度损失和分类损失。用如下的损失函数定义矩形框损失,该损失函数在考虑到预测框和真实框的堆叠面积基础上增加了一个影响因子将预测框和真实框的长宽比也考虑了进来,其中Lc为损失值,IOU为S1和S2为两个矩形框的面积之比,d为真实框和预测框到中心点距离,l为真实框和预测框所包围矩形最小的对角线长度,h为真实框和预测框的宽高比相似度,wl、hl、wp、hp为真实框和预测框的宽、高,α为h的影响因子;
矩形框损失函数为:
用如下损失函数定义置信度损失,C为置信度标签矩阵,V为预测置信度矩阵其中x、y、z代表置信度矩阵的维度。置信度损失函数为:
Ld(z,x,y)=-C(z,x,y)*logV(z,x,y)-(1-C(z,x,y))*log(1-V(z,x,y)) (9)
用如下损失函数定义分类损失,Lm为置信度标签矩阵,V为预测置信度矩,x、y、z、t代表置信度矩阵的维度,G代表类别数,τ为平滑系数,取值范围0~1。分类损失函数为:
Lf(z,x,y,t)=-Lm(z,x,y,t)*logV(z,x,y,t)-(1-Lm(z,x,y,t))*log(1-V(z,x,y,t)) (10)
Lm=L(1-τ)+τ/G (11)
步骤2-4:输出结果,通过损失函数调整网络,最终输出行人图像结果。步骤三:火车站行人分类:使用宽度学习系统对上一步骤检测出的行人进行分类,排除没有行人或者多个行人的图像,保留只有单一行人的图像:
宽度学习系统的分类方法,如下:
步骤3-1:获取步骤二中获得的行人图像结果作为输入图形数据X,其中X是一个R*E的矩阵,R代表输入数据的样本数量,E代表每个样本数量的维数。将X在宽度学习系统中进行特征映射,并得到全部映射特征Zs;
用如下公式对输入数据X进行特征映射Z;
其中和/>均为我们随机生成的矩阵。/>是线性函数,这里不唯一,可以根据不同的输入数据X或者不同的特征映射Z组合选择不同的线性函数。我们将得到s个不同的Z组合起来得到s组特征节点,Zs=[Z1,Z2,Z3,…,Zs],它代表我们通过网络映射从输入X中提取到的全部映射特征。
步骤3-2:接着根据Zs,随机生成的矩阵Wtj和βtj,非线性函数ξj计算对应的增强节点Hl;
用如下公式计算增强节点H;
和/>依然是我们随机生成的矩阵,ξj代表非线性函数,这里同样也可以选择不同的ξ,通过上式我们得到的Hj也是矩阵形式,将不同的l个H组合在一起我们可以得到最终的l组增强节点Hl=[H1,H2,H3,…,Hl],它代表我们从映射特征中得到的所有增强节点。
步骤3-3:将映射特征Zs和增强节点Hl合并在一起成为一个矩阵,将合并后矩阵和送入宽度学习系统计算输出Y;
Y是一个R*P的矩阵,P代表样本的类别数量。
将映射特征Zs和增强节点Hl合并后矩阵与网络连接的权值相乘就可以得出最后的输出Y;
Y=[Zs|Hl]W=PW (14)
其中P为Zs和Hl合并后的矩阵P=[Zs|Hl],W作为连接网络的权重,它可以表示为:
W=limγ→0(γI+PTP)-1PTY (15)
其中我们通常需要让γ→0,I为单位矩阵,limγ→0(γI+PTP)-1PT计算矩阵P的伪逆(matrix),P的伪逆乘以输出矩阵Y得到网络的连接权重W,我们将计算得到的W代入(14)中即可得到网络最终的输出Y。
步骤四:统一图片风格:由于采集数据的摄像头位置不同,导致所处位置的光照不同,图像的背景环境不同,进而导致相同行人在不同摄像头下的图像风格会出现差异,使用CycleGAN网络对图像进行图片风格的统一,其网络模型图如图8所示,输入为两部分:(1)强光照背景风格图像(2)弱光照背景风格图像,网络的生成器根据输入图像的风格生成相同风格的噪声数据,判别器对输入的原图和生成器生成的图像进行分类,二者相互对抗。输出的结果也为两部分:(1)由强光照背景风格图像转换为弱光照背景风格图像(2)由弱光照背景风格图像转换为强光照背景风格图像。结果如图4所示,其中(a)为未使用CycleGAN的原始图像,(b)、(c)为使用CycleGAN后两种不同的风格图片。
CycleGAN网络对图像进行图片风格统一的步骤为:
步骤4-1:准备两个数据集B1、B2,其中B1用于存放弱光照的图像,B2用于存放强光照的图像。两个生成器分别为G1、G2,两个判别器分别为D1、D2;
步骤4-2:训练生成器,通过训练生成器使生成的图像质量越高,对于生成器G1,输入一个弱光照背景图像b1,输出一个强光照背景图像b2′,即G1(b1)=b2′b1∈B1对于生成器G2,输入一个强光照背景图像b2,生成一个弱光照背景图像b1′,即G2(b2)=b1′b2∈B2;
在训练生成器G1、G2的时候,固定判别器D1、D2的参数,调整生成器G1的参数,希望生成器G1生成的图像质量更好,与之对抗的判别器D2对生成器G1所产生的图像G1(b1)的评分D2(G1(b1))越高,调整生成器G2的参数,希望生成器G2生成的图像质量更好,与之对抗的判别器D1对生成器G2所产生的图像G2(b2)的评分D1(G2(b2))越高。
步骤4-3:训练判别器,通过训练判别器使其更好的判断图像生成质量,对于判别器D2,要对生成器G1生成的图像进行打分,记为D2(G1(b1)),对于判别器D1,对生成器G2生成的图像进行打分,记为D1(G2(b2));
训练判别器使D1、D2可以更好的区分生成器G1、G2产生图像的优劣,判别器输出的是输入图像为真实图像的概率,1为真实图像,0为生成图像,0.5为理想状态下无法判别真假图像,如果生成器G1所生成的b2′和数据集B2中的图像b2相似度不高,此时的判别器D2输出的概率值应该更小,反之则输出的概率值更大,同理,如果生成器G2所产生的b1′和数据集B1中的图像b1相似度不高,此时判别器D1输出的概率值应该更小,反之则输出的概率值更大,最高分为1。
训练判别器D1,生成器G1、G2和判别器D2参数固定,在训练判别器D1的时候应该最大化D1(b1)的值,让判别器D1输出的概率值给更大,极小化D1(G2(b2))的值,使判别器给G2输出的概率值更小,进而提升判别器的能力。
训练判别器D2,生成器G1、G2和判别器D1参数固定,在训练判别器D2的时候应该最大化D2(b2)的值,让判别器D2输出的概率值更大,极小化D2(G1(b1))的值,使判别器给G1输出的概率值更小,进而提升判别器的能力。
网络训练的损失函数由两部分构成,第一部分的损失要保证生成器和判别器之间相互学习、相互对抗,进而保证生成器可以生成更加优质的图像,这一部分损失记为第一损失函数LossG,第二部分是保证生成器的输入图像和输出图像只有亮度的不同,而图像内容要相同,这一部分损失记为第二损失函数LossC具体表示如下公式,其中B1表示用于存放弱光照背景图像的数据集,B2表示用于存放强光照背景图像的数据集,G1、G2为两个生成器,D1、D2为两个判别器,b1代表输入的弱光照背景图像,b2代表输入的强光照背景图像。
LossG=LG(G1,D2,B1,B2)+LG(G2,D1,B1,B2) (16)
步骤4-4:输出结果,判别器无法分辨生成器生成的图像和真实图像的区别,此时网络达到最优,生成器生成能力最大化,最后输出生成器生成图像。
步骤五:火车站行人属性识别以及有图像数据的行人重识别:通过步骤四获取到图片风格统一的行人图像数据,使用OSNet对行人进行行人属性分析,输出待识别人的属性。
使用OSNet对步骤四得到的风格统一的行人图像进行重识别,对待识别人进行特征匹配,输出图像按照特征相似度进行排序,由于在本发明的使用场景中,前十张图像匹配成功的概率比较高所以选择相似度排名前十的行人图像,根据不同的使用场景可以动态调整输出图像的数量。行人重识别结果如图5所示。
步骤5-1:准备两个数据集X、Y,其中X存放待识别人图像,Y存放被识别人的图像;
步骤5-2:特征提取,使用深度可分离卷积以及多尺度特征学习对数据集X、Y中的待识别人和被识别人作特征提取;
步骤5-3:输出待识别人的特征,获取每个行人的特征,并且将每个行人的特征转化为特征标签进行输出;
步骤5-4:匹配被识别人并输出重识别结果,将得到的X和Y进行特征匹配,输出特征重合率较高的前几名图像。
步骤六:火车站行人属性识别以及无图像数据的行人重识别:使用OSNet对步骤四得到的风格统一的行人图像属性分析,将行人属性和待识别行人输入特征进行匹配,获取到待识别人的图像数据,使用OSNet对行人图像进行重识别,对待识别人进行特征匹配,输出特征相似度排名靠前的行人图像。
步骤6-1:准备数据集两个数据集Y和Z,其中Y存放被识别人的图像,Z存放待识别人特征数据;
步骤6-2:特征提取,使用深度可分离卷积以及多尺度特征学习对数据集Y中的被识别人作特征提取;
步骤6-3:输出被识别人的特征,获取每个行人的特征,并且将每个行人的特征转化为特征标签进行输出;
步骤6-4:匹配待识别人的特征,将上一步得到的行人特征标签和该待识别人的行人特征数据进行匹配,并将相匹配的行人图像作为数据集X;
步骤6-5:匹配被待识别人并输出重识别结果,将得到的X和Y进行特征匹配,输出特征重合率较高的前几名图像。
步骤五和步骤六中OSNet对行人图像进行重识别的方法如下:
(1)通过深度可分离卷积,将OSNet网络的参数计算量从ho·wo·ao 2·do·do′下降到ho·wo·(ao 2+do)·do′;
为了降低网络的复杂性,减少计算所需要的参数量,这里使用深度可分离卷积的方法,主要思想就是将原来的卷积层ReLU(r*xo)拆分为两个独立的其中*表示卷积,ao表示卷积核大小,do表示输入通道宽度,do′表示输出通道宽度。/>ho和wo分别为输入张量的高度和宽度,最终网络的参数计算量从ho·wo·ao 2·do·do′下降到ho·wo·(ao 2+do)·do′,达到了减少计算量的目的。
(2)通过多尺度特征学习步骤四结果的行人的特征
我们对行人进行重识别也就是希望找到某一个行人在不同摄像头下的图像,这个时候我们需要更多的特征去描述这个行人,可能该行人与另一行人的特征差异很小,表现在鞋子颜色不同等等,所以我们需要尽可能多的搜集行人的特征,多尺度特征学习表示如下:
x是输入数据,Ft(x)代表深度可分离卷积的结果,p表示不同感受野的数量。
(3)采用动态尺度融合进行组合。
到目前为止,我们得到不同卷积中学习到的特征,为了学习到更多的特征,使用动态组合的方式将这些特征进行组合,即根据输入图像给不同的尺度分配不同的权重,而不是训练后固定权重。具体来说,动态尺度融合是根据统一聚合门实现的;
Q代表一个子网络包含一个全局平均池化层和两个全连接层,xo p表示的是深度可分离卷积的结果Ft(xo),⊙表示阿达玛乘积,通过累加的方式对特征进行组合。
实验结果
本发明做了如下两种对比实验:(1)有无CycleGAN网络对比,(2)和不同的重识别模型对比,实验结果如下表1所示,
表1对比实验结果
从表1中可知,本发明引入CycleGAN网络重识别的全类平均正确率(mAP)、命中率(Rank)均有所提高,同时和其他重识别方法对比,本发明所采用的技术方案效果为最佳。通过实验结果可以证明本发明在以火车站为例的公共场所可疑人员跟踪定位方法具有良好的效果。
Claims (10)
1.一种基于OSNet的可疑人员跟踪定位方法,其特征在于:步骤为:
步骤一:获取公共场所的监控视频数据,并切割成图像;
步骤二:使用YOLOV5网络结构对步骤一获得的图像进行检测,YOLOV5网络结构对图像中的行人进行特征提取,根据提取的特征计算出行人的位置坐标以及类别,通过损失函数调整YOLOV5网络结构,最终输出行人图像结果;
步骤三:使用宽度学习系统对步骤二检测出的行人图像进行分类,排除没有行人或者多个行人的图像,保留只有单一行人的图像,输出矩阵Y;
步骤四:使用CycleGAN网络对输出矩阵Y中的图像进行图片风格的统一;
步骤五:被识别人有图像的情况,使用OSNet网络对步骤四得到的风格统一的行人图像进行重识别,得到待识别人图像和被识别人图像的特征,将待识别人图像与被识别人图像进行特征匹配,输出特征相似度高的行人图像,以实现人员的跟踪;
步骤六:被识别人无图像的情况,使用OSNet网络对步骤四得到的风格统一的行人图像进行属性识别,得到待识别人图像的特征,将待识别人图像与被识别人进行特征匹配,输出特征相似度高的行人图像,以实现人员的跟踪。
2.根据权利要求1中所述的一种基于OSNet的可疑人员跟踪定位方法,其特征在于:步骤二中YOLOV5网络结构检测的步骤为:
步骤2-1:获取步骤一中的监控图像作为输入图像,对输入图像进行自适应图片放缩,将输入图像的尺寸统一调整成Ni×Mi×J;其中Ni代表图像的长度尺寸,Mi代表图像的宽度尺寸;
步骤2-2:特征融合,输入图像为Ni×Mi×J,经卷积获取到尺寸为Nc×Mc×Jc的特征图,将多个特征进行融合;
步骤2-3:通过步骤2-2得到的尺寸为Nc×Mc×Jc的特征图与真实框之间的矩形框损失函数,以及置信度损失函数和分类损失函数计算损失;
步骤2-4:通过损失函数调整YOLOV5网络结构,最终输出行人图像结果。
3.根据权利要求2中所述的一种基于OSNet的可疑人员跟踪定位方法,其特征在于:步骤2-3中,
矩形框损失函数为:
式中,Lc为损失值,d为真实框和预测框到中心点距离,1为真实框和预测框所包围矩形最小的对角线长度,h为真实框和预测框的宽高比相似度,IOU为S1和S2为两个矩形框的面积之比,wl、hl、wp、hp为真实框和预测框的宽、高,α为h的影响因子;
置信度损失函数为:
Ld(z,x,y)=-C(z,x,y)*log V(z,x,y)-(1-C(z,x,y))*log(1-V(z,x,y))
式中,C为置信度标签矩阵,V为预测置信度矩阵,其中x、y、z代表置信度矩阵的维度;
分类损失函数为:
Lf(z,x,y,t)=-Lm(z,x,y,t)*log V(z,x,y,t)-(1-Lm(z,x,y,t))*log(1-V(z,x,y,t))
Lm=L(1-τ)+τ/G
式中,Lm为置信度标签矩阵,V为预测置信度矩,x、y、z、t代表置信度矩阵的维度,G代表类别数,τ为平滑系数,取值范围0~1。
4.根据权利要求1中所述的一种基于OSNet的可疑人员跟踪定位方法,其特征在于:步骤三中宽度学习系统的分类方法为:
步骤3-1:获取步骤二中获得的行人图像结果作为输入图形数据X,将X在宽度学习系统中进行特征映射,并得到全部映射特征Zs;
步骤3-2:根据Zs,随机生成的矩阵Wtj和βtj,非线性函数ξj计算对应的增强节点Hl;
步骤3-3:将映射特征Zs和增强节点Hl合并在一起成为一个矩阵,将合并后矩阵和送入宽度学习系统计算输出Y。
5.根据权利要求4中所述的一种基于OSNet的可疑人员跟踪定位方法,其特征在于:步骤3-3中输出Y的表达式为:
Y=[Zs|Hl]W=PW
其中P为映射特征Zs和增强节点Hl合并后的矩阵P=[Zs|Hl],W作为连接网络的权重,表示为:
式中,γ→0,I为单位矩阵,limγ→0(γI+PTP)-1PT计算矩阵P的伪逆。
6.根据权利要求1中所述的一种基于OSNet的可疑人员跟踪定位方法,其特征在于:步骤四中CycleGAN网络对图像进行图片风格统一的步骤为:
步骤4-1:准备两个数据集B1、B2,其中B1用于存放弱光照的图像,B2用于存放强光照的图像;两个生成器分别为G1、G2,两个判别器分别为D1、D2;
步骤4-2:训练生成器,对于生成器G1,输入一个弱光照背景图像b1,输出一个强光照背景图像b2′,即G1(b1)=b2′b1∈B1对于生成器G2,输入一个强光照背景图像b2,生成一个弱光照背景图像b1′,即G2(b2)=b1,b2∈B2;
步骤4-3:训练判别器,对于判别器D2,要对生成器G1生成的图像进行打分,记为D2(G1(b1)),对于判别器D1,对生成器G2生成的图像进行打分,记为D1(G2(b2));
步骤4-4:输出结果,判别器无法分辨生成器生成的图像和真实图像的区别,此时网络达到最优,生成器生成能力最大化,最后输出生成器生成图像。
7.根据权利要求6中所述的一种基于OSNet的可疑人员跟踪定位方法,其特征在于:步骤4-2和步骤4-4中训练的损失函数包括第一损失函数LossG和第二损失函数LossC,
LossG=LG(G1,D2,B1,B2)+LG(G2,D1,B1,B2)
式中,B1表示用于存放弱光照背景图像的数据集,B2表示用于存放强光照背景图像的数据集,G1、G2为两个生成器,D1、D2为两个判别器,b1代表输入的弱光照背景图像,b2代表输入的强光照背景图像。
8.根据权利要求1中所述的一种基于OSNet的可疑人员跟踪定位方法,其特征在于:步骤五和步骤六中OSNet网络对行人图像进行重识别的方法如下:
步骤(1)通过深度可分离卷积,将OSNet网络的参数计算量从ho·wo·ao 2·do·do′下降到ho·wo·(ao 2+do)·do′;
步骤(2)通过多尺度特征学习步骤四中得到的风格统一的图像结果的特征;
步骤(3)采用动态尺度融合对步骤(2)中学习的特征进行组合。
9.根据权利要求8中所述的一种基于OSNet的可疑人员跟踪定位方法,其特征在于:步骤(2)中多尺度特征学习表示如下:
式中,x是输入数据,Ft(x)代表深度可分离卷积的结果,p表示不同感受野的数量。
10.根据权利要求8中所述的一种基于OSNet的可疑人员跟踪定位方法,其特征在于:步骤(3)中动态尺度融合是根据统一聚合门实现的;
式中,Q代表一个子网络包含一个全局平均池化层和两个全连接层,xo p表示的是深度可分离卷积的结果Ft(xo),⊙表示阿达玛乘积,通过累加的方式对特征进行组合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310596858.8A CN116631008A (zh) | 2023-05-25 | 2023-05-25 | 基于OSNet的可疑人员跟踪定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310596858.8A CN116631008A (zh) | 2023-05-25 | 2023-05-25 | 基于OSNet的可疑人员跟踪定位方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116631008A true CN116631008A (zh) | 2023-08-22 |
Family
ID=87612844
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310596858.8A Pending CN116631008A (zh) | 2023-05-25 | 2023-05-25 | 基于OSNet的可疑人员跟踪定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116631008A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507893A (zh) * | 2020-12-14 | 2021-03-16 | 华南理工大学 | 一种基于边缘计算的分布式无监督行人重识别方法 |
CN113762165A (zh) * | 2021-09-09 | 2021-12-07 | 北京海航中软科技有限公司 | 一种嫌疑人识别追踪方法及系统 |
CN115620242A (zh) * | 2022-12-19 | 2023-01-17 | 城云科技(中国)有限公司 | 多行人目标重识别方法、装置及应用 |
-
2023
- 2023-05-25 CN CN202310596858.8A patent/CN116631008A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507893A (zh) * | 2020-12-14 | 2021-03-16 | 华南理工大学 | 一种基于边缘计算的分布式无监督行人重识别方法 |
CN113762165A (zh) * | 2021-09-09 | 2021-12-07 | 北京海航中软科技有限公司 | 一种嫌疑人识别追踪方法及系统 |
CN115620242A (zh) * | 2022-12-19 | 2023-01-17 | 城云科技(中国)有限公司 | 多行人目标重识别方法、装置及应用 |
Non-Patent Citations (2)
Title |
---|
KAIYANG ZHOU 等: "Omni-Scale Feature Learning for Person Re-Identification", 《2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION》, pages 3701 - 3711 * |
XITING PENG 等: "A 6G-Enabled Lightweight Framework for Person Re-Identification on Distributed Edges", 《ELECTRONICS》, vol. 12, no. 10, pages 1 - 18 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543695B (zh) | 基于多尺度深度学习的泛密度人群计数方法 | |
CN111460968B (zh) | 基于视频的无人机识别与跟踪方法及装置 | |
Li et al. | Adaptive deep convolutional neural networks for scene-specific object detection | |
CN113609896B (zh) | 基于对偶相关注意力的对象级遥感变化检测方法及系统 | |
CN112633071B (zh) | 基于数据风格解耦内容迁移的行人重识别数据域适应方法 | |
CN111783576A (zh) | 基于改进型YOLOv3网络和特征融合的行人重识别方法 | |
CN110569779B (zh) | 基于行人局部和整体属性联合学习的行人属性识别方法 | |
CN110555420B (zh) | 一种基于行人区域特征提取和重识别融合模型网络及方法 | |
CN113408584B (zh) | Rgb-d多模态特征融合3d目标检测方法 | |
CN110929593A (zh) | 一种基于细节辨别区别的实时显著性行人检测方法 | |
CN113034545A (zh) | 一种基于CenterNet多目标跟踪算法的车辆跟踪方法 | |
CN107392131A (zh) | 一种基于人体骨骼节点距离的动作识别方法 | |
CN114241422A (zh) | 一种基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法 | |
CN113808166B (zh) | 基于聚类差分和深度孪生卷积神经网络的单目标跟踪方法 | |
CN108198202A (zh) | 一种基于光流和神经网络的视频内容检测方法 | |
CN113378675A (zh) | 一种同时检测和特征提取的人脸识别方法 | |
CN114663707A (zh) | 基于Faster RCNN改进的少样本目标检测方法 | |
CN114821014A (zh) | 基于多模态与对抗学习的多任务目标检测识别方法及装置 | |
CN115861619A (zh) | 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与系统 | |
CN112580480A (zh) | 一种高光谱遥感影像分类方法及装置 | |
CN116311353A (zh) | 基于特征融合的密集行人多目标跟踪方法、计算机设备和存储介质 | |
CN115439884A (zh) | 一种基于双分支自注意力网络的行人属性识别方法 | |
CN114299398B (zh) | 一种基于自监督对比学习的小样本遥感图像分类方法 | |
Tsutsui et al. | Distantly supervised road segmentation | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |