CN114724082A - 一种基于改进的YOLOv5和DeepSORT的行人追踪方法 - Google Patents
一种基于改进的YOLOv5和DeepSORT的行人追踪方法 Download PDFInfo
- Publication number
- CN114724082A CN114724082A CN202210369883.8A CN202210369883A CN114724082A CN 114724082 A CN114724082 A CN 114724082A CN 202210369883 A CN202210369883 A CN 202210369883A CN 114724082 A CN114724082 A CN 114724082A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- detection
- frame
- model
- improved
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于改进的YOLOv5和DeepSORT的行人追踪方法,包括:收集行人训练数据集和行人重识别数据集,进行数据预处理;搭建改进的YOLOv5模型并进行训练,用于对行人检测:以YOLOv5模型为基础,针对检测精度较小问题进行改进,得到改进的YOLOv5模型;搭建改进的DeepSORT模型并进行训练,用于对行人追踪;对检测结果使用区间重叠检测算法过滤误检单位;使用改进的YOLOv5和DeepSORT模型进行行人追踪。本发明能够捕捉小目标行人的特征和与行人特征类似的单位,不易发生漏检与误检现象,可有效保证检测与追踪的实时性,检测精度高。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于改进的YOLOv5和DeepSORT(Simple Online and Realtime Tracking with a Deep Association Metric,使用深度关联度量的简单在线实时跟踪)的行人追踪方法。
背景技术
中国交通事业发展迅速,已进入基础设施发展、服务水平提高和转型发展的黄金时期。随着道路交通的发展,交通事故数量也在不断攀升,其中高速公路的交通事故所占比例最大。造成交通事故的客观因素除了外在的客观因素,例如道路、车辆、恶劣天气等外,还有更多的个人原因,比如行人乱穿公路不遵守交通规定等,这些行为严重危及生产与公共安全。因而,对研究和开发行人实时检测与跟踪技术是非常重要的。
现有技术的实时检测与跟踪方法,包括DeepSORT、KCF(Kernel CorrelationFilter,核相关滤波算法)等。中国专利申请(CN112668432A)“一种基于YOLOv5和DeepSort的地面互动投影系统中人体检测跟踪方法”,采用YOLOv5和DeepSORT模型实现对多目标的检测与追踪。该方法适用于对非小目标行人的检测与追踪,当行人目标过小时,其表现不佳。主要表现为:(1)不易捕捉小目标行人的特征,易发生漏检问题;(2)对一些与行人特征类似的单位,易发生误检问题;(3)使用的DeepSORT模型跟踪精度较低,跟踪框表现不稳定,易发生跳变现象。
发明内容
本发明的目的在于克服现有技术的缺陷,提供一种基于改进的YOLOv5和DeepSORT的行人追踪方法,可捕捉小目标行人的特征和与行人特征类似的单位,不易发生漏检与误检现象;跟踪框表现稳定,无跳变现象,因而可有效保证检测与追踪的实时性,检测精度高。
为解决上述技术问题,本发明采用以下技术方案。
一种基于改进的YOLOv5和DeepSORT的行人追踪方法,包括以下步骤:
步骤1、收集行人训练数据集和行人重识别数据集,并进行数据预处理;
步骤2、搭建改进的YOLOv5模型并进行训练,用于对行人的检测:以YOLOv5模型为基础,针对检测精度较小问题进行改进,得到改进的YOLOv5模型,其结构包括输入端、主干层、颈部层和头部层;
步骤3、搭建改进的DeepSORT模型并进行训练,用于对行人的追踪;改进的DeepSORT模型包括目标检测器、卡尔曼滤波预测器、FastReID特征提取网络、特征匹配器和级联匹配模块;
步骤4、对检测结果使用区间重叠检测算法过滤误检单位;
步骤5、使用改进的YOLOv5和DeepSORT模型进行行人追踪,其算法流程包括:获取视频、进入检测流程和跟踪流程。
步骤1中所述的数据集收集和数据预处理包括:
步骤1-1.收集行人数据集即针对改进的YOLOv5模型训练数据集,和收集行人重识别数据集:收集COCO数据集中的行人标注图片和标注信息、收集3000张在监控视频不同视角下易与行人发生误判单位,并使用LabelImg工具对收集到的图片进行矩形框标注然后写入XML文件中,最终得到易与行人发生误判单位的标注图片和标注信息;针对行人重识别数据集为Market-1501数据集中的行人标注图片和标注信息;
步骤1-2.对改进的YOLOv5模型训练数据集和行人重识别数据集进行数据增强,包括:随机裁剪:找到图像的中心点,以垂直方向进行裁剪,将原图像一分为二,得到两张新图像;镜像操作:通过找到图像的中心点,像素进行左右置换,得到新的图像。
步骤2中所述的搭建改进的YOLOv5模型并进行训练,包括:
步骤2-1.搭建改进的YOLOv5模型的输入端,包括:(1)Mosaic数据增强:将四张图片通过翻转、缩放、区域内的色域变化拼接在一张图片内;(2)自适应图片缩放:规定进行训练的图片大小为608×608,对x×y进行缩放;计算缩放后的x与y的大小,分别表示为x1与y1,其中x1=x×min{x/608,y/608},y1=y×min{x/608,y/608};如果x1<608,则对应的x高度上下添加[(608-x1)%64]/2高度的黑边,最终凑成608×608大小的图片;同理y方向操作,其中min操作表示为取花括号内最小的值,%表示为取余操作;
步骤2-2.搭建改进的YOLOv5模型的主干层:引入CBAM注意力机制改进C3结构,将其命名为C3A,且内部结构包括一个C3结构与一个CBAM注意力机制模块;C3结构包括两层卷积层与一次特征相加操作,通过对特征相加操作后输出的特征F,进入CBAM注意力机制模块,进行两步特征提取,最终输出提取后的结果,两步特征提取如公式(1)(2)所示:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool)(F))) (1)
Ms(F)=σ(f7×7([AvgPool(Mc(F));MaxPool(Mc(F))])) (2)
其中,Mc(F)为公式(1)特征提取后的输出值,AvgPool为平均池化层,MaxPool为最大池化层,MLP为两层神经元,f7×7为7×7的卷积,Ms(F)为第二步特征提取后的输出值,即最终输出值;
步骤2-3.搭建改进的YOLOv5模型的颈部层:采用FPN与PAN结构,对主干层输出的特征进行融合;
步骤2-4.搭建改进的YOLOv5模型的头部层:对采用FPN与PAN融合后的特征进行预测,使用CIOU_Loss作为预测框的损失函数与加权NMS方法对锚框进行筛选,CIOU_Loss函数如下:
其中,ρ2(B,Bgt)表示预测框和真实框他们中心点的距离,B表示为预测框,Bgt表示为真实框,B∩Bgt为预测框与真实框之间的并集,B∪Bgt为预测框与真实框之间的交集,w表示为预测框的宽度,h表示预测框的高度,wgt为真实框的宽度,hgt表示为真实框的高度,c2表示预测框与真实框形成的外接矩形对角线的长度;
步骤2-5.将行人数据集中针对改进的YOLOv5模型训练数据集输入,将图片尺寸设置为608×608,batch-size设置为16,共训练260个epoch;一个epoch即训练集中的所有图片都在改进的YOLOv5模型中正向与反向各传播一次进行训练,得到效果最优的改进的YOLOv5模型用于后续检测。
步骤3中所述的搭建改进的DeepSORT模型并进行训练,包括:
步骤3-1.使用改进的YOLOv5模型作为改进的DeepSORT模型的目标检测器;
步骤3-2.使用卡尔曼滤波算法做位置预测器;
步骤3-2.使用行人数据集中针对行人重识别的数据集对FastReID特征提取网络进行训练,训练完成后使用FastReID特征提取网络替换DeepSORT模型的原特征提取网络;使用随机裁剪与镜像操作对数据进行增强;主干层中FastReID特征提取网络采用Resnet、ResNest和ResNext网络来提取数据增强后的目标特征,同时加入IBN和类注意力机制Non-local机制来提取目标特征;在聚合中,算法使用平均池化、最大池化,广义均值池化和注意力池化四类池化方法对主干层中提取的特征进一步优化;在头部层,通过全局向量表示聚合优化后的特征,进而转化到决策层进行预测;损失函数采用Triplet loss与Circleloss,扩大对头部层预测的负样本结果距离,并拉近头部层预测的正样本结果距离;特征为经过头部层后输出的预测框特征;在度量距离中使用经典的DSR算法求出行人数据集中标注结果与预测框特征结果的最短距离值;后处理的QE对初排序的度量距离最近的m个目标的特征和query的特征求平均值,其中query的特征值为每次传来的m个目标特征值与query特征值的平均值,初始值为0,求出均值后,进行重新求距离和排序;其评价指标使用经典的Rank、mAP;可视化即排序后的最优结果输出的过程,使用FastReID特征提取网络训练的数据集结果;
步骤3-3.使用匈牙利算法作为特征匹配器,用余弦距离计算检测框经过向量化得到的近似度,利用匈牙利算法对前后两帧中检测框内行人进行匹配;若匹配度高,则认定前后为同一人员,并进行统一ID编号;
步骤3-4.使用级联匹配模块,对追踪过程中出现频率更高的目标赋予其优先权,以此解决当目标被长时间遮挡时,得到的预测不准确问题。
步骤4中所述的对检测结果使用区间重叠检测算法过滤误检单位,包括:
步骤4-1.使用改进的YOLOv5模型对视频逐帧检测,对其结果进行筛选,过滤置信度小于阈值的结果;
步骤4-2.对过滤置信度小于阈值后的结果进行重叠检测,假定其对行人检测的空间坐标为(x1,y1,x2,y2),与行人误检单位的空间坐标为(a1,b1,a2,b2),其中x1、x2为行人结果框的左右边界,y1、y2为行人结果框的上下边界,a1、a2为误检单位结果框的左右边界,b1、b2为误检单位结果框的上下边界;其中λ为影响因子,设置为0.95使用公式(4)进行判别:
过滤ErrThreshold大于阈值的结果,将保留的检测结果输入改进的DeepSORT模型进行行人追踪;区间重叠检测算法通过分析置信度与检测框的交并比,过滤与行人发生误检的单位。
步骤5中所述的使用改进的YOLOv5和DeepSORT模型进行行人追踪,包括:
步骤5-1.获取视频,按照一秒取2帧图片,按前后顺序分别进入检测;
步骤5-2.进入改进的YOLOv5模型,通过主干层进行特征提取,将提取后的特征进入颈部层进行融合,最终将融合后的特征进行检测输出;
步骤5-3.对检测输出后的结果,进入区间重叠检测算法,通过分析置信度与检测框的交并比,过滤与行人发生误检的单位,最终只保留行人单位进行输出;
步骤5-4.对行人单位输出结果进行初始化,其中(u,v)表示为行人单位候选框的中心坐标,y表示为纵横比,h表示为高度,其余四个参数表示前四个参数在图像坐标系中各自对应的速度信息;利用基于匀速运动和线性观测模型的标准卡尔曼滤波器来对目标的轨迹状态进行预测更新,使用(u,v,y,h)表示行人目标状态的观测变量,得到经过卡尔曼滤波算法后的预测框;
步骤5-5.通过计算检测位置与卡尔曼滤波器预测位置之间的马氏距离,对行人运动信息框进行关联,并更新时间标志;
步骤5-6.对关联后的行人运动信息框与第二帧检测传来的行人检测框进行IOU匹配,设定阈值,确认跟踪状态并进行级联匹配;跟踪状态分为三种:confirmed、unconfirmed和deleted;所述IOU匹配是指:把unconfirmed轨迹和上一帧匹配到的confirmed轨迹,通过匈牙利算法进行匹配,对经过匈牙利算法匹配后的结果,再次进行级联匹配操作,把很久没匹配到的confirmed轨迹与未匹配到的unconfirmed轨迹进行删除,将没匹配到的目标赋予优先级分配新的轨迹,以保证对最近出现的目标赋予最大匹配优先权;
步骤5-7.对经过匹配成功后的结果即confirmed跟踪状态,进行跟踪结果存储并可视化输出,同时进入更新模块;对匹配成功后的每一个追踪目标构建一个容器,即追踪器,存储每一个追踪目标最近成功关联的特征向量,更新追踪器;
步骤5-8对经过匹配未成功的结果,即unconfirmed跟踪状态,使用FastReID特征提取网络对其结果进行特征框提取,得到相应特征向量,使用特征提取后的特征向量,计算与当前容器内的特征向量之间的最小余弦距离;若余弦距离小于阈值,则再次进入卡尔曼滤波器,通过马氏距离,对行人运动信息框进行关联进行第二次预测,并更新时间标志;若余弦距离大于阈值,则将其跟踪状态标记成deleted,进行删除;对再次匹配,如果第二次匹配依旧失败,则将其跟踪状态标记为deleted,进行删除;若第二次匹配成功,则进行跟踪结果存储并可视化输出,并更新追踪器。
与现有技术相比,本发明具有以下优点和有益效果:
1.本发明采用融合注意力机制CBAM(Convolutional Block Attention Module,卷积注意力模块),通过动态加权的方式突出感兴趣的区域,增加对小目标特征学习的能力。同时,结合CIoU_loss(Complete Intersection over Union,完全交并比)函数与加权NMS(Non-Maximum Suppresion,非极大值抑制)方法对锚框进行筛选,有效处理对小目标漏检问题,保证对小目标行人单位的检测准确度,从而维护道路安全。
2.本发明引入区间重叠检测算法,首先对检测结果的置信度与设定的阈值a进行比较,排除置信度低于a的结果,其次对排除后结果的检测框进行交并比计算并设置阈值b,排除交并比高于b的结果,将最终结果保留输出,从而实现对普通行人单位和一些易与普通行人发生误判单位的区分。不仅可节约后续跟踪的算力资源,而且大大降低误报率。
3.本发明引入FastReID(Fast Re-identification,快速重识别)特征提取网络,通过FastReID特征提取网络对行人检测结果进行特征提取,有效处理原DeepSORT模型跟踪精度较低与跟踪框易发生跳变问题,保证对行人跟踪的实时性与准确性。
附图说明
图1为本发明的一种实施例的方法流程图。
图2为本发明的一种实施例的改进的YOLOv5模型结构示意图。
图3为本发明的一种实施例的结合CBAM的C3A模块图。
图4为本发明的一种实施例的FastReID特征提取网络结构。
图5为本发明的一种实施例的整体算法实施过程图。
具体实施方式
本发明的一种基于改进的YOLOv5和DeepSORT的行人追踪方法,包括:收集行人训练数据集和行人重识别数据集,进行数据增强,得到用于模型训练与追踪的图像集;搭建改进的YOLOv5模型,增加对小目标特征学习的能力,结合CIoU_loss函数与加权NMS方法对锚框进行筛选;使用训练效果最优的模型对行人检测,并配合区间重叠检测算法过滤误检单位;将上述检测结果输入到改进的DeepSORT模型进行行人追踪。本发明有效保证对行人检测与追踪的实时性,大大提升检测精度。
下面结合附图对本发明做进一步详细说明。
图1为本发明的一种实施例的方法流程图。如图1所示,本实施例方法,包括以下步骤:
步骤1、收集行人训练数据集和行人重识别数据集,进行数据预处理;
1-1.收集行人数据集即针对改进的YOLOv5模型训练数据集,和收集行人重识别数据集,其中,针对改进的YOLOv5模型训练数据集包括:1.收集COCO(Microsoft CommonObjects in Context,通用检测对象)数据集中的行人标注图片和标注信息;2.收集3000张在监控视频不同视角下易与行人发生误判单位,例如锥桶、黄白栏杆、防护栏与隔离栏等图片,并使用LabelImg工具对收集到的图片进行矩形框标注,将标注好的结果写入XML文件中,最终得到易与行人发生误判单位的标注图片和标注信息;针对行人重识别数据集为Market-1501数据集中的行人标注图片和标注信息;
1-2.对改进的YOLOv5模型训练数据集和行人重识别数据集采用相同的数据增强方法,包括随机裁剪与镜像操作,其中随机裁剪为找到图像的中心点,以垂直方向进行裁剪,将原图像一分为二,得到两张新图像;镜像操作为通过找到图像的中心点,像素进行左右置换,得到新的图像,通过上述两种数据增强方法,扩充训练数据集的数量,减少训练出现的欠拟合现象。
步骤2、搭建改进的YOLOv5模型并进行训练,用于对行人的检测。本发明以YOLOv5模型为基础,针对检测精度较小问题进行改进,得到改进的YOLOv5模型结构图如图2所示,其内部包括输入端、主干层、颈部层和头部层,各层搭建方法如下所示;
2-1.搭建改进的YOLOv5模型的输入端,包括Mosaic数据增强与自适应图像缩放方法。其中Mosaic数据增强为将四张图片通过翻转,缩放,区域内的色域变化等拼接在一张图片内,大大加强处理效率;自适应图片缩放方法为:首先规定进行训练的图片大小为608×608,对x×y进行缩放,其次计算缩放后的x与y的大小,分别表示为x1与y1,其中x1=x×min{x/608,y/608},y1=y×min{x/608,y/608},如果x1<608,则对应的x高度上下添加[(608-x1)%64]/2高度的黑边,最终凑成608×608大小的图片,同理y方向操作,其中min操作表示为取花括号内最小的值,%表示为取余操作;
2-2.搭建改进的YOLOv5模型的主干层,通过引入CBAM注意力机制改进C3(CrossStage Partial Network,跨阶段局部网络)结构,将其命名为C3A(Cross Stage PartialNetwork and Attention Module,跨阶段局部网络与注意力机制),其结构如图3所示,且内部结构包括一个C3结构与一个CBAM注意力机制模块,其中C3结构包括两层卷积层与一次特征相加操作,通过对特征相加操作后输出的特征F(Feature,特征),进入CBAM注意力机制模块,进行两步特征提取,最终输出提取后的结果,两步特征提取如公式(1)(2)所示:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F))) (1)
Ms(F)=σ(f7×7([AvgPool(Mc(F));MaxPool(Mc(F))])) (2)
其中,Mc(F)为公式(1)特征提取后的输出值,AvgPool为平均池化层,MaxPool为最大池化层,MLP(Multilayer Perceptron,多层感知机)为两层神经元,f7×7为7×7的卷积,Ms(F)为第二步特征提取后的输出值,即最终输出值。实现方式是通过网络自主学习出一组相关的权重系数,并以动态加权的方式突出我们感兴趣的区域,与此同时会抑制不相关的背景。在节约参数与计算力的情况下同时保证即插即用的模块集成到现有的网络架构;
2-3.搭建改进的YOLOv5模型的颈部层,采用FPN(Feature Pyramid Networks,特征金字塔网络)与PAN(Path Aggregation Network,路径聚合网络)结构,对主干层输出的特征进行融合;
2-4.搭建改进的YOLOv5模型的头部层,对采用FPN与PAN融合后的特征进行预测。使用CIOU_Loss作为预测框的损失函数与加权NMS方法对锚框进行筛选,CIOU_Loss函数如公式(3)所示:
其中,ρ2(B,Bgt)表示预测框和真实框他们中心点的距离,B表示为预测框,Bgt表示为真实框,B∩Bgt为预测框与真实框之间的并集,B∪Bgt为预测框与真实框之间的交集,w表示为预测框的宽度,h表示预测框的高度,wgt为真实框的宽度,hgt表示为真实框的高度,c2表示预测框与真实框形成的外接矩形对角线的长度;
2-5.将行人数据集中针对改进的YOLOv5模型训练数据集输入,将图片尺寸设置为608×608,batch-size设置为16,一共训练260个epoch,一个epoch即训练集中的所有图片都在改进的YOLOv5模型中正向与反向各传播一次进行训练,得到效果最优的改进的YOLOv5模型用于后续检测,其训练结果如表1所示。
表1
其中,AP(Average Precision,平均精度),其值越高,表示检测效果越好,且值最高为100%,即1。
步骤3、搭建改进的DeepSORT模型并进行训练,用于对行人的追踪。改进的DeepSORT模型包括目标检测器、卡尔曼滤波预测器、FastReID特征提取网络、特征匹配器与级联匹配模块。
3-1.使用改进的YOLOv5模型作为改进的DeepSORT模型的目标检测器;
3-2.使用卡尔曼滤波算法做位置预测器;
3-2.使用行人数据集中针对行人重识别的数据集对FastReID特征提取网络进行训练,训练完成后使用FastReID特征提取网络替换DeepSORT模型的原特征提取网络;FastReID特征提取网络如图4所示,预处理阶段使用随机裁剪与镜像操作对数据进行增强;主干网络中FastReID特征提取网络采用Resnet、ResNest和ResNext网络来提取数据增强后的目标特征,同时加入IBN(intent-based networking,基于意图的网络)和类注意力机制Non-local机制来提取目标特征,从而提高鲁棒性;在聚合中,算法使用平均池化、最大池化,广义均值池化和注意力池化四类池化方法对主干层中提取的特征进一步优化;在头部层,通过全局向量表示聚合优化后的特征,进而转化到决策层进行预测;损失函数采用Triplet loss与Circle loss,扩大对头部层预测的负样本结果距离,并拉近头部层预测的正样本结果距离;特征为经过头部层后输出的预测框特征;在度量距离中使用经典的DSR(Deep spatial reconstruction,深部空间重建)算法求出行人数据集中标注结果与预测框特征结果的最短距离值;后处理的QE(Query Expansion,扩展查询)对初排序的度量距离最近的m个目标的特征和query的特征求平均值,其中query的特征值为每次传来的m个目标特征值与query特征值的平均值,初始值为0,求出均值后,进行重新求距离和排序;其评价指标使用经典的Rank、mAP等;可视化即排序后的最优结果输出的过程,使用FastReID特征提取网络训练的数据集结果如表2所示:
表2
其中,mAP(mean Average Precision,整体平均精度),其值越大,特征提取效果最佳,最大为100%,即1;Rank(1)表示为搜索结果中置信度最高的1张图片有正确结果的概率,其值越大,效果越佳,最大为100%,即1;Rank(5)与Rank(10)同Rank(1)所述。通过FastReID特征提取网络,解决跟踪精度较低与跟踪框易发生跳变问题
3-3.使用匈牙利算法作为特征匹配器,使用余弦距离计算检测框经过向量化得到的近似度,利用匈牙利算法对前后两帧中检测框内行人进行匹配,若匹配度高,则认定前后为同一人员,并进行统一ID编号;
3-4.使用级联匹配模块,对追踪过程中出现频率更高的目标赋予其优先权,以此解决当目标被长时间遮挡时,得到的预测不准确问题。
步骤4、对检测结果使用区间重叠检测算法过滤误检单位;
4-1.使用改进的YOLOv5模型对视频逐帧检测,将其结果进行筛选,过滤置信度小于阈值的结果,排除因低置信度导致误检的问题;
4-2.对过滤置信度小于阈值后的结果进行重叠检测,假定其对行人检测的空间坐标为(x1,y1,x2,y2),与行人误检单位的空间坐标为(a1,b1,a2,b2),其中x1、x2为行人结果框的左右边界,y1、y2为行人结果框的上下边界a1、a2为误检单位结果框的左右边界,b1、b2为误检单位结果框的上下边界。其中λ为影响因子,设置为0.95使用公式(4)进行判别:
过滤ErrThreshold大于阈值的结果,将保留的检测结果输入改进的DeepSORT模型进行行人追踪。区间重叠检测算法通过分析置信度与检测框的交并比,过滤与行人发生误检的单位。
步骤5、使用改进的YOLOv5和DeepSORT模型进行行人追踪,算法流程如图5所示,包括获取视频、进入检测流程和跟踪流程,各流程详细介绍如下:
5-1.获取视频,按照一秒取2帧图片,按前后顺序分别进入检测;
5-2.进入改进的YOLOv5模型,通过主干层进行特征提取,将提取后的特征进入颈部层进行融合,最终将融合后的特征进行检测输出;
5-3.对检测输出后的结果,进入区间重叠检测算法,通过分析置信度与检测框的交并比,过滤与行人发生误检的单位,最终只保留行人单位进行输出;
5-4.对行人单位输出结果进行初始化,其中(u,v)表示为行人单位候选框的中心坐标,y表示为纵横比,h表示为高度,其余四个参数表示为前四个参数在图像坐标系中各自对应的速度信息。利用基于匀速运动和线性观测模型的标准卡尔曼滤波器来对目标的轨迹状态进行预测更新,使用(u,v,y,h)表示行人目标状态的观测变量,得到经过卡尔曼滤波算法后的预测框;
5-5.通过计算检测位置与卡尔曼滤波器预测位置之间的马氏距离,对行人运动信息框进行关联,并更新时间标志;
5-6.对关联后的行人运动信息框与第二帧检测传来的行人检测框进行IOU匹配,设定阈值,确认跟踪状态并进行级联匹配,跟踪状态分为三种:confirmed,unconfirmed以及deleted。其中confirmed轨迹表示之前有若干帧连续成功匹配的轨迹,并且到当前帧为止,连续未匹配的帧数小于给定阈值。unconfirmed是刚产生的轨迹,连续匹配帧数还没达到设定的标准,连续3帧匹配成功就能成为confirmed。deleted是已经被删除的轨迹,有两种来源:其一是confirmed轨迹连续很多帧没有匹配到,超过设定的阈值;其二是unconfirmed轨迹在某一帧没匹配成功,直接删除。所述IOU匹配,就是把unconfirmed轨迹和上一帧匹配到的confirmed轨迹,通过匈牙利算法进行匹配,对经过匈牙利算法匹配后的结果,再次进行级联匹配操作,把很久没匹配到的confirmed轨迹与未匹配到的unconfirmed轨迹进行删除,将没匹配到的目标赋予优先级分配新的轨迹,此做法保证对最近出现的目标赋予最大匹配优先权;
5-7.对经过匹配成功后的结果,即confirmed跟踪状态,进行跟踪结果存储并可视化输出,同时进入更新模块,对匹配成功后的每一个追踪目标构建一个容器,即追踪器,存储每一个追踪目标最近成功关联的特征向量,更新追踪器;
5-8对经过匹配未成功的结果,即unconfirmed跟踪状态,使用FastReID特征提取网络对其结果进行特征框提取,得到相应特征向量。使用特征提取后的特征向量,计算与当前容器内的特征向量之间的最小余弦距离。若余弦距离小于阈值,则再次进入卡尔曼滤波器,通过马氏距离,对行人运动信息框进行关联进行第二次预测,并更新时间标志。若余弦距离大于阈值,则将其跟踪状态标记成deleted,进行删除。对再次匹配,如果第二次匹配依旧失败,则将其跟踪状态标记为deleted,进行删除。若第二次匹配成功,则进行跟踪结果存储并可视化输出,并更新追踪器。
Claims (6)
1.一种基于改进的YOLOv5和DeepSORT的行人追踪方法,其特征在于,包括以下步骤:
步骤1、收集行人训练数据集和行人重识别数据集,并进行数据预处理;
步骤2、搭建改进的YOLOv5模型并进行训练,用于对行人的检测:以YOLOv5模型为基础,针对检测精度较小问题进行改进,得到改进的YOLOv5模型,其结构包括输入端、主干层、颈部层和头部层;
步骤3、搭建改进的DeepSORT模型并进行训练,用于对行人的追踪;改进的DeepSORT模型包括目标检测器、卡尔曼滤波预测器、FastReID特征提取网络、特征匹配器和级联匹配模块;
步骤4、对检测结果使用区间重叠检测算法过滤误检单位;
步骤5、使用改进的YOLOv5和DeepSORT模型进行行人追踪,其算法流程包括:获取视频、进入检测流程和跟踪流程。
2.根据权利要求1所述的一种基于改进的YOLOv5和DeepSORT的行人追踪方法,其特征在于,步骤1中所述的数据集收集和数据预处理包括:
步骤1-1.收集行人数据集即针对改进的YOLOv5模型训练数据集,和收集行人重识别数据集:收集COCO数据集中的行人标注图片和标注信息、收集3000张在监控视频不同视角下易与行人发生误判单位,并使用LabelImg工具对收集到的图片进行矩形框标注然后写入XML文件中,最终得到易与行人发生误判单位的标注图片和标注信息;针对行人重识别数据集为Market-1501数据集中的行人标注图片和标注信息;
步骤1-2.对改进的YOLOv5模型训练数据集和行人重识别数据集进行数据增强,包括:随机裁剪:找到图像的中心点,以垂直方向进行裁剪,将原图像一分为二,得到两张新图像;镜像操作:通过找到图像的中心点,像素进行左右置换,得到新的图像。
3.根据权利要求1所述的一种基于改进的YOLOv5和DeepSORT的行人追踪方法,其特征在于,步骤2中所述的搭建改进的YOLOv5模型并进行训练,包括:
步骤2-1.搭建改进的YOLOv5模型的输入端,包括:(1)Mosaic数据增强:将四张图片通过翻转、缩放、区域内的色域变化拼接在一张图片内;(2)自适应图片缩放:规定进行训练的图片大小为608×608,对x×y进行缩放;计算缩放后的x与y的大小,分别表示为x1与y1,其中x1=x×min{x/608,y/608},y1=y×min{x/608,y/608};如果x1<608,则对应的x高度上下添加[(608-x1)%64]/2高度的黑边,最终凑成608×608大小的图片;同理y方向操作,其中min操作表示为取花括号内最小的值,%表示为取余操作;
步骤2-2.搭建改进的YOLOv5模型的主干层:引入CBAM注意力机制改进C3结构,将其命名为C3A,且内部结构包括一个C3结构与一个CBAM注意力机制模块;C3结构包括两层卷积层与一次特征相加操作,通过对特征相加操作后输出的特征F,进入CBAM注意力机制模块,进行两步特征提取,最终输出提取后的结果,两步特征提取如公式(1)(2)所示:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F))) (1)
Ms(F)=σ(f7×7([Avgpool(Mc(F));Maxpool(Mc(F))])) (2)
其中,Mc(F)为公式(1)特征提取后的输出值,AvgPool为平均池化层,MaxPool为最大池化层,MLP为两层神经元,f7×7为7×7的卷积,Ms(F)为第二步特征提取后的输出值,即最终输出值;
步骤2-3.搭建改进的YOLOv5模型的颈部层:采用FPN与PAN结构,对主干层输出的特征进行融合;
步骤2-4.搭建改进的YOLOv5模型的头部层:对采用FPN与PAN融合后的特征进行预测,使用CIOU_Loss作为预测框的损失函数与加权NMS方法对锚框进行筛选,CIOU_Loss函数如下:
其中,ρ2(B,Bgt)表示预测框和真实框他们中心点的距离,B表示为预测框,Bgt表示为真实框,B∩Bgt为预测框与真实框之间的并集,B∪Bgt为预测框与真实框之间的交集,w表示为预测框的宽度,h表示预测框的高度,wgt为真实框的宽度,hgt表示为真实框的高度,c2表示预测框与真实框形成的外接矩形对角线的长度;
步骤2-5.将行人数据集中针对改进的YOLOv5模型训练数据集输入,将图片尺寸设置为608×608,batch-size设置为16,共训练260个epoch;一个epoch即训练集中的所有图片都在改进的YOLOv5模型中正向与反向各传播一次进行训练,得到效果最优的改进的YOLOv5模型用于后续检测。
4.根据权利要求1所述的一种基于改进的YOLOv5和DeepSORT的行人追踪方法,其特征在于,步骤3中所述的搭建改进的DeepSORT模型并进行训练,包括:
步骤3-1.使用改进的YOLOv5模型作为改进的DeepSORT模型的目标检测器;
步骤3-2.使用卡尔曼滤波算法做位置预测器;
步骤3-2.使用行人数据集中针对行人重识别的数据集对FastReID特征提取网络进行训练,训练完成后使用FastReID特征提取网络替换DeepSORT模型的原特征提取网络;使用随机裁剪与镜像操作对数据进行增强;主干层中FastReID特征提取网络采用Resnet、ResNest和ResNext网络来提取数据增强后的目标特征,同时加入IBN和类注意力机制Non-local机制来提取目标特征;在聚合中,算法使用平均池化、最大池化,广义均值池化和注意力池化四类池化方法对主干层中提取的特征进一步优化;在头部层,通过全局向量表示聚合优化后的特征,进而转化到决策层进行预测;损失函数采用Tripletloss与Circle loss,扩大对头部层预测的负样本结果距离,并拉近头部层预测的正样本结果距离;特征为经过头部层后输出的预测框特征;在度量距离中使用经典的DSR算法求出行人数据集中标注结果与预测框特征结果的最短距离值;后处理的QE对初排序的度量距离最近的m个目标的特征和query的特征求平均值,其中query的特征值为每次传来的m个目标特征值与query特征值的平均值,初始值为0,求出均值后,进行重新求距离和排序;其评价指标使用经典的Rank、mAP;可视化即排序后的最优结果输出的过程,使用FastReID特征提取网络训练的数据集结果;
步骤3-3.使用匈牙利算法作为特征匹配器,用余弦距离计算检测框经过向量化得到的近似度,利用匈牙利算法对前后两帧中检测框内行人进行匹配;若匹配度高,则认定前后为同一人员,并进行统一ID编号;
步骤3-4.使用级联匹配模块,对追踪过程中出现频率更高的目标赋予其优先权,以此解决当目标被长时间遮挡时,得到的预测不准确问题。
5.根据权利要求1所述的一种基于改进的YOLOv5和DeepSORT的行人追踪方法,其特征在于,步骤4中所述的对检测结果使用区间重叠检测算法过滤误检单位,包括:
步骤4-1.使用改进的YOLOv5模型对视频逐帧检测,对其结果进行筛选,过滤置信度小于阈值的结果;
步骤4-2.对过滤置信度小于阈值后的结果进行重叠检测,假定其对行人检测的空间坐标为(x1,y1,x2,y2),与行人误检单位的空间坐标为(a1,b1,a2,b2),其中x1、x2为行人结果框的左右边界,y1、y2为行人结果框的上下边界,a1、a2为误检单位结果框的左右边界,b1、b2为误检单位结果框的上下边界;其中λ为影响因子,设置为0.95使用公式(4)进行判别:
过滤ErrThreshold大于阈值的结果,将保留的检测结果输入改进的DeepSORT模型进行行人追踪;区间重叠检测算法通过分析置信度与检测框的交并比,过滤与行人发生误检的单位。
6.根据权利要求1所述的一种基于改进的YOLOv5和DeepSORT的行人追踪方法,其特征在于,步骤5中所述的使用改进的YOLOv5和DeepSORT模型进行行人追踪,包括:
步骤5-1.获取视频,按照一秒取2帧图片,按前后顺序分别进入检测;
步骤5-2.进入改进的YOLOv5模型,通过主干层进行特征提取,将提取后的特征进入颈部层进行融合,最终将融合后的特征进行检测输出;
步骤5-3.对检测输出后的结果,进入区间重叠检测算法,通过分析置信度与检测框的交并比,过滤与行人发生误检的单位,最终只保留行人单位进行输出;
步骤5-4.对行人单位输出结果进行初始化,其中(u,v)表示为行人单位候选框的中心坐标,y表示为纵横比,h表示为高度,其余四个参数表示前四个参数在图像坐标系中各自对应的速度信息;利用基于匀速运动和线性观测模型的标准卡尔曼滤波器来对目标的轨迹状态进行预测更新,使用(u,v,y,h)表示行人目标状态的观测变量,得到经过卡尔曼滤波算法后的预测框;
步骤5-5.通过计算检测位置与卡尔曼滤波器预测位置之间的马氏距离,对行人运动信息框进行关联,并更新时间标志;
步骤5-6.对关联后的行人运动信息框与第二帧检测传来的行人检测框进行IOU匹配,设定阈值,确认跟踪状态并进行级联匹配;跟踪状态分为三种:confirmed、unconfirmed和deleted;所述IOU匹配是指:把unconfirmed轨迹和上一帧匹配到的confirmed轨迹,通过匈牙利算法进行匹配,对经过匈牙利算法匹配后的结果,再次进行级联匹配操作,把很久没匹配到的confirmed轨迹与未匹配到的unconfirmed轨迹进行删除,将没匹配到的目标赋予优先级分配新的轨迹,以保证对最近出现的目标赋予最大匹配优先权;
步骤5-7.对经过匹配成功后的结果即confirmed跟踪状态,进行跟踪结果存储并可视化输出,同时进入更新模块;对匹配成功后的每一个追踪目标构建一个容器,即追踪器,存储每一个追踪目标最近成功关联的特征向量,更新追踪器;
步骤5-8对经过匹配未成功的结果,即unconfirmed跟踪状态,使用FastReID特征提取网络对其结果进行特征框提取,得到相应特征向量,使用特征提取后的特征向量,计算与当前容器内的特征向量之间的最小余弦距离;若余弦距离小于阈值,则再次进入卡尔曼滤波器,通过马氏距离,对行人运动信息框进行关联进行第二次预测,并更新时间标志;若余弦距离大于阈值,则将其跟踪状态标记成deleted,进行删除;对再次匹配,如果第二次匹配依旧失败,则将其跟踪状态标记为deleted,进行删除;若第二次匹配成功,则进行跟踪结果存储并可视化输出,并更新追踪器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210369883.8A CN114724082A (zh) | 2022-04-08 | 2022-04-08 | 一种基于改进的YOLOv5和DeepSORT的行人追踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210369883.8A CN114724082A (zh) | 2022-04-08 | 2022-04-08 | 一种基于改进的YOLOv5和DeepSORT的行人追踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114724082A true CN114724082A (zh) | 2022-07-08 |
Family
ID=82241352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210369883.8A Pending CN114724082A (zh) | 2022-04-08 | 2022-04-08 | 一种基于改进的YOLOv5和DeepSORT的行人追踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114724082A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115331177A (zh) * | 2022-09-28 | 2022-11-11 | 济南驰昊电力科技有限公司 | 一种矿山场景下智能告警方法、可读介质及告警终端 |
CN115375736A (zh) * | 2022-10-25 | 2022-11-22 | 威海市博华医疗设备有限公司 | 一种基于图像的行人轨迹跟踪方法和装置 |
CN115761646A (zh) * | 2022-12-06 | 2023-03-07 | 武汉纺织大学 | 一种面向工业园区的行人跟踪方法、设备及存储介质 |
CN116245916A (zh) * | 2023-05-11 | 2023-06-09 | 中国人民解放军国防科技大学 | 一种面向无人艇的红外舰船目标跟踪方法及装置 |
-
2022
- 2022-04-08 CN CN202210369883.8A patent/CN114724082A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115331177A (zh) * | 2022-09-28 | 2022-11-11 | 济南驰昊电力科技有限公司 | 一种矿山场景下智能告警方法、可读介质及告警终端 |
CN115375736A (zh) * | 2022-10-25 | 2022-11-22 | 威海市博华医疗设备有限公司 | 一种基于图像的行人轨迹跟踪方法和装置 |
CN115761646A (zh) * | 2022-12-06 | 2023-03-07 | 武汉纺织大学 | 一种面向工业园区的行人跟踪方法、设备及存储介质 |
CN116245916A (zh) * | 2023-05-11 | 2023-06-09 | 中国人民解放军国防科技大学 | 一种面向无人艇的红外舰船目标跟踪方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304798B (zh) | 基于深度学习及运动一致性的街面秩序事件视频检测方法 | |
Zheng et al. | A novel background subtraction algorithm based on parallel vision and Bayesian GANs | |
CN114724082A (zh) | 一种基于改进的YOLOv5和DeepSORT的行人追踪方法 | |
EP3633615A1 (en) | Deep learning network and average drift-based automatic vessel tracking method and system | |
CN108062525B (zh) | 一种基于手部区域预测的深度学习手部检测方法 | |
CN109977782B (zh) | 基于目标位置信息推理的跨店经营行为检测方法 | |
CN112215128B (zh) | 融合fcos的r-cnn城市道路环境识别方法及装置 | |
Kim et al. | Deep traffic light detection for self-driving cars from a large-scale dataset | |
CN111767847B (zh) | 一种集成目标检测和关联的行人多目标跟踪方法 | |
Han et al. | Laneformer: Object-aware row-column transformers for lane detection | |
Li et al. | Power line detection by pyramidal patch classification | |
CN113516664A (zh) | 一种基于语义分割动态点的视觉slam方法 | |
Guan et al. | Unsupervised domain adaptation for multispectral pedestrian detection | |
CN112287906B (zh) | 一种基于深度特征融合的模板匹配跟踪方法及系统 | |
CN114049572A (zh) | 识别小目标的检测方法 | |
Chen et al. | Vehicles detection on expressway via deep learning: Single shot multibox object detector | |
Dewangan et al. | Towards the design of vision-based intelligent vehicle system: methodologies and challenges | |
Valappil et al. | CNN-SVM based vehicle detection for UAV platform | |
CN114463390A (zh) | 耦合车队跟驰强化的多孪生对抗网络跨相机车辆追踪方法 | |
Zheng et al. | Dim target detection method based on deep learning in complex traffic environment | |
CN114926859A (zh) | 一种结合头部跟踪的密集场景下行人多目标跟踪方法 | |
CN116977935A (zh) | 一种融合语义信息行人流量计数方法 | |
CN111275733A (zh) | 基于深度学习目标检测技术实现多艘船舶快速跟踪处理的方法 | |
CN114067359B (zh) | 融合人体关键点与可见部位注意力特征的行人检测方法 | |
CN115861944A (zh) | 一种基于激光雷达的交通目标检测系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |