CN116129312A - 一种基于目标检测模型和DeepSort的坦克装甲车流量检测方法 - Google Patents

一种基于目标检测模型和DeepSort的坦克装甲车流量检测方法 Download PDF

Info

Publication number
CN116129312A
CN116129312A CN202310041041.4A CN202310041041A CN116129312A CN 116129312 A CN116129312 A CN 116129312A CN 202310041041 A CN202310041041 A CN 202310041041A CN 116129312 A CN116129312 A CN 116129312A
Authority
CN
China
Prior art keywords
module
silu
conv
concat
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310041041.4A
Other languages
English (en)
Inventor
刘霖
朱广昊
章浩飞
张敬敏
李嘉琛
郝如茜
王祥舟
杜晓辉
刘娟秀
张静
刘永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Ordnance Equipment Group Ordnance Equipment Research Institute
University of Electronic Science and Technology of China
Original Assignee
China Ordnance Equipment Group Ordnance Equipment Research Institute
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Ordnance Equipment Group Ordnance Equipment Research Institute, University of Electronic Science and Technology of China filed Critical China Ordnance Equipment Group Ordnance Equipment Research Institute
Priority to CN202310041041.4A priority Critical patent/CN116129312A/zh
Publication of CN116129312A publication Critical patent/CN116129312A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration using histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/92Dynamic range modification of images or parts thereof based on global image properties
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Aiming, Guidance, Guns With A Light Source, Armor, Camouflage, And Targets (AREA)
  • Toys (AREA)

Abstract

本文发明了一种基于目标检测模型和DeepSort的坦克装甲车流量检测方法,通过构建并训练目标检测模型来进行坦克装甲车目标的检测,结合实时性高的DeepSort算法进行目标跟踪,弥补了所拍摄视频中坦克装甲车相互遮挡,特征不明显导致的难以检测和跟踪的问题,具有操作简单、检测精度高、实时性好、漏检率低的效果。

Description

一种基于目标检测模型和DeepSort的坦克装甲车流量检测方法
技术领域
本发明属于目标识别技术领域,更具体地讲,是一种基于目标检测模型和DeepSort的坦克装甲车流量检测方法。
背景技术
在军事领域,目标检测技术的发展对未来战争的走向有着至关重要的影响。高强度和快节奏的全信息化作战水平的迅速提升,实现车辆目标和其它军事目标的检测,对人力物力提出了更高的要求和挑战,而且需要保证检测结果的实时性和准确率。针对陆战之王坦克装甲来说,这就要求坦克装甲车辆的控制系统和坦克操作人员需要在极短的时间对大量的战场环境信息做出综合处理。在当前高标准的训练下,坦克装甲车辆的控制系统成为了解决这个问题的关键突破口,坦克装甲车辆的控制系统必须要具备自动搜索、快速检测目标的能力。
为解决上述问题,本发明提出了一种基于目标检测模型和DeepSort的坦克装甲车流量检测方法,利用从视频中获取的数据集进行训练和测试,通过构建目标检测模型进行坦克装甲车目标检测,利用无迹卡尔曼滤波器估计目标在当前帧的位置,融合马氏距离和最小余弦距离进行目标匹配,并对坦克装甲车进行跟踪,具有精度高、检测效率高、漏检率低的效果。
发明内容
本发明为克服现有技术的不足,提供了一种基于目标检测模型和DeepSort的坦克装甲车流量检测的方法。结合实时性很高的DeepSort算法进行多目标跟踪,使深度学习模型在视频中进行坦克装甲车流量检测的检测精度和速度提升。
为实现上述发明目的,本文发明一种基于目标检测模型和DeepSort的坦克装甲车流量检测方法,包括以下步骤:
步骤1:获取视频数据集并进行像素值归一化;
步骤2:对步骤1中的数据集进行抽帧处理并保存到本地,对其中的坦克装甲车进行格式的标注,生成式txt标签文件,其中每一行代表一个目标框,每行包含的参数包括:物体类别object-class、目标框中心横坐标x、目标框中心纵坐标y、目标框宽度width、目标框高度height;
步骤3:对步骤2中获取的图像数据集进行数据增强,为解决图像因光照不均因素造成的物体轮廓模糊、画面不清晰,采用限制对比度自适应直方图均衡(Contrast LimitedAdaptive Histogram Equalization,CLAHE)来进行预处理;
步骤3-1:对图像颜色空间进行转换,从RGB通道转换为HSV通道;
步骤3-2:对HSV通道中的V分量使用CLAHE算法;
步骤3-3:将步骤3-2处理后的明度通道图与原有的色调、饱和度拼接,得到数据增强后的HSV通道;将处理后的图像分为训练集和测试集;
步骤4:建立目标检测模型;
该目标检测模型由输入到输出依次包括:Backbone模块、Neck模块、Head模块,其中,所述Backbone模块由输入到输出依次为:Inputs模块、第一Conv-BN-SiLU模块、第二Conv-BN-SiLU模块、第三Conv-BN-SiLU模块、第四Conv-BN-SiLU模块、第一ELAN模块、第一SimAM模块、第一MPConv模块、第二ELAN模块、第二MPConv模块、第三ELAN模块、第二SimAM模块、第三MPConv模块、第四ELAN模块、第三SimAM模块、SPPCSPC模块;
所述Neck模块包括:第五、六、七、八Conv-BN-SiLU模块,第一、二、三、四Concat+ELAN模块,第一、二UpSampling2D模块,第四、五MPConv模块,所述Backbone模块中的第二ELAN模块、第二SimAM模块的输出依次分别作为所述第五Conv-BN-SiLU模块、第六Conv-BN-SiLU模块的输入,所述Backbone模块中的SPPCSPC模块的输出分为两路,分别作为第八Conv-BN-SiLU模块和第四Concat+ELAN模块的输入;所述第八Conv-BN-SiLU模块输出给第二UpSampling2D模块,第二UpSampling2D模块输出给第二Concat+ELAN模块,第六Conv-BN-SiLU模块输出给第二Concat+ELAN模块;第二Concat+ELAN模块输出分为两路,第一路依次经过第七Conv-BN-SiLU模块、第一UpSampling2D模块、第一Concat+ELAN模块,第二路输出给第三Concat+ELAN模块;所述第五Conv-BN-SiLU模块输出给第一Concat+ELAN模块;第一Concat+ELAN模块的输出分为两路,第一路输出给第一RepConv模块,第二路经过第四MPConv模块到达第三Concat+ELAN模块;第三Concat+ELAN模块输出分为两路,第一路输出给第二RepConv模块,第二路经过第五MPConv模块到达第四Concat+ELAN模块,所述第四Concat+ELAN模块的输出给第三RepConv模块;
所述Head模块包括三个YoloHead模块,分别对应接收第一、第二、第三RepConv模块的输出;
所述SPPCSPC模块包括,Inputs模块,Inputs模块的输出分为两路,一路依次经过三个Conv-BN-SiLU模块,最后一个Conv-BN-SiLU模块的输出分为四路,其中三路分别输出给三个MaxPool模块,剩下的一路和三个MaxPool模块的输出一起输入给连续两个Concat+Conv-BN-SiLU模块,最后一个Concat+Conv-BN-SiLU模块和Inputs模块的的输出经过一个Conv-BN-SiLU模块后一起输如给一个Concat+Conv-BN-SiLU模块;
所述ELAN模块包括:Inputs模块,Inputs模块的输出分为两路,其中一路经过一个Conv-BN-SiLU模块1到达Concat+Conv-BN-SiLU模块,另一路经过一个Conv-BN-SiLU模块2后又分为两路,一路直接到Concat+Conv-BN-SiLU模块另一路依次经过两个Conv-BN-SiLU模块分为两路,其中一路直接到Concat+Conv-BN-SiLU模块,另一路经过两个Conv-BN-SiLU模块后到达Concat+Conv-BN-SiLU模块;
所述MPConv模块包括:Inputs模块,Inputs模块的输出分为两路,其中一路经过MaxPool-2D模块、Conv-BN-SiLU模块后到达Concat模块,另一路经过Conv-BN-SiLU模块、Focus模块、Conv-BN-SiLU模块后到达Concat模块;
步骤5:使用步骤4建立的模型和经过数据增强的数据集中的训练样本集进行训练,直到训练完成;
步骤6:对输入的视频文件进行抽帧,使用步骤5训练好的模型进行坦克装甲车目标检测,目标检测的具体步骤如下:
步骤6-1:对模型加载训练好的权值,构建数据集加载器,将图像像素值归一化,并进行图像的缩放;
步骤6-2:进行前向传播,得到预测值,将预测结果进行解码,得到预测框的位置及大小,进行非极大值抑制(Non-Maximum Suppression,NMS),删除重叠候选框;
步骤6-3:将检测结果进行保存;
步骤7:进行位置预测;
由于坦克装甲车行进方向灵活,战场环境随机变化,无法满足完全线性的条件,利用无迹卡尔曼滤波(Unscented Kalman Filter,UKF)估计确认态和非确认态轨迹中目标在当前帧中的位置,相较于标准卡尔曼滤波估计的精度较高,稳定性较好;
步骤8:进行目标匹配,建立目标轨迹;
步骤9:反复循环步骤7-步骤8,直到视频结束;
步骤10:输出目标位置及ID,并进行轨迹管理。
进一步的,所述步骤5的详细方法为:
具体步骤如下:
步骤5-1:对训练样本集进行马赛克数据增强和mixup数据增强,在马赛克数据增强中,随机使用4张图片,随机缩放,再随机分布进行拼接,可以丰富数据集,而且随机缩放时增加了许多小目标,增强网络鲁棒性,且由于将4张图片拼接为了1个,所以Mini-batch大小不需要很大,减少GPU的占用。在mixup数据增强中,从每个batch中随机选择两张图像,并以一定比例混合生成新的图像。
步骤5-2:为了满足性能不足的机器的训练需求,将训练分为两个阶段,分别为冻结阶段和解冻阶段,在冻结阶段,将模型的主干部分冻结,即特征提取网络不发生改变,此时占用的显存较小,在解冻阶段,模型主干不被冻结,即特征提取网络会发生改变,此时占用的显存较大;
步骤5-3:根据显存设置batch size,最小为2,不能为1,在冻结阶段,显存占用较小,可以采用较大的batch size,在解冻阶段,显存占用较大,可以采用较小的batch size。接着设置使用的优化器、momentum参数、权值衰减以及学习率;
步骤5-4:构建数据集加载器,下载预训练权重并进行加载,开始模型训练,当损失基本上不改变时,模型基本收敛,保存训练好的权值文件;
步骤5-5:对于数据集中的测试样本集,进行批量测试,保存最佳模型进行目标检测。
进一步的,所述步骤8的具体步骤为:
步骤8-1:将确认态轨迹预测框与检测框进行级联匹配;
步骤8-2:计算基于运动信息的马氏距离,提供有关目标的可能位置的信息,对短期预测有效;
步骤8-3:通过ReID模型提取目标的外观特征信息,ReID模型选用卷积神经网络ResNet-50,并对其进行优化,选用rAdam优化器;
步骤8-4:根据提取到的外观特征信息计算最小余弦距离,这对长期遮挡的目标找回ID比较有效,因为此时运动不具有辨别力;
步骤8-5:将两种度量方式进行线性加权,作为级联匹配的代价矩阵,对检测的目标和预测目标进行相似度对比;
步骤8-6:采用匈牙利算法进行级联匹配,如果匹配成功,则更新UKF中其对应的轨迹,如果匹配失败,将确定态失配的预测框和检测框与不确定态的预测框一起进行IoU匹配,计算代价矩阵;
步骤8-7:将步骤8-6得到的代价矩阵作为匈牙利算法输入,得到匹配结果。对失配的UKF预测框进行判断,如果是非确定态的框,删除,如果是确定态的框,达到一定失配次数后可以删除;对于失配的检测框,初始化为新的轨迹;对于匹配成功的检测框,更新UKF中其对应的轨迹;当成功匹配三次后,将对应的不确定态轨迹转化为确定态。
本文发明了一种基于目标检测模型和DeepSort的坦克装甲车流量检测方法,通过构建并训练目标检测模型来进行坦克装甲车目标的检测,结合实时性高的DeepSort算法进行目标跟踪,弥补了视频中坦克装甲车相互遮挡,特征不明显导致的难以检测和跟踪的问题,具有操作简单、检测精度高、实时性好、漏检率低的效果。
附图说明
图1为本发明基于目标检测模型和DeepSort的坦克装甲车流量检测方法流程图;
图2为步骤8目标匹配的流程图;
图3为本发明构建的目标检测模型网络结构图;
图4为识别结果图示例。
具体实施方式
下面结合附图,对本发明的具体实施方案进行详细说明,以便本领域的技术人员能够更好地理解本发明。需要特别注意的是,在以下描述中,如果已知功能地详细描述会淡化本发明主要内容,这些描述会被忽略。
步骤1:获取视频数据集;
步骤2:对步骤1中的数据集进行抽帧处理并保存到本地,对其中的坦克装甲车进行格式的标注,生成txt标签文件,其中每一行代表一个目标框,每行包含的参数包括:物体类别object-class、目标框中心横坐标x、目标框中心纵坐标y、目标框宽度width、目标框高度height;
步骤3:对步骤2中获取的图像数据集进行数据增强,为解决图像因光照不均等因素造成的物体轮廓模糊、画面不清晰,采用了限制对比度自适应直方图均衡(ContrastLimited Adaptive Histogram Equalization,CLAHE)来进行预处理;
步骤3-1:对图像颜色空间进行转换,从RGB通道转换为HSV通道;
步骤3-2:对HSV通道中的V分量使用CLAHE算法;
步骤3-3:将步骤3-2处理后的明度通道图与原有的色调、饱和度拼接,得到数据增强后的HSV通道。将处理后的图像分为训练集和测试集;
步骤4:目标检测模型,具体步骤如下:
步骤4-1:采用了创新的多分支堆叠结构进行特征提取,Neck部分也采用多分支堆叠结构进行特征提取,并采用具有CSP结构的SPP扩大感受野;
步骤4-2:改进MPConv模块;MPConv模块中下分支为k=1,s=1的卷积后连接一个k=3,s=2的卷积,利用卷积级联得到了更多的图像细节信息,但k=3,s=2的卷积会造成一些细粒度丢失,为避免特征丢失,添加Focus层,采用切片操作把1个高分辨率图片分为4个低分辨率图片,再按照通道进行拼接,经过Focus层后通过1×1卷积,在不丢失特征同时达到了特征图尺寸减半的目的。将Neck结构中的MPConv模块替换为改进后的MPConv模块;
步骤4-3:采用SIoU损失函数,将角度成本纳入考虑,减少惩罚项为0的概率,使损失收敛更加平稳,降低预测误差;
步骤4-4:由于视频图像较模糊,影响模型对图像中坦克装甲车的特征提取,在Backbone结构中添加了SimAM模块,在不增加额外参数量的同时,对带有关键信息的神经元赋予更高权重,提高了模型提取关键特征的能力;
步骤5:使用步骤4得到的模型和经过数据增强的数据集中的训练样本集进行训练,直到训练完成,具体步骤如下:
步骤5-1:对训练样本集进行马赛克数据增强和mixup数据增强,在马赛克数据增强中,随机使用4张图片,随机缩放,再随机分布进行拼接,可以丰富数据集,而且随机缩放时增加了许多小目标,增强网络鲁棒性,且由于将4张图片拼接为了1个,所以Mini-batch大小不需要很大,减少GPU的占用。在mixup数据增强中,从每个batch中随机选择两张图像,并以一定比例混合生成新的图像;
步骤5-2:为了满足性能不足的机器的训练需求,将训练分为两个阶段,分别为冻结阶段和解冻阶段,在冻结阶段,将模型的主干部分冻结,即特征提取网络不发生改变,此时占用的显存较小,在解冻阶段,模型主干不被冻结,即特征提取网络会发生改变,此时占用的显存较大;
步骤5-3:根据显存设置batch size,最小为2,不能为1,在冻结阶段,显存占用较小,可以采用较大的batch size,在解冻阶段,显存占用较大,可以采用较小的batch size。接着设置使用的优化器、momentum参数、权值衰减以及学习率;
步骤5-4:构建数据集加载器,下载预训练权重并进行加载,开始模型训练,当损失基本上不改变时,模型基本收敛,保存训练好的权值文件;
步骤5-5:对于数据集中的测试样本集,进行批量测试,保存最佳模型进行目标检测;
步骤6:对输入的视频文件进行抽帧,使用步骤5-5得到的模型进行坦克装甲车目标检测,目标检测的具体步骤如下:
步骤6-1:构建模型,加载训练好的权值,构建数据集加载器,将图像像素值归一化为0和1之间的值,并进行图像的缩放;
步骤6-2:进行前向传播,得到预测值,将预测结果进行解码,得到预测框的位置及大小,进行非极大值抑制(Non-Maximum Suppression,NMS),删除重叠候选框;
步骤6-3:将检测结果进行保存;
步骤7:进行位置预测。由于坦克装甲车行进方向灵活,战场环境随机变化,无法满足完全线性的条件,利用无迹卡尔曼滤波(Unscented Kalman Filter,UKF)估计确认态和非确认态轨迹中目标在当前帧中的位置,相较于标准卡尔曼滤波估计的精度较高,稳定性较好;
步骤8:进行目标匹配,具体步骤如下:
步骤8-1:将确认态轨迹预测框与检测框进行级联匹配;
步骤8-2:计算基于运动信息的马氏距离,提供有关目标的可能位置的信息,对短期预测有效;
步骤8-3:通过ReID模型提取目标的外观特征信息,ReID模型选用卷积神经网络ResNet-50,并对其进行优化,选用rAdam优化器;
步骤8-4:根据提取到的外观特征信息计算最小余弦距离,这对长期遮挡的目标找回ID比较有效,因为此时运动不具有辨别力;
步骤8-5:将两种度量方式进行线性加权,作为级联匹配的代价矩阵,对检测的目标和预测目标进行相似度对比;
步骤8-6:采用匈牙利算法进行级联匹配,如果匹配成功,则更新UKF中其对应的轨迹,如果匹配失败,将确定态失配的预测框和检测框与不确定态的预测框一起进行IoU匹配,计算代价矩阵;
步骤8-7:将步骤8-6得到的代价矩阵作为匈牙利算法输入,得到匹配结果。对失配的UKF预测框进行判断,如果是非确定态的框,删除,如果是确定态的框,达到一定失配次数后可以删除;对于失配的检测框,初始化为新的轨迹;对于匹配成功的检测框,更新UKF中其对应的轨迹。当成功匹配三次后,将对应的不确定态轨迹转化为确定态;
步骤9:反复循环步骤7-步骤8,直到视频结束;
步骤10:输出目标位置及ID,并进行轨迹管理。

Claims (3)

1.一种基于目标检测模型和DeepSort的坦克装甲车流量检测方法,包括以下步骤:
步骤1:获取视频数据集并进行像素值归一化;
步骤2:对步骤1中的数据集进行抽帧处理并保存到本地,对其中的坦克装甲车进行格式的标注,生成式txt标签文件,其中每一行代表一个目标框,每行包含的参数包括:物体类别object-class、目标框中心横坐标x、目标框中心纵坐标y、目标框宽度width、目标框高度height;
步骤3:对步骤2中获取的图像数据集进行数据增强;
步骤3-1:对图像颜色空间进行转换,从RGB通道转换为HSV通道;
步骤3-2:对HSV通道中的V分量使用CLAHE算法;
步骤3-3:将步骤3-2处理后的明度通道图与原有的色调、饱和度拼接,得到数据增强后的HSV通道;将处理后的图像分为训练集和测试集;
步骤4:建立目标检测模型;
该目标检测模型由输入到输出依次包括:Backbone模块、Neck模块、Head模块,其中,所述Backbone模块由输入到输出依次为:Inputs模块、第一Conv-BN-SiLU模块、第二Conv-BN-SiLU模块、第三Conv-BN-SiLU模块、第四Conv-BN-SiLU模块、第一ELAN模块、第一SimAM模块、第一MPConv模块、第二ELAN模块、第二MPConv模块、第三ELAN模块、第二SimAM模块、第三MPConv模块、第四ELAN模块、第三SimAM模块、SPPCSPC模块;
所述Neck模块包括:第五、六、七、八Conv-BN-SiLU模块,第一、二、三、四Concat+ELAN模块,第一、二UpSampling2D模块,第四、五MPConv模块,所述Backbone模块中的第二ELAN模块、第二SimAM模块的输出依次分别作为所述第五Conv-BN-SiLU模块、第六Conv-BN-SiLU模块的输入,所述Backbone模块中的SPPCSPC模块的输出分为两路,分别作为第八Conv-BN-SiLU模块和第四Concat+ELAN模块的输入;所述第八Conv-BN-SiLU模块输出给第二UpSampling2D模块,第二UpSampling2D模块输出给第二Concat+ELAN模块,第六Conv-BN-SiLU模块输出给第二Concat+ELAN模块;第二Concat+ELAN模块输出分为两路,第一路依次经过第七Conv-BN-SiLU模块、第一UpSampling2D模块、第一Concat+ELAN模块,第二路输出给第三Concat+ELAN模块;所述第五Conv-BN-SiLU模块输出给第一Concat+ELAN模块;第一Concat+ELAN模块的输出分为两路,第一路输出给第一RepConv模块,第二路经过第四MPConv模块到达第三Concat+ELAN模块;第三Concat+ELAN模块输出分为两路,第一路输出给第二RepConv模块,第二路经过第五MPConv模块到达第四Concat+ELAN模块,所述第四Concat+ELAN模块的输出给第三RepConv模块;
所述Head模块包括三个YoloHead模块,分别对应接收第一、第二、第三RepConv模块的输出;
所述SPPCSPC模块包括,Inputs模块,Inputs模块的输出分为两路,一路依次经过三个Conv-BN-SiLU模块,最后一个Conv-BN-SiLU模块的输出分为四路,其中三路分别输出给三个MaxPool模块,剩下的一路和三个MaxPool模块的输出一起输入给连续两个Concat+Conv-BN-SiLU模块,最后一个Concat+Conv-BN-SiLU模块和Inputs模块的的输出经过一个Conv-BN-SiLU模块后一起输如给一个Concat+Conv-BN-SiLU模块;
所述ELAN模块包括:Inputs模块,Inputs模块的输出分为两路,其中一路经过一个Conv-BN-SiLU模块1到达Concat+Conv-BN-SiLU模块,另一路经过一个Conv-BN-SiLU模块2后又分为两路,一路直接到Concat+Conv-BN-SiLU模块另一路依次经过两个Conv-BN-SiLU模块分为两路,其中一路直接到Concat+Conv-BN-SiLU模块,另一路经过两个Conv-BN-SiLU模块后到达Concat+Conv-BN-SiLU模块;
所述MPConv模块包括:Inputs模块,Inputs模块的输出分为两路,其中一路经过MaxPool-2D模块、Conv-BN-SiLU模块后到达Concat模块,另一路经过Conv-BN-SiLU模块、Focus模块、Conv-BN-SiLU模块后到达Concat模块;
步骤5:使用步骤4建立的模型和经过数据增强的数据集中的训练样本集进行训练,直到训练完成;
步骤6:对输入的视频文件进行抽帧,使用步骤5训练好的模型进行坦克装甲车目标检测,目标检测的具体步骤如下:
步骤6-1:对模型加载训练好的权值,构建数据集加载器,将图像像素值归一化,并进行图像的缩放;
步骤6-2:进行前向传播,得到预测值,将预测结果进行解码,得到预测框的位置及大小,进行非极大值抑制,删除重叠候选框;
步骤6-3:将检测结果进行保存;
步骤7:进行位置预测;
由于坦克装甲车行进方向灵活,战场环境随机变化,无法满足完全线性的条件,利用无迹卡尔曼滤波估计确认态和非确认态轨迹中目标在当前帧中的位置;
步骤8:进行目标匹配,建立目标轨迹;
步骤9:反复循环步骤7-步骤8,直到视频结束;
步骤10:输出目标位置及ID,并进行轨迹管理。
2.如权利要求1所述的一种基于目标检测模型和DeepSort的坦克装甲车流量检测方法,其特征在于,所述步骤5的详细方法为:
具体步骤如下:
步骤5-1:对训练样本集进行马赛克数据增强和mixup数据增强,在马赛克数据增强中,随机使用4张图片,随机缩放,再随机分布进行拼接,可以丰富数据集,而且随机缩放时增加了许多小目标,增强网络鲁棒性,且由于将4张图片拼接为了1个,所以Mini-batch大小不需要很大,减少GPU的占用。在mixup数据增强中,从每个batch中随机选择两张图像,并以一定比例混合生成新的图像。
步骤5-2:为了满足性能不足的机器的训练需求,将训练分为两个阶段,分别为冻结阶段和解冻阶段,在冻结阶段,将模型的主干部分冻结,即特征提取网络不发生改变,此时占用的显存较小,在解冻阶段,模型主干不被冻结,即特征提取网络会发生改变,此时占用的显存较大;
步骤5-3:根据显存设置batch size,最小为2,不能为1,在冻结阶段,显存占用较小,可以采用较大的batch size,在解冻阶段,显存占用较大,可以采用较小的batch size。接着设置使用的优化器、momentum参数、权值衰减以及学习率;
步骤5-4:构建数据集加载器,下载预训练权重并进行加载,开始模型训练,当损失基本上不改变时,模型基本收敛,保存训练好的权值文件;
步骤5-5:对于数据集中的测试样本集,进行批量测试,保存最佳模型进行目标检测。
3.如权利要求1所述的一种基于目标检测模型和DeepSort的坦克装甲车流量检测方法,其特征在于,所述步骤8的具体步骤为:
步骤8-1:将确认态轨迹预测框与检测框进行级联匹配;
步骤8-2:计算基于运动信息的马氏距离,提供有关目标的可能位置的信息,对短期预测有效;
步骤8-3:通过ReID模型提取目标的外观特征信息,ReID模型选用卷积神经网络ResNet-50,并对其进行优化,选用rAdam优化器;
步骤8-4:根据提取到的外观特征信息计算最小余弦距离,这对长期遮挡的目标找回ID比较有效,因为此时运动不具有辨别力;
步骤8-5:将两种度量方式进行线性加权,作为级联匹配的代价矩阵,对检测的目标和预测目标进行相似度对比;
步骤8-6:采用匈牙利算法进行级联匹配,如果匹配成功,则更新UKF中其对应的轨迹,如果匹配失败,将确定态失配的预测框和检测框与不确定态的预测框一起进行IoU匹配,计算代价矩阵;
步骤8-7:将步骤8-6得到的代价矩阵作为匈牙利算法输入,得到匹配结果。对失配的UKF预测框进行判断,如果是非确定态的框,删除,如果是确定态的框,达到一定失配次数后可以删除;对于失配的检测框,初始化为新的轨迹;对于匹配成功的检测框,更新UKF中其对应的轨迹;当成功匹配三次后,将对应的不确定态轨迹转化为确定态。
CN202310041041.4A 2023-01-13 2023-01-13 一种基于目标检测模型和DeepSort的坦克装甲车流量检测方法 Pending CN116129312A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310041041.4A CN116129312A (zh) 2023-01-13 2023-01-13 一种基于目标检测模型和DeepSort的坦克装甲车流量检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310041041.4A CN116129312A (zh) 2023-01-13 2023-01-13 一种基于目标检测模型和DeepSort的坦克装甲车流量检测方法

Publications (1)

Publication Number Publication Date
CN116129312A true CN116129312A (zh) 2023-05-16

Family

ID=86304272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310041041.4A Pending CN116129312A (zh) 2023-01-13 2023-01-13 一种基于目标检测模型和DeepSort的坦克装甲车流量检测方法

Country Status (1)

Country Link
CN (1) CN116129312A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116993776A (zh) * 2023-06-30 2023-11-03 中信重工开诚智能装备有限公司 一种人员轨迹追踪方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116993776A (zh) * 2023-06-30 2023-11-03 中信重工开诚智能装备有限公司 一种人员轨迹追踪方法
CN116993776B (zh) * 2023-06-30 2024-02-13 中信重工开诚智能装备有限公司 一种人员轨迹追踪方法

Similar Documents

Publication Publication Date Title
CN109753913B (zh) 计算高效的多模式视频语义分割方法
CN112215119B (zh) 一种基于超分辨率重建的小目标识别方法、装置及介质
CN111460936A (zh) 基于U-Net网络的遥感影像建筑物提取方法、系统、电子设备
CN113361645B (zh) 基于元学习及知识记忆的目标检测模型构建方法及系统
CN111914911B (zh) 一种基于改进深度相对距离学习模型的车辆再识别方法
CN113177528B (zh) 基于多任务学习策略训练网络模型的车牌识别方法及系统
CN116129312A (zh) 一种基于目标检测模型和DeepSort的坦克装甲车流量检测方法
CN115273154B (zh) 基于边缘重构的热红外行人检测方法、系统及存储介质
CN111126401A (zh) 一种基于上下文信息的车牌字符识别方法
CN113052170A (zh) 一种无约束场景下的小目标车牌识别方法
CN110569764B (zh) 一种基于卷积神经网络的手机型号识别方法
CN112149526A (zh) 一种基于长距离信息融合的车道线检测方法及系统
Dai et al. An efficient water segmentation method for SAR images
CN115115863A (zh) 水面多尺度目标检测方法、装置及系统和存储介质
CN118038163A (zh) 一种模型训练方法、跨域目标检测方法及电子设备
CN113989785A (zh) 一种驾驶场景分类方法、装置、设备及存储介质
CN110188752B (zh) 监控视频下模糊车牌的去模糊识别系统及去模糊识别方法
CN112084936A (zh) 一种人脸图像预处理方法、装置、设备及存储介质
WO2019129985A1 (fr) Procede de formation d'un reseau de neurones pour la reconnaissance d'une sequence de caracteres et procede de reconnaissance associe
CN115761667A (zh) 一种基于改进fcos算法的无人车辆搭载摄像头目标检测方法
CN115035429A (zh) 一种基于复合主干网络和多预测头的航拍目标检测方法
CN112487927B (zh) 一种基于物体关联注意力的室内场景识别实现方法及系统
CN114495160A (zh) 一种基于改进RFBNet算法的行人检测方法及系统
CN113850166A (zh) 一种基于卷积神经网络的船舶图像识别方法及系统
CN118334512B (zh) 基于ssim及级联深度神经网络的sar图像目标识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination