CN117333512A - 基于检测框跟踪的航拍小目标跟踪方法 - Google Patents

基于检测框跟踪的航拍小目标跟踪方法 Download PDF

Info

Publication number
CN117333512A
CN117333512A CN202311344197.6A CN202311344197A CN117333512A CN 117333512 A CN117333512 A CN 117333512A CN 202311344197 A CN202311344197 A CN 202311344197A CN 117333512 A CN117333512 A CN 117333512A
Authority
CN
China
Prior art keywords
frame
target
tracking
detection
aerial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311344197.6A
Other languages
English (en)
Inventor
齐恒
潘世抱
周弈志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202311344197.6A priority Critical patent/CN117333512A/zh
Publication of CN117333512A publication Critical patent/CN117333512A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

一种基于检测框跟踪的航拍小目标跟踪方法,属于计算机技术领域,旨在解决航拍小目标跟踪问题,要点是S1:对航拍数据集图像数据预处理;S2:将预处理后的图像数据集输入目标检测网络中训练,得到目标检测网络对应的检测权重;S3:跟踪模型输入目标检测网络检测到的候选框,对航拍小目标测试监测;S4:将测试监测所检测到的航拍小目标的位置信息,经过编号比对,进行可视化处理并进行记录,效果是结合目标检测和目标跟踪两个关键步骤,以提高跟踪的准确性和鲁棒性。

Description

基于检测框跟踪的航拍小目标跟踪方法
技术领域
本发明属于计算机技术领域,具体涉及一种航拍小目标跟踪方法。
背景技术
航拍小目标跟踪是指在航拍视频中,针对尺寸较小的目标进行实时跟踪和定位的技术。这些小目标可能是移动的车辆、行人、动物或其他感兴趣的目标。航拍小目标跟踪在许多应用领域具有重要的价值,如无人机监控、交通管理、环境监测等。
传统的航拍小目标跟踪方法通常采用基于特征的算法,如基于颜色、纹理或运动的特征进行目标检测和跟踪。然而,这些方法在面对复杂背景、光照变化和目标遮挡等挑战时表现不佳。因此,需要一种更为准确和鲁棒的航拍小目标跟踪方法。
在现实航拍环境下,感兴趣的目标在航拍视频中的尺寸通常较小,这增加了目标检测和跟踪的难度。小目标的低分辨率和模糊性可能导致目标难以准确检测和跟踪。此外,航拍视频中的背景通常是复杂多变的,可能包含大量干扰物体、纹理和结构。这些干扰物体可能与目标具有相似的外观特征,导致误检测和错误跟踪。其次,在航拍视频中,小目标可能会被其他物体或场景元素遮挡,例如树木、建筑物或其他运动物体。目标的遮挡会导致目标的部分或完全消失,使得跟踪算法无法准确追踪目标。最后,小目标在光照变化和快速运动以及姿态变化中也增大了跟踪的难度。
对此,中国专利申请CN202211668829.X公开了一种面向无人机航拍视频的在线多目标跟踪方法。通过多尺度像素目标检测网络从视频帧中提取出目标类别与边界框后,进一步通过多粒度融合特征提取网络提取目标的表观特征向量,然后基于时序与检测置信度的加权移动平均方法计算轨迹的表观特征向量,运用表观特征向量与卡尔曼运动模型对轨迹与检测结果进行数据关联,得到多目标跟踪的结果。但是该发明在提升精度的同时,没有考虑模型推理所需要的时间成本,并且训练得到的模型并不具有很好的鲁棒性,无法适应不同环境。因此现有技术需要一种能实时跟踪航拍小目标的算法,该方法精度应更为准确、鲁棒性更强。
发明内容
本发明旨在解决航拍小目标跟踪存在的上述问题,根据本申请的一些实施例的基于检测框跟踪的航拍小目标跟踪方法,具体包括:
S1:对航拍数据集图像数据预处理;
S2:将预处理后的图像数据集输入目标检测网络中训练,得到目标检测网络对应的检测权重;
S3:跟踪模型输入目标检测网络检测到的候选框,对航拍小目标测试监测;
S4:将测试监测所检测到的航拍小目标的位置信息,经过编号比对,进行可视化处理并进行记录。
根据本申请的一些实施例的基于检测框跟踪的航拍小目标跟踪方法,步骤S1具体包括
S1.1:收集公开航拍数据集,将多个数据集进行对比,选择合适的数据集进行数据增强;
S1.2:将得到的公开航拍数据集中含有干扰的数据标注进行清洗;
S1.3:将清洗后的数据划分为训练集、验证集以及测试集。
根据本申请的一些实施例的基于检测框跟踪的航拍小目标跟踪方法,目标检测网络是对航拍视频小目标改进的YOLOv5网络,包括以ResNet为主干的基准网络层、用于输出目标检测结果的Neck网络层、Head层以及经过非极大值抑制处理的输出端,其中:
基准网络层输出特征映射矩阵;
Neck网络层采用FPN与PAN的融合网络结构,其中,FPN表示特征金字塔网络,利用自上而下的上采样提取图像的强语义特征;PAN表示像素聚合网络,利用自下而上的网络提取图像的强定位特征;
输出层采用GIoU_Loss作为Boundingbox的损失函数,输出目标检测结果;
根据目标检测结果,采用非极大值抑制,消除同一个目标上的多个框以及堆叠在一起的输出边界框。
根据本申请的一些实施例的基于检测框跟踪的航拍小目标跟踪方法,步骤S2具体包括
S2.1:将步骤1划分出的数据经过数据增强,输入到目标检测网络的Backbone中,获得不同尺寸的特征图;
S2.2:将不同尺寸的特征图输入到Neck网络层,在Neck网络层中对特征图依次进行上下采样操作,使用融合的BiFPN的连接方式拼接生成多种尺寸的特征图;
S2.3:将生成的多尺寸特征图输入到Head层中;
S2.4:采用多种损失函数结合的方式进行反向传播,并根据梯度变化进行权重更新,得到检测权重。
根据本申请的一些实施例的基于检测框跟踪的航拍小目标跟踪方法,其中,基于如下方式获取GIoU Loss:
假设现在有预测框的Bbox和真实框的Bbox的坐标,分别记为:
式中,Bp表示预测框,表示预测框的左下角横坐标,/>表示预测框的左下角纵坐标,/>表示预测框的右上角横坐标,/>表示预测框的右上角纵坐标,/>表示真实框的左下角横坐标,/>表示真实框的左下角纵坐标,/>表示真实框的右上角横坐标,/>表示真实框的右上角纵坐标;
预测框的Bbox:
计算Bg的面积Ag
计算Bp的面积Ap
计算Bg与Bp的重叠面积:
式中,表示重叠框的左下角横坐标,/>表示重叠框的右上角横坐标,/>表示重叠框左下角的纵坐标,/>表示重叠框右上角的纵坐标;
获取包含Bp,Bg的最小框Ac:
式中,表示Ac左下角的横坐标,/>表示Ac右上角的横坐标,/>表示Ac左下角的纵坐标,/>表示Ac右上角的纵坐标;
计算Ac的面积:
计算IoU:
计算GIoU:
得到GIoU Loss:
LGIoU=1-GIoU
式中,LGIoU表示GIoU Loss。
根据本申请的一些实施例的基于检测框跟踪的航拍小目标跟踪方法,在目标检测网络的Neck层特征融合BiFPN的特征图加权连接方式,BiFPN是重复双向跨尺度连接+带权重的特征融合机制,BiFPN用于:
(1)删除只有一条输入边的节点;
(2)如果原始输入节点和输出节点处于同一层,在原始输入节点和输出节点之间添加一条额外的边;
(3)BiFPN处理每个双向路径作为一个特征网络层,并重复同一层多次,使更高层次的特征融合,P6层输出表达式为:
式中,表示是自上而下路径中第P6层的中间特性,Conv表示卷积模型,/>表示自上而下路径中第P6层的输入特性,/>表示自上而下路径中第P7层的输入特性,ε是用于防止分母为零的数,Resize操作是下采样或上采样操作,w是网络学习到的权重参数,用于区分特征融合过程中不同特征的重要程度,w'表示网络中学习到的权重参数,/>是自上而下路径中第P6层的中间特性,/>是上一层特征图输入,/>是P5层的输出作为第P6层的输入。
根据本申请的一些实施例的基于检测框跟踪的航拍小目标跟踪方法,步骤S3具体包括:
第一,ByteTrack的输入是一列的视频流V,一个目标检测器Det,预先设置的目标检测框的置信度阈值τ;
第二,从视频流V中提取视频帧fk,fk经过检测器Det的检测,得到视频帧的检测结果Dk,Dk中的一系列检测框的dkn以及对应的检测框置信度的值与最开始设定的置信度阈值τ比较,高于τ的放入Dhigh中,低于τ的放入Dlow中;
第三,利用卡尔曼滤波器,对轨迹T进行更新,轨迹T与Dhigh利用IoU进行轨迹的匹配,将匹配到的轨迹进行更新,未匹配上的轨迹保留,分别为Dremain、Tremain
第四,进行第二次的匹配,使用低分框Dlow和第一次没有匹配上高分框的跟踪轨迹Tremain进行匹配;
第五,对于没有匹配上跟踪轨迹,得分超过阈值的检测框Dhigh,对其新建一个跟踪轨迹,对于没有匹配上检测框的跟踪轨迹,保留30帧,在其再次出现时再进行匹配,输出新的轨迹跟踪结果T。
根据本申请的一些实施例的基于检测框跟踪的航拍小目标跟踪方法,对于相邻视频帧中同一个目标的检测框,其IoU定义如下:
IoU代表真实检测框与预测框重叠的面积和真实检测框与预测框面积综合的比值。
根据本申请的一些实施例的基于检测框跟踪的航拍小目标跟踪方法,边界框建模为二维高斯分布,其中边界框的中心像素具有最高的权重,像素的重要性从中心到边界递减,将边界框视为它的内接椭圆建模,对于边界框A表示为(cxa,cya,wa,ha),预测框B表示为(cxb,cyb,wb,hb),得到其内接椭圆方程为:
式中,cx表示目标框中心的横坐标,cy表示目标框中心的纵坐标,w表示目标框的长度,h表示目标框的宽度,(μxy)是椭圆的中心坐标,σx,σy是沿x,y轴的半轴长度,因此,μx=cx,μx=cy,σx=w/2,σy=h/2;
其中二维高斯分布的概率密度函数由下式给出:
其中x、μ和Σ表示高斯分布的坐标(x,y)、均值向量和协方差矩阵;
当三者满足:
(x-μ)T-1(x-μ)=1
内接椭圆将是二维高斯分布的密度等值线,因此,一个水平边界框R=(cx,cy,w,h)建模为二维高斯分布N(μ,Σ):
真实框A和预测框B之间的相似度转换为两个高斯分布之间的分布距离,使用来自最优传输理论的Wasserstein距离计算分布距离;
对于两个二维高斯分布μ1=N(m11)和μ2=N(m22),μ1和μ2之间的二阶Wasserstein距离定义为:
上式简化为:
式中,m1表示μ1的均值向量,m2表示μ2的均值向量,Tr表示矩阵的迹,||·||F是Frobenius范数;
对于真实框A=(cxa,cya,wa,ha)和预测框B=(cxb,cyb,wb,hb)建模的高斯分布Na和Nb,上式简化为:
式中,(Na,Nb)是距离度量,其中cx表示目标框中心的横坐标,cy表示目标框中心的纵坐标,w表示目标框的长度,h表示目标框的宽度,矩阵二范数的平方;
使用指数形式归一化并获得称为归一化Wasserstein距离的新度量:
式中,C表示可调节的超参数。
根据本申请的一些实施例的基于检测框跟踪的航拍小目标跟踪方法,步骤S4具体包括将视频中连续5~10帧物体的ID不发生变化,该ID所属的物体为出现过的小目标,传回其位置信息。
本发明与现有技术相比,具有如下优点和有益效果:
本发明方法结合了目标检测和目标跟踪两个关键步骤,以提高跟踪的准确性和鲁棒性。
本发明相较于IoU只关注重叠区域不同,不仅关注重叠区域,还关注其他的非重合区域,能更好的反映两者的重合度。
本发明在YOLOv5网络中加入BiFPN模块并融合进Concat模块中,实现有效的双向交叉尺度连接和加权特征融合,提高网络的检测效率与精度,本发明神经网络适应更小物体的检测。
本发明在跟踪阶段引入了新的跟踪匹配标准Normalized Wasserstein Distance取代原有的IOU,增强小尺寸FOD跟踪的准确性。克服了跟踪轨迹匹配不上或者导致跟踪轨迹不连贯,跟踪效果降低的现象。
附图说明
图1为本发明实施例提供的一种基于检测框跟踪的机场航拍小物体跟踪方法的流程图。
图2为本发明实施提供的航拍小物体需要清洗样例。
图3为本发明实施提供的改进的YOLOV5模型网络结构图。
图4为本发明实施提供的BiFPN模块网络结构图。
图5为本发明实施提供的目标检测算法目标检测结果可视化图。
图6为本发明实施提供的目标跟踪效果可视化图。
具体实施方式
下面将结合附图和技术方案,对本发明的实施过程进行详细描述。
实施例1:如图1所示,一种基于检测框跟踪的航拍小目标跟踪方法,包括
S1:收集公开航拍数据集图像数据,并对收集到的图像进行预处理,对含有干扰的数据标注进行清洗,比如图像中目标过于密集、数据不清晰等的图片进行删减;
S2:将经过数据清洗和增强后的数据集传入目标检测网络中进行训练,得到对应的检测权重;
S3:将检测到的候选框作为跟踪模型的输入,对航拍小目标进行测试监测;
S4:将测试检测到的航拍小目标的位置信息,经过编号比对,进行可视化处理并进行记录。
具体实现方式如下:
步骤1:收集公开航拍数据集图像数据,并对收集到的图像进行预处理,对含有干扰的数据标注进行清洗,比如图像过于密集、数据不清晰等的目标进行删减;
所述航拍数据集图像数据为实际环境拍摄制作得到的航拍数据;所述预处理操作为对数据进行筛选处理,包括清洗目标不清晰的标注、目标过于密集的标注,由于无人机拍摄有一定的高度,高度太高的视角,拍摄到的目标极其微小,不利于检测,需要对其进行删减,对模糊目标进行重新标注或者直接删除。
采用上述进一步方案的有益效果是:通过删去大量拍摄中的不清晰的数据一方面可以减少对目标检测网络训练的干扰,另一方面能够减小训练时间,防止训练数据大量冗余。
步骤2:将划分后的数据集传入目标检测网络中进行训练,得到对应的检测权重;
所述目标检测网络为针对航拍视频小目标改进的YOLOv5网络,整个改进的YOLOv5网络主干部分由Conv模块、C3模块、SPP模块、Focus模块、以及结合BiFPN的Concat模块组成,产生三种尺度特征图。
采用上述进一步方案的有益效果是:针对航拍小尺寸目标漏检严重问题,采用BiFPN可以是实现有效的双向交叉尺度连接和加权特征融合,对不同分辨率的特征图进行连接融合,检测准确率更高。
步骤3:将检测到的候选框作为跟踪模型的输入,对航拍小目标进行测试监测;
所述跟踪模型采用的改进的ByteTrack算法。整个改进的ByteTrack算法分为4步:首先将YOLOv5检测得到的检测框根据置信度得分,分成高分框与低分框;然后;将高分框与之前的跟踪轨迹进行匹配;接着将低分框与第一次没有匹配上的高分框的跟踪轨迹进行匹配;最后对于没有匹配上跟踪轨迹,得分又足够高的检测框,对其新建一个跟踪轨迹。对于没有匹配上检测框的跟踪轨迹,保留一定时长,再次出现时再进行匹配;
采用上述进一步方案的有益效果是:采用的改进的ByteTrack算法一方面可以解决检测算法得到的小目标检测框置信度较低的问题,提高跟踪的效果与连贯性。另一方面,跟踪的实现方式更加简单高效,不会引入ReID而增加网络的参数。
步骤4:将测试检测到的航拍小目标的位置信息,经过编号比对,进行可视化处理。
将测试视频中连续5帧出现的同一ID航拍小目标设为真实出现过的小目标,并传回其类别位置信息。
本发明与现有技术相比,具有如下优点和有益效果:本发明在YOLOv5网络中加入BiFPN模块并融合进Concat模块中,实现有效的双向交叉尺度连接和加权特征融合;除此之外,在跟踪阶段引入了新的跟踪匹配标准Normalized Wasserstein Distance取代原有的IOU,增强小尺寸FOD跟踪的准确性。
实施例2:如图1所示,为本发明提供的一种基于检测框跟踪的航拍小物体跟踪方法,具体包括:
步骤1:收集公开航拍数据集图像数据,并对收集到的图像进行预处理,对含有干扰的数据标注进行清洗,比如图像过于密集、数据不清晰等的目标进行删减;
所述收集的航拍数据集类别包括10个物体类别(即行人、人、汽车、面包车、巴士、卡车、摩托车、自行车、遮阳篷-三轮车和三轮车)。
公开的航拍数据集由各种无人机摄像头捕获,覆盖范围广泛,包括多种多样的位置、密度与环境,对象尺度变化较大,包含有许多的小尺寸目标。
在得到清洗后的数据集后,以8:1:1的比例划分成为训练、验证、测试集。
步骤2:将划分后的数据集传入目标检测网络中进行训练,得到对应的检测权重;
具体地,本发明所使用的跟踪算法是建立在目标检测算法之上的,结合所用的目标检测算法是YOLOV5模型,YOLOV5模型经过了许多的实验验证,是一个轻量级可以达到实时检测的目标检测算法模型并且可以部署在检测网络设备上,如图3是它的网络模型架构,在YOLOV5的原始模型基础上,本发明通过改进网络架构从而提高了其对航拍数据集小目标的检测精度。具体改进如下。
整个改进的YOLOv5网络是基于YOLOv5s模型,具体包括以ResNet为主干的基准网络层、用于输出目标检测结果的Neck层、Head层、以及经过非极大值抑制处理的输出端。其中,基准网络层输出特征映射矩阵。Neck网络层采用FPN+PAN的结构来提升特征的多样性和鲁棒性,加强网络特征的融合能力。其中,FPN表示特征金字塔网络,利用自上而下的上采样提取图像的强语义特征。PAN表示像素聚合网络,利用自下而上的网络提取图像的强定位特征(即目标物的位置)。FPN与PAN进行融合,能够实现形状与位置特征的聚合。输出层采用GIoU_Loss作为Boundingbox的损失函数,输出目标检测结果。对于GIoU Loss其定义如下,假设现在有预测框(predicate)的Bbox和真实框(groud truth)的Bbox的坐标,分别记为:
式中,Bp表示预测框,表示预测框的左下角横坐标,/>表示预测框的左下角纵坐标,/>表示预测框的右上角横坐标,/>表示预测框的右上角纵坐标,/>表示真实框的左下角横坐标,/>表示真实框的左下角纵坐标,/>表示真实框的右上角横坐标,/>表示真实框的右上角纵坐标。
为了方便对应点之间的关系,规定预测框的Bbox:
计算Bg的面积:
计算Bp的面积:
计算Bg与Bp的重叠面积:
式中,表示重叠框的左下角横坐标,/>表示重叠框的右上角横坐标,/>表示重叠框左下角的纵坐标,/>表示重叠框右上角的纵坐标。
找到可以包含Bp,Bg的最小框Ac:
式中,表示Ac左下角的横坐标,/>表示Ac右上角的横坐标,/>表示Ac左下角的纵坐标,/>表示Ac右上角的纵坐标。
计算Ac的面积:
计算IoU:
计算GIoU:
因此,最终得到GIoU Loss:
LGIoU=1-GIoU
与IoU相比,GIoU对目标检测框尺寸不敏感,IoU只关注重叠区域不同,GIoU不仅关注重叠区域,还关注其他的非重合区域,能更好的反映两者的重合度。
得到目标检测结果后,再进行后处理,采用非极大值抑制,以消除同一个目标上的多个框以及堆叠在一起的输出边界框。
为了神经网络适应更小物体的检测,在Neck层特征融合BiFPN的特征图加权连接方式(如图4所示),BiFPN是新型加强版的PANet(重复双向跨尺度连接)+带权重的特征融合机制,它的具体做法如下:(1)删除那些只有一条输入边的节点。如果一个节点只有一条输入边而没有特征融合,那么它对旨在融合不同特征的特征网络的贡献就会很小。删除它对网络影响不大,同时简化了双向网络。(2)如果原始输入节点和输出节点处于同一层,就在原始输入节点和输出节点之间添加一条额外的边。(3)与只有一个自顶向下和一个自底向上路径的PANet不同,BiFPN在处理每个双向路径(自顶向下和自底而上)路径作为一个特征网络层,并重复同一层多次,以实现更高层次的特征融合。以图4中P6层输出为例,其计算表达式为:
其中,表示是自上而下路径中第P6层的中间特性,Conv表示卷积模型,/>表示自上而下路径中第P6层的输入特性,/>表示自上而下路径中第P7层的输入特性,Resize操作通常是下采样或上采样操作;w是学习到的参数,用于区分特征融合过程中不同特征的重要程度,有点类似于注意力机制;w'表示网络中学习到的权重参数;/>是自上而下路径中第P6层的中间特性,/>是上一层特征图输入,/>是下一层的输出作为第6层的输入;
BiFPN的做法可以简化双向网络以及在不增加太多成本的情况下融合更多的特性,提高网络的检测效率与精度。ε是一个很小的数,为了防止分母为零。
最终的检测效果如图5所示。改进后的检测器可以很好地对航拍小目标进行识别。
步骤3:将检测到的候选框作为跟踪模型的输入,对航拍视频数据进行测试监测;
具体地,基于检测框跟踪的多目标跟踪算法具体如下:
具体地,第一,ByteTrack的输入是一列的视频流V,一个目标检测器Det,预先设置好的目标检测框的置信度阈值τ。
第二,从视频流V中提取视频帧fk,fk经过检测器Det的检测,得到视频帧的检测结果Dk,Dk中的一系列检测框的dkn以及对应的检测框置信度的值与最开始设定的置信度阈值τ比较,高于τ的放入Dhigh中,低于τ的放入Dlow中。
第三,利用卡尔曼滤波器,对轨迹T进行更新,即T与Dhigh利用IoU进行轨迹的匹配,将匹配到的轨迹进行更新,未匹配上的轨迹保留,分别为Dremain,Tremain
第四,进行第二次的匹配,使用低分框Dlow和第一次没有匹配上高分框的跟踪轨迹Tremain进行匹配。
第五,对于没有匹配上跟踪轨迹,得分又足够高的检测框Dhigh,对其新建一个跟踪轨迹。对于没有匹配上检测框的跟踪轨迹,会保留30帧,在其再次出现时再进行匹配。最后返回输出新的轨迹跟踪结果T。
原始的ByteTrack应用在车辆,行人等大目标的跟踪,并不适用于机场FOD小目标跟踪,因为IoU并不适用于航拍数据集这种小目标的跟踪。因此需要对其进行改进,具体改进如下:
原始的ByteTrack跟踪匹配标准使用的是IoU,和目标检测中计算IoU一样,对于相邻视频帧中同一个目标的检测框,其IoU定义如下:
其代表的是真实检测框与预测框重叠的面积和真实检测框与预测框面积综合的比值,当IoU应用到小目标上时,其值非常小或者接近于0,就会造成跟踪轨迹匹配不上或者导致跟踪轨迹不连贯,跟踪效果降低,因此引入了新的跟踪匹配标准NormalizedWasserstein Distance(NWD)。对于小物体,它们的边界框中往往会有一些背景像素,因为大多数真实物体不是严格的矩形。在这些边界框中,前景像素和背景像素分别集中在边界框的中心和边界上。为了更好地描述边界框中不同像素的权重,边界框可以建模为二维(2D)高斯分布,其中边界框的中心像素具有最高的权重,像素的重要性从中心到边界递减,因此,具体来说,可以将边界框看成它的内接椭圆建模,对于两个边界框A表示为(cxa,cya,wa,ha),预测框B表示为(cxb,cyb,wb,hb),得到其内接椭圆方程为:
其中(μxy)是椭圆的中心坐标,σxy是沿x和y轴的半轴长度。因此,μx=cx,μx=cy,σx=w/2,σy=h/2。其中二维高斯分布的概率密度函数由下式给出:
其中x、μ和Σ表示高斯分布的坐标(x,y)、均值向量和协方差矩阵。当三者满足:
(x-μ)T-1(x-μ)=1
其内接椭圆将是二维高斯分布的密度等值线。因此,一个水平边界框R=(cx,cy,w,h)可以建模为二维高斯分布N(μ,Σ):
真实框A和预测框B之间的相似度可以转换为两个高斯分布之间的分布距离。使用来自最优传输理论的Wasserstein距离来计算分布距离。对于两个二维高斯分布μ1=N(m11)和μ2=N(m22),μ1和μ2之间的二阶Wasserstein距离定义为:
上式可以简化为:
其中,m1表示μ1的均值向量,m2表示μ2的均值向量,Tr表示矩阵的迹,||·||F是Frobenius范数。
对于真实框A=(cxa,cya,wa,ha)和预测框B=(cxb,cyb,wb,hb)建模的高斯分布Na和Nb,上式可进一步简化为:
但是,(Na,Nb)是距离度量,不能直接用作相似度度量(即0和1之间的值作为IoU)。因此,使用它的指数形式归一化并获得称为归一化Wasserstein距离(NWD)的新度量:
真实框A=(cxa,cya,wa,ha),预测框B=(cxb,cyb,wb,hb),各个参数的意义分别为,目标框中心的横坐标、纵坐标,目标框的长度、宽度。C是一个可以调节的超参数,具体值与数据集有关。采用上述的跟踪匹配指标更加适用于小目标的轨迹匹配,并且可以达到连续几帧检测不到对应目标时依然能够在之后的轨迹中匹配到相应的跟踪轨迹。
步骤4:将监测到航拍小目标的位置信息,经过编号比对,进行可视化处理。
图6为航拍小目标跟踪可视化效果图,图中的编号为每个物体的ID。当连续10帧内,某ID不发生变化,则认定该ID物体为确切出现过的小目标,并返回其位置坐标。
本发明提供了一种基于检测框跟踪的航拍小目标跟踪方法,包括步骤S1:收集公开航拍数据集图像数据,并对收集到的图像进行预处理,对含有干扰的数据标注进行清洗,比如图像过于密集、数据不清晰等的目标进行删减;步骤S2:将经过数据清洗和增强后的数据集传入目标检测网络中进行训练,得到对应的检测权重;步骤S3:将检测到的候选框作为跟踪模型的输入,对航拍数据集小目标进行测试监测;步骤S4:将监测到的航拍小目标的位置信息,经过编号比对,进行可视化处理并进行记录。本发明能够准确且快速地将复杂背景下的小尺寸航拍目标检测出来,提高鲁棒性和检测率。并且,本发明可以达到实时跟踪效果,可以用于实际业务当中。
上面对本发明的实施方法做出了详细说明,但本发明不限于上述实施方法。本发明在实现检测步骤上,改进检测网络结构,更加有效的对更小目标的检测,覆盖航拍数据集的更多目标尺寸,提高了目标检测网络的精度,进一步地,在实现目标跟踪上,改进了原来的检测框匹配标准,使得目标跟踪的效果更加连贯,并且ByteTrack算法相比较于其他算法有网络更加简单高效,不会引入额外参数的优势。
本发明实施例还提供一种电子设备,该电子设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例提供的方法中的步骤。本发明实施例提供的电子设备能够实现上述方法实施例中的各个实施方式,以及相应有益效果。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现本发明实施例提供的方法,且能达到相同的技术效果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存取存储器(Random Access Memory,简称RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种基于检测框跟踪的航拍小目标跟踪方法,其特征在于,具体包括:
S1:对航拍数据集图像数据预处理;
S2:将预处理后的图像数据集输入目标检测网络中训练,得到目标检测网络对应的检测权重;
S3:跟踪模型输入目标检测网络检测到的候选框,对航拍小目标测试监测;
S4:将测试监测所检测到的航拍小目标的位置信息,经过编号比对,进行可视化处理并进行记录。
2.根据权利要求1所述的基于检测框跟踪的航拍小目标跟踪方法,其特征在于,步骤S1具体包括
S1.1:收集公开航拍数据集,将多个数据集进行对比,选择合适的数据集进行数据增强;
S1.2:将得到的公开航拍数据集中含有干扰的数据标注进行清洗;
S1.3:将清洗后的数据划分为训练集、验证集以及测试集。
3.根据权利要求1所述的基于检测框跟踪的航拍小目标跟踪方法,其特征在于,目标检测网络是对航拍视频小目标改进的YOLOv5网络,包括以ResNet为主干的基准网络层、用于输出目标检测结果的Neck网络层、Head层以及经过非极大值抑制处理的输出端,其中:
基准网络层输出特征映射矩阵;
Neck网络层采用FPN与PAN的融合网络结构,其中,FPN表示特征金字塔网络,利用自上而下的上采样提取图像的强语义特征;PAN表示像素聚合网络,利用自下而上的网络提取图像的强定位特征;
输出层采用GIoU_Loss作为Boundingbox的损失函数,输出目标检测结果;
根据目标检测结果,采用非极大值抑制,消除同一个目标上的多个框以及堆叠在一起的输出边界框。
4.根据权利要求3所述的基于检测框跟踪的航拍小目标跟踪方法,其特征在于,步骤S2具体包括
S2.1:将步骤1划分出的数据经过数据增强,输入到目标检测网络的Backbone中,获得不同尺寸的特征图;
S2.2:将不同尺寸的特征图输入到Neck网络层,在Neck网络层中对特征图依次进行上下采样操作,使用融合的BiFPN的连接方式拼接生成多种尺寸的特征图;
S2.3:将生成的多尺寸特征图输入到Head层中;
S2.4:采用多种损失函数结合的方式进行反向传播,并根据梯度变化进行权重更新,得到检测权重。
5.根据权利要求3所述的基于检测框跟踪的航拍小目标跟踪方法,其特征在于,其中,基于如下方式获取GIoU Loss:
假设现在有预测框的Bbox和真实框的Bbox的坐标,分别记为:
式中,Bp表示预测框,表示预测框的左下角横坐标,/>表示预测框的左下角纵坐标,表示预测框的右上角横坐标,/>表示预测框的右上角纵坐标,/>表示真实框的左下角横坐标,/>表示真实框的左下角纵坐标,/>表示真实框的右上角横坐标,/>表示真实框的右上角纵坐标;
预测框的Bbox:
计算Bg的面积Ag
计算Bp的面积Ap
计算Bg与Bp的重叠面积:
式中,表示重叠框的左下角横坐标,/>表示重叠框的右上角横坐标,/>表示重叠框左下角的纵坐标,/>表示重叠框右上角的纵坐标;
获取包含Bp,Bg的最小框Ac:
式中,表示Ac左下角的横坐标,/>表示Ac右上角的横坐标,/>表示Ac左下角的纵坐标,表示Ac右上角的纵坐标;
计算Ac的面积:
计算IoU:
计算GIoU:
得到GIoU Loss:
LGIoU=1-GIoU
式中,LGIoU表示GIoU Loss。
6.根据权利要求3所述的基于检测框跟踪的航拍小目标跟踪方法,其特征在于,在目标检测网络的Neck层特征融合BiFPN的特征图加权连接方式,BiFPN是重复双向跨尺度连接+带权重的特征融合机制,BiFPN用于:
(1)删除只有一条输入边的节点;
(2)如果原始输入节点和输出节点处于同一层,在原始输入节点和输出节点之间添加一条额外的边;
(3)BiFPN处理每个双向路径作为一个特征网络层,并重复同一层多次,使更高层次的特征融合,P6层输出表达式为:
式中,表示是自上而下路径中第P6层的中间特性,Conv表示卷积模型,/>表示自上而下路径中第P6层的输入特性,/>表示自上而下路径中第P7层的输入特性,ε是用于防止分母为零的数,Resize操作是下采样或上采样操作,w是网络学习到的权重参数,用于区分特征融合过程中不同特征的重要程度,w'表示网络中学习到的权重参数,/>是自上而下路径中第P6层的中间特性,/>是上一层特征图输入,/>是P5层的输出作为第P6层的输入。
7.根据权利要求1所述的基于检测框跟踪的航拍小目标跟踪方法,其特征在于,步骤S3具体包括:
第一,ByteTrack的输入是一列的视频流V,一个目标检测器Det,预先设置的目标检测框的置信度阈值τ;
第二,从视频流V中提取视频帧fk,fk经过检测器Det的检测,得到视频帧的检测结果Dk,Dk中的一系列检测框的dkn以及对应的检测框置信度的值与最开始设定的置信度阈值τ比较,高于τ的放入Dhigh中,低于τ的放入Dlow中;
第三,利用卡尔曼滤波器,对轨迹T进行更新,轨迹T与Dhigh利用IoU进行轨迹的匹配,将匹配到的轨迹进行更新,未匹配上的轨迹保留,分别为Dremain、Tremain
第四,进行第二次的匹配,使用低分框Dlow和第一次没有匹配上高分框的跟踪轨迹Tremain进行匹配;
第五,对于没有匹配上跟踪轨迹,得分超过阈值的检测框Dhigh,对其新建一个跟踪轨迹,对于没有匹配上检测框的跟踪轨迹,保留30帧,在其再次出现时再进行匹配,输出新的轨迹跟踪结果T。
8.根据权利要求7所述的基于检测框跟踪的航拍小目标跟踪方法,其特征在于,对于相邻视频帧中同一个目标的检测框,其IoU定义如下:
IoU代表真实检测框与预测框重叠的面积和真实检测框与预测框面积综合的比值。
9.根据权利要求8所述的基于检测框跟踪的航拍小目标跟踪方法,其特征在于,边界框建模为二维高斯分布,其中边界框的中心像素具有最高的权重,像素的重要性从中心到边界递减,将边界框视为它的内接椭圆建模,对于边界框A表示为(cxa,cya,wa,ha),预测框B表示为(cxb,cyb,wb,hb),得到其内接椭圆方程为:
式中,cx表示目标框中心的横坐标,cy表示目标框中心的纵坐标,w表示目标框的长度,h表示目标框的宽度,(μx,μy)是椭圆的中心坐标,σx,σy是沿x,y轴的半轴长度,因此,μx=cx,μx=cy,σx=w/2,σy=h/2;
其中二维高斯分布的概率密度函数由下式给出:
其中x、μ和∑表示高斯分布的坐标(x,y)、均值向量和协方差矩阵;
当三者满足:
内接椭圆将是二维高斯分布的密度等值线,因此,一个水平边界框R=(cx,cy,w,h)建模为二维高斯分布N(μ,∑):
真实框A和预测框B之间的相似度转换为两个高斯分布之间的分布距离,使用来自最优传输理论的Wasserstein距离计算分布距离;
对于两个二维高斯分布μ1=N(m1,∑1)和μ2=N(m2,∑2),μ1和μ2之间的二阶Wasserstein距离定义为:
上式简化为:
式中,m1表示μ1的均值向量,m2表示μ2的均值向量,Tr表示矩阵的迹,||·||F是Frobenius范数;
对于真实框A=(cxa,cya,wa,ha)和预测框B=(cxb,cyb,wb,hb)建模的高斯分布Na和Nh,上式简化为:
式中,(Na,Nb)是距离度量,其中cx表示目标框中心的横坐标,cy表示目标框中心的纵坐标,w表示目标框的长度,h表示目标框的宽度,矩阵二范数的平方;
使用指数形式归一化并获得称为归一化Wasserstein距离的新度量:
式中,C表示可调节的超参数。
10.根据权利要求9所述的基于检测框跟踪的航拍小目标跟踪方法,其特征在于,步骤S4具体包括将视频中连续5~10帧物体的ID不发生变化,该ID所属的物体为出现过的小目标,传回其位置信息。
CN202311344197.6A 2023-10-17 2023-10-17 基于检测框跟踪的航拍小目标跟踪方法 Pending CN117333512A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311344197.6A CN117333512A (zh) 2023-10-17 2023-10-17 基于检测框跟踪的航拍小目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311344197.6A CN117333512A (zh) 2023-10-17 2023-10-17 基于检测框跟踪的航拍小目标跟踪方法

Publications (1)

Publication Number Publication Date
CN117333512A true CN117333512A (zh) 2024-01-02

Family

ID=89295063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311344197.6A Pending CN117333512A (zh) 2023-10-17 2023-10-17 基于检测框跟踪的航拍小目标跟踪方法

Country Status (1)

Country Link
CN (1) CN117333512A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114419096A (zh) * 2021-12-20 2022-04-29 北方信息控制研究院集团有限公司 基于不规则四边形框的航拍视频多目标跟踪方法
CN114494875A (zh) * 2022-01-27 2022-05-13 中国电力科学研究院有限公司 一种电网设备可视检测方法、系统、设备和介质
CN114677554A (zh) * 2022-02-25 2022-06-28 华东理工大学 一种基于YOLOv5与Deepsort的统计滤波红外小目标检测跟踪方法
CN115953431A (zh) * 2022-12-24 2023-04-11 上海交通大学 面向无人机航拍视频的多目标跟踪方法与系统
CN116469020A (zh) * 2023-04-17 2023-07-21 北京航空航天大学 一种基于多尺度和高斯Wasserstein距离的无人机图像目标检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114419096A (zh) * 2021-12-20 2022-04-29 北方信息控制研究院集团有限公司 基于不规则四边形框的航拍视频多目标跟踪方法
CN114494875A (zh) * 2022-01-27 2022-05-13 中国电力科学研究院有限公司 一种电网设备可视检测方法、系统、设备和介质
CN114677554A (zh) * 2022-02-25 2022-06-28 华东理工大学 一种基于YOLOv5与Deepsort的统计滤波红外小目标检测跟踪方法
CN115953431A (zh) * 2022-12-24 2023-04-11 上海交通大学 面向无人机航拍视频的多目标跟踪方法与系统
CN116469020A (zh) * 2023-04-17 2023-07-21 北京航空航天大学 一种基于多尺度和高斯Wasserstein距离的无人机图像目标检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
孙孚斌: "基于改进YOLOv5的人脸检测算法", 《机电工程技术》, no. 52, 20 February 2023 (2023-02-20), pages 1 - 2 *
王雒: "基于改进ByteTrack算法的红外地面多目标跟踪方法", 《计算机科学》, no. 50, 30 September 2023 (2023-09-30), pages 1 - 3 *
赵丽: "基于改进YOLOv5模型的安全帽佩戴检测", 《信息与电脑》, no. 2022, 31 December 2022 (2022-12-31), pages 1 - 2 *

Similar Documents

Publication Publication Date Title
CN110472627B (zh) 一种端到端的sar图像识别方法、装置及存储介质
CN111709416B (zh) 车牌定位方法、装置、系统及存储介质
CN108304798B (zh) 基于深度学习及运动一致性的街面秩序事件视频检测方法
CN109829398B (zh) 一种基于三维卷积网络的视频中的目标检测方法
CN111914664A (zh) 基于重识别的车辆多目标检测和轨迹跟踪方法
CN112288008A (zh) 一种基于深度学习的马赛克多光谱图像伪装目标检测方法
CN113191204B (zh) 一种多尺度遮挡行人检测方法及系统
Han et al. Research on remote sensing image target recognition based on deep convolution neural network
CN110826575A (zh) 一种基于机器学习的水下目标识别方法
CN114399675A (zh) 一种基于机器视觉与激光雷达融合的目标检测方法和装置
Liu et al. CAFFNet: channel attention and feature fusion network for multi-target traffic sign detection
CN114332921A (zh) 基于改进聚类算法的Faster R-CNN网络的行人检测方法
CN117949942B (zh) 基于雷达数据和视频数据融合的目标跟踪方法及系统
CN117576665B (zh) 一种面向自动驾驶的单摄像头三维目标检测方法及系统
CN117593548A (zh) 基于加权注意力机制去除动态特征点的视觉slam方法
CN112215873A (zh) 用于对变电站内多目标跟踪定位的方法
Zhao et al. An aircraft detection method based on improved mask R-CNN in remotely sensed imagery
CN112115786A (zh) 基于注意力U-net的单目视觉里程计方法
CN116935249A (zh) 一种无人机场景下三维特征增强的小目标检测方法
CN115937520A (zh) 基于语义信息引导的点云运动目标分割方法
CN106909936B (zh) 一种基于双车辆可变形部件模型的车辆检测方法
CN115457080A (zh) 基于像素级图像融合的多目标车辆轨迹提取方法
CN114694042A (zh) 一种基于改进Scaled-YOLOv4的伪装人员目标检测方法
CN117333512A (zh) 基于检测框跟踪的航拍小目标跟踪方法
CN110322474B (zh) 一种基于无人机平台的图像动目标实时检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination