CN111666871B - 一种面向无人机的改进yolo与sift相结合的多小目标检测跟踪方法 - Google Patents
一种面向无人机的改进yolo与sift相结合的多小目标检测跟踪方法 Download PDFInfo
- Publication number
- CN111666871B CN111666871B CN202010497477.0A CN202010497477A CN111666871B CN 111666871 B CN111666871 B CN 111666871B CN 202010497477 A CN202010497477 A CN 202010497477A CN 111666871 B CN111666871 B CN 111666871B
- Authority
- CN
- China
- Prior art keywords
- target
- image
- training
- tracking
- yolo
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000001514 detection method Methods 0.000 title claims abstract description 54
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 41
- 238000013138 pruning Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims description 42
- 230000003044 adaptive effect Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 4
- 230000001133 acceleration Effects 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims description 2
- 230000004069 differentiation Effects 0.000 claims 1
- 238000005259 measurement Methods 0.000 claims 1
- 238000002372 labelling Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 14
- 230000000694 effects Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/277—Analysis of motion involving stochastic approaches, e.g. using Kalman filters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Remote Sensing (AREA)
- Astronomy & Astrophysics (AREA)
- Image Analysis (AREA)
Abstract
本发明公布了一种面向无人机的改进YOLO与SIFT相结合的多小目标检测跟踪方法,所述方法首先初始化视频序列,读取视频序列的帧数和标注框真值;其次使用自适应阈值和最小距离约束的方法改进SIFT算法进行特征点检测;接着对改进SIFT算法检测得到的特征点,采用KLT算法对特征点进行匹配和目标定位;然后采用YOLO网络剪枝后的UAV‑YOLO进行目标检测;最后,由目标的尺度信息和位置信息完成目标的数据关联,再使用KLT算法实现多目标跟踪。本发明基于KLT跟踪算法,通过对YOLO算法的网络剪枝和SIFT算法的特征点改进,有效解决了面向无人机的目标检测算法部署和多小目标跟踪问题。
Description
技术领域
本发明属于计算机视觉技术领域,特别是一种面向无人机的改进YOLO与SIFT相结合的多小目标检测跟踪方法。
技术背景
无人机(Unmanned Aerial Vehicle,UAV)因其体积小、隐蔽性强、反应快速、对作战环境要求低和能迅速到达现场等优势,在智能交通、地质勘探、军事制导、航空视觉导航等民用和国防领域发挥着重要的作用。多目标跟踪能够极大增强无人机的自主飞行和监控能力,使得无人机能够适应更复杂多变的环境,完成更多复杂任务,是无人机视觉领域的重要研究内容。
目前,多目标跟踪算法在一般场景中具有较好的跟踪效果,但将其应用到复杂的无人机视频多目标跟踪中仍然存在很多挑战。由于无人机的内存和计算能力有限,算法部署环境具有多样性,基于传统机器学习和手工特征的目标检测和跟踪方法很容易出现漏检或精度不够理想的情况。近年来,基于深度学习的方法成为了无人机目标检测跟踪的研究热点,但由于深度学习的对象检测器需要高性能计算和大的运行内存来保持良好的检测跟踪性能,无人机实现多目标检测和跟踪,首先要解决的是如何部署合适的多目标检测算法。其次,在无人机视频中,由于跟踪画面较大,目标在场景中所占面积较小,且被跟踪目标运动速度很快,无人机实现对小目标和快速运动目标的有效跟踪依然困难。
针对以上无人机多目标跟踪的问题,Xue等人提出了一种融合特征相关滤波器,该滤波器可以直接与多矢量描述算子进行卷积,从而获得目标位置的单通道响应,减少遮挡或背景干扰,提高无人机目标跟踪的鲁棒性,但这种方法并不能从根本上改善模型漂移的问题。Nguyen等人从多目标跟踪的检测环节出发,使用Light Dense YOLO从输入图像中提取训练特征,通过无人机上的可见光摄像机传感器来预测标记的位置,进而实现目标跟踪,该方法提高了无人机对小目标的跟踪精度,但是对多目标的跟踪效果并不理想。Rosario等人提出了一种可用于双目视觉四旋翼的多目标检测跟踪方法,该算法有效降低了形变、遮挡等情况对跟踪性能的影响,但该方法跟踪准确度和成功率较低,满足不了无人机基本的跟踪需要。Zhang等人精简了YOLO v3算法的网络结构,提出了适应于无人机多目标检测的新方法,提高了多目标检测的精度和速度,但以此检测方法为基础的跟踪算法并未得到有效验证。
发明内容
本发明的目的在于提供一种面向无人机的改进YOLO与SIFT相结合的多小目标检测跟踪方法,该方法基于KLT跟踪算法,通过对YOLO网络剪枝和SIFT特征点改进,有效解决了面向无人机的算法中特征点部署和多小目标检测跟踪问题。
为实现上述目的,本发明采用以下技术方案:
一种面向无人机的改进YOLO与SIFT相结合的多小目标检测跟踪方法,包括:
步骤1,读取视频序列帧数Nv和标注框真值BBoxv;
步骤2,使用自适应阈值和最小距离约束的方法改进SIFT算法进行特征点检测;
步骤3,根据改进SIFT算法检测得到的特征点,采用KLT算法对特征点进行匹配和目标区域定位;
步骤4,采用YOLO网络剪枝后的UAV-YOLO进行目标检测,其中YOLO网络的剪枝包括如下步骤:
(4.1)首先对YOLO网络进行基础训练和稀疏训练;
(4.2)在完成YOLO网络基础训练和稀疏训练后,对YOLO网络中的最大池化层、上采样层、卷积层、路由层和直连层进行信道修剪和网络微调整。
步骤5,根据目标的尺度信息和位置信息完成目标的数据关联,再使用KLT算法实现多目标跟踪。
本发明具有以下优点:
1.本发明通过自适应阈值和最小距离约束的方法优化了SIFT特征提取,提高了特征点的提取精度,实现了对小目标的有效检测;根据目标的尺度信息和位置信息,基于KLT跟踪算法,完成数据关联,满足了无人机对快速运动目标的跟踪需要,提高了跟踪的成功率和精度,实现了实时的目标跟踪。
2.本发明考虑面向无人机的目标检测和跟踪需要,将YOLO网络进行剪枝,压缩了该深度学习模型,通过对YOLO网络的基础训练和稀疏训练、信道修剪和网络调整,使得内存和计算能力有限的无人机能够部署目标检测算法,有效解决了多目标检测跟踪算法在无人机上的部署问题。
附图表说明
图1为本发明方法的流程图。
图2为本发明优化的SIFT特征提取方法与传统的SIFT特征提取方法对比。
图3为本发明中YOLO网络剪枝后的UAV-YOLO在COCO数据集上的评测结果。
图4为本发明方法在VisDrone2019 MOT基准数据集上的评测视频序列结果。
具体实施方式
结合所附图表,对本发明的技术方案作具体说明。
如图1所示,本发明的一种面向无人机的改进YOLO与SIFT相结合的多小目标检测跟踪方法,具体包括以下步骤:
步骤1读取视频序列帧数Nv和视频序列的标注框真值BBoxv,具体过程为:
(1.1)读取数据集视频序列,根据视频序列标签对图片进行计数为Nv。
(1.2)读取视频序列的标注框文件,得到标注框真值BBoxv。
步骤2使用自适应阈值和最小距离约束的方法改进SIFT算法进行特征点检测,具体过程为:
(2.1)设D0为图像中心自适应阈值,λ0为图像边缘自适应阈值,使用这两个自适应阈值改进SIFT算法进行特征点检测,步骤如下:
(2.1.1)利用不同尺度的高斯差分核与图像卷积生成高斯差分尺度空间(DOGscale-space)函数D(x,y,σ),表示如下:
式中,为高斯尺度空间,I(x,y)代表图像,k为比例系数,G(x,y,σ)为尺度可变高斯函数,其表达式为:
将高斯差分尺度空间函数D(x,y,σ)在零点处进行二阶泰勒展开,表示为:
(2.1.2)根据图像样本点,得到图像中心自适应阈值D0和图像边缘自适应阈值λ0,步骤如下:
(a)令X=(x,y,σ)T为样本点偏移量,取X0=(0,0,0)T,则公式(3)可化简为:
对式(4)求导并令为0,求得函数极值D(X)。
(b)对所有图像中心的特征点,图像中心自适应阈值D0表示为:
式中,k1为比例系数,N为待检测图像中SIFT特征点数量,D(Xi)为高斯差分图像中的极值点。
(c)给定2×2的Hessian矩阵H为:
假设α为H矩阵较大的特征值,β为H矩阵较小的特征值,设α与β的比值为λ,则有:
(d)对所有图像边缘的特征点,图像边缘自适应阈值λ0表示为:
式中,k2为比例系数,Tr为矩阵H的迹,Det为矩阵H的行列式。
(2.1.3)使用自适应阈值的方法进行特征点检测,具体为:
利用图像中心自适应阈值D0,来过滤掉|D(X)|<D0的图像中心低对比度特征点;利用图像边缘自适应阈值λ0,当时,认为该特征点位于边缘而被过滤掉。
(2.2)使用最小距离约束的方法改进SIFT算法进行特征点检测,具体为:
(2.2.1)根据步骤(2.1)的自适应阈值方法得到改进SIFT算法特征点,读取所有特征点的像素位置信息,将所有特征点像素之间的最小距离表示为dmin。
(2.2.2)使用最小距离约束的方法进行特征点检测,原则为:若两个特征点之间距离小于dmin,则去掉其中相对小的特征点。当待处理的目标图像很大,则可将dmin设置大些,以提高特征提取速度,满足跟踪速度的要求;当待处理的目标图像很小,则可将dmin设置小些,以保证在很小的目标上仍然有可靠的特征点。
上述这种通过选取的最小距离dmin过滤掉相对较小的特征点,有效减小了特征点匹配的时间。
步骤3根据改进SIFT算法检测得到的特征点,采用KLT算法对特征点进行匹配和目标区域定位,具体过程为:
(3.1)假设包含特征纹理信息的特征窗口为W,t时刻对应的图像表示为I(x,y,t),t+τ时刻对应的图像I(x,y,t+τ)表示为:
I(x,y,t+τ)=I(x-Δx,y-Δy) (9)
式中,(x,y)为特征点,运动量d=(Δx,Δy)为点X(x,y)的偏移。
对于给定两幅图像I和J,将灰度差平方和用ε表示,定义ε为:
式中,W为给定的特征窗口,w(X)为加权函数。
令w(X)=1,将J(X+d)进行泰勒展开,去掉高次项,只保留前两项。然后根据公式(10)对d求导,最终化简得到:
Zd=ε (11)
其中,
对每个点利用公式(11)进行牛顿迭代,直到满足一定精度,就可实现图像特征点的最优匹配,找到可靠的特征点的位置信息。
(3.2)假设整幅图像高度为H,宽度为W,目标区域宽度和高度为w和h,其中,w和h具体计算公式为:
式中,(min(x1,x2,...,xNum),min(y1,y2,...,yNum))为标注框的左上角坐标,(max(x1,x2,...,xNum),max(y1,y2,...,yNum))为标注框的右下角坐标,(xi,yi)为第i个特征点的坐标,xi∈[0,W-1],yi∈[0,H-1],i=(1,2,...,Num),Num表示特征点的个数。
由于特征点分布在目标及边缘上,因此根据上述方法可确定出目标的位置并能充分反映出目标的实际大小,实现目标区域定位。
步骤4使用YOLO网络修剪后的UAV-YOLO进行目标检测。
YOLO网络的剪枝包括如下(4.1)和(4.2)两个步骤,具体过程为:
(4.1)对YOLO网络进行基础训练和稀疏训练,具体为:
(4.1.1)基础训练是指,采用YOLO网络权重文件进行预训练。在训练的过程中,参考目标检测指标和损失函数,当验证集的损失函数值出现上升时,停止基础训练,防止了训练的过拟合。
(4.1.2)对于稀疏训练,首先对YOLO网络中的BN层进行描述,假设每批次描述的特征用y表示为:
式中,γ为训练的缩放比例因子,x为数据集训练时每批次描述特征,和σ2为数据集训练时每批次描述特征的均值和方差,ε为数据集训练时每批次描述特征之间的误差,β为训练的误差因子。
其次在BN层描述的基础上,对训练的缩放比例因子γ施加L1正则化来进行信道稀疏性训练,训练的损失函数表示如下:
式中,lossYOLO表示YOLO网络的初始损失函数,f(γ)=|γ|表示L1范数,Γ为缩放比例因子γ的约束条件,a表示惩罚因子,用来平衡YOLO网络的初始损失函数项和训练的缩放比例因子γ项,在原损失函数的基础上,实现了对信道重要性的衡量。
(4.2)在稀疏训练后,对YOLO网络中的卷积层、最大池化层、上采样层、路由层和直连层进行信道修剪和网络微调整,具体为:
针对不同网络层的不同特性,执行如下不同操作实现网络信道的修剪。
(4.2.1)对于卷积层,在信道修剪过程中,为防止过度修剪可能导致的网络退化或模型无法恢复,引入全局阈值λ和局部安全阈值θ来确定是否要修剪信道。根据全局安全阈值λ和局部安全阈值θ为所有的卷积层构造一个剪枝掩模,其中,全局阈值λ设为所有卷积层|γ|的n个百分比,将所有|γ|按照全局大小进行排序,把低于n个百分比的信道进行修剪,以控制全局的修剪率。局部安全阈值θ则以分层方式设置为特定卷积层中|γ|的k个百分比,以防止单个卷积层上的过度剪枝,保证网络连接的完整性。
(4.2.2)对于最大池化层和上采样层,它们与信道信号无关,直接裁剪掉了这两个网络层。
(4.2.3)对于路由层选择保留,利用它将卷积层得到的剪枝掩模连接起来。
(4.2.4)对于直连层,由于所有与直连层有连接的网络层必须具有相同的信道号,因此,遍历所有直连层的剪枝掩模,并对这些剪枝掩模执行或操作,生成这些连接层的最终剪枝掩模。
(4.2.5)在信道修剪完成之后,对修剪后的模型执行网络微调操作。在网络微调过程中,使用与YOLO基础训练相同的训练参数直接重新训练UAV-YOLO,以补偿潜在的临时退化。
(4.3)将待检测的目标图像作为UAV-YOLO输入进行目标检测,得到检测集中预测结果(x,y,w,h)的索引标志,其中(x,y)表示以图片左上角为原点的目标检测中心点坐标,w和h为目标检测框的宽和高。
步骤5根据目标的尺度信息和位置信息完成目标的数据关联,再使用KLT算法实现多目标跟踪,具体过程为:
(5.1)首先在目标跟踪过程中得到目标的尺度信息和位置信息。
(5.1.1)假设全局目标尺度信息sn满足对数正态分布:
式中,μp和δp 2分别代表全局目标尺度信息sn的平均值和方差。
将全局目标尺度信息sn作为先验知识,通过下式预测轨迹中目标尺度信息:
式中,δt为检测的帧之间的时差,σj 2表示不同轨迹尺度信息的方差,cj用来区分轨迹的类型,以便于分类。
(5.1.2)假设目标和周围环境都均匀分布在图像中,此时图像区域b上的位置信息xn的概率密度p(xn)可表示为:
式中,sk为被跟踪对象的平均像素大小。
对被跟踪目标建立恒速的运动模型,可表示为:
式中,xp为根据vp得到的位置信息,xn-1为第xn-1帧目标的预测位置,p为前后帧的时间内累积的位置误差,δt为前后帧的时间差,vp为检测前后帧中KLT跟踪结果,∑v表示被跟踪目标由未知加速度引起的速度变化,包括运动速度和运动方向的变化。
当被跟踪目标作长时间运动时,使用卡尔曼滤波器来估计目标位置上的可能情况,对于每一步KLT运动估计值y,将其考虑到运动模型中,得到目标位置信息xn为:
式中,I为单位阵,∑klt表示KLT特征跟踪速度累积的随机误差。
(5.2)对于上述得到的跟踪目标的尺度信息sn和位置信息xn,采用基于MDL原理的方法找到假设数据集Hi和检测数据集D的最优表示关系。
(5.2.1)由目标尺度信息和位置信息关联到给定精度所需的关联系数L取决于相应的似然函数L(D|H),似然函数满足:
L(D|H)+L(H)=-log(p(D|Hi)p(Hi)) (20)
(5.2.2)考虑假设数据集Hi的编码,它要求每个被检测到的目标被分配到一个轨迹,并且每个轨迹被赋予一个类型标签。在多目标跟踪中,如果被跟踪到的目标长度就等于轨迹中的长度,则优先进行关联,此时假设数据集Hi的概率表示为:
式中,cj为轨迹的类型,p(cj)为不同轨迹的优先级,|D|表示检测数据集D的基数大小,Tj表示假设数据集Hi中的子集。
在数据关联的过程中,被分解的不同轨迹一定可以进行关联。似然函数L(D|H)分解表示为每一条轨迹的分量,设dn j为轨迹Tj中的第n个检测,其中索引n仅指示轨迹内的顺序,则在假设数据集Hi下,将检测得到的概率表示为:
(5.2.3)对于每一个目标检测的结果,将单个检测轨迹的似然函数用尺度信息sn和位置信息xn来表示,具体为:
p(d1 j|cj)=p(s1)p(x1) (23)
将式(23)和式(24)带入式(22)得到:
由式(20)、式(21)和式(25)联立,可得到假设数据集Hi和检测数据集D的最优表示关系,完成数据关联。
(5.3)数据关联完成后,即可采用步骤3中KLT算法对特征点进行匹配和目标定位,实现多目标跟踪。
为了验证方法的可行性和有效性,下面结合实例对本发明做进一步详细的描述。
为了有效地评估本发明方法的性能,实验中的对比方法均来自相应作者的公开代码。所有实验都在Inter(R)Core(TM)i5-2450MCPU@2.50GHZ、4GB内存、NVIDIA GeForce GTX1660Ti台式机上进行,通过Matlab2018a、VisualStudio2015、PyTorch深度学习框架实现。
表1为本发明中一种面向无人机的改进YOLO与SIFT相结合的多小目标检测跟踪方法中算法的仿真相关初始化参数。
表1算法相关初始化参数
图2为本发明优化的SIFT特征提取方法与传统的SIFT特征提取方法对比。其中图2(a)和图2(b)为采用不同固定阈值方式得到的SIFT特征检测效果,这两组实验阈值分别是D0=0.02,λ0=8;D0=0.04,λ0=10。可以看出固定阈值法具有明显的局限性,其中,图2(a)的特征点检测过于密集,无法精确确定目标,图2(b)的特征点检测相比较于图2(a)又稀疏了太多,部分检测的小目标特征点不足。因此,阈值的选取对角点检测的结果有着很大的影响,一旦阈值设置不合理,容易导致提取特征点过于密集或者分布不均匀。图2(c)为采用自适应阈值法提取的特征点的实验结果,可以看出,和固定阈值相比,由于自适应阈值法从整体上考虑了特征点的对比度和主曲率变化情况,得到适应目标变化的阈值,特征点分布相对均匀。另外,由图2(c)也可以看出,在一些小区域中出现了特征点聚集的现象。图2(d)为通过本发明提出的最小距离约束的方法得到的特征点检测效果,可以看出,特征点聚集现象得到了明显地改善。
图3为本发明YOLO网络剪枝后的UAV-YOLO在COCO数据集上的评测结果。由图中可以看出,本发明的UAV-YOLO与YOLO相比,UAV-YOLO在40.1ms的检测时间可完全满足无人机目标跟踪的需要,UAV-YOLO在保持检测精度仅下降3.9mAP的条件下,BFLOPs下降了84.85%,检测运行时间下降了35.84%,UAV-YOLO更易于无人机部署实现;UAV-YOLO与YOLOtiny相比,在计算速度满足实时性要求的前提下,精度mAP提高了49.07%。这说明经过网络剪枝的本发明的UAV-YOLO能很好地平衡跟踪精度和检测速度,可满足无人机多目标检测跟踪的应用要求。
图4为本发明方法在VisDrone2019 MOT基准数据集上的评测视频序列结果。VisDrone20110 MOT基准数据集共有16个视频序列,其中三个常见场景的无人机视频序列多目标跟踪测试结果如图4所示,其中图4(a)为夜间街市的场景,图4(b)和图4(c)为路口及街道的场景,跟踪目标有行人、自行车、汽车、公交车和三轮车等多种类型的场景。从图4(a)中可以看到,对于视频序列近处的跟踪目标,即使在光线不好的情况下,本发明跟踪效果较好。同时,在图4(b)和图4(c)中,对于常见路口的远处小目标和快速运动目标,本发明依然可以准确定位目标并进行跟踪,满足无人机的多目标跟踪需要。综上,本发明算法满足了无人机视角下的多小目标跟踪的要求。
Claims (1)
1.一种面向无人机的改进YOLO与SIFT相结合的多小目标检测跟踪方法,其特征在于,该方法包括以下步骤:
步骤1,读取视频序列帧数Nv和标注框真值BBoxv;
步骤2,使用自适应阈值和最小距离约束的方法改进SIFT算法进行特征点检测,具体为:
(2.1)使用自适应阈值的方法改进SIFT算法进行特征点检测,具体为:
(2.1.1)自适应阈值包括图像中心自适应阈值D0和图像边缘自适应阈值λ0,计算公式为:
式中,k1和k2为比例系数,N为待检测图像中SIFT特征点数量,D(Xi)为高斯差分图像中的极值点,H为给定二阶Hessian矩阵,Tr为矩阵H的迹,Det为矩阵H的行列式;
(2.1.2)假设高斯差分尺度空间函数为D(X),利用图像中心自适应阈值D0,来过滤掉|D(X)|<D0的图像中心低对比度特征点;利用图像边缘自适应阈值λ0,当时,认为该特征点位于边缘而被过滤掉;
(2.2)使用最小距离约束的方法进行特征点检测,具体为:
(2.2.1)设两个特征点之间的最小约束距离为dmin,遍历特征点;
(2.2.2)若两个特征点之间距离小于dmin,则去掉其中相对小的特征点;
(2.2.3)如果待处理的目标图像很大,则可以将dmin设置大些,以提高特征提取速度,满足跟踪速度的要求;如果待处理的目标图像很小,则可以将dmin设置小些,以保证在很小的目标上仍然有可靠的特征点;
步骤3,根据改进SIFT算法检测得到的特征点,采用KLT算法对特征点进行匹配和目标区域定位,具体为:
(3.1)假设包含特征纹理信息的特征窗口为W,t时刻对应的图像表示为I(x,y,t),t+τ时刻对应的图像I(x,y,t+τ)表示为:
I(x,y,t+τ)=I(x-Δx,y-Δy) (2)
式中,(x,y)为特征点,运动量d=(Δx,Δy)为点X(x,y)的偏移;
对于给定两幅图像I和J,将灰度差平方和用ε表示,定义ε为:
式中,J(X+d)为图像J相对于点X(x+Δx,y+Δy)处的灰度,I(X)为图像I在点X(x,y)处的灰度,W为给定的特征窗口,w(X)为加权函数;
令w(X)=1,将J(X+d)进行泰勒展开,去掉高次项,只保留前两项;然后根据公式(3)对d求导,最终化简得到:
Zd=ε (4)
其中,Z为偏移量d的系数矩阵,d为点X(x,y)的偏移,gx,gy分别为图像在点X(x,y)处的偏微分;
对每个点利用公式(4)进行牛顿迭代,直到满足一定精度,就可实现图像特征点的最优匹配,找到可靠的特征点的位置信息;
(3.2)假设整幅图像高度为H,宽度为W,目标区域宽度和高度为w和h,其中,w和h具体计算公式为:
式中,(min(x1,x2,...,xNum),min(y1,y2,...,yNum))为标注框的左上角坐标,(max(x1,x2,...,xNum),max(y1,y2,...,yNum))为标注框的右下角坐标,(xi,yi)为第i个特征点的坐标,xi∈[0,W-1],yi∈[0,H-1],i=(1,2,...,Num),Num表示特征点的个数;
由于特征点分布在目标及边缘上,因此根据上述方法可确定出目标的位置并能充分反映出目标的实际大小,实现目标区域定位;
步骤4,采用YOLO网络剪枝后的UAV-YOLO进行目标检测,其中YOLO网络的剪枝包括如下步骤:
(4.1)首先对YOLO网络进行基础训练和稀疏训练,具体为:
(4.1.1)基础训练是指,采用YOLO网络权重文件进行预训练,在训练的过程中,参考目标检测指标和损失函数,当验证集的损失函数值出现上升时,停止基础训练,防止了训练的过拟合;
(4.1.2)对于稀疏训练,首先对YOLO网络中的BN层进行描述,假设每批次描述的特征用y表示为:
式中,γ为训练的缩放比例因子,x为数据集训练时每批次描述特征,和σ2为数据集训练时每批次描述特征的均值和方差,ε为数据集训练时每批次描述特征之间的误差,β为训练的误差因子;
其次在BN层描述的基础上,对训练的缩放比例因子γ施加L1正则化来进行信道稀疏性训练,训练的损失函数表示如下:
式中,lossYOLO表示YOLO网络的初始损失函数,f(γ)=|γ|表示L1范数,Γ为缩放比例因子γ的约束条件,a表示惩罚因子,用来平衡YOLO网络的初始损失函数项和训练的缩放比例因子γ项,在原损失函数的基础上,实现了对信道重要性的衡量;
(4.2)在完成YOLO网络基础训练和稀疏训练后,对YOLO网络中的最大池化层、上采样层、卷积层、路由层和直连层进行信道修剪和网络调整;
步骤5,根据目标的尺度信息和位置信息完成目标的数据关联,再使用KLT算法实现多目标跟踪,具体为:
(5.1)首先在目标跟踪过程中得到目标的尺度信息和位置信息;
(5.1.1)假设全局目标尺度信息sn满足对数正态分布:
式中,N为正态分布,μp和分别代表全局目标尺度信息sn的平均值和方差;
将全局目标尺度信息sn作为先验知识,通过下式预测轨迹中目标尺度信息:
式中,δt为检测的帧之间的时差,表示不同轨迹尺度信息的方差,cj用来区分轨迹的类型,以便于分类;
(5.1.2)假设目标和周围环境都均匀分布在图像中,此时图像区域b上的位置信息xn的概率密度p(xn)可表示为:
式中,sk为被跟踪对象的平均像素大小;
对被跟踪目标建立恒速的运动模型,可表示为:
式中,xp为根据vp得到的位置信息,xn-1为第xn-1帧目标的预测位置,p为前后帧的时间内累积的位置误差,δt为前后帧的时间差,vp为检测前后帧中KLT跟踪结果,Σv表示被跟踪目标由未知加速度引起的速度变化,包括运动速度和运动方向的变化;
当被跟踪目标作长时间运动时,使用卡尔曼滤波器来估计目标位置上的可能情况,对于每一步KLT运动估计值y,将其考虑到运动模型中,得到目标位置信息xn为:
式中,∑y为目标的累计运动估计值,I为单位阵,∑klt表示KLT特征跟踪速度累积的随机误差;
(5.2)对于上述得到的跟踪目标的尺度信息和位置信息,采用基于MDL原理的方法找到假设数据集Hi和检测数据集D的最优表示关系;
(5.2.1)由目标尺度信息和位置信息关联到给定精度所需的关联系数L取决于相应的似然函数L(D|H),这里的似然函数满足:
L(D|H)+L(H)=-log(p(D|Hi)p(Hi)) (13)
式中,L(H)为假设数据集对应的似然函数;
(5.2.2)考虑假设数据集Hi的编码,它要求每个被检测到的目标被分配到一个轨迹,并且每个轨迹被赋予一个类型标签;在多目标跟踪中,如果被跟踪到的目标长度就等于轨迹中的长度,则优先进行关联,此时假设数据集Hi的概率表示为:
式中,cj为轨迹的类型,p(cj)为不同轨迹的优先级,|D|表示检测数据集D的基数大小,Tj表示假设数据集中的子集;
在数据关联的过程中,被分解的不同轨迹一定可以进行关联;似然函数L(D|H)分解表示为每一条轨迹的分量,设dn j为轨迹Tj中的第n个检测,其中索引n仅指示轨迹内的顺序,则在假设数据集Hi下,将检测得到的概率表示为:
式中,为单个目标的轨迹信息概率,/>为全部目标的轨迹信息概率;
(5.2.3)对于每一个目标检测的结果,将单个检测轨迹的似然函数用尺度信息sn和位置信息xn来表示,具体为:
p(d1 j|cj)=p(s1)p(x1) (16)
式中,p(s1),p(s1)分别为单个目标的尺度信息概率和位置信息概率;
式中,p(sn|sn-1),p(xn|xn-1,cj)分别为全部目标的尺度信息概率和位置信息概率;
将式(16)和式(17)带入式(15)得到:
由式(13)、式(14)和式(18)联立,可得到假设数据集Hi和检测数据集D的最优表示关系,完成数据关联;
(5.3)数据关联完成后,即可采用步骤3中KLT算法对特征点进行匹配和目标定位,实现多目标跟踪。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010497477.0A CN111666871B (zh) | 2020-06-03 | 2020-06-03 | 一种面向无人机的改进yolo与sift相结合的多小目标检测跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010497477.0A CN111666871B (zh) | 2020-06-03 | 2020-06-03 | 一种面向无人机的改进yolo与sift相结合的多小目标检测跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111666871A CN111666871A (zh) | 2020-09-15 |
CN111666871B true CN111666871B (zh) | 2024-02-09 |
Family
ID=72385924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010497477.0A Active CN111666871B (zh) | 2020-06-03 | 2020-06-03 | 一种面向无人机的改进yolo与sift相结合的多小目标检测跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111666871B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307921B (zh) * | 2020-10-22 | 2022-05-17 | 桂林电子科技大学 | 一种车载端多目标识别跟踪预测方法 |
CN112257587B (zh) * | 2020-10-22 | 2023-12-22 | 无锡禹空间智能科技有限公司 | 目标对象的检测效果评估方法、装置、存储介质及设备 |
CN112488043B (zh) * | 2020-12-15 | 2023-06-02 | 华侨大学 | 一种基于边缘智能的无人机车辆目标检测方法 |
CN113283279B (zh) * | 2021-01-25 | 2024-01-19 | 广东技术师范大学 | 一种基于深度学习的视频中多目标跟踪方法及装置 |
CN112884811A (zh) * | 2021-03-18 | 2021-06-01 | 中国人民解放军国防科技大学 | 一种针对无人机集群的光电探测跟踪方法及系统 |
CN117455948B (zh) * | 2023-08-09 | 2024-07-02 | 东南大学 | 基于深度学习算法的多视角行人轨迹提取和数据分析方法 |
CN117710787A (zh) * | 2023-12-04 | 2024-03-15 | 南京航空航天大学 | 一种基于yolo网络的空中目标机动动作识别方法与系统 |
CN118675064A (zh) * | 2024-08-26 | 2024-09-20 | 自然资源部第三地理信息制图院 | 一种基于深度学习的遥感影像极值检查方法、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107748860A (zh) * | 2017-09-01 | 2018-03-02 | 中国科学院深圳先进技术研究院 | 无人机的目标跟踪方法、装置、无人机及存储介质 |
CN109409443A (zh) * | 2018-11-28 | 2019-03-01 | 北方工业大学 | 一种基于深度学习的多尺度可变形卷积网络目标检测方法 |
CN110232350A (zh) * | 2019-06-10 | 2019-09-13 | 哈尔滨工程大学 | 一种基于在线学习的实时水面多运动目标检测跟踪方法 |
CN110334594A (zh) * | 2019-05-28 | 2019-10-15 | 昆明理工大学 | 一种基于批再规范化处理的yolo算法的目标检测方法 |
CN110660083A (zh) * | 2019-09-27 | 2020-01-07 | 国网江苏省电力工程咨询有限公司 | 一种结合视频场景特征感知的多目标跟踪方法 |
-
2020
- 2020-06-03 CN CN202010497477.0A patent/CN111666871B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107748860A (zh) * | 2017-09-01 | 2018-03-02 | 中国科学院深圳先进技术研究院 | 无人机的目标跟踪方法、装置、无人机及存储介质 |
CN109409443A (zh) * | 2018-11-28 | 2019-03-01 | 北方工业大学 | 一种基于深度学习的多尺度可变形卷积网络目标检测方法 |
CN110334594A (zh) * | 2019-05-28 | 2019-10-15 | 昆明理工大学 | 一种基于批再规范化处理的yolo算法的目标检测方法 |
CN110232350A (zh) * | 2019-06-10 | 2019-09-13 | 哈尔滨工程大学 | 一种基于在线学习的实时水面多运动目标检测跟踪方法 |
CN110660083A (zh) * | 2019-09-27 | 2020-01-07 | 国网江苏省电力工程咨询有限公司 | 一种结合视频场景特征感知的多目标跟踪方法 |
Non-Patent Citations (2)
Title |
---|
徐建华等.一种基于YOLO-V3 算法的水下目标识别跟踪方法.《中国惯性技术学报》.2020,全文. * |
李世豪等.基于直觉模糊博弈的无人机空战机动决策.《系统工程与电子技术》.2019,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111666871A (zh) | 2020-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111666871B (zh) | 一种面向无人机的改进yolo与sift相结合的多小目标检测跟踪方法 | |
CN113807187B (zh) | 基于注意力特征融合的无人机视频多目标跟踪方法 | |
CN111429484B (zh) | 一种基于交通监控视频的多目标车辆轨迹实时构建方法 | |
CN106874854B (zh) | 基于嵌入式平台的无人机车辆跟踪方法 | |
CN110688905B (zh) | 一种基于关键帧的三维物体检测与跟踪方法 | |
CN105667518A (zh) | 车道检测的方法及装置 | |
CN113223045B (zh) | 基于动态物体语义分割的视觉与imu传感器融合定位系统 | |
CN105654516B (zh) | 基于目标显著性的卫星图像对地面弱小运动目标检测方法 | |
Dusha et al. | Fixed-wing attitude estimation using computer vision based horizon detection | |
CN112101160B (zh) | 一种面向自动驾驶场景的双目语义slam方法 | |
CN117058646B (zh) | 基于多模态融合鸟瞰图的复杂道路目标检测方法 | |
CN113092807B (zh) | 基于多目标跟踪算法的城市高架道路车辆测速方法 | |
Yang et al. | SiamMDM: an adaptive fusion network with dynamic template for real-time satellite video single object tracking | |
CN107543539B (zh) | 一种无人机的位置信息获取方法及无人机 | |
CN115496900A (zh) | 一种基于稀疏融合的在线碳语义地图构建方法 | |
CN116643291A (zh) | 一种视觉与激光雷达联合剔除动态目标的slam方法 | |
CN116229385A (zh) | 一种基于卷积神经网络结合贪心算法的车辆3d多目标跟踪方法 | |
Wang et al. | Research on vehicle detection based on faster R-CNN for UAV images | |
Hanzla et al. | Vehicle recognition pipeline via DeepSort on aerial image datasets | |
Lu et al. | Multi-small target detection and tracking based on improved YOLO and SIFT for drones | |
CN117036484A (zh) | 一种基于几何和语义的视觉定位与建图方法、系统、设备及介质 | |
Castellano et al. | Crowd flow detection from drones with fully convolutional networks and clustering | |
Crisman | Color vision for the detection of unstructured road and intersections | |
CN115984751A (zh) | 一种基于多通道多尺度融合的孪生网络遥感目标跟踪方法 | |
Zhang et al. | An efficient and flexible approach for multiple vehicle tracking in the aerial video sequence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |