CN111582062B - 一种基于YOLOv3的目标跟踪中的重检测方法 - Google Patents

一种基于YOLOv3的目标跟踪中的重检测方法 Download PDF

Info

Publication number
CN111582062B
CN111582062B CN202010315220.9A CN202010315220A CN111582062B CN 111582062 B CN111582062 B CN 111582062B CN 202010315220 A CN202010315220 A CN 202010315220A CN 111582062 B CN111582062 B CN 111582062B
Authority
CN
China
Prior art keywords
target
tracking
image
frame
yolov3
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010315220.9A
Other languages
English (en)
Other versions
CN111582062A (zh
Inventor
贾海涛
赵行伟
范世炜
邓文浩
许文波
贾宇明
罗欣
周兰兰
唐昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010315220.9A priority Critical patent/CN111582062B/zh
Publication of CN111582062A publication Critical patent/CN111582062A/zh
Application granted granted Critical
Publication of CN111582062B publication Critical patent/CN111582062B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于YOLOv3的目标跟踪中的重检测方法,该方法主要使用深度学习目标检测算法YOLOv3作为重检测方法,YOLOv3具有深度学习强大的特征提取能力,在检测精度上遥遥领先于传统的重检测方法,使用YOLOv3算法代替传统的重检测方法,可以极大地提高重检测效果,同时也有较好的检测速度,最终使得目标跟踪过程能够更稳定的进行。

Description

一种基于YOLOv3的目标跟踪中的重检测方法
技术领域
本发明属于计算机视觉领域,尤其涉及一种基于YOLOv3的目标跟踪中的重检测方法。
背景技术
遮挡问题是目标跟踪领域的难点。目标遮挡是指跟踪目标受到遮挡物不同程度的覆盖,从而干扰了目标的正常表达,在像素方面表现为纹理、颜色等特征的改变,并且这种改变一般是不可恢复的。由于出现遮挡情况时目标特征发生变化,可能使目标跟踪发生偏移,在遮挡严重或完全遮挡时甚至会造成目标的跟丢,严重影响目标跟踪的精度。而在平时的目标跟踪场景中,跟踪环境复杂多变,尺度变化、遮挡等常见因素经常会影响到目标跟踪的结果,很难进行高效、稳定的跟踪。这样,为了保证跟踪的持续性和鲁棒性,需要对遮挡进行判断,并加入算法跟踪失败的重检测模块。
目前,常用的丢失重检测方法大多都为传统方法上的重检测如SVM,模板匹配等,这些方法的优点是检测速度较快,但是对于一些场景下检测精度较低。而深度学习目标检测算法YOLOv3同时具有检测精度高、速度快的优点。因此,本发明利用YOLOv3代替传统的目标重检测方法来解决目标跟踪下的重检测问题。
发明内容
为解决现有技术中存在的问题,本发明提出了一种基于YOLOv3的目标跟踪重检测方法,针对MSS算法进行目标跟踪时,因目标被遮挡、超出视野范围等导致的目标跟丢情况,结合YOLOv3目标检测算法进行丢失目标的重检测,使得算法能在目标重新出现时自动找回目标继续跟踪任务,进一步提高算法的跟踪效果。在后文中,使用MSS-YOLOv3表示本发明改进的跟踪算法,MSS表示带尺度估计的Mean-shift跟踪算法。
本发明采用的技术方案是:
一种基于YOLOv3的目标跟踪中的重检测方法,该方法主要通过两个模块实现,分别为跟踪模块和重检测模块,该方法的整体结构框图如图1所示,包括以下步骤:
Step 1.开始基于YOLOv3的目标跟踪中的重检测方法;
Step 2.获取跟踪目标:开始获取视频序列,读取视频初始帧图像的目标位置,提取目标区域直方图特征,进行跟踪模板初始化;
Step 3.判断视频序列是否结束,若未结束,进入Step 4;若结束,直接结束基于YOLOv3的目标跟踪中的重检测方法;
Step 4.进入跟踪模块:读入当前帧图像,通过上一帧图像确定的目标中心来提取当前帧图像的目标候选区域,并进行带尺度估计的Mean-shift跟踪(MSS)算法跟踪。首先,提取目标候选区域内的直方图特征,得到关于候选模型的描述;然后,利用相似函数度量目标模版和当前帧图像的候选模型的相似性,选择使相似函数最大的候选模型并得到关于目标模型的Mean-shift向量,这个向量正是目标由上一帧图像的位置向当前帧图像正确位置移动的向量;由于均值漂移算法的快速收敛性,通过不断迭代计算Mean-shift向量,MSS算法最终将收敛到目标的真实位置。最终得到当前帧图像的目标的中心位置和尺度;
Step 5.特征匹配模块:对前后两帧图像中的目标区域直方图特征进行匹配。通过该特征匹配模块计算当前帧图像和上一帧图像跟踪目标的模型匹配程度,衡量当前帧图像算法的跟踪效果。匹配程度通过二者直方图特征的巴氏系数来量化,通过预设阈值判断是否跟偏或跟丢,若跟偏或跟丢,则进入Step 6;若未跟偏或跟丢,则进入Step 7;
Step 6.进入重检测模块:若目标跟丢,则通过YOLOv3进行目标重检测,在全幅图像范围进行目标检测获取若干候选目标,主要是获取高精度的目标区域矩形框信息,再对每个候选目标区域与跟丢前的目标模板进行特征匹配,通过匹配值和阈值进行判断,选取匹配值最高且高于阈值的目标,作为找回的跟踪目标。若当前帧图像检测的候选目标均不满足匹配阈值指标,则下一帧图像继续进行重检测;否则,重检测模块结束,进入Step 7。
Step 7.模板更新:对于每一帧图像中通过跟踪模块或者重检测模块确定的最终目标,需要通过提取其特征,更新该帧图像的目标模板,以适应目标在跟踪过程中的变化。然后进入Step 3。
进一步地,Step 4分为以下步骤:
(1)读取当前帧图像,在图像中以上一帧图像的目标位置为中心建立候选矩形框,提取目标候选区域。
(2)在目标候选区域候进行直方图特征提取,即建模为颜色空间直方图,得到关于候选模型的描述,同时获取上一帧图像的目标模板。
(3)均值漂移:对目标区域直方图特征和候选区域直方图特征进行反向投影,获得反向投影图,每一个像素值代表了输入图像上对应点属于目标对象的概率。根据反向投影图和目标轮廓进行Mean-shift迭代,找到该帧图像中的目标位置。并通过三个尺度因子来确定目标尺度。
进一步地,Step 6分为以下步骤:
(1)若根据特征匹配结果判断目标丢失,进入重检测模块。
(2)对全局图像进行YOLOv3目标检测,检测出若干候选目标。
(3)对若干目标和模板以Step 5的方式进行特征匹配,找到最相似的目标即为重检测目标。若候选目标均不满足匹配阈值指标,则下一帧继续进行重检测。
因此,本发明主要使用深度学习目标检测算法YOLOv3作为重检测方法。YOLOv3具有深度学习强大的特征提取能力,在检测精度上遥遥领先于传统的重检测方法,使用YOLOv3算法代替传统的重检测方法,可以极大地提高重检测效果,同时也有较好的检测速度,最终使得目标跟踪过程能够更稳定的进行。
附图说明
图1为本发明的整体结构框图。
图2为本发明的跟踪模块示意图。
图3为本发明的重检测模块示意图。
图4为Darknet-53网络结构图。
图5为改进前的算法测试结果图。
图6为改进后的算法测试结果图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明,所述是对本发明的解释而不是限定。
本发明提出的一种基于YOLOv3的目标跟踪中的重检测方法,该方法的整体结构框图如图1所示,包括以下步骤:
Step 1.开始基于YOLOv3的目标跟踪中的重检测方法;
Step 2.获取跟踪目标:开始获取视频序列,读取视频初始帧图像的目标位置,提取目标区域直方图特征,进行跟踪模板初始化;
Step 3.判断视频序列是否结束,若未结束,进入Step 4;若结束,直接结束基于YOLOv3的目标跟踪中的重检测方法;
Step 4.进入跟踪模块:读入当前帧图像,通过上一帧图像确定的目标中心来提取当前帧图像的目标候选区域,并进行带尺度估计的Mean-shift跟踪(MSS)算法跟踪。首先,提取目标候选区域内的直方图特征,得到关于候选模型的描述;然后,利用相似函数度量目标模版和当前帧图像的候选模型的相似性,选择使相似函数最大的候选模型并得到关于目标模型的Mean-shift向量,这个向量正是目标由上一帧图像的位置向当前帧图像正确位置移动的向量;由于均值漂移算法的快速收敛性,通过不断迭代计算Mean-shift向量,MSS算法最终将收敛到目标的真实位置。最终得到当前帧图像的目标的中心位置和尺度;
Step 5.特征匹配模块:对前后两帧图像中的目标区域直方图特征进行匹配。通过该特征匹配模块计算当前帧图像和上一帧图像跟踪目标的模型匹配程度,衡量当前帧图像算法的跟踪效果。匹配程度通过二者直方图特征的巴氏系数来量化,通过预设阈值判断是否跟偏或跟丢,若跟偏或跟丢,则进入Step 6;若未跟偏或跟丢,则进入Step 7;
Step 6.进入重检测模块:若目标跟丢,则通过YOLOv3进行目标重检测,在全幅图像范围进行目标检测获取若干候选目标,主要是获取高精度的目标区域矩形框信息,再对每个候选目标区域与跟丢前的目标模板进行特征匹配,通过匹配值和阈值进行判断,选取匹配值最高且高于阈值的目标,作为找回的跟踪目标。若当前帧图像检测的候选目标均不满足匹配阈值指标,则下一帧图像继续进行重检测;否则,重检测模块结束,进入Step 7。
Step 7.模板更新:对于每一帧图像中通过跟踪模块或者重检测模块确定的最终目标,需要通过提取其特征,更新该帧图像的目标模板,以适应目标在跟踪过程中的变化。然后进入Step 3。
一、跟踪模块:基于Mean-Shift和尺度估计的目标跟踪(MSS)算法
本发明首先利用MSS算法进行目标跟踪。MSS目标跟踪由于其跟踪速度快且精度高,是一种常用的目标跟踪算法。
MSS算法通过分别计算目标区域和候选区域内像素的特征值概率得到关于目标模型和候选模型的描述,然后,利用相似函数度量目标模版和当前帧的候选模型的相似性,选择使相似函数最大的候选模型并得到关于目标模型的Mean-Shift向量,这个向量正是目标由上一帧的位置向当前帧正确位置移动的向量;由于均值漂移算法的快速收敛性,通过不断迭代计算Mean-Shift向量,算法最终将收敛到目标的真实位置,得到当前帧的目标的中心位置和尺度。跟踪框图如图2所示,其步骤如下:
1、首先,目标图像被建模为位于原点的某个特征空间中的m-bin内核估计直方图,其中m表示该目标图像颜色通道中分块(bin)的数量,如式(1):
Figure BDA00024592051200000519
Figure BDA0002459205120000051
其中,
Figure BDA0002459205120000052
表示的是目标图像中第u个颜色通道分块(bin)的在目标区域的概率值,
Figure BDA0002459205120000053
组合形成了目标特征的概率分布,用以表征目标模型。
除了颜色直方图信息,还加入空间位置信息。考虑目标中心区域对目标的特征表征贡献最高,目标边缘区域易受背景影响,贡献最低,在空间上,将目标建模为类圆,越靠近圆心的像素,其直方图特征权重越高,越远离圆心权重越低。将目标空间位置信息作为颜色直方图特征提取的权重指标,目标模型中的第u个bin特征可以写为式(2):
Figure BDA0002459205120000054
其中,
Figure BDA0002459205120000055
为第i个像素相对于原点的偏移坐标,
Figure BDA0002459205120000056
分别为横纵坐标偏移值,函数
Figure BDA0002459205120000057
Figure BDA0002459205120000058
处的像素值映射对应的bin,N为图像的像素数量,目标由图像中的椭球区域
Figure BDA0002459205120000059
表示,映射在核函数k中,a、b分别表示矩形框宽高的一半,该目标的矩形框即为椭球区域的外接矩形框。k(x)是Epanechnikov函数,如式(3):
Figure BDA00024592051200000510
这里的cd表示的是d维空间中的单位球体的体积,对应于图像来说,d=2,cd就是单位圆面积。δ是Kronecker克罗内克函数,
Figure BDA00024592051200000511
用于判断
Figure BDA00024592051200000512
的值是否等于u,是则该值为1,否则为0,即该函数实质判断了目标模型中的第u个bin特征
Figure BDA00024592051200000513
是否包含
Figure BDA00024592051200000514
处的像素值提取的特征。C表示的是对该直方图进行归一化的系数,如式(4):
Figure BDA00024592051200000515
2、对下一帧图像,即待求候选目标时,直接在上一帧目标为中心的的椭圆区域提取颜色直方图特征,表示为式(5):
Figure BDA00024592051200000516
其中y为目标候选区域,
Figure BDA00024592051200000517
表示的是候选区域图像中第i个bin的概率值,
Figure BDA00024592051200000518
为候选区域的特征概率分布模型。
因为目标位置和尺度可能变化,所以对应于候选目标的中心点,就不再默认为原来的中心点(原来的模板目标框中中心点位置设为原点),并且尺度有了而一个h因子的变化。所以对于每一个bin的值的求解方程变为式(6):
Figure BDA0002459205120000061
其中,y1和y2分别是上一帧目标中心点的横纵坐标,
Figure BDA0002459205120000062
分别为第i个像素的横纵坐标,a和b对应的是上一帧目标矩形框的长与宽,h是目标区域的尺度变化因,其中Ch为对该直方图进行归一化的系数,如式(7):
Figure BDA0002459205120000063
对于每次的尺度变化,使用一个10%的上下浮动,即对于每次的计算,都计算三次得到三个不同的h值,然后比较选择出最佳尺度。
3、上述得到了两帧图像中目标的表示,判断这两个区域表示的是否为同一目标,就要比较这两者之间的相似性。这里采用了海林格距离来说明两个直方图(通过归一化系数的计算将直方图规范为和为1的概率分布)之间的相似性。通过对海林格距离的公式的泰勒展开,得出式(8):
Figure BDA0002459205120000064
为了最小化该距离,必须使用梯度下降法将其最大化,h0为当前尺度参数。将当前位置
Figure BDA0002459205120000065
沿
Figure BDA0002459205120000066
方向迭代到新的位置
Figure BDA0002459205120000067
同时将h0尺度变为h1
Figure BDA0002459205120000068
表示h0尺度参数下的直方图归一化系数。
4、最后,通过多次迭代计算,得出最终的目标位置
Figure BDA0002459205120000069
和大小h1
二、判断目标是否丢失:匹配策略
本发明采用的是直方图的匹配方式,即通过计算前后帧目标灰度直方图的巴氏系数BC(p,q)(一种衡量直方图相似度的系数)来衡量该帧目标的匹配程度,用于判断目标是否跟偏或跟丢,如式(9)所示。
Figure BDA00024592051200000610
p(x)与q(x)分别代表前后帧图像直方图的第x块特征值,N表示颜色通道分块数,巴氏系数BC(p,q)越大,表示两种直方图特征越相似,反之亦然。若巴氏系数BC(p,q)大于预设阈值,则认为跟踪成功,否则认为跟踪失败。
三、重检测模块:基于YOLOv3的丢失重检测方法
本发明主要使用YOLOv3进行目标的丢失重检测,其流程框图如图3所示,具体实施步骤为:
1、丢失判断,丢失自检测模块需要每帧都进行,以判断该帧跟踪效果,跟踪失败或是效果较差,则认为后续帧难以维持鲁棒跟踪。该模块蕴含在算法的每帧跟踪模板匹配里,在算法以匹配程度最高目标作为本帧跟踪目标时,再加个阈值,来判断该帧目标是否达到跟踪效果要求。当跟踪自检测模块认为本帧丢失或是效果较差后,进入重检测模块。
2、YOLOv3算法进行重检测,YOLOv3算法的介绍如下:主要从三个方面来说明,网络的输入、结构和输出。
(1)网络输入:输入图片分辨率可以为320×320、416×416、608×608,这些分辨率必须是32的整数倍数,因为YOLOv3有5次下采样,每次采样步长为2,所以网络的最大步幅(步幅指层的输入大小除以输出)为2^5=32。
(2)网络结构:首先训练了一个darknet-53网络,这个网络主要是由一系列的1×1和3×3的卷积层组成(每个卷积层后都会跟一个BN层和一个Leaky ReLU)层,一共有53个卷积层,故称为darknet-53。其结构参数如表1所示,其中模块数量表示该模块重复了几次,网络层表示该层使用的操作,Filters表示卷积核的个数,Size表示卷积核的尺寸,Stride表示卷积的步长,Output表示通过该层操作后的输出特征图的大小。训练这个主要是为了主要有两个目的:a.这个网络结构能在ImageNet有好的分类结果,从而说明这个网路能学习到好的特征;b.为后续检测模型做初始化。
表1 Darknet-53网络结构及参数
Figure BDA0002459205120000071
Figure BDA0002459205120000081
YOLOv3是基于darknet-53网络实现的,其网络结构如图4所示。YOLOv3就是使用了darknet-53的前面的52层(没有全连接层部分),darknet-53这个网络是一个全卷积网络,大量使用残差的跳层连接。之前的工作中,采样一般都是使用卷积核尺寸为2×2,步长为2的最大池化或者均值池化进行降采样。但在这个网络结构中,使用的是步长为2的卷积来进行降采样。同时,网络中使用了上采样、route操作,还在一个网络结构中进行3次检测。
使用残差的结构的好处:(1)深度模型一个关键的点就是能否正常收敛,残差这种结构能保证网络结构在很深的情况下,仍能收敛,模型能训练下去。(2)网络越深,表达的特征越好,分类+检测的效果都会提升。(3)残差中的1×1卷积,可以大量地减少每次卷积的通道,一方面减少了参数量(参数量越大,保存的模型越大),另一方面在一定程度上减少了计算量。
YOLOv3中进行了三次目标检测,分别是在32倍降采样,16倍降采样,8倍降采样时对目标进行检测。在网络中使用上采样的原因:网络越深的特征表达效果越好,比如在进行16倍降采样检测,如果直接使用16倍降采样的特征来检测,这样就使用了浅层特征,这样效果一般并不好。如果想使用32倍降采样后的特征,但深层特征的尺寸小一倍,因此YOLOv3使用了步长为2的上采样,把32倍降采样得到的特征图的大小提升一倍,也就成了16倍降采样。同理8倍采样也是对16倍降采样的特征进行步长为2的上采样,这样就可以使用深层特征进行检测。
YOLOv3通过上采样的方式很好的使16倍降采样和8倍降采样使用深层特征。YOLOv3想把这些浅层特征也利用起来,就有了route层。把32倍降采样得到的特征图进行上采样,再和16倍采样得到的层拼接在一起,在通道维度进行拼接。这样拼接的好处:让网络同时学习深层和浅层特征,表达效果更好。8倍降采样同样也是这样的操作,把三次下采样的特征图拼接在一起。
(3)网络输出:
a.首先先确定网络输出特征层的大小。比如输入为320×320时,则输出为320/32=10,因此输出为10×10大小的特征图,此时有10×10=100个网格;同理当输入为416×416时输出的特征层为13×13大小的特征层,13×13=169个网格;输入为608×608时,输出的特征图大小为19×19,网格有19×19=361个。
b.Anchor box(锚点框)的确定。这个先验框不同于之前FasterRCNN和SSD那样人工设定,在YoloV2和YOLOv3中,都采用了对图像中的目标采用k-Means聚类来获得先验框。
c.特征图中的每一个网格都会预测3个边界框,每个边界框都会预测三个东西:每个框的位置(4个值,中心坐标tx和ty,框的宽高tw和th)、一个目标置信度to和L个类别(在COCO数据集有80类,VOC数据集有20类)。因此对于COCO数据集,在网络输入为416×416时,网络的输出大小为13×13×(3×(4+1+80))=13×13×255。
d.三次检测,每次对应的感受野不同,32倍降采样的感受野最大,适合检测大的目标,所以在13×13的输出特征图上,每个网格的三个锚点框的尺寸为(116,90)、(156,198)和(373,326)。16倍降采样适合检测中等大小的物体,锚点框为(30,61)、(62,45)和(59,119)。8倍的感受野最小,适合检测小目标,因此锚点框为(10,13)、(16,30)和(33,23)。所以当输入为416×416时,实际总共有(52×52+26×26+13×13)×3=10647个边界框。
3、目标匹配。在通过改进的YOLOv3检测出多个边界框以后,还需要使用非极大值抑制算法来去除冗余的边界框,最终输出多个预测框。对每个预测框与上一帧图像的模板进行匹配。根据匹配结果找出匹配程度最高的目标作为该帧的目标,以进行下一帧图像的跟踪。
实验结果分析
1、评价指标
在目标跟踪中,主要有两个评价指标以对算法进行评估:
(1)准确性Accuracy:
准确性用于评估算法跟踪的精度,精度越高,算法效果越好。则针对某一个视频的测试过程,计算算法的准确性Accuracy过程如下:
首先定义IOU(Intersection over Union,交并比)计算公式如下。其中,在第t帧,
Figure BDA0002459205120000101
表示标记的真实目标位置,
Figure BDA0002459205120000102
表示跟踪算法得到的目标位置,使用IOUt用来衡量算法获得的目标位置和真实目标位置的重叠程度。
Figure BDA0002459205120000103
然后,由于评估系统要求,需要对一个视频序列进行N次测试。使用Φt(i)表示使用视频中的第t帧,进行第i次测试的交并比结果。对某一帧的所有测试取平局值,就得到针对这一帧的准确性测试结果。
Figure BDA0002459205120000104
最后,我们选取了某个测试视频对跟踪算法进行了测试。则跟踪算法的准确性结果Accuracy,就可以通过对视频中所有帧的准确性结果取平均值得到。其中Nvalid表示视频中里有效的帧数,因为一个视频中可能并不会每一帧都有目标,若该帧里没有目标则对该帧忽略不计。
Figure BDA0002459205120000105
(2)鲁棒性Robustness:
鲁棒性用于评估跟踪算法的可靠程度。跟踪过程丢失的次数越少,则鲁棒性越高,算法效果越好。对一个视频序列进行N次测试,F(i)表示对算法进行第i次测试得到的鲁棒性结果。对每次测试取平均后,就可以得到跟踪算法针对该测试视频的鲁棒性指标Robustness。
Figure BDA0002459205120000111
对于一个算法准确性和鲁棒性的整体评估,可以将每个测试视频的评估结果,以该视频的长度作为加权求和得到。除了对所有视频进行整体的指标评估,还可以根据标签中的视觉特性进行分类,对于每种特性,进行单独统计评估。
2、结果分析
在实验中测试了MSS跟踪算法和本发明改进的MSS-Yolov3跟踪算法的效果,分别如图5和图6所示。其纵坐标表示算法的跟踪准确性,越往上表示准确度越高;横坐标表示算法的鲁棒性,越往左表示算法丢失的次数越少,鲁棒性越好。所以,对于测试结果越往左上角则算法的性能更优。
同时,由于诸多因素会影响跟踪的性能,评估跟踪算法是困难的,为了更好地评估和分析跟踪方法的优缺点,用11种属性对目标的视觉状态特性进行了统计(参考OTB的属性分类),这些属性及描述信息列在表2中所示。除此之外,还有3类状态All_Result、MSS、Area分别表示:总的统计结果、使用MSS算法统计的结果、使用重检测算法统计的结果。
表2视觉属性一览表
Figure BDA0002459205120000112
Figure BDA0002459205120000121
从两图中的对比可以看出,我们改进后的MSS-YoloV3跟踪算法在这11种属性上的跟踪效果。很明显地,使用MSS-YoloV3算法进行跟踪时,重检测过程的准确度从17.83%提升到了36.68%,鲁棒性从4.69%提升到了4.39%,并且使算法最终的总准确度从42.82%提升到了45.82%,总鲁棒性从3%提升到了2.6%,对跟踪算法的准确度和鲁棒性都有了一定的提升,验证了本发明改进的有效性。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合;本领域的技术人员根据本发明技术方案的技术特征所做出的任何非本质的添加、替换,均属于本发明的保护范围。

Claims (4)

1.一种基于YOLOv3的目标跟踪中的重检测方法,其特征在于,该方法包括以下步骤:
S1)开始基于YOLOv3的目标跟踪中的重检测方法;
S2)获取跟踪目标:开始获取视频序列,读取视频初始帧图像的目标位置,提取目标区域直方图特征,进行跟踪模板初始化;
S3)判断视频序列是否结束,若未结束,进入S4);若结束,直接结束基于YOLOv3的目标跟踪中的重检测方法;
S4)进入跟踪模块:读入当前帧图像,通过上一帧图像确定的目标中心来提取当前帧图像的目标候选区域,并进行带尺度估计的Mean-shift跟踪,即MSS算法跟踪;首先,提取目标候选区域直方图特征,得到关于候选模型的描述;然后,利用相似函数度量目标模型和当前帧图像的候选模型的相似性,选择使相似函数最大的候选模型并得到关于目标模型的Mean-shift向量,这个向量正是目标由上一帧图像的位置向当前帧图像正确位置移动的向量;由于均值漂移算法的快速收敛性,通过不断迭代计算Mean-shift向量,MSS算法最终将收敛到目标的真实位置,最终得到当前帧图像的目标的中心位置和尺度;
S5)特征匹配模块:对前后两帧图像中的目标候选区域直方图特征进行匹配,通过该特征匹配模块计算当前帧图像和上一帧图像跟踪目标的模型匹配程度,衡量当前帧图像算法的跟踪效果,匹配程度通过二者直方图特征的巴氏系数来量化,通过预设阈值判断是否跟偏或跟丢,若跟偏或跟丢,则进入S6);若未跟偏或跟丢,则进入S7);
S6)进入重检测模块:若目标跟丢,则通过YOLOv3进行目标重检测,在全幅图像范围进行目标检测获取若干候选目标,获取高精度的目标区域矩形框信息,再对每个目标候选区域与跟丢前的目标模板进行特征匹配,通过匹配值和阈值进行判断,选取匹配值最高且高于阈值的目标,作为找回的跟踪目标;若当前帧图像检测的候选目标均不满足匹配阈值指标,则下一帧图像继续进行重检测;否则,重检测模块结束,进入S7);
S7)模板更新:对于每一帧图像中通过跟踪模块或者重检测模块确定的最终目标,需要通过提取其特征,更新该帧图像的目标模板,以适应目标在跟踪过程中的变化,然后进入S3);
其中,所述步骤S6)使用YOLOv3进行目标的丢失重检测,具体包括如下步骤:
S61)丢失判断,丢失自检测模块需要每帧图像都进行,以判断该帧图像跟踪效果,跟踪失败或是效果较差,则认为后续帧图像难以维持鲁棒跟踪,该丢失自检测模块蕴含在算法的每帧图像跟踪模板匹配里,在算法以匹配程度最高目标作为本帧图像跟踪目标时,再加个跟踪预设阈值,来判断该帧图像目标是否达到跟踪效果要求,当丢失自检测模块认为本帧图像丢失或是效果较差后,进入重检测模块;
S62)YOLOv3算法进行重检测
(1)网络输入:输入图片分辨率为320×320、416×416、608×608,这些分辨率必须是32的整数倍数,因为YOLOv3有5次下采样,每次采样步长为2,所以网络的最大步幅,即层的输入大小除以输出为25=32;
(2)网络结构:首先训练了一个darknet-53网络,这个网络由一系列的1×1和3×3的卷积层组成,每个卷积层后都会跟一个BN层和一个Leaky ReLU层,一共有53个卷积层,故称为darknet-53;
YOLOv3是基于darknet-53网络实现的,其使用了darknet-53的前面的52层,没有全连接层部分,darknet-53这个网络是一个全卷积网络,大量使用残差的跳层连接,在darknet-53网络结构中,使用的是步长为2的卷积来进行降采样,同时,darknet-53网络中使用了上采样、route操作,还在一个网络结构中进行3次检测;
YOLOv3中进行了3次目标检测,分别是在32倍降采样,16倍降采样,8倍降采样时对目标进行检测,如果想使用32倍降采样后的特征,但深层特征的尺寸小一倍,因此YOLOv3使用了步长为2的上采样,把32倍降采样得到的特征图的大小提升一倍,也就成了16倍降采样,同理8倍采样也是对16倍降采样的特征进行步长为2的上采样,这样就使用深层特征进行检测;
YOLOv3通过上采样的方式很好的使16倍降采样和8倍降采样使用深层特征,YOLOv3想把这些浅层特征也利用起来,就有了route层,把32倍降采样得到的特征图进行上采样,再和16倍采样得到的层拼接在一起,在通道维度进行拼接,使得网络同时学习深层和浅层特征,表达效果更好,8倍降采样同样也是这样的操作,把3次下采样的特征图拼接在一起;
(3)网络输出:
a.首先确定网络输出特征层的大小:当输入为320×320时,则输出为320/32=10,因此输出为10×10大小的特征图,此时有10×10=100个网格;同理当输入为416×416时输出的特征层为13×13大小的特征层,13×13=169个网格;输入为608×608时,输出的特征图大小为19×19,网格有19×19=361个;
b.锚点框Anchor box的确定:这个锚点框不同于之前FasterRCNN和SSD那样人工设定,在YoloV2和YOLOv3中,都对图像中的目标采用k-Means聚类来获得先验框;
c.特征图中的每一个网格都会预测3个锚点框,每个锚点框都会预测3个东西:每个框的位置,包括4个值,中心坐标tx和ty,框的宽高tw和th、一个目标置信度to和L个类别,这L个类别在COCO数据集有80类,在VOC数据集有20类;因此对于COCO数据集,在网络输入为416×416时,网络的输出大小为13×13×(3×(4+1+80))=13×13×255;
d.3次检测,每次对应的感受野不同,32倍降采样的感受野最大,适合检测大的目标,所以在13×13的输出特征图上,每个网格的三个锚点框的尺寸为(116,90)、(156,198)和(373,326);16倍降采样适合检测中等大小的物体,锚点框为(30,61)、(62,45)和(59,119);8倍的感受野最小,适合检测小目标,因此锚点框为(10,13)、(16,30)和(33,23);所以当输入为416×416时,实际总共有(52×52+26×26+13×13)×3=10647个锚点框;
S63)目标匹配:在通过改进的YOLOv3检测出多个锚点框以后,还需要使用非极大值抑制算法来去除冗余的锚点框,最终输出多个预测框,对每个预测框与上一帧图像的模板进行匹配,根据匹配结果找出匹配程度最高的目标作为该帧图像的目标,以进行下一帧图像的跟踪。
2.根据权利要求1所述的基于YOLOv3的目标跟踪中的重检测方法,其特征在于,所述步骤S4)具体包括如下步骤:
S41)首先,目标图像被建模为位于原点的某个特征空间中的m-bin内核估计直方图,其中m表示该目标图像颜色通道中分块bin的数量,如公式1所示:
Figure FDA0003747691240000031
其中,
Figure FDA0003747691240000032
表示的是目标图像中第u个颜色通道分块bin的在目标区域的概率值,
Figure FDA0003747691240000033
组合形成了目标特征的概率分布,用以表征目标模型;
除了颜色直方图信息,还加入空间位置信息,在空间上,将目标建模为类圆,越靠近圆心的像素,其直方图特征权重越高,越远离圆心权重越低,将目标空间位置信息作为颜色直方图特征提取的权重指标,目标模型中的第u个bin特征写为公式2:
Figure FDA0003747691240000034
其中,
Figure FDA0003747691240000035
为第i个像素相对于原点的偏移坐标,
Figure FDA0003747691240000036
分别为第i个像素相对于原点的横纵坐标偏移值,函数
Figure FDA0003747691240000037
Figure FDA0003747691240000038
处的像素值映射对应的bin,N为图像的像素数量,目标由图像中的椭球区域
Figure FDA0003747691240000039
表示,映射在核函数k中,a、b分别表示矩形框宽高的一半,该目标的矩形框即为椭球区域的外接矩形框;k(x)是Epanechnikov函数,如公式3所示:
Figure FDA0003747691240000041
这里的Cd表示的是d维空间中的单位球体的体积,对应于图像来说,d=2,Cd就是单位圆面积;δ是Kronecker克罗内克函数,
Figure FDA0003747691240000042
用于判断
Figure FDA0003747691240000043
的值是否等于u,是则该值为1,否则为0,即该函数实质判断了目标模型中的第u个bin特征
Figure FDA0003747691240000044
是否包含
Figure FDA0003747691240000045
处的像素值提取的特征;C表示的是对该直方图进行归一化的系数,如公式4所示:
Figure FDA0003747691240000046
S42)对下一帧图像,即待求候选目标时,直接在上一帧目标为中心的椭圆区域提取颜色直方图特征,表示为公式5:
Figure FDA0003747691240000047
其中y为目标候选区域,
Figure FDA0003747691240000048
表示的是候选区域图像中第i个bin的概率值,
Figure FDA0003747691240000049
为候选区域的特征概率分布模型;
因为目标位置和尺度的变化,所以对应于候选目标的中心点不再默认为原来的中心点,原来的模板目标中心点位置设为原点,并且尺度有了一个h因子的变化,所以对于每一个bin的值的求解方程变为公式6:
Figure FDA00037476912400000410
其中,y1和y2分别是上一帧目标中心点的横纵坐标,
Figure FDA00037476912400000411
分别为第i个像素的横纵坐标,a和b对应的是上一帧目标矩形框的长与宽,h是目标区域的尺度变化因子,k与
Figure FDA00037476912400000412
与公式2中的表述含义相同,其中Ch为对该直方图进行归一化的系数,如公式7所示:
Figure FDA00037476912400000413
对于每次的尺度变化,使用一个10%的上下浮动,即对于每次的计算,都计算3次得到3个不同的h值,然后比较选择出最佳尺度;
S43)通过上述步骤,得到了两帧图像中目标的表示,判断这两个区域表示的是否为同一目标,就要比较这两者之间的相似性,这里采用了海林格距离来说明两个直方图之间的相似性,通过归一化系数的计算将直方图规范为和为1的概率分布,通过对海林格距离的公式的泰勒展开,得出公式8:
Figure FDA0003747691240000051
为了最小化该距离,必须使用梯度下降法将其最大化,h0为当前尺度参数;将当前位置
Figure FDA0003747691240000052
沿
Figure FDA0003747691240000053
方向迭代到新的位置
Figure FDA0003747691240000054
同时将h0尺度变为h1
Figure FDA0003747691240000055
表示h0尺度参数下的直方图归一化系数;
S44)最后,通过多次迭代计算,得出最终的目标位置
Figure FDA0003747691240000056
和大小h1
3.根据权利要求1所述的基于YOLOv3的目标跟踪中的重检测方法,其特征在于,所述步骤S5)通过匹配策略判断目标是否丢失,具体包括:采用直方图的匹配方式,即通过计算前后帧图像目标灰度直方图的巴氏系数BC(p,q),即一种衡量直方图相似度的系数来衡量该帧图像目标的匹配程度,用于判断目标是否跟偏或跟丢,如公式9所示:
Figure FDA0003747691240000057
p(x)与q(x)分别代表前后帧图像直方图的第x块特征值,N表示颜色通道分块数,巴氏系数BC(p,q)越大,表示两种直方图特征越相似,反之亦然,若BC(p,q)大于预设阈值,则认为跟踪成功,否则认为跟踪失败。
4.根据权利要求1-3任意一项所述的基于YOLOv3的目标跟踪中的重检测方法,其特征在于,所述基于YOLOv3的目标跟踪中的重检测方法通过准确性Accuracy和鲁棒性Robustness两个指标进行评估。
CN202010315220.9A 2020-04-21 2020-04-21 一种基于YOLOv3的目标跟踪中的重检测方法 Active CN111582062B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010315220.9A CN111582062B (zh) 2020-04-21 2020-04-21 一种基于YOLOv3的目标跟踪中的重检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010315220.9A CN111582062B (zh) 2020-04-21 2020-04-21 一种基于YOLOv3的目标跟踪中的重检测方法

Publications (2)

Publication Number Publication Date
CN111582062A CN111582062A (zh) 2020-08-25
CN111582062B true CN111582062B (zh) 2022-10-14

Family

ID=72113072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010315220.9A Active CN111582062B (zh) 2020-04-21 2020-04-21 一种基于YOLOv3的目标跟踪中的重检测方法

Country Status (1)

Country Link
CN (1) CN111582062B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465752A (zh) * 2020-11-16 2021-03-09 电子科技大学 一种基于改进的Faster R-CNN小目标检测方法
CN112634327A (zh) * 2020-12-21 2021-04-09 合肥讯图信息科技有限公司 基于YOLOv4模型的跟踪方法
CN112884037B (zh) * 2021-02-09 2022-10-21 中国科学院光电技术研究所 一种基于模板更新和无锚框方式的目标跟踪方法
CN112884810B (zh) * 2021-03-18 2024-02-02 沈阳理工大学 一种基于YOLOv3的行人跟踪方法
CN113688797A (zh) * 2021-09-27 2021-11-23 江南大学 一种基于骨架提取的异常行为识别方法及系统
CN114022510A (zh) * 2021-10-20 2022-02-08 浙江大立科技股份有限公司 一种基于内容检索的目标长时跟踪方法
CN115018885B (zh) * 2022-08-05 2022-11-11 四川迪晟新达类脑智能技术有限公司 一种适用于边缘设备的多尺度目标跟踪算法
CN117576380A (zh) * 2024-01-16 2024-02-20 成都流体动力创新中心 一种目标自主检测跟踪方法及系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10325169B2 (en) * 2016-10-09 2019-06-18 Airspace Systems, Inc. Spatio-temporal awareness engine for priority tree based region selection across multiple input cameras and multimodal sensor empowered awareness engine for target recovery and object path prediction
CN108269269A (zh) * 2016-12-30 2018-07-10 纳恩博(北京)科技有限公司 目标跟踪方法和装置
CN107292284B (zh) * 2017-07-14 2020-02-28 成都通甲优博科技有限责任公司 目标重检测方法、装置及无人机
CN107564034A (zh) * 2017-07-27 2018-01-09 华南理工大学 一种监控视频中多目标的行人检测与跟踪方法
CN107452025A (zh) * 2017-08-18 2017-12-08 成都通甲优博科技有限责任公司 目标跟踪方法、装置及电子设备
CN108805909B (zh) * 2018-04-28 2022-02-11 哈尔滨工业大学深圳研究生院 在相关滤波框架下基于粒子滤波重检测的目标跟踪方法
KR102108854B1 (ko) * 2018-10-05 2020-05-12 재단법인대구경북과학기술원 딥러닝 네트워크 모델에 의한 실시간 객체 검출 방법 및 장치
CN110009010B (zh) * 2019-03-20 2023-03-24 西安电子科技大学 基于兴趣区域重检测的宽幅光学遥感目标检测方法
CN110175649B (zh) * 2019-05-28 2022-06-07 南京信息工程大学 一种关于重新检测的快速多尺度估计目标跟踪方法
CN110826411B (zh) * 2019-10-10 2022-05-03 电子科技大学 一种基于无人机图像的车辆目标快速识别方法

Also Published As

Publication number Publication date
CN111582062A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN111582062B (zh) 一种基于YOLOv3的目标跟踪中的重检测方法
CN109241913B (zh) 结合显著性检测和深度学习的船只检测方法及系统
JP7208480B2 (ja) 学習プログラム、検出プログラム、学習装置、検出装置、学習方法および検出方法
US6975755B1 (en) Image processing method and apparatus
CN111667506B (zh) 一种基于orb特征点的运动估计方法
CN111368769B (zh) 基于改进锚点框生成模型的船舶多目标检测方法
CN106991388B (zh) 关键点定位方法
CN110287826B (zh) 一种基于注意力机制的视频目标检测方法
CN111191566A (zh) 基于像素分类的光学遥感图像多目标检测方法
CN113159043B (zh) 基于语义信息的特征点匹配方法及系统
CN112419317B (zh) 一种基于自编码网络的视觉回环检测方法
CN112288758B (zh) 一种电力设备红外与可见光图像配准方法
CN111402237A (zh) 基于时空级联自编码器的视频图像异常检测方法及系统
CN111199245A (zh) 油菜害虫识别方法
CN114299383A (zh) 基于密度图与注意力机制融合的遥感图像目标检测方法
CN114627156A (zh) 消费级无人机视频运动目标精准追踪方法
CN117557804A (zh) 联合目标结构嵌入和多层次特征融合的多标签分类方法
CN112418262A (zh) 车辆再识别的方法、客户端及系统
CN112215266A (zh) 一种基于小样本学习的x光图像违禁物品检测方法
CN116645500A (zh) 边界框的确定方法、装置、设备、存储介质和程序产品
CN116645499A (zh) 边界框的确定方法、装置、设备、存储介质和程序产品
CN113642520B (zh) 一种带有头部信息的双任务行人检测方法
CN111582057B (zh) 一种基于局部感受野的人脸验证方法
CN114399532A (zh) 一种相机位姿确定方法和装置
CN113222028A (zh) 一种基于多尺度邻域梯度模型的图像特征点实时匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant