CN111582062B

CN111582062B - 一种基于YOLOv3的目标跟踪中的重检测方法

Info

Publication number: CN111582062B
Application number: CN202010315220.9A
Authority: CN
Inventors: 贾海涛; 赵行伟; 范世炜; 邓文浩; 许文波; 贾宇明; 罗欣; 周兰兰; 唐昊
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2022-10-14
Anticipated expiration: 2040-04-21
Also published as: CN111582062A

Abstract

本发明提供了一种基于YOLOv3的目标跟踪中的重检测方法，该方法主要使用深度学习目标检测算法YOLOv3作为重检测方法，YOLOv3具有深度学习强大的特征提取能力，在检测精度上遥遥领先于传统的重检测方法，使用YOLOv3算法代替传统的重检测方法，可以极大地提高重检测效果，同时也有较好的检测速度，最终使得目标跟踪过程能够更稳定的进行。

Description

一种基于YOLOv3的目标跟踪中的重检测方法

技术领域

本发明属于计算机视觉领域，尤其涉及一种基于YOLOv3的目标跟踪中的重检测方法。

背景技术

遮挡问题是目标跟踪领域的难点。目标遮挡是指跟踪目标受到遮挡物不同程度的覆盖，从而干扰了目标的正常表达，在像素方面表现为纹理、颜色等特征的改变，并且这种改变一般是不可恢复的。由于出现遮挡情况时目标特征发生变化，可能使目标跟踪发生偏移，在遮挡严重或完全遮挡时甚至会造成目标的跟丢，严重影响目标跟踪的精度。而在平时的目标跟踪场景中，跟踪环境复杂多变，尺度变化、遮挡等常见因素经常会影响到目标跟踪的结果，很难进行高效、稳定的跟踪。这样，为了保证跟踪的持续性和鲁棒性，需要对遮挡进行判断，并加入算法跟踪失败的重检测模块。

目前，常用的丢失重检测方法大多都为传统方法上的重检测如SVM，模板匹配等，这些方法的优点是检测速度较快，但是对于一些场景下检测精度较低。而深度学习目标检测算法YOLOv3同时具有检测精度高、速度快的优点。因此，本发明利用YOLOv3代替传统的目标重检测方法来解决目标跟踪下的重检测问题。

发明内容

为解决现有技术中存在的问题，本发明提出了一种基于YOLOv3的目标跟踪重检测方法，针对MSS算法进行目标跟踪时，因目标被遮挡、超出视野范围等导致的目标跟丢情况，结合YOLOv3目标检测算法进行丢失目标的重检测，使得算法能在目标重新出现时自动找回目标继续跟踪任务，进一步提高算法的跟踪效果。在后文中，使用MSS-YOLOv3表示本发明改进的跟踪算法，MSS表示带尺度估计的Mean-shift跟踪算法。

本发明采用的技术方案是：

一种基于YOLOv3的目标跟踪中的重检测方法，该方法主要通过两个模块实现，分别为跟踪模块和重检测模块，该方法的整体结构框图如图1所示，包括以下步骤：

Step 1.开始基于YOLOv3的目标跟踪中的重检测方法；

Step 2.获取跟踪目标：开始获取视频序列，读取视频初始帧图像的目标位置，提取目标区域直方图特征，进行跟踪模板初始化；

Step 3.判断视频序列是否结束，若未结束，进入Step 4；若结束，直接结束基于YOLOv3的目标跟踪中的重检测方法；

Step 4.进入跟踪模块：读入当前帧图像，通过上一帧图像确定的目标中心来提取当前帧图像的目标候选区域，并进行带尺度估计的Mean-shift跟踪(MSS)算法跟踪。首先，提取目标候选区域内的直方图特征，得到关于候选模型的描述；然后，利用相似函数度量目标模版和当前帧图像的候选模型的相似性，选择使相似函数最大的候选模型并得到关于目标模型的Mean-shift向量，这个向量正是目标由上一帧图像的位置向当前帧图像正确位置移动的向量；由于均值漂移算法的快速收敛性，通过不断迭代计算Mean-shift向量，MSS算法最终将收敛到目标的真实位置。最终得到当前帧图像的目标的中心位置和尺度；

Step 5.特征匹配模块：对前后两帧图像中的目标区域直方图特征进行匹配。通过该特征匹配模块计算当前帧图像和上一帧图像跟踪目标的模型匹配程度，衡量当前帧图像算法的跟踪效果。匹配程度通过二者直方图特征的巴氏系数来量化，通过预设阈值判断是否跟偏或跟丢，若跟偏或跟丢，则进入Step 6；若未跟偏或跟丢，则进入Step 7；

Step 6.进入重检测模块：若目标跟丢，则通过YOLOv3进行目标重检测，在全幅图像范围进行目标检测获取若干候选目标，主要是获取高精度的目标区域矩形框信息，再对每个候选目标区域与跟丢前的目标模板进行特征匹配，通过匹配值和阈值进行判断，选取匹配值最高且高于阈值的目标，作为找回的跟踪目标。若当前帧图像检测的候选目标均不满足匹配阈值指标，则下一帧图像继续进行重检测；否则，重检测模块结束，进入Step 7。

Step 7.模板更新：对于每一帧图像中通过跟踪模块或者重检测模块确定的最终目标，需要通过提取其特征，更新该帧图像的目标模板，以适应目标在跟踪过程中的变化。然后进入Step 3。

进一步地，Step 4分为以下步骤：

(1)读取当前帧图像，在图像中以上一帧图像的目标位置为中心建立候选矩形框，提取目标候选区域。

(2)在目标候选区域候进行直方图特征提取，即建模为颜色空间直方图，得到关于候选模型的描述，同时获取上一帧图像的目标模板。

(3)均值漂移：对目标区域直方图特征和候选区域直方图特征进行反向投影，获得反向投影图，每一个像素值代表了输入图像上对应点属于目标对象的概率。根据反向投影图和目标轮廓进行Mean-shift迭代，找到该帧图像中的目标位置。并通过三个尺度因子来确定目标尺度。

进一步地，Step 6分为以下步骤：

(1)若根据特征匹配结果判断目标丢失，进入重检测模块。

(2)对全局图像进行YOLOv3目标检测，检测出若干候选目标。

(3)对若干目标和模板以Step 5的方式进行特征匹配，找到最相似的目标即为重检测目标。若候选目标均不满足匹配阈值指标，则下一帧继续进行重检测。

因此，本发明主要使用深度学习目标检测算法YOLOv3作为重检测方法。YOLOv3具有深度学习强大的特征提取能力，在检测精度上遥遥领先于传统的重检测方法，使用YOLOv3算法代替传统的重检测方法，可以极大地提高重检测效果，同时也有较好的检测速度，最终使得目标跟踪过程能够更稳定的进行。

附图说明

图1为本发明的整体结构框图。

图2为本发明的跟踪模块示意图。

图3为本发明的重检测模块示意图。

图4为Darknet-53网络结构图。

图5为改进前的算法测试结果图。

图6为改进后的算法测试结果图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明，所述是对本发明的解释而不是限定。

本发明提出的一种基于YOLOv3的目标跟踪中的重检测方法，该方法的整体结构框图如图1所示，包括以下步骤：

Step 1.开始基于YOLOv3的目标跟踪中的重检测方法；

一、跟踪模块：基于Mean-Shift和尺度估计的目标跟踪(MSS)算法

本发明首先利用MSS算法进行目标跟踪。MSS目标跟踪由于其跟踪速度快且精度高，是一种常用的目标跟踪算法。

MSS算法通过分别计算目标区域和候选区域内像素的特征值概率得到关于目标模型和候选模型的描述，然后，利用相似函数度量目标模版和当前帧的候选模型的相似性，选择使相似函数最大的候选模型并得到关于目标模型的Mean-Shift向量，这个向量正是目标由上一帧的位置向当前帧正确位置移动的向量；由于均值漂移算法的快速收敛性，通过不断迭代计算Mean-Shift向量，算法最终将收敛到目标的真实位置，得到当前帧的目标的中心位置和尺度。跟踪框图如图2所示，其步骤如下：

1、首先，目标图像被建模为位于原点的某个特征空间中的m-bin内核估计直方图，其中m表示该目标图像颜色通道中分块(bin)的数量，如式(1)：

且

其中，

表示的是目标图像中第u个颜色通道分块(bin)的在目标区域的概率值，

组合形成了目标特征的概率分布，用以表征目标模型。

除了颜色直方图信息，还加入空间位置信息。考虑目标中心区域对目标的特征表征贡献最高，目标边缘区域易受背景影响，贡献最低，在空间上，将目标建模为类圆，越靠近圆心的像素，其直方图特征权重越高，越远离圆心权重越低。将目标空间位置信息作为颜色直方图特征提取的权重指标，目标模型中的第u个bin特征可以写为式(2)：

其中，

为第i个像素相对于原点的偏移坐标，

分别为横纵坐标偏移值，函数

为

处的像素值映射对应的bin，N为图像的像素数量，目标由图像中的椭球区域

表示，映射在核函数k中，a、b分别表示矩形框宽高的一半，该目标的矩形框即为椭球区域的外接矩形框。k(x)是Epanechnikov函数，如式(3)：

这里的c_d表示的是d维空间中的单位球体的体积，对应于图像来说，d＝2，c_d就是单位圆面积。δ是Kronecker克罗内克函数，

用于判断

的值是否等于u，是则该值为1，否则为0，即该函数实质判断了目标模型中的第u个bin特征

是否包含

处的像素值提取的特征。C表示的是对该直方图进行归一化的系数，如式(4)：

2、对下一帧图像，即待求候选目标时，直接在上一帧目标为中心的的椭圆区域提取颜色直方图特征，表示为式(5):

其中y为目标候选区域，

表示的是候选区域图像中第i个bin的概率值，

为候选区域的特征概率分布模型。

因为目标位置和尺度可能变化，所以对应于候选目标的中心点，就不再默认为原来的中心点(原来的模板目标框中中心点位置设为原点)，并且尺度有了而一个h因子的变化。所以对于每一个bin的值的求解方程变为式(6)：

其中，y₁和y₂分别是上一帧目标中心点的横纵坐标，

分别为第i个像素的横纵坐标，a和b对应的是上一帧目标矩形框的长与宽，h是目标区域的尺度变化因，其中C_h为对该直方图进行归一化的系数，如式(7):

对于每次的尺度变化，使用一个10％的上下浮动，即对于每次的计算，都计算三次得到三个不同的h值，然后比较选择出最佳尺度。

3、上述得到了两帧图像中目标的表示，判断这两个区域表示的是否为同一目标，就要比较这两者之间的相似性。这里采用了海林格距离来说明两个直方图(通过归一化系数的计算将直方图规范为和为1的概率分布)之间的相似性。通过对海林格距离的公式的泰勒展开，得出式(8)：

为了最小化该距离，必须使用梯度下降法将其最大化，h₀为当前尺度参数。将当前位置

沿

方向迭代到新的位置

同时将h₀尺度变为h₁，

表示h₀尺度参数下的直方图归一化系数。

4、最后，通过多次迭代计算，得出最终的目标位置

和大小h₁。

二、判断目标是否丢失：匹配策略

本发明采用的是直方图的匹配方式，即通过计算前后帧目标灰度直方图的巴氏系数BC(p,q)(一种衡量直方图相似度的系数)来衡量该帧目标的匹配程度，用于判断目标是否跟偏或跟丢，如式(9)所示。

p(x)与q(x)分别代表前后帧图像直方图的第x块特征值，N表示颜色通道分块数，巴氏系数BC(p,q)越大，表示两种直方图特征越相似，反之亦然。若巴氏系数BC(p,q)大于预设阈值，则认为跟踪成功，否则认为跟踪失败。

三、重检测模块：基于YOLOv3的丢失重检测方法

本发明主要使用YOLOv3进行目标的丢失重检测，其流程框图如图3所示，具体实施步骤为：

1、丢失判断，丢失自检测模块需要每帧都进行，以判断该帧跟踪效果，跟踪失败或是效果较差，则认为后续帧难以维持鲁棒跟踪。该模块蕴含在算法的每帧跟踪模板匹配里，在算法以匹配程度最高目标作为本帧跟踪目标时，再加个阈值，来判断该帧目标是否达到跟踪效果要求。当跟踪自检测模块认为本帧丢失或是效果较差后，进入重检测模块。

2、YOLOv3算法进行重检测，YOLOv3算法的介绍如下：主要从三个方面来说明，网络的输入、结构和输出。

(1)网络输入：输入图片分辨率可以为320×320、416×416、608×608，这些分辨率必须是32的整数倍数，因为YOLOv3有5次下采样，每次采样步长为2，所以网络的最大步幅(步幅指层的输入大小除以输出)为2^5＝32。

(2)网络结构：首先训练了一个darknet-53网络，这个网络主要是由一系列的1×1和3×3的卷积层组成(每个卷积层后都会跟一个BN层和一个Leaky ReLU)层，一共有53个卷积层，故称为darknet-53。其结构参数如表1所示，其中模块数量表示该模块重复了几次，网络层表示该层使用的操作，Filters表示卷积核的个数，Size表示卷积核的尺寸，Stride表示卷积的步长，Output表示通过该层操作后的输出特征图的大小。训练这个主要是为了主要有两个目的：a.这个网络结构能在ImageNet有好的分类结果，从而说明这个网路能学习到好的特征；b.为后续检测模型做初始化。

表1 Darknet-53网络结构及参数

YOLOv3是基于darknet-53网络实现的，其网络结构如图4所示。YOLOv3就是使用了darknet-53的前面的52层(没有全连接层部分)，darknet-53这个网络是一个全卷积网络，大量使用残差的跳层连接。之前的工作中，采样一般都是使用卷积核尺寸为2×2，步长为2的最大池化或者均值池化进行降采样。但在这个网络结构中，使用的是步长为2的卷积来进行降采样。同时，网络中使用了上采样、route操作，还在一个网络结构中进行3次检测。

使用残差的结构的好处：(1)深度模型一个关键的点就是能否正常收敛，残差这种结构能保证网络结构在很深的情况下，仍能收敛，模型能训练下去。(2)网络越深，表达的特征越好，分类+检测的效果都会提升。(3)残差中的1×1卷积，可以大量地减少每次卷积的通道，一方面减少了参数量(参数量越大，保存的模型越大)，另一方面在一定程度上减少了计算量。

YOLOv3中进行了三次目标检测，分别是在32倍降采样，16倍降采样，8倍降采样时对目标进行检测。在网络中使用上采样的原因：网络越深的特征表达效果越好，比如在进行16倍降采样检测，如果直接使用16倍降采样的特征来检测，这样就使用了浅层特征，这样效果一般并不好。如果想使用32倍降采样后的特征，但深层特征的尺寸小一倍，因此YOLOv3使用了步长为2的上采样，把32倍降采样得到的特征图的大小提升一倍，也就成了16倍降采样。同理8倍采样也是对16倍降采样的特征进行步长为2的上采样，这样就可以使用深层特征进行检测。

YOLOv3通过上采样的方式很好的使16倍降采样和8倍降采样使用深层特征。YOLOv3想把这些浅层特征也利用起来，就有了route层。把32倍降采样得到的特征图进行上采样，再和16倍采样得到的层拼接在一起，在通道维度进行拼接。这样拼接的好处：让网络同时学习深层和浅层特征，表达效果更好。8倍降采样同样也是这样的操作，把三次下采样的特征图拼接在一起。

(3)网络输出：

a.首先先确定网络输出特征层的大小。比如输入为320×320时，则输出为320/32＝10，因此输出为10×10大小的特征图，此时有10×10＝100个网格；同理当输入为416×416时输出的特征层为13×13大小的特征层，13×13＝169个网格；输入为608×608时，输出的特征图大小为19×19，网格有19×19＝361个。

b.Anchor box(锚点框)的确定。这个先验框不同于之前FasterRCNN和SSD那样人工设定，在YoloV2和YOLOv3中，都采用了对图像中的目标采用k-Means聚类来获得先验框。

c.特征图中的每一个网格都会预测3个边界框，每个边界框都会预测三个东西：每个框的位置(4个值，中心坐标t_x和t_y，框的宽高t_w和t_h)、一个目标置信度t_o和L个类别(在COCO数据集有80类，VOC数据集有20类)。因此对于COCO数据集，在网络输入为416×416时，网络的输出大小为13×13×(3×(4+1+80))＝13×13×255。

d.三次检测，每次对应的感受野不同，32倍降采样的感受野最大，适合检测大的目标，所以在13×13的输出特征图上，每个网格的三个锚点框的尺寸为(116,90)、(156,198)和(373,326)。16倍降采样适合检测中等大小的物体，锚点框为(30,61)、(62,45)和(59,119)。8倍的感受野最小，适合检测小目标，因此锚点框为(10,13)、(16,30)和(33,23)。所以当输入为416×416时，实际总共有(52×52+26×26+13×13)×3＝10647个边界框。

3、目标匹配。在通过改进的YOLOv3检测出多个边界框以后，还需要使用非极大值抑制算法来去除冗余的边界框，最终输出多个预测框。对每个预测框与上一帧图像的模板进行匹配。根据匹配结果找出匹配程度最高的目标作为该帧的目标，以进行下一帧图像的跟踪。

实验结果分析

1、评价指标

在目标跟踪中，主要有两个评价指标以对算法进行评估：

(1)准确性Accuracy：

准确性用于评估算法跟踪的精度，精度越高，算法效果越好。则针对某一个视频的测试过程，计算算法的准确性Accuracy过程如下：

首先定义IOU(Intersection over Union，交并比)计算公式如下。其中，在第t帧，

表示标记的真实目标位置，

表示跟踪算法得到的目标位置，使用IOU_t用来衡量算法获得的目标位置和真实目标位置的重叠程度。

然后，由于评估系统要求，需要对一个视频序列进行N次测试。使用Φ_t(i)表示使用视频中的第t帧，进行第i次测试的交并比结果。对某一帧的所有测试取平局值，就得到针对这一帧的准确性测试结果。

最后，我们选取了某个测试视频对跟踪算法进行了测试。则跟踪算法的准确性结果Accuracy，就可以通过对视频中所有帧的准确性结果取平均值得到。其中N_valid表示视频中里有效的帧数，因为一个视频中可能并不会每一帧都有目标，若该帧里没有目标则对该帧忽略不计。

(2)鲁棒性Robustness：

鲁棒性用于评估跟踪算法的可靠程度。跟踪过程丢失的次数越少，则鲁棒性越高，算法效果越好。对一个视频序列进行N次测试，F(i)表示对算法进行第i次测试得到的鲁棒性结果。对每次测试取平均后，就可以得到跟踪算法针对该测试视频的鲁棒性指标Robustness。

对于一个算法准确性和鲁棒性的整体评估，可以将每个测试视频的评估结果，以该视频的长度作为加权求和得到。除了对所有视频进行整体的指标评估，还可以根据标签中的视觉特性进行分类，对于每种特性，进行单独统计评估。

2、结果分析

在实验中测试了MSS跟踪算法和本发明改进的MSS-Yolov3跟踪算法的效果，分别如图5和图6所示。其纵坐标表示算法的跟踪准确性，越往上表示准确度越高；横坐标表示算法的鲁棒性，越往左表示算法丢失的次数越少，鲁棒性越好。所以，对于测试结果越往左上角则算法的性能更优。

同时，由于诸多因素会影响跟踪的性能，评估跟踪算法是困难的，为了更好地评估和分析跟踪方法的优缺点，用11种属性对目标的视觉状态特性进行了统计(参考OTB的属性分类)，这些属性及描述信息列在表2中所示。除此之外，还有3类状态All_Result、MSS、Area分别表示：总的统计结果、使用MSS算法统计的结果、使用重检测算法统计的结果。

表2视觉属性一览表

从两图中的对比可以看出，我们改进后的MSS-YoloV3跟踪算法在这11种属性上的跟踪效果。很明显地，使用MSS-YoloV3算法进行跟踪时，重检测过程的准确度从17.83％提升到了36.68％，鲁棒性从4.69％提升到了4.39％，并且使算法最终的总准确度从42.82％提升到了45.82％，总鲁棒性从3％提升到了2.6％，对跟踪算法的准确度和鲁棒性都有了一定的提升，验证了本发明改进的有效性。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合；本领域的技术人员根据本发明技术方案的技术特征所做出的任何非本质的添加、替换，均属于本发明的保护范围。

Claims

1.一种基于YOLOv3的目标跟踪中的重检测方法，其特征在于，该方法包括以下步骤：

S1)开始基于YOLOv3的目标跟踪中的重检测方法；

S2)获取跟踪目标：开始获取视频序列，读取视频初始帧图像的目标位置，提取目标区域直方图特征，进行跟踪模板初始化；

S3)判断视频序列是否结束，若未结束，进入S4)；若结束，直接结束基于YOLOv3的目标跟踪中的重检测方法；

S4)进入跟踪模块：读入当前帧图像，通过上一帧图像确定的目标中心来提取当前帧图像的目标候选区域，并进行带尺度估计的Mean-shift跟踪，即MSS算法跟踪；首先，提取目标候选区域直方图特征，得到关于候选模型的描述；然后，利用相似函数度量目标模型和当前帧图像的候选模型的相似性，选择使相似函数最大的候选模型并得到关于目标模型的Mean-shift向量，这个向量正是目标由上一帧图像的位置向当前帧图像正确位置移动的向量；由于均值漂移算法的快速收敛性，通过不断迭代计算Mean-shift向量，MSS算法最终将收敛到目标的真实位置，最终得到当前帧图像的目标的中心位置和尺度；

S5)特征匹配模块：对前后两帧图像中的目标候选区域直方图特征进行匹配，通过该特征匹配模块计算当前帧图像和上一帧图像跟踪目标的模型匹配程度，衡量当前帧图像算法的跟踪效果，匹配程度通过二者直方图特征的巴氏系数来量化，通过预设阈值判断是否跟偏或跟丢，若跟偏或跟丢，则进入S6)；若未跟偏或跟丢，则进入S7)；

S6)进入重检测模块：若目标跟丢，则通过YOLOv3进行目标重检测，在全幅图像范围进行目标检测获取若干候选目标，获取高精度的目标区域矩形框信息，再对每个目标候选区域与跟丢前的目标模板进行特征匹配，通过匹配值和阈值进行判断，选取匹配值最高且高于阈值的目标，作为找回的跟踪目标；若当前帧图像检测的候选目标均不满足匹配阈值指标，则下一帧图像继续进行重检测；否则，重检测模块结束，进入S7)；

S7)模板更新：对于每一帧图像中通过跟踪模块或者重检测模块确定的最终目标，需要通过提取其特征，更新该帧图像的目标模板，以适应目标在跟踪过程中的变化，然后进入S3)；

其中，所述步骤S6)使用YOLOv3进行目标的丢失重检测，具体包括如下步骤：

S61)丢失判断，丢失自检测模块需要每帧图像都进行，以判断该帧图像跟踪效果，跟踪失败或是效果较差，则认为后续帧图像难以维持鲁棒跟踪，该丢失自检测模块蕴含在算法的每帧图像跟踪模板匹配里，在算法以匹配程度最高目标作为本帧图像跟踪目标时，再加个跟踪预设阈值，来判断该帧图像目标是否达到跟踪效果要求，当丢失自检测模块认为本帧图像丢失或是效果较差后，进入重检测模块；

S62)YOLOv3算法进行重检测

(1)网络输入：输入图片分辨率为320×320、416×416、608×608，这些分辨率必须是32的整数倍数，因为YOLOv3有5次下采样，每次采样步长为2，所以网络的最大步幅，即层的输入大小除以输出为2⁵＝32；

(2)网络结构：首先训练了一个darknet-53网络，这个网络由一系列的1×1和3×3的卷积层组成，每个卷积层后都会跟一个BN层和一个Leaky ReLU层，一共有53个卷积层，故称为darknet-53；

YOLOv3是基于darknet-53网络实现的，其使用了darknet-53的前面的52层，没有全连接层部分，darknet-53这个网络是一个全卷积网络，大量使用残差的跳层连接，在darknet-53网络结构中，使用的是步长为2的卷积来进行降采样，同时，darknet-53网络中使用了上采样、route操作，还在一个网络结构中进行3次检测；

YOLOv3中进行了3次目标检测，分别是在32倍降采样，16倍降采样，8倍降采样时对目标进行检测，如果想使用32倍降采样后的特征，但深层特征的尺寸小一倍，因此YOLOv3使用了步长为2的上采样，把32倍降采样得到的特征图的大小提升一倍，也就成了16倍降采样，同理8倍采样也是对16倍降采样的特征进行步长为2的上采样，这样就使用深层特征进行检测；

YOLOv3通过上采样的方式很好的使16倍降采样和8倍降采样使用深层特征，YOLOv3想把这些浅层特征也利用起来，就有了route层，把32倍降采样得到的特征图进行上采样，再和16倍采样得到的层拼接在一起，在通道维度进行拼接，使得网络同时学习深层和浅层特征，表达效果更好，8倍降采样同样也是这样的操作，把3次下采样的特征图拼接在一起；

(3)网络输出：

a.首先确定网络输出特征层的大小：当输入为320×320时，则输出为320/32＝10，因此输出为10×10大小的特征图，此时有10×10＝100个网格；同理当输入为416×416时输出的特征层为13×13大小的特征层，13×13＝169个网格；输入为608×608时，输出的特征图大小为19×19，网格有19×19＝361个；

b.锚点框Anchor box的确定：这个锚点框不同于之前FasterRCNN和SSD那样人工设定，在YoloV2和YOLOv3中，都对图像中的目标采用k-Means聚类来获得先验框；

c.特征图中的每一个网格都会预测3个锚点框，每个锚点框都会预测3个东西：每个框的位置，包括4个值，中心坐标t_x和t_y，框的宽高t_w和t_h、一个目标置信度t_o和L个类别，这L个类别在COCO数据集有80类，在VOC数据集有20类；因此对于COCO数据集，在网络输入为416×416时，网络的输出大小为13×13×(3×(4+1+80))＝13×13×255；

d.3次检测，每次对应的感受野不同，32倍降采样的感受野最大，适合检测大的目标，所以在13×13的输出特征图上，每个网格的三个锚点框的尺寸为(116,90)、(156,198)和(373,326)；16倍降采样适合检测中等大小的物体，锚点框为(30,61)、(62,45)和(59,119)；8倍的感受野最小，适合检测小目标，因此锚点框为(10,13)、(16,30)和(33,23)；所以当输入为416×416时，实际总共有(52×52+26×26+13×13)×3＝10647个锚点框；

S63)目标匹配：在通过改进的YOLOv3检测出多个锚点框以后，还需要使用非极大值抑制算法来去除冗余的锚点框，最终输出多个预测框，对每个预测框与上一帧图像的模板进行匹配，根据匹配结果找出匹配程度最高的目标作为该帧图像的目标，以进行下一帧图像的跟踪。

2.根据权利要求1所述的基于YOLOv3的目标跟踪中的重检测方法，其特征在于，所述步骤S4)具体包括如下步骤：

S41)首先，目标图像被建模为位于原点的某个特征空间中的m-bin内核估计直方图，其中m表示该目标图像颜色通道中分块bin的数量，如公式1所示：

其中，

表示的是目标图像中第u个颜色通道分块bin的在目标区域的概率值，

组合形成了目标特征的概率分布，用以表征目标模型；

除了颜色直方图信息，还加入空间位置信息，在空间上，将目标建模为类圆，越靠近圆心的像素，其直方图特征权重越高，越远离圆心权重越低，将目标空间位置信息作为颜色直方图特征提取的权重指标，目标模型中的第u个bin特征写为公式2：

其中，

为第i个像素相对于原点的偏移坐标，

分别为第i个像素相对于原点的横纵坐标偏移值，函数

为

表示，映射在核函数k中，a、b分别表示矩形框宽高的一半，该目标的矩形框即为椭球区域的外接矩形框；k(x)是Epanechnikov函数，如公式3所示：

这里的C_d表示的是d维空间中的单位球体的体积，对应于图像来说，d＝2，C_d就是单位圆面积；δ是Kronecker克罗内克函数，

用于判断

是否包含

处的像素值提取的特征；C表示的是对该直方图进行归一化的系数，如公式4所示：

S42)对下一帧图像，即待求候选目标时，直接在上一帧目标为中心的椭圆区域提取颜色直方图特征，表示为公式5：

其中y为目标候选区域，

表示的是候选区域图像中第i个bin的概率值，

为候选区域的特征概率分布模型；

因为目标位置和尺度的变化，所以对应于候选目标的中心点不再默认为原来的中心点，原来的模板目标中心点位置设为原点，并且尺度有了一个h因子的变化，所以对于每一个bin的值的求解方程变为公式6：

其中，y₁和y₂分别是上一帧目标中心点的横纵坐标，

分别为第i个像素的横纵坐标，a和b对应的是上一帧目标矩形框的长与宽，h是目标区域的尺度变化因子，k与

与公式2中的表述含义相同，其中C_h为对该直方图进行归一化的系数，如公式7所示:

对于每次的尺度变化，使用一个10％的上下浮动，即对于每次的计算，都计算3次得到3个不同的h值，然后比较选择出最佳尺度；

S43)通过上述步骤，得到了两帧图像中目标的表示，判断这两个区域表示的是否为同一目标，就要比较这两者之间的相似性，这里采用了海林格距离来说明两个直方图之间的相似性，通过归一化系数的计算将直方图规范为和为1的概率分布，通过对海林格距离的公式的泰勒展开，得出公式8：

为了最小化该距离，必须使用梯度下降法将其最大化，h₀为当前尺度参数；将当前位置

沿

方向迭代到新的位置

同时将h₀尺度变为h₁，

表示h₀尺度参数下的直方图归一化系数；

S44)最后，通过多次迭代计算，得出最终的目标位置

和大小h₁。

3.根据权利要求1所述的基于YOLOv3的目标跟踪中的重检测方法，其特征在于，所述步骤S5)通过匹配策略判断目标是否丢失，具体包括：采用直方图的匹配方式，即通过计算前后帧图像目标灰度直方图的巴氏系数BC(p,q)，即一种衡量直方图相似度的系数来衡量该帧图像目标的匹配程度，用于判断目标是否跟偏或跟丢，如公式9所示：

p(x)与q(x)分别代表前后帧图像直方图的第x块特征值，N表示颜色通道分块数，巴氏系数BC(p,q)越大，表示两种直方图特征越相似，反之亦然，若BC(p,q)大于预设阈值，则认为跟踪成功，否则认为跟踪失败。

4.根据权利要求1-3任意一项所述的基于YOLOv3的目标跟踪中的重检测方法，其特征在于，所述基于YOLOv3的目标跟踪中的重检测方法通过准确性Accuracy和鲁棒性Robustness两个指标进行评估。