CN114359689A

CN114359689A - 一种动态目标的检测与跟踪方法

Info

Publication number: CN114359689A
Application number: CN202111492045.1A
Authority: CN
Inventors: 舒朗; 刘松; 张智杰; 李忠; 徐寅
Original assignee: 717th Research Institute of CSIC
Current assignee: 717th Research Institute of CSIC
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2022-04-15
Anticipated expiration: 2041-12-08
Also published as: CN114359689B

Abstract

本发明公开了一种动态目标的检测与跟踪方法，对飞机，人，车辆，船只进行检测跟踪，在目标检测部分提出融合了DenseNet网络和Yolov5的特点的Dense‑Yolov5检测网络，充分提取利用目标特征，捕获目标更多的局部信息，保护目标边缘，目标检测完成后检测输出将作为跟踪网络的输入，跟踪网络基于SiamRPN的基本框架，结合多尺度互相关模块提出了一种多尺度相似性学习的目标跟踪网络，充分结合了多尺度，多通道的特征，优化了跟踪算法对于模板帧的相似性学习，对跟踪的目标有更强的泛化能力和容错率。本发明相比当前采用深度学习技术的环境感知方法，可以检测道路中的未知道路障碍物，提高了自动驾驶的安全性。

Description

一种动态目标的检测与跟踪方法

技术领域

本发明涉及动态目标的检测跟踪方法，具体涉及一种基于深度神经网络和多尺度相似性学习的动态目标的检测与跟踪方法。

背景技术

在计算机视觉领域，对于目标的检测跟踪一直是研究的热点，传统的检测跟踪系统多是采用人工操作或者是传统方法进行目标检测跟踪，这限制了检测跟踪系统智能化的发展。同时，需要检测跟踪的目标往往具有很强的运动性，动态目标易受光照变化，姿态变化，遮挡等问题的影响，目前主流的检测跟踪算法难以实现对目标的实时检测跟踪。

在目标检测算法中，Yolov5在通用目标检测领域有着较好的性能表现，但其对于目标特征的利用还不够充分，对于一些特征不明显以及复杂环境下的目标检测效果不佳，而在目标跟踪领域，常用的SiamRPN算法对于多尺度的目标、多通道的特征等泛化能力不够强，在目标跟踪方面存在一定的瓶颈。

发明内容

针对现有技术中的上述问题，本发明提出一种基于深度神经网络和多尺度相似性学习的目标检测与跟踪方法，用于无人车上的目标检测跟踪。

本发明解决其技术问题所采用的技术方案是：一种基于深度神经网络和多尺度相似性学习的动态目标检测与跟踪方法，包括如下步骤：

(1)，目标检测：对飞机、人、车辆、船只的图像进行检测，利用基于Yolov5s的改进型Dense-Yolov5网络对目标特征进行充分提取利用，捕获目标更多的局部信息，保护目标边缘，获得更好的检测效果：

每一个卷积层的输入来自于之前所有卷积层的输出，输出特征图的可用特征，在密集连接的过程中最大程度保留，在之后的张量拼接过程中Resunit的第N层输出来自于第N-1层的输出加上对N-1层的输出的非线性变换：

x_N＝f_N(x_N-1)+x_N-1，

其中xN表示第N层输出，f指代非线性变换；

Denseblock模块为自定义的密集连接型模块，使用Denseblock模块作为原Yolov5的主干网络中两个CSP1_3模块的残差网络替代模块，将Denseblock模块表示为之前所有层输出feature map进行通道合并操作后输出的第N层：

x_N＝f_N([x₀,x₁,...,x_N-1])

其中[x0，x1，...xN-1]表示前N-1层的输出特征图做通道融合；

本发明在目标检测部分提出了一种融合了DenseNet网络和修改后Yolov5特点的Dense-Yolov5检测网络，充分提取利用目标特征，捕获目标更多的局部信息，保护目标边缘，在目标检测完成后，检测输出将作为跟踪网络的输入；

(2)，目标的稳定跟踪：图像经过检测网络得到的输出将作为跟踪网络的输入：在目标检测完成后，利用基于SiamRPN的基本框架，结合多尺度互相关模块提出的多尺度相似性学习的目标跟踪网络对目标进行稳定跟踪；

图像经过改进型Dense-Yolov5网络检测完得到的输出作为跟踪网络的输入，将数据传送到由Siamese子网络和RPN子网络构成的SiamRPN网络，通过Siamese子网络为主干网络提取特征，通过RPN子网络的一个分支分类区分目标与背景，另一分支用于回归更精确的目标位置；

所述的分类分支中，模板帧输出特征映射对应k个锚点的目标和背景的2k个通道，其中k表示anchors，即每个位置的预选框个数；

所述的回归分支中，模板帧输出特征映射具有4k个通道，对应k个锚点的4个位置回归参数，检测帧输出特征映射保持通道数不变，卷积核尺寸与模板帧相同，在分类分支和回归分支再分别进行互相关操作得到输出的响应图，经过后处理最终得到目标的预测框。

跟踪网络的核心多尺度互相关(MS-XCorr)模块中的多尺度架构由inception网络组成，该网络层分为并列的4条分支，各支路的输出特征图进行拼接得到网络最后的输出：

Y＝f(X)＝[X₁，X₂，X₃，X₄]

其中，X为输入特征图，Y是网络的最终输出特征图，f代指inception网络层，X₁，X₂，X₃，X₄分别为1*1，3*3，5*5的卷积以及3*3池化网络支路的输出特征图，“[]”为拼接符号，将尺寸相同的特征图按通道维度拼接在一起。

进一步，所述的多尺度互相关模块分为上下两个对称的网络分支，当特征图输入时，两特征图沿着上下的Inception网络模块(inception block)同时进行多尺度的卷积以及池化操作，分别得到多个尺寸的特征图，其中卷积核尺寸分别为1*1，3*3，池化为5*5的最大池化。上下支路得到的特征图一一对应进行深度相关，得到尺寸相同的响应图，最后将这些响应图通过SENet模块(SENet block)进行自适应加权融合，得到模块的最终输出响应图：

其中X₁，X₂为输入特征图，

为多尺度互相关模块上支路I输出的序号为i的特征图，

为多尺度互相关模块下支路II输出的序号为i的特征图，两支路序号根据卷积核尺寸以及池化一一对应，“★”指代深度互相关操作，A_i为对应进行深度相关后得到相关特征图；

通过如下公式将各相关特征图按通道维度进行拼接：

A＝concat(A_i)

A′_i＝F_scale(A_i，k_i)

其中，k_i为A_i对应通道权值，最后将这些响应图进行自适应加权，得到模块的最终输出响应图A′，权值k_i通过SENet网络进行学习得到

本发明的有益效果是：

本发明基于Yolov5算法，在目标检测部分提出了一种Dense-Yolov5检测网络，该网络融合了DenseNet网络和Yolov5的特点，能充分提取利用目标特征，捕获目标更多的局部信息，保护目标边缘，在目标检测完成后，检测输出将作为跟踪网络的输入。在目标跟踪部分，基于SiamRPN的基本网络框架，结合多尺度互相关模块提出了一种多尺度相似性学习的目标跟踪算法。算法整体框架与SiamRPN大致相同，使用孪生网络作为主干网络提取特征，后接RPN网络的分类分支与回归分支；而不同之处主要是对分类分支和回归分支中的相关操作进行多尺度的互相关改进，都替换成多尺度互相关模块，这样相对于原SiamRPN算法中直接进行相关，多尺度的相似性学习充分结合了多尺度，多通道的特征，优化了跟踪算法在对模板帧的相似性学习，使得跟踪器会有更强的泛化能力与容错率，从而具有更好的性能表现。

本发明相比于当前采用深度学习技术的环境感知方法，本方法可以检测道路中的未知道路障碍物，提高了自动驾驶的安全性。

附图说明

图1为现有Yolov5s网络的整体架构图；

图2为现有Yolov5s的网络基础组件图；

图3为Dense Block的结构示意图；

图4为本发明基于Yolov5s的Dense-Yolov5改进方案示意图；

图5为SiamRPN网络的框架图；

图6为inceptionV1网络的结构图；

图7为SENet网络的结构图；

图8为多尺度互相关模块结构示意图；

图9为本发明多尺度相似性学习的目标跟踪算法网络；

图10为本发明应用于SUV目标的相似目标干扰与遮挡场景跟踪情况；

图11为本发明应用于战斗机目标的光照变化场景跟踪情况；

图12为本发明应用于飞机目标的尾迹干扰与姿态变化场景跟踪情况。

具体实施方式

下面将结合附图和具体实施方式对本发明作进一步的说明。

本发明在目标检测部分提出了一种Dense-Yolov5的网络结构，该网络融合了DenseNet网络和Yolov5的特点，基于充分利用目标feature，捕获更多局部信息，保护目标边缘的思想，将Yolov5s中的Resunit模块替换成了自定义的密集连接型Denseblock模块，而在对检测到的目标进行稳定跟踪时，以孪生网络的相似性学习为切入点，对现有的深度互相关(DW-XCorr)的相似性学习方式进行改进，提出了一种多尺度相似性学习的目标跟踪算法。该算法在SiamRPN的基础网络框架下，提出了多尺度互相关(MS-XCorr)模块，对原有的互相关操作进行多尺度的改进。

本发明在原有的Yolov5s网络中引入了DenseNet网络的思想，以期能对目标特征进行充分提取利用，捕获目标更多的局部信息，保护目标边缘，获得更好的检测效果，接下来将介绍DenseNet网络密集连接的思想以及改进后的Dense-Yolov5网络结构。

2017年，Huang G等人提出了一种新型的网络结构DenseNet，参考借鉴了ResNet以及Inception网络的思想，结构全新且并不复杂，本专利申请从feature入手，通过充分合理地利用feature来减小参数数量和实现更好的效果，其最主要的结构包含三个密集卷积块(Dense Block)，在传统的卷积神经网络中，若有N层，则有N个连接，而DenseNet中，会有N(N+1)/2个连接，也就是说，每一层的输入来自前面所有层的输出，这样的连接方式，实现了feature的充分利用。

具体如图3所示。DenseNet网络中引入这种Dense Block：减轻了vanishing-gradient(梯度消失)；加强了feature的传递；更有效地利用了feature；一定程度上减少了参数数量。

DenseNet网络的紧密连接方式不仅有利于缓解梯度消失的情况，还能加强图片间的特征传递，基于此提出了改进后的Dense-Yolov5网络，以提升检测性能。改进后的检测网络如图4所示。

在原Yolov5中，主干网络的CSP1结构借鉴了CSPNet的设计思路，将网络优化过程中的重复梯度信息剔除，将梯度变换的过程集成在了特征图中，以减少计算量，降低推理成本。

本发明中基于DenseNet网络的思想，将主干网络中的两个CSP1_3模块中的残差网络结构Resunit替换为自定义Denseblock模块，如图4所示。

Denseblock采用DenseNet网络密集连接的思想，每一个卷积层的输入来自于之前所有卷积层的输出，采用这种紧密连接结构，每一层相当于直连input和loss，缓解了输入信息和梯度信息在深层次的网络传递中导致的梯度消失现象。同时，输出特征图的可用feature在密集连接的过程中将得以最大程度保留，在之后的张量拼接过程中将不会损失原始图像的关键feature信息。而与残差网络的另一区别在于，Resunit的第N层输出来自于第N-1层的输出加上对N-1层的输出的非线性变换，具体公式表示为：

x_N＝f_N(x_N-1)+x_N-1 (1)

xN表示第N层输出，f指代非线性变换。而Denseblock则是第N层的输出来自之前所有层的输出feature map进行通道合并操作，具体公式表示为：

x_N＝f_N([x₀,x₁,...,x_N-1]) (2)

[x0，x1，...xN-1]表示前N-1层的输出特征图做通道融合，区别于Resunit只做值的相加不会改变通道数。这种连接形式有利于融合各通道特征，减少参数量，降低计算成本，而参数量的减小一定程度上起到了正则化的效果，对于网络训练过程中可能出现的过拟合现象有一定抑制效果。

改进后的Dense-Yolov5网络能充分利用目标feature，捕获更多局部信息，保护目标边缘，对各目标检测的召回率，精度均有提升。将在实验部分具体对比Yolov5和Dense-Yolov5的检测性能。

在目标检测完成后，对目标进行跟踪时，应用了SiamRPN算法原理，SiamRPN(Siamese region proposal network)算法是Li等人在2018年提出的一种实时目标跟踪算法。如图5所示，其网络结构可分为两部分：Siamese子网络和RPN子网络。Siamese网络为主干网络用于提取特征。RPN网络具有两个分支，一个分支用于分类，区分目标与背景，另一分支用于回归，得到更精确的目标位置。在分类分支中，模板帧输出特征映射对应k个锚点的目标和背景的2k个通道(其中k表示anchors，即每个位置的预选框个数)。在回归分支中，模板帧输出特征映射具有4k个通道，对应k个锚点的4个位置回归参数。检测帧输出特征映射保持通道数不变，卷积核尺寸与模板帧相同。在分类分支和回归分支再分别进行互相关操作得到输出的响应图，经过后处理最终得到目标的预测框。

SiamRPN引入了目标检测中anchor的概念，通过训练分类分支和回归分支进行区域建议，避免了逐尺度逐位置判断的费时步骤，而是将问题转化为将预选框通过回归参数进行调整，提升了算法的跟踪精度和速度。为进一步优化SiamRPN的相关度计算，SiamRPN++提出了深度互相关，在突出不同通道的特征相关响应的同时还大大减少了参数量，提升了其相似性学习效率，从而使得跟踪性能进一步增强。在2015年，Szegedy等人提出inception网络，其具体结构如图6所示。该网络层分为并列的4条分支，输入特征图分别进行了卷积核尺寸为1*1，3*3，5*5的卷积以及3*3池化，各支路分别得到各自的输出特征图。网络最后输出特征图是由各支路的输出特征图进行拼接得到的，如式(3)所示：

Y＝f(X)＝[X₁，X₂，X₃，X₄] (3)

其中，X为输入特征图，Y是网络的最终输出特征图，f代指inception网络层，X₁，X₂，X₃，X₄分别为1*1，3*3，5*5的卷积以及3*3池化网络支路的输出特征图，“[]”为拼接符号，可将尺寸相同的特征图按通道维度拼接在一起，这里各支路是应用了不同的padding以保证其输出特征图的尺寸相同。

这些不同尺寸的卷积核可以提供不同大小的感受野从而提取到多种尺度的图像特征，丰富了其特征多样性。

Hu等人在2018年提出了SENet，该网络结构如图7所示。网络的输入为X，通过卷积层的映射F_tr将其转化成给定尺寸大小的特征图U。接下来网络对U进行了Squeeze操作，即对U的各通道的空间特征u_c编码成一个全局特征z_c。文献中的实现方式F_sq是使用了全局平均池化来完成，如式(4)所示：

Squeeze操作得到各个通道的全局描述后再进行Excitation操作F_ex，使得学习各个通道之间的关系，最终得到各个通道的自适应权重，如式(5)所示：

s＝F_ex(z，W)＝σ(W₂ReLU(W₁z)) (5)

其中

为线性变换矩阵，τ为降维超参，σ为Sigmoid激活函数

其最终输出特征图U′是由学习到的通道权重s与U进行F_scale逐通道加权：

u′_c＝F_scale(u_c，s_c)＝s_cu_c (6)

结合inception多尺度卷积网络的结构，本专利申请提出一种多尺度互相关(Multi-Scale Cross Correlation，MS-XCorr)模块，在深度互相关计算的基础上做多尺度的改进，其网络结构如图8所示。该模块主要分为上下两个对称的网络分支，当特征图输入时，两特征图沿着上下的Inception网络模块(inception block)同时进行多尺度的卷积以及池化操作，分别得到多个尺寸的特征图，其中卷积核尺寸分别为1*1，3*3，池化为5*5的最大池化。上下支路得到的特征图一一对应进行深度相关，得到尺寸相同的响应图，最后将这些响应图通过SENet模块(SENet block)进行自适应加权融合，得到模块的最终输出响应图。这里由于上下分支的特殊对称结构，不需要特殊的Padding技巧就可以保证最后的响应图尺寸相同，同时也避免了Padding对算法的平移不变性的影响。模块的具体计算过程见式(7)至式(9)：

A＝concat(A_i) (8)

A′_i＝F_scale(A_i，k_i) (9)

在式(7)中，X₁，X₂为输入特征图，

是指在图8中上支路I输出的序号为i的特征图，

则为在图8中下支路II输出的序号为i的特征图，两支路序号根据卷积核尺寸以及池化一一对应，“★”指代深度互相关操作，A_i为对应进行深度相关后得到相关特征图。式(8)是将各相关特征图按通道维度进行拼接。在式(9)中，k_i为A_i对应通道权值，最后将这些响应图进行自适应加权，得到模块的最终输出响应图A′，权值k_i通过SENet网络进行学习得到。

本发明基于SiamRPN的基本网络框架，结合多尺度互相关模块提出了一种多尺度相似性学习的目标跟踪算法。

算法整体网络结构如图9所示。算法整体框架与SiamRPN大致相同，使用孪生网络作为主干网络提取特征，后接RPN网络的分类分支与回归分支。而不同之处主要是对分类分支和回归分支中的相关操作进行多尺度的互相关改进，都替换成多尺度互相关模块。这样相对于原SiamRPN算法中直接进行相关，多尺度的相似性学习充分结合了多尺度，多通道的特征，优化了跟踪算法在对模板帧的相似性学习，使得跟踪器会有更强的泛化能力与容错率，从而具有更好的性能表现。

目标检测实验

目标检测对比实验目的是验证改进后的Dense-Yolov5算法相对未改进前的Yolov5算法性能提升效果。

下表是飞机(a)，人(b)，车辆(c)，船只(d)召回率与迭代次数。

从各目标召回率与迭代次数的关系中看出，Yolov5s对于四种目标是在28000次迭代时生成最佳权重文件，而Dense-Yolov5是在26000次迭代时生成最佳权重文件，且召回率上，Dense-Yolov5全面领先Yolov5s。而后保存两者的最佳权重文件，对测试集上的表现进行综合评估。

对于1000张图片的测试集，两种网络的检测综合性能指标对比如下表(两种网络结构对各目标检测性能指标对比)所示。

	Yolov5s	Dense-Yolov5
			飞机	0.902134472092	0.920513325183
人	0.904483082076	0.918027675268
			车辆	0.851128169441	0.867652347891
船只	0.791770992392	0.820257564213
			mAP	0.862379179	0.881612728
召回率(recall)	95.56％	97.15％

可以看出，改进后的密集连接型Dense-Yolov5检测性能优于Yolov5。

目标跟踪实验

跟踪对比实验目的是验证改进算法相对未改进前的性能提升效果以及最佳尺度数的选取，即验证MS-XCorr模块相对于DW-XCorr模块对siamRPN跟踪网络算法的最佳改进效果。那么本文将baseline与改进后双尺度与三尺度的网络在同一训练集下使用相同的参数进行训练，训练完成后，分别测试出最佳权重，进行下一步性能测试。

这三个网络测试排名前三的权重文件测试结果如下表(三种跟踪算法排名前三的模型性能表现)所示。

由上表可知，多尺度改进后算法的跟踪性能有全方位的提升，其中双尺度的改进幅度优于三尺度。选取改进前与改进后网络的最佳权重文件进行同一测试集下的综合性能对比，分别进行成功率，平均精度，稳定性及帧率等跟踪性能指标的测试，测试结果如两种网络结构对各目标检测性能指标对比表所示，其中MS-XCorr-2与MS-XCorr-3分别表示双尺度与三尺度改进网络。

下表为改进前与改进后跟踪算法在测试集的最佳性能对比。

由上表可知，改进后的SiamRPN网络相比改进前在成功率，精度，平均精度，稳定性上均有提升，其中成功率(Success rate)提升了4.3％，精度(Precision)提升了4.4％，平均精度(Norm Precision)提升了4.0％，但是由于网络复杂度的增加，帧率有所下降。

其中上述测试指标依赖交并比(IoU)以及中心像素点误差(PixelError)两个基本指标建立，具体计算如式(10)和式(11)。其中，式(10)中A_G为预测框面积，A_T为标准框面积；式(11)中，x，y分别为预测框的中心像素横、纵坐标，x_G，y_G分别为标准框的中心像素横纵坐标。成功率(Success rate)的计算公式如式(12)所示，其中bool值满足括号内条件为1，不满足则为0，即IoU大于阈值T₁的帧数在总测试帧数中所占比例，阈值T₁设置为0.4。精度(Precision)的计算公式如式(13)，是指PixelError小于阈值T₂的帧数在总测试帧中的比例，T₂设置为40个像素。平均精度(Norm Precision)是指排除掉完全遮挡或移出视野的情况所计算的精度，计算式见(14)，其中n₁为总帧数n剔除遮挡帧后的总帧数。

本文实验的数据集和平台环境如下：训练数据集为ILSVRC，测试数据集为自建数据集，其中包括飞机，船舶，车，行人等16类目标共257个视频，总计图像有580453张，软硬件平台包括：Intel(R)Core(TM)i7-8700CPU@3.20GHz*12；GPU：Force GTX1080Ti；操作系统：ubuntu14.04LTS；深度学习框架：pytorch。

目标检测实验：检测实验的数据集采用上述数据集的一个子集，包含飞机，船舶，车，行人四类，每种类别约2500张，共计10000张图片。

目标跟踪实验：跟踪网络训练数据集为ILSVRC，测试数据集为自建数据集，其中包括飞机，船舶，车，行人等16类目标共257个视频，总计图像有580453张。

本专利申请在目标检测部分，以Yolov5算法作为基线，改进后的Dense-Yolov5算法作为改进网络分别进行训练，权值的初始学习率设为0.001，衰减系数设为0.0005，每个batch含32张图片，随机以9：1划分了训练集和测试集。

本专利申请在目标跟踪部分，以相关模块为深度互相关(DW-XCorr)的SiamRPN为基线，将多尺度互相关(MS-XCorr)的SiamRPN作为改进算法，其中分别选用了1*1卷积和3*3卷积两支路的双尺度互相关与三支路的三尺度互相关两种尺度数的改进网络版本，同时进行训练。

其中，上述三个网络模型只有相关模块不同，其主干网络选用的是经过微调的VGGNet。训练权值的学习率设置为0.005，权重衰减率为0.0001，每个Batch含256张图片，总迭代次数为17550次，epoch数设置为45，单个epoch迭代次数为390次。

上述实施例仅例示性说明本发明的原理及其功效，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种动态目标的检测与跟踪方法，其特征在于：包括如下步骤：

(1)，对飞机、人、车辆、船只的图像进行检测，利用基于Dense-Yolov5网络对目标特征进行充分提取利用，捕获目标更多的局部信息，保护目标边缘，获得检测效果：

x_N＝f_N(x_N-1)+x_N-1，

其中xN表示第N层输出，f指代非线性变换；

自定义Denseblock模块为密集连接型模块，将Denseblock模块表示为之前所有层输出feature map进行通道合并操作后输出的第N层：x_N＝f_N([x₀,x₁,...,x_N-1])，其中[x0，x1，...xN-1]表示前N-1层的输出特征图做通道融合；

(2)，将主干网络中两个CSP1_3中的Denseblock模块检测完得到的输出作为跟踪网络的输入，将数据传送到由Siamese子网络和RPN子网络构成的SiamRPN网络，通过Siamese子网络为主干网络提取特征，通过RPN子网络的一个分支分类区分目标与背景，另一分支用于回归更精确的目标位置；

2.根据权利要求1所述的一种动态目标的检测与跟踪方法，其特征在于，跟踪网络的核心多尺度互相关模块中的多尺度架构由inception网络组成，该网络层分为并列的4条分支，各支路的输出特征图进行拼接得到网络最后的输出：