CN111640136B

CN111640136B - 一种复杂环境中的深度目标跟踪方法

Info

Publication number: CN111640136B
Application number: CN202010445179.7A
Authority: CN
Inventors: 蒋晓悦; 王小健; 李�浩; 方阳; 王鼎; 李煜祥
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-05-23
Filing date: 2020-05-23
Publication date: 2022-02-25
Anticipated expiration: 2040-05-23
Also published as: CN111640136A

Abstract

本发明提出了一种复杂环境中的深度目标跟踪方法。该方法在跟踪网络中输入模板帧和检测帧，通过改进残差模块后的主干网络进行特征提取，再将提取后的图像特征输入至区域提议网络模块，经过分类分支和回归分支，最后输出目标的预测位置，完成跟踪。同时，根据特征图之间的互相关运算阈值进行模板帧更新与检测帧的全局搜索。该方法很好地解决了视频中存在干扰物、目标遮挡、快速移动、尺度变化等问题。

Description

一种复杂环境中的深度目标跟踪方法

技术领域

本发明属于图像目标跟踪领域，具体涉及一种目标跟踪方法。

背景技术

目标跟踪作为计算机视觉领域的重要研究课题，已经成功应用于多个领域。在日常生活中，智能视频监控系统通常对商场、银行、停车场等重要公共场所进行监控。当被监控场景出现变化时，系统对场景中可疑目标进行跟踪，并在此基础上对该目标的行为进行分析和判断，最后对分析得到的异常行为及时进行反馈和处理。智能监控系统可应用于各类社会安全保护不仅大大的降低了人力物力的投入，跟踪技术的使用可减少各类非法行为的发生，保障了人们生命和财产的安全。而在视觉导航方面，视觉信息是智能系统一种重要的信息源，为能实现自主运动，智能系统须根据采集的视觉信息认识和跟踪环境中的物体。

在目标跟踪问题上，存在诸多挑战问题。主要包括相似目标干扰、目标遮挡、目标快速移动和目标尺度变化等。其中，相似目标干扰，即在被跟踪目标周围存在非常相似的其他目标，跟踪器常常因为干扰物与目标之间的相似性跟踪到相似的其他物体上。目标遮挡是指目标在运动过程中常常被其他物体遮挡，而改变了目标的观测外观，而使得现有的跟踪模板失效。而目标快速移动，往往使得跟踪器无法在小范围内检测到目标，增加了目标搜索的复杂度。目标尺度变换是目标在运动过程中，由远及近或由近及远而产生的尺度大小变化的现象，预测目标框的大小应当做相应的调整，否则也将累计误差最终影响目标跟踪的准确度。针对以上问题，不少学者也给出了一些解决方案。但是现有的技术方案中，并没有完全解决上述问题，在目标存在干扰、遮挡、快速移动、尺度变化等情况下，目标容易丢失，跟踪效果不理想。

发明内容

为了克服现有技术的不足，本发明提供了一种复杂环境中的深度目标跟踪方法。该方法在跟踪网络中输入模板帧和检测帧，通过改进残差模块后的主干网络进行特征提取，再将提取后的图像特征输入至区域提议网络模块，经过分类分支和回归分支，最后输出目标的预测位置，完成跟踪。同时，根据特征图之间的互相关运算阈值进行模板帧更新与检测帧的全局搜索。该方法很好地解决了视频中存在干扰物、目标遮挡、快速移动、尺度变化等问题。

为达到上述目的，本发明提供一种复杂环境中的深度目标跟踪方法，包括以下步骤：

步骤1：目标跟踪网络训练

步骤1-1：从公共数据集中获取训练用视频样本；根据式(1)计算视频样本第一帧图像中目标真值框宽w和高h的平均值p；以目标真值框中心位置为中心点，在视频样本第一帧图像中选取矩形区域，矩形区域的宽为w′，高为h′，w′和h′根据式(2)进行计算；选取的矩形区域如果超出第一帧图像范围，超出的部分采用矩形区域在图像内部分所有像素点的RGB三通道颜色均值进行填充；再将矩形区域尺寸通过缩放变化为D*D，D为预设值，将该D*D大小的图像作为网络训练用模板帧；

w′＝w+p h′＝h+p (2)

步骤1-2：根据式(1)计算视频样本除第一帧外的其余每帧图像中目标真值框宽w和高h的平均值p；以每帧图像中目标真值框中心位置为中心点，在每帧图像中选取矩形区域，矩形区域的宽为4w′，高为4h′，w′和h′根据式(2)进行计算；选取的矩形区域如果超出当前帧图像范围，超出的部分采用矩形区域在当前帧图像内部分所有像素点的RGB三通道颜色均值进行填充；再将矩形区域尺寸通过缩放变化为E*E，E为预设值，将每帧图像生成的所有E*E大小的图像作为网络训练用检测帧；

步骤1-3：定义基础残差模块1和基础残差模块2；

基础残差模块1由三个依次连接的卷积层组成；第一个和第三个卷积层卷积核大小为1x1，步长为1，无填充，用于改变上下层级网络的输入输出形状；第二个卷积层为主体卷积层，卷积核大小为3x3，步长为1，填充为1；

基础残差模块2由分支1和分支2组成；分支1与基础残差模块1完全相同；分支2为一个卷积层，卷积核大小为1x1，步长为1；分支1和分支2并行处理；

步骤1-4：目标跟踪网络的主干网络采用Resnet50；Resnet50的卷积单元conv1使用7x7大小的卷积核，用于提取输入帧的空间几何特征；Resnet50的卷积单元conv2.x、conv3.x、conv4.x、conv5.x分别包含3、4、6、3个基础残差模块，除conv3.x、conv4.x、conv5.x三个卷积单元的第一个基础残差模块使用基础残差模块2外，其余所有基础残差模块均使用基础残差模块1；主干网络不包含全连接层；

步骤1-5：将模板帧记作z，检测帧记作t；将模板帧与检测帧分别输入两个完全相同的孪生主干网络，分别输出模板帧特征图

和检测帧特征图

步骤1-6：构造区域提议网络前置卷积层，由一个包含3x3卷积核的卷积层连接一个包含1x1卷积核的卷积层组成；将模板帧特征图输入区域提议网络前置卷积层，前置卷积层的输出再和检测帧特征图进行多通道互相关运算，得到分类分支响应图和回归分支响应图；

分类分支响应图通道数为2k，回归分支响应图通道数为4k；k为响应图中每个锚点对应的模板帧或检测帧中锚框的数量；锚点个数n＝w_rp·h_rp，式中w_rp为响应图宽度，h_rp为响应图高度，总的锚框个数为N＝n·k；

步骤1-7：计算每个锚框与当前检测帧目标真值框的交并比，交并比小于等于a₁的锚框记为负样本，交并比大于等于a₂的锚框记为正样本，交并比介于a₁和a₂之间的锚框不用于训练，a₁和a₂为预设值，且0＜a₁＜a₂＜1；

所有的正样本和负样本用于区域提议网络分类分支中目标与背景的分类训练，所有的正样本用于区域提议网络回归分支中目标边框的边框回归训练；

步骤1-8：定义单个锚框的分类损失L_cls为：

L_cls＝-∑_i＝1，2y_ilogp_i (3)

式中，y_i∈{y₁，y₂}为锚框的样本标签，y₁＝{1，0}表示该锚框为正样本，y₂＝{0，1}表示该锚框为负样本，；p_i∈{p₁，p₂}为分类分支响应图结果，p₁表示该锚框为正样本的概率，p₂表示该锚框为负样本的概率；

步骤1-9：定义单个锚框的边框回归损失L_reg为：

式中，d_*∈{d_x，d_y，d_w，d_h}，d_x、d_y为回归分支响应图中锚框的预测结果中心点坐标与当前检测帧目标真值框中心点坐标的偏差，d_w、d_h为回归分支响应图中锚框的预测结果的宽和高与当前检测帧目标真值框的宽和高的偏差；σ为曲线形状参数；t_*∈{t_x，t_y，t_w，t_h}，t_x、t_y为锚框的中心点坐标与当前检测帧目标真值框中心点坐标的偏差，t_w、t_h为为锚框的宽和高与当前检测帧目标真值框的宽和高的偏差，计算如下：

(A_x，A_y)为锚框的中心点坐标，A_w、A_h分别为锚框的宽和高，(T_x，T_y)为当前检测帧目标真值框中心点坐标，T_w、T_h分别为当前检测帧目标真值框宽和高；

smooth L1函数计算公式如下：

x为函数自变量；

步骤1-10：定义单个锚框的总损失为：

L_anc＝L_reg+L_cls (6)

定义单帧的区域提议网络损失L_rpn为：

式中N_A为单帧中的锚框总数；

步骤1-11：使用模板帧特征图在检测帧特征图上做滑窗操作，滑窗内模板帧特征图与检测帧特征图进行互相关运算，得到检测帧特征图中各个窗口得分f(z，t)，计算如下：

模板帧特征图完成在整个检测帧特征图上的滑窗操作，得到该检测帧特征图全局得分图D；

步骤1-12：定义得分图上得分点的损失为：

l(y，v)＝log(1+exp(-yv)) (9)

式中，y为得分图上得分点对应的检测帧特征图相应窗口区域的真值标签，y∈{+1，-1}；v为该得分点真实得分值，v＝f(z，t)由式(8)计算得到；

在整个得分图G上所有得分点的损失为：

式中u为得分图上得分点对应的当前检测帧中锚框的中心点坐标，v[u]为得分图上得分点的真实得分值；y[u]为得分图上得分点的真值标签，计算如下式：

式中，c为该检测帧的真值边框的中心点坐标，R为坐标差阈值，k₁为比例系数；

步骤1-13：定义单帧图像总损失为：

L＝L(y，v)+L_rpn (12)

步骤1-14：根据步骤1-11计算当前检测帧之前连续m个检测帧的得分图，m个检测帧得分图中的最大值为G_max；计算当前检测帧的得分图G_now；

当G_now/G_max＜thd时，0＜thd＜1为目标遮挡阈值，用当前检测帧对应的原始图像帧经过步骤1-1重新得到新的模板帧，用新的模板帧替换当前模板帧；当G_now/G_max≥thd时，保持原来的模板帧不变；

步骤1-15：将当前模板帧和视频样本的各个检测帧分别组成图像对，再将图像对按照视频样本中的检测帧顺序依次输入网络，计算每个图像对的单帧图像总损失，当单帧图像总损失不再降低，完成目标跟踪网络训练；

步骤2：目标跟踪

步骤2-1：人工在待处理视频序列第一帧图像中用矩形框选定需要跟踪的目标，使目标恰好处于矩形框内，将此矩形框定义为目标真值框；再采用步骤1-1的方法得到模板帧；

步骤2-2：在待处理视频序列第二帧图像中选择矩形框，矩形框的中心点坐标和第一帧图像中目标真值框的中心点坐标相同，矩形框的高、宽和第一帧图像中目标真值框的高、宽相同，将在第二帧图像中选择的矩形框定义为第二帧图像的目标真值框，再采用步骤1-2的方法得到第二帧图像的检测帧；

步骤2-3：将步骤2-1和2-2得到的模板帧和检测帧组成图像对，将图像对输入步骤1训练完成的目标跟踪网络，目标跟踪网络的输出为在当前检测帧中跟踪到的目标位置信息，目标位置信息由包含目标的矩形框的中心点坐标、矩形框高度值和宽度值组成；

步骤2-4：对于待处理视频中除前两帧图像之外的其他图像帧，在当前图像帧中选择矩形框，矩形框中心点位置、宽度值、高度值和当前图像帧的上一帧图像跟踪到的目标位置信息相同；将当前图像帧中选择的矩形框定义为当前图像帧的目标真值框，再采用步骤1-2的方法得到当前图像帧的检测帧；将当前图像帧的检测帧和模板帧组成图像对，输入目标跟踪网络，网络的输出为在前检测帧中跟踪到的目标位置信息；

步骤2-5：按照步骤1-14的方法，对模板帧进行更新；

步骤2-6：根据步骤1-11，计算当前检测帧的得分图G_now和当前帧前一帧的得分图G_bef；当G_now/G_bef＜fthd，fthd为目标丢失阈值，且0＜fthd＜thd＜1，则重新确定当前图像帧的检测帧；

步骤2-7：重复步骤2-4到2-6，直至完成待处理视频最后一帧的目标跟踪。

进一步地，步骤2-6中所述的重新确定当前图像帧的检测帧的方法如下：

将当前图像帧扩展为一个正方形图像，正方形图像的边长为当前图像帧宽和高中较大者，正方形图像中当前图像帧以外的部分采用当前图像帧所有像素点的RGB三通道颜色均值进行填充，再将正方形图像尺寸缩放到E*E；将这个E*E大小的图像作为新的检测帧；

本发明的有益效果是：由于采用了本发明提出了一种复杂环境中的深度目标跟踪方法，该方法以孪生网络为基础，提出扩展模板帧和检测帧范围的策略，使网络对干扰问题具有一定的鲁棒性；当目标跟踪过程中存在遮挡时，根据响应图阈值对模板帧进行更新，从而有效解决遮挡问题；针对目标快速移动问题，使用由局部检测过渡为全局检测，能够快速找回跟踪丢失的目标；孪生网络中使用基于锚框机制的目标候选网络，进一步解决了目标尺度变化问题。

附图说明

图1是本发明目标跟踪方法流程图。

图2是本发明目标跟踪结果图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

如图1所示，本发明提供一种复杂环境中的深度目标跟踪方法，包括以下步骤：

步骤1：目标跟踪网络训练

w′＝w+p h′＝h+p (2)

步骤1-3：定义基础残差模块1和基础残差模块2；

和检测帧特征图

步骤1-8：定义单个锚框的分类损失为：

L_cls＝-∑_i＝1，2y_ilogp_i (3)

步骤1-9：定义单个锚框的边框回归损失为：

smooth L1函数计算公式如下：

x为函数自变量；

步骤1-10：定义单个锚框的总损失为：

L_anc＝L_reg+L_cls (6)

定义单帧的区域提议网络损失L_rpn为：

式中N_A为单帧中的锚框总数；

步骤1-12：定义得分图上得分点的损失为：

l(y，v)＝log(1+exp(-yv)) (9)

在整个得分图G上所有得分点的损失为：

步骤1-13：定义单帧图像总损失为：

L＝L(y，v)+L_rpn (12)

步骤2：目标跟踪

步骤2-5：按照步骤1-14的方法，对模板帧进行更新；

进一步地，步骤2-6中所述的重新确定当前图像帧的检测帧的方法为：

实施例：

先对目标跟踪网络进行训练。

(1)按照步骤1-1和1-2构建模板帧和检测帧，模板帧的尺寸D*D设定为127*127，检测帧的尺寸E*E设定为511*511；

(2)按照步骤1-3和1-4构建主干网络，主干网络为改进的Resnet50神经网络。Resnet50的卷积单元中，如果采用基础残差模块1，将前层特征图经过基础残差模块1的三个卷积层处理后形成后层特征图，将后层特征图和前层特征图叠加构成叠加特征图；如果采用基础残差模块2，则将前层特征图分别经过础残差模块2的分支1和分支2，经过分支1和分支2处理之后的结果进行叠加形成叠加特征图。在叠加特征图上采用裁剪处理，裁剪掉叠加特征图的第一行和最后一行，第一列和最后一列。对裁剪后的叠加特征图做池化处理，池化步长为2；

(3)按照步骤1-5和1-6得到分类分支响应图和回归分支响应图，分类分支响应图通道数为2k，回归分支响应图通道数为4k；响应图在分类分支和回归分支中通道数可以分为k组，在分类分支中每组表示不同锚点k个锚框中某个锚框是目标还是背景的类别信息；在回归分支中每组表示不同锚点k个锚框中某个锚框的预测结果与当前检测帧真实目标框的位置偏差；

(4)按照步骤1-7计算交并比，本实施例中a₁＝0.3和a₂＝0.6；

(5)按照步骤1-8到1-13计算单帧图像总损失L；

(6)在步骤1-14中，取thd＝0.9，当G_now/G_max＜0.9时，更新模板帧；

(7)将当前模板帧和视频样本的各个检测帧分别组成图像对，再将图像对按照视频样本中的检测帧顺序依次输入网络，计算每个图像对的单帧图像总损失，优化网络权值，当单帧图像总损失不再降低，完成目标跟踪网络训练。

目标跟踪网络训练完成之后，可以用来跟踪目标。

(1)按照步骤2-1和2-2，对待处理视频的第一帧图像和第二帧图像进行处理，得到初始模板帧和检测帧；

(2)按照步骤2-3，将步初始模板帧和检测帧组成图像对，将图像对输入目标跟踪网络，输出为跟踪到的目标位置信息：

J_x＝A_w·d_x+A_x，J_y＝A_h·d_y+A_y，

J_x，J_y，J_w，J_h分别表示跟踪到的目标位置的中心点坐标、宽和高；

(3)按照步骤2-4和2-5，得到待处理视频中每一帧图像的检测帧，并根据交并比决定是否对模板帧进行更新；

(4)在步骤2-6中，目标丢失阈值fthd取0.2，根据计算结果，判断是否要更新检测帧；

(5)将模板帧和检测帧组成图像对，按照视频中图像帧的顺序依次输入目标跟踪网络，完成对视频中目标的跟踪。

如图2所示，是本发明目标跟踪结果图。

Claims

1.一种复杂环境中的深度目标跟踪方法，其特征在于，包括以下步骤：

步骤1：目标跟踪网络训练

w′＝w+p h′＝h+p (2)

步骤1-3：定义基础残差模块1和基础残差模块2；

和检测帧特征图

分类分支响应图通道数为2k，回归分支响应图通道数为4k；k为响应图中每个锚点对应的模板帧或检测帧中锚框的数量；锚点个数n＝w_rp·h_rp,式中w_rp为响应图宽度，h_rp为响应图高度，总的锚框个数为N＝n·k；

步骤1-7：计算每个锚框与当前检测帧目标真值框的交并比，交并比小于等于a₁的锚框记为负样本，交并比大于等于a₂的锚框记为正样本，交并比介于a₁和a₂之间的锚框不用于训练，a₁和a₂为预设值，且0<a₁<a₂<1；

步骤1-8：定义单个锚框的分类损失L_cls为：

L_cls＝-∑_i＝1,2y_ilogp_i (3)

式中，y_i∈{y₁，y₂}为锚框的样本标签，y₁＝{1，0}表示该锚框为正样本，y₂＝{0，1}表示该锚框为负样本，p_i∈{p₁，p₂}为分类分支响应图结果，p₁表示该锚框为正样本的概率，p₂表示该锚框为负样本的概率；

步骤1-9：定义单个锚框的边框回归损失L_reg为：

式中，d_*∈{d_x,d_y,d_w,d_h}，d_x、d_y为回归分支响应图中锚框的预测结果中心点坐标与当前检测帧目标真值框中心点坐标的偏差，d_w、d_h为回归分支响应图中锚框的预测结果的宽和高与当前检测帧目标真值框的宽和高的偏差；σ为曲线形状参数；t_*∈{t_x,t_y,t_w,t_h}，t_x、t_y为锚框的中心点坐标与当前检测帧目标真值框中心点坐标的偏差，t_w、t_h为为锚框的宽和高与当前检测帧目标真值框的宽和高的偏差，计算如下：

(A_x,A_y)为锚框的中心点坐标，A_w、A_h分别为锚框的宽和高，(T_x,T_y)为当前检测帧目标真值框中心点坐标，T_w、T_h分别为当前检测帧目标真值框宽和高；

smooth L1函数计算公式如下：

x为函数自变量；

步骤1-10：定义单个锚框的总损失为：

L_anc＝L_reg+L_cls (6)

定义单帧的区域提议网络损失L_rpn为：

式中N_A为单帧中的锚框总数；

步骤1-11：使用模板帧特征图在检测帧特征图上做滑窗操作，滑窗内模板帧特征图与检测帧特征图进行互相关运算，得到检测帧特征图中各个窗口得分f(z,t)，计算如下：

步骤1-12：定义得分图上得分点的损失为：

l(y,v)＝log(1+exp(-yv)) (9)

式中，y为得分图上得分点对应的检测帧特征图相应窗口区域的真值标签，y∈{+1,-1}；v为该得分点真实得分值，v＝f(z,t)由式(8)计算得到；

在整个得分图G上所有得分点的损失为：

步骤1-13：定义单帧图像总损失为：

L＝L(y,v)+L_rpn (12)

当G_now/G_max<thd时，0<thd<1为目标遮挡阈值，用当前检测帧对应的原始图像帧经过步骤1-1重新得到新的模板帧，用新的模板帧替换当前模板帧；当G_now/G_max≥thd时，保持原来的模板帧不变；

步骤2：目标跟踪

步骤2-5：按照步骤1-14的方法，对模板帧进行更新；

步骤2-6：根据步骤1-11，计算当前检测帧的得分图G_now和当前帧前一帧的得分图G_bef；当G_now/G_bef<fthd，fthd为目标丢失阈值，且0<fthd<thd<1，则重新确定当前图像帧的检测帧；

2.如权利要求1所述的一种复杂环境中的深度目标跟踪方法，其特征在于，步骤2-6中所述的重新确定当前图像帧的检测帧的方法如下：

将当前图像帧扩展为一个正方形图像，正方形图像的边长为当前图像帧宽和高中较大者，正方形图像中当前图像帧以外的部分采用当前图像帧所有像素点的RGB三通道颜色均值进行填充，再将正方形图像尺寸缩放到E*E；将这个E*E大小的图像作为新的检测帧。