CN110533691A

CN110533691A - 基于多分类器的目标跟踪方法、设备和存储介质

Info

Publication number: CN110533691A
Application number: CN201910752142.6A
Authority: CN
Inventors: 齐美彬; 吴晶晶; 蒋建国; 杨艳芳; 李小红; 詹曙; 苏兆品; 张国富; 刘学亮
Original assignee: Hefei Polytechnic University
Current assignee: Hefei University of Technology; Hefei Polytechnic University
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2019-12-03
Anticipated expiration: 2039-08-15
Also published as: CN110533691B

Abstract

本发明公开了一种基于多分类器的目标跟踪方法、设备和存储介质，其中目标跟踪方法包括：1、建立第一特征提取网络和第二特征提取网络并进行预训练；2、构建离线训练样本集、离线分类器，离线giou预测器，并进行离线训练；3、构建在线分类器、根据视频第一帧图像生成待跟踪目标模板tg_t和在线训练样本集，对在线分类器进行训练；4、根据离线分类器和在线分类器对当前视频帧进行粗定位；5、利用离线giou预测器判断是否要更新搜索区域；6、利用离线giou预测器对当前视频帧进行精确定位；7、持续对视频后续帧中的目标进行跟踪，直到跟踪结束。该方法通过结合泛化性强的离线分类器和针对性强的在线分类器，能够得到跟踪精度高的跟踪效果。

Description

基于多分类器的目标跟踪方法、设备和存储介质

技术领域

本发明属于视频信号处理技术领域，具体涉及一种对视频中目标进行跟踪的方法、设备以及存储介质。

背景技术

单目标跟踪任务在安防系统中具有较高的实际应用价值，因此其在计算机视觉领域受到了广泛的关注。单目标跟踪任务是在给定视频第一帧图像中设定跟踪目标，追踪和定位视频后续帧中该目标的位置。其主要难点是先验知识少，跟踪的目标仅由第一帧图像中矩形框决定。目标的高速运动，较大的形变等都会给单目标识别任务带来挑战。随着深度学习技术的发展，深度学习任务被成功的运用到了单目标跟踪任务中并取得较好的精度。目前实现单目标跟踪的深度学习算法可以分为三步：1.选定当前帧的固定大小的搜索区域：在上一帧图像中预测的目标中心作为搜索区域中心，将目标面积四倍大小的区域作为当前帧的搜索区域；2.通过目标分类任务确定搜索区域中目标的大致位置：对搜索区域每个位置进行二分类，判断每个位置是否为目标，将是目标的得分最大的位置作为目标的粗略位置。3.利用目标回归对目标大致位置进行回归，得到目标的精确位置：利用图像对训练交并比(iou)预测网络，该网络可以学习衡量模版图像的目标(给定的第一帧目标)与搜索区域的候选目标位置相似度，预测出搜索区域中候选位置的iou。因此可以通过这个网络优化候选位置从而获得iou值最大的候选位置。

虽然上述步骤的方法取得了较好的结果。但是仍存在以下问题和不足：1.不同的物体有不同的运动速率，对于不同的运动目标，在相邻两帧中目标位置变化的幅度也不尽相同。固定搜索区域的尺寸虽然可以适用于大部分的物体，但是对于位置变化较大的目标，目标可能出现在搜索区域外的其他图像区域中，从而出现无法定位目标的情况。2.目标分类中使用的分类器分为两种，分别是可以离线训练的离线分类器和跟踪测试时训练的在线分类器。离线分类器通过使用大量的离线训练数据学习到分类的先验知识，具有较高的泛化性。但是由于追踪的物体未知，因此离线分类器针对性较弱。并且目前的离线分类器尺度单一，无法利用多尺度的特征解决目标尺度变化的问题。而在线分类可以针对追踪视频第一帧的目标学习到符合该目标的分类器，其针对性更强。但是为了保持跟踪速率，在线分类器仅使用少量的追踪视频中的进行少数迭代来迭代更新在线分类器，泛化性较弱。目前大部分的方法都是仅选择一种分类器，而无法解决单一类型分类器带来的问题。

发明内容

发明目的：本发明旨在提供一种目标跟踪方法、设备和存储介质，其中目标跟踪方法通过结合泛化性强的离线分类器和针对性强的在线分类器，能够得到跟踪精度高的跟踪效果。

技术方案：本发明公开了一种基于多分类器的目标跟踪方法，包括如下步骤：

(1)建立第一特征提取网络和第二特征提取网络，所述第一特征提取网络和第二特征提取网络均为基于CNN的特征提取网络；对第一特征提取网络和第二特征提取网络进行预训练；

(2)构建离线训练样本集、离线分类器，离线giou预测器；

所述离线训练样本集中的样本为示例目标图像、示例目标裁剪图像、包含所述示例目标的原始图像构成的图像组合；所述原始图像中示例目标处于中心位置，且原始图像的面积是示例目标面积的4倍；所述示例目标裁剪图像为示例目标图像裁剪背景后的图像；

所述离线分类器用于计算待跟踪目标在搜索区域上不同位置处的离线相似度得分图；

所述离线giou预测器用于计算待跟踪目标与粗略定位位置的相似度P_giou(Pc(k))；

(3)离线训练：采用离线训练样本对所述离线分类器和所述离线giou预测器同时进行训练，训练目标为最小化损失函数：L＝L_d+L_g；

其中L_d为离线分类器的损失函数；L_g为离线giou预测器的损失函数；

(4)构建在线分类器、根据视频第一帧图像生成待跟踪目标模板tg_t和在线训练样本集，对在线分类器进行训练；

所述在线定位分类器用于计算待跟踪目标在视频图像搜索区域上不同位置处的在线相似度得分图；

(5)对视频第k帧图像进行在线目标跟踪，k>1，包括：

(5.1)根据k-1帧图像的跟踪结果获取第k帧图像的搜索区域R_k；

(5.2)粗定位：根据待跟踪目标模板和R_k计算离线相似度得分图S_d(k)与在线相似度得分图S_on(k)，并进行融合，得到综合得分图；综合得分图中得分最大的像素位置为待跟踪目标粗定位中心位置；根据k-1帧图像中得到的待跟踪目标的大小，得到待跟踪目标粗略位置Pc(k)＝[x₁,y₁,x₂,y₂]，其中(x₁,y₁)和(x₂,y₂)分别为目标外部矩形的左上角和右下角在图像中的坐标值；

(5.3)利用离线giou预测器计算待跟踪目标模板与粗略定位位置Pc(k)的相似度P_giou(Pc(k))，如果P_giou(Pc(k))小于预设的相似度阈值giou_th，扩大搜索区域R_k，重新执行步骤(5.1)进行粗定位；

(5.4)精确定位：设第k帧图像中待跟踪目标的真实位置为Ps(k)＝[x′₁,y′₁,x′₂,y′₂]，以待跟踪目标模板、待跟踪目标在第一帧图像中的位置为离线giou预测器模板流的输入；以第k帧图像的搜索区域R_k、真实位置Ps(k)为离线giou预测器搜索区域流的输入，则离线giou预测器的输出为Ps(k)的函数，即Pgiou＝F(Ps(k)，其中F(.)为根据离线giou预测器的结构得到的函数；

以粗略定位位置Pc(k)作为Ps(k)的初始值，采用梯度下降法计算Pgiou取最大值时的Ps(k)，即为第k帧图像中待跟踪目标的精确位置

(6)令k＝k+1，重复步骤5，持续对视频后续帧中的目标进行跟踪，直到跟踪结束。

所述离线分类器为Siamese框架网络，包括结构与参数均相同的上下两流，其中每一流包括依次连接的第一特征提取网络、第一卷积层(Conv1)、第二卷积层(Conv2)；上流为模板流，上流的输入为目标图像；下流为搜索区域流，下流的输入为包含上流输入目标的搜索区域图像；

离线分类器上流输入图像经过第一特征提取网络和第一卷积层(Conv1)的处理后得到浅层模板特征F₁(template)；浅层模板特征F₁(template)经过第二卷积层(Conv2)的处理后得到深层模板特征F₂(template)；

离线分类器下流输入图像经过第一特征提取网络和第一卷积层(Conv1)的处理后得到浅层搜索区域特征F₁(search)；浅层搜索区域特征F₁(search)经过第二卷积层(Conv2)的处理后得到深层搜索区域特征F₂(search)；

浅层模板特征F₁(template)对浅层搜索区域特征F₁(search)做卷积运算，得到浅层特征得分图S₁；深层模板特征F₂(template)对深层搜索区域特征F₂(search)做卷积运算，得到深层特征得分图S₂；

所述离线相似度得分图S_d＝S₁+S₂；

所述离线分类器训练时上流输入为离线训练样本集中的示例目标裁剪图像；下流输入为包含所述示例目标的原始图像；

所述离线分类器的损失函数L_d为：L_d＝L₁+L₂；

其中，L₁为浅层特征得分图损失函数：L₂为深层特征得分图损失函数：

|S₁|为浅层特征得分图S₁的像素总数；Y₁[u]为距离标签，当u距离S₁中心点的像素距离大于d_th时，Y₁[u]＝1，否则Y₁[u]＝0；d_th为预设的像素距离阈值。

所述离线giou预测器包括上下两流；其中离线giou预测器上流为模板流，输入为目标图像以及目标图像中目标的位置坐标A；下流为搜索区域流，输入为与上流输入对应的原始图像以及原始图像中目标的候选位置B；

所述离线giou预测器模板流包括第一特征提取网络、第二特征提取网络、模板流卷积层(Conv_t)、模板流上支路全连接层(F_t)、模板流下支路第一全连接层(F_t1)、模板流下支路第二全连接层(F_t2)、模板流特征连接器(C_t)；

模板流的输入图像经过第一特征提取网络的处理后得到模板特征G₁(template)，G₁(template)分别经过模板流上支路和模板流下支路的处理，得到模板流上支路特征和模板流下支路特征；所述模板流上支路包括依次连接的模板流卷积层(Conv_t)、Prpool运算模块、模板流上支路全连接层(F_t)；所述模板流下支路包括依次连接的第二特征提取网络和Prpool运算模块；模板流上支路特征和模板流下支路特征由模板流特征连接器(C_t)连接在一起，得到模板流特征；模板流特征分别经过模板流下支路第一全连接层(F_t1)和模板流下支路第二全连接层(F_t2)得到两个调制信号T₁和T₂；

所述离线giou预测器搜索区域流包括第一特征提取网络、第二特征提取网络、搜索区域流卷积层(Conv_s)、搜索区域流全连接层(F_s)、搜索区域流上支路全连接层(F_s1)、搜索区域流下支路全连接层(F_s2)、搜索区域流上支路调制器(M₁)、搜索区域流下支路调制器(M₂)和搜索区域流特征连接器(C_s)；

搜索区域流的输入图像经过第一特征提取网络的处理后得到搜索区域特征G₁(search)，G₁(search)分别经过搜索区域流上支路和搜索区域流下支路的处理，得到搜索区域流上支路特征和搜索区域流下支路特征；所述搜索区域流上支路包括依次连接的搜索区域流卷积层(Conv_s)、Prpool运算模块、以T₁作为调制信号的搜索区域流上支路调制器(M₁)和搜索区域流上支路全连接层(F_s1)；所述搜索区域流下支路包括依次连接的第二特征提取网络、Prpool运算模块、以T₂作为调制信号的搜索区域流下支路调制器(M₂)和搜索区域流下支路全连接层(F_s2)；搜索区域流上支路特征和搜索区域流下支路特征由搜索区域流特征连接器(C_s)连接在一起，经过搜索区域流特征连接器(C_s)的处理得到离线giou预测器的输出Pgiou；

离线训练时，在原始图像中随机生成Nc个候选位置B_i，i＝1,2,…,Nc；分别用每一个候选位置B_i作为搜索区域流的输入，计算离线giou预测器的输出Pⁱgiou；

所述离线giou预测器的损失函数L_g为：

Gⁱgiou是使用搜索区域中候选位置B_i与真实位置A的giou作为网络监督标签信息。Gⁱgiou的计算为：

A是搜索区域中目标的真实位置框；B_i是搜索区域中目标的候选位置框，C是能够包住A和B的最小框。

所述在线训练样本集的构建包括：

在视频第一帧图像中选择待跟踪目标，其位置为P₀＝[x_l,y_l,x_r,y_r]，其中(x_l,y_l)和(x_r,y_r)分别为待跟踪目标外部矩形的左上角和右下角在第一帧图像中的坐标值；第一帧图像中待跟踪目标外部矩形内图像区域为待跟踪目标模板tg_t；

以矩形P₀＝[x_l,y_l,x_r,y_r]的中心为中心，设定宽为2|x_l-x_r|、高为2|y_l-y_r|的区域为搜索区域；对搜索区域进行翻转、平移操作，生成m张增强图像map_j，作为在线训练样本集，j＝1,2,…,m；

利用第一特征提取网络提取m张增强图像map_j的特征t_j；

所述在线分类器为n×n的卷积模板w，通过最小化下式损失函数对w进行迭代优化，得到在线分类器卷积模板w：

其中，γ_j为map_j的权重，y_j是在线分类得分图的标签，f(t_j；w)是图像特征t_j上通过卷积模板w得到的预测位置；∑_lλ_l‖w_l‖²为正则化项；w_l为卷积模板w中的第l个参数，l＝1,2,…,n²；

所述步骤(5.2)中用优化后的在线卷积模板w对R_k进行卷积运算，得到在线特征得分图S_on(k)。

步骤(5.1)中搜索区域R_k为：以k-1帧的跟踪结果的中心为中心，宽为高为的区域为第k帧图像的搜索区域R_k。

所述步骤(5.2)将待跟踪目标模板和R_k分别作为离线分类器的模板流与搜索流，得到第k帧图像的浅层特征得分图S_1,k和深层特征得分图S_2,k，离线相似度得分图S_d(k)为：S_d(k)＝(S_1,k+S_2,k)；

离线相似度得分图S_d(k)与在线相似度得分图S_on(k)融合得到的综合得分图为：S(k)＝S_d(k)×S_on(k)。

所述步骤(5.3)中扩大搜索区域R_k的具体步骤为：

如果k＝2，保持R_k的中心不变，将R_k宽和高的范围均沿正负方向扩大10％；

如果k>2，k-1帧与k-2帧图像中待跟踪目标在水平方向的位移偏移量大于目标模板tg_t的宽度的1.5倍，或k-1帧与k-2帧图像中待跟踪目标在竖直方向的位移偏移量大于目标模板tg_t的高度的1.5倍时，保持R_k的中心不变，将R_k宽和高的范围均沿正负方向扩大25％；否则保持R_k的中心不变，将R_k宽和高的范围均沿正负方向扩大10％。

本发明采用imagenet对resnet18进行预训练，所述第一特征提取网络为resnet18网络的block1-2；所述第二特征提取网络为resnet18网络的block3。

另一方面，本发明公开了一种计算机可读取存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述目标跟踪方法的步骤。

本发明还公开了一种目标跟踪设备，包括处理器及存储介质，所述存储介质为计算机可读取存储介质；所述处理器加载并执行所述存储介质中的指令及数据用于实现上述目标跟踪方法。

有益效果：与现有技术相比，本发明公开的目标跟踪方法同时使用离线分类器和在线分类器对待跟踪目标粗定位，结合两种分类器的分类结果产生较为精确的目标粗略位置，从而实现两种分类器功能上的互补，使其能够充分发挥两种分类器的作用而避免使用单一分类器的缺点，在此基础上进行精确定位能够得到跟踪精度高的跟踪效果。

附图说明

图1为本发明公开的目标跟踪方法的流程图；

图2为离线训练样本集示意图；

图3为实施例中离线分类器的结构图；

图4为实施例中离线giou预测器的结构图；

图5为本发明公开的目标跟踪方法整体框架图；

图6为本发明公开的目标跟踪设备示意图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明。

如图1所示，本发明公开了一种基于多分类器的目标跟踪方法，包括如下步骤：

步骤1、建立第一特征提取网络和第二特征提取网络，所述第一特征提取网络和第二特征提取网络均为基于CNN的特征提取网络；对第一特征提取网络和第二特征提取网络进行预训练；

第一特征提取网络和第二特征提取网络用于提取图像的特征，本实施例采用imagenet对resnet18进行预训练，在后续训练和跟踪过程中，resnet18的参数保持固定不更新。resnet18包括一个卷积层conv1和4个卷积块conv2_x-conv 5_x，考虑到目标跟踪的实时性，本实施例中，第一特征提取网络为预训练后的resnet18网络的conv1和conv2_x,conv3_x，即使用两个卷积块：block1-2；第二特征提取网络为resnet18网络的conv4_x，即第三卷积块block3。经过实验，仅使用部分网络就可以达到使用全部网络所能达到的性能，且处理速度更快，满足了视频目标跟踪所要求的实时性。

步骤2、构建离线训练样本集、离线分类器，离线giou预测器；

离线训练样本集中的样本为示例目标图像、示例目标裁剪图像、包含所述示例目标的原始图像构成的图像组合；所述原始图像中示例目标处于中心位置，且原始图像的面积是示例目标面积的4倍；所述示例目标裁剪图像为示例目标图像裁剪背景后的图像。

本实施例中，包含示例目标的原始图像尺寸为288×288，示例目标图像的尺寸同样resize到288×288，示例目标图像中仍有少量背景，以示例目标图像中心为中心进行裁剪，裁剪出184×184大小的图像作为示例目标裁剪图像。示例目标裁剪图像中基本只有目标的图像部分。如图2所示，图2-(a)为示例目标图像，其中还有少量背景；图2-(b)为示例目标裁剪图像，基本没有背景；图2-(c)为包含示例目标的原始图像，其中包含的示例目标与示例目标图像中的目标相同，来自视频中不同的图像。

离线分类器用于计算待跟踪目标在搜索区域上不同位置处的离线相似度得分图；离线giou预测器用于计算待跟踪目标与粗略定位位置的相似度P_giou(Pc(k))；

本实施例中，离线分类器为Siamese框架网络，如图3所示，包括结构与参数均相同的上下两流，其中每一流包括依次连接的第一特征提取网络、第一卷积层(Conv1)、第二卷积层(Conv2)；上流为模板流，上流的输入为目标图像；下流为搜索区域流，下流的输入为包含上流输入目标的搜索区域图像；Siamese双流网络旨在衡量两张图像的相似性。

离线相似度得分图S_d＝S₁+S₂；

离线分类器训练时上流输入为离线训练样本集中的示例目标裁剪图像；下流输入为包含所述示例目标的原始图像。本实施例中，第一卷积层(Conv1)为4层卷积层，四层卷积层的卷积核大小分别为5×5，3×3，3×3，3×3，输出通道数分别为128，128，256，256，步长均为1，padding均为0；第二卷积层Conv2由3层卷积层组成，卷积核大小均为3×3，输出通道数分别为256，512，512，步长均为1，padding均为0。184×184的示例目标裁剪图像经过resnet18block1-2和第一卷积层Conv1得到的浅层模板特征F₁(template)为13×13×256；288×288的原始图像经过resnet18block1-2和第一卷积层Conv1得到的浅层搜索区域特征F₁(search)为26×26×256。

根据当卷积核与图像越相似，卷积结果越大的原理，使用模板特征作为卷积核，对搜索区域特征进行卷积操作，得到离线分类的得分图S1，即：将F₁(template)作为卷积核在F₁(search)上进行卷积，得到14×14×1的浅层特征得分图S₁。

同样地，F₁(template)经过第二卷积层Conv2得到7×7×512的深层模板特征F₂(template)；F₁(search)经过第二卷积层Conv2得到20×20×512的深层搜索区域特征F₂(search)；将F₂(template)作为卷积核在F₂(search)上进行卷积，得到14×14×1的深层特征得分图S₂。

所述离线分类器的损失函数L_d为：L_d＝L₁+L₂；

本实施例中采用浅层特征与深层特征级联的离线分类器，能够利用多级多尺度的特征，以适应目标尺度变化带来的问题，提高分类器的鲁棒性。

本实施例中，离线giou预测器包括上下两流；如图4所示，其中离线giou预测器上流为模板流，输入为目标图像以及目标图像中目标的位置坐标A；下流为搜索区域流，输入为与上流输入对应的原始图像以及原始图像中目标的候选位置B；

离线giou预测器模板流包括第一特征提取网络、第二特征提取网络、模板流卷积层(Conv_t)、模板流上支路全连接层(F_t)、模板流下支路第一全连接层(F_t1)、模板流下支路第二全连接层(F_t2)、模板流特征连接器(C_t)；

模板流的输入图像经过第一特征提取网络的处理后得到模板特征G₁(template)，G₁(template)分别经过模板流上支路和模板流下支路的处理，得到模板流上支路特征和模板流下支路特征；其中模板流上支路包括依次连接的模板流卷积层(Conv_t)、Prpool(PrROI Pooling)运算模块、模板流上支路全连接层(F_t)；模板流下支路包括依次连接的第二特征提取网络和Prpool运算模块；模板流上支路特征和模板流下支路特征由模板流特征连接器(C_t)连接在一起，得到模板流特征；模板流特征分别经过模板流下支路第一全连接层(F_t1)和模板流下支路第二全连接层(F_t2)得到两个调制信号T₁和T₂；

离线giou预测器搜索区域流包括第一特征提取网络、第二特征提取网络、搜索区域流卷积层(Conv_s)、搜索区域流全连接层(F_s)、搜索区域流上支路全连接层(F_s1)、搜索区域流下支路全连接层(F_s2)、搜索区域流上支路调制器(M₁)、搜索区域流下支路调制器(M₂)和搜索区域流特征连接器(C_s)；

搜索区域流的输入图像经过第一特征提取网络的处理后得到搜索区域特征G₁(search)，G₁(search)分别经过搜索区域流上支路和搜索区域流下支路的处理，得到搜索区域流上支路特征和搜索区域流下支路特征；所述搜索区域流上支路包括依次连接的搜索区域流卷积层(Conv_s)、Prpool运算模块、以T₁作为调制信号的搜索区域流上支路调制器(M₁)和搜索区域流上支路全连接层(F_s1)；搜索区域流下支路包括依次连接的第二特征提取网络、Prpool运算模块、以T₂作为调制信号的搜索区域流下支路调制器(M₂)和搜索区域流下支路全连接层(F_s2)；搜索区域流上支路特征和搜索区域流下支路特征由搜索区域流特征连接器(C_s)连接在一起，经过搜索区域流特征连接器(C_s)的处理得到离线giou预测器的输出Pgiou。

本实施例中，离线giou预测器的模板流与搜索区域流均分为两个支路，是为了得到多尺度的特征，其中上支路用一层卷积层提取特征，得到浅层特征，下支路用共享权重的resnet18block3，得到深层特征。

本实施例中，conv_t是一个kernel_size＝3,stride＝1，输出通道数是128的卷积层。conv_s是kernel_size＝3,stride＝1，输出通道数是256的卷积层。离线giou预测器训练时，上流输入为示例目标图像，下流输入为包含所述示例目标的原始图像。图4中，G11(template)经过PrPool运算模块后得到3×3×128的特征，其后接全连接层F_t得到1×1×256，G12(template)经过PrPool运算模块后得到1×1×256的特征，将两个1×1×256的特征用C_t连接在一起得到1×1×512的特征，然后通过两个全连接层F_t1及F_t2分别该特征变为两个1×1×256的调制信号T₁和T₂。G11(search)经过PrPool运算模块的大小为5×5×256，G12(search)经过PrPool运算模块大小为3×3×256，调制是分别将两个调制信号按通道相乘在search流的两个特征G11(search)，G12(search)上，具体计算方法见参考文献：Danelljan M,Bhat G,Khan F S,et al.ATOM:Accurate tracking by overlapmaximization[C]//Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.2019:4660-4669。乘完后将两个特征拼接在一起并经过全连接层F_s，即可得到预测的Pgiou。

离线训练时，在原始图像中随机生成Nc个候选位置B_i，i＝1,2,…,Nc；分别用每一个候选位置B_i作为搜索区域流的输入，计算离线giou预测器的输出Pⁱgiou。本实施例中随机生成16个候选位置，即Nc＝16，由此得到离线giou预测器的损失函数L_g为：

其中Gⁱgiou是使用搜索区域中候选位置B_i与真实位置A的giou作为网络监督标签信息。Gⁱgiou的计算为：

其中A是搜索区域中目标的真实位置框；B是搜索区域中目标的候选位置框。C是能够包住A和B的最小框。通过公式可以看出giou不仅使用了两个区域的交集和并集信息，还使用了交集周围的部分背景信息，因此其所包含的信息更多，使用giou训练网络可以使网络更具有判别性。

步骤3、离线训练：采用离线训练样本对离线分类器和所述离线giou预测器同时进行训练，训练目标为最小化损失函数：L＝L_d+L_g；

步骤4、构建在线分类器、根据视频第一帧图像生成待跟踪目标模板tg_t和在线训练样本集，对在线分类器进行训练；

在线定位分类器用于计算待跟踪目标在视频图像搜索区域上不同位置处的在线相似度得分图；

在线训练样本集的构建包括：

以矩形P₀＝[x_l,y_l,x_r,y_r]的中心为中心，设定宽为2|x_l-x_r|、高为2|y_l-y_r|的区域为搜索区域；对搜索区域进行翻转、平移操作，生成m张增强图像map_j，作为在线训练样本集，j＝1,2,…,m；本实施例中，在线训练样本集包括30张增强图像，即m＝30。

利用第一特征提取网络提取m张增强图像map_j的特征t_j；

在线分类器为n×n的卷积模板w，本实施例中采用4×4大小的卷积模板，即n＝4。随机生成4×4大小的卷积模板w作为在线分类器的初始值，通过最小化下式损失函数对w进行迭代优化，得到在线分类器卷积模板w：

其中，γ_j为map_j的权重，y_j是在线分类得分图的标签，f(t_j；w)是图像特征t_j上通过卷积模板w得到的预测位置；∑lλ_l‖wl‖²为正则化项，其可以防止滤波器过拟合；w_l为卷积模板w中的第l个参数，l＝1,2,…,n²；

利用变量代换：损失函数变为：L(w)＝‖r(w)‖²。

然后通过二次高斯牛顿估计可得在相关滤波器w的增量Δw上的目标函数变为根据一阶泰勒展开r(w+Δw)≈rw+JwΔw，是雅可比矩阵。损失函数可以变成：

利用共轭梯度法迭代60次对上式进行优化，更新得到卷积模版增量Δw，进而得到模版w。

步骤5、对视频第k帧图像进行在线目标跟踪，k>1，包括以下步骤：

(5.1)根据k-1帧图像的跟踪结果获取第k帧图像的搜索区域R_k；

第k帧图像的搜索区域R_k为：以k-1帧的跟踪结果的中心为中心，宽为高为的区域为第k帧图像的搜索区域R_k。

(5.2)粗定位：将待跟踪目标模板tg_t和R_k分别作为离线分类器的模板流与搜索流，得到第k帧图像的浅层特征得分图S_1,k和深层特征得分图S_2,k，离线相似度得分图S_d(k)为：S_d(k)＝(S_1,k+S_2,k)；用优化后的在线卷积模板w对R_k进行卷积运算，得到在线特征得分图S_on(k)。离线相似度得分图S_d(k)与在线相似度得分图S_on(k)融合得到的综合得分图为：S(k)＝S_d(k)×S_on(k)。

通过傅立叶变换将S(k)插值到搜索区域R_k大小，找到最大值的像素位置即为本帧图像中待跟踪目标的中心位置，由于分类器只需要判断目标的大致位置，因此取上一帧得到的目标的长和宽作为本帧图像中目标粗略位置的长和宽，有了中心位置以及长宽，即可得到本帧待跟踪目标粗略位置Pc(k)＝[x₁,y₁,x₂,y₂]，其中(x₁,y₁)和(x₂,y₂)分别为目标外部矩形的左上角和右下角在图像中的坐标值；

扩大搜索区域R_k的具体步骤为：

如果k＝2，保持R_k的中心不变，将R_k宽和高的范围均沿正负方向扩大10％，即扩大后R_k的面积约为跟踪目标模板面积的5倍；

如果k>2，k-1帧与k-2帧图像中待跟踪目标在水平方向的位移偏移量大于目标模板tg_t的宽度的1.5倍，或k-1帧与k-2帧图像中待跟踪目标在竖直方向的位移偏移量大于目标模板tg_t的高度的1.5倍时，保持R_k的中心不变，将R_k宽和高的范围均沿正负方向扩大25％，即扩大后R_k的面积约为跟踪目标模板面积的6倍；否则保持R_k的中心不变，将R_k宽和高的范围均沿正负方向扩大10％。

本实施例中，根据图4，有：

P_giou(Ps(k))＝concat(Fs₁(ε₁×Ft1(α₁)),Fs₂(ε₂×Ft2(α₂)))

其中：α₁＝PrPool(G₁₁(template),P(template))，

α₂＝PrPool(G₁₂(template),P(template))，

ε₁和ε₂分别是Prpool运算模块根据提取的当前第k帧图像中搜索区域的特征G11(search)(x，y)和G12(search)(x，y),计算出粗略位置Pc(k)内的特征。P(template)是第一帧图像中的待跟踪目标模版的位置，该位置已知且固定，因此α₁，α₂是Prpool运算模块根据提取的模板目标特征G11(template)，G12(template)计算出模板位置内的特征,是固定的常数。

F_t1是图4中F_{_t}及F_{_t1}两个全连接层对特征α₁进行进一步运算。F_t1(α₁)，F_{_t2}(α₂)也是可以计算得到的常数。F_s1是图中F_{_s1}及F_{_s}两个全连接层,F_s2是图中F_{_s2}及F_{_s}两个全连接层，F_s1及F_s2进行进一步运算并连接(Concat)得到的Pgiou。根据梯度下降法迭代五次，获得使Pgiou最大的x′₁,y′₁,x′₂,y′，即为当前帧中待跟踪目标的精确位置导数计算如下(以x₁为例)：

以第一项为例，导数计算如下：

其中，依靠对全连接网络对输出逐层反向求导可得。

步骤6、令k＝k+1，重复步骤5，持续对视频后续帧中的目标进行跟踪，直到跟踪结束。

本实施例中目标跟踪方法的整体框图如图5所示。

将本实施例中的目标跟踪方法在VOT2018上进行测试，VOT2018包含60段测试视频序列，其评价标准为期望平均重叠率Expect Average Overlap Rate(EAO)，该指标能够同时显示跟踪的精度Accuracy和鲁棒性Robustness。其中精度Accuracy表示跟踪成功状态下的跟踪框与实际框的平均重叠率。Robustness用来评价跟踪目标的稳定性，其反映了跟踪的失败次数。Robustness数值越大，稳定性越差。(当跟踪框与实际框iou大于0即为成功，等于0即为失败)。

测试结果如表1所示：

表1

方法	EAO	Accuracy	Robustness
				Baseline	0.401	0.590	0.204
Baseline+离线分类	0.423	0.600	0.183
				Baseline+giou	0.411	0.604	0.192
Baseline+动态规划	0.408	0.607	0.192
				Baseline+离线+giou+动态规划	0.434	0.604	0.178
DasiamRPN	0.383	0.586	0.276
				SASiamR	0.337	0.566	0.258
DeepSTRCF	0.345	0.523	0.215

Baseline即使用iou作为预训练标签，仅使用在线分类器且无动态规划搜索区域，具体方法见文献：Danelljan M,Bhat G,Khan F S,et al.ATOM:Accurate tracking byoverlap maximization[C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.2019:4660-4669。DasiamRPN为采用文献：Zhu Z,WangQ,Li B,et al.Distractor-aware siamese networks for visual object tracking[C]//Proceedings of the European Conference on Computer Vision(ECCV).2018:101-117.中记载的方法进行目标跟踪；SASiamR为采用文献：He A,Luo C,Tian X,etal.Towards a better match in siamese network based visual object tracker[C]//Proceedings of the European Conference on Computer Vision(ECCV).2018:0-0中记载的方法进行目标跟踪；DeepSTRCF为采用文献：Li F,Tian C,Zuo W,et al.Learningspatial-temporal regularized correlation filters for visual tracking[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2018:4904-4913.中记载的方法进行目标跟踪。

从表1中的对比结果来看，本发明公开的方法在各个评价维度均有较好的表现。

本发明公开的目标跟踪设备如图6所示，包括处理器601及存储介质602，其中存储介质602为计算机可读取存储介质，其上存储有计算机指令，该计算机指令运行时执行本发明所公开的目标跟踪方法的步骤；处理器601加载并执行存储介质602中的指令及数据用于实现上述目标跟踪方法。

Claims

1.基于多分类器的目标跟踪方法，其特征在于，包括如下步骤：

(2)构建离线训练样本集、离线分类器，离线giou预测器；

(5)对视频第k帧图像进行在线目标跟踪，k>1，包括：

(5.1)根据k-1帧图像的跟踪结果获取第k帧图像的搜索区域R_k；

2.根据权利要求1所述的基于多分类器的目标跟踪方法，其特征在于，所述离线分类器为Siamese框架网络，包括结构与参数均相同的上下两流，其中每一流包括依次连接的第一特征提取网络、第一卷积层(Conv1)、第二卷积层(Conv2)；上流为模板流，上流的输入为目标图像；下流为搜索区域流，下流的输入为包含上流输入目标的搜索区域图像；

所述离线相似度得分图S_d＝S₁+S₂；

所述离线分类器的损失函数L_d为：L_d＝L₁+L₂；

3.根据权利要求1所述的基于多分类器的目标跟踪方法，其特征在于，所述离线giou预测器包括上下两流；其中离线giou预测器上流为模板流，输入为目标图像以及目标图像中目标的位置坐标A；下流为搜索区域流，输入为与上流输入对应的原始图像以及原始图像中目标的候选位置B；

离线训练时，在原始图像中随机生成Nc个候选位置B_i，i＝1,2,…,Nc；分别用每一个候选位置B_i作为搜索区域流的输入，计算离线giou预测器的输出Pⁱgiou；所述离线giou预测器的损失函数L_g为：

其中Gⁱgiou是使用搜索区域中候选位置B_i与真实位置A的giou作为网络监督标签信息；Gⁱgiou的计算公式为：

4.根据权利要求1所述的基于多分类器的目标跟踪方法，其特征在于，所述在线训练样本集的构建包括：

利用第一特征提取网络提取m张增强图像map_j的特征t_j；

5.根据权利要求1所述的基于多分类器的目标跟踪方法，其特征在于，

6.根据权利要求2所述的基于多分类器的目标跟踪方法，其特征在于，所述步骤(5.2)将待跟踪目标模板和R_k分别作为离线分类器的模板流与搜索流，得到第k帧图像的浅层特征得分图S_1,k和深层特征得分图S_2,k，离线相似度得分图S_d(k)为：S_d(k)＝(S_1,k+S_2,k)；

7.根据权利要求1所述的基于多分类器的目标跟踪方法，其特征在于，所述步骤(5.3)中扩大搜索区域R_k的具体步骤为：

8.根据权利要求1所述的基于多分类器的目标跟踪方法，其特征在于，采用imagenet对resnet18进行预训练，所述第一特征提取网络为resnet18网络的block1-2；所述第二特征提取网络为resnet18网络的block3。

9.一种计算机可读取存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求1至8任一项所述的目标跟踪方法的步骤。

10.一种目标跟踪设备，其特征在于，包括处理器及存储介质，所述存储介质为权利要求9所述的计算机可读取存储介质；所述处理器加载并执行所述存储介质中的指令及数据用于实现权利要求1至8任一项所述的目标跟踪方法。