CN112465862A

CN112465862A - 一种基于跨域深度卷积神经网络的视觉目标跟踪方法

Info

Publication number: CN112465862A
Application number: CN202011334712.9A
Authority: CN
Inventors: 张科; 王无为; 王靖宇; 谭明虎; 苏雨
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-03-09
Anticipated expiration: 2040-11-24
Also published as: CN112465862B

Abstract

本发明公开了一种基于跨域深度卷积神经网络的视觉目标跟踪方法，首先在VGG网络架构基础上构建深度卷积神经网络模型，只保留VGG网络架构前三个卷积层Conv1‑Conv3和两个全连接层FC4‑FC5，在第二个全连接层FC5之后连接多域全连接层；然后随机取出1个训练集序列，构建正样本、负样本和难例负样本对网络模型进行训练，当达到预先设定的训练次数时结束训练，即得到最终用于目标跟踪的深度卷积神经网络模型。本方法充分利用跨域的信息进行离线训练，提高了模型对于目标和背景的分辨力，并通过多任务学习显著提高视觉目标跟踪的精度。

Description

一种基于跨域深度卷积神经网络的视觉目标跟踪方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种视觉目标跟踪方法。

背景技术

视觉目标跟踪是计算机视觉中最关键的组成部分之一，已广泛应用于智能交通监控、行为分析、视觉引导等众多领域。近年来，受图像分类和物体检测的启发，深度卷积神经网络(CNN)已被广泛用于视觉目标跟踪任务。深度卷积神经网络具有的深度、多隐藏层结构以及权值共享网络，能够减少权值数量，并极大提高网络的学习能力。

杨大伟，巩欣飞,毛琳，张汝波(《重构特征联合的多域卷积神经网络跟踪算法》，激光与光电子学进展，2019，56(19)：165-173)针对已有的基于卷积神经网络的目标跟踪网络模型中存在的特征稳健性差以及目标背景信息丢失导致跟踪失败的问题，提出一种基于重构特征联合的多域卷积神经网络视觉跟踪算法。将网络末端卷积层提取的深层目标特征，通过反卷积操作上采样,获得了包含目标背景信息的重构特征,再通过联合目标高级特征和背景信息的重构特征的方式增强特征的稳健性,达到了有效区分目标和背景的目的。但该网络模型在训练阶段针对每个网络分支，仅利用单个域的正负样本进行训练，导致模型泛化性有限。此外，在在线跟踪阶段，该算法使用在线训练的回归器进行目标边界框回归，使得训练样本不足，回归精度较低。

发明内容

为了克服现有技术的不足，本发明提供了一种基于跨域深度卷积神经网络的视觉目标跟踪方法，首先在VGG网络架构基础上构建深度卷积神经网络模型，只保留VGG网络架构前三个卷积层Conv1-Conv3和两个全连接层FC4-FC5，在第二个全连接层FC5之后连接多域全连接层；然后随机取出1个训练集序列，构建正样本、负样本和难例负样本对网络模型进行训练，当达到预先设定的训练次数时结束训练，即得到最终用于目标跟踪的深度卷积神经网络模型。本方法充分利用跨域的信息进行离线训练，提高了模型对于目标和背景的分辨力，并通过多任务学习显著提高视觉目标跟踪的精度。

本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤1：构建深度卷积神经网络模型；

采用VGG网络架构，只保留VGG网络架构的前三个卷积层Conv1-Conv3和两个全连接层FC4-FC5，在第二个全连接层FC5之后连接多域全连接层；

多域全连接层的每个域对应于一个训练序列中的单个目标，并由一个用于区分目标和背景的二值分类层和一个用于定位的边界框回归层组成；多域全连接层的层数N_b等于训练集序列的个数；

步骤2：在N_b个训练集序列中随机取出1个序列，构建N_pos个正样本、N_neg个负样本和N_hard个难例负样本作为当前mini-batch的输入；其中正样本表示样本框与对应目标真实位置的重叠率大于设定阈值λ₁的样本；负样本表示与真实位置的重叠率小于定阈值λ₁且大于定阈值λ₂的样本；难例负样本表示从其他序列取得且与当前序列的目标为同一类别的正样本；

步骤3：将N_pos+N_neg+N_hard个样本作为深度卷积神经网络模型的输入，输入尺寸为(N_pos+N_neg+N_hard)×a₁×a₂×a₃，并根据以下式(1)损失函数计算深度卷积神经网络模型输出的损失，然后根据损失更新网络参数：

其中，P_i和T_i分别表示深度卷积神经网络模型第i个分支中分类层和回归层的输出，Y_i和B_i分别表示对应的样本标签和回归真值，

和

分别表示二值分类损失函数以及回归损失函数，超参数λ₁控制

和

之间的平衡度；

步骤4：在每个mini-batch结束后重复步骤2到步骤3，直到达到预先设定的训练次数N_batch；

步骤5：利用步骤1到步骤4训练的深度卷积神经网络模型进行在线目标跟踪；

步骤5-1给定序列图像I_k，k＝1,2,…,n中的第一帧I₁，以及目标的初始矩形框B₁，在目标周围采集N_pos个正样本及N_neg个负样本；

步骤5-2：确定检测精度P，P的取值范围为(b₁,b₂)；对序列图像I_k中的每一幅图像使用滑动窗口策略进行搜索，从图像左上角起，横向和纵向每隔N/4个像素取N×N大小的图像块B，作为样本输入深度卷积神经网络模型，若深度卷积神经网络模型计算出B是目标的概率大于P，则标记出B的位置为目标；

步骤5-3：第二帧及后续的每一帧中，以上一帧目标的位置为中心，选取N_c个候选样本

作为输入，深度卷积神经网络模型输出各个候选样本的正分类得分f⁺(xⁱ)以及边界框偏移量；通过找到最大得分对应的候选样本x^*及其边界框偏移量得到当前帧的最优目标位置；x^*计算公式如下：

优选地，所述a₁＝107，a₂＝107，a₃＝3。

优选地，所述b₁＝0，b₂＝1。

本发明的有益效果是：本发明的一种基于跨域深度卷积神经网络的视觉目标跟踪方法充分利用跨域的信息进行离线训练，提高了模型对于目标和背景的分辨力，并通过多任务学习显著提高视觉目标跟踪的精度。

附图说明

图1是本发明方法流程图。

图2是本发明方法网络结构图。

图3是本发明实施例测试结果图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

已有的基于卷积神经网络的视觉目标跟踪算法在离线训练时大多只试图区分单个域中的目标和背景，对不同域中，特别是当前景对象属于同一语义类或具有相似外观时的前景对象的区分并不强大。本发明针对这一问题，设计了基于卷积神经网络的新型视觉目标跟踪模型，不仅利用单个域中的目标和背景信息，而且充分利用跨域的信息进行离线训练，提高模型对于目标和背景的分辨力，并通过多任务学习同时训练分类和回归模型，从而提高跟踪精度。

如图1所示，一种基于跨域深度卷积神经网络的视觉目标跟踪方法，包括以下步骤：

步骤1：构建深度卷积神经网络模型；

采用VGG网络架构，只保留前三个卷积层Conv1-Conv3和两个全连接层FC4-FC5，在第二个全连接层FC5之后连接多域全连接层；

步骤3：将N_pos+N_neg+N_hard个样本作为深度卷积神经网络模型的输入，输入尺寸为(N_pos+N_neg+N_hard)×107×107×3，并根据以下式(1)损失函数计算深度卷积神经网络模型输出的损失，然后根据损失更新网络参数：

和

和

之间的平衡度；

步骤5-2：确定检测精度P，P的取值范围为(0,1)；对序列图像I_k中的每一幅图像使用滑动窗口策略进行搜索，从图像左上角起，横向和纵向每隔N/4个像素取N×N大小的图像块B，作为样本输入深度卷积神经网络模型，若深度卷积神经网络模型计算出B是目标的概率大于P，则标记出B的位置为目标；

作为输入，深度卷积神经网络模型输出各个候选样本的正分类得分f⁺(xⁱ)以及边界框偏移量；通过找到最大得分对应的候选样本x^*及其边界框偏移量得到当前帧的最优目标位置。x^*计算公式如下：

具体实施例：

1、搭建深度跨域卷积神经网络模型，具体过程如下：

加载VGG网络，输入为107×107×3的图像，通过96个7×7的卷积核(Conv1)提取较大尺度的特征信息，经过最大池化层后，再分别通过256个3×3卷积核(Conv2)以及512个3×3卷积核(Conv3)构成的卷积层经过进一步特征提取后由两层512个神经元组成的全连接层(FC4-FC5)将特征进行加权求和，最后输入多域全连接层，每个域对应于一个训练序列中的单个目标，并由一个用于区分目标和背景的二值分类层(FC6-cls)和一个用于定位的边界框回归层组成(FC6-reg)。多域全连接层的层数N_b等于训练集序列的个数。

2、搭建深度卷积神经网络模型对单个域以及跨域信息进行训练，具体过程如下：

(1)依照图2构建深度神经网络模型，用随机数初始化所有的滤波器、参数及权重。

(2)在N_b个训练序列中随机取出1个序列，构建N_pos个正样本，N_neg个负样本，N_hard个难例负样本作为当前mini-batch的输入。其中正样本表示样本框与对应目标真实位置的重叠率大于设定阈值λ₁的样本，标签设为1；负样本表示与真实位置的重叠率小于定阈值λ₁且大于定阈值λ₂(λ₂<λ₁)的样本，标签设为-1；难例负样本为从其他序列且与当前序列的目标为同一类别的正样本。此外，对于正样本，计算其相对于真实边界框的偏差t＝(t_x,t_y,t_w,t_h)，并保存。偏差计算公式为：

t_x＝(x-x_g)/w_g,t_y＝(y-y_g)/h_g,t_w＝log(w/w_g),t_h＝log(h/h_g)

其中，(x,y,w,h)和(x_g,y_g,w_g,h_g)分别表示正样本与真实边界框的中心横纵坐标与宽高值。

(3)将步骤(2)中N_pos+N_neg+N_hard个样本作为网络的输入(输入尺寸为(N_pos+N_neg+N_hard)×107×107×3)，并根据以下损失函数计算网络输出的损失，然后根据损失更新网络参数：

其中，P_i和T_i分别表示第i个分支中分类层和回归层的输出，Y_i和B_i分别表示对应的样本标签和回归真值，

和

和

之间的平衡度。对于每个分支，分类损失L_cls计算公式为：

其中，y_pn和y_ph分别表示正-负样本和正-难例负样本的二值标签，p表示分类层的输出结果，p_i、p_j对应正-负样本的概率，p_k、p_u对应正-难例负样本的概率。同时，超参数l₂为平衡正-负样本和正-难例负样本分类的权重系数。

回归损失L_loc计算公式为：

其中，t和b分别表示网络输出和真实的边界框偏移量。

(4)在每个mini-batch结束后重复步骤(2)～(3)，直到达到预先设定的训练次数N_batch。

3、利用步骤2训练得到的网络模型进行在线目标跟踪，具体过程如下：

(1)给定序列图像I_i(i＝1,2,…,n)中的第一帧I₁，以及目标的初始矩形框B₁，在目标周围采集N_pos个正样本及N_neg个负样本，对网络模型中的全连接层进行微调。

(2)确定检测精度P，P的取值范围为(0,1)。对[I₁,I₂…I_n]中的每一张图片使用滑动窗口策略进行搜索，对于[I₁,I₂…I_n]中的一张图像I_p，从其左上角起，横向和纵向每隔N/4个像素取N×N大小的图像块B，作为样本输入深度神经网络，若神经网络计算出B是目标的概率大于P，则标记出B的位置为目标。

(3)在第二帧及后续的每一帧中，以上一帧目标的位置为中心，选取N_c个候选样本

作为输入，网络输出各个候选样本的正分类得分f⁺(xⁱ)以及边界框偏移量。通过找到最大得分对应的候选样本x^*及其边界框偏移量即可得到当前帧的最优目标位置。x^*计算公式如下：

如图3所示，是采用本发明模型进行测试的结果，能够看到，本发明对目标取得了很好的跟踪结果。