CN110580712A

CN110580712A - 一种使用运动信息与时序信息的改进CFNet视频目标追踪方法

Info

Publication number: CN110580712A
Application number: CN201910797988.1A
Authority: CN
Inventors: 孙俊; 钱瑞峰; 吴豪; 吴小俊; 方伟; 陈祺东; 李超; 游琪; 冒钟杰
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2019-12-17
Anticipated expiration: 2039-08-27
Also published as: CN110580712B

Abstract

本发明提供一种使用运动信息与时序信息的改进CFNet视频目标追踪方法，属于目标追踪、深度学习领域。为了使模型有更强的鲁棒性，首先，要能够更好的提取视频帧中的图像特征，在CFNet模型的基础上，引入了SE‑ResNext‑50作为本模型的特征提取网络，其次，通过前后帧的信息，计算物体的位移、速度、加速度特征，作为跟踪目标的运动信息特征输入模型中。同时，模型还使用二维ConvLSTM循环神经网络，提取视频帧内的时序信息，两种信息的加入使得模型具有了较强的鲁棒性，在遇到遮挡，形变，目标快速运动等问题时较之前模型有较好的表现。

Description

一种使用运动信息与时序信息的改进CFNet视频目标追踪方法

技术领域

本发明属于目标追踪、深度学习领域，是一种基于孪生全卷积跟踪模型CFNet(Correlation Filter Network)，综合使用时序信息与运动信息的改进CFNet跟踪方法。

背景技术

现有的目标跟踪方法，一部分是利用现有的目标跟踪深度学习网络框架，并且主要使用当前帧的表征信息，作为模型训练的数据来源。这样传统的模型存在一定的局限性，信息来源比较单一，只能利用当前帧中的RGB信息。这使得这些模型在跟踪物体发生形变、快速移动、遮挡时，表现出了较差的跟踪效果，限制了视频跟踪技术在真实场景中的使用。

相关滤波最早应用于信号处理中，用以描述两个信号之间的相关性，近年来被应用与传统的视频目标跟踪任务中，借助傅立叶变换展现出了较优的实时性与跟踪效果。近年来来，随着深度学习的快速发展，各类卷积神经网络在计算机视觉中表现突出，一系列基于卷积网络的视频跟踪方法和模型框架也被提出。全卷积孪生网络SiameseFC于2016年被Bertinetto 提出。在2017年，Valmadre等人在SiameseFC架构的基础上，提出来改进的基于深度卷积跟踪模型CFNet，将相关滤波融入到深度神经网络的架构里实现了端到端训练。在不牺牲精度的同时，保证了方法计算处理的帧率，做到了较高的方法实时性，成为了当前在视频跟踪领域中，被广泛应用的深度学习网络结构。

传统的相关滤波通常是对傅里叶变换后的图像进行处理，CFNet模型在SiameseFC模型的基础上，首次在卷积神经网络中将相关滤波层加入模型，使得相关滤波层可以进行端到端的优化。网络模型层数更少，模型训练难度更低。尽管CFNet方法在模型训练过程和训练结果上较之前模型取得了不小的提升，但方法在进行推断处理时，只考虑到了当前帧的表层特征，不能很好的利用到视频帧内以及帧与帧之间的关系。而这些信息的缺失，使得模型在遇到诸如遮挡，形变等问题时表现出较差的性能。因此，在训练模型的特征选择上，还存在有提升的空间。

发明内容

为了解决现有技术、模型存在的问题，本发明提出一种综合使用运动信息和时序信息的改进CFNet视频跟踪方法。

本发明的技术方案：

一种使用运动信息与时序信息的改进CFNet视频目标追踪方法，包括如下步骤：

步骤1，选取训练视频数据集，并进行预处理，得到网络模型需要的训练数据集。所述的预处理的过程包括：对视频中的单帧图像进行亮度、对比度、色相的增广，对视频进行空域上的裁剪，在时域上对视频的时长使用双线性插值的方法进行缩放。

步骤2，将步骤1预处理后的数据输入到构建好的网络模型中，初始化历史信息特征图，使用训练好的CFNet或SiameseFC对目标下一帧位置进行估计，用估计结果计算初始化运动状态特征图；

所述步骤2具体为：

步骤2.1，以Se-ResNext-50作为特征提取网络，构建网络模型，使用ImageNet预训练权重初始化特征提取网络权重，初始化网络模型中特征提取网络以外部分的权重，使用0对历史信息特征图进行初始化，设置模型最大训练轮数。

步骤2.2，将当前帧图片输入到网络模型中，使用CFNet或SiameseFC对目标下一帧位置进行估计，再计算获取物体的运动信息以此初始化运动状态特征图；

(1)设物体当前的位置为P_t，目标在历史帧当中的位置分别为，P_t-T，P_t-2T，则当前帧目标的速度v_t与加速度a_t可分别通过与相应历史值做一阶和二阶近似得到，T表示当前帧与所观察的下一帧的时间差。

v_t＝(P_t-P_t-T)

a_t＝(v_t-v_t-T)

(2)利用运动信息对视频下一帧目标位置进行推断，得到位移、速度、加速度的特征图。具体过程为：将下一帧图像的每个像素所在位置p_i,j与预估的物体当前的位置P_t相减，得到与 P_t预估位置相关的位移特征图M_p，同理获得速度与加速度状态差的特征图M_v，M_a。

M_p(i,j)＝p_i,j-P_t

M_v(i,j)＝M_p(i,j)-v_t

M_a(i,j)＝M_v(i,j)-a_t

(3)将得到的跟踪物体位移、速度、加速度特征图在通道轴进行拼接，得到运动状态特征图M＝[M_p,M_v,M_a]，同时对过去的状态进行平滑处理：

其中，为在t时刻跟踪物体的速度，为在t时刻跟踪物体的加速度，v_j为位置为 j的像素的速度，a_j为位置为j的像素的加速度；

步骤2.3，将运动状态特征图M与当前帧进行拼接，作为图像特征提取网络Se-ResNext-50 的输入，得到当前帧特征图I_t。

步骤2.4，将当前帧特征图I_t，与在T时刻之前得到的历史状态特征H_t-1，同时输入到时序特征状态提取网络ConvLSTM中，得到当前时刻的状态特征H_t，ConvLSTM在接收上一状态特征H_t-1与当前帧特征图I_t后获取当前时刻状态特征H_t的方式如下：

其中，i_t为t时刻输入门特征，f_t为t时刻遗忘门特征，C_t为t时刻细胞特征，o_t为t时刻输出门特征，*表示卷积操作，°表示Hadamard积，σ为Sigmoid激活函数，W₍*₎为卷积核权重，W_i为输入门权重，W_ci为细胞输入门权重，W_f为遗忘门权重，W_cf为细胞遗忘门权重，W_c为细胞权重， W_xo为输出权重，W_ho为隐藏状态输出门权重，W_co为细胞输出门权重，b₍*₎为偏置项，b_i为输入门偏置，b_f为遗忘门偏置，b_c为细胞偏置，b_o为输出门偏置，tanh(·)表示双曲正切函数。

步骤3，使用Se-ResNext-50对模板帧图像特征进行提取，与步骤2中得到的当前时刻状态特征H_t一起，作为相关滤波层的输入，通过相关滤波层进行匹配识别，输出匹配度最高的结果作为模型预估的跟踪目标位置。

所述步骤3具体为：

步骤3.1，再次使用在步骤2出现过的SE-ResNext-50特征提取网络，对模板帧进行特征提取，得到模板帧的特征向量。

步骤3.2，将模板帧特征信息与当前帧状态特征，同时输入到相关滤波层中，得到两个状态下两特征的匹配度，相关滤波的具体操作为：

h_ρ,s,b(x,z)＝sω(f_ρ(x))*f_ρ(z)+b

其中，ω指代CFNet里面所指的相关滤波层，s,b是为了使响应值更适用于Logistics回归的而引入的参数，f_ρ(x)表示当前帧搜索区域的特征，f_ρ(z)表示上一帧目标的特征。

步骤3.3，根据模型输出相应值的高低，作为模型在该位置的得分，相应值最大的位置作为当前帧中目标的预估位置。

步骤4，跟踪过程中通过步骤2与步骤3中的公式不断维护历史状态特征图与运动状态特征图，通过多尺度输入不断修正跟踪目标边界框大小，并根据模型的损失函数，采用反向传播方法，对整个网络的参数进行微调，重复步骤4，得到最后的网络模型；

所述步骤4具体为：

步骤4.1，将步骤2得到的H_t作为下一帧的历史状态信息，将步骤3中得到的当前帧模型预估的跟踪目标位置通过步骤2的方式计算获得运动状态特征图；

步骤4.2，放大和缩小边界框，再通过双线性插值将模版帧缩放至模型要求输入的大小后输入模型；

步骤4.3，将响应值最大的尺寸与位置作为下一帧目标模版帧的边界框尺寸与预估位置；

步骤4.4，通过损失函数计算目标位置与实际位置之间的误差，并通过反向传播方法不断调整训练参数；

步骤5，将测试视频数据集输入到步骤4得到的模型中，输出结果，

所述步骤5具体为：

步骤5.1，将预处理好的测试视频数据集输入到步骤4训练好的、参数确定的网络模型中，经过步骤2中各隐藏层网络的处理，提取视频帧中的当前状态特征信息；

步骤5.2，将得到的模板帧特征信息与当前帧状态特征信息，通过相关滤波层进行对比，确定当前帧各部分与模板帧的响应值，得到模型推断的跟踪目标位置。

本发明的有益效果：为了使模型有更强的鲁棒性，首先，要能够更好的提取视频帧中的图像特征，在CFNet模型的基础上，引入了SE-ResNext-50作为本模型的特征提取网络，其次，通过前后帧的信息，计算物体的位移、速度、加速度特征，作为跟踪目标的运动信息特征输入模型中。同时，模型还使用二维ConvLSTM循环神经网络，提取视频帧内的时序信息，两种信息的加入使得模型具有了较强的鲁棒性，在遇到遮挡，形变，目标快速运动等问题时较之前模型有较好的表现。

附图说明

图1为本发明中方法的模型的网络结构图。

图2为本发明中方法的训练流程图。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

步骤1选取训练视频数据集，并进行预处理，得到模型需要的训练数据集。

步骤2将步骤1预处理后的数据输入到构建好的模型中，初始化历史信息特征图，使用训练好的CFNet或SiameseFC对目标下一帧位置进行估计，以此计算初始化运动状态特征图；

所述步骤2具体为：

步骤2.1，以Se-ResNext-50作为特征提取网络，构建网络模型，使用ImageNet预训练权重初始化特征提取网络权重，初始化模型其他部分权重，使用0对历史信息特征图进行初始化，设置模型最大训练轮数。

步骤2.2，将当前帧图片输入到网络中，使用CFNet或SiameseFC对目标下一帧位置进行估计，再计算获取物体的运动信息以此初始化运动状态特征图；

(1)假设物体当前的位置为P_t，目标在历史帧当中的位置分别为，P_t-T，P_t-2T，则当前帧目标的速度v_t与加速度a_t可分别通过与与相应历史值做一阶和二阶近似得到， T表示当前帧与所观察的下一帧的时间差。

v_t＝(P_t-P_t-T)

a_t＝(v_t-v_t-T)

(2)利用运动信息对视频下一帧目标位置进行推断，得到位移、速度、加速度的特征图。具体的，我们将下一帧图像的每个像素所在位置p_i,j与预估位置P_t相减，得到与预估位置相关的位移特征图M_p，同理可得速度与加速度状态差的特征图M_v，M_a。

M_p(i,j)＝p_i,j-P_t

M_v(i,j)＝M_p(i,j)-v_t

M_a(i,j)＝M_v(i,j)-a_t

(3)将得到的跟踪物体位移、速度、加速度特征图在通道轴进行拼接，得到运动状态特征图M＝[M_p,M_v,M_a]，同时对过去个状态进行平滑处理：

步骤2.3将运动状态特征图M与当前帧进行拼接，作为图像特征提取网络Se-ResNext-50 的输入，得到当前帧特征图I_t。

步骤2.4将当前帧特征矩阵I_t，与在T时刻之前得到的历史状态H_t-1，同时输入到时序特征状态提取网络ConvLSTM中，得到当前的时刻的特征H_t，ConvLSTM在接收上一状态H_t-1与当前输入状态I_t后获取下一状态H_t的方式如下：

其中，i_t为t时刻输入门特征，f_t为t时刻遗忘门特征，C_t为t时刻细胞特征，o_t为t时刻输出门特征，*表示卷积操作，°表示Hadamard积，σ为Sigmoid激活函数，W_(*)为卷积核权重，W_i为输入门权重，W_ci为细胞输入门权重，W_f为遗忘门权重，W_cf为细胞遗忘门权重，W_c为细胞权重， W_xo为输出权重，W_ho为隐藏状态输出门权重，W_co为细胞输出门权重，b_(*)为偏置项，b_i为输入门偏置，b_f为遗忘门偏置，b_c为细胞偏置，b_o为输出门偏置，tanh(·)表示双曲正切函数。

步骤3、使用Se-ResNext-50对模板帧图像特征进行提取，与步骤2中得到的当前时刻特征H_t一起，作为相关滤波层的输入，通过相关滤波层进行匹配识别，输出匹配度最高的结果最为模型判断的跟踪目标位置。

所述步骤3具体为：

步骤3.1再次使用在步骤2出现过的SE-ResNext-50特征提取网络，对模板帧进行特征提取，得到模板帧的特征向量。

步骤3.2将模板帧特征信息与当前帧状态特征，同时输入到相关滤波层中，得到两个状态下两特征的匹配度，相关滤波的具体操作为：

h_ρ,s,b(x,z)＝sω(f_ρ(x))*f_ρ(z)+b

其中ω指代CFNet里面所指的相关滤波层，s,b是为了使响应值更适用于Logistics回归的而引入的参数，f_ρ(x)表示当前帧搜索区域的特征，f_ρ(z)表示上一帧目标的特征。

步骤3.3根据模型输出相应值的高低，作为模型在该位置的得分，相应值最大的位置作为当前帧中目标的预估位置。

步骤4、跟踪过程中通过步骤2与步骤3中的公式不断维护历史状态特征图与运动状态特征图，通过多尺度输入不断修正跟踪目标边界框大小，并根据模型的损失函数，采用反向传播方法，对整个网络的参数进行微调，重复此步骤，得到最后的网络模型；

所述步骤4具体为：

步骤4.1，将步骤2得到的H_t作为下一帧的历史状态信息，将步骤3中得到的模型当前帧的预估位置通过步骤2的方式计算获得运动状态特征图；

步骤4.2，以一定比例放大和缩小边界框，再通过双线性插值将模版帧缩放至模型要求输入大小输入模型；

步骤5、将测试视频数据集输入到步骤4得到的模型中，并将输出结果，

所述步骤5具体为：

步骤5.1将预处理好的测试视频数据集输入到步骤4训练好的，参数确定的网络模型中，经过步骤2中各隐藏层网络的处理，提取视频帧中的当前特征状态信息；

步骤5.2将得到的模板帧特征信息与当前帧状态特征信息，通过相关滤波层进行对比，确定当前帧各部分与模板帧的响应值，得到模型推断的跟踪目标位置；

本发明的有益效果：为了使模型有更强的鲁棒性，首先，要能够更好的提取视频帧中的图像特征，在CFNet模型的基础上，引入了SE-ResNext-50作为本模型的特征提取网络，

其次，通过前后帧的信息，计算物体的位移、速度、加速度特征，作为跟踪目标的运动信息特征输入模型中。同时，模型还使用二维ConvLSTM循环神经网络，提取视频帧内的时序信息，两种信息的加入使得模型具有了较强的鲁棒性，在遇到遮挡，形变，目标快速运动等问题时较之前模型有较好的表现。

实施例2：在OTB-50和OTB-100数据集上的实验

OTB-50和OTB-100数据集包括了目标任务常见的典型问题场景，如目标快速移动、目标遮挡等。其中实验在Linux系统下搭建的pytorch环境下进行，评价指标采用交并比(Intersection over Union，IoU)与距离精度(Distance Precision，DP)，并使用OPE(One-Pass Evaluation)与TRE(Temporal Robustness Evaluation)评估方式。

交并比指标定义为:

其中B_g为标准目标框，B_t为方法预测所得目标框，area为区域面积计算函数。

距离精度指标定义为：

其中m表示目标的预测中心与标准中心位置的欧式距离小于一定阈值的帧数(文本阈值设为 20像素)，n表示总帧数。

OPE评估方式指根据第一帧中的标准中心位置进行初始化，然后在测试序列中运行方法，最后计算指标得分。TRE评估方式指在不同帧上进行初始化，再在序列中运行方法得到结果，再对这些结果的指标得分取平均值。

本次实验中，将CFNet中综合性能最优的CFNet-conv3和SiameseFC中综合性能最优的 Siamese-3s进行对比，表1给出了方法在数据上对应指标得分。

表1各方法性能评估/％

Table 1 Comparison between algorithms performance

从表1中可以看出，通过一系列对比实验，本发明提出的跟踪方法各项指标相对于Siamese-3s和CFNet-conv3有较为显著的提升。在场景干扰或目标快速移动的情况下，CFNet 容易受到周围物体干扰导致目标脱框，而本方法在这种情况下仍可通过目标的运动信息来判断目标的预估方向与位置，使得不会受到场景影响导致过分偏离原运动方向。而ConvLSTM 通过拟合帧中场景的时序变化，使得在场景变化较大的情况下，方法可以依据历史帧中的信息去辨别目标。

表2各部分收益评价/％

Table 2 Gainsofeachpart

数据集	评价指标	运动信息	时序信息	综合
					OPE IoU	54.5	54.7	55.2
OTB-50	OPE DP	72.8	73.0	73.5
					TRE IoU	58.6	58.8	59.2
	TRE DP	77.2	77.8	78.4
					OPE IoU	59.2	59.6	60.2
OTB-100	OPE DP	78.5	78.7	79.2
					TRE IoU	62.0	61.9	62.6

同表1的实验，采用同样的评估方式，为本方法中提出的各个部分设计了对模型性能上的增益的对比实验，结果如表2所示。从中我们可以看出与基础模型相比，改进方法中无论是运动信息的使用还是ConvLSTM模块去获取历史帧中的时序信息都给模型带来了一定的提升。

Claims

1.一种使用运动信息与时序信息的改进CFNet视频目标追踪方法，其特征在于，包括如下步骤：

步骤1，选取训练视频数据集，并进行预处理，得到网络模型需要的训练数据集；

步骤3，使用Se-ResNext-50对模板帧图像特征进行提取，与步骤2中得到的当前时刻状态特征H_t一起，作为相关滤波层的输入，通过相关滤波层进行匹配识别，输出匹配度最高的结果作为模型预估的跟踪目标位置；

步骤5，将测试视频数据集输入到步骤4得到的模型中，输出结果。

2.根据权利要求1所述的一种使用运动信息与时序信息的改进CFNet视频目标追踪方法，其特征在于，所述步骤2具体为：

步骤2.1，以Se-ResNext-50作为特征提取网络，构建网络模型，使用ImageNet预训练权重初始化特征提取网络权重，初始化网络模型中特征提取网络以外部分的权重，使用0对历史信息特征图进行初始化，设置模型最大训练轮数；

(1)设物体当前的位置为P_t，目标在历史帧当中的位置分别为，P_t-T，P_t-2T，则当前帧目标的速度v_t与加速度a_t可分别通过与相应历史值做一阶和二阶近似得到，T表示当前帧与所观察的下一帧的时间差；

v_t＝(P_t-P_t-T)

a_t＝(v_t-v_t-T)

(2)利用运动信息对视频下一帧目标位置进行推断，得到位移、速度、加速度的特征图；具体过程为：将下一帧图像的每个像素所在位置p_i,j与预估的物体当前的位置P_t相减，得到与P_t预估位置相关的位移特征图M_p，同理获得速度与加速度状态差的特征图M_v，M_a；

M_p(i,j)＝p_i,j-P_t

M_v(i,j)＝M_p(i,j)-v_t

M_a(i,j)＝M_v(i,j)-a_t

其中，为在t时刻跟踪物体的速度，为在t时刻跟踪物体的加速度，v_j为位置为j的像素的速度，a_j为位置为j的像素的加速度；

步骤2.3，将运动状态特征图M与当前帧进行拼接，作为图像特征提取网络Se-ResNext-50的输入，得到当前帧特征图I_t；

其中，i_t为t时刻输入门特征，f_t为t时刻遗忘门特征，C_t为t时刻细胞特征，o_t为t时刻输出门特征，*表示卷积操作，°表示Hadamard积，σ为Sigmoid激活函数，W_(*)为卷积核权重，W_i为输入门权重，W_ci为细胞输入门权重，W_f为遗忘门权重，W_cf为细胞遗忘门权重，W_c为细胞权重，W_xo为输出权重，W_ho为隐藏状态输出门权重，W_co为细胞输出门权重，b_(*)为偏置项，b_i为输入门偏置，b_f为遗忘门偏置，b_c为细胞偏置，b_o为输出门偏置，tanh(·)表示双曲正切函数。

3.根据权利要求1或2所述的一种使用运动信息与时序信息的改进CFNet视频目标追踪方法，其特征在于，所述步骤3具体为：

步骤3.1，再次使用在步骤2出现过的SE-ResNext-50特征提取网络，对模板帧进行特征提取，得到模板帧的特征向量；

h_ρ,s,b(x,z)＝sω(f_ρ(x))*f_ρ(z)+b

其中，ω指代CFNet里面所指的相关滤波层，s,b是为了使响应值更适用于Logistics回归的而引入的参数，f_ρ(x)表示当前帧搜索区域的特征，f_ρ(z)表示上一帧目标的特征；

4.根据权利要求1或2所述的一种使用运动信息与时序信息的改进CFNet视频目标追踪方法，其特征在于，所述步骤4具体为：

步骤4.4，通过损失函数计算目标位置与实际位置之间的误差，并通过反向传播方法不断调整训练参数。

5.根据权利要求3所述的一种使用运动信息与时序信息的改进CFNet视频目标追踪方法，其特征在于，所述步骤4具体为：

6.根据权利要求1、2或5所述的一种使用运动信息与时序信息的改进CFNet视频目标追踪方法，其特征在于，所述步骤5具体为：

7.根据权利要求3所述的一种使用运动信息与时序信息的改进CFNet视频目标追踪方法，其特征在于，所述步骤5具体为：

8.根据权利要求4所述的一种使用运动信息与时序信息的改进CFNet视频目标追踪方法，其特征在于，所述步骤5具体为：

9.根据权利要求1、2、5、7或8所述的一种使用运动信息与时序信息的改进CFNet视频目标追踪方法，其特征在于，步骤1中所述的预处理的过程包括：对视频中的单帧图像进行亮度、对比度、色相的增广，对视频进行空域上的裁剪，在时域上对视频的时长使用双线性插值的方法进行缩放。

10.根据权利要求6所述的一种使用运动信息与时序信息的改进CFNet视频目标追踪方法，其特征在于，步骤1中所述的预处理的过程包括：对视频中的单帧图像进行亮度、对比度、色相的增广，对视频进行空域上的裁剪，在时域上对视频的时长使用双线性插值的方法进行缩放。