CN110619655B

CN110619655B - 一种融合光流信息和Siamese框架的目标跟踪方法及装置

Info

Publication number: CN110619655B
Application number: CN201910783618.2A
Authority: CN
Inventors: 曹文明; 李宇鸿; 何志权
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2022-03-29
Anticipated expiration: 2039-08-23
Also published as: CN110619655A; WO2021035807A1

Abstract

本发明提供一种融合光流信息和Siamese框架的目标跟踪方法及装置所述方法包括：获取当前第N帧及当前帧的前面的三帧的光流信息，再获取当前帧，当前帧为第N帧，其中N>3，再对当前帧的前面的三帧进行处理后，得到变形后的特征图，将变形后的特征图及当前帧特征图，作为检测帧输入时序打分模型，得到各特征图即光流整合帧的特征的权重，并将所述各特征图的权重与所述特征图进行运算得到最终的检测帧。根据本发明的方案，基于整合了光流信息的特征图并结合Siamese框架进行目标跟踪，计算精度高、速度快，可以跟踪背景复杂以及剧烈运动的对象。

Description

一种融合光流信息和Siamese框架的目标跟踪方法及装置

技术领域

本发明涉及图像识别领域，尤其涉及一种融合光流信息和Siamese框架的目标跟踪方法及装置。

背景技术

随着计算机视觉的快速发展，单目标跟踪越来越受到大众的关注。跟踪算法从卡尔曼、粒子滤波器和特征点匹配的生成式模型算法到现在的基于相关滤波框架和Siamese(孪生)框架的差别式模型算法，跟踪算法的精度及运算速度在不断提高。

基于特征点匹配的生成式模型算法的优点是模型结构简单，无训练过程，但是计算精度不高，有遮挡时特征点会消失；基于Siamese框架的全卷积网络模型算法计算速度快，但只考虑了图像的外观特征，无法跟踪背景复杂以及剧烈运动的对象。

发明内容

为解决上述技术问题，本发明提出了一种融合光流信息和Siamese框架的目标跟踪方法及装置，用以解决现有技术中基于特征点匹配的生成式模型算法计算精度不高、基于Siamese框架的全卷积网络模型算法无法跟踪背景复杂以及剧烈运动的对象的技术问题。

根据本发明的第一方面，提供一种融合光流信息和Siamese框架的目标跟踪方法，包括：

S101：获取当前帧，当前帧为第N帧，其中N>3，再获取当前帧的前面的三帧，分别是第N-3帧、第N-2帧、第N-1帧，所述第N-3帧、第N-2帧、第N-1帧分别和当前第N帧使用TVNet光流网络来计算光流，得到Flow1、Flow2、Flow3；并对Flow1、Flow2及Flow3进行裁剪(Crop)操作，得到22×22的光流矢量图P1、P2、P3；将当前帧输入特征网络，得到22×22的当前帧特征图F_N；将当前帧特征图F_N分别与光流矢量图P1、P2、P3结合，再对结合后的结果进行变形(Warp)操作，得到变形后的特征图F₁、F₂、F₃；

S102：将变形后的特征图F₁、F₂、F₃与当前帧特征图F_N作为检测帧输入时序打分模型，得到所述候选检测帧的特征权重，并将所述候选检测帧的特征权重与融合了光流特征的候选检测帧按照公式(1)相乘得到最终的检测帧；

i表示当前帧的序号，I_i指当前帧第i帧，I_j指在当前帧I_i前面的某一帧如第j帧，j∈{i-T,...,i-2,i-1}，T＝3，即当前帧的前面的三帧；

是当前帧通过融合其他帧光流信息后得到的最终的检测帧，w_j->i表示由时序打分模型计算并输出的候选检测帧的特征权重；f_j->i是将第j帧中的运动信息通过光流网络映射到第i帧，然后再将得出的光流结果图与第j帧图像进行变形(Warp)操作；

将第j帧中的运动信息通过光流网络映射到第i帧定义为

f_j→i＝W(f_j,M_i→j)＝W(f_j,F(I_i,I_j))

其中，F(I_i,I_j)是通过所述光流网络对I_i和I_j进行光流计算，得出的结果实现了将第j帧中的运动信息映射到第i帧；f_j是第i帧的特征图，W(,)是对所述光流计算得出的结果与I_j帧融合，对融合后的信息，进行变形(Warp)操作，应用到每个通道特征映射定位的线性形变方程进行变形(Warp)操作；

其中，所述时序打分模型输入为未经打分的各个时段的变形后的特征图F₁、F₂、F₃与当前帧特征图F_N，输出为候选检测帧的权重数值；

所述时序打分模型具有池化层，其中的池化层可以执行全局平均池化操作和全局最大值池化操作，通过全局平均池化操作和全局最大值池化，对每个候选检测帧包含物体的信息量进行打分，得到操作后的中间矩阵，

所述全局平均池化操作为：

其中G_S-GA(...)表示全局平均池化过程。q_T表示T个候选检测帧，q_x和q_y表示特征图中的像素点，H表示输入到全局平均池化操作前特征图的高，W表示输入到全局平均池化操作前特征图的宽；

所述全局最大值池化操作为：

G_S-GM(q_T)＝Max(q_T(q_x,q_y))

G_S-GM(...)表示全局最大值池化过程；

所述这全局平均池化操作输出一个T×1维的向量，构成全局平均池化中间矩阵，所述全局最大值池化操作也输出一个T×1维的向量，构成全局最大值池化中间矩阵；

将所述全局平均池化中间矩阵和所述全局最大值池化中间矩阵输入共享网络层，对每个候选帧与当前帧的关联性进行打分；通过共享网络层分别得到全局平均池化和最大值池化的权值矩阵，所述共享网络层实现卷积操作，参数由经验值或训练得到；再对两个权值矩阵进行逐元素相加操作，得到权重特征向量；并将得到的权重特征向量作为激活函数Relu的输入，所述激活函数Relu为：

其中，x指输入的所述权重特征向量，α为系数，

所述时序打分模型是由卷积神经网络模型根据损失函数进行训练的。

进一步地，

所述时序打分模型是由卷积神经网络模型根据损失函数进行训练的，所述损失函数为：

l(y,v)＝log(1+exp(-yv))

其中v表示训练集中等待训练的图像的候选响应图每个点的真实值，y∈{+1,-1}表示标准跟踪框的标签；通过最小化上述损失函数来不断学习、训练，当所述损失函数趋于稳定时，所述时序打分模型训练完毕，得到所述时序打分模型的系数，利用训练好的时序打分模型对候选检测帧的权重数值进行计算，从而得到候选检测帧时序权重。

进一步地，为了更好的提取候选检测帧的图像特征，所述共享网络层中的卷积神经滤波器采用可变形的卷积计算，在传统的卷积操作的作用区域上，加入了一个可学习的参数Δpn。

根据本发明第二方面，提供一种融合光流信息和Siamese框架的目标跟踪装置，包括：

获取特征模块：用于获取当前帧，当前帧为第N帧，其中N>3，再获取当前帧的前面的三帧，分别是第N-3帧、第N-2帧、第N-1帧，所述第N-3帧、第N-2帧、第N-1帧分别和当前第N帧使用TVNet光流网络来计算光流，得到Flow1、Flow2、Flow3；并对Flow1、Flow2及Flow3进行裁剪(Crop)操作，得到22×22的光流矢量图P1、P2、P3；将当前帧输入特征网络，得到22×22的当前帧特征图F_N；将当前帧特征图F_N分别与光流矢量图P1、P2、P3结合，再对结合后的结果进行变形(Warp)操作，得到变形后的特征图F₁、F₂、F₃；

权重计算模块：用于将变形后的特征图F₁、F₂、F₃与当前帧特征图F_N作为检测帧输入时序打分模型，得到所述候选检测帧的特征权重，并将所述候选检测帧的特征权重与融合了光流特征的候选检测帧按照公式(1)相乘得到最终的检测帧；

将第j帧中的运动信息通过光流网络映射到第i帧定义为

f_j→i＝W(f_j,M_i→j)＝W(f_j,F(I_i,I_j))

所述全局平均池化操作为：

所述全局最大值池化操作为：

G_S-GM(q_T)＝Max(q_T(q_x,q_y))

G_S-GM(...)表示全局最大值池化过程；

其中，x指输入的所述权重特征向量，α为系数，

进一步地，所述时序打分模型是由卷积神经网络模型根据损失函数进行训练的，所述损失函数为：

l(y,v)＝log(1+exp(-yv))

根据本发明第三方面，提供一种融合光流信息和Siamese框架的目标跟踪系统，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行如前所述的融合光流信息和Siamese框架的目标跟踪方法。

根据本发明第四方面，提供一种计算机可读存储介质，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如前所述的融合光流信息和Siamese框架的目标跟踪方法。

根据本发明的上述方案，基于整合了光流信息的特征图并结合Siamese框架进行目标跟踪，计算精度高、速度快，可以跟踪背景复杂以及剧烈运动的对象。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明提供如下附图进行说明。在附图中：

图1为本发明一个实施方式的融合光流信息和Siamese框架的目标跟踪系统的结构图；

图2为本发明一个实施方式的时序打分模型原理图；

图3A为传统的3×3卷积计算示意图；

图3B-图3C为可变形的卷积计算示意图；

图4为本发明提出的融合光流信息和Siamese框架的目标跟踪方法流程图；

图5为本发明提出的融合光流信息和Siamese框架的目标跟踪装置组成框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先结合图1说明本发明的融合光流信息和Siamese框架的目标跟踪系统结构，图1示出了本发明一个实施方式的融合光流信息和Siamese框架的目标跟踪系统的结构图。

获取当前帧，当前帧为第N帧(N>3)，再获取当前帧的前面的三帧，分别是第N-3帧、第N-2帧、第N-1帧，第N-3帧、第N-2帧、第N-1帧分别和当前帧即第N帧使用TVNet光流网络来计算光流(所述TVNet光流网络可参见VALMADRE J,BERTINETTO L,HENRIQUES J,etal.End-to-end representation learning for correlation filter based tracking[C].Honolulu,Hawaii,USA.2017.Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.2017:2805-2813)，得到Flow1、Flow2、Flow3。并对Flow1、Flow2及Flow3进行裁剪(Crop)操作，得到22×22的光流矢量图P1、P2、P3。构建以AlexNet为基础的特征网络，所述特征网络是在AlexNet的基础上，去掉全连接层构建的。将当前帧输入特征网络，得到22×22的当前帧特征图F_N。将当前帧特征图F_N分别与光流矢量图P1、P2、P3结合，再对结合后的结果进行变形(Warp)操作，得到变形后的特征图F₁、F₂、F₃。最后将变形后的特征图F₁、F₂、F₃与当前帧特征图F_N作为候选检测帧输入时序打分模型，得到所述候选检测帧的特征权重，并将所述候选检测帧的特征权重与融合了光流特征的候选检测帧按照公式(1)相乘得到最终的检测帧。

其中，i表示当前帧的序号，I_i指当前帧第i帧，I_j指在当前帧I_i前面的某一帧如第j帧，j∈{i-T,...,i-2,i-1}，本实施例中T＝3，即当前帧的前面的三帧；

是当前帧通过融合其他帧光流信息后得到的最终的检测帧，w_j->i表示由时序打分模型计算并输出的候选检测帧的特征权重。f_j->i是将第j帧中的运动信息通过光流网络映射到第i帧，然后再将得出的光流结果图与第j帧图像进行变形(Warp)操作；

将第j帧中的运动信息通过光流网络映射到第i帧定义为

f_j→i＝W(f_j,M_i→j)＝W(f_j,F(I_i,I_j))

其中，F(I_i,I_j)是通过所述光流网络对I_i和I_j进行光流计算，得出的结果实现了将第j帧中的运动信息映射到第i帧；f_j第i帧的特征图，W(,)是对所述光流计算得出的结果与I_j帧融合，对融合后的信息，进行变形(Warp)操作，应用到每个通道特征映射定位的线性形变方程进行变形(Warp)操作。

以下结合图2说明本发明的时序打分模型，图2示出了本发明的时序打分模型原理图。如图2所示，

所述时序打分模型为可变形卷积网络模型，训练好的所述时序打分模型通过对每个候选检测帧包含物体的信息量以及与当前帧的关联性进行打分，能够实现有效的候选检测帧权重大，效果小或者无效的候选检测帧权重小。所述时序打分模型的输入为未经打分的各个时段的变形后的特征图或当前帧的特征图，输出为候选检测帧的权重数值。

所述时序打分模型具有池化层，其中的池化层可以执行全局平均池化操作和全局最大值池化操作。所述时序打分模型的输入信息为未经打分的各个时段的变形后的特征图或当前帧的特征图，也称为候选检测帧，通过全局平均池化操作和全局最大值池化，对每个候选检测帧包含物体的信息量进行打分，得到操作后的中间矩阵，

所述全局平均池化操作为：

其中G_S-GA(...)表示全局平均池化过程。q_T表示T个候选检测帧，q_x和q_y表示特征图中的像素点，H表示输入到全局平均池化操作前特征图的高，W表示输入到全局平均池化操作前特征图的宽。

所述全局最大值池化操作为：

G_S-GM(q_T)＝Max(q_T(q_x,q_y))

G_S-GM(...)表示全局最大值池化过程。

所述这全局平均池化操作输出一个T×1维的向量，构成全局平均池化中间矩阵，所述全局最大值池化操作也输出一个T×1维的向量，构成全局最大值池化中间矩阵。

将所述全局平均池化中间矩阵和所述全局最大值池化中间矩阵输入共享网络层，对每个候选帧与当前帧的关联性进行打分。通过共享网络层分别得到全局平均池化和最大值池化的权值矩阵，所述共享网络层实现卷积操作，参数由经验值或训练得到。再对两个权值矩阵进行逐元素相加操作，得到权重特征向量。并将得到的权重特征向量作为激活函数Relu的输入，所述激活函数Relu为：

其中，x指输入的所述权重特征向量，α为系数，α可以取值为0，从而得到候选检测帧时序权重。

本实施例中，为了更好的提取候选检测帧的图像特征，所述共享网络层中的卷积神经滤波器采用可变形的卷积计算，所述卷积计算的公式如下：

上述卷积计算公式是常规的卷积操作公式，W(p_n)指的是卷积核参数，X指的是待卷积的图像。

在传统的卷积操作的作用区域上，加入了一个可学习的参数Δpn，该参数可以由全连接层卷积学习得到。

所述时序打分模型是由卷积神经网络模型根据损失函数

l(y,v)＝log(1+exp(-yv))进行训练的，

其中v表示训练集中等待训练的图像的候选响应图每个点的真实值，y∈{+1,-1}表示标准跟踪框的标签。通过最小化上述损失函数来不断学习、训练，当所述损失函数趋于稳定时，所述时序打分模型训练完毕，得到所述时序打分模型的系数，利用训练好的时序打分模型对候选检测帧的权重数值进行计算。

以下结合图3说明可变形的卷积计算。

如图3A所示，图3A是传统的3×3卷积计算，正方形区域内的9个像素参与线性计算y＝∑_iw_ix_i，其中w_i为卷积滤波器的系数，x_i为图像的像素值。图3B-图3C为可变形卷积计算，可以看出，参与计算的9个点为当前图像中任意像素，这样的滤波器具有更好的多样性，所能提取的特征也更加丰富。

以下结合图4说明本发明的融合光流信息和Siamese框架的目标跟踪方法，图4示出了本发明的融合光流信息和Siamese框架的目标跟踪方法流程图。如图4所示，所述方法包括：

S102：将变形后的特征图F₁、F₂、F₃与当前帧特征图F_N作为候选检测帧输入时序打分模型，得到所述候选检测帧的特征权重，并将所述候选检测帧的特征权重与融合了光流特征的候选检测帧按照公式(1)相乘得到最终的检测帧；

其中，i表示当前帧的序号，I_i指当前帧第i帧，I_j指在当前帧I_i前面的某一帧如第j帧，j∈{i-T,...,i-2,i-1}，T＝3，即当前帧的前面的三帧；

将第j帧中的运动信息通过光流网络映射到第i帧定义为

f_j→i＝W(f_j,M_i→j)＝W(f_j,F(I_i,I_j))

其中，所述时序打分模型输入为未经打分的各个时段的变形后的特征图、当前帧的特征图，输出为候选检测帧的权重数值；

所述全局平均池化操作为：

所述全局最大值池化操作为：

G_S-GM(q_T)＝Max(q_T(q_x,q_y))

G_S-GM(...)表示全局最大值池化过程；

从而得到候选检测帧时序权重；

l(y,v)＝log(1+exp(-yv))

为了更好的提取候选检测帧的图像特征，所述共享网络层中的卷积神经滤波器采用可变形的卷积计算，所述卷积计算的公式如下：

在传统的卷积操作的作用区域上，加入了一个可学习的参数Δpn。

请参考图5，其为本发明提出的融合光流信息和Siamese框架的目标跟踪装置组成框图。以下结合图5说明本发明的融合光流信息和Siamese框架的目标跟踪装置，如图所示，该装置包括：

将第j帧中的运动信息通过光流网络映射到第i帧定义为

f_j→i＝W(f_j,M_i→j)＝W(f_j,F(I_i,I_j))

所述全局平均池化操作为：

其中G_S-GA(...)表示全局平均池化过程。q_T表示T个候选检测帧，q_x和q_y表示特征图中的像素点，H表示输入特征图的高，W表示输入特征图的宽；

所述全局最大值池化操作为：

G_S-GM(q_T)＝Max(q_T(q_x,q_y))

G_S-GM(...)表示全局最大值池化过程；

其中，x指输入的所述权重特征向量，α为系数，

l(y,v)＝log(1+exp(-yv))

本发明实施例进一步给出一种融合光流信息和Siamese框架的目标跟踪系统，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行如上所述的融合光流信息和Siamese框架的目标跟踪方法。

本发明实施例进一步给出一种计算机可读存储介质，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如上所述的融合光流信息和Siamese框架的目标跟踪方法。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，实体机服务器，或者网络云服务器等，需安装Windows或者Windows Server操作系统)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。