CN110097009B

CN110097009B - 基于双相关滤波和隶属度加权决策的深度目标跟踪方法

Info

Publication number: CN110097009B
Application number: CN201910368524.9A
Authority: CN
Inventors: 田小林; 张杨; 孟令研; 王凤鸽; 张�杰; 焦李成
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-05-05
Filing date: 2019-05-05
Publication date: 2021-07-06
Anticipated expiration: 2039-05-05
Also published as: CN110097009A

Abstract

本发明提出了一种基于双相关滤波和隶属度加权决策的深度目标跟踪方法，用于解决现有技术中存在的目标定位准确率较低的技术问题，并提高跟踪速度，实现步骤为：(1)构建多个基于双相关的相关滤波器模型；(2)设定包含待跟踪目标的图像序列参数；(3)对每个相关滤波器的隶属度进行初始化；(4)获取n个基于双相关的相关滤波器模型W¹,W²,...W^k...,Wⁿ的值；(5)计算每个相关滤波器对第t+1帧图像中待跟踪目标的中心位置的估计值；(6)基于隶属度加权决策方法计算t+1帧图像中待跟踪目标的中心位置(x_t+1,y_t+1)；(7)获取深度目标跟踪结果；(8)计算每个相关滤波器的隶属度并执行步骤(4)。

Description

基于双相关滤波和隶属度加权决策的深度目标跟踪方法

技术领域

本发明属于计算机技术领域，涉及一种深度目标跟踪方法，具体涉及一种基于双相关滤波和隶属度加权决策的深度目标跟踪方法，可用于对视频监控、机器人导航和定位、无人驾驶机获取的视频图像序列中的运动目标进行跟踪。

背景技术

目标跟踪的主要任务是，从连续的视频图像序列中检测出运动目标，即在每一帧图像中确定出运动目标的位置。对目标跟踪结果的评价主要基于两点，一是对跟踪目标定位的准确性，二是目标跟踪的速度。对跟踪目标定位的准确性主要受描述目标的特征的影响，此外，由于计算机程序运行时间通常与其计算量成正比，目标跟踪方法的速度主要取决于其计算效率。

根据描述目标时用到的特征不同，目标跟踪可分为基于手动设计的特征的传统目标跟踪方法和基于深层卷积特征的深度目标跟踪方法。由于深层卷积特征比手动设计的特征能更好地对目标进行描述，因此深度目标跟踪方法相比于传统目标跟踪方法有更高的跟踪准确度。由于不同层的卷积特征从不同角度描述了目标的特性，深层卷积特征包含目标语义信息，浅层卷积特征包含更多空间细节信息，在不同的场景中不同层的卷积特征取得的跟踪效果不同，如何更好的将基于不同层卷积特征的跟踪结果进行融合成为提升对跟踪目标定位准确度的关键。

很多学者将深层卷积网络，如VGG网络中的卷积特征输入相关滤波器模型，提升了对跟踪目标定位的准确性。相关滤波器模型是目标跟踪领域常用的一种模型，设相关滤波器C的输入为x，x∈R^L×H×D，模板参数为w，w∈R^L×H×D，高斯形类标矩阵为y，y∈R^L×H，R表示实数域，，L表示x、w和y的长，H表示x、w和y的高，D表示x和w第三维通道的数量，计算x、w和y在频域的值的计算公式分别为：

X＝F(x)

W＝F(w)

Y＝F(y)

其中F(·)表示傅里叶变换，基于此可通过X,W,Y构建相关滤波器模型C，其中W可建模为以下优化问题为：

其中，

表示最小化算法，X·W为X和W的相关，最终得到W的计算公式为：

申请公开号为CN107016689A，名称为“一种尺度自适应的相关滤波对冲目标跟踪方法”的专利申请，公开了一种尺度自适应的相关滤波对冲目标跟踪方法。该方法实现的具体步骤是，(1)确定视频帧中的待跟踪目标的初始位置和初始尺度，以初始位置为中心，利用深度卷积神经网络分别提取不同层的卷积特征；(2)对每一层提取的卷积特征，利用相关滤波跟踪方法进行跟踪得到跟踪结果；(3)利用自适应对冲算法将所有的跟踪结果组合得到一个最终跟踪结果，作为待跟踪目标的最终位置，以定位视频帧中待跟踪目标；(4)获得待跟踪目标的最终位置后，利用尺度金字塔策略估计待跟踪目标的最终尺度；(5)得到的待跟踪目标的最终位置和最终尺度后，以最终位置为中心，根据最终尺度提取所述待跟踪目标图像块，来重新训练每个核相关滤波跟踪方法，以更新系数和模板。该发明将尺度金字塔模型与深度对冲跟踪方法相结合，提高了跟踪的准确度。但其存在的不足之处是，第一，该发明利用自适应对冲算法将所有的跟踪结果组合得到一个最终跟踪结果，未充分考虑到各个基于不同层卷积特征的相关滤波器对目标进行定位的能力强弱不同，导致目标定位的准确性仍然较低，第二，该发明采用的相关滤波器模型仅能实现输入与模板参数的相关，计算量较大，影响了目标跟踪速度的提升。

发明内容

本发明的目的是针对上述现有技术的不足，提出一种基于双相关滤波和隶属度加权决策的深度目标跟踪方法，用于解决现有技术中存在的目标定位准确度较低的技术问题，并提高跟踪速度。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)构建多个基于双相关的相关滤波器模型：

(1a)设置待构建的多个基于双相关的相关滤波器模型的数量为n，2≤n≤16，第k个相关滤波器C^k的输入为x^k，x^k∈R^L×H×D，模板参数为w^k，w^k∈R^L×H×D，高斯形类标矩阵为y^k，y^k∈R^L×H，R表示实数域，k＝1,2...n，L表示x^k、w^k和y^k的长，H表示x^k、w^k和y^k的高，D表示x^k和w^k第三维通道的数量，计算x^k、w^k和y^k在频域的值的计算公式分别为：

X^k＝F(x^k)

W^k＝F(w^k)

Y^k＝F(y^k)

其中，F(·)表示傅里叶变换；

(1b)通过X^k,W^k,Y^k构建基于双相关的相关滤波器模型C^k，得到n个基于双相关的相关滤波器模型C¹,C²,...C^k...,Cⁿ，其中W^k可建模为下面的优化问题：

其中，

表示最小化算法，λ为正则化系数，λ＝0.01，

表示傅里叶域内的平方计算，⊙表示矩阵之间对应元素相乘，∑(·)表示求和操作，X^k·W^k为X^k和W^k的相关，Y^k·(X^k·W^k)为Y^k和X^k·W^k的相关；

(2)设定包含待跟踪目标的图像序列参数：

设定包含待跟踪目标的图像序列中的图像帧数为t_max，第t帧图像中待跟踪目标中心的坐标位置为(x_t,y_t)，并初始化t＝1；

(3)对每个相关滤波器的隶属度进行初始化：

对第k个相关滤波器C^k的隶属度

进行初始化的计算公式为：

(4)获取n个基于双相关的相关滤波器模型中W¹,W²,...W^k...,Wⁿ的值：

(4a)将大小为L×H的矩形框的中心与第t帧图像中待跟踪目标中心的坐标位置(x_t,y_t)对正，对该第t帧图像中待跟踪目标的所在区域进行框定，得到第t帧图像中的待跟踪目标区域I_t；

(4b)将I_t输入至预训练后的VGG网络中，得到VGG网络输出的16层卷积特征，并选取其中的n层卷积特征j¹,j²,...j^k...,jⁿ；

(4c)对每层卷积特征j^k进行傅里叶变换，得到j¹,j²,...j^k...,jⁿ在频域的值J¹,J²,...J^k...,Jⁿ：

J^k＝F(j^k)；

(4d)计算n个基于双相关的相关滤波器模型C¹,C²,...C^k...,Cⁿ的模板参数W¹,W²,...W^k...,Wⁿ的值，W^k的计算公式为：

其中Y^k为y^k在频域的值，y^k中坐标为(u,v)的元素的值为

(5)计算每个相关滤波器对第t+1帧图像中待跟踪目标的中心位置的估计值：

(5a)将大小为M×N,M≥2L,N≥2H的矩形框的中心与第t+1帧图像中坐标位置为(x_t,y_t)的像素点对正，对第t+1帧图像中待搜索区域进行框定，得到第t+1帧图像中的待搜索区域O_t+1；

(5b)将O_t+1输入至预训练后的VGG网络中，得到VGG网络输出的16层卷积特征，并选取其中的n层卷积特征T¹,T²,...T^k...,Tⁿ；

(5c)计算n个相关滤波器C¹,C²,...C^k...,Cⁿ的时域响应S¹(x,y),...S^k(x,y)...,Sⁿ(x,y)，其中，第k个相关滤波器C^k的时域响应S^k(x,y)的计算公式为：

S^k(x,y)＝F^-1(τ^k·W^k)

其中，τ^k为T^k在频域的值，τ^k＝F(T^k)，F^-1(·)代表F(·)的反变换；

(5d)计算每个时域响应S^k(x,y)中元素的最大值的位置

并将

作为第k个相关滤波器C^k在t+1帧图像中对待跟踪目标的中心位置的估计值，得到n个相关滤波器C¹,C²,...C^k...,Cⁿ在t+1帧图像中对待跟踪目标的中心位置的估计值

其中，第k个相关滤波器C^k在t+1帧图像中对待跟踪目标的中心位置的估计值

的计算公式为：

其中，

为最大化函数；

(6)基于隶属度加权决策方法计算t+1帧图像中待跟踪目标的中心位置(x_t+1,y_t+1)：

(6a)计算每个相关滤波器的权值，得到n个相关滤波器C¹,C²,...C^k...,Cⁿ的权值w₁,...w_k...,w_n，其中第k个相关滤波器C^k的权值w_k的计算公式为：

其中，(·)^b代表(·)的b次方，b＞1；

(6b)计算t+1帧图像中待跟踪目标的中心位置(x_t+1,y_t+1)：

(7)获取深度目标跟踪结果：

判断t＝t_max是否成立，若是，输出包含待跟踪目标的图像序列中每帧图像中目标的中心位置，否则，t＝t+1，并执行步骤(8)；

(8)计算每个相关滤波器的隶属度：

计算每个相关滤波器的隶属度，得到n个相关滤波器C¹,C²,...C^k...,Cⁿ的隶属度

并执行步骤(4)，其中第k个相关滤波器C^k的隶属度

的计算公式为：

其中，d_k为第k个相关滤波器C^k在t-1帧图像中对待跟踪目标的中心位置的估计值

与(x_t-1,y_t-1)的欧氏距离为

||·||代表欧氏距离。

本发明与现有技术相比，具有以下优点：

(1)本发明利用基于隶属度的加权决策算法，根据隶属度计算公式，定位更准确的滤波器将得到更大的隶属度和权值，更好地将基于不同层卷积特征的跟踪结果进行融合，因此提升了对待跟踪目标定位的准确度。

(2)为了使得滤波器的计算公式更为简洁，计算效率更高，从而提升跟踪速度，本发明在滤波器构建中首先得到滤波器输入与滤波器模板的相关，然后得到第一次相关结果与高斯形类标矩阵的相关，由此得到的相关滤波器的计算公式更为简洁，计算效率更高，跟踪速度更快。

附图说明

图1为本发明的实现流程图；

图2中的图2(a)、图2(b)、图2(c)、图2(d)分别为本发明在DragonBaby视频图像序列中第11帧、第50帧、第94帧、第108帧图像的跟踪准确度结果；

图3中的图3(a)、图3(b)、图3(c)、图3(d)分别为现有技术在DragonBaby视频图像序列中第11帧、第50帧、第94帧、第108帧图像上的跟踪准确度结果；

图4为本发明和现有技术的精度-定位误差阈值仿真结果图。

具体实施方式

下面结合附图和具体实施例，对本发明作进一步的详细描述。

参照图1、一种基于双相关滤波和隶属度加权决策的深度目标跟踪方法，包括如下步骤：

步骤1)构建多个基于双相关的相关滤波器模型：

步骤1a)设置待构建的多个基于双相关的相关滤波器模型的数量为n，2≤n≤16，第k个相关滤波器C^k的输入为x^k，x^k∈R^L×H×D，模板参数为w^k，w^k∈R^L×H×D，高斯形类标矩阵为y^k，y^k∈R^L×H，R表示实数域，k＝1,2...n，L表示x^k、w^k和y^k的长，H表示x^k、w^k和y^k的高，D表示x^k和w^k第三维通道的数量，计算x^k、w^k和y^k在频域的值的计算公式分别为：

X^k＝F(x^k)

W^k＝F(w^k)

Y^k＝F(y^k)

其中，F(·)表示傅里叶变换；

在本发明实施例中，相关滤波器模型的数量为n＝6，L和H为视频序列中待跟踪目标区域实际的长和高；

步骤1b)通过X^k,W^k,Y^k构建基于双相关的相关滤波器模型C^k，得到n个基于双相关的相关滤波器模型C¹,C²,...C^k...,Cⁿ，其中W^k可建模为以下优化问题：

其中，

表示最小化算法，λ为正则化系数，λ＝0.01，

步骤2)设定包含待跟踪目标的图像序列参数：

步骤3)对每个相关滤波器的隶属度进行初始化：

对第k个相关滤波器C^k的隶属度

进行初始化的计算公式为：

在本发明实施例中，相关滤波器模型的数量为n＝6，因此每个相关滤波器的初始隶属度均为1/6；

步骤4)获取n个基于双相关的相关滤波器模型中W¹,W²,...W^k...,Wⁿ的值：

步骤4a)将大小为L×H的矩形框的中心与第t帧图像中待跟踪目标中心的坐标位置(x_t,y_t)对正，对该第t帧图像中待跟踪目标的所在区域进行框定，得到第t帧图像中的待跟踪目标区域I_t；

步骤4b)将I_t输入至预训练后的VGG网络中，得到VGG网络输出的16层卷积特征，并选取其中的n层卷积特征j¹,j²,...j^k...,jⁿ；

预训练后的VGG网络，其网络结构和参数设置分别为：

网络结构为：输入层-第1卷积层-第2卷积层-第1池化层-第3卷积层-第4卷积层-第2池化层-第5卷积层-第6卷积层-第7卷积层-第8卷积层-第3池化层-第9卷积层-第10卷积层-第11卷积层-第12卷积层-第4池化层-第13卷积层-第14卷积层-第15卷积层-第16卷积层-第5池化层-第1全连接层-第2全连接层-第3全连接层-输出层；

网络参数设置为：所有池化层中池化操作的步长均为2，所有卷积层中的卷积核的大小均为3×3，第1卷积层到第16卷积层中卷积核的个数依次为64、64、128、128、256、256、256、256、512、512、512、512、512、512、512、512，第1全连接层到第3全连接层中的节点个数依次为4096、4096、1000；

在本发明实施例中，选择第10卷积层、第11卷积层、第12卷积层、第14卷积层、第15卷积层和第16卷积层共6层卷积层的卷积特征；

步骤4c)对每层卷积特征j^k进行傅里叶变换，得到j¹,j²,...j^k...,jⁿ在频域的值J¹,J²,...J^k...,Jⁿ：

J^k＝F(j^k)；

步骤4d)计算n个基于双相关的相关滤波器模型C¹,C²,...C^k...,Cⁿ的模板参数W¹,W²,...W^k...,Wⁿ的值，W^k的计算公式为：

其中Y^k为y^k在频域的值，y^k中坐标为(u,v)的元素的值为

在本发明实施例中，为了使得滤波器的计算公式更为简洁，计算效率更高，从而提升跟踪速度，因此在本发明在滤波器构建中首先得到滤波器输入与滤波器模板的相关，然后得到第一次相关结果与高斯形类标矩阵的相关，由此得到用于求解相关滤波器的计算公式的优化问题，基于高等数学中的求导法即可求得该优化问题的闭合解，从而得到了更为简洁的滤波器的计算公式，为计算效率的提高提供了数学上的保证，从而保证了更快的跟踪速度；

步骤5)计算每个相关滤波器对第t+1帧图像中待跟踪目标的中心位置的估计值：

步骤5a)将大小为M×N,M≥2L,N≥2H的矩形框的中心与第t+1帧图像中坐标位置为(x_t,y_t)的像素点对正，对第t+1帧图像中待搜索区域进行框定，得到第t+1帧图像中的待搜索区域O_t+1；

在本发明实施例中，M＝2L,N＝2H；

步骤5b)将O_t+1输入至预训练后的VGG网络中，得到VGG网络输出的16层卷积特征，并选取其中的n层卷积特征T¹,T²,...T^k...,Tⁿ；

预训练后的VGG网络，其网络结构和参数设置分别为：

网络参数设置为：所有池化层中池化操作的步长均为2，所有卷积层中的卷积核的大小均为，第1卷积层到第16卷积层中卷积核的个数依次为64、64、128、128、256、256、256、256、512、512、512、512、512、512、512、512，第1全连接层到第3全连接层中的节点个数依次为4096、4096、1000；

步骤5c)计算n个相关滤波器C¹,C²,...C^k...,Cⁿ的时域响应S¹(x,y),...S^k(x,y)...,Sⁿ(x,y)，其中，第k个相关滤波器C^k的时域响应S^k(x,y)的计算公式为：

S^k(x,y)＝F^-1(τ^k·W^k)

步骤5d)计算每个时域响应S^k(x,y)中元素的最大值的位置

并将

的计算公式为：

其中，

为最大化函数；

步骤6)基于隶属度加权决策方法计算t+1帧图像中待跟踪目标的中心位置(x_t+1,y_t+1)：

步骤6a)计算每个相关滤波器的权值，得到n个相关滤波器C¹,C²,...C^k...,Cⁿ的权值w₁,...w_k...,w_n，其中第k个相关滤波器C^k的权值w_k的计算公式为：

其中，(·)^b代表(·)的b次方，b＞1；

在本发明实施例中，b＝2，按照上式计算w_k，则每个滤波器的权值与其隶属度的值成正比，权值越大则在步骤6b)中计算待跟踪目标的中心位置时起的作用越大；

步骤6b)计算t+1帧图像中待跟踪目标的中心位置(x_t+1,y_t+1)：

步骤7)获取深度目标跟踪结果：

步骤8)计算每个相关滤波器的隶属度：

并执行步骤(4)，其中第k个相关滤波器C^k的隶属度

的计算公式为：

与(x_t-1,y_t-1)的欧氏距离为

||·||代表欧氏距离，当d_k越小时，说明滤波器W^k的对目标的定位越准确；

在本发明实施例中，将每个相关滤波器的隶属度与该滤波器对目标中心位置的估计值的关系可建模为下面的优化问题：

其中，z^k＝(x^k,y^k)为第k个相关滤波器C^k对目标中心位置的估计值，z＝(x,y)代表目标中心位置的最终结果，μ^k为第k个相关滤波器的隶属度，且∑_kμ_k＝1；

利用拉格朗日乘子法解这个约束优化问题，可求得问题的闭合解：

根据该优化问题的闭合解得到本发明的隶属度计算公式，从而保证了对目标定位越准确的相关滤波器，其隶属度的值就越大，在加权决策时得到权值也就越大，从而进一步提升了本发明对目标精确定位的能力。

以下结合仿真试验，对本发明的技术效果作进一步说明：

1.仿真实验条件：

本发明仿真实验的硬件平台是：处理器为CPU intel Core i5-6500，主频为3.2GHz，内存为4GB，显卡为NVIDIA Quadro M 2000M；软件平台为：Windows7旗舰版，64位操作系统，MATLAB R2018a。

2、仿真内容与结果：

对本发明和现有技术在DargonBaby视频图像序列中的目标进行目标跟踪准确度和速度进行对比仿真，其中，跟踪精度的仿真结果如图2、图3、图4所示，跟踪速度的仿真结果如得到如表1所示。

参照图2，其中，图2(a)、图2(b)、图2(c)、图2(d)分别为本发明在视频图像序列第11帧、第50帧、第94帧、第108帧图像的跟踪准确度结果；

参照图3，其中，图3(a)、图3(b)、图3(c)、图3(d)分别为尺度自适应的相关滤波对冲目标跟踪方法在视频图像序列的第11帧、第50帧、第94帧、第108帧上的跟踪准确度结果；

从图3可以看出，现有技术对目标的定位不够准确，尤其是图3(b)中图像序列的第50帧中目标发生重大外观变化时，从图2(a)与图3(a)、图2(b)与图3(b)、图2(c)与图3(c)、图2(d)与图3(d)的对比可以看出，本发明对目标定位的准确度比现有技术更高。

参照图4，为本发明和现有技术的精度-定位误差阈值曲线图，其中横轴代表定位误差阈值，横轴代表精度，精度的计算方法是目标跟踪方法预测的目标的位置与真实位置的偏差小于某个阈值的帧数占总帧数的百分比。阈值为20个像素点时，现有技术的精度为72.2％，本发明的精度为82.9％，从图4可以看出来本发明在每个定位误差阈值上都要优于对比方法。

表1

	FPS
		现有技术	7
本发明	10

表1中，FPS表示跟踪算法的每秒帧率。可以看出，现有技术的帧率为7，本发明的帧率为10，由此可以看出本发明的跟踪速度快于现有技术。

Claims

1.一种基于双相关滤波和隶属度加权决策的深度目标跟踪方法，其特征在于，包括如下步骤：

(1)构建多个基于双相关的相关滤波器模型：

(1a)设置待构建的多个基于双相关的相关滤波器模型的数量为n，2≤n≤16，第k个相关滤波器C^k的输入为x^k，x^k∈R^L×H×D，模板参数为w^k，w^k∈R^L×H×D，高斯形类标矩阵为y^k，y^k∈R^L ^×H，R表示实数域，k＝1,2...n，L表示x^k、w^k和y^k的长，H表示x^k、w^k和y^k的高，D表示x^k和w^k第三维通道的数量，计算x^k、w^k和y^k在频域的值的计算公式分别为：

X^k＝F(x^k)

W^k＝F(w^k)

Y^k＝F(y^k)

其中，F(·)表示傅里叶变换；

其中，

表示最小化算法，λ为正则化系数，λ＝0.01，

(2)设定包含待跟踪目标的图像序列参数：

(3)对每个相关滤波器的隶属度进行初始化：

对第k个相关滤波器C^k的隶属度

进行初始化的计算公式为：

(4)获取n个实现双相关功能的相关滤波器模型中W¹,W²,...W^k...,Wⁿ的值：

J^k＝F(j^k)；

(4d)计算n个实现双相关功能的相关滤波器模型C¹,C²,...C^k...,Cⁿ的模板参数W¹,W²,...W^k...,Wⁿ的值，W^k的计算公式为：

其中Y^k为y^k在频域的值，y^k中坐标为(u,v)的元素的值为

S^k(x,y)＝F^-1(τ^k·W^k)

(5d)计算每个时域响应S^k(x,y)中元素的最大值的位置

并将

作为第k个相关滤波器C^k在t+1帧图像中对待跟踪目标的中心位置的估计值，得到n个相关滤波器W¹,W²,...W^k...,Wⁿ在t+1帧图像中对待跟踪目标的中心位置的估计值

的计算公式为：

其中，

为最大化函数；

其中，(·)^b代表(·)的b次方，b＞1；

(6b)计算t+1帧图像中待跟踪目标的中心位置(x_t+1,y_t+1)：

(7)获取深度目标跟踪结果：

(8)计算每个相关滤波器的隶属度：

并执行步骤(4)，其中第k个相关滤波器C^k的隶属度

的计算公式为：

与(x_t-1,y_t-1)的欧氏距离，

||·||代表欧氏距离。

2.根据权利要求1所述的基于双相关滤波和隶属度加权决策的深度目标跟踪方法，其特征在于：步骤(4)中所述的预训练后的VGG网络，其网络结构和参数设置分别为：

网络参数设置为：所有池化层中池化操作的步长均为2，所有卷积层中的卷积核的大小均为3×3，第1卷积层到第16卷积层中卷积核的个数依次为64、64、128、128、256、256、256、256、512、512、512、512、512、512、512、512，第1全连接层到第3全连接层中的节点个数依次为4096、4096、1000。