CN114092681A

CN114092681A - 一种基于抗干扰模块的目标追踪方法及系统

Info

Publication number: CN114092681A
Application number: CN202111209690.8A
Authority: CN
Inventors: 李天平; 严业金; 丁同贺; 霍文晓; 冯凯丽
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-10-18
Filing date: 2021-10-18
Publication date: 2022-02-25

Abstract

本公开公开了一种基于抗干扰模块的目标追踪方法和系统，包括：获取原始图像并进行预处理；将预处理后的图像输入到全卷积孪生网络中，得到多个预测目标框图像；将多个预测目标框图像输入到特征提取网络中提取预测目标框图像的特征向量，形成预测目标框图像特征向量集；计算预测目标框图像特征向量集与特征向量集之间的余弦距离，根据余弦距离得到最终的目标框图像；本公开通过另外设计一个次级特征提取网络，训练其对外观特征的提取能力，结合最小余弦距离对候选目标的可靠性进行判断，有效降低了跟踪算法对候选目标的误判率，提高算法跟踪的鲁棒性。

Description

一种基于抗干扰模块的目标追踪方法及系统

技术领域

本公开涉及计算机视觉技术领域，特别是涉及一种基于抗干扰模块的目标追踪方法及系统。

背景技术

本部分的陈述仅仅是提到了与本公开相关的背景技术，并不必然构成现有技术。

计算机视觉是当前世界研究的重点领域，而目标跟踪则是计算机视觉的热点方向，最近几年随着研究人员在目标跟踪领域的研究，目标跟踪的速度与精度都得到了快速的发展，尤其是基于SiamFC(SiamFC是经典的目标跟踪算法，后续跟踪算法改进的基石)改进的目标跟踪算法受到很大的欢迎，但是当前的目标跟踪算法在某些情况下，跟踪的效果依然无法满足人们现实生活的需要。

相似目标干扰问题一直是目标跟踪过程中的难点之一，SiamFC在跟踪过程中，复杂背景的情况下，跟踪目标会被背景中的相似目标干扰，相似目标会产生比跟踪目标更强烈的响应，如图1这就容易发生错认的情况。

因此，跟踪过程中相似目标会产生很大的干扰，而如何有效对跟踪目标与相似目标进行区分就变得尤为重要。

发明内容

为了解决现有技术的不足，本公开提供了一种基于抗干扰模块的目标追踪方法及系统，通过设计一个次级特征提取网络，训练其对外观特征的提取能力，结合最小余弦距离对候选目标的可靠性进行判断，能够对跟踪目标和相似目标进行有效区分。

本公开的第一方面提供一种基于抗干扰模块的目标追踪方法。

一种基于抗干扰模块的目标追踪方法，包括：

获取原始图像并进行预处理；

将预处理后的图像输入到全卷积孪生网络中，得到多个预测目标框图像；

将多个预测目标框图像输入到特征提取网络中提取预测目标框图像的特征向量，形成预测目标框图像特征向量集；

计算预测目标框图像特征向量集与特征向量集之间的余弦距离，根据余弦距离得到最终的目标框图像。

本公开的第二方面提供一种基于抗干扰模块的目标追踪系统。

一种基于抗干扰模块的目标追踪系统，包括：

图像处理模块，被配置为获取原始图像并进行预处理；

预测目标框图像获取模块，被配置为将预处理后的图像输入到全卷积孪生网络中，得到多个预测目标框图像；

预测目标框图像特征提取模块，被配置为将多个预测目标框图像输入到特征提取网络中提取预测目标框图像的特征向量，形成预测目标框图像特征向量集；

目标框图像获取模块，被配置为计算预测目标框图像特征向量集与特征向量集之间的余弦距离，根据余弦距离得到最终的目标框图像。

本公开的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的一种基于抗干扰模块的目标追踪方法中的步骤。

本公开的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的一种基于抗干扰模块的目标追踪方法中的步骤。

与现有技术相比，本公开的有益效果是：

本公开通过设计一个次级特征提取网络，训练其对外观特征的提取能力，结合最小余弦距离对候选目标的可靠性进行判断，能够对跟踪目标和相似目标进行有效区分。

本公开附加方面的优点将在下面的描述中部分给出，或通过本公开的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为干扰目标和追踪目标图像的响应图；

图2为本公开实施例中基于抗干扰模块的目标追踪方法整体框架图；

图3为本公开实施例中特征提取网络框架图；

图4为本公开实施例中基于抗干扰模块的目标追踪方法与其他算法在OTB整体数据集的Precision polts图；

图5为本公开实施例中基于抗干扰模块的目标追踪方法与其他算法在OTB整体数据集的Success polts图；

图6为本公开实施例中基于抗干扰模块的目标追踪方法与其他算法在OTB2015复杂背景下部分数据集的Precision polts图

图7为本公开实施例中基于抗干扰模块的目标追踪方法与其他算法在OTB2015复杂背景下部分数据集Success polts图；

图8为本公开实施例中基于抗干扰模块的目标追踪方法与其他算法跟踪效果对比图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本公开本实施例中，“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本公开的描述中，“多个”是指两个或多于两个。

另外，为了便于清楚描述本公开实施例的技术方案，在本公开实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。

实施例一

如图2所示，本实施例提供了一种基于抗干扰模块的目标追踪方法，本实施例的方法整体由两部分组成，第一部分是SiamFC的主体框架，如图2前半部分所示，主要作用还是进行特征提取，以及产生候选目标，与SiamFC中不同的地方在于，SiamFC中只产生一个目标框，而我们会产生3个候选框(对应图2中17*17*1的框中)。第二部分是本申请提出的抗干扰模块，如图2后半部分所示，主要作用为对第一部分产生的多个候选框进行处理输出最终目标位置。

该方法具体步骤，包括：

步骤S1：获取原始图像并进行预处理；

步骤S2：将预处理后的图像输入到全卷积孪生网络中，得到多个预测目标框图像；

步骤S3：将多个预测目标框图像输入到特征提取网络中提取预测目标框图像的特征向量，形成预测目标框图像特征向量集；

步骤S4：计算预测目标框图像特征向量集与特征向量集之间的余弦距离，根据余弦距离得到最终的目标框图像。

其中，SiamFC主体框架主要分为上下两个分支，上半部分为模板分支，下半部分为搜索分支，SiamFC-全卷积孪生网络。

SiamFC中对原始图片的处理为模板图像裁剪为127*127，搜索图像裁剪为255*255，为了方便之后抗干扰模块提取深度表观特征，本实施例将模板图像裁剪为128*128，搜索图像裁剪为256*256，为了保持主干网络特征尺寸的一致性，所以本实施例将主干网络第一层卷积核尺寸由11变为12，CNN(卷积神经网络)结构如下表1。

首先模板分支输入128*128*3的图像，依次经过卷积层conv1后变为59*59*96，经过池化层pool1后尺寸变为29*29*96，经过卷积层conv2变为25*25*96，经过池化层pool2后变为12*12*256，经过卷积层conv3变为10*10*384，经过卷积层conv4变为8*8*384，最后经过conv5尺寸变为6*6*256。

同样，搜索分支输入256*256*3的图像，依次经过卷积层conv1后变为123*123*96，经过池化层pool1后尺寸变为61*61*96，经过卷积层conv2变为57*57*96，经过池化层pool2后变为28*28*256，经过卷积层conv3变为26*26*384，经过卷积层conv4变为24*24*384，最后经过conv5尺寸变为22*22*256。

全卷积孪生网络的训练过程同普通卷积神经网络相同，只不过全卷积神经网络最后没有全连接层，普通神经网络训练过程通常使用全连接层输出值与真值进行运算计算损失函数，而本文全卷积神经网络使用的是正负样本对来训练网络，所谓正负样本对，对应的是搜索图像中的候选子窗口中，只要和目标的距离不超过一定半径，那就算正样本，否则就是负样本，逻辑损失函数定义如下公式：

L(y,v)＝log(1+exp(-))(1)；

y表示真值1或者-1即正样本或者负样本，v表示得分，对应第一部分最后的17*17*1特征图。

在本实施例中步骤S1中，的所述获取原始图像并进行预处理，过程为：

获取原始图像，原始图像包括原始模板图像和原始搜索图像；

其中，原始图像就是未经过处理的图像，包括所有视频序列帧中未经过处理的图像；原始模板图像指的是视频序列中第一帧图片，经过裁剪后会得到尺寸为128*128的模板图像，同理，原始搜索图像指的是除去第一帧图片后视频序列中其他帧的图片，也就是后续要跟踪的图像，经过裁剪处理得到尺寸为256*256的搜索图像。

将原始模板图像按照全卷积孪生网络的模板分支输入尺寸裁剪得到尺寸为128*128的模板图像；

将原始搜索图像按照全卷积孪生网络的搜索分支输入尺寸裁剪得到尺寸为256*256的搜索图像。

表1CNN(卷积神经网络)结构

在本实施例中步骤S2中，将预处理后的图像输入到全卷积孪生网络中，得到多个预测目标框图像，具体为：

S21：将预处理后的模板图像输入到全卷积孪生网络的模板分支，模板分支输入128*128*3的图像，依次经过卷积层conv1后变为59*59*96，经过池化层pool1后尺寸变为29*29*96，经过卷积层conv2变为25*25*96，经过池化层pool2后变为12*12*256，经过卷积层conv3变为10*10*384，经过卷积层conv4变为8*8*384，最后经过conv5尺寸变为6*6*256；得到模板图像特征图；

S22：将预处理后的搜索图像输入到全卷积孪生网络的搜索分支，搜索分支输入256*256*3的图像，依次经过卷积层conv1后变为123*123*96，经过池化层pool1后尺寸变为61*61*96，经过卷积层conv2变为57*57*96，经过池化层pool2后变为28*28*256，经过卷积层conv3变为26*26*384，经过卷积层conv4变为24*24*384，最后经过conv5尺寸变为22*22*256；得到搜索图像特征图；

S23：将模板图像特征图和搜索图像特征图进行卷积操作，即将6*6*256模板特征图作为卷积核与22*22*256的搜索特征图进行卷积，最终得到17*17*1的特征图，根据特征图不同位置的分值取出最大的三个值的位置，回归到原图像，即可得到预测目标框图像。

具体地，SiamFC特征处理的具体流程为，将128*128*3的模板图像输入模板分支最终得到6*6*128的特征图，同样，将256*256*3的搜索图像输入搜索分支最终得到22*22*128的特征图，将模板图像特征图作为卷积核，将两个特征图进行卷积操作,最终得到关于预测目标位置的17*17*1的特征图。

模板图像特征图是通过将模板图像输入到模板分支得到的，待跟踪图像得到的是搜索图像特征图。

在本实施例中步骤S23中，将模板模板图像特征图和搜索图像特征图进行卷积操作，得到预测目标框图像，具体为：

将模板图像特征图作为卷积核，将模板模板图像特征图和搜索图像特征图进行卷积操作，公式如下：

f(x,z)＝φ(z)*φ(x) (2)；

x,z分别代表搜索图像和模板图像；φ(z)，φ(x)代表对z，x进行卷积神经网络提取特征；即φ(z)表示6*6*256特征图，φ(x)表示22*22*256特征图，卷积操作后会得到17*17*1的目标位置特征图；

得到预测目标位置特征图；

将预测目标位置特征图进行归一化操作，是为了后面对数据方便处理等；

对归一化后的预测目标位置特征图进行排序，选择最大的三个值，可以选择更多，但是综合考虑性能与速度，选择3个最合适；

将这三个值对应的点回归到原始图像，得到三个预测目标框图像。

其中，预测目标框的选取我们是根据Siam FC产生的17*17*1的特征图选择的，首先我们将17*17*1的特征图归一化后进行排序，然后选择最大的3个值，并且将这三个值对应的点回归到原图，也就是预测目标框位置。

如图3所示，本实施例提出了一种深度表观特征提取网络，也是抗干扰模块的主题部分，主要由两个卷积层和六个残差块组成，特征提取网络是抗干扰模块的一部分，特征提取网络用作对前面产生的3个候选目标框进行外观特征提取，外观特征提取结果用作抗干扰模块的另一个部分：最小余弦距离判断。

在本实施例中步骤S3中，将多个预测目标框图像输入到特征提取网络中提取预测目标框图像的特征向量，形成预测目标框图像特征向量集，具体为：

将多个预测目标框图像输入到特征提取网络中，输出多个大小为128维的预测目标框图像的特征向量；

对多个预测目标框图像的特征向量进行归一化处理后，形成预测目标框图像特征向量集。

其中，特征向量集是通过特征提取网络相邻前5帧图片跟踪目标框以及初始框的表观特征得到的。

特征向量集就是单纯的将前面提取到的部分特征(前五帧跟踪目标的外观特征以及初始帧也就是模板帧的外观特征)保存了而已，方便以后拿出来用，就是一个特征集合。网络提取相邻前5帧图片跟踪目标框以及初始框的表观特征，并将其保存至特征向量集，特征向量集用于专门存放这6组表观特征向量。

通过计算当前帧3个候选目标框特征与特征向量集内6组特征向量之间的余弦距离，判断最佳跟踪目标。

在本实施例中步骤S4中，计算预测目标框图像特征向量集与特征向量集之间的余弦距离，根据余弦距离得到最终的目标框图像，具体为：

计算预测目标框图像特征向量集与特征向量集之间的余弦距离，得到预测目标框图像特征向量矩阵，计算公式如下：

R(i,j)＝r_i ^Tr_ji∈(1,3),j∈(1,6) (3)；

R(i，j)代表得分值，分值范围(-1，1)，i，j分别代表行列对应三个候选目标框和6个特征向量集，r代表特征提取网络提取到的特征值，T表示求余弦距离的操作，越接近1，代表两个目标越相似。

选取预测目标框图像特征向量矩阵中最大值所在的预测目标框图像为最终的目标框图像。

通过计算特征向量集与预测目标框特征集之间的余弦距离，可以得到3*6的矩阵，我们选择矩阵中最小值所在的目标框作为最终的目标框。

实验验证

1、实验准备

本实验是在Linux系统进行实验，实验代码使用python语言，pytorch框架编写。训练CNN部分使用ILSVRC15数据集进行训练。实验配置为Inter Core i7-10700 k CPU@3.80GHz×16，and a single RTX2080ti GPU。

在公共数据集OTB2015上面进行了跟踪实验以本实施例的算法的有效性以及普适性。

2、在OTB2015进行实验

OTB2015数据集是检验目标跟踪算法性能的基准数据集，数据集包含100个人工标注好的视频序列，数据集主要有两个评估指标，成功率和精确率，成功率的定义为：当跟踪过程中某一帧得到的Bounding box和ground truth之间的重叠率高于一定阈值时，视为跟踪成功的帧，成功的帧所占所有帧的百分比即为成功率。

精确率的定义为：追踪算法估计的目标bounding box的中心点与人工标注ground-truth的目标的中心点，这两者的距离小于给定阈值的视频帧的百分比。不同的阈值，得到的百分比不一样，一般阈值设定为20个像素点。

图4-5为本实施例的算法与其他几种流行算法以及基准算法SiamFC在OTB整体数据集的对比，其他算法分别是：SRDCF[34]，Staple[35]，CFNet[9]，fDSST[36]。从图6-7为在OTB2015复杂背景部分数据集的实验结果。

从图4-5可以看出本实施例的算法在整体数据集部分效果已经可以媲美当前流行的几种算法，并且相较于基准算法SiamFC在精度和成功率都有很大提升，尤其从图6-7可以看出本实施例的算法在针对复杂背景的情况下具有很好的跟踪效果，这也说明了本实施例的算法能够有效的对类内目标进行区分，降低误判率。图8为我们的算法与其他几种算法的跟踪效果图对比。

实施例二

本实施例提供了一种基于抗干扰模块的目标追踪系统，

图像处理模块，被配置为获取原始图像并进行预处理；

此处需要说明的是，上述图像处理模块、预测目标框图像获取模块、预测目标框图像特征提取模块和目标框图像获取模块对应于实施例一中的步骤S1至S4，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，完成实施例一所述的方法。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于抗干扰模块的目标追踪方法，其特征在于，包括：

获取原始图像并进行预处理；

2.如权利要求1所述的一种基于抗干扰模块的目标追踪方法，其特征在于，所述获取原始图像并进行预处理，过程为：

获取原始图像，所述原始图像包括原始模板图像和原始搜索图像；

将原始模板图像按照全卷积孪生网络的模板分支裁剪得到尺寸为128*128的模板图像；

将原始搜索图像按照全卷积孪生网络的搜索分支裁剪得到尺寸为256*256的搜索图像。

3.如权利要求1所述的一种基于抗干扰模块的目标追踪方法，其特征在于，所述将预处理后的图像输入到全卷积孪生网络中，得到多个预测目标框图像，具体为：

将预处理后的图像输入到全卷积孪生网络的模板分支，得到模板图像特征图；

将预处理后的图像输入到全卷积孪生网络的搜索分支，得到搜索图像特征图；

将模板图像特征图和搜索图像特征进行卷积操作，得到预测目标框图像。

4.如权利要求3所述的一种基于抗干扰模块的目标追踪方法，其特征在于，所述将模板模板图像特征图和搜索图像特征图进行卷积操作，得到预测目标框图像，具体为：

将模板图像特征图作为卷积核，将模板图像特征图和搜索图像特征图进行卷积操作，公式如下：

f(x,z)＝φ(z)*φ(x)

x,z分别代表搜索图像和模板图像；φ(z)，φ(x)代表对z，x进行卷积神经网络提取特征；

得到预测目标位置特征图；

将预测目标位置特征图进行归一化操作；

对归一化后的预测目标位置特征图进行排序，选择最大的三个值；

5.如权利要求1所述的一种基于抗干扰模块的目标追踪方法，其特征在于，所述将多个预测目标框图像输入到特征提取网络中提取预测目标框图像的特征向量，形成预测目标框图像特征向量集，具体为：

6.如权利要求5所述的一种基于抗干扰模块的目标追踪方法，其特征在于，所述特征向量集是通过特征提取网络相邻前5帧图片跟踪目标框以及初始框的表观特征得到的。

7.如权利要求1所述的一种基于抗干扰模块的目标追踪方法，其特征在于，所述计算预测目标框图像特征向量集与特征向量集之间的余弦距离，根据余弦距离得到最终的目标框图像，具体为：

R(i,j)＝1-r_i ^Tr_j i∈(1,3),j∈(1,6)；

选取预测目标框图像特征向量矩阵中最小值所在的预测目标框图像为最终的目标框图像。

8.一种基于抗干扰模块的目标追踪系统，其特征在于，包括：

图像处理模块，被配置为获取原始图像并进行预处理；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的一种基于抗干扰模块的目标追踪方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的一种基于抗干扰模块的目标追踪方法中的步骤。