CN113240716A

CN113240716A - 一种多特征融合的孪生网络目标跟踪方法及系统

Info

Publication number: CN113240716A
Application number: CN202110603006.8A
Authority: CN
Inventors: 刘芳; 焦李成; 张松玲; 李玲玲; 刘旭; 陈璞华; 古晶; 郭雨薇
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-08-10
Anticipated expiration: 2041-05-31
Also published as: CN113240716B

Abstract

本发明公开了一种多特征融合的孪生网络目标跟踪方法及系统，将模板分支和搜索区域分支图像输入到SiamFC中得到对应的响应图；通过基于最大值滤波的多峰定位模块获取视频帧的响应图中多个峰对应的图像块；采用one‑shot学习方法中的匹配网络计算特征重匹配得分；通过素描重匹配模块来计算素描重匹配得分；通过融合策略对特征重匹配得分和素描重匹配得分进行融合；寻找匹配得分最大的图像，并将其映射到候选图像中确定目标的位置。本发明通过融合重匹配得分，利用了特征层面的语义信息和目标在视频帧中的结构和位置等信息，从而提高了目标跟踪的精度。

Description

一种多特征融合的孪生网络目标跟踪方法及系统

技术领域

本发明属于计算机视觉数字图像处理技术领域，具体涉及一种多特征融合的孪生网络目标跟踪方法及系统。

背景技术

近年来，目标跟踪技术已经被广泛应用于智能视频监控、机器人视觉导航和人机交互等众多领域。目标跟踪技术主要包括基于相关滤波的目标跟踪算法和基于深度学习的目标跟踪算法。基于相关滤波的目标跟踪算法虽然跟踪速度快，但是该类算法一般以视频本身作为训练数据，因而从本质上限制了模型的表达能力，导致跟踪精度有限。基于深度学习的目标跟踪算法一般采用多层卷积神经网络来增强模型的表达能力，因此提高了目标跟踪的精度，但是在在线跟踪的过程中需要采用随机梯度下降的方法来更新网络的权值，极大地降低了跟踪速度。在2016年，Bertinetto等人提出了基于深度孪生网络的目标跟踪方法SiamFC，该算法虽然采用多层卷积神经网络来增强模型的表达能力，但是在在线跟踪的过程中不需要更新网络的权值，因而在快速跟踪的过程中保持了相对较高的跟踪精度，引起了研究学者的广泛关注。

尽管SiamFC算法平衡了目标跟踪的速度和精度，但实际的跟踪场景往往是非常复杂的，当跟踪场景中出现与被跟踪目标相似的背景干扰时，SiamFC算法生成的响应图就会出现多个响应峰值。SiamFC算法选择响应图中最大值对应的位置作为目标的中心位置，然而当出现相似的背景干扰时响应图的最大值对应的目标可能并不是被跟踪的目标，从而导致跟踪失败。将上述问题称为响应图多峰问题。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种多特征融合的孪生网络目标跟踪方法及系统，改善了目标跟踪过程中相似语义干扰的问题，用于实现目标的精确跟踪。

本发明采用以下技术方案：

一种多特征融合的孪生网络目标跟踪方法，包括以下步骤：

S1、将模板分支和搜索区域分支图像输入到SiamFC中得到对应的响应图；

S2、通过基于最大值滤波的多峰定位模块获取步骤S1响应图中多个峰对应的图像块；

S3、以步骤S2得到的图像块作为支持集，采用one-shot学习方法中的匹配网络计算特征重匹配得分；

S4、以步骤S2得到的图像块作为支持集，通过素描重匹配模块计算素描重匹配得分；

S5、通过融合策略对步骤S3的特征重匹配得分和步骤S4的素描重匹配得分进行融合；

S6、寻找步骤S5融合后匹配得分最大的图像，并将图像映射到候选图像中确定目标的位置。

具体的，步骤S2具体为：

S201、将响应图r上采样到候选图像的尺寸得到大小为255×255的响应图R₀；然后采用核大小为11×11的最大值滤波器对响应图R₀进行最大值滤波得到响应图R₁；

S202、定义一个255×255像素大小且所有值均为0的图像作为极大值响应图R₂的初始化图像，逐个像素比较响应图R₀和步骤S201中得到的响应图R₁对应位置的响应值，如果对应位置的响应值相等，对应位置为局部极大值，将R₂对应位置的像素值更新为响应图R₁对应的响应值，如果响应图R₀和步骤S201中得到的响应图R₁对应位置的响应值不相等，保持R₂中对应位置的值不变；

S203、计算峰阈值μ；

S204、根据步骤S202得到的极大值响应图R₂和步骤S203得到的峰阈值μ定位出响应图的多个峰在候选图像中的位置；

S205、根据步骤S204多个峰在候选图像中的位置定位出在候选图像上对应的图像块，当多个峰在候选图像中的位置中只有一个位置时，选择响应图r最大值对应的位置作为跟踪目标的中心位置，并根据前一帧预测的目标框来确定目标框的大小；反之，以多个峰在候选图像上的位置作为图像块的中心位置，并且根据图像块的中心位置和前一帧的预测框计算出多个图像块对应的目标框，定位出响应图多个峰在候选图像上对应的图像块。

具体的，步骤S3具体为：

S301、在每一帧的跟踪中，将步骤S2中得到的图像块I＝{i₁,i₂,...,i_k}分别resize成84×84像素大小的图像块作为支持图像集，并将模板图像resize成84×84像素大小的图像块作为查询图像；

S302、将查询图像和支持图像集中的所有图像送入相同的特征提取网络Conv-4得到对应的特征向量；

S303、分别计算每个支持图像的特征向量与查询图像的特征向量的余弦距离，并将所计算的距离经过一层Softmax层进行归一化得到每个支持图像对应的特征重匹配得分

具体的，步骤S3中，匹配网络的训练方式为：

从GOT-10k的训练集中随机选择一个视频序列；再从对应序列中随机选择两帧图像；并从其中的一帧图像中以目标标注框的中心点为中心裁剪出目标标注框大小的图像块作为模板图像；从另一帧图像中采样两个中心点并以这两个中心点为中心裁剪出目标标注框大小的两个图像块作为待匹配的图像，两个图像块中的一个表示与查询图像为同一目标的正样本，另一个表示与查询图像为不同目标的负样本；

然后将得到的查询图像、正样本和负样本分别resize成84×84像素大小的图像块，再分别经过特征提取网络Conv-4得到对应的特征向量；

再在特征空间计算查询图像与正样本的余弦距离以及查询图像与负样本的余弦距离，并将计算结果输入到Softmax层进行归一化；

最后将查询图像与正样本和负样本归一化后的余弦距离分别与1和0做均方误差损失，实现最小化查询图像与正样本的距离、最大化查询图像与负样本的距离。

进一步的，匹配网络训练用损失函数loss如下：

其中，z表示模板图像，z₊表示正样本，z_-表示负样本，f表示特征提取网络，c(x,y)表示x与y的余弦距离。

具体的，步骤S4具体为：

S401、采用初始素描图提取算法分别对查询图像和支持图像集中的支持图像进行计算得到各自对应的初始素描图；

S402、将查询图像的初始素描图A和支持图像的初始素描图B_i中的每条素描线段进行扩张，扩张为以对应素描线段为中心的一个几何结构窗大小，几何结构窗以素描线段为基准上下左右各扩张2个像素点得到；

S403、对查询图像扩张后的素描图

和支持图像扩张后的素描图

进行逐元素同或运算得到图像C_i；然后计算图像C_i中值为1的像素点的数量，将所占比例作为查询图像的初始素描图和支持图像的初始素描图的相似性得分；

S404、根据步骤S403中得到的所有支持图像的相似性得分输入到一层Softmax层，将输出作为查询图像和所有支持图像的素描重匹配得分。

具体的，步骤S5具体为：

S501、计算素描重匹配得分的平均值；

S502、将素描重匹配得分转换为均值为0的素描重匹配得分，将素描重匹配得分减去均值得到均值为0的素描重匹配得分

S503、将步骤S502特征重匹配得分与均值为0的素描重匹配得分相加后得到融合后的匹配得分s^r。

进一步的，步骤S503中，查询图像与第i个支持图像融合后的匹配得分s^r具体为：

其中，i∈[1,k]，i表示第i个支持图像，

为第i个支持图像的特征重匹配得分。

具体的，步骤S6中，如果最大的匹配得分大于重匹配阈值t＝1-(k-1)×0.1，k为响应图中峰的个数，则选择匹配得分最大的支持图像对应的位置作为目标的位置，并根据前一帧预测的目标框来确定目标框的大小；反之，选择响应图最大值对应的位置作为跟踪目标的中心位置，并根据前一帧预测的目标框来确定目标框的大小。

本发明的另一技术方案是，一种多特征融合的孪生网络目标跟踪系统，包括：

输入模块，将模板分支和搜索区域分支图像输入到SiamFC中得到对应的响应图；

定位模块，通过基于最大值滤波的多峰定位模块获取输入模块响应图中多个峰对应的图像块；

特征模块，以定位模块得到的图像块作为支持集，采用one-shot学习方法中的匹配网络计算特征重匹配得分；

素描模块，以定位模块得到的图像块作为支持集，通过素描重匹配模块计算素描重匹配得分；

融合模块，通过融合策略对特征模块的特征重匹配得分和素描模块的素描重匹配得分进行融合；

跟踪模块，寻找融合模块融合后匹配得分最大的图像，并将图像映射到候选图像中确定目标的位置。

与现有技术相比，本发明至少具有以下有益效果：

本发明提供了一种多特征融合的孪生网络目标跟踪方法，解决目标跟踪中的相似语义干扰问题，将目标跟踪分为两个阶段，第一阶段是通过获取视频帧的响应图中多个峰对应的图像块；第二阶段是从第一阶段的所有图像块中判别出被跟踪的目标，首先，通过计算出特征重匹配得分，然后，通过计算出素描重匹配得分；最后，通过提出的融合策略对特征重匹配得分和素描重匹配得分进行融合来完成目标跟踪；本发明在SiamFC方法的基础上通过引入第二个阶段的重匹配过程，并且在第二个阶段通过融合素描重匹配和特征重匹配结果，使得第二阶段利用了特征层面的语义信息又利用了跟踪目标在视频帧中的结构和位置等信息。因此，相比于SiamFC方法直接根据响应图上最大值对应的位置作为目标中心位置来说，在相似语义干扰的情况下，本发明方法预测的目标中心位置会更加准确。

进一步的，本发明针对目标跟踪中相似语义干扰而引起的响应图多峰问题，提出了一种基于最大值滤波的多峰定位算法，用于寻找响应图多个峰所在的位置，为目标跟踪的第二个阶段推荐可能是目标的图像块。

进一步的，通过采用one-shot学习方法中的匹配网络来从目标跟踪第一个阶段推荐的图像块中判别出跟踪目标，实现了目标在特征空间的重匹配。

进一步的，构造用于训练one-shot学习方法中的匹配网络的训练数据对其进行训练，使得匹配网络能够有效的区分正样本和负样本，提高了特征空间重匹配的精度。

进一步的，采用可微的均方差损失函数对匹配网络进行训练，使得匹配网络可以通过梯度下降算法进行优化，使得匹配网络能够更好的进行训练。

进一步的，以目标跟踪第一个阶段推荐的图像块作为支持集，模板图像作为查询集，利用Primal Sketch算法得到支持集和查询集的初始素描图，通过对支持集中每一个图像的初始素描图与查询集的初始素描图进行相似性度量，实现了目标在素描结构空间的重匹配。由于初始素描图主要包含原始图像的结构和位置信息，使得素描重匹配的过程中有效地利用了跟踪目标在视频帧中的结构和位置等信息。

进一步的，通过融合素描结构空间的重匹配结果和特征空间重匹配的结果，使得目标跟踪的第二个阶段既利用了特征层面的语义信息又利用了跟踪目标在视频帧中的结构和位置等信息。提高了目标重匹配的精度。

进一步的，通过特征重匹配得分和零均值的素描重匹配得分相加来进行匹配得分的融合，使得在考虑了特征空间的语义信息的基础上又考虑了素描空间的结构和位置信息。

进一步的，以匹配得分最大的图像块作为最终目标跟踪的结果，该方案简单高效，有效的提高了目标跟踪的精度和效率。

综上所述，本发明针对目标跟踪中相似语义干扰而引起的响应图多峰问题，利用提出的基于最大值滤波的响应图多峰定位算法定位出多个可能是目标得图像块，通过融合多个图像块分别在特征空间和素描结构空间与模板重匹配结果来进行目标跟踪，使得本发明既利用了特征层面的语义信息又利用了跟踪目标在视频帧中的结构和位置等信息。有效地提高了目标跟踪的精度。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的实现流程图；

图2为本发明的架构示意图；

图3为SiamFC方法的架构示意图；

图4为本发明中特征重匹配模块的架构示意图；

图5为本发明中素描重匹配模块的架构示意图；

图6为本发明的跟踪结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明提供了一种多特征融合的孪生网络目标跟踪方法及系统，将模板分支和搜索区域分支图像输入到SiamFC中得到对应的响应图；通过基于最大值滤波的多峰定位模块获取视频帧的响应图中多个峰对应的图像块；采用one-shot学习方法中的匹配网络计算特征重匹配得分；通过素描重匹配模块来计算素描重匹配得分；通过融合策略对特征重匹配得分和素描重匹配得分进行融合；寻找匹配得分最大的图像，并将其映射到候选图像中确定目标的位置。本发明通过融合重匹配得分，利用了特征层面的语义信息和目标在视频帧中的结构和位置等信息，从而提高了目标跟踪的精度。

请参阅图1，本发明一种多特征融合的孪生网络目标跟踪方法，包括以下步骤：

S1、将模板图像z和候选图像x输入到SiamFC网络中得到对应的响应图，如图2和图3所示；

S2、通过基于最大值滤波的多峰定位模块定位出步骤S1响应图多个峰在候选图像上对应的位置L＝{l₁,l₂,...,l_k}，并根据响应图中的多个峰在候选图像上对应的位置从候选图像中裁剪出图像块I＝{i₁,i₂,...,i_k}；

S201、通过最大值滤波计算响应图r的局部极大值；

首先将响应图r上采样到候选图像的尺寸得到大小为255×255的响应图R₀；然后采用核大小为11×11的最大值滤波器对响应图R₀进行最大值滤波得到响应图R₁。最大值滤波过程如下式所示：

其中，K_xy表示响应图R₀上中心点在(x,y)处、大小为11×11的方形子图像窗口(领域)的一组坐标；

S202、定位响应图中所有局部极大值在候选图像中的位置；

首先定义一个255×255像素大小且所有值均为0的图像作为极大值响应图R₂的初始化图像，然后逐个像素比较响应图R₀和S201中得到的响应图R₁对应位置的响应值，如果对应位置的响应值相等，则说明该位置为局部极大值，此时将R₂对应位置的像素值更新为响应图R₁对应的响应值，反之，则说明该位置不是局部极大值，保持R₂中对应位置的值不变，如下式所示：

其中(x,y)表示响应图上的位置；

S203、计算峰阈值μ；

以响应图R₀中的最大值与所有值的均值之和的一半作为峰阈值，如下式所示：

其中，μ表示峰阈值，avg(R₀(x,y))表示响应图R₀中所有值的均值，max(R₀(x,y))表示响应图R₀中所有值的最大值；

S204、根据极大值响应图R₂和峰阈值μ定位出响应图的多个峰在候选图像中的位置；

将极大值响应图R₂中的所有极大值与峰阈值μ进行比较，若该极大值大于峰阈值μ，则该极大值所在位置为峰，否则该位置不为峰。通过将极大值响应图R₂中的所有极大值与峰阈值μ进行比较，可以得到响应图中的多个峰在候选图像上对应的位置L＝{l₁,l₂,...,l_k}；

S205、根据多个峰的位置L＝{l₁,l₂,...,l_k}定位出其在候选图像上对应的图像块I＝{i₁,i₂,...,i_k}，如果L中只有一个位置，选择响应图r最大值对应的位置作为跟踪目标的中心位置，并根据前一帧预测的目标框来确定目标框的大小；反之，以多个峰在候选图像上的位置作为图像块的中心位置，并且根据图像块的中心位置和前一帧的预测框计算出多个图像块对应的目标框，从而定位出响应图多个峰在候选图像上对应的图像块。

S3、以步骤S2中得到的图像块I＝{i₁,i₂,...,i_k}作为支持集，模板图像z作为查询集，采用one-shot学习方法中的匹配网络计算特征重匹配得分

所采用的匹配网络是重新训练的；

匹配网络的训练方式为：

首先，构造训练数据。

从GOT-10k的训练集中随机选择一个视频序列；再从该序列中随机选择两帧图像；并从其中的一帧图像中以目标标注框的中心点为中心裁剪出目标标注框大小的图像块作为模板图像(查询图像)；从另一帧图像中采样两个中心点并以这两个中心点为中心裁剪出目标标注框大小的两个图像块作为待匹配的图像(支持图像集)，这两个图像块中的一个表示与查询图像为同一目标的正样本，另一个表示与查询图像为不同目标的负样本。

然后，将上述得到的查询图像、正样本和负样本分别resize成84×84像素大小的图像块，再分别经过特征提取网络Conv-4得到对应的特征向量；

再然后，在特征空间计算查询图像与正样本的余弦距离以及查询图像与负样本的余弦距离，并将计算结果输入到Softmax层进行归一化；

最后，将查询图像与正样本和负样本归一化后的余弦距离分别与1和0做均方误差(MSE)损失，从而实现最小化查询图像与正样本的距离、最大化查询图像与负样本的距离。损失函数如下式所示：

S4、以步骤S2中得到的图像块I＝{i₁,i₂,...,i_k}作为支持集，模板图像z作为查询集，采用素描重匹配模块来计算素描重匹配得分

如图5所示；

S401、采用初始素描图提取算法(Primal Sketch)，分别对查询图像和支持图像集中的支持图像进行计算得到其各自对应的初始素描图；

S402、将查询图像的初始素描图A和支持图像的初始素描图B_i中的每条素描线段进行扩张，扩张为以该素描线段为中心的一个几何结构窗大小，其中几何结构窗是以素描线段为基准上下左右各扩张2个像素点得到的；

S403、计算查询图像扩张后的素描图和支持图像扩张后的素描图的相似性得分。首先，对查询图像扩张后的素描图

和支持图像扩张后的素描图

进行逐元素同或运算得到图像C_i。然后，计算图像C_i中值为1的像素点的数量，并计算其所占的比例。该比例即为查询图像的初始素描图和支持图像的初始素描图的相似性得分，如下式所示：

其中，

表示第i个支持图像的初始素描图和查询图像的初始素描图的相似性得分，

表示图像

中坐标为(x,y)的值，

表示图像

中坐标为(x,y)的值，|C_i|表示图像C_i中像素点的个数；

S404、上述步骤S403中得到的所有支持图像的相似性得分输入到一层Softmax层，输出即为查询图像和所有支持图像的素描重匹配得分

如下式所示：

其中，i＝{1,2,...k}，

表示第i个支持图像和查询图像的素描重匹配得分，k表示支持图像的个数。

S5、通过提出的融合策略对特征重匹配模块得分

和素描重匹配得分

进行融合得到融合后的匹配得分

如图4所示；

S501、计算素描重匹配得分的平均值；

其中，

表示素描重匹配得分的平均值，k表示支持图像的个数；

如下式所示；

S503、将特征重匹配得分与均值为0的素描重匹配得分相加后得到融合后的匹配得分s^r，如下式所示：

其中，i∈[1,k]，i表示第i个支持图像，

表示查询图像与第i个支持图像的融合后的匹配得分。

可以看出，融合后的所有匹配得分之和仍为1。

S6、寻找匹配得分

最大的支持图像，并将其映射到候选图像中确定目标的精确位置。

如果最大的匹配得分大于重匹配阈值t＝1-(k-1)×0.1，k为响应图中峰的个数，则选择匹配得分最大的支持图像对应的位置作为目标的位置，并根据前一帧预测的目标框来确定目标框的大小；反之，选择响应图最大值对应的位置作为跟踪目标的中心位置，并根据前一帧预测的目标框来确定目标框的大小。

本发明再一个实施例中，提供一种多特征融合的孪生网络目标跟踪系统，该系统能够用于实现上述多特征融合的孪生网络目标跟踪方法，具体的，该多特征融合的孪生网络目标跟踪系统包括输入模块、定位模块、特征模块、素描模块、融合模块以及跟踪模块。

其中，输入模块，将模板分支和搜索区域分支图像输入到SiamFC中得到对应的响应图；

本发明再一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于多特征融合的孪生网络目标跟踪方法的操作，包括：

将模板分支和搜索区域分支图像输入到SiamFC中得到对应的响应图；通过基于最大值滤波的多峰定位模块获取响应图中多个峰对应的图像块；以图像块作为支持集，采用one-shot学习方法中的匹配网络计算特征重匹配得分；以图像块作为支持集，通过素描重匹配模块计算素描重匹配得分；通过融合策略对特征重匹配得分和素描重匹配得分进行融合；寻找融合后匹配得分最大的图像，并将图像映射到候选图像中确定目标的位置。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关多特征融合的孪生网络目标跟踪方法的相应步骤；计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的效果可通过以下仿真结果进一步说明

1.仿真条件：

本发明所用的硬件平台为：CPU采用八核八线程的Intel Core i7-9700k，其主频为3.6GHz、内存为64GB；GPU采用一块显存为11G的Nvidia RTX 2080Ti。所用的软件平台为：操作系统采用Ubuntu 18.04LTS，深度学习计算框架采用PyTorch 1.4，编程语言采用Python 3.6。

2.仿真内容与结果：

本发明方法再上述仿真条件下进行实验，在OTB2013和OTB2015的数据集中做了如下实验。首先，针对素描重匹配模块和特征重匹配模块的有效性做了消融实验如表1所示。然后，与KCF，SAMF，Staple，SiamFC，SiamRPN，SiamRPN++，LSSiam，SiamFC++等方法进行了对比实验，如表2所示。

最后，通过本发明的和基准方法SiamFC的跟踪结果进行可视化如图6所示，每一行表示一个视频，第一列表示模板图像以及对应视频的名称，每个图像深色的矩形框表示本发明的跟踪结果，浅色的矩形框表示SiamFC方法的跟踪结果，每个图像左上角的数字表示该图像在视频中的帧数。精确度是一个度量预测目标中心位置和真实目标中心位置误差的指标，精确度越大表示预测目标中心位置和真实目标中心位置越接近。成功率图是一个度量预测目标框和真实目标框重叠误差的指标，成功率越大表示预测目标框和真实目标框重叠的部分越多。

表1

表2

3.仿真结果分析

表1是本发明在OTB2013和OTB2015数据集上的仿真结果，表通过表1的数据可以看出，通过在SiamFC方法中加入本发明的方法能够提高目标跟踪精度，为了进一步验证本发明的有效性，在SiamFC++方法中加入本发明的方法，实验结果表明在加入本发明方法后能够提高目标跟踪的精度。

表2是在SiamFC++方法中加入本发明方法后与其他方法的对比结果，可以看出其能够取得相对较高的跟踪精度。

从图6的可视化结果可以明显地看出，本发明在相似语义干扰的情况下仍然保持较好的跟踪性能。

综上所述，本发明一种多特征融合的孪生网络目标跟踪方法及系统，能够利用特征空间的语义信息和素描空间的结构信息，有效地改善目标跟踪中相似语义干扰的问题，从而进一步提高目标跟踪的精度。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种多特征融合的孪生网络目标跟踪方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤S2具体为：

S203、计算峰阈值μ；

3.根据权利要求1所述的方法，其特征在于，步骤S3具体为：

4.根据权利要求1所述的方法，其特征在于，步骤S3中，匹配网络的训练方式为：

5.根据权利要求4所述的方法，其特征在于，匹配网络训练用损失函数loss如下：

6.根据权利要求1所述的方法，其特征在于，步骤S4具体为：

S403、对查询图像扩张后的素描图

和支持图像扩张后的素描图

7.根据权利要求1所述的方法，其特征在于，步骤S5具体为：

S501、计算素描重匹配得分的平均值；

8.根据权利要求7所述的方法，其特征在于，步骤S503中，查询图像与第i个支持图像融合后的匹配得分s^r具体为：

其中，i∈[1,k]，i表示第i个支持图像，

为第i个支持图像的特征重匹配得分。

9.根据权利要求1所述的方法，其特征在于，步骤S6中，如果最大的匹配得分大于重匹配阈值t＝1-(k-1)×0.1，k为响应图中峰的个数，则选择匹配得分最大的支持图像对应的位置作为目标的位置，并根据前一帧预测的目标框来确定目标框的大小；反之，选择响应图最大值对应的位置作为跟踪目标的中心位置，并根据前一帧预测的目标框来确定目标框的大小。

10.一种多特征融合的孪生网络目标跟踪系统，其特征在于，包括：