CN115588030B

CN115588030B - 基于孪生网络的视觉目标跟踪方法及设备

Info

Publication number: CN115588030B
Application number: CN202211182814.2A
Authority: CN
Inventors: 孔祥斌; 张宇东; 武明虎; 胡胜; 刘聪
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2023-09-12
Anticipated expiration: 2042-09-27
Also published as: CN115588030A

Abstract

本发明提供了一种基于孪生网络的视觉目标跟踪方法及设备。所述方法包括：分别输入作为跟踪目标的模板图像及作为搜索范围的检测图像；采用残差网络分别提取所述模板图像的特征和所述检测图像的特征，将提取的特征输入到建立的模型预测器，得到目标样本的背景信息；将得到的目标样本的背景信息与当前帧的池化结果进行对比，最后生成目标框。本发明在特征提取优化方案设计引入ResNet网络，极大地提高有效训练的深度神经网络层数，相较传统孪生网络算法中CNN模型取得很大的精度提升，通过模型预测器充分采用背景信息，算法在迭代优化的过程中会模拟出更加靠的目标模板，为模型预测器提供强大的数据支持。

Description

基于孪生网络的视觉目标跟踪方法及设备

技术领域

本发明实施例涉及计算机视觉技术领域，尤其涉及一种基于孪生网络的视觉目标跟踪方法及设备。

背景技术

孪生网络主要是利用第一帧的目标学习，训练一个相似度匹配函数，后续帧通过模型与第一帧计算相似度来寻找目标的最大响应位置。孪生算法框架成为视觉目标跟踪的主流学习方向，算法中只用到目标区域，该方法简单、快速，适合于单元素的视觉跟踪。但是在复杂视频中存在严重的局限性。孪生网络追踪器只使用目标外观推断模型，完全忽略了背景外观信息，而背景外观信息是区分目标与场景中相似物体的关键；孪生网络算法通过对比损失函数来判断最后输出的是否为样本，但是在复杂视频中，目标会发生形变、运动模糊和遮挡。当出现这些情况时，搜索图像的大小覆盖不了目标，通过最后的对比损失函数的出的结果就是错误的，而且在跟踪进程中发生的错误是累加的，致使跟踪结果不可修正；孪生网络算法的模型更新方法采用简单的模板平均法，这种方法在离线训练中会学习大量标注好的数据集，以便学习目标特征，一旦当视频中出现数据集没有出现过的目标时，因为没有强大的模型更新方法而导致目标跟踪效果不佳。因此，开发一种基于孪生网络的视觉目标跟踪方法及设备，可以有效克服上述相关技术中的缺陷，就成为业界亟待解决的技术问题。

发明内容

针对现有技术存在的上述问题，本发明实施例提供了一种基于孪生网络的视觉目标跟踪方法及设备。

第一方面，本发明的实施例提供了一种基于孪生网络的视觉目标跟踪方法，包括：分别输入作为跟踪目标的模板图像及作为搜索范围的检测图像；采用残差网络分别提取所述模板图像的特征和所述检测图像的特征，将提取的特征输入到建立的模型预测器，得到目标样本的背景信息；将得到的目标样本的背景信息与当前帧的池化结果进行对比，最后生成目标框。

在上述方法实施例内容的基础上，本发明实施例中提供的基于孪生网络的视觉目标跟踪方法，所述分别输入作为跟踪目标的模板图像及作为搜索范围的检测图像，包括：步骤1、参数初始化，在初始零时刻，初始化目标的位置并将初始帧作为测试帧；步骤2、输入下一帧图像并定义下一帧图像为当前帧图像。

在上述方法实施例内容的基础上，本发明实施例中提供的基于孪生网络的视觉目标跟踪方法，所述采用残差网络分别提取所述模板图像的特征和所述检测图像的特征，将提取的特征输入到建立的模型预测器，得到目标样本的背景信息，包括：步骤3、根据测试帧与当前帧图像构建两个分支并将这两个分支异步加入到ResNet模块进行特征提取；步骤4、在残差网络提取过程中，将提取的特征运用卷积模块，进行池化；步骤5、对步骤4中特征映射输入到模型预测器，得到初始模型；步骤6、运用循环优化模块算法对步骤5的特征进行模型优化学习，得到最终的识别模型。

在上述方法实施例内容的基础上，本发明实施例中提供的基于孪生网络的视觉目标跟踪方法，所述将得到的目标样本的背景信息与当前帧的池化结果进行对比，最后生成目标框，包括：步骤7、运用步骤6产生的最终模型与当前帧的池化结果进行卷积运算；步骤8、对步骤7得出的结果进行判别损失学习，学习结果返回到步骤6，并且对测试帧中的目标框随机生成得分与判别学习后的结果进行置信分析，生成新的目标框；步骤9、返回步骤2判断是否为最后一帧图像，若不是继续执行，若是就结束。

在上述方法实施例内容的基础上，本发明实施例中提供的基于孪生网络的视觉目标跟踪方法，所述模型预测器的结构具体包括：初始化模块和模型优化模块；模型预测器为减少模型预测时所需的优化递推次数，引入网络模块，减少学习参数，训练模型预测器来准确的预测下一帧目标的方位信息；模型预测器的初始化模块由一个卷积层和一个精确感兴趣池组成，从目标区域根据残差网络提取感兴趣池中的特征，并将提取的特征合并成模型相同的大小，对所有样本在训练集中取平均值，得到初始模型；在模型预测器的模型优化模块中，分别处理来自模型初始化的初始模型特征、主干网络直接提取的特征以及模型优化出的反馈特征，得到最终的识别模型。

第二方面，本发明的实施例提供了一种基于孪生网络的视觉目标跟踪装置，包括：第一主模块，用于分别输入作为跟踪目标的模板图像及作为搜索范围的检测图像；第二主模块，用于采用残差网络分别提取所述模板图像的特征和所述检测图像的特征，将提取的特征输入到建立的模型预测器，得到目标样本的背景信息；第三主模块，用于将得到的目标样本的背景信息与当前帧的池化结果进行对比，最后生成目标框。

第三方面，本发明的实施例提供了一种电子设备，包括：

至少一个处理器；以及

与处理器通信连接的至少一个存储器，其中：

存储器存储有可被处理器执行的程序指令，处理器调用程序指令能够执行第一方面的各种实现方式中任一种实现方式所提供的基于孪生网络的视觉目标跟踪方法。

第四方面，本发明的实施例提供了一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行第一方面的各种实现方式中任一种实现方式所提供的基于孪生网络的视觉目标跟踪方法。

本发明实施例提供的基于孪生网络的视觉目标跟踪方法及设备，在特征提取优化方案设计引入ResNet网络，极大地提高有效训练的深度神经网络层数，相较传统孪生网络算法中CNN模型取得很大的精度提升，通过模型预测器充分采用背景信息，算法在迭代优化的过程中会模拟出更加靠的目标模板，为模型预测器提供强大的数据支持。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单的介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于孪生网络的视觉目标跟踪方法流程图；

图2为本发明实施例提供的基于孪生网络的视觉目标跟踪装置结构示意图；

图3为本发明实施例提供的电子设备的实体结构示意图；

图4为本发明实施例提供的基于孪生网络结构的优化模型结构示意图；

图5为本发明实施例提供的模型预测器结构示意图；

图6为本发明实施例提供的基于孪生网络的视觉目标跟踪方法的原理示意图；

图7为本发明实施例提供的与其他算法在VOT2018的测试图对比效果图；

图8为本发明实施例提供的与其他算法在VOT2018数据集上测试视频序列效果排名示意图；

图9为本发明实施例提供的与SiamFC算法的模型损失函数对比分析效果图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。另外，本发明提供的各个实施例或单个实施例中的技术特征可以相互任意结合，以形成可行的技术方案，这种结合不受步骤先后次序和/或结构组成模式的约束，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时，应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本发明实施例提供了一种基于孪生网络的视觉目标跟踪方法，参见图1，该方法包括：分别输入作为跟踪目标的模板图像及作为搜索范围的检测图像；采用残差网络分别提取所述模板图像的特征和所述检测图像的特征，将提取的特征输入到建立的模型预测器，得到目标样本的背景信息；将得到的目标样本的背景信息与当前帧的池化结果进行对比，最后生成目标框。

基于上述方法实施例的内容，作为一种可选的实施例，本发明实施例中提供的基于孪生网络的视觉目标跟踪方法，所述分别输入作为跟踪目标的模板图像及作为搜索范围的检测图像，包括：步骤1、参数初始化，在初始零时刻，初始化目标的位置并将初始帧作为测试帧；步骤2、输入下一帧图像并定义下一帧图像为当前帧图像。

基于上述方法实施例的内容，作为一种可选的实施例，本发明实施例中提供的基于孪生网络的视觉目标跟踪方法，所述采用残差网络分别提取所述模板图像的特征和所述检测图像的特征，将提取的特征输入到建立的模型预测器，得到目标样本的背景信息，包括：步骤3、根据测试帧与当前帧图像构建两个分支并将这两个分支异步加入到ResNet模块进行特征提取；步骤4、在残差网络提取过程中，将提取的特征运用卷积模块，进行池化；步骤5、对步骤4中特征映射输入到模型预测器，得到初始模型；步骤6、运用循环优化模块算法对步骤5的特征进行模型优化学习，得到最终的识别模型。

基于上述方法实施例的内容，作为一种可选的实施例，本发明实施例中提供的基于孪生网络的视觉目标跟踪方法，所述将得到的目标样本的背景信息与当前帧的池化结果进行对比，最后生成目标框，包括：步骤7、运用步骤6产生的最终模型与当前帧的池化结果进行卷积运算；步骤8、对步骤7得出的结果进行判别损失学习，学习结果返回到步骤6，并且对测试帧中的目标框随机生成得分与判别学习后的结果进行置信分析，生成新的目标框；步骤9、返回步骤2判断是否为最后一帧图像，若不是继续执行，若是就结束。

基于上述方法实施例的内容，作为一种可选的实施例，本发明实施例中提供的基于孪生网络的视觉目标跟踪方法，所述模型预测器的结构具体包括：初始化模块和模型优化模块；模型预测器为减少模型预测时所需的优化递推次数，引入网络模块，减少学习参数，训练模型预测器来准确的预测下一帧目标的方位信息；模型预测器的初始化模块由一个卷积层和一个精确感兴趣池组成，从目标区域根据残差网络提取感兴趣池中的特征，并将提取的特征合并成模型相同的大小，对所有样本在训练集中取平均值，得到初始模型；在模型预测器的模型优化模块中，分别处理来自模型初始化的初始模型特征、主干网络直接提取的特征以及模型优化出的反馈特征，得到最终的识别模型。

本发明实施例提供的基于孪生网络的视觉目标跟踪方法，在特征提取优化方案设计引入ResNet网络，极大地提高有效训练的深度神经网络层数，相较传统孪生网络算法中CNN模型取得很大的精度提升，通过模型预测器充分采用背景信息，算法在迭代优化的过程中会模拟出更加靠的目标模板，为模型预测器提供强大的数据支持。

在另一实施例中，如图4所示，基于孪生网络的视觉目标跟踪方法，其步骤包括：分别输入作为跟踪目标的模板图像，和作为搜索范围的检测图像；采用残差网络分别提取特征后与输入到建立的模型预测器提取目标样本和背景信息；将得到的目标信息与当前帧的池化结果进行对比，最后生成目标框。如图5所示，算法的详细步骤包括：步骤1：参数初始化，当t＝0时，初始化目标的位置以及将初始帧当作是测试帧z。步骤2：输入下一帧图像并定义下一帧图像是当前帧图像x。步骤3：根据测试帧与当前帧图像构建两个分支并将这两个分支异步加入到ResNet模块进行特征提取。步骤4：在残差网络提取过程中，将提取的特征运用卷积模块，进行池化。步骤5：对步骤4中特征映射输入到模型预测器，得到初始模型。步骤6：运用循环优化模块算法对步骤5的特征进行模型优化学习，得到最终的最终模型。步骤7：运用步骤6产生的最终模型与当前帧的池化结果进行卷积运算。步骤8：对步骤7得出的结果进行判别损失学习，学习结果返回到步骤6，并且对测试帧中的目标框随机生成得分与判别学习后的结果进行置信分析，生成新的目标框。步骤9返回步骤2判断是否为最后一帧图像，若不是继续执行，若是就结束。

本发明提出的模预测器是一个核心模块，它有效地提供对模型权值的初始估计，并且只使用目标外观，再对这些权重进行优化，提取目标样本和背景信息。

关于模型预测器的原理，具体的说明包括：

传统的孪生网络算法预测模型只会使网络过于关注优化负样本的效果，而忽视学到的正样本本身的特征鉴别能力。为解决这个问题，引用基于判别式模型中的支持矢量机(Support Vector Machine,SVM)，SVM中使用的合页损失，是要将目标样本和背景信息分离开来，而且使目标样本和背景信息有欧式距离，这样会使分类效果更加突出。公式(1)是对模型预测器系统架构中鉴别性学习损失函数的描述。

特征提取器网络f生成深度特征图x_j∈X的训练集组成模型预测器的输入。每个样本与相应的目标中心坐标c_j∈R²配对。有这些数据，算法的目标是预测目标模型f＝D(S_train)。定义为卷积层的滤波器权重定义为模型f，区分特征空间x中的目标外观和背景外观是该卷积层的特征。*为卷积，λ为正则化因子。计算每个空间位置的残差是根据函数(s,c)目标置信度s＝x*f的得分和有效数据的中心坐标得出c。最常见的选择是r(s,c)＝s-y_c，每个位置的期望目标分数定义为y_c，中心的高斯函数通常设置为以c。其中关键的地方是得到一个比较理想卷积层滤波权重f，用传统的梯度下降方法求f的速度比较慢而且迭代次数的增加会损失算法的跟踪效率，本发明采用最速梯度下降法，在无约束最优化领域中最简单的一种算法是最速梯度下降法，如式(2)所示。

其中x^k是初始点的选择，p^k为迭代方向，t_k为迭代次数。

关于模型预测器的结构如图6所示，具体说明包括：

模型预测器的内部模型结构由两部分组成，一个是初始化模块，另一个是模型优化模块。预测模型器为减少模型预测时所需的优化递推次数，本发明引入一个小的网络模块，减少学习参数，训练模型预测器来准确的预测下一帧目标的方位信息。

模型预测器的初始化模块由一个卷积层和一个精确感兴趣池(Region ofinterest pooling,ROI)组成，从目标区域根据残差网络提取感兴趣池中的特征，并将提取的特征合并成模型相同的大小，对所有样本在训练集中取平均值，得到初始模型，和孪生网络结构一样，此方法只使用目标的外观。接着，在模型预测器的模型优化模块中，分别处理来自模型初始化的初始模型特征、主干网络直接提取的特征以及模型优化出的反馈特征。初始模块的处理但是优化算法的初始器网络的任务仅仅是提供一个合理模型，最后由优化模块来提供一个最终的识别模型。

验证实验：

使用成功跟踪帧的平均重叠和故障率来评估跟踪器。这两种方法结合起来得到EAO分数，用来给追踪者排名。

结果如表1所示。在以前的方法中，SiamFC达到最好的精确度和EAO。，对比基于判别学习的方法，它的鲁棒性差得多。与前面提到的方法类似，SiamFC使用残差网络进行特征提取。本发明方法采用相同的主干网络，在EAO方面的相对增益为6.3％，明显优于SiamFC网络。此外，与SiamFC相比，优化后的算法有34％的低失败率，获得相似的准确性。这表明判别模型预测对于鲁棒跟踪是至关重要的。

表1基于孪生网络优化结果对比

本发明方法与其他算法在VOT2018的60个测试序列中测试平均准确率和鲁棒性。结果如图7、图8所示，图7展示了在VPT2018上的平均准确率，横坐标为位置误差阈值，纵坐标为精度。图8是本文算法在VOT2018行的鲁棒性，横坐标为重叠率阈值，纵坐标为鲁棒性。在图7中，本发明方法在20像素的阈值下依然有80.2％的准确度，比ECO、SiamFC、SSC和KCF相比较，本文算法分别提升0.86％，4.67％，8.15％和20.22％。图8中，本发明方法将重叠阈值设置为0.5，本发明方法的成功率达到62.9％，相比对于ECO、SiamFC、SSC和KCF这几个算法，本发明方法的成功率分别提高1.08％，4.56％、9.32％和10.87％。

根据模型损失函数分析，结果如图9所示。纵轴为模型损失得分，横轴为帧数。从图中明显看出加入模型预测器的算法得分明显要好于SiamFC算法。在第321帧目标丢失后SiamFC算法由于没分析背景信息直接选择相似目标跟踪，导致函数模型未回归，继续错误跟踪。而加入模型预测器的算法，在第321帧目标丢失后，没有盲目跟踪相似目标，经过模型预测器分析背景信息和初始模板特征，当目标再次出现时，函数模型有效回归，正确跟踪目标。

解决孪生网络算法缺乏背景信息分析而导致目标跟丢的问题。精确性、鲁棒性均高于基准算法以及其他对比算法，并且在GPU上进行跟踪速度测试。相对于SiamFC算法实现15％的相对增益，而且运行速度超过20帧/秒，并且跟踪效果表现出良好的准确性和鲁棒性。

优化方案设计引入ResNet网络，深度残差网络学习是一种非常有效的网络结构改进，极大地提高有效训练的深度神经网络层数，相较传统孪生网络算法中CNN模型取得很大的精度提升。

相比较传统孪生网络算法中对比损失函数，目标模型是通过对特征的学习，基于统计的方法，运用一个数学模型，拟合一条趋势线，用这个模型外推预测下一帧目标的运动状态，用一种简单有效的方式对目标进行描述。模型的判别式方法运用目标样本信息，还充分运用背景信息，此外，判别式模型只运用局部信息，这使得目标的为和计算比较简便。

本发明各个实施例的实现基础是通过具有处理器功能的设备进行程序化的处理实现的。因此在工程实际中，可以将本发明各个实施例的技术方案及其功能封装成各种模块。基于这种现实情况，在上述各实施例的基础上，本发明的实施例提供了一种基于孪生网络的视觉目标跟踪装置，该装置用于执行上述方法实施例中的基于孪生网络的视觉目标跟踪方法。参见图2，该装置包括：第一主模块，用于分别输入作为跟踪目标的模板图像及作为搜索范围的检测图像；第二主模块，用于采用残差网络分别提取所述模板图像的特征和所述检测图像的特征，将提取的特征输入到建立的模型预测器，得到目标样本的背景信息；第三主模块，用于将得到的目标样本的背景信息与当前帧的池化结果进行对比，最后生成目标框。

本发明实施例提供的基于孪生网络的视觉目标跟踪装置，采用图2中的若干模块，在特征提取优化方案设计引入ResNet网络，极大地提高有效训练的深度神经网络层数，相较传统孪生网络算法中CNN模型取得很大的精度提升，通过模型预测器充分采用背景信息，算法在迭代优化的过程中会模拟出更加靠的目标模板，为模型预测器提供强大的数据支持。

需要说明的是，本发明提供的装置实施例中的装置，除了可以用于实现上述方法实施例中的方法外，还可以用于实现本发明提供的其他方法实施例中的方法，区别仅仅在于设置相应的功能模块，其原理与本发明提供的上述装置实施例的原理基本相同，只要本领域技术人员在上述装置实施例的基础上，参考其他方法实施例中的具体技术方案，通过组合技术特征获得相应的技术手段，以及由这些技术手段构成的技术方案，在保证技术方案具备实用性的前提下，就可以对上述装置实施例中的装置进行改进，从而得到相应的装置类实施例，用于实现其他方法类实施例中的方法。例如：

基于上述装置实施例的内容，作为一种可选的实施例，本发明实施例中提供的基于孪生网络的视觉目标跟踪装置，还包括：第一子模块，用于实现所述分别输入作为跟踪目标的模板图像及作为搜索范围的检测图像，包括：步骤1、参数初始化，在初始零时刻，初始化目标的位置并将初始帧作为测试帧；步骤2、输入下一帧图像并定义下一帧图像为当前帧图像。

基于上述装置实施例的内容，作为一种可选的实施例，本发明实施例中提供的基于孪生网络的视觉目标跟踪装置，还包括：第二子模块，用于实现所述采用残差网络分别提取所述模板图像的特征和所述检测图像的特征，将提取的特征输入到建立的模型预测器，得到目标样本的背景信息，包括：步骤3、根据测试帧与当前帧图像构建两个分支并将这两个分支异步加入到ResNet模块进行特征提取；步骤4、在残差网络提取过程中，将提取的特征运用卷积模块，进行池化；步骤5、对步骤4中特征映射输入到模型预测器，得到初始模型；步骤6、运用循环优化模块算法对步骤5的特征进行模型优化学习，得到最终的识别模型。

基于上述装置实施例的内容，作为一种可选的实施例，本发明实施例中提供的基于孪生网络的视觉目标跟踪装置，还包括：第三子模块，用于实现所述将得到的目标样本的背景信息与当前帧的池化结果进行对比，最后生成目标框，包括：步骤7、运用步骤6产生的最终模型与当前帧的池化结果进行卷积运算；步骤8、对步骤7得出的结果进行判别损失学习，学习结果返回到步骤6，并且对测试帧中的目标框随机生成得分与判别学习后的结果进行置信分析，生成新的目标框；步骤9、返回步骤2判断是否为最后一帧图像，若不是继续执行，若是就结束。

基于上述装置实施例的内容，作为一种可选的实施例，本发明实施例中提供的基于孪生网络的视觉目标跟踪装置，还包括：第四子模块，用于实现所述模型预测器的结构具体包括：初始化模块和模型优化模块；模型预测器为减少模型预测时所需的优化递推次数，引入网络模块，减少学习参数，训练模型预测器来准确的预测下一帧目标的方位信息；模型预测器的初始化模块由一个卷积层和一个精确感兴趣池组成，从目标区域根据残差网络提取感兴趣池中的特征，并将提取的特征合并成模型相同的大小，对所有样本在训练集中取平均值，得到初始模型；在模型预测器的模型优化模块中，分别处理来自模型初始化的初始模型特征、主干网络直接提取的特征以及模型优化出的反馈特征，得到最终的识别模型。

本发明实施例的方法是依托电子设备实现的，因此对相关的电子设备有必要做一下介绍。基于此目的，本发明的实施例提供了一种电子设备，如图3所示，该电子设备包括：至少一个处理器(processor)、通信接口(Communications Interface)、至少一个存储器(memory)和通信总线，其中，至少一个处理器，通信接口，至少一个存储器通过通信总线完成相互间的通信。至少一个处理器可以调用至少一个存储器中的逻辑指令，以执行前述各个方法实施例提供的方法的全部或部分步骤。

此外，上述的至少一个存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个方法实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的一些部分所述的方法。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。基于这种认识，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

需要说明的是，术语"包括"、"包含"或者其任何其它变体意在涵盖非排它性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句"包括……"限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于孪生网络的视觉目标跟踪方法，其特征在于，包括：分别输入作为跟踪目标的模板图像及作为搜索范围的检测图像；采用残差网络分别提取所述模板图像的特征和所述检测图像的特征，将提取的特征输入到建立的模型预测器，得到目标样本的背景信息；将得到的目标样本的背景信息与当前帧的池化结果进行对比，最后生成目标框；

算法的详细步骤包括：步骤1：参数初始化，当t＝0时，初始化目标的位置以及将初始帧当作是测试帧z；步骤2：输入下一帧图像并定义下一帧图像是当前帧图像x；步骤3：根据测试帧与当前帧图像构建两个支并将这两个分支异步加入到ResNet模块进行特征提取；步骤4：在残差网络提取过程中，将提取的特征运用卷积模块，进行池化；步骤5：对步骤4中特征映射输入到模型预测器，得到初始模型；步骤6：运用循环优化模块算法对步骤5的特征进行模型优化学习，得到最终的最终模型；步骤7：运用步骤6产生的最终模型与当前帧的池化结果进行卷积运算；步骤8：对步骤7得出的结果进行判别损失学习，学习结果返回到步骤6，并且对测试帧中的目标框随机生成得分与判别学习后的结果进行置信分析，生成新的目标框；步骤9返回步骤2判断是否为最后一帧图像，若不是继续执行，若是就结束；

所述模型预测器的结构具体包括：初始化模块和模型优化模块；模型预测器引入网络模块，训练模型预测器来预测下一帧目标的方位信息；模型预测器的初始化模块由一个卷积层和一个精确感兴趣池组成，从目标区域根据残差网络提取感兴趣池中的特征，得到初始模型；在模型预测器的模型优化模块中，分别处理来自模型初始化的初始模型特征、主干网络直接提取的特征以及模型优化出的反馈特征，得到最终的识别模型；

模型预测器引用基于判别式模型中的支持矢量机，模型预测器系统架构中鉴别性学习损失函数的描述公式是：

；

采用最速梯度下降法计算卷积层滤波权重f，具体计算公式是：

。

2.一种基于孪生网络的视觉目标跟踪装置，其特征在于，包括：第一主模块，用于实现分别输入作为跟踪目标的模板图像及作为搜索范围的检测图像；包括执行步骤1：参数初始化，当t＝0时，初始化目标的位置以及将初始帧当作是测试帧z；步骤2：输入下一帧图像并定义下一帧图像是当前帧图像x；步骤3：根据测试帧与当前帧图像构建两个支并将这两个分支异步加入到ResNet模块进行特征提取；

第二主模块，用于实现采用残差网络分别提取所述模板图像的特征和所述检测图像的特征，将提取的特征输入到建立的模型预测器，得到目标样本的背景信息；包括执行步骤4：在残差网络提取过程中，将提取的特征运用卷积模块，进行池化；步骤5：对步骤4中特征映射输入到模型预测器，得到初始模型；步骤6：运用循环优化模块算法对步骤5的特征进行模型优化学习，得到最终的最终模型；

第三主模块，用于实现将得到的目标样本的背景信息与当前帧的池化结果进行对比，最后生成目标框；包括执行步骤7：运用步骤6产生的最终模型与当前帧的池化结果进行卷积运算；步骤8：对步骤7得出的结果进行判别损失学习，学习结果返回到步骤6，并且对测试帧中的目标框随机生成得分与判别学习后的结果进行置信分析，生成新的目标框；步骤9返回步骤2判断是否为最后一帧图像，若不是继续执行，若是就结束；

；

。

3.一种电子设备，其特征在于，包括：

至少一个处理器、至少一个存储器和通信接口；其中，所述处理器、存储器和通信接口相互间进行通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令，以执行权利要求1所述的方法。

4.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行权利要求1所述的方法。