CN111951304B

CN111951304B - 基于互监督孪生网络的目标跟踪方法、装置与设备

Info

Publication number: CN111951304B
Application number: CN202010914191.8A
Authority: CN
Inventors: 岳舟; 方智文
Original assignee: Hunan University of Humanities Science and Technology
Current assignee: Hunan University of Humanities Science and Technology
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2024-02-02
Anticipated expiration: 2040-09-03
Also published as: CN111951304A

Abstract

本发明涉及计算机技术领域，尤其涉及一种基于互监督孪生网络的目标跟踪方法、装置与设备。其包括：获取孪生A网络中的第一孪生网络相似度响应图；获取孪生B网络中的旋转90°孪生网络相似度响应图，再进行反向旋转90°获取第二孪生网络相似度响应图；将获取的第一、第二孪生网络相似度响应图进行网络训练获得最优网络模型；以及将第一、第二孪生网络相似度响应图通过均值融合方法获取融合响应图；从而预测当前帧目标，该方法能更好的从同源图像的多视角融合更多的视觉信息，并能有效克服卷积神经网络的旋转不变性的问题，提升跟踪器在目标旋转的跟踪鲁棒性，同时能对抗因跟踪误差累计以及跟踪目标旋转导致的跟踪漂移以及跟踪失效问题。

Description

基于互监督孪生网络的目标跟踪方法、装置与设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于互监督孪生网络的目标跟踪方法、装置与设备。

背景技术

基于图像和视频等信息的单个移动目标的跟踪方法在智能机器人控制、计算机-人交互、无人机视觉导航、自动/辅助驾驶以及智慧城市安防监控中都有极其广泛的应用。

目前常用的目标跟踪方法主要包括两种，一种为基于邻近帧累积信息的目标跟踪方法，通过一个可以在线不断迭代更新的跟踪器在每一帧的搜索区域内定位到待跟踪的目标，在一定程度上能有效的补充待跟踪目标的变化信息，可有效的获取颜色变化、形状变化和姿态变化等动态信息，但所有跟踪器都难以保证每一帧的精准跟踪，这就意味着跟踪误差是不避免的，而且基于邻近帧累积信息的目标跟踪方法将会累积该预测误差，将导致跟踪器的性能逐渐下降。随着时间的推移，跟踪漂移将不可避免地发生；另一种是基于首帧标定区域的目标跟踪方法，依赖卷积神经网络特征的强大表达能力，通过深度学习的方法离线学习得到具有强大表达能力到相似性度量网络，其只依赖首帧信息可有效地解决因误差累积导致的跟踪失效问题，但该类跟踪器非常依赖跟踪器的相似性表达能力，性能较弱的深度学习网络易产生跟踪目标丢失的现象。

综上所述，虽然关于单目标跟踪算法的研究已开展多年，基于不同特征和不同模型的跟踪器也层出不穷，但由于真实环境中目标旋转、颜色变化、形状变化和姿态变化等复杂问题的综合存在，现有的目标跟踪器很难在现实中有效地使用。

发明内容

基于此，本发明针对上述的问题，提供了一种基于互监督孪生网络的目标跟踪方法，旨在解决现有目标跟踪方法无法对真实环境中目标旋转、颜色变化、形状变化和姿态变化等复杂问题进行合理处理，导致现有目标跟踪方法很难在现实中有效使用的技术问题。

本发明实施例提供的一种基于互监督孪生网络的目标跟踪方法，具体包括：

获取孪生A网络中第一帧标定区域和当前帧搜索区域的卷积神经网络特征，并进行相似度计算获得第一孪生网络相似度响应图；

获取孪生B网络中旋转90°的第一帧标定区域和当前帧搜索区域的卷积神经网络特征图，并进行相似度计算获得旋转90°孪生网络相似度响应图；将所述旋转90°孪生网络相似度响应图反向旋转90°，获取第二孪生网络相似度响应图；

将获取的所述第一孪生网络相似度响应图与第二孪生网络相似度响应图在预先设定的损失函数的监督下进行网络训练获得最优网络模型，用于获取卷积神经网络特征图；以及

将所述第一孪生网络相似度响应图与第二孪生网络相似度响应图通过均值融合方法获取融合响应图；并根据融合响应图的响应值与尺度信息预测当前帧目标所在位置与尺度。

更进一步地，所述获取孪生A网络中第一帧标定区域和当前帧搜索区域的卷积神经网络特征，并进行相似度计算获得第一孪生网络相似度响应图步骤具体包括：

将孪生A网络中所述第一帧标定区域通过深度卷积神经网络获取第一标定区域卷积神经网络特征；

根据跟踪目标尺度确定所述当前帧搜索区域的尺度，并以所述当前帧的前一帧目标预测坐标为中心确定所述当前帧搜索区域，通过深度卷积神经网络获取第一搜索区域卷积神经网络特征；

将所述第一标定区域卷积神经网络特征和第一搜索区域卷积神经网络特征进行相似度计算获取第一孪生网络相似度响应图。

更进一步地，所述获取孪生B网络中旋转90°的第一帧标定区域和当前帧搜索区域的卷积神经网络特征图，并进行相似度计算获得旋转90°孪生网络相似度响应图步骤包括：

将孪生B网络中所述第一帧标定区域旋转90°，通过深度卷积神经网络获取第二标定区域卷积神经网络特征；

根据跟踪目标尺度确定所述当前帧搜索区域的尺度，并以所述当前帧的前一帧目标预测坐标为中心确定所述当前帧搜索区域旋转90°，通过深度卷积神经网络获取第二标定区域卷积神经网络特征；

将所述第二标定区域卷积神经网络特征和第二标定区域卷积神经网络特征进行相似度计算获取旋转90°孪生网络相似度响应图。

更进一步地，所述预先设定的损失函数为logistic损失函数和基于互监督学习理论一致性损失函数的融合：l＝l_l+l_c，所述一致性损失函数为l_c＝||M_A-M_B||₂，所述logistic损失函数为所述G为训练数据提供的金标准，(i,j)为二维坐标，||||₂为2范数距离；|M_A|和|M_B|分别为所述第一孪生网络相似度响应图M_A和第二孪生网络相似度响应图M_B的像素数量。

更进一步地，所述将所述第一孪生网络相似度响应图与第二孪生网络相似度响应图通过均值融合方式获取融合响应图中融合函数为h(I_t,I₁)＝(M_A+M_B)/2，所述M_A和M_B为第一孪生网络相似度响应图和第二孪生网络相似度响应图。

本发明实施例的另一目的在于提供一种基于互监督孪生网络的目标跟踪装置，包括：

第一孪生网络相似度响应图获取模块，用于获取孪生A网络中第一帧标定区域和当前帧搜索区域的卷积神经网络特征，并进行相似度计算获得当前帧搜索区域的第一孪生网络相似度响应图；

第二孪生网络相似度响应图获取模块，用于获取孪生B网络中旋转90°的第一帧标定区域和当前帧搜索区域的卷积神经网络特征图，并进行相似度计算获得当前帧搜索区域旋转90°孪生网络相似度响应图；将所述旋转90°孪生网络相似度相应图反向旋转90°，获取第二孪生网络相似度响应图；

网络模型训练模块，用于将获取的所述第一孪生网络相似度响应图与第二孪生网络相似度响应图在预先设定的损失函数的监督下进行网络训练获得最优网络模型，用于获取卷积神经网络特征图；以及

目标确定模块，用于将所述第一孪生网络相似度响应图与第二孪生网络相似度响应图通过均值融合方式获取融合响应图；并根据融合响应图的响应值与尺度信息预测当前帧目标所在位置与尺度。

本发明实施例的另一目的在于提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时上述方法的步骤。

有益效果：

本发明的目标跟踪方法是建立在互监督的孪生网络基础上，对于孪生A网络获取第一帧标定区域和当前帧搜索区域的卷积神经网络特征，并获得第一孪生网络相似度响应图，而对孪生B网络将获取的区域进行90°旋转后获得其卷积神经网络特征并获得相似度响应图，再进行反向旋转90°获得第二孪生网络相似度响应图，采用第一、二孪生网络相似度响应图进行模型训练获得最优网络模型，另采用上述两个相似度响应图通过均值融合方法获取融合响应图，最后根据该融合响应图的响应值与尺度信息预测目标的位置与尺度；相较于目前现有的目标跟踪算法，本发明能够更好的从同源图像的多视角融合更多的视觉信息，并且能有效克服卷积神经网络的旋转不变性的问题，大大提升跟踪器在目标旋转情况下的跟踪鲁棒性。在保证高效率的前提下，本发明相比于现有的其他跟踪方法，可有效地对抗因跟踪误差累计以及跟踪目标旋转导致的跟踪漂移以及跟踪失效问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

图1为本发明实施例提供的一种基于互监督孪生网络的目标跟踪方法流程图；

图2为本发明实施例提供的获取第一孪生网络相似度响应图的流程图；

图3为本发明实施例提供的获得旋转90°孪生网络相似度响应图的流程图；

图4为本发明实施例提供的一种基于互监督孪生网络的目标跟踪装置示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，在一个实施例中，提出了一种基于互监督孪生网络的目标跟踪方法，具体包括以下步骤：

步骤101，获取孪生A网络中第一帧标定区域和当前帧搜索区域的卷积神经网络特征，并进行相似度计算获得第一孪生网络相似度响应图。

在本发明实施例中，根据首帧标定区域的卷积神经网络特征，计算得到当前帧划定的搜索区域内孪生网络A网络的相似度响应图(Bertinetto L,Valmadre J,Henriques JF,et al.Fully-convolutional siamese networks for object tracking[C],Europeanconference on computer vision.Springer,Cham,2016:850-865.)，将第一帧标定区域I₁和当前帧搜索区域I_t分别输入一个由5个卷积层和2个池化层组成深度学习网络，通过11×11×96卷积-3×3池化-5×5×256卷积-3×3池化-3×3×192卷积-3×3×192卷积-3×3×128卷积后得到卷积神经网络特征θ_A(I_t)和θ_A(I₁)，并通过互相关操作得到相似度响应图M_A＝f_A(I_t,I₁)＝g_A(θ_A(I_t),θ_A(I₁))＝θ_A(I_t)*θ_A(I₁)，g_A代表相似度计算，相似度响应图即首帧标定区域与当前帧划定的搜索区域内所有待判断区域的相似性度量得分值，该相似度得分值代表了每一个待判断区域与首帧标定区域的相似程度。得分越高意味着相似度越大，反之则越小。

本发明实施例提供了如图2所示的获取第一孪生网络相似度响应图的流程图，步骤201，将孪生A网络中所述第一帧标定区域通过深度卷积神经网络获取第一标定区域卷积神经网络特征。比如，将首帧标定区域大小增大至127×127的大小，输入一个由5个卷积层和2个池化层组成深度学习网络，通过11×11×96卷积-3×3池化-5×5×256卷积-3×3池化-3×3×192卷积-3×3×192卷积-3×3×128卷积后得到卷积神经网络特征θ_A(I₁)，特征的维度为6×6×128。

步骤202，根据跟踪目标尺度确定所述当前帧搜索区域的尺度，并以所述当前帧的前一帧目标预测坐标为中心确定所述当前帧搜索区域，通过深度卷积神经网络获取第一搜索区域卷积神经网络特征。比如，假定跟踪目标高为h，宽为w。在当前帧图像中，以高h和宽w为基础在尺度上进行扩大，进而确定搜索区域。扩大后的搜索区域为高h+(h+w)/2和宽w+(h+w)/2。以前一帧目标预测坐标为中心在当前帧中的搜索区域内提取区域图像作为当前帧图像的搜索区域。将该搜索区域输入到与S11具有相同参数的卷积神经网络中进行计算，并得到对应的卷积神经网络特征θ_A(I_t)，特征维度为22×22×128。

步骤S203，将所述第一标定区域卷积神经网络特征和第一搜索区域卷积神经网络特征进行相似度计算获取第一孪生网络相似度响应图。将步骤S201和202得到的第一标定区域卷积神经网络特征θ_A(I₁)和第一搜索区域卷积神经网络特征θ_A(I_t)，进行互相关操作，即进行相似度计算获得第一孪生网络相似度响应图M_A＝f_A(I_t,I₁)＝g_A(θ_A(I_t),θ_A(I₁))＝θ_A(I_t)*θ_A(I₁)。

应当理解的是，由于目标跟踪问题中待跟踪目标的尺度是随时发生变化的，因此为了使跟踪器具有尺度适应性，对S202中定义的扩大版搜索区域进行三种不同参数的扩大，从而得到不同大小的搜索区域。基于三个不同大小的搜索区域，分别重复进行步骤S202和S203，便可以得到在不同尺度下的相似度响应图，以便于更好的进行目标追踪。

步骤102，获取孪生B网络中旋转90°的第一帧标定区域和当前帧搜索区域的卷积神经网络特征图，并进行相似度计算获得旋转90°孪生网络相似度响应图；将所述旋转90°孪生网络相似度响应图反向旋转90°，获取第二孪生网络相似度响应图；

在本发明实施例中，根据首帧标定区域旋转90度的卷积神经网络特征，计算得到当前帧划定的搜索区域旋转90度后孪生网络B网络的相似度响应图(Bertinetto L,Valmadre J,Henriques J F,et al.Fully-convolutional siamese networks forobject tracking[C],European conference on computer vision.Springer,Cham,2016:850-865.)。其中，所述相似度响应图即首帧旋转90度标定区域与当前帧旋转90度后划定的搜索区域内所有待判断区域的相似性度量得分值，该相似度得分值代表了每一个待判断区域与首帧标定区域的相似程度。得分越高意味着相似度越大，反之则越小。

本发明实施例提供了一种获取旋转90°孪生网络相似度响应图的流程图，具体包括：步骤S301，将孪生B网络中所述第一帧标定区域旋转90°，通过深度卷积神经网络获取第二标定区域卷积神经网络特征。比如，将首帧标定区域大小增大至127×127的大小，再顺时钟旋转90度，通过按照步骤S201中的多层连续的卷积操作计算得到相应的深度特征图θ_B(φ₉₀(I₁))，特征的维度为6×6×128。

步骤S302，根据跟踪目标尺度确定所述当前帧搜索区域的尺度，并以所述当前帧的前一帧目标预测坐标为中心确定所述当前帧搜索区域，旋转90°，通过深度卷积神经网络获取第二标定区域卷积神经网络特征。比如假定跟踪目标高为h，宽为w。在当前帧图像中，以高h和宽w为基础在尺度上进行扩大，进而确定搜索区域。扩大后的搜索区域为高h+(h+w)/2和宽w+(h+w)/2。以前一帧目标预测坐标为中心在当前帧中的搜索区域内提取区域图像作为当前帧图像的搜索区域，将该搜索区域顺时钟旋转90度输入到与S202具有相同参数的卷积神经网络中进行计算，并得到对应的深度特征值θ_B(φ₉₀(I_t))，特征维度为22×22×128。

步骤S303，将所述第二标定区域卷积神经网络特征和第二标定区域卷积神经网络特征进行相似度计算获取旋转90°孪生网络相似度响应图。将步骤S301和302得到的第二标定区域卷积神经网络特征θ_B(φ₉₀(I₁))和第二搜索区域卷积神经网络特征θ_B(φ₉₀(I_t))，进行互相关操作，即进行相似度计算获得旋转90°孪生网络相似度响应图f_B(I_t,I₁)＝g_B(θ_B(φ₉₀(I_t)),θ_B(φ₉₀(I₁)))。

在本发明实施例中，将所述旋转90°孪生网络相似度响应图f_B(I_t,I₁)＝g_B(θ_B(φ₉₀(I_t)),θ_B(φ₉₀(I₁)))再进行反向旋转90°，操作函数为获得第二孪生网络相似度响应图/>

上述方法采用标定区域和搜索区域旋转后的特征提取，获得相似度响应图后再进行反向旋转，能够有效的克服卷积神经网络的旋转不变性的问题，大大提升跟踪器在目标旋转情况下的跟踪鲁棒性。

步骤S103，将获取的所述第一孪生网络相似度响应图与第二孪生网络相似度响应图在预先设定的损失函数的监督下进行网络训练获得最优网络模型，用于获取卷积神经网络特征图。

在本发明实施例中，损失函数为logistic损失函数和基于互监督学习理论一致性损失函数的融合l＝l_l+l_c，其中logistic损失函数和一致性损失函数如公式(1)和(2)所示。

l_c＝||M_A-M_B||₂ (2)

其中，G为训练数据提供的金标准，(i,j)为二维坐标，||||₂为2范数距离；|M_A|和|M_B|分别代表M_A和M_B的像素数量。

步骤S104，将所述第一孪生网络相似度响应图与第二孪生网络相似度响应图通过均值融合方法获取融合响应图；并根据融合响应图的响应值与尺度信息预测当前帧目标所在位置与尺度。

将步骤101、102获得的相似度响应图进行均值融合，具体如公式(3)。获取融合响应图，并在此响应图上以最大值定位当前帧的跟踪位置，以最优响应图所携带的尺度信息预测当前帧跟踪目标的尺度。

该方法能够更好的从同源图像的多视角融合更多的视觉信息，并且能有效克服卷积神经网络的旋转不变性的问题，大大提升跟踪器在目标旋转情况下的跟踪鲁棒性。在保证高效率的前提下，本发明相比于现有的其他跟踪方法，可有效地对抗因跟踪误差累计以及跟踪目标旋转导致的跟踪漂移以及跟踪失效问题。

如图4所示，本发明提供了一种基于互监督孪生网络的目标跟踪装置的结构示意图。具体包括：

第一孪生网络相似度响应图获取模块410，用于获取孪生A网络中第一帧标定区域和当前帧搜索区域的卷积神经网络特征，并进行相似度计算获得当前帧搜索区域的第一孪生网络相似度响应图；

在本发明实施例中，第一孪生网络相似度响应图获取模块将第一帧标定区域I₁和当前帧搜索区域I_t分别输入一个由5个卷积层和2个池化层组成深度学习网络，通过11×11×96卷积-3×3池化-5×5×256卷积-3×3池化-3×3×192卷积-3×3×192卷积-3×3×128卷积后得到卷积神经网络特征θ_A(I_t)和θ_A(I₁)，并通过互相关操作得到相似度响应图M_A＝f_A(I_t,I₁)＝g_A(θ_A(I_t),θ_A(I₁))＝θ_A(I_t)*θ_A(I₁)，g_A代表相似度计算，相似度响应图即首帧标定区域与当前帧划定的搜索区域内所有待判断区域的相似性度量得分值，该相似度得分值代表了每一个待判断区域与首帧标定区域的相似程度。

第二孪生网络相似度响应图获取模块420，用于获取孪生B网络中旋转90°的第一帧标定区域和当前帧搜索区域的卷积神经网络特征图，并进行相似度计算获得当前帧搜索区域旋转90°孪生网络相似度响应图；将所述旋转90°孪生网络相似度相应图反向旋转90°，获取第二孪生网络相似度响应图。

在本发明实施例中，第二孪生网络相似度响应图获取模块根据首帧标定区域顺时钟旋转90度的卷积神经网络特征，计算得到当前帧划定的搜索区域旋转90度后孪生网络B网络的相似度响应图，其中，所述相似度响应图即首帧旋转90度标定区域与当前帧旋转90度后划定的搜索区域内所有待判断区域的相似性度量得分值，该相似度得分值代表了每一个待判断区域与首帧标定区域的相似程度，将所述旋转90°孪生网络相似度响应图f_B(I_t,I₁)＝g_B(θ_B(φ₉₀(I_t)),θ_B(φ₉₀(I₁)))再进行反向旋转90°，操作函数为获得第二孪生网络相似度响应图/>

网络模型训练模块430，用于将获取的所述第一孪生网络相似度响应图与第二孪生网络相似度响应图在预先设定的损失函数的监督下进行网络训练获得最优网络模型，用于获取卷积神经网络特征图。

在本发明实施例中，网络模型训练模块设置的损失函数为logistic损失函数和基于互监督学习理论一致性损失函数的融合l＝l_l+l_c，其中logistic损失函数和一致性损失函数如公式(1)和(2)所示。以上述损失函数监督训练过程获得最优网络模型。

目标确定模块440，用于将所述第一孪生网络相似度响应图与第二孪生网络相似度响应图通过均值融合方式获取融合响应图；并根据融合响应图的响应值与尺度信息预测当前帧目标所在位置与尺度。

在本发明实施例中，获取模块410和420的相似度响应图进行均值融合，具体如公式(3)。获取融合响应图，并在此响应图上以最大值定位当前帧的跟踪位置，以最优响应图所携带的尺度信息预测当前帧跟踪目标的尺度。

在本发明实施例中，还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时本发明中各方法的步骤。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

Claims

1.一种基于互监督孪生网络的目标跟踪方法，其特征在于，具体包括：

所述获取孪生A网络中第一帧标定区域和当前帧搜索区域的卷积神经网络特征，并进行相似度计算获得第一孪生网络相似度响应图步骤具体包括：

将所述第一标定区域卷积神经网络特征和第一搜索区域卷积神经网络特征进行相似度计算获取第一孪生网络相似度响应图；

所述获取孪生B网络中旋转90°的第一帧标定区域和当前帧搜索区域的卷积神经网络特征图，并进行相似度计算获得旋转90°孪生网络相似度响应图步骤包括：

根据跟踪目标尺度确定所述当前帧搜索区域的尺度，并以所述当前帧的前一帧目标预测坐标为中心确定所述当前帧搜索区域并旋转90°，通过深度卷积神经网络获取第二搜索区域卷积神经网络特征；

将所述第二标定区域卷积神经网络特征和第二搜索区域卷积神经网络特征进行相似度计算获取旋转90°孪生网络相似度响应图；

将所述第一孪生网络相似度响应图与第二孪生网络相似度响应图通过均值融合方法获取融合响应图；并根据融合响应图的响应值与尺度信息预测当前帧目标所在位置与尺度；

所述预先设定的损失函数为logistic损失函数和基于互监督学习理论一致性损失函数的融合：l＝l_l+l_c，所述一致性损失函数为l_c＝||M_A-M_B||₂，所述logistic损失函数为G为训练数据提供的金标准，(i,j)为二维坐标，||||₂为2范数距离；|M_A|和|M_B|分别为所述第一孪生网络相似度响应图M_A的像素数量和第二孪生网络相似度响应图M_B的像素数量；

将所述第一孪生网络相似度响应图与第二孪生网络相似度响应图通过均值融合方式获取融合响应图中的融合函数为h(I_t,I₁)＝(M_A+M_B)/2，所述M_A和M_B为第一孪生网络相似度响应图和第二孪生网络相似度响应图。

2.一种基于互监督孪生网络的目标跟踪装置，其特征在于，包括：

所述第一孪生网络相似度响应图获取模块还用于将孪生A网络中所述第一帧标定区域通过深度卷积神经网络获取第一标定区域卷积神经网络特征；

所述第二孪生网络相似度响应图获取模块还用于将孪生B网络中所述第一帧标定区域旋转90°，通过深度卷积神经网络获取第二标定区域卷积神经网络特征；

目标确定模块，用于将所述第一孪生网络相似度响应图与第二孪生网络相似度响应图通过均值融合方式获取融合响应图；并根据融合响应图的响应值与尺度信息预测当前帧目标所在位置与尺度；

所述网络模型训练模块还包括所述预先设定的损失函数为logistic损失函数和基于互监督学习理论一致性损失函数的融合：l＝l_l+l_c，所述一致性损失函数为l_c＝||M_A-M_B||₂，所述logistic损失函数为所述G为训练数据提供的金标准，(i,j)为二维坐标，||||₂为2范数距离；|M_A|和|M_B|分别为所述第一孪生网络相似度响应图M_A的像素数量和第二孪生网络相似度响应图M_B的像素数量；

所述将所述第一孪生网络相似度响应图与第二孪生网络相似度响应图通过均值融合方式获取融合响应图中的融合函数为h(I_t,I₁)＝(M_A+M_B)/2，所述M_A和M_B为第一孪生网络相似度响应图和第二孪生网络相似度响应图。

3.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1所述方法的步骤。