CN113850189B

CN113850189B - 一种应用于机动平台的嵌入式孪生网络实时跟踪方法

Info

Publication number: CN113850189B
Application number: CN202111127652.8A
Authority: CN
Inventors: 张弘; 沈天琦; 杨一帆; 袁丁; 李旭亮; 宋剑波
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2024-06-21
Anticipated expiration: 2041-09-26
Also published as: CN113850189A

Abstract

本发明涉及一种应用于机动平台的嵌入式孪生网络实时跟踪方法，以实现端到端的深度学习目标跟踪，如下：(1)采用孪生网络结构对模板图像与搜索图像进行特征提取，分别得到对应的特征图；(2)针对嵌入式平台特点，采用Butterfly Transform层作为孪生网络的提取层，降低计算复杂度，实现特征提取网络的轻量化；(3)对模板图像与搜索图像提取出的特征图构建局部二分图，采用局部图注意力机制，对提取的特征进行互相关操作，得到互相关特征图；(4)采用anchor‑free的方式，对互相关特征图进行类别回归、中心点修正回归和长宽回归；(5)在COCO、YOUTUBB‑BB、DET和VID数据集上离线进行训练；(6)将训练好的网络运用于实际跟踪。

Description

一种应用于机动平台的嵌入式孪生网络实时跟踪方法

技术领域

本发明涉及一种应用于机动平台的嵌入式孪生网络实时跟踪方法，属于航空航天与计算机视觉信息处理交叉领域。

背景技术

单目标跟踪是计算机视觉中具有挑战性的研究内容之一，在过去的几十年中取得了长足的发展，并且自提出以来，视觉跟踪的流程就已经确定：对于视频序列，首先根据初始帧中目标的状态初始化跟踪器，然后提取目标特征并建立目标模型，在后续帧中使用跟踪策略如相关滤波、光流、深度学习等，基于目标模型估计目标在当前帧的状态，最后利用当前状态更新目标模型，继续下一帧的跟踪。而由于在真实目标跟踪场景中常存在多种复杂问题，比如1)目标遮挡、背景杂波、光照变化等环境变化影响；2)目标本身的快速运动、形变、旋转、尺度等目标变化影响；3)视频采集时低分辨率、相机快速运动、目标超出视野等采集设备影响，因此设计一个在真实应用环境下鲁棒且准确的跟踪算法仍然具有很高的挑战性。

相关滤波思想的引入，使得视觉目标跟踪的实时性和准确性得到了明显提高。最初的相关滤波算法使用灰度特征进行目标外观表达，使用循环矩阵提取样本，并将时域的计算转换到频域，提高了跟踪的效率。但是，灰度特征远远不能准确的表达目标，研究人员开始将颜色特征、梯度方向直方图(histogram of oriented gradients，HOG)特征、深度特征加入到目标跟踪中。

然而，人工设计的特征不能很好的表达目标的特点，一些算法开始探索使用神经网络提取目标的深度特征。依靠深度学习算法对于目标特征的强大提取能力，研究者们设计出来多种目标跟踪的深度学习网络模型，而孪生网络利用提取的深度特征进行模型间的匹配，也成为了目前目标跟踪最为主流的网络框架。但目前的孪生网络方法主要存在如下缺点：

(1)深度学习网络模型在训练时需要大量的线下训练，而且模型计算复杂度高，实时性表现差。

(2)同时由于深度网络跟踪算法通常包括模型训练和在线跟踪两个阶段，在模型训练时需要对算法进行预先的跟踪训练，而训练得到的孪生网络跟踪器进行目标在线跟踪时无法自适应更新；

(3)传统的孪生网络都通过互相关衡量模板图像和搜索图像的相似度，但是互相关的操作是全局的匹配，会从模板图像引入大量的背景信息，同时无法适应目标的形变和遮挡。

实现嵌入式平台上的机动目标跟踪，需要实现网络的轻量化，以及对目标形变和遮挡的适应能力。

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种应用于机动平台的嵌入式孪生网络实时跟踪方法，采用设计的端到端的孪生网络模型，实现网络的轻量化，提高网络的自适应更新质量，减少了模板图像的噪声引入，使得跟踪器能更快更好地适应目标地形变与遮挡，完成高质量的目标跟踪。

本发明技术解决方案：本发明一种应用于机动平台的嵌入式孪生网络实时跟踪方法，包括如下步骤：

步骤1：对单目标跟踪数据集进行预处理，将目标跟踪数据集图像中的目标按照标定完成的框裁剪成图像，该图像作为模板图像；再在模板图像的周围略大区域裁剪出包含目标的图像，该图像作为搜索图像1；继续在模板图像的周围略大区域裁剪出包含目标的图像，该图像不与搜索图像1相同，作为搜索图像2；最终得到“模板图像-搜索图像1和2”的图像对的形式，单目标跟踪数据集提供“模板图像-搜索图像1和2”以及搜索图像1中目标的真实类别、真实偏差和真实尺度；

并对制作的数据集进行训练集与测试集的划分；

步骤2：构建一种具有三个输入分支、三个输出分支的端到端的孪生网络模型；

所述端到端的孪生网络模型包括三个输入分支、特征提取网络、相关滤波相关操作网络、图注意力相关操作网络以及作为回归输出层的三个输出分支；

所述三个输入分支分别为更新分支、模板分支和搜索分支，每个分支都有各自的特征提取网络接收分支输入端输入的图像；更新图像分支和模板图像分支将各自提取到的特征图输入到相关滤波相关操作网络；

相关滤波相关操作网络接收模板分支后的特征提取网络在模板图像上提取得到的特征图，以及更新分支后的特征提取网络在搜索图像2上提取得到的特征图，进行相关性计算并输出特征图；

图注意力相关操作网络，接收输入的搜索图像1提取得到的特征图，以及相关滤波相关操作网络进行相关性计算并输出的特征图，采用局部图注意力机制计算相关性结果，输出相关性计算的特征图；

该相关性计算的特征图最终通过类别分支、偏差分支和尺度分支这三个输出分支进行回归预测，得到搜索图像1中的目标的类别、位置和尺度；

类别分支根据特征图回归预测搜索图像1中的目标的类别，目标类别有前景和背景两种，类别是前景表明该目标是一个真目标，类别是背景表明该目标是一个假目标；

偏差分支根据特征图回归预测搜索图像1中的目标距离图像中心的偏差，依据该偏差计算得到目标在搜索图像1中的位置；

尺度分支根据特征图回归预测搜索图像1中的目标的尺度；

步骤3：设置最大迭代次数、学习率和测试频率，选择反向传播方法，使用步骤2中设计的端到端的孪生网络模型，在步骤1中制作的单目标跟踪数据集上开始训练，然后根据训练损失函数变化，得到训练好的端到端的孪生网络模型的网络参数，将端到端的孪生网络模型的网络参数和端到端的孪生网络模型移植到机动平台嵌入式上执行，得到跟踪速度，最终实现机动平台嵌入式上的实时目标跟踪，得到最终输出跟踪结果。

所述步骤1中，单目标跟踪数据集包括MS COCO数据集、YOUTUBE-BB数据集、DET数据集及VID数据集四个经过详细标注的单目标跟踪数据集。

所述步骤2中，特征提取网络采用改进的MobileNetV2神经网络，所述改进的MobileNetV2神经网络由蝶式变换BFT(Butterfly Transform,BFT)、3×3深度可分离卷积Depthwise Separable Convolution组成“蝶式傅里叶变换BFT-3×3卷积-蝶式傅里叶变换BFT”的倒置残差与线性瓶颈层，并通过多个倒置残差与线性瓶颈层的有效连接实现。

所述使用步骤2中设计的端到端的孪生网络模型，在步骤1中制作的单目标跟踪数据集上开始训练过程为：

将“模板图像-搜索图像1和2”输入端到端的孪生网络模型，输出预测的目标的类别、偏差和尺度；

将预测的目标的类别、偏差和尺度和目标的真实类别、真实偏差和真实尺度求取误差，构建损失函数，再将误差反向传播以训练损失函数，使得误差越来越小，最后得到训练好的端到端的孪生网络模型的网络参数；

当网络训练好之后，再输入模板图像-搜索图像1和2，便直接得到接近目标的真实类别、真实偏差和真实尺度的目标类别、目标偏差和目标尺度，作为跟踪的结果输出。

所述步骤3中，设置最大迭代次数10000次、学习率0.001。

本发明与现有技术相比的优点在于：

(1)本发明采用设计的端到端的孪生网络模型，实现网络的轻量化，提高网络的自适应更新质量，减少了模板图像的噪声引入，使得跟踪器能更快更好地适应目标地形变与遮挡，完成高质量的目标跟踪。

(2)本发明采用BFT改进后的MobileNetV2网络，实现在FPGA等嵌入式平台上的网络轻量化，加快特征提取网络对模板图像与搜索图像的特征提取速度；

(3)本发明增加一条孪生网络的模板分支，用于捕获后续帧中的目标特征，采用相关滤波学习层和残差结构，将其特征与传统的孪生网络模板分支提取的特征进行融合，使得跟踪器可以用更合适的模板特征跟踪当前的目标；

(4)本发明借用图注意力机制实现对融合后的模板图像特征，与搜索图像的特征之间的局部相关操作，从而减少了模板特征的噪声引入，增强了跟踪器抗形变、遮挡的能力。

附图说明

图1为本发明的嵌入式孪生网络模型整体结构图；

图2为本发明中特征提取模块的具体操作示意图；

图3为原始MobileNetV2中采用的倒置残差与线性瓶颈层结构图；

图4为BFT计算方法及BFT层示意图；

图5为本发明中采用的使用BFT改进的倒置残差与线性瓶颈层结构图；

图6为本发明中更新分支和模板分支经过相关滤波相关操作网络处理示意图；

图7为本发明中采用的基于图注意力机制的局部相关操作模块；

图8为本发明的测试结果图。

具体实施方式

下面结合附图及实施例对本发明进行详细说明。

如图1所示，本发明的应用于机动平台的嵌入式孪生网络实时跟踪方法，包括如下步骤：

步骤1：使用以下四个经过详细标注的单目标跟踪数据集：

①MS COCO数据集：全称是Microsoft Common Objects in Context，起源于微软于2014年出资标注的Microsoft COCO数据集；

②YOUTUBE-BB数据集：全称是YouTube Bounding Boxes，一个由五百万个包围23类对象的边框组成的数据集，基于21万个YouTube视频进行密集标注。

③DET及VID数据集：全称是ILSVRC2015 Object detection from video，用于对象定位/检测和图像/场景分类任务的数据集。它包含200个用于检测的完整标签类别和1000个用于对象定位的类别；

对上述四个数据集进行预处理，将数据集图像中的目标按照标定完成的框裁剪成图像，该图像作为模板图像；再在模板图像的周围略大区域裁剪出包含目标的图像，该图像作为搜索图像1；继续在模板图像的周围略大区域裁剪出包含目标的图像，该图像不与搜索图像1相同，作为搜索图像2；最终得到“模板图像-搜索图像1和2”的图像对的形式，并对制作的数据集进行训练集与测试集的划分；

步骤2：采用一种具有三个输入分支、三个输出分支的端到端的孪生网络模型，该孪生网络模型还在特征提取网络、相关性计算及整个网络结构进行改进；

传统的孪生网络是指一种包含两个分支的神经网络模型，这两个分支都有各自的特征提取网络，并且网络一般结构相同、参数共享。在一般的使用孪生网络进行单目标跟踪的算法中，上述两个输入分支分别接收模板图像和搜索图像，在经过各自的特征提取网络进行特征提取后，使用卷积对提取到的特征图(Feature Map)进行相关性计算，最后根据相关性结果直接输出搜索图像中目标的边框，从而实现搜索图像中目标的定位。在实际的单目标跟踪中，只需要在孪生网络的输入端输入模板图像即当前帧的目标图像，以及搜索图像即下一帧待定位目标的图像，便在网络的输出端得到下一帧中的目标位置，网络被称为是端到端的孪生网络。

本发明提出的端到端的孪生网络模型如图1所示。三个分支分别为更新分支(Update Branch)、模板分支(Exemplar Branch)和搜索分支(Detection Branch)，每个分支都有各自的特征提取网络接收分支输入端输入的图像，即图1中的MobileNetV2+BFT矩形框。更新图像分支和模板图像分支各自提取到的特征图输入到相关滤波(CorrelationFilter,CF)相关操作网络，相关滤波相关操作网络输出的特征图与搜索分支提取到的特征图输入到图注意力相关操作网络(Graph Attention,GAT)，该网络输出的相关性计算结果最终输入类别分支(Classification Branch)、偏差分支(Offset Branch)和尺度分支(Scale Branch)这三个输出分支进行回归预测。

①三个输入分支作为本发明提出的端到端的孪生网络模型的输入端，从数据集中获取“模板图像-搜索图像1和2”的图像对，这三个图像后续分别输入各自的特征提取网络进行图像上的特征提取，其中：

模板分支，功能是接收从步骤1中数据集中获得的大量的“模板图像-搜索图像1和2”的图像对中的模板图像，并将图像输入特征提取网络提取得到特征图；

搜索分支，功能是接收从步骤1中数据集中获得的大量的“模板图像-搜索图像1和2”的图像对中的搜索图像1，并将图像输入特征提取网络提取得到特征图；

更新分支，功能是接收从步骤1中数据集中获得的大量的“模板图像-搜索图像1和2”的图像对中的搜索图像2，并将图像输入特征提取网络提取得到特征图。

②特征提取网络，功能是提取特征。特征提取网络在本专利提出的端到端的孪生网络中使用4处：用在三个输入分支之中，对三个输入分支输入的模板图像、搜索图像1和搜索图像2分别进行特征提取；用在图注意力相关操作网络之后，对图注意力相关操作网络输出的相关性计算结果进行特征提取。模板图像和搜索图像2提取得到的特征图输入相关滤波相关操作网络；搜索图像1提取得到的特征图输入图注意力相关操作网络。图注意力相关操作网络输出的相关性计算结果进行特征提取得到的特征图输入三个输出分支。

MobileNetV2作为一种经典的网络结构，它利用1×1卷积Pointwise Convolution以及3×3深度可分离卷积Depthwise Separable Convolution组成“1×1卷积-3×3卷积-1×1卷积”的倒置残差与线性瓶颈层，并通过多个倒置残差与线性瓶颈层的有效连接实现网络的轻量化，其结构如图2所示；特征提取网络选择轻量化的MobileNetV2网络，并将网络中所有的倒置残差与线性瓶颈层的1×1卷积使用蝶式傅里叶变换(Butterfly Transform,BFT)替换，以进一步实现特征提取网络的轻量化，使得本发明提出的端到端的孪生网络型可以在嵌入式平台上具有较高的计算速度，根据图3可知具体操作流程如下：

A、先采用1x1卷积，即Pointwise Convolution操作，将张量通道扩张，然后进行批标准化(Batch Normalization,BN)并使用ReLU激活函数进行处理。接着使用3x3的深度通道的卷积，即Depthwise Convolution操作，对深度通道进行处理并保持通道数不变，同样进行批标准化(Batch Normalization,BN)并使用ReLU激活函数进行处理。最后再次用1x1卷积将张量的通道数缩小。

B、使用仿照快速傅里叶变换的BFT操作代替Pointwise Convolution操作，实现硬件上的快速计算，BFT的计算方法如图4所示。

假设传统的1x1卷积层的输入是张量X，尺寸是n_in×h×w，其中n是通道数，w和h分别是宽度和长度；该层的权重张量是W，尺寸是n_out×n_in×1×1；输出张量为Y，尺寸是n_out×h×w，这里假定n_in＝n_out＝n。

1x1卷积操作可以被定义为一个函数P：Y＝P(X；W)，该操作被写成矩阵乘积的形式，将输入张量X变换成2-D形式尺寸是n×(hw)，且/>的每一列是X[:,i,j]；同理权重张量W变换成/>尺寸是n×n，则可以写成：

蝶式傅里叶变换的算法的操作流程为：

先在序列层里融合所有通道的信息，即在第一层里，将通道划分成k份，每一份的尺寸是且分别记为x₁,…,x_k；同理可以第一层的输出按通道划分成k份，每一份的尺寸是/>且分别记为y₁,…,y_k。将x_i和y_j用/>条平行的边D_ij相连。以这种方式组合信息后，每个y_i包含所有通道的信息，然后递归地融合下一层的每个yi的信息。

将前述的融合过程使用蝶式矩阵B^(n,k)表示，它的基为k，阶数为n，且B^(n,k)∈R^n×n，具体定义如下：

其中，是一个基为k，阶数为/>的蝶式矩阵，D_ij是任意一个/>的矩阵。矩阵B^(n,k)与向量x∈Rⁿ之间的乘法如下：

接着便可以将M提出来，将乘积化简如下：

其中，由于/>是一个/>阶蝶式矩阵与/>维向量之间的更小的乘法运算，最后使用分治法(divide-and-conquer)的思想去递归计算B^(n,k)x的乘积。

根据上述叙述，具体实现的算法如下：

C、使用BFT操作替换1x1卷积操作，改进的倒置残差与线性瓶颈层如图5所示。将该层运用在MobileNetV2中即可。

③相关滤波相关操作网络，功能是接收模板分支后的特征提取网络在模板图像上提取得到的特征图，以及更新分支后的特征提取网络在搜索图像2上提取得到的特征图，进行相关性计算并输出特征图。

传统的全卷积孪生网络框架考虑由训练图像x'和测试图像z'组成的输入对(x',z')，其中x'代表感兴趣的对象(如在视频的第一帧中以目标为中心选取的图像块)，z'通常更大且代表搜索区域(如视频的下一帧)。上述的输入对都会由一个带可学习参数ρ的卷积神经网络f_ρ进行处理并得到特征图，再对特征图进行互相关操作：

g_ρ(x',z')＝f_ρ(x')★f_ρ(z')

上式相当于在测试图像z'上进行训练图像x'的穷举搜索，目的是使得响应图的最大值与目标位置相对应。因此数据集的制作从视频中提取出数百万的随机对(x'_i,z'i)用于离线训练网络。每一个例子属于{-1,1}的标签c_i，真正的目标位置属于正类，标签值为+1，其它属于负类，标签值为-1。通过最小化训练集上的element-wise logistic loss完成训练：

修改孪生网络结构，在进行互相关操作之前加一个相关滤波模块，孪生网络框架的公式被修改为：

h_ρ,s,b(x',z')＝sw(f_ρ(x'))★f_ρ(z′)+b

其中w＝w(x)是相关滤波模块，它通过在傅里叶域求解岭回归问题，从模板分支的特征图x＝f_ρ(x')计算得到标准的相关滤波模板w。

它的影响可以被理解为构建有识别力的模板，该模板具有对变换的鲁棒性。因此引入标量参数s和b(分别代表尺度和偏差)使logistic回归的评分范围适宜。然后采用与传统孪生网络框架一样的方式进行离线训练。

传统的相关滤波操作将模板图像和搜索图像分别进行离散傅里叶变换，通过点乘求取相关性计算结果后再进行离散傅里叶反变换，该操作是不可学习的。相关滤波相关操作网络将相关滤波操作参数化，是一个可学习的网络。

考虑一个标量值的图像x∈R^m×m，相关滤波器是一个模板w∈R^m×m，该模板与图像x的每一个循环移位x*δ_-u的内积，和期望的响应y[u]尽可能地接近，即最小化：

其中，U＝{0,…,m-1}²是图像域，y∈R^m×m是响应信号，其第u个元素是y[u]，δ_τ是平移狄拉克函数且δ_τ[t]＝δ[t-τ]。使用表示循环卷积，＊表示循环互相关。

带δ函数的卷积等价于(x*δ_τ)[t]＝x[t-τmodm]，加入正则化项防止过拟合：

其中，n＝|U|表示有效的样本数。

最优模板w必须满足方程组：

其中k是定义循环线性核矩阵的信号，α是一个由拉格朗日乘子组成的信号，乘子属于等式5所表示的问题的等价带约束优化问题。公式6可以在傅里叶域被高效计算：

其中表示变量x离散傅里叶变换，x表示共轭复数，/>表示元素乘，l表示单位信号。元素乘的逆是各元素标量的倒数。上述的运算在傅里叶域更高效，这是因为元素乘运算代替了计算昂贵的卷积或者矩阵运算。此外，反卷积问题(即找到α满足/> )是在傅里叶域中求解对角线方程组的解。

采用记号：如果x∈X＝Rⁿ是计算图中的一个变量，它计算最后的标量损失l∈R，那么表示偏导数向量/>如果y∈Y＝R^m是计算图中的另一个变量，且它由y＝f(x)直接计算得到，那么f的反向传播图是一张从线型图/>到/>的线型图。

反向传播映射是线性映射，它是微分的伴随。借助该性质以及矩阵微分计算，可以计算得到反向传播图。使用Parseval定理，可以表明傅里叶变换矩阵是酉矩阵(除去一个比例因子)，因此保持了内积

为了通过相关滤波器找到反向传播的线性映射，首先取方程6中定义模板w的微分：

然后对每个方程进行傅里叶变换，重新整理得到每一个因变量的微分作为其输入变量微分的线性函数(在傅里叶域)。

这些复数方程是实方程的傅里叶变换，导数本身都是相对于实变量计算的。

这些线性映射的伴随矩阵定义了从到/>和/>的整个反向传播映射，最终结果如下：

该模块需要在开始时计算傅里叶正变换，结束时计算傅里叶逆变换。

④图注意力相关操作网络，功能是接收输入的搜索图像1提取得到的特征图，以及相关滤波相关操作网络进行相关性计算并输出的特征图，采用局部图注意力机制计算相关性结果，输出相关性计算的特征图。

如图7所示，考虑模板分支输入图像T和搜索分支输入图像S，首先采用特征提取网络进行特征提取，分别得到特征图F_t和F_s。将特征图上的每一个1×1×c的像素点看成一个节点，其中c代表特征通道数。令V_t是特征图F_t上所有节点的集合，V_s是特征图F_s上所有节点的集合。借鉴图注意力网络，使用一个完全二分图G＝(V,E)来构建目标与搜索区域之间的部分关系，其中V＝V_s∪V_t，进一步定义G的两个子图其中/>指空集；

对于每一个(i,j)∈E，令e_ij表示节点i∈V_s和节点j∈V_t之间的相关得分：

其中，分别是节点i和节点j的特征向量。因为搜索区域中的某个位置与模板的局部特征越相似，它就越有可能是前景位置，所以需要将更多的目标信息传递到该位置。基于上述考虑，将得分e_ij设置成正比于两个节点特征之间的相似性。i,j在上一页的页尾标蓝处解释了，R^c指的是c维的实向量空间。

使用特征之间的内积作为相似性度量。为了自适应学习节点之间更好的表示，先对节点特征进行线性变换，然后在变换后的特征向量之间取内积来计算相关得分：

其中W_s和W_t是线性变换矩阵。

为了平衡发送到搜索区域的信息量，使用softmax函数将e_ij正则化：

其中a_ij从节点j的视角衡量了跟踪器向节点i投入多少注意力。利用从G_t中所有节点传递到G_s中的第i个节点的注意力，计算节点i的聚合表示：

其中W_v是线性变换矩阵，a_ij是注意力权重。

最后将聚合的特征与节点特征融合，得到一个基于目标信息的更强大的特征表示：

其中||表示向量的拼接。

对于任意节点i∈V_s计算最终完成互相关操作，得到尺寸为31×31×256的响应图。/>指任意节点i。

总之，该网络通过将输入的两个特征图建模成一张二分图并计算图注意力，实现引入更少背景噪声的相关操作，得到更新图节点信息后的搜索图像1提取得到的特征图。这张特征图作为相关性计算的特征图，输出至特征提取网络进一步特征提取。进一步提取得到的特征图输出至三个输出分支进行回归预测。

⑤三个输出分支作为端到端的孪生网络的输出端，功能是回归预测，以图注意力相关操作网络输出的、再经过特征提取网络进行特征提取的特征图为输入，输出搜索图像1中的目标的类别、位置和尺度，其中：

类别分支，功能是接收输入特征图，回归预测搜索图像1中的目标的类别，目标类别有前景和背景两种，类别是前景说明该目标是一个真目标，类别是背景说明该目标是一个假目标；

偏差分支，功能是接收输入特征图，回归预测搜索图像1中的目标距离图像中心的偏差，依据该偏差可以计算得到目标在搜索图像1中的位置；

尺度分支：功能是接收输入特征图，回归预测搜索图像1中的目标的尺度。

具体操作如下：

通过1x1卷积将上述31×31×256的响应图变换成31×31×6的热图，并将该热图按通道划分成三块尺寸均为31×31×2的热图用于分别回归目标的类别、位置和尺度。如图8所示，是将网络参数与网络架构迁移至机动平台嵌入式上执行推理的效果，测试数据为OTB100，最终效果为帧率可达每秒71帧，最终实现机动平台嵌入式上的较高精度的实时目标跟踪。

步骤3：设置最大迭代次数、学习率和测试频率，选择反向传播方法，使用步骤2中设计的端到端的孪生网络，在步骤1中制作的单目标跟踪数据集上开始训练，然后根据训练损失函数变化，得到训练好的端到端的孪生网络的网络参数，将端到端的孪生网络的网络参数和端到端的孪生网络模型移植到机动平台嵌入式上执行，得到每秒71帧的跟踪速度，最终实现机动平台嵌入式上的实时目标跟踪。

Claims

1.一种应用于机动平台的嵌入式孪生网络实时跟踪方法，其特征在于，包括如下步骤：

并对制作的数据集进行训练集与测试集的划分；

尺度分支根据特征图回归预测搜索图像1中的目标的尺度；

2.根据权利要求1所述的一种应用于机动平台的嵌入式孪生网络实时跟踪方法，其特征在于：所述步骤1中，单目标跟踪数据集包括MS COCO数据集、YOUTUBE-BB数据集、DET数据集及VID数据集四个经过详细标注的单目标跟踪数据集。

3.根据权利要求1所述的一种应用于机动平台的嵌入式孪生网络实时跟踪方法，其特征在于：所述步骤2中，特征提取网络采用改进的MobileNetV2神经网络，所述改进的MobileNetV2神经网络由蝶式变换BFT(Butterfly Transform,BFT)、3×3深度可分离卷积Depthwise Separable Convolution组成“蝶式傅里叶变换BFT-3×3卷积-蝶式傅里叶变换BFT”的倒置残差与线性瓶颈层，并通过多个倒置残差与线性瓶颈层的有效连接实现。

4.根据权利要求1所述的一种应用于机动平台的嵌入式孪生网络实时跟踪方法，其特征在于：所述使用步骤2中设计的端到端的孪生网络模型，在步骤1中制作的单目标跟踪数据集上开始训练过程为：

5.根据权利要求1所述的一种应用于机动平台的嵌入式孪生网络实时跟踪方法，其特征在于：所述步骤3中，设置最大迭代次数10000次、学习率0.001。