CN109272530A

CN109272530A - 面向空基监视场景的目标跟踪方法与装置

Info

Publication number: CN109272530A
Application number: CN201810899198.XA
Authority: CN
Inventors: 曹先彬; 甄先通; 李岩; 蒋小龙; 胡宇韬
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-08-08
Filing date: 2018-08-08
Publication date: 2019-01-25
Anticipated expiration: 2038-08-08
Also published as: CN109272530B; US20200051250A1; US10719940B2

Abstract

本发明提供一种面向空基监视场景的目标跟踪方法与装置。本发明提供的方法，包括：实时获取目标对象的待跟踪视频，提取第一帧以及第二帧，对第一帧进行剪裁截取得到第一兴趣区域图像，对第二帧进行剪裁截取得到目标模板图像以及第二兴趣区域图像，将目标模板图像以及第一兴趣区域图像输入外观跟踪器网络，得到外观跟踪位置，将第一兴趣区域图像以及第二兴趣区域图像输入运动跟踪器网络，得到运动跟踪位置，最后将外观跟踪位置以及运动跟踪位置输入深度融合网络，得到最终跟踪位置。本发明提供的目标跟踪方法，通过两路跟踪器网络并联的方法，利用目标对象的外观和运动信息进行定位跟踪，再将两次定位信息进行融合，从而实现对目标对象的实时跟踪。

Description

面向空基监视场景的目标跟踪方法与装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种面向空基监视场景的目标跟踪方法与装置。

背景技术

目标的检测与跟踪是视觉监视领域的两大核心任务。其中，跟踪旨在实现在视频连续帧中对目标的精确定位以得到目标轨迹，在实际的面向空基监视场景中具有极高的应用价值。

在传统视觉监视方法中，监视数据的采集往往是采用固定安置的平时或低视角摄像头。随着近年来无人机技术的快速发展，基于机载空基摄像头数据的监视变得越发普遍和重要。此类空基监视数据具有视角高、遮挡少、覆盖面积大、部署快速灵活、维护成本低等优势。但是，与此同时，也对基于此类监视视频的目标跟踪方法提出了许多挑战。

但是，基于机载空基摄像头数据的监视数据的高视角容易导致目标尺寸较小，外观信息不充分，并且，空基平台灵活机动的部署导致监视场景中可能出现目标的种类多变且不确定。除此之外，空基平台的运动性使得所采集监视视频含有一定的镜头运动，影响视频中目标运动特征的可靠性。

发明内容

本发明提供一种面向空基监视场景的目标跟踪方法与装置，以解决基于机载空基摄像头数据的监视数据的高视角容易导致目标尺寸较小，外观信息不充分，并且，空基平台灵活机动的部署导致监视场景中可能出现目标的种类多变且不确定，以及所采集监视视频含有一定的镜头运动，影响视频中目标运动特征的可靠性的技术问题。

第一方面，本发明提供一种面向空基监视场景的目标跟踪方法，包括：

实时获取目标对象的待跟踪视频，并对所述待跟踪视频进行解帧，以提取第一帧以及第二帧，其中，所述第一帧为当前时刻对应的图像帧，所述第二帧为所述第一帧的前一帧；

对所述第一帧进行剪裁截取得到第一兴趣区域图像，并对所述第二帧进行剪裁截取得到目标模板图像以及第二兴趣区域图像；

将所述目标模板图像以及所述第一兴趣区域图像输入预设的外观跟踪器网络，得到外观跟踪位置，并将所述第一兴趣区域图像以及所述第二兴趣区域图像输入预设的运动跟踪器网络，得到运动跟踪位置；

将所述外观跟踪位置以及所述运动跟踪位置输入深度融合网络，得到融合后的最终跟踪位置。

在一种可能的设计中，在所述将所述外观跟踪位置以及所述运动跟踪位置深度融合网络，得到融合后的最终跟踪位置之后，还包括：

根据所述最终跟踪位置在所述第一帧中显示输出所述最终跟踪结果。

在一种可能的设计中，所述最终跟踪结果为显示在所述第一帧中的第一矩形限位框，所述第一矩形限位框用于表征所述目标对象的当前位置。

在一种可能的设计中，所述对所述第一帧进行剪裁截取得到第一兴趣区域图像，包括：

根据所述第一帧中的第一矩形限位框的中心坐标以及第三矩形限位框对所述第一帧进行剪裁截取得到所述第一兴趣区域图像，其中，所述第一矩形限位框与所述第三矩形限位框的中心重合，所述第三矩形限位框的长宽数据分别为所述第一矩形限位框的长宽数据的N倍，N为大于1的自然数。

在一种可能的设计中，所述对所述第二帧进行剪裁截取得到目标模板图像以及第二兴趣区域图像，包括：

根据所述第二帧中的第二矩形限位框的左上角坐标位置以及所述第二矩形限位框的长宽数据剪裁截取得到所述目标模板图像；

根据所述第二帧中的所述第二矩形限位框的中心坐标以及第四矩形限位框对所述第二帧进行剪裁截取得到所述第二兴趣区域图像，其中，所述第二矩形限位框与所述第四矩形限位框的中心重合，所述第四矩形限位框的长宽数据分别为所述第二矩形限位框的长宽数据的N倍。

在一种可能的设计中，所述将所述目标模板图像以及所述第一兴趣区域图像输入预设的外观跟踪器网络，得到外观跟踪位置，包括：

分别对称向所述外观跟踪器网络输入的所述目标模板图像以及所述第一兴趣区域图像，以并行地进行对等的卷积操作，得到层级性的特征金字塔，其中，所述外观跟踪器网络采用孪生卷积神经网络结构；

利用所述层级性的特征金字塔，在卷积不断加深的过程中，将孪生网络并行两路中不同卷积层得到的特征图分别进行级联融合；

将所述目标模板图像对应的一路融合后的特征图作为核，并利用所述核在所述第一兴趣区域图像对应的一路级联融合后的特征图上进行滑窗式密集采样互相关计算，并得到外观相似度响应图；

在每个滑窗位置计算所述目标模板图像与所述第一兴趣区域图像被搜索位置的外观相似度，而所述外观相似度响应最大的位置为所述外观跟踪位置。

在一种可能的设计中，所述将所述第一兴趣区域图像以及所述第二兴趣区域图像输入预设的运动跟踪器网络，得到运动跟踪位置，包括：

分别将所述第一兴趣区域图像以及所述第二兴趣区域图像输入对比度图生成模块，得到第一对比度图以及第二对比度图；

将所述第一对比度图以及所述第二对比度图输入滤波帧差模块，得到第一兴趣区域图像以及所述第二兴趣区域图像的帧差运动响应图；

将所述帧差运动响应图分别输入前景增强模块以及背景抑制模块，得到前景特征图以及背景特征图；

将所述前景特征图与所述背景特征图逐像素做差，得到运动跟踪位置响应图，并根据所述运动跟踪位置响应图确定所述运动跟踪位置。

在一种可能的设计中，所述将所述外观跟踪位置以及所述运动跟踪位置输入深度融合网络，得到融合后的最终跟踪位置，包括：

将所述外观跟踪位置与所述运动跟踪位置输入所述深度融合网络结构，并将所述外观跟踪位置与所述运动跟踪位置进行融合得到最终的跟踪位置响应图；

将所述跟踪位置响应图进行降维，得到第一向量，所述第一向量为一维向量；

将所述第一向量输入两个级联的Relu激活函数的全连接层，回归得到四维限位框数据输出，所述四维限位框数据包括：所述第一矩形限位框的左上角的横坐标、所述第一矩形限位框的左上角的纵坐标、所述第一矩形限位框的长度以及所述第一矩形限位框的宽度。

在一种可能的设计中，所述外观跟踪器网络、所述运动跟踪器网络以及所述深度融合网络均为卷积神经网络结构，且均采用端到端离线训练的方式进行训练。

第二方面，本发明还提供一种面向空基监视场景的目标跟踪装置，包括：

视频帧提取模块，用于实时获取目标对象的待跟踪视频，并对所述待跟踪视频进行解帧，以提取第一帧以及第二帧，其中，所述第一帧为当前时刻对应的图像帧，所述第二帧为所述第一帧的前一帧；

图片截取模块，用于对所述第一帧进行剪裁截取得到第一兴趣区域图像，并对所述第二帧进行剪裁截取得到目标模板图像以及第二兴趣区域图像；

位置计算模块，用于将所述目标模板图像以及所述第一兴趣区域图像输入预设的外观跟踪器网络，得到外观跟踪位置，还用于将所述第一兴趣区域图像以及所述第二兴趣区域图像输入预设的运动跟踪器网络，得到运动跟踪位置；

位置融合模块，用于将所述外观跟踪位置以及所述运动跟踪位置输入深度融合网络，得到融合后的最终跟踪位置。

在一种可能的设计中，所述面向空基监视场景的目标跟踪装置，还包括：

目标还原模块，用于根据所述最终跟踪位置在所述第一帧中显示输出所述最终跟踪结果。

在一种可能的设计中，所述图片截取模块，具体用于：

在一种可能的设计中，所述位置计算模块，具体用于：

在一种可能的设计中，所述位置融合模块，具体用于：

本发明提供的一种面向空基监视场景的目标跟踪方法与装置，通过在对目标对象的跟踪过程中使用了两路跟踪器网络并联的方法，分别利用目标对象的外观和运动信息对目标对象实现定位跟踪，再通过将两次定位信息进行融合得到最终跟踪位置，在外观信息方面，将目标对象在第二帧的跟踪结果截取成图像作为目标模板图像，同目标对象在第一帧中所截取得到的目标对象可能出现的第一兴趣区域图像一起输入外观跟踪器网络，经过外观相似度匹配搜索得到目标对象在此帧中的跟踪位置，同时，在运动信息方面，将目标对象在第一帧中所截取的第一兴趣区域图像与同在第二帧对等位置截取到的第二兴趣区域图像一同输入外观跟踪器网络，通过可学习的帧差法运动检测，得到运动目标在此帧中的跟踪位置，最后，将两次跟踪的结果进行融合得到目标在此帧中最终跟踪位置，从而实现对目标对象的实时跟踪。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明根据一示例性实施例示出的一种面向空基监视场景的目标跟踪方法的流程示意图；

图2是本发明根据另一示例性实施例示出的一种面向空基监视场景的目标跟踪方法的流程示意图；

图3是本发明根据一示例性实施例示出的一种面向空基监视场景的目标跟踪装置的结构示意图；

图4是本发明根据一示例性实施例示出的另一种面向空基监视场景的目标跟踪装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的一种面向空基监视场景的目标跟踪方法，可以用于基于无人飞行器采集视频的场面监视与监测。对于具体地应用场景，本发明提供的一种目标跟踪方法可用于城市安防、交通管控、道路巡检、重点区域监控等不同应用场景，具有监视覆盖面积大、人力成本低、部署布控灵活等特点。

图1是本发明根据一示例性实施例示出的一种面向空基监视场景的目标跟踪方法的流程示意图。如图1所示，本实施例提供的面向空基监视场景的目标跟踪方法，包括：

步骤101、实时获取目标对象的待跟踪视频，并对待跟踪视频进行解帧，以提取第一帧以及第二帧。

具体地，可以通过无人飞行器上的摄像头实时获取目标对象的待跟踪视频，并对待跟踪视频进行解帧，以提取第一帧以及第二帧，其中，第一帧为当前时刻对应的图像帧，而第二帧为第一帧的前一帧。

步骤102、对第一帧进行剪裁截取得到第一兴趣区域图像，并对第二帧进行剪裁截取得到目标模板图像以及第二兴趣区域图像。

具体地，可以根据第一帧中的第一矩形限位框的中心坐标以及第三矩形限位框对第一帧进行剪裁截取得到第一兴趣区域图像，其中，第一矩形限位框与第三矩形限位框的中心重合，第三矩形限位框的长宽数据分别为第一矩形限位框的长宽数据的N倍，N为大于1的自然数。此外，最终跟踪结果为显示在第一帧中的第一矩形限位框，第一矩形限位框用于表征目标对象的当前位置。

并且，根据第二帧中的第二矩形限位框的左上角坐标位置以及第二矩形限位框的长宽数据剪裁截取得到目标模板图像，根据第二帧中的第二矩形限位框的中心坐标以及第四矩形限位框对第二帧进行剪裁截取得到第二兴趣区域图像，其中，第二矩形限位框与第四矩形限位框的中心重合，第四矩形限位框的长宽数据分别为第二矩形限位框的长宽数据的N倍。

可选地，N可以为2，即第三矩形限位框的长宽数据分别为第一矩形限位框的长宽数据的2倍。在第二帧图像中，根据第二帧中最终跟踪结果矩形框从原图中剪裁截取目标模板图像。截取兴趣区域图像所用的限位框，是以截取相应目标模板图像所用的限位框位置的中心为中心，长宽各扩大为原始数据的2倍，得到面积为原始数据4倍的限位框。其中，依据运动的平滑性假设，认为目标对象在第一帧中的位置一定存在于该扩大面积后的兴趣区域中。因此，跟踪任务简化为在此有限兴趣区域中搜索定位目标。截取第一帧和第二帧的兴趣区域图像所用的限位框是相同的，该限位框是按照上述方法由目标在第二帧中的最终跟踪位置限位框放大得到的。使用该限位框，即可分别从第二帧和第一帧原始图像中剪裁截取得到第二帧和第一帧的兴趣区域图像。

此外，由于每帧得到第一位置限位框的大小不同，而网络输入要求尺寸一致，因此截取后的图像需要经过缩放统一尺寸。其中，目标模板图像尺寸可以统一为64*64，而兴趣区域图像尺寸则可以统一为128*128。

步骤103、将目标模板图像以及第一兴趣区域图像输入预设的外观跟踪器网络，得到外观跟踪位置。

具体地，可以将目标模板图像以及第一兴趣区域图像输入外观跟踪器网络中，如果事先对目标模板图像以及第一兴趣区域图像进行过处理，则可以是将将缩放后的目标模板图像以及第一兴趣区域图像输入外观跟踪器网络。

该网络采用孪生卷积神经网络结构，分别对称向外观跟踪器网络输入的目标模板图像以及第一兴趣区域图像，以并行地进行对等的卷积操作，得到层级性的特征金字塔。该卷积网络可以包含6个卷积层，均为Relu激活，输出特征图通道数依次为6，12，24，36，48和64。各层的卷积核尺寸依次为7*7，5*5，而其余的均为3*3。为保证特征图中空间位置信息的完整性，此卷积网络中没有加入任何池化降采样层。利用卷积神经网络的层级性特征金字塔，在卷积不断加深的过程中，将孪生网络并行两路中不同卷积层得到的特征图分别进行级联融合。随着网络加深，此融合特征空间尺度逐渐增大，更倾向于语义级的外观特征表征。然后，将目标模板图像对应的一路融合后的特征图作为核，并利用核在第一兴趣区域图像对应的一路级联融合后的特征图上进行滑窗式密集采样互相关计算，并得到外观相似度响应图。该滑窗互相关计算发生在多个卷积层级的特征图上，从而实现了多尺度搜索，得到多个相似度响应图。最终的外观跟踪响应图由各层级上的相似度相应图融合得到。可见，在外观跟踪器网络中，跟踪即是通过在兴趣区域内多尺度密集滑窗搜索得到目标所在位置。该搜索是基于目标外观相似度计算，即在每个滑窗位置计算目标模板与被搜索位置图片的外观相似度。相似度响应大的位置大概率为目标所在位置。

步骤104、第一兴趣区域图像以及第二兴趣区域图像输入预设的运动跟踪器网络，得到运动跟踪位置。

具体地，与外观跟踪网络并行，运动跟踪器网络是构建一个卷积神经网络结构，通过训练得到一个可学习的基于帧差法的运动区域检测器。通过检测当前帧兴趣区域中的运动，得到其中运动目标的位置。此运动跟踪网络由对比度图生成模块、Spotlight滤波帧差模块、前景增强背景抑制模块依次级联而成，其中各模块的构造均基于卷积神经网结构。作为开端，分别将第一帧和第二帧的第一兴趣区域图像以及第二兴趣区域图像输入对比度图生成模块。该模块包含三层级联Relu激活的卷积层，卷积核大小依次是11*11，5*5，3*3，输出的特征图通道数均为3，该特征图为计算所得的输入图片的对比度图。进而，将第一帧和第二帧的第一兴趣区域图像以及第二兴趣区域图像的对比度图输入Spotlight滤波帧差模块，可得到前后两帧对应兴趣区域的帧差运动响应图。使用对比度图代替原图进行帧差计算的目的是减少镜头运动带来的运动噪声响应。该模块首先将输入的两张对比度图进行逐像素相减，得到原始帧差响应图，然后将此图分别输入三个并联的卷积层，卷积核大小分别为3*3，5*5，7*7。然后将三个卷积输出特征图进行融合得到融合帧差响应图。这种由三个核大小不同的卷积层级联再融合的多尺度卷积设计，目的在于过滤镜头运动所带来的运动噪声。最后，前景增强模块由三个级联的最大池化层构成，背景抑制模块由三个级联的平均池化层构成。池化层核大小依次为2*2，4*4，6*6，这种多尺度的设计目的在于适应不同尺寸的运动响应。将帧差响应图分别输入此两个模块，最终将输出的两个特征图逐像素做差，即可得到最终的运动跟踪位置响应图。此相应图相比于融合帧差响应图实现了对相机运动所引入噪声响应的抑制，提高了运动检测的精确性和鲁棒性。

步骤105、将外观跟踪位置以及运动跟踪位置输入深度融合网络，得到融合后的最终跟踪位置。

为了同时实现外观和运动跟踪位置的智能融合，本实施例提供的目标跟踪方法采用将两个单通道跟踪响应图首先在通道维上堆叠，再使用一个1*1卷积核进行卷积将输出通道还原为单通道的方法，可学习地完成跟踪结果的融合，得到最终的跟踪位置响应图。

然后，将此二维响应图拉长降维得到第一向量，其中，第一向量为一维向量，再将此向量输入两个级联的Relu激活的全连接层，回归得到四维限位框数据进行输出。其中，四维限位框数据包括：第一矩形限位框的左上角的横坐标、第一矩形限位框的左上角的纵坐标、第一矩形限位框的长度以及第一矩形限位框的宽度。

在本实施例中，通过在对目标对象的跟踪过程中使用了两路跟踪器网络并联的方法，分别利用目标对象的外观和运动信息对目标对象实现定位跟踪，再通过将两次定位信息进行融合得到最终跟踪位置，在外观信息方面，将目标对象在第二帧的跟踪结果截取成图像作为目标模板图像，同目标对象在第一帧中所截取得到的目标对象可能出现的第一兴趣区域图像一起输入外观跟踪器网络，经过外观相似度匹配搜索得到目标对象在此帧中的跟踪位置，同时，在运动信息方面，将目标对象在第一帧中所截取的第一兴趣区域图像与同在第二帧对等位置截取到的第二兴趣区域图像一同输入外观跟踪器网络，通过可学习的帧差法运动检测，得到运动目标在此帧中的跟踪位置，最后，将两次跟踪的结果进行融合得到目标在此帧中最终跟踪位置，从而实现对目标对象的实时跟踪。

图2是本发明根据另一示例性实施例示出的一种面向空基监视场景的目标跟踪方法的流程示意图。如图2所示，本实施例提供的目标跟踪方法，包括：

步骤201、对外观跟踪器网络、运动跟踪器网络以及深度融合网络进行离线训练。

具体地，外观跟踪器网络、运动跟踪器网络以及深度融合网络均为卷积神经网络结构。本实施例提供的目标跟踪方法中网络的端到端一体性训练保证了跟踪器各部分间的整体性和协同性，实现外观和运动特征的深度融合。同时，本实施例提供的目标跟踪方法离线训练在线测试的策略保证了跟踪的时效性，满足实时跟踪的要求。在离线训练阶段，训练数据采集于公开跟踪数据集。一个训练样本包括剪裁缩放到指定尺寸的目标模板，以及一对兴趣区域图片。训练的优化目标是最小化网络输出限位框同真实限位框之间的均方误差损失函数。

步骤202、实时获取目标对象的待跟踪视频，并对待跟踪视频进行解帧，以提取第一帧以及第二帧。

步骤203、对第一帧进行剪裁截取得到第一兴趣区域图像，并对第二帧进行剪裁截取得到目标模板图像以及第二兴趣区域图像。

步骤204、将目标模板图像以及第一兴趣区域图像输入预设的外观跟踪器网络，得到外观跟踪位置。

步骤205、第一兴趣区域图像以及第二兴趣区域图像输入预设的运动跟踪器网络，得到运动跟踪位置。

步骤206、将外观跟踪位置以及运动跟踪位置输入深度融合网络，得到融合后的最终跟踪位置。

值得说明地，步骤202-206的具体实现方式参照图1所示实施例中步骤101-105的描述，这里不再赘述。

步骤207、根据最终跟踪位置在第一帧中显示输出最终跟踪结果。

具体地，在将外观跟踪位置以及运动跟踪位置深度融合网络，得到融合后的最终跟踪位置之后，根据最终跟踪位置在第一帧中显示输出最终跟踪结果。可选地，根据最终跟踪位置在第一帧中显示输出最终跟踪结果最终跟踪结果为显示在第一帧中的第一矩形限位框，第一矩形限位框用于表征目标对象的当前位置。

在本实施中，针对高视角导致目标尺寸较小，外观信息不充分的问题，采用了外观与运动特征融合的方法获取和利用更丰富的跟踪信息。此外，针对灵活机动的部署导致监视场景中可能出现目标的种类多变且不确定，本实施例提供的方法构建具有高普适性的无差别跟踪方法，在外观特征方面采用外观相似性匹配搜索的方式，学习两个个体间的相似性而不是直接描述目标的外观；在运动特征方面，基于帧差的运动检测本身就具有完全普适性，对任何运动物体均无差别地产生响应。除此之外，针对空基平台的运动性使得所采集监视视频含有一定的镜头运动，影响视频中目标运动特征的可靠性的问题，本实施例提供的方法为了解决镜头运动带来的影响，对运动特征的提取和应用采用了多尺寸卷积特征融合的设计，通过不同尺寸感受野对特征的抽象描述过滤镜头运动。同时，还专门部署了背景抑制模块来控制镜头运动噪声的影响。最后，为了满足实时跟踪的要求，本实施例提供方法中的跟踪器网络采用完全离线训练的方式，减少了模型在线训练和更新的计算代价，显著提高了方法时效性，达到实时跟踪的要求。

图3是本发明根据一示例性实施例示出的一种面向空基监视场景的目标跟踪装置的结构示意图。本实施例提供的目标跟踪装置，包括：

视频帧提取模块301，用于实时获取目标对象的待跟踪视频，并对所述待跟踪视频进行解帧，以提取第一帧以及第二帧，其中，所述第一帧为当前时刻对应的图像帧，所述第二帧为所述第一帧的前一帧；

图片截取模块302，用于对所述第一帧进行剪裁截取得到第一兴趣区域图像，并对所述第二帧进行剪裁截取得到目标模板图像以及第二兴趣区域图像；

位置计算模块303，用于将所述目标模板图像以及所述第一兴趣区域图像输入预设的外观跟踪器网络，得到外观跟踪位置，还用于将所述第一兴趣区域图像以及所述第二兴趣区域图像输入预设的运动跟踪器网络，得到运动跟踪位置；

位置融合模块304，用于将所述外观跟踪位置以及所述运动跟踪位置输入深度融合网络，得到融合后的最终跟踪位置。

在图3所示实施例的基础上，图4是本发明根据一示例性实施例示出的另一种目标跟踪装置的结构示意图。本实施例提供的目标跟踪装置，还包括：

目标还原模块305，用于根据所述最终跟踪位置在所述第一帧中显示输出所述最终跟踪结果。

在一种可能的设计中，所述图片截取模块302，具体用于：

在一种可能的设计中，所述位置计算模块303，具体用于：

在一种可能的设计中，所述位置融合模块304，具体用于：

图3-4所示实施例提供的面向空基监视场景的目标跟踪装置，可用于执行上述图2-图3所示的实施例提供的方法，具体实现方式和技术效果类似，这里不再赘述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种面向空基监视场景的目标跟踪方法，其特征在于，包括：

2.根据权利要求1所述的面向空基监视场景的目标跟踪方法，其特征在于，在所述将所述外观跟踪位置以及所述运动跟踪位置深度融合网络，得到融合后的最终跟踪位置之后，还包括：

3.根据权利要求1所述的面向空基监视场景的目标跟踪方法，其特征在于，所述最终跟踪结果为显示在所述第一帧中的第一矩形限位框，所述第一矩形限位框用于表征所述目标对象的当前位置。

4.根据权利要求3所述的面向空基监视场景的目标跟踪方法，其特征在于，所述对所述第一帧进行剪裁截取得到第一兴趣区域图像，包括：

5.根据权利要求4所述的面向空基监视场景的目标跟踪方法，其特征在于，所述对所述第二帧进行剪裁截取得到目标模板图像以及第二兴趣区域图像，包括：

6.根据权利要求5所述的面向空基监视场景的目标跟踪方法，其特征在于，所述将所述目标模板图像以及所述第一兴趣区域图像输入预设的外观跟踪器网络，得到外观跟踪位置，包括：

7.根据权利要求6所述的面向空基监视场景的目标跟踪方法，其特征在于，所述将所述第一兴趣区域图像以及所述第二兴趣区域图像输入预设的运动跟踪器网络，得到运动跟踪位置，包括：

8.根据权利要求7所述的面向空基监视场景的目标跟踪方法，其特征在于，所述将所述外观跟踪位置以及所述运动跟踪位置输入深度融合网络，得到融合后的最终跟踪位置，包括：

9.根据权利要求1-8中任意一项所述的面向空基监视场景的目标跟踪方法，其特征在于，所述外观跟踪器网络、所述运动跟踪器网络以及所述深度融合网络均为卷积神经网络结构，且均采用端到端离线训练的方式进行训练。

10.一种面向空基监视场景的目标跟踪装置，其特征在于，包括：