CN111833378A

CN111833378A - 一种基于代理共享网络的多无人机单目标跟踪方法及装置

Info

Publication number: CN111833378A
Application number: CN202010518074.XA
Authority: CN
Inventors: 朱鹏飞; 庄剑; 张重阳; 郑佳宇; 张轩宇; 胡清华
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2020-10-27

Abstract

本发明公开了一种基于代理共享网络的多无人机单目标跟踪方法及装置，所述方法包括以下步骤：操纵多个无人机从不同方面对相同的目标进行拍摄和跟踪，收集得到的数据集被分为训练集和测试集；通过ASNet网络模型在多个无人机上训练共同的跟踪器，该跟踪器能有效地实时学习目标外观变换和背景抑制变换，获取多无人机模板的响应图，并采用自监督的方式融合响应图，通过视野感知融合获得跟踪结果；使用训练集训练ASNet网络模型，使用验证集测试ASNet网络模型，用户使用训练完成的ASNet网络模型获取跟踪结果。所述装置包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。本发明显著提高了目标的跟踪精度。

Description

一种基于代理共享网络的多无人机单目标跟踪方法及装置

技术领域

本发明涉及目标跟踪领域，尤其涉及一种基于代理共享网络的多无人机单目标跟踪方法及装置。

背景技术

目标跟踪是计算机视觉中一个长期的、基础的且具有挑战性的问题，人们已经在该领域研究长达几十年。目标跟踪分为单目标跟踪和多目标跟踪。单目标跟踪的任务定义为：给定某视频序列初始帧的目标大小与位置，预测后续帧中该目标的大小与位置。多目标跟踪的定义为：给定一个图像序列，找到图像序列中运动的物体，并将不同帧中的运动物体一一对应，然后给出不同物体的运动轨迹。

受深度学习在图像分类和目标检测领域成功应用的启发，基于深度学习的目标跟踪取得了优异的性能。目前，目标跟踪领域提出了许多具有重要意义的基准数据集，如VOT^[1]、OTB^[2]、LaSOT^[3]、UAV123^[4]、Campus^[5]、VisDrone-2018^[6]和UAVDT^[7]等。这些数据集具有高清的视频帧和丰富的注释，大大推动了目标跟踪领域的发展。基于上述数据集，涌现出大量的优秀算法，如KCF^[8]、MDNet^[9]、SiamFC^[10]、SiamRPN++^[11]等，以SiamRPN++为例，其通过Siamese Network(孪生神经网络)进行特征提取并通过Region Proposal Network(提取候选区域网络)产生候选区域实现了端到端的训练，在VOT、OTB等数据集上均取得了较好的表现。这些算法对于改良目标跟踪的性能起了重要的意义。

然而，现存的数据集大多是针对单摄像头或者使用静态的传感器进行多摄像头跟踪。随着时代的发展，无人机由于灵活度高、跟踪距离长的特性引起了人们的关注，但是针对多无人机的数据集尚有所欠缺。同时，由于受到目标外观变化、遮挡物和视野外物体的影响，目前已有的单目标跟踪模型的性能常受到限制。

虽然一些基于多摄像头的算法能够使用多个摄像头来评估公共子空间，起到融合多视图信息、提升模型鲁棒性的效果，但是该方法主要为多目标跟踪设计，无法直接应用到单目标跟踪中。

参考文献：

[1]M.Kristan,A.Leonardis,J.Matas,M.Felsberg,R.P.Pflflugfelder,L.Cehovin,T.Voj′1r,G.Hager,A.Lukezic,and et al.,“The visual object trackingVOT2016 challenge results,”in ECCVW,2016,pp.777–823.

[2]Y.Wu,J.Lim,and M.-H.Yang,“Object tracking benchmark,”T-PAMI,vol.37,no.9,pp.1834–1848,2015.

[3]H.Fan,L.Lin,F.Yang,P.Chu,G.Deng,S.Yu,H.Bai,Y.Xu,C.Liao,and H.Ling,“Lasot:A high-quality benchmark for large-scale single object tracking,”inProceedings of the IEEE Conference on Computer Vision and PatternRecognition,2019,pp.5374–5383.

[4]M.Mueller,N.Smith,and B.Ghanem,“A benchmark and simulator for UAVtracking,”in ECCV,2016,pp.445–461.

[5]A.Robicquet,A.Sadeghian,A.Alahi,and S.Savarese,“Learning socialetiquette:Human trajectory understanding in crowded scenes,”in ECCV,2016,pp.549–565.

[6]P.Zhu,L.Wen,X.Bian,H.Ling,and Q.Hu,“Vision meets drones:Achallenge,”CoRR,vol.abs/1804.07437,2018.

[7]D.Du,Y.Qi,H.Yu,Y.Yang,K.Duan,G.Li,W.Zhang,Q.Huang,and Q.Tian,“Theunmanned aerial vehicle benchmark:object detection and tracking,”in ECCV,2018,pp.370–386.

[8]D.Comaniciu,V.Ramesh,and P.Meer,“Real-time tracking of non-rigidobjects using mean shift,”in CVPR,vol.2.IEEE,2000,pp.142–149.

[9]H.Nam and B.Han,“Learning multi-domain convolutional neuralnetworks for visual tracking,”in CVPR,2016,pp.4293–4302.

[10]L.Bertinetto,J.Valmadre,J.F.Henriques,A.Vedaldi,and P.H.Torr,“Fully-convolutional siamese networks for object tracking,”in ECCV.Springer,2016,pp.850–865.

[11]B.Li,W.Wu,Q.Wang,F.Zhang,J.Xing,and J.Yan,“Siamrpn++:Evolution ofsiamese visual tracking with very deep networks,”in CVPR,2019.

发明内容

本发明提供了一种基于代理共享网络的多无人机单目标跟踪方法及装置，本发明制作了第一个基于多无人机的单目标跟踪数据集，并在无人机上以自监督的方式训练一个公共的跟踪器，显著提高了目标的跟踪精度，详见下文描述：

一种基于代理共享网络的多无人机单目标跟踪方法，所述方法包括以下步骤：

操纵多个无人机从不同角度对相同的目标进行拍摄和跟踪，收集得到的数据集被分为训练集和测试集；

通过ASNet网络模型在多个无人机上训练共同的跟踪器，该跟踪器能有效地实时学习目标外观变换和背景抑制变换，获取多无人机模板的响应图，并采用自监督的方式融合响应图，通过视野感知融合获得跟踪结果；

使用训练集训练ASNet网络模型，使用验证集测试ASNet网络模型，用户使用训练完成的ASNet网络模型获取跟踪结果。

其中，所述数据集包括：互不重叠的双无人机数据集和三无人机数据集，数据集中的视频序列分为若干种类和属性标签。

进一步地，所述ASNet网络模型基于DSiam的网络结构，用于在多个无人机上训练一个公共的跟踪器，并进行特征提取，实时学习目标外观变换和背景抑制变换。

其中，所述ASNet网络模型基于过去帧和当前帧的目标重新检测策略，具体为：

当目标跟踪评分小于等于阈值时，通过从局部到全局逐步扩大搜索区域的方式重新检测可能丢失的目标。

进一步地，所述采用自监督的方式融合响应图具体为：

所述ASNet网络模型使用前t-1帧的结果作为监督信号来指导V个模板的融合权重学习；

将融合权重与响应图综合考虑，得到第k个无人机跟踪器的融合响应图。

其中，所述融合权重具体为：

规定O_t ^kv表示第k个无人机使用第V个模板的跟踪目标，则融合权重u_t ^k通过以下公式学习：

其中，

为O_t ^kv的特征变换映射，λ_u为预设超参数。

其中，所述通过视野感知融合获得跟踪结果具体为：

对于第k个无人机的响应图，通过搜索最大值g(s_t ^k)得到各自的位置P_t ^k，并规定g(s_t ^k)表示第k个跟踪器第t帧的跟踪评分，得到最佳响应图b_t的索引为：

对于第b_t个无人机，

为表示第v个跟踪器第t帧的跟踪评分，相应的位置p_t ^bt即是第b_t个无人机中跟踪目标的位置，结合融合权重获得跟踪结果。

进一步地，所述方法还包括：通过AFS和IFS指标评价多无人机融合性能。

一种基于代理共享网络的多无人机单目标跟踪装置，所述装置包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的方法步骤。

本发明提供的技术方案的有益效果是：

1、本发明提出了第一个多无人机单目标跟踪数据集(MDOT)，该数据集由155组视频剪辑组成，具有259,793个高分辨率帧和丰富的注释；

2、本发明为多无人机单目标跟踪设计了两个新的评价指标，即自动融合评分(AFS)和理想融合评分(IFS)；AFS评估了多无人机跟踪器的性能，该跟踪器利用学习权值融合跟踪结果，而IFS是多无人机跟踪器理论上最优的融合性能；

3、本发明设计了一种用于多无人机视觉跟踪的代理共享网络(ASNet)，它能够有效地利用多无人机共享视图感知信息，显著提高目标跟踪的精度和成功率，同时可以作为多无人机单目标跟踪任务的基线跟踪器。

附图说明

图1为一种基于代理共享网络的多无人机单目标跟踪方法的流程图；

图2为整体网络结构示意图；

图3为MDOT数据集10种属性的数量分布图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

为了解决背景技术中存在的问题，本发明实施例提出了一种基于代理共享网络的多无人机单目标跟踪方法，其创新性在于提出了第一个多无人机单目标跟踪数据集(MDOT)并提出两个用于评价多无人机单目标跟踪的新指标用于评价算法性能。同时，设计了一种用于多无人机视觉跟踪的代理共享网络，有效地利用多无人机共享视图感知信息，保证了多无人机单目标跟踪的效果和精确度。

实施例1

本发明实施例提供了一种基于代理共享网络的多无人机单目标跟踪方法，参见图1，该方法包括以下步骤：

101：操纵多个无人机从不同的高度、不同的角度、在不同的户外场景对相同的目标进行拍摄和跟踪，收集得到的数据被分为训练集和测试集；

进一步地，使用VATIC(半自动化视频标注工具)来标注目标的位置、障碍物和视野外信息，使用LabelMe(图形标注工具)来修正和逐帧核对。其中，目标被分为9个种类，包括行人、车辆、狗等。所有视频序列被标注为10个属性，包括白天(DAY)、夜晚(NIGHT)、相机运动(CM)、半遮挡(POC)、全遮挡(FOC)、视野外物体(OV)、相似目标(SO)、视点改变(VC)、光照变化(IV)、低分辨率(LR)。具体10个属性标签的数量分布如图2所示。

102：通过ASNet网络模型(即基于代理共享网络的目标跟踪模型)在多个无人机上训练一个共同的跟踪器，该跟踪器能有效地实时学习目标外观变换和背景抑制变换，获取多无人机模板的响应图，并采用自监督的方式融合响应图，获得跟踪结果；

具体实现时，由于多无人机模板的可靠性不同，因此采用一种自监督的方式融合多模板响应图，获得跟踪结果。

103：使用训练集训练ASNet网络模型，使用验证集测试ASNet网络模型，并通过AFS和IFS指标评价多无人机融合性能；

104：用户使用训练完成的ASNet网络模型获取跟踪结果。

综上所述，本发明制作了第一个多无人机单目标跟踪数据集，并设计了两个指标AFS和IFS来评价算法性能；同时，本发明设计了一种基于代理共享网络的目标跟踪模型，使用户能够获得更精确的目标跟踪结果。

实施例2

下面结合具体的实例、计算公式对实施例1中的方案进行进一步地介绍，详见下文描述：

一、数据准备

本发明通过操纵多个无人机从不同的高度、不同的角度、在不同的户外场景对相同的目标进行拍摄和跟踪，收集得到的数据被分为训练集和测试集。进一步地，本发明使用VATIC工具来标注图像的位置、障碍物和视野外信息，使用LabelMe工具来修正和逐帧核对标注。

其中，MDOT数据集总共包括由259793个高清视频帧组成的155组视频片段，可分为两个互不重叠得子数据集。其中，基于双无人机拍摄的数据集(Two-MDOT)包括由113918个高清视频帧组成的92组视频，基于三无人机拍摄的数据集(Three-MDOT)包括由145875个高清视频帧组成的63组视频。由于两个子数据集的拍摄时间不同，故它们之间没有重叠。155段视频序列被分为9个种类，包括行人、小轿车、摩托车、自行车、货车、狗等。

进一步地，所有视频序列被标注为10个属性，包括白天、夜晚、部分遮挡、全遮挡、视野外物体、相似目标等。和其他经典的单目标跟踪类似，手动标注跟踪目标在第一帧中不同无人机的同一对象。

二、模型的设计

ASNet的网络模型设计可以具体为以下四个方面：

1、基于DSiam的网络架构：

鉴于DSiam网络能有效地实时学习目标外观变换和背景抑制变换，同时考虑到所有跟踪目标均处于相同场景之下，本发明基于DSiam为所有的无人机训练一个公共的深度学习跟踪器。规定O₁ ^v为第v个无人机的第一帧模板，Z_t ^v为第v个无人机的第t帧搜索区域，O_t-1 ^v为第v个无人机追踪目标的第t-1帧。

通过卷积神经网络，模板和搜索区域的特征可被提取出来记为F₁ ^v＝f(O_i ^v)，F_t-1 ^v＝f(Z_i ^v)，则对于代理共享网络的第v个无人机的目标外观变换M_t-1 ^v可以通过如下公式进行学习：

其中

为mathtype编辑器中的循环卷积符号，为本领域技术人员所公知，M为目标外观变换张量，λ_m为预设参数。

类似的，背景抑制变换W_t-1 ^v可以通过如下公式学习：

其中，G_t-1 ^v是和Z_t-1 ^v相同大小的以目标为中心的区域，

可通过G_t-1 ^v和高斯权重图相乘得到，W为背景抑制变换张量，

为G_t-1 ^v的特征图，

为

的特征图。最终，多无人机跟踪的结果可以根据跟踪评分来获得。

2、目标重新检测：

在无人机跟踪中，由于摄像机运动频繁，目标的位置可能会在连续的视频帧中发生剧烈的变化。为解决这一问题，本发明使用基于过去帧和当前帧的目标重新检测策略，即当目标跟踪评分小于等于阈值w_t ^q时，则通过从局部到全局逐步扩大搜索区域的方式重新检测可能丢失的目标。对目标重新检测阈值的定义如下：

其中，l_q ^t表示过去q帧的一组跟踪评分。μ_t ^q、σ_t ^q表示l_q ^t的平均值和标准差，λ为一个预设参数。

3、自监督模板共享：

由于目标的外观各异，多个无人机共享模板相较于单个无人机能增强模型的鲁棒性。故采取如下策略得到第k个无人机追踪器对应的第v个无人机模板的响应图S_t ^kv：

其中，corr(A,B)表示相关函数，

表示Z_t ^k的特征变换映射。

对于第k个无人机，为了融合获得的一系列响应图S_t ^k1,S_t ^k2,…,S_t ^kv，本发明提出了一种自监督策略，即使用之前t-1帧的结果作为监督信号来指导V个模板的融合权重学习。

规定O_t ^kv表示第k个无人机使用第v个无人机模板的跟踪目标，则融合权重u_t ^k可以通过以下公式学习：

其中，

为O_t ^kv的特征变换映射，λ_u为预设超参数。

融合权重反映了被跟踪目标和第t-1帧目标模板之间的相关性，将其与响应图综合考虑，可以得到第k个无人机跟踪器的融合响应图为：

其中，

为融合权重，

为使用第v个无人机模板的第k个无人机的第t帧的融合响应图。

因此，根据公式(6)，对于一个V个无人机的目标跟踪系统来说，可以获得V个融合的响应图。

4、视野感知融合：

当获得了V个融合的响应图之后，本发明采取自动的视野感知融合机制来产生多无人机跟踪的最终结果。对于第k个无人机的响应图，通过在其中搜索最大值g(s_t ^k)得到各自的位置P_t ^k，并规定g(s_t ^k)表示第k个跟踪器第t帧的跟踪评分。因此，可根据公式(6)得到最佳响应图b_t的索引为：

对于第b_t个无人机，

为表示第v个跟踪器第t帧的跟踪评分，相应的位置p_t ^bt即是第b_t个无人机中跟踪目标的位置。结合融合权重即可获得目标的最终位置。

三、模型的训练和测试

用户使用MDOT数据集中的训练集进行训练，使用MDOT数据集中的验证集进行测试，并根据AFS和IFS指标判断算法性能。其中，自动融合评分(AFS)评估使用在线融合策略融合跟踪结果，对多无人机跟踪器性能进行评价。规定h_i ^v和y_i ^v为跟踪结果，则AFS定义为：

其中，s(,)为单目标跟踪的评价指标，w_v为第v台无人机所占权重，n为视频帧的数量，V为无人机的数量。w_v的值应该为0或1，其在跟踪过程中自动学习并且对每一帧实时更新。

理想融合评分(IFS)对多无人机跟踪系统的极限性能进行了评价，为设计高性能的多无人机跟踪系统提供了理论依据。规定h_i ^v和y_i ^v分别为第i帧、第v个无人机的跟踪结果和真实值，则IFS定义为：

本模型实施例具有以下三个关键创造点

一、提出了第一个多无人机单目标跟踪数据集(MDOT)；

技术效果：该数据集由155组视频片段组成，包括双无人机数据集和三无人机数据集，分为9个种类和10种属性标签，具有高分辨率的视频帧和丰富的注释，便于用户对多无人机单目标跟踪模型训练。

二、设计了一种用于多无人机视觉跟踪的代理共享网络(ASNet)；

技术效果：训练的模型具有优异的性能，在双无人机子数据集上，将模型的成功率相较于目前最优的跟踪器提高了8.3，将模型的精确度提高了14.8；在三无人机子数据集上，将模型的成功率相较于目前最优的跟踪器提高了7.8，将模型的精确度提高了12.6。

三、提出了AFS和IFS评价指标

技术效果：自动融合评分(AFS)评估了多无人机融合跟踪结果的表现，理想融合评分(IFS)评估了多无人机跟踪器理论上最优的融合性能。

综上所述，本方法通过包含自监督模板共享、视野感知融合、目标重新检测三个模块的代理共享网络实现了多无人机的单目标跟踪，达到了更高的成功率和精确度。与此同时，MDOT数据集的收集制作和AFS、IFS指标的提出为用户训练和测试多无人机跟踪模型提供了基础。

实施例3

本发明实施例采用的实验结果1如表1所示，该表反应了采取多无人机跟踪的必要性和优越性，展示了本方法针对MDOT的两个子数据集，在成功率和精确度方面都较之前方法有了较大提高。

本发明实施例采用的实验结果2如表2所示。该结果展示了使用本方法所述训练方案训练的ASNet在本方法所述的测试条件下的结果，于DSiam在MDOT的测试集上的结果相比，性能有了非常显著的提升。这主要是由于模型增加的视觉感知融合机制(VM,View-aware Fusion)，其融合了多无人机捕捉到的互补信息，大幅提升了模型的精确度和成功率。该结果还展示了加入模板共享机制(TS,Template Sharing)和目标重新检测(RD,Re-detection)之后，模型性能均在不降低速度的前提下取得了不同程度的优化。

表1

表2

实施例4

一种基于代理共享网络的多无人机单目标跟踪装置，该装置包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行程序时实施实施例1和2中的方法步骤。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。