CN113240708A

CN113240708A - 一种用于跟踪无人机的双边流语义一致性方法

Info

Publication number: CN113240708A
Application number: CN202110437098.7A
Authority: CN
Inventors: 赵健; 温志津; 刘阳; 鲍雁飞; 雍婷; 张清毅; 胡凯; 李晋徽; 晋晓曦
Original assignee: 32802 Troops Of People's Liberation Army Of China
Current assignee: 32802 Troops Of People's Liberation Army Of China
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2021-08-10
Anticipated expiration: 2041-04-22
Also published as: CN113240708B

Abstract

本发明公开了一种用于跟踪无人机的双边流语义一致性方法，采用双边流语义一致性跟踪网络来实现，双边流语义一致性跟踪网络包含特征提取模块、类别级语义调制模块、实例级语义调制模块，其具体步骤包括：构建用于训练和验证无人机跟踪性能的多模态基准数据集；在类别级语义调制阶段的跟踪器中，采用类级别的语义调制来搜索尽可能包含无人机的锚点框，同时联合使用跨视频序列的特征来搜索、筛选并输出包含无人机特征的候选框；最后利用细粒度的实例级功能来优化调整候选框与目标真值框间的差异。本方法融合目标在多模态下的信息并充分利用了目标跨不同视频序列的语义特征，提高了跟踪器的鲁棒性和辨别能力同时不会引入任何额外的推理时间。

Description

一种用于跟踪无人机的双边流语义一致性方法

技术领域

本发明属于计算机视觉领域，尤其涉及一种用于跟踪无人机的双边流语义一致性方法。

背景技术

近年来，由于商业和娱乐用途无人机(UAV)的普及性大大提高，无人机具有了很广泛的应用，例如地面场景航拍、自主着陆、目标检测和跟踪。然而在这些实际应用的背后，对无人机运行状态(包括位置和轨迹)的监视至关重要。目前提出的大多数目标跟踪器都是基于RGB图像信息的。但是，在光线不足的情况下，这类跟踪器可能无法找到目标有用的提示，从而导致其跟踪结果不可靠。为了解决这一问题，目前提出了采用红外图像进行目标跟踪的方法。然而，红外图像仍然存在分辨率较低的问题，无法为跟踪器提供目标足够的信息。

发明内容

针对光线不足的情况下无人机监视和跟踪问题，本发明将可见光和红外图像中的信息进行融合以实现无人机跟踪，利用多模式的信息学习实现无人机跟踪器。本发明公开了一种用于反无人机的多模态基准数据集(Anti-UAV)的构建方法，其中Anti-UAV数据集主要为可见光和红外的高清视频序列对,每个视频序列都包含表示目标对象是否存在的边界框、目标属性和目标标志。本发明还公开了一种用于跟踪无人机的网络模型，称为双边流语义一致性跟踪网络，其包含特征提取模块、类别级语义调制模块、实例级语义调制模块。由于多模态基准数据集中的所有不同的视频序列中的标记的对象仅为单目标的无人机，因此该网络可以充分利用目标跨不同视频序列的特征。

在类别级语义调制阶段的跟踪器中，采用类别级的语义调制来搜索并生成锚点框，同时联合使用跨视频序列的特征来搜索、筛选并输出包含无人机特征的候选框，以减少类内差异；最后利用细粒度的实例级功能来优化调整候选框与带有目标实例信息的真值框间的差异，提高目标检测与跟踪的精准度。本方法融合目标在多模态下的信息并充分利用了目标跨不同视频序列的语义特征，提高了跟踪器的鲁棒性和辨别能力。然而，由于双边流语义一致性方法仅在训练中起作用，因此不会影响推理时的算力和时间消耗。

本发明公开了一种用于跟踪无人机的双边流语义一致性方法，采用双边流语义一致性跟踪网络，简称跟踪器，来实现，双边流语义一致性跟踪网络包含特征提取模块、类别级语义调制模块、实例级语义调制模块，所述的三个模块依次连接，其具体步骤包括：

S1，构建用于训练和验证无人机跟踪性能的多模态基准数据集。采集若干个同时含有热红外和可见光的视频序列对。针对每个可见光和红外视频图像都进行无人机目标的边界框标注，再标注图像中的目标属性和无人机存在与否的标签，如果图像中存在目标，则该标签取值为1，否则该标签取值为0，目标属性包括目标是否飞离视线之外、目标是否被遮挡、目标是否快速移动、目标是否存在尺度变化、目标是否处于不同的亮度模式、是否存在热交叉、是否存在目标低分辨率等；将每张图像标注的内容保存到一个json格式的文件内，每张图像的标准内容对应一个文件。多模态基准数据集被划分为训练集、验证集和测试集，上述三种数据集划分数目的比例为5:2:3，其中训练集和验证集来自同一视频的非重叠片段，测试集采用的视频片段与训练集和验证集均不相同且其包含的目标属性比训练集更多。多模态基准数据集中视频的内容为在空中飞行的单目标无人机。为了增加无人机背景的多样性和目标检测的复杂性，在采集视频对数据时设计多种场景，包括目标飞离视线之外、目标被遮挡、目标快速移动、目标尺度变化、不同的亮度模式(白天和夜晚)、热交叉和目标低分辨率等。

所述的目标被遮挡，是指目标被建筑物、云彩或树木等引起部分或全部遮挡。

所述的目标快速移动，是指目标在两个相邻帧之间移动的位置超过60个像素。

所述的目标尺度变化，是指视频图像中第一帧和视频图像中某一帧的目标边界框大小比率取值范围超过[0.66,1.5]。

所述的不同亮度模式，是指在采集视频数据时，存在白天和夜晚两种模式，白天模式目标区域亮度高，夜晚模式目标区域亮度低。

所述的热交叉,是指采用热红外的方式采集视频数据，采集的视频里存在目标温度和其他物体或者环境温度相接近的状况，导致目标不易区分。

所述的目标低分辨率，是指图像的目标边界框内目标像素的数目小于400。

对于多模态基准数据集，其中的宽度为w、高度为h的无人机目标的尺度值s(w,h)的计算公式为：

依据所述的多模态基准数据集，对其中所有的无人机目标进行尺度值计算，设置无人机目标尺度值的上界和下界，根据无人机目标尺度值，对所有的无人机目标尺度值进行筛选，剔除目标尺度值大于上界或小于下界的无人机，以使训练集、验证集和测试集中的目标尺度值取值范围区间相似。在无人机目标跟踪过程中需要感知视频内无人机的存在状态，无人机的存在状态是指无人机是否存在以及标注的无人机边界框与其对应目标真值边界框之间的重叠面积，因此，需要计算无人机在视频图像内的存在状态的精度值SA(StateAccuracy)：

式中，IOU_t为t时刻正在被跟踪无人机目标被标注的边界框与其对应目标真值边界框之间的重叠度，T为该视频序列的总时长。v_t为t时刻目标真值的存在标签值；p_t为t时刻跟踪器对目标的预测值，其用于衡量目标状态的准确度。存在状态的精度值SA用于计算目标在每一个视频序列中存在状态的平均值。

S2，目标特征提取。所述的目标特征，包括无人机目标尺寸、形状、位置等。目标特征提取采用RCNN算法来实现，其具体包括，采用双支路网络分别对存在于不同模态视频图像内的无人机目标进行特征提取，并充分利用两支路间跨不同视频序列的语义信息进行目标跟踪。每一批次将两个不同的视频序列输入双边流语义一致性跟踪网络，然后采用Alexnet网络对图像中的无人机目标进行特征学习。Alexnet网络的特征提取部分采用了5个卷积层、2个全连接层，其中每个卷积层都含有一个池化层，最后一个卷积层中的池化层采用的神经元个数为9216，2个全连接层的神经元个数皆为4096。通过该Alexnet网络网络的训练，每个输入的无人机目标都得到一个4096维的特征向量。

S3，类别级语义调制。采用基于GlobalTrack目标跟踪模型的查询引导RegionProposal Network，RPN，的策略，该策略通过使用跨不同视频序列的特征查询方法来调制搜索的区域，输出Region Of Interest特征，简称ROI特征，跨不同视频序列的特征查询过程表示为：

式中，z_i表示第i个视频序列查询的ROI(Region Of Interest)特征，x_j表示第j个视频序列经过Alexnet网络对图像提取到的搜索区域特征，视频序列经过Alexnet网络对图像提取到的搜索区域即为目标候选框，f_C为基于z_i和x_j的不同组合来联合对视频序列内和跨视频序列进行特征调制的调制器函数。

具有与图像特征x_j相同的大小，表示用于生成候选信息的对第i和第j个视频序列的调制特征。f_out为用于对齐

和x_j对应的图像通道特征的函数，f_z和f_x为分别作用于z_i和x_j来得到投射特征的函数，

表示卷积操作。变量i和j的取值范围在0和批次总数n之间，当i和j不相等时，采用跨序列的图像调制法；当i和j相等时，采用的图像调制法为帧内序列相关方法，所述的帧内序列相关方法，其采用帧间差分法，对目标在时间上连续的五帧图像进行像素间的差分计算。在对双边流语义一致性跟踪网络进行训练过程中，针对类别级语义调制的分类和回归操作，采用的损失函数为：

其中，α是用于调整L_same和L_cross之比的权重系数，L_same为视频序列内调制后的PRN(Proposal Region Network)预测的损失函数，L_cross为跨序列调制后的RPN预测的损失函数，z_j表示第j个视频序列查询的ROI(Region Of Interest)特征，x_i表示第i个视频序列经过Alexnet网络对图像提取到的搜索区域特征，

为调制特征

时的RPN预测的损失函数。在对双边流语义一致性跟踪网络进行训练过程中，RPN预测的损失函数表示为：

其中，β为用于平衡类别级语义调制阶段分类操作和回归操作的损失函数的权值，L_cls(·)表示平衡类别级语义调制阶段分类操作的损失函数，L_reg(·)表示平衡类别级语义调制阶段回归操作的损失函数，s_u和

分别表示对第u个目标预测的分类得分与对应目标真实值之间的分类得分，p_u和

分别为第u个目标候选框与对应真实目标的边界框位置，n₀为目标总数，所述的候选框，是指对图像内的目标生成的所有锚点框进行筛选后输出的目标边界框。

S4，实例级语义调制。当已经完成了对当前目标特征所属视频序列的查询进行设置后，目标的候选框用于优化分类的准确度及目标候选框与目标真值框间的距离差值。针对在类别级语义调制步骤中查询图像获得的ROI特征z和已选出的第k个目标候选框x′_k，其在实例级语义阶段经过调制得到ROI特征

的过程为：

其中，获取z的顺序与获取目标候选框的顺序相同。f_I为用于将不同目标的实例信息调制为已选择的候选框的函数，f_out′为用于将调制特征和候选框调整为相同维度变量的函数。f_z′和f_x′分别代表ROI特征和目标候选框的特征投射函数，⊙表示Hadamard积。

然后，对双边流语义一致性跟踪网络进行训练，将调制得到的第k个目标ROI特征

用于分类和回归，得到的无人机目标跟踪结果L_I表示为：

其中，N_pnum表示步骤S3中得到的目标候选框的数目。对于调制得到的第k个目标ROI特征

其采用的损失函数为：

其中，s_n′和s_n″分别代表双边流语义一致性跟踪网络对第n个目标跟踪的置信度和对应目标真实值的置信度，p_n和p_n″分别为第n个目标候选框及对应真实目标的边界框位置。

所述的特征提取模块用于完成步骤S2所述的目标特征提取，所述的类别级语义调制模块用于完成步骤S3所述的类别级语义调制，所述的实例级语义调制模块用于完成步骤S4所述的实例级语义调制。

本发明的有益效果为：

本发明可以为军事和民用的重大基础设施完成智能化无人机跟踪，例如机场的无人机和鸟群安全隐患排查，以此提供鸟类和无人机的跟踪检测任务、城市无人机“黑飞”的智能化跟踪识别等。在实施上，可以采用软硬件相结合的方式进行跟踪任务；也可以安装于后台服务器，提供大批量后台目标跟踪检测。与现有方法相比，本发明解决了过去由基于目标单一的可见光或红外图像信息引起的网络无法提取目标有用信息问题，导致跟踪检测任务失败。本方法融合目标在多模态下的信息并充分利用了目标跨不同视频序列的语义特征用于跟踪无人机，提高了跟踪器的鲁棒性和辨别能力同时不会引入任何额外的推理时间。

附图说明

图1为本发明方法所用的双边流语义一致性跟踪网络的网络模型图；

图2为本发明方法的实施流程图；

图3为本发明的多模态数据集中所采集的无人机类型；

图4为本发明的多模态数据集中无人机的位置和尺度分布图；

图5为本发明的多模态数据集中无人机存在的不同属性截图；

图6为本发明的视频序列中不同属性的数量。

具体实施方式

为了更好的了解本发明内容，这里给出一个实施例。

本发明公开了一种用于跟踪无人机的双边流语义一致性方法，采用双边流语义一致性跟踪网络，简称跟踪器，来实现，双边流语义一致性跟踪网络包含特征提取模块、类别级语义调制模块、实例级语义调制模块，所述的三个模块依次连接，图1为本发明方法所用的双边流语义一致性跟踪网络的网络模型图；图2为本发明方法的实施流程图；其具体步骤包括：

S1，构建用于训练和验证无人机跟踪性能的多模态基准数据集。采集若干个同时含有热红外和可见光的视频序列对，其中每个视频的帧率为25，保存的格式为MP4。针对每个可见光和红外视频图像都进行无人机目标的边界框标注，再标注图像中的目标属性和无人机存在与否的标签，如果图像中存在目标，则该标签取值为1，否则该标签取值为0，目标属性包括目标是否飞离视线之外、目标是否被遮挡、目标是否快速移动、目标是否存在尺度变化、目标是否处于不同的亮度模式、是否存在热交叉、是否存在目标低分辨率等；将每张图像标注的内容保存到一个json格式的文件内，每张图像的标准内容对应一个文件。多模态基准数据集被划分为训练集、验证集和测试集，上述三种数据集划分数目的比例为5:2:3，其中训练集和验证集来自同一视频的非重叠片段，测试集采用的视频片段与训练集和验证集均不相同且其包含的目标属性比训练集更多。多模态基准数据集中视频的内容为在空中飞行的单目标无人机，其无人机类型包含大、中、小三种类型无人机，如DJI-Inspire、DJI-Phantom4、DJI-Marvic-Air、DJI-Marvic-Pro、DJI-Spark和Parrot。图3为本发明的多模态数据集中所采集的无人机类型。为了增加无人机背景的多样性和目标检测的复杂性，在采集视频对数据时设计多种场景，包括目标飞离视线之外、目标被遮挡、目标快速移动、目标尺度变化、不同的亮度模式(白天和夜晚)、热交叉和目标低分辨率等。图4为本发明的多模态数据集中无人机的位置和尺度分布图；图5为本发明的多模态数据集中无人机存在的不同属性截图；图6为本发明的视频序列中不同属性的数量。

对于多模态基准数据集，在采集时目标整体集中位于视频图像的中心区域，基于此标注完成的边界框也主要集中在图像的中心，其中的宽度为w、高度为h的无人机目标的尺度值s(w,h)的计算公式为：

S2，目标特征提取。由于不同的视频序列所包含的目标信息在帧前后存在相互关联，则跟踪器在训练过程中可以融合不同视频序列的特征。然而由于输入的可见光视频图像和红外视频图像大小不同，目标位置未对齐，不直接适用图像融合算法和权值共享的孪生网络算法，同时由于最初用于目标检测的RCNN算法结构上相对简单，因此可将其用作目标跟踪算法的主干网络。所述的目标特征，包括无人机目标尺寸、形状、位置等。目标特征提取采用RCNN算法来实现，其具体包括，采用双支路网络分别对存在于不同模态视频图像内的无人机目标进行特征提取，并充分利用两支路间跨不同视频序列的语义信息进行目标跟踪。每一批次将两个不同的视频序列输入双边流语义一致性跟踪网络，然后采用Alexnet网络对图像中的无人机目标进行特征学习。Alexnet网络的特征提取部分采用了5个卷积层、2个全连接层，其中每个卷积层都含有一个池化层，最后一个卷积层中的池化层采用的神经元个数为9216，2个全连接层的神经元个数皆为4096。通过该Alexnet网络网络的训练，每个输入的无人机目标都得到一个4096维的特征向量。

S3，类别级语义调制。该阶段主要用于寻找包含无人机目标的边界框，类似于目标检测中的锚点生成及目标框筛选问题。采用基于GlobalTrack目标跟踪模型的查询引导Region Proposal Network，RPN，的策略，该策略通过使用跨不同视频序列的特征查询方法来调制搜索的区域，输出ROI(Region Of Interest)特征，跨不同视频序列的特征查询过程表示为：

具有与图像特征xj相同的大小，表示用于生成候选信息的对第i和第j个视频序列的调制特征。f_out为用于对齐

为调制特征

S4，实例级语义调制。上一阶段已完成对无人机目标候选框的选择。在接下来的实例级语义调制阶段，主要关注与目标实例相关的信息，从而将目标实例和具有目标相似的外观信息或复杂背景的实例区分开来。当已经完成了对当前目标特征所属视频序列的查询进行设置后，目标的候选框用于优化分类的准确度及目标候选框与目标真值框间的距离差值。针对在类别级语义调制步骤中查询图像获得的ROI特征z和已选出的第k个目标候选框x′_k，其在实例级语义阶段经过调制得到ROI特征

的过程为：

用于分类和回归，得到的无人机目标跟踪结果L_I表示为：

其采用的损失函数为：

其中，s_n′和s_n″分别代表双边流语义一致性跟踪网络对第n个目标跟踪的置信度和对应目标真实值的置信度，p_n′和p_n″分别为第n个目标候选框及对应真实目标的边界框位置。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种用于跟踪无人机的双边流语义一致性方法，其特征在于，采用双边流语义一致性跟踪网络，简称跟踪器，来实现，双边流语义一致性跟踪网络包含特征提取模块、类别级语义调制模块、实例级语义调制模块，所述的三个模块依次连接，其具体步骤包括：

S1，构建用于训练和验证无人机跟踪性能的多模态基准数据集；采集若干个同时含有热红外和可见光的视频序列对；针对每个可见光和红外视频图像都进行无人机目标的边界框标注，再标注图像中的目标属性和无人机存在与否的标签，如果图像中存在目标，则该标签取值为1，否则该标签取值为0，目标属性包括目标是否飞离视线之外、目标是否被遮挡、目标是否快速移动、目标是否存在尺度变化、目标是否处于不同的亮度模式、是否存在热交叉、是否存在目标低分辨率；将每张图像标注的内容保存到一个json格式的文件内，每张图像的标准内容对应一个文件；多模态基准数据集被划分为训练集、验证集和测试集，上述三种数据集划分数目的比例为5:2:3，其中训练集和验证集来自同一视频的非重叠片段，测试集采用的视频片段与训练集和验证集均不相同且其包含的目标属性比训练集更多；多模态基准数据集中视频的内容为在空中飞行的单目标无人机；为了增加无人机背景的多样性和目标检测的复杂性，在采集视频对数据时设计多种场景，包括目标飞离视线之外、目标被遮挡、目标快速移动、目标尺度变化、不同的亮度模式、热交叉和目标低分辨率；

依据所述的多模态基准数据集，对其中所有的无人机目标进行尺度值计算，设置无人机目标尺度值的上界和下界，根据无人机目标尺度值，对所有的无人机目标尺度值进行筛选，剔除目标尺度值大于上界或小于下界的无人机，以使训练集、验证集和测试集中的目标尺度值取值范围区间相似；在无人机目标跟踪过程中需要感知视频内无人机的存在状态，无人机的存在状态是指无人机是否存在以及标注的无人机边界框与其对应目标真值边界框之间的重叠面积，因此，需要计算无人机在视频图像内的存在状态的精度值SA：

式中，IOU_t为t时刻正在被跟踪无人机目标被标注的边界框与其对应目标真值边界框之间的重叠度，T为该视频序列的总时长；v_t为t时刻目标真值的存在标签值；p_t为t时刻跟踪器对目标的预测值，其用于衡量目标状态的准确度；存在状态的精度值SA用于计算目标在每一个视频序列中存在状态的平均值；

S2，目标特征提取；所述的目标特征，包括无人机目标尺寸、形状、位置；目标特征提取采用RCNN算法来实现，其具体包括，采用双支路网络分别对存在于不同模态视频图像内的无人机目标进行特征提取，并充分利用两支路间跨不同视频序列的语义信息进行目标跟踪；每一批次将两个不同的视频序列输入双边流语义一致性跟踪网络，然后采用Alexnet网络对图像中的无人机目标进行特征学习；Alexnet网络的特征提取部分采用了5个卷积层、2个全连接层，其中每个卷积层都含有一个池化层，最后一个卷积层中的池化层采用的神经元个数为9216，2个全连接层的神经元个数皆为4096；通过该Alexnet网络网络的训练，每个输入的无人机目标都得到一个4096维的特征向量；

S3，类别级语义调制；采用基于GlobalTrack目标跟踪模型的查询引导RegionProposal Network，RPN，的策略，该策略通过使用跨不同视频序列的特征查询方法来调制搜索的区域，输出Region Of Interest特征，简称ROI特征，跨不同视频序列的特征查询过程表示为：

式中，z_i表示第i个视频序列查询的ROI特征，x_j表示第j个视频序列经过Alexnet网络对图像提取到的搜索区域特征，视频序列经过Alexnet网络对图像提取到的搜索区域即为目标候选框，f_C为基于z_i和x_j的不同组合来联合对视频序列内和跨视频序列进行特征调制的调制器函数；

具有与图像特征x_j相同的大小，表示用于生成候选信息的对第i和第j个视频序列的调制特征；f_out为用于对齐

表示卷积操作；变量i和j的取值范围在0和批次总数n之间，当i和j不相等时，采用跨序列的图像调制法；当i和j相等时，采用的图像调制法为帧内序列相关方法；在对双边流语义一致性跟踪网络进行训练过程中，针对类别级语义调制的分类和回归操作，采用的损失函数为：

其中，α是用于调整L_same和L_cross之比的权重系数，L_same为视频序列内调制后的ProposalRegion Network预测的损失函数，Proposal Region Network预测简称PRN预测，L_cross为跨序列调制后的RPN预测的损失函数，z_j表示第j个视频序列查询的ROI特征，x_i表示第i个视频序列经过Alexnet网络对图像提取到的搜索区域特征，