CN117876942A

CN117876942A - 基于卷积神经网络的无人机与飞鸟的监测方法

Info

Publication number: CN117876942A
Application number: CN202410278889.3A
Authority: CN
Inventors: 张强; 谢威宇
Original assignee: Civil Aviation Flight University of China
Current assignee: Civil Aviation Flight University of China
Priority date: 2024-03-12
Filing date: 2024-03-12
Publication date: 2024-04-12
Anticipated expiration: 2044-03-12
Also published as: CN117876942B

Abstract

本申请公开了基于卷积神经网络的无人机与飞鸟的监测方法。一种基于卷积神经网络的无人机与飞鸟的监测方法，包括如下步骤：步骤1：采用摄像设备对目标空域进行连续监测，获取目标空域按照时间序列的视频信息；步骤2：将视频信息输入到第一外观信息提取模型中，从视频信息中提取出边界特征信息；边界特征信息包括目标空域中的飞行物以及飞行物的边界框。本申请所提供的技术方案中，采用摄像设备不断的对目标空域进行监测，进而获得目标空域的视频信息。从视频信息中提取出飞行物的外形特征和轨迹特征，然后将外形特征和轨迹特征相互融合之后，用于无人机和飞鸟的判断，极大地增加了飞行物判断的准确性。

Description

基于卷积神经网络的无人机与飞鸟的监测方法

技术领域

本申请涉及神经网络技术领域，具体而言，涉及一种基于卷积神经网络的无人机与飞鸟的监测方法。

背景技术

无人机与飞鸟同属“低、慢、小”目标，然而二者对于民航运行安全的影响程度却存在显著差异。由于无人机具有可控性和未知性的特点，其对民航的安全运行带来了不可忽视的严重威胁。而民航在运行过程中，针对飞鸟和无人机是需要采用不同的应对措施的。如此，在发现空中存在不明飞行物时，会基于图像检测技术来分辨无人机和飞鸟。

目前的无人机和飞鸟的识别技术一般都是针对无人机或者飞鸟的外形进行识别。但是这种识别方式非常依赖监测设备的图像捕捉能力，在目标比较小，并且距离比较远的情况下，因为无法捕捉到清晰的目标图像，所以会存在漏检和误检的情况。进而导致民航航空器的飞行存在风险。

发明内容

本申请的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本申请的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

作为本申请的第一个方面。为了解决无人机和飞鸟无法准确识别，而对民航飞行的风险造成不利影响的技术问题，本申请提供了一种基于卷积神经网络的无人机与飞鸟的监测方法，包括如下步骤：

步骤1：采用摄像设备对目标空域进行连续监测，获取目标空域按照时间序列的视频信息；

步骤2：将视频信息输入到第一外观信息提取模型中，从视频信息中提取出边界特征信息；边界特征信息包括目标空域中的飞行物以及飞行物的边界框；

步骤3：将边界特征信息输入至第二外观信息提取模型中，从边界特征信息中提取出外形特征，外形特征包括飞行物的外观信息和颜色信息；

步骤4：利用视频信息构建出时空轨迹模型，从时空轨迹模型中提取出目标空域中飞行物的轨迹特征；

步骤5：将轨迹特征和外形特征进行融合得到融合特征，将融合特征输入至目标分类网络中，以对目标空域的飞行物进行分类。

本申请所提供的技术方案中，采用摄像设备不断的对目标空域进行监测，进而获得目标空域的视频信息。从视频信息中提取出飞行物的外形特征和轨迹特征，然后将外形特征和轨迹特征相互融合之后，用于无人机和飞行器的判断，极大地增加了飞行物判断的准确性。在实践中，无人机和飞鸟在距离摄像机比较近时，外形特征将会更加清楚，因而采用外形特征判断是无人机还是飞鸟将会更加准确，而在无人机和飞鸟距离摄像机比较远时，虽然无法获取准确的外观信息，但是能够捕捉飞行物的飞行轨迹，而飞鸟与无人机的飞行轨迹完全不一样的，如此也可以准确的判断出是无人机还是飞鸟。因而本申请所提供的技术方案，能够综合两种识别方式的优势，在无法准确的捕捉到飞行物的清晰图像时，依旧可以准确的判断出飞行物的种类，避免因为飞行物判断错误而对民航飞行所造成的不利影响。

进一步的，步骤1包括如下步骤：

步骤11：调准摄像设备的角度和焦距，对目标空域进行监测，得到目标空域的视频数据；

步骤12：从视频数据中提取出每帧图像得到视频数据的图像集合P，P={p₁、p₂、…p_l、…p_q}，p₁表示视频数据中按照时间序列提取的第1张图像，p₂表示视频数据中按照时间序列提取的第2张图像，p_l表示视频数据中按照时间序列提取的第l张图像，p_q表示视频数据中按照时间序列提取的第q张图像，l表示图像集合P中图像的索引，q表示图像集合P中图像的总数。

进一步的，第一外观信息提取模型包括MobileNetV3神经网络模型和YOLOv7的头部模块。

在对图像进行处理，以从图像中提取出目标时，一般会采用目标检测算法来提取图像中对应目标的特征。这种提取方式在实际运用中，一般是用于单张图片上复杂特征的提取，所以能够深度的提取出图像特征。但是，在本方案中，实际上是需要提取多张图像中特定目标的特征，所以直接采用复杂目标检测算法来提取对应的特征，会导致提取的时间过长，不能够快速的提取出所需要的信息，并且提取出来的信息过多还会导致后续的图像识别时，因为引入了过多的外形特征，而使得模型过拟合，在实际的预测上达不到很好的效果。

进一步的，步骤2包括如下步骤：

步骤21：将图像集合P输入至MobileNetV3神经网络模型中，从中提取出飞行物特征；

步骤22：将飞行物特征输入至YOLOv7的头部模块中，YOLOv7的头部模块中的锚框结构可以在训练之前对图像当中所有可能的目标生成所有可能的边界框特征矩阵。

本申请所提供的技术方案中，相比较于现有技术中直接采用YOLOv7中的主干网络结构（复杂目标检测算法）来提取图像特征，而是采用MobileNetV3神经网络模型替换了YOLOv7卷积神经网络结构中的主干模块，进而相比较于YOLOv7神经网络结构中繁琐的特征提取方式，本方案中所采用MobileNetV3卷积神经网络模型能够快速的提取出对应目标的特征信息，增加对于图片输入的速率，进而能够适当的减少无关特征的提取量，避免了在后续进行目标分类时，因为输入的数据过多而导致图像过拟合的问题，同时还能够增加处理效率，以及时的发出预警。

进一步的，步骤3中：第二外观信息提取模型包括BiFPN模块和SPD卷积模块。

在基于传统方法的无人机和飞鸟的识别中，会直接将图像转化为灰度图，再提取飞行物的边缘特征，以此来区分飞鸟和无人机。但是，连续拍摄的图片中并不一定能够清楚的展示出飞行物的外形特征，所以导致了最终的分辨结果不准确。

进一步的，步骤3包括如下步骤：

步骤31：将边界特征信息输入至BiFPN模块中，提取出外观矩阵信息；

步骤32：将外观矩阵信息输入至SPD卷积模块中，提取出外形特征。

本申请所提供的技术方案中，依次采用BiFPN模块提取外形特征，再采用SPD卷积模块进一步挖掘外形特征中色彩通道特征，所以相比较于现有方案中只考虑外形因素的方式，能够更加注重色彩通道，进而能够从色彩信息上辅助飞鸟和无人机的识别工作。

进一步的，步骤31中，边界特征信息输入至BiFPN模块中，在BiFPN模块的各层中进行信息提取，得到外观矩阵信息；n=（3,4,5,6,7）各层的运算方式如下：

其中，Resize()通常表示上采样或下采样操作，表示每层中对应的中间运算模块中的学习权重，/>表示每层输出模块中对应的学习权重，学习权重均具体由每层运行参数通过pytorch函数计算所得，不固定为某特定值，/>表示P3层运算后的输出，/>表示P4层的运算中间模块，/>表示什么P4层运算后的输出，/>表示P5层的运算中间模块，/>表示什么P5层运算后的输出，/>表示P6层的运算中间模块，/>表示P6层运算后的输出，/>表示P7层运算后的输出，/>表示卷积操作，/>表示P3层输入的前序特征矩阵，/>表示P4层输入的前序特征矩阵，/>表示P5层输入的前序特征矩阵，/>表示P6层输入的前序特征矩阵，/>表示P7层输入的前序特征矩阵，前序特征矩阵均由主干网络提取到的特征卷积进行多层卷积逐层获取；/>表示权重的归一化常数；上述公式输出结果将进行上采样操作并依然以特征矩阵的形式进行融合后输入到后续的处理模块当中。

进一步的，步骤32中，对于任意大小为（S,S,C₁）的特征图X，经过切割得到以下子特征图序列：

接着将特征子图进行融合得到大小为的外形特征D，且/>通道大小满足/>，/>表示将图像尺寸缩减但通道扩充的倍数。

其中，特征图X中，第一个S表示矩阵的行数，第二个S表示矩阵列数，C₁表示原始矩阵的通道数，表示所设置的矩阵缩放大小，一般手动设置为大于等于2小于等于5的数，/>表示在进行SPD卷积操作时运算过程当中所生成的特征子图，用作输入和输出之间跳板的作用，/>分别表示输出矩阵的行数、列数和通道数。

进一步的，步骤4包括如下步骤：

步骤41：将图像集合P输入至Global Tracking Transformer模型中，对图像集合P中的目标信息进行检测编码，并得到目标的轨迹信息；

步骤42：将目标的轨迹信息使用Resnet50网络进行特征信息的提取得到轨迹特征。

进一步的，步骤41中，在Global Tracking Transformer的关联中，主要是通过在每一帧独立的对同一个轨迹的匹配做一次softmax激活分类，通过对最大概率位置的匹配，获得相应的轨迹，对应时刻t相关的概率预测公式如下

；

是获取的目标匹配概率结果，用于对轨迹当中目标类型的匹配，/>是t时刻的某一目标，i是目标的第i类别，/>指代目标个体，F是该目标个体在一段时间内的所有位置信息，/>是目标i的轨迹信息以e为底的指数运算，/>是图像中所有轨迹信息以e为底的指数运算。/>是所有时刻中出现的所有类别的编号；/>是t时刻下轨迹信息矩阵，括号内为一个整体，/>是随时刻变化的轨迹函数，/>表示单独某一类别的目标，/>指代所有类别的目标相关轨迹函数计算信息。

进一步的，步骤5包括如下步骤：

步骤51：将轨迹特征和外形特征进行融合得到融合特征；

步骤52：将融合结果输入至全连接层通过权重和偏置进行线性变换，实现对特征信息在样本标记空间内的映射，然后通过softmax分类器进行目标匹配分类，获得融合后的最终目标预测结果。

本申请的有益效果在于：本申请所提供的技术方案能够融合目标空域中不明飞行物的轨迹特征和外形特征，共同用于飞行物的种类判断，保证了飞行物种类判断的准确性。

附图说明

在附图中：

图1为基于卷积神经网络的无人机与飞鸟的监测方法的流程图。

图2为基于卷积神经网络的无人机与飞鸟的监测方法的示意图。

具体实施方式

下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例，然而应当理解的是，本申请可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例。相反，提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是，本申请的附图及实施例仅用于示例性作用，并非用于限制本申请的保护范围。

另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

下面将参考附图并结合实施例来详细说明本申请。

参照图1~2，基于卷积神经网络的无人机与飞鸟的监测方法，包括如下步骤：

步骤1：采用摄像设备对目标空域进行连续监测，获取目标空域按照时间序列的视频信息。

步骤11：调准摄像设备的角度和焦距，对目标空域进行监测，得到目标目标空域的视频数据；

步骤12：步骤12：从视频数据中提取出每帧图像得到视频数据的图像集合P，P={p₁、p₂、…p_l、…p_q}，p₁表示视频数据中按照时间序列提取的第1张图像，p₂表示视频数据中按照时间序列提取的第2张图像，p_l表示视频数据中按照时间序列提取的第l张图像，p_q表示视频数据中按照时间序列提取的第q张图像，l表示图像集合P中图像的索引，q表示图像集合P中图像的总数。

摄像设备实际上就是现在常用的普通录像机，能够通过不间断的拍摄图片，然后将拍摄的图片按照时序制作为连续的视频的设备。本方案中，并不是需要获得按照时序排布的图片序列，而是需要把接收到的所有图片，按照时序拼接在一起，组成一个大的图像集合，使用队列处理图像集合，以队列队头进队尾出的特性，从队头持续保留图像数据，到队尾的图像数据进行舍弃，使用大小为24×60×60×60×24×(1920×1080)大小的队列对24个小时内的合适码率图像进行保留，超过24小时后则循环删除24小时前的图像数据，保证实时检测而不会造成数据冗余，在识别中，数据能够持续加入和持续删除，队列当中的数据可以通过指针进行读取。该队列实际使用硬盘空间大约52GB，在目前的硬盘技术下，1TB的硬盘在无其它故障的条件下能够满足读写需求超过30年，在当前硬件条件下具有可行性。

步骤2：将视频信息输入到第一外观信息提取模型中，从视频信息中提取出边界特征信息；边界特征信息包括目标空域中的飞行物以及飞行物的边界框。

进一步的，步骤21：将图像集合P输入至MobileNetV3神经网络模型中，从中提取出飞行物特征。

步骤22：将飞行物特征输入至YOLOv7的头部模块中，YOLOv7的头部模块中的锚框结构生成图像集合P中所有飞行物的边界特征信息。

锚框是预定义的一组边界框，用于在特征图上生成候选框。在目标检测任务中，通常会以某种规则在图片上生成一系列锚框，将这些锚框当成可能的候选边界区域。YOLO算法中通过提前定义不同比例和尺寸的锚框来适应不同大小的目标，而在YOLOv7中锚框主要是由K-means聚类加遗传算法计算得到。进而，锚框结构可以在训练之前对图像当中所有可能的目标生成所有可能的边界框特征矩阵。

步骤3：将边界特征信息输入至第二外观信息提取模型中，从边界特征信息中提取出外形特征，外形特征包括飞行物的外观信息和颜色信息。

进一步的，步骤3包括如下步骤：

步骤31：将边界特征信息输入至BiFPN模块中，提取出外观矩阵信息。

步骤31中，边界特征信息输入至BiFPN模块中，在BiFPN模块的各层中进行信息提取，得到外观矩阵信息；n=（3,4,5,6,7）各层的运算方式如下：

其中，Resize()通常表示上采样或下采样操作，表示每层中对应的中间运算模块中的学习权重，/>表示每层输出模块中对应的学习权重，/>表示P3层运算后的输出，表示P4层的运算中间模块，/>表示什么P4层运算后的输出，/>表示P5层的运算中间模块，/>表示什么P5层运算后的输出，/>表示P6层的运算中间模块，/>表示P6层运算后的输出，/>表示P7层运算后的输出，/>表示卷积操作，/>表示P3层输入的前序特征矩阵，/>表示P4层输入的前序特征矩阵，/>表示P5层输入的前序特征矩阵，/>表示P6层输入的前序特征矩阵，/>表示P7层输入的前序特征矩阵，前序特征矩阵均由主干网络提取到的特征卷积进行多层卷积逐层获取；/>表示权重的归一化常数；上述公式输出结果将进行上采样操作并依然以特征矩阵的形式进行融合后输入到后续的处理模块当中。

从P3层开始的原因是以对主干网络已获取到的特征信息进行了一定卷积操作并精炼提取，但又不至于卷积操作太过而丢失了过多可能有用的信息。

步骤32中，对于任意大小为（S,S,C₁）的特征图X，经过切割得到以下子特征图序列：

接着将特征子图进行融合得到大小为/>的外形特征D，且/>通道大小满足，/>表示将图像尺寸缩减但通道扩充的倍数。

步骤4：利用视频信息构建出时空轨迹模型，从时空轨迹模型中提取出目标空域中飞行物的轨迹特征。

步骤41：将图像集合P输入至Global Tracking Transformer模型中，对图像集合P中的目标信息进行检测编码，并得到目标的轨迹信息。

具体的，Global Tracking Transformer进行轨迹的获取，下文概率公式仅表示目标轨迹匹配的概率预测，之后再利用Resnet50将获取到的轨迹进行预处理，得到可以用于后续特征融合的特征矩阵。

；

是获取的目标匹配概率结果，用于对轨迹当中目标类型的匹配，/>是t时刻的某一目标，i是目标的i类别，/>指代目标个体，F是该目标个体在一段时间内的所有位置信息，/>是目标i的轨迹信息以e为底的指数运算，/>是图像中所有轨迹信息以e为底的指数运算。/>是所有时刻中出现的所有类别的编号；/>是t时刻下轨迹信息矩阵，括号内为一个整体，/>是随时刻变化的轨迹函数，/>表示单独某一类别的目标，/>指代所有类别的目标相关轨迹函数计算信息。

进一步的，步骤5包括如下步骤：

步骤51：将轨迹特征和外形特征进行融合得到融合特征；

在对多模特征融合的权重的考虑中，我们同时考虑到飞鸟飞行时外观变化的周期性，在主要识别对象500米以下的飞鸟平均扑翼周期约为0.3s，因此可以得出在0s时刻与0.15s时刻飞鸟外观差距最大，当1秒为24帧图像时，则指代第一张与第四张图像当中飞鸟外观差最大。因此在实际的目标识别中，考虑将该特性进行运用，在外观变化较大时刻加强外形特征融合权重；当j%4=0时：

；

式中j为帧连续变化的时刻，表示了在飞鸟目标外观变化较大时对特征融合权重的影响，加大外形特征的融合率，增强在特定时刻飞鸟的识别效率，%表示取余符号，j%4表示对j取余数，当j能被4整除时变对j取一次值并代入融合公式。j表示帧的时刻，是从0开始不断增大。

最终融合公式为：当j%4=0时，；

最终，将融合所得结果输入全连接层通过权重和偏置进行线性变换，实现对特征信息在样本标记空间内的映射，然后通过softmax分类器进行目标匹配分类，获得融合后的最终目标预测结果。

是在第j帧的外形特征融合权重，/>是以e为底权重系数的指数计算，e是自然对数函数的底数，为数学中一个常数，α₁是初始化的外形特征权重系数，α₂是初始化的轨迹特征权重系数，F_fusion是融合结果，形式为特征矩阵，F₀是输入的外形特征，为步骤3的最终输出，F_t是输入的轨迹特征为步骤4的最终输出，形式皆为矩阵形式。

以上描述仅为本申请的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请的实施例中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于卷积神经网络的无人机与飞鸟的监测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于卷积神经网络的无人机与飞鸟的监测方法，其特征在于：步骤1包括如下步骤：

3.根据权利要求2所述的基于卷积神经网络的无人机与飞鸟的监测方法，其特征在于：第一外观信息提取模型包括MobileNetV3神经网络模型和YOLOv7的头部模块。

4.根据权利要求3所述的基于卷积神经网络的无人机与飞鸟的监测方法，其特征在于：步骤2包括如下步骤：

步骤21：步骤21：将图像集合P输入至MobileNetV3神经网络模型中，从中提取出飞行物特征；

5.根据权利要求2所述的基于卷积神经网络的无人机与飞鸟的监测方法，其特征在于：步骤3中：第二外观信息提取模型包括BiFPN模块和SPD卷积模块。

6.根据权利要求5所述的基于卷积神经网络的无人机与飞鸟的监测方法，其特征在于：步骤3包括如下步骤：

7.根据权利要求6所述的基于卷积神经网络的无人机与飞鸟的监测方法，其特征在于：边界特征信息输入至BiFPN模块中，在BiFPN模块的各层中进行信息提取，得到外观矩阵信息；n=（3,4,5,6,7）各层的运算方式如下：

Resize()通常表示上采样或下采样操作，表示每层中对应的中间运算模块中的学习权重，/>表示每层输出模块中对应的学习权重，/>表示P3层运算后的输出，/>表示P4层的运算中间模块，/>表示什么P4层运算后的输出，/>表示P5层的运算中间模块，/>表示什么P5层运算后的输出，/>表示P6层的运算中间模块，/>表示P6层运算后的输出，表示P7层运算后的输出，Conv表示卷积操作，/>表示P3层输入的前序特征矩阵，/>表示P4层输入的前序特征矩阵，/>表示P5层输入的前序特征矩阵，/>表示P6层输入的前序特征矩阵，/>表示P7层输入的前序特征矩阵，前序特征矩阵均由主干网络提取到的特征卷积进行多层卷积逐层获取；/>表示权重的归一化常数。

8.根据权利要求6所述的基于卷积神经网络的无人机与飞鸟的监测方法，其特征在于：步骤32中，对于任意大小为（S,S,C₁）的特征图X，经过切割得到以下子特征图序列：

接着将特征子图进行融合得到大小为的外形特征D，且/>通道大小满足，/>表示将图像尺寸缩减但通道扩充的倍数；特征图X中，第一个S表示矩阵的行数，第二个S表示矩阵列数，C₁表示原始矩阵的通道数，/>表示所设置的矩阵缩放大小，/>表示在进行SPD卷积操作时运算过程当中所生成的特征子图，用作输入和输出之间跳板的作用，/>分别表示输出矩阵的行数、列数和通道数。

9.根据权利要求2所述的基于卷积神经网络的无人机与飞鸟的监测方法，其特征在于：步骤4包括如下步骤：

10.根据权利要求9所述的基于卷积神经网络的无人机与飞鸟的监测方法，其特征在于：步骤41中，在Global Tracking Transformer的关联中，通过在每一帧独立的对同一个轨迹的匹配做一次softmax激活分类，通过对最大概率位置的匹配，获得相应的轨迹，对应时刻t相关的概率预测公式如下：

，是获取的目标匹配概率结果，用于对轨迹当中目标类型的匹配，/>是t时刻的某一目标，i是目标的i类别，/>指代目标个体，F是该目标个体在一段时间内的所有位置信息，是目标i的轨迹信息以e为底的指数运算，/>是图像中所有轨迹信息以e为底的指数运算，/>是所有时刻中出现的所有类别的编号；/>是t时刻下轨迹信息矩阵，括号内为一个整体，/>是随时刻变化的轨迹函数，/>表示单独某一类别的目标，/>指代所有类别的目标相关轨迹函数计算信息。