CN116052026A

CN116052026A - 一种无人机航拍图像目标检测方法、系统及存储介质

Info

Publication number: CN116052026A
Application number: CN202310314318.6A
Authority: CN
Inventors: 张云佐; 武存宇; 朱鹏飞; 刘亚猛; 张天; 甄嘉闻; 康伟丽; 刘婷; 郑宇鑫; 胡笑翔
Original assignee: Shijiazhuang Tiedao University
Current assignee: Shijiazhuang Tiedao University
Priority date: 2023-03-28
Filing date: 2023-03-28
Publication date: 2023-05-02
Anticipated expiration: 2043-03-28
Also published as: CN116052026B

Abstract

本发明公开了一种无人机航拍图像目标检测方法、系统及存储介质。所述方法包括：通过自适应重叠切图策略对输入的无人机图像或视频帧进行数据增强，并将所得结果调整至预定分辨率；通过预设的特征提取网络对输入图像进行特征提取；利用预设的分层联合空间金字塔池化模块对特征进行增强，在捕获不同感受野特征的同时保持不同层级特征图对细节信息的敏感性；通过预设的特征聚合模块在避免语义隔阂的基础上对多层、多尺度特征进行信息聚合，以获得包含多层信息的聚合特征；对提取聚合特征进行多尺度特征融合，得到输入数据的检测结果；根据所述的目标检测结果，通过无人机控制单元对无人机进行控制；所述方法在保证实时性的基础上降低了误检率，可实现无人机视角中对地面各类目标的快速、精准检测。

Description

一种无人机航拍图像目标检测方法、系统及存储介质

技术领域

本发明涉及一种无人机航拍图像目标检测方法、系统及存储介质，属于计算机视觉技术领域。

背景技术

基于无人机的目标检测在许多领域发挥着重要作用，如智能交通、遥感测绘、城市管理和农业监测。得益于硬件和计算能力的发展，基于深度学习的目标检测算法已成为主流。与传统的目标检测方法相比，基于深度学习的方法以其优异的特征表达和学习能力促进了目标检测的发展。目前，基于深度学习的方法主要分为两种，即双阶段检测器和单阶段检测器。

双阶段检测器将检测过程分为两部分。首先，在图像中生成若干个可能包含待检测目标的候选区域。然后检测器对每个候选区域进行分类和回归，以获得检测结果。典型的双阶段目标检测方法包括R-CNN系列。尽管两阶段检测器在精度上表现良好，但处理大量候选区域将产生额外的时间开销。与双阶段检测器相比，单阶段检测器不需要生成候选区域。该方法直接从整个图像中提取特征，得到目标的分类概率和位置坐标。典型的单阶段检测器包括YOLO系列、SSD系列等。与双阶段算法相比，单阶段算法通常会为了计算效率而牺牲检测精度。此外一些大型通用数据集，如MS COCO和VOC等，在过去的研究中促进了通用目标检测的发展。然而，由于存在大量密集小目标，将通用目标检测算法直接应用于无人机航拍图像目标检测任务时，检测精度难以满足实际应用的要求，如何高效检测无人机视角下的小目标仍然是一项具有挑战性的任务，因此亟须一种高精度的无人机航拍目标检测方法以解决上述问题。

发明内容

本发明的目的在于提供一种无人机航拍图像目标检测方法、系统及存储介质，用于解决现有算法对无人机航拍图像中小目标检测效果不佳的问题。

在本发明实施例的第一方面，提供了一种无人机航拍图像目标检测方法，包括如下步骤：

S1：获取无人机航拍图像；

S2：通过自适应重叠切图将高分辨率的无人机航拍图像分成若干个子图，并将子图调整至预定分辨率；

S3：将处理后的图像输入到预设的CSPDarkNet53特征提取网络中，提取不同分辨率的特征图；

S4：通过预设的分层联合空间金字塔池化模块对特征进行增强，捕获不同感受野的特征，并通过池化层间的分层联合路径传递初始特征以保持不同层级特征图中的细节信息不受池化影响；

S5：通过预设的特征聚合模块对多尺度特征进行信息聚合，以获取包含多层信息的跨层特征；

S6：利用双向特征融合模块对提取到的不同尺寸的跨层聚合特征和增强特征进行多尺度特征融合；

S7：将融合后的多尺度特征输入到预设的检测头中，计算得到目标的预测框位置，并结合置信度损失、分类损失和回归损失计算预测框与真实标签的重合度；

S8：模型训练完成后将其部署至无人机机载平台。

进一步地，所述的自适应重叠切图，包括：

设置大小固定的滑动窗口在无人机图像上滑动，以确定可分的子图数量；当最后一个滑动窗口超出图像时，仍然将其视做是一个子图区域；

最后一个滑动窗口超出图像的区域按照子图数量均分成若干份，作为重叠区域面积；

按照窗口大小和计算得到的重叠区域对原始高分辨率图像进行局部切图；

当图像分辨率整除滑动窗口或超出面积小于预设阈值时，子图数量额外加1；表示最后一个滑动窗口超出图像的区域和图像总面积的比值。

进一步地，所述通过预设的分层联合空间金字塔池化模块用以捕获不同感受野的特征，包括：

将所述预设的CSPDarkNet53特征提取网络所提取的最后一层特征图作为所述预设的分层联合空间金字塔池化模块的输入；

设置三组统一尺寸，统一步长、统一填充的串联最大值池化结构对输入进行池化处理以获取不同感受野下的特征；

为了防止特征图包含的细节信息被池化操作影响，在串联池化操作前建立额外的分层联合路径，将未受池化影响的特征图细节信息传递到后续层，与后续池化结果相结合；

将三组池化结果和输入特征进行通道拼接，生成大小固定的特征向量作为输出；

进一步地，所述通过预设的特征聚合模块对跨层特征进行信息聚合，以获取包含多层信息的跨层特征，包括：

在每三个不同尺寸的特征图上构建特征聚合路径；

每个特征聚合路径将第i+1,第i,第i-1三层特征图调整至同一分辨率；

对调整后的特征图进行拼接，并使用1×1卷积对拼接后的特征进行特征提取，得到多个包含跨层信息的聚合特征；

将聚合特征代替原本的多尺度特征和进行特征融合；

在本发明实施例的第二方面，提供了一种无人机航拍图像目标检测系统，包括：

数据捕获单元：用于通过机载摄像头捕获地面图像。

数据预处理单元，用于将机载摄像头捕获的图像通过所述的自适应重叠切图分割成多个子图，并将其调整至预定分辨率并存储至机载平台数据库中。

特征提取单元，用于通过CSPDarkNet53特征提取网络对无人机图像进行特征提取。

特征增强单元，用于通过分层联合空间金字塔池化模块对提取到的特征进行特征增强。

特征聚合单元，用于通过多个并行的跨层特征聚合路径对多尺度特征进行特征聚合。

特征融合单元，用于通过双向特征金字塔对多个聚合特征进行特征融合。

目标检测单元，用于将处理后的特征送入检测头中，输出可视化检测结果。

控制单元，用于将所述的可视化检测结果发送至无人机控制端中，根据所述的可视化检测结果对无人机进行控制。

在本发明实施例的第三方面，提供了一种无人机航拍图像目标检测终端设备，包括输入设备、输出设备、处理器、和存储器，其中，所述存储器用于存储可在所述处理器运行的计算机程序，所述处理器用于执行计算机程序实现如本发明实施例的第一方面所述方法的步骤。

在本发明实施例的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述的计算机程序被处理器执行时执行本发明实施例的第一方面所述方法的步骤。

相对于现有技术，本发明的优点和积极效果在于：本发明提供了一种自适应重叠切图的数据增强方法，用以提高模型对小目标的检测能力；本发明设计了一种分层联合空间金字塔池化模块，在捕获不同感受野特征的同时通过分层联合路径保存特征图中的完整信息，提高模型对细节信息的敏感性；本发明设计了一种特征聚合模块，该模块通过多条并行的特征聚合路径提取跨层、多尺度的特征，获得高质量的特征聚合结果，所获得聚合特征用于替换用于特征融合的常规特征，以实现精确检测；本发明将模型部署至无人机机载平台，通过机载摄像头捕获地面图像，借助训练好的网络实现精准目标检测，并根据检测结果对无人机进行精准控制。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明第一实施例提供的一种无人机航拍图像目标检测方法的框架流程图；

图2为本发明为本发明第一实施例提供的自适应重叠切图的方法示意图；

图3为本发明第一实施例提供的分层联合空间金字塔池化模块的结构示意图。

图4为本发明第一实施例提供的特征聚合模块的结构示意图。

图5为本发明第二实施例提供的一种无人机航拍图像目标检测系统的结构示意图。

具体实施方式

为使本发明的发明目的、特征、优点能够更加明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行进一步说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，在本发明实施例的第一方面，提供了一种无人机航拍图像目标检测方法，包括如下步骤：

S1：获取无人机航拍图像数据集；

其中，所述的自适应重叠切图将原始高分辨率无人机航拍图像切分为多个子图，以保护小目标特征免受图像分辨率缩放的影响；同时为了保护目标完整性不会由于图像切分被破坏，在切图时按照图像分辨率自适应调整切图时的重叠区域大小。

示例性的，参见图2，自适应重叠切图方法如图所示，设置大小固定的滑动窗口在原始高分辨率无人机航拍图像上滑动以确定图像中可分的子图数量，当窗口超出图像时，仍然将其视做是一个子图；最后一个子图超出原本图像的区域按照子图数量均分成若干份，作为重叠区域面积。然后按照滑动窗口大小和计算得到的重叠区域对原始图像进行局部切图；当图像分辨率整除滑动窗口或者最后一个滑动窗口超出图像的部分与原始图像区域面积的比值小于时，重叠区域可能过小甚至消失，无法保护目标完整性，因此子图数量需要额外加1；该过程定义如下：

式中，表示预设的滑动窗口大小，表示可分的子图数量，表示图像原始分辨率（宽），为计算得到的重叠区域，表示超出部分与原始图像区域面积的比值，该超参数用于防止重叠区域面积过低导致目标完整性丧失。

S3：将处理后的图像输入到预设的特征提取网络中，提取不同分辨率的特征图；

在本发明中，采用CSPDarkNet53作为所述的预设特征提取网络，用于对无人机航拍图像进行多尺度特征提取。

其中，所述的分层联合空间金字塔池化模块将所述的特征提取网络所提取的最后一层特征作为输入，通过串联的池化模块得到三组不同感受野下的特征，但由于池化仅保留预设区域内最敏感的特征，这导致其他细节信息损失严重；因此所述的分层联合空间金字塔池化模块还在每一次池化操作前通过附加的分层联合路径将池化操作的预输入特征传递至后续层，与后续池化结果进行加和，防止特征信息受池化影响，保持模型对细节信息的敏感性; 将三组特征和输入特征进行通道拼接，得到特征增强后的结果。

示例性的，参见图3，分层联合空间金字塔池化模块结构如图所示，对特征提取网络中最后一层输出特征进行1×1卷积，用于通道调整，并使用BN和SiLU激活函数对其进行处理，得到分层联合空间金字塔池化模块的输入，使用三组串联的MaxPooling得到三组不同感受野下的特征，，；通过分层联合路径将未受池化影响的特征传递到后续层，从而得到分层联合特征，，，将三组特征和输入特征进行通道拼接，得到特征增强结果，该过程定义如下：

式中，表示输入特征；，，；表示串联池化的输出结果；，，表示联合先前层之后的输出结果；表示分层联合空间金字塔池化模块的输出结果。

S5：通过预设的特征聚合模块对多尺度特征进行信息聚合，以获取包含多层信息的跨层特征。

其中，所述的特征聚合模块对所述的特征提取网络中提取到的四个不同尺度的特征图和所述分层联合空间金字塔池化模块的特征增强结果进行特征聚合，并在每三层特征图间构建特征聚合路径；

示例性的，参见图4，特征聚合模块中的一条特征聚合路径结构如图所示，所述的特征聚合路径对大、中、小三层不同分辨率的特征图进行特征聚合；在大尺寸的特征图上每隔一个像素点采样，生成四个子图，将其拼接后得到使用1×1卷积对其进行通道调整，得到无信息损耗的二倍下采样特征图；对小尺寸的特征图进行二倍上采样；将三层特征图调整至相同分辨率后按通道进行拼接，得到跨层特征；使用1×1卷积对所得跨层特征进行通道降维，在降低参数量的同时提高跨层特征的代表性，从而得到该特征聚合路径上的聚合特征。

其中，所述的双向特征融合模块对所述的特征聚合模块提取的三组聚合特征和所述的分层联合空间金字塔池化模块生成的增强特征进行特征融合；将高层特征图中丰富的语义信息逐步传递到低层特征图中，并将融合后的信息再次传递到高层特征图，确保每层特征图都有足够的信息进行预测；并在其中添加了横向连接路径使得不同层级的特征图可以相互影响，提高模型表达能力。

S7：将融合后的多尺度特征输入到预设的检测头中，计算得到目标的预测框位置，并结合置信度损失、分类损失和回归损失计算预测框与真实标签的重合度。

所述的损失函数定义如下：

，

式中，，分别表示置信度损失、回归损失、分类损失。 A, B, C表示不同损失所占权重。

在计算回归损失时，考虑到预测值与真实值中心点坐标、重叠面积和宽高比之间的相关性，通过幂化的CIoU处理回归损失。定义如下：

式中为预测框和真实框的中心点距离，为两者的最小包围矩形的对角线长度，为两者的宽高比相似度，为的影响因子。

置信度损失和分类损失使用BCE损失函数。BCE损失不仅适用于二分类任务，也可以通过多个二元分类叠加实现多标签分类，其定义如下：

式中表示标签置信度，表示预测置信度。

整个网络通过损失函数调整内部权重参数，最终使损失函数最小化，然后通过Soft-NMS对所有预测框进行筛选，得到最终预测结果。

S8：模型训练完成后将其部署至无人机机载平台。

请参阅图5，在本发明实施例的第二方面，提供了一种无人机航拍图像目标检测系统，包括：

数据捕获单元：用于通过机载摄像头捕获地面图像。

特征增强单元，用于通过分层联合空间金字塔池化模块对提取到的特征进行特征增强，在保留细节信息的通知获取不同感受野下的特征。

特征聚合单元，用于通过多个并行的跨层特征聚合路径对多尺度特征进行特征聚合，捕获多层、不同尺度特征图中的跨层聚合特征。

特征融合单元，用于通过双向特征金字塔对所述特征聚合模块生成的多个聚合特征和所述分层联合空间金字塔池化模块生成的增强特征进行特征融合，并通过横向连接路径使得不同层级的特征图可以相互影响，提高模型表达能力。

具体的，将处理后的特征输入到检测头中，每个检测头通过编码目标信息生成具有维度的张量。为特征图中包含的网格数；为每个网格上预设的预测框数量；数字4表示预测框坐标信息(x,y,h,w)；数字1表示置信度；表示目标类别数量。最后使用Soft-NMS对所有类别的检测框进行循环过滤，再依次按类别将所有检测框按照概率进行降序排列；其中以预测概率最大的检测框作为候选框，其置信度保持不变；其余检测框依次与候选框计算IoU；利用得到的IoU值，经过预设函数，更新其余检测框的置信度值；不断重复上述过程，直到所有的检测框的值都被更新；最终根据置信度阈值，过滤出剩余的检测框作为最终的检测结果。

具体的，对于控制单元，使用 NVIDIA Jetson^TMTX2 NX平台将目标检测结果传递到无人机控制端，在控制端接收到检测结果后，根据检测结果对无人机进行进一步控制。

在本发明实施例的第三方面，提供了一种无人机航拍图像目标检测终端设备，包括一个或多个输入设备（机载摄像头）、一个或多个输出设备、一个或多个处理器以及存储器，存储器用于存储计算机程序，处理器用于执行计算机程序实现上述的无人机航拍图像目标检测方法。

在本发明实施例的第四方面，提供了一种计算机可读存储介质，存储有计算机程序，所述的计算机程序被处理器执行时执行上述的无人机航拍图像目标检测方法。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。另外，本发明中各个实施例可根据实际情况任意组合使用。

Claims

1.一种无人机航拍图像目标检测方法，其特征在于，至少包括如下步骤：

S1：获取无人机航拍图像；

S8：模型训练完成后将其部署至无人机机载平台。

2.如权利要求1所述的无人机航拍图像目标检测方法，其特征在于，所述的通过自适应重叠切图策略对无人机图像进行局部切图，包括：

设置大小固定的滑动窗口在高分辨率无人机航拍图像上移动，确定图像中可分的子图数量；当最后一个滑动窗口超出图像时，仍然将其视做是一个子图区域；超出的部分按照子图数量均分成若干份，作为重叠区域面积；按照窗口大小和计算得到的重叠区域对原始图像进行局部切图；若图像分辨率整除滑动窗口或超出面积小于预设阈值时，子图数量额外加1。

3.如权利要求1所述的无人机航拍图像目标检测方法，其特征在于，所述的分层联合空间金字塔池化模块，包括：

将所述预设的特征提取网络所提取的最后一层特征图作为输入；通过一系列统一尺寸、统一步长、统一填充的串联最大值池化对输入的特征图进行空间金字塔池化，使模型获取不同感受野下的特征，提高模型对不同大小目标的感知能力；在每个串联池化操作前建立额外的分层联合路径，将未受池化影响的细节信息传输至后续层中；通过1×1卷积对原始输入进行恒等映射；将所述的恒等映射结果和池化结果进行拼接，生成大小固定的特征向量作为输出。

4.如权利要求1所述的无人机航拍图像目标检测方法，其特征在于，预设的特征聚合模块对多尺度特征进行信息聚合以获取包含多层信息的跨层特征，包括：

在不同尺度特征图上构建多个并行的特征聚合路径来生成跨层聚合特征；在每个特征聚合路径中，对相邻的三层特征图进行大小调整，并将调整结果进行拼接；利用1×1卷积提取代表性特征，得到多个包含跨层信息的特征聚合结果。

5.如权利要求1所述的无人机航拍图像目标检测方法，其特征在于，所述的置信度损失、分类损失和回归损失，包括：

使用BCE损失函数构建置信度损失，用于预测检测框内是否包含待测目标；通过多次堆叠BCE损失函数构建分类损失，用于预测检测框内目标的所属类别；考虑到预测值与真实值中心点坐标、重叠面积以及纵横比之间的相关性，使用Ciou损失函数构建回归损失，用以调整检测框坐标；并在此基础上对其进行幂化处理，提高回归精度。

6.无人机航拍图像目标检测系统，其特征在于，包括：

数据捕获单元：用于通过机载摄像头捕获地面图像；

数据预处理单元，用于将机载摄像头捕获的图像通过自适应重叠切图分割成多个子图，并将其调整至预定分辨率并存储至机载平台数据库中；

特征提取单元，用于通过CSPDarkNet53特征提取网络对无人机图像进行特征提取；

特征增强单元，用于通过分层联合空间金字塔池化模块对提取到的特征进行特征增强；

特征聚合单元，用于通过多个并行的跨层特征聚合路径对多尺度特征进行特征聚合；

特征融合单元，用于通过双向特征金字塔对多个聚合特征进行特征融合；

目标检测单元，用于将处理后的特征送入检测头中，输出可视化检测结果；

7.一种无人机航拍图像目标检测终端设备，其特征在于，包括输入设备、输出设备、处理器、和存储器，其中，所述存储器用于存储计算机程序，所述处理器用于执行计算机程序，实现如权利要求1-5任意一项所述的无人机航拍图像目标检测方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述的计算机程序被处理器执行时执行如权利要求1-5中任意一项所述的无人机航拍图像目标检测方法。