CN116883870A

CN116883870A - 一种基于深度学习的无人机落石目标检测方法及装置

Info

Publication number: CN116883870A
Application number: CN202310627842.9A
Authority: CN
Inventors: 王生; 林遵虎; 杨雁彬; 黄礼春; 王敏帅; 周晨; 王向伟; 安南; 邹东灿; 杨云华
Original assignee: China Railway Construction Engineering Group No5 Construction Co ltd; China Railway Construction Engineering Group Co Ltd
Current assignee: China Railway Construction Engineering Group No5 Construction Co ltd; China Railway Construction Engineering Group Co Ltd
Priority date: 2023-05-30
Filing date: 2023-05-30
Publication date: 2023-10-13

Abstract

为防患施工现场发生山地落石的安全隐患事件，减少不必要的人员伤亡，本一种基于深度学习的无人机落石目标检测方法及装置，该方法首先通过无人机采集施工区域图像，其次使用目标检测技术技术将图像中的石头用锚框进行标记，然后计算所有石头的锚框像素中心点，根据欧式距离法得到图像中任意两个石头锚框的欧氏距离，建立基准图像欧氏距离信息集合，同时记录此时的无人机位置三维坐标系信息，同时将此时处理的图像称为基准图像。最后当无人机坐标相同时，后续采集的施工区域图像石头的锚框中心点任意两点的欧氏距离不在基准图像欧氏距离集合中时，无人机向后台管理系统发出警告。

Description

一种基于深度学习的无人机落石目标检测方法及装置

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于深度学习的无人机落石目标检测方法及装置。

背景技术

在建筑工地中，落石是一种常见的安全隐患，如果不能及时发现和处理，将会对工地人员和设备造成严重的伤害和损失。传统的落石监测方法主要是通过人工巡查或安装监控摄像头等方式进行，但这些方法存在着监测范围有限、监测效率低、监测成本高等问题。

传统的施工区域目标检测需要在施工区域安装可见光图像采集设备且需要可见光图像设备的采集范围可以覆盖完整的施工工地区域，使用无人机图像检测不仅可以快速实现工地区域的巡检，还可以对工地区域图像采集设备布控的漏洞和盲区进行检测，但无人机航拍图像除了拍摄角度和高度多变之外，还具有拍摄视场大、目标占比小、背景复杂、易受光照因素影响以及背景复杂度的问题。

对于无人机存在的问题，专利文献CN115859056A公开了一种基于神经网络的无人机目标检测方法，利用时域矩阵提升无人机目标检测的精确度；专利文献CN112668644A公开了一种基于SSD改进算法的无人机航拍目标检测方法，基于SSD算法实现无人机航拍检测；上述两方案均有利于实现无人机检测目的落石，但均存在检测速度较慢，检测精度不足的问题。

而对于工地落石检测而言，专利文献CN115035176A公开了一种利用多目视觉检测面状多目标塌方和落石方法及系统，利用多目视觉实现落石检测；专利文献CN112949484A公开了一种基于聚合通道特征和纹理特征的高速铁路落石实时检测方法，使用聚合特征通道实现的落石目标检测。上述的方法均需要依靠在数量较多的图像可见光采集设备实现落石检测，无法对盲点进行及时的检测。

发明内容

本发明的目的在于克服上述现有技术的不足，提供一种

为实现上述目的，本发明的技术方案是：

第一方面，本发明提供一种基于深度学习的无人机落石目标检测方法，所述方法包括：

获取无人机所采集到的施工区域监控图像；

将所采集到的监控图像作为作为目标检测神经网络模型的输入，以将监控图像中的所有石头用锚框进行标记，得到目标检测结果图。

将所述结果图标记为为基准图像，记录此时的无人机三维坐标信息；

计算基准图像的所有锚框的像素中心点；

计算所有锚框两两之间的像素中心点欧氏距离，组成基准图欧氏距离信息集合；

保持无人机三维坐标信息不变，继续获取监控图像来作为检测图，通过目标检测神经网络模型得到预测结果图；

计算预测结果图中所有锚框两两之间的像素中心点欧氏距离，得到预测图欧氏距离信息集合；

将预测图欧式距离集合与基准图像欧氏距离信息集合匹配，判断是否有不匹配的距离信息出现，当预测图的欧氏距离信息与基准图像的欧氏距离信息不匹配时，发出报警信息。

进一步地，所述目标检测神经网络模型包括DarkNet、混合特征金字塔模块、损失函数以及YOLO检测头；

所输入的监控图像进入目标检测神经网络模型后首先通过DarkNet提取图像的石头特征，其次利用混合特征金字塔模块来提升模型的检测精度和图像的上下文语义信息生成三种不同尺寸的降采样特征图，最后三种不同尺寸的降采样特征图经过损失函数，利用YOLO检测头得到带锚框的目标检测结果图。

进一步地，所述混合特征金字塔模块包括空间金字塔和空洞金字塔；

所述利用混合特征金字塔模块来提升模型的检测精度和图像的上下文语义信息生成三种不同尺寸的特征图包括：

监控图像经过DarkNet主干网络后生成52倍的降采样特征图进入混合特征金字塔模块，首先需要经过一个1x1卷积模块对该特征图信息进行提取，其次通过空间金字塔获取有效特征通道信息，最后经过一个3x3的卷积输出结果特征图像，该结果特征图像经过一个1x1卷积处理后进行上采样操作将其尺寸大小还原为16倍降采样特征图的尺寸大小，再与DarkNet中输出16倍降采样的残差模块进行特征融合，融合后的特征图经过1x1卷积进行特征提取处理，进入空间金字塔模块输出特征图，经过空间金字塔输出的特征图再使用3x3卷积提取图像信息，此时产生两个分支，一个分支直接输出处理后的16倍降采样特征图，另一个分支通过1x1卷积后再次上采样与主干网络中输出8倍降采样特征图的残差模块输出结合，经空洞金字塔后输出处理后的8倍降采样特征图，再采用上述操作最终得到处理后的16倍、8倍、4倍降采样特征图。

进一步地，所述DarkNet的网络深度为59层。

进一步地，所述损失函数对经处理后的降采样特征图进行预测，判断图像中石头所处的区域范围。

进一步地，所述损失函数为LOSS_GIOU，如公式(1)所示：

LOSS_GIOU＝LOSS_LOc+LOSS_conf+LOSS_class (1)

公式1中，LOSS_LOc指的是位置损失，LOSS_conf指的是置信度损失，LOSS_class指的是类别损失函数，使用GIOU函数公式用于计算真实框和标记锚框的精确度如式(2)所示：

公式2中，预测框的像素坐标为标记为B^p，/>分别为预测框左上角和右下角的像素坐标，真实框的像素坐标为(x₁,y₁，x₂,y₂)其中(x₁,y₁，x₂,y₂)分别为预测框的左上角和右下角的像素坐标。

进一步地，所述计算基准图像的所有锚框的像素中心点包括：

通过计算预测框像素点的距离中心点得到/>其中得到基准图像所有预测锚框的像素中心点坐标。

进一步地，所述计算所有锚框两两之间的像素中心点欧氏距离，组成基准图欧氏距离信息集合包括：

通过随机选取两个锚框的像素中心点坐标计算欧氏距离，将所有两两随机选取的像素中心点坐标通过欧氏距离得到基准图欧氏距离集合，欧式距离计算公式如式3所示：

其中和/>为随机选取的两个锚框的像素中心点坐标，经过计算后会得到图像中任意两个锚框的欧氏距离信息。

第二方面，本发明提供一种基于深度学习的无人机落石目标检测装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上所述方法的步骤。

第三方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上所述方法的步骤。

本发明与现有技术相比，其有益效果在于：

本发明利用无人机进行巡视，可以实现对工地的全方位监测，监测范围广泛，监测效率高，同时也可以减少人工巡查的工作量和成本；采用用先进的图像处理算法，可以对工地图像信息进行高效、准确的处理，识别出落石目标，提高了监测的准确性和及时性。

附图说明

图1为本发明实施例1提供的基于深度学习的无人机落石目标检测方法的流程图；

图2为目标检测神经网络模型的组成示意图；

图3为基于深度学习的无人机工地落石目标检测神经网络的网络设计流程图；

图4为混合特征金字塔模块流程图；

图5为本发明实施例1提供的基于深度学习的无人机落石目标检测装置的组成示意图。

具体实施方式

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1：

为防患施工现场发生山地落石的安全隐患事件，减少不必要的人员伤亡，本发明提出了一种基于深度学习的无人机落石目标检测方法，如图1所示，该方法具体包括如下步骤：

101、获取无人机所采集到的施工区域监控图像；

在此步骤中，首先通过无人机(如DJI Mavic 2Pro)所携带的图像采集设备(如SonyA7RIII)收集工地附近山坡石头的图像，确保无人机能拍摄完整的工地施工区域，第二步开启视频拍摄模式，以固定的频率截取图像，图像采集后传输至无人机所携带的轻量式计算设备(如NVIDIAJetson Nano)中

将所采集到的监控图像作为作为目标检测神经网络模型的输入，以将监控图像中的所有石头用锚框进行标记，得到目标检测结果图；

轻量化运算设备上集成了目标检测神经网络模型，轻量式计算设备对传输来的图像首先进行去噪处理将图像中石头的目标从背景中分离出来，然后采用目标检测神经网络模型将图像中的所用石头利用锚框标记位置，从而得到带锚框的目标检测结果图。

103、将所述结果图标记为为基准图像，记录此时的无人机三维坐标信息；

104、计算基准图像的所有锚框的像素中心点；

105、计算所有锚框两两之间的像素中心点欧氏距离，组成基准图欧氏距离信息集合；

106、保持无人机三维坐标信息不变，继续获取监控图像来作为检测图，通过目标检测神经网络模型得到预测结果图；

107、计算预测结果图中所有锚框两两之间的像素中心点欧氏距离，得到预测图欧氏距离信息集合；

108、将预测图欧式距离集合与基准图像欧氏距离信息集合匹配，判断是否有不匹配的距离信息出现，当预测图的欧氏距离信息与基准图像的欧氏距离信息不匹配时，发出报警信息，提示工地区域可能存在落石风险。当无人机的三维坐标信息发生变化时则需要重复以上步骤进行重定位。

由此可见，本发明利用无人机进行巡视，可以实现对工地的全方位监测，监测范围广泛，监测效率高，同时也可以减少人工巡查的工作量和成本；采用用先进的图像处理算法，可以对工地图像信息进行高效、准确的处理，识别出落石目标，提高了监测的准确性和及时性。

具体地，如图2所示，上述的目标检测神经网络模型共包括主干网络、网络颈部、损失函数、检测头四部分，该模型基于YOLOv8进行改进，详细算法流程图如图3所示，由DarkNet和混合特征金字塔模块和损失函数以及YOLO检测头组成。

其中，DarkNet称为主干网络由四个残差结构的卷积特征提取模块组成四尺度的探测器，通过卷积堆叠，使DarkNet的网络深度为59层，可以实现提取4倍、8倍、16倍以及52倍的降采样特征图，有利于高空无人机识别小目标物体，提升网络的识别精度。因此，本实施例使用DarkNet59取代YOLOv8的主干网络用于提取施工区域石头的特征信息。

混合特征金字塔模块是本目标检测神经网络模型的一个创新，也称为神经网络颈部模块，本方法首次提出目标检测神经网络颈部模块可以由混合特征金字塔模块实现，该模块的实现原理图如图4所示，其中空间金字塔用于接收DarkNet59的最终输出，其余三个残差网络模块的输出由空洞金字塔模块进行接收。图像经过DarkNet59后生成52倍的降采样特征图进入颈部模块，首先需要经过一个1x1卷积模块对该特征图信息进行提取，其次通过空间金字塔获取有效特征通道信息，最后经过一个3x3的卷积输出结果特征图像，该结果特征图像经过一个1x1卷积处理后进行上采样操作将其尺寸大小还原为16倍降采样特征图的尺寸大小，再与DarkNet中输出16倍降采样的残差模块进行特征融合，融合后的特征图经过1x1卷积进行特征提取处理，进入空间金字塔模块输出特征图，空间金字塔模块可以增加感受野获取图像细节信息，且增加模型的上下文图像特征信息提取能力。经过空间金字塔输出的特征图再使用3x3卷积提取图像信息，此时产生两个分支，一个分支直接输出处理后的16倍降采样特征图，另一个分支通过1x1卷积后再次上采样与主干网络中输出8倍降采样特征图的残差模块输出结合，经空洞金字塔后输出处理后的8倍降采样特征图，再采用上述操作最终得到处理后的16倍、8倍、4倍降采样特征图，将三个不同尺寸特征大小的图输入损失函数，最后经过YOLO检测头实现无人机对工地施工区域的石头目标检测。

损失函数，本方法所利用损失函数对经处理后的降采样特征图进行预测，判断图像中石头所处的区域范围。本方法所使用的损失函数为LOSS_GIOU，该函数可用于计算预测的边界框和真实边界框的距离，从而减少误差，该函数如公式(1)所示：

LOSS_GIOU＝LOSS_LOc+LOSS_conf+LOSS_class (1)

公式1中，LOSS_LOc指的是位置损失，LOSS_conf指的是置信度损失，LOSS_class指的是类别损失函数，使用GIOU函数公式用于计算真实框和标记锚框的精确度如式(2)所示

公式2中预测框的像素坐标为标记为B^p，/>分别为预测框左上角和右下角的像素坐标，真实框的像素坐标为(x₁,y₁，x₂,y₂)其中(x₁,y₁，x₂,y₂)分别为预测框的左上角和右下角的像素坐标。

预测头部份使用的是YOLOv8网络模型的预测头模块，生成三张尺寸大小的降采样特征图后进行图像融合实现无人机拍摄施工区域的落石目标检测神经网络，输出带预测锚框的图像，将该图像设置为基准图，记录该图像采集时刻的无人机三维坐标位置。

图像经神经网络模型处理后得到基准图，由于该图中存在多个锚框，本方法所设置的锚框中心点计算方式是通过计算预测框像素点的距离中心点得到其中/>得到基准图像所有预测锚框的像素中心点坐标。其次通过随机选取两个锚框的像素中心点坐标计算欧氏距离，将所有两两随机选取的像素中心点坐标通过欧氏距离得到基准图欧氏距离集合，欧式距离计算公式如式3所示：

其中和/>为随机选取的两个锚框的像素中心点坐标，经过计算后会得到图像中任意两个锚框的欧氏距离信息。当无人机三维坐标信息不变时，检测图像会通过本专利所设计的神经网络模型得到新的带锚框的预测结果图，计算该预测结果图中任意两个锚框的欧氏距离，当该预测结果图的欧氏距离结果不能在基准图欧式距离集合中匹配时，无人机发出报警信号，同时将该图像传递到后台检测系统中，无人机向后台管理系统发出警告，提示工地区域可能存在落石风险。

综上，本发明于现有技术相比具有如下技术优势：

为有效提高无人机对于施工现场智能落石检测的识别性能，本方法基于深度学习目标检测神经网络技术，提出基于YOLOv8的无人机落石目标检测方法。该方法通过目标检测网络得到带锚框的基准输出结果图，记录此时的无人机三维坐标信息，计算基准图的任意两个锚框的欧氏距离，输出基准图欧式距离信息集合，通过相同的无人机三维坐标信息所拍摄的图像生成带锚框的预测结果图，计算预测结果图的任意两个锚框的欧氏距离，当欧氏距离结果与基准图欧氏距离信息集合不匹配时，发出报警信息，并将此时所拍摄的图像传输至后台信号中。

在本方法所设计的深度学习神经网络模型中，首先，采用DarkNet59作为主干网络。该方法有效提取图像信息，且能输出不同尺寸大小的降采样特征图。其次，在网络颈部使用混合特征金字塔模块将空洞卷积金字塔和空间金字塔混合使用，有利于提取图像的像素特征信息和图像的上下文语义信息，从而提升目标检测模型的精确度，然后使用GIOU损失函数有利于模型的快速收敛，提升模型的精确度，最后利用YOLOv8的检测头输出带锚框的预测结果图。

本方法提出另一个创新点是基于基准图的所有锚框的像素中心点计算任意两个锚框的欧氏距离，得到基准图欧氏距离信息集合。当无人机三维坐标位置不变时对检测图像中所有锚框像素中心点计算任意两个锚框的欧氏距离，当发现检测图像的欧氏距离结果和基准图欧氏距离信息集合不匹配时发出报警信号。

实施例2：

参阅图5所示，本实施例提供的基于深度学习的无人机落石目标检测装置包括处理器51、存储器52以及存储在该存储器52中并可在所述处理器51上运行的计算机程序53，例如基于深度学习的无人机落石目标检测程序。该处理器51执行所述计算机程序53时实现上述实施例1步骤，例如图1所示的步骤。

示例性的，所述计算机程序53可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器52中，并由所述处理器51执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序53在所述基于深度学习的无人机落石目标检测装置中的执行过程。

所述基于深度学习的无人机落石目标检测装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述基于深度学习的无人机落石目标检测装置可包括，但不仅限于，处理器51、存储器52。本领域技术人员可以理解，图5仅仅是基于深度学习的无人机落石目标检测装置的示例，并不构成基于深度学习的无人机落石目标检测装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述基于深度学习的无人机落石目标检测装置还可以包括输入输出设备、网络接入设备、总线等。

所称处理器51可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器52可以是所述基于深度学习的无人机落石目标检测装置的内部存储元，例如基于深度学习的无人机落石目标检测装置的硬盘或内存。所述存储器52也可以是所述基于深度学习的无人机落石目标检测装置的外部存储设备，例如所述基于深度学习的无人机落石目标检测装置上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器52还可以既包括所述基于深度学习的无人机落石目标检测装置的内部存储单元也包括外部存储设备。所述存储器52用于存储所述计算机程序以及所述基于深度学习的无人机落石目标检测装置所需的其他程序和数据。所述存储器52还可以用于暂时地存储已经输出或者将要输出的数据。

实施例3：

本实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现实施例1所述方法的步骤。

所示计算机可读介质可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理再以电子方式获得所述程序，然后将其存储在计算机存储器中。

上述实施例只是为了说明本发明的技术构思及特点，其目的是在于让本领域内的普通技术人员能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡是根据本发明内容的实质所做出的等效的变化或修饰，都应涵盖在本发明的保护范围内。

Claims

1.一种基于深度学习的无人机落石目标检测方法，其特征在于，所述方法包括：

获取无人机所采集到的施工区域监控图像；

将所采集到的监控图像作为作为目标检测神经网络模型的输入，以将监控图像中的所有石头用锚框进行标记，得到目标检测结果图

计算基准图像的所有锚框的像素中心点；

2.如权利要求1所述的基于深度学习的无人机落石目标检测方法，其特征在于，所述目标检测神经网络模型包括DarkNet、混合特征金字塔模块、损失函数以及YOLO检测头；

3.如权利要求2所述的基于深度学习的无人机落石目标检测方法，其特征在于，所述混合特征金字塔模块包括空间金字塔和空洞金字塔；

4.如权利要求2或3所述的基于深度学习的无人机落石目标检测方法，其特征在于，所述DarkNet的网络深度为59层。

5.如权利要求2或3所述的基于深度学习的无人机落石目标检测方法，其特征在于，所述损失函数对经处理后的降采样特征图进行预测，判断图像中石头所处的区域范围。

6.如权利要求5所述的基于深度学习的无人机落石目标检测方法，其特征在于，所述损失函数为LOSS_GIOU，如公式(1)所示：

LOSS_GIOU＝LOSS_LOc+LOSS_conf+LOSS_class (1)

7.如权利要求1所述的基于深度学习的无人机落石目标检测方法，其特征在于，所述计算基准图像的所有锚框的像素中心点包括：

通过计算预测框像素点的距离中心点得到/>其中/> 得到基准图像所有预测锚框的像素中心点坐标。

8.如权利要求7所述的基于深度学习的无人机落石目标检测方法，其特征在于，所述计算所有锚框两两之间的像素中心点欧氏距离，组成基准图欧氏距离信息集合包括：

9.一种基于深度学习的无人机落石目标检测装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3任一所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3任一所述方法的步骤。