CN112418117A

CN112418117A - 一种基于无人机图像的小目标检测方法

Info

Publication number: CN112418117A
Application number: CN202011356028.0A
Authority: CN
Inventors: 谭励; 吕芯悦; 连晓峰; 史佳琦
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-02-26
Anticipated expiration: 2040-11-27
Also published as: CN112418117B

Abstract

本发明公布了一种基于无人机图像的小目标检测方法，基于空洞卷积和多尺度特征层，将YOLOv4目标检测方法改进为适用于无人机图像目标检测的方法，包括：确定先验框尺寸；进行特征提取；结合空洞卷积进行多尺度融合；构建特征金字塔；提取多特征层进行目标检测；利用预测框的位置和预测得分，筛选出预测框；由此解决无人机环境下目标遮挡和小目标检测问题；提升目标检测的准确率；保证小目标的检测性能。

Description

一种基于无人机图像的小目标检测方法

技术领域

本发明涉及计算机视觉技术和目标检测技术，尤其涉及一种基于无人机图像的小目标检测实现方法。

背景技术

在当今的日常生活中，监控无处不在，尤其是在广场、车站、住宅小区、交通道路等人流密集场所，分布着大量摄像头以进行实时监控。监控可实现犯罪预防、交通管制、重点目标跟踪等作用，在维护社会安全中发挥着至关重要的作用。若采用传统人工方式来处理所有监控内容，则会存在视觉疲惫或漏检、误检等问题。而属于人工智能领域的智能图像监测技术可利用先进算法对海量图像数据进行处理，并根据实际需求为用户提供更多有用的关键信息，从而既极大节省了人力、物力，又能够显著提高监测效率，降低监测成本。随着先进传感器技术和物联网的发展，监控设备的种类和数量越来越多，图像越来越清晰，采集到的相关图像数据的类别、数量和质量不断增加和提高。采用监控摄像头、无人机等物联网技术，可以实时获取海量的监控图像，进行无死角的监控。在实时采集的海量图像数据基础上，研究人员通过先进算法可开发出各种实时监测系统，如行人实时监测系统，以实现精确定位和跟踪。同时利用大数据技术和深度学习理论，可使得传统目标跟踪方式从低效的人工模式向智能实时的高效模式转变。其中，在无人机领域，针对监控图像中复杂多目标且小目标的检测，是智能监控系统中的关键核心技术。

传统的监控系统架构仅能提供图像采集、存储及回看、查询等简单功能，而不能对图像中蕴含的隐含信息进行智能处理。同时，在人工处理所监测的内容时，海量的数据信息对于安防管理人员是一种生理和心理的双重挑战，往往会导致“看到晕”、“看到吐”。由此可知，在物联网时代，仅仅依靠人力资源去检索和查看海量数据已不太现实。针对上述问题，本发明主要研究了基于深度学习的无人机小目标检测问题。目标检测一直以来都是计算机视觉研究领域中最具挑战的研究热点。与传统的机器学习相比，深度学习的优势主要表现在以下两个方面：一是识别或分类性能更高，二是适用范围更广。使用深度学习有可能通过增加新应用场景的少量样本进行微调就能得到一个很好的模型。也就是说，基于深度学习的方法，不仅可以提高一些算法的准确率，还可以实现一些传统机器学习难以实现的功能。因此，采用深度学习技术在图像中进行目标检测具有重要的研究价值和意义。

目标检测是从图像中提取出前景或感兴趣的目标，检测出物体的具体位置并标记，同时检测出物体所属的类别。快速且准确的目标检测算法可以为后续的行为识别、跟踪等提供良好的条件。目前，主流的目标检测算法主要分为三类。其中，一是基于手工特征构建的传统目标检测算法，如Viola-Jones检测器、HOG行人检测器。二是基于候选区域的目标检测算法，通过提取候选区域并对其进行深度学习得到检测结果，如R-CNN、R-FCN、SPPNet、Fast R-CNN、Faster R-CNN等方法。三是基于深度学习的目标检测算法，包括YOLO、DenseBox、 SSD、RFBnet等方法。随着深度学习的出现，目标检测算法在特征表达能力及时间效率上都取得了突破性的进展。其中，yolo算法是由Joseph Redmon于2016年提出的一种目标检测方法。该算法的基本思想是将对象检测作为回归问题构建到空间上分离的边界框和相关的类概率。对于一个给定的输入图像，将其划分成7×7的网格。然后，对于每个网格，都预测2个边框值(包括每个边框是目标的置信度以及每个边框区域在多个类别上的概率)。针对预测出的7×7×2个目标窗口，根据阈值去除可能性比较低的目标窗口，最后利用非极大抑制(NMS) 去除冗余窗口。2018年Joseph Redmon等人又提出了yolov3算法，其主要从三个方面进行了改进。一是为了解决深层次网络的梯度消失问题，调整了原有的网络结构，新的网络结构 darknet-53借鉴了ResNet的思想，在网络中加入了残差网络Residual。二是为了检测到更加细粒度的特征，采用了多尺度检测，选择3个不同尺度的特征层来进行目标检测。三是为了能支持多标签对象，yolov3算法中预测对象类别时使用logistic来替代原来的softmax 函数。近年来，yolov3作为一种流行的目标检测算法，在速度和准确率上都有明显的优势。有很多研究人员对yolov3算法进行进一步的改进，以希望在准确率和速度上有更大的提升。 Joseph Redmon等人提出了yolov3的简化版本yolov3-tiny，在yolov3的基础上去掉了一些特征层，只保留了2个独立预测分支(13×13预测层，26×26预测层)，以提高yolov3的速度。Pengyi Zhang等人提出SlimYOLOv3算法，其对yolov3进行了剪枝，提高了速度。Mao 等人设计了一个轻量级网络Mini-YOLOv3。使用深度可分卷积和点态群卷积来减小网络的参数大小，构造了一个参数大小仅为darknet-53的16％的特征提取主干网络。同时，在一个简单的u型结构的基础上增加了一个多尺度的特征金字塔网络来提高多尺度目标检测的性能。 2020年，研究人员在yolov3算法上又进行了升级，提出了yolov4算法，其准确度和速度方面比yolov3更高效。因此，采用yolo系列算法能够快速高效地实现目标检测。但是yolo系列没有进行区域采样，所以在小目标的检测上表现较差，针对无人机图像中复杂多目标且小目标的检测效果有待提高。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于无人机图像的小目标检测方法，基于空洞卷积和多尺度特征层，将现有的YOLOv4目标检测方法改进为适用于无人机图像目标检测的方法；由此解决无人机环境下目标遮挡的小目标检测问题，提高小目标检测的精确性。

以下先对本发明的技术术语进行解释。

IoU(交并比，Intersection over Union)：IoU是先验框和预测框的交集与并集之比。 IoU的值＝1，则先验框和预测框重合；IoU的值＝0，则先验框和预测框完全不重合；所以1- IoU可以看作先验框和预测框的偏移程度，即先验框和预测框的距离。

k-means聚类：是一种迭代求解的聚类分析算法。在本发明中的步骤是，随机选取9个初始的聚类中心，然后计算每一行距离9个聚类中心的IoU情况。把每个样本分配给距离它最近的聚类中心。每分配一个样本，聚类中心会根据聚类中现有的样本被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)样本被重新分配给不同的聚类，没有(或最小数目)聚类中心再发生变化，误差平方和局部最小。

卷积神经网络(Convolutional Neural Network,CNN)：是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，适用于计算机视觉、自然语言处理等领域。

非极大抑制(Non-Maxium Suppression,NMS)：搜索局部最大值，抑制极大值。按照阈值，通过遍历、排序等过滤掉重复的检测框。在计算机视觉中得到了广泛的应用，例如边缘检测、目标检测等。

本发明提供的技术方案是：

一种基于无人机图像的小目标检测方法，通过将现有的YOLOv4目标检测方法进行改进, 基于空洞卷积和多尺度特征层，构建目标检测特征金字塔模型，通过提取多个特征层获得多特征层的预测结果并解码，得到目标检测预测得分；包括如下步骤：

1)图像初始化：获取图像路径、目标类别、目标位置等信息，把标注框中心坐标以及长宽转化为相对整幅图像长宽的比例，打乱数据集顺序以免模型过拟合；

2)确定先验框尺寸：对数据集进行k-means聚类分析，根据聚类结果确定算法中先验框尺寸；

3)特征提取：通过CSPDarknet53模块提取特征，增强CNN的学习能力，使得在轻量化的同时保持准确性。其中在残差模块的结构里使用了CSP(Cross-Stage-Partial-connection，跨阶段局部网络)结构，将原来的残差模块进行了拆分。先将特征映射划分为两部分，主干部分继续进行原来残差模块的堆叠，另一部分是一个大残差边，与主干部分合并。在减少了计算量的同时可以保证准确率。避免由于网络优化中的梯度信息重复而导致推理计算过高。

4)多尺度融合：采用RFB(Receptive Field Block，感受野模块)模块对同一个特征层提取到的特征进行重采样的方式提取不同尺度的特征，结合空洞卷积的思想，以提高感受野的方式提高网络的特征提取能力；

5)构建目标检测特征金字塔模型：使用PANet结构构建特征金字塔，先自顶向下传达强语义特征，再自底向上传达强定位特征，从不同的主干层对不同的检测层进行参数聚合，进一步提高特征提取的能力；

6)提取多特征层进行目标检测，一共提取三个特征层；

7)利用框的位置和得分进行非极大抑制，筛选出预测框，避免一个目标有多个预测框；

8)可视化：在原图片上绘出每个目标的预测框以及其预测得分。

与现有技术相比，本发明的有益效果是：

本发明提供一种基于无人机图像的小目标检测方法，在原本yolov4的基础上，增加RFB 模块(Receptive Field Block，感受野模块)对同一个特征图进行重采样的方式提取不同尺度的特征，结合空洞卷积的思想，以提高感受野的方式提高网络的特征提取能力。此处使用了较多的小通道数，可以减少计算量，关注更局部的信息，有利于更加精确的提取无人机图像中的小目标的特征，可以提高无人机图像的目标检测准确率。

附图说明

图1是本发明实施例构建的一种目标检测模型及训练的方法流程框图。

图2是本发明实施例构建的一种目标检测模型各模块的关系图。

图3是本发明实施例提供的一种特征提取方法的流程框图。

图4是本发明实施例提供的一种多尺度融合方法的流程框图。

图5是本发明实施例提供的一种构建目标检测特征金字塔模型方法的流程框图。

图6是本发明实施例提供的一种基于无人机图像的小目标检测方法的流程框图。

图7是计算IOU值的示意图。

具体实施方式

为了使本发明的目的、技术方案以及实施方式更加容易理解，以下结合附图以及实施例对本发明作进一步说明。本实施例仅用以解释本发明，并不限定本发明。

一种基于无人机图像的小目标检测方法，通过构建目标检测特征金字塔模型，通过提取多个特征层获得多特征层的预测结果并解码，得到目标检测预测得分。

图1所示是本发明实施例提供的构建目标检测模型并训练的方法流程。本发明构建的目标检测模型包括使用CSPDarknet53模块对无人机图像进行不同特征层的特征提取、使用RFB 模块对提取到的无人机图像的特征进行多尺度融合、使用PANet模块反复提取特征构建特征金字塔、提取多特征层进行目标检测，各模块之间的关系如图2所示。

CSPDarknet53模块：是yolov4中提出的特征提取模块，如图3所示。DarknetConv2D的激活函数为Mish激活函数。本发明实施例中使用416x416大小的图像，经过CSPDarknet53中每一步的处理，分别把整幅图像分成208x208、104x104、52x52、26x26、13x13个网格，每个网格点负责一个区域的目标检测。其中13x13的特征层，检测的目标最大。其中在残差模块的结构里使用了CSP(Cross-Stage-Partial-connection，跨阶段局部网络)结构，将原来的残差模块进行了拆分。先将特征映射划分为两部分，主干部分继续进行原来残差模块的堆叠，另一部分是一个大残差边，与主干部分合并。

RFB模块(Receptive Field Block，感受野模块)：是RFBnet中提出的加强特征提取的模块。本发明通过增加离心率设置得到改进的感受野模块，并和yolov4的其他模块进行结合。实施例中利用Dilation_rate＝1、3、5、7四个不同的离心率，采用5个并联结构，可以有效地增加感受野，如图4所示。通过调节图4中的Dilation_rate来调节不同大小的卷积核的离心率，不同的感受野应该具备不同的离心率，比如Dilation_rate＝5分支的采样点和中心的距离比Dilation_rate＝1和Dilation_rate＝3的更远。其中，1x1的卷积主要用于减少计算量和进行跨通道的信息融合，1x7和7x1的卷积也是为了减少参数量。另外，使用了较多的小通道数，除了可以减少计算量，还可以关注更局部的信息。

PANet(Path Aggregation Network，路径聚合网络)结构：是yolov4中使用的特征金字塔结构，如图5所示。在三个有效特征层上使用PANet结构，在进行传统的特征金字塔从下到上的特征提取之后，还需要进行从上到下的特征提取。通过反复提取特征，进一步提高特征提取的能力。

本发明所述方法具体包括8个执行步骤，如图6所示。图像训练及目标检测过程中执行这8个步骤，通过步骤3)～5)中进行精细特征提取和融合，提高提取无人机图像中的目标特征的能力，学习到小目标的特征，在步骤6)、7)中进行精准检测，步骤8)将检测结果进行可视化：

1)初始化：本发明实施例使用的数据集是无人机拍摄的1611张图片，其中包括图片和每张图片对应的标注文档，每张图片中有多个目标。标注内容包括图片中每个目标的类别(人、车等)和位置(即每个目标在图片中的左上角坐标和右下角坐标，称为标注框)等。获取图像路径、目标类别、目标位置等信息，生成训练集和测试集，把标注框中心坐标以及长宽转化为相对整幅图像长宽的比例，打乱数据集顺序以免模型过拟合；

2)确定先验框尺寸：对数据集进行k-means聚类分析，根据聚类结果确定算法中先验框尺寸；首先，针对数据集的尺寸进行聚类分析，确定网络中检测层先验框的尺寸大小。一般的k-means聚类使用欧式距离作为度量公式，通过度量样本间相似性进行聚类，但是在先验框聚类过程中，若使用欧式距离则较大先验框会比较小先验框产生更多的误差。而真正选择的样本间的距离度量应该与先验框本身的大小无关，因此，对于先验框聚类的距离度量，使用公式(1)进行计算。对于给定的真实框数据集，根据真实框边框间的距离大小将数据集划分为K个簇，通过迭代使簇内的边框距离尽可能小，而簇间的边框距离尽量大。通过目标函数的变化值从而确定先验框的尺寸。

D(S_b,S_c)＝1-IOU(S_b,S_c) (1)

其中，D(S_b,S_c)表示先验框聚类的距离，S_b表示真实框的集合，S_c表示先验框的簇中心集合，IOU(S_b,S_c)表示真实框与先验框簇中心的交集与并集的比值。IOU值越大，代表两者相关度越高，即两者越相近。IOU计算方式如图7所示，其中灰色部分是分子和分母，分子是真实框与先验框簇中心的交集，分母是真实框与先验框簇中心的并集。

3)特征提取：通过CSPDarknet53模块提取无人机图像特征，增强卷积神经网络的学习能力，使得在轻量化的同时保持准确性。其中在残差模块的结构里使用了CSP(Cross-Stage- Partial-connection，跨阶段局部网络)结构，将原来的残差模块进行了拆分。先将特征映射划分为两部分，主干部分继续进行原来残差模块的堆叠，另一部分是一个大残差边，与主干部分合并。在减少了计算量的同时可以保证准确率。避免由于网络优化中的梯度信息重复而导致推理计算过高。本发明实施例中使用416x416大小的图像，经过CSPDarknet53中每一步的处理，分别把整幅图像分成208x208、104x104、52x52、26x26、13x13个网格，每个网格点负责对应一个区域的目标检测。通过把整幅图像分成不同个数的网格，提取出无人机图像不同尺度的特征，其中被分为13x13个网格的图像，检测的目标最大；CSP模块是 CSPDarknet53模块中的残差模块。

4)多尺度融合：采用RFB(Receptive Field Block，感受野模块)模块对同一个特征图进行重采样的方式提取不同尺度的特征，结合空洞卷积的思想，以提高感受野的方式提高网络的特征提取能力。本发明实施例中对经过CSPDarkent53模块进行特征提取之后的13x13特征层的特征进行卷积，利用Dilation_rate＝1、3、5、7四个不同的离心率，采用5个并联结构，可以有效地增加感受野，如图4所示。通过调节图4中的Dilation_rate来调节不同大小的卷积核的离心率，不同的感受野应该具备不同的离心率，比如Dilation_rate＝5分支的采样点和中心的距离比Dilation_rate＝1和Dilation_rate＝3的更远。其中，1x1的卷积主要用于减少计算量和进行跨通道的信息融合，1x7和7x1的卷积也是为了减少参数量。另外，使用了较多的小通道数，除了可以减少计算量，还可以关注更局部的信息；

5)构建目标检测特征金字塔模型：使用PANet结构构建特征金字塔，先自顶向下传达强语义特征，再自底向上传达强定位特征，从不同的主干层对不同的检测层进行参数聚合，进一步提高特征提取的能力。如图5所示，本发明实施例中，经过多次卷积、上采样和下采样，融合了CSPDarkent53模块提取出的52x52、26x26特征层的特征和经过RFB模块提取的13x13 特征层的特征，进一步提取无人机图像的特征；

6)提取多特征层进行目标检测，一共提取三个特征层，即13x13、26x26、52x52特征层。三次目标检测，每次对应的感受野不同，13x13特征层的感受野最大，适合检测大的目标， 52x52特征层的感受野最小，适合检测小目标。在构建特征金字塔之后，经过5次卷积，得到 13x13、26x26、52x52三个特征层的预测结果，其中包括预测框的位置、预测的目标类别，以及预测得分；

7)利用预测框的位置和得分进行非极大抑制，筛选出预测框，避免一个目标有多个预测框。本发明实施例中，对所有无人机图像进行筛选。首先找出该图像中预测得分大于0.5的框，此步骤可以大幅度减少预测框的数量。判断获得的预测框的目标种类与预测得分，取出预测结果中预测框的位置，与预测框的目标种类和预测得分进行堆叠。然后对预测框的目标种类进行筛选，筛选出一定区域内属于同一种类的预测得分最大的预测框。根据预测得分对预测框的目标种类进行从大到小排序。每次取出预测得分最大的框，计算其与其他所有预测框的重合程度，删除重合程度过大的预测框，以此保证一个目标最多有一个预测框；

8)可视化：在原图片上绘出每个目标的预测框以及其目标种类和预测得分。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于无人机图像的小目标检测方法，通过对目标检测方法YOLOv4进行改进,基于空洞卷积和多尺度特征层构建目标检测特征金字塔模型，提取得到多特征层的预测结果并解码，从而得到目标检测预测得分；

所述目标检测特征金字塔模型包括：用于对无人机图像进行多特征层特征提取的特征提取模块CSPDarknet53；用于对提取到的无人机图像特征进行多尺度融合的改进感受野模块RFB；用于反复提取特征构建特征金字塔、提取多特征层进行目标检测的PANet模块；

所述基于无人机图像的小目标检测方法包括如下步骤：

1)图像初始化：获取图像路径、目标类别、目标位置信息，把标注框中心坐标和长宽转化为相对整幅图像长宽的比例，打乱数据集顺序以免模型过拟合；

2)确定先验框尺寸：对数据集进行聚类分析，根据聚类结果确定先验框尺寸；

3)特征提取：通过CSPDarknet53模块提取特征，增强CNN的学习能力，使得在轻量化的同时保持准确性；

具体在残差模块的结构里使用了跨阶段局部网络CSP结构，将残差模块进行拆分；先将特征映射划分为两部分，主干部分继续进行残差模块的堆叠，另一部分是一个大残差边，与主干部分合并，使得减少计算量的同时可以保证准确率，避免由于网络优化中的梯度信息重复而导致推理计算过高；

4)多尺度融合：采用感受野模块RFB模块对同一个特征层提取到的特征进行重采样的方式，提取得到不同尺度的特征；利用空洞卷积提高网络模型的特征提取能力；

5)构建目标检测特征金字塔模型：使用PANet结构构建目标检测特征金字塔，先自顶向下传达强语义特征，再自底向上传达强定位特征，从不同的主干层对不同的检测层进行参数聚合，进一步提高特征提取的能力；

6)利用提取得到的多特征层进行目标检测；

8)进行可视化：绘出每个目标的预测框以及其预测得分。

2.如权利要求1所述基于无人机图像的小目标检测方法，其特征是，步骤1)中，初始化的图像包括多张图片及图片对应的标注文档；每张图片中包含多个目标；标注文档的内容包括图片中每个目标的类别和标注框位置；利用初始化图像信息生成训练集和测试集。

3.如权利要求1所述基于无人机图像的小目标检测方法，其特征是，步骤2)中确定先验框尺寸包括如下步骤：

针对数据集的尺寸进行聚类分析，确定网络中检测层先验框的尺寸大小；

通过以下公式计算得到先验框聚类的距离度量：

D(S_b,S_c)＝1-IOU(S_b,S_c)

其中，D(S_b,S_c)表示先验框聚类的距离，S_b表示真实框的集合，S_c表示先验框的簇中心集合，IOU(S_b,S_c)表示真实框与先验框簇中心的交集与并集的比值；IOU值越大，代表两者相关度越高，即两者越相近；

根据真实框边框间的距离大小将数据集划分为K个簇，通过迭代使簇内的边框距离尽可能小，而簇间的边框距离尽量大；通过目标函数的变化值确定先验框的尺寸。

4.如权利要求1所述基于无人机图像的小目标检测方法，其特征是，步骤3)特征提取具体是：使用416x416大小的图像，经过CSPDarknet53处理，分别将图像分成208x208、104x104、52x52、26x26、13x13个网格，每个网格点负责一个对应区域的目标检测；提取出无人机图像不同尺度的特征。

5.如权利要求4所述基于无人机图像的小目标检测方法，其特征是，步骤4)进行多尺度融合，具体对特征提取得到的13x13特征层的特征进行卷积，利用不同的离心率，采用多个并联结构，以增加感受野。

6.如权利要求5所述基于无人机图像的小目标检测方法，其特征是，步骤5)构建目标检测特征金字塔模型，具体经过多次卷积、上采样和下采样，融合CSPDarkent53模块提取出的52x52、26x26特征层的特征和经过RFB模块提取的13x13特征层的特征，进一步提取得到无人机图像的特征。

7.如权利要求6所述基于无人机图像的小目标检测方法，其特征是，步骤6)利用提取得到的多特征层进行目标检测，具体是：共提取三个特征层；共进行三次目标检测，每次对应的感受野不同；利用构建的目标检测特征金字塔模型，经过5次卷积，得到三个特征层的预测结果，包括预测框的位置、预测的目标类别和预测得分。

8.如权利要求7所述基于无人机图像的小目标检测方法，其特征是，步骤7)对无人机图像筛选出预测框，具体包括：

首先找出该图像中预测得分大于设定值的预测框；判断获得的预测框的目标种类与预测得分，取出预测结果中预测框的位置，与预测框的目标种类和预测得分进行堆叠；

然后对预测框的目标种类进行筛选，筛选出区域内属于同一种类的预测得分最大的预测框；

根据预测得分对预测框的目标种类进行从大到小排序；

每次取出预测得分最大的框，计算其与其他所有预测框的重合程度；

删除重合程度大的预测框，使得一个目标最多有一个预测框。