CN112307853A

CN112307853A - 航拍图像的检测方法、存储介质和电子装置

Info

Publication number: CN112307853A
Application number: CN201910713214.6A
Authority: CN
Inventors: 刘若鹏; 栾琳; 季春霖; 刘凯品; 陈欢
Original assignee: Chengdu Tianfu New District Guangqi Future Technology Research Institute
Current assignee: Chengdu Tianfu New District Guangqi Future Technology Research Institute
Priority date: 2019-08-02
Filing date: 2019-08-02
Publication date: 2021-02-02

Abstract

本发明提供了一种航拍图像的检测方法、存储介质和电子装置；其中，该方法包括：将待检测的航拍图像数据输入到预先已训练的神经网络中；其中，已训练的神经网络包括多个残差模块，且少于标准神经网络中残差模块的数量；通过多个残差模块对待检测的航拍图像数据进行卷积操作，并将卷积操作结果中的第一特征图进行上采样后按照特征图通道数与指定残差模块进行融合得到第二特征图；其中，第一特征图的尺寸小于第二特征图的尺寸；在第二特征图中检测目标图像，并从检测结果中输出置信度阈值大于预设置信度阈值的目标图像。通过本发明，解决了相关技术中通过传统的纹理特征或者其他特征是很难提取到较好的目标物体特征的问题。

Description

航拍图像的检测方法、存储介质和电子装置

技术领域

本发明涉及通信领域，具体而言，涉及一种航拍图像的检测方法、存储介质和电子装置。

背景技术

随着工业科技的迅猛发展以及空、天平台数据获取能力的日益增强，利用无人机技术进行目标检测和识别受到越来越多的重视。同时，随着无人机技术的发展，无人机可以获得越来越多的高分辨率图像，这也为无人机自动目标检测提供了有利的依据。目标检测技术在智能化无人机侦查作战，精确打击等领域应用十分广泛。同时，在现有目标检测技术中基于深度学习的目标检测技术得了很好的发展。因此将基于深度学习的目标检测技术应用在无人机图像处理技术是一个很好的研究课题。但由于在无人机航拍图像中，目标物体往往占有整副图像中较少的像素，给无人机航拍图像目标检测造成了一定的难度。

在传统的目标检测中，往往利用边缘检测、纹理特征等方法对图像进行处理。近年来，人工智能领域得到了蓬勃发展，基于深度学习的目标检测算法在学术界目标检测公共数据集上的准确率得到了很大的提升，使得目标检测算法完全满足实时性的要求。无人机是一个国家国防建设的重要领域，通过无人机航拍的图像对地面目标进行精准定位和识别是十分迫切需要解决的问题。无人机航拍的图像往往具有以下特点：1)飞行高度较高；2)拍场景较大；3)图像中目标像素较小；如果仅仅使用传统的纹理特征或者其他特征是很难提取到较好的目标物体特征。

针对相关技术中的上述问题，目前尚未存在有效的解决方案。

发明内容

本发明实施例提供了一种航拍图像的检测方法、存储介质和电子装置，以至少解决相关技术中通过传统的纹理特征或者其他特征是很难提取到较好的目标物体特征的问题。

根据本发明的一个实施例，提供了一种航拍图像的检测方法，包括：将待检测的航拍图像数据输入到预先已训练的神经网络中；其中，所述已训练的神经网络包括多个残差模块，且所述已训练的神经网络中的残差模块的数量少于标准神经网络中残差模块的数量；通过所述多个残差模块对所述待检测的航拍图像数据进行卷积操作，并将卷积操作结果中的第一特征图进行上采样后按照特征图通道数与指定残差模块进行融合得到第二特征图；其中，所述第一特征图的尺寸小于所述第二特征图的尺寸；在所述第二特征图中检测目标图像，并从检测结果中输出置信度阈值大于预设置信度阈值的目标图像。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

本申请中涉及到的用于对航拍图像进行检测的神经网络结构相对于现有网络结构更加简洁，从而使得本申请中的神经网络的权重相对于现有网络结构少，同时在本申请中将卷积操作结果中的第一特征图进行上采样后按照特征图通道数与指定残差模块进行融合得到第二特征图，即在本申请中无需对多尺度特征图进行检测，只保留一个较大尺寸的特征图即可，避免了航拍图像中小目标被遗漏，从而解决了相关技术中通过传统的纹理特征或者其他特征是很难提取到较好的目标物体特征的问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的航拍图像的检测方法的流程图；

图2是根据本发明实施例的two-stage思想的示意图；

图3是根据本发明实施例的one-stage思想的示意图；

图4是现有技术中的卷积过程中图像抽化的示意图；

图5是根据本发明可选实施例的基础残差模块的示意图；

图6是现有技术中原始神经网络的网络结构的示意图；

图7是根据本发明实施例的神经网络的网络结构示意图；

图8是根据本发明实施例的航拍图像的检测装置的结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

需要说明的是，基于深度学习的目标检测算法可以避免人工设计特征提取器，通过网络的学习很好的提取到图像中目标物体的特征。随着基于深度学习的目标检测算法在安防等领域运用的越来越多，也尝试将基于深度学习的目标检测算法应用在无人机航拍等场景。由于航拍图像具有以下特点：1)飞行高度较高；2)拍场景较大；3)图像中目标像素较小；往往给现有的目标检测算法的性能造成了不良影响。因此，为了使深度学习在无人机航拍场景下可以得到很好地利用，设计一个针对无人机场景的深度学习目标检测网络结构(神经网络)显得至关重要。

在本实施例中提供了一种航拍图像的检测方法，图1是根据本发明实施例的航拍图像的检测方法的流程图，如图1所示，该流程包括如下步骤：

步骤S102，将待检测的航拍图像数据输入到预先已训练的神经网络中；其中，已训练的神经网络包括多个残差模块，且所述已训练的神经网络中的残差模块的数量少于标准神经网络中残差模块的数量；

在本申请的优选实施方式中，该多个残差模块优选为4个，其中，两个残差模块包括1个残差基础模块，另外两个残差模块包括2个残差基础模块；

需要说明的是，相关技术中的原始网络(也即标准神经网络)结构中有5个残差模块，其中残差模块1、2分别包含1个残差基础模块和2个残差基础模块，残差模块3、4均包含8个残差基础模块，残差模块5有4个残差基础模块，并且有三个尺寸的特征图用以不同尺寸目标检测。原始网络结构包含了较多卷积层，一个基础模块包含两个卷积操作，卷积操作越多则网络的可学习参数越多，网络的权重文件越大。基于此，原始的网络结构的权重文件通常为240Mb，显存占用通常为1.2Gb，不利于无人机航拍场景下使用；

而在本申请中，所涉及到的神经网络的网络结构和原始网络结构相比，少了1个残差模块且每个残差模块包含的残差基础模块也少了，既保证了网络特征提取能力，也使得网络的卷积层数减少，可学习参数变小，从而使得生成的权重文件变小，相当于是生成了一个轻量级目标检测网络(对应于本申请中的神经网络)，同时由于网络层数的减少，轻量级网络训练后生成的权重文件在优选实施方式中为23Mb，较原始网络结构权重文件大小减少了210Mb。此外，减少残差模块的使用除了能够使得神经网络轻量化外，还能适应高空航拍的需要：高空航拍获得感兴趣目标图像所占全图像的像素比例往往比一般正常拍摄的小，正常标准网络容易将这些目标剔除，无法进行后续识别。

步骤S104，通过该多个残差模块对待检测的航拍图像数据进行卷积操作，并将卷积操作结果中的第一特征图进行上采样后按照特征图通道数与指定残差模块进行融合得到第二特征图；其中，第一特征图的尺寸小于第二特征图的尺寸；

其中，通过上述步骤S104可知，在本申请中无需对多尺度特征图进行检测，只保留一个较大尺寸的特征图即可。

步骤S106，在第二特征图中检测目标图像，并从检测结果中输出置信度阈值大于预设置信度阈值的目标图像。

通过上述步骤S102至步骤S106可知，本申请中涉及到的用于对航拍图像进行检测的神经网络结构相对于现有网络结构更加简洁，从而使得本申请中的神经网络的权重相对于现有网络结构少，同时在本申请中将卷积操作结果中的第一特征图进行上采样后按照特征图通道数与指定残差模块进行融合得到第二特征图，即在本申请中无需对多尺度特征图进行检测，只保留一个较大尺寸的特征图即可，避免了航拍图像中小目标被遗漏，从而解决了相关技术中通过传统的纹理特征或者其他特征是很难提取到较好的目标物体特征的问题。

在本申请的可选实施方式中，在步骤S102中涉及到的在将待检测的航拍图像数据输入到预先已训练的神经网络中方式之前，本申请的方法还包括：

步骤S11，获取多个场景下的航拍图像数据，并基于多个场景下的航拍图像数据建立初始训练集；

步骤S12，对初始训练集进行分析统计得到用于对神经网络进行训练的训练集；

步骤S13，预设以深度残差网络为骨干网络的初始神经网络；

步骤S14，通过训练集对初始神经网络进行训练得已训练的神经网络。

由上述步骤S11至步骤S14可知，是对本申请中涉及到的神经网络进行训练的过程，具体训练的过程如下：

对于步骤S11中涉及到的基于多个场景下的航拍图像数据建立初始训练集的方式，可以通过如下方式来实现：

步骤S11-1，对多个场景下的航拍图像数据进行解码，并每隔预定帧保存一帧图像；

步骤S11-2，从保存的图像中获取包括多个目标物体的图像作为初始训练集中的数据；

步骤S11-3，对初始训练集中的图像数据中的目标物体进行标注；其中，通过矩形框对目标物体进行标注，并在矩形框上显示目标物体的坐标以及目标物体的类型；

步骤S11-4，保存标注后的初始训练集中的图像数据。

对于上述步骤S11-1至步骤S11-4在具体应用场景中可以是：由于机载摄像机拍摄的数据均为视频格式，首先要对多个场景下的视频进行解码。其中，为了保证训练集中目标姿态的多样性，使网络能够学习到更好的目标物体的特征。在解码的过程中每隔20帧或者30帧(本申请中的预定帧的优选方式)保存一帧图像。视频解码完成后，人工挑选出包含三个或三个(多个目标物体的优选方式)以上目标物体的图像作为原始图像训练集待标注的数据。

需要说明的是，在优选方式中采用labelImg标注工具对图像中的目标进行标注。labelImg标注工具是目标检测领域中常用的标注工具，通过该工具，可以对图像中多种目标物体进行标注。在标注过程中。各个目标用矩形框标注，并同时会得到矩形框的左上角(最小)、右下角(最大)在图像中的坐标，以及目标物的种类，不同种类的目标矩形框会以不同颜色加以区别。最终将标注结果以xml文件格式存储到本地计算机，方便后续对数据进行处理。

对于上述步骤S12中涉及到的对初始训练集进行分析统计得到用于对神经网络进行训练的训练集的方式，可以通过如下方式来实现：

步骤S12-1，读取保存的初始训练集中的图像数据中每个目标物体的坐标，并基于坐标获取每个目标物体的长和宽；

步骤S12-2，通过预设的聚类函数统计出用于对神经网络进行训练的训练集的长宽比。

对于上述步骤S12-1和步骤S1-2，在具体应用场景中可以是：基于深度学习的目标检测思想采用anchor-box机制，即输入图像经过网络的骨干网络卷积生成特征图，在该特征图上的每一个像素预先定义几个不同宽高比的矩形框，用以对图像中所包含的目标物体进行检测，即这几个不同宽高比的矩形框称为anchor-box。决定检测结果好坏的不仅仅是算法所使用的网络结构，与anchor-box的设定也有较深的联系，因此设计合适宽高的anchor-box对检测网络的性能显得至关重要。

需要说明的是，在安防领域中，由于其拍摄场景大小不一，导致其目标尺寸大小也有较大的区别，所以在对安防领域中的目标进行检测时对于anchor的设定会与在公共数据库上范围一样，即anchor-box的尺寸(长*高)有大有小。但在无人机航拍图像领域中，由于无人机飞行高度高，拍摄场景大并且拍摄场景中的目标单一，导致其航拍图像中的通用目标(人、车、船舶等)占用的像素点差别不大，所以在无人机航拍图像中不会出现像在安防领域中尺寸大小范围比较大的anchor-box。因此在设计anchor-box尺寸范围时，可以根据具体场景分析出场景航拍图像中目标物体所占的像素点个数，使网络可以更好的拟合出目标检测框的大小。在分析数据分布的过程中，先读取上述已经生成的xml文件，根据每张图像的每个目标的坐标对长宽进行统计，根据统计值利用kmeans聚类方法统计出适合训练集的anchor-box长宽比。

在本申请的另一个可选实施方式中，对于步骤S14涉及到的通过训练集对神经网络进行训练得已训练的神经网络的方式，可以是：

步骤S14-1，通过训练集对神经网络中的残差模块进行训练；

步骤S14-2，在训练的过程中通过loss函数对神经网络的训练过程进行指导，在loss函数的函数值在最小值时，确定神经网络的权值。

其中，loss函数的公式如下：

其中，coordErr为坐标误差，坐标误差用于指导神经网络对即将预测的框的坐标位置学习，iouErr用于指导神经网络在特征图上的像素是否包括目标物体学习，以指导神经网络对目标物体位置的预测，clsErr用于指示像素中包含某种目标物体的学习，i为在特征上的位置，S2为特征图的大小S*S。

在本申请的另一个可选实施方式中，对于上述步骤S104中涉及到的通过该多个残差模块对待检测的航拍图像数据进行卷积操作，并将卷积操作结果中的第一特征图进行上采样后按照特征图通道数与指定残差模块进行融合得到第二特征图的方式，可以通过如下方式来实现：

步骤S104-11，将待检测的航拍图像数据输入到第一残差模块中；其中，第一残差模块包括1个残差基础模块；

步骤S104-12，将第一残差模块进行卷积操作后的输出结果输入到第二残差模块中；其中，第二残差模块包括2个残差基础模块；

步骤S104-13，将第二残差模块进行卷积操作后的输出结果输入到第三残差模块中；其中，第三残差模块包括2个残差基础模块；

步骤S104-14，将第三残差模块进行卷积操作后的输出结果中的第一输出结果输入到第四残差模块中；其中，第四残差模块包括1个残差基础模块；第三残差模块进行卷积操作后的输出结果还包括第二输出结果；

步骤S104-15，将第四残差模块进行卷积操作后的输出结果中的第一特征图进行上采样操作后与第三残差模块按照通道数进行融合得到第二特征图。

下面结合本申请的具体实施方式对本申请进行举例说明；

在本具体实施方式中提供了一种针对无人机航拍图像的轻量级深度网络目标检测方法，该方法的步骤包括：

步骤S1，通过对无人机航拍的视频解码，建立训练网络需要的训练集。

步骤S2，对已经标注好的训练集数据进行分析，根据数据分布设计轻量级目标检测网络。

步骤S3，根据设计好的轻量级目标检测网络，利用建立的训练集对设计好的网络进行训练。

步骤S4，根据训练过程中网络的收敛状态，判断是否对其训练参数进行调整。

步骤S5，利用训练好的网络权重文件对无人机航拍图像中的目标进行检测，并输出检测结果。

需要说明的是，在本具体实施方式中建立的数据集应包含多个场景的数据。无人机机载摄像机拍摄的视频帧图像大小为通常为：1920*1080个像素，对视频数据进行解码后利用标注工具对需要标注的数据进行标注，从而生成训练所需的训练集。

此外，由于在目标检测工程化应用中，算法的实时性往往是首先考虑的。因此为了保证本具体实施方式中所设计的目标检测网络能够达到实时性要求，在网络设计的步骤中，根据训练数据的分布情况，利用较少网络层数、参数和目标检测算法的one-stage思想(即从图像输入到输出结果只需要一个卷积神经网络)设计目标检测网络进行训练。并根据网络收敛情况，适当的调整网络参数使网络达到最优状态。训练结束后利用训练好的网络模型和权重文件对无人机拍摄的视频图像进行检测。

下面结合上述步骤S1至步骤S5，对本具体实施方式中的一种针对无人机航拍图像的轻量级深度网络目标检测方法进行详细描述，在本具体实施方式中主要分为：训练数据集建立、分析数据分布、设计网络并训练、网络结果输出几个流程。

(1)训练数据集建立

本本具体实施方式中训练数据集的构建主要分为两个步骤，其具体步骤如下所示：

第一步：由于机载摄像机拍摄的数据均为视频格式，首先要对多个场景下的视频进行解码。其中，为了保证训练集中目标姿态的多样性，使网络能够学习到更好的目标物体的特征。在解码的过程中每隔20帧或者30帧保存一帧图像。视频解码完成后，人工挑选出包含三个或三个以上目标物体的图像作为原始图像训练集待标注的数据。

第二步：利用labelImg标注工具对图像中的目标进行标注。labelImg标注工具是目标检测领域中常用的标注工具，通过该工具，可以对图像中多种目标物体进行标注。在标注过程中。各个目标用矩形框标注，并同时会得到矩形框的左上角(最小)、右下角(最大)在图像中的坐标，以及目标物的种类，不同种类的目标矩形框会以不同颜色加以区别。最终将标注结果以xml文件格式存储到本地计算机，方便后续对数据进行处理。

(2)分析数据分布

在设计网络结构之前，应对(1)中所建立的数据集的分布情况进行统计。基于深度学习的目标检测思想采用anchor-box机制，即输入图像经过网络的骨干网络卷积生成特征图，在该特征图上的每一个像素预先定义几个不同宽高比的矩形框，用以对图像中所包含的目标物体进行检测，学术界将这几个不同宽高比的矩形框称为anchor-box。决定检测结果好坏的不仅仅是算法所使用的网络结构，与anchor的设定也有较深的联系。故设计合适宽高的anchor-box对检测网络的性能显得至关重要。

在安防领域中，由于其拍摄场景大小不一，导致其目标尺寸大小也有较大的区别，所以在对安防领域中的目标进行检测时对于anchor的设定会与在公共数据库上范围一样，即anchor-box的尺寸(长*高)有大有小。但在无人机航拍图像领域中，由于无人机飞行高度高，拍摄场景大并且拍摄场景中的目标单一，导致其航拍图像中的通用目标(人、车、船舶等)占用的像素点差别不大，所以在无人机航拍图像中不会出现像在安防领域中尺寸大小范围比较大的anchor-box。因此在设计anchor-box尺寸范围时，可以根据具体场景分析出场景航拍图像中目标物体所占的像素点个数，使网络可以更好的拟合出目标检测框的大小。

在分析数据分布的过程中，先读取(1)中已经生成的xml文件，根据每张图像的每个目标的坐标对长宽进行统计，根据统计值利用kmeans聚类方法统计出适合训练集的anchor-box长宽比。

(3)设计网络并训练

需要说明的是，基于深度学习的目标检测算法主要分为one-stage思想和two-stage思想。

其中，如图2所示，在two-stage思想中，是从图片输入进检测网络得到检测结果，该方式需要两个步骤：首先，需要产生图像中可能包含目标物体的候选框；其次，利用候选框的特征对框的位置信息进行微调和分类，从而得到目标种类的置信度和位置。

如图3所示，而one-stage思想则不需要先产生可能包含目标物体的候选框，通过卷积神经网络产生的特征图直接得到目标种类的置信度和位置。在该两种思想中，two-stage速度较慢，不满足工程应用的实时性要求；one-stage思想的速度具有优势。因此在具体实施方式中将利用one-stage思想进行网络设计。两种思想的具体流程图见图2和图3所示。

需要说明的而是，在现有的one-stage思想中，大多数在检测时采用多个尺度的特征图，通过卷积神经网络和输入图像不断的卷积过程中，不同尺寸的特征图的每一个位置对应到输入图像上同一中心但不同大小的区域，所以通过不同尺寸的特征图可以检测到不同尺寸的目标物体。大尺寸特征图上的每个位置在原图上对应同一中心较小的区域，因此可用于检测较小尺寸的目标。同理，小尺寸的特征图可用以检测较大尺寸特征图。如(2)所述，在无人机航拍的场景中，目标物体尺寸较小且尺寸范围变化较小，故为了保证网络能够很好地拟合训练集中目标的尺寸，在本具体实施方式中中只涉及一个较大尺寸的特征图作为检测模块中的特征图。

在深度学习的卷积神经网络中，网络的可学习参数量决定了网络的大小，即训练生成的网络模型文件大小。通常将参数量小的网络定义为轻量级网络。故在深度学习的工程应用中，为了减少网络在调用过程中的显存占用，研发人员往往要对网络进行压缩，通常用的方法为网络裁剪，即通过减少网络的某些层数、卷积核的个数等使网络参数量减小的方法对网络进行裁剪，以达到网络轻量级的目的。同时，卷积神经网络的输入图像进入网络后是不断卷积的过程，不断卷积是图像中目标不断抽象化的过程，网络越深，对图像的抽象程度越高。

如图4所示，为现有技术中的卷积过程，Layer1输出的特征图是图像的边缘或者纹理特征，Layer5变为比较抽象的特征。可见，原始输入图像中的目标较大，在不断卷积过程中已经被完全抽象。无人机的航拍图像中目标尺寸较小且有的目标较为模糊，卷积的过程中一个10*10大小的目标区域可能刚开始为一个点，但经过卷积操作，这个点可能会被完全抽象掉，导致在检测过程中出现漏检的可能，使得准确率不高。

因此为了提高小目标检测的准确率，且得到参数较小的轻量级网络，在本申请中用一个比较浅的网络实现目标检测。本具体实施方式中的目标检测网络是以深度残差网络为骨干网络。为了达到更好的检测效率，one-stage思想的目标检测网络，其骨干网络均较深，例如SSD系列和yolo系列，会更加有利于对图像特征的提取以及对图像特征的抽象化，但随着其网络层数的加深，导致网络参数过多，训练生成的权重文件较大，使得网络占用显存较大且不利于网络的实时性检测。为了避免无人机航拍图像中小目标在不断的卷积过程中被抽象，提升小目标检测的准确率，本发明旨在减少骨干网络的层数，在保证特征提取能力的前提下，保留小目标的特征。同时为了增加小目标的特征表示能力，在本具体实施方式中采用对较小尺寸特征图上采样后和较大特征图按照特征图通道数进行融合，用以提高小目标的特征表示能力。

一个基础残差模块如图5所示，x为残差模块的输入，F(x)为卷积神经网络的原始映射。relu为深度残差模块中的激活函数，H(x)为深度残差模块的输出函数，深度残差模块采用原始映射F(x)和输入x加和后构成新的网络输出函数。

现有技术中原始神经网络的网络结构如图6所示，原始网络结构中有5个残差模块，其中残差模块1、2分别包含1个残差基础模块和2个残差基础模块，残差模块3、4均包含8个残差基础模块，残差模块5有4个残差基础模块，并且有三个尺寸的特征图用以不同尺寸目标检测。原始网络结构包含了较多卷积层，一个基础模块包含两个卷积操作，卷积操作越多则网络的可学习参数越多，网络的权重文件越大。原始的网络结构的权重文件为240Mb，显存占用为1.2Gb，不利于无人机航拍场景下使用。

在本具体实施方式中采用的神经网络的网络结构如图7所示，在本具体实施中使用的网络结构和原始网络结构相比，少了一个残差模块且每个残差模块包含的残差基础模块较少，既保证了网络特征提取能力，也使得网络的卷积层数减少，可学习参数变小，从而使得生成的权重文件变小，即生成了一个轻量级目标检测网络，同时也采用增加语音信息的操作使得网络中小目标的语义信息增大。通过本具体实施方式设计的网络结构，不仅保留了网络的特征提取能力，也保留了小目标的特征信息，同时由于网络层数的减少，轻量级网络训练后生成的权重文件为23Mb，较原始网络结构权重文件大小减少了210Mb，且检测率在同样测试集中提高较大，从而证明了本发明设计的网络的有效性。

在深度学习领域中，网络通过对数据的学习即训练过程形成网络对数据的认知能力。在训练过程，算法一般通过loss函数指导网络学习。当loss函数的函数值达到最小值，意味着网络训练结束即达到了最优状态。本发明中用的loss函数为：

本发明全部使用了均方和误差作为loss函数，由三部分组成：坐标误差、IOU误差和分类误差。其中coordErr为坐标误差，该误差主要指导网络对即将预测的框的坐标位置学习，iouErr主要是指导网络在特征图上的某一个格子(像素)是否包含目标物体学习，从而指导网络对目标位置的预测。clsErr主要指导格子中包含某种目标物体的学习。在上述公式中，i为在特征上的位置，S2为特征图的大小S*S。

(4)网络输出

如(3)所述的网络结构，在网络训练达到最优状态便获得用于无人机航拍场景下的网络结构和权重文件。将待检测的视频数据解码后输入训练好的轻量级网络，设计一个置信度阈值，使得大于阈值的目标输出。

可见，通过本具体实施方式采用对无人机航拍图像数据集分析，设置了较小尺寸范围的anchor-box，同时针对无人机航拍数据设计了轻量级目标检测网络。在设计网络过程中，参考现存目标检测中对小目标的处理方式，即增加上下文语义信息，来增加对小目标的检测性能，同时由于网络过深会导致尺寸较小的目标特征被完全抽象掉，影响网络性能。因此为了避免小目标被遗漏，在具体实施方式中增加上下文的基础上，使用较浅的网络结构。又因为无人机航拍图像中目标尺寸较小，在设计网络结果的过程中放弃了现如今流行的多尺度特征图检测，只保留一个较大尺寸的特征图。通过以上三种设计网络的思想，设计出一个轻量级网络结构，在具体的应用场景中，本申请最终训练出的网络模型只有23M，检测单张图片的速度为0.045ms，同时在同一个无人机航拍数据集上的测试结果表明本申请的检测精度比用现存检测方法有所提升。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种航拍图像的检测装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图8是根据本发明实施例的航拍图像的检测装置的结构框图，如图8所示，该装置包括：输入模块82，用于将待检测的航拍图像数据输入到预先已训练的神经网络中；其中，已训练的神经网络包括多个残差模块，且已训练的神经网络中的残差模块的数量少于标准神经网络中残差模块的数量；处理模块84，与输入模块82耦合连接，用于通过该多个残差模块对待检测的航拍图像数据进行卷积操作，并将卷积操作结果中的第一特征图进行上采样后按照特征图通道数与指定残差模块进行融合得到第二特征图；其中，第一特征图的尺寸小于第二特征图的尺寸；输出模块86，与处理模块84耦合连接，用于在第二特征图中检测目标图像，并从检测结果中输出置信度阈值大于预设置信度阈值的目标图像。

可选地，本申请中的处理模块84包括：第一输入单元，用于将待检测的航拍图像数据输入到第一残差模块中；其中，第一残差模块包括1个残差基础模块；第二输入单元，用于将第一残差模块进行卷积操作后的输出结果输入到第二残差模块中；其中，第二残差模块包括2个残差基础模块；第三输入单元，用于将第二残差模块进行卷积操作后的输出结果输入到第三残差模块中；其中，第三残差模块包括2个残差基础模块；第四输入单元，用于将第三残差模块进行卷积操作后的输出结果中的第一输出结果输入到第四残差模块中；其中，第四残差模块包括1个残差基础模块；第三残差模块进行卷积操作后的输出结果还包括第二输出结果；处理单元，用于将第四残差模块进行卷积操作后的输出结果中的第一特征图进行上采样操作后与第三残差模块按照通道数进行融合得到第二特征图。

可选地，本申请的航拍图像的检测装置还包括：建立模块，用于在将待检测的航拍图像数据输入到预先已训练的神经网络中之前，获取多个场景下的航拍图像数据，并基于多个场景下的航拍图像数据建立初始训练集；统计模块，用于对初始训练集进行分析统计得到用于对神经网络进行训练的训练集；预设模块，用于预设以深度残差网络为骨干网络的初始神经网络；训练模块，用于通过训练集对初始神经网络进行训练得已训练的神经网络。

可选地，本申请中的预设以深度残差网络为骨干网络的初始神经网络中所包括的残差模块的数量与已训练的神经网络中的残差模块的数量相等，且少于标准神经网络中残差模块的数。

可选地，本申请中的建立模块包括：解码单元，用于对多个场景下的航拍图像数据进行解码，并每隔预定帧保存一帧图像；获取单元，用于从保存的图像中获取包括多个目标物体的图像作为初始训练集中的数据；标注单元，用于对初始训练集中的图像数据中的目标物体进行标注；其中，通过矩形框对目标物体进行标注，并在矩形框上显示目标物体的坐标以及目标物体的类型；保存单元，用于保存标注后的初始训练集中的图像数据。

可选地，本申请中的统计模块包括：读取单元，用于读取保存的初始训练集中的图像数据中每个目标物体的坐标，并基于坐标获取每个目标物体的长和宽；统计单元，用于通过预设的聚类函数统计出用于对神经网络进行训练的训练集的长宽比。

可选地，本申请中的训练模块包括：训练单元，用于通过训练集对神经网络中的残差模块进行训练；确定单元，用于在训练的过程中通过loss函数对神经网络的训练过程进行指导，在loss函数的函数值在最小值时，确定神经网络的权值。

其中，loss函数的公式如下：

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，将待检测的航拍图像数据输入到预先已训练的神经网络中；其中，已训练的神经网络包括多个残差模块，且已训练的神经网络中的残差模块的数量少于标准神经网络中残差模块的数量；

S2，通过该多个残差模块对待检测的航拍图像数据进行卷积操作，并将卷积操作结果中的第一特征图进行上采样后按照特征图通道数与指定残差模块进行融合得到第二特征图；其中，第一特征图的尺寸小于第二特征图的尺寸；

S3，在第二特征图中检测目标图像，并从检测结果中输出置信度阈值大于预设置信度阈值的目标图像。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种航拍图像的检测方法，其特征在于，包括：

将待检测的航拍图像数据输入到预先已训练的神经网络中；其中，所述已训练的神经网络包括多个残差模块，且所述已训练的神经网络中的残差模块的数量少于标准神经网络中残差模块的数量；

通过所述多个残差模块对所述待检测的航拍图像数据进行卷积操作，并将卷积操作结果中的第一特征图进行上采样后按照特征图通道数与指定残差模块进行融合得到第二特征图；其中，所述第一特征图的尺寸小于所述第二特征图的尺寸；

在所述第二特征图中检测目标图像，并从检测结果中输出置信度阈值大于预设置信度阈值的目标图像。

2.根据权利要求1所述的方法，其特征在于，已训练的神经网络包括4个残差模块；其中第一残差模块包括1个残差基础模块，第二残差模块包括2个残差基础模块，第三残差模块包括2个残差基础模块，第四残差模块包括1个残差基础模块。

3.根据权利要求2所述的方法，其特征在于，所述通过所述多个残差模块对所述待检测的航拍图像数据进行卷积操作，并将卷积操作结果中的第一特征图进行上采样后按照特征图通道数与指定残差模块进行融合得到第二特征图，包括：

将所述待检测的航拍图像数据输入到第一残差模块中；

将所述第一残差模块进行卷积操作后的输出结果输入到第二残差模块中；

将所述第二残差模块进行卷积操作后的输出结果输入到第三残差模块中；

将所述第三残差模块进行卷积操作后的输出结果中的第一输出结果输入到第四残差模块中；所述第三残差模块进行卷积操作后的输出结果还包括第二输出结果；

将所述第四残差模块进行卷积操作后的输出结果中的所述第一特征图进行上采样操作后与所述第三残差模块按照通道数进行融合得到所述第二特征图。

4.根据权利要求1所述的方法，其特征在于，在将待检测的航拍图像数据输入到预先已训练的神经网络中之前，所述方法还包括：

获取多个场景下的航拍图像数据，并基于所述多个场景下的航拍图像数据建立初始训练集；

对所述初始训练集进行分析统计得到用于对所述神经网络进行训练的训练集；

预设以深度残差网络为骨干网络的初始神经网络；

通过所述训练集对所述初始神经网络进行训练得所述已训练的神经网络。

5.根据权利要求4所述的方法，其特征在于，基于所述多个场景下的航拍图像数据建立初始训练集，包括：

对多个场景下的航拍图像数据进行解码，并每隔预定帧保存一帧图像；

从所述保存的图像中获取包括多个目标物体的图像作为所述初始训练集中的数据；

对所述初始训练集中的图像数据中的目标物体进行标注；其中，通过矩形框对所述目标物体进行标注，并在所述矩形框上显示所述目标物体的坐标以及所述目标物体的类型；

保存标注后的初始训练集中的图像数据。

6.根据权利要求5所述的方法，其特征在于，所述对所述初始训练集进行分析统计得到用于对所述神经网络进行训练的训练集，包括：

读取保存的初始训练集中的图像数据中每个目标物体的坐标，并基于所述坐标获取每个目标物体的长和宽；

通过预设的聚类函数统计出用于对所述神经网络进行训练的训练集的长宽比。

7.根据权利要求6所述的方法，其特征在于，所述通过所述训练集对神经网络进行训练得所述已训练的神经网络，包括：

通过所述训练集对所述神经网络中的残差模块进行训练；

在训练的过程中通过loss函数对所述神经网络的训练过程进行指导，在所述loss函数的函数值在最小值时，确定所述神经网络的权值。

8.根据权利要求7所述的方法，其特征在于，所述loss函数的公式如下：

其中，coordErr为坐标误差，所述坐标误差用于指导所述神经网络对即将预测的框的坐标位置学习，iouErr用于指导所述神经网络在特征图上的像素是否包括目标物体学习，以指导神经网络对目标物体位置的预测，clsErr用于指示像素中包含某种目标物体的学习，i为在特征上的位置，S²为特征图的大小S*S。

9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至8任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至8任一项中所述的方法。