CN113298024A - 一种基于轻量化神经网络的无人机对地小目标识别方法 - Google Patents
一种基于轻量化神经网络的无人机对地小目标识别方法 Download PDFInfo
- Publication number
- CN113298024A CN113298024A CN202110657179.8A CN202110657179A CN113298024A CN 113298024 A CN113298024 A CN 113298024A CN 202110657179 A CN202110657179 A CN 202110657179A CN 113298024 A CN113298024 A CN 113298024A
- Authority
- CN
- China
- Prior art keywords
- feature
- layer
- image
- small target
- shallow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000001514 detection method Methods 0.000 claims abstract description 52
- 230000011218 segmentation Effects 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 32
- 230000004927 fusion Effects 0.000 claims description 25
- 238000010586 diagram Methods 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 10
- 238000012795 verification Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000005728 strengthening Methods 0.000 claims description 4
- 238000002474 experimental method Methods 0.000 description 10
- 230000008901 benefit Effects 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000012418 validation experiment Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000035899 viability Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
该基于轻量化神经网络的无人机对地小目标识别方法,通过在yolov5s模型的基础上增加SE注意力模块、浅层特征重用以及改进了边框损失函数的方式,使其在保证检测速度的前提下,达到了提高无人机对地小目标检测精度的目的,特别适合无人机对地小目标检测的使用。
Description
技术领域
本发明涉及一种无人机对地小目标的识别方法,属于无人机检测技术领域。
背景技术
无人机是指通过无线电遥控设备和独立程序控制设备操作的无人驾驶飞机。与有人驾驶飞机相比,无人机具有体积小、造价低和生存能力较强等优点,其广泛应用于城市管理、交通监控等领域。其中使用无人机对目标进行检测识别,是无人机需要具备的一项基本功能。无人机拍摄的图像具有距离远、视场大、分辨率高的特性,而无人机拍摄的图像中待检测目标几乎以小目标为主,小目标相对于整幅图像的像素占比小于0.3%。由于小目标的边界框中可能只包含几个像素,本来数量稀少的像素所承载的小目标信息就不充足,神经网络的下采样过程导致小目标的像素信息进一步丢失,甚至在深层网络中完全消失。
为了提高小目标的检测识别度,目前的检测技术(如申请公布号为CN109934131A的发明专利公开的一种基于无人机的小目标检测方法)主要采用Mask R-CNN、yolov4或传统的帧差法提升小目标的检测精度,但是这些方法依然存在着一些弊端,如基于Mask R-CNN和yolov4的方法模型计算量大,要求在具有强大浮点运算能力的服务器上运行,设备成本高昂,并且这两种方法单帧图像的平均检测时间较长,无法满足实时检测的需求,增加了检测的时间成本;基于传统的帧差法则需要依靠研究人员的丰富经验手动设计特征算子,所花费的时间多,工作量大,模型多受限于光照变化,背景噪声影响,在实际场景下的鲁棒性较差。由此有必要研发一种新的无人机对地小目标的识别方法,以解决现有方式存有的以上问题。
发明内容
本发明的目的在于:提供一种基于轻量化神经网络的无人机对地小目标识别方法,在保证检测速度的前提下,以达到提高无人机对地小目标检测精度的目的。
本发明的技术方案是:
一种无人机对地小目标的识别方法,其特征在于:包括如下步骤:
1、建立数据集;
所述的数据集为VisDrone2020数据集;
2、对数据集内的图像进行增强处理得到Mosaic增强图像;
所述的步骤2的增强处理的具体步骤如下:
2.1、从无人机中获取小目标的视频图像;在一个Batch中随机读取4幅图像,分别对这4幅图片进行翻转、缩放和色域变化数据增强操作;然后按照左上角、左下角、右下角、右上角四个方位将这4幅图像摆放好形成组合图像;
2.2、在4幅图像内部分别随机选取两条分割线,一条垂直,一条水平,分割线将这4幅图像分别分为左上、左下、右下、右上四个分割区域;
2.3、将组合图像中靠近组合中心的4个分割区域进行像素缩放调整得到4个像素分割区域;随后准备一个新的空白图像,然后将4个像素分割区域整体复制到新的空白图像上,如此即可完成视频图像的增强处理得到Mosaic增强图像;
3、训练图像信息输入小目标检测神经网络,训练得到小目标检测神经网络识别模型;
所述的小目标检测神经网络结构如下:在现有yolov5s模型的基础上增加SE注意力模块、浅层特征重用以及改进了边框损失函数;
在现有yolov5s模型中以Input模块为第0层,Focus模块为第一层,以此类推,在主干网络的5、7、9层之后加入SE注意力模块;
所述的SE注意力模块实现的具体步骤如下:
(1)、首先SE注意力模块将上一层模块输出的特征图X作为输入,使用全局平均池化作为 Squeeze 操作将输入特征图X压缩至1*1*C的特征向量;
(2)、紧接着两个全连接层组成一个瓶颈结构,建模学习通道间的相关性,我们首先用第一全连接层将特征向量的维度降低到输入的 1/r,经 ReLU函数激活后再通过第二个全连接层升回到原来的维度; (3)、特征向量经过全连接层后学习到各通道之间的权重,然后通过一个 Sigmoid 的门获得 0到1 之间归一化的权重,最后通过 Scale 操作将归一化后的权重加权到每个通道上,得到加权后的输出特征图作为下一层的输入;
所述的浅层特征级重用的具体步骤如下:
小目标检测神经网络结构的Backbone中第12层输出的特征图经过nearest上采样(Upsampling)后和第9层输出的特征图通过concat操作进行融合得到的P4特征图;融合后的P4特征图经过nearest上采样和Backbone第6层输出的特征图通过concat操作再次融合生成P3特征图;P3特征图nearest上采样后和Backbone第3层输出的浅层特征图融合后生成浅层P2特征图。该P2特征图经过BottleneckCSP模块后最终输出为Output的P2部分;
复杂的神经网络结构高度抽象后可以更加简洁的解释浅层特征级重用;
所述的浅层特征级重用包括的四个部分分别为(a)\(b)\(c)\(d)(参见说明书附图4);其中(a)表示由主干网络和一个特征融合阶段自顶向下的特征金字塔横向连接所组成FPN结构;(b)表示本发明中引入的浅层P2特征级;(c)表示特征融合阶段自底向上的金字塔结构;(d)表示网络最终输出的特征图。
(a)中主干网络的{stage1,stage2,stage3,stage4,stage5}阶段从输入的图像中提取不同空间大小的特征图,网络层数越深,提取的特征图分辨率越小。主干网络中提取的特征图通过(a)中自顶向下连接的特征金字塔和(c)中自底向上连接的特征金字塔进行多尺度特征融合,融合后输出(d)中的特征图;
P2特征级重用的具体步骤如下:
(1)、设定主干网络中输出特征图空间大小相同的层处于相同的网络阶段,此规则下可将主干网络分为5个阶段:stage∈{stage1,stage2,stage3,stage4,stage5},主干网络中从input到stage5表示特征图的下采样过程,随着stage的加深,特征图的空间尺寸呈2倍减小,通道大小呈2倍增加。特征级表示整个神经网络中所有具有相同空间大小的特征图的集合,而每一个stagei,i∈{1,2,3,4,5}最终输出的特征图都一一对应一层特征级Pi。
(2)、在原始的网络结构中,仅采用{stage3,stage4,stage5}所对应的{P3,P4,P5}特征级。本发明则采用浅层特征重用的策略,在原有的3层特层级的基础上重新采用了分辨率更高的浅层P2特征级,使原始的特征级扩充为以下4层:{P2,P3,P4,P5}。
(3)、(a)中的特征金字塔结构从深层的P5向浅层特征级方向逐层连接直至P3层,在原有的P3特征级基础上,特征图经过nearest上采样后和stage2输出的特征图建立横向连接生成新的P2特征图;
(4)、(c)中的特征金字塔的融合方式和(a)的相似,不同点在于(c)中从浅层P2特征级通向深层P5特征级的路径加强结构,先进行下采样操作,然后通过concat操作和(a)中的特征金字塔建立横向连接生成融合特征图。这一结构缩短了特征级与主干网络输出的浅层特征图的融合路径,能够保留更加丰富的浅层特征信息;
所述的边框损失函数由广义交并比损失函数改进而成,其具体步骤如下:
(1)、在广义交并比损失函数:的基础上增加了中心点距离作为新的惩罚项:,其中表示预测框和真实框的交并比,U表示预测框和真实框的并集,表示能够包围预测框和真实框的最小矩形的面积;表示预测框和真实框中心点之间的距离的平方,表示能完全包围预测框和真实框的最小矩形的对角线长度的平方,将两者的比值作为衡量预测框和真实框匹配程度的惩罚项;
在原始的yolov5s网络结构中加入上述三种改进方法即可得到针对小目标的神经网络识别模型。
4.设置训练参数,所述的小目标检测神经网络识别模型的训练参数;
4.1、配置模型的训练参数时将BatchSize设置为16,所有数据训练300个epochs,优化器选择随机梯度下降,初始学习率设为0.01,优化器动量值设为0.937,学习率衰减因子设置为0.0005;
4.2、将步骤1中的数据集按10:1的比例分为训练集和验证集,按照3.1中配置的训练参数在融合了2.1,2.2,2.3后的模型中训练300个epochs;
4.3、平均精度均值作为评价模型好坏的指标,计算训练得到的所有模型的平均精度均值的大小,筛选出平均精度均值最大的模型作为后续步骤5中部署的模型;
5、将采集的图像输入所述小目标检测神经网络识别模型,识别出小目标的类别和坐标信息,其步骤如下:
5.1、在无人机机载计算设备上部署深度神经网络模型运行所依赖的环境;
5.2、将步骤4所得平均精度均值最大的模型移植到无人机机载计算设备中,将无人机摄像头获取的图像通过硬件接口实时传入机载设备;
5.3、将步骤5.2传入的图像经过模型检测后,程序输出图像中检测到的地面小目标的类别和该类别在图片中的坐标,并将检测结果实时输送到客户端;如此客户端即可对小目标进行识别。
本发明的优点在于:
该基于轻量化神经网络的无人机对地小目标识别方法,通过在yolov5s模型的基础上增加SE注意力模块、浅层特征重用以及改进了边框损失函数的方式,使其在保证检测速度的前提下,达到了提高无人机对地小目标检测精度的目的,更加适合无人机对地小目标检测的使用。
附图说明
图1为本发明的工作流程框图;
图2为本发明的小目标检测神经网络结构示意图;
图3为本发明的SE注意力模块的结构示意图;
图4为本发明的浅层特征级重用的结构示意图;
图5为本发明进行验证实验时VisDrone2020数据集的图片;
图6为本发明进行验证实验时得到的Mosaic增强图像;
图7为本发明进行验证实验时无人机摄像头获取的图像;
图8为本发明进行验证实验时识别结果图像;
图9为本发明进行对比实验时采集的数据原图图像;
图10为本发明进行对比实验时采用yolov5s对数据原图进行处理得到的处理图像;
图11为本发明进行对比实验时采用yolov5m对数据原图进行处理得到的处理图像;
图12为本发明进行对比实验时采用yolov5l对数据原图进行处理得到的处理图像;
图13为本发明进行对比实验时采用yolov5x对数据原图进行处理得到的处理图像;
图14为本发明进行对比实验时采用本申请的方法对数据原图进行处理得到的处理图像。
具体实施方式
该无人机对地小目标的识别方法:包括如下步骤:
1、建立数据集;
所述的数据集为VisDrone2020数据集。
2、对数据集内的图像进行增强处理得到Mosaic增强图像;
所述的步骤2的增强处理的具体步骤如下:
2.1、从无人机中获取小目标的视频图像;在一个Batch中随机读取4幅图像,分别对这4幅图片进行翻转、缩放和色域变化数据增强操作;然后按照左上角、左下角、右下角、右上角四个方位将这4幅图像摆放好形成组合图像;
2.2、在4幅图像内部分别随机选取两条分割线,一条垂直,一条水平,分割线将这4幅图像分别分为左上、左下、右下、右上四个分割区域;
2.3、将组合图像中靠近组合中心的4个分割区域进行像素缩放调整得到4个像素分割区域;随后准备一个新的空白图像,然后将4个像素分割区域整体复制到新的空白图像上,如此即可完成视频图像的增强处理得到Mosaic增强图像;
Mosaic数据增强的步骤2.3可以丰富图像的背景,其中的缩放操作可以增加小目标的数量,进而增强网络的鲁棒性;同时由于Mosaic是4幅图像的拼接,相当于一次训练4幅图像,可以有效减少GPU的使用和训练时长。
3、训练图像信息输入小目标检测神经网络,训练得到小目标检测神经网络识别模型;
所述的小目标检测神经网络结构如下(参见说明书附图2):在现有yolov5s模型的基础上增加SE注意力模块、浅层特征重用以及改进了边框损失函数;
在现有yolov5s模型中以Input模块为第0层,Focus模块为第一层,以此类推,在主干网络的5、7、9层之后加入SE注意力模块(SELayer)(参见说明书附图2);
SE注意力模块实现的具体步骤如下:
(1)、首先SE注意力模块将上一层模块输出的特征图X作为输入,使用全局平均池化(GAP) 作为 Squeeze 操作将输入特征图X压缩至1*1*C的特征向量(参见说明书附图3);
(2)、紧接着两个全连接层组成一个瓶颈结构,建模学习通道间的相关性,我们首先用第一全连接层将特征向量的维度降低到输入的 1/r(r为缩放系数,其范围为0-32,当r取16时,取得最优结果),经 ReLU函数激活后再通过第二个全连接层升回到原来的维度;
这样做比直接用一个全连接层的好处在于:1)具有更多的非线性,可以更好地拟合通道间复杂的相关性;2)极大地减少了参数量和计算量; (3)、特征向量经过全连接层后学习到各通道之间的权重,然后通过一个 Sigmoid 的门获得 0到1 之间归一化的权重,最后通过 Scale 操作将归一化后的权重加权到每个通道上,得到加权后的输出特征图作为下一层的输入;
SE注意力模块通过和特征图相同通道数的一维向量学习各通道之间的相关性,再由通道乘法将一维向量加权到输入特征图上,在通道维度中重新校准原始特征,赋予具有重要特征的通道更多的权重,抑制对当前任务不重要的的区域。由于在检测时小目标难以和背景进行区分,SE注意力模块能够抑制背景,使小目标更加容易区分,从而有效增加了小目标的检测精度。
所述的浅层特征级重用的具体步骤如下(参见说明书附图2):
小目标检测神经网络结构的Backbone中第12层输出的特征图经过nearest上采样(Upsampling)后和第9层输出的特征图通过concat操作进行融合得到的P4特征图;融合后的P4特征图经过nearest上采样和Backbone第6层输出的特征图通过concat操作再次融合生成P3特征图;P3特征图nearest上采样后和Backbone第3层输出的浅层特征图融合后生成浅层P2特征图;该P2特征图经过BottleneckCSP模块后最终输出为Output的P2部分;
复杂的神经网络结构(参见说明书附图2)高度抽象后(见说明书附图4)可以更加简洁的解释浅层特征级重用;
所述的浅层特征级重用包括的四个部分分别为(a)\(b)\(c)\(d)(参见说明书附图4);其中(a)是由主干网络和一个特征融合阶段自顶向下的特征金字塔,横向连接所组成FPN结构;(b)表示本发明中引入的浅层P2特征级;(c)表示特征融合阶段自底向上的金字塔结构;(d)表示网络最终输出的特征图。
(a)中主干网络的{stage1,stage2,stage3,stage4,stage5}阶段从输入的图像中提取不同空间(或分辨率)大小的特征图,网络层数越深,提取的特征图分辨率越小。主干网络中提取的特征图通过(a)中自顶向下连接的特征金字塔和(c)中自底向上连接的特征金字塔进行多尺度特征融合,融合后输出(d)中的特征图;
P2特征级重用的具体步骤如下:
(1)、设定主干网络中输出特征图空间大小相同的层处于相同的网络阶段,(参见说明书附图4)此规则下可将主干网络分为5个阶段:stage∈{stage1,stage2,stage3,stage4,stage5},主干网络中从input到stage5表示特征图的下采样过程,随着stage的加深,特征图的空间尺寸呈2倍减小,通道大小呈2倍增加。特征级表示整个神经网络中所有具有相同空间大小的特征图的集合,而每一个stagei,i∈{1,2,3,4,5}最终输出的特征图都一一对应一层特征级(feature level)Pi。
(2)、在原始的网络结构中,仅采用{stage3,stage4,stage5}所对应的{P3,P4,P5}特征级。本发明则采用浅层特征重用的策略,在原有的3层特层级的基础上重新采用了分辨率更高的浅层P2特征级,使原始的特征级扩充为以下4层:{P2,P3,P4,P5}。
(3)、(a)中的特征金字塔结构(参见说明书附图4)从深层的P5向浅层特征级方向逐层连接直至P3层,在原有的P3特征级基础上,特征图经过nearest上采样后和stage2输出的特征图建立横向连接生成新的P2特征图;
(4)、(c)中的特征金字塔的融合方式和(a)的相似,不同点在于(c)中从浅层P2特征级通向深层P5特征级的路径加强结构,先进行下采样操作,然后通过concat操作和(a)中的特征金字塔建立横向连接生成融合特征图。这一结构缩短了特征级与主干网络输出的浅层特征图的融合路径,能够保留更加丰富的浅层特征信息;
在神经网络的特征融合阶段,采用小目标信息更加丰富的浅层P2特征级,缩短浅层特征图上的信息在整个特征融合网络中的流动路径以保留更多小目标特征和语义信息。
所述的边框损失函数由广义交并比损失函数(LGIoU)改进而成,其具体步骤如下:
(1)、在广义交并比损失函数: 的基础上增加了中心点距离作为新的惩罚项:,其中表示预测框和真实框的交并比;U表示预测框和真实框的并集;表示能够包围预测框和真实框的最小矩形的面积;表示预测框和真实框中心点之间的距离的平方;表示能完全包围预测框和真实框的最小矩形的对角线长度的平方;将两者的比值作为衡量预测框和真实框匹配程度的惩罚项;
在原始的yolov5s网络结构中加入上述三种改进方法即可得到针对小目标的神经网络识别模型。
4.设置训练参数,所述的小目标检测神经网络识别模型的训练参数;
4.1、配置模型的训练参数时将BatchSize设置为16,所有数据训练300个epochs,优化器选择随机梯度下降(SGD),初始学习率设为0.01,优化器动量值设为0.937,学习率衰减因子设置为0.0005;
4.2、将步骤1中的数据集按10:1的比例分为训练集和验证集,按照3.1中配置的训练参数在融合了2.1,2.2,2.3后的模型中训练300个epochs;
4.3、平均精度均值作为评价模型好坏的指标,计算训练得到的所有模型的平均精度均值的大小,筛选出平均精度均值最大的模型作为后续步骤5的模型;
5、将采集的图像输入所述小目标检测神经网络识别模型,识别出小目标的类别和坐标信息,其步骤如下:
5.1、在无人机机载计算设备上部署深度神经网络模型运行所依赖的环境;
5.2、将步骤4所得平均精度均值最大的模型移植到无人机机载计算设备中,将无人机摄像头获取的图像通过硬件接口实时传入机载设备;
5.3、将步骤5.2传入的图像经过模型检测后,程序输出图像中检测到的地面小目标的类别和该类别在图片中的坐标,并将图像实时输送到客户端;如此客户端即可对小目标进行识别。
为了验证本申请的可行性,申请进行进行了如下验证实验:
申请人在网站http://aiskyeye.com/中获得了VisDrone2020数据集,随后进行了如下处理:
1、建立数据集;
所述的数据集为VisDrone2020数据集(参见说明书附图5)。
2、对数据集内的图像进行增强处理得到Mosaic增强图像;
所述的步骤2的增强处理的具体步骤如下:
2.1、从无人机中获取小目标的视频图像;在一个Batch中随机读取4幅图像,分别对这4幅图片进行翻转、缩放和色域变化数据增强操作;然后按照左上角、左下角、右下角、右上角四个方位将这4幅图像摆放好形成组合图像;
2.2、在4幅图像内部分别随机选取两条分割线,一条垂直,一条水平,分割线将这4幅图像分别分为左上、左下、右下、右上四个分割区域;
2.3、将组合图像中靠近组合中心的4个分割区域进行像素缩放调整得到4个像素分割区域;随后准备一个新的空白图像,然后将4个像素分割区域整体复制到新的空白图像上,如此即可完成视频图像的增强处理得到Mosaic增强图像(参见说明书附图6)。
3、训练图像信息输入小目标检测神经网络,训练得到小目标检测神经网络识别模型;
所述的小目标检测神经网络结构如下(参见说明书附图2):在现有yolov5s模型的基础上增加SE注意力模块、浅层特征重用以及改进了边框损失函数;
在现有yolov5s模型中以Input模块为第0层,Focus模块为第一层,以此类推,在主干网络的5、7、9层之后加入SE注意力模块(SELayer)(参见说明书附图2);
SE注意力模块实现的具体步骤如下:
(1)、首先SE注意力模块将上一层模块输出的特征图X作为输入,使用全局平均池化(GAP) 作为 Squeeze 操作将输入特征图X压缩至1*1*C的特征向量(参见说明书附图3);
(2)、紧接着两个全连接层组成一个瓶颈结构,建模学习通道间的相关性,我们首先用第一全连接层将特征向量的维度降低到输入的 1/r,r为缩放系数取16,经 ReLU函数激活后再通过第二个全连接层升回到原来的维度; (3)、特征向量经过全连接层后学习到各通道之间的权重,然后通过一个 Sigmoid 的门获得 0到1 之间归一化的权重,最后通过Scale 操作将归一化后的权重加权到每个通道上,得到加权后的输出特征图作为下一层的输入;
SE注意力模块通过和特征图相同通道数的一维向量学习各通道之间的相关性,再由通道乘法将一维向量加权到输入特征图上,在通道维度中重新校准原始特征,赋予具有重要特征的通道更多的权重,抑制对当前任务不重要的的区域。由于在检测时小目标难以和背景进行区分,SE注意力模块能够抑制背景,使小目标更加容易区分,从而有效增加了小目标的检测精度。
所述的浅层特征级重用的具体步骤如下(参见说明书附图2):
小目标检测神经网络结构的Backbone中第12层输出的特征图经过nearest上采样(Upsampling)后和第9层输出的特征图通过concat操作进行融合得到的P4特征图;融合后的P4特征图经过nearest上采样和Backbone第6层输出的特征图通过concat操作再次融合生成P3特征图;P3特征图nearest上采样后和Backbone第3层输出的浅层特征图融合后生成浅层P2特征图;该P2特征图经过BottleneckCSP模块后最终输出为Output部分P2;
复杂的神经网络结构(参见说明书附图2)高度抽象后(见说明书附图4)可以更加简洁的解释浅层特征级重用;
所述的浅层特征级重用包括的四个部分分别为(a)\(b)\(c)\(d)(参见说明书附图4);其中(a)是由主干网络和一个特征融合阶段自顶向下的特征金字塔,横向连接所组成FPN结构;(b)表示本发明中引入的浅层P2特征级;(c)表示特征融合阶段自底向上的金字塔结构;(d)表示网络最终输出的特征图。
(a)中主干网络的{stage1,stage2,stage3,stage4,stage5}阶段从输入的图像中提取不同空间(或分辨率)大小的特征图,网络层数越深,提取的特征图分辨率越小。主干网络中提取的特征图通过(a)中自顶向下连接的特征金字塔和(c)中自底向上连接的特征金字塔进行多尺度特征融合,融合后输出(d)中的特征图;
P2特征级重用的具体步骤如下:
(1)、设定主干网络中输出特征图空间大小相同的层处于相同的网络阶段,(参见说明书附图4)此规则下可将主干网络分为5个阶段:stage∈{stage1,stage2,stage3,stage4,stage5},主干网络中从input到stage5表示特征图的下采样过程,随着stage的加深,特征图的空间尺寸呈2倍减小,通道大小呈2倍增加。特征级表示整个神经网络中所有具有相同空间大小的特征图的集合,而每一个stagei,i∈{1,2,3,4,5}最终输出的特征图都一一对应一层特征级(feature level)Pi。
(2)、在原始的网络结构中,仅采用{stage3,stage4,stage5}所对应的{P3,P4,P5}特征级。本发明则采用浅层特征重用的策略,在原有的3层特层级的基础上重新采用了分辨率更高的浅层P2特征级,使原始的特征级扩充为以下4层:{P2,P3,P4,P5}。
(3)、(a)中的特征金字塔结构(参见说明书附图4)从深层的P5向浅层特征级方向逐层连接直至P3层,在原有的P3特征级基础上,特征图经过nearest上采样后和stage2输出的特征图建立横向连接生成新的P2特征图;
(4)、(c)中的特征金字塔的融合方式和(a)的相似,不同点在于(c)中从浅层P2特征级通向深层P5特征级的路径加强结构,先进行下采样操作,然后通过concat操作和(a)中的特征金字塔建立横向连接生成融合特征图。这一结构缩短了特征级与主干网络输出的浅层特征图的融合路径,能够保留更加丰富的浅层特征信息;
在神经网络的特征融合阶段,采用小目标信息更加丰富的浅层P2特征级,缩短浅层特征图上的信息在整个特征融合网络中的流动路径以保留更多小目标特征和语义信息。
所述的边框损失函数由广义交并比损失函数(LGIoU)改进而成,其具体步骤如下:
(1)、在广义交并比损失函数: 的基础上增加了中心点距离作为新的惩罚项:,其中表示预测框和真实框的交并比;U表示预测框和真实框的并集;表示能够包围预测框和真实框的最小矩形的面积;表示预测框和真实框中心点之间的距离的平方;表示能完全包围预测框和真实框的最小矩形的对角线长度的平方;将两者的比值作为衡量预测框和真实框匹配程度的惩罚项;
(3)、最后将重叠面积、长宽比、中心点近距离这三个要素作为评价预测框和真实框重合度的重要指标,得到完全交并比损失函数:
在原始的yolov5s网络结构中加入上述三种改进方法即可得到针对小目标的神经网络识别模型。
4.设置训练参数,所述的小目标检测神经网络识别模型的训练参数;
4.1、配置模型的训练参数时将BatchSize设置为16,所有数据训练300个epochs,优化器选择随机梯度下降(SGD),初始学习率设为0.01,优化器动量值设为0.937,学习率衰减因子设置为0.0005;
4.2、将步骤1中的数据集按10:1的比例分为训练集和验证集,按照3.1中配置的训练参数在融合了2.1,2.2,2.3后的模型中训练300个epochs;
4.3、平均精度均值作为评价模型好坏的指标,计算训练得到的所有模型的平均精度均值的大小,筛选出平均精度均值最大的模型作为后续步骤5的模型;
5、将采集的图像输入所述小目标检测神经网络识别模型,识别出小目标的类别和坐标信息,其步骤如下:
5.1、在无人机机载计算设备上部署深度神经网络模型运行所依赖的环境;
5.2、将步骤4所得平均精度均值最大的模型移植到无人机机载计算设备中,将无人机摄像头获取的图像通过硬件接口实时传入机载设备(参见说明书附图7);
5.3、将步骤5.2传入的图像经过模型检测后,程序输出图像中检测到的地面小目标的类别和该类别在图片中的坐标,并将图像实时输送到客户端;如此客户端即可对小目标进行识别(识别结果参见说明书附图8)。
为了证明本申请的先进性,本申请进行了如下对比实验:
使用无人机在某地,于2021年3月采集到了数据原图,分别使用yolov5s,yolov5m,yolov5l,yolov5x,以及本发明的方法进行处理得到处理图像。
图10为数据原图采用yolov5s对数据原图进行处理得到的处理图像;
图11为数据原图采用yolov5m对数据原图进行处理得到的处理图像;
图12为数据原图采用yolov5l对数据原图进行处理得到的处理图像;
图13为数据原图采用yolov5x对数据原图进行处理得到的处理图像;
图14为数据原图采用本申请的方法对数据原图进行处理得到的处理图像。
从说明书附图11-14中可明确看出本发明所用方法对于远景小目标的识别的目标个数远远多于yolo系列方法识别的个数,由此本申请的方式相对于yolo系列方法效果更好,精度更高。
该基于轻量化神经网络的无人机对地小目标识别方法,通过在yolov5s模型的基础上增加SE注意力模块、浅层特征重用以及改进了边框损失函数的方式,使其在保证检测速度的前提下,达到了提高无人机对地小目标检测精度的目的,特别适合无人机对地小目标检测的使用。
Claims (3)
1.一种无人机对地小目标的识别方法,其特征在于:包括如下步骤:
1、建立数据集;
所述的数据集为VisDrone2020数据集;
2、对数据集内的图像进行增强处理得到Mosaic增强图像;
所述的步骤2的增强处理的具体步骤如下:
2.1、从无人机中获取小目标的视频图像;在一个Batch中随机读取4幅图像,分别对这4幅图片进行翻转、缩放和色域变化数据增强操作;然后按照左上角、左下角、右下角、右上角四个方位将这4幅图像摆放好形成组合图像;
2.2、在4幅图像内部分别随机选取两条分割线,一条垂直,一条水平,分割线将这4幅图像分别分为左上、左下、右下、右上四个分割区域;
2.3、将组合图像中靠近组合中心的4个分割区域进行像素缩放调整得到4个像素分割区域;随后准备一个新的空白图像,然后将4个像素分割区域整体复制到新的空白图像上,如此即可完成视频图像的增强处理得到Mosaic增强图像;
3、训练图像信息输入小目标检测神经网络,训练得到小目标检测神经网络识别模型;
所述的小目标检测神经网络结构如下:在现有yolov5s模型的基础上增加SE注意力模块、浅层特征重用以及改进了边框损失函数;
在现有yolov5s模型中以Input模块为第0层,Focus模块为第一层,以此类推,在主干网络的5、7、9层之后加入SE注意力模块;
SE注意力模块实现的具体步骤如下:
(1)、首先SE注意力模块将上一层模块输出的特征图X作为输入,使用全局平均池化作为 Squeeze 操作将输入特征图X压缩至1*1*C的特征向量;
(2)、紧接着两个全连接层组成一个瓶颈结构,建模学习通道间的相关性,我们首先用第一全连接层将特征向量的维度降低到输入的 1/r,r为缩放系数,经 ReLU函数激活后再通过第二个全连接层升回到原来的维度; (3)、特征向量经过全连接层后学习到各通道之间的权重,然后通过一个 Sigmoid 的门获得 0到1 之间归一化的权重,最后通过 Scale操作将归一化后的权重加权到每个通道上,得到加权后的输出特征图作为下一层的输入;
所述的浅层特征级重用的具体步骤如下:
小目标检测神经网络结构的Backbone中第12层输出的特征图经过nearest上采样后和第9层输出的特征图通过concat操作进行融合得到的P4特征图;融合后的P4特征图经过nearest上采样和Backbone第6层输出的特征图通过concat操作再次融合生成P3特征图;P3特征图nearest上采样后和Backbone第3层输出的浅层特征图融合后生成浅层P2特征图;该P2特征图经过BottleneckCSP模块后最终输出为Output的P2部分;
复杂的神经网络结构高度抽象后可以更加简洁的解释浅层特征级重用;
所述的浅层特征级重用包括的四个部分分别为(a)\(b)\(c)\(d)(参见说明书附图4);其中(a)是由主干网络和一个特征融合阶段自顶向下的特征金字塔,横向连接所组成FPN结构;(b)表示本发明中引入的浅层P2特征级;(c)表示特征融合阶段自底向上的金字塔结构;(d)表示网络最终输出的特征图;
(a)中主干网络的{stage1,stage2,stage3,stage4,stage5}阶段从输入的图像中提取不同空间大小的特征图,网络层数越深,提取的特征图分辨率越小;主干网络中提取的特征图通过(a)中自顶向下连接的特征金字塔和(c)中自底向上连接的特征金字塔进行多尺度特征融合,融合后输出(d)中的特征图;
在原始的yolov5s网络结构中加入SE注意力模块、浅层特征重用以及改进了边框损失函数,即可得到针对小目标的神经网络识别模型;
4.设置训练参数,所述的小目标检测神经网络识别模型的训练参数;
4.1、配置模型的训练参数时将BatchSize设置为16,所有数据训练300个epochs,优化器选择随机梯度下降,初始学习率设为0.01,优化器动量值设为0.937,学习率衰减因子设置为0.0005;
4.2、将步骤1中的数据集按10:1的比例分为训练集和验证集,按照3.1中配置的训练参数在融合了2.1,2.2,2.3后的模型中训练300个epochs;
4.3、平均精度均值作为评价模型好坏的指标,计算训练得到的所有模型的平均精度均值的大小,筛选出平均精度均值最大的模型作为后续步骤5中部署的模型;
5、将采集的图像输入所述小目标检测神经网络识别模型,识别出小目标的类别和坐标信息,其步骤如下:
5.1、在无人机机载计算设备上部署深度神经网络模型运行所依赖的环境;
5.2、将步骤4所得平均精度均值最大的模型移植到无人机机载计算设备中,将无人机摄像头获取的图像通过硬件接口实时传入机载设备;
5.3、将步骤5.2传入的图像经过模型检测后,程序输出图像中检测到的地面小目标的类别和该类别在图片中的坐标,并将检测结果实时输送到客户端;如此客户端即可对小目标进行识别。
2.根据权利要求1所述的一种无人机对地小目标的识别方法,其特征在于:P2特征级重用的具体步骤如下:
(1)、设定主干网络中输出特征图空间大小相同的层处于相同的网络阶段,此规则下可将主干网络分为5个阶段:stage∈{stage1,stage2,stage3,stage4,stage5},主干网络中从input到stage5表示特征图的下采样过程,随着stage的加深,特征图的空间尺寸呈2倍减小,通道大小呈2倍增加;特征级表示整个神经网络中所有具有相同空间大小的特征图的集合,而每一个stagei,i∈{1,2,3,4,5}最终输出的特征图都一一对应一层特征级Pi;
(2)、在原始的网络结构中,仅采用{stage3,stage4,stage5}所对应的{P3,P4,P5}特征级;本发明则采用浅层特征重用的策略,在原有的3层特层级的基础上重新采用了分辨率更高的浅层P2特征级,使原始的特征级扩充为以下4层:{P2,P3,P4,P5};
(3)、(a)中的特征金字塔结构从深层的P5向浅层特征级方向逐层连接直至P3层,在原有的P3特征级基础上,特征图经过nearest上采样后和stage2输出的特征图建立横向连接生成新的P2特征图;
(4)、(c)中的特征金字塔的融合方式和(a)的相似,不同点在于(c)中从浅层P2特征级通向深层P5特征级的路径加强结构,先进行下采样操作,然后通过concat操作和(a)中的特征金字塔建立横向连接生成融合特征图;
这一结构缩短了特征级与主干网络输出的浅层特征图的融合路径,能够保留更加丰富的浅层特征信息。
3.根据权利要求2所述的一种无人机对地小目标的识别方法,其特征在于:
所述的边框损失函数由广义交并比损失函数改进而成,其具体步骤如下:
(1)、在广义交并比损失函数:的基础上增加了中心点距离作为新的惩罚项:,其中表示预测框和真实框的交并比;U表示预测框和真实框的并集;表示能够包围预测框和真实框的最小矩形的面积;表示预测框和真实框中心点之间的距离的平方;表示能完全包围预测框和真实框的最小矩形的对角线长度的平方;将两者的比值作为衡量预测框和真实框匹配程度的惩罚项;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110657179.8A CN113298024A (zh) | 2021-06-11 | 2021-06-11 | 一种基于轻量化神经网络的无人机对地小目标识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110657179.8A CN113298024A (zh) | 2021-06-11 | 2021-06-11 | 一种基于轻量化神经网络的无人机对地小目标识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113298024A true CN113298024A (zh) | 2021-08-24 |
Family
ID=77328148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110657179.8A Pending CN113298024A (zh) | 2021-06-11 | 2021-06-11 | 一种基于轻量化神经网络的无人机对地小目标识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113298024A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113838021A (zh) * | 2021-09-18 | 2021-12-24 | 长春理工大学 | 基于改进的YOLOv5网络的肺结节检测系统 |
CN113902744A (zh) * | 2021-12-10 | 2022-01-07 | 湖南师范大学 | 基于轻量级网络的图像检测方法、系统、设备和存储介质 |
CN114384940A (zh) * | 2022-03-25 | 2022-04-22 | 北京航天晨信科技有限责任公司 | 一种应用于民用无人机的嵌入式识别模型获得方法和系统 |
CN117036985A (zh) * | 2023-10-09 | 2023-11-10 | 武汉工程大学 | 一种面向视频卫星图像的小目标检测方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069868A (zh) * | 2020-06-28 | 2020-12-11 | 南京信息工程大学 | 一种基于卷积神经网络的无人机实时车辆检测方法 |
CN112084866A (zh) * | 2020-08-07 | 2020-12-15 | 浙江工业大学 | 一种基于改进YOLO v4算法的目标检测方法 |
CN112819804A (zh) * | 2021-02-23 | 2021-05-18 | 西北工业大学 | 一种基于改进YOLOv5卷积神经网络的绝缘子缺陷检测方法 |
-
2021
- 2021-06-11 CN CN202110657179.8A patent/CN113298024A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069868A (zh) * | 2020-06-28 | 2020-12-11 | 南京信息工程大学 | 一种基于卷积神经网络的无人机实时车辆检测方法 |
CN112084866A (zh) * | 2020-08-07 | 2020-12-15 | 浙江工业大学 | 一种基于改进YOLO v4算法的目标检测方法 |
CN112819804A (zh) * | 2021-02-23 | 2021-05-18 | 西北工业大学 | 一种基于改进YOLOv5卷积神经网络的绝缘子缺陷检测方法 |
Non-Patent Citations (2)
Title |
---|
SHU LIU ET AL.: "Path Aggregation Network for Instance Segmentation", 《PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION(CVPR)》 * |
高照: "基于深度学习的遥感图像目标检测方法研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113838021A (zh) * | 2021-09-18 | 2021-12-24 | 长春理工大学 | 基于改进的YOLOv5网络的肺结节检测系统 |
CN113902744A (zh) * | 2021-12-10 | 2022-01-07 | 湖南师范大学 | 基于轻量级网络的图像检测方法、系统、设备和存储介质 |
CN113902744B (zh) * | 2021-12-10 | 2022-03-08 | 湖南师范大学 | 基于轻量级网络的图像检测方法、系统、设备和存储介质 |
CN114384940A (zh) * | 2022-03-25 | 2022-04-22 | 北京航天晨信科技有限责任公司 | 一种应用于民用无人机的嵌入式识别模型获得方法和系统 |
CN117036985A (zh) * | 2023-10-09 | 2023-11-10 | 武汉工程大学 | 一种面向视频卫星图像的小目标检测方法及装置 |
CN117036985B (zh) * | 2023-10-09 | 2024-02-06 | 武汉工程大学 | 一种面向视频卫星图像的小目标检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110363122B (zh) | 一种基于多层特征对齐的跨域目标检测方法 | |
CN113298024A (zh) | 一种基于轻量化神经网络的无人机对地小目标识别方法 | |
Liu et al. | Multiscale U-shaped CNN building instance extraction framework with edge constraint for high-spatial-resolution remote sensing imagery | |
CN112396027B (zh) | 基于图卷积神经网络的车辆重识别方法 | |
WO2020098158A1 (zh) | 行人重识别方法、装置及计算机可读存储介质 | |
CN108615226B (zh) | 一种基于生成式对抗网络的图像去雾方法 | |
CN110210551A (zh) | 一种基于自适应主体敏感的视觉目标跟踪方法 | |
CN111767882A (zh) | 一种基于改进yolo模型的多模态行人检测方法 | |
CN107066916B (zh) | 基于反卷积神经网络的场景语义分割方法 | |
CN107103277B (zh) | 一种基于深度相机和3d卷积神经网络的步态识别方法 | |
CN109598268A (zh) | 一种基于单流深度网络的rgb-d显著目标检测方法 | |
CN112818862A (zh) | 基于多源线索与混合注意力的人脸篡改检测方法与系统 | |
CN109766873B (zh) | 一种混合可变形卷积的行人再识别方法 | |
CN110991444B (zh) | 面向复杂场景的车牌识别方法及装置 | |
CN109543632A (zh) | 一种基于浅层特征融合引导的深层网络行人检测方法 | |
CN113076871A (zh) | 一种基于目标遮挡补偿的鱼群自动检测方法 | |
CN110390308B (zh) | 一种基于时空对抗生成网络的视频行为识别方法 | |
CN107067015A (zh) | 一种基于多特征深度学习的车辆检测方法及装置 | |
CN109784171A (zh) | 车辆定损图像筛选方法、装置、可读存储介质及服务器 | |
CN112674998A (zh) | 基于快速深度神经网络和移动智能设备的盲人交通路口辅助方法 | |
CN113034506A (zh) | 遥感图像语义分割方法、装置、计算机设备和存储介质 | |
CN116342536A (zh) | 基于轻量化模型的铝带材表面缺陷检测方法、系统及设备 | |
CN115937552A (zh) | 一种基于融合手工特征与深度特征的图像匹配方法 | |
CN116524189A (zh) | 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法 | |
CN113011338B (zh) | 一种车道线检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210824 |
|
RJ01 | Rejection of invention patent application after publication |