CN112396002B - 一种基于SE-YOLOv3的轻量级遥感目标检测方法 - Google Patents
一种基于SE-YOLOv3的轻量级遥感目标检测方法 Download PDFInfo
- Publication number
- CN112396002B CN112396002B CN202011310176.9A CN202011310176A CN112396002B CN 112396002 B CN112396002 B CN 112396002B CN 202011310176 A CN202011310176 A CN 202011310176A CN 112396002 B CN112396002 B CN 112396002B
- Authority
- CN
- China
- Prior art keywords
- network
- feature
- target
- features
- remote sensing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 20
- 238000011176 pooling Methods 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims description 21
- 230000005284 excitation Effects 0.000 claims description 8
- 238000001125 extrusion Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 6
- 238000007477 logistic regression Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000003064 k means clustering Methods 0.000 claims description 4
- 238000007621 cluster analysis Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 2
- 238000005520 cutting process Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 230000008685 targeting Effects 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 claims 1
- 238000013461 design Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 9
- 238000003860 storage Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Remote Sensing (AREA)
- Astronomy & Astrophysics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明请求保护一种于SE‑YOLOv3的轻量级遥感目标检测方法,属于目标检测技术领域,包括以下步骤:步骤1.YOLOv3算法为基础模型框架,为了减少网络参数提升网络推理速度,本发明设计了轻量级主干特征提取网络。步骤2.为了提高特征的尺度不变性,降低过拟合风险,本发明提出使用空间金字塔池化(SPP)算法,进行三个尺度的池化得到固定长度的输出特征向量。引入了空间注意力模型SE模块,进一步的压缩无用信息增强有用信息。步骤3.通过迭代训练、更新参数得到最终的网络模型,利用该模型采取多尺度预测,通过三个尺度的检测头预测最终结果。本发明在有效提升网络的推理速度的同时,保证了精度,增强了网络的特征表达能力,并提高了尺度不变性。
Description
技术领域
本发明属于计算机视觉和深度学习领域,特别是涉及一种基于SE-YOLOv3的轻量级框架遥感图像目标检测方法。
背景技术
随着航空航天技术和深度学习的快速发展,高分辨率大尺度遥感图像数据不断丰富,遥感图像通常存在尺度变化大、高分辨、目标分布稀疏等问题。人工神经网络在遥感图像目标检测领域得到广泛的应用,但是大多数算法都是基于先验框的方式,在遥感图像中进行全方位的扫描检测,对于大场景的图像和大型特征提取网络,这一方式需要大量的计算资源。为了兼顾检测速度和检测精度,实现快速遥感目标检测成为当前领域的一个研究热点。
目标检测即找出图像中所有感兴趣的物体,包含物体定位和物体分类两个子任务,同时确定物体的类别和位置。目前广泛应用的目标检测方法主要分为两类:One-stage和Two-stage。Two-stage方法是基于区域的算法,将目标检测划分为检测和识别两个阶段,首先有算法或者网络在图像中寻找感兴趣区域,再对区域内的目标进行识别,如RCNN,Fast-RCNN,Faster-RCNN等;而One-stage方法是一种端到端的算法,利用回归的思想直接产生目标的类别概率和位置坐标,实现检测与识别,如YOLO,SSD等。One-stage方法相对于Two-stage方法在速度方面快很多,但是在精度上面相对较低。
由于遥感图像中目标存在成像视角单一、目标分布密集和目标尺度变化大等特点,直接将自然场景目标检测方法应用于遥感图像目标检测任务中,并不能获得满意的效果。而且其高分辨率,图像尺寸大的问题会加重算法的计算代价。近年来,One-stage算法在精度上已经可以和Two-stage算法相媲美,YOLO算法系列是具有代表性的One-stage算法,YOLOv3算法是速度和精度均衡的目标检测网络,但相比于RCNN系列物体检测方法识别物体位置精准性差,召回率低。因此如何设计一个适用于遥感图像快速目标检测的算法,保持较高的精度和速度,依旧是个难点。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种基于SE-YOLOv3的轻量级遥感目标检测方法。本发明的技术方案如下:
一种基于SE-YOLOv3的轻量级遥感目标检测方法,其包括以下步骤:
步骤1:将遥感图像数据集分为训练集和测试集,对训练集进行预处理,主要涉及图片的尺寸调整(resize)和数据增强操作,得到完备样本数据集并通过K-means算法聚类获取锚框(anchor)的尺寸大小;
步骤2:利用深度可分离卷积参数量和运算成本较低的特性,构建轻量级主干网(Backbone)对遥感图像进行特征提取;
步骤3:在102的基础上,利用空间金字塔池化(spatial pyramid pool,简称SPP)提高特征的尺度不变和降低过拟合,得到固定长度输出,并采用挤压和激励(squeeze-and-excitation,简称SE)注意力模块将浅层信息和深层信息融合;
步骤4:通过多尺度迭代训练得到最终的网络模型,使用训练得到的模型对测试图片进行预测,从而得到的检测结果。
进一步的,所述步骤1具体包括以下步骤:
1.1对初始样本数据集中的图片数据通过裁剪生成1024*1024像素的图片,图片之间重叠256个像素,并且保持原来的注释,然后统计各个类别的目标数量和图片数量;
1.2对1.1中得到的图片数据进行筛选,去除没有目标对象的负样本图片,得到的正样本通过平移、旋转、调整饱和度和曝光度在内的操作,增加样本数据,对待识别目标的特征参数进行(包括目标的尺寸,分辨率,方向等等)处理,得到完备的遥感目标检测数据集;
1.3通过K-means聚类算法,对1.2中得到的样本数据训练集所标注的待识别目标的真实目标边界框进行聚类分析。
进一步的,所述步骤1.3通过K-means聚类算法,对1.2中得到的样本数据训练集所标注的待识别目标的真实目标边界框进行聚类分析,具体包括:
初始化9个锚框(anchor box),通过在所有的bounding boxes中随机选取9个值作为anchor boxes的初始值;计算每个bounding box与每个anchor box的交并比值(Intersection over Union,简称IOU),对于每个bounding box选取其最高的那个IOU值,然后求所有bounding box的平均值,也即最后的精确度值,最终得到9个精确的anchor box作为网络的预设值。
进一步的,所述步骤2构建轻量级Backbone对遥感图像进行特征提取,具体包括:
2.1在Ultralytics版YOLOv3网络模型上进行特征提取,YOLOv3的主干网(Backbone)包括一个输入层,52个卷积层,23个融合层,根据YOLOv3网络结构,将其分为15个块(block),每个block使用1×1的常规卷积进行升维后,使用3×3深度卷积Depthwise抽取特征;
2.2接着将Depthwise卷积提取的特征输入到轻量级挤压激励模型SE调整每个通道的权重,SE网络结构中一组特征在上一层被输出,分两条路线,第一条直接通过,第二条首先进行挤压(Squeeze)操作,把每个通道2维的特征压缩成一个1维,从而得到一个特征通道向量,每个数字代表对应通道的特征,然后进行激励(Excitation)操作,把这一列特征通道向量输入两个全连接层和sigmoid,建模出特征通道间的相关性,得到的输出其实就是每个通道对应的权重,把这些权重通过尺度(scale)相乘通道加权到原来的特征上,这样就完成了特征通道的权重分配,得到新的通道特征图(feature maps);
2.3采用点卷积(Pointwise Convolution)来将这些特征图进行组合生成新的Feature map,Pointwise Convolution的卷积核的尺寸为1×1×M,M为上一层的通道数,卷积运算会将上一步的map在深度方向上进行加权组合,输出M个新的feature maps;
2.4将当前层及其倒数第四层输出特征输入到直连(shortcut)残差层,进行ADD操作,并使用线性Linear激活函数激活,shortcut连接相当于执行同等映射,在最后一个shortcut层就得到了最终feature maps。
进一步的,所述步骤3利用空间金字塔池化SPP和SE注意力模型优化特征,具体包括:
3.1训练阶段采用各种尺寸的图像进行训练,将步骤2的结果输入到SPP中,将feature maps分别分成16、4、1份,进行最大池化操作Max Pooling,feature maps就被转化成了16*256+4*256+1*256=21*256的矩阵,也就是21维特征向量;
3.2通过对3.1得到同一尺寸的feature maps使用通道注意力模型(SE)进行处理,得到一个和通道数一样的一维向量作为每个通道的评价分数,然后将改分数分别施加到对应的通道上,得到加强后的特征;
3.3将加强后的特征输入到三个尺度的YOLO检测头,分别对应小,中,大目标对象,使用1.3中聚类出的anchor box作为先验框,并设置所预测对象类别数量;
3.4至此为止,整个网络框架搭建完成。
进一步的,所述步骤4通过完整的训练得到最终的模型,使用模型对测试图片进行分类,得到最终的检测结果,具体包括:
4.1将步骤101中的训练集使用上述步骤中构建的网络进行训练,得到网络输出模型;
4.2将网络的输出经过降采样,得到三个多尺度的特征图,特征图中的每一个cell都会预测3个边界框bounding box,每个bounding box都会预测三个东数据:(1)每个框的位置,包括4个值,中心坐标tx和ty,框的高度bh和宽度bw,(2)一个目标性得分(objectnessscore),(3)N个类别;
4.3Bounding box的坐标预测,tx、ty、tw、th就是模型的预测输出,cx和cy表示gridcell的坐标;
4.4类别预测采用多标签分类,复杂场景下,一个object可能属于多个类,检测的结果中类别标签可能同时有两个类,就需要用逻辑回归层来对每个类别做二分类。逻辑回归层主要用到sigmoid函数,该函数可以将输入约束在0到1的范围内,因此当一张图像经过特征提取后的某一类输出经过sigmoid函数约束后如果大于0.5,就表示属于该类。
进一步的,当步骤4.3中某层的feature map大小是13*13,那么grid cell就有13*13个,第0行第1列的grid cell的坐标cx就是0,cy就是1,pw和ph表示预测前bounding box的size,bx、by、bw和bh就是预测得到的bounding box的中心的坐标和size,坐标的损失采用的是平方误差损失;
bx=δ(tx)+cx
by=δ(ty)+cy
pr(object)*IOU(b,object)=δ(t0)
其中δ(tx)、δ(ty)分别表示将tx、ty约束在(0,1)范围内,pw和ph分别表示预测前bounding box的宽和高,pr(object)表示当前模型bounding box内存在目标的可能性,IOU(b,object)表示bounding box预测目标位置的准确性,δ(to)表示将预测参数to约束在(0,1)范围内。
本发明的优点及有益效果如下:
本发明主要针对目前流行的基于深度卷积神经网络的遥感图像目标检测任务中,网络训练收敛速度慢、计算资源占用高、推理速度慢等问题;提出了一种网络结构轻量、计算资源占用低、推理速度快的遥感目标检测方法。在网络结构设计阶段,选取YOLOv3算法为基准算法,利用深度可分离卷积的替换传统卷积,在提取特征阶段产生较少的参数;与传统卷积相比,网络模型更小,训练时效更优,时效性强,具有更好的泛化能力,适用于不同的应用场景。考虑到主干网(backbone)阶段提取到的特征属于浅层特征,因此在网络的颈部融合注意力机制SE和空间金字塔池化(SPP)模块,从而有效的增强特征,得到我们想要的特征;通过迭代训练、更新参数得到最终的网络模型,使用该网络模型进行三个尺度的预测,在保证检测精度的同时大大的提升了速度。本方法获得了较好的校测效果。
附图说明
图1是本发明提供优选实施例基于SE-YOLOv3的轻量化遥感图像目标检测方法网络框架;
图2为本发明的空间金字塔池化模块示意图。
图3为本发明的空间注意力SE模型示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
本发明实施例基于YOLOv3目标检测框架为基本框架,详见Redmon J,FarhadiA.Yolov3:An incremental improvement[J].arXiv preprint arXiv:1804.02767,2018。其中网络的主干网修改为轻量化结构,使用深度可分离卷积构成,提取出的特征经过SPP模块输出尺度统一的特征,在经过注意力模块SE的强化,作为下一层网络的输入。
下面结合附图,对本发明进一步说明:
如附图1所示,一种基于SE-YOLOv3的轻量级框架遥感目标检测方法的网络框架的设计流程包括以下步骤:
A、本设计步骤在Ultralytics版YOLOv3网络模型上进行,YOLOv3的Backbone包括一个输入层,52个卷积层,23个融合层。根据MobileNetv3网络结构,减少卷积层的数量,将其分为15个块(Block),每个Block使用1×1的常规卷积进行升维后,使用3×3深度卷积Depthwise抽取特征。
B、接着在的Depthwise提取的特征输入到轻量级挤压激励模型SE(Squeeze andExcite)调整每个通道的权重。如图1所示SEnet结构,一组特征在上一层被输出,这时候分两条路线,第一条直接通过,第二条首先进行挤压(Squeeze)操作全局平均池化(GlobalAverage Pooling),把每个通道2维的特征压缩成一个1维,从而得到一个特征通道向量(每个数字代表对应通道的特征)。然后进行激励(Excitation)操作,把这一列特征通道向量输入两个全连接层和sigmoid,建模出特征通道间的相关性,得到的输出其实就是每个通道对应的权重,把这些权重通过尺度相乘通道加权到原来的特征上(第一条路),这样就完成了特征通道的权重分配,得到新的通道特征图。
C、由于Depthwise Convolution对输入层的每个通道独立进行卷积运算,没有有效的利用不同通道在相同空间位置上的feature信息。因此需要点卷积(PointwiseConvolution)来将这些特征图进行组合生成新的特征图。Pointwise Convolution的运算与常规卷积运算非常相似,它的卷积核的尺寸为1×1×M,M为上一层的通道数,卷积运算会将上一步的map在深度方向上进行加权组合,输出M个新的feature map。
D、将当前层及其倒数第四层输出特征输入到直连(shortcut)残差层,进行ADD操作,并使用线性Linear激活函数激活。shortcut连接相当于简单执行了同等映射,不会产生额外的参数,也不会增加计算复杂度。在最后一个shortcut层就得到了我们想要的特征图。
进一步的,为了将特征图调整为固定大小的特征向量,提高特征的尺度不变性,以及压缩无用并加强有用信息,具体的网络流程设计如附图2,3所示,具体实施步骤如下:
A、考虑到遥感图像尺度变化大,训练阶段采用了多尺度训练的方式,使用各种尺寸的图像进行训练可以提高尺度的不变性。将步骤2的结果输入到空间金字塔池化(SPP)模块中,如图2所示,将特征图(feature maps)分别分成16、4、1份,进行最大池化操作(MaxPooling),feature maps就被转化成了16*256+4*256+1*256=21*256的矩阵,也就是21维特征向量。SPP能在输入尺寸任意的情况下产生固定大小的输出,多级池化对于物体的变形有十分强的鲁棒性,图像划分为从更细到更粗的级别,并聚合他们的局部特征。SPP可以提高特征的尺度不变(scale-invariance)和降低过拟合(over-fitting)风险。
B、通过对3.1得到同一尺寸的feature maps使用通道注意力机制(SE)进行处理,得到一个和通道数一样的一维向量作为每个通道的评价分数,然后将改分数分别施加到对应的通道上,得到其加强后的特征;
C、将加强后的特征输入到三个尺度的YOLO检测头,分别对应小,中,大目标对象,使用1.3中聚类出的锚框(anchor box)作为先验框,并设置所预测对象类别数量;
进一步的,通过完整的训练得到最终的模型,使用模型对待测试图片进行检测,得到最终的检测结果,具体步骤如下:
A、将步骤101中的训练集使用上述步骤中构建的网络进行训练,得到网络输出模型;
B、将网络的输出经过降采样,得到三个多尺度的特征图,特征图中的每一个cell都会预测3个边界框(bounding box),每个bounding box都会预测三个东西:(1)每个框的位置(4个值,中心坐标tx和ty,框的高度bh和宽度bw),(2)一个目标性得分objectnessprediction,(3)N个类别;
C、Bounding box的坐标预测,tx、ty、tw、th就是模型的预测输出。cx和cy表示gridcell的坐标,比如某层的feature map大小是13*13,那么grid cell就有13*13个,第0行第1列的grid cell的坐标cx就是0,cy就是1。pw和ph表示预测前bounding box的size。bx、by、bw和bh就是预测得到的bounding box的中心的坐标和size。坐标的损失采用的是平方误差损失;
bx=δ(tx)+cx
by=δ(ty)+cy
pr(object)*IOU(b,object)=δ(t0)
其中δ(tx)、δ(ty)分别表示将tx、ty约束在(0,1)范围内,pw和ph分别表示预测前bounding box的宽和高,pr(object)表示当前模型bounding box内存在目标的可能性,IOU(b,object)表示bounding box预测目标位置的准确性,δ(to)表示将预测参数to约束在(0,1)范围内。
D、类别预测采用多标签分类,复杂场景下,一个object可能属于多个类,检测的结果中类别标签可能同时有两个类,就需要用逻辑回归层来对每个类别做二分类。逻辑回归层主要用到sigmoid函数,该函数可以将输入约束在0到1的范围内,因此当一张图像经过特征提取后的某一类输出经过sigmoid函数约束后如果大于0.5,就表示属于该类。
本方法和其他深度学习的目标检测方法相比,本发明在增加少量计算量的情况下,有效的提高了遥感图像检测的性能,节约了网络计算成本和内存消耗。
上述实施例阐明的方法、系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (5)
1.一种基于SE-YOLOv3的轻量级遥感目标检测方法,其特征在于,包括以下步骤:
步骤1:将遥感图像数据集分为训练集和测试集,对训练集进行预处理,主要涉及图片的尺寸调整和数据增强操作,得到完备样本数据集并通过K-means算法聚类获取锚框的尺寸大小;
步骤2:利用深度可分离卷积参数量和运算成本较低的特性,构建轻量级主干网对遥感图像进行特征提取;
步骤3:在步骤2的基础上,利用空间金字塔池化提高特征的尺度不变和降低过拟合,得到固定长度输出,并采用挤压和激励注意力模块将浅层信息和深层信息融合;
步骤4:通过多尺度迭代训练得到最终的网络模型,使用训练得到的模型对测试图片进行预测,从而得到的检测结果;
所述步骤2构建轻量级Backbone对遥感图像进行特征提取,具体包括:
2.1在Ultralytics版YOLOv3网络模型上进行特征提取,YOLOv3的主干网Backbone包括一个输入层,52个卷积层,23个融合层,根据YOLOv3网络结构,将其分为15个块block,每个block使用1×1的常规卷积进行升维后,使用3×3深度卷积Depthwise抽取特征;
2.2接着将Depthwise卷积提取的特征输入到轻量级挤压激励模型调整每个通道的权重,SE网络结构中一组特征在上一层被输出,分两条路线,第一条直接通过,第二条首先进行挤压操作,把每个通道2维的特征压缩成一个1维,从而得到一个特征通道向量,每个数字代表对应通道的特征,然后进行激励操作,把这一列特征通道向量输入两个全连接层和sigmoid,建模出特征通道间的相关性,得到的输出其实就是每个通道对应的权重,把这些权重通过尺度乘法通道加权到原来的特征上,这样就完成了特征通道的权重分配,得到新的通道特征图;
2.3采用点卷积来将这些特征图进行组合生成新的feature map,PointwiseConvolution的卷积核的尺寸为1×1×M,M为上一层的通道数,卷积运算会将上一步的map在深度方向上进行加权组合,输出M个新的feature maps;
2.4将当前层及其倒数第四层输出特征输入到直连shortcut残差层,进行ADD操作,并使用线性Linear激活函数激活,shortcut连接相当于执行同等映射,在最后一个shortcut层就得到了最终feature maps;
所述步骤3利用空间金字塔池化SPP和SE注意力模型优化特征,具体包括:
3.1训练阶段采用各种尺寸的图像进行训练,将步骤2的结果输入到SPP中,将featuremaps分别分成16、4、1份,进行最大池化操作Max Pooling,feature maps就被转化成了16*256+4*256+1*256=21*256的矩阵,也就是21维特征向量;
3.2通过对3.1得到同一尺寸的feature maps使用通道注意力模块进行处理,得到一个和通道数一样的一维向量作为每个通道的评价分数,然后将改分数分别施加到对应的通道上,得到加强后的特征;
3.3将加强后的特征输入到三个尺度的YOLO检测头,分别对应小,中,大目标对象,使用1.3中聚类出的anchor box作为先验框,并设置所预测对象类别数量;
3.4至此为止,整个网络框架搭建完成。
2.根据权利要求1所述的一种基于SE-YOLOv3的轻量级遥感目标检测方法,其特征在于,所述步骤1具体包括以下步骤:
1.1对初始样本数据集中的图片数据通过裁剪生成1024*1024像素的图片,图片之间重叠256个像素,并且保持原来的注释,然后统计各个类别的目标数量和图片数量;
1.2对1.1中得到的图片数据进行筛选,去除没有目标对象的负样本图片,得到的正样本通过平移、旋转、调整饱和度和曝光度在内的操作,增加样本数据,对待识别目标的特征参数进行处理,得到完备的遥感目标检测数据集;
1.3通过K-means聚类算法,对1.2中得到的样本数据训练集所标注的待识别目标的真实目标边界框进行聚类分析。
3.根据权利要求2所述的一种基于SE-YOLOv3的轻量级遥感目标检测方法,其特征在于,所述步骤1.3通过K-means聚类算法,对1.2中得到的样本数据训练集所标注的待识别目标的真实目标边界框进行聚类分析,具体包括:
初始化9个锚框,通过在所有的bounding boxes中随机选取9个值作为anchor boxes的初始值;计算每个bounding box与每个anchor box的交并比值IOU,对于每个bounding box选取其最高的那个IOU值,然后求所有bounding box的平均值,也即最后的精确度值,最终得到9个精确的anchor box作为网络的预设值。
4.根据权利要求1所述的一种基于SE-YOLOv3的轻量级遥感目标检测方法,其特征在于,所述步骤4通过完整的训练得到最终的模型,使用模型对测试图片进行分类,得到最终的检测结果,具体包括:
4.1将步骤1中的训练集使用上述步骤中构建的网络进行训练,得到网络输出模型;
4.2将网络的输出经过降采样,得到三个多尺度的特征图,特征图中的每一个cell都会预测3个边界框bounding box,每个bounding box都会预测三个东数据:(1)每个框的位置,包括4个值,中心坐标tx和ty,框的高度bh和宽度bw,(2)一个目标性评分,(3)N个类别;
4.3 Bounding box的坐标预测,tx、ty、tw、th就是模型的预测输出,cx和cy表示网格单元的坐标;
4.4类别预测采用多标签分类,复杂场景下,一个object可能属于多个类,检测的结果中类别标签可能同时有两个类,就需要用逻辑回归层来对每个类别做二分类,逻辑回归层主要用到sigmoid函数,该函数可以将输入约束在0到1的范围内,因此当一张图像经过特征提取后的某一类输出经过sigmoid函数约束后如果大于0.5,就表示属于该类。
5.根据权利要求4所述的一种基于SE-YOLOv3的轻量级遥感目标检测方法,其特征在于,当步骤4.3中某层的feature map大小是13*13,那么grid cell就有13*13个,第0行第1列的grid cell的坐标cx就是0,cy就是1,pw和ph表示预测前bounding box的大小,bx、by、bw和bh就是预测得到的bounding box的中心的坐标和大小,坐标的损失采用的是平方误差损失;
bx=δ(tx)+cx
by=δ(ty)+cy
pr(object)*IOU(b,object)=δ(to)
其中δ(tx)、δ(ty)分别表示将tx、ty约束在(0,1)范围内,pw和ph分别表示预测前bounding box的宽和高,pr(object)表示当前模型bounding box内存在目标的可能性,IOU(b,object)表示bounding box预测目标位置的准确性,δ(to)表示将预测参数to约束在(0,1)范围内。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011310176.9A CN112396002B (zh) | 2020-11-20 | 2020-11-20 | 一种基于SE-YOLOv3的轻量级遥感目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011310176.9A CN112396002B (zh) | 2020-11-20 | 2020-11-20 | 一种基于SE-YOLOv3的轻量级遥感目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112396002A CN112396002A (zh) | 2021-02-23 |
CN112396002B true CN112396002B (zh) | 2023-05-30 |
Family
ID=74607592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011310176.9A Active CN112396002B (zh) | 2020-11-20 | 2020-11-20 | 一种基于SE-YOLOv3的轻量级遥感目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112396002B (zh) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065637B (zh) * | 2021-02-27 | 2023-09-01 | 华为技术有限公司 | 一种感知网络及数据处理方法 |
CN113011308A (zh) * | 2021-03-15 | 2021-06-22 | 山东大学 | 一种引入注意力机制的行人检测方法 |
CN112926495A (zh) * | 2021-03-19 | 2021-06-08 | 高新兴科技集团股份有限公司 | 一种基于多级卷积特征级联的车辆检测方法 |
CN112990325B (zh) * | 2021-03-24 | 2022-09-06 | 南通大学 | 一种面向嵌入式实时视觉目标检测的轻型网络构建方法 |
CN113112456B (zh) * | 2021-03-25 | 2022-05-13 | 湖南工业大学 | 一种基于目标检测算法的浓稠食品灌装成品缺陷检测方法 |
CN113033468A (zh) * | 2021-04-13 | 2021-06-25 | 中国计量大学 | 一种基于多源图像信息的特定人员重识别方法 |
CN113095265B (zh) * | 2021-04-21 | 2023-03-24 | 西安电子科技大学 | 基于特征融合和注意力的真菌目标检测方法 |
CN113327227B (zh) * | 2021-05-10 | 2022-11-11 | 桂林理工大学 | 一种基于MobilenetV3的小麦头快速检测方法 |
CN113221749A (zh) * | 2021-05-13 | 2021-08-06 | 扬州大学 | 基于图像处理与深度学习的作物病害遥感监测方法 |
CN113239842A (zh) * | 2021-05-25 | 2021-08-10 | 三门峡崤云信息服务股份有限公司 | 一种基于图像识别的天鹅检测方法及装置 |
CN113435337A (zh) * | 2021-06-28 | 2021-09-24 | 中国电信集团系统集成有限责任公司 | 基于可变形卷积和注意力机制的视频目标检测方法及装置 |
CN113269156B (zh) * | 2021-07-02 | 2023-04-18 | 昆明理工大学 | 一种基于多尺度特征融合的信号灯检测识别方法及系统 |
CN113673616B (zh) * | 2021-08-26 | 2023-09-29 | 南通大学 | 一种耦合注意力和上下文的轻量化小目标检测方法 |
CN113837058B (zh) * | 2021-09-17 | 2022-09-30 | 南通大学 | 一种耦合上下文聚合网络的轻量化雨水篦子检测方法 |
CN113838021A (zh) * | 2021-09-18 | 2021-12-24 | 长春理工大学 | 基于改进的YOLOv5网络的肺结节检测系统 |
CN113971731A (zh) * | 2021-10-28 | 2022-01-25 | 燕山大学 | 一种目标检测方法、装置及电子设备 |
CN114049346B (zh) * | 2021-11-26 | 2024-03-26 | 赣南师范大学 | 一种基于剪裁YOLOv3-SPP3的柑橘木虱检测与识别方法 |
CN114332482A (zh) * | 2022-01-04 | 2022-04-12 | 电子科技大学 | 一种基于特征融合的轻量化目标检测方法 |
CN114463686B (zh) * | 2022-04-11 | 2022-06-17 | 西南交通大学 | 基于复杂背景下的移动目标检测方法和系统 |
CN115457390A (zh) * | 2022-09-13 | 2022-12-09 | 中国人民解放军国防科技大学 | 遥感影像变化检测方法、装置、计算机设备和存储介质 |
CN116012953B (zh) * | 2023-03-22 | 2023-07-07 | 南京邮电大学 | 一种基于csi的轻量级双任务感知方法 |
CN117351354B (zh) * | 2023-10-18 | 2024-04-16 | 耕宇牧星(北京)空间科技有限公司 | 基于改进MobileViT的轻量级遥感图像目标检测方法 |
CN117911840A (zh) * | 2024-03-20 | 2024-04-19 | 河南科技学院 | 一种用于滤网表面缺陷检测的深度学习方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019223582A1 (en) * | 2018-05-24 | 2019-11-28 | Beijing Didi Infinity Technology And Development Co., Ltd. | Target detection method and system |
CN110796037A (zh) * | 2019-10-15 | 2020-02-14 | 武汉大学 | 基于轻量级感受野金字塔的星载光学遥感图像舰船目标检测方法 |
CN110929577A (zh) * | 2019-10-23 | 2020-03-27 | 桂林电子科技大学 | 一种基于YOLOv3的轻量级框架改进的目标识别方法 |
CN111091095A (zh) * | 2019-12-19 | 2020-05-01 | 华中科技大学 | 一种遥感图像中船只目标的检测方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200193552A1 (en) * | 2018-12-18 | 2020-06-18 | Slyce Acquisition Inc. | Sparse learning for computer vision |
CN111814621B (zh) * | 2020-06-29 | 2024-01-23 | 中国科学院合肥物质科学研究院 | 一种基于注意力机制的多尺度车辆行人检测方法及装置 |
CN111753787A (zh) * | 2020-07-01 | 2020-10-09 | 江苏金海星导航科技有限公司 | 一种分离式的交通标志检测与识别方法 |
CN111881803B (zh) * | 2020-07-22 | 2023-10-31 | 安徽农业大学 | 一种基于改进YOLOv3的畜脸识别方法 |
-
2020
- 2020-11-20 CN CN202011310176.9A patent/CN112396002B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019223582A1 (en) * | 2018-05-24 | 2019-11-28 | Beijing Didi Infinity Technology And Development Co., Ltd. | Target detection method and system |
CN110796037A (zh) * | 2019-10-15 | 2020-02-14 | 武汉大学 | 基于轻量级感受野金字塔的星载光学遥感图像舰船目标检测方法 |
CN110929577A (zh) * | 2019-10-23 | 2020-03-27 | 桂林电子科技大学 | 一种基于YOLOv3的轻量级框架改进的目标识别方法 |
CN111091095A (zh) * | 2019-12-19 | 2020-05-01 | 华中科技大学 | 一种遥感图像中船只目标的检测方法 |
Non-Patent Citations (2)
Title |
---|
DAGN: A Real-Time UAV Remote Sensing Image Vehicle Detection Framework;Zhongyu Zhang等;《 IEEE Geoscience and Remote Sensing Letters 》;第17卷(第11期);第1884-1888页 * |
基于改进的YOLOv3及其在遥感图像中的检测;陈磊等;《小型微型计算机系统》;第41卷(第11期);第2321-2324页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112396002A (zh) | 2021-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112396002B (zh) | 一种基于SE-YOLOv3的轻量级遥感目标检测方法 | |
CN110135267B (zh) | 一种大场景sar图像细微目标检测方法 | |
CN109614985B (zh) | 一种基于密集连接特征金字塔网络的目标检测方法 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN108564097B (zh) | 一种基于深度卷积神经网络的多尺度目标检测方法 | |
CN106096561B (zh) | 基于图像块深度学习特征的红外行人检测方法 | |
CN111027493B (zh) | 一种基于深度学习多网络软融合的行人检测方法 | |
CN111179217A (zh) | 一种基于注意力机制的遥感图像多尺度目标检测方法 | |
CN114202672A (zh) | 一种基于注意力机制的小目标检测方法 | |
CN112329680B (zh) | 基于类激活图的半监督遥感影像目标检测和分割方法 | |
CN112633350B (zh) | 一种基于图卷积的多尺度点云分类实现方法 | |
CN110826379B (zh) | 一种基于特征复用与YOLOv3的目标检测方法 | |
CN108921198A (zh) | 基于深度学习的商品图像分类方法、服务器及系统 | |
CN111274981B (zh) | 目标检测网络构建方法及装置、目标检测方法 | |
CN108960260B (zh) | 一种分类模型生成方法、医学影像图像分类方法及装置 | |
CN112381030B (zh) | 一种基于特征融合的卫星光学遥感图像目标检测方法 | |
CN116310850B (zh) | 基于改进型RetinaNet的遥感图像目标检测方法 | |
CN116091946A (zh) | 一种基于YOLOv5的无人机航拍图像目标检测方法 | |
CN114332921A (zh) | 基于改进聚类算法的Faster R-CNN网络的行人检测方法 | |
Fan et al. | A novel sonar target detection and classification algorithm | |
CN116863194A (zh) | 一种足溃疡图像分类方法、系统、设备及介质 | |
CN117315752A (zh) | 人脸情绪识别网络模型的训练方法、装置、设备和介质 | |
CN116524255A (zh) | 基于Yolov5-ECA-ASFF的小麦赤霉病孢子识别方法 | |
Zhu et al. | Real-time traffic sign detection based on YOLOv2 | |
CN115512207A (zh) | 一种基于多路特征融合及高阶损失感知采样的单阶段目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CB03 | Change of inventor or designer information |
Inventor after: Zhou Lifang Inventor after: Deng Guang Inventor after: Li Weisheng Inventor after: Lei Bangjun Inventor before: Zhou Lifang Inventor before: Deng Guang Inventor before: Li Weisheng Inventor before: Lei Bangjun |