CN117237808A - 基于odc-yolo网络的遥感图像目标检测方法及系统 - Google Patents
基于odc-yolo网络的遥感图像目标检测方法及系统 Download PDFInfo
- Publication number
- CN117237808A CN117237808A CN202311271767.3A CN202311271767A CN117237808A CN 117237808 A CN117237808 A CN 117237808A CN 202311271767 A CN202311271767 A CN 202311271767A CN 117237808 A CN117237808 A CN 117237808A
- Authority
- CN
- China
- Prior art keywords
- convolution
- module
- kernel
- training
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 60
- 238000005070 sampling Methods 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000000694 effects Effects 0.000 claims abstract description 24
- 238000012360 testing method Methods 0.000 claims abstract description 24
- 238000012795 verification Methods 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 16
- 230000007246 mechanism Effects 0.000 claims abstract description 12
- 238000005215 recombination Methods 0.000 claims description 24
- 230000006798 recombination Effects 0.000 claims description 24
- 230000004927 fusion Effects 0.000 claims description 21
- 230000008521 reorganization Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 9
- WDLRUFUQRNWCPK-UHFFFAOYSA-N Tetraxetan Chemical compound OC(=O)CN1CCN(CC(O)=O)CCN(CC(O)=O)CCN(CC(O)=O)CC1 WDLRUFUQRNWCPK-UHFFFAOYSA-N 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 5
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了基于ODC‑YOLO网络的遥感图像目标检测方法及系统,方法如下:S1、获取遥感数据集;S2、对数据集中的图像进行切割处理,将图像划分为训练集、验证集和测试集;S3、设置输入图像的尺寸、训练次数和检测对象的类别参数;S4、在动态卷积中融入了三个维度的注意机制,构成一个多维度的动态卷积,同时利用残差网络Res2Net与C3模块融合构成新的C3‑Res2Net模块,将该模块与多维动态卷积网络结合,得到OD‑Res2Net主干网络;构建一个具有多尺度的感受野增强模块;设计上采样算子进行采样操作;S5、将图像添加至ODC‑YOLO网络模型中,运用训练集和验证集标记好的图片进行训练,训练过程中,将测试集内划分好的图片进行测试,获得每一个阶段训练的效果。
Description
技术领域
本发明属于计算机视觉技术领域,涉及目标检测、遥感与航空影像分析和图像分类等技术,具体涉及一种基于ODC-YOLO网络的遥感图像目标检测方法及系统。
背景技术
随着航空航天遥感技术的蓬勃发展,遥感图像的分辨率可以达到分米级、厘米级。在早期的低分辨率图像上往往只能分类出粗糙的地物类别,而如今在高分辨率的遥感图像上可以利用图像处理、深度学习等方法自动识别出精细的地物目标。遥感图像的信息特征可以分为低层特征、中层特征和高层特征。低层特征包括图像的光谱、纹理和结构等信息;中层特征是对低层特征的编码;高层特征是抽象的语义信息。遥感图像目标检测是一种利用遥感数据进行自动化目标检测技术,其在智能监控等领域都有着广阔的应用前景。
近年来,深度学习的快速发展为遥感图像智能信息提取提供有利的技术支撑。基于深度学习的目标检测方法大多以卷积神经网络(Convolutional Neural Network,CNN)作为主干网络,因为卷积神经网路可以自动提取高层语义特征,相比于传统的人工提取特征,具有更强的特征表示能力。除了常用的卷积神经网络,循环神经网络(RecurrentNeural Network,RNN)、自编码器(Auto Encoder,AE)、生成对抗网络(GenerativeAdversarial Network,GAN)等在目标检测中均有重要的应用。深度学习的快速发展,解决了计算机视觉领域的诸多难题,其中YOLOv5网络模型经过几代的不断更新,有着检测速度快和精度高的优点,同时在图像目标检测领域取得了巨大进步,因此,本发明将YOLOv5作为一个基本网络模型。但在遥感图像中存在许多的干扰因素,如小目标检测和复杂背景下的地物识别等问题,从而对遥感图像物体检测技术提出了更高的要求和挑战。
发明内容
针对现有技术存在以上问题,本发明提出了一种基于ODC-YOLO网络的遥感图像目标检测方法及系统。本发明主要的内容是:(1)为了解决遥感图像中小目标检测率低的问题,本发明将多维动态卷积(ODC)引入主干网络,同时利用残差网络Res2Net与C3模块融合构成新的C3-Res2Net模块,重构后的主干网络OD-Res2Net能够提升网络细粒度特征融合能力,提高小目标的检测精度。(2)为了进一步提高复杂背景下小目标检测效果,本发明充分利用特征提取中不同感受野的优势,引入多扩张率的空洞卷积构建了一个感受野增强模块C3RFEM嵌在主干网络后。C3RFEM模块主要是通过多尺度空洞卷积获得一个丰富的上下文信息,提升复杂背景下小目标的识别能力。(3)为了提取密集预测任务中所需的语义信息,本发明在颈部中引入了一种自适应的轻量级上采样算子CARAFE,CARAFE采样算子能够获取特征中更多的纹理、颜色和结构等信息。
为实现上述目的,本发明采取如下技术方案:
基于ODC-YOLO网络的遥感图像目标检测方法,其具体步骤如下:
S1、数据的获取:
获取遥感数据集;
S2、数据的预处理:
对数据集中的图像进行切割处理,将图像划分为训练集、验证集和测试集;
S3、配置网络模型:
设置输入图像的尺寸、训练次数和检测对象的类别参数;
S4、修改现有的YOLOv5网络结构即设置YOLOv5网络结构:
对YOLOv5结构的改进得到ODC-YOLO网络模型,具体改进如下:
S4.1、由于动态卷积相较于静态卷积,会对输入图像中的不同目标自适应的做出调整,用更合适的参数进行卷积操作,在此基础上,本发明在动态卷积中融入了其他三个维度的注意机制(卷积的尺寸、卷积的输入通道数和输出通道数),构成一个多维度的动态卷积,同时利用残差网络Res2Net与C3模块融合构成新的C3-Res2Net模块,将该模块与多维动态卷积网络(ODC)结合,得到OD-Res2Net主干网络。
S4.2、使用不同扩张率的空洞卷积的思想构建一个具有多尺度的感受野增强模块,在不同大小的卷积层中,分别使用扩张率为1、2和3的三种尺度的空洞卷积层分支,通过普通卷积与空洞卷积的结合,每个分支的感受野都得到了有效的提升,最后将各个分支叠加在一起,表达多尺度的感受野融合效果。
S4.3、设计一个轻量级的上采样算子(CARAFE)进行采样操作,该模块主要分为上采样预测模块和特征重组模块。给定一个形状为C*H*W(C代表着channel通道数,H代表Height高度,W代表Width宽度)的输入特征图,首先利用上采样预测模块预测上采样核,然后利用特征重组模块完成上采样。
S5、训练网络模型:
将步骤S2所得图像添加至步骤S4所得的ODC-YOLO网络模型中,运用训练集和验证集标记好的图片进行训练,训练过程中,将测试集内划分好的图片进行测试,获得每一个阶段训练的效果。
优选的,步骤S1中,采用DOTA数据集,图像来源于不同地区、不同时相阶段。
进一步优选的,步骤S2中,由于DOTA数据集与通用的目标检测数据相比尺寸较大,其中最大的图像分辨率达到了20000*20000,在实验前,使用官方提供的脚本对数据集进行预处理操作,将DOTA数据集中的图像先切割处理再输入到网络中训练。
优选的,步骤S2中,切割通过滑动窗口实现,将每个图像中小影像的大小设置固定像素大小,切割从图像左上角开始;将切割后的数据集和对应的标签按照8:1:1分为训练集、验证集和测试集。
优选的,步骤S3,根据计算机的内存和显卡大小,合理的设置输入图像的尺寸大小、训练的次数和检测对象的类别等参数,此外还要考虑到搭建的环境是否与显卡兼容的情况。
优选的,步骤S4.1中,将多维动态卷积(ODC)引入主干网络,多维动态卷积根据注意力机制动态聚合多个并行卷积核,这些卷积核对每个单独输入数据x通过输入相同注意力来聚合偏差;多维动态卷积(ODC)的公式如下所示:
y=(αw1⊙αf1⊙αc1⊙αs1⊙W1+...+αwn⊙αfn⊙αcn⊙αsn⊙Wn)*x
其中,x表示输入,y则是输出;αwi∈R为卷积维度Wi的注意力系数矩阵,αsi∈Rk*k、和αfi∈Rout分别表示沿着卷积核Wi中的空间维度、输入通道维度、输出通道维度上的动态卷积注意力系数矩阵,⊙表示沿着核空间的不同维度的乘法运算,i的取值范围在1-n;注意力乘以卷积核Wi的过程具体如下:
先通过全局平均池化GAP将输入x压缩为长度为Cin的特征向量;后通过一个全连接层FC和四个分支,全连接层之后经过ReLU激活函数修正线性单元;全连接层FC将压缩后的特征向量映射到低维空间,对于四个分支,都有输出尺寸为k*k、Cin*1、Cout*1和n*1(其中Cin表示输入通道数,Cout表示输出通道数)的全连接层FC,并使用Sigmoid和SoftMax函数来生成归一化的注意力asi、aci、afi、awi;
在多维动态卷积(ODC)中,对于卷积核Wi:(1)asi将不同的注意力标量分配给k*k空间位置处的卷积参数;(2)aci为每个卷积滤波器Wi m的Cin通道分配不同的注意力标量;(3)afi为Cout卷积滤波器分配不同的注意力标量;(4)awi为整个卷积分配注意力标量;
在多维动态卷积(ODC)的基础上,将Res2Net网络与C3模块融合构成新的C3-Res2Net模块,Res2Net通过一系列通道划分、分组卷积、块间融合、通道拼接操作实现特征融合,具体过程如下式所示:
其中,输入特征经过通道划分为s块特征图,xi表示第i块特征图,Ki表示融合第i块特征图的卷积层,yi表示融合xi之后获得的特征图,yi-1表示融合xi-1之后获得的特征图。
优选的,步骤S4.3中,轻量级的上采样算子主要分为两个模块,分别是上采样核预测模块和特征重组模块;两个模块的表达式如下所示:
χ′l′=φ(N(χl,kup),wl')
上采样核预测模块根据以目标位置l为中心的输入特征χl的邻近位置,为每个位置预测一个重组内核wl',其中N(χl,kencoder)表示输入特征χl的kencoder*kencoder的子区域,特征重组模块φ在输入特征χl中取出kup*kup的子区域N(χl,kup),其中kup*kup表示子区域的尺寸大小,然后与上一步中的重组内核wl'做点积,得到重组后的以目标位置l'为中心的输入特征χ′l';
上采样核预测模块负责以内容感知的方式生成重组内核,给定一个尺寸为C*H*W的输入特征χ,χ上的每个源位置对应于χ'的δ2个目标位置;每个目标位置都需要一个 的重组内核,其中kup表示重组内核的大小,因此该模块将输出大小为/>的重组内核;对于形状为C*H*W的输入特征图,首先使用一个1*1的卷积将通道数压缩到Cm,减少计算量;假设上采样核尺寸为kup*kup,如果对每个输出特征图的每个位置使用不同的上采样核,需要预测的上采样核形状为δH*δW*kup*kup;对于压缩后的输入特征图,使用一个kencoder*kencoder的卷积层来预测上采样核,输入通道数为Cm,输出通道数为/>然后将通道在空间维度展开,得到尺寸为/>的上采样核,该上采样核用于特征重组模块;
对于每个重组内核wl',特征重组模块将通过函数φ对局部区域内的特征进行重组,上采样核预测模块中对于输出特征图中的每个位置,将其映射回输入特征图,取出以kup*kup为中心的子区域,和预测出的该点的上采样核作点积,得到输出值,其中相同位置的不同通道共享同一个上采样核。
优选的,步骤S5中,得到改进后的ODC-YOLO网络模型之后,将其添加进配置好的计算机环境,将之前配置好的参数文件添加至网络模型中,运用训练集和验证集标记好的图片进行训练,训练过程中,将测试集里划分好的图片放入计算机中进行测试,获得每一个阶段训练的效果。
在步骤S5后进行步骤S6、分析结果:
模型在训练结束后会生成相应的权重文件,导入训练好的权重与待检测的图片和对应的标签,运行程序得到检测之后的数据与图片,比较识别效果和检测精度是否达到预期要求。
本发明还公开了一种基于ODC-YOLO网络的遥感图像目标检测系统,其基于上述的方法,包括如下模块:
数据获取模块:用于获取遥感数据集;
数据预处理模块:对数据集中的图像进行切割处理,将图像划分为训练集、验证集和测试集;
网络模型配置模块:设置输入图像的尺寸、训练次数和检测对象的类别参数;
YOLOv5网络结构设置模块:
在动态卷积中融入了三个维度的注意机制,包括卷积的尺寸、卷积的输入通道数和输出通道数,构成一个多维度的动态卷积,同时利用残差网络Res2Net与C3模块融合构成新的C3-Res2Net模块,将该模块与多维动态卷积网络结合,得到OD-Res2Net主干网络;
构建一个具有多尺度的感受野增强模块,在不同大小的卷积层中,分别使用三种尺度的空洞卷积层分支,通过普通卷积与空洞卷积的结合,每个分支的感受野都得到了的提升,再将各个分支叠加在一起,以表达多尺度的感受野融合效果;
设计一个轻量级的上采样算子进行采样操作,主要分为上采样预测模块和特征重组模块;给定一个输入特征图,首先利用上采样预测模块预测上采样核,后利用特征重组模块完成上采样;
网络模型训练模块:将图像添加至ODC-YOLO网络模型中,运用训练集和验证集标记好的图片进行训练,训练过程中,将测试集内划分好的图片进行测试,获得每一个阶段训练的效果。
本发明的有益处效果:
本发明公开了基于ODC-YOLO网络的遥感图像目标检测方法及系统,本发明(1)为解决小目标检测率低的问题,提出将多维动态卷积(ODC)融合Res2Net重构主干网络,通过在一个残差块内构建分层残差连接,然后从卷积核数量,卷积尺寸,卷积输入通道数和卷积输出通道数四个维度进行动态卷积的操作,为提取丰富的上下文信息提供保证;(2)为进一步提高复杂背景下小目标检测问题,本发明根据感受野和多分支共享权重的思想,提出感受野增强模块,通过在每个分支设置不同扩张率,使网络提取更丰富的特征;(3)在YOLOv5的颈部引用轻量级上采样算子CARAFE做上采样操作,将采样分为预测和重组两个步骤,在采样过程中保留了低层更多的纹理、颜色和结构等特征信息。
附图说明
图1是基于ODC-YOLO的网络模型结构图。
图2是多维动态卷积示意图。
图3是C3RFEM感受野增强模块结构图。
图4是CARAFE轻量级上采样算子示意图。
图5是高空俯瞰视角下小目标检测效果对比图。
图6是复杂背景下目标检测误检效果对比图。
图7是遥感图像整体效果检测对比图。
图8是本发明优选实施例一种基于ODC-YOLO网络的遥感图像目标检测系统框图。
具体实施方式
下面结合附图和优选实施例对本发明进行进一步说明,但需要注意的是本发明并不局限于以下实施例。
如图1所示,本实施例公开了一种基于ODC-YOLO网络的遥感图像目标检测方法,具体步骤如下:
1.数据的获取:
首先对于遥感数据集的获取,本实施例使用DOTA数据集,其图像来源于不同城市地区、不同时相阶段。数据样本呈现多样性,而且数据中小目标尺寸比例平衡,分布情况与现实场景相似。DOTA数据集包含2806张影像,包括飞机、轮船、储油罐、棒球场、网球场、篮球场、地面跑道、港口、桥梁、大型车辆、小型车辆、直升机、环形交叉路口、足球场和篮球场15个类别,共计188282个目标。
2.图像的预处理:
DOTA数据集的图像最大分辨率有20000*20000像素,同时遥感影像中目标小且排列密集。现有的YOLOv5算法输入固定且输入图像尺寸较小,网络在提取特征时会采用下采样的方法,这样预测层输入的图像尺寸会更小,网络将很难检测出尺寸较小且排列密集的目标。
因此,本实施例对数据集中的图像先进行切割处理再输入到网络中训练。切割通过滑动窗口实现,将每个图像中小影像的大小设置固定像素大小,切割从图像左上角开始,为保证图像中目标的完整性,按照官方提供的建议,以1024*1024的窗口大小,200的滑动步长对DOTA原始数据进行切割。接着将切割后的数据集和对应的标签按照8:1:1分为训练集、验证集和测试集。
3.YOLOv5模型参数的配置
在处理好数据集后,接着修改配置模型yaml文件,首先将date文件夹下的voc.yaml文件里的标签类别改成与本实施例中的标签一致,然后将train和val的训练路径替换为当前数据集下的路径,接着按照本实施例所需的情况修改tain.py下的训练次数和batch-size等参数,本实施例的环境是:cuda11.3、深度学习框架pytorch1.12.1、Intelcore i5-12450h CPU、16G内存、GPU为NVIDIA GeForce RTX 3060,显存为6G。
4.改进现有的YOLOv5的结构,主要结构的改进如下:
(1)本实施例将多维动态卷积引入主干网络,多维动态卷积根据注意力机制动态聚合多个并行卷积核,这些卷积核对每个单独输入数据x通过输入相同注意力来聚合偏差。多维动态卷积的公式如下所示:
y=(αw1⊙αf1⊙αc1⊙αs1⊙W1+...+αwn⊙αfn⊙αcn⊙αsn⊙Wn)*x
其中,x表示输入,y则是输出。awi∈R为卷积维度Wi的注意力系数矩阵,asi∈Rk*k、和afi∈Rout分别表示沿着卷积核Wi中的空间维度、输入通道维度、输出通道维度上的动态卷积注意力系数矩阵,⊙表示沿着核空间的不同维度的乘法运算(i的取值范围在1-n)。附图2说明了将这四种类型的注意力乘以卷积核Wi的过程。
具体来说,首先通过全局平均池化(GAP)将输入x压缩为长度为Cin的特征向量。随后,通过一个全连接层(FC)和四个分支,全连接层之后经过ReLU激活函数修正线性单元。全连接层(FC)将压缩后的特征向量映射到低维空间,对于四个分支,都有输出尺寸为k*k、Cin*1、Cout*1和n*1的全连接层(FC),并使用Sigmoid和SoftMax函数来生成归一化的注意力asi、aci、afi、awi。
在多维动态卷积中,对于卷积核Wi:(1)asi将不同的注意力标量分配给k*k空间位置处的卷积参数;(2)aci为每个卷积滤波器Wi m的Cin通道分配不同的注意力标量;(3)afi为Cout卷积滤波器分配不同的注意力标量;(4)awi为整个卷积分配注意力标量。
为了提取更丰富的特征信息,本实施例在多维动态卷积的基础上,将Res2Net网络与C3模块融合构成新的C3-Res2Net模块,Res2Net通过一系列通道划分、分组卷积、块间融合、通道拼接等操作实现特征融合,提高小目标检测效果。具体过程如下式所示:
其中,输入特征经过通道划分为s块特征图,xi表示第i块特征图,Ki表示融合第i块特征图的卷积层,yi表示融合xi之后获得的特征图,yi-1表示融合xi-1之后获得的特征图。
(2)为解决复杂背景下小目标误检的问题,本实施例引入一个具有多尺度的感受野增强模块,其每个分支都设置不同的扩张率,从而产生了不同的感受野,最后将不同的感受野结合在一起,形成了具有多尺度的感受野增强模块,使得网络提取的特征更加丰富,解决复杂背景带来的检测干扰问题。
感受野增强模块细节如图3所示。图3中,左边是YOLOv5中C3模块,本实施例将设计的感受野增强模块嵌入到C3模块中,重构成C3REFM模块,添加在主干网络SPPF层之后。附图3中通过在分支1、分支2和分支3在不同大小的卷积核使用扩张率=1、2和3的三种尺度的空洞卷积层,通过普通卷积与空洞卷积的结合,每个分支的感受野都得到了有效的提升,最后,通过将各个分支叠加在一起,表达多尺度的感受野融合效果。
每个分支都使用了1*1的卷积来压缩通道数,减少计算参数量,不同尺寸的感受野在进行特征提取时,有助于主干网络获得更细致,更具有判别性和鲁棒的特征。经过感受野增强模块获得的特征图,有着丰富的感受野,同时也包含着更为抽象的信息,提升复杂背景下识别的精度。
(3)本实施例设计了一种轻量级的上采样算子CARAFE,CARAFE主要分为两个模块,分别是上采样核预测模块和特征重组模块。两个模块的表达式如下所示:
χ′l′=φ(N(χl,kup),wl')
上采样核预测模块根据以目标位置l为中心的输入特征χl的邻近位置,为每个位置预测一个重组内核wl',其中N(χl,kencoder)表示输入特征χl的kencoder*kencoder的子区域,特征重组模块φ在输入特征χl中取出kup*kup的子区域N(χl,kup),其中kup*kup表示子区域的尺寸大小,然后与上一步中的重组内核wl'做点积,得到重组后的以目标位置l'为中心的输入特征χ′l′,具体细节结合图4详细描述。
上采样核预测模块负责以内容感知的方式生成重组内核,给定一个尺寸为C*H*W的输入特征χ,χ上的每个源位置对应于χ'的δ2个目标位置。每个目标位置都需要一个的重组内核,其中kup表示重组内核的大小,因此该模块将输出大小/>的重组内核。对于形状为C*H*W的输入特征图,首先使用一个1*1的卷积将通道数压缩到Cm,减少计算量。假设上采样核尺寸为kup*kup,如果对每个输出特征图的每个位置使用不同的上采样核,需要预测的上采样核形状为δH*δW*kup*kup。对于第一步中压缩后的输入特征图,使用一个kencoder*kencoder的卷积层来预测上采样核,输入通道数为Cm,输出通道数为/>然后将通道在空间维度展开,得到尺寸为/>的上采样核,该上采样核用于特征重组模块。
对于每个重组内核wl',特征重组模块将通过函数φ对局部区域内的特征进行重组,上采样核预测模块中对于输出特征图中的每个位置,将其映射回输入特征图,取出以kup*kup为中心的子区域,和预测出的该点的上采样核作点积,得到输出值,其中相同位置的不同通道共享同一个上采样核,实验中kencoder取值为3,kup的取值为5。
5.用改进后的网络模型进行训练:
本实施例中将数据集按照8:1:1划分为训练集、验证集和测试集,设置的训练次数为100轮次,每次训练输入的batch size为16张,训练过程时通过tensor board观察训练过程,训练结束后,保存训练好的权重。下面结合附图与数据对本次发明达到的效果进行说明
为了进一步验证改进网络模型达到的有益效果,做消融实验,本实施例中为了取得直观的效果,使用COCO数据集评价标准,从四个角度的平均精度(AP)衡量模型取得的性能。具体结果由表1所示,实验时统一输入分辨率为640*640,由数据可知,本发明提出的YOLOv5+CARAFE+OD-Res2Net+C3RFEM方法效果最优,对比YOLOv5,AP75涨了2个百分点,AP50提高了有6个百分点,其中小目标的平均精度APS则是涨了5个百分点,证明了本发明在针对小目标问题上,得到了有效的提高。
表1
如图5所示,为了演示本发明达到的效果,在原图中将待检测的目标,用虚线框出并且放大。可以看出,在这种高空视角下的小目标,现有的YOLOv5没有成功检测出来,该网络模型没有学习到标签物体的特征,对比右图,在经过ODC-YOLO网络训练之后,可以明显的看出,原本识别不到小目标物体,也能成功和正确的识别了。此外,从图6可以看出,如虚线框放大的三处局部区域所示,该三处地方都出现了误检的问题,错误的将汽车检测成了飞机,但在本发明改进后的网络中可以发现,之前误检的目标都没有了。整体的效果如图7所示,在密集的停车场场景中,对比左右两图可以看出,在改进后的网络识别结果里,处于密集相互遮挡的小目标也成功的识别出来。
如图8所示,本实施例公开了一种基于ODC-YOLO网络的遥感图像目标检测系统,其基于上述方法实施例,包括如下模块:
数据获取模块:用于获取遥感数据集;
数据预处理模块:对数据集中的图像进行切割处理,将图像划分为训练集、验证集和测试集;
网络模型配置模块:设置输入图像的尺寸、训练次数和检测对象的类别参数;
YOLOv5网络结构设置模块,具体如下:
在动态卷积中融入了三个维度的注意机制,包括卷积的尺寸、卷积的输入通道数和输出通道数,构成一个多维度的动态卷积,同时利用残差网络Res2Net与C3模块融合构成新的C3-Res2Net模块,将该模块与多维动态卷积网络结合,得到OD-Res2Net主干网络;
构建一个具有多尺度的感受野增强模块,在不同大小的卷积层中,分别使用三种尺度的空洞卷积层分支,通过普通卷积与空洞卷积的结合,每个分支的感受野都得到了的提升,再将各个分支叠加在一起,以表达多尺度的感受野融合效果;
设计一个轻量级的上采样算子进行采样操作,主要分为上采样预测模块和特征重组模块;给定一个输入特征图,首先利用上采样预测模块预测上采样核,后利用特征重组模块完成上采样;
网络模型训练模块:将图像添加至ODC-YOLO网络模型中,运用训练集和验证集标记好的图片进行训练,训练过程中,将测试集内划分好的图片进行测试,获得每一个阶段训练的效果。
本实施例其他内容可参考上述方法实施例。
本领域技术人员应该认识到,在不脱离本发明及所附的权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明的保护范围不应局限于实施案例所公开的内容。
Claims (7)
1.基于ODC-YOLO网络的遥感图像目标检测方法,其特征在于,具体步骤如下:
S1、获取遥感数据集;
S2、对数据集中的图像进行切割处理,将图像划分为训练集、验证集和测试集;
S3、设置输入图像的尺寸、训练次数和检测对象的类别参数;
S4具体如下:
S4.1、在动态卷积中融入了三个维度的注意机制,包括卷积的尺寸、卷积的输入通道数和输出通道数,构成一个多维度的动态卷积,同时利用残差网络Res2Net与C3模块融合构成新的C3-Res2Net模块,将该模块与多维动态卷积网络结合,得到OD-Res2Net主干网络;
S4.2、构建一个具有多尺度的感受野增强模块,在不同大小的卷积层中,分别使用三种尺度的空洞卷积层分支,通过普通卷积与空洞卷积的结合,每个分支的感受野都得到了的提升,再将各个分支叠加在一起,以表达多尺度的感受野融合效果;
S4.3、设计一个轻量级的上采样算子进行采样操作,主要分为上采样预测模块和特征重组模块;给定一个输入特征图,首先利用上采样预测模块预测上采样核,后利用特征重组模块完成上采样;
S5、将步骤S2所得图像添加至步骤S4所得的ODC-YOLO网络模型中,运用训练集和验证集标记好的图片进行训练,训练过程中,将测试集内划分好的图片进行测试,获得每一个阶段训练的效果。
2.如权利要求1所述基于ODC-YOLO网络的遥感图像目标检测方法,其特征在于,步骤S1中,采用DOTA数据集,图像来源于不同地区、不同时相阶段。
3.如权利要求1所述基于ODC-YOLO网络的遥感图像目标检测方法,其特征在于,步骤S2中,切割通过滑动窗口实现,将每个图像中小影像的大小设置固定像素大小,切割从图像左上角开始;将切割后的数据集和对应的标签按照8:1:1分为训练集、验证集和测试集。
4.如权利要求1所述基于ODC-YOLO网络的遥感图像目标检测方法,其特征在于,步骤S4.1中,将多维动态卷积引入主干网络,多维动态卷积根据注意力机制动态聚合多个并行卷积核,这些卷积核对每个单独输入数据x通过输入相同注意力来聚合偏差;多维动态卷积的公式如下所示:
y=(αw1⊙αf1⊙αc1⊙αs1⊙W1+...+αwn⊙αfn⊙αcn⊙αsn⊙Wn)*x
x表示输入,y则是输出;αwi∈R为卷积维度Wi的注意力系数矩阵,αsi∈Rk*k、和αfi∈Rout分别表示沿着卷积核Wi中的空间维度、输入通道维度、输出通道维度上的动态卷积注意力系数矩阵,⊙表示沿着核空间的不同维度的乘法运算,i的取值范围在1-n;注意力乘以卷积核Wi的过程具体如下:
先通过全局平均池化GAP将输入x压缩为长度为Cin的特征向量;后通过一个全连接层FC和四个分支,全连接层之后经过ReLU激活函数修正线性单元;全连接层FC将压缩后的特征向量映射到低维空间,对于四个分支,都有输出尺寸为k*k、Cin*1、Cout*1和n*1的全连接层FC,并使用Sigmoid和SoftMax函数来生成归一化的注意力asi、aci、afi、awi;其中,Cin表示输入通道数,Cout表示输出通道数;
在多维动态卷积中,对于卷积核Wi:(1)asi将不同的注意力标量分配给k*k空间位置处的卷积参数;(2)aci为每个卷积滤波器Wi m的Cin通道分配不同的注意力标量;(3)afi为Cout卷积滤波器分配不同的注意力标量;(4)awi为整个卷积分配注意力标量;
在多维动态卷积的基础上,将Res2Net网络与C3模块融合构成新的C3-Res2Net模块,Res2Net通过一系列通道划分、分组卷积、块间融合、通道拼接操作实现特征融合,具体过程如下式所示:
其中,输入特征经过通道划分为s块特征图,xi表示第i块特征图,Ki表示融合第i块特征图的卷积层,yi表示融合xi之后获得的特征图,yi-1表示融合xi-1之后获得的特征图。
5.如权利要求1所述基于ODC-YOLO网络的遥感图像目标检测方法,其特征在于,步骤S4.3中,轻量级的上采样算子主要分为两个模块,分别是上采样核预测模块和特征重组模块;两个模块的表达式如下所示:
χ′l′=φ(N(χl,kup),wl')
上采样核预测模块根据以目标位置l为中心的输入特征χl的邻近位置,为每个位置预测一个重组内核wl',其中N(χl,kencoder)表示输入特征χl的kencoder*kencoder的子区域,特征重组模块φ在输入特征χl中取出kup*kup的子区域N(χl,kup),其中kup*kup表示子区域的尺寸大小,然后与上一步中的重组内核wl'做点积,得到重组后的以目标位置l'为中心的输入特征χ′l';
上采样核预测模块负责以内容感知的方式生成重组内核,给定一个尺寸为C*H*W的输入特征χ,χ上的每个源位置对应于χ'的δ2个目标位置;每个目标位置都需要一个 的重组内核,其中kup表示重组内核的大小,因此该模块将输出大小为/>的重组内核;对于形状为C*H*W的输入特征图,首先使用一个1*1的卷积将通道数压缩到Cm,减少计算量;假设上采样核尺寸为kup*kup,如果对每个输出特征图的每个位置使用不同的上采样核,需要预测的上采样核形状为δH*δW*kup*kup;对于压缩后的输入特征图,使用一个kencoder*kencoder的卷积层来预测上采样核,输入通道数为Cm,输出通道数为/>然后将通道在空间维度展开,得到尺寸为/>的上采样核,该上采样核用于特征重组模块;
对于每个重组内核wl',特征重组模块将通过函数φ对局部区域内的特征进行重组,上采样核预测模块中对于输出特征图中的每个位置,将其映射回输入特征图,取出以kup*kup为中心的子区域,和预测出的该点的上采样核作点积,得到输出值,其中相同位置的不同通道共享同一个上采样核。
6.如权利要求1所述基于ODC-YOLO网络的遥感图像目标检测方法,其特征在于,在步骤S5后进行步骤S6:
模型在训练结束后会生成相应的权重文件,导入训练好的权重与待检测的图片和对应的标签,得到检测之后的数据与图片,分析比较识别效果和检测精度。
7.基于ODC-YOLO网络的遥感图像目标检测系统,其基于权利要求1-6任一项所述的方法,其特征在于,包括如下模块:
数据获取模块:用于获取遥感数据集;
数据预处理模块:对数据集中的图像进行切割处理,将图像划分为训练集、验证集和测试集;
网络模型配置模块:设置输入图像的尺寸、训练次数和检测对象的类别参数;
YOLOv5网络结构设置模块:
在动态卷积中融入了三个维度的注意机制,包括卷积的尺寸、卷积的输入通道数和输出通道数,构成一个多维度的动态卷积,同时利用残差网络Res2Net与C3模块融合构成新的C3-Res2Net模块,将该模块与多维动态卷积网络结合,得到OD-Res2Net主干网络;
构建一个具有多尺度的感受野增强模块,在不同大小的卷积层中,分别使用三种尺度的空洞卷积层分支,通过普通卷积与空洞卷积的结合,每个分支的感受野都得到了的提升,再将各个分支叠加在一起,以表达多尺度的感受野融合效果;
设计一个轻量级的上采样算子进行采样操作,主要分为上采样预测模块和特征重组模块;给定一个输入特征图,首先利用上采样预测模块预测上采样核,后利用特征重组模块完成上采样;
网络模型训练模块:将图像添加至ODC-YOLO网络模型中,运用训练集和验证集标记好的图片进行训练,训练过程中,将测试集内划分好的图片进行测试,获得每一个阶段训练的效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311271767.3A CN117237808A (zh) | 2023-09-27 | 2023-09-27 | 基于odc-yolo网络的遥感图像目标检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311271767.3A CN117237808A (zh) | 2023-09-27 | 2023-09-27 | 基于odc-yolo网络的遥感图像目标检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117237808A true CN117237808A (zh) | 2023-12-15 |
Family
ID=89089264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311271767.3A Pending CN117237808A (zh) | 2023-09-27 | 2023-09-27 | 基于odc-yolo网络的遥感图像目标检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117237808A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117710827A (zh) * | 2024-02-06 | 2024-03-15 | 华东交通大学 | 基于改进RetinaNet的遥感图像目标检测模型 |
CN117764988A (zh) * | 2024-02-22 | 2024-03-26 | 山东省计算中心(国家超级计算济南中心) | 基于异核卷积多感受野网络的道路裂缝检测方法及系统 |
CN117877034A (zh) * | 2024-01-08 | 2024-04-12 | 耕宇牧星(北京)空间科技有限公司 | 一种基于动态卷积增强的遥感图像实例分割方法及模型 |
CN117876823A (zh) * | 2024-03-11 | 2024-04-12 | 浙江甲骨文超级码科技股份有限公司 | 一种茶园图像检测方法及其模型训练方法和系统 |
-
2023
- 2023-09-27 CN CN202311271767.3A patent/CN117237808A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117877034A (zh) * | 2024-01-08 | 2024-04-12 | 耕宇牧星(北京)空间科技有限公司 | 一种基于动态卷积增强的遥感图像实例分割方法及模型 |
CN117710827A (zh) * | 2024-02-06 | 2024-03-15 | 华东交通大学 | 基于改进RetinaNet的遥感图像目标检测模型 |
CN117764988A (zh) * | 2024-02-22 | 2024-03-26 | 山东省计算中心(国家超级计算济南中心) | 基于异核卷积多感受野网络的道路裂缝检测方法及系统 |
CN117764988B (zh) * | 2024-02-22 | 2024-04-30 | 山东省计算中心(国家超级计算济南中心) | 基于异核卷积多感受野网络的道路裂缝检测方法及系统 |
CN117876823A (zh) * | 2024-03-11 | 2024-04-12 | 浙江甲骨文超级码科技股份有限公司 | 一种茶园图像检测方法及其模型训练方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN117237808A (zh) | 基于odc-yolo网络的遥感图像目标检测方法及系统 | |
CN111199214B (zh) | 一种残差网络多光谱图像地物分类方法 | |
CN108108751B (zh) | 一种基于卷积多特征和深度随机森林的场景识别方法 | |
CN113762138B (zh) | 伪造人脸图片的识别方法、装置、计算机设备及存储介质 | |
CN113160062B (zh) | 一种红外图像目标检测方法、装置、设备及存储介质 | |
CN110222604A (zh) | 基于共享卷积神经网络的目标识别方法和装置 | |
CN110599502B (zh) | 一种基于深度学习的皮肤病变分割方法 | |
CN113468996A (zh) | 一种基于边缘细化的伪装物体检测方法 | |
CN116824413A (zh) | 一种基于多尺度空洞卷积的航拍图像目标检测方法 | |
Liu et al. | CT-UNet: Context-transfer-UNet for building segmentation in remote sensing images | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN116740527A (zh) | U型网络与自注意力机制结合的遥感图像变化检测方法 | |
CN113971764A (zh) | 一种基于改进YOLOv3的遥感图像小目标检测方法 | |
CN117197763A (zh) | 基于交叉注意引导特征对齐网络的道路裂缝检测方法和系统 | |
CN114519819B (zh) | 一种基于全局上下文感知的遥感图像目标检测方法 | |
CN113344110B (zh) | 一种基于超分辨率重建的模糊图像分类方法 | |
CN116342536A (zh) | 基于轻量化模型的铝带材表面缺陷检测方法、系统及设备 | |
CN117011614A (zh) | 基于深度学习的野山参艼芦体检测和品质等级分类方法及系统 | |
CN113902978B (zh) | 基于深度学习的可解释性sar图像目标检测方法及系统 | |
CN114612709A (zh) | 图像金字塔特征指导的多尺度目标检测方法 | |
CN117809200A (zh) | 一种基于增强小目标特征提取的多尺度遥感图像目标检测方法 | |
CN117636131A (zh) | 一种基于Yolo-I模型的小目标识别方法及相关装置 | |
CN113096080A (zh) | 图像分析方法及系统 | |
Wu et al. | Deep texture exemplar extraction based on trimmed T-CNN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |