CN117351354B - 基于改进MobileViT的轻量级遥感图像目标检测方法 - Google Patents
基于改进MobileViT的轻量级遥感图像目标检测方法 Download PDFInfo
- Publication number
- CN117351354B CN117351354B CN202311348496.7A CN202311348496A CN117351354B CN 117351354 B CN117351354 B CN 117351354B CN 202311348496 A CN202311348496 A CN 202311348496A CN 117351354 B CN117351354 B CN 117351354B
- Authority
- CN
- China
- Prior art keywords
- feature
- remote sensing
- scale
- sensing image
- lightweight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 85
- 238000000605 extraction Methods 0.000 claims abstract description 74
- 238000004364 calculation method Methods 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000012360 testing method Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 42
- 230000008569 process Effects 0.000 claims description 32
- 230000004927 fusion Effects 0.000 claims description 27
- 238000010586 diagram Methods 0.000 claims description 26
- 238000000926 separation method Methods 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及遥感图像处理技术领域,具体涉及一种基于改进MobileViT的轻量级遥感图像目标检测方法,包括:搭建基于改进MobileViT的轻量级骨干特征提取网络;轻量级骨干特征提取网络包括:基础卷积算子、多尺度特征提取模块和轻量级通道计算模块;基于轻量级骨干特征提取网络搭建遥感图像目标检测模型;对遥感图像目标检测模型进行训练和测试。本发明具有体积小,计算量低,模型轻量化的优点,有效解决了传统模型因计算量和体积过大导致的边缘设备部署难题。
Description
技术领域
本发明涉及遥感图像处理技术领域,更具体的说是涉及一种基于改进MobileViT的轻量级遥感图像目标检测方法。
背景技术
遥感图像目标检测旨在解读遥感图像以获取潜在目标的类别和位置信息,这在交通检测、海洋监管和空间侦察中具有重要意义。随着深度学习技术的发展,许多深度学习模型被用于遥感图像目标检测,这些模型通常在大规模数据集上进行训练,可以实现高精度的目标检测。然而,目前的深度学习模型在遥感图像目标检测中存在一些问题,其中之一是它们的计算量和体积较大。这些模型通常包含数百万到数亿个参数,需要大量的计算资源来运行。这导致了在边缘设备上部署这些模型时的难题,因为边缘设备通常具有有限的计算和存储资源。此外,遥感图像具有目标尺度变化大的特点,给目标检测任务带来了挑战,这使得典型目标检测模型在遥感图像上的检测性能存在瓶颈。因此,提取潜在目标的多尺度特征,从而提升模型预测性能变得尤为重要。因此,需要一种轻量级的遥感图像目标检测方法,以实现在计算和存储资源有限的边缘设备上高效运行并且保持足够的检测精度,同时具备优秀的多尺度特征提取能力,以应对遥感图像目标尺度变化的难题。
发明内容
有鉴于此,本发明提供了一种基于改进MobileViT的轻量级遥感图像目标检测方法,具有体积小,计算量低,模型轻量化的优点,有效解决了传统模型因计算量和体积过大导致的边缘设备部署难题。
为了实现上述目的,本发明采用如下技术方案:
一种基于改进MobileViT的轻量级遥感图像目标检测方法,包括以下步骤:
搭建基于改进MobileViT的轻量级骨干特征提取网络;所述轻量级骨干特征提取网络包括:基础卷积算子、多尺度特征提取模块和轻量级通道计算模块;所述基础卷积算子对原始遥感图像进行特征提取,得到初始特征图;所述多尺度特征提取模块对所述初始特征图进行多尺度特征提取,得到多尺度特征图;所述轻量级通道计算模块对所述多尺度特征图进行局部特征提取,并采用通道代表性思想对局部特征图进行划分、部分特征编解码和拼接,再将拼接后的特征图与初始的所述多尺度特征图进行融合;
基于所述轻量级骨干特征提取网络搭建遥感图像目标检测模型;
对所述遥感图像目标检测模型进行训练和测试;
基于训练和测试后的所述遥感图像目标检测模型对遥感图像进行目标检测。
进一步的,所述多尺度特征提取模块包括:点卷积单元、深度分离卷积单元和多尺度卷积单元;
所述点卷积单元负责调整输入特征图和输出特征图的通道维度;
所述深度分离卷积单元作为主要的特征提取器对输入图像进行特征提取;
所述多尺度卷积单元对所述深度分离卷积单元所提取特征的基础上进一步提取多尺度特征,以丰富特征图的信息表示;
所述多尺度特征提取模块的计算过程表示为:
F1=PSConv(Conw11*1(DWConv(Conv21*1((input1)))))+Conv11*1(DWConv(Conv21*1((input1))))
其中,Conv11*1为第一点卷积单元;Conv21*1为第二点卷积单元;DWConv为深度分离卷积单元;input1为多尺度特征提取模块的输入特征图;F1为经多尺度特征提取模块提取后的输出特征图;+表示特征图像的相加操作;PSConv为多尺度卷积单元。
进一步的,所述多尺度卷积单元由多个不同扩张系数的卷积算子和通道混洗算子组成;多个所述卷积算子相并联,并组成多个分支,其中一个分支上的所述卷积算子接收所述通道混洗算子混洗后的特征图输出,其他分支上的所述卷积算子分别进行多尺度特征提取,最后将各分支输出的特征图进行相加,得到所述多尺度特征图;
所述多尺度卷积单元的计算过程表示为:
output1=Convd=1(input2)+Convd=2(input2)+fchannelReplace(Convd=4(input2))
其中,Convd表示扩张系数为d的卷积算子,input2为所述多尺度卷积单元的输入特征图,output1为所述多尺度卷积单元的输出特征图;fchannelReplace表示通道混洗算子,用于重新排列特征图的通道位置,以辅助卷积算子获得多尺度特征。
进一步的,所述轻量级通道计算模块包括:局部特征表示算子、编码-解码结构、通道划分算子和特征复用算子;
所述局部特征表示算子由尺寸为3×3和1×1的卷积级联得到,用于改变所述多尺度特征图的尺寸和通道数,并通过点卷积计算得到局部特征图;
所述通道划分算子将所述局部特征图划分为3∶1,将1/4部分特征图输入至所述编码-解码结构进行编解码计算,剩余3/4部分特征图不参与任何计算并且与编解码计算后的1/4特征图进行拼接,得到拼接特征图;
所述特征复用算子将所述拼接特征图与初始输入的所述多尺度特征图进行融合,得到最终用于检测的完整特征图。
进一步的,所述局部特征表示算子的计算过程表示为:
Feature=fLocalRepresent(X)
其中,X为所述局部特征表示算子的输入特征图,即所述多尺度特征提取模块输出的多尺度特征图;Feature为经过所述局部特征表示算子计算后得到的输出特征图,即所述局部特征图;fLocalRepresent表示局部特征表示算子;
所述通道划分算子的计算过程表示为:
Feature1/4,Feature3/4=fChannelSplit(Feature)
F2=Concat(fTransfomrmer(Feature1/4),Feature3/4)
其中,fChannelSplit为通道划分算子;Feature1/4,Feature3/4分别为经过通道划分算子计算后得到的1/4部分特征图和3/4部分特征图;Concat为特征拼接算子;fTransfomrmer为编码-解码器结构;F2为拼接后的输出特征图;
所述特征复用算子的计算过程表示为:
Y=fFusion(F2,X)
其中,Y为最终用于检测的输出特征图,fFusion为特征复用算子。
进一步的,所述轻量级骨干特征提取网络的整体计算过程表示为:
Feature=Conv(img)
Feature=fMV2M+(Feature)N×
Feature=fMViTL+(fMV2M+(Feature))N×
其中,Feature为经过特征提取的中间层特征,按照顺序结构进行逐层级的运算提取特征;img为原始遥感图像;Conv为基础卷积算子;fMV2M+和fMViTL+分别表示所述多尺度特征提取模块和所述轻量级通道计算模块;N×表示模型经过N次运算,即N个相同的所述多尺度特征提取模块堆叠组成。
进一步的,所述遥感图像目标检测模型由所述轻量级骨干特征提取网络、数据加载器、颈部网络和检测头组成;
所述数据加载器将原始遥感图像及其对应的标签信息加载进数据预处理阶段;
所述颈部网络包括卷积模块和融合模块;所述卷积模块负责修改所述轻量级骨干特征提取网络输出特征图的尺寸和通道数;所述融合模块融合不同层级的特征图信息以辅助预测;
所述检测头对所述融合模块融合后的特征图进行解耦,得到潜在目标的类别和位置信息。
进一步的,所述数据加载器的计算过程表示为:
data=fdataloder(imgs,labels)
其中,imgs∈RH×W×3,为尺寸为H×W,通道数为3的原始遥感输入图像;labels为图像中目标的标注信息,包括检测框和类别;fdataloder为数据加载器函数,用于加载数据和数据增强;
所述轻量级骨干特征提取网络对imgs进行特征提取的过程表示为:
[F1,F2,…,Fi,…,Fn]=fMobileViT++(imgs)
其中,表示经过特征提取后得到的特征图,尺寸为Hi×Wi,并且有Ci个通道;fMobileViT++为所述轻量级骨干特征提取网络;
选取最后3层由所述轻量级通道计算模块提取的特征图[Fn-4,Fn-2,Fn]传递给所述颈部网络进行特征融合;所述颈部网络的计算过程表示为:
[Pn-4,Pn-2,Pn]=fNeck([Fn-4,Fn-2,Fn])
其中,fNeck为所述颈部网络,用于特征融合;[Pn-4,Pn-2,Pn]为融合后的输出特征图;
所述检测头的计算过程表示为:
其中,为预测获得的分类信息;/>为预测获得的位置信息;Pi为所述颈部网络进行特征融合输出的特征图;fcls为分类函数,freg为位置回归函数。
进一步的,采用二元交叉熵损失和IoU损失对所述遥感图像目标检测模型进行训练,损失函数表示为:
其中,BCE为二元交叉熵,用于分类;IoU为预测框与真值的交并比损失,用于定位;y为与输入的原始遥感图像对应的目标真值标签;为预测得到的目标类别和位置信息;Loss为网络所述遥感图像目标检测模型所采用的损失。
进一步的,对训练完成后的所述遥感图像目标检测模型进行测试,表示为:
其中,MobileViT-Detector为训练完毕的遥感图像目标检测模型;xTest和分别为待测试的遥感图像和与其对应的目标检测结果。
经由上述的技术方案可知,与现有技术相比,本发明具有以下有益效果:
1、本发明构建好的遥感图像目标检测模型具有体积小,计算量低,模型轻量化的优点,有效解决了传统模型因计算量和体积过大导致的边缘设备部署难题。
2、本发明遥感图像目标检测模型,能够充分提取遥感图像目标的多尺度特征信息,在面对尺度变化剧烈的遥感图像目标时能够保持高精度的检测性能,提高了遥感图像处理的实际应用价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的多尺度特征提取模块的结构示意图;
图2为本发明提供的轻量级通道计算模块的结构示意图;
图3为本发明提供的遥感图像目标检测模型的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于改进MobileViT的轻量级遥感图像目标检测方法,包括以下步骤:
步骤一、搭建基于改进MobileViT的轻量级骨干特征提取网络;轻量级骨干特征提取网络包括:基础卷积算子、多尺度特征提取模块和轻量级通道计算模块;基础卷积算子对原始遥感图像进行特征提取,得到初始特征图;多尺度特征提取模块对初始特征图进行多尺度特征提取,得到多尺度特征图;轻量级通道计算模块对多尺度特征图进行局部特征提取,并采用通道代表性思想对局部特征图进行划分、部分特征编解码和拼接,再将拼接后的特征图与初始的多尺度特征图进行融合;
步骤二、基于轻量级骨干特征提取网络搭建遥感图像目标检测模型;
步骤三、对遥感图像目标检测模型进行训练和测试;
步骤四、基于训练和测试后的遥感图像目标检测模型对遥感图像进行目标检测。
下面,对上述各步骤做进一步的说明。
步骤一、轻量级骨干特征提取网络MobileViT++的搭建。
选取当前主流的轻量级骨干特征提取网络模型MobileViT作为基线模块,对MobileViT进行改进,搭建MobileViT++网络。MobileViT++网络的整体结构如图3所示。轻量级骨干特征提取网络MobileViT++包括:基础卷积算子、多尺度特征提取模块(MV2M+)和轻量级通道计算模块(MViTL+);多尺度特征提取模块和轻量级通道计算模块作为核心模块
具体来说;
(1)MV2M+模块的搭建。
MV2M+模块的结构图如图1所示,核心模块包括点卷积单元(pointwiseconvolution),深度分离卷积单元(depthwise separable convolution)和多尺度卷积单元(PSConv)。其中,点卷积单元负责调整输入特征图和输出特征图的通道维度,深度分离卷积单元作为主要的特征提取器对输入图像进行特征提取,多尺度卷积单元在所述深度分离卷积所提取特征的基础上进一步提取多尺度特征以丰富特征图的信息表示。
多尺度特征提取模块的计算过程表示为:
F1=PSConv(Conv11*1(DWConv(Conv21*1((input1)))))+Conv11*1(DWConv(Conv21*1((input1))))
其中,Conv11*1为第一点卷积单元;Conv21*1为第二点卷积单元;DWConv为深度分离卷积单元;input1为MV2M+模块的输入特征图;F1为经过MV2M+模块特征提取后的输出特征图;+表示特征图像的相加操作;PSConv为多尺度卷积单元。
多尺度卷积单元由多个不同扩张系数的卷积算子和通道混洗算子组成,在卷积内部运算过程中进行多尺度特征提取,本发明的多尺度卷积单元由扩展率为1的第一卷积算子,扩展率为2的第二卷积算子以及扩展率为4的第三卷积算子并联组成,其中,扩展率为4的第三卷积算子接收来自通道混洗算子的特征图输出,并且最终将三个分支的输出特征图进行相加,得到多尺度特征图进行最后的输出;
多尺度卷积单元的计算过程表示为:
output1=Convd=1(input2)+Convd=2(input2)+fchannelReplace(Convd=4(input2))
其中,Convd表示扩张系数为d的卷积算子,input2为多尺度卷积单元的输入特征图,output1为多尺度卷积单元的输出特征图;fchannelReplace表示通道混洗算子,用于重新排列特征图的通道位置,以辅助卷积算子获得多尺度特征。
MV2M+模块为MVIT模块提供了丰富的多尺度特征信息,以辅助Transformer结构进行全局特征的建模和提取。
(2)MViTL+模块的搭建。
轻量级通道计算模块(MViTL+模块)的结构图如图2所示,以原始MobileViT网络的MViT模块作为基线,引入通道代表性思想改进得到,其核心包括:局部特征表示算子(LocalRepresent operator)、编码-解码结构(Transformer)、通道划分算子(Channel Splitoperator)和特征复用算子(Fusion operator)。
首先,将输入特征图经过局部特征表示算子以获得符合Transformer输入条件的特征向量,并在这一步进行局部特征抽取,其建模过程可以形式化地表示为:
Feature=fLocalRepresent(X)
其中,X为局部特征表示算子的输入特征图,即多尺度特征提取模块输出的多尺度特征图;Feature为经过局部特征表示算子计算后得到的输出特征图,即局部特征图;fLocalRepresent表示局部特征表示算子,局部特征表示算子由尺寸为3×3和1×1的卷积级联得到,用于改变多尺度特征图的尺寸和通道数,并通过点卷积计算得到局部特征图,其建模过程可以形式化地表示为:
output2=Conv3×3(Conv1×1(input3))
其中,input3为局部特征表示算子的输入特征图,output2为局部特征表示算子的输出特征图,Conv3×3和Conv1×1分别表示核尺寸为3×3和1×1的卷积算子。
为了减少Transformer结构的计算复杂度,以方便后续边缘设备的部署,通道划分算子将局部特征图划分为3∶1,将1/4部分特征图输入至编码-解码结构进行编解码计算,剩余3/4部分特征图不参与任何计算并且与编解码计算后的1/4特征图进行拼接,得到拼接特征图,再征程流转后续网络部分,该计算过程表示为:
Feature1/4,Feature3/4=fChannelSplit(Feature)
F2=Concat(fTransfomrmer(Feature1/4),Feature3/4)
其中,fChannelSplit为通道划分算子;Feature1/4,Feature3/4分别为经过通道划分算子计算后得到的1/4部分特征图和3/4部分特征图;Concat为特征拼接算子;fTransfomrmer为编码-解码器结构;F2为拼接后的输出特征图。
最后,特征复用算子将上述计算得到的拼接特征图与MViTL+模块的初始输入(多尺度特征图)进行融合,得到最终用于检测的完整特征图,其计算过程表示为:
Y=fFusion(F2,X)
其中,Y为最终用于检测的输出特征图,fFusion为特征复用算子。MViTL+模块的初始输入X通过跳跃连接的方式与Transformer结构计算后的特征图进行拼接,此处不限定融合方式,Add或Concat以及互补拼接等方式均可。
通过上述步骤即可完成多尺度特征提取模块(MV2M+)和轻量级通道计算模块(MViTL+)的搭建。本发明以二者为基础构建MobileViT++骨干特征提取网络结构,模型结构如图3所示。整体来说,MobileViT++骨干特征提取网络由基础卷积算子(Conv),多尺度特征提取模块(MV2M+)和轻量级通道计算模块(MViTL+)组成。其中,Conv负责对原始遥感图像提取特征,后续通过堆叠N个MV2M+模块的方式获得深层特征,在由MV2M+和MViTL+模块组合的方式来获取全局特征和局部特征的结合以增强模型的预测能力,其计算过程可以形式化地表示为:
Feature=Conv(img)
Feature=fMV2M+(Feature)N×
Feature=fMViTL+(fMV2M+(Feature))N×
其中,Feature为经过特征提取的中间层特征,按照顺序结构进行逐层级的运算提取特征;img为原始遥感图像;Conv为基础卷积算子;fMV2M+和fMViTL+分别表示多尺度特征提取模块和轻量级通道计算模块;N×表示模型经过N次运算,即N个相同的多尺度特征提取模块堆叠组成。
至此,基于改进MobileViT的轻量级骨干特征提取网络MobileViT++搭建完成。
步骤二、遥感图像目标检测模型的搭建。
遥感图像目标检测模型由轻量级骨干特征提取网络(MobileViT++)、数据加载器(Dataloder)、颈部网络(Neck)(也称为特征融合网络)和检测头(Head)组成。
数据加载器将原始遥感图像及其对应的标签信息加载进数据预处理阶段,计算过程表示为:
data=fdataloder(imgs,labels)
其中,imgs∈RH×W×3,为尺寸为H×W,通道数为3的原始遥感输入图像;labels为图像中目标的标注信息,包括检测框和类别;fdataloder为数据加载器函数,除加载数据外还包括必要的数据增强方法,如投影,旋转,翻转等对数据进行扩充增强。进一步的,使用MobileViT++做为骨干特征提取网络对imgs进行特征提取,形式化地表示为:
[F1,F2,…,Fi,…,Fn]=fMobileViT++(imgs)
其中,表示经过特征提取后得到的特征图,尺寸为Hi×Wi,并且有Ci个通道;fMobileViT++为轻量级骨干特征提取网络。
然后,选取最后3层由轻量级通道计算模块提取的特征图[Fn-4,Fn-2,Fn]传递给颈部网络进行特征融合;颈部网络包括卷积模块(Conv)和融合模块(Concat);卷积模块(Conv)负责修改轻量级骨干特征提取网络输出特征图的尺寸和通道数;融合模块(Concat)融合不同层级的特征图信息以辅助预测,该过程表示为:
[Pn-4,Pn-2,Pn]=fNeck([Fn-4,Fn-2,Fn])
其中,fNeck为颈部网络,用于特征融合;[Pn-4,Pn-2,Pn]为融合后的输出特征图。
最后,检测头对融合模块融合后的特征图进行解耦,得到潜在目标的类别和位置信息,该过程表示为:
其中,为预测获得的分类信息;/>为预测获得的位置信息;Pi为颈部网络进行特征融合输出的特征图;fcls为分类函数,freg为位置回归函数。
至此,基于改进MobileViT骨干网络的遥感图像目标检测模型搭建完毕。
步骤三、遥感图像目标检测模型的训练和测试。
搭建好遥感图像目标检测模型之后,采用二元交叉熵损失和IoU损失对遥感图像目标检测模型进行训练,损失函数表示为:
其中,BCE为二元交叉熵,用于分类;IoU为预测框与真值的交并比损失,用于定位;y为与输入的原始遥感图像对应的目标真值标签;为预测得到的目标类别和位置信息;Loss为网络遥感图像目标检测模型所采用的损失。当网络训练至损失不再下降,则表示网络训练达到稳定,训练过程结束,得到训练完毕的基于改进MobileViT骨干网络的遥感图像目标检测模型。
之后,对训练完成后的遥感图像目标检测模型进行测试,表示为:
其中,MobileViT-Detector为训练完毕的遥感图像目标检测模型;xTest和分别为待测试的遥感图像和与其对应的目标检测结果。
步骤四,利用测试好的遥感图像目标检测模型对待测遥感图像进行检测,输出目标类别和位置信息。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.一种基于改进MobileViT的轻量级遥感图像目标检测方法,其特征在于,包括以下步骤:
搭建基于改进MobileViT的轻量级骨干特征提取网络;所述轻量级骨干特征提取网络包括:基础卷积算子、多尺度特征提取模块和轻量级通道计算模块;所述基础卷积算子对原始遥感图像进行特征提取,得到初始特征图;所述多尺度特征提取模块对所述初始特征图进行多尺度特征提取,得到多尺度特征图;所述轻量级通道计算模块对所述多尺度特征图进行局部特征提取,并采用通道代表性思想对局部特征图进行划分、部分特征编解码和拼接,再将拼接后的特征图与初始的所述多尺度特征图进行融合;
基于所述轻量级骨干特征提取网络搭建遥感图像目标检测模型;
对所述遥感图像目标检测模型进行训练和测试;
基于训练和测试后的所述遥感图像目标检测模型对遥感图像进行目标检测;
所述多尺度特征提取模块包括:点卷积单元、深度分离卷积单元和多尺度卷积单元;
所述点卷积单元负责调整输入特征图和输出特征图的通道维度;
所述深度分离卷积单元作为主要的特征提取器对输入图像进行特征提取;
所述多尺度卷积单元对所述深度分离卷积单元所提取特征的基础上进一步提取多尺度特征,以丰富特征图的信息表示;
所述轻量级通道计算模块包括:局部特征表示算子、编码-解码结构、通道划分算子和特征复用算子;
所述局部特征表示算子由尺寸为3×3和1×1的卷积级联得到,用于改变所述多尺度特征图的尺寸和通道数,并通过点卷积计算得到局部特征图;
所述通道划分算子将所述局部特征图划分为3:1,将1/4部分特征图输入至所述编码-解码结构进行编解码计算,剩余3/4部分特征图不参与任何计算并且与编解码计算后的1/4特征图进行拼接,得到拼接特征图;
所述特征复用算子将所述拼接特征图与初始输入的所述多尺度特征图进行融合,得到最终用于检测的完整特征图。
2.根据权利要求1所述的基于改进MobileViT的轻量级遥感图像目标检测方法,其特征在于,所述多尺度特征提取模块的计算过程表示为:
F1=PSConv(Conv11*1(DWConv(Conv21*1((input1)))))+Conv11*1(DWConv(Conv21*1((input1))))
其中,Conv11*1为第一点卷积单元;Conv21*1为第二点卷积单元;DWConv为深度分离卷积单元;input1为多尺度特征提取模块的输入特征图;F1为经多尺度特征提取模块提取后的输出特征图;+表示特征图像的相加操作;PSConv为多尺度卷积单元。
3.根据权利要求2所述的基于改进MobileViT的轻量级遥感图像目标检测方法,其特征在于,所述多尺度卷积单元由多个不同扩张系数的卷积算子和通道混洗算子组成;多个所述卷积算子相并联,并组成多个分支,其中一个分支上的所述卷积算子接收所述通道混洗算子混洗后的特征图输出,其他分支上的所述卷积算子分别进行多尺度特征提取,最后将各分支输出的特征图进行相加,得到所述多尺度特征图;
所述多尺度卷积单元的计算过程表示为:
output1=Convd=1(input2)+Convd=2(input2)+fchannelReplace(Convd=4(input2))
其中,Convd表示扩张系数为d的卷积算子,input2为所述多尺度卷积单元的输入特征图,output1为所述多尺度卷积单元的输出特征图;fchannelReplace表示通道混洗算子,用于重新排列特征图的通道位置,以辅助卷积算子获得多尺度特征。
4.根据权利要求1所述的基于改进MobileViT的轻量级遥感图像目标检测方法,其特征在于,所述局部特征表示算子的计算过程表示为:
Feature=fLocalRepresent(X)
其中,X为所述局部特征表示算子的输入特征图,即所述多尺度特征提取模块输出的多尺度特征图;Feature为经过所述局部特征表示算子计算后得到的输出特征图,即所述局部特征图;fLocalRepresent表示局部特征表示算子;
所述通道划分算子的计算过程表示为:
Feature1/4,Feature3/4=fChannelSplit(Feature)
F2=Concat(fTransfomrmer(Feature1/4),Feature3/4)
其中,fChannelSplit为通道划分算子;Feature1/4,Feature3/4分别为经过通道划分算子计算后得到的1/4部分特征图和3/4部分特征图;Concat为特征拼接算子;fTransfomrmer为编码-解码器结构;F2为拼接后的输出特征图;
所述特征复用算子的计算过程表示为:
Y=fFusion(F2,X)
其中,Y为最终用于检测的输出特征图,fFusion为特征复用算子。
5.根据权利要求1所述的基于改进MobileViT的轻量级遥感图像目标检测方法,其特征在于,所述轻量级骨干特征提取网络的整体计算过程表示为:
Feature=Conv(img)
Feature=fMV2M+(Feature)N×
Feature=fMViTL+(fMV2M+(Feature))N×
其中,Feature为经过特征提取的中间层特征,按照顺序结构进行逐层级的运算提取特征;img为原始遥感图像;Con为基础卷积算子;fMV2M+和fMViTL+分别表示所述多尺度特征提取模块和所述轻量级通道计算模块;N×表示模型经过N次运算,即N个相同的所述多尺度特征提取模块堆叠组成。
6.根据权利要求1所述的基于改进MobileViT的轻量级遥感图像目标检测方法,其特征在于,所述遥感图像目标检测模型由所述轻量级骨干特征提取网络、数据加载器、颈部网络和检测头组成;
所述数据加载器将原始遥感图像及其对应的标签信息加载进数据预处理阶段;
所述颈部网络包括卷积模块和融合模块;所述卷积模块负责修改所述轻量级骨干特征提取网络输出特征图的尺寸和通道数;所述融合模块融合不同层级的特征图信息以辅助预测;
所述检测头对所述融合模块融合后的特征图进行解耦,得到潜在目标的类别和位置信息。
7.根据权利要求6所述的基于改进MobileViT的轻量级遥感图像目标检测方法,其特征在于,所述数据加载器的计算过程表示为:
data=fdataloder(imgs,labels)
其中,imgs∈RH×W×3,为尺寸为H×W,通道数为3的原始遥感输入图像;labels为图像中目标的标注信息,包括检测框和类别;fdataloder为数据加载器函数,用于加载数据和数据增强;
所述轻量级骨干特征提取网络对imgs进行特征提取的过程表示为:
[F1,F2,…,Fi,…,Fn]=fMobileViT++(imgs)
其中,表示经过特征提取后得到的特征图,尺寸为Hi×Wi,并且有Ci个通道;fMobileViT++为所述轻量级骨干特征提取网络;
选取最后3层由所述轻量级通道计算模块提取的特征图[Fn-4,Fn-2,Fn]传递给所述颈部网络进行特征融合;所述颈部网络的计算过程表示为:
[Pn-4,Pn-2,Pn]=fNeck([Fn-4,Fn-2,Fn])
其中,fNeck为所述颈部网络,用于特征融合;[Pn-4,Pn-2,Pn]为融合后的输出特征图;
所述检测头的计算过程表示为:
其中,为预测获得的分类信息;/>为预测获得的位置信息;Pi为所述颈部网络进行特征融合输出的特征图;fcls为分类函数,freg为位置回归函数。
8.根据权利要求1所述的基于改进MobileViT的轻量级遥感图像目标检测方法,其特征在于,采用二元交叉熵损失和IoU损失对所述遥感图像目标检测模型进行训练,损失函数表示为:
其中,BCE为二元交叉熵,用于分类;IoU为预测框与真值的交并比损失,用于定位;y为与输入的原始遥感图像对应的目标真值标签;为预测得到的目标类别和位置信息;Loss为网络所述遥感图像目标检测模型所采用的损失。
9.根据权利要求1所述的基于改进MobileViT的轻量级遥感图像目标检测方法,其特征在于,对训练完成后的所述遥感图像目标检测模型进行测试,表示为:
其中,MobileViT-Detector为训练完毕的遥感图像目标检测模型;xTest和分别为待测试的遥感图像和与其对应的目标检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311348496.7A CN117351354B (zh) | 2023-10-18 | 2023-10-18 | 基于改进MobileViT的轻量级遥感图像目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311348496.7A CN117351354B (zh) | 2023-10-18 | 2023-10-18 | 基于改进MobileViT的轻量级遥感图像目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117351354A CN117351354A (zh) | 2024-01-05 |
CN117351354B true CN117351354B (zh) | 2024-04-16 |
Family
ID=89357082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311348496.7A Active CN117351354B (zh) | 2023-10-18 | 2023-10-18 | 基于改进MobileViT的轻量级遥感图像目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117351354B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967305A (zh) * | 2020-07-01 | 2020-11-20 | 华南理工大学 | 一种基于轻量级卷积神经网络的实时多尺度目标检测方法 |
CN112396002A (zh) * | 2020-11-20 | 2021-02-23 | 重庆邮电大学 | 一种基于SE-YOLOv3的轻量级遥感目标检测方法 |
CN112634276A (zh) * | 2020-12-08 | 2021-04-09 | 西安理工大学 | 一种基于多尺度视觉特征提取的轻量级语义分割方法 |
CN114782980A (zh) * | 2022-03-03 | 2022-07-22 | 西安电子科技大学 | 一种基于注意力机制的轻量级行人检测方法 |
CN115019279A (zh) * | 2022-01-25 | 2022-09-06 | 昆明理工大学 | 一种基于MobileNet轻量化网络的上下文特征融合方法 |
CN115171047A (zh) * | 2022-07-20 | 2022-10-11 | 南京林业大学 | 基于轻量级长短距离注意力transformer网络的火灾图像检测方法 |
CN115223056A (zh) * | 2022-07-19 | 2022-10-21 | 河南大学 | 基于多尺度特征增强的光学遥感图像舰船目标检测方法 |
CN116012337A (zh) * | 2023-01-09 | 2023-04-25 | 江苏科技大学 | 一种基于改进YOLOv4的热轧带钢表面缺陷检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114202696B (zh) * | 2021-12-15 | 2023-01-24 | 安徽大学 | 基于上下文视觉的sar目标检测方法、装置和存储介质 |
-
2023
- 2023-10-18 CN CN202311348496.7A patent/CN117351354B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967305A (zh) * | 2020-07-01 | 2020-11-20 | 华南理工大学 | 一种基于轻量级卷积神经网络的实时多尺度目标检测方法 |
CN112396002A (zh) * | 2020-11-20 | 2021-02-23 | 重庆邮电大学 | 一种基于SE-YOLOv3的轻量级遥感目标检测方法 |
CN112634276A (zh) * | 2020-12-08 | 2021-04-09 | 西安理工大学 | 一种基于多尺度视觉特征提取的轻量级语义分割方法 |
CN115019279A (zh) * | 2022-01-25 | 2022-09-06 | 昆明理工大学 | 一种基于MobileNet轻量化网络的上下文特征融合方法 |
CN114782980A (zh) * | 2022-03-03 | 2022-07-22 | 西安电子科技大学 | 一种基于注意力机制的轻量级行人检测方法 |
CN115223056A (zh) * | 2022-07-19 | 2022-10-21 | 河南大学 | 基于多尺度特征增强的光学遥感图像舰船目标检测方法 |
CN115171047A (zh) * | 2022-07-20 | 2022-10-11 | 南京林业大学 | 基于轻量级长短距离注意力transformer网络的火灾图像检测方法 |
CN116012337A (zh) * | 2023-01-09 | 2023-04-25 | 江苏科技大学 | 一种基于改进YOLOv4的热轧带钢表面缺陷检测方法 |
Non-Patent Citations (3)
Title |
---|
Howard A G等.MobileNets:Efficient Convolutional Neural Networks for Mobile Vision Applications.arXiv.2017,全文. * |
李玉峰 ; 顾曼璇 ; 赵亮 ; .采用改进Faster R-CNN的遥感图像目标检测方法.信号处理.2020,(08),全文. * |
杨国亮 ; 李放 ; 朱晨 ; 许楠 ; .改进MobileNetV2网络在遥感影像场景分类中的应用.遥感信息.2020,(01),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN117351354A (zh) | 2024-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mao et al. | Mini-YOLOv3: real-time object detector for embedded applications | |
CN111626300B (zh) | 基于上下文感知的图像语义分割模型的图像分割方法及建模方法 | |
CN110782462B (zh) | 一种基于双流特征融合的语义分割方法 | |
CN109816032B (zh) | 基于生成式对抗网络的无偏映射零样本分类方法和装置 | |
CN109492596B (zh) | 一种基于K-means聚类和区域推荐网络的行人检测方法及系统 | |
CN115171165A (zh) | 全局特征与阶梯型局部特征融合的行人重识别方法及装置 | |
CN110852256A (zh) | 时序动作提名的生成方法、装置、设备及存储介质 | |
CN113192073A (zh) | 基于交叉融合网络的服装语义分割方法 | |
CN113034506B (zh) | 遥感图像语义分割方法、装置、计算机设备和存储介质 | |
CN112348870A (zh) | 一种基于残差融合的显著性目标检测方法 | |
CN114387512B (zh) | 基于多尺度特征融合与增强的遥感影像建筑物提取方法 | |
CN112307048B (zh) | 语义匹配模型训练方法、匹配方法、装置、设备及存储介质 | |
CN109447897B (zh) | 一种真实场景图像合成方法及系统 | |
CN108304376A (zh) | 文本向量的确定方法、装置、存储介质及电子装置 | |
CN113269224A (zh) | 一种场景图像分类方法、系统及存储介质 | |
CN111353504B (zh) | 基于图像块多样性选择和残差预测模块的源相机识别方法 | |
CN112529862A (zh) | 一种交互循环特征重塑的显著性图像检测方法 | |
CN115147641A (zh) | 一种基于知识蒸馏和多模态融合的视频分类方法 | |
CN113761282B (zh) | 视频查重方法、装置、电子设备以及存储介质 | |
CN111582101B (zh) | 一种基于轻量化蒸馏网络的遥感图像目标检测方法及系统 | |
CN117809200A (zh) | 一种基于增强小目标特征提取的多尺度遥感图像目标检测方法 | |
CN117351354B (zh) | 基于改进MobileViT的轻量级遥感图像目标检测方法 | |
CN114565092A (zh) | 一种神经网络结构确定方法及其装置 | |
CN114494893B (zh) | 基于语义重用上下文特征金字塔的遥感图像特征提取方法 | |
CN116310328A (zh) | 基于跨图像相似度关系的语义分割知识蒸馏方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |