CN114913433A - 一种联合均衡特征和可变形卷积的多尺度目标检测方法 - Google Patents
一种联合均衡特征和可变形卷积的多尺度目标检测方法 Download PDFInfo
- Publication number
- CN114913433A CN114913433A CN202210548833.6A CN202210548833A CN114913433A CN 114913433 A CN114913433 A CN 114913433A CN 202210548833 A CN202210548833 A CN 202210548833A CN 114913433 A CN114913433 A CN 114913433A
- Authority
- CN
- China
- Prior art keywords
- feature
- target
- convolution
- target detection
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Astronomy & Astrophysics (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种联合均衡特征和可变形卷积的多尺度目标检测方法,该方法步骤如下:获取原始可见光遥感图像数据,建立包含目标位置、尺寸和类别信息的可见光遥感图像数据集;针对所构建的可见光遥感图像数据集进行数据增强;搭建基于自适应均衡特征增强和可变形卷积的目标检测模型;使用随机梯度下降算法在数据增强后的数据集上对目标检测模型进行训练;使用训练好的目标检测模型在测试集上进行测试,获得目标检测结果。本发明方法可以更好地适应目标的尺度、朝向和形状变化,同时有效提升了对小目标和密集目标的检测效果。
Description
技术领域
本发明涉及遥感图像处理、深度学习技术领域,特别是一种联合均衡特征和可变形卷积的多尺度目标检测方法。
背景技术
随着航空航天遥感技术的飞速发展,提供了海量的高分辨率遥感图像和丰富的信息对地球进行观测。作为遥感图像最主要的挑战和难点之一,目标自动检测技术由于其广泛的实际应用收到了广泛的关注,例如海洋救援、军事侦察和港口管理等。遥感图像与自然图像相比,由于观测角度、图像空间分辨率差异、目标本身的属性和地理环境影响等因素,遥感图像目标往往在尺度、方向、形状、外表、分布密集度等方面存在较大的差异,这些因素都在一定程度上影响了目标检测模型的检测精度。因此,需要一种能针对目标在尺度、方向、形状、外表方面的差异进行灵活采样并对特征进行自适应筛选的深度学习目标检测模型用于遥感图像多尺度目标检测。
已有相关的目标检测方法被陆续公开,例如专利CN112101153A公开了一种基于感受野模块与多重特征金字塔的目标检测方法,通过设计一种步长卷积特征金字塔对多尺度级联特征图进行特征优化,并结合感受野模块和优化后的特征图进一步对锚点进行优化,以实现对多尺度目标的检测。该发明直接在特征金字塔中对多尺度特征进行尺度变换和融合,对多尺度目标的检测性能有待提高。专利CN113177456A公开了一种基于多特征融合的光学遥感图像目标检测方法,针对深度卷积神经网络提取特征手段单一和不充分的问题,对于输入图像数据先提取数学形态学特征、线性尺度空间特征、非线性尺度空间特征,并将三种特征进行融合后输入深度卷积神经网络进行特征提取和预测目标检测结果。该发明将手工特征加入深度神经网络来改善网络性能的方式,对形状多变的多尺度目标的检测能力较差。
然而,以上基于深度卷积神经网络的方法一般是通过增强感受野和空间信息的方式优化卷积特征,或者结合传统手工特征对卷积网络的输入特征进行丰富,这样的方法没有提升深度卷积神经网络的采样方式,尤其是对于在尺度、方向、形状、外表方面具有显著差异的目标检测,从而影响了性能的提高。并且上述方法在进行不同尺度特征融合的过程中没有考虑到特征图的尺度关联性和不同尺度特征的重要程度,这同样会影响多尺度目标的检测效果。
发明内容
本发明的目的在于提供一种联合均衡特征和可变形卷积的多尺度目标检测方法,基于自适应均衡特征增强和可变形卷积进行遥感图像目标检测,通过全可变形卷积目标检测模型实现遥感图像多尺度目标检测。
实现本发明目的的技术解决方案为:一种联合均衡特征和可变形卷积的多尺度目标检测方法,包括以下步骤:
步骤1、获取原始可见光遥感图像数据,建立包含目标位置、尺寸和类别信息的可见光遥感图像数据集;
步骤2、针对所构建的可见光遥感图像数据集进行数据增强;
步骤3、搭建基于自适应均衡特征增强和可变形卷积的目标检测模型;
步骤4、使用随机梯度下降算法在数据增强后的数据集上对目标检测模型进行训练;
步骤5、使用训练好的目标检测模型在测试集上进行测试,获得目标检测结果。
本发明与现有技术相比,其显著优势为:(1)提出一种crop mosaic数据增强方法,在提升数据集泛化能力的同时有效保留了小目标的信息;(2)提出一种全可变形卷积的深度学习目标检测模型,具有更加灵活的采样方式,能更有效地提取遥感图像中的目标特征;(3)提供了一种均衡注意力特征增强方法,通过将所融合特征图的尺度间的联系转化为通道间的联系,然后依靠通道注意力指导生成自适应权重,从而实现多尺度特征的自适应加权融合,有效提升了目标检测模型对多尺度目标的检测能力。
附图说明
图1是本发明联合均衡特征和可变形卷积的多尺度目标检测方法的流程图。
图2是本发明全可变形卷积目标检测模型结构图。
图3是本发明特征融合模块结构图。
图4是本发明均衡注意力特征增强模块处理流程图。
图5是本发明在DOTA v1.5数据集上的目标检测结果图。
图6是本发明在DIOR数据集上的目标检测结果图。
具体实施方式
本发明提出了一种均衡注意力特征增强模块,基于通道注意力学习多尺度特征之间的非线性联系,并通过加权融合获得自适应均衡特征,有效提升了对多尺度目标的检测性能。本发明还提出了一种基于全可变形卷积的多尺度目标检测方法,通过将特征提取网络、特征融合部分和检测层的标准卷积全部替换为可变形卷积来提升网络模型的特征提取能力,有效改善了对形状多变的多尺度目标的检测能力。
本发明联合均衡特征和可变形卷积的多尺度目标检测方法,包括以下步骤:
步骤1、获取原始可见光遥感图像数据,建立包含目标位置、尺寸和类别信息的可见光遥感图像数据集;
步骤2、针对所构建的可见光遥感图像数据集进行数据增强;
步骤3、搭建基于自适应均衡特征增强和可变形卷积的目标检测模型;
步骤4、使用随机梯度下降算法在数据增强后的数据集上对目标检测模型进行训练;
步骤5、使用训练好的目标检测模型在测试集上进行测试,获得目标检测结果。
作为一种具体实施方式,步骤1所述获取原始可见光遥感图像数据,建立包含目标位置、尺寸和类别信息的可见光遥感图像数据集,具体如下:
从原始数据中筛选得到包含待检测目标的大幅宽可见光遥感图像,将得到的大幅宽可见光遥感图像按照1024×1024pixels的大小进行切片;切片过程中采用固定步长重叠切片的方式,重叠步长为256pixels,使切片边界处目标至少完整处于其中一个切片;对于原始图像边界处不满足切片大小的情况,通过填充0像素的方式进行补全;
对所获得的图像切片进行人工筛选,挑选出包含目标的样本切片,采用水平边界框对样本切片中的目标进行手工标注,记录目标中心点坐标(xc,yc)、边界框宽W、边界框高H和目标类别号Ci,存储在对应的XML标签文件中,图像与标签文件命名方式相同,为原始图像编号_切片编号_处理时间。
作为一种具体实施方式,步骤2所述针对所构建的可见光遥感图像数据集进行数据增强,具体如下:
在步骤1所构建的可见光遥感图像数据集的基础上,每次随机选取4张样本按照旋转、反转、拉伸、亮度平衡、huv色彩偏移的方式进行数据增强,然后按512×512pixels的大小随机截取每张样本中含有目标的区域,并对获得的4张512×512pixels的切片进行拼接,重新形成1024×1024pixels大小的图像数据;同时按照截取接片和拼接时的空间位置重新计算在拼接后形成的图像中每个目标的位置变化,生成新的标签文件;将数据增强后的可见光遥感图像数据集按照6:2:2的比例划分为训练集、验证集和测试集。
作为一种具体实施方式,步骤3所述搭建基于自适应均衡特征增强和可变形卷积的目标检测模型,模型结构如下:
(3a)第一部分为骨干网络模块,使用ResNet-50作为骨干网络,并将网络中的标准卷积层全部替换为可变形卷积层(Deformable Convolution Layer),搭建基于全可变形卷积的骨干网络FDC-ResNet-50,输入图像经过FDC-ResNet-50逐层提取多尺度特征;
(3b)第二部分为特征融合模块,骨干网络横向连接了由可变形卷积组成的路径聚合网络,该网络同时具有自上而下和自下而上的路径,用于对多尺度特征进行融合;
(3c)第三部分为均衡注意力特征增强模块,特征融合模块生成的融合特征横向连接了均衡注意力特征增强模块,将每种尺度的特征与邻近尺度特征通过通道注意力生成的自适应权重进行加权融合;
(3d)第四部分为检测推理模块,将VarifocalNet检测器中的标准卷积全部替换为可变形卷积得到检测推理模块,然后将增强后的特征输入到检测推理模块中生成预测框参数和目标类别信息。
作为一种具体实施方式,步骤(3a)中骨干网络FDC-ResNet-50输出5种尺度的特征图作为特征融合模块的输入,输出特征图大小分别是128×128、64×64、32×32、16×16和8×8。
作为一种具体实施方式,步骤(3b)中搭建了基于可变形卷积和路径聚合网络的特征融合模块,其中自下而上和自顶而下的特征传递过程采用最近邻线性插值缩放特征图尺度,每次缩放倍数为2,自下而上结构和自顶而下结构间的水平连接采用stride=1、size=3的可变形卷积,共输出5种尺度的特征图作为均衡注意力特征增强模块的输入,输出特征图大小分别是128×128、64×64、32×32、16×16和8×8。
作为一种具体实施方式,步骤(3c)中所搭建的均衡注意力特征增强模块水平连接在特征融合模块之后,根据当前处理特征图的尺度分为Type-A、Type-B和Type-C三种类型,其中:
均衡注意力特征增强模块Type-A用于增强输入特征图{P3,P4,P5,P6,P7}中最小尺度的特征图P7,首先对P6进行stride=2的最大值池化得到特征图P5先后经过stride=2的最大值池化以及stride=2的3×3卷积后得到特征图特征图P7传递给特征图来源于三种尺度的特征图在通道维度上进行融合,得到初步融合特征图其中W7、H7和C7分别为初步融合特征图G7的宽、高和通道数;
均衡注意力特征增强模块Type-B用于增强输入特征图{P3,P4,P5,P6,P7}里中间尺度的特征图Pi,i=4,5,6,首先对Pi-1进行stride=2的最大值池化得到特征图Pi+1先后经过线性插值进行上采样后得到特征图特征图Pi传递给特征图来源于三种尺度的特征图在通道维度上进行融合,得到初步融合特征图i=4,5,6,其中Wi、Hi和Ci分别为初步融合特征图Gi的宽、高和通道数;
均衡注意力特征增强模块Type-C用于增强输入特征图{P3,P4,P5,P6,P7}中最大尺度的特征图P3,首先对P4通过线性插值进行2倍上采样得到特征图P5通过线性插值进行2倍上采样得到特征图特征图P7传递给特征图来源于三种尺度的特征图在通道维度上进行融合,得到初步融合特征图其中W3、H3和C3分别为初步融合特征图G3的宽、高和通道数。
第一条支路依次通过卷积核数量为3的3×3卷积、全局平均池化层、卷积核数量为3r的1×1卷积、卷积核数量为3的1×1卷积、Sigmoid激活函数和Softmax函数,得到初步融合特征图Gi中来源于三种尺度的特征图的自适应权重系数[α,β,γ];
作为一种具体实施方式,步骤4所述使用随机梯度下降算法在数据增强后的数据集上对目标检测模型进行训练,具体如下:
前24个周期使用随机梯度下降算法在数据增强后的数据集上对目标检测模型进行训练,然后通过随机梯度平均(Stochastic Weights Averaging)算法继续训练12个周期得到最终的目标检测模型。
作为一种具体实施方式,步骤5所述使用训练好的目标检测模型在测试集上进行测试,获得目标检测结果,具体如下:
首先对原始遥感图像按照1024×1024pixels的大小进行切片,切片过程中采用固定步长重叠切片的方式,重叠步长为256pixels,以保证切片边界处目标至少完整处于其中一个切片;对于原始图像边界处不满足切片大小的情况,通过填充0像素的方式进行补全;
然后将切片图像分别输入步骤4中训练好的目标检测模型,得到初步的检测框信息和目标的类别信息;将各切片的检测框信息投影在原始遥感图像上,先对检测框进行置信度阈值筛选,置信度阈值设置为0.25;筛选得到的检测框通过非极大值抑制的方法过滤掉冗余的检测框,得到最终的目标检测结果并输出。
下面结合附图及具体实施例对本发明做进一步详细描述。
实施例
本发明提出一种联合均衡特征和可变形卷积的多尺度目标检测方法,具体实施流程如图1所示,分为以下步骤:
第一步:获取原始可见光遥感图像数据,建立包含目标位置、尺寸和类别信息的可见光遥感图像数据集,从中筛选得到包含待检测目标的大幅宽可见光遥感图像,将得到的大幅宽可见光遥感图像按照1024×1024pixels的大小进行切片。切片过程中采用固定步长重叠切片的方式,重叠步长为256pixels,以保证切片边界处目标至少完整处于其中一个切片。对于原始图像边界处不满足切片大小的情况,通过填充0像素的方式进行补全。然后,对所获得的图像切片进行人工筛选,挑选出包含目标的样本切片,采用水平边界框对样本切片中的目标进行手工标注,记录目标中心点坐标(xc,yc)、边界框宽W、边界框高H和目标类别号Ci,存储在对应的XML标签文件中,图像与标签文件命名方式相同,为“原始图像编号_切片编号_处理时间”。
第二步:针对所构建的可见光遥感图像数据集进行数据增强。在所构建的可见光遥感图像数据集的基础上,每次随机选取4张样本按照旋转、反转、拉伸、亮度平衡、huv色彩偏移等方式进行数据增强,然后按512×512pixels的大小随机截取每张样本中含有目标的区域,并对获得的4张512×512pixels的切片进行拼接,重新形成1024×1024pixels大小的图像数据。同时按照截取接片和拼接时的空间位置重新计算在拼接后形成的图像中每个目标的位置变化,生成新的标签文件。将数据增强后的可见光遥感图像数据集按照6:2:2的比例划分为训练集、验证集和测试集。
第三步:搭建基于自适应均衡特征增强和可变形卷积的目标检测模型,主要分为四个部分,具体结构和计算流程如图2所示。
第一部分为骨干网络模块,使用ResNet-50作为骨干网络,并将网络中的标准卷积层全部替换为可变形卷积层(Deformable Convolution Layer)搭建基于全可变形卷积的骨干网络FDC-ResNet-50,输入图像经过FDC-ResNet-50逐层提取多尺度特征,输出5种尺度的特征图作为特征融合模块的输入,输出特征图大小分别是128×128、64×64、32×32、16×16和8×8。
第二部分为特征融合模块,搭建了如图3所示的基于可变形卷积和路径聚合网络的特征融合模块,其中自下而上和自顶而下的特征传递过程采用最近邻线性插值缩放特征图尺度,每次缩放倍数为2,自下而上结构和自顶而下结构间的水平连接采用stride=1、size=3的可变形卷积,共输出5种尺度的特征图作为均衡注意力特征增强模块的输入,输出特征图大小分别是128×128、64×64、32×32、16×16和8×8。
第三部分为均衡注意力特征增强模块,特征融合模块生成的融合特征横向连接了均衡注意力特征增强模块,将每种尺度的特征与邻近尺度特征通过通道注意力生成的自适应权重进行加权融合。首先根据当前处理特征图的尺度分为Type-A、Type-B和Type-C三种类型,三种类型均衡注意力特征增强模块的具体结构和计算流程如图4所示。
均衡注意力特征增强模块Type-A用于增强输入特征图{P3,P4,P5,P6,P7}中最小尺度的特征图P7,首先对P6进行stride=2的最大值池化得到特征图P5先后经过stride=2的最大值池化以及stride=2的3×3卷积后得到特征图特征图P7传递给特征图来源于三种尺度的特征图在通道维度上进行融合,得到初步融合特征图其中W7、H7和C7分别为初步融合特征图G7的宽、高和通道数;
均衡注意力特征增强模块Type-B用于增强输入特征图{P3,P4,P5,P6,P7}里中间尺度的特征图Pi,i=4,5,6,首先对Pi-1进行stride=2的最大值池化得到特征图Pi+1先后经过线性插值进行上采样后得到特征图特征图Pi传递给特征图来源于三种尺度的特征图在通道维度上进行融合,得到初步融合特征图如下所示:i=4,5,6,其中Wi、Hi和Ci分别为初步融合特征图Gi的宽、高和通道数;
均衡注意力特征增强模块Type-C用于增强输入特征图{P3,P4,P5,P6,P7}中最大尺度的特征图P3,首先对P4通过线性插值进行2倍上采样得到特征图P5通过线性插值进行2倍上采样得到特征图特征图P7传递给特征图来源于三种尺度的特征图在通道维度上进行融合,得到初步融合特征图其中W3、H3和C3分别为初步融合特征图G3的宽、高和通道数。
在获取初步融合特征图i=3,4,5,6,7之后,分别经过两条支路:第一条支路依次通过卷积核数量为3的3×3卷积、全局平均池化层、卷积核数量为3r的1×1卷积、卷积核数量为3的1×1卷积、Sigmoid激活函数和Softmax函数,得到初步融合特征图Gi中来源于三种尺度的特征图的自适应权重系数[α,β,γ];第二条支路依次将初步融合特征图Gi中来源于三种尺度的特征图Hi与第一条支路得到的自适应权重系数[α,β,γ]分别加权,并通过逐像素相加的方式进行融合,即表示为然后经过一个3×3卷积得到自适应均衡特征图
第四部分为检测推理模块,将VarifocalNet检测器中的标准卷积全部替换为可变形卷积得到检测推理模块,然后将增强后的特征输入到检测推理模块中生成预测框参数和目标类别信息。
第四步:使用随机梯度下降算法在数据增强后的数据集上对目标检测模型进行训练。前24个周期使用随机梯度下降算法在数据增强后的数据集上对目标检测模型进行训练,然后通过随机梯度平均(Stochastic Weights Averaging)算法继续训练12个周期得到最终的目标检测模型。
第五步:使用训练好的目标检测模型在测试集上进行测试。首先对原始遥感图像按照1024×1024pixels的大小进行切片,切片过程中采用固定步长重叠切片的方式,重叠步长为256pixels,以保证切片边界处目标至少完整处于其中一个切片。对于原始图像边界处不满足切片大小的情况,通过填充0像素的方式进行补全。然后将切片图像分别输入步骤(4)中训练好的目标检测模型,得到初步的检测框信息和目标的类别信息。将各切片的检测框信息投影在原始遥感图像上,先对检测框进行置信度阈值筛选,置信度阈值设置为0.25。筛选得到的检测框通过非极大值抑制的方法过滤掉冗余的检测框,得到最终的目标检测结果并输出。
下面结合仿真实验对本发明的效果做进一步的说明:
一、仿真实验条件:
本发明的仿真实验的硬件平台为:CPU型号为Intel i7-7700K CPU,内存大小为32GB;GPU为NVIDIA GeForce GTX 1080Ti,显存大小为11GB。
本发明的仿真实验的软件平台为:操作系统为Ubuntu 16.04LTS,CUDA版本为10.1,Pytorch的版本为1.8.0。OpenCV版本为4.4.0。
实验使用的数据集为公开的遥感图像数据集DOTA v1.5和DIOR,采用其中包含舰船目标的样本图像,实验过程使用AP(Average Precision)作为评价指标。
二、仿真及实验结果
表1 DOTA v1.5数据集上的仿真实验结果对比
表2 DIOR数据集上的仿真实验结果对比
本发明所提出方法在在公开的遥感图像数据集DOTA v1.5和DIOR上的部分可视化测试结果分别如图5和图6所示,通过表1~表2的实验结果对比,可以看到本发明所提出的方法能有效提升对多尺度目标,尤其是小目标的检测精度。
本发明通过提供一种对于多尺度目标具有灵活采样能力和的深度学习目标检测模型和基于自适应均衡特征增强的多尺度特征加权融合方法,实现对于遥感图像多尺度目标的有效检测。
Claims (10)
1.一种联合均衡特征和可变形卷积的多尺度目标检测方法,其特征在于,包括以下步骤:
步骤1、获取原始可见光遥感图像数据,建立包含目标位置、尺寸和类别信息的可见光遥感图像数据集;
步骤2、针对所构建的可见光遥感图像数据集进行数据增强;
步骤3、搭建基于自适应均衡特征增强和可变形卷积的目标检测模型;
步骤4、使用随机梯度下降算法在数据增强后的数据集上对目标检测模型进行训练;
步骤5、使用训练好的目标检测模型在测试集上进行测试,获得目标检测结果。
2.根据权利要求1所述的联合均衡特征和可变形卷积的多尺度目标检测方法,其特征在于,步骤1所述获取原始可见光遥感图像数据,建立包含目标位置、尺寸和类别信息的可见光遥感图像数据集,具体如下:
从原始数据中筛选得到包含待检测目标的大幅宽可见光遥感图像,将得到的大幅宽可见光遥感图像按照1024×1024pixels的大小进行切片;切片过程中采用固定步长重叠切片的方式,重叠步长为256pixels,使切片边界处目标至少完整处于其中一个切片;对于原始图像边界处不满足切片大小的情况,通过填充0像素的方式进行补全;
对所获得的图像切片进行人工筛选,挑选出包含目标的样本切片,采用水平边界框对样本切片中的目标进行手工标注,记录目标中心点坐标(xc,yc)、边界框宽W、边界框高H和目标类别号Ci,存储在对应的XML标签文件中,图像与标签文件命名方式相同,为原始图像编号_切片编号_处理时间。
3.根据权利要求1所述的联合均衡特征和可变形卷积的多尺度目标检测方法,其特征在于,步骤2所述针对所构建的可见光遥感图像数据集进行数据增强,具体如下:
在步骤1所构建的可见光遥感图像数据集的基础上,每次随机选取4张样本按照旋转、反转、拉伸、亮度平衡、huv色彩偏移的方式进行数据增强,然后按512×512pixels的大小随机截取每张样本中含有目标的区域,并对获得的4张512×512pixels的切片进行拼接,重新形成1024×1024pixels大小的图像数据;同时按照截取接片和拼接时的空间位置重新计算在拼接后形成的图像中每个目标的位置变化,生成新的标签文件;将数据增强后的可见光遥感图像数据集按照6:2:2的比例划分为训练集、验证集和测试集。
4.根据权利要求1所述的联合均衡特征和可变形卷积的多尺度目标检测方法,其特征在于,步骤3所述搭建基于自适应均衡特征增强和可变形卷积的目标检测模型,模型结构如下:
(3a)第一部分为骨干网络模块,使用ResNet-50作为骨干网络,并将网络中的标准卷积层全部替换为可变形卷积层,搭建基于全可变形卷积的骨干网络FDC-ResNet-50,输入图像经过FDC-ResNet-50逐层提取多尺度特征;
(3b)第二部分为特征融合模块,骨干网络横向连接了由可变形卷积组成的路径聚合网络,该网络同时具有自上而下和自下而上的路径,用于对多尺度特征进行融合;
(3c)第三部分为均衡注意力特征增强模块,特征融合模块生成的融合特征横向连接了均衡注意力特征增强模块,将每种尺度的特征与邻近尺度特征通过通道注意力生成的自适应权重进行加权融合;
(3d)第四部分为检测推理模块,将VarifocalNet检测器中的标准卷积全部替换为可变形卷积得到检测推理模块,然后将增强后的特征输入到检测推理模块中生成预测框参数和目标类别信息。
5.根据权利要求4所述的联合均衡特征和可变形卷积的多尺度目标检测方法,其特征在于,步骤(3a)中骨干网络FDC-ResNet-50输出5种尺度的特征图作为特征融合模块的输入,输出特征图大小分别是128×128、64×64、32×32、16×16和8×8。
6.根据权利要求4所述的联合均衡特征和可变形卷积的多尺度目标检测方法,其特征在于,步骤(3b)中搭建了基于可变形卷积和路径聚合网络的特征融合模块,其中自下而上和自顶而下的特征传递过程采用最近邻线性插值缩放特征图尺度,每次缩放倍数为2,自下而上结构和自顶而下结构间的水平连接采用stride=1、size=3的可变形卷积,共输出5种尺度的特征图作为均衡注意力特征增强模块的输入,输出特征图大小分别是128×128、64×64、32×32、16×16和8×8。
7.根据权利要求4所述的联合均衡特征和可变形卷积的多尺度目标检测方法,其特征在于,步骤(3c)中所搭建的均衡注意力特征增强模块水平连接在特征融合模块之后,根据当前处理特征图的尺度分为Type-A、Type-B和Type-C三种类型,其中:
均衡注意力特征增强模块Type-A用于增强输入特征图{P3,P4,P5,P6,P7}中最小尺度的特征图P7,首先对P6进行stride=2的最大值池化得到特征图P5先后经过stride=2的最大值池化以及stride=2的3×3卷积后得到特征图特征图P7传递给特征图来源于三种尺度的特征图在通道维度上进行融合,得到初步融合特征图其中W7、H7和C7分别为初步融合特征图G7的宽、高和通道数;
均衡注意力特征增强模块Type-B用于增强输入特征图{P3,P4,P5,P6,P7}里中间尺度的特征图Pi,i=4,5,6,首先对Pi-1进行stride=2的最大值池化得到特征图Pi+1先后经过线性插值进行上采样后得到特征图特征图Pi传递给特征图来源于三种尺度的特征图在通道维度上进行融合,得到初步融合特征图其中Wi、Hi和Ci分别为初步融合特征图Gi的宽、高和通道数;
第一条支路依次通过卷积核数量为3的3×3卷积、全局平均池化层、卷积核数量为3r的1×1卷积、卷积核数量为3的1×1卷积、Sigmoid激活函数和Softmax函数,得到初步融合特征图Gi中来源于三种尺度的特征图的自适应权重系数[α,β,γ];
9.根据权利要求1所述的联合均衡特征和可变形卷积的多尺度目标检测方法,其特征在于,步骤4所述使用随机梯度下降算法在数据增强后的数据集上对目标检测模型进行训练,具体如下:
前24个周期使用随机梯度下降算法在数据增强后的数据集上对目标检测模型进行训练,然后通过随机梯度平均算法继续训练12个周期得到最终的目标检测模型。
10.根据权利要求1所述的联合均衡特征和可变形卷积的多尺度目标检测方法,其特征在于,步骤5所述使用训练好的目标检测模型在测试集上进行测试,获得目标检测结果,具体如下:
首先对原始遥感图像按照1024×1024pixels的大小进行切片,切片过程中采用固定步长重叠切片的方式,重叠步长为256pixels,以保证切片边界处目标至少完整处于其中一个切片;对于原始图像边界处不满足切片大小的情况,通过填充0像素的方式进行补全;
然后将切片图像分别输入步骤4中训练好的目标检测模型,得到初步的检测框信息和目标的类别信息;将各切片的检测框信息投影在原始遥感图像上,先对检测框进行置信度阈值筛选,置信度阈值设置为0.25;筛选得到的检测框通过非极大值抑制的方法过滤掉冗余的检测框,得到最终的目标检测结果并输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210548833.6A CN114913433A (zh) | 2022-05-20 | 2022-05-20 | 一种联合均衡特征和可变形卷积的多尺度目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210548833.6A CN114913433A (zh) | 2022-05-20 | 2022-05-20 | 一种联合均衡特征和可变形卷积的多尺度目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114913433A true CN114913433A (zh) | 2022-08-16 |
Family
ID=82769546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210548833.6A Pending CN114913433A (zh) | 2022-05-20 | 2022-05-20 | 一种联合均衡特征和可变形卷积的多尺度目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114913433A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117671509A (zh) * | 2024-02-02 | 2024-03-08 | 武汉卓目科技有限公司 | 遥感目标检测方法、装置、电子设备及存储介质 |
-
2022
- 2022-05-20 CN CN202210548833.6A patent/CN114913433A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117671509A (zh) * | 2024-02-02 | 2024-03-08 | 武汉卓目科技有限公司 | 遥感目标检测方法、装置、电子设备及存储介质 |
CN117671509B (zh) * | 2024-02-02 | 2024-05-24 | 武汉卓目科技有限公司 | 遥感目标检测方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN109191476A (zh) | 基于U-net网络结构的生物医学图像自动分割新方法 | |
CN110738697A (zh) | 基于深度学习的单目深度估计方法 | |
CN111523521A (zh) | 一种双支路融合多尺度注意神经网络的遥感图像分类方法 | |
CN110570363A (zh) | 基于带有金字塔池化与多尺度鉴别器的Cycle-GAN的图像去雾方法 | |
CN108764250B (zh) | 一种运用卷积神经网络提取本质图像的方法 | |
CN110647802A (zh) | 基于深度学习的遥感影像舰船目标检测方法 | |
CN111563408B (zh) | 多层次感知特征渐进自学习的高分辨率影像滑坡自动检测方法 | |
CN113297988B (zh) | 一种基于域迁移和深度补全的物体姿态估计方法 | |
CN111652864A (zh) | 一种基于条件式生成对抗网络的铸件缺陷图像生成方法 | |
CN105701493A (zh) | 基于阶层图形的图像提取以及前景估测的方法和系统 | |
CN110276363A (zh) | 一种基于密度图估计的鸟类小目标检测方法 | |
CN113610070A (zh) | 一种基于多源数据融合的滑坡灾害识别方法 | |
CN113449811A (zh) | 一种基于ms-wsda的低照度目标检测方法 | |
CN116168240A (zh) | 基于注意力增强的任意方向密集舰船目标检测方法 | |
CN116543227A (zh) | 基于图卷积网络的遥感图像场景分类方法 | |
CN116342536A (zh) | 基于轻量化模型的铝带材表面缺陷检测方法、系统及设备 | |
CN114913433A (zh) | 一种联合均衡特征和可变形卷积的多尺度目标检测方法 | |
CN111079807A (zh) | 一种地物分类方法及装置 | |
CN114663880A (zh) | 基于多层级跨模态自注意力机制的三维目标检测方法 | |
Cao et al. | Universal high spatial resolution hyperspectral imaging using hybrid-resolution image fusion | |
CN112818777B (zh) | 一种基于密集连接与特征增强的遥感图像目标检测方法 | |
CN112801195A (zh) | 一种基于深度学习的雾天能见度预测方法,存储装置及服务器 | |
CN113111740A (zh) | 一种遥感图像目标检测的特征编织方法 | |
CN115953330B (zh) | 虚拟场景图像的纹理优化方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |