CN117079139B - 一种基于多尺度语义特征的遥感图像目标检测方法及系统 - Google Patents
一种基于多尺度语义特征的遥感图像目标检测方法及系统 Download PDFInfo
- Publication number
- CN117079139B CN117079139B CN202311308244.1A CN202311308244A CN117079139B CN 117079139 B CN117079139 B CN 117079139B CN 202311308244 A CN202311308244 A CN 202311308244A CN 117079139 B CN117079139 B CN 117079139B
- Authority
- CN
- China
- Prior art keywords
- feature
- convolution
- scale
- module
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 89
- 230000004927 fusion Effects 0.000 claims abstract description 99
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000002372 labelling Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims description 35
- 230000008569 process Effects 0.000 claims description 29
- 238000004364 calculation method Methods 0.000 claims description 27
- 238000010586 diagram Methods 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000007634 remodeling Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 16
- 238000007499 fusion processing Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多尺度语义特征的遥感图像目标检测方法,包括:构建包括骨干网络、特征融合网络和检测头的目标检测模型;获取多个遥感图像,并将遥感图像输入至骨干网络,得到多个不同层级特征图;将不同层级特征图分别输入至特征融合网络,对应得到不同层级融合特征图;将不同层级融合特征图输入至检测头进行解耦,得到不同层级的预测目标结果;基于预测目标结果和目标真值标注结果联合损失函数对目标检测模型进行训练,得到训练好的目标检测模型;将待测遥感图像输入至训练好的目标检测模型,得到对应的目标检测结果。解决了传统方法中高级语义特征在特征融合阶段信息丢失和噪声引入问题,实现了遥感图像目标的精准识别。
Description
技术领域
本发明涉及图像处理技术领域,更具体的说是涉及一种基于多尺度语义特征的遥感图像目标检测方法及系统。
背景技术
目前,遥感图像在国防安全、环境监测、城市规划等领域具有广泛的应用前景;语义特征在遥感图像目标检测领域中具有重要意义,它包含了与图像中对象和场景相关的高级抽象信息,这些信息涵盖了对象的类别、形状、结构以及它们在环境中的位置和关系,此外,语义特征可以提供比低级特征(如颜色、纹理)更多的上下文信息,有助于更准确地理解图像内容。因此,在融合过程中有效利用高级语义特征,对于正确识别和定位遥感图像中的潜在的目标对象至关重要。
但是,当前的目标检测方法大多忽略了高级语义特征在融合过程中的信息丢失和噪声引入的问题,这使得目标检测的性能存在瓶颈。在深度学习模型中,深层特征图包含了丰富的语义信息,但分辨率较低且尺寸较小,在特征融合阶段,深层特征图需要与浅层特征图融合,但由于尺寸差异,通常需要进行插值操作,这导致了融合过程中信息丢失和噪声引入的问题,从而影响了特征融合的质量。
因此,如何解决传统方法中高级语义特征在特征融合阶段信息丢失和噪声引入问题,从而实现遥感图像目标精准识别是技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于多尺度语义特征的遥感图像目标检测方法及系统,解决了传统方法中高级语义特征在特征融合阶段信息丢失和噪声引入问题,实现了遥感图像目标的精准识别。
为了实现上述目的,本发明采用如下技术方案:
一种基于多尺度语义特征的遥感图像目标检测方法,包括:
构建包括骨干网络、特征融合网络和检测头的目标检测模型;
获取多个遥感图像,并将所述遥感图像输入至所述骨干网络,得到多个不同层级特征图;
将所述不同层级特征图分别输入至所述特征融合网络,对应得到不同层级融合特征图;
将所述不同层级融合特征图输入至所述检测头进行解耦,得到不同层级的预测目标结果;
基于所述预测目标结果和目标真值标注结果联合损失函数对所述目标检测模型进行训练,得到训练好的目标检测模型;
将待测遥感图像输入至所述训练好的目标检测模型,得到对应的目标检测结果。
优选的,所述不同层级特征图,具体包括:浅层级特征图、中层级特征图和高层级特征图;
所述中层级特征图是由所述浅层级特征图提取得到;
所述高层级特征图是由所述中层级特征图提取得到。
优选的,所述特征融合网络包括:第一多尺度语义特征注意力模块、第二多尺度语义特征注意力模块、第一级联卷积模块、第二级联卷积模块、第三级联卷积模块、第四级联卷积模块、第一卷积模块和第二卷积模块;
对应得到不同层级融合特征图的数据处理过程包括:
所述高层级特征图分别经过特征重塑运算和所述第一多尺度语义特征注意力模块处理后,共同与所述中层级特征图进行拼接融合,得到高-中融合输出特征图;
所述高-中融合输出特征图输入至所述第一级联卷积模块,得到提取特征图;
所述提取特征图分别经过所述第二多尺度语义特征注意力模块处理和特征重塑运算后,共同与所述浅层级特征图进行拼接融合,得到中-浅融合输出特征图;
所述中-浅融合输出特征图输入至所述第二级联卷积模块,得到浅层级融合特征图。
优选的,对应得到不同层级融合特征图的数据处理过程还包括:
所述浅层级融合特征图输入至所述第一卷积模块,得到第一卷积特征图;
所述第一卷积特征图与所述提取特征图进行拼接融合后输入至所述第三级联卷积模块,得到中层级融合特征图。
优选的,对应得到不同层级融合特征图的数据处理过程还包括:
所述中层级融合特征图输入至所述第二卷积模块,得到第二卷积特征图;
所述第二卷积特征图与所述高层级特征图进行拼接融合后输入至所述第四级联卷积模块,得到高层级融合特征图。
优选的,所述第一多尺度语义特征注意力模块和所述第二多尺度语义特征注意力模块结构相同,均包括:第一多尺度卷积、第二多尺度卷积、反卷积、第一点卷积和空间注意力模块;
所述第一多尺度语义特征注意力模块和所述第二多尺度语义特征注意力模块数据处理过程均为:
输入特征图分别输入至所述第一多尺度卷积和所述第二多尺度卷积进行特征提取,并根据不同的权重系数进行特征图融合,得到多尺度特征图,计算公式如下:
其中,和/>分别表示第一多尺度卷积多尺度特征提取操作和第二多尺度卷积多尺度特征提取操作,/>和/>分别表示第一多尺度卷积和第二多尺度卷积对应的特征图融合的可学习权重系数,input表示输入特征图;
将所述多尺度特征图依次输入至所述反卷积和所述第一点卷积,得到处理后的多尺度特征图;
所述输入特征图进行特征重塑运算,得到重塑特征图;
将所述处理后的多尺度特征图与所述重塑特征图进行拼接融合,得到输出特征图;
所述输出特征图输入至所述空间注意力模块,得到最终特征图。
优选的,所述第一多尺度卷积和所述第二多尺度卷积结构相同,均是由多个不同扩张系数的卷积组成;
数据处理过程均为:所述输入特征图分别输入至所述不同扩张系数的卷积,得到多个扩张卷积特征图,并将所述扩张卷积特征图相加,得到多尺度特征图,计算公式如下:
其中,表示扩张系数为d的卷积算子。
优选的,所述空间注意力模块数据处理过程为:
空间注意力模块通过空间信息编码的方式实现空间信息的整合,沿着水平和垂直两个维度聚合特征图特征,计算过程可形式化地表示为:
其中,H×W表示水平方向和垂直方向的特征维度,表示沿着水平和垂直两个维度聚合特征获得的特征信息,/>表示输入特征图在(i,j)空间位置的特征信息,/>表示经过计算获得的空间特征表示矩阵;
通过sigmoid激活函数和第二点卷积,将的空间信息进行特征映射,得到变换权重矩阵/>,计算过程可形式化地表示为:
其中,表示sigmoid激活函数操作,/>表示第二点卷积处理操作;
通过对进行水平方向和垂直方向的分解可以获得/>和/>,/>和分别表示变换权重矩阵在(i,j)空间位置对应的水平方向i和垂直方向j的变换权重信息,采用矩阵相乘的形式得到输出特征图/>,/>在(i,j)空间位置的特征信息/>,计算公式如下:
。
优选的,所述损失函数由焦点损失和旋转框交并比损失组成;所述预测目标结果包括:预测目标类别信息和预测目标位置信息。
一种基于多尺度语义特征的遥感图像目标检测系统,包括:模型构建模块、特征图提取模块、解耦模块、模型训练模块和结果输出模块;
所述模型构建模块,用于构建包括骨干网络、特征融合网络和检测头的目标检测模型;
所述特征图提取模块,用于获取多个遥感图像;将所述遥感图像输入至所述骨干网络,得到多个不同层级特征图;将所述不同层级特征图分别输入至所述特征融合网络,对应得到不同层级融合特征图;
所述解耦模块,用于将所述不同层级融合特征图输入至所述检测头进行解耦,得到不同层级的预测目标结果;
所述模型训练模块,用于基于所述预测目标结果和目标真值标注结果联合损失函数对所述目标检测模型进行训练,得到训练好的目标检测模型;
所述结果输出模块,用于将待测遥感图像输入至所述训练好的目标检测模型,得到对应的目标检测结果。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于多尺度语义特征的遥感图像目标检测方法及系统,通过设计一种多尺度语义特征注意力模块解决语义特征在特征融合阶段信息丢失和噪声引入问题,进一步设计基于语义特征注意力模块的特征融合网络,有效地提高了遥感图像目标检测的性能,有益效果如下:
1、本发明提出的多尺度语义特征注意力模块能够有效提取输入图像的多尺度语义特征信息,帮助目标检测模型更准确地理解图像内容,正确识别和定位遥感图像中的潜在的目标。
2、本发明通过结合多尺度语义特征注意力融合网络的目标检测模型,能够在特征融合阶段充分融合不同层级的语义特征信息,有效解决了当前的目标检测方法忽略了高级语义特征在融合过程中的信息丢失和噪声引入的问题,从而实现遥感图像目标的精准识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的目标检测方法流程图。
图2为本发明提供的融合特征网络结构示意图。
图3为本发明提供的多尺度语义特征注意力模块结构示意图。
图4为本发明提供的目标检测系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本发明实施例公开了一种基于多尺度语义特征的遥感图像目标检测方法,包括:
构建包括骨干网络、特征融合网络和检测头的目标检测模型;
获取多个遥感图像,并将遥感图像输入至骨干网络,得到多个不同层级特征图;
将不同层级特征图分别输入至特征融合网络,对应得到不同层级融合特征图;
将不同层级融合特征图输入至检测头进行解耦,得到不同层级的预测目标结果;
基于预测目标结果和目标真值标注结果联合损失函数对目标检测模型进行训练,得到训练好的目标检测模型;
将待测遥感图像输入至训练好的目标检测模型,得到对应的目标检测结果。
实施例2
构建包括骨干网络、特征融合网络和检测头的目标检测模型。
获取多个遥感图像,并对遥感图像进行目标标注,得到目标真值标注结果。
将遥感图像输入至骨干网络,得到多个不同层级特征图。
优选的,骨干网络由传统的卷积神经网络组成,卷积神经网络一般由特征提取块堆叠构成,每个特征提取块内包含卷积算子和归一化算子以及激活函数算子等。深层卷积神经网络通过深层堆叠特征提取块以获得不同尺度的特征图并提取更高维度的特征信息。
优选的,本实施例可适配典型通用骨干网络架构,如ResNet,VGG,CSPNext等卷积神经网络。在实施例中,定义骨干网络的最后三层特征图按照相对深度的不同分别命名为浅层级特征图、中层级特征图和高层级特征图,以方便进行后续融合运算。
优选的,不同层级特征图,具体包括:浅层级特征图、中层级特征图和高层级特征图;中层级特征图是由浅层级特征图提取得到;高层级特征图是由中层级特征图提取得到。
将不同层级特征图分别输入至特征融合网络,对应得到不同层级融合特征图。
优选的,如图2所示,特征融合网络包括:第一多尺度语义特征注意力模块、第二多尺度语义特征注意力模块、第一级联卷积模块、第二级联卷积模块、第三级联卷积模块、第四级联卷积模块、第一卷积模块和第二卷积模块;
对应得到不同层级融合特征图的数据处理过程包括:
高层级特征图分别经过特征重塑运算和第一多尺度语义特征注意力模块处理后,共同与中层级特征图/>进行拼接融合,得到高-中融合输出特征图/>,计算公式如下:
其中,表示特征拼接融合操作,/>表示特征重塑运算,采用插值采样的方式进行特征图形状调整,以保证待融合特征图的尺寸一致,/>表示第一多尺度语义特征注意力模块处理操作;
高-中融合输出特征图输入至第一级联卷积模块/>,得到提取特征图/>,,其中,/>表示第一级联卷积模块处理操作;
提取特征图分别经过第二多尺度语义特征注意力模块/>处理和特征重塑运算后,共同与浅层级特征图/>进行拼接融合,得到中-浅融合输出特征图/>,计算公式如下:
其中,表示第二多尺度语义特征注意力模块处理操作;
中-浅融合输出特征图输入至第二级联卷积模块/>,得到浅层级融合特征图/>,/>,其中,/>表示第二级联卷积模块处理操作。
优选的,对应得到不同层级融合特征图的数据处理过程还包括:
浅层级融合特征图输入至第一卷积模块/>,得到第一卷积特征图;
第一卷积特征图与提取特征图进行拼接融合后输入至第三级联卷积模块,得到中层级融合特征图/>,计算公式如下:
其中,表示第三级联卷积模块处理操作,/>表示第一卷积模块处理操作。
优选的,对应得到不同层级融合特征图的数据处理过程还包括:
中层级融合特征图输入至第二卷积模块/>,得到第二卷积特征图;
第二卷积特征图与高层级特征图进行拼接融合后输入至第四级联卷积模块,得到高层级融合特征图/>,计算公式如下:
其中,表示第四级联卷积模块处理操作,/>表示第二卷积模块处理操作。
优选的,第一多尺度语义特征注意力模块和第二多尺度语义特征注意力模块/>的结构相同,数据处理过程也相同;第一级联卷积模块/>、第二级联卷积模块/>、第三级联卷积模块/>和第四级联卷积模块/>的结构均相同,处理数据的过程也相同;第一卷积模块/>和第二卷积模块/>的结构相同,处理数据的过程也相同。
优选的,如图3所示,第一多尺度语义特征注意力模块和第二多尺度语义特征注意力模块/>均包括:第一多尺度卷积/>、第二多尺度卷积、反卷积/>、第一点卷积/>和空间注意力模块CA;
第一多尺度语义特征注意力模块和第二多尺度语义特征注意力模块数据处理过程均为:
输入特征图input分别输入至第一多尺度卷积和第二多尺度卷积进行特征提取,并根据不同的权重系数进行特征图融合,得到多尺度特征图/>,计算公式如下:
其中,和/>分别表示第一多尺度卷积多尺度特征提取操作和第二多尺度卷积多尺度特征提取操作,/>和/>分别表示第一多尺度卷积和第二多尺度卷积对应的特征图融合的可学习权重系数;
将多尺度特征图依次输入至反卷积/>和第一点卷积/>,得到处理后的多尺度特征图;
输入特征图input进行特征重塑运算,得到重塑特征图;
将处理后的多尺度特征图与重塑特征图进行拼接融合,得到输出特征图,计算公式如下:
其中,表示反卷积操作,/>表示第一点卷积处理操作;
输出特征图输入至空间注意力模块CA,得到最终特征图,/>,其中,/>表示空间注意力模块处理操作。
优选的,选取高性能特征融合网络CSPNeXtPAFPN作为基线模型,并在特征融合网络CSPNeXtPAFPN中引入多尺度语义特征注意力模块,能够辅助浅层模型获取多尺度语义特征,提升特征融合网络的融合质量,解决语义特征在特征融合阶段信息丢失和噪声引入问题,进一步提高了遥感图像目标检测的性能。
优选的,反卷积由m个尺寸为5×5的卷积算子组成,通过较大的扩张率和填充率设置来扩大特征图的规模;第一点卷积/>由n个尺寸为1×1的卷积算子组成,用于将特征图的通道数调整为n;空间注意力模块CA能够提升语义特征信息的质量,降低噪声干扰。
优选的,在得到多尺度特征图后,分别输入至反卷积/>和第一点卷积对应进行尺寸变换和通道变换,以得到合适大小的特征图,避免了语义特征在特征融合阶段信息丢失和噪声引入的问题。
优选的,第一多尺度卷积和第二多尺度卷积/>结构相同,均是由多个不同扩张系数的卷积组成;
数据处理过程均为:输入特征图input分别输入至不同扩张系数的卷积,得到多个扩张卷积特征图,并将扩张卷积特征图相加,得到多尺度特征图,计算公式如下:
其中,表示扩张系数为d的卷积算子。
优选的,多尺度卷积PSConv通过将不同感受野下的扩张卷积特征图进行相加,获得到目标的多尺度特征信息。
优选的,空间注意力模块CA数据处理过程为:
空间注意力模块通过空间信息编码的方式实现空间信息的整合,沿着水平和垂直两个维度聚合特征图特征,计算过程可形式化地表示为:
其中,H×W表示水平方向和垂直方向的特征维度,表示沿着水平和垂直两个维度聚合特征获得的特征信息,/>表示输入特征图在(i,j)空间位置的特征信息,/>表示经过计算获得的空间特征表示矩阵;
通过sigmoid激活函数和第二点卷积,将的空间信息进行特征映射,得到变换权重矩阵/>,计算过程可形式化地表示为:
其中,表示sigmoid激活函数操作,/>表示第二点卷积处理操作;
通过对进行水平方向和垂直方向的分解可以获得/>和/>,/>和分别表示变换权重矩阵在(i,j)空间位置对应的水平方向i和垂直方向j的变换权重信息,采用矩阵相乘的形式得到输出特征图/>,/>在(i,j)空间位置的特征信息/>,计算公式如下:
;
空间注意力模块对输入数据的空间特征进行权重计算,进而提高特征信息的价值,降低噪声的干扰。至此,多尺度语义特征注意力模块SFAM全部搭建完成。
优选的,空间注意力模块CA通过通道注意力编码空间信息的方式实现空间信息的整合,经过空间特征矩阵和原始特征图的计算变换,可以有效提取高价值的多尺度特征信息,过滤掉融合后特征图因尺寸变化而产生的噪声干扰,最终采用矩阵相乘的形式,对输入数据进行注意力机制计算,进而提高特征信息的价值,降低噪声的干扰。
将不同层级融合特征图输入至检测头进行解耦,得到不同层级的预测目标结果。
优选的,预测目标结果包括:预测目标类别信息和预测目标位置信息/>,计算公式如下:
其中,表示分类函数,/>表示位置回归函数,/>表示待解耦的第i层级融合特征图,包括浅层级融合特征图/>、中层级融合特征图/>和高层级融合特征图/>。
基于预测目标结果和目标真值标注结果联合损失函数对目标检测模型进行训练,得到训练好的目标检测模型。
优选的,损失函数由焦点损失函数FocalLoss和旋转框交并比损失函数RotatedIoULoss组成,损失函数Loss为:
其中,和/>分别表示预测目标结果和目标真值标注结果。
优选的,目标检测模型训练至损失不再下降,则表示目标检测模型训练达到稳定,训练过程结束,得到训练好的目标检测模型。
将待测遥感图像输入至训练好的目标检测模型,得到对应的目标检测结果。
实施例3
如图4所示,一种基于多尺度语义特征的遥感图像目标检测系统,包括:模型构建模块、特征图提取模块、解耦模块、模型训练模块和结果输出模块;
模型构建模块,用于构建包括骨干网络、特征融合网络和检测头的目标检测模型;
特征图提取模块,用于获取多个遥感图像;将遥感图像输入至骨干网络,得到多个不同层级特征图;将不同层级特征图分别输入至特征融合网络,对应得到不同层级融合特征图;
解耦模块,用于将不同层级融合特征图输入至检测头进行解耦,得到不同层级的预测目标结果;
模型训练模块,用于基于预测目标结果和目标真值标注结果联合损失函数对目标检测模型进行训练,得到训练好的目标检测模型;
结果输出模块,用于将待测遥感图像输入至训练好的目标检测模型,得到对应的目标检测结果。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于多尺度语义特征的遥感图像目标检测方法及系统,通过设计一种多尺度语义特征注意力模块解决语义特征在特征融合阶段信息丢失和噪声引入问题,进一步设计基于语义特征注意力模块的特征融合网络,有效地提高了遥感图像目标检测的性能,有益效果如下:
1、本发明提出的多尺度语义特征注意力模块能够有效提取输入图像的多尺度语义特征信息,帮助目标检测模型更准确地理解图像内容,正确识别和定位遥感图像中的潜在的目标。
2、本发明通过结合多尺度语义特征注意力融合网络的目标检测模型,能够在特征融合阶段充分融合不同层级的语义特征信息,有效解决了当前的目标检测方法忽略了高级语义特征在融合过程中的信息丢失和噪声引入的问题,从而实现遥感图像目标的精准识别。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (7)
1.一种基于多尺度语义特征的遥感图像目标检测方法,其特征在于,包括:
构建包括骨干网络、特征融合网络和检测头的目标检测模型;
获取多个遥感图像,并将所述遥感图像输入至所述骨干网络,得到多个不同层级特征图;
将所述不同层级特征图分别输入至所述特征融合网络,对应得到不同层级融合特征图;
将所述不同层级融合特征图输入至所述检测头进行解耦,得到不同层级的预测目标结果;
基于所述预测目标结果和目标真值标注结果联合损失函数对所述目标检测模型进行训练,得到训练好的目标检测模型;
将待测遥感图像输入至所述训练好的目标检测模型,得到对应的目标检测结果;
所述不同层级特征图,具体包括:浅层级特征图、中层级特征图和高层级特征图;
所述中层级特征图是由所述浅层级特征图提取得到;
所述高层级特征图是由所述中层级特征图提取得到;
所述特征融合网络包括:第一多尺度语义特征注意力模块、第二多尺度语义特征注意力模块、第一级联卷积模块、第二级联卷积模块、第三级联卷积模块、第四级联卷积模块、第一卷积模块和第二卷积模块;
对应得到不同层级融合特征图的数据处理过程包括:
所述高层级特征图分别经过特征重塑运算和所述第一多尺度语义特征注意力模块处理后,共同与所述中层级特征图进行拼接融合,得到高-中融合输出特征图;
所述高-中融合输出特征图输入至所述第一级联卷积模块,得到提取特征图;
所述提取特征图分别经过所述第二多尺度语义特征注意力模块处理和特征重塑运算后,共同与所述浅层级特征图进行拼接融合,得到中-浅融合输出特征图;
所述中-浅融合输出特征图输入至所述第二级联卷积模块,得到浅层级融合特征图;
所述第一多尺度语义特征注意力模块和所述第二多尺度语义特征注意力模块结构相同,均包括:第一多尺度卷积、第二多尺度卷积、反卷积、第一点卷积和空间注意力模块;
所述第一多尺度语义特征注意力模块和所述第二多尺度语义特征注意力模块数据处理过程均为:
输入特征图分别输入至所述第一多尺度卷积和所述第二多尺度卷积进行特征提取,并根据不同的权重系数进行特征图融合,得到多尺度特征图F1,计算公式如下:
F1=Concat(W1·PSConv1(input)+W2·PSConv2(input))
其中,PSConv1(·)和PSConv2(·)分别表示第一多尺度卷积多尺度特征提取操作和第二多尺度卷积多尺度特征提取操作,W1和W2分别表示第一多尺度卷积和第二多尺度卷积对应的特征图融合的可学习权重系数,input表示输入特征图;
将所述多尺度特征图依次输入至所述反卷积和所述第一点卷积,得到处理后的多尺度特征图;
所述输入特征图进行特征重塑运算,得到重塑特征图;
将所述处理后的多尺度特征图与所述重塑特征图进行拼接融合,得到输出特征图;
所述输出特征图输入至所述空间注意力模块,得到最终特征图。
2.根据权利要求1所述的一种基于多尺度语义特征的遥感图像目标检测方法,其特征在于,对应得到不同层级融合特征图的数据处理过程还包括:
所述浅层级融合特征图输入至所述第一卷积模块,得到第一卷积特征图;
所述第一卷积特征图与所述提取特征图进行拼接融合后输入至所述第三级联卷积模块,得到中层级融合特征图。
3.根据权利要求2所述的一种基于多尺度语义特征的遥感图像目标检测方法,其特征在于,对应得到不同层级融合特征图的数据处理过程还包括:
所述中层级融合特征图输入至所述第二卷积模块,得到第二卷积特征图;
所述第二卷积特征图与所述高层级特征图进行拼接融合后输入至所述第四级联卷积模块,得到高层级融合特征图。
4.根据权利要求1所述的一种基于多尺度语义特征的遥感图像目标检测方法,其特征在于,所述第一多尺度卷积和所述第二多尺度卷积结构相同,均是由多个不同扩张系数的卷积组成;
数据处理过程均为:所述输入特征图分别输入至所述不同扩张系数的卷积,得到多个扩张卷积特征图,并将所述扩张卷积特征图相加,得到多尺度特征图PSConv(input),计算公式如下:
PSConv(input)=Convd=1(input)+Convd=2(input)+Convd=4(input)
其中,Convd表示扩张系数为d的卷积算子。
5.根据权利要求4所述的一种基于多尺度语义特征的遥感图像目标检测方法,其特征在于,所述空间注意力模块数据处理过程为:
空间注意力模块通过空间信息编码的方式实现空间信息的整合,沿着水平和垂直两个维度聚合特征图特征,计算过程可形式化地表示为:
其中,H×W表示水平方向和垂直方向的特征维度,表示沿着水平和垂直两个维度聚合特征获得的特征信息,Xc(i,j)表示输入特征图在(i,j)空间位置的特征信息,Zc表示经过计算获得的空间特征表示矩阵;
通过sigmoid激活函数和第二点卷积,将Zc的空间信息进行特征映射,得到变换权重矩阵Ah,w,计算过程可形式化地表示为:
Ah,w=sigmod(Conv21*1(Zc))
其中,sigmod(·)表示sigmoid激活函数操作,Conv21*1表示第二点卷积处理操作;
通过对Ah,w进行水平方向和垂直方向的分解可以获得Ah和Aw,Ah(i)和Aw(i)分别表示变换权重矩阵在(i,j)空间位置对应的水平方向i和垂直方向j的变换权重信息,采用矩阵相乘的形式得到输出特征图Yc,Yc在(i,j)空间位置的特征信息Yc(i,j),计算公式如下:
Yc(i,j)=Xc(i,j)*Ah(i)*Aw(j)。
6.根据权利要求1所述的一种基于多尺度语义特征的遥感图像目标检测方法,其特征在于,所述损失函数由焦点损失和旋转框交并比损失组成;所述预测目标结果包括:预测目标类别信息和预测目标位置信息。
7.一种基于多尺度语义特征的遥感图像目标检测系统,其特征在于,包括:模型构建模块、特征图提取模块、解耦模块、模型训练模块和结果输出模块;
所述模型构建模块,用于构建包括骨干网络、特征融合网络和检测头的目标检测模型;
所述特征图提取模块,用于获取多个遥感图像;将所述遥感图像输入至所述骨干网络,得到多个不同层级特征图;将所述不同层级特征图分别输入至所述特征融合网络,对应得到不同层级融合特征图;
所述解耦模块,用于将所述不同层级融合特征图输入至所述检测头进行解耦,得到不同层级的预测目标结果;
所述模型训练模块,用于基于所述预测目标结果和目标真值标注结果联合损失函数对所述目标检测模型进行训练,得到训练好的目标检测模型;
所述结果输出模块,用于将待测遥感图像输入至所述训练好的目标检测模型,得到对应的目标检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311308244.1A CN117079139B (zh) | 2023-10-11 | 2023-10-11 | 一种基于多尺度语义特征的遥感图像目标检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311308244.1A CN117079139B (zh) | 2023-10-11 | 2023-10-11 | 一种基于多尺度语义特征的遥感图像目标检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117079139A CN117079139A (zh) | 2023-11-17 |
CN117079139B true CN117079139B (zh) | 2023-12-29 |
Family
ID=88711898
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311308244.1A Active CN117079139B (zh) | 2023-10-11 | 2023-10-11 | 一种基于多尺度语义特征的遥感图像目标检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117079139B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117686691B (zh) * | 2024-02-01 | 2024-04-26 | 江苏嘉通能源有限公司 | 一种基于张力分析的涤锦复合丝质量检测方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115546171A (zh) * | 2022-10-18 | 2022-12-30 | 四川大学 | 一种基于关注阴影边界和特征校正的阴影检测方法及设备 |
CN115880346A (zh) * | 2023-02-10 | 2023-03-31 | 耕宇牧星(北京)空间科技有限公司 | 一种基于深度学习的可见光遥感图像精确配准方法 |
CN116188996A (zh) * | 2023-04-18 | 2023-05-30 | 重庆邮电大学 | 一种多尺度语义信息和边界信息的遥感图像语义分割方法 |
CN116341620A (zh) * | 2023-03-01 | 2023-06-27 | 中南民族大学 | 基于ERetinaNet的高效神经网络架构方法及系统 |
CN116468740A (zh) * | 2023-04-26 | 2023-07-21 | 重庆理工大学 | 一种图像语义分割模型及分割方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013109957A1 (en) * | 2012-01-18 | 2013-07-25 | University Of Utah Research Foundation | Devices and systems for fluorescence imaging of tissue |
-
2023
- 2023-10-11 CN CN202311308244.1A patent/CN117079139B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115546171A (zh) * | 2022-10-18 | 2022-12-30 | 四川大学 | 一种基于关注阴影边界和特征校正的阴影检测方法及设备 |
CN115880346A (zh) * | 2023-02-10 | 2023-03-31 | 耕宇牧星(北京)空间科技有限公司 | 一种基于深度学习的可见光遥感图像精确配准方法 |
CN116341620A (zh) * | 2023-03-01 | 2023-06-27 | 中南民族大学 | 基于ERetinaNet的高效神经网络架构方法及系统 |
CN116188996A (zh) * | 2023-04-18 | 2023-05-30 | 重庆邮电大学 | 一种多尺度语义信息和边界信息的遥感图像语义分割方法 |
CN116468740A (zh) * | 2023-04-26 | 2023-07-21 | 重庆理工大学 | 一种图像语义分割模型及分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117079139A (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109190752B (zh) | 基于深度学习的全局特征和局部特征的图像语义分割方法 | |
CN110533084B (zh) | 一种基于自注意力机制的多尺度目标检测方法 | |
US11200424B2 (en) | Space-time memory network for locating target object in video content | |
WO2021244621A1 (zh) | 基于全局引导选择性上下文网络的场景语义解析方法 | |
CN103700099B (zh) | 一种旋转和尺度不变的宽基线立体匹配方法 | |
CN110874566B (zh) | 生成数据集的方法及装置、利用其的学习方法及学习装置 | |
CN117079139B (zh) | 一种基于多尺度语义特征的遥感图像目标检测方法及系统 | |
CN111709313B (zh) | 基于局部和通道组合特征的行人重识别方法 | |
CN111768415A (zh) | 一种无量化池化的图像实例分割方法 | |
CN112861785B (zh) | 一种基于实例分割和图像修复的带遮挡行人重识别方法 | |
CN112990065A (zh) | 一种基于优化的YOLOv5模型的车辆分类检测方法 | |
CN116524189A (zh) | 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法 | |
CN110852292A (zh) | 一种基于跨模态多任务深度度量学习的草图人脸识别方法 | |
CN112733861B (zh) | 基于u型残差网络的文本擦除和抠字方法 | |
Shit et al. | An encoder‐decoder based CNN architecture using end to end dehaze and detection network for proper image visualization and detection | |
CN111612803B (zh) | 一种基于图像清晰度的车辆图像语义分割方法 | |
CN116229406B (zh) | 车道线检测方法、系统、电子设备及存储介质 | |
CN111160282B (zh) | 一种基于二值化Yolov3网络的红绿灯检测方法 | |
CN116994164A (zh) | 一种多模态航拍图像融合与目标检测联合学习方法 | |
CN116778164A (zh) | 一种基于多尺度结构改进DeeplabV3+网络的语义分割方法 | |
CN114998630B (zh) | 一种从粗到精的地对空图像配准方法 | |
CN116310128A (zh) | 基于实例分割与三维重建的动态环境单目多物体slam方法 | |
CN115761888A (zh) | 基于nl-c3d模型的塔吊操作人员异常行为检测方法 | |
CN113269734B (zh) | 一种基于元学习特征融合策略的肿瘤图像检测方法及装置 | |
CN112487927B (zh) | 一种基于物体关联注意力的室内场景识别实现方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |