CN117079132A - 基于高斯距离损失的遥感图像目标检测方法 - Google Patents
基于高斯距离损失的遥感图像目标检测方法 Download PDFInfo
- Publication number
- CN117079132A CN117079132A CN202311072122.7A CN202311072122A CN117079132A CN 117079132 A CN117079132 A CN 117079132A CN 202311072122 A CN202311072122 A CN 202311072122A CN 117079132 A CN117079132 A CN 117079132A
- Authority
- CN
- China
- Prior art keywords
- network
- target
- remote sensing
- feature
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 129
- 238000000034 method Methods 0.000 claims abstract description 85
- 238000009826 distribution Methods 0.000 claims abstract description 61
- 230000007246 mechanism Effects 0.000 claims abstract description 39
- 230000004927 fusion Effects 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims description 100
- 238000013528 artificial neural network Methods 0.000 claims description 59
- 230000008569 process Effects 0.000 claims description 53
- 230000006870 function Effects 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000011176 pooling Methods 0.000 claims description 19
- 238000010586 diagram Methods 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000011156 evaluation Methods 0.000 claims description 11
- 230000009467 reduction Effects 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 9
- 238000002360 preparation method Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 238000013461 design Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 4
- 230000009182 swimming Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000004321 preservation Methods 0.000 claims description 3
- 238000011524 similarity measure Methods 0.000 claims description 3
- 238000004132 cross linking Methods 0.000 claims 1
- 101100272279 Beauveria bassiana Beas gene Proteins 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于高斯距离损失的遥感图像目标检测方法,利用注意力机制,使网络能够自适应地加强或抑制特征图中的某些通道和区域,使用BiFPN作为特征融合金字塔,使网络利用上下文信息,融合不同尺度的图像特征,自适应权重充分学习到各种目标的特征,使网络适应不同场景和特征,通过引入高斯分布的Wasserstein距离作为矩形框损失,在真实框与预测框完全不重合的情况下计算出相似性,从而提升学习效率和检测准确率。本发明解决了现有技术中存在的传统方法对遥感图像目标检测的效率低下和精度不高的问题,能够克服传统方法的局限性,实现更加准确和鲁棒的遥感图像目标检测。
Description
技术领域
本发明属于图像处理技术领域,具体涉及一种基于高斯距离损失的遥感图像目标检测方法。
背景技术
遥感图像目标检测广泛应用于土地利用、环境监测、城市规划等领域。然而,遥感图像中存在大量小目标和样本不均衡的问题,这就给目标检测和分类任务带来了困难。
目前已有一些方法尝试解决这些问题,如基于普通卷积网络的目标检测算法。然而,由于遥感图像中的小目标(如建筑物、车辆、树木等)尺寸相对较小,存在与背景相似度高、形状变化多样等问题,传统的目标检测方法往往无法准确地定位和识别这些小目标。此外,由于地面目标本身存在数量不均衡和数据采集标注成本较高的问题,导致数据集中某些样本(例如车辆目标的数量远多于跑道、足球场等目标)的数量较少,从而造成了样本不均衡的问题。所以目前使用深度卷积网络提取特征的方法对遥感图像进行目标检测的精度较低。
发明内容
本发明的目的是提供一种基于高斯距离损失的遥感图像目标检测方法,解决了现有技术中存在的传统方法对遥感图像目标检测的效率低下和精度不高的问题,能够克服传统方法的局限性,实现更加准确和鲁棒的遥感图像目标检测。
本发明所采用的技术方案是,基于高斯距离损失的遥感图像目标检测方法,利用注意力机制,使网络能够自适应地加强或抑制特征图中的某些通道和区域,使用BiFPN作为特征融合金字塔,使网络利用上下文信息,融合不同尺度的图像特征,自适应权重充分学习到各种目标的特征,使网络适应不同场景和特征,通过引入高斯分布的Wasserstein距离作为矩形框损失,在真实框与预测框完全不重合的情况下计算出相似性,从而提升学习效率和检测准确率。
本发明的特点还在于,
具体按照以下步骤实施:
步骤1、数据准备:
将遥感图像数据集按照6:2:2的比例划分为训练集、验证集和测试集,确保数据集中包含各种场景和目标物体的样本,并对训练集进行图像预处理操作,包括图像增强、统一尺寸,以便进行后续训练;
步骤2、网络结构设计:
设计神经网络结构,将注意力机制、特征金字塔和自适应权重整合到神经网络中,神经网络的输入为所述步骤1预处理之后的遥感图像,输出为目标检测结果,包括目标的位置信息和类别信息;
步骤3、注意力机制引入:
在神经网络的上中下层全部引入注意力机制,以增强网络对各种尺寸目标的区域关注能力,通过学习到的注意力权重,网络能够自动聚焦于对目标检测任务最重要的区域;
步骤4、特征金字塔构建:
在神经网络中构建特征金字塔,对提取到的特征进行多尺度的特征融合,融合不同层级上的特征,使神经网络能够感知遥感图像中不同大小目标的细节信息;
步骤5、自适应权重调整:
在神经网络训练过程中,对样本数少的目标种类对其类别损失乘以参数α,α>1,调整样本数少的目标种类在训练中的权重,以在样本数有限的条件下获得更多的目标特征,此时获得的神经网络记为遥感图像目标检测网络;
步骤6、网络训练:
使用步骤1准备好的训练集对遥感图像目标检测网络进行训练,矩形框损失使用NWD计算,类别和置信度损失使用交叉熵,调整优化算法迭代优化网络参数,使神经网络充分学习并准确预测图像中的目标物体;
步骤7、性能评估:
完成网络的训练后,使用训练好的神经网络对新的遥感图像进行目标检测和定位,输入待检测的遥感图像,经过网络前向传播得到目标检测结果,包括目标的位置坐标和类别标签。
步骤2具体按照以下步骤实施:
步骤2.1、统一输入和输出信息
首先,确定神经网络的输入和输出:输入是经步骤1预处理的训练集,输出是目标检测结果,包括目标的位置坐标和类别标签,目标的位置即边界框的位置和尺寸,类别标签包括飞机、船舶、储物罐、棒球场、网球场、篮球场、体育场、港口、桥梁、大型交通工具、小型交通工具、直升飞机、环岛、足球场、游泳池共15种,对于每个训练样本,需要有相应的标签信息,标明图像中目标的位置和类别;
步骤2.2、选择基础网络结构:
选用的骨干网络为Darknet53,该骨干网络由卷积层、池化层和残差连接组成,卷积操作在图像上滑动卷积核,通过对图像的不同区域进行卷积运算,从而获得局部特征,在Darknet53的卷积层中,图像经过尺寸为3×3,步长为2的卷积核处理之后尺寸下降为原来的1/2,不断通过这样的卷积核处理提取到更高层级的特征,低级特征图尺寸较大,包含图像的基本结构如边缘、纹理、颜色信息,高级特征图是在低级特征图的基础上再通过卷积获得的,尺寸较小,包含物体的大范围的结构如形状、动作,Darknet53通过多层卷积获取到不同尺度的特征图,然后将这些不同尺寸的特征图传入到注意力模块做进一步处理;
步骤2.3、添加特征金字塔模块:
特征金字塔模块包括多个并行的卷积分支,每个分支负责在不同的特征层级上进行特征提取,然后通过上下采样和concat拼接进行特征融合,上采样过程为近邻插值法,下采样过程为最大池化,concat拼接是将两个或多个张量在某个指定的维度上连接在一起,生成一个新的张量,通过这种方式,遥感图像目标检测网络能够同时获得来自不同尺度特征图的信息,以适应不同大小的目标物体;
步骤2.4、引入注意力机制:
采用CA注意力机制,通过注意力机制,网络能够自适应地加强或抑制特征图中的某些通道,以提高目标检测性能;
步骤2.5、自适应权重调整:
通过对类别损失乘以参数α,调整不同样本的训练权重,增大样本数量少的目标种类的学习权重,以充分获取该种类的特征,提升目标检测性能,具体计算方法如下:
CEB'=α(-qlog(p)-(1-q)log(1-p)). (7)
其中,CEB’为权重表示,α为权重参数,q为目标真实值,p为网络预测值;
步骤2.6、输出层设计:
最后,设计网络的输出层,输出层包含位置回归系数lr和ud,其中,lr的取值范围是[-0.5,1.5],表示预测框需要平移的距离,向左和向下移动的最大距离为0.5个像素,向上和向右的最大移动距离为1.5个像素,ud的取值范围是(0,4],表示预测框的缩放倍数,输出层还包含类别概率参数[a,b,c,d,e,f,g,h,i,j,k,l,m,n,o],所有参数的取值范围均为[0,1],分别表示此预测框内的物体属于这15种类别的概率,值越大表示概率越大,取最大值作为种类预测结果,遥感图像目标检测网络根据位置回归系数和类别概率参数,在图像上画出最终的预测框。
步骤2.4中CA注意力的步骤如下:
步骤2.4.1、为了获取图像宽度和高度上的注意力并对精确位置信息进行编码,先将Darknet53输出的特征图分别在宽度和高度两个方向进行全局平均池化,获得在宽度方向的特征图和高度方向的特征图/>具体如下列公式所示:
其中h为图像的高度,w为图像的宽度,x为输入的特征图,c为图像的通道数,对尺寸为C×H×W输入特征图Input分别按照X方向和Y方向进行池化,分别生成尺寸为C×H×1的特征图和C×1×W的特征图/>
步骤2.4.2、将生成C×1×W的特征图进行变换,然后进行concat操作,公式如下:
f=δ(F1([zh,zw])), (3)
其中f是经过concat和降维之后的特征图,zh是公式(1)生成的特征图,zw是公式(2)生成的特征图,zh和zw进行concat后尺寸变为C×(H+W)×1,再进行F1操作即利用1×1卷积核进行降维之后再激活,生成特征图f;
步骤2.4.3、沿着空间维度,再将特征图f进行split操作,分成高度方向上的特征图fh和宽度方向上的特征图fw,然后分别利用1×1卷积进行升维度操作,再结合sigmoid激活函数得到高度方向的注意力向量gh和宽度方向的注意力向量gw,公式如下:
gh=σ(Fh(fh)), (4)
gw=σ(Fw(fw)), (5)
最后,融合注意力CA的输出公式写为:
其中y为经过注意力调整之后的特征图,x为输入的特征图,c为通道序号,gh是高度方向的注意力向量,gw是宽度方向的注意力向量,i是像素横坐标,j是像素纵坐标。
步骤6具体按照以下步骤实施:
步骤6.1、数据集准备:
在训练之前,确保要使用的训练集已准备好,该数据集包含目标物体、对应目标的边界框信息和各个目标物体的类别标签,对训练集进行预处理,尺寸统一为640*640,并进行数据增强;
步骤6.2、网络架构搭建:
采用的骨干网络为Darknet53,Darknet53使用3*3大小、步长为2的卷积核进行特征提取,使用1*1大小的卷积核进行通道缩放,使用Batch Normalization进行归一化,激活函数为LeakyRelu,特征融合网络为BiFPN,预测部分包含检测头、损失函数和参数更新策略;
特征融合的具体过程为首先将传入步骤2.4进行注意力特征提取的特征图xc分别记为A1、A2、A3,将A1、A2、A3经过步骤2.4之后得到的三个层级的特征图yc依次命名为C1、C2、C3,将C1使用近邻插值法进行上采样,尺寸变为原来的2倍,再与C2层进行concat拼接得到C4,C4经过卷积进一步提取特征后再使用近邻插值法进行上采样得到C5,C5与C3进行concat拼接之后再通过卷积进行特征提取后输出为C6,作为P1传入预测部分进行目标检测,同时对C6进行最大池化后与C5和A2进行concat拼接并通过卷积进行特征提取得到C7,记为P2传入预测部分进行目标检测,同时将其进行最大池化与A3,C3进行concat拼接并通过卷积进行特征提取得到C8,记为P3传入预测部分进行目标检测,预测过程如步骤2.6所述;
步骤6.3、网络初始化:
使用预训练的YOLOv5权重对网络进行初始化,具体过程为将预训练的权重值一一赋值给Darknet53中的权重矩阵;
步骤6.4、损失函数设计:
网络包含类别损失、置信度损失和矩形框损失,其中类别损失和置信度损失使用交叉熵进行损失计算,矩形框使用归一化高斯Wasserstein距离NWD计算,具体计算过程如步骤6.5所示;
步骤6.5、批量训练:
使用步骤1准备好的训练集对网络进行批量训练,将批量设置为32,每次从数据集中随机抽取32张图像,将抽取出来的32张图像输入网络中进行前向传播计算,采用NWD损失,然后根据损失函数计算训练误差,并进行反向传播,更新网络参数,
步骤6.6、参数更新:
从训练集中随机抽出32张图像,传入遥感图像目标检测网络进行一次前向传播,使用输出层计算出的损失进行梯度更新,更新过程是将参数沿着参数梯度下降方向进行调整,具体更新过程如下:
K=P-l×t (16)
其中K是新参数,P是旧参数,l为学习率,t为参数对参数梯度的导数,重复此过程,直到训练完整个数据集或者达到预定的训练轮次,最终损失达到一个稳定值,遥感图像目标检测网络为收敛状态;
步骤6.7、网络评估:
在训练过程中,需要周期性地对遥感图像目标检测网络进行评估,使用验证集进行评估,并计算模型当前的准确率、召回率、F1指标,以监控模型性能;
步骤6.8、模型保存:
在训练过程中,每训练10个轮次进行权重保存,这样,如果训练过程中出现意外,则回滚到之前保存的状态;
步骤6.9、最终模型生成:
经过多轮训练和参数调整后,得到最优的网络模型,该模型具有较快的推理速度和较高的检测准确率,可用于后续测试任务或应用于实际检测场景。
步骤6.5中NWD损失的具体计算过程为:
步骤6.5.1、边界框的高斯分布建模:
对于水平的边界框R=(cx,cy,w,h),其中(cx,cy),w,h分别代表边界框的中心点、宽和高,边界框R的椭圆内切公式为:
其中(μx,μy)表示椭圆的中心点坐标,σx和σy表示沿x和y半轴的长度,因此μx=cx,μy=cy,σx=w/2,σy=h/2;
上述椭圆的二维高斯分布的概率密度函数表示为:
其中,x表示中心点坐标(x,y),μ表示高斯分布的均值,Σ表示高斯分布的协方差,AT表示矩阵的转置,A-1表示矩阵A的逆矩阵,当
(x-μ)TΣ-1(x-μ)=1, (10)
公式(8)中的椭圆则是二维高斯分布的密度轮廓,因此,水平边界框表示为一个二维高斯分布N(μ,Σ),服从
其中μ表示椭圆中心点坐标,cx为中心点坐标的x值,cy为中心点坐标的y值,Σ为二维高斯分布的协方差矩阵,w是椭圆沿x轴的直径,h是椭圆沿y轴的直径,从而,两个边界框转化为两个高斯分布,其相似度也转化为两个高斯分布的距离分布;
步骤6.5.2、归一化的高斯Wasserstein距离:
对于两个高斯分布μ1=N(m1,Σ1)和μ2=N(m2,Σ2),μ1和μ2之间的Wasserstein距离定义为:
其中,两个高斯分布分别表示为μ1和μ2,表示μ1和μ2的Wasserstein距离,m1是μ1的中心点坐标,m2是μ2的中心点坐标,Tr(A)表示矩阵A的迹,Σ1表示μ1的协方差矩阵,Σ2表示μ2的协方差矩阵,通过化简,公式(12)表示为:
其中,||·||F表示矩阵的Frobenius范数,公式进一步化简为:
其中,Na和Nb分别代表椭圆a和椭圆b的两个高斯分布,cxa表示椭圆a的中心点坐标的x值,cya表示分布椭圆a的中心点坐标的y值,wa表示椭圆a在x轴方向的直径,ha椭圆a在y轴方向的直径,cxb表示椭圆b的中心点坐标的x值,cyb表示分布椭圆b的中心点坐标的y值,wb表示椭圆b在x轴方向的直径,hb椭圆b在y轴方向的直径,此时,是一个距离度量,要将用作相似性度量,还需要进行指数归一化,获得一个新的归一化Wasserstein距离NWD,具体如下:
其中,Na和Nb分别代表椭圆a和椭圆b的两个高斯分布NWD(Na,Nb)是高斯分布Na和高斯分布Nb的归一化Wasserstein距离,exp(A)表示自然对数的底数e的A次方,C是数据集中目标的平均尺寸。
本发明的有益效果是,基于高斯距离损失的遥感图像目标检测方法,利用了注意力机制,从而使网络能够自适应地加强或抑制特征图中的某些通道和区域,以提高目标检测性能。使用BiFPN作为特征融合金字塔,使得网络可以充分利用上下文信息,融合不同尺度的图像特征。提出的自适应权重可以充分学习到各种目标的特征,使得网络可以适应不同场景和特征,具备更强的通用性和泛化能力。通过引入高斯分布的Wasserstein距离作为矩形框损失,可以在真实框与预测框完全不重合的情况下计算出相似性,从而提升学习效率和检测准确率。
附图说明
图1是本发明基于神经网络的遥感图像目标检测方法整体框架图;
图2是本发明基于神经网络的遥感图像目标检测方法网络结构图;
图3是本发明基于神经网络的遥感图像目标检测方法中Coordinate Attention(CA)计算过程图;
图4是本发明基于神经网络的遥感图像目标检测方法中CA注意力在不同方向上进行池化操作的计算过程图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于高斯距离损失的遥感图像目标检测方法的主要内容包括:
1.注意力机制:引入注意力机制,使得神经网络能够自动地聚焦于最具有信息量的区域,从而减少无关信息的干扰,提高检测性能。
2.特征融合金字塔:构建特征金字塔,通过在不同尺度下对特征进行处理,从而实现对遥感图像中不同大小目标的有效检测。
3.Normalized Gaussian Wasserstein Distance(NWD):使用高斯分布的Wasserstein距离计算矩形框损失,在小尺寸目标上达到更好的检测效果。
4.自适应权重:在网络训练时,对数据集中样本数量少的目标种类的权重进行调整,从而在样本少的情况下,学习到更多的目标特征。
本发明基于高斯距离损失的遥感图像目标检测方法,结合图1、图2,利用注意力机制,使网络能够自适应地加强或抑制特征图中的某些通道和区域,使用BiFPN作为特征融合金字塔,使网络利用上下文信息,融合不同尺度的图像特征,自适应权重充分学习到各种目标的特征,使网络适应不同场景和特征,通过引入高斯分布的Wasserstein距离作为矩形框损失,在真实框与预测框完全不重合的情况下计算出相似性,从而提升学习效率和检测准确率。
具体按照以下步骤实施:
步骤1、数据准备:
将遥感图像数据集按照6:2:2的比例划分为训练集、验证集和测试集,确保数据集中包含各种场景和目标物体的样本,并对训练集进行图像预处理操作,包括图像增强、统一尺寸,以便进行后续训练;
步骤2、网络结构设计:
设计神经网络结构,将注意力机制、特征金字塔和自适应权重整合到神经网络中,神经网络的输入为所述步骤1预处理之后的遥感图像,输出为目标检测结果,包括目标的位置信息和类别信息;
步骤2具体按照以下步骤实施:
步骤2.1、统一输入和输出信息
首先,确定神经网络的输入和输出:输入是经步骤1预处理的训练集,输出是目标检测结果,包括目标的位置坐标和类别标签,目标的位置即边界框的位置和尺寸,类别标签包括飞机、船舶、储物罐、棒球场、网球场、篮球场、体育场、港口、桥梁、大型交通工具、小型交通工具、直升飞机、环岛、足球场、游泳池共15种,对于每个训练样本,需要有相应的标签信息,标明图像中目标的位置和类别;
步骤2.2、选择基础网络结构:
选择适当的基础网络结构作为目标检测网络的骨干(backbone)。常见的基础网络包括Darknet、ResNet、VGG、MobileNet,本方法选用的骨干网络为Darknet53,该骨干网络由卷积层、池化层和残差连接组成,卷积操作在图像上滑动卷积核,通过对图像的不同区域进行卷积运算,从而获得局部特征,在Darknet53的卷积层中,图像经过尺寸为3×3,步长为2的卷积核处理之后尺寸下降为原来的1/2,不断通过这样的卷积核处理提取到更高层级的特征,低级特征图尺寸较大,包含图像的基本结构如边缘、纹理、颜色信息等。高级特征图是在低级特征图的基础上再通过卷积获得的,尺寸较小,包含物体的大范围的结构如形状、动作,Darknet53通过多层卷积获取到不同尺度的特征图,然后将这些不同尺寸的特征图传入到注意力模块做进一步处理;
步骤2.3、添加特征金字塔模块:
为了处理遥感图像中的多尺度特征,需要在基础网络上添加特征金字塔模块。特征金字塔模块包括多个并行的卷积分支,每个分支负责在不同的特征层级上进行特征提取,然后通过上下采样和concat拼接进行特征融合,上采样过程为近邻插值法,下采样过程为最大池化,concat拼接是将两个或多个张量在某个指定的维度上连接在一起,生成一个新的张量,通过这种方式,遥感图像目标检测网络能够同时获得来自不同尺度特征图的信息,以适应不同大小的目标物体;
步骤2.4、引入注意力机制:
结合图3、图4,在特征金字塔模块中的每个分支上引入注意力机制。注意力机制有助于网络自动学习并关注对目标检测任务最具有信息量的区域。常见的注意力机制包括CA(Coordinate Attention)、SENet(Squeeze-and-Excitation Network)和CBAM(Convolutional Block Attention Module)等,本方法采用CA注意力机制,通过注意力机制,网络能够自适应地加强或抑制特征图中的某些通道,以提高目标检测性能;
步骤2.5、自适应权重调整:
为了进一步优化网络,引入自适应权重调整方法。通过对类别损失乘以参数α,调整不同样本的训练权重,增大样本数量少的目标种类的学习权重,以充分获取该种类的特征,提升目标检测性能,具体计算方法如下:
CEB'=α(-qlog(p)-(1-q)log(1-p)). (7)
其中,CEB’为权重表示,α为权重参数,q为目标真实值,p为网络预测值;
步骤2.6、输出层设计:
最后,设计网络的输出层,输出层将根据目标检测任务的需求,产生包含目标位置和类别信息的预测结果。通常,输出层包含位置回归系数lr和ud,其中,lr的取值范围是[-0.5,1.5],表示预测框需要平移的距离,向左和向下移动的最大距离为0.5个像素,向上和向右的最大移动距离为1.5个像素,ud的取值范围是(0,4],表示预测框的缩放倍数,最小可以缩到无穷小最大可以放大4倍,输出层还包含类别概率参数[a,b,c,d,e,f,g,h,i,j,k,l,m,n,o],所有参数的取值范围均为[0,1],分别表示此预测框内的物体属于这15种类别的概率,值越大表示概率越大,取最大值作为种类预测结果,遥感图像目标检测网络根据位置回归系数和类别概率参数,在图像上画出最终的预测框。
步骤2.4中CA注意力的步骤如下:
步骤2.4.1、为了获取图像宽度和高度上的注意力并对精确位置信息进行编码,先将Darknet53输出的特征图分别在宽度和高度两个方向进行全局平均池化,获得在宽度方向的特征图和高度方向的特征图/>具体如下列公式所示:
其中h为图像的高度,w为图像的宽度,x为输入的特征图,c为图像的通道数,对尺寸为C×H×W输入特征图Input分别按照X方向和Y方向进行池化,分别生成尺寸为C×H×1的特征图和C×1×W的特征图/>
步骤2.4.2、将生成C×1×W的特征图进行变换,然后进行concat操作,公式如下:
f=δ(F1([zh,zw])), (3)
其中f是经过concat和降维之后的特征图,zh是公式(1)生成的特征图,zw是公式(2)生成的特征图,zh和zw进行concat后尺寸变为C×(H+W)×1,再进行F1操作即利用1×1卷积核进行降维之后再激活,生成特征图f;
步骤2.4.3、沿着空间维度,再将特征图f进行split操作,分成高度方向上的特征图fh和宽度方向上的特征图fw,然后分别利用1×1卷积进行升维度操作,再结合sigmoid激活函数得到高度方向的注意力向量gh和宽度方向的注意力向量gw,公式如下:
gh=σ(Fh(fh)), (4)
gw=σ(Fw(fw)), (5)
最后,融合注意力CA(Coordinate Attention)的输出公式写为:
其中y为经过注意力调整之后的特征图,x为输入的特征图,c为通道序号,gh是高度方向的注意力向量,gw是宽度方向的注意力向量,i是像素横坐标,j是像素纵坐标。
步骤3、注意力机制引入:
在神经网络的上中下层全部引入注意力机制,以增强网络对各种尺寸目标的区域关注能力,通过学习到的注意力权重,网络能够自动聚焦于对目标检测任务最重要的区域,抑制背景干扰,提高检测精度。
步骤4、特征金字塔构建:
在神经网络中构建特征金字塔,对提取到的特征进行多尺度的特征融合,融合不同层级上的特征,使神经网络能够感知遥感图像中不同大小目标的细节信息;
步骤5、自适应权重调整:
在神经网络训练过程中,对样本数少的目标种类对其类别损失乘以参数α,α>1,调整样本数少的目标种类在训练中的权重,以在样本数有限的条件下获得更多的目标特征,此时获得的神经网络记为遥感图像目标检测网络;
步骤6、网络训练:
使用步骤1准备好的训练集对遥感图像目标检测网络进行训练,矩形框损失使用NWD计算,类别和置信度损失使用交叉熵,调整优化算法迭代优化网络参数,使神经网络充分学习并准确预测图像中的目标物体;
步骤6具体按照以下步骤实施:
步骤6.1、数据集准备:
在训练之前,确保要使用的训练集已准备好,该数据集包含目标物体、对应目标的边界框信息和各个目标物体的类别标签,对训练集进行预处理,尺寸统一为640*640,并进行数据增强;
步骤6.2、网络架构搭建:
本方法采用的骨干网络为Darknet53,Darknet53使用3*3大小、步长为2的卷积核进行特征提取,使用1*1大小的卷积核进行通道缩放,使用Batch Normalization进行归一化,激活函数为LeakyRelu,特征融合网络为BiFPN,预测部分包含检测头、损失函数和参数更新策略;
特征融合的具体过程为首先将传入步骤2.4进行注意力特征提取的特征图xc分别记为A1、A2、A3,将A1、A2、A3经过步骤2.4之后得到的三个层级的特征图yc依次命名为C1、C2、C3,将C1使用近邻插值法进行上采样,尺寸变为原来的2倍,再与C2层进行concat拼接得到C4,C4经过卷积进一步提取特征后再使用近邻插值法进行上采样得到C5,C5与C3进行concat拼接之后再通过卷积进行特征提取后输出为C6,作为P1传入预测部分进行目标检测,同时对C6进行最大池化后与C5和A2进行concat拼接并通过卷积进行特征提取得到C7,记为P2传入预测部分进行目标检测,同时将其进行最大池化与A3,C3进行concat拼接并通过卷积进行特征提取得到C8,记为P3传入预测部分进行目标检测,预测过程如步骤2.6所述;
步骤6.3、网络初始化:
使用预训练的YOLOv5权重对网络进行初始化,具体过程为将预训练的权重值一一赋值给Darknet53中的权重矩阵。这些权重是在大型数据集上通过无监督学习获得的,能够提供良好的初始参数,有利于模型快速训练和收敛。
步骤6.4、损失函数设计:
网络包含类别损失、置信度损失和矩形框损失,其中类别损失和置信度损失使用交叉熵(Cross Entropy Loss)进行损失计算,矩形框使用归一化高斯Wasserstein距离NWD(Normalized Gaussian Wasserstein Distance)计算,具体计算过程如步骤6.5所示;
步骤6.5、批量训练:
使用步骤1准备好的训练集对网络进行批量训练,将批量设置为32,每次从数据集中随机抽取32张图像,将抽取出来的32张图像输入网络中进行前向传播计算,采用NWD损失,然后根据损失函数计算训练误差,并进行反向传播,更新网络参数,
步骤6.6、参数更新:
从训练集中随机抽出32张图像,传入遥感图像目标检测网络进行一次前向传播,使用输出层计算出的损失进行梯度更新,更新过程是将参数沿着参数梯度下降方向进行调整,具体更新过程如下:
K=P-l×t (16)
其中K是新参数,P是旧参数,l为学习率,t为参数对参数梯度的导数,重复此过程,直到训练完整个数据集或者达到预定的训练轮次,最终损失达到一个稳定值,遥感图像目标检测网络为收敛状态;
步骤6.7、网络评估:
在训练过程中,需要周期性地对遥感图像目标检测网络进行评估,使用验证集进行评估,并计算模型当前的准确率、召回率、F1指标,以监控模型性能;
步骤6.8、模型保存:
在训练过程中,每训练10个轮次进行权重保存,这样,如果训练过程中出现意外,则回滚到之前保存的状态;
步骤6.9、最终模型生成:
经过多轮训练和参数调整后,得到最优的网络模型,该模型具有较快的推理速度和较高的检测准确率,可用于后续测试任务或应用于实际检测场景。
步骤6.5中NWD损失的具体计算过程为:
步骤6.5.1、边界框的高斯分布建模:
对于水平的边界框R=(cx,cy,w,h),其中(cx,cy),w,h分别代表边界框的中心点、宽和高,边界框R的椭圆内切公式为:
其中(μx,μy)表示椭圆的中心点坐标,σx和σy表示沿x和y半轴的长度,因此μx=cx,μy=cy,σx=w/2,σy=h/2;
上述椭圆的二维高斯分布的概率密度函数表示为:
其中,x表示中心点坐标(x,y),μ表示高斯分布的均值,Σ表示高斯分布的协方差,AT表示矩阵的转置,A-1表示矩阵A的逆矩阵,当
(x-μ)TΣ-1(x-μ)=1, (10)
公式(8)中的椭圆则是二维高斯分布的密度轮廓,因此,水平边界框表示为一个二维高斯分布N(μ,Σ),服从
其中μ表示椭圆中心点坐标,cx为中心点坐标的x值,cy为中心点坐标的y值,Σ为二维高斯分布的协方差矩阵,w是椭圆沿x轴的直径,h是椭圆沿y轴的直径,从而,两个边界框转化为两个高斯分布,其相似度也转化为两个高斯分布的距离分布;
步骤6.5.2、归一化的高斯Wasserstein距离:
Wasserstein距离是用来计算两个分布间的距离。对于两个高斯分布μ1=N(m1,Σ1)和μ2=N(m2,Σ2),μ1和μ2之间的Wasserstein距离定义为:
其中,两个高斯分布分别表示为μ1和μ2,表示μ1和μ2的Wasserstein距离,m1是μ1的中心点坐标,m2是μ2的中心点坐标,Tr(A)表示矩阵A的迹,Σ1表示μ1的协方差矩阵,Σ2表示μ2的协方差矩阵,通过化简,公式(12)表示为:
其中,||·||F表示矩阵的Frobenius范数,公式进一步化简为:
其中,Na和Nb分别代表椭圆a和椭圆b的两个高斯分布,cxa表示椭圆a的中心点坐标的x值,cya表示分布椭圆a的中心点坐标的y值,wa表示椭圆a在x轴方向的直径,ha椭圆a在y轴方向的直径,cxb表示椭圆b的中心点坐标的x值,cyb表示分布椭圆b的中心点坐标的y值,wb表示椭圆b在x轴方向的直径,hb椭圆b在y轴方向的直径,此时,是一个距离度量,要将用作相似性度量,还需要进行指数归一化,获得一个新的归一化Wasserstein距离NWD(Normalized Wasserstein Distance),具体如下:
其中,Na和Nb分别代表椭圆a和椭圆b的两个高斯分布NWD(Na,Nb)是高斯分布Na和高斯分布Nb的归一化Wasserstein距离,exp(A)表示自然对数的底数e的A次方,C是数据集中目标的平均尺寸。
步骤7、性能评估:
完成网络的训练后,使用训练好的神经网络对新的遥感图像进行目标检测和定位,输入待检测的遥感图像,经过网络前向传播得到目标检测结果,包括目标的位置坐标和类别标签。对于检测结果,采用各种性能指标如准确率、召回率和F1-score等来评估网络的目标检测性能。同时,与其他目标检测方法进行对比实验,验证本发明的优越性。
实施例1
本发明基于高斯距离损失的遥感图像目标检测方法,利用注意力机制,使网络能够自适应地加强或抑制特征图中的某些通道和区域,使用BiFPN作为特征融合金字塔,使网络利用上下文信息,融合不同尺度的图像特征,自适应权重充分学习到各种目标的特征,使网络适应不同场景和特征,通过引入高斯分布的Wasserstein距离作为矩形框损失,在真实框与预测框完全不重合的情况下计算出相似性,从而提升学习效率和检测准确率。
实施例2
本发明基于高斯距离损失的遥感图像目标检测方法,具体按照以下步骤实施:
步骤1、数据准备:
将遥感图像数据集按照6:2:2的比例划分为训练集、验证集和测试集,确保数据集中包含各种场景和目标物体的样本,并对训练集进行图像预处理操作,包括图像增强、统一尺寸,以便进行后续训练;
步骤2、网络结构设计:
设计神经网络结构,将注意力机制、特征金字塔和自适应权重整合到神经网络中,神经网络的输入为所述步骤1预处理之后的遥感图像,输出为目标检测结果,包括目标的位置信息和类别信息;
步骤3、注意力机制引入:
在神经网络的上中下层全部引入注意力机制,以增强网络对各种尺寸目标的区域关注能力,通过学习到的注意力权重,网络能够自动聚焦于对目标检测任务最重要的区域;
步骤4、特征金字塔构建:
在神经网络中构建特征金字塔,对提取到的特征进行多尺度的特征融合,融合不同层级上的特征,使神经网络能够感知遥感图像中不同大小目标的细节信息;
步骤5、自适应权重调整:
在神经网络训练过程中,对样本数少的目标种类对其类别损失乘以参数α,α>1,调整样本数少的目标种类在训练中的权重,以在样本数有限的条件下获得更多的目标特征,此时获得的神经网络记为遥感图像目标检测网络;
步骤6、网络训练:
使用步骤1准备好的训练集对遥感图像目标检测网络进行训练,矩形框损失使用NWD计算,类别和置信度损失使用交叉熵,调整优化算法迭代优化网络参数,使神经网络充分学习并准确预测图像中的目标物体;
步骤7、性能评估:
完成网络的训练后,使用训练好的神经网络对新的遥感图像进行目标检测和定位,输入待检测的遥感图像,经过网络前向传播得到目标检测结果,包括目标的位置坐标和类别标签。
实施例3
步骤1、数据准备:
将遥感图像数据集按照6:2:2的比例划分为训练集、验证集和测试集,确保数据集中包含各种场景和目标物体的样本,并对训练集进行图像预处理操作,包括图像增强、统一尺寸,以便进行后续训练;
步骤2、网络结构设计:
设计神经网络结构,将注意力机制、特征金字塔和自适应权重整合到神经网络中,神经网络的输入为所述步骤1预处理之后的遥感图像,输出为目标检测结果,包括目标的位置信息和类别信息;
步骤2具体按照以下步骤实施:
步骤2.1、统一输入和输出信息
首先,确定神经网络的输入和输出:输入是经步骤1预处理的训练集,输出是目标检测结果,包括目标的位置坐标和类别标签,目标的位置即边界框的位置和尺寸,类别标签包括飞机、船舶、储物罐、棒球场、网球场、篮球场、体育场、港口、桥梁、大型交通工具、小型交通工具、直升飞机、环岛、足球场、游泳池共15种,对于每个训练样本,需要有相应的标签信息,标明图像中目标的位置和类别;
步骤2.2、选择基础网络结构:
选择适当的基础网络结构作为目标检测网络的骨干(backbone)。常见的基础网络包括Darknet、ResNet、VGG、MobileNet,本方法选用的骨干网络为Darknet53,该骨干网络由卷积层、池化层和残差连接组成,卷积操作在图像上滑动卷积核,通过对图像的不同区域进行卷积运算,从而获得局部特征,在Darknet53的卷积层中,图像经过尺寸为3×3,步长为2的卷积核处理之后尺寸下降为原来的1/2,不断通过这样的卷积核处理提取到更高层级的特征,低级特征图尺寸较大,包含图像的基本结构如边缘、纹理、颜色信息等。高级特征图是在低级特征图的基础上再通过卷积获得的,尺寸较小,包含物体的大范围的结构如形状、动作,Darknet53通过多层卷积获取到不同尺度的特征图,然后将这些不同尺寸的特征图传入到注意力模块做进一步处理;
步骤2.3、添加特征金字塔模块:
为了处理遥感图像中的多尺度特征,需要在基础网络上添加特征金字塔模块。特征金字塔模块包括多个并行的卷积分支,每个分支负责在不同的特征层级上进行特征提取,然后通过上下采样和concat拼接进行特征融合,上采样过程为近邻插值法,下采样过程为最大池化,concat拼接是将两个或多个张量在某个指定的维度上连接在一起,生成一个新的张量,通过这种方式,遥感图像目标检测网络能够同时获得来自不同尺度特征图的信息,以适应不同大小的目标物体;
步骤2.4、引入注意力机制:
在特征金字塔模块中的每个分支上引入注意力机制。注意力机制有助于网络自动学习并关注对目标检测任务最具有信息量的区域。常见的注意力机制包括CA(CoordinateAttention)、SENet(Squeeze-and-Excitation Network)和CBAM(Convolutional BlockAttention Module)等,本方法采用CA注意力机制,通过注意力机制,网络能够自适应地加强或抑制特征图中的某些通道,以提高目标检测性能;
步骤2.5、自适应权重调整:
为了进一步优化网络,引入自适应权重调整方法。通过对类别损失乘以参数α,调整不同样本的训练权重,增大样本数量少的目标种类的学习权重,以充分获取该种类的特征,提升目标检测性能,具体计算方法如下:
CEB'=α(-qlog(p)-(1-q)log(1-p)). (7)
其中,CEB’为权重表示,α为权重参数,q为目标真实值,p为网络预测值;
步骤2.6、输出层设计:
最后,设计网络的输出层,输出层将根据目标检测任务的需求,产生包含目标位置和类别信息的预测结果。通常,输出层包含位置回归系数lr和ud,其中,lr的取值范围是[-0.5,1.5],表示预测框需要平移的距离,向左和向下移动的最大距离为0.5个像素,向上和向右的最大移动距离为1.5个像素,ud的取值范围是(0,4],表示预测框的缩放倍数,最小可以缩到无穷小最大可以放大4倍,输出层还包含类别概率参数[a,b,c,d,e,f,g,h,i,j,k,l,m,n,o],所有参数的取值范围均为[0,1],分别表示此预测框内的物体属于这15种类别的概率,值越大表示概率越大,取最大值作为种类预测结果,遥感图像目标检测网络根据位置回归系数和类别概率参数,在图像上画出最终的预测框。
步骤2.4中CA注意力的步骤如下:
步骤2.4.1、为了获取图像宽度和高度上的注意力并对精确位置信息进行编码,先将Darknet53输出的特征图分别在宽度和高度两个方向进行全局平均池化,获得在宽度方向的特征图和高度方向的特征图/>具体如下列公式所示:/>
其中h为图像的高度,w为图像的宽度,x为输入的特征图,c为图像的通道数,对尺寸为C×H×W输入特征图Input分别按照X方向和Y方向进行池化,分别生成尺寸为C×H×1的特征图和C×1×W的特征图/>
步骤2.4.2、将生成C×1×W的特征图进行变换,然后进行concat操作,公式如下:
f=δ(F1([zh,zw])), (3)
其中f是经过concat和降维之后的特征图,zh是公式(1)生成的特征图,zw是公式(2)生成的特征图,zh和zw进行concat后尺寸变为C×(H+W)×1,再进行F1操作即利用1×1卷积核进行降维之后再激活,生成特征图f;
步骤2.4.3、沿着空间维度,再将特征图f进行split操作,分成高度方向上的特征图fh和宽度方向上的特征图fw,然后分别利用1×1卷积进行升维度操作,再结合sigmoid激活函数得到高度方向的注意力向量gh和宽度方向的注意力向量gw,公式如下:
gh=σ(Fh(fh)), (4)
gw=σ(Fw(fw)), (5)
最后,融合注意力CA(Coordinate Attention)的输出公式写为:
其中y为经过注意力调整之后的特征图,x为输入的特征图,c为通道序号,gh是高度方向的注意力向量,gw是宽度方向的注意力向量,i是像素横坐标,j是像素纵坐标。
步骤3、注意力机制引入:
在神经网络的上中下层全部引入注意力机制,以增强网络对各种尺寸目标的区域关注能力,通过学习到的注意力权重,网络能够自动聚焦于对目标检测任务最重要的区域,抑制背景干扰,提高检测精度。
步骤4、特征金字塔构建:
在神经网络中构建特征金字塔,对提取到的特征进行多尺度的特征融合,融合不同层级上的特征,使神经网络能够感知遥感图像中不同大小目标的细节信息;
步骤5、自适应权重调整:
在神经网络训练过程中,对样本数少的目标种类对其类别损失乘以参数α,α>1,调整样本数少的目标种类在训练中的权重,以在样本数有限的条件下获得更多的目标特征,此时获得的神经网络记为遥感图像目标检测网络;
步骤6、网络训练:
使用步骤1准备好的训练集对遥感图像目标检测网络进行训练,矩形框损失使用NWD计算,类别和置信度损失使用交叉熵,调整优化算法迭代优化网络参数,使神经网络充分学习并准确预测图像中的目标物体;
步骤7、性能评估:
完成网络的训练后,使用训练好的神经网络对新的遥感图像进行目标检测和定位,输入待检测的遥感图像,经过网络前向传播得到目标检测结果,包括目标的位置坐标和类别标签。对于检测结果,采用各种性能指标如准确率、召回率和F1-score等来评估网络的目标检测性能。同时,与其他目标检测方法进行对比实验,验证本发明的优越性。
Claims (6)
1.基于高斯距离损失的遥感图像目标检测方法,其特征在于,利用注意力机制,使网络能够自适应地加强或抑制特征图中的某些通道和区域,使用BiFPN作为特征融合金字塔,使网络利用上下文信息,融合不同尺度的图像特征,自适应权重充分学习到各种目标的特征,使网络适应不同场景和特征,通过引入高斯分布的Wasserstein距离作为矩形框损失,在真实框与预测框完全不重合的情况下计算出相似性,从而提升学习效率和检测准确率。
2.根据权利要求1所述的基于高斯距离损失的遥感图像目标检测方法,其特征在于,具体按照以下步骤实施:
步骤1、数据准备:
将遥感图像数据集按照6:2:2的比例划分为训练集、验证集和测试集,确保数据集中包含各种场景和目标物体的样本,并对训练集进行图像预处理操作,包括图像增强、统一尺寸,以便进行后续训练;
步骤2、网络结构设计:
设计神经网络结构,将注意力机制、特征金字塔和自适应权重整合到神经网络中,神经网络的输入为所述步骤1预处理之后的遥感图像,输出为目标检测结果,包括目标的位置信息和类别信息;
步骤3、注意力机制引入:
在神经网络的上中下层全部引入注意力机制,以增强网络对各种尺寸目标的区域关注能力,通过学习到的注意力权重,网络能够自动聚焦于对目标检测任务最重要的区域;
步骤4、特征金字塔构建:
在神经网络中构建特征金字塔,对提取到的特征进行多尺度的特征融合,融合不同层级上的特征,使神经网络能够感知遥感图像中不同大小目标的细节信息;
步骤5、自适应权重调整:
在神经网络训练过程中,对样本数少的目标种类对其类别损失乘以参数α,α>1,调整样本数少的目标种类在训练中的权重,以在样本数有限的条件下获得更多的目标特征,此时获得的神经网络记为遥感图像目标检测网络;
步骤6、网络训练:
使用步骤1准备好的训练集对遥感图像目标检测网络进行训练,矩形框损失使用NWD计算,类别和置信度损失使用交叉熵,调整优化算法迭代优化网络参数,使神经网络充分学习并准确预测图像中的目标物体;
步骤7、性能评估:
完成网络的训练后,使用训练好的神经网络对新的遥感图像进行目标检测和定位,输入待检测的遥感图像,经过网络前向传播得到目标检测结果,包括目标的位置坐标和类别标签。
3.根据权利要求2所述的基于高斯距离损失的遥感图像目标检测方法,其特征在于,所述步骤2具体按照以下步骤实施:
步骤2.1、统一输入和输出信息
首先,确定神经网络的输入和输出:输入是经步骤1预处理的训练集,输出是目标检测结果,包括目标的位置坐标和类别标签,目标的位置即边界框的位置和尺寸,类别标签包括飞机、船舶、储物罐、棒球场、网球场、篮球场、体育场、港口、桥梁、大型交通工具、小型交通工具、直升飞机、环岛、足球场、游泳池共15种,对于每个训练样本,需要有相应的标签信息,标明图像中目标的位置和类别;
步骤2.2、选择基础网络结构:
选用的骨干网络为Darknet53,该骨干网络由卷积层、池化层和残差连接组成,卷积操作在图像上滑动卷积核,通过对图像的不同区域进行卷积运算,从而获得局部特征,在Darknet53的卷积层中,图像经过尺寸为3×3,步长为2的卷积核处理之后尺寸下降为原来的1/2,不断通过这样的卷积核处理提取到更高层级的特征,低级特征图尺寸较大,包含图像的基本结构如边缘、纹理、颜色信息,高级特征图是在低级特征图的基础上再通过卷积获得的,尺寸较小,包含物体的大范围的结构如形状、动作,Darknet53通过多层卷积获取到不同尺度的特征图,然后将这些不同尺寸的特征图传入到注意力模块做进一步处理;
步骤2.3、添加特征金字塔模块:
特征金字塔模块包括多个并行的卷积分支,每个分支负责在不同的特征层级上进行特征提取,然后通过上下采样和concat拼接进行特征融合,上采样过程为近邻插值法,下采样过程为最大池化,concat拼接是将两个或多个张量在某个指定的维度上连接在一起,生成一个新的张量,通过这种方式,遥感图像目标检测网络能够同时获得来自不同尺度特征图的信息,以适应不同大小的目标物体;
步骤2.4、引入注意力机制:
采用CA注意力机制,通过注意力机制,网络能够自适应地加强或抑制特征图中的某些通道,以提高目标检测性能;
步骤2.5、自适应权重调整:
通过对类别损失乘以参数α,调整不同样本的训练权重,增大样本数量少的目标种类的学习权重,以充分获取该种类的特征,提升目标检测性能,具体计算方法如下:
CEB'=α(-qlog(p)-(1-q)log(1-p)). (7)
其中,CEB’为权重表示,α为权重参数,q为目标真实值,p为网络预测值;
步骤2.6、输出层设计:
最后,设计网络的输出层,输出层包含位置回归系数lr和ud,其中,lr的取值范围是[-0.5,1.5],表示预测框需要平移的距离,向左和向下移动的最大距离为0.5个像素,向上和向右的最大移动距离为1.5个像素,ud的取值范围是(0,4],表示预测框的缩放倍数,输出层还包含类别概率参数[a,b,c,d,e,f,g,h,i,j,k,l,m,n,o],所有参数的取值范围均为[0,1],分别表示此预测框内的物体属于这15种类别的概率,值越大表示概率越大,取最大值作为种类预测结果,遥感图像目标检测网络根据位置回归系数和类别概率参数,在图像上画出最终的预测框。
4.根据权利要求3所述的基于高斯距离损失的遥感图像目标检测方法,其特征在于,所述步骤2.4中CA注意力的步骤如下:
步骤2.4.1、为了获取图像宽度和高度上的注意力并对精确位置信息进行编码,先将Darknet53输出的特征图分别在宽度和高度两个方向进行全局平均池化,获得在宽度方向的特征图和高度方向的特征图/>具体如下列公式所示:
其中h为图像的高度,w为图像的宽度,x为输入的特征图,c为图像的通道数,对尺寸为C×H×W输入特征图Input分别按照X方向和Y方向进行池化,分别生成尺寸为C×H×1的特征图和C×1×W的特征图/>
步骤2.4.2、将生成C×1×W的特征图进行变换,然后进行concat操作,公式如下:
f=δ(F1([zh,zw])), (3)
其中f是经过concat和降维之后的特征图,zh是公式(1)生成的特征图,zw是公式(2)生成的特征图,zh和zw进行concat后尺寸变为C×(H+W)×1,再进行F1操作即利用1×1卷积核进行降维之后再激活,生成特征图f;
步骤2.4.3、沿着空间维度,再将特征图f进行split操作,分成高度方向上的特征图fh和宽度方向上的特征图fw,然后分别利用1×1卷积进行升维度操作,再结合sigmoid激活函数得到高度方向的注意力向量gh和宽度方向的注意力向量gw,公式如下:
gh=σ(Fh(fh)), (4)
gw=σ(Fw(fw)), (5)
最后,融合注意力CA的输出公式写为:
其中y为经过注意力调整之后的特征图,x为输入的特征图,c为通道序号,gh是高度方向的注意力向量,gw是宽度方向的注意力向量,i是像素横坐标,j是像素纵坐标。
5.根据权利要求3所述的基于高斯距离损失的遥感图像目标检测方法,其特征在于,所述步骤6具体按照以下步骤实施:
步骤6.1、数据集准备:
在训练之前,确保要使用的训练集已准备好,该数据集包含目标物体、对应目标的边界框信息和各个目标物体的类别标签,对训练集进行预处理,尺寸统一为640*640,并进行数据增强;
步骤6.2、网络架构搭建:
采用的骨干网络为Darknet53,Darknet53使用3*3大小、步长为2的卷积核进行特征提取,使用1*1大小的卷积核进行通道缩放,使用Batch Normalization进行归一化,激活函数为LeakyRelu,特征融合网络为BiFPN,预测部分包含检测头、损失函数和参数更新策略;
特征融合的具体过程为首先将传入步骤2.4进行注意力特征提取的特征图xc分别记为A1、A2、A3,将A1、A2、A3经过步骤2.4之后得到的三个层级的特征图yc依次命名为C1、C2、C3,将C1使用近邻插值法进行上采样,尺寸变为原来的2倍,再与C2层进行concat拼接得到C4,C4经过卷积进一步提取特征后再使用近邻插值法进行上采样得到C5,C5与C3进行concat拼接之后再通过卷积进行特征提取后输出为C6,作为P1传入预测部分进行目标检测,同时对C6进行最大池化后与C5和A2进行concat拼接并通过卷积进行特征提取得到C7,记为P2传入预测部分进行目标检测,同时将其进行最大池化与A3,C3进行concat拼接并通过卷积进行特征提取得到C8,记为P3传入预测部分进行目标检测,预测过程如步骤2.6所述;
步骤6.3、网络初始化:
使用预训练的YOLOv5权重对网络进行初始化,具体过程为将预训练的权重值一一赋值给Darknet53中的权重矩阵;
步骤6.4、损失函数设计:
网络包含类别损失、置信度损失和矩形框损失,其中类别损失和置信度损失使用交叉熵进行损失计算,矩形框使用归一化高斯Wasserstein距离NWD计算,具体计算过程如步骤6.5所示;
步骤6.5、批量训练:
使用步骤1准备好的训练集对网络进行批量训练,将批量设置为32,每次从数据集中随机抽取32张图像,将抽取出来的32张图像输入网络中进行前向传播计算,采用NWD损失,然后根据损失函数计算训练误差,并进行反向传播,更新网络参数,
步骤6.6、参数更新:
从训练集中随机抽出32张图像,传入遥感图像目标检测网络进行一次前向传播,使用输出层计算出的损失进行梯度更新,更新过程是将参数沿着参数梯度下降方向进行调整,具体更新过程如下:
K=P-l×t (16)
其中K是新参数,P是旧参数,l为学习率,t为参数对参数梯度的导数,重复此过程,直到训练完整个数据集或者达到预定的训练轮次,最终损失达到一个稳定值,遥感图像目标检测网络为收敛状态;
步骤6.7、网络评估:
在训练过程中,需要周期性地对遥感图像目标检测网络进行评估,使用验证集进行评估,并计算模型当前的准确率、召回率、F1指标,以监控模型性能;
步骤6.8、模型保存:
在训练过程中,每训练10个轮次进行权重保存,这样,如果训练过程中出现意外,则回滚到之前保存的状态;
步骤6.9、最终模型生成:
经过多轮训练和参数调整后,得到最优的网络模型,该模型具有较快的推理速度和较高的检测准确率,可用于后续测试任务或应用于实际检测场景。
6.根据权利要求5所述的基于高斯距离损失的遥感图像目标检测方法,其特征在于,所述步骤6.5中NWD损失的具体计算过程为:
步骤6.5.1、边界框的高斯分布建模:
对于水平的边界框R=(cx,cy,w,h),其中(cx,cy),w,h分别代表边界框的中心点、宽和高,边界框R的椭圆内切公式为:
其中(μx,μy)表示椭圆的中心点坐标,σx和σy表示沿x和y半轴的长度,因此μx=cx,μy=cy,σx=w/2,σy=h/2;
上述椭圆的二维高斯分布的概率密度函数表示为:
其中,x表示中心点坐标(x,y),μ表示高斯分布的均值,Σ表示高斯分布的协方差,AT表示矩阵的转置,A-1表示矩阵A的逆矩阵,当
(x-μ)TΣ-1(x-μ)=1, (10)
公式(8)中的椭圆则是二维高斯分布的密度轮廓,因此,水平边界框表示为一个二维高斯分布N(μ,Σ),服从
其中μ表示椭圆中心点坐标,cx为中心点坐标的x值,cy为中心点坐标的y值,Σ为二维高斯分布的协方差矩阵,w是椭圆沿x轴的直径,h是椭圆沿y轴的直径,从而,两个边界框转化为两个高斯分布,其相似度也转化为两个高斯分布的距离分布;
步骤6.5.2、归一化的高斯Wasserstein距离:
对于两个高斯分布μ1=N(m1,Σ1)和μ2=N(m2,Σ2),μ1和μ2之间的Wasserstein距离定义为:
其中,两个高斯分布分别表示为μ1和μ2,表示μ1和μ2的Wasserstein距离,m1是μ1的中心点坐标,m2是μ2的中心点坐标,Tr(A)表示矩阵A的迹,Σ1表示μ1的协方差矩阵,Σ2表示μ2的协方差矩阵,通过化简,公式(12)表示为:
其中,||·||F表示矩阵的Frobenius范数,公式进一步化简为:
其中,Na和Nb分别代表椭圆a和椭圆b的两个高斯分布,cxa表示椭圆a的中心点坐标的x值,cya表示分布椭圆a的中心点坐标的y值,wa表示椭圆a在x轴方向的直径,ha椭圆a在y轴方向的直径,cxb表示椭圆b的中心点坐标的x值,cyb表示分布椭圆b的中心点坐标的y值,wb表示椭圆b在x轴方向的直径,hb椭圆b在y轴方向的直径,此时,是一个距离度量,要将/>用作相似性度量,还需要进行指数归一化,获得一个新的归一化Wasserstein距离NWD,具体如下:
其中,Na和Nb分别代表椭圆a和椭圆b的两个高斯分布NWD(Na,Nb)是高斯分布Na和高斯分布Nb的归一化Wasserstein距离,exp(A)表示自然对数的底数e的A次方,C是数据集中目标的平均尺寸。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311072122.7A CN117079132A (zh) | 2023-08-24 | 2023-08-24 | 基于高斯距离损失的遥感图像目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311072122.7A CN117079132A (zh) | 2023-08-24 | 2023-08-24 | 基于高斯距离损失的遥感图像目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117079132A true CN117079132A (zh) | 2023-11-17 |
Family
ID=88714953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311072122.7A Pending CN117079132A (zh) | 2023-08-24 | 2023-08-24 | 基于高斯距离损失的遥感图像目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117079132A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117635924A (zh) * | 2024-01-25 | 2024-03-01 | 南京慧然科技有限公司 | 一种基于自适应知识蒸馏的低能耗目标检测方法 |
CN117746078A (zh) * | 2024-02-21 | 2024-03-22 | 杭州觅睿科技股份有限公司 | 一种基于用户自定义类别的物体检测方法及系统 |
CN117746078B (zh) * | 2024-02-21 | 2024-06-11 | 杭州觅睿科技股份有限公司 | 一种基于用户自定义类别的物体检测方法及系统 |
-
2023
- 2023-08-24 CN CN202311072122.7A patent/CN117079132A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117635924A (zh) * | 2024-01-25 | 2024-03-01 | 南京慧然科技有限公司 | 一种基于自适应知识蒸馏的低能耗目标检测方法 |
CN117635924B (zh) * | 2024-01-25 | 2024-05-07 | 南京慧然科技有限公司 | 一种基于自适应知识蒸馏的低能耗目标检测方法 |
CN117746078A (zh) * | 2024-02-21 | 2024-03-22 | 杭州觅睿科技股份有限公司 | 一种基于用户自定义类别的物体检测方法及系统 |
CN117746078B (zh) * | 2024-02-21 | 2024-06-11 | 杭州觅睿科技股份有限公司 | 一种基于用户自定义类别的物体检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111259930B (zh) | 自适应注意力指导机制的一般性目标检测方法 | |
CN110276269B (zh) | 一种基于注意力机制的遥感图像目标检测方法 | |
CN109977918B (zh) | 一种基于无监督域适应的目标检测定位优化方法 | |
CN110136154B (zh) | 基于全卷积网络与形态学处理的遥感图像语义分割方法 | |
Xie et al. | Multilevel cloud detection in remote sensing images based on deep learning | |
CN111950453B (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN110929577A (zh) | 一种基于YOLOv3的轻量级框架改进的目标识别方法 | |
CN105488528B (zh) | 基于改进自适应遗传算法的神经网络图像分类方法 | |
CN111091105A (zh) | 基于新的边框回归损失函数的遥感图像目标检测方法 | |
CN108021947B (zh) | 一种基于视觉的分层极限学习机目标识别方法 | |
CN109685152A (zh) | 一种基于dc-spp-yolo的图像目标检测方法 | |
CN111368769B (zh) | 基于改进锚点框生成模型的船舶多目标检测方法 | |
CN111681178B (zh) | 一种基于知识蒸馏的图像去雾方法 | |
CN113160062B (zh) | 一种红外图像目标检测方法、装置、设备及存储介质 | |
CN106780546B (zh) | 基于卷积神经网络的运动模糊编码点的身份识别方法 | |
CN114283285A (zh) | 交叉一致性自训练遥感图像语义分割网络训练方法及装置 | |
CN113627472A (zh) | 基于分层深度学习模型的智慧园林食叶害虫识别方法 | |
CN112364974B (zh) | 一种基于激活函数改进的YOLOv3算法 | |
CN117079132A (zh) | 基于高斯距离损失的遥感图像目标检测方法 | |
CN112560966A (zh) | 基于散射图卷积网络的极化sar图像分类方法、介质及设备 | |
CN111738052B (zh) | 基于深度学习的多特征融合高光谱遥感地物分类方法 | |
CN115131313A (zh) | 基于Transformer的高光谱图像变化检测方法及装置 | |
CN112329771A (zh) | 一种基于深度学习的建筑材料样本识别方法 | |
CN113487600A (zh) | 一种特征增强尺度自适应感知船舶检测方法 | |
CN114565594A (zh) | 基于软掩膜对比损失的图像异常检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |