CN117095255A - 基于采样偏移的无锚框遥感小目标检测优化方法与装置 - Google Patents

基于采样偏移的无锚框遥感小目标检测优化方法与装置 Download PDF

Info

Publication number
CN117095255A
CN117095255A CN202310956335.XA CN202310956335A CN117095255A CN 117095255 A CN117095255 A CN 117095255A CN 202310956335 A CN202310956335 A CN 202310956335A CN 117095255 A CN117095255 A CN 117095255A
Authority
CN
China
Prior art keywords
loss
prediction result
offset
sampling
centrality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310956335.XA
Other languages
English (en)
Inventor
孙世磊
郭子琪
何楚
王昱程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202310956335.XA priority Critical patent/CN117095255A/zh
Publication of CN117095255A publication Critical patent/CN117095255A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于采样偏移的无锚框遥感小目标检测优化方法与装置,涉及计算机视觉图像目标检测技术领域,该方法包括以下步骤:获取遥感图像,通过特征提取,得到遥感图像的特征图;将所述特征图,通过预测模块,获得分类预测结果、中心度预测结果、回归预测结果和采样偏移预测结果;计算分类预测结果的损失、中心度预测结果的损失、回归预测结果的损失和采样偏移预测结果的损失;将所述分类预测结果的损失、中心度预测结果的损失、回归预测结果的损失和采样偏移预测结果的损失相加得到整体损失,并根据所述整体损失对检测模型优化。本发明提供的方法能够有效提升基础目标检测网络的检测精度。

Description

基于采样偏移的无锚框遥感小目标检测优化方法与装置
技术领域
本发明属于计算机视觉图像目标检测技术领域,具体涉及一种基于采样偏移的无锚框遥感小目标检测优化方法与装置。
背景技术
基于深度学习的网络模型在通用目标检测领域取得了较高的精度。但在遥感图像领域,由于遥感图像分辨率高,目标尺寸分布范围相较于通用目标较大,其中小目标的占比更多。而小目标由于其本身分辨率低、包含信息量少的特性,检测精度相较于大中型目标较低。图像或特征增强的方法常被用来提升小目标的检测效果,但其并未从小目标本身特性出发,不能实际解决小目标检测的问题。
从目标检测器整体算法流程出发,在特征提取时由于多次下采样操作,小目标特征在低分辨率的高语义特征图上特征缺失,可使用特征金字塔结构以多尺度特征图的方式对其进行解决。在采样及正负样本划分过程中,小目标由于其尺寸较小,网络无法获取到有效的小目标正样本,同时也产生了较多的离群小目标GT。因此考虑通过解决采样问题进而提升小目标检测精度。
当前的目标检测技术按照采样方式划分主要可以分为框采样和点采样两大类。其中框采样的主要代表算法为两阶段RCNN、Faster RCNN、Cascade RCNN等算法,以及一阶段的SSD、RetinaNet等算法,以上框采样的方法均为基于锚框的网络模型,该类模型通过使用锚框对图像进行采样,网络预测的目标是预测框与锚框的偏差,通过回归偏差值进而对GT进行拟合。另一类点采样的方法为无锚框网络,该类网络的主要思想是利用去除锚框的设计来减少网络中的人工设计组件。点采样的方法包括基于关键点的无锚框网络(如CenterNet)和基于锚点的无锚框网络(如FCOS)。基于锚点的无锚框网络将锚框替换为锚点,依据锚点计算回归目标,同时网络预测锚点的相对偏差而非框位置。在锚框采样设计过程中,由于人工设计的锚框不够灵活,在基于锚框的算法中Guided Anchoring通过网络学习锚框的形状和位置,Meta Anchor通过元学习的方式使用锚框生成器来对锚框的生成进行指导。
无锚框的算法则通常使用特征图上的点在原图进行映射进而生成密集采样点,这种方法在锚点位置生成的过程中不够灵活导致正样本的生成受限。尤其是对于小目标而言,其尺寸过小很容易落在两个特征采样点之间,即步长以内,造成小目标GT无法与任何特征采样点进行匹配,进而无法对其进行回归。因而,无锚框网络亟需一种灵活的采样方式,减小离群小目标GT的产生,为网络提供更多的小目标正样本点,提升网络在小目标检测上的准确度。
发明内容
本申请提供一种基于采样偏移的无锚框遥感小目标检测优化方法与装置,其可以提升网络在小目标检测上的准确度。
为达到以上目的,本申请采用如下技术方案:
第一方面,提供一种基于采样偏移的无锚框遥感小目标检测优化方法,包括以下步骤:
获取遥感图像,通过特征提取,得到遥感图像的特征图;
将所述特征图,通过预测模块,获得分类预测结果、中心度预测结果、回归预测结果和采样偏移预测结果;
计算分类预测结果的损失、中心度预测结果的损失、回归预测结果的损失和采样偏移预测结果的损失;
将所述分类预测结果的损失、中心度预测结果的损失、回归预测结果的损失和采样偏移预测结果的损失相加得到整体损失,并根据所述整体损失对检测模型优化。
一些实施例中,所述获取遥感图像,通过特征提取,得到遥感图像的特征图,包括以下步骤:
根据公式:
f=F(I)
得到特征图f,其中F为特征金字塔网络中的FPN网络,I为初始调整像素值后的图像。
一些实施例中,所述将所述特征图,通过预测模块,获得中心度预测结果、分类预测结果、回归预测结果和采样偏移预测结果,包括以下步骤:
将特征图f送入FCOS模型的检测头部网络,得到中心度预测结果pctr、分类预测结果pcls和回归预测结果preg
通过公式:
pbias=C(D(x,offset))
得到采样偏移预测结果pbias,其中,offset为可变形卷积的输入偏移,D为可变形卷积操作(Deform Conv),C为改变通道维数的逐点卷积(1×1Conv),x为输入特征图。
一些实施例中,所述计算中心度预测结果的损失,包括:
根据公式:
得到中心度损失值lctr,其中Lctr为中心度损失,Pctr为中心度预测结果,Tctr为预设中心度目标值,CE为交叉熵损失函数,y为真实标签,p^为预测概率,γ>0为可调节因子,pt为引入的参数。
一些实施例中,所述计算分类预测结果的损失,包括:
根据公式:
得到分类损失值lcls,其中Lcls为分类损失,FL为焦点损失函数,Tcls为预设分类目标值,Pcls为分类预测结果,γ>0为可调节因子,pt为引入的参数。
一些实施例中,所述计算回归预测结果的损失,包括:
根据公式:
得到回归损失值lreg,Lreg为回归损失,Treg为预设回归目标值,Preg为回归预测结果,LIoU为交并比损失,Apred和Atgt分别是预测框面积包含像素集合和真值框包含像素集合,IoU为求出的两集合交集和并集的比。
一些实施例中,所述计算采样偏移预测结果的损失,包括:
根据公式:
得到偏移损失值lbias,其中Lbias为偏移损失,U为预设的均匀采样点,Bias为偏移操作,G为真值框,mind(d1,d2,…,dm)为采样点偏移预测损失,(xc,yc)为真值框中心点的坐标,(xp,yp)为偏移后的采样点坐标,d采样点距离最近的真值框中心点的欧式距离。
第二方面,提供一种基于采样偏移的无锚框遥感小目标检测优化装置,包括:
获取单元,用于获取遥感图像,通过特征提取,得到遥感图像的特征图;
预测单元,用于将所述特征图,通过预测模块,获得中心度预测结果、分类预测结果、回归预测结果和采样偏移预测结果;
计算单元,用于计算中心度预测结果的损失,计算分类预测结果的损失,计算回归预测结果的损失,计算采样偏移预测结果的损失;
优化单元,用于将所述多个损失相加得到整体损失,并根据所述整体损失对检测模型优化。
第三方面,提供一种计算机设备包括:处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现第一方面任意一项所述的方法。
第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现第一方面任意一项所述的方法。
本发明中,获取遥感图像,通过特征提取,得到遥感图像的特征图;将所述特征图,通过预测模块,获得分类预测结果、中心度预测结果、回归预测结果和采样偏移预测结果;计算分类预测结果的损失、中心度预测结果的损失、回归预测结果的损失和采样偏移预测结果的损失;将所述分类预测结果的损失、中心度预测结果的损失、回归预测结果的损失和采样偏移预测结果的损失相加得到整体损失,并根据所述整体损失对检测模型优化。本发明提供的方法能够有效提升基础目标检测网络的检测精度。
附图说明
图1为本发明实施例中一种基于采样偏移的无锚框遥感小目标检测优化方法的流程图;
图2为本发明实施例中一种基于采样偏移的无锚框遥感小目标检测优化装置的示意图;
图3为本发明实施例中采样点偏移示意图;
图4为本发明实施例中一种计算机设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种基于采样偏移的无锚框遥感小目标检测优化方法、装置、设备及存储介质,其可以在后处理及样本标签分配中使用,能够有效提升基础目标检测网络的检测精度。
参见图1,图1为本发明实施例提供的一种基于采样偏移的无锚框遥感小目标检测优化方法的流程示意图。如图1所示,该方法包括但不限于以下步骤:
S1.获取遥感图像,通过特征提取,得到遥感图像的特征图;
S2.将所述特征图,通过预测模块,获得分类预测结果、中心度预测结果、回归预测结果和采样偏移预测结果;
S3.计算分类预测结果的损失、中心度预测结果的损失、回归预测结果的损失和采样偏移预测结果的损失;
S4.将所述分类预测结果的损失、中心度预测结果的损失、回归预测结果的损失和采样偏移预测结果的损失相加得到整体损失,并根据所述整体损失对检测模型优化。
在步骤S1中,使用的训练数据集为AI-TOD数据集,该数据集为小目标数据集基准,平均样本大小为12.8个像素,其中包含8个类别,图像大小为800*800个像素。在预处理过程中,首先调整图片尺寸,这里使用初始数据集图像尺寸与目标图像尺寸一致,缩放后保持原图大小。接着,对图像进行随机水平翻转,每幅图像由0.5的概率可能进行翻转。最后进行图像像素值的归一化,每个像素点的RGB三通道减去像素均值[102.9801,115.9465,122.7717],并除以方差[1.0,1.0,1.0],得到规范化后的像素值。规范化后的图像按照批处理大小,送入网络中进行训练,使用的批处理大小为2。
所述特征处理过程包括特征提取和特征融合两步。特征提取网络使用通用ResNet50网络,特征融合网络使用基础FPN网络。将特征处理过程形式化为F,预处理后的图像形式化为I,最终生成的特征图为f,包括:
根据公式:
f=F(I)
得到特征图f,其中F为特征金字塔网络中的FPN网络,I为初始调整像素值后的图像。
进行特征处理后的特征图送入检测器的预测模块G进行预测,形成预测结果p,预测模块包括三个子网络,分别为分类子网络、回归子网络以及采样偏移子网络。其中,分类子网络由分类分支组成,回归子网络由回归分支和中心度分支组成,采样偏移子网络由采样偏移分支组成。由以上四个分支得到的预测结果分别为分类预测pcls、中心度预测pctr、回归预测preg以及采样偏移预测pbias
其中分类子网络由分类分支组成,分类分支输出预测结果pcls。对于特征图上的每一个位置,均有一个分类结果生成,得到pcls的形状为8×H×W,这里8是AI-TOD的类别数目。
示范性的,回归子网络由回归分支和中心度分支组成,二者共同决定了预测框的位置预测状况。preg和pctr的形状分别为4×H×W、1×H×W。其中preg的4个通道维度分别代表四个回归目标距离,即预测框距离真值框的左、右、上、下边框的距离(l,r,t,b);pctr的一个通道维度表示预测框位于真值框中心的程度,越偏离真值框中心,该值越小,该分支用于减少低质量的预测框。
示范性的,可以理解的是,分类子网络和回归子网络均由二维卷积、归一化和RELU激活函数构成。
示范性的,为方便后续运算,需要将网络得到的初始结果进行处理,得到最终的预测结果P。处理过程如下:首先,将预测结果的H×W维进行展平,并进行维度交换,得到pcls、preg和pctr的形状转化为HW×8、HW×4、HW×1。这里HW为特征图上的特征点总数,即采样总数。对于分类分支,此处获得的变化后结果即为处理后的分类预测Pcls。对于回归分支和中心度分支,由于只需要对为真的预测框进行位置回归和中心度回归,因此这里需要去除为假的预测框,即去除背景预测框。为此,使用分类分支的预测结果制作掩码,保留为真的预测框,即正样本。以最终得到的正样本数目为N为例,最终得到的回归预测Preg和中心度预测Pctr形状为N×4和N×1。
为实现小目标的有效采样,避免更多的离群小目标样本出现,本发明采用采样偏移子网络对模型进行重新设计。采样偏移子网络由采样偏移预测分支组成,其作用为对采样点的生成进行指导。
通过公式:
pbias=C(D(x,offset))
得到采样偏移预测结果pbias,其中,offset为可变形卷积的输入偏移,D为可变形卷积操作(Deform Conv),C为改变通道维数的逐点卷积(1×1Conv),x为输入特征图。
融合后的特征图经过3×3的二维卷积得到输入偏移,并经输入偏移与原始特征图作为可变形卷积的输入参数,可变形卷积过程D使得网络能够对采样点周围的特征敏感,改变了原始卷积的感受野形状,有利于采样点位置的学习。同时,使用逐点卷积降低通道维度,使其适配两个坐标轴的偏移量计算。
值得说明的,经过以上设计的网络结构后,得到的初始采样偏移预测结果pbias大小为2×H×W。这里的2表示位置变化的x和y坐标。
示范性的,以当个采样点的预测值(dx,dy)为例,可以理解的是,直接通过网络预测采样点的偏移量不够稳定,其取值范围过大会导致采样点在原图位置的变化过于随意,可能产生密集重叠或收敛慢等现象,因此需将偏移量的范围进行限制,这里设置缩放范围在两坐标轴上均为一半步长以内。为此,不直接使用网络预测值作为偏移量值,网络预测值与偏移量值的转换过程可形式化为:
其中,l函数为归一化操作,将其通过步长s进行长度缩放。如对于大小为100的特征图,s的值取8,即采样点变化范围为[-4,+4]。
示范性的,进行逐点转换后,得到最终的预测采样偏移量Pbias,其形状与pbias一致。
为了优化网络,计算各部分损失,应首先对各部分的拟合目标进行计算。拟合目标的计算以标注信息为输入,为各个采样点获取不同的正负样本属性以及所在位置的定位数值。待拟合的目标T包括四个部分,与预测结果对应:待拟合的分类目标Tcls、待拟合的中心度Tctr、待拟合的回归目标Treg以及待拟合的偏移Tbias
示范性的,为获取能够拟合的目标,首先要进行采样,以获得有效的正负样本。这里使用间隔步长对原图进行采样,由此可以对应到不同大小的特征图。如原图大小为800*800,间隔步长为8,则可以在原图上获取10000个采样点,与预测的100*100特征图相对应。此时采样点在原图上均匀分布。
获取到采样点后,分配样本正负的方式为当采样点在原图位置被标注框包含时,样本为正,否则为负。
示范性的,可以理解的是,对于遥感小目标而言,其过小的尺寸往往会使其覆盖的采样点量过小,从而导致小目标正样本量过少。而对于极小目标的情况,目标可能落在步长以内,即无任何一个采样点与小目标标注框匹配,这使得小目标无法被有效学习到。因此使用预测的采样偏移对采样点进行优化。
参见图3,设某采样点坐标为(x,y),经过采样偏移预测得到的采样偏移量(Δx,Δy)后,偏移向量在图3中显示为箭头形状,最终得到偏移后的采样点(x+Δx,y+Δy),在图3中显示为浅色点。经过模型的有效训练后,网络预测到的采样偏移能够使采样点向有效标注框移动,从而使分配为正标签的采样点增多。
获取有效采样点后,将对待拟合目标进行赋值,赋值过程如下:
对于分类目标,由原始标注框类别形成,这里设置背景类别编号为8,正常预测类别分别为0-7,并对所有预测框进行设置,形成分类目标Tcls的大小为n*1。
对于回归目标,由原始标注框位置信息形成,每一个标注框均有一个四维向量表示其位置信息,这里使用左上角和右下角点的坐标值。对于每一个标注框,都将其与特征图上的特征点进行对应,获取特征点落在标注框内的,作为图像正样本。与预测结果一致,将特征点到标注框的上下左右四个边界的距离l*、r*、t*、b*作为待拟合的回归目标。
在计算回归目标的过程中,使用以下中心度的形式化表达计算中心度目标。对每一个特征点,计算中心度目标centerness*如下:
示范性的,对形成的中心度目标和回归目标,同样使用分类额掩码进行筛选,得到同样与预测相同维度大小的Tctr、Treg
对于采样偏移目标,其待拟合目标Tbias为距离其最近的真值框(正样本)的中心点。为表示方便,本部分将不进行拟合目标生成,而是直接在损失计算模块进行整体采样偏移损失的计算。
经过以上过程,网络预测的拟合目标Tcls、Tctr、Treg均已得到,Tbias则在损失计算中直接生成。
一些实施例中,所述计算中心度预测结果的损失,包括:
根据公式:
得到中心度损失值lctr,其中Lctr为中心度损失,Pctr为中心度预测结果,Tctr为预设中心度目标值,CE为交叉熵损失函数,y为真实标签,p^为预测概率,γ>0为可调节因子,pt为引入的参数。
一些实施例中,所述计算分类预测结果的损失,包括:
根据公式:
得到分类损失值lcls,其中Lcls为分类损失,FL为焦点损失函数,Tcls为预设分类目标值,Pcls为分类预测结果,γ>0为可调节因子,pt为引入的参数。
一些实施例中,所述计算回归预测结果的损失,包括:
根据公式:
得到回归损失值lreg,Lreg为回归损失,Treg为预设回归目标值,Preg为回归预测结果,LIoU为交并比损失,Apred和Atgt分别是预测框面积包含像素集合和真值框包含像素集合,IoU为求出的两集合交集和并集的比。、其中,计算过程中,需将预测结果和拟合目标由到四个距离转化为坐标位置的形式,由左上角和右下角点的坐标位置值,可以得到采样点处的预测框以及真值框,进而通过交并比损失函数得到回归损失。
一些实施例中,所述计算采样偏移预测结果的损失,包括:
根据公式:
得到偏移损失值lbias,其中Lbias为偏移损失,U为预设的均匀采样点,Bias为偏移操作,G为真值框,mind(d1,d2,…,dm)为采样点偏移预测损失,(xc,yc)为真值框中心点的坐标,(xp,yp)为偏移后的采样点坐标,d采样点距离最近的真值框中心点的欧式距离。
经过损失计算得到损失结果l,其中l包含四部分:lctr、lcls、lreg和lbias,利用损失结果使用随机梯度下降算法进行反向传播,进而迭代更新检测器,直至损失函数值l趋近于平稳,最终得到优化后的弱小目标检测器。
一些实施例中,检测器训练过程中初始学习率设置为0.005,动量设置为0.9。设置整体学习的轮次为12轮,其中在第8轮和第11轮进行学习率的衰减,衰减率为0.0001。
以上模型设置以及训练方法能够在遥感小目标的场景下有效提升采样过程中小目标正样本的数量,从而使网络对小目标进行更加充分的训练。通过采样偏移分支网络指导特征采样点的生成,无锚框网络的锚点设置更加灵活,离群小目标的减少也使网络对于小目标的精度得到有效提升。
参见图2,本发明实施例第二方面提供一种基于采样偏移的无锚框遥感小目标检测优化装置,包括:
获取单元,用于获取遥感图像,通过特征提取,得到遥感图像的特征图;
预测单元,用于将所述特征图,通过预测模块,获得中心度预测结果、分类预测结果、回归预测结果和采样偏移预测结果;
计算单元,用于计算中心度预测结果的损失,计算分类预测结果的损失,计算回归预测结果的损失,计算采样偏移预测结果的损失;
优化单元,用于将所述多个损失相加得到整体损失,并根据所述整体损失对检测模型优化。
一些实施例中,所述获取单元,用于:
获取遥感图像,通过特征提取,得到遥感图像的特征图,包括以下步骤:
根据公式:
f=F(I)
得到特征图f,其中F为特征金字塔网络中的FPN网络,I为初始调整像素值后的图像。
一些实施例中,所述预测单元,用于:
将所述特征图,通过预测模块,获得中心度预测结果、分类预测结果、回归预测结果和采样偏移预测结果,包括以下步骤:
将特征图f送入FCOS模型的检测头部网络,得到中心度预测结果pctr、分类预测结果pcls和回归预测结果preg
通过公式:
pbias=C(D(x,offset))
得到采样偏移预测结果pbias,其中,offset为可变形卷积的输入偏移,D为可变形卷积操作(Deform Conv),C为改变通道维数的逐点卷积(1×1Conv),x为输入特征图。
一些实施例中,所述计算单元,用于:
计算中心度预测结果的损失,包括:
根据公式:
得到中心度损失值lctr,其中Lctr为中心度损失,Pctr为中心度预测结果,Tctr为预设中心度目标值,CE为交叉熵损失函数,y为真实标签,p^为预测概率,γ>0为可调节因子,pt为引入的参数。
一些实施例中,所述计算单元,还用于:
计算分类预测结果的损失,包括:
根据公式:
得到分类损失值lcls,其中Lcls为分类损失,FL为焦点损失函数,Tcls为预设分类目标值,Pcls为分类预测结果,γ>0为可调节因子,pt为引入的参数。
一些实施例中,所述计算单元,还用于:
计算回归预测结果的损失,包括:
根据公式:
得到回归损失值lreg,Lreg为回归损失,Treg为预设回归目标值,Preg为回归预测结果,LIoU为交并比损失,Apred和Atgt分别是预测框面积包含像素集合和真值框包含像素集合,IoU为求出的两集合交集和并集的比。
一些实施例中,所述计算单元,还用于:
计算采样偏移预测结果的损失,包括:
根据公式:
得到偏移损失值lbias,其中Lbias为偏移损失,U为预设的均匀采样点,Bias为偏移操作,G为真值框,mind(d1,d2,…,dm)为采样点偏移预测损失,(xc,yc)为真值框中心点的坐标,(xp,yp)为偏移后的采样点坐标,d采样点距离最近的真值框中心点的欧式距离。
需要说明的是,本申请实施例中的各步骤的步骤标号,其并不限制本申请技术方案中各操作的前后顺序。
需要说明的是,所属本领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各单元的具体工作过程,可以参考前述基于采样偏移的无锚框遥感小目标检测优化方法实施例中的对应过程,在此不再赘述。
上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图4所示的计算机设备上运行。
本申请实施例还提供了一种计算机设备,包括:通过系统总线连接的存储器、处理器和网络接口,存储器中存储有至少一条指令,至少一条指令由处理器加载并执行,以实现前述的基于采样偏移的无锚框遥感小目标检测优化方法的全部步骤或部分步骤。
其中,网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
处理器可以是CPU,还可以是其他通用处理器、DSP(Digital Signal Processor,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field Programmable Gate Array,现场可编程逻辑门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件分立硬件组件等。通用处理器可以是微处理器,或者该处理器也可以是任何常规的处理器等,处理器是计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如视频播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如视频数据、图像数据等)等。此外,存储器可以包括高速随存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘、SMC(Smart MediaCard,智能存储卡)、SD(Secure digital,安全数字)卡、闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件或其他易失性固态存储器件。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,实现前述的基基于采样偏移的无锚框遥感小目标检测优化方法的全部步骤或部分步骤。
本申请实施例实现前述的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、ROM(Read-Only memory,只读存储器)、RAM(Random Access memory,随机存取存储器)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、服务器或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于采样偏移的无锚框遥感小目标检测优化方法,其特征在于,包括以下步骤:
获取遥感图像,通过特征提取,得到遥感图像的特征图;
将所述特征图,通过预测模块,获得分类预测结果、中心度预测结果、回归预测结果和采样偏移预测结果;
计算分类预测结果的损失、中心度预测结果的损失、回归预测结果的损失和采样偏移预测结果的损失;
将所述分类预测结果的损失、中心度预测结果的损失、回归预测结果的损失和采样偏移预测结果的损失相加得到整体损失,并根据所述整体损失对检测模型优化。
2.如权利要求1所述的一种基于采样偏移的无锚框遥感小目标检测优化方法,其特征在于,所述获取遥感图像,通过特征提取,得到遥感图像的特征图,包括以下步骤:
根据公式:
f=F(I)
得到特征图f,其中F为特征金字塔网络中的FPN网络,I为初始调整像素值后的图像。
3.如权利要求2所述的一种基于自适应损失函数优化的弱小目标检测方法,其特征在于,所述将所述特征图,通过预测模块,获得中心度预测结果、分类预测结果、回归预测结果和采样偏移预测结果,包括以下步骤:
将特征图f送入FCOS模型的检测头部网络,得到中心度预测结果pctr、分类预测结果pcls和回归预测结果preg
通过公式:
pbias=C(D(x,offset))
得到采样偏移预测结果pbias,其中,offset为可变形卷积的输入偏移,D为可变形卷积操作(Deform Conv),C为改变通道维数的逐点卷积(1×1Conv),x为输入特征图。
4.如权利要求3所述的一种基于采样偏移的无锚框遥感小目标检测优化方法,其特征在于,所述计算中心度预测结果的损失,包括:
根据公式:
得到中心度损失值lctr,其中Lctr为中心度损失,Pctr为中心度预测结果,Tctr为预设中心度目标值,CE为交叉熵损失函数,y为真实标签,p^为预测概率,γ>0为可调节因子,pt为引入的参数。
5.如权利要求4所述的一种基于采样偏移的无锚框遥感小目标检测优化方法,其特征在于,所述计算分类预测结果的损失,包括:
根据公式:
得到分类损失值lcls,其中Lcls为分类损失,FL为焦点损失函数,Tcls为预设分类目标值,Pcls为分类预测结果,γ>0为可调节因子,pt为引入的参数。
6.如权利要求5所述的一种基于采样偏移的无锚框遥感小目标检测优化方法,其特征在于,所述计算回归预测结果的损失,包括:
根据公式:
得到回归损失值lreg,Lreg为回归损失,Treg为预设回归目标值,Preg为回归预测结果,LIoU为交并比损失,Apred和Atgt分别是预测框面积包含像素集合和真值框包含像素集合,IoU为求出的两集合交集和并集的比。
7.如权利要求6所述的一种基于采样偏移的无锚框遥感小目标检测优化方法,其特征在于,所述计算采样偏移预测结果的损失,包括:
根据公式:
得到偏移损失值lbias,其中Lbias为偏移损失,U为预设的均匀采样点,Bias为偏移操作,G为真值框,mind(d1,d2,…,dm)为采样点偏移预测损失,(xc,yc)为真值框中心点的坐标,(xp,yp)为偏移后的采样点坐标,d采样点距离最近的真值框中心点的欧式距离。
8.一种基于采样偏移的无锚框遥感小目标检测优化方法装置,其特征在于,包括:
获取单元,用于获取遥感图像,通过特征提取,得到遥感图像的特征图;
预测单元,用于将所述特征图,通过预测模块,获得中心度预测结果、分类预测结果、回归预测结果和采样偏移预测结果;
计算单元,用于计算中心度预测结果的损失,计算分类预测结果的损失,计算回归预测结果的损失,计算采样偏移预测结果的损失;
优化单元,用于将所述多个损失相加得到整体损失,并根据所述整体损失对检测模型优化。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的方法的步骤。
CN202310956335.XA 2023-07-31 2023-07-31 基于采样偏移的无锚框遥感小目标检测优化方法与装置 Pending CN117095255A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310956335.XA CN117095255A (zh) 2023-07-31 2023-07-31 基于采样偏移的无锚框遥感小目标检测优化方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310956335.XA CN117095255A (zh) 2023-07-31 2023-07-31 基于采样偏移的无锚框遥感小目标检测优化方法与装置

Publications (1)

Publication Number Publication Date
CN117095255A true CN117095255A (zh) 2023-11-21

Family

ID=88776292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310956335.XA Pending CN117095255A (zh) 2023-07-31 2023-07-31 基于采样偏移的无锚框遥感小目标检测优化方法与装置

Country Status (1)

Country Link
CN (1) CN117095255A (zh)

Similar Documents

Publication Publication Date Title
CN110163080B (zh) 人脸关键点检测方法及装置、存储介质和电子设备
EP3979200A1 (en) Video target tracking method and apparatus, computer device and storage medium
US11816570B2 (en) Method for accelerated detection of object in videos, server, and non-transitory computer readable storage medium
CN110378235B (zh) 一种模糊人脸图像识别方法、装置及终端设备
CN110532897B (zh) 零部件图像识别的方法和装置
CN111160202B (zh) 基于ar设备的身份核验方法、装置、设备及存储介质
CN110717851A (zh) 图像处理方法及装置、神经网络的训练方法、存储介质
KR20200145827A (ko) 얼굴 특징 추출 모델 학습 방법, 얼굴 특징 추출 방법, 장치, 디바이스 및 저장 매체
CN110991380A (zh) 人体属性识别方法、装置、电子设备以及存储介质
CN112419170A (zh) 遮挡检测模型的训练方法及人脸图像的美化处理方法
CN111695462A (zh) 一种人脸识别方法、装置、存储介质和服务器
CN115018039A (zh) 一种神经网络蒸馏方法、目标检测方法以及装置
CN114333062B (zh) 基于异构双网络和特征一致性的行人重识别模型训练方法
CN114359789B (zh) 视频图像的目标检测方法、装置、设备及介质
CN113744280B (zh) 图像处理方法、装置、设备及介质
CN111353429A (zh) 基于眼球转向的感兴趣度方法与系统
CN112101185B (zh) 一种训练皱纹检测模型的方法、电子设备及存储介质
CN114003671A (zh) 一种地图图幅编码识别的方法及其识别系统
CN111160240B (zh) 图像对象的识别处理方法、装置及智能设备、存储介质
CN112949423A (zh) 物体识别方法、物体识别装置及机器人
CN110135224B (zh) 一种监控视频的前景目标提取方法及系统、存储介质及终端
CN117095255A (zh) 基于采样偏移的无锚框遥感小目标检测优化方法与装置
CN112347843B (zh) 一种训练皱纹检测模型的方法及相关装置
CN112967309B (zh) 一种基于自监督学习的视频目标分割方法
CN114863199A (zh) 一种基于优化锚框机制的目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination