CN112446301B - 一种遥感图像多类别目标检测方法和系统 - Google Patents

一种遥感图像多类别目标检测方法和系统 Download PDF

Info

Publication number
CN112446301B
CN112446301B CN202011221705.8A CN202011221705A CN112446301B CN 112446301 B CN112446301 B CN 112446301B CN 202011221705 A CN202011221705 A CN 202011221705A CN 112446301 B CN112446301 B CN 112446301B
Authority
CN
China
Prior art keywords
frame
stage
irregular
scale
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011221705.8A
Other languages
English (en)
Other versions
CN112446301A (zh
Inventor
薛健
侯利萍
吕科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Chinese Academy of Sciences
Original Assignee
University of Chinese Academy of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Chinese Academy of Sciences filed Critical University of Chinese Academy of Sciences
Priority to CN202011221705.8A priority Critical patent/CN112446301B/zh
Publication of CN112446301A publication Critical patent/CN112446301A/zh
Application granted granted Critical
Publication of CN112446301B publication Critical patent/CN112446301B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于图像处理领域,涉及一种遥感图像多类别目标检测方法和系统,包括以下步骤:S1通过不规则金字塔特征提取网络提取输入图像的不规则多尺度特征图;S2在不规则多尺度特征图上,每个位置点上设置锚点框;S3将不规则多尺度特征图和锚点框输入第一阶段检测子网络,设置第一阶段检测子网络的损失函数,并根据第一阶段的损失函数输出第一阶段的预测框;S4将不规则多尺度特征图和第一阶段的预测框输入第二个阶段检测子网络;设置第二个阶段检测子网络的损失函数,并根据第二阶段的损失函数输出第二阶段的预测框;S5根据第二阶段的预测框获取最终目标。其提升了对于多角度目标尤其是狭长型目标的检测性能。

Description

一种遥感图像多类别目标检测方法和系统
技术领域
本发明涉及一种遥感图像多类别目标检测方法和系统,属于图像处理技术领域。
背景技术
目标检测方法是计算机视觉一项重要的任务之一,广泛应用于物体检测、文字检测、遥感目标检测等领域。其中,随着遥感技术的发展,遥感图像分辨率的提高,对 于在遥感图像上的目标检测性能也提出了更高的要求。自然场景下的图像,目标通常 呈现垂直方向,尺寸大而且清晰。而遥感图像上的目标,具有任意角度,狭长物体多, 类别之间尺度差异大以及不同尺度之间的目标数据量差异大等特点,因此自然图像下 的目标检测算法并不适用于遥感图像。
目前基于深度学习的算法在目标检测领域取得了巨大的进步,其中双阶段目标检测算法较单阶段目标检测算法在精度上有优势,在速度上则略逊一筹。以文献("Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks", S.Ren,et al.,IEEE Transactions on Pattern Analysis and Machine Intelligence,39(6),1137-1149,20170601)为代表的双阶段目标检测算法和以 RetinaNet("Focal Loss forDense Object Detection",T.Lin,et al.,2017 IEEE International Conference onComputer Vision(ICCV),Venice,2999-3007,2017) 为代表的单阶段目标检测算法在自然图像下的目标检测取得了令人瞩目的效果,然而 这些方法并不适合直接应用于遥感图像。一些学者基于性能优异的自然图像目标检测 算法,结合旋转框的定位方式,提出适用于遥感图像多类别目标检测的算法,并取得 了一定的成效。
而带有角度的旋转框的定位方式,由于角度的周期性,同样也带来了定位框的边界问题。此外,遥感数据集通常具有长尾特点,不同尺度目标之间的数量上的巨大差 异也大大阻碍了检测性能。目前一些工作针对密集小目标的研究取得了一定成效,但 是很少有工作关注狭长目标的检测效果。由于单阶段算法在精度上的劣势,多数的细 分领域的研究工作依旧基于双阶段算法。为了兼顾检测速度,提升算法性能,提升单 阶段的检测精度显得尤为重要。
综合上述分析,研究能有效处理任意角度的目标、狭长目标多、尺度分布不平衡,检测速度慢等难点的高性能多类遥感目标检测方法,显得尤为重要。因此,亟需一种 新的遥感图像检测手段来进一步提高目标检测的准确度。
发明内容
针对上述问题,本发明的目的是提供了一种遥感图像多类别目标检测方法和系统, 其可以有效处理多角度多类别以及狭长目标。
为实现上述目的,本发明采取以下技术方案:一种遥感图像多类别目标检测方法,包括以下步骤:S1通过不规则金字塔特征提取网络提取输入图像的不规则多尺度特征 图;S2在不规则多尺度特征图上,每个位置点上设置锚点框;S3将不规则多尺度特征 图和锚点框输入第一阶段检测子网络,设置第一阶段检测子网络的损失函数,并根据 第一阶段的损失函数输出第一阶段的预测框;S4将不规则多尺度特征图和第一阶段的 预测框输入第二个阶段检测子网络;设置第二个阶段检测子网络的损失函数,并根据 第二阶段的损失函数输出第二阶段的预测框;S5根据第二阶段的预测框获取最终目标。
进一步,步骤S1中,不规则特征金字塔特征提取网络包括金字塔特征提取网络和不规则卷积模块,在金字塔特征提取网络末尾插入不规则卷积模块。
进一步,金字塔特征提取网络包括自底向上的路径,自顶向下的路径和中间的连接部分,自底向上的路径采用ResNet50提取特征,作为网络的前馈计算,下采样通过 卷积核大小为3×3,步长为2的卷积层实现,自底向上的路径和自顶向下的路径通过 相同尺度特征图映射相加连接,在自顶向下的路径中,经过两次上采样得到金字塔尺 度图{P3,P4,P5},上采样通过最近邻插值法,通过自底向上的路径和自顶向下的路径以 及中间的连接部分,得到多尺度特征图{P3,P4,P5,P6,P7}。
进一步,不规则卷积模块由三个卷积核分别为1×k,1×k,k×k的并行分支组 成,k为卷积核大小,取自然整数;输入图像经过金字塔特征提取网络,得到多尺度特 征图(P3,P4,P5,P6,P7},多尺度特征图经过三个并行分支后,进行映射相加,再经过ReLU 激活函数,得到整合之后不规则多尺度特征图{A3,A4,A5,A6,A7}。
进一步,步骤S2中每个位置分别设置不同尺度大小和长宽比例的锚点框。
进一步,步骤S3和S4中的检测子网络由并行的分类分支和回归分支组成,分别 用来预测目标的类别分支和目标的定位坐标,两个分支共享参数。
进一步,分类分支由5个卷积层组成,在最后一层卷积层中,得到预测框分类分 数与参数{x,y,w,h,θ}的偏置值,其中,(x,y)代表着预测框的中心点坐标,w,h分别代 表预测框的宽和长,θ代表预测框的角度,与x轴呈锐角的边定义为框宽w,相邻边定 义为h。
进一步,偏置值的计算公式为:
tx=(x-xa)/wa,ty=(y-ya)/ha
tw=log(w/wa),th=log(h/ha),tθ=θ-θa
t′x=(x′-xa)/wa,t′y=(y′-ya)/ha
t′w=log(w/wa),t′y=(y′-ya)/ha,t′θ=θ′-θa
变量x,xa,x′分别表示预测的矩形框、锚点框和真实框的中心点的x坐标值, y,ya,y′分别表示预测的矩形框、锚点框和真实框的中心点的y坐标值,w,wa,w′ 分别表示预测的矩形框、锚点框和真实框的框宽,h,ha,h′分别表示预测的矩形框、锚 点框和真实框的中心点的框长,θ,θa,θ′分别表示预测的矩形框、锚点框和真实框的中 心点的旋转角度,tx,t′x分别表示预测的矩形框和锚点框相对真实框的x坐标值的偏置 值;tw,t′w分别表示预测的矩形框和锚点框相对真实框的框宽的偏置值。
进一步,步骤S3和S4中,损失函数包括:尺度平衡回归损失函数LArea解决数据 集尺度不平衡问题,其公式为:
Figure BDA0002762253530000031
IoU平衡回归损失函数LIoU解决角度周期性问题,其公式为:
Figure BDA0002762253530000032
平衡回归损失函数LAI同时解决数据集尺度不平衡问题和角度周期性问题,其公式为:
Figure BDA0002762253530000033
其中,i表示每个预测框的索引,Pi用来判断预测框对应的真值框是否为前景目标, 若是前景Pi值为1,否则值为0;αi表示尺度权重函数,βi表示IoU权重函数,Ls表示Smooth L1函数,定义为:
Figure BDA0002762253530000034
Figure BDA0002762253530000035
Figure BDA0002762253530000036
其中,ai表示与预测框i对应的真值框归一化后的面积,bi表示预测框i与对应的真值框IoU值。
本发明还公开了一种遥感图像多类别目标检测系统,包括:特征提取模块,用于通过不规则金字塔特征提取网络提取输入图像的不规则多尺度特征图;标记模块,用 于在不规则多尺度特征图上,在每个位置点上设置锚点框;第一阶段检测模块,用于 将不规则多尺度特征图和锚点框输入第一阶段检测子网络,设置第一阶段检测子网络 的损失函数,并根据第一阶段的损失函数输出第一阶段的预测框;第二阶段检测模块, 用于将不规则多尺度特征图和第一阶段的预测框输入第二个阶段检测子网络;设置第 二个阶段检测子网络的损失函数,并根据第二阶段的损失函数输出第二阶段的预测框; 输出模块,用于根据第二阶段的预测框获取最终目标。
本发明由于采取以上技术方案,其具有以下优点:
1、本发明提升了对于多角度目标的检测性能,本发明通过加入不规则卷积,设计了不规则金字塔特征提取网络,从整体上提升了大部分检测目标的精度,对于狭长目 标检测效果的提升尤为明显。
2、本发明针对数据尺度不平衡问题和旋转框的角度周期性问题,设计了三种回归损失函数,对于不同问题可选择对应的损失函数,尺度平衡回归损失函数依据检测目 标的尺度大小来调整损失权重,减小尺度不平衡的影响,从而提升整体的检测性能; IoU平衡回归损失函数纠正了由角度周期性带来的定位偏差,提升了对于旋转目标的 定位性能;平衡回归损失函数结合了以上两种损失函数,用于同时解决尺度平衡与角 度周期性问题。
3、本发明基于单阶段检测算法,在保持高速的前提下,大大提升了检测精度,在实际的工业应用中,本发明能有效地检测任意角度的目标,克服数据尺度不平衡,狭 长目标多等问题,可广泛应用于可见光遥感图像目标检测、文字检测、工业零件瑕疵 检测等多种场景下。
附图说明
图1是本发明一实施例中遥感图像多类别目标检测方法的网络结构示意图;
图2是本发明一实施例中不规则金字塔特征提取网络的结构示意图;
图3是本发明一实施例中尺度平衡因子损失函数的曲线图;
图4是本发明一实施例中IoU平衡因子损失函数的曲线图;
图5是本发明一实施例中对于ship和harbor类型的目标检测结果的对照图,其中,图5(a)是现有技术中RetinaNet网络的检测结果;图5(b)是本发明中方法的检测 结果。
具体实施方式
为了使本领域技术人员更好的理解本发明的技术方向,通过具体实施例对本发明进行详细的描绘。然而应当理解,具体实施方式的提供仅为了更好地理解本发明,它 们不应该理解成对本发明的限制。在本发明的描述中,需要理解的是,所用到的术语 仅仅是用于描述的目的,而不能理解为指示或暗示相对重要性。
实施例一
本实施例公开了一种遥感图像多类别目标检测方法,如图1所示,包括以下步骤:
S1通过不规则金字塔特征提取网络提取输入图像的不规则多尺度特征图。
本实施例中数据采用遥感可见光航拍图像DOTA数据集(A Large-scale Datasetfor Object DeTection in Aerial Images),本数据集包含15个种类的目标,且小尺 度和大尺度目标之间的数量极度不平衡。将训练集图像统一切割为600×600的图像I, 输送入网络之后,图像I以800×800的尺度作为输入图像输入不规则特征金字塔特征 提取网络中进行训练。
其中,15个种类分别为:plane(PL),baseball diamond(BD),bridge(BR), groundtrack field(GTF),small vehicle(SV),large vehicle(LV),ship(SH), tennis court(TC),basketball court(BC),storage tank(ST),soccer ball field(SBF),roundabout(RA),harbor(HA),swimming pool(SP)和helicopter (HC)。
如图2所示,不规则特征金字塔特征提取网络包括金字塔特征提取网络和不规则卷积模块,在金字塔特征提取网络末尾插入不规则卷积模块。金字塔特征提取网络包 括自底向上的路径,自顶向下的路径和中间的连接部分,自底向上的路径采用 ResNet50提取特征,作为网络的前馈计算,下采样通过卷积核大小为3×3,步长为2 的卷积层实现,本实施例采用3种尺度的特征图{C3,C4,C5},与输入图像相比分别具有 {8,6,32}的步长,不同卷积层对应不同的尺度。自底向上的路径和自顶向下的路径通过 相同尺度特征图映射相加连接,在自顶向下的路径中,经过两次上采样得到金字塔尺 度图{P3,P4,P5},上采样通过最近邻插值法,即P6是P5通过步长为2卷积核为3×3的卷 积层得到,P7是P6通过卷积核为3×3步长为2的卷积层得到。通过自底向上的路径和 自顶向下的路径以及中间的连接部分,得到多尺度特征图{P3,P4,P5,P6,P7}。多尺度特 征图特征图经过不规则卷积模块突出目标尤其是狭长目标的特征,以提升整体目标的 特征表达空间。不规则卷积模块由三个卷积核分别为1×k,1×k,k×k的并行分支 组成,k为卷积核大小,取自然整数;输入图像经过金字塔特征提取网络,得到多尺度 特征图{P3,P4,P5,P6,P7},多尺度特征图经过三个并行分支后,进行映射相加,再经过 ReLu激活函数,得到整合之后不规则多尺度特征图{A3,A4,A5,A6,A7}。
S2在不规则多尺度特征图上,在每个位置点设置锚点框。
在得到的不规则多尺度特征图{A3,A4,A5,A6,A7}上的每个位置设置垂直锚点框,其中,每个位置分别设置不同尺度大小和长宽比例的锚点框。锚点框的设置可以依据 数据集的不同,需要检测的物体特征做出相应的调整。在本实施例中,设置了3种尺 度{20,21/3,22/3}和7种长宽比例{1,1/2,2,1/3,3,1/5,5}。
S3将不规则多尺度特征图和锚点框输入第一阶段检测子网络,设置第一阶段检测子网络的损失函数,并根据第一阶段的损失函数输出第一阶段的预测框。
检测子网络由并行的分类分支和回归分支组成,分别用来预测目标的类别分支和目标的定位坐标,两个分支共享参数。分类分支由5个卷积层组成,卷积核均为3×3, 步长均为1,前4层的通道数均为256,最后一层的通道数为k×A,k代表数据集的类 别个数,A代表每个位置设置的锚点框个数;在本实施例中k为15,A为21。在最后一 层卷积层中,得到预测框分类分数与参数{x,y,w,h,θ}的偏置值,其中,(x,y)代表着预 测框的中心点坐标,w,h分别代表预测框的宽和长,θ代表预测框的角度,与x轴呈锐角 的边定义为框宽w,相邻边定义为h。回归分支中,同样含有5层卷积网络,卷积核均 为3×3,步长均为1,前4层的通道数均为256,最后一层的通道数为5×A,5代表 每个锚点框的预测参数{x,y,w,h,θ}。在进行回归预测时,回归的是偏置值
偏置值的计算公式为:
tx=(x-xa)/wa,ty=(y-ya)/ha
tw=log(w/wa),th=log(h/ha),tθ=θ-θa
t′x=(x′-xa)/wa,t′y=(y′-ya)/ha
t′w=log(w/wa),t′y=(y′-ya)/ha,t′θ=θ′-θa
变量x,xa,x′分别表示预测的矩形框、锚点框和真实框的中心点的x坐标值, y,ya,y′分别表示预测的矩形框、锚点框和真实框的中心点的y坐标值,w,wa,w′ 分别表示预测的矩形框、锚点框和真实框的框宽,h,ha,h′分别表示预测的矩形框、锚 点框和真实框的中心点的框长,θ,θa,θ′分别表示预测的矩形框、锚点框和真实框的中 心点的旋转角度,tx,t′x分别表示预测的矩形框和锚点框相对真实框的x坐标值的偏置 值;tw,t′w分别表示预测的矩形框和锚点框相对真实框的框宽的偏置值。
损失函数通过回归损失与分类损失相加得到,可表示为L=Lcls+Lreg,Lcls代表 分类损失函数,Lreg代表回归损失函数。Lcls采用Focal Loss损失函数。
对于第一阶段的损失函数的设置,可以根据不同的数据集或者需求设置。本发明提出了尺度平衡回归损失函数LArea来解决尺度不平衡问题,IoU平衡回归损失函数 LIoU来解决角度周期性问题,以及LAI平衡回归损失函数用以同时解决以上两种问题, 对于不同的问题可采用不用的损失函数。在本实施例中,考虑到数据集同时具有尺度 不平衡和角度周期性问题,故选取LAI损失函数作为回归损失。算法网络根据损失值不 断调整权重,使得网络预测越来越接近真实值。在其他情况下,若只想要解决尺度不 平衡问题,可采用Larea作为回归损失函数;若只想要解决角度周期性问题,可采用LIoU作为回归损失函数;第一阶段的输出初步的预测框。
如图3所示,尺度平衡回归损失函数LArea解决数据集尺度不平衡问题,其公式为:
Figure BDA0002762253530000061
如图4所示,IoU平衡回归损失函数LIoU解决角度周期性问题,其公式为:
Figure BDA0002762253530000071
平衡回归损失函数LAI同时解决数据集尺度不平衡问题和角度周期性问题,其公式为:
Figure BDA0002762253530000072
其中,i表示每个预测框的索引,Pi用来判断预测框对应的真值框是否为前景目标, 若是前景Pi值为1,否则值为0;αi表示尺度权重函数,βi表示IoU权重函数,Ls表示Smooth L1函数,定义为:
Figure BDA0002762253530000073
Figure BDA0002762253530000074
Figure BDA0002762253530000075
其中,ai表示与预测框i对应的真值框归一化后的面积,bi表示预测框i与对应的真值框IoU值。
S4将不规则多尺度特征图和第一阶段的预测框输入第二个阶段检测子网络;设置第二个阶段检测子网络的损失函数,并根据第二阶段的损失函数输出第二阶段的预测 框。第一阶段检测子网络和第二阶段检测子网络的网络结构相同,只是二者输入的数 据不同。本步骤中的损失函数的设置方法可采用与步骤S3中相同的方法,或现有技术 中其他损失函数。
如图1所示,将步骤S1得到的不规则多尺度特征图经过两个并行分支,第一个分支先经过卷积核1×5的卷积层,再经过卷积核为5×1的卷积层,第二个分支为卷积核 为1×1的卷积层,将两个分支的输出相加,作为第二检测阶段输入的特征图。第二检 测阶段的子网络与第一个检测阶段的子网络结构相同,将第一检测阶段得到的预测框 作为第二阶段检测子网络的锚点框,从而对第一检测检测子网络的预测的结果进一步 调整,得到更准确的旋转预测框。本实施例经过试验证实,在DOTA数据集上同时存在 尺度不平衡问题和角度周期性问题,因此在本步骤中采用LAI平衡回归损失函数。
S5根据第二阶段的预测框获取最终目标。
在本实施例中,执行算法的计算机的CPU为英特尔i9,计算机操作系统为Ubuntu16.04,CUDA版本为9.0,使用的神经网络框架为TensorFlow,版本为1.13。在 训练过程中,学习率在前29k步从0逐渐上升至5×10-4,共训练550k步,根据不同 的训练集大小,可适当调整参数,训练完成之后可得到网络的权重,在测试阶段,输 入待图像通过权重对旋转目标进行分类和旋转框定位。
综上所述,本发明通过上述步骤,即可实现对于可见光图像上多类旋转目标的检测。
为验证本发明所提方法的有效性和实用性,表格1给出在DOTA数据集上的一组 实测图像的检测结果。由表1可以看出,与RetinaNet相比,本发明提出的改进算法 对于多类任意角度的遥感目标有更好的性能。使用本实施例中方法对于绝大多数类别 尤其是狭长目标有较大提升,mAP值提升6.58%,证明了发明的有效性。此外,如图 5(a)和图5(b)的可视化检测结果也可说明本发明的性能优越性。本发明提出的不规则 金字塔特征提取网络和三种平衡回归损失函数也可以灵活应用于其他网络框架中。
表1 DOTA数据集上的一组实测图像的检测结果
Figure BDA0002762253530000081
实施例二
基于相同的发明构思,本实施例公开了一种遥感图像多类别目标检测系统,包括:
特征提取模块,用于通过不规则金字塔特征提取网络提取输入图像的不规则多尺度特征图;
标记模块,用于在不规则多尺度特征图上,在每个位置点上设置锚点框;
第一阶段检测模块,用于将不规则多尺度特征图和锚点框输入第一阶段检测子网络,设置第一阶段检测子网络的损失函数,并根据第一阶段的损失函数输出第一阶段 的预测框;
第二阶段检测模块,用于将不规则多尺度特征图和第一阶段的预测框输入第二个阶段检测子网络;设置第二个阶段检测子网络的损失函数,并根据第二阶段的损失函 数输出第二阶段的预测框;输出模块,用于根据第二阶段的预测框获取最终目标。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解: 依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范 围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。上述内 容仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术 领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本 申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种遥感图像多类别目标检测方法,其特征在于,包括以下步骤:
S1通过不规则金字塔特征提取网络提取输入图像的不规则多尺度特征图;
所述步骤S1中,所述不规则金字塔特征提取网络包括金字塔特征提取网络和不规则卷积模块,在所述金字塔特征提取网络末尾插入所述不规则卷积模块;
S2在所述不规则多尺度特征图上,每个位置点上设置锚点框;
S3将所述不规则多尺度特征图和所述锚点框输入第一阶段检测子网络,设置所述第一阶段检测子网络的损失函数,并根据第一阶段的损失函数输出第一阶段的预测框;
S4将所述不规则多尺度特征图和所述第一阶段的预测框输入第二个阶段检测子网络;设置所述第二个阶段检测子网络的损失函数,并根据第二阶段的损失函数输出第二阶段的预测框;
S5根据所述第二阶段的预测框获取最终目标。
2.如权利要求1所述的遥感图像多类别目标检测方法,其特征在于,所述金字塔特征提取网络包括自底向上的路径,自顶向下的路径和中间的连接部分,自底向上的路径采用ResNet50提取特征,作为网络的前馈计算,下采样通过卷积核大小为3×3,步长为2的卷积层实现,所述自底向上的路径和自顶向下的路径通过相同尺度特征图映射相加连接,在自顶向下的路径中,经过两次上采样得到金字塔尺度图{P3,P4,P5},上采样通过最近邻插值法,通过自底向上的路径和自顶向下的路径以及中间的连接部分,得到多尺度特征图{P3,P4,P5,P6,P7}。
3.如权利要求2所述的遥感图像多类别目标检测方法,其特征在于,所述不规则卷积模块由三个卷积核分别为1×k,1×k,k×k的并行分支组成,k为卷积核大小,取自然整数;所述输入图像经过所述金字塔特征提取网络,得到多尺度特征图{P3,P4,P5,P6,P7},所述多尺度特征图经过三个所述并行分支后,进行映射相加,再经过ReLU激活函数,得到整合之后不规则多尺度特征图{A3,A4,A5,A6,A7}。
4.如权利要求1所述的遥感图像多类别目标检测方法,其特征在于,所述步骤S2中每个位置分别设置不同尺度大小和长宽比例的锚点框。
5.如权利要求1所述的遥感图像多类别目标检测方法,其特征在于,所述步骤S3和S4中的检测子网络由并行的分类分支和回归分支组成,分别用来预测目标的类别分支和目标的定位坐标,两个分支共享参数。
6.如权利要求5所述的遥感图像多类别目标检测方法,其特征在于,所述分类分支由5个卷积层组成,在最后一层卷积层中,得到预测框分类分数与参数{x,y,w,h,θ}的偏置值,其中,(x,y)代表着预测框的中心点坐标,w,h分别代表预测框的宽和长,θ代表预测框的角度,与x轴呈锐角的边定义为框宽w,相邻边定义为h。
7.如权利要求6所述的遥感图像多类别目标检测方法,其特征在于,所述偏置值的计算公式为:
tx=(x-xa)/wa,ty=(y-ya)/ha
tw=log(w/wa),th=log(h/ha),tθ=θ-θa
t′x=(x′-xa)/wa,t′y=(y′-ya)/ha
t′w=log(w/wa),t′y=(y′-ya)/ha,t′θ=θ′-θa
其中,变量x,xa,x′分别表示预测的矩形框、锚点框和真实框的中心点的x坐标值,y,ya,y′分别表示预测的矩形框、锚点框和真实框的中心点的y坐标值,w,wa分别表示预测的矩形框和锚点框的框宽,h,ha分别表示预测的矩形框和锚点框的中心点的框长,θ,θa,θ′分别表示预测的矩形框、锚点框和真实框的中心点的旋转角度,tx,t′x分别表示预测的矩形框和锚点框相对真实框的x坐标值的偏置值;tw,t′w分别表示预测的矩形框和锚点框相对真实框的框宽的偏置值。
8.如权利要求1-7任一项所述的遥感图像多类别目标检测方法,其特征在于,
所述步骤S3和S4中,损失函数包括:
尺度平衡回归损失函数LArea解决数据集尺度不平衡问题,其公式为:
Figure FDA0003705815480000021
IoU平衡回归损失函数LIoU解决角度周期性问题,其公式为:
Figure FDA0003705815480000022
平衡回归损失函数LAI同时解决数据集尺度不平衡问题和角度周期性问题,其公式为:
Figure FDA0003705815480000023
其中,i表示每个预测框的索引,Pi用来判断预测框对应的真值框是否为前景目标,若是前景Pi值为1,否则值为0;αi表示尺度权重函数,βi表示IoU权重函数,Ls表示SmoothL1函数,定义为:
Figure FDA0003705815480000024
Figure FDA0003705815480000025
Figure FDA0003705815480000026
其中,ai表示与预测框i对应的真值框归一化后的面积,bi表示预测框i与对应的真值框IoU值。
9.一种遥感图像多类别目标检测系统,其特征在于,包括:
特征提取模块,用于通过不规则金字塔特征提取网络提取输入图像的不规则多尺度特征图;所述不规则金字塔特征提取网络包括金字塔特征提取网络和不规则卷积模块,在所述金字塔特征提取网络末尾插入所述不规则卷积模块;
标记模块,用于在所述不规则多尺度特征图上,每个位置点上设置锚点框;
第一阶段检测模块,用于将所述不规则多尺度特征图和所述锚点框输入第一阶段检测子网络,设置所述第一阶段检测子网络的损失函数,并根据第一阶段的损失函数输出第一阶段的预测框;
第二阶段检测模块,用于将所述不规则多尺度特征图和所述第一阶段的预测框输入第二个阶段检测子网络;设置所述第二个阶段检测子网络的损失函数,并根据第二阶段的损失函数输出第二阶段的预测框;
输出模块,用于根据所述第二阶段的预测框获取最终目标。
CN202011221705.8A 2020-11-05 2020-11-05 一种遥感图像多类别目标检测方法和系统 Active CN112446301B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011221705.8A CN112446301B (zh) 2020-11-05 2020-11-05 一种遥感图像多类别目标检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011221705.8A CN112446301B (zh) 2020-11-05 2020-11-05 一种遥感图像多类别目标检测方法和系统

Publications (2)

Publication Number Publication Date
CN112446301A CN112446301A (zh) 2021-03-05
CN112446301B true CN112446301B (zh) 2022-08-09

Family

ID=74735873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011221705.8A Active CN112446301B (zh) 2020-11-05 2020-11-05 一种遥感图像多类别目标检测方法和系统

Country Status (1)

Country Link
CN (1) CN112446301B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158789B (zh) * 2021-03-15 2023-08-25 华南理工大学 一种遥感图像的目标检测方法、系统、装置及介质
CN113468993B (zh) * 2021-06-21 2022-08-26 天津大学 一种基于深度学习的遥感图像目标检测方法
CN115641510B (zh) * 2022-11-18 2023-08-08 中国人民解放军战略支援部队航天工程大学士官学校 一种遥感影像舰船检测识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2020102039A4 (en) * 2020-08-28 2020-10-08 Peng, Yue Miss A high-precision multi-targets visual detection method in automatic driving scene
CN111832655A (zh) * 2020-07-16 2020-10-27 四川大学 一种基于特征金字塔网络的多尺度三维目标检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832655A (zh) * 2020-07-16 2020-10-27 四川大学 一种基于特征金字塔网络的多尺度三维目标检测方法
AU2020102039A4 (en) * 2020-08-28 2020-10-08 Peng, Yue Miss A high-precision multi-targets visual detection method in automatic driving scene

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《A Single-stage Multi-class Object Detection Method for Remote Sensing Images》;Liping Hou et al.;《IEEE Xplore》;20200123;全文 *
《Cascade Detector With Feature Fusion For Arbitrary-Oriented Objects In Remote Sensing Images》;Liping Hou et al.;《IEEE Xplore》;20200609;全文 *
基于加权损失函数的多尺度对抗网络图像语义分割算法;张宏钊等;《计算机应用与软件》;20200112(第01期);全文 *

Also Published As

Publication number Publication date
CN112446301A (zh) 2021-03-05

Similar Documents

Publication Publication Date Title
CN112446301B (zh) 一种遥感图像多类别目标检测方法和系统
US10964061B2 (en) Learning-based camera pose estimation from images of an environment
US10748036B2 (en) Training a neural network to predict superpixels using segmentation-aware affinity loss
CN109685152B (zh) 一种基于dc-spp-yolo的图像目标检测方法
US10867214B2 (en) Generation of synthetic images for training a neural network model
US10424069B2 (en) System and method for optical flow estimation
US20190355150A1 (en) Detecting and estimating the pose of an object using a neural network model
CN106951840A (zh) 一种人脸特征点检测方法
CN113240716B (zh) 一种多特征融合的孪生网络目标跟踪方法及系统
CN111353580B (zh) 目标检测网络的训练方法、电子设备及存储介质
CN114565842A (zh) 基于Nvidia Jetson嵌入式硬件的无人机实时目标检测方法及系统
Wang et al. Bdr-net: Bhattacharyya distance-based distribution metric modeling for rotating object detection in remote sensing
CN113822975B (zh) 用于对图像进行有效采样的技术
Chen et al. Coupled global–local object detection for large vhr aerial images
Sun et al. Decoupled feature pyramid learning for multi-scale object detection in low-altitude remote sensing images
Li et al. Multi-scale aggregation feature pyramid with cornerness for underwater object detection
CN112508863B (zh) 一种基于rgb图像和msr图像双通道的目标检测方法
CN113269717A (zh) 基于遥感图像的建筑物检测方法及装置
Li et al. GPU-based parallel optimization for real-time scale-invariant feature transform in binocular visual registration
CN110580497A (zh) 一种基于旋转不变性的空间场景匹配方法
TWI812888B (zh) 影像辨識方法及影像辨識系統
Al-Anssari et al. Three-dimensional laplacian spatial filter of a field of vectors for geometrical edges magnitude and direction detection in point cloud surfaces
JP6996200B2 (ja) 画像処理方法、画像処理装置、および画像処理プログラム
CN102938156B (zh) 一种基于积分图像的面状注记配置方法
Hou et al. The Improved CenterNet for Ship Detection in Scale-Varying Images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant