CN114445371A - 基于椭圆交并比的遥感图像目标检测方法及装置 - Google Patents
基于椭圆交并比的遥感图像目标检测方法及装置 Download PDFInfo
- Publication number
- CN114445371A CN114445371A CN202210099234.0A CN202210099234A CN114445371A CN 114445371 A CN114445371 A CN 114445371A CN 202210099234 A CN202210099234 A CN 202210099234A CN 114445371 A CN114445371 A CN 114445371A
- Authority
- CN
- China
- Prior art keywords
- ellipse
- target
- network
- frame
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于椭圆交并比的遥感图像目标检测方法及装置,属于计算机视觉技术领域,方法包括:获取原始图像,将原始图像中目标的标注信息转换为椭圆标注后输入至目标检测器,目标检测器包括依次连接的骨干网络、RRPN网络和RoIHead网络,RRPN网络和所述RoIHead网络的回归损失函数均采用椭圆交并比损失函数;利用骨干网络提取输入图像的多尺度特征图;将多尺度特征图作为所述RRPN网络的输入,得到目标的旋转候选框;将多尺度特征图和旋转候选框作为RoIHead网络的输入,得到原始图像的检测结果。本发明将原始图像中目标的标注信息转换为椭圆标注,并提出椭圆交并比的计算方式计算预测框与目标框之间的重合度,提高了遥感图像目标检测的效果。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于椭圆交并比的遥感图像目标检测方法及装置。
背景技术
目标检测作为计算机视觉的一个重要研究领域,受到了很多学者及研究人员的关注。同时,机器学习深度学习的崛起也进一步促进了该领域的发展,目标检测技术已经成功应用到了军事、民用等各个领域中。作为目标检测的一个典型研究分支之一,遥感图像目标检测有多种应用场景,包括资源勘查、城市规划、船只以及飞机检测等。
传统的目标检测算法主要针对自然场景中的图像,旨在使用水平边界框表示目标的位置,并给出边界框中目标的类别。这种场景中的目标大都是轴对齐的,基于R-CNN的两阶段目标检测器以及基于YOLO和SSD的单阶段检测器在此场景中都表现出了良好的检测性能。但是,随着目标检测技术的飞速发展,越来越多的领域对该项技术提出了新的应用需求,如资源勘查、城市规划、遥感图像目标检测等等。和自然图像不同的是,遥感图像来自无人机和遥感平台,图像中的目标存在任意方向、密集排列、背景杂乱、长宽比较大、尺寸较小等现象。近年来,该领域也涌现出了大批优秀的算法,主要分为基于旋转矩形框表示以及基于任意四边形表示两大类,其中:
基于旋转矩形框的遥感图像目标检测的主要思想是在原始的水平边界框(x,y,w,h)的基础上加上角度信息θ,RRPN提出了一种新的方式产生带有角度信息的提案框,在此基础上实施旋转边界框回归;RoI Transformer提出了RoI转换器,将水平的锚框转换成旋转的锚框,继而实现旋转边界框的回归;SCRDet从锚框采样以及特征融合、结果融合等方面提出了一个融合框架,并设计了一个多维注意力网络以减少背景噪声;CSL将角度的预测由回归任务转变为分类任务,进一步提高了角度预测的精度。
基于任意四边形的遥感图像目标检测,通过网络直接回归出目标的四个角点坐标,使用任意四边形(x1,y1,x2,y2,x3,y3,x4,y4)来表示目标的位置信息。TextBoxes++在SSD上采用角点回归;RRD基于特征的旋转不变性以及旋转敏感性解耦分类任务和边界框回归任务,使得对长文本的回归更精准;Gliding_vertex通过回归水平边界框四个顶点的偏移量实现任意四边形的目标检测。
以上各种前沿的算法针对遥感图像目标检测都有不错的表现,但是美中不足的是以上算法大都使用L1系列的loss作为损失函数,IoU被定义为预测框和目标框之间的交并比,长期以来作为目标检测的度量标准,用于正负样本的选择以及预测框与真实框距离的评价。在自然图像目标检测领域已尝试使用IoU loss作为损失函数指导网络训练,但是使用IoU作为损失函数会存在两个问题:(1)当预测框与真实框没有交集的情况下,根据定义,IoU等于零,不能反映两者的距离大小(重合度)。同时因为loss=0,没有梯度回传,无法进行学习训练;(2)IoU无法精确反映预测框与真实框之间的重合度情况,当IoU的值相同时,预测框和目标框之间的重合度可能完全不同。
基于此,有学者提出了GIoU的概念,用于解决当预测框与真实框之间没有重合的情况。与IoU不同,GIoU不仅关注重叠区域,还关注其他的非重叠区域,可以更好地反映两者的重合度。但是当目标框与预测框完全包裹的时候,IoU和GIoU的值都一样,此时GIoU退化为IoU,无法区分其相对位置关系。在此基础上,有学者提出了DIoU,在GIoU的基础上加入了中心点归一化距离,更好地优化了此类问题。更进一步,CIoU在DIoU的基础上加入了长宽比项,用于衡量目标长宽比的相似性,其收敛的精度更高。
相关技术中,申请号为201510475992.8的发明专利申请公开了一种基于沿岸突异区扫描的港口遥感图像靠岸船舶检测方法,实现步骤为:1)图像输入;2)沿岸区域快速扫描;3)疑似靠岸船舶目标判定;4)伪目标剔除和目标标记;5)图像输出。能够在没有GIS以及船只先验信息的情况下,快速进行沿岸船舶的扫描、疑似船舶的判别、伪目标的剔除,最后使用矩形框进行船舶的标记。但船舶的标记使用的仍是矩形框,所以目标框中还是会包含很多背景区域。
综上,以上方法中数据集的标注形式采用的是矩形框或任意四边形,无法准确的表示目标的特征,遥感图像目标检测效果欠佳。
发明内容
本发明所要解决的技术问题在于如何提高遥感图像目标检测效果。
本发明通过以下技术手段实现解决上述技术问题的:
一方面,本发明提出了一种基于椭圆交并比的遥感图像目标检测方法,所述方法包括:
获取原始图像,并将所述原始图像中目标的标注信息转换为椭圆标注后作为预先训练好的目标检测器的输入图像,所述目标检测器包括依次连接的骨干网络、RRPN网络和RoIHead网络,所述RRPN网络和所述RoIHead网络均采用椭圆交并比和椭圆交并比损失函数;
利用所述骨干网络提取所述输入图像的多尺度特征图;
将所述多尺度特征图作为所述RRPN网络的输入,得到所述目标的旋转候选框;
将所述多尺度特征图和所述旋转候选框作为所述RoIHead网络的输入,得到所述原始图像的检测结果。
本发明将原始图像中目标的标注信息转换为椭圆标注,并在原始IoU的基础之上,考虑现有IoU针对遥感图像目标检测任务中所存在的目标长宽比较大、任意方向等多种挑战具有不适用性,提出椭圆交并比的计算方式计算预测框与目标框之间的重合度,将目标的尺度、位置、朝向、长宽比等进行联合优化,提高了遥感图像目标检测的效果。
进一步地,将所述原始图像中目标的标注信息转换为椭圆标注,包括:
基于所述原始图像中目标的标注信息,确定椭圆的两个焦点的位置,得到椭圆的焦线,所述目标的标注信息为旋转矩形标注框或四边形的最小外接矩形;
将所述焦线的中心作为所述椭圆的中心点,过所述中心点作与所述焦线垂直的直线作为所述椭圆的短轴;
将所述旋转矩形标注框或所述四边形的最小外接矩形的长边与水平线所组成的锐角作为所述椭圆的倾斜角度。
进一步地,所述骨干网络包括ResNet101网络和FPN网络,所述FPN网络使用C2-C5层特征。
进一步地,所述RRPN网络包括依次连接的第一卷积层、第二卷积层和第三卷积层,所述第三卷积层包括两个并联的卷积;将所述多尺度特征图作为所述RRPN网络的输入,得到目标的旋转候选框,包括:
所述锚框作为所述第二卷积层的输入,并经过所述第三卷积层,预测所述锚框的前景得分、坐标偏移量和角度;
采用NMS算法对所述锚框的前景得分、坐标偏移量和角度进行处理,得到所述目标的旋转候选框。
进一步地,所述RoIHead网络包括RRoI pooling层和两个多层感知机层,所述将所述多尺度特征图和所述旋转候选框作为所述RoIHead网络的输入,得到所述原始图像的检测结果,包括:
将所述多尺度特征图和所述旋转候选框作为所述RRoI pooling层输入,将所述旋转候选框分别投影在所述多尺度特征图的对应层上,得到相应的特征矩阵;
将所述特征矩阵输入至两个多层感知机层,得到目标类别和回归参数;
采用NMS算法对所述目标类别和所述回归参数进行处理,得到所述原始图像的检测结果。
进一步地,所述椭圆交并比的公式如下:
所述椭圆交并比损失函数的公式表示如下:
EllipseIoU Loss=1-EllipseIoU
其中,EllipseIoU为椭圆交并比,L1、L2分别为真实椭圆上和预测椭圆上的距离较近的焦点连接所形成的直线,L3、L4分别为真实椭圆上和预测椭圆上距离较远的焦点连接所形成的直线,θ为真实椭圆与预测椭圆的两条焦线之间的夹角,b和b′为分别为真实椭圆的短轴长度和预测椭圆的短轴长度。
进一步地,所述方法还包括:
将样本图像与所述样本图像中目标的椭圆标注输入至所述目标检测器;
对所述目标检测器的所述RRPN网络和所述RoIHead网络组成的多任务损失进行联合训练,当所述回归损失函数收敛或迭代设定次数后,得到预先训练好的所述目标检测器。
另一方面,本发明还提出了一种基于椭圆交并比的遥感图像目标检测装置,所述装置包括:
预处理模块,用于获取原始图像,并将所述原始图像中目标的标注信息转换为椭圆标注后作为预先训练好的目标检测器的输入图像,所述目标检测器包括依次连接的骨干网络、RRPN网络和RoIHead网络,所述RRPN网络和所述RoIHead网络均采用椭圆交并比和椭圆交并比损失函数;
特征提取模块,用于利用所述骨干网络提取所述输入图像的多尺度特征图;
候选框生成模块,用于将所述多尺度特征图作为所述RRPN网络的输入,得到所述目标的旋转候选框;
检测模块,用于将所述多尺度特征图和所述旋转候选框作为所述RoIHead网络的输入,得到所述原始图像的检测结果。
进一步地,所述预处理模块包括:
焦点确定单元,用于基于所述原始图像中目标的标注信息,确定椭圆的两个焦点的位置,得到椭圆的焦线,所述目标的标注信息为旋转矩形标注框或四边形的最小外接矩形;
椭圆标注确定单元,用于将所述焦线的中心作为所述椭圆的中心点,过所述中心点作与所述焦线垂直的直线作为所述椭圆的短轴,将所述旋转矩形标注框或所述四边形的最小外接矩形的长边与水平线所组成的锐角作为所述椭圆的倾斜角度。
进一步地,所述椭圆交并比的公式如下:
所述椭圆交并比损失函数的公式表示如下:
EllipseIoU Loss=1-EllipseIoU
其中,EllipseIoU为椭圆交并比,L1、L2分别为真实椭圆上和预测椭圆上的距离较近的焦点连接所形成的直线,L3、L4分别为真实椭圆上和预测椭圆上距离较远的焦点连接所形成的直线,θ为真实椭圆与预测椭圆的两条焦线之间的夹角,b和b′为分别为真实椭圆的短轴长度和预测椭圆的短轴长度。
本发明的优点在于:
(1)本发明将原始图像中目标的标注信息转换为椭圆标注,并在原始IoU的基础之上,考虑现有IoU针对遥感图像目标检测任务中所存在的目标长宽比较大、任意方向等多种挑战具有不适用性,提出椭圆交并比的计算方式计算预测框与目标框之间的重合度,将目标的尺度、位置、朝向、长宽比等进行联合优化,提高了遥感图像目标检测的效果。
(2)本发明提出了椭圆交并比损失函数,达到了良好的遥感图像目标检测效果。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1是本发明第一实施例中基于椭圆交并比的遥感图像目标检测方法的流程图;
图2是本发明第一实施例中基于椭圆交并比的遥感图像目标检测流程图;
图3是本发明中遥感图像中目标椭圆标注方式示意图;
图4是本发明中基于旋转边界框的两阶段检测器Obb-FasterRCNN的网络结构图;
图5是本发明中椭圆交并比公式中各项的图示说明示意图;
图6是本发明中单阶段的旋转矩形框检测器的测试结果与其他检测器的测试结果在mAP评价标准上的比较示意图;
图7是本发明中两阶段的旋转矩形框检测器与其他检测器的测试结果在mAP评价标准上的比较示意图;
图8是本发明中单阶段旋转目标检测器Obb-RetinaNet与其他的基于IoU的损失函数在收敛速度上的对比示意图;
图9是本发明第二实施例中基于椭圆交并比的遥感图像目标检测装置的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提出了一种基于椭圆交并比的遥感图像目标检测方法,所述方法包括以下步骤:
S10、获取原始图像,并将所述原始图像中目标的标注信息转换为椭圆标注后作为预先训练好的目标检测器的输入图像,所述目标检测器包括依次连接的骨干网络、RRPN网络和RoIHead网络,所述RRPN网络和所述RoIHead网络均采用椭圆交并比和椭圆交并比损失函数;
S20、利用所述骨干网络提取所述输入图像的多尺度特征图;
S30、将所述多尺度特征图作为所述RRPN网络的输入,得到所述目标的旋转候选框;
S40、将所述多尺度特征图和所述旋转候选框作为所述RoIHead网络的输入,得到所述原始图像的检测结果。
本实施例中,将原始图像中目标的标注信息转换为椭圆标注,并在原始IoU的基础之上,考虑现有IoU针对遥感图像目标检测任务中所存在的目标长宽比较大、任意方向等多种挑战具有不适用性,提出椭圆交并比的计算方式计算预测框与目标框之间的重合度,将目标的尺度、位置、朝向、长宽比等进行联合优化,提高了遥感图像目标检测的效果。
在一实施例中,所述步骤S10,包括以下步骤:
S11、基于所述原始图像中目标的标注信息,确定椭圆的两个焦点的位置,得到椭圆的焦线,所述目标的标注信息为旋矩形标注框或四边形的最小外接矩形;
S12、将所述焦线的中心作为所述椭圆的中心点,过所述中心点作与所述焦线垂直的直线作为所述椭圆的短轴;
S13、将所述旋转矩形标注框或所述四边形的最小外接矩形的长边与水平线所组成的锐角作为所述椭圆的倾斜角度。
需要说明的是,原始数据集的标注形式是基于旋转矩形框(HRSC2016数据集)或者任意四边形(DOTA数据集)的,由于本方案采用的是椭圆交并比,所以首先需要对数据集进行处理,将目标的旋转矩形框标注或者任意四边形标注经过公式转换得到目标的椭圆标注。具体的,如下图3所示,对于HRSC2016数据集的旋转矩形框标注,先确定椭圆的两个焦点的位置A,B,连接A,B两点即为椭圆的焦线,焦线的中心点即为椭圆的中心点,过该点做与焦线垂直的直线,即为短轴。旋转矩形框长边与水平线所组成的锐角θ即为该目标的角度信息。对于DOTA数据集,因为其真值是四边形标注,本实验首先采用的是四边形的最小外接矩形作为它的旋转边界框标注,然后采用和HRSC2016相同的处理方式得到对应目标的椭圆标注。
在申请号为201510475992.8的发明专利申请公开的一种基于沿岸突异区扫描的港口遥感图像靠岸船舶检测方法中,椭圆标记通过先确定疑似目标链接分量中横坐标、纵坐标的平均值来确定其长轴短轴距离,然后再通过形态学膨胀与腐蚀的结合处理得到船舶目标的矩形标记框。而本实施例首先得到旋转矩形框的内接椭圆,确定椭圆的两个焦点,确定焦线、长轴距离、中心点以及短轴距离,由此目标的尺度、位置、方向信息便都能够得到,方便且有效。
本实施例和以往遥感图像目标检测中,使用旋转矩形框或者任意四边形表示目标的方式不同,本实施例中使用椭圆表示目标,通过目标的旋转矩形框标注获得其内接椭圆,首先确定其焦点,进而确定其中心点位置,长轴、短轴距离以及方向。在预测时,也是通过预测其焦点位置,避免了以往使用旋转矩形框(x,y,w,h,θ)表示目标时,对于角度预测的敏感以及由于角度的周期性而导致损失骤增的问题。
通过打印训练过程中的热度图发现,其大都呈椭圆形状或者类似椭圆形状,因此使用椭圆标注表示目标一方面能够更好的提取目标的特征,另一方面针对于遥感图像中存在的目标密集排列、长宽比较大等现象,使用椭圆的形式能够以更加紧致的方式表示目标,相比较于使用水平边界框或者旋转矩形框表示目标,减少了背景信息的干扰,尤其是对于遥感图像数据集HRSC2016这种船舰数据集,目标长宽比较大,其优势更加明显。
在一实施例中,如图4所示,所述骨干网络包括ResNet101网络和FPN网络,所述FPN网络使用C2-C5层特征。
需要说明的是,图像处理前期所提取的图像特征是差不多的,本实施例使用ResNet101预训练好的权重初始化模型进行迁移学习,能够加快模型的收敛速度。
另外,使用FPN的C2-C5层作为预测特征层,解决了预测目标尺寸差异较大的问题。层数较低的特征图具有高分辨率但缺乏足够的语义信息,可以用于小目标的预测;层数较高的特征图分辨率较低但是语义性较强,FPN结构使每一层不同尺度的特征图都具有较强的语义信息,在增加较少计算量的前提下融合低分辨率语义信息较强的特征图和高分辨率语义信息较弱但空间信息丰富的特征图,能够很好的处理目标检测中的多尺度变化问题。
在一实施例中,所述RRPN网络包括依次连接的第一卷积层、第二卷积层和第三卷积层,所述第三卷积层包括两个并联的卷积;所述步骤S30,包括:
所述锚框作为所述第二卷积层的输入,并经过所述第三卷积层,预测所述锚框的前景得分、坐标偏移量和角度;
采用NMS算法对所述锚框的前景得分、坐标偏移量和角度进行处理,得到所述目标的旋转候选框。
需要说明的是,将上述骨干网络所提取到的特征送入RRPN网络中生成带有角度的目标候选框,工作过程为:在FPN网络的每一层上使用3*3的第一卷积层分别产生不同尺度、长宽比、角度的锚框。其中,相比于传统的锚框设计,RRPN中结合了方向收敛速度和计算效率选用了6个方向,分别是修改了锚框的长宽比为(1:2,1:5,1:8),锚框的大小设置为(8,16,32,64)四种尺寸。然后,将所提取到的特征先经过一个3*3的第二卷积层,然后利用第三卷积层中并联的两个1*1的卷积进行锚框的前景得分预测,以及锚框坐标偏移量和角度的预测,最后经过NMS等后处理得到目标的候选框。
在一实施例中,如图2所示,所述步骤S40,包括:
将所述多尺度特征图和所述旋转候选框作为所述RRoI pooling层输入,将所述旋转候选框分别投影在所述多尺度特征图的对应层上,得到相应的特征矩阵;
将所述特征矩阵输入至两个多层感知机层,得到目标类别和回归参数;
采用NMS算法对所述目标类别和所述回归参数进行处理,得到所述原始图像的检测结果。
需要说明的是,如图4所示,RoIhead网络包括一个RRoI pooling层以及两个多层感知机层,利用RRoI pooling层将RRPN产生的旋转候选框分别投影到特征图的对应层上获得相应的特征矩阵,然后经过最大池化层将特征统一缩放到7*7大小,接着将特征图展平,然后连接两个1024*1024的全连接层。两个全连接层分别作为分类分支网络和回归分支网络,用于目标类别的预测以及五个参数的回归。
其中,分类分支输出的维度是N*类别数,回归分支的输出维度为N*5,其中N为图像中目标的个数。然后将所得到的结果经过NMS等后处理过程,得到旋转矩形框检测结果作为输入图像最终的目标检测结果。
在一些实施例中,RRPN网络和RoIhead网络中,均利用所提出的椭圆交并比(EllipseIoU)代替传统的的交并比(IoU)选择正负样本,椭圆交并比的公式如下:
其中,IoU为预测旋转框与真实旋转框之间的交并比。
需要说明的是,通过输出网络训练中间的热度图可以看出,其形状基本呈椭圆形或者类椭圆形,所以本实施例采用旋转矩形框的内接椭圆计算交并比是合理且有效的,提高了网络的收敛速度以及特征提取的精度。
经过推导,L项可进一步转换为同时包含焦距和角度两个数值的形式:
L1 2+L2 2=L3 2+L4 2-2FF’·cosθ
其中,如下图5中所示,其中,图5-(1)和图5-(2)分别展示了目标的真实椭圆标注和预测椭圆的两个焦线之间相交的两种情况。其中A和B为真实椭圆的两个焦点,连接A、B两个焦点形成的直线为真实椭圆的焦线F;A’和B’为预测椭圆的两个焦点,连接A’、B’所形成的直线为预测椭圆的焦线F’。L1、L2为真实椭圆和预测椭圆的两对距离较近的焦点连接所形成的直线(如真实椭圆的一个焦点A与预测椭圆的一个焦点A’所形成的较短的线L1,真实椭圆的一个焦点B与预测椭圆的一个焦点B’所形成的较短的线L2)。L3、L4为真实椭圆和预测椭圆的两对距离较远的焦点连接所形成的直线(如真实椭圆的一个焦点A与预测椭圆的一个焦点B’所形成的较短的线L4,真实椭圆的一个焦点B与预测椭圆的一个焦点A’所形成的较短的线L3)。θ为真实椭圆与预测椭圆的两条焦线之间所形成的夹角(取锐角)和b’分别为真实椭圆得短轴长度和预测椭圆的短轴长度。
目标检测的目的是使预测椭圆的焦点(焦线)和真实椭圆的对应焦点(焦线)尽可能重合,最终达到的效果是A’重合于A点,B’重合于B点,F’的值、L3、L4等于F,L1、L2的值趋近于0。
现有的IoU系列方法计算预测框和目标框之间的交并比的时候针对的是自然图像场景下的目标,没有考虑到目标的角度信息,但是在遥感图像中,由于目标较小、密集排列、背景杂乱且长宽比较高,角度信息是很重要的因素。当预测框和目标框之间没有重叠时,是没有办法对距离和角度进行同时优化的。当预测框与真实框完全重叠,且所有预测框的大小相同的情况下,无法从所有的预测框中选择与目标方向最为一致的预测框指导网络训练。
本实施例针对现有的IoU系列方法存在的当预测框与目标框无交集的情况下,无法进行梯度回传训练的问题以及当预测框和目标框完全重叠时无法进行位置和角度的同时优化的问题。通过将目标的大小、方向、长宽比、角度等信息同时考虑进了椭圆交并比的计算公式,计算预测框和真实框的内接椭圆,然后基于焦点距离计算两者的椭圆距离,同时引入了椭圆的短轴距离,使得所提出的椭圆交并比的计算公式同时考虑了目标的大小、方向、长宽比、角度等信息,使网络朝着正确的方向优化。
在一实施例中,RRPN网络和RoIhead网络中采用的损失函数包括分类损失函数和回归损失函数,分类损失函数采用交叉熵损失函数,回归分类函数采用椭圆交并比损失函数,公式表示如下:
其中,EllipseIoU为椭圆交并比,L1、L2分别为真实椭圆上和预测椭圆上的距离较近的焦点连接所形成的直线,L3、L4分别为真实椭圆上和预测椭圆上距离较远的焦点连接所形成的直线,θ为真实椭圆与预测椭圆的两条焦线之间的夹角,b和b′为分别为真实椭圆的短轴长度和预测椭圆的短轴长度。
本实施例考虑现有IoU针对遥感图像目标检测任务中所存在的目标长宽比较大、任意方向等多种挑战具有不适用性,设计了椭圆交并比(EllipseIoU),将目标的尺度、位置、朝向、长宽比等进行联合优化,进一步提高了遥感图像目标检测的效果。并且使用所提出得椭圆交并比作为判别条件,能够更准确的反映目标框和预测框之间的重叠情况,同时,基于椭圆交并比损失进行训练,网络的收敛速度更快,网络朝着预期的目标进行收敛。
在一实施例中,所述方法还包括:
将样本图像与所述样本图像中目标的椭圆标注输入至所述目标检测器;
对所述目标检测器的所述RRPN网络和所述RoIHead网络组成的多任务损失进行联合训练,当所述回归损失函数收敛或迭代设定次数后,得到预先训练好的所述目标检测器。
具体来说,对目标检测器的训练过程具体为:
(1)将图像与预处理好的目标的椭圆标注一起输入网络进行训练。首先是输入由ResNet101+FPN构成的特征提取模块中提取多尺度特征。使用ResNet101conv1到conv4-x的91层为共享卷积层,然后从conv4-x的输出开始分叉,一个分支经过RRPN网络进行区域选择,另一个分支直接连一个RROI Pooling层。
(2)将上述所得到的特征图送入RRPN网络的AnchorsGenrators中用于产生锚框,AnchorsGenrators对FPN的每一层产生6*4=24个不同大小、不同比率的锚框,针对每一个特征层,首先去掉超出图片范围的锚框,然后计算锚框与真值框的EllipseIoU值,根据设定好的正负样本阈值在每个真值框处筛选用于训练的128个正样本和128个负样本,其中正样本的阈值设置为0.7,负样本的阈值设置为0.3。
(3)将生成的正负样本结合RPNHead模块一起生成目标带有角度的候选框,其中RRPNHead包括一个共享的3*3卷积以及两个并联的1*1卷积,分别用于目标前景背景的分类以及边界框和角度的回归,最后经过NMS等处理,得到带有角度的候选框。此阶段根据预测得到的候选框得分以及回归偏移量可以计算RRPN阶段的分类及回归损失,此阶段使用的分类损失为交叉熵损失,回归损失为基于椭圆交并比提出的椭圆交并比损失。
(4)将骨干网络提取的多尺度特征联合RRPN产生的带有角度的候选框送入RoIHead中。RoIHead包括RoIpooling层以及两个全连接层。首先经过RoIpooling层将候选框投影到对应的特征图上,并经过最大池化将特征图缩放至7*7大小,然后展平,经过两个1024*1024的全连接层。
(5)将上一步得到的特征,分别并联两个全连接层用于分类和回归,该阶段正负样本的选择同(2)相同。分类分支的输出维度为N*目标类别数,回归分支的输出维度为N*5,其中N为预测目标的个数。在此阶段,通过预测目标的分类得分以及回归参数可以计算该阶段的分类损失和回归损失。此阶段使用的分类损失为交叉熵损失,回归损失为基于椭圆交并比提出的椭圆交并比损失。
(6)对RRPN阶段以及ROIHead部分组成的多任务损失进行联合训练,通过前向传播、反向传播、梯度下降等算法,当loss收敛时,或者迭代一定次数之后,得到训练好的网络模型。
进一步地,本实施例将基于单阶段的旋转矩形框检测器Obb-RetinaNet以及两阶段的旋转矩形框检测器Obb-FasterRCNN分别在公开的航拍数据集DOTA和HRSC2016上进行了测试,并将测试结果与其他检测器在mAP评价标准上进行了比较,如图6至图7所示。其中Obb-RetinaNet(on baseline1)表示本发明实施例中基于单阶段检测器Obb-RetinaNet的结果,ours(on baseline1)表示本发明实施例中基于两阶段检测器Obb-FasterRCNN的结果,可以看到相比于其他现有方法,无论是单阶段的还是两阶段的,其检测性能以及收敛速度均有一定程度的提升。
将本发明实施例针基于单阶段旋转目标检测器Obb-RetinaNet与其他的基于IoU的损失函数在收敛速度上的对比,如图8所示,在HRSC2016数据集的训练过程显示,本发明实施例所提出的椭圆交并比损失的收敛速度要明显高于其他现有方法基于IoU的损失。
本实施例使用椭圆形状能够更加紧致的表示目标,同时能够更好的提高所提取特征的判别性。使用所提出得椭圆交并比作为判别条件,能够更准确的反映目标框和预测框之间的重叠情况。同时,基于椭圆交并比损失进行训练,网络的收敛速度更快,网络朝着预期的目标进行收敛。最后使用椭圆的最小外接矩形表示目标,包含的背景信息较少。
需要说明的是,本实施例所提出的基于椭圆交并比的遥感图像目标检测方法具有一般适用性,不仅仅是针对于船舶图像,对于其他遥感图像中的目标,同样具有适用性。
此外,如图9所示,本发明实施例还提出了一种基于椭圆交并比的遥感图像目标检测装置,所述装置包括:
预处理模块10,用于获取原始图像,并将所述原始图像中目标的标注信息转换为椭圆标注后作为预先训练好的目标检测器的输入图像,所述目标检测器包括依次连接的骨干网络、RRPN网络和RoIHead网络,所述RRPN网络和所述RoIHead网络均采用椭圆交并比和椭圆交并比损失函数;
特征提取模块20,用于利用所述骨干网络提取所述输入图像的多尺度特征图;
候选框生成模块30,用于将所述多尺度特征图作为所述RRPN网络的输入,得到所述目标的旋转候选框;
检测模块40,用于将所述多尺度特征图和所述旋转候选框作为所述RoIHead网络的输入,得到所述原始图像的检测结果。
在一实施例中,所述预处理模块10包括:
焦点确定单元,用于基于所述原始图像中目标的标注信息,确定椭圆的两个焦点的位置,得到椭圆的焦线,所述目标的标注信息为旋转矩形标注框或四边形的最小外接矩形;
椭圆标注确定单元,用于将所述焦线的中心作为所述椭圆的中心点,过所述中心点作与所述焦线垂直的直线作为所述椭圆的短轴,将所述旋转矩形标注框或所述四边形的最小外接矩形的长边与水平线所组成的锐角作为所述椭圆的倾斜角度。
在一实施例中,所述椭圆交并比损失函数的公式表示如下:
EllipseIoU Loss=1-EllipseIoU
其中,EllipseIoU为椭圆交并比,L1、L2分别为真实椭圆上和预测椭圆上的距离较近的焦点连接所形成的直线,L3、L4分别为真实椭圆上和预测椭圆上距离较远的焦点连接所形成的直线,θ为真实椭圆与预测椭圆的两条焦线之间的夹角,b和b′为分别为真实椭圆的短轴长度和预测椭圆的短轴长度。
需要说明的是,本发明所述基于椭圆交并比的遥感图像目标检测装置的其他实施例或具有实现方法可参照上述各方法实施例,此处不在赘余。
需要说明的是,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于椭圆交并比的遥感图像目标检测方法,其特征在于,所述方法包括:
获取原始图像,并将所述原始图像中目标的标注信息转换为椭圆标注后作为预先训练好的目标检测器的输入图像,所述目标检测器包括依次连接的骨干网络、RRPN网络和RoIHead网络,所述RRPN网络和所述RoIHead网络均采用椭圆交并比和椭圆交并比损失函数;
利用所述骨干网络提取所述输入图像的多尺度特征图;
将所述多尺度特征图作为所述RRPN网络的输入,得到所述目标的旋转候选框;
将所述多尺度特征图和所述旋转候选框作为所述RoIHead网络的输入,得到所述原始图像的检测结果。
2.如权利要求1所述的基于椭圆交并比的遥感图像目标检测方法,其特征在于,所述将所述原始图像中目标的标注信息转换为椭圆标注,包括:
基于所述原始图像中目标的标注信息,确定椭圆的两个焦点的位置,得到椭圆的焦线,所述目标的标注信息为旋矩形标注框或四边形的最小外接矩形;
将所述焦线的中心作为所述椭圆的中心点,过所述中心点作与所述焦线垂直的直线作为所述椭圆的短轴;
将所述旋转矩形标注框或所述四边形的最小外接矩形的长边与水平线所组成的锐角作为所述椭圆的倾斜角度。
3.如权利要求1所述的基于椭圆交并比的遥感图像目标检测方法,其特征在于,所述骨干网络包括ResNet101网络和FPN网络,所述FPN网络使用C2-C5层特征。
5.如权利要求1所述的基于椭圆交并比的遥感图像目标检测方法,其特征在于,所述RoIHead网络包括RRoI pooling层和两个多层感知机层,所述将所述多尺度特征图和所述旋转候选框作为所述RoIHead网络的输入,得到所述原始图像的检测结果,包括:
将所述多尺度特征图和所述旋转候选框作为所述RRoI pooling层输入,将所述旋转候选框分别投影在所述多尺度特征图的对应层上,得到相应的特征矩阵;
将所述特征矩阵输入至两个多层感知机层,得到目标类别和回归参数;
采用NMS算法对所述目标类别和所述回归参数进行处理,得到所述原始图像的检测结果。
7.如权利要求1-6任一项所述的基于椭圆交并比的遥感图像目标检测方法,其特征在于,所述方法还包括:
将样本图像与所述样本图像中目标的椭圆标注输入至所述目标检测器;
对所述目标检测器的所述RRPN网络和所述RoIHead网络组成的多任务损失进行联合训练,当所述回归损失函数收敛或迭代设定次数后,得到预先训练好的所述目标检测器。
8.一种基于椭圆交并比的遥感图像目标检测装置,其特征在于,所述装置包括:
预处理模块,用于获取原始图像,并将所述原始图像中目标的标注信息转换为椭圆标注后作为预先训练好的目标检测器的输入图像,所述目标检测器包括依次连接的骨干网络、RRPN网络和RoIHead网络,所述RRPN网络和所述RoIHead网络均采用椭圆交并比和椭圆交并比损失函数;
特征提取模块,用于利用所述骨干网络提取所述输入图像的多尺度特征图;
候选框生成模块,用于将所述多尺度特征图作为所述RRPN网络的输入,得到所述目标的旋转候选框;
检测模块,用于将所述多尺度特征图和所述旋转候选框作为所述RoIHead网络的输入,得到所述原始图像的检测结果。
9.如权利要求8所述的基于椭圆交并比的遥感图像目标检测装置,其特征在于,所述预处理模块包括:
焦点确定单元,用于基于所述原始图像中目标的标注信息,确定椭圆的两个焦点的位置,得到椭圆的焦线,所述目标的标注信息为旋矩形标注框或四边形的最小外接矩形;
椭圆标注确定单元,用于将所述焦线的中心作为所述椭圆的中心点,过所述中心点作与所述焦线垂直的直线作为所述椭圆的短轴,将所述旋转矩形标注框或所述四边形的最小外接矩形的长边与水平线所组成的锐角作为所述椭圆的倾斜角度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210099234.0A CN114445371A (zh) | 2022-01-27 | 2022-01-27 | 基于椭圆交并比的遥感图像目标检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210099234.0A CN114445371A (zh) | 2022-01-27 | 2022-01-27 | 基于椭圆交并比的遥感图像目标检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114445371A true CN114445371A (zh) | 2022-05-06 |
Family
ID=81369100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210099234.0A Pending CN114445371A (zh) | 2022-01-27 | 2022-01-27 | 基于椭圆交并比的遥感图像目标检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114445371A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115019181A (zh) * | 2022-07-28 | 2022-09-06 | 北京卫星信息工程研究所 | 遥感图像旋转目标检测方法、电子设备及存储介质 |
-
2022
- 2022-01-27 CN CN202210099234.0A patent/CN114445371A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115019181A (zh) * | 2022-07-28 | 2022-09-06 | 北京卫星信息工程研究所 | 遥感图像旋转目标检测方法、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Automatic pavement crack detection by multi-scale image fusion | |
CN111091105B (zh) | 基于新的边框回归损失函数的遥感图像目标检测方法 | |
Yang et al. | Detecting rotated objects as gaussian distributions and its 3-d generalization | |
CN111783590A (zh) | 一种基于度量学习的多类别小目标检测方法 | |
Gao et al. | A high-effective implementation of ship detector for SAR images | |
CN113052200B (zh) | 一种基于yolov3网络的声呐图像目标检测方法 | |
CN110428357A (zh) | 图像中水印的检测方法、装置、电子设备及存储介质 | |
CN112149620A (zh) | 基于无锚点的自然场景文字区域检测模型的构建方法 | |
Zhu et al. | Arbitrary-oriented ship detection based on retinanet for remote sensing images | |
CN114332921A (zh) | 基于改进聚类算法的Faster R-CNN网络的行人检测方法 | |
Fan et al. | A novel sonar target detection and classification algorithm | |
CN114445371A (zh) | 基于椭圆交并比的遥感图像目标检测方法及装置 | |
CN113506288A (zh) | 基于transform注意力机制的肺结节检测方法及装置 | |
CN116310837B (zh) | 一种sar舰船目标旋转检测方法及系统 | |
CN113205139A (zh) | 一种基于密度聚类的无人艇水上球体检测方法 | |
Ghoshal et al. | An improved scene text and document image binarization scheme | |
Wang et al. | Big Map R-CNN for object detection in large-scale remote sensing images. | |
CN114972492A (zh) | 一种基于鸟瞰图的位姿确定方法、设备和计算机存储介质 | |
CN116681885A (zh) | 输变电设备红外图像目标识别方法及系统 | |
Xu et al. | Ship images detection and classification based on convolutional neural network with multiple feature regions | |
CN115984219A (zh) | 产品表面缺陷检测方法、装置、电子设备及存储介质 | |
Shi et al. | Anchor Free remote sensing detector based on solving discrete polar coordinate equation | |
CN113139549A (zh) | 一种基于多任务学习的参数自适应全景分割方法 | |
Chai et al. | Enhanced Cascade R-CNN for Multi-scale Object Detection in Dense Scenes from SAR Images | |
El Amrani Abouelassad et al. | Vehicle instance segmentation with rotated bounding boxes in uav images using cnn |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |