CN112861744B - 一种基于旋转锚点聚类的遥感图像目标快速检测方法 - Google Patents

一种基于旋转锚点聚类的遥感图像目标快速检测方法 Download PDF

Info

Publication number
CN112861744B
CN112861744B CN202110192691.XA CN202110192691A CN112861744B CN 112861744 B CN112861744 B CN 112861744B CN 202110192691 A CN202110192691 A CN 202110192691A CN 112861744 B CN112861744 B CN 112861744B
Authority
CN
China
Prior art keywords
rotation
anchor point
clustering
frame
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110192691.XA
Other languages
English (en)
Other versions
CN112861744A (zh
Inventor
杨志钢
黎明
李泳江
柳晴川
杨远兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202110192691.XA priority Critical patent/CN112861744B/zh
Publication of CN112861744A publication Critical patent/CN112861744A/zh
Application granted granted Critical
Publication of CN112861744B publication Critical patent/CN112861744B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于旋转锚点聚类的遥感图像目标快速检测方法,首先利用基于k‑means聚类算法设计旋转锚点,得到一系列旋转锚点;再通过对旋转锚点进行前景背景二分类和坐标粗回归,结合旋转非极大值抑制后处理,得到正负样本信息和精简后的高质量提案;最后对提案进行多尺度旋转RoI池化处理,得到含有感兴趣区RoIs的固定长度向量,把向量输入到全连接层(FC)进行具体类别的分类与坐标回归,再次采用INMS后处理得到目标的最终检测结果。本发明能有效降低锚点的冗余度、提升遥感图像目标的检测速度与检测精度、算法易于实现、调参简便、具备数学可解释性等优点,该方法具有广阔的应用前景和良好的经济效益。

Description

一种基于旋转锚点聚类的遥感图像目标快速检测方法
技术领域
本发明涉及一种遥感图像目标快速检测方法,特别是一种基于旋转锚点聚类的遥感图像目标快速检测方法,属于遥感图像目标检测领域。
背景技术
自1972年美国发射第一颗地球资源卫星以来,遥感技术受到了全世界前所未有的重视,其中的遥感图像资料具有精度高、覆盖面积大、光谱分辨率清晰等特点,备受研究人员青睐。目标检测是图像处理领域的一个重要组成部分。随着遥感技术的不断发展,不论是在军事领域还是民用领域,从遥感图像中对特定目标进行检测的需求都在与日俱增,对遥感图像的目标检测已经成为国防现代比建设和民用生活生产中必不可少的技术。
但飞速发展的遥感技术也产生了很多新的挑战,随着图像数据量的爆炸式增长,常规的图像处理已经难以应对少量。深度学习的诞生使得高速、精确地处理大批量图像数据得以实现。在面对遥感图像的目标检测时,大量先进的基于深度学习的通用目标检测方法都表现欠佳,因为与一般图像相比,遥感图像有着背景复杂、尺度多样、目标密集、方向多样等特点。这些特殊之处很大地制约了目标检测算法的速度与精度。
快速目标检测算法一直处于学术研究的前沿领域,目标检测算法的速度指标也是其中最重要的一项指标之一,对算法的好坏起着非常直观的评判作用,很大程度上制约了算法实用程度。目前基于深度学习的目标检测算法可以分为一阶段目标检测算法和两阶段目标检测算法。一阶段检测算法的一些经典算法有YOLO系列算法、SSD系列算法等。相较于常规目标检测算法和两阶段目标检测算法,一阶段目标检测算法虽然在速度上有了明显的提升,但是精度不高,难以应用在精度要求高的遥感图像目标检测上。两阶段的目标检测算法以Faster-RCNN为代表衍生出了一系列的改进版本,相较于常规算法和一阶段目标检测算法,其最主要的特点是精度高,但是速度明显不及一阶段目标检测算法,主要应用在一些对精度要求高的领域,如军事、国防、遥感等领域。
由于两阶段目标检测存上述速度缺陷,大量改进算法应运而生。有针对提取特征的主干网络进行设计的方法;有根据数学原理对损失函数进行改进的算法;也有改进区域提案网络,优化提案质量等方法。遥感图像有着背景复杂、尺度多样、目标密集、方向多样等特点。水平锚点的检测方式容易导致密集目标情况下的漏检,从而降低检测精度;且手工方式设计的锚点针对性不强,锚点冗余度大,直接导致需要增加大量不同尺寸和宽高比的锚点,用以覆盖不同尺寸与形状的检测目标,训练过程调参繁琐,致使检测速度受到了很大的限制。要提高检测速度和检测精度,核心在于精简提案数量和提升提案质量,把针对性强和质量高的训练候选区域送入网络进行学习,而锚点的设计正是其中的关键技术。
发明内容
针对上述现有技术,本发明要解决的技术问题是提供一种基于旋转锚点聚类的遥感图像目标快速检测方法,可以有效提高遥感图像目标的检测速度。
为解决上述技术问题,本发明的一种基于旋转锚点聚类的遥感图像目标快速检测方法,包括以下步骤:
步骤1:对输入图像进行预处理后,由深度卷积神经网络作为主干网络提取图像的特征信息,作为特征图输出到步骤2;
步骤2:用k-means聚类算法对训练集图像中的标注框数据进行聚类,在特征图上以尺度、宽高为先验信息,统计出k种最具代表性的锚点,对其做旋转处理,得到最有可能覆盖目标的旋转锚点;
步骤3:对步骤2得到的旋转锚点向旋转标注框做前景背景二分类和坐标粗回归,并采用旋转非极大值抑制进行后处理,得到精简后的高质量提案;
步骤4:对步骤3得到的提案做多尺度的旋转RoI池化,得到含有感兴趣区域RoIs的固定长度向量,将其输入全连接层FC进行具体类别分类与坐标回归,用INMS后处理得到目标的最终检测结果。
本发明还包括:
1.步骤2中用k-means聚类算法对训练集图像中的标注框数据进行聚类,在特征图上以尺度、宽高为先验信息,统计出k种最具代表性的锚点,对其做旋转处理,得到最有可能覆盖目标的旋转锚点具体为:
步骤2.1:统计训练数据集的标注信息,一共N张图片,总计C个标注框,标注信息为(xi,yi,wi,hii,label),i∈{1,2,…,C},(xi,yi)是框的中心坐标,(wi,hi)是标注框的宽和高,θi框的旋转角,θi∈[-90,0),lable为类别标签;
步骤2.2:随机初始化k个聚类中心框(Wn,Hn),n∈{1,2,…,k};
步骤2.3:分别计算k个聚类中心框与所有标注框的距离,计算时,聚类中心框的中心坐标(xi,yi)与标注框的中心坐标(xi,yi)保持重合,两框的距离公式定义满足:
d=1-IoU[(xi,yi,wi,hi),(xi,yi,Wn,Hn)],i∈{1,2,…,C},n∈{1,2,…,k}
步骤2.4:将标注框归类给距离d最近的聚类中心框;
步骤2.5:重新计算k个簇的聚类中心框,计算公式如下所示:
Figure BDA0002945724080000031
Figure BDA0002945724080000032
Nn为第n个簇的标注框个数,新的聚类中心框的宽和高更新为该簇中所有标注框宽和高的平均值,重复步骤2.3、步骤2.4、步骤2.5三步,直到聚类中心框变化值小于设定的阈值;
步骤2.6:对步骤2.5得到的每个多尺度聚类中心框均依次旋转-15°,-30°,-45°,-60°,-75°,-90°,最终得到一系列多方向的旋转锚点。
2.步骤3中对步骤2得到的旋转锚点向旋转标注框做前景背景二分类和坐标粗回归具体为:
得到正负样本和初步的预测框信息,其训练过程的二分类交叉熵损失和边界框回归损失公式如下:
Figure BDA0002945724080000033
其中λ是控制两个任务损失之间的平衡系数,Ncls表示训练批量的大小,Nreg表示锚点位置的数量,i表示锚点的索引,二分类交叉熵损失函数Lcls(pi,
Figure BDA0002945724080000034
)定义为:
Figure BDA0002945724080000035
pi表示锚点预测为目标的概率,
Figure BDA0002945724080000036
表示真值框的标签,如果第i个锚点为正样本的,则
Figure BDA0002945724080000037
否则为0,
Figure BDA0002945724080000038
表示只对正样本的锚点进行回归,边界框回归损失定义为:
Figure BDA0002945724080000039
Figure BDA00029457240800000310
ui=(ux,uy,uw,uh,uθ)和
Figure BDA00029457240800000311
分别表示预测框和正样本标注框的坐标参数元组,其中,θ是预测框的旋转角,θa是锚点的旋转角,θ*是标注框的旋转角。
Figure BDA00029457240800000312
代表预测框与锚点的偏移角,uθ代表标注框与锚点的偏移角。uθ
Figure BDA00029457240800000313
计算公式如下:
uθ=θ-θa+kπ/2
Figure BDA00029457240800000314
3.步骤4中对步骤3得到的提案做多尺度的旋转RoI池化包括:7:7池化尺度、3:11池化尺度和11:3池化尺度。
本发明的有益效果:本发明提出了一种基于旋转锚点聚类的遥感图像目标快速检测方法,首先通过主干网络提取图像的特征信息;再利用基于k-means聚类的方法自动筛选出最具针对性的k类旋转锚点,有效降低了锚点的冗余度和提高了锚点的针对性,从而提升了检测的速度与精度;然后对旋转锚点向旋转标注框做前景背景二分类和坐标回归,得到精简后的高质量提案;最后经过全连接层对提案进行具体类别分类、坐标回归和INMS后处理得到最终检测结果。锚点提出算法部分中,采用的是数学统计的方法自动提出锚点,可解释性强,锚点的冗余度得到有效降低,对检测目标的尺寸与形状的针对性明显加强,锚点数量得到有效精简,从而提高了最终的检测精度与检测速度,算法易于实现、调参简便、具备数学可解释性等优点,该方法具有广阔的应用前景和良好的经济效益。
附图说明
图1是本发明实施例提供的基于旋转锚点聚类的遥感图像目标快速检测方法的整体示意图;
图2是本发明实施例提供的基于k-means聚类生成旋转锚点方法流程图;
图3是本发明实施例提供的多方向的旋转锚点生成示意图;
图4是本发明实施例提供的聚类中心框与标注框之间的IoU示意图;
图5是本发明实施例提供的水平框检测与旋转框检测的对比示意图;
具体实施方式
下面结合说明书附图和具体实施方式对本发明做进一步说明。
本发明首先通过基于k-means聚类的算法找到合适的旋转锚点,然后再利用两阶段检测算法检测出具体目标,改善遥感图像目标检测速度慢的状况为实现上述目标,本发明的方法方案如下:
(1)对输入图像进行预处理后,由深度卷积神经网络作为主干网络提取图像的特征信息,作为特征图输出到下一环节;
(2)使用k-means聚类算法对训练集图像中的标注框数据进行聚类,在特征图上以尺度、宽高为先验信息,统计出k种最具代表性的锚点,对其做旋转处理,得到最有可能覆盖目标的旋转锚点;
(3)对(2)得到的旋转锚点向旋转标注框做前景背景二分类和坐标回归,并采用旋转非极大值抑制(INMS)进行后处理,得到精简后的高质量提案;
(4)除了常规的7:7池化尺度外,另增加3:16和16:3两种池化尺度,对(3)得到的提案做多尺度的旋转ROI池化处理,得到含有感兴趣区域(RoIs)的固定长度向量。将其输入到全连接层(FC)进行具体类别分类与坐标回归,用INMS后处理得到目标的最终检测结果。
使用基于k-means聚类得到k类具有代表性的旋转锚点,具体的训练和检测流程,包括:
(2-a)统计训练数据集的标注信息,一共N张图片,总计C个标注框,标注框信息为(xi,yi,wi,hi,θi,label),i∈{1,2,…,C},(xi,yi)是锚点的中心点,(wi,hi)是锚点的宽和高,θi为锚点的旋转角,θi∈[-90,0),lable为类别标签;
(2-b)随机初始化k个聚类中心框(Wn,Hn),n∈{1,2,…,k};
(2-c)分别计算k个聚类中心框与所有标注框的距离,计算时,聚类中心框的中心坐标(xi,yi)应与标注框的中心坐标(xi,yi)保持重合,两框的距离公式定义如下所示;
d=1-IoU[(xi,yi,wi,hi),(xi,yi,Wn,Hn)],i∈{1,2,…,C},n∈{1,2,…,k}
(2-d)将标注框归类给距离d最小的聚类中心框;
(2-e)重新计算k个簇的聚类中心框,计算公式如下所示:
Figure BDA0002945724080000051
Figure BDA0002945724080000052
Nn为第n个簇的标注框个数,新的聚类中心框的宽和高更新为该簇中所有标注框宽和高的平均值。重复(2-c)、(2-d)、(2-e)三步,直到聚类中心框基本稳定或变化值小于设定的阈值。
(2-f)对(2-e)得到的k个聚类中心框全都旋转-15°,-30°,-45°,-60°,-75°,-90°,得到一系列多方向的旋转锚点。
对旋转锚点向旋转标注框做前景背景二分类和坐标粗回归,得到精简后的高质量提案,具体的训练和检测流程,包括:
(3-a)将(2)得到的旋转锚点向旋转标注框做前景背景二分类和坐标回归,得到正负样本信息和初步的预测框信息,其训练过程的二分类交叉熵损失和边界框回归损失公式如下:
Figure BDA0002945724080000053
其中λ是控制两个任务损失之间的平衡系数。Ncls表示训练批量的大小,Nreg表示锚点位置的数量,i表示锚点的索引。二分类交叉熵损失函数Lcls(pi,
Figure BDA0002945724080000054
)定义为:
Figure BDA0002945724080000055
pi表示锚点预测为目标的概率,
Figure BDA0002945724080000056
表示真值框的标签,如果第i个锚点为正样本的,则
Figure BDA0002945724080000057
否则为0,即式(3-5)中的
Figure BDA0002945724080000058
表示只对正样本的锚点进行回归。边界框回归损失定义为:
Figure BDA0002945724080000059
Figure BDA00029457240800000510
ui=(ux,uy,uw,uh,uθ)和
Figure BDA0002945724080000061
分别表示预测框和正样本标注框的坐标参数元组。其中,θ是预测框的旋转角,θa是锚点的旋转角,θ*是标注框的旋转角。
Figure BDA0002945724080000062
代表预测框与锚点的偏移角,uθ代表标注框与锚点的偏移角。uθ
Figure BDA0002945724080000063
计算公式如下:。
uθ=θ-θa+kπ/2
Figure BDA0002945724080000064
(3-b)对得到的预测框采用INMS进行后处理,得到精简后的高质量提案。
经过全连接层对提案进行具体类别分类、坐标回归和INMS后处理得到最终检测结果,具体的训练和检测流程,包括:
(4-a)对精简的提案进行多尺度的旋转ROI池化,得到一个固定长度的向量;
(4-b)把得到的固定长度的向量输入到全连接层进行具体类别分类与坐标回归,用INMS后处理得到目标的最终检测结果。
结合图1和具体参数给出实施例,本发明具体实施步骤如下:
S1、将遥感图像数据集随机划分为训练集,验证集和测试集,划分的比例为6:2:2,把图像统一resize到尺寸448*448,再对其做预处理,处理完毕后用深度卷积神经网络作为主干网络提取图像的特征信息,得到包含图像目标信息的特征图。
特征图的提取能影响到图像目标检测的最终效果,深度卷积神经网络取代了手动定义特征图的方式,是自动学习和提取图像特征信息,具备强大的特征提取能力和大数据处理能力,在保证处理速度的同时,也保证了提取特征的质量,方便后续算法进行处理。
S2、利用基于k-means聚类生成旋转锚点,如图2所示,具体实施步骤如下:
S21.首先统计训练数据集中所有标注框的宽和高(wi,hi),i∈{1,2,…,C},然后随机初始化k个聚类中心框(Wn,Hn),n∈{1,2,…,k}。
由于锚点的位置不固定,所以这里不涉及中心坐标(xi,yi),只需用到标注框的宽和高。初始化时,聚类中心框之间要尽量分散一些,能使聚类的收敛速度更快,同时避免不合理的初始值导致局部最优解,聚类数目k可以由肘部法则和特征检查来确定。
S22.分别计算k个聚类中心框与所有标注框的距离。计算时,聚类中心框的中心坐标(xi,yi)与标注框的中心坐标(xi,yi)保持重合,聚类中心框与标注框之间的IoU表示如图4所示,IoU计算公式与两框之间的距离公式定义如下;
d=1-IoU[(xi,yi,wi,hi),(xi,yi,Wn,Hn)],i∈{1,2,…,C},n∈{1,2,…,k},
IoU=(A∩B)/(A∪B)
S23.将标注框归类为距离最近的聚类中心框。
因为聚类的目地是为了得到最大概率出现的检测目标所对应的边界框是什么形状与多大尺度,所以在计算时,聚类中心框的中心坐标应与标注框的中心坐标保持重合,角度信息保持一致。这里并不直接计算两点间的欧式距离,而是先计算出两框之间的交并比IoU,即两框之间的相似程度。再由重定义的距离d计算公式可知,当d越小,则标注框与聚类中心框越相似,将标注框类别划分为与之最相似的聚类中心框。
S24.重新计算k个簇的聚类中心框,计算公式如下所示:
Figure BDA0002945724080000071
Figure BDA0002945724080000072
Nn为第n个簇的标注框个数,新的聚类中心框的宽和高更新为该簇中所有标注框宽和高的平均值。重复执行S22、S23、S24三步,直到聚类中心框基本稳定或变化值小于设定的阈值。
k-means聚类算法设计锚点是一阶段目标检测YOLO系列模型提出的一种锚点设计方法,使得目标检测的速度有了明显提升。多数遥感图像目标检测模型中使用手动设计锚点的方式,手工锚点的尺度与宽高比都需根据人工经验进行设计,不具备数学可解释性,需要经过多次实验调试才能找到较为合适尺度与宽高比的锚点,且手动设计的锚点存在很大的冗余度,部分锚点的设计并不合理,难以较好地匹配检测目标的形状与尺度,在增加了冗余锚点数量的同时,也提高了后续边界框的回归难度,直接降低了目标的检测速度与检测精度。
k-means聚类算法使用数学统计的方法自动聚类锚点,在特征图上以标注框数据的尺度、宽高为先验信息,统计出k种最具代表性的锚点,得到最有可能匹配目标形状与尺度的锚点,精简了锚点数量,降低了锚点的冗余度,提高了锚点的针对性,能有效提高检测速度。且算法原理简单,实现容易,收敛速度快,聚类效果较优,算法的可解释性较强,所需调节参数仅为聚类簇数k。
S25.将得到的k个聚类中心框逐个旋转-15°,-30°,-45°,-60°,-75°,-90°,最终得到如图3所示的一系列多方向旋转锚点。
遥感图像的目标检测方法的主要局限性在于应用场景的复杂性、密集目标检测的难度和检测区域的冗余性,在检测目标旋转和密集布置的情况下,设计旋转锚点策略来预测目标的最小外接矩形,以减少冗余检测区域,提高召回率。
如图5所示,图5中左侧三幅图为水平框检测结果图,右侧三幅图为本发明旋转框检测结果图,当使用水平锚点进行检测时,检测结果出现了明显的漏检情况,而使用k-means聚类算法设计的旋转锚点检测时,避免了非极大值抑制的副作用,克服了检测密集目标的困难,最终提高了召回率。
S3、对旋转锚点进行前景背景二分类和坐标粗回归,得到正负样本信息和精简后的高质量提案。
在训练过程中,每个锚点被分配一个二进制类标签和五个参数坐标。为了训练网络,需要从小批量的所有锚点中找到正样本和负样本。正样本需要满足以下一个条件:①锚与标注框的IoU重叠大于0.5,且角度小于15度;②锚与标注框的IoU重叠最高时。负样本定义为:①IoU重叠小于0.2,或②IoU重叠大于0.5,但角差大于15度。直接舍弃既不是正样本也不是负样本的锚。
S31.用设计好的旋转锚点来扫描特征图,得到一系列的感兴趣区域,由S2可知旋转锚点个数等于6k,若特征图大小为n*n,则扫描特征图后的感兴趣区域个数为6k*n*n,再对其进行前景背景二分类和坐标粗回归,得到正负样本信息和初步的预测框信息。其训练过程的二分类交叉熵损失和边界框回归损失公式如下:
Figure BDA0002945724080000081
其中λ是控制两个任务损失之间的平衡系数。Ncls表示训练批量的大小,Nreg表示锚点位置的数量,i表示锚点的索引。二分类交叉熵损失函数Lcls(pi,
Figure BDA0002945724080000082
)定义为:
Figure BDA0002945724080000083
pi表示锚点预测为目标的概率,
Figure BDA0002945724080000084
表示真值框的标签,如果第i个锚点为正样本的,则
Figure BDA0002945724080000085
否则为0,
Figure BDA0002945724080000086
表示只对正样本的锚点进行回归。边界框回归损失定义为:
Figure BDA0002945724080000087
Figure BDA0002945724080000088
ui=(ux,uy,uw,uh,uθ)和
Figure BDA0002945724080000089
分别表示预测框和正样本标注框的坐标参数元组。其中,θ是预测框的旋转角,θa是锚点的旋转角,θ*是标注框的旋转角。
Figure BDA00029457240800000810
代表预测框与锚点的偏移角,uθ代表标注框与锚点的偏移角。uθ
Figure BDA00029457240800000811
计算公式如下:
uθ=θ-θa+kπ/2
Figure BDA00029457240800000812
S32.对得到的初步预测框采用INMS进行后处理,进一步得到精简后的高质量提案。
用INMS替换一般的的NMS可有效减少目标密集情况下正确检测框被大量抑制的情况,从而降低目标漏检,提高检测精度。
S4、对S3得到的提案进行具体类别分类与坐标回归,再用INMS后处理得到目标的最终检测结果。
S41.为解决大长宽比目标池化过程中存在的特征不匹配问题,除了常规的7:7池化尺度之外,增加3:16和16:3两种池化尺度,对提案进行多尺度旋转RoI池化处理,得到含有感兴趣区域的固定长度向量,以减少失真带来的影响。
S42.将池化处理后得到的固定长度的向量输入到全连接层进行具体类别的分类与坐标回归,再用INMS后处理得到目标的最终检测结果。
同步骤S3,这里使用INMS后处理,也可有效减少目标密集情况下正确检测框被大量抑制的情况,从而降低目标漏检,提高检测精度。
表1列出了本实施例中几种不同算法下的检测结果,实验硬件设备:CPU:Intel(R)Xeon(R)Gold 6128 3.40GHz,GPU:Nvidia Tesla P100 16GB RAM。图像数据集都是统一的DOTA遥感图像数据集,大小统一裁剪为800*800。由表中结果可知,相较于两阶段目标检测的Faster-RCNN和RRPN手动设计一系列不同尺度与长宽比的锚点,本例使用基于k-means聚类算法自动设计旋转锚点的方法有效地提升了检测速度,在精度上明显高于Faster-RCNN;对比RRPN,在精度牺牲不大的前提下,主要的速度指标得到了大幅度的提升;两阶段目标检测的速度总体上明显慢于一阶段目标检测,本例与YOLO v3的速度差距得到缩小的同时,其检测精度大大地超过了YOLO v3。
表1遥感图像在几种目标检测算法下的检测结果对照表
算法名称 mAP Time(s)
Faster-RCNN 36.29 0.33
YOLOV3 25.43 0.07
RRPN 61.01 0.45
本方法 57.73 0.24
综上可知,基于旋转锚点聚类的遥感图像目标快速检测策略适合检测遥感图像目标,有效提高了二阶段遥感图像的目标检测速度与检测精度,实际应用性很强,所述的基于k-means聚类算法设计旋转锚点的方法,可以有效降低锚点冗余度和提高锚点的代表性,从而减少训练时间,最终提高遥感图像目标的检测速度,更加精确地检测出复杂场景下的密集目标,有效提高召回率;当目标分布密集时,所述INMS处理建议框的方法,能有效降低大量正确检测框被抑制的情况,从而降低漏警,提高检测精度;所述多尺度旋转RoI池化解决了特征不匹配问题,也降低了失真带来的不利影响。
以上显示和描述了一种基于旋转锚点聚类的遥感图像目标快速检测方法的基本原理、主要特征和实用的优点,本行业的技术人员应该了解,以上实施例的说明只是用于帮助理解本发明的方法技术和核心思想,并不限制本发明,同时,根据本申请的思想,在具体实施方式和应用范围上均会有改变之处,这些改变都落入本发明的保护范围内。

Claims (4)

1.一种基于旋转锚点聚类的遥感图像目标快速检测方法,其特征在于,包括以下步骤:
步骤1:对输入图像进行预处理后,由深度卷积神经网络作为主干网络提取图像的特征信息,作为特征图输出到步骤2;
步骤2:用k-means聚类算法对训练集图像中的标注框数据进行聚类,在特征图上以尺度、宽高为先验信息,统计出k种最具代表性的锚点,对其做旋转处理,得到最有可能覆盖目标的旋转锚点;
步骤3:对步骤2得到的旋转锚点向旋转标注框做前景背景二分类和坐标粗回归,并采用旋转非极大值抑制进行后处理,得到精简后的高质量提案;
步骤4:对步骤3得到的提案做多尺度的旋转RoI池化,得到含有感兴趣区域RoIs的固定长度向量,将其输入全连接层FC进行具体类别分类与坐标回归,用INMS后处理得到目标的最终检测结果。
2.根据权利要求1所述的一种基于旋转锚点聚类的遥感图像目标快速检测方法,其特征在于:步骤2所述用k-means聚类算法对训练集图像中的标注框数据进行聚类,在特征图上以尺度、宽高为先验信息,统计出k种最具代表性的锚点,对其做旋转处理,得到最有可能覆盖目标的旋转锚点具体为:
步骤2.1:统计训练数据集的标注信息,一共N张图片,总计C个标注框,标注信息为(xi,yi,wi,hi,θi,label),i∈{1,2,...,C},(xi,yi)是框的中心坐标,(wi,hi)是标注框的宽和高,θi框的旋转角,θi∈[-90,0),lable为类别标签;
步骤2.2:随机初始化k个聚类中心框(Wn,Hn),n∈{1,2,...,k};
步骤2.3:分别计算k个聚类中心框与所有标注框的距离,计算时,聚类中心框的中心坐标(xi,yi)与标注框的中心坐标(xi,yi)保持重合,两框的距离公式定义满足:
d=1-IoU[(xi,yi,wi,hi),(xi,yi,Wn,Hn)],i∈{1,2,...,C},n∈{1,2,...,k}
步骤2.4:将标注框归类给距离d最近的聚类中心框;
步骤2.5:重新计算k个簇的聚类中心框,计算公式如下所示:
Figure FDA0002945724070000011
Figure FDA0002945724070000012
Nn为第n个簇的标注框个数,新的聚类中心框的宽和高更新为该簇中所有标注框宽和高的平均值,重复步骤2.3、步骤2.4、步骤2.5三步,直到聚类中心框变化值小于设定的阈值;
步骤2.6:对步骤2.5得到的每个多尺度聚类中心框均依次旋转-15°,-30°,-45°,-60°,-75°,-90°,最终得到一系列多方向的旋转锚点。
3.根据权利要求2所述的一种基于旋转锚点聚类的遥感图像目标快速检测方法,其特征在于:步骤3所述对步骤2得到的旋转锚点向旋转标注框做前景背景二分类和坐标粗回归具体为:
得到正负样本和初步的预测框信息,其训练过程的二分类交叉熵损失和边界框回归损失公式如下:
Figure FDA0002945724070000021
其中λ是控制两个任务损失之间的平衡系数,Ncls表示训练批量的大小,Nreg表示锚点位置的数量,i表示锚点的索引,二分类交叉熵损失函数
Figure FDA0002945724070000022
定义为:
Figure FDA0002945724070000023
pi表示锚点预测为目标的概率,
Figure FDA0002945724070000024
表示真值框的标签,如果第i个锚点为正样本的,则
Figure FDA0002945724070000025
否则为0,
Figure FDA0002945724070000026
表示只对正样本的锚点进行回归,边界框回归损失定义为:
Figure FDA0002945724070000027
Figure FDA0002945724070000028
ui=(ux,uy,uw,uh,uθ)和
Figure FDA0002945724070000029
分别表示预测框和正样本标注框的坐标参数元组,其中,θ是预测框的旋转角,θa是锚点的旋转角,θ*是标注框的旋转角,
Figure FDA00029457240700000210
代表预测框与锚点的偏移角,uθ代表标注框与锚点的偏移角, uθ
Figure FDA00029457240700000211
计算公式如下:
uθ=θ-θa+kπ/2
Figure FDA00029457240700000212
4.根据权利要求3所述的一种基于旋转锚点聚类的遥感图像目标快速检测方法,其特征在于:步骤4所述对步骤3得到的提案做多尺度的旋转RoI池化包括:7∶7池化尺度、3∶11池化尺度和11∶3池化尺度。
CN202110192691.XA 2021-02-20 2021-02-20 一种基于旋转锚点聚类的遥感图像目标快速检测方法 Active CN112861744B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110192691.XA CN112861744B (zh) 2021-02-20 2021-02-20 一种基于旋转锚点聚类的遥感图像目标快速检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110192691.XA CN112861744B (zh) 2021-02-20 2021-02-20 一种基于旋转锚点聚类的遥感图像目标快速检测方法

Publications (2)

Publication Number Publication Date
CN112861744A CN112861744A (zh) 2021-05-28
CN112861744B true CN112861744B (zh) 2022-06-17

Family

ID=75988310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110192691.XA Active CN112861744B (zh) 2021-02-20 2021-02-20 一种基于旋转锚点聚类的遥感图像目标快速检测方法

Country Status (1)

Country Link
CN (1) CN112861744B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344113B (zh) * 2021-06-27 2024-03-19 东南大学 一种基于改进k-means聚类的Yolov3锚框确定方法
CN114677568B (zh) * 2022-05-30 2022-08-23 山东极视角科技有限公司 一种基于神经网络的线性目标检测方法、模块及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860336A (zh) * 2020-07-21 2020-10-30 西北工业大学 基于位置感知的高分辨遥感图像倾斜船舶目标检测方法
CN112101277A (zh) * 2020-09-24 2020-12-18 湖南大学 一种图像语义特征约束的遥感目标检测方法
CN112364843A (zh) * 2021-01-11 2021-02-12 中国科学院自动化研究所 插拔式航拍图像目标定位检测方法、系统、设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11049240B2 (en) * 2019-05-23 2021-06-29 Healthhub Co., Ltd. Method and system for assessing bone age using deep neural network

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860336A (zh) * 2020-07-21 2020-10-30 西北工业大学 基于位置感知的高分辨遥感图像倾斜船舶目标检测方法
CN112101277A (zh) * 2020-09-24 2020-12-18 湖南大学 一种图像语义特征约束的遥感目标检测方法
CN112364843A (zh) * 2021-01-11 2021-02-12 中国科学院自动化研究所 插拔式航拍图像目标定位检测方法、系统、设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Align Deep Features for Oriented Object Detection》;jiaming Han et. al,.;《arXiv》;20200821;全文 *
《Arbitrary-Oriented Scene Text Detection》;Jianqi Ma et. al,.;《IEEE TRANSACTIONS ON MULTIMEDIA》;20181130;全文 *
《Toward Arbitrary-Oriented Ship Detection》;Zenghui Zhang et. al,.;《IEEE GEOSCIENCE AND REMOTE SENSING LETTERS》;20181130;全文 *

Also Published As

Publication number Publication date
CN112861744A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
US10929649B2 (en) Multi-pose face feature point detection method based on cascade regression
CN112861744B (zh) 一种基于旋转锚点聚类的遥感图像目标快速检测方法
CN110796168A (zh) 一种基于改进YOLOv3的车辆检测方法
CN106127791B (zh) 一种航空遥感影像的建筑物轮廓线提取方法
CN105869178B (zh) 一种基于多尺度组合特征凸优化的复杂目标动态场景无监督分割方法
WO2023097971A1 (zh) 4d毫米波雷达数据处理的方法
CN107992818B (zh) 一种光学遥感图像海面船只目标的检测方法
CN110969191B (zh) 基于相似性保持度量学习方法的青光眼患病概率预测方法
CN111126482A (zh) 一种基于多分类器级联模型的遥感影像自动分类方法
CN105046694A (zh) 一种基于曲面拟合系数特征的点云快速配准方法
CN115457004A (zh) 基于计算机视觉的锌膏的智能检测方法
CN110516525A (zh) 基于gan和svm的sar图像目标识别方法
CN110097011A (zh) 一种信号识别方法及装置
CN113799124A (zh) 一种非结构化环境的机器人灵活抓取检测方法
CN107680099A (zh) 一种融合ifoa和f‑isodata的图像分割方法
Zhu et al. Change detection based on the combination of improved SegNet neural network and morphology
Chen et al. Control distance IoU and control distance IoU loss function for better bounding box regression
CN111339924A (zh) 一种基于超像素和全卷积网络的极化sar图像分类方法
CN103235954A (zh) 一种基于改进AdaBoost算法的地基云图识别方法
CN111626160A (zh) 一种基于区域式渐进校准网络的角度变化下人脸检测方法
CN109558803B (zh) 基于卷积神经网络与np准则的sar目标鉴别方法
CN105139422B (zh) 一种自解释目标跟踪方法及装置
CN110348311B (zh) 一种基于深度学习的道路交叉口识别系统及方法
Li et al. Oriented-yolov5: A real-time oriented detector based on Yolov5
CN113469270B (zh) 基于分解多目标差分进化超像素的半监督直觉聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant