CN112861744B

CN112861744B - 一种基于旋转锚点聚类的遥感图像目标快速检测方法

Info

Publication number: CN112861744B
Application number: CN202110192691.XA
Authority: CN
Inventors: 杨志钢; 黎明; 李泳江; 柳晴川; 杨远兰
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2021-02-20
Filing date: 2021-02-20
Publication date: 2022-06-17
Anticipated expiration: 2041-02-20
Also published as: CN112861744A

Abstract

本发明公开了一种基于旋转锚点聚类的遥感图像目标快速检测方法，首先利用基于k‑means聚类算法设计旋转锚点，得到一系列旋转锚点；再通过对旋转锚点进行前景背景二分类和坐标粗回归，结合旋转非极大值抑制后处理，得到正负样本信息和精简后的高质量提案；最后对提案进行多尺度旋转RoI池化处理，得到含有感兴趣区RoIs的固定长度向量，把向量输入到全连接层(FC)进行具体类别的分类与坐标回归，再次采用INMS后处理得到目标的最终检测结果。本发明能有效降低锚点的冗余度、提升遥感图像目标的检测速度与检测精度、算法易于实现、调参简便、具备数学可解释性等优点，该方法具有广阔的应用前景和良好的经济效益。

Description

一种基于旋转锚点聚类的遥感图像目标快速检测方法

技术领域

本发明涉及一种遥感图像目标快速检测方法，特别是一种基于旋转锚点聚类的遥感图像目标快速检测方法，属于遥感图像目标检测领域。

背景技术

自1972年美国发射第一颗地球资源卫星以来，遥感技术受到了全世界前所未有的重视，其中的遥感图像资料具有精度高、覆盖面积大、光谱分辨率清晰等特点，备受研究人员青睐。目标检测是图像处理领域的一个重要组成部分。随着遥感技术的不断发展，不论是在军事领域还是民用领域，从遥感图像中对特定目标进行检测的需求都在与日俱增，对遥感图像的目标检测已经成为国防现代比建设和民用生活生产中必不可少的技术。

但飞速发展的遥感技术也产生了很多新的挑战，随着图像数据量的爆炸式增长，常规的图像处理已经难以应对少量。深度学习的诞生使得高速、精确地处理大批量图像数据得以实现。在面对遥感图像的目标检测时，大量先进的基于深度学习的通用目标检测方法都表现欠佳，因为与一般图像相比，遥感图像有着背景复杂、尺度多样、目标密集、方向多样等特点。这些特殊之处很大地制约了目标检测算法的速度与精度。

快速目标检测算法一直处于学术研究的前沿领域，目标检测算法的速度指标也是其中最重要的一项指标之一，对算法的好坏起着非常直观的评判作用，很大程度上制约了算法实用程度。目前基于深度学习的目标检测算法可以分为一阶段目标检测算法和两阶段目标检测算法。一阶段检测算法的一些经典算法有YOLO系列算法、SSD系列算法等。相较于常规目标检测算法和两阶段目标检测算法，一阶段目标检测算法虽然在速度上有了明显的提升，但是精度不高，难以应用在精度要求高的遥感图像目标检测上。两阶段的目标检测算法以Faster-RCNN为代表衍生出了一系列的改进版本，相较于常规算法和一阶段目标检测算法，其最主要的特点是精度高，但是速度明显不及一阶段目标检测算法，主要应用在一些对精度要求高的领域，如军事、国防、遥感等领域。

由于两阶段目标检测存上述速度缺陷，大量改进算法应运而生。有针对提取特征的主干网络进行设计的方法；有根据数学原理对损失函数进行改进的算法；也有改进区域提案网络，优化提案质量等方法。遥感图像有着背景复杂、尺度多样、目标密集、方向多样等特点。水平锚点的检测方式容易导致密集目标情况下的漏检，从而降低检测精度；且手工方式设计的锚点针对性不强，锚点冗余度大，直接导致需要增加大量不同尺寸和宽高比的锚点，用以覆盖不同尺寸与形状的检测目标，训练过程调参繁琐，致使检测速度受到了很大的限制。要提高检测速度和检测精度，核心在于精简提案数量和提升提案质量，把针对性强和质量高的训练候选区域送入网络进行学习，而锚点的设计正是其中的关键技术。

发明内容

针对上述现有技术，本发明要解决的技术问题是提供一种基于旋转锚点聚类的遥感图像目标快速检测方法，可以有效提高遥感图像目标的检测速度。

为解决上述技术问题，本发明的一种基于旋转锚点聚类的遥感图像目标快速检测方法，包括以下步骤：

步骤1：对输入图像进行预处理后，由深度卷积神经网络作为主干网络提取图像的特征信息，作为特征图输出到步骤2；

步骤2：用k-means聚类算法对训练集图像中的标注框数据进行聚类，在特征图上以尺度、宽高为先验信息，统计出k种最具代表性的锚点，对其做旋转处理，得到最有可能覆盖目标的旋转锚点；

步骤3：对步骤2得到的旋转锚点向旋转标注框做前景背景二分类和坐标粗回归，并采用旋转非极大值抑制进行后处理，得到精简后的高质量提案；

步骤4：对步骤3得到的提案做多尺度的旋转RoI池化，得到含有感兴趣区域RoIs的固定长度向量，将其输入全连接层FC进行具体类别分类与坐标回归，用INMS后处理得到目标的最终检测结果。

本发明还包括：

1.步骤2中用k-means聚类算法对训练集图像中的标注框数据进行聚类，在特征图上以尺度、宽高为先验信息，统计出k种最具代表性的锚点，对其做旋转处理，得到最有可能覆盖目标的旋转锚点具体为：

步骤2.1：统计训练数据集的标注信息，一共N张图片，总计C个标注框，标注信息为(x_i,y_i,w_i,h_i,θ_i,label)，i∈{1,2，…,C}，(x_i，y_i)是框的中心坐标，(w_i，h_i)是标注框的宽和高，θ_i框的旋转角，θ_i∈[-90，0)，lable为类别标签；

步骤2.2：随机初始化k个聚类中心框(W_n，H_n)，n∈{1，2，…,k}；

步骤2.3：分别计算k个聚类中心框与所有标注框的距离，计算时，聚类中心框的中心坐标(x_i，y_i)与标注框的中心坐标(x_i，y_i)保持重合，两框的距离公式定义满足：

d＝1-IoU[(x_i，y_i,w_i，h_i)，(x_i，y_i，W_n，H_n)]，i∈{1，2，…,C}，n∈{1，2，…，k}

步骤2.4：将标注框归类给距离d最近的聚类中心框；

步骤2.5：重新计算k个簇的聚类中心框，计算公式如下所示：

N_n为第n个簇的标注框个数，新的聚类中心框的宽和高更新为该簇中所有标注框宽和高的平均值，重复步骤2.3、步骤2.4、步骤2.5三步，直到聚类中心框变化值小于设定的阈值；

步骤2.6：对步骤2.5得到的每个多尺度聚类中心框均依次旋转-15°，-30°，-45°，-60°，-75°，-90°，最终得到一系列多方向的旋转锚点。

2.步骤3中对步骤2得到的旋转锚点向旋转标注框做前景背景二分类和坐标粗回归具体为：

得到正负样本和初步的预测框信息，其训练过程的二分类交叉熵损失和边界框回归损失公式如下：

其中λ是控制两个任务损失之间的平衡系数，N_cls表示训练批量的大小，N_reg表示锚点位置的数量，i表示锚点的索引，二分类交叉熵损失函数L_cls(p_i,

)定义为：

p_i表示锚点预测为目标的概率，

表示真值框的标签，如果第i个锚点为正样本的，则

否则为0，

表示只对正样本的锚点进行回归，边界框回归损失定义为：

u_i＝(u_x,u_y,u_w,u_h,u_θ)和

分别表示预测框和正样本标注框的坐标参数元组，其中，θ是预测框的旋转角，θ_a是锚点的旋转角，θ^*是标注框的旋转角。

代表预测框与锚点的偏移角，u_θ代表标注框与锚点的偏移角。u_θ与

计算公式如下：

u_θ＝θ-θ_a+kπ/2

3.步骤4中对步骤3得到的提案做多尺度的旋转RoI池化包括：7:7池化尺度、3:11池化尺度和11:3池化尺度。

本发明的有益效果：本发明提出了一种基于旋转锚点聚类的遥感图像目标快速检测方法，首先通过主干网络提取图像的特征信息；再利用基于k-means聚类的方法自动筛选出最具针对性的k类旋转锚点，有效降低了锚点的冗余度和提高了锚点的针对性，从而提升了检测的速度与精度；然后对旋转锚点向旋转标注框做前景背景二分类和坐标回归，得到精简后的高质量提案；最后经过全连接层对提案进行具体类别分类、坐标回归和INMS后处理得到最终检测结果。锚点提出算法部分中，采用的是数学统计的方法自动提出锚点，可解释性强，锚点的冗余度得到有效降低，对检测目标的尺寸与形状的针对性明显加强，锚点数量得到有效精简，从而提高了最终的检测精度与检测速度，算法易于实现、调参简便、具备数学可解释性等优点，该方法具有广阔的应用前景和良好的经济效益。

附图说明

图1是本发明实施例提供的基于旋转锚点聚类的遥感图像目标快速检测方法的整体示意图；

图2是本发明实施例提供的基于k-means聚类生成旋转锚点方法流程图；

图3是本发明实施例提供的多方向的旋转锚点生成示意图；

图4是本发明实施例提供的聚类中心框与标注框之间的IoU示意图；

图5是本发明实施例提供的水平框检测与旋转框检测的对比示意图；

具体实施方式

下面结合说明书附图和具体实施方式对本发明做进一步说明。

本发明首先通过基于k-means聚类的算法找到合适的旋转锚点，然后再利用两阶段检测算法检测出具体目标，改善遥感图像目标检测速度慢的状况为实现上述目标，本发明的方法方案如下：

(1)对输入图像进行预处理后，由深度卷积神经网络作为主干网络提取图像的特征信息，作为特征图输出到下一环节；

(2)使用k-means聚类算法对训练集图像中的标注框数据进行聚类，在特征图上以尺度、宽高为先验信息，统计出k种最具代表性的锚点，对其做旋转处理，得到最有可能覆盖目标的旋转锚点；

(3)对(2)得到的旋转锚点向旋转标注框做前景背景二分类和坐标回归，并采用旋转非极大值抑制(INMS)进行后处理，得到精简后的高质量提案；

(4)除了常规的7：7池化尺度外，另增加3：16和16：3两种池化尺度，对(3)得到的提案做多尺度的旋转ROI池化处理，得到含有感兴趣区域(RoIs)的固定长度向量。将其输入到全连接层(FC)进行具体类别分类与坐标回归，用INMS后处理得到目标的最终检测结果。

使用基于k-means聚类得到k类具有代表性的旋转锚点，具体的训练和检测流程，包括：

(2-a)统计训练数据集的标注信息，一共N张图片，总计C个标注框，标注框信息为(x_i，y_i，w_i，h_i，θ_i，label)，i∈{1，2,…,C}，(x_i,y_i)是锚点的中心点，(w_i,h_i)是锚点的宽和高，θ_i为锚点的旋转角，θ_i∈[-90,0)，lable为类别标签；

(2-b)随机初始化k个聚类中心框(W_n,H_n)，n∈{1,2,…,k}；

(2-c)分别计算k个聚类中心框与所有标注框的距离，计算时，聚类中心框的中心坐标(x_i,y_i)应与标注框的中心坐标(x_i,y_i)保持重合，两框的距离公式定义如下所示；

d＝1-IoU[(x_i,y_i,w_i,h_i),(x_i,y_i,W_n,H_n)]，i∈{1,2,…,C}，n∈{1,2,…,k}

(2-d)将标注框归类给距离d最小的聚类中心框；

(2-e)重新计算k个簇的聚类中心框，计算公式如下所示：

N_n为第n个簇的标注框个数，新的聚类中心框的宽和高更新为该簇中所有标注框宽和高的平均值。重复(2-c)、(2-d)、(2-e)三步，直到聚类中心框基本稳定或变化值小于设定的阈值。

(2-f)对(2-e)得到的k个聚类中心框全都旋转-15°，-30°，-45°，-60°，-75°，-90°，得到一系列多方向的旋转锚点。

对旋转锚点向旋转标注框做前景背景二分类和坐标粗回归，得到精简后的高质量提案，具体的训练和检测流程，包括：

(3-a)将(2)得到的旋转锚点向旋转标注框做前景背景二分类和坐标回归，得到正负样本信息和初步的预测框信息，其训练过程的二分类交叉熵损失和边界框回归损失公式如下：

其中λ是控制两个任务损失之间的平衡系数。N_cls表示训练批量的大小，N_reg表示锚点位置的数量，i表示锚点的索引。二分类交叉熵损失函数L_cls(p_i,

)定义为：

p_i表示锚点预测为目标的概率，

表示真值框的标签，如果第i个锚点为正样本的，则

否则为0，即式(3-5)中的

表示只对正样本的锚点进行回归。边界框回归损失定义为：

u_i＝(u_x,u_y,u_w,u_h,u_θ)和

分别表示预测框和正样本标注框的坐标参数元组。其中，θ是预测框的旋转角，θ_a是锚点的旋转角，θ^*是标注框的旋转角。

计算公式如下：。

u_θ＝θ-θ_a+kπ/2

(3-b)对得到的预测框采用INMS进行后处理，得到精简后的高质量提案。

经过全连接层对提案进行具体类别分类、坐标回归和INMS后处理得到最终检测结果，具体的训练和检测流程，包括：

(4-a)对精简的提案进行多尺度的旋转ROI池化，得到一个固定长度的向量；

(4-b)把得到的固定长度的向量输入到全连接层进行具体类别分类与坐标回归，用INMS后处理得到目标的最终检测结果。

结合图1和具体参数给出实施例，本发明具体实施步骤如下：

S1、将遥感图像数据集随机划分为训练集，验证集和测试集，划分的比例为6:2:2，把图像统一resize到尺寸448*448，再对其做预处理，处理完毕后用深度卷积神经网络作为主干网络提取图像的特征信息，得到包含图像目标信息的特征图。

特征图的提取能影响到图像目标检测的最终效果，深度卷积神经网络取代了手动定义特征图的方式，是自动学习和提取图像特征信息，具备强大的特征提取能力和大数据处理能力，在保证处理速度的同时，也保证了提取特征的质量，方便后续算法进行处理。

S2、利用基于k-means聚类生成旋转锚点，如图2所示，具体实施步骤如下：

S21.首先统计训练数据集中所有标注框的宽和高(w_i,h_i)，i∈{1,2,…,C}，然后随机初始化k个聚类中心框(W_n,H_n)，n∈{1,2,…,k}。

由于锚点的位置不固定，所以这里不涉及中心坐标(x_i,y_i)，只需用到标注框的宽和高。初始化时，聚类中心框之间要尽量分散一些，能使聚类的收敛速度更快，同时避免不合理的初始值导致局部最优解，聚类数目k可以由肘部法则和特征检查来确定。

S22.分别计算k个聚类中心框与所有标注框的距离。计算时，聚类中心框的中心坐标(x_i,y_i)与标注框的中心坐标(x_i，y_i)保持重合，聚类中心框与标注框之间的IoU表示如图4所示，IoU计算公式与两框之间的距离公式定义如下；

d＝1-IoU[(x_i，y_i，w_i，h_i)，(x_i，y_i,W_n，H_n)]，i∈{1,2,…,C}，n∈{1,2,…,k},

IoU＝(A∩B)/(A∪B)

S23.将标注框归类为距离最近的聚类中心框。

因为聚类的目地是为了得到最大概率出现的检测目标所对应的边界框是什么形状与多大尺度，所以在计算时，聚类中心框的中心坐标应与标注框的中心坐标保持重合，角度信息保持一致。这里并不直接计算两点间的欧式距离，而是先计算出两框之间的交并比IoU，即两框之间的相似程度。再由重定义的距离d计算公式可知，当d越小，则标注框与聚类中心框越相似，将标注框类别划分为与之最相似的聚类中心框。

S24.重新计算k个簇的聚类中心框，计算公式如下所示：

N_n为第n个簇的标注框个数，新的聚类中心框的宽和高更新为该簇中所有标注框宽和高的平均值。重复执行S22、S23、S24三步，直到聚类中心框基本稳定或变化值小于设定的阈值。

k-means聚类算法设计锚点是一阶段目标检测YOLO系列模型提出的一种锚点设计方法，使得目标检测的速度有了明显提升。多数遥感图像目标检测模型中使用手动设计锚点的方式，手工锚点的尺度与宽高比都需根据人工经验进行设计，不具备数学可解释性，需要经过多次实验调试才能找到较为合适尺度与宽高比的锚点，且手动设计的锚点存在很大的冗余度，部分锚点的设计并不合理，难以较好地匹配检测目标的形状与尺度，在增加了冗余锚点数量的同时，也提高了后续边界框的回归难度，直接降低了目标的检测速度与检测精度。

k-means聚类算法使用数学统计的方法自动聚类锚点，在特征图上以标注框数据的尺度、宽高为先验信息，统计出k种最具代表性的锚点，得到最有可能匹配目标形状与尺度的锚点，精简了锚点数量，降低了锚点的冗余度，提高了锚点的针对性，能有效提高检测速度。且算法原理简单，实现容易，收敛速度快，聚类效果较优，算法的可解释性较强，所需调节参数仅为聚类簇数k。

S25.将得到的k个聚类中心框逐个旋转-15°，-30°，-45°，-60°，-75°，-90°，最终得到如图3所示的一系列多方向旋转锚点。

遥感图像的目标检测方法的主要局限性在于应用场景的复杂性、密集目标检测的难度和检测区域的冗余性，在检测目标旋转和密集布置的情况下，设计旋转锚点策略来预测目标的最小外接矩形，以减少冗余检测区域，提高召回率。

如图5所示，图5中左侧三幅图为水平框检测结果图，右侧三幅图为本发明旋转框检测结果图，当使用水平锚点进行检测时，检测结果出现了明显的漏检情况，而使用k-means聚类算法设计的旋转锚点检测时，避免了非极大值抑制的副作用，克服了检测密集目标的困难，最终提高了召回率。

S3、对旋转锚点进行前景背景二分类和坐标粗回归，得到正负样本信息和精简后的高质量提案。

在训练过程中，每个锚点被分配一个二进制类标签和五个参数坐标。为了训练网络，需要从小批量的所有锚点中找到正样本和负样本。正样本需要满足以下一个条件：①锚与标注框的IoU重叠大于0.5，且角度小于15度；②锚与标注框的IoU重叠最高时。负样本定义为：①IoU重叠小于0.2，或②IoU重叠大于0.5，但角差大于15度。直接舍弃既不是正样本也不是负样本的锚。

S31.用设计好的旋转锚点来扫描特征图，得到一系列的感兴趣区域，由S2可知旋转锚点个数等于6k，若特征图大小为n*n，则扫描特征图后的感兴趣区域个数为6k*n*n，再对其进行前景背景二分类和坐标粗回归，得到正负样本信息和初步的预测框信息。其训练过程的二分类交叉熵损失和边界框回归损失公式如下：

)定义为：

p_i表示锚点预测为目标的概率，

表示真值框的标签，如果第i个锚点为正样本的，则

否则为0，

表示只对正样本的锚点进行回归。边界框回归损失定义为：

u_i＝(u_x,u_y,u_w,u_h,u_θ)和

计算公式如下：

u_θ＝θ-θ_a+kπ/2

S32.对得到的初步预测框采用INMS进行后处理，进一步得到精简后的高质量提案。

用INMS替换一般的的NMS可有效减少目标密集情况下正确检测框被大量抑制的情况，从而降低目标漏检，提高检测精度。

S4、对S3得到的提案进行具体类别分类与坐标回归，再用INMS后处理得到目标的最终检测结果。

S41.为解决大长宽比目标池化过程中存在的特征不匹配问题，除了常规的7:7池化尺度之外，增加3:16和16:3两种池化尺度，对提案进行多尺度旋转RoI池化处理，得到含有感兴趣区域的固定长度向量，以减少失真带来的影响。

S42.将池化处理后得到的固定长度的向量输入到全连接层进行具体类别的分类与坐标回归，再用INMS后处理得到目标的最终检测结果。

同步骤S3，这里使用INMS后处理，也可有效减少目标密集情况下正确检测框被大量抑制的情况，从而降低目标漏检，提高检测精度。

表1列出了本实施例中几种不同算法下的检测结果，实验硬件设备：CPU:Intel(R)Xeon(R)Gold 6128 3.40GHz，GPU:Nvidia Tesla P100 16GB RAM。图像数据集都是统一的DOTA遥感图像数据集，大小统一裁剪为800*800。由表中结果可知，相较于两阶段目标检测的Faster-RCNN和RRPN手动设计一系列不同尺度与长宽比的锚点，本例使用基于k-means聚类算法自动设计旋转锚点的方法有效地提升了检测速度，在精度上明显高于Faster-RCNN；对比RRPN，在精度牺牲不大的前提下，主要的速度指标得到了大幅度的提升；两阶段目标检测的速度总体上明显慢于一阶段目标检测，本例与YOLO v3的速度差距得到缩小的同时，其检测精度大大地超过了YOLO v3。

表1遥感图像在几种目标检测算法下的检测结果对照表

算法名称	mAP	Time(s)
			Faster-RCNN	36.29	0.33
YOLOV3	25.43	0.07
			RRPN	61.01	0.45
本方法	57.73	0.24

综上可知，基于旋转锚点聚类的遥感图像目标快速检测策略适合检测遥感图像目标，有效提高了二阶段遥感图像的目标检测速度与检测精度，实际应用性很强，所述的基于k-means聚类算法设计旋转锚点的方法，可以有效降低锚点冗余度和提高锚点的代表性，从而减少训练时间，最终提高遥感图像目标的检测速度，更加精确地检测出复杂场景下的密集目标，有效提高召回率；当目标分布密集时，所述INMS处理建议框的方法，能有效降低大量正确检测框被抑制的情况，从而降低漏警，提高检测精度；所述多尺度旋转RoI池化解决了特征不匹配问题，也降低了失真带来的不利影响。

以上显示和描述了一种基于旋转锚点聚类的遥感图像目标快速检测方法的基本原理、主要特征和实用的优点，本行业的技术人员应该了解，以上实施例的说明只是用于帮助理解本发明的方法技术和核心思想，并不限制本发明，同时，根据本申请的思想，在具体实施方式和应用范围上均会有改变之处，这些改变都落入本发明的保护范围内。