CN112084869B

CN112084869B - 一种基于紧致四边形表示的建筑物目标检测方法

Info

Publication number: CN112084869B
Application number: CN202010794953.5A
Authority: CN
Inventors: 刘庆杰; 高广帅; 王蕴红
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2023-04-07
Anticipated expiration: 2040-08-10
Also published as: CN112084869A

Abstract

本发明公开了一种基于紧致四边形表示的建筑物目标检测方法，特征提取网络通过特征金字塔结构获得丰富的多尺寸的特征信息；建议区域生成网络获得感兴趣区域；正矩形边界框分支在特征金字塔结构的不同尺寸的特征图上进行正矩形边界框分类任务和回归任务；紧致四边形边界框分支生成建筑物目标的紧致四边形边界框，并由此精确定位出遥感影像中建筑物目标的轮廓。本发明提供的上述建筑物目标检测方法，不仅可以避免生成不规则的外形，还可以保持一定结构的外形约束性。通过实验可以证明，本发明提供的上述建筑物目标检测方法，不仅能够提取到更多的建筑物目标的节点和更准确的边缘特征信息，还能够得到更精确的检测结果。

Description

一种基于紧致四边形表示的建筑物目标检测方法

技术领域

本发明涉及遥感影像中目标检测的技术领域，尤其涉及一种基于紧致四边形表示的建筑物目标检测方法。

背景技术

随着遥感卫星成像技术的不断快速发展，人们可以通过卫星获取到越来越多的高分辨率遥感图像，这也意味着遥感目标的空间信息和语义信息将更加丰富。这为人类生活带来了许多好处，例如农作物勘测、森林火灾监测以及交通导向系统的车辆检测。因此，从遥感影像中提取信息将在遥感和计算机视觉领域起到举足轻重的作用。

目标检测，作为图像理解中最具挑战性的问题之一，从航空或卫星图像中自动提取人造目标的遥感影像目标检测算法能够达到很高的性能。特别地，遥感影像中的建筑物目标检测在城市规划、城市制图、城市变化检测和地理信息系统工程中具有许多重要应用，这也将在许多遥感影像实际应用中提供更多的帮助，例如土地规划、环境管理和灾害评估等。因此，发展遥感影像中的自动化建筑物提取方法将会是一个十分有意义的任务。

在过去的几十年里，人们提出了许多建筑物提取的方法。在早期阶段，低级的手工特征经常被用于建筑物提取中的特征提取过程中。除此之外，为了获取建筑物的轮廓线，可以使用图像分割的方法将遥感影像区分为许多小区域，随后进行像素级别的分类以将建筑物与他们的背景区分开来。例如，Kampffmeyer等人提出了一种基于语义分割的方法，结合了包括基于块和像素级的方法中所采用的深度网络结构，以期望在遥感影像中获得更好的小目标分割准确率。Wu等人提出了一种具有多种约束的全卷积网络，以提高U-Net模型在航空影像中的建筑物目标分割的性能。Troya-Galvis等人提出了两种全新的框架，它们均是来自被称CoSC的协作框架的两种不同扩展，这两种扩展框架的性能均优于像素级别和目标级别混合的方法以及相关的深度学习方法。

通过在图像中进行像素级别的分类，上述提到的基于语义分割的方能够将遥感影像中的建筑物与背景区分开来，并生成大致的建筑物分割边界。但是，由于分割掩码本身的节点数量不确定，自由度过高，这些方法生成的建筑物轮廓始终是不规则的。同时，这些基于语义分割的方法也无法区分建筑物实例，无法实现实例级别的建筑物提取。

在最近的几年里，基于卷积神经网络的目标检测器在遥感目标检测领域里取得了很大的进展。例如，Paisitkriangkrai等人提出了基于卷积神经网络的方法在ISPRS数据集上取得了很好的效果。Cheng等人通过在遥感影像数据集上进行充分实验，证明了使用ImageNet数据集进行预训练的卷积神经网络可以帮助遥感影像的分析任务得到一个令人满意的结果。

此外，得益于上述遥感目标领域中的目标检测算法的迅速发展，在遥感影像中的建筑物检测任务中，基于卷积神经网络的建筑物检测器也同样取得了巨大突破。例如，Zhang等人提出了一种基于卷积神经网络的建筑物检测算法，该算法通过采用一种基于多尺度显著性的滑动窗口方法和一种改进的非极大值抑制(NMS)方法来检测遥感影像中的郊区建筑物。Sun等人提出了一种分为两阶段的卷积神经网络方法，被用于在高分遥感影像中检测乡村地区的建筑目标，该方法首先用神经网络在大范围的遥感影像中确定村庄的位置范围以减少复杂无关背景的带来的负面影响，之后再用单独的网络从村庄中提取单个建筑物目标。Li等人提出了一种基于级联式的卷积神经网络结构的建筑物检测算法，在该算法中，利用了霍夫变换作为先验信息来引导卷积神经网络提取建筑物的中级特征，最后实现了更高的建筑物检测性能。针对多尺度的建筑物目标提取任务，Chen等人提出了一个基于卷积神经网络的两阶段建筑物检测器，一个融合了多尺度信息的建议区域生成网络(RPN)和一种新颖的动态加权算法被用于生成不同尺度的建议区域，并最终对它们进行分类。

尽管上述提及的基于目标检测的建筑物检测方法可以区分出单个建筑物，实现实例级别的建筑物提取，但是它们通常采用矩形边界框来表示建筑物的位置，因此，它们无法生成建筑物的轮廓。为了解决这个问题，可以使用一些基于实例分割的方法来完成遥感影像中的建筑物提取任务。但是，与基于语义分割的方法相同，通过这些基于实例分割的方法生成的建筑物轮廓也往往是不规则的。

综上所述，一般来说，目前有两种边界框可被用于表示遥感影像中建筑物的位置。一种是正矩形边界框，使用这种边界框的方法不能很好地表示出建筑物的位置，且无法生成建筑物的轮廓。另一种则是多边形边界框(即分割掩码)，使用这种边界框的方法通常基于一个实例分割检测器，例如Mask R-CNN，这种方法可以通过预测每个建筑物对应的分割掩码的方式来获得建筑物的多边形轮廓，然而，由于节点数量的不确定性和外形上的不规则性，这些基于分割掩码的多边形轮廓往往不太准确，容易得到不规则的形状，不能很好地表示出建筑物的几何轮廓。

发明内容

有鉴于此，本发明提供了一种基于紧致四边形表示的建筑物目标检测方法，用以精确地检测出遥感图像中建筑物目标的位置。

因此，本发明提供了一种基于紧致四边形表示的建筑物目标检测方法，包括如下步骤：

S1：将待检测图像输入所述特征提取网络，通过自底向上的方式由浅到深提取特征，对提取的特征进行自顶向下的侧向连接，生成含有丰富语义信息、具有多个尺寸特征图的特征金字塔结构；

S2：将所述特征金字塔结构作为正矩形边界框分支的输入，所述正矩形边界框分支在所述特征金字塔结构的每个尺寸特征图上进行建筑物目标的分类任务和正矩形边界框的回归任务；

S3：以所述特征金字塔结构和所述正矩形边界框分支为输入，通过所述紧致四边形边界框分支获得建筑物目标的紧致四边形边界框，得到建筑物目标的轮廓。

在一种可能的实现方式中，在本发明提供的上述基于紧致四边形表示的建筑物目标检测方法中，步骤S1，将待检测图像输入所述特征提取网络，通过自底向上的方式由浅到深提取特征，对提取的特征进行自顶向下的侧向连接，生成含有丰富语义信息、具有多个尺寸特征图的特征金字塔结构，具体包括：

使用ResNeXt-101作为所述特征提取网络的主干网络；待检测图像经过所述主干网络后，根据所述主干网络不同层特征图尺寸的不同，输出的特征图由低到高被分为五个等级，每个等级的特征图的尺寸相同，定义为：

C_*＝{C₁,C₂,C₃,C₄,C₅} (1)

取所述主干网络输出的后四个等级的特征图C_*＝{C₂,C₃,C₄,C₅}，进行自顶向下的侧向连接，建立特征金字塔结构；将所述主干网络输出的后四个等级的特征图{C₂,C₃,C₄,C₅}作为所述特征金字塔结构的输入，在特征图C₅上附加一个1×1卷积层生成特征图P₅，对特征图P₅进行下采样得到特征图P₆；通过最近邻方法将特征图P₅上采样2倍，将上采样的结果和特征图C₄附加一个1×1卷积层后得到的特征图进行融合，采用3×3的卷积核对融合结果进行卷积，得到特征图P₄；通过最近邻方法将特征图P₄上采样2倍，将上采样的结果和特征图C₃附加一个1×1卷积层后得到的特征图进行融合，采用3×3的卷积核对融合结果进行卷积，得到特征图P₃；同理，得到特征图P₂；定义如下：

P_*＝{P₂,P₃,P₄,P₅,P₆} (2)。

在一种可能的实现方式中，在本发明提供的上述基于紧致四边形表示的建筑物目标检测方法中，步骤S2，将所述特征金字塔结构作为正矩形边界框分支的输入，所述正矩形边界框分支在所述特征金字塔结构的每个尺寸特征图上进行建筑物目标的分类任务和正矩形边界框的回归任务，具体包括：

对特征图P₆进行下采样得到特征图P₇，将特征图{P₃,P₄,P₅,P₆,P₇}作为正矩形边界框分支的输入；针对每个尺寸的特征图，先分别采用四次3×3×C的卷积操作，每次卷积操作后面连接着修正线性单元，再分别采用3×3×2和3×3×4的卷积层，生成H×W×2和H×W×4的特征图；其中，H表示特征图的高，W表示特征图的宽，C表示通道；2表示二值分类，代表建筑物目标是与否；4表示回归的正矩形边界框的参数化向量；针对每个尺寸的特征图上的各坐标点，判断坐标点映射到待检测图片的坐标是否落在建筑物目标的正矩形边界框中；若是，则将坐标点认定为正矩形边界框对应的正样本点；若否，则将坐标点认定为正矩形边界框对应的负样本点；

对于每个正样本点，正矩形边界框回归的计算方式如下：

其中，(x_A,y_A)表示正矩形边界框对应的正样本点的坐标，(x_lt,y_lt)表示正样本点对应的建筑物目标的正矩形边界框的左上角的坐标，(x_rb,y_rb)表示正样本点对应的建筑物目标的正矩形边界框的右下角的坐标，l^*表示正样本点与正矩形边界框的四条边中左侧边的距离，t^*表示正样本点与正矩形边界框的四条边中上侧边的距离，r^*表示正样本点与正矩形边界框的四条边中右侧边的距离，b^*表示正样本点与正矩形边界框的四条边中下侧边的距离；

针对每个正样本点，判断是否满足(l^*,t^*,r^*,b^*)＞m_l或者(l^*,t^*,r^*,b^*)＜m_l-1；若是，则将正样本点删除；若否，则将正样本点保留；其中，m_l表示第l层特征图上需要回归的最大距离，m_l-1表示第l-1层特征图上需要回归的最大距离；m₂,m₃,m₄,m₅,m₆,m₇分别设定为0,64,128,256,512,∞；

在平行于分类任务的分支上添加一个输出为一维的卷积，得到正矩形边界框的中心度得分，根据回归的建筑物目标正矩形边界框对应的l^*,t^*,r^*,b^*，将与中心度分类分支对应的建筑物目标的正矩形边界框回归任务定义为：

在一种可能的实现方式中，在本发明提供的上述基于紧致四边形表示的建筑物目标检测方法中，步骤S3，以所述特征金字塔结构和所述正矩形边界框分支为输入，通过所述紧致四边形边界框分支获得建筑物目标的紧致四边形边界框，得到建筑物目标的轮廓，具体包括：

使用十维向量表示紧致四边形边界框，定义如下：

t_*＝(x,y,w_n,h_n) (5)

其中，(x,y)表示紧致四边形边界框的最小外接正矩形边界框的中心点坐标；(w_n,h_n)表示紧致四边形边界框的第n个节点距离中心点坐标的相对位置，n＝1,2,3,4；十维向量与紧致四边形边界框的四个节点(x_n,y_n)的变换过程如下：

(x_n,y_n)＝(x+w_n,y+h_n) (6)

将所述特征金字塔结构中的五个尺寸的特征图{P₃,P₄,P₅,P₆,P₇}作为所述紧致四边形边界框分支的输入，根据所述正矩形边界框分支输出的正矩形边界框(l^*,t^*,r^*,b^*)和正矩形边界框对应的正样本点的坐标(x₀,y₀)，确定正矩形边界框的四个坐标点(x_bn,y_bn)，再变换到(x_b,y_b,w_b,h_b)的形式，其中，(x_b,y_b)表示正矩形边界框的中心点坐标，w_b,h_b分别表示正矩形边界框的宽和高。

针对每个尺寸的特征图上的各坐标点，判断坐标点映射到待检测图片的坐标是否落在建筑物目标的紧致四边形边界框中；若是，则将坐标点认定为紧致四边形边界框对应的正样本点；若否，则将坐标点认定为紧致四边形边界框对应的负样本点；

对于每个正样本点，紧致四边形边界框回归的计算公式为：

其中，(x_B,y_B)表示紧致四边形边界框对应的正样本点的坐标，(x'_n,y'_n)表示正样本点对应的建筑物目标的紧致四边形边界框的四个节点的坐标；

表示正样本点与建筑物目标的紧致四边形边界框的四个节点之间的距离；

在平行于分类任务的分支上增加一个输出为一维的卷积，得到紧致四边形边界框的中心度得分；根据回归的建筑物目标的紧致四边形边界框对应的

和公式(7)，求出正样本点对应的建筑物目标的紧致四边形边界框的四个节点的坐标(x'_n,y'_n)，再根据公式(6)得到十维向量(x,y,w_n,h_n)的形式；根据回归的建筑物目标的紧致四边形边界框对应的(x,y,w_n,h_n)，将与中心度分类分支对应的建筑物目标的紧致四边形边界框回归任务定义为：

其中，

分别表示紧致四边形边界框的四个节点距中心点坐标的相对位置的真实值；

对紧致四边形边界框对应的十维向量进行参数化处理：

其中，

分别表示预测的紧致四边形边界框与正矩形边界框之间的偏移，

分别表示真实的紧致四边形边界框与正矩形边界框之间的偏移；(x',y')表示预测的紧致四边形边界框的中心点坐标，(x^*,y^*)表示真实的紧致四边形边界框的中心点坐标，(w'_n,h'_n)表示紧致四边形边界框的四个节点距中心点坐标的相对位置的预测值，

表示紧致四边形边界框的四个节点距中心点坐标的相对位置的真实值。

在一种可能的实现方式中，在本发明提供的上述基于紧致四边形表示的建筑物目标检测方法中，整个网络的训练过程，具体包括：

使用联合损失函数对整个网络进行优化，联合损失函数由分类损失函数

正矩形边界框的中心度损失函数

紧致四边形边界框的中心度损失函数

正矩形边界框回归损失函数

和紧致四边形边界框回归损失函数

组成，定义如下：

其中；θ和Θ分别表示训练批次中的第θ幅图片和批次图片数量，Θ＝3；

针对单幅图片，紧致四边形边界框的各子项损失函数定义如下：

分类损失函数：

L_cls(p_t)＝-(1-p_t)^γlog(p_t) (11)

其中，p_t表示是建筑物目标的概率，γ表示可调节的聚焦参数，设定γ＝2；

正矩形边界框的中心度损失函数和紧致四边形边界框的中心度损失函数均采用二分类交叉熵损失函数；

正矩形边界框回归损失函数：

L_bbox(bbox,bbox^*)＝-log(IOU(bbox,bbox^*)) (12)

其中，bbox表示预测的正矩形边界框，bbox^*表示真实的正矩形边界框；IOU(·)表示交并比函数；

紧致四边形边界框回归损失函数：

其中，i和N_tqr分别表示紧致四边形边界框的索引号和总数量，总数量为1000；d_i表示预测的紧致四边形边界框，

表示真实的紧致四边形边界框；λ为权重参数，设定为10；

在一种可能的实现方式中，在本发明提供的上述基于紧致四边形表示的建筑物目标检测方法中，在执行步骤S1之后，在执行步骤S2之前，还包括如下步骤：

SS1：利用所述建议区域生成网络，在所述特征金字塔结构的每个尺寸特征图上，对应生成一组带有似物性得分的感兴趣区域；

步骤S2中，将各所述感兴趣区域也作为所述正矩形边界框分支的输入。

在一种可能的实现方式中，在本发明提供的上述基于紧致四边形表示的建筑物目标检测方法中，步骤SS1，利用所述建议区域生成网络，在所述特征金字塔结构的每个尺寸特征图上，对应生成一组带有似物性得分的感兴趣区域，具体包括：

针对所述特征金字塔结构中五个尺寸的特征图{P₂,P₃,P₄,P₅,P₆}，预先设定具有五种尺寸和三种长宽比的15个锚点，利用所述建议区域生成网络在所述特征金字塔结构的每个尺寸特征图中的每个锚点上对应生成感兴趣区域，每个所述感兴趣区域具有一个对应的似物性得分；所述建议区域生成网络以金字塔形式的特征图{P₂,P₃,P₄,P₅,P₆}为输入，假设其中任一特征图的尺寸为H×W，H表示该特征图的高，W表示该特征图的宽，该特征图上每个像素位置上有3个锚点，将该特征图先通过一个H×W的卷积，生成通道为256的特征图，再分别通过两个不同的1×1的卷积得到2×H×W和4×H×W的特征图，其中2表示2个分数，4表示4个坐标，2个分数分别为建筑物目标的分数和背景的分数，4个坐标表示锚点坐标在待检测图像坐标上的偏移；遍历所述特征金字塔结构中五个尺寸的特征图，得到30个分数和60个坐标，实现对感兴趣区域的分类任务和锚点边界框的回归任务。

在一种可能的实现方式中，在本发明提供的上述基于紧致四边形表示的建筑物目标检测方法中，步骤S2，将所述特征金字塔结构和各所述感兴趣区域作为所述正矩形边界框分支的输入，所述正矩形边界框分支在所述特征金字塔结构的每个尺寸特征图上进行建筑物目标的分类任务和正矩形边界框的回归任务，具体包括：

将所述特征金字塔结构中前四个尺寸的特征图{P₂,P₃,P₄,P₅}和所述建议区域生成网络输出的感兴趣区域作为所述正矩形边界框分支的输入；针对每个感兴趣区域，在对应尺寸的特征图中提取出尺寸为7×7的小特征图，利用提取的小特征图进行三次全连接操作，进行建筑物目标的分类任务和正矩形边界框的回归任务；其中，分类任务得到{0,1}，1代表建筑物目标，0代表背景；正矩形边界框回归任务得到正矩形边界框，定义为(x_b,y_b,w_b,h_b)，(x_b,y_b)表示正矩形边界框的中心点坐标，w_b,h_b分别表示正矩形边界框的宽和高。

使用十维向量表示紧致四边形边界框，定义如下：

t_*＝(x,y,w_n,h_n) (16)

(x_n,y_n)＝(x+w_n,y+h_n) (17)

将所述特征金字塔结构中前四个尺寸的特征图{P₂,P₃,P₄,P₅}作为所述紧致四边形边界框分支的输入，根据所述正矩形边界框分支输出的正矩形边界框(x_b,y_b,w_b,h_b)，使用RoIAlign方法分别从对应尺寸的特征图中提取出尺寸为7×7的小特征图，使用三个全连接层将提取出的小特征图转换成两个十维向量{t₀,t₁}；其中，t₀表示背景类的坐标，t₁表示紧致四边形边界框坐标；

对紧致四边形边界框坐标对应的十维向量进行参数化处理：

其中，

分别表示真实的紧致四边形边界框与正矩形边界框之间的偏移；(x',y')表示预测的紧致四边形边界框的中心点坐标，(x^*,y^*)表示真实的紧致四边形边界框的中心点坐标；(w'_n,h'_n)表示紧致四边形边界框的四个节点距中心点坐标的相对位置的预测值，

使用联合损失函数对TQR-Net网络进行优化，联合损失函数由建议区域生成网络的损失函数

正矩形边界框回归损失函数

和紧致四边形边界框回归损失函数

组成，定义如下：

其中，

为一个超参，设定为0.0001；||w||为一个向量，表示TQR-Net网络中所有的训练参数；θ和Θ分别表示训练批次中的第θ幅图片和批次图片数量，Θ＝3；

建议区域网络的损失函数：

其中，j表示小批量图片中锚点框的索引，p_j表示预测第j个锚点是建筑物目标的概率；

表示真实的标签，若

则锚点框属于建筑物目标，若

则锚点框不属于建筑物目标；t_j表示预测的锚点边界框的四维参数化坐标向量，

表示真实的锚点边界框的参数化坐标向量；

表示锚点边界框的二分类交叉熵损失函数，

表示锚点边界框的回归损失函数；N_cls表示分类的归一化参数，N_reg表示回归的归一化参数；α表示平衡参数，设定α＝10；

正矩形边界框回归损失函数：

L_bbox(bbox,bbox^*)＝-log(IOU(bbox,bbox^*)) (23)

紧致四边形边界框回归损失函数：

表示真实的紧致四边形边界框；λ为权重参数，设定为10；

本发明提供的上述基于紧致四边形表示的建筑物目标检测方法，特征提取网络通过特征金字塔结构获得丰富的多尺寸的特征信息；建议区域生成网络获得感兴趣的目标区域；正矩形边界框分支在特征金字塔结构的不同尺寸的特征图上进行正矩形边界框分类任务和回归任务；紧致四边形边界框分支生成建筑物目标的紧致四边形边界框，并由此进一步精确地定位出遥感影像中建筑物目标的轮廓。本发明提供的上述基于紧致四边形表示的建筑物目标检测方法，不仅可以避免生成不规则的外形，还可以保持一定结构的外形约束性。通过实验可以证明，本发明提供的上述基于紧致四边形表示的建筑物目标检测方法，不仅能够提取到更多的建筑物目标的节点和更准确的边缘特征信息，还能够得到更精确的检测结果。

附图说明

图1为本发明实施例1中两阶段密集建筑物目标检测方法的流程图；

图2为本发明实施例1和2中的紧致四边形边界框坐标定义示意图；

图3为本发明实施例1中两阶段密集建筑物目标检测方法的检测结果图；

图4为本发明实施例2中无锚点单阶段建筑物目标检测方法的流程图。

具体实施方式

下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整的描述，显然，所描述的实施方式仅仅是作为例示，并非用于限制本发明。

本发明提供的一种基于紧致四边形表示的建筑物目标检测方法，包括如下步骤：

S1：将待检测图像输入特征提取网络，通过自底向上的方式由浅到深提取特征，对提取的特征进行自顶向下的侧向连接，生成含有丰富语义信息、具有多个尺寸特征图的特征金字塔结构；

S2：将特征金字塔结构作为正矩形边界框分支的输入，正矩形边界框分支在特征金字塔结构的每个尺寸特征图上进行建筑物目标的分类任务和正矩形边界框的回归任务；

S3：以特征金字塔结构和正矩形边界框分支为输入，通过紧致四边形边界框分支获得建筑物目标的紧致四边形边界框，得到建筑物目标的轮廓。

本发明提供的上述基于紧致四边形表示的建筑物目标检测方法，适用于基于无锚点单阶段的建筑物目标检测场景。

在具体实施时，在本发明提供的上述基于紧致四边形表示的建筑物目标检测方法中，在执行步骤S1之后，在执行步骤S2之前，还包括如下步骤：

SS1：利用建议区域生成网络，在特征金字塔结构的每个尺寸特征图上，对应生成一组带有似物性得分的感兴趣区域；

步骤S2中，将各感兴趣区域也作为正矩形边界框分支的输入。

本发明提供的上述基于紧致四边形表示的建筑物目标检测方法，适用于基于紧致四边形的多阶段密集建筑物目标检测场景。

下面通过两个具体的实施例对上述两种应用场景的具体实施进行详细说明。

实施例1：基于紧致四边形的两阶段密集建筑物目标检测方法。如图1所示，主要包括四个阶段，分别为特征提取网络(Feature Extraction)、建议区域生成网络(RegionProposal Network，RPN)、正矩形边界框分支(Bounding BoxBranch)和紧致四边形边界框分支(Tighter Quadrangle Box Branch)。其中，特征提取网络能够生成丰富且具有多种尺寸的特征金字塔结构；建议区域生成网络将输出一组带有似物性得分(Objectness Score)s_i的感兴趣区域，其中，i＝0,1,2，分别表示三种不同的长宽比；正矩形边界框分支在特征金字塔结构的不同尺寸的特征图上进行正矩形边界框的分类任务和回归任务；紧致四边形边界框分支生成建筑物目标的紧致四边形边界框，并由此进一步精确地定位出遥感影像中建筑物目标的轮廓。

(1)特征提取网络

特征提取网络可以提取图像的特征信息。本发明使用ResNeXt-101作为特征提取网络的主干网络；待检测图像经过主干网络后，根据主干网络不同层特征图尺寸的不同，输出的特征图由低到高被分为五个等级，每个等级的特征图的尺寸相同，定义为：

C_*＝{C₁,C₂,C₃,C₄,C₅} (1)

在每个等级的特征图中，经过卷积层生成的特征图尺寸相同。为了达到检测不同尺度的建筑物的目的，在主干网络后使用特征金字塔网络(Feature Pyramid Network，FPN)对高级特征和低级特征进行融合。取主干网络输出的后四个等级的特征图C_*＝{C₂,C₃,C₄,C₅}，进行自顶向下的侧向连接，建立特征金字塔结构；将主干网络输出的后四个等级的特征图{C₂,C₃,C₄,C₅}作为特征金字塔结构的输入，在特征图C₅上附加一个1×1卷积层生成特征图P₅，对特征图P₅进行下采样得到特征图P₆；通过最近邻方法将特征图P₅上采样2倍，将上采样的结果和特征图C₄附加一个1×1卷积层后得到的特征图进行融合，采用3×3的卷积核对融合结果进行卷积，得到特征图P₄；通过最近邻方法将特征图P₄上采样2倍，将上采样的结果和特征图C₃附加一个1×1卷积层后得到的特征图进行融合，采用3×3的卷积核对融合结果进行卷积，得到特征图P₃；同理，得到特征图P₂；定义如下：

P_*＝{P₂,P₃,P₄,P₅,P₆} (2)。

(2)建议区域生成网络

区域建议网络可以接收任意大小的图像作为输入，并最终输出一组正矩形边界框作为感兴趣区域，其中，每个感兴趣区域均有一个对应的似物性得分，这个过程通过一个全卷积网络来实现。针对特征金字塔结构中五个尺寸的特征图{P₂,P₃,P₄,P₅,P₆}，预先设定具有五种尺寸和三种长宽比的15个锚点，利用建议区域生成网络在特征金字塔结构的每个尺寸特征图中的每个锚点上对应生成感兴趣区域，每个感兴趣区域具有一个对应的似物性得分；建议区域生成网络以金字塔形式的特征图{P₂,P₃,P₄,P₅,P₆}为输入，假设其中任一特征图的尺寸为H×W，H表示该特征图的高，W表示该特征图的宽，该特征图上每个像素位置上有3个锚点，将该特征图先通过一个H×W的卷积，生成通道为256的特征图，再分别通过两个不同的1×1的卷积得到2×H×W和4×H×W的特征图，其中2表示2个分数，4表示4个坐标，2个分数分别为建筑物目标的分数和背景的分数，4个坐标表示锚点坐标在待检测图像坐标上的偏移；遍历特征金字塔结构中五个尺寸的特征图，得到30个分数和60个坐标，实现对感兴趣区域的分类任务和锚点边界框的回归任务。

(3)正矩形边界框分支

将特征金字塔结构中前四个尺寸的特征图{P₂,P₃,P₄,P₅}和建议区域生成网络输出的感兴趣区域作为正矩形边界框分支的输入；针对每个感兴趣区域，在对应尺寸的特征图中提取出尺寸为7×7的小特征图，利用提取的小特征图进行三次全连接操作，进行建筑物目标的分类任务和正矩形边界框的回归任务；其中，分类任务得到{0,1}，1代表建筑物目标，0代表背景；正矩形边界框回归任务得到正矩形边界框，定义为(x_b,y_b,w_b,h_b)，(x_b,y_b)表示正矩形边界框的中心点坐标，w_b,h_b分别表示正矩形边界框的宽和高。

(4)紧致四边形边界框分支

由于遥感影像中的建筑物目标的形状一般呈现为规则的多边形，而绝大多数建筑物目标均可以被一个四边形所表示，并且，该四边形的边界可以紧致地贴合建筑物的轮廓，因此，也可以被称为紧致四边形。使用紧致四边形边界框分支来生成建筑物轮廓，使用紧致四边形边界框来表示遥感图像中的建筑物位置。正矩形边界框分支的网络结构较为简单，紧致四边形边界框分支的网络结构较为复杂，可以提升最终的建筑物目标的检测性能。

对于紧致四边形边界框，通过对坐标排序进行定义，可以通过四个节点唯一确定一个四边形边界框，以避免在神经网络回归的过程中出现歧义性。如算法1所示，首先，定义最靠近坐标原点的节点为第一个节点，特别地，如果存在两个节点距离坐标原点的距离一样，则设置水平坐标值x最小的节点为第一个节点；然后，将紧致四边形边界框的四个节点按照顺时针顺序进行排序。

正矩形边界框的坐标定义通常如下公式所示：

r_*＝(x,y,w,h) (3)

受到上述坐标定义的启发，在确定节点的顺序之后，如图2所示，本发明使用十维向量表示紧致四边形边界框，定义如下：

t_*＝(x,y,w_n,h_n) (4)

其中，(x,y)表示紧致四边形边界框的最小外接正矩形边界框的中心点坐标；(w_n,h_n)表示紧致四边形边界框的第n个节点距离中心点坐标的相对位置，n＝1,2,3,4，w_tn,h_tn既可以取正数，也可以取负数；定义十维向量与紧致四边形边界框的四个节点(x_n,y_n)的变换过程如下：

(x_n,y_n)＝(x+w_n,y+h_n) (5)

针对紧致四边形边界框的回归任务，先回归紧致四边形边界框的中心点坐标，再回归紧致四边形边界框与中心点坐标在横纵坐标上的偏移量。

对于任意一个四边形，均含有四个节点，每个节点的坐标都是一个二维向量，因此，使用一个八维向量就足以表示一个紧致四边形边界框的位置。然而,若对四边形的四个节点的坐标直接进行回归，就等价于将这个八维向量作为八个互不相关的任务。实际上，一个紧致四边形边界框的四个节点之间是有一定的空间相关性的，直接对这四个节点的八维坐标进行回归的方法并不能充分考虑到节点之间的空间相关性。此外，对于网络而言，多个分离的回归任务也难以训练。

选择先对中心点坐标进行回归的优势在于，建筑物目标的中心一般处于所检测目标的中间位置，即中心的周围一般都是建筑物目标的信息，因此，针对中心点坐标的回归任务可以通过利用这些更加丰富的建筑物目标特征信息，达到更高的检测性能。紧致四边形边界框的四个节点通常处于建筑物目标的边界处，节点的周围通常包含部分背景信息。若直接对节点进行回归，容易受到这些背景特征的干扰，影响最终的回归精度。在已知中心点坐标的前提下，分别针对紧致四边形边界框的四个节点，对它们相对中心点在横纵坐标上的偏移量进行回归的做法可以在回归任务中隐式地引入同一个四边形的四个节点之间的空间关联信息。并且，这里的回归目标实际上是一个坐标位置上的相对偏移量，相比使用坐标的绝对位置作为回归目标，将坐标的相对偏移量作为回归目标对网络来说更加容易学习。

为了生成紧致四边形边界框，将特征金字塔结构中前四个尺寸的特征图{P₂,P₃,P₄,P₅}作为紧致四边形边界框分支的输入，根据正矩形边界框分支输出的正矩形边界框(x_b,y_b,w_b,h_b)，使用感兴趣区域对齐池化(RoIAlign)方法分别从对应尺寸的特征图中提取出尺寸为7×7的小特征图，使用三个全连接层将提取出的小特征图转换成两个十维向量{t₀,t₁}；其中，t₀表示背景类的坐标，t₁表示紧致四边形边界框坐标。

为了之后进行紧致四边形边界框的回归任务，对紧致四边形边界框坐标对应的十维向量进行参数化处理：

其中，

为了实现整体网络的端到端联合训练，使用联合损失函数对TQR-Net网络进行优化，联合损失函数由建议区域生成网络的损失函数

正矩形边界框回归损失函数

和紧致四边形边界框回归损失函数

组成，定义如下：

其中，

建议区域网络的损失函数：

表示真实的标签，若

则锚点框属于建筑物目标，若

表示真实的锚点边界框的参数化坐标向量；

表示锚点边界框的二分类交叉熵损失函数，

表示锚点边界框的回归损失函数；N_cls表示总样本的数量，N_reg表示特征图的尺寸；α表示平衡参数，设定α＝10；

正矩形边界框回归损失函数：

L_bbox(bbox,bbox^*)＝-log(IOU(bbox,bbox^*)) (11)

紧致四边形边界框回归损失函数：

表示真实的紧致四边形边界框；λ为权重参数，设定为10；

为了验证本发明实施例1提供的基于紧致四边形的多阶段密集建筑物目标检测方法(TQR-Net)的有效性和优越性，将本发明实施例1提供的方法在建筑物目标检测数据集上进行评估，该数据集包括乡村、郊区和市区三个场景，具体信息如表1所示，与现有的其他几种较为先进的基准方法相比，能够更加准确地检测出建筑物目标，且能保持清晰的几何轮廓。具体地，在特征提取阶段采用ResNet-101和ResNeXt-101两种不同的主干网络进行实验，并在网络开始训练之前预先载入在ImageNet数据集上预先训练好的模型。针对主干网络以外的网络层中的参数，先采用参数随机初始化策略，再进行精调(Fine-tuning)。并且，为了优化网络模型，使用随机梯度下降(Stochastic Gradient Descent)的方法，其中，学习率(Learning Rate)设定为0.002，动量(Momentum)设定为0.9。此外，为了单独评估紧致四边形边界框分支的性能，还与Mask R-CNN的分割掩码分支(Mask Branch)进行消融实验(Ablation Study)，以进行对比。

表1建筑物目标检测数据集统计

实验的评价指标采用COCO数据集中常用的两种，平均精确率(AveragePrecision,AP)和平均召回率(Average Recall,AR)。在乡村、郊区和市区三个场景中的对比结果如表2所示，M.R.＝Mask R-CNN；R＝ResNet-101-FPN；X＝ResNeXt-101-FPN；M＝MaskBranch。由表2可以看出，本发明实施例1中的TQR-Net在三个场景中均优于现有的其他几种较为先进的基准方法。例如，在乡村场景中，将TQR-Net与带有分割掩码(Mask)分支、以ResNeXt-101为主干网络的Mask R-CNN相比，在AP上提高了3.7％，在AR上提升了5.5％。另外，一些可视化的结果如图3所示。从图3中可见，TQR-Net不仅能够得到更为准确的检测结果，还能尽可能地保留建筑物的几何信息，并且，还能维持适当的建筑物外形的约束，在平均精确率和平均召回率之间取得了一个很好的平衡。因此，无论是从定性的可视化结果上，还是从定量的指标统计上，在建筑物目标检测任务上，本发明实施例1中的TQR-Net都能表现出较优的性能。

表2建筑物目标检测数据集中AP和AR对比

实施例2：基于紧致四边形的无锚点单阶段建筑物目标检测方法

尽管多阶段密集建筑物目标检测方法能够取得一个很好的精度，但时间复杂度较高，推断过程的时间开销较大。在实际应用中，输入的遥感图像覆盖范围较广，图片数量较多，考虑到时间效率，需要在建筑物检测器的精度和效率之间进行权衡。

在通用的目标检测领域中，相比多阶段检测器，单阶段检测器尽管在精度上有所降低，但在效率上有较大优势。在实际应用中，检测速度上的需求不容忽视，以实现快速实时的检测。并且，无论是单阶段目标检测器，还是多阶段目标检测器，现有成熟算法大多是基于锚点的，即在进行回归任务时严重依赖于预先设置好的锚点，这类基于锚点的目标检测器通常具有下述几个缺点：

(1)最终的目标检测性能受预设锚点的大小、长宽比和总数量的影响较大。例如，在RetinaNet中，这些超参数设置的变化会导致在COCO数据集上AP指标的波动最高可达4％，因此，在基于锚点的目标检测器中，需要针对这些超参数进行仔细的调参过程。例如，在更换不同的数据集时，往往需要对数据集中的目标尺寸和长宽比分布进行一个预先的统计，并据此设置合适的锚点相关超参数以达到更高的目标检测性能。

(2)即使针对锚点进行精细的调参，由于这些预先设置的锚点大小和长宽比是固定的，会使基于锚点的目标检测检测器在处理形状变化较大的目标时遇到较大的问题，特别是在检测尺度跨越较大或者形状不规则的目标时，这些问题尤为突出。此外，这些锚点的设置还会对目标检测器的泛化能力造成影响，因为在处理不同的检测任务时，需要针对不同尺寸和长宽比的检测目标对与锚点相关的超参数进行重新设计。

(3)为了达到较高的召回率，在基于锚点的目标检测器中，往往需要将预设的锚点密集地铺设在输入图像及其不同等级的特征图上(例如，输入图像的短边长为800时，在特征金字塔网络中将会设置超过18万个预设锚点)。并且，在训练过程中，绝大多数锚点将被标记为负样本点，这使得负样本点的数量过多，从而导致正样本点与负样本点数量不均衡的问题。

(4)最后，在训练过程中，尤其是在计算所有预设锚点和标注目标边界框之间的交并比时，过多地铺设预设锚点也会显著增加网络的计算量和内存的占用量，影响目标检测器的检测效率。

为了解决上述与锚点设置相关的问题，也出现了一些基于无锚点的目标检测器，然而，在检测密集分布的目标时，多个目标边界框之间往往会出现高度重叠的情况，这将会导致目标检测器在训练过程中出现回归任务上的歧义性，即对于标注边界框重叠区域中的像素来说，无法确定应该将哪个标注边界框作为回归的目标。

近年来，特征金字塔网络的提出，帮助基于无锚点的目标检测方法将不同尺度的目标分配到不同层级的特征图上，大大降低了在特征图上回归物体时的歧义性，基于无锚点的单阶段目标检测器性能得到较大的提升。在通用的目标检测领域上，相比多阶段检测器，单阶段目标检测器精度并没有多少劣势。

综上所述，受到全卷积单阶段目标检测方法(FCOS)的启发，提出基于无锚点的单阶段检测方法(TQR-FCOS)来完成建筑物目标检测，整体框架如图4所示。

在TQR-FCOS中，设置每个标注建筑物中的所有像素点为正样本点，同时引入之前定义的紧致四边形边界框分支，并行地与正矩形边界框分支进行回归。期望在得到对建筑物目标进行定位的同时，可以直接得到建筑物目标的轮廓，并通过紧致四边形边界框分支引入建筑物的角点和轮廓信息，进一步提升基于无锚点的建筑物检测器的性能。最后，TQR-FCOS还在FCOS的基础上引入与紧致四边形边界框对应的中心度，对分类得分进行进一步的修正。

(1)特征提取网络与特征金字塔网络

与实施例1中多阶段检测器的网络结构基本一致，主要的区别在于经过特征金字塔进行高、低层特征融合时，为了提升检测速度，并没有使用分辨率较高的特征图P₂，而是对特征图P₆进行一个步长为2的3×3大小的卷积下采样得到特征图P₇，此时FPN的特征图则可以表示为：

P_*＝{P₃,P₄,P₅,P₆,P₇} (15)

(2)正矩形边界框分支

将特征图{P₃,P₄,P₅,P₆,P₇}作为正矩形边界框分支的输入；针对每个尺寸的特征图，先分别采用四次3×3×C的卷积操作，每次卷积操作后面连接着修正线性单元，再分别采用3×3×2和3×3×4的卷积层，生成H×W×2和H×W×4的特征图；其中，H表示特征图的高，W表示特征图的宽，C表示通道；2表示二值分类，代表建筑物目标是与否；4表示回归的正矩形边界框的参数化向量；针对每个尺寸的特征图上的各坐标点，判断坐标点映射到待检测图片的坐标是否落在建筑物目标的正矩形边界框中；若是，则将坐标点认定为正矩形边界框对应的正样本点；若否，则将坐标点认定为正矩形边界框对应的负样本点；

对于每个正样本点，正矩形边界框回归的计算方式如下：

(3)紧致四边形边界框分支

使用十维向量表示紧致四边形边界框，定义如下：

t_*＝(x,y,w_n,h_n) (18)其中，(x,y)表示紧致四边形边界框的最小外接正矩形边界框的中心点坐标；(w_n,h_n)表示紧致四边形边界框的第n个节点距离中心点坐标的相对位置，n＝1,2,3,4，w_n,h_n均取负数；十维向量与紧致四边形边界框的四个节点(x_n,y_n)的变换过程如下：

(x_n,y_n)＝(x+w_n,y+h_n) (19)

将特征金字塔结构中的五个尺寸的特征图{P₃,P₄,P₅,P₆,P₇}作为紧致四边形边界框分支的输入，根据正矩形边界框分支输出的正矩形边界框(l^*,t^*,r^*,b^*)和正矩形边界框对应的正样本点的坐标(x₀,y₀)，确定正矩形边界框的四个坐标点(x_bn,y_bn)，再变换到(x_b,y_b,w_b,h_b)的形式，其中，(x_b,y_b)表示正矩形边界框的中心点坐标，w_b,h_b分别表示正矩形边界框的宽和高；

对于每个正样本点，紧致四边形边界框回归的计算公式为：

和公式(19)，求出正样本点对应的建筑物目标的紧致四边形边界框的四个节点的坐标(x'_n,y'_n)，再根据公式(18)得到十维向量(x,y,w_n,h_n)的形式；根据回归的建筑物目标的紧致四边形边界框对应的(x,y,w_n,h_n)，将与中心度分类分支对应的建筑物目标的紧致四边形边界框回归任务定义为：

其中，

对紧致四边形边界框对应的十维向量进行参数化处理：

其中，

在TQR-FCOS中，为了实现整体网络的端到端联合训练，使用联合损失函数对整个网络进行优化，联合损失函数由分类损失函数

正矩形边界框的中心度损失函数

紧致四边形边界框的中心度损失函数

正矩形边界框回归损失函数

和紧致四边形边界框回归损失函数

组成，定义如下：

分类损失函数：

L_cls(p_t)＝-(1-p_t)^γlog(p_t) (24)

正矩形边界框回归损失函数：

L_bbox(bbox,bbox^*)＝-log(IOU(bbox,bbox^*)) (25)

紧致四边形边界框回归损失函数：

表示真实的紧致四边形边界框；λ为权重参数，设定为10；

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于紧致四边形表示的建筑物目标检测方法，其特征在于，包括如下步骤：

S3：以所述特征金字塔结构和所述正矩形边界框分支为输入，通过紧致四边形边界框分支获得建筑物目标的紧致四边形边界框，得到建筑物目标的轮廓；

步骤S3，以所述特征金字塔结构和所述正矩形边界框分支为输入，通过所述紧致四边形边界框分支获得建筑物目标的紧致四边形边界框，得到建筑物目标的轮廓，具体包括：

使用十维向量表示紧致四边形边界框，定义如下：

t_*＝(x,y,w_n,h_n) (5)

(x_n,y_n)＝(x+w_n,y+h_n) (6)

将所述特征金字塔结构中的五个尺寸的特征图{P₃,P₄,P₅,P₆,P₇}作为所述紧致四边形边界框分支的输入，根据所述正矩形边界框分支输出的正矩形边界框(l^*,t^*,r^*,b^*)和正矩形边界框对应的正样本点的坐标(x₀,y₀)，确定正矩形边界框的四个坐标点(x_bn,y_bn)，再变换到(x_b,y_b,w_b,h_b)的形式，其中，(x_b,y_b)表示正矩形边界框的中心点坐标，w_b,h_b分别表示正矩形边界框的宽和高；

对于每个正样本点，紧致四边形边界框回归的计算公式为：