CN112084869B - 一种基于紧致四边形表示的建筑物目标检测方法 - Google Patents
一种基于紧致四边形表示的建筑物目标检测方法 Download PDFInfo
- Publication number
- CN112084869B CN112084869B CN202010794953.5A CN202010794953A CN112084869B CN 112084869 B CN112084869 B CN 112084869B CN 202010794953 A CN202010794953 A CN 202010794953A CN 112084869 B CN112084869 B CN 112084869B
- Authority
- CN
- China
- Prior art keywords
- bounding box
- compact quadrilateral
- representing
- positive
- compact
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/176—Urban or other man-made structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于紧致四边形表示的建筑物目标检测方法,特征提取网络通过特征金字塔结构获得丰富的多尺寸的特征信息;建议区域生成网络获得感兴趣区域;正矩形边界框分支在特征金字塔结构的不同尺寸的特征图上进行正矩形边界框分类任务和回归任务;紧致四边形边界框分支生成建筑物目标的紧致四边形边界框,并由此精确定位出遥感影像中建筑物目标的轮廓。本发明提供的上述建筑物目标检测方法,不仅可以避免生成不规则的外形,还可以保持一定结构的外形约束性。通过实验可以证明,本发明提供的上述建筑物目标检测方法,不仅能够提取到更多的建筑物目标的节点和更准确的边缘特征信息,还能够得到更精确的检测结果。
Description
技术领域
本发明涉及遥感影像中目标检测的技术领域,尤其涉及一种基于紧致四边形表示的建筑物目标检测方法。
背景技术
随着遥感卫星成像技术的不断快速发展,人们可以通过卫星获取到越来越多的高分辨率遥感图像,这也意味着遥感目标的空间信息和语义信息将更加丰富。这为人类生活带来了许多好处,例如农作物勘测、森林火灾监测以及交通导向系统的车辆检测。因此,从遥感影像中提取信息将在遥感和计算机视觉领域起到举足轻重的作用。
目标检测,作为图像理解中最具挑战性的问题之一,从航空或卫星图像中自动提取人造目标的遥感影像目标检测算法能够达到很高的性能。特别地,遥感影像中的建筑物目标检测在城市规划、城市制图、城市变化检测和地理信息系统工程中具有许多重要应用,这也将在许多遥感影像实际应用中提供更多的帮助,例如土地规划、环境管理和灾害评估等。因此,发展遥感影像中的自动化建筑物提取方法将会是一个十分有意义的任务。
在过去的几十年里,人们提出了许多建筑物提取的方法。在早期阶段,低级的手工特征经常被用于建筑物提取中的特征提取过程中。除此之外,为了获取建筑物的轮廓线,可以使用图像分割的方法将遥感影像区分为许多小区域,随后进行像素级别的分类以将建筑物与他们的背景区分开来。例如,Kampffmeyer等人提出了一种基于语义分割的方法,结合了包括基于块和像素级的方法中所采用的深度网络结构,以期望在遥感影像中获得更好的小目标分割准确率。Wu等人提出了一种具有多种约束的全卷积网络,以提高U-Net模型在航空影像中的建筑物目标分割的性能。Troya-Galvis等人提出了两种全新的框架,它们均是来自被称CoSC的协作框架的两种不同扩展,这两种扩展框架的性能均优于像素级别和目标级别混合的方法以及相关的深度学习方法。
通过在图像中进行像素级别的分类,上述提到的基于语义分割的方能够将遥感影像中的建筑物与背景区分开来,并生成大致的建筑物分割边界。但是,由于分割掩码本身的节点数量不确定,自由度过高,这些方法生成的建筑物轮廓始终是不规则的。同时,这些基于语义分割的方法也无法区分建筑物实例,无法实现实例级别的建筑物提取。
在最近的几年里,基于卷积神经网络的目标检测器在遥感目标检测领域里取得了很大的进展。例如,Paisitkriangkrai等人提出了基于卷积神经网络的方法在ISPRS数据集上取得了很好的效果。Cheng等人通过在遥感影像数据集上进行充分实验,证明了使用ImageNet数据集进行预训练的卷积神经网络可以帮助遥感影像的分析任务得到一个令人满意的结果。
此外,得益于上述遥感目标领域中的目标检测算法的迅速发展,在遥感影像中的建筑物检测任务中,基于卷积神经网络的建筑物检测器也同样取得了巨大突破。例如,Zhang等人提出了一种基于卷积神经网络的建筑物检测算法,该算法通过采用一种基于多尺度显著性的滑动窗口方法和一种改进的非极大值抑制(NMS)方法来检测遥感影像中的郊区建筑物。Sun等人提出了一种分为两阶段的卷积神经网络方法,被用于在高分遥感影像中检测乡村地区的建筑目标,该方法首先用神经网络在大范围的遥感影像中确定村庄的位置范围以减少复杂无关背景的带来的负面影响,之后再用单独的网络从村庄中提取单个建筑物目标。Li等人提出了一种基于级联式的卷积神经网络结构的建筑物检测算法,在该算法中,利用了霍夫变换作为先验信息来引导卷积神经网络提取建筑物的中级特征,最后实现了更高的建筑物检测性能。针对多尺度的建筑物目标提取任务,Chen等人提出了一个基于卷积神经网络的两阶段建筑物检测器,一个融合了多尺度信息的建议区域生成网络(RPN)和一种新颖的动态加权算法被用于生成不同尺度的建议区域,并最终对它们进行分类。
尽管上述提及的基于目标检测的建筑物检测方法可以区分出单个建筑物,实现实例级别的建筑物提取,但是它们通常采用矩形边界框来表示建筑物的位置,因此,它们无法生成建筑物的轮廓。为了解决这个问题,可以使用一些基于实例分割的方法来完成遥感影像中的建筑物提取任务。但是,与基于语义分割的方法相同,通过这些基于实例分割的方法生成的建筑物轮廓也往往是不规则的。
综上所述,一般来说,目前有两种边界框可被用于表示遥感影像中建筑物的位置。一种是正矩形边界框,使用这种边界框的方法不能很好地表示出建筑物的位置,且无法生成建筑物的轮廓。另一种则是多边形边界框(即分割掩码),使用这种边界框的方法通常基于一个实例分割检测器,例如Mask R-CNN,这种方法可以通过预测每个建筑物对应的分割掩码的方式来获得建筑物的多边形轮廓,然而,由于节点数量的不确定性和外形上的不规则性,这些基于分割掩码的多边形轮廓往往不太准确,容易得到不规则的形状,不能很好地表示出建筑物的几何轮廓。
发明内容
有鉴于此,本发明提供了一种基于紧致四边形表示的建筑物目标检测方法,用以精确地检测出遥感图像中建筑物目标的位置。
因此,本发明提供了一种基于紧致四边形表示的建筑物目标检测方法,包括如下步骤:
S1:将待检测图像输入所述特征提取网络,通过自底向上的方式由浅到深提取特征,对提取的特征进行自顶向下的侧向连接,生成含有丰富语义信息、具有多个尺寸特征图的特征金字塔结构;
S2:将所述特征金字塔结构作为正矩形边界框分支的输入,所述正矩形边界框分支在所述特征金字塔结构的每个尺寸特征图上进行建筑物目标的分类任务和正矩形边界框的回归任务;
S3:以所述特征金字塔结构和所述正矩形边界框分支为输入,通过所述紧致四边形边界框分支获得建筑物目标的紧致四边形边界框,得到建筑物目标的轮廓。
在一种可能的实现方式中,在本发明提供的上述基于紧致四边形表示的建筑物目标检测方法中,步骤S1,将待检测图像输入所述特征提取网络,通过自底向上的方式由浅到深提取特征,对提取的特征进行自顶向下的侧向连接,生成含有丰富语义信息、具有多个尺寸特征图的特征金字塔结构,具体包括:
使用ResNeXt-101作为所述特征提取网络的主干网络;待检测图像经过所述主干网络后,根据所述主干网络不同层特征图尺寸的不同,输出的特征图由低到高被分为五个等级,每个等级的特征图的尺寸相同,定义为:
C*={C1,C2,C3,C4,C5} (1)
取所述主干网络输出的后四个等级的特征图C*={C2,C3,C4,C5},进行自顶向下的侧向连接,建立特征金字塔结构;将所述主干网络输出的后四个等级的特征图{C2,C3,C4,C5}作为所述特征金字塔结构的输入,在特征图C5上附加一个1×1卷积层生成特征图P5,对特征图P5进行下采样得到特征图P6;通过最近邻方法将特征图P5上采样2倍,将上采样的结果和特征图C4附加一个1×1卷积层后得到的特征图进行融合,采用3×3的卷积核对融合结果进行卷积,得到特征图P4;通过最近邻方法将特征图P4上采样2倍,将上采样的结果和特征图C3附加一个1×1卷积层后得到的特征图进行融合,采用3×3的卷积核对融合结果进行卷积,得到特征图P3;同理,得到特征图P2;定义如下:
P*={P2,P3,P4,P5,P6} (2)。
在一种可能的实现方式中,在本发明提供的上述基于紧致四边形表示的建筑物目标检测方法中,步骤S2,将所述特征金字塔结构作为正矩形边界框分支的输入,所述正矩形边界框分支在所述特征金字塔结构的每个尺寸特征图上进行建筑物目标的分类任务和正矩形边界框的回归任务,具体包括:
对特征图P6进行下采样得到特征图P7,将特征图{P3,P4,P5,P6,P7}作为正矩形边界框分支的输入;针对每个尺寸的特征图,先分别采用四次3×3×C的卷积操作,每次卷积操作后面连接着修正线性单元,再分别采用3×3×2和3×3×4的卷积层,生成H×W×2和H×W×4的特征图;其中,H表示特征图的高,W表示特征图的宽,C表示通道;2表示二值分类,代表建筑物目标是与否;4表示回归的正矩形边界框的参数化向量;针对每个尺寸的特征图上的各坐标点,判断坐标点映射到待检测图片的坐标是否落在建筑物目标的正矩形边界框中;若是,则将坐标点认定为正矩形边界框对应的正样本点;若否,则将坐标点认定为正矩形边界框对应的负样本点;
对于每个正样本点,正矩形边界框回归的计算方式如下:
其中,(xA,yA)表示正矩形边界框对应的正样本点的坐标,(xlt,ylt)表示正样本点对应的建筑物目标的正矩形边界框的左上角的坐标,(xrb,yrb)表示正样本点对应的建筑物目标的正矩形边界框的右下角的坐标,l*表示正样本点与正矩形边界框的四条边中左侧边的距离,t*表示正样本点与正矩形边界框的四条边中上侧边的距离,r*表示正样本点与正矩形边界框的四条边中右侧边的距离,b*表示正样本点与正矩形边界框的四条边中下侧边的距离;
针对每个正样本点,判断是否满足(l*,t*,r*,b*)>ml或者(l*,t*,r*,b*)<ml-1;若是,则将正样本点删除;若否,则将正样本点保留;其中,ml表示第l层特征图上需要回归的最大距离,ml-1表示第l-1层特征图上需要回归的最大距离;m2,m3,m4,m5,m6,m7分别设定为0,64,128,256,512,∞;
在平行于分类任务的分支上添加一个输出为一维的卷积,得到正矩形边界框的中心度得分,根据回归的建筑物目标正矩形边界框对应的l*,t*,r*,b*,将与中心度分类分支对应的建筑物目标的正矩形边界框回归任务定义为:
在一种可能的实现方式中,在本发明提供的上述基于紧致四边形表示的建筑物目标检测方法中,步骤S3,以所述特征金字塔结构和所述正矩形边界框分支为输入,通过所述紧致四边形边界框分支获得建筑物目标的紧致四边形边界框,得到建筑物目标的轮廓,具体包括:
使用十维向量表示紧致四边形边界框,定义如下:
t*=(x,y,wn,hn) (5)
其中,(x,y)表示紧致四边形边界框的最小外接正矩形边界框的中心点坐标;(wn,hn)表示紧致四边形边界框的第n个节点距离中心点坐标的相对位置,n=1,2,3,4;十维向量与紧致四边形边界框的四个节点(xn,yn)的变换过程如下:
(xn,yn)=(x+wn,y+hn) (6)
将所述特征金字塔结构中的五个尺寸的特征图{P3,P4,P5,P6,P7}作为所述紧致四边形边界框分支的输入,根据所述正矩形边界框分支输出的正矩形边界框(l*,t*,r*,b*)和正矩形边界框对应的正样本点的坐标(x0,y0),确定正矩形边界框的四个坐标点(xbn,ybn),再变换到(xb,yb,wb,hb)的形式,其中,(xb,yb)表示正矩形边界框的中心点坐标,wb,hb分别表示正矩形边界框的宽和高。
针对每个尺寸的特征图上的各坐标点,判断坐标点映射到待检测图片的坐标是否落在建筑物目标的紧致四边形边界框中;若是,则将坐标点认定为紧致四边形边界框对应的正样本点;若否,则将坐标点认定为紧致四边形边界框对应的负样本点;
对于每个正样本点,紧致四边形边界框回归的计算公式为:
其中,(xB,yB)表示紧致四边形边界框对应的正样本点的坐标,(x'n,y'n)表示正样本点对应的建筑物目标的紧致四边形边界框的四个节点的坐标;表示正样本点与建筑物目标的紧致四边形边界框的四个节点之间的距离;
在平行于分类任务的分支上增加一个输出为一维的卷积,得到紧致四边形边界框的中心度得分;根据回归的建筑物目标的紧致四边形边界框对应的和公式(7),求出正样本点对应的建筑物目标的紧致四边形边界框的四个节点的坐标(x'n,y'n),再根据公式(6)得到十维向量(x,y,wn,hn)的形式;根据回归的建筑物目标的紧致四边形边界框对应的(x,y,wn,hn),将与中心度分类分支对应的建筑物目标的紧致四边形边界框回归任务定义为:
对紧致四边形边界框对应的十维向量进行参数化处理:
其中,分别表示预测的紧致四边形边界框与正矩形边界框之间的偏移,分别表示真实的紧致四边形边界框与正矩形边界框之间的偏移;(x',y')表示预测的紧致四边形边界框的中心点坐标,(x*,y*)表示真实的紧致四边形边界框的中心点坐标,(w'n,h'n)表示紧致四边形边界框的四个节点距中心点坐标的相对位置的预测值,表示紧致四边形边界框的四个节点距中心点坐标的相对位置的真实值。
在一种可能的实现方式中,在本发明提供的上述基于紧致四边形表示的建筑物目标检测方法中,整个网络的训练过程,具体包括:
其中;θ和Θ分别表示训练批次中的第θ幅图片和批次图片数量,Θ=3;
针对单幅图片,紧致四边形边界框的各子项损失函数定义如下:
分类损失函数:
Lcls(pt)=-(1-pt)γlog(pt) (11)
其中,pt表示是建筑物目标的概率,γ表示可调节的聚焦参数,设定γ=2;
正矩形边界框的中心度损失函数和紧致四边形边界框的中心度损失函数均采用二分类交叉熵损失函数;
正矩形边界框回归损失函数:
Lbbox(bbox,bbox*)=-log(IOU(bbox,bbox*)) (12)
其中,bbox表示预测的正矩形边界框,bbox*表示真实的正矩形边界框;IOU(·)表示交并比函数;
紧致四边形边界框回归损失函数:
在一种可能的实现方式中,在本发明提供的上述基于紧致四边形表示的建筑物目标检测方法中,在执行步骤S1之后,在执行步骤S2之前,还包括如下步骤:
SS1:利用所述建议区域生成网络,在所述特征金字塔结构的每个尺寸特征图上,对应生成一组带有似物性得分的感兴趣区域;
步骤S2中,将各所述感兴趣区域也作为所述正矩形边界框分支的输入。
在一种可能的实现方式中,在本发明提供的上述基于紧致四边形表示的建筑物目标检测方法中,步骤SS1,利用所述建议区域生成网络,在所述特征金字塔结构的每个尺寸特征图上,对应生成一组带有似物性得分的感兴趣区域,具体包括:
针对所述特征金字塔结构中五个尺寸的特征图{P2,P3,P4,P5,P6},预先设定具有五种尺寸和三种长宽比的15个锚点,利用所述建议区域生成网络在所述特征金字塔结构的每个尺寸特征图中的每个锚点上对应生成感兴趣区域,每个所述感兴趣区域具有一个对应的似物性得分;所述建议区域生成网络以金字塔形式的特征图{P2,P3,P4,P5,P6}为输入,假设其中任一特征图的尺寸为H×W,H表示该特征图的高,W表示该特征图的宽,该特征图上每个像素位置上有3个锚点,将该特征图先通过一个H×W的卷积,生成通道为256的特征图,再分别通过两个不同的1×1的卷积得到2×H×W和4×H×W的特征图,其中2表示2个分数,4表示4个坐标,2个分数分别为建筑物目标的分数和背景的分数,4个坐标表示锚点坐标在待检测图像坐标上的偏移;遍历所述特征金字塔结构中五个尺寸的特征图,得到30个分数和60个坐标,实现对感兴趣区域的分类任务和锚点边界框的回归任务。
在一种可能的实现方式中,在本发明提供的上述基于紧致四边形表示的建筑物目标检测方法中,步骤S2,将所述特征金字塔结构和各所述感兴趣区域作为所述正矩形边界框分支的输入,所述正矩形边界框分支在所述特征金字塔结构的每个尺寸特征图上进行建筑物目标的分类任务和正矩形边界框的回归任务,具体包括:
将所述特征金字塔结构中前四个尺寸的特征图{P2,P3,P4,P5}和所述建议区域生成网络输出的感兴趣区域作为所述正矩形边界框分支的输入;针对每个感兴趣区域,在对应尺寸的特征图中提取出尺寸为7×7的小特征图,利用提取的小特征图进行三次全连接操作,进行建筑物目标的分类任务和正矩形边界框的回归任务;其中,分类任务得到{0,1},1代表建筑物目标,0代表背景;正矩形边界框回归任务得到正矩形边界框,定义为(xb,yb,wb,hb),(xb,yb)表示正矩形边界框的中心点坐标,wb,hb分别表示正矩形边界框的宽和高。
在一种可能的实现方式中,在本发明提供的上述基于紧致四边形表示的建筑物目标检测方法中,步骤S3,以所述特征金字塔结构和所述正矩形边界框分支为输入,通过所述紧致四边形边界框分支获得建筑物目标的紧致四边形边界框,得到建筑物目标的轮廓,具体包括:
使用十维向量表示紧致四边形边界框,定义如下:
t*=(x,y,wn,hn) (16)
其中,(x,y)表示紧致四边形边界框的最小外接正矩形边界框的中心点坐标;(wn,hn)表示紧致四边形边界框的第n个节点距离中心点坐标的相对位置,n=1,2,3,4;十维向量与紧致四边形边界框的四个节点(xn,yn)的变换过程如下:
(xn,yn)=(x+wn,y+hn) (17)
将所述特征金字塔结构中前四个尺寸的特征图{P2,P3,P4,P5}作为所述紧致四边形边界框分支的输入,根据所述正矩形边界框分支输出的正矩形边界框(xb,yb,wb,hb),使用RoIAlign方法分别从对应尺寸的特征图中提取出尺寸为7×7的小特征图,使用三个全连接层将提取出的小特征图转换成两个十维向量{t0,t1};其中,t0表示背景类的坐标,t1表示紧致四边形边界框坐标;
对紧致四边形边界框坐标对应的十维向量进行参数化处理:
其中,分别表示预测的紧致四边形边界框与正矩形边界框之间的偏移,分别表示真实的紧致四边形边界框与正矩形边界框之间的偏移;(x',y')表示预测的紧致四边形边界框的中心点坐标,(x*,y*)表示真实的紧致四边形边界框的中心点坐标;(w'n,h'n)表示紧致四边形边界框的四个节点距中心点坐标的相对位置的预测值,表示紧致四边形边界框的四个节点距中心点坐标的相对位置的真实值。
在一种可能的实现方式中,在本发明提供的上述基于紧致四边形表示的建筑物目标检测方法中,整个网络的训练过程,具体包括:
针对单幅图片,紧致四边形边界框的各子项损失函数定义如下:
建议区域网络的损失函数:
其中,j表示小批量图片中锚点框的索引,pj表示预测第j个锚点是建筑物目标的概率;表示真实的标签,若则锚点框属于建筑物目标,若则锚点框不属于建筑物目标;tj表示预测的锚点边界框的四维参数化坐标向量,表示真实的锚点边界框的参数化坐标向量;表示锚点边界框的二分类交叉熵损失函数,表示锚点边界框的回归损失函数;Ncls表示分类的归一化参数,Nreg表示回归的归一化参数;α表示平衡参数,设定α=10;
正矩形边界框回归损失函数:
Lbbox(bbox,bbox*)=-log(IOU(bbox,bbox*)) (23)
其中,bbox表示预测的正矩形边界框,bbox*表示真实的正矩形边界框;IOU(·)表示交并比函数;
紧致四边形边界框回归损失函数:
本发明提供的上述基于紧致四边形表示的建筑物目标检测方法,特征提取网络通过特征金字塔结构获得丰富的多尺寸的特征信息;建议区域生成网络获得感兴趣的目标区域;正矩形边界框分支在特征金字塔结构的不同尺寸的特征图上进行正矩形边界框分类任务和回归任务;紧致四边形边界框分支生成建筑物目标的紧致四边形边界框,并由此进一步精确地定位出遥感影像中建筑物目标的轮廓。本发明提供的上述基于紧致四边形表示的建筑物目标检测方法,不仅可以避免生成不规则的外形,还可以保持一定结构的外形约束性。通过实验可以证明,本发明提供的上述基于紧致四边形表示的建筑物目标检测方法,不仅能够提取到更多的建筑物目标的节点和更准确的边缘特征信息,还能够得到更精确的检测结果。
附图说明
图1为本发明实施例1中两阶段密集建筑物目标检测方法的流程图;
图2为本发明实施例1和2中的紧致四边形边界框坐标定义示意图;
图3为本发明实施例1中两阶段密集建筑物目标检测方法的检测结果图;
图4为本发明实施例2中无锚点单阶段建筑物目标检测方法的流程图。
具体实施方式
下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整的描述,显然,所描述的实施方式仅仅是作为例示,并非用于限制本发明。
本发明提供的一种基于紧致四边形表示的建筑物目标检测方法,包括如下步骤:
S1:将待检测图像输入特征提取网络,通过自底向上的方式由浅到深提取特征,对提取的特征进行自顶向下的侧向连接,生成含有丰富语义信息、具有多个尺寸特征图的特征金字塔结构;
S2:将特征金字塔结构作为正矩形边界框分支的输入,正矩形边界框分支在特征金字塔结构的每个尺寸特征图上进行建筑物目标的分类任务和正矩形边界框的回归任务;
S3:以特征金字塔结构和正矩形边界框分支为输入,通过紧致四边形边界框分支获得建筑物目标的紧致四边形边界框,得到建筑物目标的轮廓。
本发明提供的上述基于紧致四边形表示的建筑物目标检测方法,适用于基于无锚点单阶段的建筑物目标检测场景。
在具体实施时,在本发明提供的上述基于紧致四边形表示的建筑物目标检测方法中,在执行步骤S1之后,在执行步骤S2之前,还包括如下步骤:
SS1:利用建议区域生成网络,在特征金字塔结构的每个尺寸特征图上,对应生成一组带有似物性得分的感兴趣区域;
步骤S2中,将各感兴趣区域也作为正矩形边界框分支的输入。
本发明提供的上述基于紧致四边形表示的建筑物目标检测方法,适用于基于紧致四边形的多阶段密集建筑物目标检测场景。
下面通过两个具体的实施例对上述两种应用场景的具体实施进行详细说明。
实施例1:基于紧致四边形的两阶段密集建筑物目标检测方法。如图1所示,主要包括四个阶段,分别为特征提取网络(Feature Extraction)、建议区域生成网络(RegionProposal Network,RPN)、正矩形边界框分支(Bounding BoxBranch)和紧致四边形边界框分支(Tighter Quadrangle Box Branch)。其中,特征提取网络能够生成丰富且具有多种尺寸的特征金字塔结构;建议区域生成网络将输出一组带有似物性得分(Objectness Score)si的感兴趣区域,其中,i=0,1,2,分别表示三种不同的长宽比;正矩形边界框分支在特征金字塔结构的不同尺寸的特征图上进行正矩形边界框的分类任务和回归任务;紧致四边形边界框分支生成建筑物目标的紧致四边形边界框,并由此进一步精确地定位出遥感影像中建筑物目标的轮廓。
(1)特征提取网络
特征提取网络可以提取图像的特征信息。本发明使用ResNeXt-101作为特征提取网络的主干网络;待检测图像经过主干网络后,根据主干网络不同层特征图尺寸的不同,输出的特征图由低到高被分为五个等级,每个等级的特征图的尺寸相同,定义为:
C*={C1,C2,C3,C4,C5} (1)
在每个等级的特征图中,经过卷积层生成的特征图尺寸相同。为了达到检测不同尺度的建筑物的目的,在主干网络后使用特征金字塔网络(Feature Pyramid Network,FPN)对高级特征和低级特征进行融合。取主干网络输出的后四个等级的特征图C*={C2,C3,C4,C5},进行自顶向下的侧向连接,建立特征金字塔结构;将主干网络输出的后四个等级的特征图{C2,C3,C4,C5}作为特征金字塔结构的输入,在特征图C5上附加一个1×1卷积层生成特征图P5,对特征图P5进行下采样得到特征图P6;通过最近邻方法将特征图P5上采样2倍,将上采样的结果和特征图C4附加一个1×1卷积层后得到的特征图进行融合,采用3×3的卷积核对融合结果进行卷积,得到特征图P4;通过最近邻方法将特征图P4上采样2倍,将上采样的结果和特征图C3附加一个1×1卷积层后得到的特征图进行融合,采用3×3的卷积核对融合结果进行卷积,得到特征图P3;同理,得到特征图P2;定义如下:
P*={P2,P3,P4,P5,P6} (2)。
(2)建议区域生成网络
区域建议网络可以接收任意大小的图像作为输入,并最终输出一组正矩形边界框作为感兴趣区域,其中,每个感兴趣区域均有一个对应的似物性得分,这个过程通过一个全卷积网络来实现。针对特征金字塔结构中五个尺寸的特征图{P2,P3,P4,P5,P6},预先设定具有五种尺寸和三种长宽比的15个锚点,利用建议区域生成网络在特征金字塔结构的每个尺寸特征图中的每个锚点上对应生成感兴趣区域,每个感兴趣区域具有一个对应的似物性得分;建议区域生成网络以金字塔形式的特征图{P2,P3,P4,P5,P6}为输入,假设其中任一特征图的尺寸为H×W,H表示该特征图的高,W表示该特征图的宽,该特征图上每个像素位置上有3个锚点,将该特征图先通过一个H×W的卷积,生成通道为256的特征图,再分别通过两个不同的1×1的卷积得到2×H×W和4×H×W的特征图,其中2表示2个分数,4表示4个坐标,2个分数分别为建筑物目标的分数和背景的分数,4个坐标表示锚点坐标在待检测图像坐标上的偏移;遍历特征金字塔结构中五个尺寸的特征图,得到30个分数和60个坐标,实现对感兴趣区域的分类任务和锚点边界框的回归任务。
(3)正矩形边界框分支
将特征金字塔结构中前四个尺寸的特征图{P2,P3,P4,P5}和建议区域生成网络输出的感兴趣区域作为正矩形边界框分支的输入;针对每个感兴趣区域,在对应尺寸的特征图中提取出尺寸为7×7的小特征图,利用提取的小特征图进行三次全连接操作,进行建筑物目标的分类任务和正矩形边界框的回归任务;其中,分类任务得到{0,1},1代表建筑物目标,0代表背景;正矩形边界框回归任务得到正矩形边界框,定义为(xb,yb,wb,hb),(xb,yb)表示正矩形边界框的中心点坐标,wb,hb分别表示正矩形边界框的宽和高。
(4)紧致四边形边界框分支
由于遥感影像中的建筑物目标的形状一般呈现为规则的多边形,而绝大多数建筑物目标均可以被一个四边形所表示,并且,该四边形的边界可以紧致地贴合建筑物的轮廓,因此,也可以被称为紧致四边形。使用紧致四边形边界框分支来生成建筑物轮廓,使用紧致四边形边界框来表示遥感图像中的建筑物位置。正矩形边界框分支的网络结构较为简单,紧致四边形边界框分支的网络结构较为复杂,可以提升最终的建筑物目标的检测性能。
对于紧致四边形边界框,通过对坐标排序进行定义,可以通过四个节点唯一确定一个四边形边界框,以避免在神经网络回归的过程中出现歧义性。如算法1所示,首先,定义最靠近坐标原点的节点为第一个节点,特别地,如果存在两个节点距离坐标原点的距离一样,则设置水平坐标值x最小的节点为第一个节点;然后,将紧致四边形边界框的四个节点按照顺时针顺序进行排序。
正矩形边界框的坐标定义通常如下公式所示:
r*=(x,y,w,h) (3)
受到上述坐标定义的启发,在确定节点的顺序之后,如图2所示,本发明使用十维向量表示紧致四边形边界框,定义如下:
t*=(x,y,wn,hn) (4)
其中,(x,y)表示紧致四边形边界框的最小外接正矩形边界框的中心点坐标;(wn,hn)表示紧致四边形边界框的第n个节点距离中心点坐标的相对位置,n=1,2,3,4,wtn,htn既可以取正数,也可以取负数;定义十维向量与紧致四边形边界框的四个节点(xn,yn)的变换过程如下:
(xn,yn)=(x+wn,y+hn) (5)
针对紧致四边形边界框的回归任务,先回归紧致四边形边界框的中心点坐标,再回归紧致四边形边界框与中心点坐标在横纵坐标上的偏移量。
对于任意一个四边形,均含有四个节点,每个节点的坐标都是一个二维向量,因此,使用一个八维向量就足以表示一个紧致四边形边界框的位置。然而,若对四边形的四个节点的坐标直接进行回归,就等价于将这个八维向量作为八个互不相关的任务。实际上,一个紧致四边形边界框的四个节点之间是有一定的空间相关性的,直接对这四个节点的八维坐标进行回归的方法并不能充分考虑到节点之间的空间相关性。此外,对于网络而言,多个分离的回归任务也难以训练。
选择先对中心点坐标进行回归的优势在于,建筑物目标的中心一般处于所检测目标的中间位置,即中心的周围一般都是建筑物目标的信息,因此,针对中心点坐标的回归任务可以通过利用这些更加丰富的建筑物目标特征信息,达到更高的检测性能。紧致四边形边界框的四个节点通常处于建筑物目标的边界处,节点的周围通常包含部分背景信息。若直接对节点进行回归,容易受到这些背景特征的干扰,影响最终的回归精度。在已知中心点坐标的前提下,分别针对紧致四边形边界框的四个节点,对它们相对中心点在横纵坐标上的偏移量进行回归的做法可以在回归任务中隐式地引入同一个四边形的四个节点之间的空间关联信息。并且,这里的回归目标实际上是一个坐标位置上的相对偏移量,相比使用坐标的绝对位置作为回归目标,将坐标的相对偏移量作为回归目标对网络来说更加容易学习。
为了生成紧致四边形边界框,将特征金字塔结构中前四个尺寸的特征图{P2,P3,P4,P5}作为紧致四边形边界框分支的输入,根据正矩形边界框分支输出的正矩形边界框(xb,yb,wb,hb),使用感兴趣区域对齐池化(RoIAlign)方法分别从对应尺寸的特征图中提取出尺寸为7×7的小特征图,使用三个全连接层将提取出的小特征图转换成两个十维向量{t0,t1};其中,t0表示背景类的坐标,t1表示紧致四边形边界框坐标。
为了之后进行紧致四边形边界框的回归任务,对紧致四边形边界框坐标对应的十维向量进行参数化处理:
其中,分别表示预测的紧致四边形边界框与正矩形边界框之间的偏移,分别表示真实的紧致四边形边界框与正矩形边界框之间的偏移;(x',y')表示预测的紧致四边形边界框的中心点坐标,(x*,y*)表示真实的紧致四边形边界框的中心点坐标;(w'n,h'n)表示紧致四边形边界框的四个节点距中心点坐标的相对位置的预测值,表示紧致四边形边界框的四个节点距中心点坐标的相对位置的真实值。
针对单幅图片,紧致四边形边界框的各子项损失函数定义如下:
建议区域网络的损失函数:
其中,j表示小批量图片中锚点框的索引,pj表示预测第j个锚点是建筑物目标的概率;表示真实的标签,若则锚点框属于建筑物目标,若则锚点框不属于建筑物目标;tj表示预测的锚点边界框的四维参数化坐标向量,表示真实的锚点边界框的参数化坐标向量;表示锚点边界框的二分类交叉熵损失函数,表示锚点边界框的回归损失函数;Ncls表示总样本的数量,Nreg表示特征图的尺寸;α表示平衡参数,设定α=10;
正矩形边界框回归损失函数:
Lbbox(bbox,bbox*)=-log(IOU(bbox,bbox*)) (11)
其中,bbox表示预测的正矩形边界框,bbox*表示真实的正矩形边界框;IOU(·)表示交并比函数;
紧致四边形边界框回归损失函数:
为了验证本发明实施例1提供的基于紧致四边形的多阶段密集建筑物目标检测方法(TQR-Net)的有效性和优越性,将本发明实施例1提供的方法在建筑物目标检测数据集上进行评估,该数据集包括乡村、郊区和市区三个场景,具体信息如表1所示,与现有的其他几种较为先进的基准方法相比,能够更加准确地检测出建筑物目标,且能保持清晰的几何轮廓。具体地,在特征提取阶段采用ResNet-101和ResNeXt-101两种不同的主干网络进行实验,并在网络开始训练之前预先载入在ImageNet数据集上预先训练好的模型。针对主干网络以外的网络层中的参数,先采用参数随机初始化策略,再进行精调(Fine-tuning)。并且,为了优化网络模型,使用随机梯度下降(Stochastic Gradient Descent)的方法,其中,学习率(Learning Rate)设定为0.002,动量(Momentum)设定为0.9。此外,为了单独评估紧致四边形边界框分支的性能,还与Mask R-CNN的分割掩码分支(Mask Branch)进行消融实验(Ablation Study),以进行对比。
表1建筑物目标检测数据集统计
实验的评价指标采用COCO数据集中常用的两种,平均精确率(AveragePrecision,AP)和平均召回率(Average Recall,AR)。在乡村、郊区和市区三个场景中的对比结果如表2所示,M.R.=Mask R-CNN;R=ResNet-101-FPN;X=ResNeXt-101-FPN;M=MaskBranch。由表2可以看出,本发明实施例1中的TQR-Net在三个场景中均优于现有的其他几种较为先进的基准方法。例如,在乡村场景中,将TQR-Net与带有分割掩码(Mask)分支、以ResNeXt-101为主干网络的Mask R-CNN相比,在AP上提高了3.7%,在AR上提升了5.5%。另外,一些可视化的结果如图3所示。从图3中可见,TQR-Net不仅能够得到更为准确的检测结果,还能尽可能地保留建筑物的几何信息,并且,还能维持适当的建筑物外形的约束,在平均精确率和平均召回率之间取得了一个很好的平衡。因此,无论是从定性的可视化结果上,还是从定量的指标统计上,在建筑物目标检测任务上,本发明实施例1中的TQR-Net都能表现出较优的性能。
表2建筑物目标检测数据集中AP和AR对比
实施例2:基于紧致四边形的无锚点单阶段建筑物目标检测方法
尽管多阶段密集建筑物目标检测方法能够取得一个很好的精度,但时间复杂度较高,推断过程的时间开销较大。在实际应用中,输入的遥感图像覆盖范围较广,图片数量较多,考虑到时间效率,需要在建筑物检测器的精度和效率之间进行权衡。
在通用的目标检测领域中,相比多阶段检测器,单阶段检测器尽管在精度上有所降低,但在效率上有较大优势。在实际应用中,检测速度上的需求不容忽视,以实现快速实时的检测。并且,无论是单阶段目标检测器,还是多阶段目标检测器,现有成熟算法大多是基于锚点的,即在进行回归任务时严重依赖于预先设置好的锚点,这类基于锚点的目标检测器通常具有下述几个缺点:
(1)最终的目标检测性能受预设锚点的大小、长宽比和总数量的影响较大。例如,在RetinaNet中,这些超参数设置的变化会导致在COCO数据集上AP指标的波动最高可达4%,因此,在基于锚点的目标检测器中,需要针对这些超参数进行仔细的调参过程。例如,在更换不同的数据集时,往往需要对数据集中的目标尺寸和长宽比分布进行一个预先的统计,并据此设置合适的锚点相关超参数以达到更高的目标检测性能。
(2)即使针对锚点进行精细的调参,由于这些预先设置的锚点大小和长宽比是固定的,会使基于锚点的目标检测检测器在处理形状变化较大的目标时遇到较大的问题,特别是在检测尺度跨越较大或者形状不规则的目标时,这些问题尤为突出。此外,这些锚点的设置还会对目标检测器的泛化能力造成影响,因为在处理不同的检测任务时,需要针对不同尺寸和长宽比的检测目标对与锚点相关的超参数进行重新设计。
(3)为了达到较高的召回率,在基于锚点的目标检测器中,往往需要将预设的锚点密集地铺设在输入图像及其不同等级的特征图上(例如,输入图像的短边长为800时,在特征金字塔网络中将会设置超过18万个预设锚点)。并且,在训练过程中,绝大多数锚点将被标记为负样本点,这使得负样本点的数量过多,从而导致正样本点与负样本点数量不均衡的问题。
(4)最后,在训练过程中,尤其是在计算所有预设锚点和标注目标边界框之间的交并比时,过多地铺设预设锚点也会显著增加网络的计算量和内存的占用量,影响目标检测器的检测效率。
为了解决上述与锚点设置相关的问题,也出现了一些基于无锚点的目标检测器,然而,在检测密集分布的目标时,多个目标边界框之间往往会出现高度重叠的情况,这将会导致目标检测器在训练过程中出现回归任务上的歧义性,即对于标注边界框重叠区域中的像素来说,无法确定应该将哪个标注边界框作为回归的目标。
近年来,特征金字塔网络的提出,帮助基于无锚点的目标检测方法将不同尺度的目标分配到不同层级的特征图上,大大降低了在特征图上回归物体时的歧义性,基于无锚点的单阶段目标检测器性能得到较大的提升。在通用的目标检测领域上,相比多阶段检测器,单阶段目标检测器精度并没有多少劣势。
综上所述,受到全卷积单阶段目标检测方法(FCOS)的启发,提出基于无锚点的单阶段检测方法(TQR-FCOS)来完成建筑物目标检测,整体框架如图4所示。
在TQR-FCOS中,设置每个标注建筑物中的所有像素点为正样本点,同时引入之前定义的紧致四边形边界框分支,并行地与正矩形边界框分支进行回归。期望在得到对建筑物目标进行定位的同时,可以直接得到建筑物目标的轮廓,并通过紧致四边形边界框分支引入建筑物的角点和轮廓信息,进一步提升基于无锚点的建筑物检测器的性能。最后,TQR-FCOS还在FCOS的基础上引入与紧致四边形边界框对应的中心度,对分类得分进行进一步的修正。
(1)特征提取网络与特征金字塔网络
与实施例1中多阶段检测器的网络结构基本一致,主要的区别在于经过特征金字塔进行高、低层特征融合时,为了提升检测速度,并没有使用分辨率较高的特征图P2,而是对特征图P6进行一个步长为2的3×3大小的卷积下采样得到特征图P7,此时FPN的特征图则可以表示为:
P*={P3,P4,P5,P6,P7} (15)
(2)正矩形边界框分支
将特征图{P3,P4,P5,P6,P7}作为正矩形边界框分支的输入;针对每个尺寸的特征图,先分别采用四次3×3×C的卷积操作,每次卷积操作后面连接着修正线性单元,再分别采用3×3×2和3×3×4的卷积层,生成H×W×2和H×W×4的特征图;其中,H表示特征图的高,W表示特征图的宽,C表示通道;2表示二值分类,代表建筑物目标是与否;4表示回归的正矩形边界框的参数化向量;针对每个尺寸的特征图上的各坐标点,判断坐标点映射到待检测图片的坐标是否落在建筑物目标的正矩形边界框中;若是,则将坐标点认定为正矩形边界框对应的正样本点;若否,则将坐标点认定为正矩形边界框对应的负样本点;
对于每个正样本点,正矩形边界框回归的计算方式如下:
其中,(xA,yA)表示正矩形边界框对应的正样本点的坐标,(xlt,ylt)表示正样本点对应的建筑物目标的正矩形边界框的左上角的坐标,(xrb,yrb)表示正样本点对应的建筑物目标的正矩形边界框的右下角的坐标,l*表示正样本点与正矩形边界框的四条边中左侧边的距离,t*表示正样本点与正矩形边界框的四条边中上侧边的距离,r*表示正样本点与正矩形边界框的四条边中右侧边的距离,b*表示正样本点与正矩形边界框的四条边中下侧边的距离;
针对每个正样本点,判断是否满足(l*,t*,r*,b*)>ml或者(l*,t*,r*,b*)<ml-1;若是,则将正样本点删除;若否,则将正样本点保留;其中,ml表示第l层特征图上需要回归的最大距离,ml-1表示第l-1层特征图上需要回归的最大距离;m2,m3,m4,m5,m6,m7分别设定为0,64,128,256,512,∞;
在平行于分类任务的分支上添加一个输出为一维的卷积,得到正矩形边界框的中心度得分,根据回归的建筑物目标正矩形边界框对应的l*,t*,r*,b*,将与中心度分类分支对应的建筑物目标的正矩形边界框回归任务定义为:
(3)紧致四边形边界框分支
使用十维向量表示紧致四边形边界框,定义如下:
t*=(x,y,wn,hn) (18)其中,(x,y)表示紧致四边形边界框的最小外接正矩形边界框的中心点坐标;(wn,hn)表示紧致四边形边界框的第n个节点距离中心点坐标的相对位置,n=1,2,3,4,wn,hn均取负数;十维向量与紧致四边形边界框的四个节点(xn,yn)的变换过程如下:
(xn,yn)=(x+wn,y+hn) (19)
将特征金字塔结构中的五个尺寸的特征图{P3,P4,P5,P6,P7}作为紧致四边形边界框分支的输入,根据正矩形边界框分支输出的正矩形边界框(l*,t*,r*,b*)和正矩形边界框对应的正样本点的坐标(x0,y0),确定正矩形边界框的四个坐标点(xbn,ybn),再变换到(xb,yb,wb,hb)的形式,其中,(xb,yb)表示正矩形边界框的中心点坐标,wb,hb分别表示正矩形边界框的宽和高;
针对每个尺寸的特征图上的各坐标点,判断坐标点映射到待检测图片的坐标是否落在建筑物目标的紧致四边形边界框中;若是,则将坐标点认定为紧致四边形边界框对应的正样本点;若否,则将坐标点认定为紧致四边形边界框对应的负样本点;
对于每个正样本点,紧致四边形边界框回归的计算公式为:
其中,(xB,yB)表示紧致四边形边界框对应的正样本点的坐标,(x'n,y'n)表示正样本点对应的建筑物目标的紧致四边形边界框的四个节点的坐标;表示正样本点与建筑物目标的紧致四边形边界框的四个节点之间的距离;
在平行于分类任务的分支上增加一个输出为一维的卷积,得到紧致四边形边界框的中心度得分;根据回归的建筑物目标的紧致四边形边界框对应的和公式(19),求出正样本点对应的建筑物目标的紧致四边形边界框的四个节点的坐标(x'n,y'n),再根据公式(18)得到十维向量(x,y,wn,hn)的形式;根据回归的建筑物目标的紧致四边形边界框对应的(x,y,wn,hn),将与中心度分类分支对应的建筑物目标的紧致四边形边界框回归任务定义为:
对紧致四边形边界框对应的十维向量进行参数化处理:
其中,分别表示预测的紧致四边形边界框与正矩形边界框之间的偏移,分别表示真实的紧致四边形边界框与正矩形边界框之间的偏移;(x',y')表示预测的紧致四边形边界框的中心点坐标,(x*,y*)表示真实的紧致四边形边界框的中心点坐标,(w'n,h'n)表示紧致四边形边界框的四个节点距中心点坐标的相对位置的预测值,表示紧致四边形边界框的四个节点距中心点坐标的相对位置的真实值。
在TQR-FCOS中,为了实现整体网络的端到端联合训练,使用联合损失函数对整个网络进行优化,联合损失函数由分类损失函数正矩形边界框的中心度损失函数紧致四边形边界框的中心度损失函数正矩形边界框回归损失函数和紧致四边形边界框回归损失函数组成,定义如下:
其中;θ和Θ分别表示训练批次中的第θ幅图片和批次图片数量,Θ=3;
针对单幅图片,紧致四边形边界框的各子项损失函数定义如下:
分类损失函数:
Lcls(pt)=-(1-pt)γlog(pt) (24)
其中,pt表示是建筑物目标的概率,γ表示可调节的聚焦参数,设定γ=2;
正矩形边界框的中心度损失函数和紧致四边形边界框的中心度损失函数均采用二分类交叉熵损失函数;
正矩形边界框回归损失函数:
Lbbox(bbox,bbox*)=-log(IOU(bbox,bbox*)) (25)
其中,bbox表示预测的正矩形边界框,bbox*表示真实的正矩形边界框;IOU(·)表示交并比函数;
紧致四边形边界框回归损失函数:
本发明提供的上述基于紧致四边形表示的建筑物目标检测方法,特征提取网络通过特征金字塔结构获得丰富的多尺寸的特征信息;建议区域生成网络获得感兴趣的目标区域;正矩形边界框分支在特征金字塔结构的不同尺寸的特征图上进行正矩形边界框分类任务和回归任务;紧致四边形边界框分支生成建筑物目标的紧致四边形边界框,并由此进一步精确地定位出遥感影像中建筑物目标的轮廓。本发明提供的上述基于紧致四边形表示的建筑物目标检测方法,不仅可以避免生成不规则的外形,还可以保持一定结构的外形约束性。通过实验可以证明,本发明提供的上述基于紧致四边形表示的建筑物目标检测方法,不仅能够提取到更多的建筑物目标的节点和更准确的边缘特征信息,还能够得到更精确的检测结果。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (8)
1.一种基于紧致四边形表示的建筑物目标检测方法,其特征在于,包括如下步骤:
S1:将待检测图像输入特征提取网络,通过自底向上的方式由浅到深提取特征,对提取的特征进行自顶向下的侧向连接,生成含有丰富语义信息、具有多个尺寸特征图的特征金字塔结构;
S2:将所述特征金字塔结构作为正矩形边界框分支的输入,所述正矩形边界框分支在所述特征金字塔结构的每个尺寸特征图上进行建筑物目标的分类任务和正矩形边界框的回归任务;
S3:以所述特征金字塔结构和所述正矩形边界框分支为输入,通过紧致四边形边界框分支获得建筑物目标的紧致四边形边界框,得到建筑物目标的轮廓;
步骤S3,以所述特征金字塔结构和所述正矩形边界框分支为输入,通过所述紧致四边形边界框分支获得建筑物目标的紧致四边形边界框,得到建筑物目标的轮廓,具体包括:
使用十维向量表示紧致四边形边界框,定义如下:
t*=(x,y,wn,hn) (5)
其中,(x,y)表示紧致四边形边界框的最小外接正矩形边界框的中心点坐标;(wn,hn)表示紧致四边形边界框的第n个节点距离中心点坐标的相对位置,n=1,2,3,4;十维向量与紧致四边形边界框的四个节点(xn,yn)的变换过程如下:
(xn,yn)=(x+wn,y+hn) (6)
将所述特征金字塔结构中的五个尺寸的特征图{P3,P4,P5,P6,P7}作为所述紧致四边形边界框分支的输入,根据所述正矩形边界框分支输出的正矩形边界框(l*,t*,r*,b*)和正矩形边界框对应的正样本点的坐标(x0,y0),确定正矩形边界框的四个坐标点(xbn,ybn),再变换到(xb,yb,wb,hb)的形式,其中,(xb,yb)表示正矩形边界框的中心点坐标,wb,hb分别表示正矩形边界框的宽和高;
针对每个尺寸的特征图上的各坐标点,判断坐标点映射到待检测图片的坐标是否落在建筑物目标的紧致四边形边界框中;若是,则将坐标点认定为紧致四边形边界框对应的正样本点;若否,则将坐标点认定为紧致四边形边界框对应的负样本点;
对于每个正样本点,紧致四边形边界框回归的计算公式为:
其中,(xB,yB)表示紧致四边形边界框对应的正样本点的坐标,(x'n,y'n)表示正样本点对应的建筑物目标的紧致四边形边界框的四个节点的坐标;表示正样本点与建筑物目标的紧致四边形边界框的四个节点之间的距离;
在平行于分类任务的分支上增加一个输出为一维的卷积,得到紧致四边形边界框的中心度得分;根据回归的建筑物目标的紧致四边形边界框对应的和公式(7),求出正样本点对应的建筑物目标的紧致四边形边界框的四个节点的坐标(x'n,y'n),再根据公式(6)得到十维向量(x,y,wn,hn)的形式;根据回归的建筑物目标的紧致四边形边界框对应的(x,y,wn,hn),将与中心度分类分支对应的建筑物目标的紧致四边形边界框回归任务定义为:
对紧致四边形边界框对应的十维向量进行参数化处理:
其中,dx,dy,分别表示预测的紧致四边形边界框与正矩形边界框之间的偏移,分别表示真实的紧致四边形边界框与正矩形边界框之间的偏移;(x',y')表示预测的紧致四边形边界框的中心点坐标,(x*,y*)表示真实的紧致四边形边界框的中心点坐标,(w'n,h'n)表示紧致四边形边界框的四个节点距中心点坐标的相对位置的预测值,表示紧致四边形边界框的四个节点距中心点坐标的相对位置的真实值;
整个网络的训练过程,具体包括:
其中;θ和Θ分别表示训练批次中的第θ幅图片和批次图片数量,Θ=3;
针对单幅图片,紧致四边形边界框的各子项损失函数定义如下:
分类损失函数:
Lcls(pt)=-(1-pt)γlog(pt) (11)
其中,pt表示是建筑物目标的概率,γ表示可调节的聚焦参数,设定γ=2;
正矩形边界框的中心度损失函数和紧致四边形边界框的中心度损失函数均采用二分类交叉熵损失函数;
正矩形边界框回归损失函数:
Lbbox(bbox,bbox*)=-log(IOU(bbox,bbox*)) (12)
其中,bbox表示预测的正矩形边界框,bbox*表示真实的正矩形边界框;IOU(·)表示交并比函数;
紧致四边形边界框回归损失函数:
2.如权利要求1所述的基于紧致四边形表示的建筑物目标检测方法,其特征在于,步骤S1,将待检测图像输入所述特征提取网络,通过自底向上的方式由浅到深提取特征,对提取的特征进行自顶向下的侧向连接,生成含有丰富语义信息、具有多个尺寸特征图的特征金字塔结构,具体包括:
使用ResNeXt-101作为所述特征提取网络的主干网络;待检测图像经过所述主干网络后,根据所述主干网络不同层特征图尺寸的不同,输出的特征图由低到高被分为五个等级,每个等级的特征图的尺寸相同,定义为:
C*={C1,C2,C3,C4,C5} (1)
取所述主干网络输出的后四个等级的特征图C*={C2,C3,C4,C5},进行自顶向下的侧向连接,建立特征金字塔结构;将所述主干网络输出的后四个等级的特征图{C2,C3,C4,C5}作为所述特征金字塔结构的输入,在特征图C5上附加一个1×1卷积层生成特征图P5,对特征图P5进行下采样得到特征图P6;通过最近邻方法将特征图P5上采样2倍,将上采样的结果和特征图C4附加一个1×1卷积层后得到的特征图进行融合,采用3×3的卷积核对融合结果进行卷积,得到特征图P4;通过最近邻方法将特征图P4上采样2倍,将上采样的结果和特征图C3附加一个1×1卷积层后得到的特征图进行融合,采用3×3的卷积核对融合结果进行卷积,得到特征图P3;同理,得到特征图P2;定义如下:
P*={P2,P3,P4,P5,P6} (2)。
3.如权利要求2所述的基于紧致四边形表示的建筑物目标检测方法,其特征在于,步骤S2,将所述特征金字塔结构作为正矩形边界框分支的输入,所述正矩形边界框分支在所述特征金字塔结构的每个尺寸特征图上进行建筑物目标的分类任务和正矩形边界框的回归任务,具体包括:
对特征图P6进行下采样得到特征图P7,将特征图{P3,P4,P5,P6,P7}作为正矩形边界框分支的输入;针对每个尺寸的特征图,先分别采用四次3×3×C的卷积操作,每次卷积操作后面连接着修正线性单元,再分别采用3×3×2和3×3×4的卷积层,生成H×W×2和H×W×4的特征图;其中,H表示特征图的高,W表示特征图的宽,C表示通道;2表示二值分类,代表建筑物目标是与否;4表示回归的正矩形边界框的参数化向量;针对每个尺寸的特征图上的各坐标点,判断坐标点映射到待检测图片的坐标是否落在建筑物目标的正矩形边界框中;若是,则将坐标点认定为正矩形边界框对应的正样本点;若否,则将坐标点认定为正矩形边界框对应的负样本点;
对于每个正样本点,正矩形边界框回归的计算方式如下:
其中,(xA,yA)表示正矩形边界框对应的正样本点的坐标,(xlt,ylt)表示正样本点对应的建筑物目标的正矩形边界框的左上角的坐标,(xrb,yrb)表示正样本点对应的建筑物目标的正矩形边界框的右下角的坐标,l*表示正样本点与正矩形边界框的四条边中左侧边的距离,t*表示正样本点与正矩形边界框的四条边中上侧边的距离,r*表示正样本点与正矩形边界框的四条边中右侧边的距离,b*表示正样本点与正矩形边界框的四条边中下侧边的距离;
针对每个正样本点,判断是否满足(l*,t*,r*,b*)>ml或者(l*,t*,r*,b*)<ml-1;若是,则将正样本点删除;若否,则将正样本点保留;其中,ml表示第l层特征图上需要回归的最大距离,ml-1表示第l-1层特征图上需要回归的最大距离;m2,m3,m4,m5,m6,m7分别设定为0,64,128,256,512,∞;
在平行于分类任务的分支上添加一个输出为一维的卷积,得到正矩形边界框的中心度得分,根据回归的建筑物目标正矩形边界框对应的l*,t*,r*,b*,将与中心度分类分支对应的建筑物目标的正矩形边界框回归任务定义为:
4.如权利要求2所述的基于紧致四边形表示的建筑物目标检测方法,其特征在于,在执行步骤S1之后,在执行步骤S2之前,还包括如下步骤:
SS1:利用建议区域生成网络,在所述特征金字塔结构的每个尺寸特征图上,对应生成一组带有似物性得分的感兴趣区域;
步骤S2中,将各所述感兴趣区域也作为所述正矩形边界框分支的输入。
5.如权利要求4所述的基于紧致四边形表示的建筑物目标检测方法,其特征在于,步骤SS1,利用所述建议区域生成网络,在所述特征金字塔结构的每个尺寸特征图上,对应生成一组带有似物性得分的感兴趣区域,具体包括:
针对所述特征金字塔结构中五个尺寸的特征图{P2,P3,P4,P5,P6},预先设定具有五种尺寸和三种长宽比的15个锚点,利用所述建议区域生成网络在所述特征金字塔结构的每个尺寸特征图中的每个锚点上对应生成感兴趣区域,每个所述感兴趣区域具有一个对应的似物性得分;所述建议区域生成网络以金字塔形式的特征图{P2,P3,P4,P5,P6}为输入,假设其中任一特征图的尺寸为H×W,H表示该特征图的高,W表示该特征图的宽,该特征图上每个像素位置上有3个锚点,将该特征图先通过一个H×W的卷积,生成通道为256的特征图,再分别通过两个不同的1×1的卷积得到2×H×W和4×H×W的特征图,其中2表示2个分数,4表示4个坐标,2个分数分别为建筑物目标的分数和背景的分数,4个坐标表示锚点坐标在待检测图像坐标上的偏移;遍历所述特征金字塔结构中五个尺寸的特征图,得到30个分数和60个坐标,实现对感兴趣区域的分类任务和锚点边界框的回归任务。
6.如权利要求4所述的基于紧致四边形表示的建筑物目标检测方法,其特征在于,步骤S2,将所述特征金字塔结构和各所述感兴趣区域作为所述正矩形边界框分支的输入,所述正矩形边界框分支在所述特征金字塔结构的每个尺寸特征图上进行建筑物目标的分类任务和正矩形边界框的回归任务,具体包括:
将所述特征金字塔结构中前四个尺寸的特征图{P2,P3,P4,P5}和所述建议区域生成网络输出的感兴趣区域作为所述正矩形边界框分支的输入;针对每个感兴趣区域,在对应尺寸的特征图中提取出尺寸为7×7的小特征图,利用提取的小特征图进行三次全连接操作,进行建筑物目标的分类任务和正矩形边界框的回归任务;其中,分类任务得到{0,1},1代表建筑物目标,0代表背景;正矩形边界框回归任务得到正矩形边界框,定义为(xb,yb,wb,hb),(xb,yb)表示正矩形边界框的中心点坐标,wb,hb分别表示正矩形边界框的宽和高。
7.如权利要求6所述的基于紧致四边形表示的建筑物目标检测方法,其特征在于,步骤S3,以所述特征金字塔结构和所述正矩形边界框分支为输入,通过所述紧致四边形边界框分支获得建筑物目标的紧致四边形边界框,得到建筑物目标的轮廓,具体包括:
使用十维向量表示紧致四边形边界框,定义如下:
t*=(x,y,wn,hn) (16)
其中,(x,y)表示紧致四边形边界框的最小外接正矩形边界框的中心点坐标;(wn,hn)表示紧致四边形边界框的第n个节点距离中心点坐标的相对位置,n=1,2,3,4;十维向量与紧致四边形边界框的四个节点(xn,yn)的变换过程如下:
(xn,yn)=(x+wn,y+hn) (17)
将所述特征金字塔结构中前四个尺寸的特征图{P2,P3,P4,P5}作为所述紧致四边形边界框分支的输入,根据所述正矩形边界框分支输出的正矩形边界框(xb,yb,wb,hb),使用RoIAlign方法分别从对应尺寸的特征图中提取出尺寸为7×7的小特征图,使用三个全连接层将提取出的小特征图转换成两个十维向量{t0,t1};其中,t0表示背景类的坐标,t1表示紧致四边形边界框坐标;
对紧致四边形边界框坐标对应的十维向量进行参数化处理:
8.如权利要求4~7任一项所述的基于紧致四边形表示的建筑物目标检测方法,其特征在于,整个网络的训练过程,具体包括:
针对单幅图片,紧致四边形边界框的各子项损失函数定义如下:
建议区域网络的损失函数:
其中,j表示小批量图片中锚点框的索引,pj表示预测第j个锚点是建筑物目标的概率;表示真实的标签,若则锚点框属于建筑物目标,若则锚点框不属于建筑物目标;tj表示预测的锚点边界框的四维参数化坐标向量,表示真实的锚点边界框的参数化坐标向量;表示锚点边界框的二分类交叉熵损失函数,表示锚点边界框的回归损失函数;Ncls表示分类的归一化参数,Nreg表示回归的归一化参数;α表示平衡参数,设定α=10;
正矩形边界框回归损失函数:
Lbbox(bbox,bbox*)=-log(IOU(bbox,bbox*)) (23)
其中,bbox表示预测的正矩形边界框,bbox*表示真实的正矩形边界框;IOU(·)表示交并比函数;
紧致四边形边界框回归损失函数:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010794953.5A CN112084869B (zh) | 2020-08-10 | 2020-08-10 | 一种基于紧致四边形表示的建筑物目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010794953.5A CN112084869B (zh) | 2020-08-10 | 2020-08-10 | 一种基于紧致四边形表示的建筑物目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112084869A CN112084869A (zh) | 2020-12-15 |
CN112084869B true CN112084869B (zh) | 2023-04-07 |
Family
ID=73735729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010794953.5A Active CN112084869B (zh) | 2020-08-10 | 2020-08-10 | 一种基于紧致四边形表示的建筑物目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112084869B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175548B (zh) * | 2019-05-20 | 2022-08-23 | 中国科学院光电技术研究所 | 基于注意力机制和通道信息的遥感图像建筑物提取方法 |
CN112883887B (zh) * | 2021-03-01 | 2023-07-18 | 中央财经大学 | 一种基于高空间分辨率光学遥感图像的建筑物实例自动提取方法 |
CN113408350B (zh) * | 2021-05-17 | 2023-09-19 | 杭州电子科技大学 | 一种基于边缘特征提取的遥感图像显著性检测方法 |
CN113435266B (zh) * | 2021-06-09 | 2023-09-01 | 东莞理工学院 | 基于极值点特征增强的fcos智能目标检测方法 |
CN113409264B (zh) * | 2021-06-16 | 2023-08-25 | 哈尔滨工业大学(深圳) | 一种自动检测六龄牙龋齿的检测装置 |
CN113436319B (zh) * | 2021-07-01 | 2022-03-18 | 泰瑞数创科技(北京)有限公司 | 城市室内三维语义模型的异形排列矩阵构建方法及其系统 |
CN113408531B (zh) * | 2021-07-19 | 2023-07-14 | 北博(厦门)智能科技有限公司 | 一种基于图像识别的目标物形状框选方法及终端 |
CN113591810B (zh) * | 2021-09-28 | 2021-12-07 | 湖南大学 | 基于边界紧约束网络的车辆目标位姿检测方法、装置及存储介质 |
CN113920147B (zh) * | 2021-12-14 | 2022-03-01 | 星际空间(天津)科技发展有限公司 | 基于深度学习的遥感影像建筑物提取方法及设备 |
CN114708513B (zh) * | 2022-03-04 | 2023-12-01 | 深圳市规划和自然资源数据管理中心 | 一种顾及角点特征的边缘建筑物提取方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334752A (zh) * | 2019-06-26 | 2019-10-15 | 电子科技大学 | 一种基于梯形卷积的不规则形状物体检测方法 |
CN110516605A (zh) * | 2019-08-28 | 2019-11-29 | 北京观微科技有限公司 | 基于级联神经网络的任意方向舰船目标检测方法 |
CN110516606A (zh) * | 2019-08-28 | 2019-11-29 | 北京观微科技有限公司 | 高分辨率卫星影像任意方向舰船目标检测方法 |
CN110619319A (zh) * | 2019-09-27 | 2019-12-27 | 北京紫睛科技有限公司 | 一种基于改进的mtcnn模型人脸检测方法和系统 |
CN110633661A (zh) * | 2019-08-31 | 2019-12-31 | 南京理工大学 | 一种融合语义分割的遥感图像目标检测方法 |
CN110909642A (zh) * | 2019-11-13 | 2020-03-24 | 南京理工大学 | 一种基于多尺度语义特征融合的遥感图像目标检测方法 |
CN111091105A (zh) * | 2019-12-23 | 2020-05-01 | 郑州轻工业大学 | 基于新的边框回归损失函数的遥感图像目标检测方法 |
CN111291759A (zh) * | 2020-01-17 | 2020-06-16 | 北京三快在线科技有限公司 | 文字检测方法、装置、电子设备及存储介质 |
CN111476252A (zh) * | 2020-04-03 | 2020-07-31 | 南京邮电大学 | 一种面向计算机视觉应用的轻量化无锚框目标检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295678B (zh) * | 2016-07-27 | 2020-03-06 | 北京旷视科技有限公司 | 神经网络训练与构建方法和装置以及目标检测方法和装置 |
-
2020
- 2020-08-10 CN CN202010794953.5A patent/CN112084869B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334752A (zh) * | 2019-06-26 | 2019-10-15 | 电子科技大学 | 一种基于梯形卷积的不规则形状物体检测方法 |
CN110516605A (zh) * | 2019-08-28 | 2019-11-29 | 北京观微科技有限公司 | 基于级联神经网络的任意方向舰船目标检测方法 |
CN110516606A (zh) * | 2019-08-28 | 2019-11-29 | 北京观微科技有限公司 | 高分辨率卫星影像任意方向舰船目标检测方法 |
CN110633661A (zh) * | 2019-08-31 | 2019-12-31 | 南京理工大学 | 一种融合语义分割的遥感图像目标检测方法 |
CN110619319A (zh) * | 2019-09-27 | 2019-12-27 | 北京紫睛科技有限公司 | 一种基于改进的mtcnn模型人脸检测方法和系统 |
CN110909642A (zh) * | 2019-11-13 | 2020-03-24 | 南京理工大学 | 一种基于多尺度语义特征融合的遥感图像目标检测方法 |
CN111091105A (zh) * | 2019-12-23 | 2020-05-01 | 郑州轻工业大学 | 基于新的边框回归损失函数的遥感图像目标检测方法 |
CN111291759A (zh) * | 2020-01-17 | 2020-06-16 | 北京三快在线科技有限公司 | 文字检测方法、装置、电子设备及存储介质 |
CN111476252A (zh) * | 2020-04-03 | 2020-07-31 | 南京邮电大学 | 一种面向计算机视觉应用的轻量化无锚框目标检测方法 |
Non-Patent Citations (2)
Title |
---|
基于实例分割模型的建筑物自动提取;瑚敏君等;《测绘通报》;20200425(第04期);16-21 * |
面向航空飞行安全的遥感图像小目标检测;李希等;《航空兵器》;20200615(第03期);54-61 * |
Also Published As
Publication number | Publication date |
---|---|
CN112084869A (zh) | 2020-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112084869B (zh) | 一种基于紧致四边形表示的建筑物目标检测方法 | |
CN112818903B (zh) | 一种基于元学习和协同注意力的小样本遥感图像目标检测方法 | |
CN108961235B (zh) | 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法 | |
CN109829398B (zh) | 一种基于三维卷积网络的视频中的目标检测方法 | |
CN109902677B (zh) | 一种基于深度学习的车辆检测方法 | |
CN113378686B (zh) | 一种基于目标中心点估计的两阶段遥感目标检测方法 | |
CN103337052B (zh) | 面向宽幅遥感影像的自动几何纠正方法 | |
CN108305260B (zh) | 一种图像中角点的检测方法、装置及设备 | |
CN111882586B (zh) | 一种面向剧场环境的多演员目标跟踪方法 | |
CN113468968B (zh) | 一种基于无锚框的遥感图像旋转目标检测方法 | |
CN111681259B (zh) | 基于无Anchor机制检测网络的车辆跟踪模型建立方法 | |
CN112489054A (zh) | 一种基于深度学习的遥感图像语义分割方法 | |
CN114627052A (zh) | 一种基于深度学习的红外图像漏气漏液检测方法及系统 | |
CN110633633B (zh) | 一种基于自适应阈值的遥感影像道路提取方法 | |
CN113191204B (zh) | 一种多尺度遮挡行人检测方法及系统 | |
CN113033315A (zh) | 一种稀土开采高分影像识别与定位方法 | |
CN114494870A (zh) | 一种双时相遥感图像变化检测方法、模型构建方法和装置 | |
CN115359366A (zh) | 基于参数优化的遥感图像目标检测方法 | |
CN114519819B (zh) | 一种基于全局上下文感知的遥感图像目标检测方法 | |
CN114581307A (zh) | 用于目标追踪识别的多图像拼接方法、系统、设备及介质 | |
Zhao et al. | Boundary regularized building footprint extraction from satellite images using deep neural network | |
CN110636248B (zh) | 目标跟踪方法与装置 | |
CN114399734A (zh) | 一种基于视觉信息的森林火灾预警方法 | |
CN113160117A (zh) | 一种自动驾驶场景下的三维点云目标检测方法 | |
CN113095316A (zh) | 基于多级融合和角点偏移的图像旋转目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |