CN111369539B - 一种基于多特征图融合的建筑立面窗户检测系统 - Google Patents
一种基于多特征图融合的建筑立面窗户检测系统 Download PDFInfo
- Publication number
- CN111369539B CN111369539B CN202010150636.XA CN202010150636A CN111369539B CN 111369539 B CN111369539 B CN 111369539B CN 202010150636 A CN202010150636 A CN 202010150636A CN 111369539 B CN111369539 B CN 111369539B
- Authority
- CN
- China
- Prior art keywords
- window
- key point
- key
- map
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 15
- 238000001514 detection method Methods 0.000 claims abstract description 70
- 238000012795 verification Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 64
- 238000000034 method Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 9
- 230000001629 suppression Effects 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 10
- 238000009826 distribution Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 6
- 238000013461 design Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000001788 irregular Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000009827 uniform distribution Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000519995 Stachys sylvatica Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多特征图融合的建筑立面窗户检测系统,包括:特征图提取模块,用于依据输入的彩色建筑立面图像提取描述窗户顶点特征的关键点概率图、描述窗户顶点标签信息的关键点标签图、描述窗户中心点特征的中心点概率图;窗户生成模块,用于根据所述关键点概率图和所述关键点标签图对属于同一窗户的关键点进行聚类,依据属于同类的关键点生成多边形作为初步窗户检测结果;中心点验证模块,用于依据所述中心点概率图对所述初步窗户检测结果进行验证,以滤除掉不正确的初步窗户检测结果。该建筑立面窗户检测系统极大地提升了窗户检测的效果与鲁棒性。
Description
技术领域
本发明属于建筑立面分析领域,具体涉及一种基于多特征图融合的建筑立面窗户检测系统。
背景技术
近年来,建设智慧城市已经成为我国的重要发展方向之一。智慧城市集成城市的组成系统和服务来提升资源运用的效率,优化城市管理和服务,以及改善市民生活质量。当前,智慧城市的建设是信息技术、城市规划等领域的热点问题。在建设智慧城市的过程中,基于图像重建大规模三维虚拟城市是不可或缺的一环,在智能导航、交通管理、城市规划等方面具有广泛的应用前景。建筑立面分析则是三维虚拟城市重建中的核心基础部分,窗户作为建筑立面中最为主要的组成部分之一,高质量的窗户检测结果不仅能简化重建模型,还能使得模型更具有真实感。
统计表明,4G移动网络中有超过80%的业务发生在室内。伴随着5G业务种类的持续增加、行业边界的不断扩展,业界预测未来更多的移动业务将发生在室内。由于5G业务对超大频谱带宽的要求,5G网络通常部署在C-Band和毫米波频段。然而5G室外基站的高频信号在穿透建筑外墙覆盖室内场景时,将会遇到极大的链路损耗,使得室外覆盖室内变得异常困难。相比于厚实的建筑外墙,5G高频信号通过开放的窗户或者穿透玻璃的损耗会相对较少。因此,为了使得室外5G基站信号能够更好地覆盖室内,提供优质的室内场景5G业务体验,研究如何得到高质量的窗户检测结果成为了一个重要问题。
从学界角度出发,窗户检测隶属于建筑立面分析,是计算机视觉中的传统问题。建筑立面分析的目的是从建筑立面图像中识别各个立面元素的像素区域,并为每个区域分配特定的语义标签(墙壁,窗户,屋顶等)。该任务的主要挑战在于建筑立面之间可能存在的巨大差异,即使对于拥有相同建筑风格的建筑物也是如此。此外,由于其内部特征(墙壁,窗户,屋顶等)或外部特征(遮挡,光影,反射等)的丰富性,它们的视觉外观之间存在着许多或大或小的差异。目前存在的方法大多采用基于建筑立面几何先验知识的图像处理方法,将立面图像进行语义分割,能够同时得到窗户、门、墙壁等区域。该类方法依赖诸多先验假设,例如立面元素均匀分布、矩形窗户等。然而现实应用场景中,建筑风格多变且窗户形状各异,加上光影、遮挡、图像质量低等因素,因此鲁棒地得到高精度窗户定位结果仍然十分具有挑战性。
建筑立面分析的主要目的是通过语义分析,从建筑立面中提取各块像素区域并赋予对应的语义信息,例如窗户、门、外墙等等。目前存在的方法大多利用几何、纯视觉的技术来解决。目前存在以下的问题及挑战:
(1)室外采集的建筑立面图像往往包含不相关的元素与遮挡,例如信号灯、树木、车辆等等,这些不相关元素及遮挡会对窗户检测效果造成干扰。同时,光影、反射的变化也会对算法本身造成极大的干扰。然而目前大多数工作几乎没有显式处理这些问题的模块;
(2)室外采集的建筑立面图像其中很大一部分是侧面视角拍摄的,甚至存在一定畸变。因此目前大多数工作需要在预处理阶段置正建筑立面图像,或者直接基于置正的建筑立面数据集进行实验。一方面,这十分依赖于图像置正算法的质量,另一方面也说明了这些方法不够通用与鲁棒;
(3)建筑立面元素并不一定呈网格状均匀分布,且窗户风格、形状也极其多样。然而目前大多数方法都利用了建筑立面元素的分布规则性与窗户形状语法等先验知识,这导致了若存在不规则的窗户形状及分布,这些方法的效果则会十分受限;
总结来说,目前的大多数方法对建筑立面图像有着严苛的要求,例如无遮挡、置正、建筑立面元素形状规则且均匀分布等等。因此一旦输入图像不满足这些要求,则结果会较为差强人意。
发明内容
本发明的目的是提供一种基于多特征图融合的建筑立面窗户检测系统,该建筑立面窗户检测系统,极大地提升了窗户检测的效果与鲁棒性。
本发明的技术方案为:
一种基于多特征图融合的建筑立面窗户检测系统,包括:
特征图提取模块,用于依据输入的彩色建筑立面图像提取描述窗户顶点特征的关键点概率图、描述窗户顶点标签信息的关键点标签图、描述窗户中心点特征的中心点概率图;
窗户生成模块,用于根据所述关键点概率图和所述关键点标签图对属于同一窗户的关键点进行聚类,依据属于同类的关键点生成多边形作为初步窗户检测结果;
中心点验证模块,用于依据所述中心点概率图对所述初步窗户检测结果进行验证,以滤除掉不正确的初步窗户检测结果。
优选地,所述特征图提取模块采用卷积神经网络提取关键点概率图、关键点标签图以及中心点概率图。
优选地,所述关键点标签图训练时,采用的损失函数Losstag为:
Losstag=α*Losspush+β*Losspull
其中,Losspush为“推”损失函数,Losspull为“拉”损失函数,α与β为控制“推”损失函数与“拉”的损失函数的权重;
“推”损失函数为:
“拉”损失函数为:
其中,为窗户n的参考标签向量,Lk(x)代表在第k张关键点标签图中位置xnk的标签向量,xnk为窗户n的k类关键点的真实标注位置,n∈{1,...,N},N为窗户总数,w(i,j)为损失函数权重,Δ为期望距离,max()为最大值函数,i、j为窗户的索引,|·|2为L2范数。
优选地,所述窗户生成模块生成初步窗户检测结果的过程为:
从所述关键点概率图中提取关键点位置坐标,组成关键点预测集合;
根据关键点位置坐标从所述关键点标签图提取关键点对应的标签向量;
根据两个标签向量之间的欧式距离实现对属于同一窗户的关键点进行聚类,获得聚类结果;
根据聚类结果生成多边形作为初步窗户检测结果。
优选地,采用非极大抑制算法从所述关键点概率图中提取关键点位置坐标。
优选地,所述中心点验证模块对初步窗户检测结果进行验证的过程为:
计算形成初步窗户检测结果的4个关键点位置坐标,根据该4个关键点位置坐标计算平均点坐标;
从所述中心点概率图中提取该平均点坐标对应的概率值,比较该概率值与设定阈值的大小关系,以滤除掉不正确的初步窗户检测结果。
优选地,所述中心点验证模块还包括:
从所述中心点概率图中提取中心点作为聚类中心,依据该聚类中心对未匹配成窗户的剩余关键点进行二次聚类,寻找与该聚类中心最邻近的4个关键点组成多边形作为窗户检测结果。
优选地,采用非极大抑制算法从所述中心点概率图中提取中心点。
与现有技术相比,本发明具有的有益效果至少包括:
本发明依据采集的彩色建筑立面图像提取关键点概率图、关键点标签图以及中心点概率图这三类特征图,再根据关键点概率图和关键点标签图对属于同一窗户的关键点进行聚类获得初步窗户检测结果,最后还依据所述中心点概率图对所述初步窗户检测结果进行验证,以滤除掉不正确的初步窗户检测结果,以此极大地提升了窗户检测的效果与鲁棒性,对不同风格、光照、视角、复杂程度的立面图像都有较好识别效果,最终系统能够有助于三维数字城市重建、场景识别等相关系统与应用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是实施例提供的基于多特征图融合的建筑立面窗户检测系统的结构示意图;
图2是实施例提供的结合可视化样例的初步窗户检测过程图;
图3是实施例提供的关键点概率图的示意图;
图4是实施例提供的关键点概率图的实际预测图;
图5是实施例提供的关键点可能匹配示意图;
图6是实施例提供的关键点标签图的实际预测图;
图7是实施例提供的对初步窗户检测结果进行中心点验的流程示意图;
图8是实施例提供的基于中心点的二次聚类的过程示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
实施例中,窗户关键点定位问题,具体可分为窗户关键点检测和窗户关键点聚类两部分。窗户关键点检测的目标是给定建筑立面图像,从中找到所有关键点的坐标。窗户关键点聚类的目标是将属于同一个窗户的不同类关键点进行聚类。换句话说,检测得到的关键点尚未具有归属信息,需要从若干候选关键点中,找到属于同一个窗户的关键点。通过以上两部分,得到了初步的窗户检测结果。然而由于预测误差等问题,初步结果中存在部分错误检测。本实施例提出为系统配备感知图像表征的能力,对于某检测结果能自动地根据真实窗户几何、视觉关系来验证其正确性。
本发明依托具有强拟合能力的卷积神经网络来实现窗户关键点定位,分别学习与预测三类编码了图像视觉表征的特征图,通过融合图中信息来检测窗户区域。本实施例所提出的窗户检测方法总体流程如图1所示。
系统的输入是彩色建筑立面图像,可以是经过置正的或是未置正的。图像中包括至少一个主要的建筑立面,可以是完整的或是部分的。目标建筑以普通居民楼、办公楼、商店等为主,立面中不包括大面积玻璃幕墙。该系统输入图像易于获得,其信号来源不限于某个具体的RGB相机。也就是说,这样使得该窗户检测系统并不明确与某型号、某品牌的RGB相机关联,任何适用的RGB相机都可以作为本系统的输入信号源。
随后特征图提取模块接受图像作为输入,预测三类特征图,分别是窗户关键点概率图、窗户关键点标签图、窗户中心点概率图。窗户关键点概率图描述了关键点在图像上的分布概率,基于该分布概率来提取关键点坐标;窗户关键点标签图编码了关键点的组别归属信息,基于组别归属信息来对关键点进行聚类;窗户中心点概率图描述了所有真实窗户中心点在图像上的分布概率,基于该分布概括来验证结果的正确性。本实施例提出的窗户检测方法中通过特征图融合部分将这三类特征图的信息进行融合来进行窗户检测。
之后特征图融合部分主要包括窗户生成模块和中心点验证模块。窗户生成模块将关键点概率图与关键点标签图的信息进行融合,基于关键点标签图中的标签向量对关键点进行聚类形成多边形,得到初步窗户检测结果。中心点验证模块将初步窗户检测结果与中心点概率图进行融合,作用是验证初步窗户检测结果的正确性,去除错误的窗户预测。中心点验证时,在中心点概率图中,真实窗户的中心像素位置应该有较高的概率值响应,而那些中心点的概率值较低的,则为错误的窗户检测。
图2结合具体可视化图像样例,更加细化地展示了基于关键点概率图与关键点标签图的初步窗户检测的流程。在具体操作时,窗户所在区域被定义为四边形,由左上角点、左下角点、右下角点与右上角点所组成。
从关键点概率图中提取关键点在二维图像上的预测位置,同时根据该预测在关键点标签图中的相应位置提取标签向量,该标签向量代表了该关键点的归属信息,标签向量相近的不同类关键点属于同一个窗户。随后通过基于标签向量的聚类算法,将窗户四个关键点聚类形成四边形,得到初步的窗户检测结果。下一步,中心点验证模块对该结果进行验证筛选与二次聚类后处理,得到窗户检测结果。下面针对每个模块进行详细说明。
特征图提取模块
特征图提取模块采用卷积神经网络,具体采用了目前较为流行的主干网络加前端网络的结构,主干网络利用一系列卷积层提取图像的特征,前端网络负责将图像特征转化成一系列的特征图。主干网络选择ResNet,前端网络为反卷积网络,将低分辨率的图像特征映射为高分辨率的特征图。系统含有三个分支模块,分别预测关键点概率图和关键点标签图以及中心点概率图。当然在具体实现上,前端网络也可以分为两个个分支模块,利用同一分支模块实现对中心点概率图与关键点概率图的预测。
本实施例中通过关键点概率图(下面简称概率图)来描述关键点(也就是候选窗户顶点)的分布,概率图集合S=(S1,...,Sk)包含K张概率图,其中K是关键点的类别数量,在本实施例的定义中K=4,分别表示窗户的左上角顶点、左下角顶点、右上角顶点、右下角顶点,每个类别关键点各对应一张关键点概率图,其中概率图概率图Sk中每个像素位置的值代表该点是k类关键点的概率。概率值是[0,1]区间的浮点数。举例来说,若在概率图Sk中位置(x1,y1)的值为0.950,那么该位置(x1,y1)有较高的概率成为关键点。相反的,若位置(x2,y2)的概率值为0.001,则该位置(x2,y2)很大概率不是关键点。因此,对于每个关键点,仅围绕着正确关键点位置周围的区域有较高概率值,而其他位置的值应该是0。在概率图Sk中可能存在多峰值,因此从中可能提取零个、一个或多个关键点。关键点概率图如图3所示,不同颜色代表不同类别的关键点,颜色越深代表概率值越高,当然也可以采用不用形状代表不同类别的关键点,关键点的呈现方式不做限定。
图4为预测得到的关键点概率图的实际预测图,分别展示了含有单建筑立面的图像(第一排)、含有双建筑立面的图像(第二排)、建筑立面含有较为不规则窗户排列的图像(第三排)、视角倾斜较大的建筑立面(第四排)的概率图预测结果。关键点概率图中每个像素位置都存在一定概率值,颜色越浅代表概率值越高。在关键点概率图中有若干高概率区域,对应着若干潜在候选关键点。
在获得关键点概率图的基础上,还需要从关键点概率图提取出关键点的具体坐标位置。实施例中,采用非极大抑制(Non-Maximum Suppression,简称NMS)算法从关键点概率图中提取关键点位置。非极大抑制的思想是搜素局部最大值,且抑制非极大值。一个像素位置要成为关键点,需要满足两个条件:(1)像素位置的概率值大于设置的阈值γ;(2)像素位置的概率值是四连通邻域中最大的,即该像素位置是四连通邻域中的一个峰值点。因此,非极大抑制算法通过设定阈值筛选掉低概率值的像素点,和比较当前像素点与四连通邻域的概率值,以此来从关键点概率图中提取出关键点的坐标。关键点位置集合P=(P1,...,Pk)代表窗户关键点在二维图像上的坐标,Pk代表所有从Sk提取出来的k类关键点的位置集合,例如P1代表所有窗户左上角关键点位置的集合。
中心点概率图与关键点概率图类似,其获取过程与表示方式与关键点概率图类似,在此不再赘述。
由关键点概率图中获得的关键点并不具有窗户归属信息,尚不清楚哪四个关键点能够组成正确的窗户,因此需要将关键点进行聚类以形成正确的窗户。在具体问题层面,本实施例将关键点聚类问题转化成了关键点匹配问题,将不同类别关键点按顺序进行两两配对,形成的关键点匹配集合即为聚类结果。然而关键点与关键点之间存在若干可能的组合关系,如图5所示,红色关键点可以匹配若干黄色候选关键点,然而只有一组匹配关系是正确的。
本实施例的思路是设计关键点间的关系,通过神经网络学习并预测该关键点间的关系,通过该关系来筛选或选择关键点的匹配组合。本发明采用关联嵌入特征(Associative Embedding Feature)来描述关键点间关系,其基本思路是:对每个检测得到的关键点引入一个标签向量用以确定该关键点所属的组别。基于标签向量将每个检测得到的关键点与其他关键点进行匹配。匹配时,通过衡量各个关键点标签向量的距离,将那些标签向量足够接近的关键点进行匹配。最终,通过匹配聚类为同一类的四个关键点形成的多边形作为初步窗户检测结果。
本发明将标签向量编码在关键点标签图里,关键点标签图集合L=(L1,...,Lk)包含K张标签图,其中k∈{1...K},每个类别关键点各对应一张关键点标签图。关键点标签图Lk中每个像素位置记录该点的标签向量/>当d=1时退化为实数。每张关键点标签图与一个类别的关键点一一对应,关键点标签图尺寸与关键点概率图尺寸一致,其中每个像素位置的值代表关键点概率图中对应位置的标签向量。举例来说,若已从关键点概率图中提取得到关键点位置集合P,那么将会根据P在关键点标签图中相应位置提取标签向量,作为每个关键点的标签向量。
如图2所示,网络的其中一个分支预测关键点标签图。需要说明的是,对于标签图的监督训练,并没有真实标签图的参与损失计算。因为实际上标签向量中的绝对值并不重要,而是标签向量之间的距离被用来计算关键点间关系,因此网络的设计是去学习标签向量间的距离。来自同一个窗户的关键点的标签向量应该较为相近,所以它们才能够被聚类在一起,而来自不同窗户的关键点应该在标签向量上具有较大差距,因此它们才能够被分开。代表k类关键点的预测标签图,Lk(x)代表在第k张标签图中位置x的标签向量。假设图像中存在N个窗户,且窗户关键点标注真实位置集合为P={(xnk)},n∈{1,...,N},k∈{1,...,K},其中xnk是窗户n的k类关键点的真实标注位置。若所有K个关键点都被正确标注了,那么窗户n的参考标签向量应该是:
在单个窗户内部的关键点的标签向量应该尽可能接近,因此设计损失函数通过监督每个窗户的参考标签向量和预测关键点的标签向量之间的均方误差(Mean SquareError,简称MSE)来聚集同一窗户的关键点。该损失函数被称为“拉”损失函数(Pull Loss),描述如下:
除了要聚集同一窗户的关键点之外,还需要将不同窗户关键点分开。因此设计了“推”损失函数(Push Loss),通过将每个窗户的参考标签向量与其他窗户的参考标签向量进行距离监督来将不同窗户关键点的标签向量“推开”。为了使得不同窗户关键点的标签向量尽可能的可区分,本发明在“推”损失函数中引入了期望距离Δ。在训练过程中,不同窗户参考标签向量的距离尽可能地接近期望距离Δ,如此不同窗户关键点的标签向量才能够具有可区分性。然而期望距Δ也不能设置过大,导致训练过程难以收敛。线性“推”损失函数描述如下:
由于引入了期望距离Δ与max()最大值函数操作带来了更高的损失。若两个窗户的参考标签向量已经相距较远(即两个窗户的参考标签向量的差值大于Δ),那么损失函数认为网络已经学习到了可用的参考标签向量,根据max()函数操作,此时损失为0。若两个窗户的参考标签向量相差较小(即两个窗户的参考标签向量的差值小于Δ),则损失为通过训练使得两个窗户参考标签向量相差接近Δ。
本实施例还希望学习得到的标签向量分布能够在一定程度上符合窗户的线性排列规则。因此对于相隔较远的窗户,它们关键点标签向量应该差别较大,而距离较为接近的窗户,它们创建点标签向量应该差别相对较小。因此,本发明通过增加损失函数权重项来惩罚距离较远的窗户对,描述如下:
其中P(i)和P(j)分别是第i个窗户和第j个窗户的位置,用中心点来描述,γ用以控制权重范围,本文实验中设置为3,maxDistance是所有窗户间距离的最大值。权重w(i,j)与窗户间距离呈线性关系,在训练时对不同距离的窗户对施加不同程度的权重。最终使用的“推”损失函数为:
训练关键点标签图的损失函数总结如下,其中α与β是控制“推”与“拉”的损失函数的权重:
Losstag=α*Losspush+β*Losspull
图6是关键点标签图的实际预测图,展示了含有单建筑立面的图像(第一排)、含有双建筑立面的图像(第二排)、含有较为不规则窗户排列的建筑立面图像(第三排)、视角倾斜较大的建筑立面图像(第四排)的标签图预测结果。本实施例将标签向量映射为灰度值,因此对于同一建筑立面而言,其标签图的颜色越接近就代表标签向量越接近。
窗户生成模块
在获得关键点概率图和的关键点标签图的基础上,即可以根据关键点概率图和的关键点标签图进行关键点聚类,根据聚类结果生成初步窗户检测结果。
关键点聚类形成窗户时,将具有相近标签向量的不同类关键点进行匹配,顺序上采用逆时针两两逐对匹配的策略,即窗户左上角顶点先与左下角顶点匹配,然后左下角顶点与右下角顶点匹配,最后右下角顶点与右上角顶点匹配,这四个顶点的匹配组合形成一个聚类,即窗户检测结果。由于聚类内部在数值上十分接近,换句话说任意两个关键点的标签值已经足够接近,因此不再需要右上角与左上角重复匹配。
对于那些无法形成完整路径的关键点,有三种可能:(1)它本身是假正例;(2)标签向量不够准确,导致它无法找到正确的匹配关系;(3)与它同属一个窗户的其他关键点未被检测到,常见情况为被遮挡或位于图像之外等等,对于这些关键点,目前策略是直接抛弃。通过这样的思路,将关键点聚类问题转化为了关键点匹配问题。
对于一张建筑立面图像,假设已经得到关键点预测集合P与关键点标签图预测结果。每类关键点有若干候选点,因为建筑立面中有若干窗户以及关键点概率图预测中存在假正例。根据关键点标签图结合关键点预测集合P提取标签向量,得到标签向量集合T=(T1,…,Tk), 代表在标签图中位置为/>的值。对于标签向量和/>本发明采用欧式距离来衡量两个标签向量之间的距离,描述如下:
(1)整体匹配的距离总和达到最小;
(2)所有关键点都尽可能匹配;
(3)两个相同类型的关键点不能匹配同一个关键点。
以上匹配过程可以抽象为二分图的带权匹配问题。设G=<V1,V2,E>为二分图,|V1|≤|V2|,在本问题中V1与V2分别为两类预测的关键点集合,E为权值,即两类关键点之间的欧氏距离。设M为G中一个匹配集合,若|M|=|V1|,则称M为V1到V2的完备匹配,也就是说把一个集合中的点全部匹配到另一个集合中。二分图匹配是指找到一组边,其中的顶点分别在两个集合中,且任意两条边都没有相同的顶点,这组边叫做二分图的匹配,而所能得到的最大的边的个数,叫做二分图的最大匹配。而二部图的带权匹配最终目的在于找到一个匹配集合,使得集合中各边的权值之和最大或最小。对于本问题,给每一个配对(关键点对)指定一个权重之后,问题就变成了求二分图的最小权值的带权匹配问题。该匹配过程可利用Kuhn-Munkres(匈牙利)算法来进行求解。
成功匹配的关键点对必然在标签向量上十分接近,那么通过匹配而形成的组别内部,标签向量数值必然是稳定而统一的。最终形成的每个组别内应包括四个关键点,它们属于不同关键点类别,概念上能够组成四边形区域,即初步窗户检测结果。本系统将窗户描述为其关键点所组成的多边形区域。相比于包围盒或语义像素,有着更加鲁棒与通用的特点。其关键点在本发明中定义为窗框的四个角点,忽略窗户装饰性外沿。
中心点验证模块
基于标签向量的匹配能够很大程度上缓解基于关键点向量场(Part AffinityFields,简称PAF)的方法所造成误匹配的问题,然而学习得到的关键点标签图仍然存在两方面的挑战:(1)训练时根据真实关键点位置P*计算关键点标签图的“推”与“拉”损失函数,而测试时是根据关键点预测从标签图中提取标签向量,关键点预测的微小不准确可能会造成标签向量较大的误差;(2)关键点标签图的训练,实际上是在无限的实数空间中,找到符合损失函数要求的数值组合。且通常建筑立面中存在较大数量的窗户,更加增加了搜索难度。这些挑战导致仍然存在一些错误匹配,见图7的左图,即当前窗户的关键点与其他窗户的关键点形成了误匹配,这样的错误模式出现在大多数失败样例中。
基于此想法,在概率图预测的网络分支额外学习了窗户中心点概率图,与其它K个关键点概率图一起组成K+1个通道的输出。对于每个窗户预测,通过对所有关键点求平均得到平均点的位置,提取它在中心点概率图的值,若大于设定的阈值,则表示该组关键点所形成的窗户是正确的,保留之;若小于阈值,则表示形成的窗户是错误的,抛弃之。
通过排除错误的聚类结果,部分关键点聚类被取消,因此存在正确关键点尚未被匹配的情况(图8的左图中白点),然而这部分关键点实际可以组成正确的窗户,由它们所在窗户的中心概率值也可得到验证。由于预测误差等原因,已经无法利用关键点标签图再重新聚类这部分关键点。本发明提出使用中心点信息二次聚类这部分关键点,如图8所描述。对于每个未匹配的候选关键点,寻找最近邻的中心点进行匹配,那么匹配到同一个中心点的四类关键点形成一个窗户检测,实施例中,同样采用非极大抑制算法从所述中心点概率图中提取中心点。通过该后处理,能够对未匹配的关键点进行二次聚类,挽救部分窗户检测,从而提升召回率。
本实施例提供的建筑立面窗户检测系统依据采集的彩色建筑立面图像提取关键点概率图、关键点标签图以及中心点概率图这三类特征图,再根据关键点概率图和关键点标签图对属于同一窗户的关键点进行聚类获得初步窗户检测结果,最后还依据所述中心点概率图对所述初步窗户检测结果进行验证,以滤除掉不正确的初步窗户检测结果。与传统的图像匹配,立面分析技术不同,本系统并没有利用人为定义的窗户几何规则、立面先验知识等信息,而是将检测任务完全交给数据模型来处理,实现了真正意义上的人工智能,极大地提升了窗户检测的效果与鲁棒性。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于多特征图融合的建筑立面窗户检测系统,其特征在于,包括:
特征图提取模块,用于依据输入的彩色建筑立面图像提取描述窗户顶点特征的关键点概率图、描述窗户顶点标签信息的关键点标签图、描述窗户中心点特征的中心点概率图;
其中,关键点标签图中每个像素位置记录关键点的标签向量,每张关键点标签图与一个类别的关键点一一对应,关键点标签图尺寸与关键点概率图尺寸一致,其中每个像素位置的值代表关键点概率图中对应位置的标签向量;
所述关键点标签图通过卷积神经网络提取得到,训练时,采用的损失函数Losstag为:
Losstag=α*Losspush+β*Losspull
其中,Losspush为“推”损失函数,Losspull为“拉”损失函数,α与β为控制“推”损失函数与“拉”的损失函数的权重;
“推”损失函数为:
“拉”损失函数为:
其中,为窗户n的参考标签向量,计算公式为/>Lk(xnk)代表在第k张关键点标签图中位置xnk的标签向量,xnk为窗户n的k类关键点的真实标注位置,K为关键点数量,n∈{1,...,N},N为窗户总数,Δ为期望距离,max()为最大值函数,i、j为窗户的索引,|·|2为L2范数,w(i,j)为损失函数权重,计算公式为:
其中P(i)和P(j)分别是第i个窗户和第j个窗户的位置,用中心点来描述,γ用以控制权重范围,maxDistance是所有窗户间距离的最大值;
窗户生成模块,用于根据所述关键点概率图和所述关键点标签图对属于同一窗户的关键点进行聚类,依据属于同类的关键点生成多边形作为初步窗户检测结果,包括:
从所述关键点概率图中提取关键点位置坐标,组成关键点预测集合;根据关键点位置坐标从所述关键点标签图提取关键点对应的标签向量;根据两个标签向量之间的欧式距离实现对属于同一窗户的关键点进行聚类,获得聚类结果;根据聚类结果生成多边形作为初步窗户检测结果;
中心点验证模块,用于依据所述中心点概率图对所述初步窗户检测结果进行验证,以滤除掉不正确的初步窗户检测结果。
2.如权利要求1所述的基于多特征图融合的建筑立面窗户检测系统,其特征在于,所述特征图提取模块采用卷积神经网络提取关键点标签图和中心点概率图。
3.如权利要求1所述的基于多特征图融合的建筑立面窗户检测系统,其特征在于,采用非极大抑制算法从所述关键点概率图中提取关键点位置坐标。
4.如权利要求1所述的基于多特征图融合的建筑立面窗户检测系统,其特征在于,所述中心点验证模块对初步窗户检测结果进行验证的过程为:
计算形成初步窗户检测结果的4个关键点位置坐标,根据该4个关键点位置坐标计算平均点坐标;
从所述中心点概率图中提取该平均点坐标对应的概率值,比较该概率值与设定阈值的大小关系,以滤除掉不正确的初步窗户检测结果。
5.如权利要求1~4任一项所述的基于多特征图融合的建筑立面窗户检测系统,其特征在于,所述中心点验证模块还包括:
从所述中心点概率图中提取中心点作为聚类中心,依据该聚类中心对未匹配成窗户的剩余关键点进行二次聚类,寻找与该聚类中心最邻近的4个关键点组成多边形作为窗户检测结果。
6.如权利要求1所述的基于多特征图融合的建筑立面窗户检测系统,其特征在于,采用非极大抑制算法从所述中心点概率图中提取中心点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010150636.XA CN111369539B (zh) | 2020-03-06 | 2020-03-06 | 一种基于多特征图融合的建筑立面窗户检测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010150636.XA CN111369539B (zh) | 2020-03-06 | 2020-03-06 | 一种基于多特征图融合的建筑立面窗户检测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111369539A CN111369539A (zh) | 2020-07-03 |
CN111369539B true CN111369539B (zh) | 2023-06-16 |
Family
ID=71208816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010150636.XA Active CN111369539B (zh) | 2020-03-06 | 2020-03-06 | 一种基于多特征图融合的建筑立面窗户检测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111369539B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111862171B (zh) * | 2020-08-04 | 2021-04-13 | 万申(北京)科技有限公司 | 基于多视图融合的cbct与激光扫描点云数据牙齿配准方法 |
CN113902712A (zh) * | 2021-10-12 | 2022-01-07 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像处理方法、装置、设备及介质 |
CN114677604B (zh) * | 2022-04-20 | 2023-04-07 | 电子科技大学 | 一种基于机器视觉的窗户状态检测方法 |
CN117113127B (zh) * | 2023-09-04 | 2024-03-29 | 大庆石油管理局有限公司 | 基于k均值聚类的抽油机井能耗分析方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9008366B1 (en) * | 2012-01-23 | 2015-04-14 | Hrl Laboratories, Llc | Bio-inspired method of ground object cueing in airborne motion imagery |
CN109919097A (zh) * | 2019-03-08 | 2019-06-21 | 中国科学院自动化研究所 | 基于多任务学习的人脸和关键点联合检测系统、方法 |
CN110084161A (zh) * | 2019-04-17 | 2019-08-02 | 中山大学 | 一种人体骨骼关键点的快速检测方法及系统 |
WO2019232894A1 (zh) * | 2018-06-05 | 2019-12-12 | 中国石油大学(华东) | 一种基于复杂场景下的人体关键点检测系统及方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102770864B (zh) * | 2010-01-29 | 2014-05-28 | 香港科技大学 | 基于图像的建筑物图案检测以及建模 |
US9547838B2 (en) * | 2013-11-06 | 2017-01-17 | Oracle International Corporation | Automated generation of a three-dimensional space representation and planogram verification |
US9443164B2 (en) * | 2014-12-02 | 2016-09-13 | Xerox Corporation | System and method for product identification |
US9552510B2 (en) * | 2015-03-18 | 2017-01-24 | Adobe Systems Incorporated | Facial expression capture for character animation |
WO2018113911A1 (en) * | 2016-12-20 | 2018-06-28 | Softkinetic Software | Distance-independent keypoint detection |
CN107909613B (zh) * | 2017-11-14 | 2020-05-22 | 哈尔滨工业大学 | 一种基于顶点的矩形引脚元件定位方法 |
US10706267B2 (en) * | 2018-01-12 | 2020-07-07 | Qualcomm Incorporated | Compact models for object recognition |
-
2020
- 2020-03-06 CN CN202010150636.XA patent/CN111369539B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9008366B1 (en) * | 2012-01-23 | 2015-04-14 | Hrl Laboratories, Llc | Bio-inspired method of ground object cueing in airborne motion imagery |
WO2019232894A1 (zh) * | 2018-06-05 | 2019-12-12 | 中国石油大学(华东) | 一种基于复杂场景下的人体关键点检测系统及方法 |
CN109919097A (zh) * | 2019-03-08 | 2019-06-21 | 中国科学院自动化研究所 | 基于多任务学习的人脸和关键点联合检测系统、方法 |
CN110084161A (zh) * | 2019-04-17 | 2019-08-02 | 中山大学 | 一种人体骨骼关键点的快速检测方法及系统 |
Non-Patent Citations (2)
Title |
---|
Zhe Cao.Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields.The 30th IEEE Conference on Computer Vision and Pattern Recognition.2017,全文. * |
余水能 ; 魏宁 ; 董方敏 ; .基于隐式模型表示的对称物体检测算法.计算机工程.2016,(11),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111369539A (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111369539B (zh) | 一种基于多特征图融合的建筑立面窗户检测系统 | |
CN112200764B (zh) | 一种基于热红外图像的光伏电站热斑检测与定位方法 | |
CN112199993B (zh) | 基于人工智能识别任意方向变电站绝缘子红外图像检测模型的方法 | |
CN105631880A (zh) | 车道线分割方法和装置 | |
CN109753949B (zh) | 一种基于深度学习的多视窗交通标志检测方法 | |
CN114758252B (zh) | 基于图像的分布式光伏屋顶资源分割与提取方法及系统 | |
CN103162682B (zh) | 基于混合现实的室内路径导航方法 | |
CN111882586B (zh) | 一种面向剧场环境的多演员目标跟踪方法 | |
CN106127204A (zh) | 一种全卷积神经网络的多方向水表读数区域检测算法 | |
CN107492094A (zh) | 一种高压电线绝缘子的无人机视觉检测方法 | |
US11361534B2 (en) | Method for glass detection in real scenes | |
CN109635661A (zh) | 一种基于卷积神经网络的远场无线充电接收目标检测方法 | |
CN113033315A (zh) | 一种稀土开采高分影像识别与定位方法 | |
CN111209894A (zh) | 道路航拍图像的路边违章建筑识别方法 | |
CN115376028A (zh) | 基于稠密特征点拼接和改进型yolov 5的目标检测方法 | |
CN114581307A (zh) | 用于目标追踪识别的多图像拼接方法、系统、设备及介质 | |
CN114187447A (zh) | 一种基于实例分割的语义slam方法 | |
CN109064444A (zh) | 基于显著性分析的轨道板病害检测方法 | |
Gu et al. | Feaco: Reaching robust feature-level consensus in noisy pose conditions | |
CN113076806A (zh) | 一种结构增强的半监督在线地图生成方法 | |
CN105574841A (zh) | 一种基于颜色的图像分割方法及装置 | |
CN113673534B (zh) | 一种基于Faster RCNN的RGB-D图像果实检测方法 | |
CN111695552B (zh) | 多特征融合的水下目标建模及优化方法 | |
Lukashevich et al. | Building detection on aerial and space images | |
CN110544260B (zh) | 融合自学习语义特征与设计特征的遥感影像目标提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |