CN111325788A

CN111325788A - 一种基于街景图片的建筑物高度确定方法

Info

Publication number: CN111325788A
Application number: CN202010082782.3A
Authority: CN
Inventors: 许镇; 吴元; 齐明珠; 吴莹莹
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2020-02-07
Filing date: 2020-02-07
Publication date: 2020-06-23
Anticipated expiration: 2040-02-07
Also published as: CN111325788B

Abstract

本发明提供一种基于街景图片的建筑物高度确定方法，能够在有干扰的情况下准确识别出建筑物，有效地提高了建筑物识别的成功率与高度测算的精确度。所述方法包括：获取标注出建筑物区域的街景图像样本集，利用获取的街景图像样本集训练区域卷积神经网络；根据街景图像采集线路地理信息数据，确定观测建筑物所需的观测点，并根据建筑物的地理信息数据，确定观测点到建筑物的观测方向与距离；获取观测点处的街景图像，利用训练好的区域卷积神经网络自动识别获取的街景图像中的建筑物，输出建筑物目标检测结果图像，并结合观测点到建筑物的观测方向与距离，确定建筑物的高度。本发明涉及土木工程技术及计算机技术领域。

Description

一种基于街景图片的建筑物高度确定方法

技术领域

本发明涉及土木工程技术及计算机技术领域，特别是指一种基于街景图片的建筑物高度确定方法。

背景技术

在我国，城镇化进程逐年推进，建筑物的高度和密度也逐年增加，建筑高度数据结合二维的地图信息，可以用于城镇区域的建设规划、经济效益评估、网络地图维护提供数据支撑，对于城镇区域尺度的防灾减灾规划等工作十分重要。但目前，受限于建筑高度获取方法，如何把握城市发展规律，快速、准确、低成本地获取建筑高度信息，是目前亟待解决的。

目前，深度学习，神经网络等人工智能方法日新月异。相较于之前传统的图像处理方法，人工智能方法可以有效解决图像中遮挡、模糊等问题，拥有更好的鲁棒性。

目前已有类似研究尝试使用街景图片数据测算其中的建筑物目标的高度信息，但是都存在一些问题或应用上的限制。

现有技术一、Yuan等人(Yuan J,Cheriyadat A M.Combining maps and streetlevel images for building height and facade estimation[C]//Proceedings of the2nd ACM SIGSPATIAL Workshop on Smart Cities and Urban Analytics.ACM,2016:8.)提出了一种将2D地图与街景图片结合分析建筑高度的方法。利用2D地图与精确的相机位置信息，分析相机视野内存在的建筑物投影边，进而分析投影边内的图像的边界计算建筑物高度。这一方法通过使用网络地图中已有的街景图片降低了数据获取的成本，且可以实现至少65％的准确率，但是依然无法处理遮挡情况(如被其他建筑物包围或是被植被、车辆遮挡)。

现有技术二、周良辰等人(周良辰,闾征远,闾国年.基于街景图片的目标物地理位置及高度的三维量测算方法[P].CN106908043B,2019-06-21.)提出了基于街景图片的目标物地理位置及高度的三维量测算方法，该方法在街景地图中，首先选定一个目标物，根据目标物选择两个合适的视点，在两视点下分别获取三张不同视角的街景图片；根据三张街景图片计算出视点下的目标物水平角、俯仰角；根据视点经纬度及视点到目标物底部的视角确定两条空间直线,前方交汇,求出两直线的交点,该交点即为目标物地理位置；再由视点经纬度、得到的目标物的经纬度、视点到目标物顶部与底部的俯仰角求出目标物的实际高度。该研究所需利用的背景数据较多，对于一个目标物需要多张街景图片作为高度测算的参考，处理过程复杂，效率低下。此外，基于多眼视觉的方法也不利于处理街景图片中常见的树木、行人等的遮挡情况。

发明内容

本发明要解决的技术问题是提供一种基于街景图片的建筑物高度确定方法，以解决现有技术所存在的无法确定遮挡情况下的建筑物高度及效率低下的问题。

为解决上述技术问题，本发明实施例提供一种基于街景图片的建筑物高度确定方法，包括：

获取标注出建筑物区域的街景图像样本集，利用获取的街景图像样本集训练区域卷积神经网络；

根据街景图像采集线路地理信息数据，确定观测建筑物所需的观测点，并根据建筑物的地理信息数据，确定观测点到建筑物的观测方向与距离；

获取观测点处的街景图像，利用训练好的区域卷积神经网络自动识别获取的街景图像中的建筑物，输出建筑物目标检测结果图像，并结合观测点到建筑物的观测方向与距离，确定建筑物的高度。

进一步地，所述利用获取的街景图像样本集训练区域卷积神经网络包括：

将获取的街景图像样本集作为输入，利用随机梯度下降方法训练区域卷积神经网络。

进一步地，所述街景图像采集线路地理信息数据为街景覆盖的道路的地理信息数据；

所述建筑物的地理信息数据包括：建筑物编号、建筑物位置和建筑物底面轮廓。

进一步地，所述根据街景图像采集线路地理信息数据，确定观测建筑物所需的观测点，并根据建筑物的地理信息数据，确定观测点到建筑物的观测方向与距离包括：

根据街景图像采集线路地理信息数据，设置观测建筑物所需的观测点，并去除难以观测到建筑物的观测点；

对于保留下来的观测点，根据建筑物的地理信息数据，分别计算出每个观测点距离每一栋可视的建筑物的距离及观测方向。

进一步地，所述去除难以观测到建筑物的观测点包括：

利用训练好的区域卷积神经网络识别第一观测点处的街景图像中的建筑物数量，若识别出的建筑物数量小于预设的阈值，则去除第一观测点，其中，第一观测点为任一观测点。

进一步地，所述对于保留下来的观测点，根据建筑物的地理信息数据，分别计算出每个观测点距离每一栋可视的建筑物的距离及观测方向包括：

为第一建筑物底面轮廓创建一个缓冲区，其中，落在缓冲区内的第二观测点则是有可能观测到第一建筑物的观测点，第一建筑物为任一建筑物，第二观测点为保留下来的任一观测点；

所有落在第一建筑物缓冲区内的观测点都分别与第一建筑物底面轮廓的几何中心连接；

将所有连线在第一建筑物底面轮廓处打断，并保留第二观测点到第一建筑物底面轮廓最近的一个边缘的连线，将保留下来的连线的长度作为第二观测点到第一建筑物的距离，并以观测点为原点，确定保留下来的连线的方位角，作为第二观测点到第一建筑物的观测方向。

进一步地，所述获取观测点处的街景图像，利用训练好的区域卷积神经网络自动识别获取的街景图像中的建筑物，输出建筑物目标检测结果图像，并结合观测点到建筑物的观测方向与距离，确定建筑物的高度包括：

获取观测点处的街景图像，利用训练好的区域卷积神经网络自动识别获取的街景图像中的建筑物，输出建筑物目标检测结果图像；

判断建筑物目标检测结果图像在相应观测点的观测方向上是否存在建筑物；

若存在，则根据观测点到建筑物的距离，确定建筑物的高度。

进一步地，所述区域卷积神经网络为Mask R-CNN。

进一步地，建筑物的高度表示为：

H＝Dtan[(1/2-y_tb/H_img)·π]+H_camera

其中，H为建筑物的高度，D为建筑外轮廓至观测点的水平距离，y_tb为目标检测结果图像中建筑物上边界所对应的纵坐标像素位置，H_img为图像高度，H_camera为相机高度。

本发明的上述技术方案的有益效果如下：

上述方案中，获取标注出建筑物区域的街景图像样本集，利用获取的街景图像样本集训练区域卷积神经网络；根据街景图像采集线路地理信息数据，确定观测建筑物所需的观测点，并根据建筑物的地理信息数据，确定观测点到建筑物的观测方向与距离；获取观测点处的街景图像，利用训练好的区域卷积神经网络自动识别获取的街景图像中的建筑物，输出建筑物目标检测结果图像，并结合观测点到建筑物的观测方向与距离，确定建筑物的高度。这样，通过区域卷积神经网络能够克服图像中因眩光、阴影、遮挡、重叠等带来的干扰，在有干扰的情况下也能准确识别出建筑物，有效地提高了建筑物识别的成功率与高度测算的精确度；且能够依据一张街景图像确定多个建筑物的高度，在提高计算效率的同时，降低了数据开销。

附图说明

图1为本发明实施例提供的基于街景图片的建筑物高度确定方法的流程示意图；

图2为本发明实施例提供的基于街景图片的建筑物高度确定方法的原理示意图；

图3为本发明实施例提供的建筑物及街景覆盖的道路的地理信息数据示意图；

图4为本发明实施例提供的街景全景图像示意图；

图5为本发明实施例提供的区域卷积神经网络Mask R-CNN的结构示意图；

图6为本发明实施例提供的4种观测点布置方案比较示意图；

图7为本发明实施例提供的网络爬虫流程示意图；

图8为本发明实施例提供的建筑物目标检测结果示意图；

图9为本发明实施例提供的将街景全景图像所在的平面坐标系转换为球坐标系的示意图；

图10为本发明实施例提供的根据建筑物上、下端点的俯仰角以及水平距离测算建筑物高度的方法的示意图；

图11为本发明实施例提供的根据建筑物上端点俯仰角、相机高度以及水平距离测算建筑物高度的方法的示意图；

图12为本发明实施例提供的用于某城镇区域的大量建筑物高度测算方法的流程示意图；

图13为本发明实施例提供的中国某城镇的建筑物、全景数据以及全景观测点分布情况示意图；

图14为本发明实施例提供的城镇区域建筑物高度测算结果示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的无法确定遮挡情况下的建筑物高度及效率低下的问题，提供一种基于街景图片的建筑物高度确定方法。

如图1所示，本发明实施例提供的基于街景图片的建筑物高度确定方法，包括：

S101，获取标注出建筑物区域的街景图像样本集，利用获取的街景图像样本集训练区域卷积神经网络；

S102，根据街景图像采集线路地理信息数据，确定观测建筑物所需的观测点，并根据建筑物的地理信息数据，确定观测点到建筑物的观测方向与距离；

S103，获取观测点处的街景图像，利用训练好的区域卷积神经网络自动识别获取的街景图像中的建筑物，输出建筑物目标检测结果图像，并结合观测点到建筑物的观测方向与距离，确定建筑物的高度。

本发明实施例所述的基于街景图片的建筑物高度确定方法，获取标注出建筑物区域的街景图像样本集，利用获取的街景图像样本集训练区域卷积神经网络；根据街景图像采集线路地理信息数据，确定观测建筑物所需的观测点，并根据建筑物的地理信息数据，确定观测点到建筑物的观测方向与距离；获取观测点处的街景图像，利用训练好的区域卷积神经网络自动识别获取的街景图像中的建筑物，输出建筑物目标检测结果图像，并结合观测点到建筑物的观测方向与距离，确定建筑物的高度。这样，通过区域卷积神经网络能够克服图像中因眩光、阴影、遮挡、重叠等带来的干扰，在有干扰的情况下也能准确识别出建筑物，有效地提高了建筑物识别的成功率与高度测算的精确度；且能够依据一张街景图像确定多个建筑物的高度，在提高计算效率的同时，降低了数据开销。

为了更好地理解本发明实施例提供的基于街景图片的建筑物高度确定方法，对其进行详细说明，如图2所示，具体可以包括以下步骤：

S1，数据准备

本实施例中，在S2之前，需获取建筑物的地理信息数据、街景图像采集线路地理信息数据以及街景全景图像；其中，

1)建筑物的地理信息数据包括：建筑物的编号(ID)、建筑物底面轮廓多边形以及建筑物位置，如图3所示。本实施例中，建筑物的地理信息数据可通过实地调研、从测绘机构购买获取或网络地图等相关渠道获取；

2)街景图像采集线路地理信息数据与建筑物的地理信息数据类似，只需描绘出街景覆盖的道路的地理信息数据即可，如图3所示。需要说明的是，这两组数据中所有要素(如建筑物底面轮廓和道路路网)的坐标系，其中，坐标需要与获取的街景全景图像的网络地图平台相一致。这是为了便于准确对应这两组数据与网络地图平台的街景数据；

本实施例中，为了便于设置观测点，优选地，可以使用线格式的形状文件作为街景图像采集线路地理信息数据。

3)对于街景全景图像，如图4所示，为了在一个观测点位置上尽可能多地获得周边的图像信息。街景全景图像需满足水平视角、垂直视角及分辨率要求：街景全景图像的水平视角为360°，垂直视角为180°，图片的分辨率应足够大，以人眼能够清楚地分辨出图片中的建筑物为准。

本实施例中，为了便于与真实世界对应，街景全景图像的中点对应方位为正北方，且图像中点在垂直方向上代表俯仰角为0°的位置(即平视位置)。这是为了便于后续的高度计算工作而对街景全景图像进行的假定，对于不符合上述要求的街景全景图像，可以事先使用一些图像处理方法予以修整。

S2，识别建筑物：获取标注出建筑物区域的街景图像样本集，利用获取的街景图像样本集训练区域卷积神经网络；具体可以包括以下步骤：

本实施例中，可以使用计算机软件(例如，开源的Labelme软件)标注出街景图像中的建筑物区域，得到标注出建筑物区域的街景图像样本集，并制作成区域卷积神经网络可以识别的格式。

本实施例中，样本集主要通过下载百度地图中的街景全景图(即：街景图像)建立。图的分辨率从1024*512至4096*2048不等，每张样本图中包括若干建筑物。图中所有的建筑水平边界都是弧线而非直线，这与透视相机拍摄的图像中建筑物呈现的模式明显不同。为了使区域卷积神经网络对于建筑物的检测准确率较高，应该尽可能多的采集多样的数据，并准确标注其中的建筑物部分。在标注建筑物时，以密集连续的点连成闭合曲线，将建筑物的轮廓完整的标注出来。

本实施例中，在街景图像中，经常有遮挡情况出现。这些遮挡可以是由于植被、人、车辆、围墙、交通信号灯或标志牌等物体带来的。对于那些被人、车辆或是植被等遮挡而外表不完整的建筑物，则视情况绕过被遮挡区域，只标注其中建筑物的部分，或是放弃标绘，以期获得更加纯粹、准确地建筑物特征。这对于区域卷积神经网络更好地学习建筑物的特征有所帮助。

本实施例中，将得到的街景图像样本集作为输入，输入到区域卷积神经网络中，利用深度学习等计算机人工智能算法(例如，随机梯度下降方法)训练区域卷积神经网络，以便训练好的区域卷积神经网络能够自动识别、标注出街景图像中的建筑物。

本实施例中，为了增加样本集中样本的数量，还可以将标注好的样本进行水平翻转，以扩大样本数量。这样在不显著提高样本标注工作量的前提下提升了总体样本数量，提升了区域卷积神经网络训练的效果。

本实施例中，优选地，所使用的区域卷积神经网络为带有掩膜的区域卷积神经网络(Mask Region-Convolution Neural Network，Mask R-CNN)。Mask R-CNN是更快速的区域卷积神经网络(Faster Region-Convolution Neural Network，Faster R-CNN)的改进模型。这两个模型均由两个阶段组成：

第一阶段为RPN，即生成候选目标边界框；

第二个阶段本质上是Fast R-CNN，使用感兴趣区域池化(Region of InterestPool，RoI Pool)从多个候选框中提取特征，并进行分类和边界回归，但是Mask R-CNN的独特之处在于其并行地预测类别和边界框目标。Mask R-CNN网络架构如图5所示，其中，图5中的RoIAlign是指针对感兴趣区域(RoI)进行特征聚集；conv均是指卷积(convolution)操作；class box是指分类矩形框。

利用样本集训练Mask R-CNN，并利用训练好的Mask R-CNN检测街景图像中的建筑物。在损失函数方面，Mask R-CNN在Faster R-CNN的基础上增加了第三个用于生成mask的损失函数L_mask，这样总的损失函数L为：

L＝L_cls+L_box+L_mask (1)

本实施例中，Mask R-CNN对L_mask的定义允许网络在不跨类别竞争的情况下，对每一个类别单独预测掩膜；同时，使用专门的分类分支预测掩膜标签L_cls，同时使用矩形框预测损失函数L_box预测目标矩形框位置，从而很好地解耦了掩膜和类别的预测工作。如果RoI与真实框的交并比(Intersection over Union，IoU)不小于0.5，则视为正样本，即认为属于某一类别的样本；否则视为负样本，即认为不属于某一类别的样本。掩膜损失函数L_mask仅在正样本上定义。

S3，规划观测点位置及观测方位数据：根据街景图像采集线路地理信息数据，确定观测建筑物所需的观测点，并根据建筑物的地理信息数据，确定观测点到建筑物的观测方向与距离；具体可以包括以下步骤：

对于保留下来的观测点(简称：有效观测点)，根据建筑物的地理信息数据，分别计算出每个观测点距离每一栋可视的建筑物的距离及观测方向。

本实施例中，比较了多种观测点的设置方案，如图6所示，包括：

(a)以路网(街景图像采集线路的简称)与固定间距网格的交点作为观测点；

(b)以路网与建筑物外包圆的交点作为观测点；

(c)以路网与建筑物缓冲区的检点作为观测点；

(d)沿路网固定距离取点作为观测点。

经过比较，本实施例中，使用了方案(d)生成观测点，例如，以50米为固定距离沿街景图像采集线路设置观测点。通过ArcGIS软件中的“沿线生成点”工具可以完成观测点的初步设置。

本实施例中，去除难以观测到建筑物的观测点是指判断观测点处可能观测到的建筑物数量以及视野中存在的遮挡情况，去除那些不能很好地观测到建筑物的观测点，具体为：利用训练好的区域卷积神经网络识别第一观测点处的街景图像中的建筑物数量，若识别出的建筑物数量小于预设的阈值，则去除第一观测点，其中，第一观测点为任一观测点。通过筛选的方式，精简观测点的数量，能够提高本申请所述的基于街景图片的建筑物高度确定方法的执行效率。

本申请中，此外，还可以人工地删除那些远离建筑物区域的、或是距离过近较为冗余的观测点，从而进一步精简观测点的数量，并进一步提高本申请所述的基于街景图片的建筑物高度确定方法的执行效率。

本实施例中，设置的某些观测点可能正处于树下，或是被其他距离很近的物体遮挡，视野中看不到清晰的建筑物，需要删除这些因为遮挡严重而无法识别出建筑物的观测点。本实施例中，可以首先使用Mask R-CNN对所有观测点处的街景图像进行检测，并与该观测点在ArcGIS中可视范围内的建筑物数量进行比较，若识别出的建筑物数量小于预设的阈值(例如，该阈值设为可视范围内建筑物数量的30％)，说明在该位置处遮挡情况较为严重，这些观测点应予以去除。

去除那些难以观测到建筑物的观测点，对于保留下来的观测点，根据建筑物的地理信息数据，分别计算出每个观测点距离每一栋可视的建筑物的距离及观测方向，具体可以包括以下步骤：

首先，确定第二观测点能观测到的建筑物：为为第一建筑物底面轮廓(例如，外轮廓)创建一个缓冲区，(例如，该缓冲区的大小为75米)，其中，落在缓冲区内的第二观测点则是有可能观测到第一建筑物的观测点，第一建筑物为任一建筑物，第二观测点为保留下来的任一观测点；

其次，所有落在第一建筑物缓冲区内的观测点都分别与第一建筑物底面轮廓的几何中心连接；

最后，将所有连线在第一建筑物底面轮廓处打断，并保留第二观测点到第一建筑物底面轮廓最近的一个边缘的连线，将保留下来的连线的长度作为第二观测点到第一建筑物的距离，并以观测点为原点，确定保留下来的连线的方位角，作为第二观测点到第一建筑物的观测方向；其中，距离为建筑物轮廓至观测点的水平距离。

S4，建筑物高度测算：获取观测点处的街景图像，利用训练好的区域卷积神经网络自动识别获取的街景图像中的建筑物，输出建筑物目标检测结果图像，并结合观测点到建筑物的观测方向与距离，确定建筑物的高度，具体可以包括以下步骤：

本实施例中，使用区域卷积神经网络识别街景图像，获得所有街景图像中能检测出的全部建筑物目标检测结果，输出建筑物目标检测结果图像(例如，建筑物目标检测掩膜图像)，并使用目标检测结果图像测算相应建筑物的高度，具体可以包括以下步骤：

首先，根据保留下来的观测点的具体位置，可以通过网络地图平台提供的应用程序接口(Application Programming Interface，API)调取相应位置处的街景图像并保存相应的图像文件，例如，可以使用爬虫技术抓取网络地图中观测点对应位置处的街景全景图，街景全景图采样点坐标：是以文本文件格式存储的、记录所需处理的街景全景图采样点的经纬度坐标文件，采样点的经纬度坐标系与网络地图保持一致，其流程如图7所示：

首先，初始化爬虫配置信息：包括读取每张街景全景图采样点坐标以及图片的分辨率需求、设置文件输出路径；

然后，判断是否需要拆分图像：根据爬虫配置信息，如果全景图分辨率需求超过网络地图能够提供的最大图像分辨率，则认为需要拆分图像，因此划分图像子区域：将整幅图像划分为若干等大的、与整幅图像比例相同的子图像，并确保子图像分辨率等于或小于网络地图能提供的最大分辨率，并计算每个子图像；否则认为无需拆分；

接着，利用参数构造统一资源定位符(Uniform Resource Locator，URL)列表：根据配置信息中记录的全景图采样点相关参数(包括经纬度坐标、图片宽度、图片高度、全景图水平及垂直视野范围)，按照网络地图要求的格式构造每张图像的URL地址；

然后，初始化待抓取队列：读取所有URL地址，并生成每条URL对应的街景全景图文件名，以及记录该URL是否被处理过；

接着，判断待抓取队列是否为空：如果为空则爬虫结束运行，否则从待抓取队列中取出一个URL：将队列中的第一个街景全景图数据的URL取出，将取出的街景全景图数据的URL通过BMap API提交到网络地图，请求相应的全景图片；其中，BMap API是指百度地图通用编程接口(Application Programming Interface，API)，通过该接口请求URL对应的图片数据；

判断是否请求成功：判断BMap API是否返回了所需的街景全景图片数据；

如果没有请求成功，则将URL放回待抓取队列尾部，等待下一次处理；

如果请求成功，则将URL放到已抓取的队列中，并将该URL的状态设置为已抓取，后续处理中无需再处理；

判断是否需要拼接图像：判断此次获取的街景全景图像是否是一张完整图像的子图像；如果此次获取的图像是某一张全景图像的子图像，则找到所有属于整体图像的子图像，将所有子图像拼接为完整图像；

然后存储街景全景图数据：将请求到的(或是拼接完成的)街景全景图像按照该图像的参数编制文件名存储；

接着，判断间隔时间是否小于Delay(延迟)阈值：判断当前时间与上一次爬取的时间间隔，如果间隔时间小于Delay阈值，则等待一小段时间，直至当前时间与上次爬取时间间隔大于Delay，设置此步骤的目的是为了防止短时间大量调用API触发网络地图平台的防御机制导致全景图请求失败。

这样，通过区域卷积神经网络识别建筑物，可以忽略图像中因眩光、阴影、遮挡、重叠等带来的干扰，在网络地图平台中利用网络爬虫获取观测点处的高清晰度的街景图像，并准确检测街景图像中的建筑物，具有较高鲁棒性。

然后，使用训练好的区域卷积神经网络，以这些图像文件作为输入，识别其中的建筑物目标并输出建筑物目标检测结果图像，如图8所示；

接着，基于几何关系测算建筑物目标检测结果图像中的建筑物的高度：通过计算机视觉(Computer Vision，CV)及图像处理工具，判断建筑物目标检测结果图像在相应观测点的观测方向上是否存在建筑物，如果存在则结合步骤(3)中的观测点到建筑物的距离，利用几何模型测算建筑物的高度；如果不存在，则说明该图像不包含对应的建筑物，不进行计算；

本实施例中，如图9所示，O为街景全景图像所在平面坐标系原点，X、Y为该坐标系的坐标轴，H_img、W_img分别为街景全景图像的高度和宽度像素值，(x,y)为图片中某一点的像素坐标值，O’为球坐标系原点，

为(x,y)在球坐标系中对应的射线，ρ为方位角，

为俯仰角；则令像素点坐标(x_i,y_i)在投影球体中对应的射线为

ρ_i为方位角，

为俯仰角，并假定图片方位角等于0处(即图片几何中心所在垂线)对应正北方。则根据直线型投影关系，图片(x_i,y_i)处的点的方位角为ρ_i＝2π(x_i/W_img-1/2)(0°对应正北方，90°对应正东方，-90°对应正西方)，俯仰角为

(0°对应水平方向，90°对应垂直正上方)。

设物体距离拍摄点距离为D时，上、下边界点俯仰角分别为

(向上为正，向下为负)。如果上、下边界点分别在水平面两侧时，物体高度H可以通过下式计算：

其中，H₁为建筑物的下边界到观测点(Viewpoint)的距离，H₂为建筑物的上边界到观测点(Viewpoint)的距离，H＝H_blg。

根据上述模型，已知街景全景图像中像素点纵坐标即可确定其在投影球中的俯仰角。在每一个建筑实例分割结果中，可以确定上，下两个边界线，从而确定建筑物在球坐标系中的俯仰角夹角。结合水平的距离，通过三角关系就能够得到夹角所对应物体的垂直距离(高度)，如图10所示，其中Viewpoint意为观测点，即相机拍摄时所处的空间位置。

本实施例中，可以利用Mask R-CNN检测街景图像得到的建筑物实例分割结果来计算建筑物高度。只要确定了建筑物上、下边界点，结合水平距离就能够得到对应建筑物的高度。但是，由于车辆行人、植被或是建筑物相互之间存在遮挡关系，图片中建筑物的下边界一般是不容易观察到的。

街景图像是通过街景车搭载若干相机、雷达，沿路行驶时采集道路周围影像信息得到的。在拍摄过程中，摄像机高度相对于地面的高度是固定的。因此，本实施例在计算建筑物的高度时，预先设定好摄像头距离地面(水平面)的距离。通过距离数据，就可以通过几何关系计算出对应距离上建筑物的下端点位置。这样只需分析图像中建筑物上边界的位置，无需知道下边界，同样准确地计算出建筑物的高度。而建筑物的上边界在图像中干扰较少的情况下，是非常清晰的，通过一些十分简单的处理就能够的实例分割结果中的建筑物上边界。此时计算模型如图11所示，其中，Viewpoint意为观测点，即相机拍摄时所处的空间位置，且H₂＝H_camera。

如果建筑物上边界在图像中的位置为(x_tb,y_tb)，则上边界点对应的俯仰角

为(以向上为正)：

下边界点对应俯仰角

可以通过下式确定(以向上为正)：

建筑物的总高度为：

其中，H为建筑物的高度，D为建筑外轮廓至观测点的水平距离，y_tb为目标检测结果图像中建筑物上边界所对应的纵坐标像素位置(以图像左上角为坐标原点，向下为纵轴正方向)；H_img为图像高度，H_camera为相机高度。

对于一个城镇区域而言，只需应用本实施例提供的基于街景图片的建筑物高度确定方法检测城镇中所有的建筑物，高效地获取城镇内建筑物的高度信息，效率高且准确，并汇总所有高度结果的信息，即可实现城镇区域的建筑物高度测算，整体流程如图12所示：

首先，初始化采样点序列：根据地理信息数据中规划的采样点信息，汇总区域内的采样点，放入待处理队列中；

然后，计算采样点可见范围内建筑物观测角：本实施例认为采样点处获取的街景图像中，50米以外的建筑物都是不可辨认的，因此只计算某一采样点50米范围内建筑物几何中心点距该观测点的观测方位角与相应建筑物外轮廓到观测点最近的距离；

接着，判断采样点序列为空：判断是否有待处理的采样点，如果没有则结束运行；否则，则从采样点序列中取出一个采样点：从采样点序列中抽取第一个采样点数据进行计算；

然后，获取在该点检测到的所有掩膜图片：根据采样点编号或是经纬度，搜索所有属于该采样点的目标检测结果，即掩膜图像，放入到待处理图像的队列中；

接着，判断是否有待检测图像：判断待处理图像队列是否为空，如果没有则进行下一个采样点相关数据的处理流程；

若有，则取出一张掩膜图片：从待处理图像队列中取出第一张图片，进行分析，判断是否存在建筑物边界：对于取出的图片，在一个采样点中计算得到的所有观测角方向上都进行建筑物边界检测，如果没有检测到建筑物边界则进行下一张图片的处理；

如果有，则计算建筑物高度：如果检测到建筑物边界，则利用本发明中提出的几何模型，结合水平距离以及建筑物边界的俯仰角，测算建筑物高度信息；

接着，存储掩膜图片对应的高度信息：将测算到的建筑物高度信息与观测角、掩膜图片一同记录到数据库中，以观测角为索引将计算结果对应到某一采样点具体观测角上的建筑物。

本实施例中，以国内某县城为研究区域进行了测算，该县城共包括主要建筑656栋。按照本发明的方法，共布置了1209个观测点，如图13所示。

本实施例中，假设使用CPU为Intel E5-2620v2、GPU为GTX TITAN X、内存128GB的计算机，以平均1450ms/张的速率处理街景图像，并使用前述基于街景图片的建筑物高度确定方法分析得到的建筑物目标检测结果图像，得到了该区域的建筑物高度属性信息，如图14所示。根据高度结果，该城镇有28栋建筑物高度在5m以下，533栋建筑物高度在5m～24m之间，10栋建筑高度在24m～50m之间，8栋建筑物高度大于50m。若按照3m/层估计这些建筑的层数，永昌镇有115栋建筑为低层建筑(低于3层)，319栋为中层建筑(4层～6层)，172栋为高层建筑(7层～9层)，50栋为超高层建筑(10层以上)。

结合当地卫星图片、无人机航拍数据以及实地调研相互验证，本实施例提供的基于街景图片的建筑物高度确定方法得到的建筑高度层数的估计结果符合实际情况，可以作为城镇尺度的区域建筑物高度属性的快速获取方法在城镇尺度的区域内应用，从而可为城镇建设规划、智慧城市建模、防灾分析等工作提供重要数据支撑。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于街景图片的建筑物高度确定方法，其特征在于，包括：

2.根据权利要求1所述的基于街景图片的建筑物高度确定方法，其特征在于，所述利用获取的街景图像样本集训练区域卷积神经网络包括：

3.根据权利要求1所述的基于街景图片的建筑物高度确定方法，其特征在于，所述街景图像采集线路地理信息数据为街景覆盖的道路的地理信息数据；

4.根据权利要求1所述的基于街景图片的建筑物高度确定方法，其特征在于，所述根据街景图像采集线路地理信息数据，确定观测建筑物所需的观测点，并根据建筑物的地理信息数据，确定观测点到建筑物的观测方向与距离包括：

5.根据权利要求4所述的基于街景图片的建筑物高度确定方法，其特征在于，所述去除难以观测到建筑物的观测点包括：

6.根据权利要求4所述的基于街景图片的建筑物高度确定方法，其特征在于，所述对于保留下来的观测点，根据建筑物的地理信息数据，分别计算出每个观测点距离每一栋可视的建筑物的距离及观测方向包括：

7.根据权利要求1所述的基于街景图片的建筑物高度确定方法，其特征在于，所述获取观测点处的街景图像，利用训练好的区域卷积神经网络自动识别获取的街景图像中的建筑物，输出建筑物目标检测结果图像，并结合观测点到建筑物的观测方向与距离，确定建筑物的高度包括：

8.根据权利要求1所述的基于街景图片的建筑物高度确定方法，其特征在于，所述区域卷积神经网络为Mask R-CNN。

9.根据权利要求1所述的基于街景图片的建筑物高度确定方法，其特征在于，建筑物的高度表示为：

H＝Dtan[(1/2-y_tb/H_img)·π]+H_camera