CN117036634A

CN117036634A - 智慧城市三维场景自动构建方法

Info

Publication number: CN117036634A
Application number: CN202311286465.3A
Authority: CN
Inventors: 高阳; 宫政
Original assignee: Qingdao Xing Bang Photoelectric Technology Co ltd
Current assignee: Qingdao Xing Bang Photoelectric Technology Co ltd
Priority date: 2023-10-08
Filing date: 2023-10-08
Publication date: 2023-11-10

Abstract

本申请公开了智慧城市三维场景自动构建方法，涉及涉及图像数据处理技术领域，该方法包括包括图像数据采集、数据预处理以及场景建模，并且在对数据预处理的过程中，包括判断是否存在数据缺失，根据判断结果将数据分为包含缺失值的数据集以及不含缺失值的数据集；对于包含缺失值的数据集，计算其缺失值占整个数据集的比值；当比值低于预设阈值时，定义为第一类数据集，采用多重插补方法对缺失数据进行填充；若比值在预设阈值以上，定义为第二类数据集；采用聚类模型预测缺失值并将缺失数据进行填充。本申请技术方案根据不同的数据集类型采用不同数据填充方式，兼顾数据填充的效率以及填充的准确度。

Description

智慧城市三维场景自动构建方法

技术领域

本申请涉及图像数据处理技术领域，特别是涉及智慧城市三维场景自动构建方法。

背景技术

智慧城市三维实景生成一般是通过光扫描仪、无人机或者激光雷达等传感器获取城市图像以及地理信息，随后对这些信息进行一系列处理生成满足需求的三维实景的过程。这一过程涉及到数据的数据的收集、记录、存储和处理等多个阶段，在这些阶段中均有可能因为人为错误或者设备原因或者数据传输原因等造成数据的缺失。

为保证获得的三维实景的准确性，对于缺失的数据往往采用补采的方式进行补充。但是由于补采数据与原始数据由采集时间和/或采集设备的不同造成其光照或者其他形式的场景变化使得后续处理方式难以保持一致，使得处理过程繁琐且生成的实景的连贯性难以得到保障。

发明内容

本申请技术方案主要提供了智慧城市三维场景自动构建方法，在对采集到的数据进行预处理的过程中判断是否存在数据缺失，并对缺失的数据进行填充以满足建模要求，保证了采集到的数据采用同样的处理方式及处理过程，简化处理过程同时能够保证生成三维实景的连贯性。

为实现上述目的，本申请提供了如下技术方案：

智慧城市三维场景自动构建方法，包括图像数据采集、数据预处理以及场景建模，其中，

在对数据预处理的过程中，包括判断是否存在数据缺失，根据判断结果将数据分为包含缺失值的数据集以及不含缺失值的数据集；

对于包含缺失值的数据集，计算其缺失值占整个数据集的比值；当所述比值低于预设阈值时，定义为第一类数据集，若所述比值在预设阈值以上，定义为第二类数据集；

对于第一类数据集，采用多重插补方法对缺失数据进行填充；

对于第二类数据集，采用聚类模型预测缺失值并将缺失数据进行填充。

优选为，在预处理过程中，判断是否存在数据缺失之前对采集到点云数据中包含的噪声进行去除，噪音的去除基于如下函数进行：

；

其中，是去除噪音后的点云数据，Ω是邻域窗口，/>是归一化因子，/>和分别是空间域和值域的高斯权重函数。

优选为，噪音去除后，点云数据的预处理还包括：

对于来自于多个传感器的点云数据进行配准，保证不同来源的数据在同一坐标系统中对齐；

对配准后的数据进行过滤，移除数据中的离群点以提高处理效率，其中，所述离群点的移除表示为：

；

其中：为去除噪音后的点云数据；

为去除离群点后的点云数据；

是去噪后点云数据的平均值，/>是去噪后点云数据的标准差，/>为常数。

优选为，采用聚类模型预测缺失值包括如下步骤：

S1，使用不含缺失值的数据集对聚类模型进行训练；

S2，使用训练好的聚类模型预测所述第二类数据集中样本所属的聚类簇；

S3，对于样本中缺失的特征，使用所属聚类簇的中心点来填充缺失值。

优选为，所述预测第二数据集中样本所属的聚类簇是基于所述样本与所述聚类簇的中心的相似度确定的。

优选为，对于第二类数据集，将填充后的数据集划分为K个互斥的子集，其中K为预先确定的折叠数；

对于每个子集，在剩余的K-1个子集上进行聚类模型的训练，并在当前子集上进行模型的评估；

对于K次迭代的结果评估，计算平均指标作为最终评估结果以评估填充后数据集的稳定性。

优选为，步骤S1中使用不含缺失值的数据集划分为第一训练集和第一测试集，并使用所述第一训练集对聚类模型进行训练得第一聚类模型；将所述第一测试集输入所述第一聚类模型，得第一预测结果；

将步骤S3中填充后的数据集使用相同的划分规则划分为第二训练集和第二测试集，并使用所述第二训练集对聚类模型进行训练得第二聚类模型；将所述第二测试集输入所述第二聚类模型，得第二预测结果；

比较所述第一预测结果与所述第二预测结果的差异大小以评估填充后数据集的稳定性。

优选为，所述数据采集是通过传感器采集城市的三维点云坐标数据，并将所述三维点云坐标数据进行点云分割以划分为不同的区域；并

提取每个分割区域的特征；并

基于提取的特征，对所述分割区域进行分类和识以根据不同的分类进行建模。

优选为，所述建模包括：

地形和地貌建模，使用地理信息系统和地形数据，生成城市的地形地貌模型；

建筑物建模，根据采集到的建筑物数据，进行建筑物的三维建模；

道路网格建模，根据采集到的道路数据，进行道路网络的建模。

优选为，所述建模还包括多种模型之间的场景组合：

将地形地貌模型、建筑物模型、道路网格模型根据实际尺寸进行比例调整；

确定地形地貌模型、建筑物模型以及道路网络模型的相对位置；

将所述地形地貌模型、建筑物模型以及所述道路网格模型进行组合；

对模型间的连接点进行平滑处理以保证场景的流畅性。

本申请提供的技术方案，与已知的公有技术相比，具有如下有益效果：本申请记载的智慧城市三维实景生成方法在对数据预处理的过程中，判断数据集中是否存在数据缺失，并对缺失的数据进行填充以满足建模要求，使得保证数据完整的同时能够简化数据处理过程，并能保证最终生成三维实景的连贯性。根据不同的数据集类型采用不同数据填充方式，兼顾数据填充的效率以及填充的准确度。另外，在数据填充完成后对填充后的数据集进行验证以评估填充后数据集的稳定性，进而提供对填充后数据集的整体性能和泛化能力的评估，评估结果能够对模型的准确性进行反馈以及时对模型进行调整，使得填充的数据集更加接近真实数据。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的智慧城市三维场景自动构建方法的工作原理图；

图2为本申请实施例公开的智慧城市三维场景自动构建方法中10折交叉验证的工作原理图；

图3为本申请实施例公开的智慧城市三维场景自动构建方法中数据预处理的工作原理图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例1，

本实施例记载的智慧城市三维场景自动构建方法，如图1所示，包括：数据采集，使用数据采集设备采集城市数据，用于作为城市地貌、建筑物形状、道路网格等的数据源；其中数据采集可以使用各种技术手段，如航空摄影、卫星遥感、激光扫描等，实际进行采集的过程中，可以使用多种采集设备中的一个或者多个。

其中，所述数据采集是通过航空摄影、卫星遥感、激光扫描传感器采集城市的三维点云坐标数据，并将所述三维点云坐标数据进行点云分割以划分为不同的区域；随后提取每个分割区域的特征；再之后基于提取的特征，对所述分割区域进行分类和识以根据不同的分类进行后续的数据预处理以及建模。

数据采集完成后需要进行数据预处理，一般是对采集到的图像数据进行预处理和清洗，以保证数据质量以及一致性；如图3所示，根据数据后续的处理要求，预处理会涉及到：

1）对采集到数据中包含的噪声进行去除：采集的数据中可能包含各种类型的噪声，如传感器噪声、环境干扰等，因此需要对采集到的点云数据中包含的噪音进行去除，在本申请的实施例中，噪音的去除是基于如下函数进行的：

；

和/>分别依赖于依赖于空间域标准差参数σ_d以及强度域标准差参数σ_r，在本申请实施例中：

；

通过采用以上的噪音去除方式能够在对点云数据进行去噪的同时保持点云的集合特征和边缘信息。

其中，空间域标准差参数σ_d决定了空间尺度，即邻域窗口的大小，一般来说，σ_d应该与图像中噪声的大小和分布相匹配，在本申请实施例中的取值为0.5；σ_r决定了值域尺度，即像素值的变化范围，一般来说σ_r应该与图像中灰度变化的程度和特征相匹配，在本申请实施例中的取值为0.1。

2）对于来自于多个传感器的数据进行配准：如果采集到的数据来自多个传感器或扫描位置，需要将它们进行配准，以确保它们在同一坐标系统中对齐，这可以通过使用特征匹配算法来实现。

3）对配准后的数据进行过滤：移除数据中的离群点以提高处理效率，以提高处理效率和减少存储空间需求，其中，离群点的移除采用的方法为：

；

其中：为去除噪音后的点云数据；

为去除离群点后的点云数据；

这个算式的意义是判断每个数据点是否与平均值的偏差超过了倍的标准差，如果超过了，就认为该点是异常点，并从数据中去除。在实际操作过程中，/>值一般取大于3的常数，在本申请实施例中，/>值取4计算。

以上技术方案在预处理过程中首先对采集到的点云数据进行去噪，随后进行配准，再对配准后数据中存在的离群点进行去除，保证数据完整性的同时提高了数据处理的效率。

在本申请的实施例中，考虑到数据采集过程中可能会存在设备故障，或者在数据转化和整合的过程中网络中断等可能会存在数据的缺失，因此在对数据预处理的过程中还包括判断是否存在数据缺失，并对缺失的数据进行填充以满足建模要求。

本实施例中数据预处理主要使用的是R语言，在R语言中，使用is.na函数可以检查数据中是否存在缺失值，例如is.na会返回一个逻辑矩阵，指示数据中每个元素是否存在缺失值，在R语言中，缺失值通常用NA对于包含缺失值的数据集，计算其缺失值占整个数据集的比值；根据采集数据的实际情况定义一个缺失阈值：缺失阈值的定义可根据数据所在场景的重要性进行定义，比如对于一些较为空旷区采集的样本或者样本对三维实景生成影响不大的数据，缺失阈值定义为0.1或者0.12或者0.2；对于对三维实景生成影响较大的数据，其缺失阈值需定义为一个较小值，如0.02或者0.04等，在实际处理的过程中可以根据缺失场景灵活选择。

当所述比值低于预设阈值时，定义为第一类数据集，第一数据集中缺失值较少，若该第一数据集中的部分样本对三维实景生成影响不大，则可以直接进行删除；对于需要保留的样本则可以采用多重插补的方法对多重数据进行填充，这种方法是通过通过使用均值来填充缺失值，并进行多次重复以增加不确定性；多次重复插补产生了多个完整的数据集，每个数据集都反映了可能的缺失值填充模式。通过对这些数据集进行分析和整合，可以考虑到不确定性，并提供更准确的估计或预测结果。这种插值方法较为简单，对于较为简单的场景数据缺失较少的情况下较为适用。R语言中的mice函数或者SPSS数据处理工具均可自动完成对缺失数据的多重插补。

例如当使用R原的mice函数对缺失数据进行多重插补，采用‘rf'法插补时的命令为：

dat1 <- mice；

其中，m为生成完整数据集的个数，默认为5；method为插补参数的方法，‘norm.predict’、‘pmm’、‘rf’、‘norm’依次为回归预测法、平均值插补法、随机森林法和高斯线性回归法。

若所述比值在预设阈值以上，定义为第二类数据集；这种情况为数据缺失较多，适用多重插补的方式进行填充可能会存在填充数据失真严重的情况，因此对于第二类数据集，在本申请中采用聚类模型预测缺失值并将缺失数据进行填充。其中，采用聚类模型预测缺失值包括如下步骤：

S1，将采集到的数据集分为两部分：有缺失值的数据集合不含缺失值的数据集，并使用不含缺失值的数据集对聚类模型进行训练，其中聚类模型根据实际需求进行选取，常见的聚类模型包括K均值聚类、层次聚类、DBSCAN等；

在本申请的实施例中采用的是自顶向下的层次聚类算法，具体进行运算的过程中首先根据给定的不含缺失值数据集，将数据集中的所有样本归为一个簇，并在同一簇中计算两两样本之间的距离，以欧式距离为例：

；

随后找出最远的两个样本Pa和Pb，并将Pa和Pb分到不同的簇类C1和C2中；

计算原簇C中剩余的其他样本Pm与Pa、Pb的距离，若是

；

则将样本点归到C1，否则归到C2中；

重复以上步骤，直到达到预设的聚类数目即完成聚类模型的训练，实际工作中常重复至最底层聚类为单个的样本。

S2，使用训练好的聚类模型预测所述第二类数据集中样本所属的聚类簇；其中，所述预测第二数据集中样本所属的聚类簇是基于所述样本与所述聚类簇中心的相似度确定的。

S3，对于样本中缺失的特征，使用所属聚类簇的中心点来填充缺失值，比如可以适用欧式距离、曼哈顿等度量来确定样本与聚类簇中心的相似度。

当使用欧式距离来确定样本与聚类簇中心的相似度时，首先需要计算样本与聚类样本之间的欧式距离，用于评估该样本与对应的聚类簇中心的相似度，假设对于第二数据集中的某一样本A，其特征向量为，聚类簇中心B的特征向量为，则它们之间的欧氏距离可以通过以下公式计算：

；

以上D1值越小，表示与聚类簇中心的距离越近，相似度越高。因此可以用欧式距离的大小来判断样本与聚类簇中心的相似度，在聚类任务中，则将样本分配给与之距离最近的聚类簇中心，使用该所述聚类簇的中心点来填充对应样本的缺失值。

当使用曼哈顿距离确定样本与聚类簇中心的相似度时与上述远离类似，区别在于距离的计算公式不同，对于特征向量为的样本A，与聚类簇中心B的特征向量为之间的曼哈顿距离为：

；

同样地，D2值越小，表示与聚类簇中心的距离越近，相似度越高。在聚类任务中，将样本分配给与之距离最近的聚类簇中心，使用该所述聚类簇的中心点来填充对应样本的缺失值。

在有的实施例中，当将样本中的缺失值填充完成后需要对填充后数据集的质量及稳定性进行评估，在本申请实施例中使用交叉验证的方法进行评估，评估时，对于第二类数据集，将填充后的数据集划分为K个互斥的子集，其中K为预先确定的折叠数，K的选取决定了拟合的误差，通过K值的选取，可以解决过拟合和欠拟合的问题。K越大，每次投入训练集的数据越多，模型的偏差越小，但是K越大，意味着每一次选取的训练集之前的相关性越大，而这种大相关性会导致最终的test error具有更大的方差，导致过拟合；K越小，数据集的数据较少，不能反映数据的有效信息；常用的是10折交叉验证，将数据集划分为10个子集。

对于每个子集，在剩余的K-1个子集上进行聚类模型的训练，并在当前子集上进行模型的评估；这样，每个折叠都会被用作评估集和训练集，从而确保了对整个数据集的全面评估；在每个迭代中，使用剩余的K-1个折叠上的数据进行模型训练，然后在当前折叠上进行模型评估，评估指标可以是均方根误差、平均绝对误差、准确率、精确度等，具体根据问题的类型和需求来选择。

对于K次迭代的结果评估，计算平均指标作为最终评估结果以评估填充后数据集的稳定性，这可以提供对填充后数据集的整体性能和泛化能力的评估。

具体操作参考图2，当进行10折交叉验证时，首先将填充后的数据集分为10个子集，轮流将其中的1份作为测试集，其余的9份作为训练集进行测试，得出测试值R1，R2，…，R10，并计算得均值R，其中R可以为均方根误差、平均绝对误差、准确率、精确度等。

本实施例中同样采用R语言进行10折交叉验证，在验证时首先使用read.csv函数导入聚类模型填充后的CSV格式的数据；随后使用createFolds函数，根据标签列将数据分成10份，为了减少数据分割的影响，本申请实施例的10折交叉验证会进行多次重复地形和地貌建模，使用地理信息系统纹理映射和材质添加，为生成的所述地形地貌模型、建筑物模型以及道路网格模型添加纹理和材质。在进行纹理映射以及材质添加的过程中需要考虑光照、阴影以及反射等因素使得场景看起来更加真实。

以上建模是通过将获取的城市地形数据经过填充后再处理生成数字高程模型，随后将DEM数据导入到ArcGIS软件，通过等高线、颜色渐变或者三维渲染等的方式，将生成的地形地貌模型、建筑物模型以及道路网格模型添加纹理及材质，随后导出高程灰度图栅格数据，便于后续的处理。

建模完成后，需要将各类模型进行场景组合，该过程主要是将建立的各个模型组合到城市场景中，因此需要设计各个模型放置在正确的位置、调整至正确的比例，同时还要考虑相对位置以及各个模型间的连接点处理等，这一过程需要使用三维建模软件进行处理，本申请实施例中主要是使用Blender读取高程数据中的灰度值来进行场景组合的；具体来说，主要涉及如下方面：

首先，根据收集到的建筑物和基础设置数据以及地理信息，确定每个模型在城市场景中的位置，这可以通过使用模型的地理坐标和相对位置来确定；

之后，将所述地形地貌模型、建筑物模型、道路网格模型等各个模型根据实际尺寸进行比例调整，以使它们在整个城市场景中看起来适合；

考虑地形地貌模型、建筑物模型以及道路网络模型的相对位置；例如，建筑物之间应该保持适当的间隔，道路应该连接到正确的位置，公园和绿地应该位于合适的位置等，这样可以确保场景的合理性和真实性；在Blender编辑器中，可以对导入的模型进行尺寸和布局调整，通过拖拽、旋转、缩放等操作，将模型比例进行调整并摆放在合适的位置，以构建出场景的整体结构；对于高层建筑物，可以考虑将其模型划分为多个层次，以呈现不同楼层的外观和内部细节，这可以增加场景的真实感和细节。

将所述地形地貌模型、建筑物模型以及所述道路网格模型进行组合，将建筑物和基础设施模型与地形匹配，这意味着建筑物的地基应该与地面接触，道路应该与地形相匹配，以保证场景的自然连接和真实感；

在场景组合中，需要考虑到不同建筑物和基础设施的复杂性和细节，大型建筑物可能具有更多的细节和纹理，而简单的基础设施可能只需要基本的几何形状，在组合场景时，需要平衡模型的复杂性，以确保整体场景的视觉一致性和性能要求；

要确保场景的连贯性和一致性；建筑物和基础设施之间的过渡应该平滑，对模型间的连接点进行平滑处理，使其没有突兀的断裂或不连贯的部分；这可以通过仔细处理模型之间的连接点、调整纹理和材质等方式来实现；这可能涉及到场景的分层细节加载、LOD技术的应用，以及其他渲染和性能优化策略，以保证场景的流畅性和效率。

在有的实施例中，上述智慧城市三维实景的生成方法还包括可视化和交互，通过虚拟现实和增强现实，将生成的三维实景以可视化的方式呈现。通过图像、动画或虚拟场景的形式进行展示，一方面可以使得城市建设者或者规划者直观地了解城市的地貌、建筑物、道路网络等特征，从而更好地了解城市的现状，方便后续的规划以及决策；另一方面，对于其他用户，可以通过虚拟现实技术，沉浸在一个虚拟的城市环境中，这样的沉浸式体验可以让用户感受到身临其境的感觉，更深入地探索城市的细节和特征，增加其对城市发展的认知、理解和支持。

实施例2，

本实施例与实施例1的区别是，样本填充完成后对填充后数据集质量以及稳定性评估的方式不同，实施例1中采用的是交叉验证的方式进行评估，而本实施例中采用的是不含缺失值的数据集进行验证，具体而言，同样包括实施例1中的聚类模型预测缺失值的步骤S1、S2及S3；

当完成样本缺失值的填充后，再次将步骤S1中使用不含缺失值的数据集划分为第一训练集和第一测试集，并使用所述第一训练集进行聚类模型训练，具体来说，将第一训练集中的所有样本归为一个簇，同样采用自顶向下的层次聚类算法进行训练，得第一聚类模型；

计算第一测试集中各样本与第一聚类模型中各聚类簇中心的相似度，同样可以采用欧式距离计算第一测试集中各个样本与第一聚类模型中各聚类簇中心的距离，将这些距离记为第一预测结果；

将步骤S3中填充后的数据集使用相同的划分规则划分为第二训练集和第二测试集，并采用相同的训练方法使用所述第二训练集对聚类模型进行训练得第二聚类模型；计算所述第二测试集中的各个样本与第二聚类模型中各簇类中心的距离，将这些距离记为第二预测结果；

比较所述第一预测结果与所述第二预测结果的差异大小以评估填充后数据集的稳定性。若第一预测结果与第二预测结果的差异较小，说明填充后数据集的稳定性较高，且填充后的数据集与真实数据差异较小。

比较方法可以采用SPSS中的卡方检验p值，如果p值小于预设的显著性水平，则认为两组数据之间存在显著差异；如果p值大于等于0.05，则表示两组数据之间不存在显著差异。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不会使相应技术方案的本质脱离本申请各实施例技术方案的保护范围。

Claims

1.智慧城市三维场景自动构建方法，包括图像数据采集、数据预处理以及场景建模，其特征在于，

2.根据权利要求1所述的智慧城市三维场景自动构建方法，其特征在于，所述图像数据采集是通过传感器采集城市的三维点云坐标数据，并将所述三维点云坐标数据进行点云分割以划分为不同的区域；并提取每个分割区域的特征；并基于提取的特征，对所述分割区域进行分类和识以根据不同的分类进行建模。

3.根据权利要求1所述的智慧城市三维场景自动构建方法，其特征在于，在预处理过程中，判断是否存在数据缺失之前对采集到点云数据中包含的噪声进行去除，噪音的去除基于如下函数进行：

；

4.根据权利要求3所述的智慧城市三维场景自动构建方法，其特征在于，噪音去除后，点云数据的预处理还包括：

，

其中：为去除噪音后的点云数据；

为去除离群点后的点云数据；

5.根据权利要求1所述的智慧城市三维场景自动构建方法，其特征在于，采用聚类模型预测缺失值包括如下步骤：

S1，使用不含缺失值的数据集对聚类模型进行训练；

6.根据权利要求5所述的智慧城市三维场景自动构建方法，其特征在于，所述预测第二数据集中样本所属的聚类簇是基于所述样本与所述聚类簇的中心的相似度确定的。

7.根据权利要求6所述的智慧城市三维场景自动构建方法，其特征在于，对于第二类数据集，将填充后的数据集划分为K个互斥的子集，其中K为预先确定的折叠数；

8.根据权利要求7所述的智慧城市三维场景自动构建方法，其特征在于，步骤S1中使用不含缺失值的数据集划分为第一训练集和第一测试集，并使用所述第一训练集对聚类模型进行训练得第一聚类模型；将所述第一测试集输入所述第一聚类模型，得第一预测结果；

9.根据权利要求2所述的智慧城市三维场景自动构建方法，其特征在于，所述建模包括：

10.根据权利要求9所述的智慧城市三维场景自动构建方法，其特征在于，所述建模还包括多种模型之间的场景组合：

对模型间的连接点进行平滑处理以保证场景的流畅性。