CN117435145B

CN117435145B - 一种数字化建筑信息优化存储方法及系统

Info

Publication number: CN117435145B
Application number: CN202311754166.8A
Authority: CN
Inventors: 杨欣; 程刚; 杨铮; 王淑俭; 张冰; 尹晋; 黄启东; 姜静静; 陶晓菲; 姚岳亮
Original assignee: Aepa&tsc Architects Engineers Inc
Current assignee: Aepa&tsc Architects Engineers Inc
Priority date: 2023-12-20
Filing date: 2023-12-20
Publication date: 2024-02-13
Anticipated expiration: 2043-12-20
Also published as: CN117435145A

Abstract

本发明涉及数据处理技术领域，具体涉及一种数字化建筑信息优化存储方法及系统，该方法包括：获取建筑构件数据序列；获取各聚簇数据序列；获取各聚簇矩阵；分别对各聚簇矩阵列向量元素之间的数据分布、一阶差异分布进行分析，构建重复程度以及差异相似程度；构建排序评估模型；获取排序方式；对最终聚簇矩阵列向量的一阶差异分布以及二阶差异分布进行分析，构建差异规律程度；获取差分方式；获取压缩序列；对压缩序列进行游程编码压缩，实现数字化建筑信息的优化存储，可以减少数字化建筑信息中冗余数据的存储空间，提高存储效率，保证压缩质量。

Description

一种数字化建筑信息优化存储方法及系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种数字化建筑信息优化存储方法及系统。

背景技术

数字化建筑信息是将建筑和建筑项目的各个方面转化为数字格式，以便更好地记录、分析、可视化、共享和管理。这包括建筑的设计、施工、运营和维护过程中产生的数据的数字化和集成。BIM是数字化建筑信息的核心，它是一种基于计算机的技术，用于创建三维模型，其中包含有关建筑物的几何形状、空间关系和属性信息。这些模型不仅包括外部和内部的建筑结构，还包括建筑元素、设备、材料、成本、进度、可持续性数据等。在现代建筑项目中，BIM数据可以非常庞大，包括数百兆字节甚至更多的信息。所以通过压缩，节省存储空间，减少硬盘空间的需求，降低存储成本的必要需求十分迫切。

由于建筑信息中存在大量的几何属性冗余数据，现有技术可通过游程编码对BIM数字化建筑数据进行压缩，该方法对于连续多个重复数据压缩效果较好，但对于不存在连续数据的数据集压缩效果很差，甚至会出现数据膨胀的现象。虽然数据中存在大量重复的几何数据，但因为数据分布的随机性强，导致压缩大小结果不稳定。

针对上述问题，本发明提出了一种数字化建筑信息优化存储方法及系统，通过分析BIM构建数据的几何属性分布性特征，构建二维矩阵获得优化排序序列，通过改变数据的分布情况以增大数据的连续相似程度，减小随机性，得到一个优化的数据序列获取较好的游程编码压缩效果。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种数字化建筑信息优化存储方法及系统，所采用的技术方案具体如下：

第一方面，本发明实施例提供了一种数字化建筑信息优化存储方法，该方法包括以下步骤：

获取建筑构件数据序列，序列各元素包括建筑构件的长、宽、高信息；

对建筑构件数据序列进行聚类获取各聚簇数据序列；将聚簇数据序列的各元素按照几何属性排序获取各聚簇矩阵；根据各聚簇矩阵列向量元素之间的数据分布获取各聚簇矩阵的重复程度；根据各聚簇矩阵列向量的一阶差异分布获取各聚簇矩阵的差异相似程度；根据各聚簇矩阵的重复程度以及差异相似程度构建排序评估模型；选择排序评估模型得分最高的聚簇矩阵的排序方式作为各聚簇数据序列的最终聚簇矩阵；根据各最终聚簇矩阵列向量的一阶差异分布以及二阶差异分布获取各最终聚簇矩阵的差异规律程度；根据各最终聚簇矩阵的差异规律程度获取各最终聚簇矩阵列向量的差分方式；根据各最终聚簇矩阵列向量的差分方式获取各最终聚簇矩阵列向量的压缩序列；对最终聚簇矩阵的各压缩序列进行游程编码压缩，实现数字化建筑信息的优化存储。

优选的，所述对建筑构件数据序列进行聚类获取各聚簇数据序列，包括：

将建筑构件数据作为DBSCAN密度聚类算法的输入，DBSCAN密度聚类算法的输出为初始聚簇中心；采用肘部法根据初始聚簇中心获取参数k值；将建筑构件数据以及参数K值作为K-means均值聚类算法的输入，K-means均值聚类算法的输出为各聚簇数据序列。

优选的，所述将聚簇数据序列的各元素按照几何属性排序获取各聚簇矩阵，具体为：

对于各聚簇数据序列；按照从小到大的顺序对聚簇数据序列各元素分别基于建筑构件的长、宽、高信息进行三次排序，将每次排序后的各元素作为每个聚簇矩阵的各个行向量。

优选的，所述根据各聚簇矩阵列向量元素之间的数据分布获取各聚簇矩阵的重复程度，包括：

对于各聚簇矩阵；

将聚簇矩阵列向量中相等的相邻数据作为连续相邻链；获取所述连续相邻链的数据长度；统计各聚簇矩阵中重复数据的总个数；计算所述总个数的平方与聚簇矩阵元素个数的比值；计算聚簇矩阵中所有所述数据长度的平方的和值；将所述比值与所述和值的和值归一化值作为聚簇矩阵的重复程度。

优选的，所述根据各聚簇矩阵列向量的一阶差异分布获取各聚簇矩阵的差异相似程度，包括：

对于各聚簇矩阵；

计算聚簇矩阵中各列向量相邻元素之间的差值绝对值；获取所述差值绝对值的均值以及方差；计算聚簇矩阵中所有列向量所述均值与方差的乘积的和值；将所述和值的相反数作为以自然常数为底数的指数函数的指数；将所述指数函数的计算结果作为聚簇矩阵的差异相似程度。

优选的，所述排序评估模型具体为各聚簇矩阵的重复程度与差异相似程度的和值。

优选的，所述根据各最终聚簇矩阵列向量的一阶差异分布以及二阶差异分布获取各最终聚簇矩阵的差异规律程度，具体包括：

对于各最终聚簇矩阵；

计算最终聚簇矩阵各列向量的一阶差分序列的方差；获取最终聚簇矩阵各列向量的二阶差分序列，并按照从大到小的顺序排列，计算排列后的二阶差分序列与对应排序序列的皮尔逊相关系数；计算最终聚簇矩阵所有列向量所述方差与所述皮尔逊相关系数的比值的和值；将所述和值的相反数作为以自然常数为底数的指数函数的指数；将所述指数函数的计算结果作为最终聚簇矩阵的差异规律程度。

优选的，所述根据各最终聚簇矩阵的差异规律程度获取各最终聚簇矩阵列向量的差分方式，具体包括：

设定评估阈值；对于各最终聚簇矩阵；

当最终聚簇矩阵的差异规律阈值小于等于评估阈值时，采用一阶差分方式进行压缩；当最终聚簇矩阵的差异规律阈值大于评估阈值时，采用二阶差分方式进行压缩。

优选的，所述根据各最终聚簇矩阵列向量的差分方式获取各最终聚簇矩阵列向量的压缩序列，具体包括：

对于最终聚簇矩阵的各个列向量；

将差分后的最终聚簇矩阵的各列数据与差分之前各列数据最后一个数据组成最终聚簇矩阵的各列向量的压缩序列。

第二方面，本发明实施例还提供了一种数字化建筑信息优化存储系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意一项所述方法的步骤。

本发明至少具有如下有益效果：

本发明主要通过建筑构件数据的长宽高几何属性构建三维样本空间，并对数据进行聚类，由此得到的聚类结果区分了形状差异较大的大型构件与中小型构件数据，相比于直接进行数据排序，对构件进行了区域分块，对不同构件进行适应自身大小形状的排序，获取更加合理的排序方式。

接着，通过分析大型构件具有的拼接特征与中小型构件具有的差异性特征，根据构件的几何属性数据一阶差异以及二阶差异分布获取自适应差分方式，得到更加优化的差分序列作为压缩序列，相比于现有技术，获得了连续重复度更高的数据序列，通过该序列对数据进行游程编码压缩，得到更理想的压缩效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例提供的一种数字化建筑信息优化存储方法的步骤流程图；

图2为压缩序列的获取流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种数字化建筑信息优化存储方法及系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种数字化建筑信息优化存储方法及系统的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种数字化建筑信息优化存储方法的步骤流程图，该方法包括以下步骤：

步骤S001：采集建筑构件数据并进行预处理。

在BIM模型中创建构件信息数据后，使用BIM软件的导出功能，将数据导出为IFC格式文件，导出IFC文件中的几何属性一栏，使用序列进行存储。序列的每一节点为一个数组，将建筑构件的长、宽、高几何属性信息作为一个数组进行存储，得到数组组成的建筑构件数据序列。

步骤S002：对建筑构件数据进行分块，转换为二维矩阵，根据二维矩阵中数据的形状大小特征构建排序评估模型，对二维矩阵进行排序，排序后获得相邻数据差异较小的二维数组数据，对二维数组数据进行差分以获得较高的相邻数据相似性，获得最终的压缩序列。

游程编码的压缩效率主要受连续重复的数据影响，连续重复的数据越多，游程编码对应的压缩效率也越高，所以需要对数据的分布进行重构，得到一个相邻数据尽可能相似的数据序列。考虑到构件中包含如墙壁、窗户、门等大型构件以及管道、电气设备、家具、装饰品等中小型构件，因为大型构件的长宽高几何属性与中小型构件差异太大，故这两类构件的长宽高数据相邻相似的可能性较小，所以先对建筑构件数据序列中的大型构件与中小型构件的几何属性数据进行分块，分块后具有相同几何属性特征的构件数据为一簇，比如长度较长但宽高较小的水管与落地灯具为一簇、长宽高较为规整的家具装饰为一簇、长高较长但宽较小的不同形状的墙壁为一簇，由此得到的同一聚簇中长宽高相邻数据更相近。本实施例采用K-means均值聚类的方式对数据集进行聚类，获得根据形状大小特征划分的聚簇结果。

具体的，将建筑构件数据序列各数据投射到三维坐标中，坐标系x、y、z坐标分别对应各建筑构件的长、宽、高几何属性，首先采用DBSCAN密度聚类算法获取初始聚类中心，采用肘部法来确定聚类个数k值，最后，使用K-means均值聚类算法进行聚类。需要说明的是，DBSCAN密度聚类算法、肘部法、K-means均值聚类算法为现有公知技术，本实施例中不再赘述。

在每个聚簇中，将数据序列中的每个节点数组展开，构建成为一个3×N的二维矩阵，矩阵每行为一个建筑构件的长、宽、高，N表示该聚簇内构件的个数，即二维矩阵的列数。要获得相邻相似较大的序列需要对数据按照从小到大的顺序进行排列，但是二维矩阵的每一行存在长、宽、高三个数据，由于每个构件的长、宽、高之间的相似程度不一，即有可能存在长较相似但是宽差异较大的情况，所以本实施例分别根据长、宽、高按照从小到大的顺序在纵向方向上对矩阵进行排序获取三个聚簇矩阵，再构建排序评估模型对三种排序结果的相邻相似程度进行评估。

具体的，排序评估模型由两部分组成。其一为建筑构件数据的重复程度，另一个是差异相似程度。将各矩阵的每一列中相邻数据相同的链确认为连续相邻链，用来衡量重复数据的连续程度，连续相邻的相同数据越多，对于游程编码的压缩效果越好。由连续相邻链构建各聚簇对应的矩阵的重复程度，表达式为：

，

式中，为第i个聚簇矩阵的重复程度；/>为第i个聚簇矩阵重复数据的总个数；/>表示第i个聚簇矩阵的列数；/>为第i个聚簇矩阵连续相邻链的个数；/>为第k个连续相邻链的长度；/>表示归一化函数。

重复程度通过重复数据个数占比与重复长度情况获得，重复数据是相邻纵向数据中具有相同数据的数据，重复数据个数占比是衡量重复数据在总数据中的占比情况，用重复数据加权防止总数过小引起的重复程度过大；各连续相邻链的长度越长则对重复程度就越大。

接着分析各聚簇矩阵的相似差异程度，表达式为：

，

式中，为第i个聚簇矩阵的差异相似程度；/>为第i个聚簇矩阵第l列第j个数据的数值；/>为均值函数；/>为方差函数；/>表示以自然常数为底数的指数函数。

表示该列的均值加权的差值方差，对长、宽、高三列的均值加权的差值方差进行累加和，表示在当前排序下整体的相邻数据的差异相似程度，而不是排序单列的差异相似程度。最终方差越小差异相似程度越高。

由上获得排序评估模型，由重复程度与差异相似程度组成：

，

式中，为第i个聚簇矩阵排序评估模型得分；/>为第i个聚簇矩阵的差异相似程度；/>为第i个聚簇矩阵的重复程度。

排序后聚簇矩阵的列数据中相邻数据重复的越多，相邻数据差值相似程度越大，对应的评估模型得分越高。选择三组排列方式中评估得分最高的几何属性排列方式作为最终聚簇矩阵的排序方式。

考虑到数据排序后纵列方向上，每两个差值存在不相似但是整体的规律性较强，呈线性相关递增趋势的差值间隔，那么二次差分获得的差值也具有较强的相似性，所以进一步构建基于差值规律的二阶差分评估模型，对一阶差分的结果进行评估判断是否需要进行二阶差分。

具体的，通过一阶差分的聚簇矩阵中建筑构件数据的差异规律程度构建二阶差分评估模型。差异规律程度通过数据差值的差值，即二次差分数据的方差获得，对一次差分数据构建曲线坐标轴，横轴为排序次序，纵轴为一次差分后每个次序对应的差值，通过皮尔逊相关系数获得数据差值关于排序的相关性，对方差进行加权，获得差异规律程度。具体表达式为：

，

式中，R为最终聚簇矩阵的差异规律程度；、/>分别为最终聚簇矩阵第l列进行一次差分、二次差分后得到的差分序列；/>为最终聚簇矩阵第l列对应的排序次序；/>为方差函数；/>为皮尔逊相关系数函数；/>表示以自然常数为底数的指数函数。

由于最终聚簇矩阵中各列的一阶差分数据进行排序，故皮尔逊相关系数的值域为，越趋近于1说明一次差分数据与构建次序的相关性越高，则规律性越强；对应其二阶差分的得到的数据重复度提升越高，通过/>的形式对聚簇矩阵各列数据的二次差分序列的方差进行加权，求得长、宽、高三列的方差加权的累加和。方差越小均匀性越强，相邻数据相似程度越高，通过差异规律程度对二阶差分进行评估，可以得到连续程度更高的数据序列，结合构件几何属性差异的规律性进一步提升编码压缩效率。

至此，通过构建二维矩阵根据数据自身重复特征与间隔特征构建排序评估模型获得聚簇矩阵排序方式，构建二阶差分评估模型获取聚簇矩阵各列的差分方式。由差异规律程度对最终聚簇矩阵的二阶差分方式进行评估，设定评估阈值，当差异规律程度小于等于评估阈值时，则二阶差分压缩效果不好，一阶差分的压缩效果更好；当差异规律程度大于评估阈值时，则二阶差分的压缩效果更好。其中，本实施例设定评估阈值为0.7，实施者可根据实际情况自行调整。

对最终聚簇矩阵进行差分，从排序后的矩阵的第一行开始，对每一列进行差分，得到三列差分序列，作为差分扫描的结果，在每列差分序列的结尾保留差分前的最后一位数据，作为解压缩还原用，由此得到压缩序列。其中，压缩序列的获取流程如图2所示。

至此，获取各最终聚簇矩阵的压缩序列。

步骤S003：对压缩序列进行游程编码压缩，完成数字化建筑信息的优化存储。

使用游程编码对每一列压缩序列分别进行游程编码压缩，获得三列游程编码压缩数据，作为构件长宽高几何属性数据的压缩结果，实现数字化建筑信息的优化存储。需要说明的是，游程编码压缩为现有公知技术，本实施例中不再赘述。

基于与上述方法相同的发明构思，本发明实施例还提供了一种数字化建筑信息优化存储系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种数字化建筑信息优化存储方法中任意一项所述方法的步骤。

综上所述，本发明实施例主要通过建筑构件数据的长宽高几何属性构建三维样本空间，并对数据进行聚类，由此得到的聚类结果区分了形状差异较大的大型构件与中小型构件数据，相比于直接进行数据排序，对构件进行了区域分块，对不同构件进行适应自身大小形状的排序，获取更加合理的排序方式。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数字化建筑信息优化存储方法，其特征在于，该方法包括以下步骤：

2.如权利要求1所述的一种数字化建筑信息优化存储方法，其特征在于，所述对建筑构件数据序列进行聚类获取各聚簇数据序列，包括：

3.如权利要求1所述的一种数字化建筑信息优化存储方法，其特征在于，所述将聚簇数据序列的各元素按照几何属性排序获取各聚簇矩阵，具体为：

4.如权利要求1所述的一种数字化建筑信息优化存储方法，其特征在于，所述根据各聚簇矩阵列向量元素之间的数据分布获取各聚簇矩阵的重复程度，包括：

对于各聚簇矩阵；

5.如权利要求1所述的一种数字化建筑信息优化存储方法，其特征在于，所述根据各聚簇矩阵列向量的一阶差异分布获取各聚簇矩阵的差异相似程度，包括：

对于各聚簇矩阵；

6.如权利要求1所述的一种数字化建筑信息优化存储方法，其特征在于，所述排序评估模型具体为各聚簇矩阵的重复程度与差异相似程度的和值。

7.如权利要求1所述的一种数字化建筑信息优化存储方法，其特征在于，所述根据各最终聚簇矩阵列向量的一阶差异分布以及二阶差异分布获取各最终聚簇矩阵的差异规律程度，具体包括：

对于各最终聚簇矩阵；

8.如权利要求1所述的一种数字化建筑信息优化存储方法，其特征在于，所述根据各最终聚簇矩阵的差异规律程度获取各最终聚簇矩阵列向量的差分方式，具体包括：

设定评估阈值；对于各最终聚簇矩阵；

9.如权利要求1所述的一种数字化建筑信息优化存储方法，其特征在于，所述根据各最终聚簇矩阵列向量的差分方式获取各最终聚簇矩阵列向量的压缩序列，具体包括：

对于最终聚簇矩阵的各个列向量；

10.一种数字化建筑信息优化存储系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-9任意一项所述方法的步骤。