CN117351173A

CN117351173A - 一种基于文本驱动的三维建筑参数化建模方法及装置

Info

Publication number: CN117351173A
Application number: CN202311659479.5A
Authority: CN
Inventors: 宋彬; 朱旭平; 何文武; 张宇; 李景瑞
Original assignee: Beijing Feidu Technology Co ltd
Current assignee: Beijing Feidu Technology Co ltd
Priority date: 2023-12-06
Filing date: 2023-12-06
Publication date: 2024-01-05
Anticipated expiration: 2043-12-06
Also published as: CN117351173B

Abstract

本申请涉及建筑模型生成技术领域，公开了一种基于文本驱动的三维建筑参数化建模方法及装置。所述基于文本驱动的三维建筑参数化建模方法包括：所述基于文本驱动的三维建筑参数化建模方法包括：自输入的文本中提取关键特征；根据关键特征生成建筑体量以及建筑立面图像；对建筑立面进行语义分割，从而获取语义区域；提取语义区域内像素的颜色；根据所述语义区域、语义区域内像素的颜色生成参数化的各个构件模型；对各个构件模型进行拼装，从而形成三维建筑。本申请提出基于深度生成网络的文本驱动的三维建筑参数化建模方法。生成的模型精度等级达到LOD400，具有精确性、矢量化、易于二次编辑等特点。

Description

一种基于文本驱动的三维建筑参数化建模方法及装置

技术领域

本发明涉及建筑模型生成技术领域，尤其涉及一种基于文本驱动的三维建筑参数化建模方法以及基于文本驱动的三维建筑参数化建模装置。

背景技术

随着元宇宙、游戏、电影行业的发展，3D资产在以上行业中的需求与日俱增。3D资产的生产存在成本高、效率低、质量参差的问题。

传统的多边形建模方法，使一个对象转化为可编辑的多边形对象，然后通过对该多边形对象的各种子对象进行编辑和修改来实现建模过程。虽然可以达到行业对3D资产的要求，但是其人工成本较高、精度不高、建模效率低、不能自动化等问题使其并不适用于大规模的3D资产生产。

主流的3D模型AI生成器，例如 Point-E等，虽然其效率远远超越了传统的3D建模方法，但是生成的3D资产是无语义、存在大量噪声的多边形对象，并且存在质量参差不齐、难以精确引导等问题。

因此，希望有一种技术方案来解决或至少减轻现有技术的上述不足。

发明内容

本发明的目的在于提供一种基于文本驱动的三维建筑参数化建模方法来至少解决上述的一个技术问题。

本发明提供了下述方案：

根据本发明的一个方面，提供一种基于文本驱动的三维建筑参数化建模方法，所述基于文本驱动的三维建筑参数化建模方法包括：

自输入的文本中提取关键特征；

根据关键特征生成建筑体量以及建筑立面图像；

对建筑立面进行语义分割，从而获取语义区域；

提取语义区域内像素的颜色；

根据所述语义区域、语义区域内像素的颜色生成参数化的各个构件模型；

对各个构件模型进行拼装，从而形成三维建筑。

可选地，所述自输入的文本中提取关键特征包括：

通过NLP自然语言处理模型提取输入的文本的关键特征，其中，所述关键特征包括建筑特征或体量体征及建筑特征。

可选地，所述根据关键特征生成建筑体量以及建筑立面图像包括：

判断是否具有体量特征，若是，则

根据所述体量特征生成建筑体量信息；

根据所述建筑特征生成建筑立面图像信息。

可选地，所述根据关键特征生成建筑体量以及建筑立面图像进一步包括：

判断是否具有体量特征，若否，则

随机生成建筑体量信息；

根据所述建筑特征生成建筑立面图像信息。

可选地，所述对建筑立面进行语义分割，从而获取语义区域包括：

通过SAM图像分割网络对建筑立面进行语义分割从而获取语义区域。

可选地，所述根据所述语义区域、语义区域内像素的颜色生成参数化的各个构件模型包括：

将语义区域以及语义区域内像素的颜色存储为文本描述；

将文本描述输入到参数化生成模块，生成参数化的各构件模型。

本申请还提供了一种基于文本驱动的三维建筑参数化建模装置，所述基于文本驱动的三维建筑参数化建模装置包括：

关键特征提取模块，所述关键特征提取模块用于自输入的文本中提取关键特征；

建筑体量及立面图像生成模块，所述建筑体量及立面图像生成模块用于根据关键特征生成建筑体量以及建筑立面图像；

语义分割模块，所述语义分割模块用于对建筑立面进行语义分割，从而获取语义区域；

颜色获取模块，所述颜色获取模块用于提取语义区域内像素的颜色；

构件模型生成模块，所述构件模型生成模块用于根据所述语义区域、语义区域内像素的颜色生成参数化的各个构件模型；

三维建筑拼装模块，所述三维建筑拼装模块用于对各个构件模型进行拼装，从而形成三维建筑。

本申请还提供了一种电子设备，所述电子设备包括：处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器中存储有计算机程序，当计算机程序被处理器执行时，使得处理器执行如上所述的基于文本驱动的三维建筑参数化建模方法的步骤。

本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有可由电子设备执行的计算机程序，当计算机程序在电子设备上运行时，能够实现如上所述的基于文本驱动的三维建筑参数化建模方法的步骤。

本申请的基于文本驱动的三维建筑参数化建模方法提出基于深度生成网络的文本驱动的三维建筑参数化建模方法，用于解决以上问题。生成的模型精度等级达到LOD400，具有精确性、矢量化、易于二次编辑等特点，解决了传统的多边形建模方法存在的生产存在成本高、效率低、质量参差等问题；主流的3D模型AI生成器生产的资产无语义、存在大量噪声、质量参差不齐、难以精确引导的问题。

附图说明

图1是本申请一实施例中的基于文本驱动的三维建筑参数化建模方法的流程示意图；

图2是本申请一个实施例提供的一种电子设备结构框图；

图3是本申请一实施例中的参数化生成模型的流程示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本申请一实施例中的基于文本驱动的三维建筑参数化建模方法的流程示意图。

如图1所示的基于文本驱动的三维建筑参数化建模方法包括：

步骤1：自输入的文本中提取关键特征；

步骤2：根据关键特征生成建筑体量以及建筑立面图像；

步骤3：对建筑立面进行语义分割，从而获取语义区域；

步骤4：提取语义区域内像素的颜色；

步骤5：根据所述语义区域、语义区域内像素的颜色生成参数化的各个构件模型；

步骤6：对各个构件模型进行拼装，从而形成三维建筑。

在本实施例中，所述自输入的文本中提取关键特征包括：

在本实施例中，本申请的NLP自然语言处理模型可以包括如下模型：

传统的方法如TF-IDF，TextRank，再到序列模型CRF，Bi-LSTM+CRF、BERT+CRF等。

在本实施例中，关键特征可以包括如下内容：

建筑的形状：长方体、金字塔型、球形、棱柱、组合长方体等。

建筑的类型：居民楼、写字楼、商超、医院、便利店等。

建筑的风格：写实、卡通、赛博朋克、水墨风、废土风格等。

建筑的年代：古代、近代、现代、未来等。

其他：颜色、空调挂机等附属物的相关描述等。

在本实施例中，根据关键特征生成建筑体量以及建筑立面图像包括：

判断是否具有体量特征，若是，则

根据所述体量特征生成建筑体量信息；

根据所述建筑特征生成建筑立面图像信息。

在本实施例中，所述根据关键特征生成建筑体量以及建筑立面图像进一步包括：

判断是否具有体量特征，若否，则

随机生成建筑体量信息；

根据所述建筑特征生成建筑立面图像信息。

在本实施例中，体量特征包括长方形、圆柱形等常见建筑形状。

在本实施例中，将建筑体量信息中的建筑立面及顶面拆分出来，作为立面图像生成的图像引导信息，加上关于建筑类型、形状、年代等描述信息作为立面图像生成的文字引导信息，通过Stable Diffusion驱动生成相应的建筑立面图像且这些图像风格统一。

在本实施例中，所述对建筑立面进行语义分割，从而获取语义区域包括：

具体而言，通过SAM图像分割网络对建筑立面进行语义分割，语义出包括窗户、窗台、阳台、空调外机、遮阳板、门、女儿墙等组成建筑立面的建筑构件。每个语义类型具有唯一标签，用于区分立面内的其他语义。

在本实施例中，所述根据所述语义区域、语义区域内像素的颜色生成参数化的各个构件模型包括：

将语义区域以及语义区域内像素的颜色存储为文本描述；

具体而言，将存储为文本描述的语义区域以及语义区域内像素的颜色输入到参数化生成模块，生成参数化的各构件模型。参数化生成系统基于Ｈoudini搭建，该过程为自动化过程。通过参数化生成系统中的基元生成模块，输入例如窗户的类型（如推拉窗、百叶窗等）、几何尺寸（主要描述构件的长、宽、高等）、颜色，通过预编译的生成逻辑，即可生成三维模型。生成的三维模型可以通过人工交互的方式调整生成结果，以获得准确的结果。

在本实施例中，对各个构件模型进行拼装，从而形成三维建筑，该过程为自动化过程，通过参数化生成系统中的基元拼接模块，通过记录建筑立面图像中语义分割过程中的各语义的在图像中的位置信息，映射到对应立面的三维位置，拼装成完整建筑。

下面以举例的方式对本申请进行进一步详细阐述，可以理解的是，该举例并不构成对本申请的任何限制。

在本实施例中，进行语义分割采用如下进行语义分割模型。

1. 数据集、算法工具库准备

1.1数据集准备：

为了训练语义分割的网络模型，需要构造训练集。训练集中包含十万个样本，每个样本是一组数据对，包括图像数据（建筑立面图像）和标签数据（图像中每个像素点对应不同的语义标签：窗户、阳台、空调外机、栏杆等）。

算法工具库准备：

对应步骤3图像实例化分割，需要用到实例化分割网络（SAM），并对其进行Finetune。

为了将参数化生成的基元模型映射回世界空间，我们需要用到相关算法及处理工具。

参数化生成系统准备：

在获得描述建筑基元的形状、颜色和材质等参数的文本描述后，为了参数化生成所需的建筑基元模型并将各个基元模型拼装成完整的建筑，需要建立一个参数化生成系统。该参数化生成系统用于接收基元参数文本信息，根据预先设定的生成逻辑和生成规则生成网格模型。

该参数化生成系统使用Houdini的脚本语言VEX编写。

生成系统主要由基元参数文本解析模块、基元生成模块和基元拼装模块构成，参数化生成系统流程图见图3。

输入：

根据经验及观察，建筑可以认为是多个基元的集合。基元包括但不限于窗户、门、屋顶、百叶窗、遮阳板等；基元可以抽象为由各种简单的几何体组合而成的复杂几何体。将这些简单几何体的形状、颜色等参数描述为文本，即为参数化生成系统的输入：建筑基元参数文本。

描述一个简单几何体（长方体）的参数文本如下：

{

"Modules": {

"1": {

"Size": [ 0.70, 2.91, 0.2 ],

"Position": [ 0.70, 2.91, 0.2 ],

"Color": [ 0.28, 0.27, 0.28 ],

"Material": "concrete"

}

文本中： Size—基元的长宽高

Position—基元的位置

Color—基元的颜色

Material—基元的材质

（2）基元参数文本解析模块

对基元参数文本进行解析，解析出描述各个基元的相关参数，作为下一步基元生成的输入。

（3）基元生成模块

在组合成复杂几何体的过程中需要一系列的操作指令集，包括但不限于绘制点、线、面命令；绘制圆等基本形状命令；将多边形沿某一方向挤出命令；对几何体进行布尔操作命令；旋转、缩放、平移命令。

这些操作指令集由基元生成模块中的相关函数实现，输入即为解析后的基元的相关参数，如尺寸、颜色、材质等。通过操作指令集生成基元模型。

（4）基元拼装模块

在对建筑立面进行语义分割时，记录了各语义构件在图像中的位置，由于建筑立面图像尺寸的比例与建筑立面的几何尺寸的比例一致，很容易计算图像空间到世界空间之间的变换矩阵Mc-p。

基元的位置通过Mc-p进行矩阵变换至世界空间。获得基元的世界空间位置信息后，存储在基元参数文本中。

对基元生成模块生成的基元根据位置信息进行矩阵变换，获得正确的世界空间位置，完成基元的拼装。

对拼装后的建筑构件进行自适应校正。

针对建筑立面图像实例化分割预训练的SAM分割网络模型的搭建与训练

2.1 SAM网络模型搭建

2.1.1 torchvision：torchvision0.8或更高版本。

2.1.2 python版本：python3.8或更高版本。

2.1.3 pytorch版本：pytorch1.7或更高版本。

2.2训练所使用的数据集

2.2.1 使用的数据集是自标注的基于建筑立面构件的语义数据集，建筑立面风格包括写实、卡通等多种风格。

2.3 SAM网络模型训练

2.3.1 利用训练数据对网络进行训练：使用10万组数据；1000个epoch；batchsize为512。

相比于传统的多边形建模方法，本专利提出的基于文本驱动的三维建筑参数化建模方法得到的模型为矢量模型，易于编辑；同时具有自动化程度高等优点。主流的3D模型AI生成器，例如 Point-E 等，虽然远高于传统的多边形建模方法，但是生成的3D资产是无语义的、存在大量噪声，并且质量参差不齐、难以精确引导。本文提出的3D资产生成方法通过人工智能驱动、参数化矢量生成，可以高效、高质量的生成三维建筑资产。

在本申请中，本方法通过Stable Diffusion驱动生成相应的建筑立面图像，利用其强大的图像生成能力，能够生成各种类型的建筑，并且包括写实、卡通等多种风格。具有鲁棒性高、生成质量高、内容丰富等优点。

在步骤5中，本方法颠覆传统的人工建模方法。将各建筑构件信息表示为文本描述，通过文本驱动参数化生成系统生产3D资产，解放了生产力。

本发明的目的是提出一种完全自动的、无人工交互的三维建模方法。这种方法效率较高，错误率低，且能够得到理想的模型效果，适用于实时的基于文本驱动的三维建筑参数化建模方法。

本申请还提供了一种基于文本驱动的三维建筑参数化建模装置，所述基于文本驱动的三维建筑参数化建模装置包括关键特征提取模块，建筑体量及立面图像生成模块、语义分割模块、颜色获取模块、构件模型生成模块以及三维建筑拼装模块，其中，

关键特征提取模块用于自输入的文本中提取关键特征；

建筑体量及立面图像生成模块用于根据关键特征生成建筑体量以及建筑立面图像；

语义分割模块用于对建筑立面进行语义分割，从而获取语义区域；

颜色获取模块用于提取语义区域内像素的颜色；

构件模型生成模块用于根据所述语义区域、语义区域内像素的颜色生成参数化的各个构件模型；

三维建筑拼装模块用于对各个构件模型进行拼装，从而形成三维建筑。

图2是本发明一个或多个实施例提供的一种客户端结构框图。

如图2所示，本申请还公开了一种电子设备，包括：处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器中存储有计算机程序，当计算机程序被处理器执行时，使得处理器执行基于文本驱动的三维建筑参数化建模方法的步骤。

本申请还提供了一种计算机可读存储介质，其存储有可由电子设备执行的计算机程序，当计算机程序在电子设备上运行时，能够实现基于文本驱动的三维建筑参数化建模方法的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

电子设备包括硬件层，运行在硬件层之上的操作系统层，以及运行在操作系统上的应用层。该硬件层包括中央处理器(CPU，Central Processing Unit)、内存管理单元(MMU，Memory Management Unit)和内存等硬件。该操作系统可以是任意一种或多种通过进程(Process)实现电子设备控制的计算机操作系统，例如，Linux操作系统、Unix操作系统、Android操作系统、iOS操作系统或windows操作系统等。并且在本发明实施例中该电子设备可以是智能手机、平板电脑等手持设备，也可以是桌面计算机、便携式计算机等电子设备，本发明实施例中并未特别限定。

本发明实施例中的电子设备控制的执行主体可以是电子设备，或者是电子设备中能够调用程序并执行程序的功能模块。电子设备可以获取到存储介质对应的固件，存储介质对应的固件由供应商提供，不同存储介质对应的固件可以相同可以不同，在此不做限定。电子设备获取到存储介质对应的固件后，可以将该存储介质对应的固件写入存储介质中，具体地是往该存储介质中烧入该存储介质对应固件。将固件烧入存储介质的过程可以采用现有技术实现，在本发明实施例中不做赘述。

电子设备还可以获取到存储介质对应的重置命令，存储介质对应的重置命令由供应商提供，不同存储介质对应的重置命令可以相同可以不同，在此不做限定。

此时电子设备的存储介质为写入了对应的固件的存储介质，电子设备可以在写入了对应的固件的存储介质中响应该存储介质对应的重置命令，从而电子设备根据存储介质对应的重置命令，对该写入对应的固件的存储介质进行重置。根据重置命令对存储介质进行重置的过程可以现有技术实现，在本发明实施例中不做赘述。

为了描述的方便，描述以上装置时以功能分为各种单元、模块分别描述。当然在实施本申请时可以把各单元、模块的功能在同一个或多个软件和/或硬件中实现。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非被特定定义，否则不会用理想化或过于正式的含义来解释。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器或者网络设备等）执行本申请各个实施方式或者实施方式的某些部分所述的方法。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于文本驱动的三维建筑参数化建模方法，其特征在于，所述基于文本驱动的三维建筑参数化建模方法包括：

自输入的文本中提取关键特征；

根据关键特征生成建筑体量以及建筑立面图像；

对建筑立面进行语义分割，从而获取语义区域；

提取语义区域内像素的颜色；

对各个构件模型进行拼装，从而形成三维建筑。

2.根据权利要求1所述的基于文本驱动的三维建筑参数化建模方法，其特征在于，所述自输入的文本中提取关键特征包括：

3.根据权利要求2所述的基于文本驱动的三维建筑参数化建模方法，其特征在于，所述根据关键特征生成建筑体量以及建筑立面图像包括：

判断是否具有体量特征，若是，则

根据所述体量特征生成建筑体量信息；

根据所述建筑特征生成建筑立面图像信息。

4.如权利要求2所述的基于文本驱动的三维建筑参数化建模方法，其特征在于，所述根据关键特征生成建筑体量以及建筑立面图像进一步包括：

判断是否具有体量特征，若否，则

随机生成建筑体量信息；

根据所述建筑特征生成建筑立面图像信息。

5.如权利要求3或4所述的基于文本驱动的三维建筑参数化建模方法，其特征在于，所述对建筑立面进行语义分割，从而获取语义区域包括：

6.如权利要求5所述的基于文本驱动的三维建筑参数化建模方法，其特征在于，所述根据所述语义区域、语义区域内像素的颜色生成参数化的各个构件模型包括：

将语义区域以及语义区域内像素的颜色存储为文本描述；

7.一种基于文本驱动的三维建筑参数化建模装置，其特征在于，所述基于文本驱动的三维建筑参数化建模装置包括：