CN116776420A

CN116776420A - 基于深度学习的稳态扩散模型的建筑设计方法及系统

Info

Publication number: CN116776420A
Application number: CN202310579906.2A
Authority: CN
Inventors: 范华冰; 宁文峰; 黎国进; 龙潇; 姚元庆; 曾凡超
Original assignee: Central South Architectural Design Institute Co Ltd
Current assignee: Central South Architectural Design Institute Co Ltd
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-09-19

Abstract

本发明公开了一种基于深度学习的稳态扩散模型的建筑设计方法及系统，属于建筑设计技术领域，其中，方法的实现包括：对收集的图像数据及文本数据进行标注得到数据集，通过数据集基于SD模型进行训练，得到经过训练的SD模型；输入待处理的文本数据和图像数据，通过训练的SD模型进行分析和计算，得到建筑图像，并使用Real‑ESRGAN对建筑图像进行超分辨率处理。本发明利用AI技术的优势，能帮助设计师改变现有的专业实践方式和工作流程，辅助设计以提高工作效率，启发设计思路，丰富原有建筑功能和建筑形式，实现设计的快速成型。

Description

基于深度学习的稳态扩散模型的建筑设计方法及系统

技术领域

本发明属于建筑设计技术领域，更具体地，涉及一种基于深度学习的稳态扩散模型的建筑设计方法及系统。

背景技术

现代人工智能的概念由约翰·麦肯锡(John McCarthy)在达特茅斯会议(Dartmouth Conference)上提出。该会议标志着人工智能的诞生。

目前，人工智能已经深入到各行各业，通过运用数字化、智能化、信息化技术，以支撑设计师的创作。Stable Diffusion稳态扩散由CompVis、Stability AI和LAION共同开发的一种潜在的文本到图像的扩散模型，它能够在给定任何文本的情况下生成逼真的图像，获得具有“自主自由”形态的令人难以置信的图像，使得人们能在几秒钟创作出令人惊叹的艺术作品。模型基于LAION-5B数据库中512*512的图像以及文本进行训练，形成子集-LAION-Aesthetics。扩散模型主要包括前向扩散和逆向扩散过程，首先在前向扩散过程中把随机噪声逐渐加入样本中，然后通过逆向扩散过程从噪声中生成样本。扩散模型凭借其在高质量图像生成领域中表现出的优异性能，使其受到越来越多研究者们的青睐。正是扩散模型的出现，让AI绘图产生质的变化，实现了AI与传统行业的又一次深度融合。StableDiffusion的推理过程并不复杂，首先，Diffusion模型将Seed、图片、文本提示等参数作为输入，使用Latent Space的种子生成随机图像，通过CLIP的文本编码器将输入的文本转换为同等长度的词向量。然后，使用U-Net以文本为嵌入条件，同时迭代地对随机潜在图像表示进行去噪，通过Scheduler算法计算去噪的潜在图像表示，最后，潜在图像表示由变分自编码器的解码器部分进行解码。对于Stable Diffusion，常用的有PNDM Scheduler、DDIMScheduler、KLMS Scheduler。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提出了一种基于深度学习的稳态扩散模型的建筑设计方法及系统，将Stable Diffusion深度学习模型成功应用于建筑行业。

为实现上述目的，按照本发明的一个方面，提供了一种基于深度学习的稳态扩散模型的建筑设计方法，包括：

对收集的图像数据及文本数据进行标注得到数据集，通过数据集对SD模型进行训练，得到经过训练的SD模型；

输入待处理的文本数据和图像数据，通过训练的SD模型进行分析和计算，得到建筑图像，并使用Real-ESRGAN对建筑图像进行超分辨率处理。

在一些可选的实施方案中，所述对收集的图像数据及文本数据进行标注得到数据集，包括：

对收集的图像数据进行文本标注，以描述图像与文字的信息，形成图像与文本的平行数据，其中，对各图像的描述包括：视角、画面清晰程度、画面光影效果、画面结构、画面风格及描述语的权重。

在一些可选的实施方案中，所述通过数据集对SD模型进行训练，包括：

对SD模型中的训练基础模型、文本描述、随机种子、迭代步数、初始图片的名称和路径、结果图片的名称和路径、Mask图片的名称和路径、在训练过程中逐步向图像添加噪声的算法、扩散过程迭代步数、生成的图像与输入提示的紧密程度与输入的多样性之间的权衡及文本特征提取器参数进行调整并验证。

在一些可选的实施方案中，通过深层语法检测系统进行文本描述。

在一些可选的实施方案中，通过前端接收用户输入的文本和图像数据，以HTTP请求形式发送至通讯中间件，由通讯中间件对前端提交的文本和图像数据进行整合，形成结构化的任务数据供SD模型使用，由SD模型对打包的任务数据进行解析，待服务结束后将结果逐层反馈至前端。

在一些可选的实施方案中，所述方法采用基于Web的分布式架构，前端Web浏览器接收输入的图像和文本数据，数据流转至Nginx负载均衡服务器，Nginx根据设置的轮询权重参数，将数据提交至合适的后台服务器，待后台服务器计算完成后，以消息推送的形式将运行结果主动推送至前端，及时将消息展示到前端。

在一些可选的实施方案中，在后台服务器计算工作中，通过引入Python协程技术，实现多任务的并行处理，通过设置角色和权限等级，在多个任务到达到后，通过综合加权计算，将任务放入不同的优先级队列中，优先处理高等级的任务。

按照本发明的另一方面，提供了一种基于深度学习的稳态扩散模型的建筑设计装置，包括：

训练模块，用于对收集的图像数据及文本数据进行标注得到数据集，通过数据集对SD模型进行训练，得到经过训练的SD模型；

应用模块，用于输入待处理的文本数据和图像数据，通过训练的SD模型进行分析和计算，得到建筑图像，并使用Real-ESRGAN对建筑图像进行超分辨率处理。

按照本发明的另一方面，提供了一种基于深度学习的稳态扩散模型的建筑设计系统，包括：前端、后台及硬件；

所述前端作为用户层，用于接收用户文字、图像、配置参数的输入以及结果反馈显示；

后台包括的数据层，用于将用户输入的数据格式化为本地保存训练用的模型数据；

后台包括的服务层，用于对用户输入的数据进行分析，按任务进行组装，待训练完成，将结果反馈到用户层；

硬件作为设施层，用于根据运行需求搭建硬件环境。

按照本发明的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述方法的步骤。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

人工智能(Artificial Integlligence，AI)，从其概念的提出至今，对AI的研究方兴未艾。本发明结合Web技术，提供了一套基于深度学习的稳态扩散模型(StableDiffusion Model，SD)，成功将该模型应用于建筑行业，实现了人工智能与建筑行业进行深度融合，通过引入人工智能，AI训练师只需输入简单的文字信息和图像数据，可得到经过训练的SD模型，建筑设计师基于SD模型创作设计方案。本发明方案由训练部分和应用部分两部分组成。训练部分主要依据收集的图像数据集和文本数据集，训练企业自有的SD模型，并对模型进行更新，供设计师使用。应用部分主要是建筑方案设计创作的应用，设计师通过前端界面输入文本和图像数据，提交至后台，后台将数据纳入到模型中进行分析和计算，最后将结果反馈至前端。根据稳态扩散模型的训练结果，结合应用需求，设计师从主观意图上分析生成结果对设计或决策的帮助。同时，AI训练师还可以以结果图像作为输入，微调描述词，再次进行迭代训练，不断更新企业SD模型，直到取得满意的应用结果。据统计，建筑设计领域中应用AI技术的研究日益增多。其中，平面布局和形体是研究数量最多的设计任务，分别占到42％和26％。目前，AI技术还不能完全替代设计师的创意行为，但是本发明利用AI技术的优势，能帮助设计师改变现有的专业实践方式和工作流程，辅助设计以提高工作效率，启发设计思路，丰富原有建筑功能和建筑形式，实现设计的快速成型。

附图说明

图1是本发明实施例提供的一种基于深度学习的稳态扩散模型的建筑设计方法的流程示意图；

图2是本发明实施例提供的一种训练部分实现流程示意图；

图3是本发明实施例提供的一种应用部分实现流程示意图；

图4是本发明实施例提供的一种Deep Grammar系统框架；

图5是本发明实施例提供的一种多任务的并发处理示意图；

图6是本发明实施例提供的一种系统架构设计示意图

图7是本发明实施例提供的一种输入展示示意图，其中，(a)为训练图片，(b)为描述语；

图8是本发明实施例提供的一种应用结果展示示意图，其中，(a)为基于参考图的AI设计，(b)为基于手绘图的AI设计，(c)为基于草模的AI设计，(d)为图片高分辨率实现。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明融合了多项技术，主要有：人工智能技术、Web前端&后端技术、科学计算。详细信息如下表1所示，本发明旨在为建筑设计师提供一种创意设计服务，总体分为训练部分和应用部分。

表1

图1是本发明实施例提供的一种基于深度学习的稳态扩散模型的建筑设计方法的流程示意图，包括：

S101：对收集的图像数据及文本数据进行标注得到数据集，通过数据集对SD模型进行训练，得到经过训练的SD模型；

S102：输入待处理的文本数据和图像数据，通过训练的SD模型进行分析和计算，得到建筑图像，并使用Real-ESRGAN对建筑图像进行超分辨率处理。

如图2所示，训练部分具体包括以下几个部分：

1.图像和文本数据标注：

AI训练师对收集到的图片数据、文本数据进行标注。图片数据的来源有2部分：一部分来自公司的建筑数据库，一部分来自互联网，对收集的图片数据进行文本标注，为准确描述图像与文字的信息，从如下方面进行描述：(1)视角：广角、微距、俯瞰、仰视等；(2)画面清晰程度：精致细节、高清等；画面光影效果：光照效果、体积照明；(3)画面结构：金属结构、木质结构等；(4)画面风格：古典主义、新古典主义、浪漫主义、现实主义、印象主义等；(5)描述语的权重：越靠前的词语权重越大。总体而言，可以从场景、元素、结构关系、颜色、风格等多角度多维度进行描述。形成图像与文本的平行数据。

2.基于SD的训练：

Stable Diffusion是一个扩散模型，StabilityAI对模型进行改进，把核心计算从像素空间转移到了潜在空间，极大提升了训练的稳定性、画质和速度。为更好地实现目标结果，需要对算法中的参数进行调整并验证，主要参数有：Model：训练基础模型；Prompt：文本描述；Seed：随机种子；Strength：值越小，迭代的步数越小，与初始图片的差距也越小，范围[0～1]；InitImage Path：初始图片的名称和路径；OutImage Path：结果图片的名称和路径；MaskImage Path：Mask图片的名称和路径；Scheduler：在训练过程中逐步向图像添加噪声的算法；扩散参数：Inference_steps：扩散过程迭代步数；Guidance_scale：生成的图像与输入提示的紧密程度与输入的多样性之间的权衡。数值越大越贴近描述文本，越小越靠近原图；Tokenizer：文本特征提取器。

3.调整&优化&更新模型：

通过给AI“喂数据”，以及相关参数配置，让AI更加智能。每训练一次，系统会自动生成一次测试结果，通过多次训练后，检测“loss曲线”图等其他关键指标，以初步判断生成的模型是否合格。同时，训练师会对新生成的模型进行多参数多维度的测试。经过多次的参数调整、模型优化，达到“训练集”和“测试集”的合格基准后才能进行模型的更新。

如图3所示，应用部分具体包括以下几个部分：

1.数据输入：

目前，平台的使用需要输入一张或多张图片以及与应用目标对应的一段描述。图片支持多种类型的图像格式，如PNG、JPG/JPEG等。设计师可以在Windows、Linux、android、IOS等平台，利用当前系统自带的绘图软件进行绘图。绘图完成后，根据应用目标输入一段描述文字，使用平台的前端软件，将图文数据和参数一并提交至后台。

2.数据输出：

后台接收到数据后，把数据打包形成任务，同时，为任务分配计算机资源，结合最新的模型进行分析，生成AI合成图，然后将结果反馈至前端。根据平台的训练结果，结合应用需求，设计师从主观意图上分析生成结果对设计或决策的帮助。同时，设计师还可以以结果图像作为输入，微调描述词，再次进行迭代，直到取得满意的结果。

在本发明实施例中，如图4所示，在人机交互设计部分，接收来自用户输入的文本和图像数据，其中，文本是平台的主要重要参数。因此需要进行文本拼写与语法检测。不同的应用场景，输入的文本也不同，在人为输入时，难免会出错，从而导致训练结果出现偏差，影响最终的结果。如何规避此类问题，是平台需要重点考虑的问题。为解决上述问题，引入深层语法(Deep Grammar)语法检测系统。该系统基于人工智能，采用人工神经网络来检测人们学习语法过程中所遇到的各种问题，可以调整灵敏度来检查英语句子是否符合英文语法标准。Deep Grammar本质是通过神经网络，将上下文表示为固定长度的向量，然后用这个向量去预测动词的形态。该方法不仅对短距离的Context能够有优秀的建模能力，也能够解决有较长依赖的语法错误。Deep Grammar是基于双向GRU网络，其系统框架图如图4所示。

在本发明实施例中，平台的使用对象是面向所有设计师，如何解决众多设计师的批量请求与高并发问题，以及在后台系统运行过程中，如何快速处理IO数据交换、减少阻塞、降低延迟是平台设计的重点。为此，平台设计了一套自定义通讯协议和一套通讯中间件。其通讯模型如图5所示。该通讯中间件的主要作用是实现业务前端和AI后台服务之间的数据流转与格式转换。前端采用JSON格式对协议内容进行封装，通过消息中间件将格式转换为适用于AI的格式，实现AI服务的调用。通讯协议的部分接口和功能如下表2所示：

表2

序号	接口	功能
			1	http://*/api/aiDraw/app	应用
2	http://*/api/aiDraw/app/{uuid}	获取应用状态和结果
			3	http://*/api/aiDraw/train	训练
4	http://*/api/aiDraw/train/{uuid}	获取训练状态和结果

前端接收用户输入的数据，以HTTP请求形式发送至通讯中间件。由通讯中间件对前端提交的数据进行整合，形成结构化的任务数据供AI服务使用。AI服务对打包的任务数据进行解析，待服务结束后将结果逐层反馈至前端。

为解决大量用户的请求，平台设计采用基于Web的分布式架构，前端Web浏览器接收大量设计师的输入，数据流转至Nginx负载均衡服务器，Nginx根据设置的轮询权重参数，将数据提交至合适的后台服务器，待后台服务器计算完成后，以消息推送的形式将运行结果主动推送至前端客户端，及时将消息展示到前端。

在后台服务器计算工作中，通过引入Python协程技术，实现多任务的并行处理，以达到效率最优、硬件使用最优。为响应不同角色对于平台的需求，平台通过设置角色和权限等级，在任务到达到后，通过综合加权计算，将任务放入不同的优先级队列中，优先处理高等级的任务。采用一系列的技术，有力地保障了系统高并发与高可用，有效地缩短响应时间，提高吞吐量。

在本发明实施例中，分辨率决定了图像细节的精细程度，通常情况下，图像的分辨率越高，图像就越清晰。本发明经过模型分析，生成的AI合成图为512*512的图像。为提供给设计师一个高清的生成结果进行参考跟应用，使用Real-ESRGAN对应用结果进行超分辨率处理，将应用结果长宽等比扩大2倍，从512*512的图像扩展为1024*1024的高清图像。

Real-ESRGAN旨在开发通用图像、视频恢复的实用算法，可以把它理解为一个图像、视频修复放大工具，能被应用于真实场景下的图像修复。Real-ESRGAN使用了更复杂的降级方法，能更好的模拟真实世界中的低分辨模糊情况，并使用纯合成数据来进行训练，通过模拟高分辨率图像的退化过程来恢复一般现实场景的低分辨率图像，达到从低分辨率图像到高分辨率图像的重建。Real-ESRGAN中提供了一套训练好的模型(RealESRGAN_x4plus.pth)，可以进行4倍的超分辨率，对于图片分辨率太低，画质太差，可以进行很好的修复。

如图6所示，系统架构共分为4层：用户层、数据层、服务层、设施层。每层的主要功能如下：

用户层：接收用户文字、图像、配置参数等的输入以及结果反馈显示；

数据层：将用户输入的数据格式化为本地保存训练用的模型数据；

服务层：对用户输入的数据进行分析，按任务进行组装，待训练完成，将结果反馈到用户层；

设施层：根据平台的运行需求搭建硬件环境。

如图7所示，本发明使用一台高性能显卡和高运算能力的服务器，进行了一次训练和三种类型输入的应用，其中，(a)为训练图片，(b)为描述语。通过输入4种训练图片以及一系列描述词汇，根据Loss结果，合格后更新模型。

如图8所示是本发明实施例提供的一种应用结果展示示意图，其中，(a)为基于参考图的AI设计，(b)为基于手绘图的AI设计，(c)为基于草模的AI设计，(d)为图片高分辨率实现，左侧为原图，右侧使用Real-ESRGAN放大图。

需要指出，根据实施的需要，可将本申请中描述的各个步骤/部件拆分为更多步骤/部件，也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件，以实现本发明的目的。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的稳态扩散模型的建筑设计方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对收集的图像数据及文本数据进行标注得到数据集，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述通过数据集对SD模型进行训练，包括：

4.根据权利要求2所述的方法，其特征在于，通过深层语法检测系统进行文本描述。

5.根据权利要求1所述的方法，其特征在于，通过前端接收用户输入的文本和图像数据，以HTTP请求形式发送至通讯中间件，由通讯中间件对前端提交的文本和图像数据进行整合，形成结构化的任务数据供SD模型使用，由SD模型对打包的任务数据进行解析，待服务结束后将结果逐层反馈至前端。

6.根据权利要求5所述的方法，其特征在于，所述方法采用基于Web的分布式架构，前端Web浏览器接收输入的图像和文本数据，数据流转至Nginx负载均衡服务器，Nginx根据设置的轮询权重参数，将数据提交至合适的后台服务器，待后台服务器计算完成后，以消息推送的形式将运行结果主动推送至前端，及时将消息展示到前端。

7.根据权利要求6所述的方法，其特征在于，在后台服务器计算工作中，通过引入Python协程技术，实现多任务的并行处理，通过设置角色和权限等级，在多个任务到达到后，通过综合加权计算，将任务放入不同的优先级队列中，优先处理高等级的任务。

8.一种基于深度学习的稳态扩散模型的建筑设计装置，其特征在于，包括：

9.一种基于深度学习的稳态扩散模型的建筑设计系统，其特征在于，包括：前端、后台及硬件；

硬件作为设施层，用于根据运行需求搭建硬件环境。

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。