CN117351325B

CN117351325B - 一种模型训练方法、建筑效果图生成方法、设备及介质

Info

Publication number: CN117351325B
Application number: CN202311659282.1A
Authority: CN
Inventors: 裘云丹; 陈天驰; 徐梁燕; 屠昂; 夏哲聃; 何青松; 虞洋
Original assignee: Zhejiang Province Institute of Architectural Design and Research
Current assignee: Zhejiang Architectural Design and Research Institute Co.,Ltd.
Priority date: 2023-12-06
Filing date: 2023-12-06
Publication date: 2024-03-01
Anticipated expiration: 2043-12-06
Also published as: CN117351325A

Abstract

本发明公开了一种模型训练方法、建筑效果图生成方法、电子设备以及计算机可读介质，涉及机器学习技术领域，包括如下步骤：采集建筑图片；对采集的建筑图片进行打标，形成训练集；基于稳定扩散模型，通过低秩适应的方式进行训练，获得配合稳定扩散模型使用的生成工程图的低秩适应模型；使用经过训练的低秩适应模型生成建筑效果图。本发明填补了稳定扩散模型和低秩适应模型在建筑\室内\景观\城市设计领域中的空白。

Description

一种模型训练方法、建筑效果图生成方法、设备及介质

技术领域

本发明涉及机器学习技术领域，具体涉及一种模型训练方法、建筑效果图生成方法、电子设备以及计算机可读介质。

背景技术

稳定扩散模型是一个图像生成模型,采用自回归的方式生成图片。其采用负对数似然损失函数,此损失函数不需要鉴别器,可以直接用于自监督训练；使用residualtransformer network变换器网络,可以捕捉图片的长期依赖,生成更连贯的图片；使用高斯噪声z作为条件,通过transformer encoder混合到自回归的历史,生成下一步的预测；采用简单的前馈设计,当前步预测只依赖历史序列,不依赖预见的未来序列,这样可以并行化训练,实现快速的wallclock时间；使用ancestral sampling,先采样z,然后从z开始递归地生成图片像素,这比随机采样由于可以利用图片的连续性,生成的图片更连贯。

由于稳定扩散模型是将数据映射到高维空间进行处理，但在处理某个细分的小任务时，只需要在某个子空间范围内就可以解决，因此针对建筑领域的特定任务不需要对稳定扩散模型进行全量参数进行优化，采用低秩适应的方式训练模型即可。低秩是指低本征秩，当对某个子空间参数进行优化时，能够达到全量参数优化的性能的一定水平时，这个子空间参数矩阵的秩即称为对应当前待解决问题的本征秩。低秩适应训练是通过优化密集层在适应过程中变化的秩分解矩阵，间接训练神经网络中的特定的密集层，从而实现仅优化密集层的秩分解矩阵来达到微调效果。其训练结果为低秩适应模型。

综上,稳定扩散模型及其采样训练方法简单有效, 低秩适应模型提出了针对特定任务训练特定密集层的秩分解矩阵的方法,将编码-解码框架应用于图像生成,二者为未来的生成模型研究提供了重要的思路和技术手段。而上述技术手段，在建筑\室内\景观\城市设计领域尚处空白。

发明内容

本发明旨在一定程度上解决相关技术中的技术问题之一。为此，本发明提供了一种模型训练方法，填补了稳定扩散模型和低秩适应模型在建筑\室内\景观\城市设计领域中的空白。

为了达到上述目的，本发明采用如下技术方案：

一种模型训练方法，包括如下步骤：

采集：采集建筑图片；

预处理：对采集的建筑图片进行打标，打标的标记以及对应的建筑图片形成训练集；

训练：基于稳定扩散模型，通过低秩适应的方式进行训练，获得配合稳定扩散模型使用的生成工程图的低秩适应模型；

使用：使用经过训练的工程图生成模型生成工程图。

可选的，在采集步骤中，采集的建筑图片满足如下条件：

长或宽不低于512像素，无噪点，无水印，无过度饱和，无过度曝光，无重复图片，具有概念方案沟通的深度。

可选的，所述预处理步骤中，对采集的建筑图片进行打标包括：

对建筑图片进行缩放裁剪，缩放裁剪后的建筑图片的分辨率为64倍数，最长边不超过2048像素；

对建筑图片中的建筑物标记为对应的建筑物标签，并形成对应的触发词；

将建筑图片中除建筑物以外的其他所有元素标记为对应的名称标签；

触发词放置于其他所有元素对应名称的标签之前；

对建筑物的立面特征或风格进行补充描述，形成对应的特征描述词；

可选的，所述训练步骤包括如下子步骤：

设定低秩适应模型的超参数；

获取训练集的最优学习率；

基于训练集的最优学习率设定优化器参数、U型神经网络学习率、文本编码器调整学习率；

基于设定的超参数、优化器参数、U型神经网络学习率和文本编码器调整学习率训练低秩适应模型。

可选的，设定低秩适应模型的超参数包括：选定稳定扩散大模型，通过修改训练集的文件夹前缀以设定重复次数，输入训练集的路径地址，设定低秩适应模型的分辨率为1024*1024，对应的批次大小为3，启用纵横比分桶并将纵横比分桶最小分辨率设为512像素，纵横比分桶最大分辨率设为2048像素，设定低秩适应模型的保存频率为1，设定最大训练轮次为10，网络维度为128，网络Alpha为64，噪声偏移设为0.1，跳过层设为1。

可选的，获取训练集的最优学习率包括如下步骤：

设定优化器为D-Adaptation，同时设置学习率为1，学习率调整方式使用常数，而后开始训练，利用Tensorboard观测训练过程，当学习率呈现水平直线时，将Y轴数值作为训练集的最优学习率。

可选的，设定优化器参数、U型神经网络学习率、学习率调整方式包括：

设定优化器为AdamW8bit；设置U型神经网络学习率为训练集的最优学习率；设置文本编码器学习率为训练集的最优学习率的一半；

或设定优化器为Lion；设置U型神经网络学习率为训练集的最优学习率的三分之一；设置文本编码器学习率为训练集的最优学习率的六分之一；

学习率调整方式为余弦重启，重启次数为2-4次。

可选的，训练低秩适应模型包括如下步骤：

加载设定的超参数，设定最大提示词长度，读取训练集并对训练集进行分组；

加载选定的稳定扩散大模型、U型神经网络、变分自动编码器以及文本编码器；

根据训练集中建筑图片的数量对每一张建筑图片创建相应的缓存潜空间；

根据设定的低秩适应模型的超参数构建低秩适应模型，同时创建72个文本编码器和192个U型神经网络模块并启用；

计算总学习步数，总学习步数=（建筑图片数量*重复次数*训练轮次）/训练批次；

使用分词器将打标后的标记转变为数据形式，由文本编码器进行编码，转换为文本嵌入条件，文本嵌入条件为最大提示词长度加上起始和结束为总长度的768个通道的数据；

根据保存频率以及最大训练轮次重复以下训练步骤，以更新U型神经网络模型参数：

通过卷积运算对训练集中每一张建筑图片加入随机次数的随机噪声，同时将加入随机噪声的次数作为时间嵌入条件，其中，随机噪声图的数据满足正态高斯分布，数据尺寸和训练集中建筑图片的尺寸相同；

添加随机噪声后的建筑图片由变分自动编码器将有像素空间数据转换为潜空间数据后输入缓存潜空间；

缓存潜空间中的数据输入U型神经网络以输出预估噪声，预估噪声与时间嵌入条件比较，计算损失函数值；

U型神经网络模型经过最大训练轮次的训练后停止训练，保存最终的低秩适应模型。

可选的，在训练步骤中，鸟瞰模型的损失函数值在0.07-0.10区间，城市设计模型的损失函数值在0.09-0.14区间，除鸟瞰模型和城市设计模型以外的其他模型的损失函数值在0.06-0.09区间。

相对应的，本发明还提供了一种建筑效果图生成方法，利用经过上述任意一项所述的模型训练方法训练的低秩适应模型生成建筑效果图，包括如下步骤：

选择稳定扩散模型，搭配配套的变分自动编码器，设定迭代步数、采样方法、图片尺寸、设定随机种子为-1；

加载经过训练的低秩适应模型，设置权重在0.45-0.7区间；

上传控制图片并启用控制网络，根据需要用对应的预处理器，对控制图片进行处理；

填写正向提示词和反向提示词，所述正向提示词包括场景描述词、质量控制词以及低秩适应模型对应的触发词，将低秩适应模型对应的触发词写在正向提示词的第一位；

设定批次及数量；

对比出图结果，并记录其对应的随机种子；

使用记录的随机种子，设定批次数为一，同时使用高清修复，进行图片生成，对比生成结果，形成最终的建筑效果图。

本发明所提供的技术方案，通过参数设置，让稳定扩散模型和低秩适应模型学习相应的建筑\室内\景观\城市设计风格图集，学习到对应的设计风格，形成相关的模型文件，通过调用这些模型文件，输入提示词或提示词加控制图对画面进行控制，即可获取符合设计者设计意图的前期概念设计方案图。

并且，本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的模型训练方法，或实现前述的建筑效果图生成方法。

同时，本发明还提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的模型训练方法，或实现前述的建筑效果图生成方法。

本发明的这些特点和优点将会在下面的具体实施方式以及附图中进行详细的揭露。本发明最佳的实施方式或手段将结合附图来详尽表现，但并非是对本发明技术方案的限制。另外，在每个下文和附图中出现的这些特征、要素和组件是具有多个，并且为了表示方便而标记了不同的符号或数字，但均表示相同或相似构造或功能的部件。

附图说明

下面结合附图对本发明作进一步说明：

图1为本发明实施例中模型训练方法的流程图；

图2为本发明实施例中建筑效果图生成方法的流程图；

图3为本发明所提供的电子设备的示意图；

图4为本发明所提供的计算机可读介质的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。基于实施方式中的实施例，旨在用于解释本发明，而不能理解为对本发明的限制。

在本说明书中引用的“一个实施例”或“实例”或“例子”意指结合实施例本身描述的特定特征、结构或特性可被包括在本专利公开的至少一个实施例中。短语“在一个实施例中”在说明书中的各位置的出现不必都是指同一个实施例。

作为本发明的第一个方面，本发明提供一种模型训练方法。如图1所示，本实施例所提供的工程图生成方法包括：

采集：采集建筑图片；

训练：基于稳定扩散模型，通过低秩适应的方式进行训练，获得配合稳定扩散模型使用的生成工程图的低秩适应模型。在这一步骤里，稳定扩散模型为经过预训练的稳定扩散模型，即模型在发布之初即经过训练。

本实施例所提供的技术方案，通过参数设置，让稳定扩散模型和低秩适应模型学习相应的建筑\室内\景观\城市设计风格图集，学习到对应的设计风格，形成相关的模型文件，通过调用这些模型文件，输入提示词或提示词加控制图对画面进行控制，即可获取符合设计者设计意图的前期概念设计方案图。

在本公开中，对如何执行采集步骤不做特殊的限定。作为一种可选实施方式，采集的建筑图片满足如下条件：

采集的建筑图片避免模糊、噪点等问题，以免会影响模型的学习效果，从而降低模型的准确性。建筑图片的长或宽不低于512像素，且无水印，无过度饱和，无过度曝光等情形。

采集的建筑图片数量尽可能多，如果用作训练的建筑图片太少，模型会出现过拟合，导致泛化能力不足。而大数量保证了训练集的丰富多样，有助于提高模型的性能和泛化能力。同时，采集的建筑图片包括期望的建筑类别或建筑风格。

采集的建筑图片无重复图片，覆盖了不同视角、不同照明条件、不同场景、不同环境以及不同天气，以保证模型的泛化性。

采集的建筑图片达到建工领域概念方案沟通的深度，包括细部构件、材质等信息。同时，由于目前AIGC技术更多用在概念方案阶段，因此采集的建筑图片具备一定的设计感。

在本公开中，对如何执行预处理步骤不做特殊的限定。作为一种可选实施方式，所述预处理步骤中，对采集的建筑图片进行缩放裁剪打标，包括：

对建筑图片中的建筑物标记为对应的建筑物标签，并形成对应的触发词，例如办公建筑，采用ZIAD-office_building作为触发词，以区分稳定扩散大模型中的办公建筑（office_building）的概念。特定的触发词可以在工程图生成过程中更好的调用低秩适应模型中触发对应概念内容；

触发词放置于其他所有元素对应名称的标签之前；

对建筑物的立面特征或风格进行补充描述，形成对应的特征描述词。例如使用facade of horizontal elements标签描述建筑外立面的横向构件。建筑物的立面特征为本领域的通用技术含义，此处不再赘述，另外，建筑物的风格包括但不限于哥特式、巴洛克式等，以及各种区分方式下不同的风格。而特征描述词位置需靠前，一般放在触发词后一位，以在标签中强化相关概念，生成更工程化的图片用于建工领域，使机器更有针对性的学习。

在本公开中，对如何执行训练步骤不做特殊的限定。作为一种可选实施方式，训练步骤包括如下子步骤：

设定低秩适应模型的超参数；

获取训练集的最优学习率；

在本公开中，对如何执行设定低秩适应模型的超参数步骤不做特殊的限定。作为一种可选实施方式，设定低秩适应模型的超参数包括：

选定稳定扩散大模型；

通过修改训练集的文件夹前缀以设定重复次数。单轮次内训练集重复训练次数。不同的训练集会采用不同的重复次数。当训练所使用的数据集为30至60张图片时，重复次数为100，当训练所使用的数据集为60至200张图片时，重复次数为150，当训练所使用的数据集为200张以上图片时，重复次数为180。在二次训练时也可以根据最大训练轮次的最终模型的损失函数值进行调整。当损失函数值（Loss）大于0.09时，提高重复次数；损失函数值小于0.06时，降低重复次数。

输入训练集的路径地址。

对于鸟瞰视角的大场景低秩适应模型采用2048*1536的分辨率；对于透视视角的小场景低秩适应模型采用1024*1024，1024*768或768*1024的分辨率。本实施例中，设定低秩适应模型的分辨率为1024*1024。

分辨率为1024*1024的低秩适应模型对应的批次大小为3。批次大小即模型一次训练抓取的样本量。批次大小越大，学习梯度越稳定。对于2048*1536分辨率的低秩适应模型，批次大小选择2；对于1024*1024分辨率的低秩适应模型，批次大小选择3；对于1024*768或768*1024分辨率的低秩适应模型，批次大小选择4。基于此，本实施例中，选定分辨率为1024*1024的低秩适应模型对应的批次大小为3。

纵横比分桶为允许使用非固定宽高比的图像来训练,其分辨率必须大于训练模型分辨率。本实施例中，启用纵横比分桶并将纵横比分桶最小分辨率设为512像素，纵横比分桶最大分辨率设为2048像素。

模型保存频率为每N轮自动保存一次低秩适应模型。本实施例中，设定低秩适应模型的保存频率为1，即每一轮保存一次低秩适应模型。

最大训练轮次用于设置检查点确认模型学习成果以及模型的保存，训练轮次越少，学习梯度越稳定。本实施例中，设定最大训练轮次为10。

网络维度为神经网络数量，根据实际的训练集图片数量和使用的网格结构决定。网络维度越大，神经网络学习更精细，画面细节越多，同时也会生成更大的低秩适应模型。当网络维度为256时，每一个保存的低秩适应模型大小约为288MB；当网络维度为128时，每一个保存的低秩适应模型大小约为144MB；当网络维度为时，每一个保存的低秩适应模型大小约为72MB；当网络维度为64时，每一个保存的低秩适应模型大小约为36MB。本实施例中，网络维度优选采用128。

网络alpha（network_alpha）常用与网络维度相同的值或者采用较小的值，通常网络维度的一半防止下溢。因此网络维度和网络alpha一般会使用128或64。网络alpha如果也设置为128图片容易比例失调，出现较多多余的物品。本实施例中，网络alpha优选采用64。

噪声偏移用于添加在训练中，以改良生成非常暗或者非常亮的图像。本实施例中噪声偏移设为0.1。

由于CLIP是一个神经网络，因此具有很多层。提示词以简单的方式被数字化，然后通过各层传递。在第一层之后，可以得到提示的数值表示，将其输入到第二层，将其输出输入到第三层，依此类推，直到到达最后一层，即为用于稳定扩散的CLIP输出，此为跳过层为1的情况。使用倒数第二层的输出，此为跳过层为 2 的情况。停止越早，神经网络对提示的处理就越少。本实施例中，跳过层设为1。

在本公开中，对如何执行获取训练集的最优学习率步骤不做特殊的限定。作为一种可选实施方式，获取训练集的最优学习率包括如下步骤：

学习率分为U型神经网络学习率和文本编码器学习率。U型神经网络学习率和文本编码器学习率通常是不同的，如果U型神经网络训练不足，则生成的图片与实际相似度极低；如果U型神经网络训练过度，则会导致图像扭曲或者产生大量色块。文本编码器训练不足会影响提示词调用的准确性，文本编码器训练过度则会生成多余的物品。

设定优化器为D-Adaptation。优化器D-Adaptation为FB发表的自适应学习率的优化器，调参简单，无需手动控制学习率。使用时设置学习率为1，优化器会计算合适的学习率并且以常数的形式进行训练。

同时，优化器D-Adaptation需要添加代码"--optimizer_args decouple=1"来分离U型神经网络学习率和文本编码器学习率。

而后开始训练，利用Tensorboard观测训练过程，在训练初步稳定后，学习率会呈现水平直线。当学习率呈现水平直线时，其Y坐标数值即为优化器D-Adaptation计算出的训练集的最优学习率。此时记录训练集的最优学习率并停止训练。本实施例中，先使用优化器D-Adaptation并设置学习率为1。

在本公开中，对如何执行基于训练集的最优学习率设定优化器参数、U型神经网络学习率、学习率调整方式步骤不做特殊的限定。作为一种可选实施方式，基于训练集的最优学习率设定优化器参数、U型神经网络学习率、学习率调整方式包括：

设定优化器为AdamW8bit，启用的int8优化的AdamW优化器，默认选项，训练效果最为稳定；设置U型神经网络学习率为训练集的最优学习率；设置文本编码器学习率为训练集的最优学习率的一半；

或设定优化器为Lion，优化器Lion为Google Brain发表的新优化器，各方面表现优于AdamW，同时占用显存更小，可能需要更大的批次大小以保持梯度更新稳定；设置U型神经网络学习率为训练集的最优学习率的三分之一；设置文本编码器学习率为训练集的最优学习率的六分之一；

学习率调整方式一般使用带重启的余弦退火方式，也称为余弦重启。学习率下降方式符合公式：

其中，Ti表示第i个周期的迭代次数，T0表示第一个周期的迭代次数。学习率按照余弦的方式下降，前期学习率高，学习速度快，可以快速降低损失函数接近目标区间，后期学习率低，可以在目标区间内更精细的调整低秩适应模型。采用重启的目的是避免低秩适应模型陷入局部最优状态，重启次数一般不超过4次。

或设定学习率调整方式为常数。

本实施例中，优化器为Lion,学习率调整方式使用余弦重启，重启次数为3次。

在其他实施例中，也可以在训练时先运行D-Adaptation测出最优学习率，再采用AdamW8bit进行训练。

在本公开中，对如何执行基于设定的超参数、优化器参数、U型神经网络学习率和学习率调整方式训练低秩适应模型步骤不做特殊的限定。作为一种可选实施方式，基于设定的超参数、优化器参数、U型神经网络学习率和学习率调整方式训练低秩适应模型包括如下步骤：

加载设定的超参数，同时还需准备分词器备用，本实施例中，分词器为OpenAI公司开源模型clip-vit-large-patch14中的分词器BERT；

设定最大提示词长度，通常设置为255，以便于工程图生成过程中用更多的提示词更为精准的描述图片内容；

读取训练集并对训练集进行分组；具体而言，根据设定的批次大小、训练模型分辨率、纵横比分桶最小分辨率、纵横比分桶最大分辨率以及训练集重复次数，利用纵横比分桶，将训练集分组。

准备加速器备用，加载选定的稳定扩散大模型、U型神经网络、变分自动编码器以及文本编码器，本实施例中，文本加速器为OpenAI公司开源模型clip-vit-large-patch14中的文本编码器；

使用分词器将打标后的标记转变为数据形式，例如，【an office building(一栋办公楼)】将转变为【2020，2437，2312】的数据形式，而后由文本编码器进行编码，转换为文本嵌入条件，文本嵌入条件为最大提示词长度加上起始和结束为总长度的768个通道的数据。以默认设置为例，最大提示词长度为75，在文本编码器编码后转换位的文本嵌入条件为768个通道的长度为77的数据。同理，如果最大提示词长度为255，在文本编码器编码后转换位的文本嵌入条件为768个通道的长度为257的数据。而打标的标记，则为前述建筑物标签形成的对应的触发词；其他所有元素标记对应的名称标签；对建筑物的立面特征或风格进行补充描述形成的特征描述词。

根据保存频率以及最大训练轮次重复以下步骤，以更新U型神经网络模型参数。本实施例中，通过反向传播算法，根据加载的学习率和学习率调整方式逐步调整U型神经网络模型参数，使其损失函数值逐步下降：

添加随机噪声后的建筑图片由变分自动编码器将像素空间数据转换为潜空间数据后输入缓存潜空间。以1024*1024分辨率的图片为例，在像素空间中实际每个像素点包含有RGB三个通道的数据信息，因此可以视为三通道的1024*1024的矩阵数据。经过变分自动编码器编码后会变为四个通道的128*128的矩阵数据向量。同理，1024*768分辨率的图片会准换为四个通道128*96的矩阵数据向量。

缓存潜空间中的数据输入U型神经网络以输出预估噪声，预估噪声与时间嵌入条件比较，计算KL散度损失作为函数值。U型神经网络在训练时引入文本嵌入条件，利用注意力机制可以更好地引导图像往文本向量方向生成。

通过反向传播算法，根据加载的学习率和学习率调整方式逐步调整U型神经网络模型参数。

U型神经网络模型经过总学习步数的调整后停止训练，保存最终的低秩适应模型。

在本公开中，对如何执行训练步骤不做特殊的限定。作为一种可选实施方式，训练步骤还包括如下子步骤：

低秩适应模型完成训练后，可以通过TensorBoard和损失函数值初步判定模型的优劣。

TensorBoard 是 TensorFlow 的可视化工具。在 Stable Diffusion 模型训练中，TensorBoard 可以用来可视化训练过程中的损失函数值、梯度等信息，以及生成图片的质量等信息。通过TensorBoard能确定过程模型相应的损失函数值，由于最终的模型可能并非是最优模型，因此，损失函数值逐步下降的曲线模型效果更优。

在模型训练中，损失函数值通常是代表生成图片的质量，即生成图片与真实图片之间的差异。一般对于建筑透视模型而言，损失函数值在0.06-0.09范围内的模型效果最佳。

当损失函数值大于0.09时，输出的模型会呈欠拟合状态，输出的建筑图片会呈现出模糊的状态，或输入相应概念提示词没有输出对应的概念。此时可通过提高重复次数、增加轮次或提高学习率的方式使之降低；

当损失函数值小于0.06时，输出的模型会呈过拟合状态，以至于没有泛化性，无法举一反三。图片可能呈现出现与训练集完全相同的内容，或者变化不大，画面饱和度变高的情形。输入不同环境下相应概念的提示词，会输出相同或类似的图片。此时可通过降低重复次数、降低轮次或降低学习率的方式使之升高。

鸟瞰模型的损失函数值在0.07-0.10区间，城市设计模型的损失函数值在0.09-0.14区间，除鸟瞰模型和城市设计模型以外的其他模型的损失函数值在0.06-0.09区间为较优低秩适应模型。

在本公开中，对如何执行训练步骤不做特殊的限定。作为一种可选实施方式，训练步骤还包括模型测试：

低秩适应模型一般在训练中会产生多个过程模型。使用Stable Diffusion的XYZ脚本可以方便地进行低秩适应模型的测试，以选择最佳的低秩适应模型及它所适配的权重。首先，打开Stable Diffusion的XYZ脚本工具，并在可选附加网络中加载训练的所有低秩适应模型。然后，配置脚本中的参数，在XYZ轴类型中可选择如可选附加网络模型、可选附加网络权重、采样迭代步数、提示词相关性等，在XYZ轴值中将希望测试的相应参数以逗号连接。XYZ脚本可以自动更换所希望测试的参数，最终图片会以表格的形式生成，此时模型对比一目了然，选择最佳的图片对应相应的最优模型，并得到相应最佳的适配参数。

本实施例中，具体测试过程如下：先将所有过程模型为X轴,0.3，0.4，0.5，0.6，0.7，0.8六种权重作为Y轴的值进行测试，缩小目标范围，选取建筑清晰、训练特征明显的模型及相应权重进行下一轮提示词测试。除了必须的触发词、相关描述及质量词外，可依次加入扎哈、日景、夜景、雪天、夕阳、雨天等提示词测试模型的泛化性。筛选出较好的模型及权重进行控制网络测试，用线稿或深度图对图片进行控制后看模型的效果，最终选出最优模型及相应权重值。

作为本发明的第二个方面，本发明提供了一种建筑效果图生成方法，如图2所示，利用经过前述任意一项的模型训练方法训练的低秩适应模型生成建筑效果图，包括如下步骤：

选择稳定扩散模型。在本实施例中，选取的稳定扩散模型是在StabilityAI开源的1.5~2.1模型基础之上微调得到。但是，不同微调的模型由不同的训练集训练得到，所以会学习到不同的风格、质量等，选择不同的模型会得到不同的效果。

搭配变分自动编码器。由于稳定扩散模型将大量的运算过程放在潜空间中进行，因此，需要使用变分自动编码器对图片在像素空间和潜空间内进行转化。通常低秩适应模型训练不涉及变分自动编码器，而不同的变分自动编码器效果不同。因此，为了更好的出图效果，本实施例使用了外挂的变分自动编码器。

设定迭代步数。迭代步数为稳定扩散模型生成图片过程是一个循环迭代的过程，在一定范围内迭代越多次效果越好。迭代步数越大，图片细节越多。当迭代步数不足时，会呈现未完成的噪声图片。

设定采样方法。在稳定扩散模型出图的过程中，提示词通过CLIP转化为77*768的条件文本嵌入，U型神经网络根据文本嵌入为条件，对潜空间图像迭代降噪。U型神经网络输出噪声的残差，通过调度器进行降噪计算并返回本轮的去噪样本。调度器采用不同采样方式进行工作，对应不同的算法。通常使用DPM++ 2M Karras以达到稳定的效果。为了寻求创意则采用Euler a、DPM++ SDE或DPM++ SDE Karras。

设定图片尺寸。为了更好的图面视觉效果，在方块尺寸外，本实施例采用16:9之类的比例。

设定随机种子为-1。随机种子为一串8位的数字，代表不同的初始潜空间纯高斯噪声图。一个随机种子代表一个方向，设定-1则为随机抽取。

加载低秩适应模型，设置权重在0.45-0.7区间。在这一部中，不同类型的建筑图片加载不同类型的低秩适应模型。

上传控制图片并启用控制网络，根据需要用对应的预处理器，对控制图片进行处理。控制图片为希望控制的建筑形体的线稿或深度图，控制网络是一个能够从线稿、深度、语义分割等方面控制图像生成的插件。在建筑、室内、景观、城规领域生成图片的过程中极为重要。比较常用的有线稿艺术(Linear art)、深度图（Depth）和语义分割（SemanticSegmentation）。线稿艺术是用来检测图片线条的算法，可以用这个处理器从线条中还原图片，用于控制建筑外形等。深度图用于表现空间关系，使图片有前后空间关系。语义分割通常用于城市设计或鸟瞰图等图面内容复杂的情况，用不同颜色可以控制物品及材质。目前不同的物品或材质可用SED20K表搜索到，以此可实现较为精准控制。可同时调用多个控制网络模型，并且适当降低权重保证图片质量。

填写正向提示词和反向提示词。正向提示词及反向提示词用来引导图片的生成。正向提示词描述结构一般为画面主体、细节描述、修饰与补充、画面色调、风格与艺术家及画面细节参数组成。反向提示词描述想要避免的东西，也会用反向提示词来保证生成图像的质量。正向提示词包括场景描述词、质量控制词以及低秩适应模型对应的触发词，例如大师之作（Masterpiece）、最好的效果（Bestquality）、写实（Realistic）、8K等。例如低质量（Low quality）、水印（Watermark）、裁剪的（cropped）等为反向提示词。

低秩适应模型的特定触发词置于正向提示词的第一位，用于调用模型内容。提示词采用逗号隔开的格式，越靠前的提示词权重越大；使用（）英文括号可增加括号中提示词的权重乘1.1倍，[]可使提示词的权重减小为0.9倍。还需要对场景进行描述。

设定批次及数量，可根据需求控制生成图片的批次及数量。先采用多批次，数量为一的设定进行多次尝试生成。

对比出图结果，并记录其对应的随机种子；

使用记录的随机种子，设定批次数为一，同时使用高清修复。高清修复可以修复低分辨率的图片。通常放大算法选择4x-Ultrasharp或R-ESRGAN 4x+。重绘幅度可以控制放大图片时细节的变化，重绘幅度越大代表放大时变化越多。一般重绘幅度选取0.3。在相同提示词下，不同的图像尺寸也会导致生成的图像内容不同。

最后进行图片生成，对比生成结果，选取优质图片，形成最终的工程图。

与此同时，本实施例还提供了一种电子设备，如图3所示，包括：

一个或多个处理器101；

存储器102，其上存储有一个或多个计算机程序，当所述一个或多个计算机程序被所述一个或多个处理器101执行时，所述一个或多个处理器101实现根据本发明第一个方面所述的工程图生成方法。

所述电子设备还可以包括一个或多个I/O接口103，连接在所述处理器101与存储器102之间，配置为实现所述处理器101与存储器102的信息交互。

其中，处理器101为具有数据处理能力的器件，其包括但不限于中央处理器101（CPU）等；第一存储器102为具有数据存储能力的器件，其包括但不限于随机存取存储器102（RAM，更具体如SDRAM、DDR等）、只读存储器102（ROM）、带电可擦可编程只读存储器102（EEPROM）、闪存（FLASH）；I/O接口103（读写接口）连接在处理器101与存储器102间，能实现处理器101与存储器102的信息交互，其包括但不限于数据总线104（Bus）等。

在一些实施例中，处理器101、存储器102和I/O接口103通过总线104相互连接，进而与计算设备的其它组件连接。

作为本发明的第三个方面，提供一种计算机可读介质，如图4所示，其上存储有计算机程序，所述计算机程序被处理器执行时实现本公开第一个方面所提供的工程图生成方法。

本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。据此，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可实现上述任意一项实施例的方法。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM (PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)以及存储器总线动态RAM(RDRAM)等。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，熟悉该本领域的技术人员应该明白本发明包括但不限于附图和上面具体实施方式中描述的内容。任何不偏离本发明的功能和结构原理的修改都将包括在权利要求书的范围中。

Claims

1.一种模型训练方法，其特征在于，所述模型训练方法包括如下步骤：

采集：采集建筑图片；

所述训练步骤包括如下子步骤：

设定低秩适应模型的超参数，包括：选定稳定扩散大模型，通过修改训练集的文件夹前缀以设定重复次数，输入训练集的路径地址，设定低秩适应模型的分辨率为1024*1024，对应的批次大小为3，启用纵横比分桶并将纵横比分桶最小分辨率设为512像素，纵横比分桶最大分辨率设为2048像素，设定低秩适应模型的保存频率为1，设定最大训练轮次为10，网络维度为128，网络Alpha为64，噪声偏移设为0.1，跳过层设为1；

获取训练集的最优学习率，包括如下步骤：

设定优化器为D-Adaptation，同时设置学习率为1，学习率调整方式使用常数，而后开始训练，利用Tensorboard观测训练过程，当学习率呈现水平直线时，将Y轴数值作为训练集的最优学习率；

基于训练集的最优学习率设定优化器参数、U型神经网络学习率、文本编码器调整学习率，包括：

学习率调整方式为余弦重启，重启次数为2-4次；

基于设定的超参数、优化器参数、U型神经网络学习率和文本编码器调整学习率训练低秩适应模型；

训练低秩适应模型包括如下步骤：

添加随机噪声后的建筑图片由变分自动编码器将像素空间数据转换为潜空间数据后输入缓存潜空间；

2.根据权利要求1所述的模型训练方法，其特征在于，在采集步骤中，采集的建筑图片满足如下条件：

3.根据权利要求1所述的模型训练方法，其特征在于，所述预处理步骤中，对采集的建筑图片进行打标包括：

触发词放置于其他所有元素对应名称的标签之前；

对建筑物的立面特征或风格进行补充描述，形成对应的特征描述词。

4.根据权利要求1所述的模型训练方法，其特征在于，在训练步骤中，鸟瞰模型的损失函数值在0.07-0.10区间，城市设计模型的损失函数值在0.09-0.14区间，除鸟瞰模型和城市设计模型以外的其他模型的损失函数值在0.06-0.09区间。

5.一种建筑效果图生成方法，其特征在于，所述建筑效果图生成方法利用经过权利要求1至4中任意一项所述的模型训练方法训练的低秩适应模型生成建筑效果图，包括如下步骤：

选择稳定扩散模型，搭配变分自动编码器，设定迭代步数、采样方法、图片尺寸、设定随机种子为-1；

加载经过训练的低秩适应模型，设置权重在0.45-0.7区间；

设定批次及数量；

对比出图结果，并记录其对应的随机种子；

使用记录的随机种子，设定批次数为一，同时使用高清修复，进行图片生成，形成最终的建筑效果图。

6.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，其上存储有一个或多个计算机程序，当所述一个或多个计算机程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求1至4中任意一项所述的模型训练方法，或实现根据权利要求5所述的建筑效果图生成方法。

7.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任意一项所述的模型训练方法，或实现根据权利要求5所述的建筑效果图生成方法。