CN112966760A

CN112966760A - 融合文本和图像数据的神经网络及其建筑结构的设计方法

Info

Publication number: CN112966760A
Application number: CN202110274380.8A
Authority: CN
Inventors: 陆新征; 廖文杰; 郑哲
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2021-06-15
Anticipated expiration: 2041-03-15
Also published as: CN112966760B

Abstract

本发明属于土木结构工程与计算机深度学习应用技术领域，特别涉及一种融合文本和图像数据的神经网络及其建筑结构的设计方法。融合文本和图像数据的神经网络中的生成器生成图像，判别器判断图像的真假，生成器包含文本编码和特征提取网络，以获取文本特征矩阵，以及将文本特征矩阵和图像特征矩阵融合，并基于融合特征生成图像的网络。根据待设计建筑结构的语言描述文本和建筑特征元素的像素化图像，采用本发明的融合文本和图像数据的神经网络，完成建筑结构的设计。本方法根据建筑设计图像和结构基本设计属性文本，快速输出对应的结构设计，实现图像和文本多模态数据融合指导下的自动化建筑结构设计。

Description

融合文本和图像数据的神经网络及其建筑结构的设计方法

技术领域

本发明属于土木结构工程与计算机深度学习应用技术领域，特别涉及一种融合文本和图像数据的神经网络及其建筑结构的设计方法。

背景技术

工程师在建筑结构初步设计阶段，需要考虑建筑布置的需求、结构设计基本设计规范文本的约束、以及常用结构设计经验文本的指导。目前依靠人工的结构设计往往难以综合考虑建筑布置、设计规范和经验的约束，且结构设计自动化、智能化程度不足，亟需一种综合考虑图像和文本数据约束的自动化结构初步设计方法。

但是，建筑布置图像数据与基本结构设计条件文本数据的格式完全不同，数字化的图像为三维矩阵，而数字化的文本为一维向量；且图像与文本的隐含特征差异显著，建筑图像特征限制了结构的布置范围，文本特征则指导结构的可能布置方案。这些差异导致了建筑图像与设计条件文本难以直接融合并生成对应的结构设计方案。同时，采用机器学习方法开展结构设计面临显著的小样本训练难题，导致广泛应用的大型深度神经网络无法得到充分训练，难以应用于工程结构设计中。因此，图像文本数据融合与小样本数据训练的难题，影响了自动化结构设计的发展。

此前，本申请人提出一项相关中国发明专利申请，目前正在审查中。申请号为202010446468.9，发明名称为：基于对抗生成网络的剪力墙结构布置方法和装置。该发明公开了一种基于对抗生成网络的剪力墙结构布置方法和装置：该方法和装置通过对建筑设计图纸中的关键元素(填充墙、门窗洞口)进行特征提取，并将提取的特征采用颜色填充形成建筑设计特征图像，将该图像输入生成对抗网络中，该网络输出得到建筑结构设计图像。该发明的缺点是无法考虑建筑结构设计过程中，不同结构设计属性的文本约束对结构设计结果的影响，且该方法进行生成对抗网络训练时需要对数据分组，导致训练数据减少，降低了生成对抗网络性能。

发明内容

本发明的目的是提出一种融合文本和图像数据的神经网络及其建筑结构的设计方法，根据建筑平面图纸和建筑结构基本设计属性的文本，快速输出满足图像和文本设计条件约束的结构设计，实现图像和文本多模态数据指导下的自动结构设计。

本发明提出的一种融合文本和图像数据的神经网络，包括生成器和判别器，其中的生成器生成图像，判别器判断图像的真假，生成器包含文本编码和特征提取网络，以获取文本特征矩阵，以及将文本特征矩阵和图像特征矩阵融合，并基于融合特征生成图像的网络。

本发明提出的建筑结构的设计方法，包括以下步骤：

(1)构建和训练一个融合文本和图像数据的神经网络；并开展前述神经网络的性能评估，评估合格后的神经网络可进行应用；

(2)获取待设计建筑结构的语言描述文本，从语言描述文本中抽取待设计建筑结构的关键属性，并对关键属性进行数字化编码，即将关键属性转化为浮点数格式的十进制数字一维向量；

(3)获取待设计建筑结构的建筑特征元素的像素化图像，对像素化图像进行数字化编码，得到一个三维矩阵；

(4)将步骤(2)的编码后的十进制数字一维向量和步骤(3)的三维矩阵输入步骤(1)的融合文本和图像数据的神经网络中，实现图像与文本特征融合，并基于融合后的特征映射生成满足初始设计条件的建筑结构设计，完成建筑结构的设计。

本发明提出的融合文本和图像数据的神经网络及其建筑结构的设计方法，其优点是：

本发明的神经网络及其建筑结构的设计方法，通过获取待处理的基本结构设计属性文本，提取文本中关键属性并进行数字化编码，将编码后的关键文本属性输入神经网络中进行深度特征提取和上采样，得到文本特征三维矩阵；采用神经网络对建筑设计特征图像进行深度特征提取和下采样，得到图像特征三维矩阵；保证文本特征和图像特征的三维矩阵尺寸一致，实现多模态数据格式匹配；对文本特征和图像特征的三维矩阵进行融合计算，并基于融合特征生成建筑结构设计图像。由此，能根据建筑设计图像和结构基本设计属性文本，快速输出对应的结构设计，实现图像和文本多模态数据融合指导下的自动化建筑结构设计。与已有技术相比，本发明提出了一种全新的深度神经网络架构，能实现图像和文字同时输入该神经网络进而生成全新图像的功能，同时该神经网络能有效的适应建筑结构工程设计中数据样本稀少状态下的训练和应用。该发明能够满足结构工程师进行建筑结构自动化设计的需求，通过输入建筑设计图像以及对结构设计属性的描述文字，直接生成符合建筑图像和文字描述的建筑结构设计方案，而已有技术只能基于建筑图像生成建筑结构设计，无法考虑设计条件文本对设计结果的改变。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明提出的融合文本图像数据的神经网络及其建筑结构设计的流程框图。

图2是本发明方法中设计的融合文本图像数据的神经网络示意图。

图3是利用本发明的融合文本图像数据的神经网络进行建筑结构设计的流程图。

图4是本发明方法中设计的典型结构设计数据集。

图5是本发明方法中引用的WIoU计算和SIoU计算方法示意图。

图6是本发明提出的神经网络的n×上采样块数量的超参数分析结果示意图。

图7是本发明提出的不同基本结构设计条件对应的不同建筑结构设计示意图。

具体实施方式

本发明提出的融合文本和图像数据的神经网络，其中的生成器生成图像，判别器判断图像的真假，生成器包含文本编码和特征提取网络，以获取文本特征矩阵，以及将文本特征矩阵和图像特征矩阵融合，并基于融合特征生成图像的网络。

上述融合文本和图像数据的神经网络，包括生成器和判别器，判别器为一种基于卷积神经网络通用判别网络，生成器为本发明提出的一种新型神经网络，其中所述的生成器的形成过程包括以下步骤：

(1)设文本中的一行文字代表一类建筑结构设计属性(建筑结构设计属性为抗震设防烈度、结构高度、结构构件布置位置等)，将每一行文字转化为浮点数格式的十进制数字一维向量；将每一类建筑结构设计属性的一维向量进行自复制，使一维向量扩展为三维矩阵，将该三维矩阵记为初始掩码三维矩阵；

(2)利用残差网络块(ResNetBlock)，从步骤(1)的初始掩码三维矩阵中提取深度特征，利用反卷积神经网络(Transpose Convolutional Neural Networks)，对深度特征进行上采样扩展得到更大尺寸的三维矩阵，将该三维矩阵记为扩展掩码三维矩阵；

(3)重复上述步骤(1)和步骤(2)，得到与所有建筑结构设计属性类别相对应的多个扩展掩码三维矩阵，将多个扩展掩码三维矩阵进行哈达玛积(Hadamard Product)计算，使不同属性的文字约束进行融合并输出为一个三维矩阵，将该三维矩阵记为融合掩码三维矩阵；

(4)对建筑设计图像进行数字化编码，得到图像三维矩阵，采用卷积神经网络对图像三维矩阵进行特征提取和下采样，得到一个与步骤(3)的融合掩码三维矩阵尺寸相同的图像特征三维矩阵；

(5)对步骤(3)的融合掩码三维矩阵和步骤(4)的图像特征三维矩阵进行哈达玛积计算，实现文字和图像特征的融合，得到一个特征融合三维矩阵；

(6)利用残差网络块和反卷积神经网络，对步骤(5)的特征融合三维矩阵进行特征提取和上采样，映射生成建筑结构设计图像。

本发明提出的建筑结构的设计方法，包括以下步骤：

(1)构建和训练一个如上所述的融合文本和图像数据的神经网络；并开展前述神经网络的性能评估，评估合格后的神经网络可进行应用；

(2)获取待设计建筑结构的语言描述文本，基于先验知识，从语言描述文本中抽取待设计建筑结构的关键属性，并对关键属性进行数字化编码，即将关键属性转化为浮点数格式的十进制数字一维向量；

在本申请的实施例中，基于结构设计的先验知识，从语言描述文本抽取的待设计建筑结构的关键属性包括：待设计建筑结构的抗震设防烈度、结构高度和重点部位墙体布置要求，形成关键属性词组。采用十进制的浮点数格式，对关键属性词组中的每个单词进行数值化编码。

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

本发明提出的融合文本和图像数据的神经网络，包括生成器(Generator)和判别器(Discriminator)。其中所述的生成器包括：对建筑结构设计属性的文本进行数字化编码，并基于残差网络块和反卷积神经网络对前述编码后的文本进行特征提取和上采样，得到文本特征三维矩阵；采用卷积神经网络对建筑设计图像进行特征提取，得到图像特征三维矩阵；将前述文本特征三维矩阵和图像特征三维矩阵进行融合，并基于融合后特征映射生成建筑结构设计图像。进一步包括，对融合文本和图像数据的神经网络进行训练和评估，评估得到性能合格的神经网络用于建筑结构设计。将结构设计属性的文本和建筑设计特征图像同时输入前述神经网络中，输入满足文本和图像共同约束的建筑结构设计结果。

以下结合附图，详细介绍本发明的实施例：

本发明为实现融合文本和图像数据的神经网络构建，并基于构建的神经网络进行建筑结构设计，首先提出了一种新的融合文本和图像数据的神经网络构建方法，具体步骤如下：

步骤1、获取一种图像到图像转化的生成对抗网络(名称为：pix2pixHD)，该生成对抗网络包括生成器和判别器，保留判别器，构建一种全新的生成器，进而构建一个全新的融合文本和图像数据的神经网络(名称为：TxtImg2Img)，如图2A所示。图2B所示的文本编码和特征提取网络构建详细步骤如下：

步骤1.1设文本中的一行文字代表一类建筑结构设计属性(关键属性包括：待设计建筑结构的抗震设防烈度、结构高度和重点部位墙体布置要求，形成关键属性词组)，将每一行文字转化为浮点数格式的十进制数字一维向量；将每一类建筑结构属性的一维向量进行自复制，使一维向量扩展为三维矩阵，将该三维矩阵记为初始掩码三维矩阵；

步骤1.2利用残差网络块(ResNet Block)，从步骤(1.1)的初始掩码矩阵中提取深度特征，利用反卷积神经网络(Transpose Convolutional Neural Networks)，对深度特征进行上采样扩展得到更大尺寸的新三维矩阵，将该三维矩阵记为扩展掩码三维矩阵；

步骤1.3重复上述步骤(1.1)和步骤(1.2)，得到与所有建筑结构属性类别相对应的多个扩展掩码矩阵，将多个扩展掩码矩阵的进行哈达玛积(Hadamard Product)计算，使不同属性的文字约束进行融合并输出为一个三维矩阵，将该三维矩阵记为融合掩码三维矩阵；

步骤1.4对建筑设计图像进行数字化编码，得到图像三维矩阵，采用卷积神经网络对图像三维矩阵进行特征提取和下采样，得到一个与步骤(1.3)的融合掩码矩阵尺寸相同的图像特征三维矩阵；

步骤1.5对步骤(1.3)的融合掩码三维矩阵和步骤(1.4)的图像特征三维矩阵进行哈达玛积计算，实现文字和图像特征的融合，得到一个特征融合三维矩阵；

步骤1.6利用残差网络块和反卷积神经网络，对步骤(1.5)的特征融合三维矩阵进行特征提取和上采样，映射生成建筑结构设计图像。

步骤2、对构建的融合文本和图像数据的生成对抗网络进行训练、超参数调整、评估和应用于建筑结构设计中，具体步骤如下：

步骤2.1首先创建用于训练和测试的数据集。通过获取已有的建筑设计图纸、配套的结构设计图纸与基本设计条件文本，采用结构设计的先验知识对图纸关键元素和文本关键属性进行预提取，完成数据集创建。采用随机划分得到训练集与测试集。该数据集包括输入标签数据和输出目标数据。

步骤2.2基于步骤2.1创建的训练数据集对融合文本和图像数据的神经网络进行训练；并对该网络中的重要超参数进行调整，影响文本特征提取与对生成图像约束效果的主要超参数是图2B中的n参数，即上采样块的数量；参见本申请人提出的发明专利申请“基于对抗生成网络的剪力墙结构布置方法和装置(申请号：202010446468.9)”发明的生成结构设计的性能评价方法及其指标Score_IoU对该生成对抗神经网络进行性能评价，认为得到的Score_IoU得分超过0.45则认为设计合格，超过0.5则认为设计优异。

步骤2.3基于步骤2.2训练和评估得到合格的融合文本和图像数据的神经网络，输入需要进行设计的建筑设计图像以及建筑结构设计的基本属性文本，前述融合文本和图像数据的神经网络将会自动生成与输入图像和文本匹配的建筑结构设计。

至此，完成了融合文本和图像数据的神经网络构建，以及基于该网络的建筑结构设计生成。

为了本领域人员更加清楚上述实施例，下面结合图2-图7进行详细说明。

本申请实施例所提供的融合文本和图像数据的神经网络及其生成建筑结构设计的方法包括两个步骤：1)构建融合文本和图像数据的神经网络(图2所示)，已在前述说明中对该网络的创建进行了详细说明，此处不再重复说明；2)基于该神经网络进行生成建筑结构设计(详细步骤如图3所示)：数据集的创建与神经网络模型的训练，结构设计性能的评估，以及将合格的神经网络模型应用于结构设计。后续将以一具体案例对步骤2)的效果进行更加具体的展示。

(1)数据集创建

首先创建数据集，典型数据集如图4所示。通过获取建筑设计图纸、配套的结构设计图纸与基本设计条件文本，采用结构设计的先验知识对图纸关键元素和文本关键属性进行预提取，完成数据集创建。采用随机划分得到训练集与测试集。该数据集包括输入标签数据和输出目标数据。

输入标签数据包括建筑设计关键特征像素图，以及基本结构设计条件关键特征文本描述。这些标签均是通过结构设计的先验知识进行了特征预筛选和提取的。如图4A所示：建筑设计特征元素图像中，灰色图元代表可布置墙体部位，绿色图元代表门窗和室内门洞，蓝色代表室外门洞(该图像创建方式引自发明专利申请“基于对抗生成网络的剪力墙结构布置方法和装置(申请号：202010446468.9)”)；基本结构设计条件文本描述分别为抗震设防烈度、建筑高度范围，eight代表该结构抗震烈度为8度，150代表结构高度低于150m。其余的设计条件类推，seven代表抗震设防烈度为7度，50代表结构高度低于50m。

输出目标数据，用于指导生成对抗神经网络生成的结果尽量与目标结果一致。目标数据为结构设计图，红色图元代表结构剪力墙(或者结构柱)布置部位，灰色代表非结构填充墙布置位置，绿色图元代表门窗和室内门洞，蓝色代表室外门洞。

(2)性能评估方法

本发明提出了适用于生成对抗神经网络的结构设计图像评价方法及相应的指标(Score_IoU)。Score_IoU由三个关键指标获取η_SWratio，WIoU，SIoU(式(1))。η_SWratio表示了生成的剪力墙与目标剪力墙总量之间的差异，即生成对抗神经网络的结构设计中剪力墙占总可布置墙体位置的比例(SWratio)与目标结构设计SWratio的差异(式(2))；WIoU由图5A得到的混淆矩阵计算得到(式(3))，该方法通过生成对抗神经网络设计图像与目标设计图像的元素逐像素匹配对比进行评价；SIoU则由图5B计算得到(式(4))，该方法通过对比生成对抗神经网络设计的剪力墙轮廓与目标剪力墙轮廓的重合程度进行评价；η_SIoU与η_WIoU为SIoU和WIoU的权重，均取0.5。Score_IoU指标的本质是从结构设计的数量与布置位置的合理性角度进行评价(该评价方式引自发明专利申请“基于对抗生成网络的剪力墙结构布置方法和装置(申请号：202010446468.9)”)。

Score_IoU＝η_SWratio×(η_SIoU×SIoU+η_WIoU×WIoU)

1)

(3)神经网络训练和调试

本发明为实现文字和图像数据的融合，并生成对应的建筑结构设计，提出了一种新型融合文本和图像数据的神经网络(TxtImg2Img)。该网络架构如图2A所示，在生成器中，该网络同时输入图像和文字作为标签；将图像和文字分别编码后采用卷积神经网络进行高维特征提取，并采用哈达玛积(Hadamard Product)将两种特征在高维空间进行融合，得到融合的数据特征；基于该融合的高维特征采用反卷积神经网络进行目标图像的生成。判别器则进行图像的真假判别。整个生成对抗神经网络架构提升了图像生成的质量，且融合的文字和图像输入，进而保证了生成的图像同时满足图像和文字的条件约束。

该新型生成对抗神经网络中，文字特征提取与融合是本发明的重点，图2B给出了文字编码与特征提取的网络架构。需注意：输出的融合掩码尺寸与对应的图像特征矩阵尺寸一致；影响文字约束效果的主要超参数是图2B中的n参数，即上采样块的数量。n对应上采样网络深度的改变，需要通过简单的参数分析，综合确定最优的超参数。基于图3中Score_IoU参数计算的评价方法，对参数n开展了讨论，分析结果如图6所示。

图6中G7-H1，G7-H2，G8则代表文字属性描述分别为设防烈度7度-高度小于50m，设防烈度7度-高度大于50m且小于150m，设防烈度8度-高度小于150m这三类的图像生成结果。本质上，Score_IoU是一个基于生成结构设计与目标设计重合度的指标，当该指标Score_IoU>0.5时，意味着生成结果优异。

首先，可以看到G7-H2，G8这两组数据的Score_IoU在不同n参数下的表现均相当优异，且n为不同参数时的设计结果非常接近。因此，决定该算法性能的关键在于G7-H1的表现，可以看到当n＝3时，该模型的生成结果最好，Score_IoU为0.48非常接近0.5。因此，对于建筑设计-结构设计数据组而言，效果最好的文字图像数据融合的生成对抗神经网络中对应n×上采样块＝3。

(4)生成对抗神经网络融合文字图像数据的结构设计应用

图7所示为相同建筑设计图像输入情况下，采用不同的基本结构设计条件文本进行指导，最终生成不同的结构设计结果，不同设计条件下的设计结果存在显著的差异。图7A为初始建筑输入。

图7B所示文本为“seven；50”意味着其抗震设防烈度为7度，结构高度低于50m，其对应的地震作用相对最小，因此设计的剪力墙数量最小；

图7C所示文本为“seven；150”意味着其抗震设防烈度为7度，结构高度高于50m且低于150m，其对应的地震作用相对中等，因此设计的剪力墙数量居中；

图7D所示文本为“eight；150”意味着其抗震设防烈度为8度，结构高度高于50m且低于150m，其对应的地震作用相对最高，因此设计的剪力墙数量最多。

可以看到，在不同的初始设计条件文本的约束下，该生成对抗神经网络能有效的完成满足不同设计需求的结构设计。

为了实现上述实施例，本申请实施例提出了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如前述终端设备执行方法实施例所述的融合文本和图像数据的神经网络及其生成建筑结构设计的方法。

为了实现上述实施例，本申请实施例提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现前述方法实施例所述的融合文本和图像数据的神经网络及其生成建筑结构设计的方法。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种融合文本和图像数据的神经网络，包括生成器和判别器，其特征在于，其中的生成器生成图像，判别器判断图像的真假，生成器包含文本编码和特征提取网络，以获取文本特征矩阵，以及将文本特征矩阵和图像特征矩阵融合，并基于融合特征生成图像的网络。

2.如权利要求1所述的融合文本和图像数据的神经网络，包括生成器和判别器，其特征在于，所述的生成器的形成过程包括以下步骤：

(1)设文本中的一行文字代表一类建筑结构设计属性，将每一行文字转化为浮点数格式的十进制数字一维向量；将每一类建筑结构设计属性的一维向量进行自复制，使一维向量扩展为三维矩阵，将该三维矩阵记为初始掩码三维矩阵；

(2)利用残差网络块,从步骤(1)的初始掩码三维矩阵中提取深度特征，利用反卷积神经网络,对深度特征进行上采样扩展得到更大尺寸的三维矩阵，将该三维矩阵记为扩展掩码三维矩阵；

(3)重复上述步骤(1)和步骤(2)，得到与所有建筑结构设计属性类别相对应的多个扩展掩码三维矩阵，将多个扩展掩码三维矩阵进行哈达玛积计算，使不同属性的文字约束进行融合并输出为一个三维矩阵，将该三维矩阵记为融合掩码三维矩阵；

3.一种建筑结构的设计方法，其特征在于包括以下步骤：

(1)构建和训练一个如权利要求2所述的融合文本和图像数据的神经网络；并开展前述神经网络的性能评估，评估合格后的神经网络可进行应用；