CN110060255A

CN110060255A - 利用逐像素分类器来对2d平面图进行语义分割

Info

Publication number: CN110060255A
Application number: CN201811610377.3A
Authority: CN
Inventors: A·雷耶步斯夫; L·杜邦德迪内尚; M·布尔克纳福德
Original assignee: Dassault Systemes of America Corp
Current assignee: Dassault Systemes SE; Dassault Systemes of America Corp
Priority date: 2017-12-28
Filing date: 2018-12-27
Publication date: 2019-07-26
Also published as: JP2019149148A; EP3506160A1; EP3506160B1; JP7376233B2; US12051261B2; US20190243928A1

Abstract

本发明特别涉及一种用于确定函数的计算机实现的方法，该函数被配置为确定表示建筑的布局的2D平面图的语义分割。该方法包括提供包括2D平面图的数据集，每个2D平面图与相应的语义分割相关联。该方法还包括基于数据集来学习函数。这种方法提供了用于处理2D平面图的改进的解决方案。

Description

利用逐像素分类器来对2D平面图进行语义分割

技术领域

本发明涉及计算机程序和系统领域，并且更具体地涉及用于处理表示建筑的布局的二维(2D)平面图的方法、系统和程序。

背景技术

市场上提供了许多用于对象设计、工程和制造的系统和程序。CAD是计算机辅助设计的首字母缩写，例如它涉及用于设计对象的软件解决方案。CAE是计算机辅助工程的首字母缩写，例如，它涉及用于模拟未来产品的物理行为的软件解决方案。CAM是用于计算机辅助制造的首字母缩写，例如，它涉及用于定义制造过程和操作的软件解决方案。在这种计算机辅助设计系统中，图形用户界面在技术效率方面起着重要作用。这些技术可以嵌入在产品生命周期管理(PLM)系统中。PLM指的是一种业务战略，它可以帮助公司分享产品数据，应用通用流程，并利用企业知识从概念到生命结束，在扩展企业的概念上开发产品。DassaultSystèmes(商标为CATIA、ENOVIA和DELMIA)提供的PLM解决方案提供了组织产品工程知识的工程中心、管理制造工程知识的制造中心以及实现企业集成和连接到工程中心和制造中心的企业中心。所有这些系统一起交付了一个开放对象模型，将产品、流程和资源联系起来，以实现动态的、基于知识的产品创建和决策支持，其推动优化的产品定义、制造准备、生产和服务。

在该上下文和其他上下文中，提供2D平面图的计算机化处理可能是有用的。

研究人员和CAD开发人员一直在尝试自动化和加速将2D结构平面图像转换为三维(3D)建筑模型。在下面列出的论文[1]和[2]以及其中引用的参考文献中可以找到几种现有技术方法。

用于将2D平面图转换成3D模型的一个阶段可以是识别平面图符号，其可以在一个图案与另一个图案之间极其不同。为此，大多数方法依赖于图像处理和模式识别技术，并且因此缺乏通用性。模式识别器通常被约束为有限的一组预定义符号。下面列出的论文[3]是这种方法的示例。

通常，提出的流水线包括第一预处理2D图，例如在下面列出的论文[5]和[6]中所建议的。为此，图像处理和文本处理方法都用于将图形与文本内容分开。然后，通过去除可能导致错误的扰乱性元件(例如，楼梯、陈设元件)来进一步清洁图像。在此过程结束时，目的是在剩余的线中选择代表墙壁的线。为此，必须选择接近标准壁厚的值。然而，取决于构造域和设计者，存在不同的厚度。然后识别室外墙壁和开口。模式识别方法通常用于确定开口类型。例如，在论文[3]建议的方法中，在每个开口周围搜索“弧形”图案-如果找到该图案然后将其设置为门类型，或者在相反的情况下设置为窗户类型。最后，识别出室内墙壁和开口。除了模式识别技术之外，一些著作还使用了学习方法，特别是用于墙壁检测(例如，如文献[6]中所建议的基于墙贴片的对象分割)。似乎很清楚，对于这样的流水线，错误和不一致性自然地从一个步骤累积到另一个步骤，这将导致无效的系统。这就是为什么一些著作试图让用户参与识别过程的原因，例如在开始时修复原始文件中的一些问题，例如下面列出的论文[4]中建议的，或者在一些步骤之后通过例如向用户建议用于修正的多种方法，如论文[5]中建议的。然而，值得一提的是，论文[5]中的统计数据表明，对于大多数测试平面图，需要大约15个用户干预，并且对于某些平面图，需要进行40多次干预。一些用户干预导致昂贵且非常长的过程(非实时)。

论文[7]公开了一种使用墙壁分割、对象检测和光学字符识别来分析平面图像的方法。该方法包括解析平面图(部分3)，包括使用具有相应的训练的完全卷积网络技术的墙分割和并涉及二元分类，然后使用具有另一种训练的另一种并且不同的卷积网络技术来进行对象(例如门)检测。

在此上下文中，仍然需要用于处理2D平面图的改进的解决方案。

上面引用的学术论文清单：

[1]Xuetao Y.et al.,Generating 3D Building Models from ArchitecturalDrawings:A Survey IEEE Computer Graphics and Applications,2009

[2]Gimenez,L.et al..,Review:reconstruction of 3d building informationmodels from 2d scanned plans.Journal of Building Engineering,pp.24–35,2015.

[3]Gimenez L.et al.Reconstruction of 3D building models from 2Dscanned plans-opening the path for enhanced decision support in renovationdesign ECPPM 2014

[4]Dominguez B.et al.Semiautomatic detection of floor topology fromCAD architectural drawings Computer-Aided Design,2012

[5]Gimenez L.et al.A novel approach to 2D drawings-basedreconstruction of 3D building digital models,Building information modeling(BIM)in design construction and operations,vol 149,2015

[6]Heras,L.-P.de las et al.Wall Patch-Based Segmentation inArchitectural Floorplans,ICDAR-2011

[7]Dodge,S.et al.Parsing floor plan images,Fifteenth IAPR InternationConference on Machine Vision Applications(MVA),Nagoya University,Nagoya,Japan,May 8-12,2017

发明内容

因此，提供了一种用于确定函数的计算机实现的方法，该函数被配置为确定表示建筑的布局的2D平面图的语义分割。该方法包括提供包括2D平面图的数据集，每个2D平面图与相应的语义分割相关联。该方法还包括基于数据集来学习函数。

在示例中，该函数可以具有神经网络。神经网络呈现卷积编码器-解码器架构。神经网络还包括关于一组类的逐像素分类器。该组类包括墙壁类、门类和窗户类中的至少两个类。

神经网络可以包括权重，并且学习可以包括利用优化算法根据数据集和损失函数更新权重。在示例中，优化算法是随机梯度下降。在示例中，损失函数是交叉熵损失函数。

对于每个输入的2D平面图，逐像素分类器可以输出用于推断输入的2D平面图的语义分割蒙板(mask)的相应数据。语义分割蒙板是关于该组类的2D平面图的逐像素分类。对于数据集的每个2D平面图，损失函数可以惩罚关于与数据集中的2D平面图相关联的相应语义分割的语义分割蒙板错误的推断。在示例中，惩罚更重要，因为错误很高(推断的语义分割蒙板错误与同数据集中的2D平面图相关联的相应语义分割之间的错误)。

可选地，逐像素分类器可以针对输入的2D平面图的每个像素输出用于推断该组类的一类的相应数据。对于数据集的每个2D平面图的每个像素，损失函数可以惩罚与通过与数据集中的2D平面图相关联的相应语义分割针对所述像素提供的类不同的相应类的推断。

然而，可选地，由逐像素分类器输出的相应数据可以包括在该组类上的概率分布。

仍然可选地，损失函数可以包括每个相对于相应的像素的损失项之和。每个损失项可以是以下类型：

其中：

-C是一组类的类的数量；

-i指定一组类中的一类；

-如果类i是通过与数据集中的2D平面图相关联的相应语义分割针对相应的像素提供的类，则是二元指示符；以及

-是逐像素分类器针对类i输出的概率。

仍然可选地，损失函数可以是多项式的。

该方法可以包括以下中的一个或多个：

-该函数呈现高于0.85的平均准确度和/或超过0.75的平均交除并(intersection-over-union)；

-该函数呈现卷积编码器-解码器神经网络架构；

-学习包括随机梯度下降；

-随机梯度下降是基于交叉熵损失函数的；和/或

-提供数据集包括提供2D平面图的数据库，每个2D平面图与相应的3D模型相关联，并且针对每个2D平面图确定来自相应3D模型的相应语义分割。

还提供了一种用于确定表示建筑的布局的2D平面图的语义分割的计算机实现的方法。该方法包括提供2D平面图，将函数应用于2D平面图，该函数可根据上述学习方法学习。

还提供了一种用于生成表示建筑的3D模型的计算机实现的方法。该方法包括提供表示建筑的布局的2D平面图。该方法还包括根据上述语义分割方法确定2D平面图的语义分割。该方法还包括基于语义分割确定3D模型。

3D模型生成方法可以包括以下中的一个或多个：

-该方法还包括将语义分割转换为表示建筑的布局的2D模型，确定3D模型是从2D模型执行的；

-将语义分割转换为2D模型包括：针对预定的一组结构对象类中的每个相应的一个，基于语义分割确定蒙板(mask)，并基于所确定的蒙板生成2D模型；

-确定针对每个相应的类的蒙板包括利用与相应的类相对应的语义分割的所有像素进行初始化，进行骨架化以及对线段进行合并以减少线段的数量；和/或

-预定的一组结构对象类包括墙壁类，并且生成2D模型包括连接关于墙壁类的蒙板中的线段。

还提供了一种计算机程序，包括用于执行上述方法中的任何一个或多个的指令。

还提供了一种包括存储器的设备，所述存储器上记录有数据结构和/或程序。该设备可以形成或用作非暂时性计算机可读介质，例如在SaaS(软件即服务)或其他服务器或基于云的平台等上。该设备可替代地包括处理器，该处理器将耦合到存储器的图形用户界面耦合到存储器。因此，该设备可以整体或部分地形成计算机系统(例如，该设备是整个系统的子系统)。该系统还可以包括耦合到处理器的图形用户界面。

因此，提供了一种计算机可读存储介质，其上记录有计算机程序。

因此，还提供了一种系统，包括耦合到存储器和图形用户界面的处理器，该存储器上记录有计算机程序。

附图说明

现在将通过非限制性示例并参考附图来描述本发明的实施例，其中：

-图1示出了集成该方法的过程；

-图2示出了系统的示例；以及

-图3-图19示出了该过程。

具体实施方式

图1示出了用于结构化的3D重建的过程。该过程尤其用于构建3D模型，3D模型表示建筑。该过程基于输入的2D平面图，输入的2D平面图呈现建筑的布局。

该过程涉及机器学习，以便确定输入的2D平面图的语义分割。

特别地，该过程包括离线阶段S1，用于确定(在当前情况下，即学习，即训练)函数，该函数被配置为确定(例如，计算和/或输出)任何给定2D平面图的语义分割(每个给定的2D平面图表示相应建筑的布局)。离线阶段S1包括提供S10数据集。数据集包括2D平面图。每个2D平面图与相应的语义分割相关联(在数据集中，即链接到，即连接到，即相关)。离线阶段S1还包括基于数据集来学习(即训练)S20函数。

在离线阶段S1之后，该过程包括在线(即，内联)阶段S2。在线阶段S2包括提供输入的2D平面图。在线阶段S2还包括将函数(在离线阶段S1内的机器学习)应用于输入的2D平面图，从而确定输入的2D平面图的所述语义分割。

离线阶段S1和在线阶段S2可以在不同时间、在不同位置、不同系统和/或由不同人或实体发起和/或执行。例如，离线阶段S1可以由软件编辑器和/或生产线，或者由服务提供商执行和/或完全在服务器处执行。在线阶段S2可以由用户和/或至少部分地在客户端计算机处执行。

使用这种机器学习来执行2D平面图语义分割允许达到相对准确和稳健的结果(特别是考虑到由于缺乏任何标准而用于2D平面图的表示的多样性)。此外，使用机器学习来执行平面图语义分割允许相对有效和/或相对快速地(例如，基本上实时地和/或仅用很少或基本上没有用户干预，例如确定S40完全自动地一次启动)来达到这样的结果。

函数和学习S20可以是任何类型的。在示例中，可以通过深度学习来特别地执行学习S20。在稍后讨论的示例中，深度学习可以是以下类型，其中，函数呈现卷积神经网络(CNN)架构，并且更具体地是卷积编码器-解码器神经网络架构。学习S20的这些示例特别有效。在其他示例中，可以通过其他机器学习技术来学习该函数，所述其他机器学习技术例如“随机森林”、马尔可夫随机场、SVM(支持向量机)。这样的算法可以采用诸如SIFT或HoG之类的非学习特征作为输入。

用于结构3D重建的替代过程可以在S40处以其他方式确定输入的2D平面图的语义分割。这样的替代过程对于其他方面而言可以是与图1的过程形式相同的，除了可以可选地丢弃离线阶段S1之外，因为在S40处不需要机器学习函数。

通常，语义分割可以用在任何应用中。例如，语义分割可以用于对象检测和/或用于注释。

在图1的过程的情况下，语义分割在应用S3中使用，用于生成表示与输入的2D平面图相对应的建筑的3D模型。语义分割实际上可以基于用于确定这样的3D模型。稍后可以以任何方式使用3D模型，例如以创建建筑的虚拟室内设计。

关于在线阶段S2，应用S3可以在不同的时间、在不同的位置、与不同的系统和/或由不同的人或实体执行。可替换地，应用S3可无缝地跟随在线阶段S2之后和/或在在线阶段S2之后自动启动。在示例中，用户仅在S30处提供输入的2D平面图，并且系统自动执行用于输出3D模型的所有步骤。在其他示例中，用户可以干预以验证结果，例如在确定S40之后验证和/或校正语义分割。

在图1的示例中，应用S3具体包括将语义分割转换S50-S60为表示建筑的布局的2D模型。然后从2D模型执行确定S70 3D模型。这样的过程形成了用于从输入的2D平面图生成3D模型的有效流水线。输入的2D平面图实际上提供了与建筑相关的无组织的2D信息。该过程建议首先通过确定S2内的语义分割来组织这样的信息。然后，该过程不是将2D语义分割直接转换为3D几何图形，而是建议从语义分割中构建2D模型。这种中间数据结构允许最终更容易地构建3D模型。

术语“建筑”表示任何结构化的结构。该过程所设想的“建筑”可以是公寓、套间、多层建筑、大厦、房屋、别墅、纪念碑或包括墙壁、窗户和/或房间的任何其他建筑。

术语“布局”表示建筑构成建筑的结构化对象的实例的2D布置。布局可以描述单个楼层或几个楼层的2D布置，或者其一个或多个部分的2D布置。以下讨论适用于与单个楼层相关的布局，但适应于多层楼的情况很简单。

“结构对象”是涉及任何建筑形成的任何对象。该过程预期的结构对象类可以是预定的一组结构对象类的结构对象类(即，预先存储在系统中，并且在S50处实现的循环受限于该结构对象类)。预定的一组结构对象类可以包括以下类中的任何一个或任何组合(例如全部)或由其组成：墙壁类、窗户类和/或门类。结构对象可能属于其他类，例如屋顶或地基，但这些类在布局上可能没有呈现。

术语“2D平面图”表示本身已知的表示建筑的布局图的图像。该图包括可能具有各种厚度的线和符号。可以绘制2D平面图，例如在物理支撑(例如纸)上手动绘制，然后扫描或拍照，或者例如数字绘制(经由与草图绘制软件的用户交互，使用例如触摸笔和/或或者是触摸屏)，或者由程序自动生成。尽管可能存在绘制2D平面图的不同规则，但没有标准。在S10处提供的数据集可以特别地包括2D平面图，其中至少两个使用不同规则集中的相应一个和/或一个或多个2D平面图手动和/或数字绘制的。提供S30的输入的2D平面图可以被绘制(即，由系统的用户或先前由另一个人绘制)。

术语“语义分割”指定图像本身已知的图像的任何分区或分割，其中分区的每个图像部分或分区的分割被分配或关联到由图像部分表示的一类对象。对于2D平面图，“语义分割”类似地是这样的分区，其中2D平面图的部分可以被分配给上述预定的一组结构对象类中的相应一个。在示例中，2D平面图的每个部分可以被分配给上述预定的一组结构对象类中的相应一个，或者被分配给代表其他类型的对象和/或背景的公共类(并且因此被其余的过程丢弃)。

由该过程确定的语义分割可以以任何方式实现这种分配。在示例中，可以通过提供标签来执行分配，每个标签与预定的一组结构对象类别中的相应一个相对应，并且将每个2D平面图的各部分与相应的标签相关联。在示例中，语义分割可以是逐像素的语义分割。确定S40可以包括将2D平面图的像素分别分配给相应的预定标签的情况。

该过程包括将语义分割转换S50-S60为表示建筑的布局的2D模型。

2D(相应的3D)模型是表示2D(相应的3D)建模对象的2D(相应的3D)布置的数据结构，2D(相应的3D)建模对象表示结构对象的相应实例。数据结构可以包括各自包括相应数据字段的数据片段，其中数据字段中的一个或多个表示相应的2D(相应的3D)建模对象，并且数据字段中的一个或多个表示2D(相应的3D)定位，例如相应于共同的2D(相应的3D)参考帧。这种数据结构允许描述所表示的结构对象实例之间的精确相对定位。2D模型提供比语义分割更高级别的2D布置的描述。

2D(相应的3D)建模对象是包括2D(相应的3D)几何数据和/或拓扑信息的数据结构，其允许(例如线性时间)参数变换，例如2D(相应的3D)操纵(例如，刚性运动、缩放和/或任何其他几何变换和/或CAD操作)。

2D模型可以被约束到预定的一组2D几何形状或基元(例如，包括具有各种厚度和/或弧的线段)。这些2D基元可以各自被完全表征并由相应数量的预定参数表示。这样的数字可能很低，例如低于20或10。例如，具有厚度的直线可以由五个参数(例如，极限的坐标和厚度)表示。

2D模型可以例如是2D矢量图像。

3D模型可以例如是CAD模型，例如边界表示(B-Rep)，包括诸如规范表面(例如平面)和/或参数表面(例如连续的，例如NURBS或B样条)的几何对象、规范曲线(例如线)和/或参数曲线(例如连续)和/或3D点，以及与这些几何对象相关的拓扑数据(例如，定义边界关系)。3D模型可以以任何标准(例如，STEP文件或任何其他CAD文件格式)输出为CAD文件。

将语义分割转换S50-S60为表示建筑的布局的2D模型可以相对容易地执行。这种转换确实可以用语义分割的图像大小(即输入的2D平面图的大小)的量级的计算复杂度来执行，例如，包括在语义分割上循环一次或多次。

转换S50-S60可以特别地包括将每个与相应的结构对象类相关联的语义分割的连接部分变换为表示相应结构对象类的实例的相应2D建模对象，然后根据确保结构一致性的预定规则来重新布置2D建模对象。。在逐像素进行语义分割的情况下，变换可以包括将像素分组成代表结构对象类的相应实例的最大连接部分，然后对连接部分进行重新加工以使它们正规化。

图1的过程进一步提出在逐个结构对象的基础上执行转换S50-S60(即，在所述类上循环)。这允许更容易的处理并获得更准确的结果。特别地，对于每个结构对象类，该过程包括基于语义分割确定S50蒙板(mask)。然后基于在S60处确定的蒙板在S60处生成2D模型。每个蒙板是与语义分割相同大小的图像(在S40处确定并输入到应用S3)，每个蒙板表示与相应的类相关联的语义分割的元素(例如像素)。生成S60可以包括上述分组、变换(可选)和重新布置。可以逐个蒙板地执行分组和变换，没有使用蒙板中的信息以外的信息。这简化了过程。重新布置也可以逐个蒙板地执行，但是针对至少一个蒙板，使用一个或多个其他蒙板中的信息。

从2D模型确定S70表示建筑的3D模型还可以相对容易地执行。实际上，2D模型中的每个结构对象实例可以直接在3D模型中产生相应的结构对象实例。可以使用任何已知算法来执行确定。确定S70可以特别地包括向2D模型的每个2D建模对象添加相应的3D定位数据和/或高度数据。在示例中，这些数据可以以任何方式预先确定或经由用户交互来指定。确定S70还可以包括兼容性/一致性检查和/或管理。

该过程是计算机实现的。这意味着该过程的步骤(或基本上所有步骤)由至少一个计算机或任何系统等执行。因此，该过程的步骤由计算机执行，可能是完全自动的，或半自动的。在示例中，可以通过用户-计算机交互来执行对过程的至少一些步骤的触发。所需的用户-计算机交互水平可能取决于预见的自动化水平，并与实现用户意愿的需求保持平衡。在示例中，该水平可以是用户定义的加和/或预定义的。

过程的计算机实现的典型示例是利用适于此目的的系统来执行该过程。该系统可以包括耦合到存储器和图形用户界面(GUI)的处理器，该存储器上记录有包括用于执行该过程的指令的计算机程序。存储器还可以存储数据库。存储器是适用于这种存储的任何硬件，可能包括若干物理不同部分(例如，一个用于程序，并且可能一个用于数据库)。

该系统可以是CAD系统和/或建筑的3D模型可以加载到CAD系统中。通过CAD系统，另外意味着任何系统至少适于基于建模对象的图形表示来设计建模对象，例如CATIA。在这种情况下，定义建模对象的数据包括允许表示建模对象的数据。CAD系统可以例如使用边或线来提供CAD建模对象的表示，在某些情况下利用面或表面。线、边或表面可以以各种方式表示，例如，非均匀有理B样条(NURBS)。具体地，CAD文件包含可以从其生成几何图形的规范，其继而允许生成表示。建模对象的规范可以存储在单个CAD文件中或多个CAD文件中。表示CAD系统中建模对象的文件的典型大小在每个部件一兆字节的范围内。并且建模对象通常可以是数千个部件的组件。

图2示出了该系统的示例，其中该系统是客户计算机系统，例如，用户的工作站。

该示例的客户端计算机包括连接到内部通信总线1000的中央处理单元(CPU)1010，也连接到总线的随机存取存储器(RAM)1070。客户端计算机还提供有图形处理单元(GPU)1110，其与连接到总线的视频随机存取存储器1100相关联。视频RAM 1100在本领域中也称为帧缓冲器。大容量存储设备控制器1020管理对诸如硬盘驱动器1030的大容量存储器设备的访问。适合于有形地体现计算机程序指令和数据的大容量存储器设备包括所有形式的非易失性存储器，包括例如半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，如内部硬盘和可移动磁盘；磁光盘；以及CD-ROM盘1040。前面的任何一个都可以由专门设计的ASIC(专用集成电路)补充或并入其中。网络适配器1050管理对网络1060的访问。客户端计算机还可以包括触觉设备1090，诸如光标控制设备、键盘等。在客户端计算机中使用光标控制设备以允许用户选择性地将光标定位在显示器1080上的任何期望位置。此外，光标控制设备允许用户选择各种命令，并输入控制信号。光标控制设备包括多个信号发生设备，用于向系统输入控制信号。通常，光标控制设备可以是鼠标，鼠标的按钮用于生成信号。可选地或另外地，客户端计算机系统可以包括敏感垫和/或敏感屏幕。

该计算机程序可以包括可由计算机执行的指令，该指令包括用于使上述系统执行该过程的单元。该程序可以记录在任何数据存储介质上，包括系统的存储器。该程序可以例如在数字电子电路中实现，或者在计算机硬件、固件、软件或它们的组合中实现。该程序可以实现为装置，例如有形地体现在机器可读存储设备中的产品，用于由可编程处理器执行。处理步骤可以由执行指令程序的可编程处理器执行，以通过对输入数据进行操作并生成输出来执行处理的函数。因此，处理器可以是可编程的并且被耦合以从数据存储系统、至少一个输入设备和至少一个输出设备接收数据和指令，并将数据和指令发送到所述数据存储系统、至少一个输入设备和至少一个输出设备。如果需要，应用程序可以用高级过程或面向对象的编程语言实现，或者用汇编语言或机器语言实现。在任何情况下，语言可以是编译或解释语言。该程序可以是完整安装程序或更新程序。程序在系统上的应用导致用于执行该过程的指令中的任何情况。

现在讨论该过程的示例。

示例的过程涉及平面图生成。特别是，它涉及通过语义分割进行平面图分析。给定图像形式的平面图，可以同时识别所有符号并将其定位在像素级别。这些示例的过程可用于许多应用，例如3D建筑生成和设计制作。这些示例的过程形成了新颖的平面图生成框架。示例过程的特征可包括：

·端到端方法，其允许避免在包括若干步骤的方法中存在的误差累积效应。

·独立于符号类型。其他符号类型可以轻松集成。不需要特别的约束。

·基于深度卷积神经网络的第一种方法。

示例的过程属于生成3D建筑模型的领域，其中给定2D平面图像，示例的过程可以重建结构建筑元素，如墙(外部/内部)、开口(门/窗)和空间以获得可利用的3D模型，也称为“3D平面图”。

从2D平面图像输入生成3D建筑模型可以基于：

1.在语义上识别2D平面图的每个结构元素。这可以通过语义分割来完成，该语义分割包括在输入中将语义信息分配给2D平面图的每个像素(语义的示例包括：墙、门和/或窗户)。

2.基于由上一步提供的结果生成3D平面图。

可用数据输入的若干特性使得在给定2D平面图像的情况下生成3D建筑模型的方法极具挑战性。这就是为什么大多数现有系统都有一个共同的缺点，即缺乏一般性。

通常可以扫描、并且可以手绘或计算机生成2D平面图。平面图也可能有不同程度的细节。平面图的分布最广的形式缺乏详细的构造信息。尽管如此，平面图仍然可以覆盖建筑的完整布局，这可能足以针对大多数应用构建模型。无论这些不太详细的平面图是手绘还是计算机生成的，它们都可能使用不同的图形符号，这是一个主要缺点。实际上，没有标准存在。

图3和图4分别示出了门和墙的常见样式的示例。绘图的目的(以及设计师的艺术动机)可以决定展示哪些组件以及它们的外观，而不是受限于特定标准。这对分析和解释平面图像，特别是对于自动系统产生了重大挑战。图3-图4特别示出了用于绘制平面图的门符号(图3)和墙壁(图4)的不同方式。符号可以是手绘或计算机生成的。可变图形符号对将2D扫描平面图自动转换为3D模型提出了挑战。

此外，平面图不仅可以包含结构元素，还可以包含文本内容、尺寸、比例和引导线(即，导致测量或文本的直线)。图5特别示出了常见扫描平面图的示例。可以表示除结构之外的不同(图形和文本)元素。

示例的过程的一个目标可以是在给定2D平面图像的情况下提供用于3D建筑模型生成的通用解决方案；一种解决方案，它同时识别计划的结构2D元素的语义和拓扑。它可以包含利用语义分割方法效率的框架，即使用深度神经网络的方法。

现在讨论涉及实例过程的不同概念。

语义分割试图在语义上理解图像中每个像素的作用，即将图像分割成语义上有意义的部分，并将每个部分分类为预定类别之一。它可以被视为像素分类，其中分类是基于包含其类别成员资格已知的观察(或实例)的数据训练集来识别新观察所属的一组类别中的哪一个的问题。一个示例是：在给定图像中将人与背景分离，或甚至将人体分成各个部分。

深度神经网络(DNN)是一套强大的用于在神经网络中学习的技术(如Rumelhart等人，Learning internal representations by error backpropagation,1986所述)，这是一种生物学启发的编程范式，使计算机能够从观察数据中学习。DNN具有学习丰富的中层2D图像表示的能力，而不是用于其他图像分类方法(SVM、提升、随机森林等)的手工设计的低级特征(如Zernike moments、HOG、Bag-of-Words、SIFT等中所讨论的)。更具体地说，DNN专注于基于原始数据的端到端学习。换句话说，他们通过完成从原始特征开始到标签结束的端到端优化，尽可能地远离特征工程。图6示出了深度神经网络。

卷积神经网络(如LeCun等人的Convolutional Networks for Images，Speech，and Time-Series中所讨论的)是深度神经网络的一个特例，其中至少一层包含卷积滤波器。这些滤波器应用于输入中的任何位置，并将特征图作为输出。此特征图显示激活区域，其中输入中的某些特定模式由过滤器识别。当堆叠多个卷积层时，深度学习的优点是提供一种方法来提取非常复杂但功能强大的特征，这些特征比由描述符获得的基本特征更复杂。完全卷积神经网络是其中所有学习的层都是卷积的卷积神经网络。基于完全卷积网络的DNN提供了用于获取任意大小的输入并使用上采样层产生相应大小的输出的能力。图7示出了卷积滤波器的示例。

上采样是指将图像(或特征图)上采样到更高分辨率的任何技术。最简单的方法是使用重采样和插值。这是获取输入图像，将其重新缩放到所需大小，然后使用诸如双线性插值的插值方法计算每个点处的像素值。

上池化(unpooling)通常用于针对上采样的卷积神经网络的上下文中。图8示出了基于上池化的上采样的示例，其中最大池化索引用于对输入特征图进行上采样。

编码器-解码器网络指定特定类型的DNN。一些DNN可以被视为编码器-解码器网络，其中编码器将输入数据映射到不同的(通常是较低维度的，压缩的)特征表示，而解码器将特征表示映射回输入数据空间。完全卷积网络可以被认为是完全卷积编码器，其后是包括上采样层和像素分类器的解码器。图9示出了用于语义分割的卷积编码器-解码器网络的示例。

现在参考图11讨论将这些概念集成到示例的过程。

示例的过程可以分解为两个阶段。表示为“离线”阶段的第一阶段可能严重依赖于深度神经网络，并且与学习分割模型的阶段相对应，并且这可以一劳永逸地完成。术语“离线”指的是该阶段对于方法的用户是透明的，并且即使存在大量计算需求，也可以花费时间进行计算。

要学习分割模型，示例的过程可以使用以下输入：

1.成对的2D平面图像及其对应的像素标签图像的训练数据集。在测试的实现中，考虑了四个类别标签：“墙”、“门”、“窗户”和“背景”。然后将每个训练图像的每个像素与这些标签中的一个相关联。图10示出了这样的训练图像对，其具有壁102、窗户104、门106和背景108。

2.(未经训练的)编码器-解码器网络。在经过测试的实施方案中，考虑了两种不同的现有技术网络。

(i)基于AlexNet的完全卷积网络(J.Long等人，Fully Convolutional Networksfor Semantic Segmentation 2015)，其包括完全卷积编码器，其包括八个卷积层(具有池化层)，接着是包括上采样层和逐像素分类器(softmax分类器)的解码器。

(ii)SegNet网络(V.Badrinarayanan等人，SegNet：A Deep ConvolutionalEncoder-Decoder Architecture for Image Segmentation 2016)，其由包括十三个卷积层(具有池化层)的完全卷积编码器和还包括十三个卷积层(具有如参考图8所述的上采样层)的完全卷积解码器组成。该网络的结构在拓扑上与图9的示例相同。。

SegNet网络的性能优于基于AlexNet的完全卷积网络。

表示为“在线”阶段的第二阶段收集在分割未看到的2D平面图像并生成相对应的3D建筑的过程期间实时完成的过程的所有步骤。

请注意，可以在语义分割过程结束时选择性地添加用户干预，以在生成3D模型之前验证结果。

图11示出了离线和在线阶段的技术工作流程。

然后，示例的过程可以应用若干方法，以便增强由先前语义分割算法给出的语义分割结果。这与前面讨论的论文[1]中提出的解决方案形成对比，其中算法确实考虑了关于2D平面图的强几何约束。例如，门、壁部分的宽度在这件现有技术中总是局部相同的。可以应用降噪技术来清除误报。

最后，所提供的语义蒙板可用于提取3D重建API所需的拓扑信息。事实上，为了便于进一步利用所得到的3D平面图，使其与适用的标准保持一致可能是有用的，例如“建立智能IFC格式”(在早先讨论的论文[3]中使用)。

现在参考以下学术论文更详细地讨论示例过程的特殊性：

[A]“ImageNet Classification with Deep Convolutional Neural Networks”,Alex Krizhevsky&Al

[B]“Very Deep Convolutional Networks For Large-Scale ImageRecognition”,Karen Simonyan&Andrew Zisserman

[C]“Deep Residual Learning for Image Recognition”,Kaiming He&Al

[D]“Fully convolutional networks for semantic segmentation,”J.Long,E.Shelhamer,and T.Darrell,in CVPR 2015

[E]“SegNet:A Deep Convolutional Encoder-Decoder Architecture forImage Segmentation”,Vijay Badrinarayanan,Alex Kendall,Roberto Cipolla,2015

[F]“Pyramid Scene Parsing Network”,Hengshuang Zhao,Jianping Shi,Xiaojuan Qi,Xiaogang Wang,Jiaya Jia,CVPR 2017

[G]“RefineNet:Multi-Path Refinement Networks for High-ResolutionSemantic Segmentation”,Guosheng Lin,Anton Milan,Chunhua Shen,Ian Reid,2016

[H]“Fully Convolutional Networks for Semantic Segmentation”,JonathanLong,Evan Shelhamer,Trevor Darrell,CVPR 2015

[I]“CVC-FP and SGT:a new database for structural floor plan analysisand its groundtruthing tool”,International Journal on Document Analysis andRecognition(IJDAR),Lluís-Pere de las Heras,Oriol Ramos Terrades,Sergi Robles,Gemma Sánchez

现在讨论学习S20的实现的示例。

该步骤可以包括学习将2D平面图像作为输入并返回语义分割蒙板的函数，该语义分割蒙板是输入图像的逐像素分类。可以对类进行预定义。该语义分割蒙板是具有与输入图像相同尺寸的图像，并且哪些像素可以采用与预定义类对应的若干值(例如，颜色)。在经过测试的实现中，选择了以下类：“wall”(墙壁)，“door”(门)，“window”(窗户)和“background”(背景)。最后一个类描述了不属于其他类之一的每个像素。

学习函数表征：

学习函数可以实现为卷积神经网络。该函数可以特别地呈现卷积编码器-解码器神经网络结构。换句话说，神经网络可以是编码器-解码器，其是一种用于对自然图像执行语义分割的神经网络。尽管这种类型的神经网络可以相对较好地利用自然图像中的连续性并且由此在这样的上下文中提供良好的结果，但是对于包括诸如2D平面图的稀疏信息的图像而言，它不是先验有效的。然而，进行了测试并且表明这种类型的神经网络在该过程的2D平面图方案中也表现良好。

学习神经网络可能包括三个主要部分：

1.神经结构：层数、每层神经元数、神经元类型。

2.优化算法：用于根据注释数据集和损失函数值更新神经网络的参数/权重。

3.带注释的数据集。

神经网络的神经结构可以是卷积编码器-解码器结构，描述如下：

1.卷积编码器：编码器网络将平面图像作为输入。它包括一系列卷积层，在这些卷积层之间可以交错池化层。通常，卷积编码器可以对应于众所周知的卷积结构，例如AlexNet[A]、VGG16[B]、ResNet[C]或其他CNN结构。

2.卷积解码器：解码器网络将编码器网络的输出作为输入。它可以包括一系列卷积层，在这些卷积层之间交织上采样层。最后卷积层的输出可以具有与输入的平面图像相同的尺寸。通过用上采样层替换池化层，解码器可以是编码器网络的对称。然而，解码器网络可替代地具有不同的结构。可以遵守的唯一约束是输出可以具有与输入的2D平面图像的尺寸相同的尺寸。

在性能良好的测试中，使用了[E]中定义的SegNet结构。可以使用其他神经结构，例如[H]中定义的FCN，[F]中定义的PSPNet或[G]中定义的RefineNet。

学习可以包括随机梯度下降。可选地，随机梯度下降可以基于交叉熵损失函数。换句话说，优化算法可以是随机梯度下降。丢失函数可以计算在学习过程期间由网络返回的语义分割蒙板与同训练数据集中的2D平面图相关联的认定的真值(ground truth)语义分割蒙板之间的误差。特别测试了[D]中定义的交叉熵损失函数。

数据集表征：

训练数据集可以是一组2D平面图像，每个2D平面图像与逐像素标记的图像相关联，也称为认定的真值语义分割蒙板。

用于确保学习函数的精确结果的训练数据集的特性可以如下：

·足够的数据：数据集可能包含超过500、750或1000个不同的2D平面图像。

·相关数据：数据集中平面图的多样性可能与学习函数将处理的平面图相对应。特别地，训练数据集内的符号(墙、窗、门)的多样性可以覆盖学习函数将处理的平面图像所包含的符号。

数据集可以分成三个子数据集，这三个子数据集形成整个数据集的分区。第一个子数据集称为“训练数据集”，并且包含用于学习该函数的数据。第二个子数据集称为“验证数据集”，并且包含用于在学习过程中通过计算其临时准确度而检查函数仍在改进的数据。第三个子数据集称为“测试数据集”，并且包含学习完成后使用的数据。测试数据集可用于评估最终语义分割准确度。训练数据集可以包含整个数据集的至少80％。验证和测试数据集可以是剩余数据的相等分割。

用于构建这样的数据集以在S10处提供的有效方式可以是重用每个与相应3D模型相关联的2D平面图的现有数据库。如果这样的数据库可用，则可以通过针对每个2D平面图确定来自相应3D模型的相应语义分割(因为3D模型为提供用于每个对象的类)来容易地构建数据集。

语义分割准确度：

为了评估关于带注释的数据集的语义分割准确度，可以定义评估度量。对于语义分割的任务，可以使用两个评估度量：

1.平均准确度：它与分类良好的像素的平均百分比相对应

2.平均IoU(即交除并)：它与推断的分割和认定的真值的交集，除以两者的并集相对应。

对包括880个平面图像的数据集进行测试。该数据集是基于源自开源数据库(在[I]中呈现)的2D平面图像构建的，由于诸如镜像和旋转(90°，180°和270)等的变换而得到了增强。通过这样的测试，获得了0.88的平均准确度和0.78的平均IoU。通常，当函数呈现高于0.85的平均准确度和/或高于0.75的平均交除并时，语义分割可能特别准确。语义分割准确度可能是相关的，因为下一步骤将学习函数的输出作为输入。根据经验，可以发现平均准确度可能超过0.85并且平均IoU超过0.75，否则重建的3D平面图可能包含错误。实际上，语义分割蒙板是稀疏的。

以下讨论应用S3的示例，并且特别地提供基元提取的实现细节。

在下面讨论的示例中，在S50处确定每个相应的类的蒙板包括子过程，该子过程包括：利用与相应的类相对应的语义分割的所有像素进行(蒙板的)初始化，蒙板的骨架化，以及在蒙板中合并线段(或更简单的“段”)以减少线段的数量。然后可以基于由子过程输出的结果来执行该过程的其余部分。在实现的示例中，在线段的合并处，可以合并高于第一预定共线性阈值并且低于预定距离阈值的线段对，如下所述。这种子过程允许将无组织数据减少到更综合的格式。

在进一步的示例中，该方法可以包括连接关于墙壁类的蒙板中的线段，和/或蒙板的线段关于窗户类和/或蒙板的线段关于门的投影，每一个都投影到墙壁蒙板的相应线段上。在实现的示例中，每个投影的线段被投影到墙壁蒙板的其所呈现的共线性高于第二预定的共线性阈值的投影的线段当中最近的线段上，所述第二预定共线性阈值可以等于第一预定共线性阈值。这允许保持结果的真实性(即从建筑的角度来看可接受的含义)，尽管骨架化可能导致数据丢失。特别地，骨架化可能引入了误差(例如，窗户或门与其支撑墙壁之间的间隙)，并且示例纠正了这些误差。

在示例中，第一和/或第二预定共线性阈值可以被定义为两个线段之间的(非定向)角度上的阈值。所述阈值可以被定义为由训练数据集中的两个连续墙壁形成的所有角度的分布的函数。由于这种分布，可以定义共线性阈值。例如，角度的值使得由两个邻接墙壁形成的角度小于该值5％。如果所述值高(例如高于45°)，则可降低至30°。在实践中，30°量级的值提供了良好的结果。

在示例中，预定距离阈值可以被定义为诸如窗户或门之类的其他对象实例的函数。它可以固定在低于门或窗的平均宽度的30％，以便允许获得很少的误报。由于线提取算法，低于该阈值的两个基本共线墙壁之间的大多数间距可能是误差。因此，两个墙壁可以延伸和合并。

应用S3可以将卷积编码器-解码器神经网络返回的语义分割蒙板作为输入，并且可以返回3D平面图重建API所需的原语集。

2D平面图的语义分割蒙板可以是线条绘制图像。每条线可以具有各种厚度。前景像素可以具有与过程试图识别的对象类相对应的不同值(例如，颜色)。

可以通过以下示例步骤处理语义分割蒙板，以便获得可以从其容易地构建几何图元的细化蒙板。

1.类特定的蒙板：首先，将蒙板分成几个蒙板，每个蒙板包括与特定对象类相关的像素。在示例中，该过程可以获得用于墙壁的一个蒙板，一个用于窗户，一个用于门。

2.蒙板骨架化：然后，对每个类特定的蒙板应用骨架化过程。这个过程旨在使每条线变细。可以使用两种经典方法来执行线图的骨架化：形态学方法和距离变换方法。经测试的实施方案使用形态学骨架方法，例如在论文“Morphological Skeleton Representationand Coding of Binary Images”，IEEE，1986年10月，Petros A.Maragos，RonaldW.Schafer中所述。

3.线合并：每个类特定的骨架化蒙板由多个小线段组成，这些小线段可以合并以便获得具有尽可能少数量的线段的骨架化蒙板。开发的算法如下：

a.对于每对线段，如果它们几乎共线并且两个段之间的距离低于预定义的类特定阈值，则两个段由与两个线段的合并相对应的单个线段代替。

b.在段对已经先前的a步骤中合并了时返回到a步骤。否则，返回最后一组线段。

4.线连接：此步骤仅应用于墙壁特定的蒙板。由步骤3返回的经处理的蒙板包括与直壁相对应的一组线段。该步骤包括检测两个直壁之间存在连接的位置以及通过连接它们的末端来修改相对应的线段。开发的算法如下：

a.对于每对线段，如果它们不共线并且两个段之间的距离低于预定阈值，则修改这两个段使得它们中的一个端点与同包含两个段的两个线之间的交叉点相对应的点重叠。

b.段对在先前的的a步骤中被修改时，返回到a步骤。否则，返回最后一组线段。

5.特定类别的面具合并和细化：最后步骤包括对窗户和门的位置进行细化。在步骤3返回的相对应的窗户特定和门特定的的蒙板中，每条线与窗户(相应的门)相对应。首先，每个特定类的蒙板都是叠加的。由于与窗户和门相对应的线段可能不能与壁线段正确地共线，所以该过程可以通过它们在具有相同方向的最近壁线上的投影来替换每个窗户和门线段。

下一步可以包括构建3D重建API所需的3D基元，例如墙壁基元、门基元和窗户基元。例如，墙壁基元可以由以下属性定义：两个端点的坐标、厚度、高度、相邻墙壁的参考。由于细化的蒙板，墙壁、窗户和门基元可以很容易地建造。实际上，可以容易地从细化的蒙板中提取诸如端点的坐标、相邻墙壁的参考、窗户(相应的门)所属的墙壁的参考之类的信息。诸如墙/窗/门高度或宽度的其他信息可以由用户预定义或提供。

图12-图19示出了基于根据测试的学习S1学习的函数的S2-S3的示例。

图12示出了在S30处提供的输入2D平面

图13示出了在S40处确定的2D平面图的语义分割，其具有墙壁122、窗户124和门126。

图14-图16示出了S50和关于墙壁类的蒙板的处理。图14示出了关于墙壁类的蒙板的图像。图15示出了“线段”类型的几何图元的提取。图16示出了墙壁合并和结合步骤的输出。可以看出，获得了减少数量的墙壁。

图17示出了三个蒙板的合并。

图18示出了细化，其允许在S60处生成2D模型。

图19示出了简单地通过向2D模型的每个几何图元添加高度来在S70处确定3D模型。可以看出，可以获得与图12的输入的2D平面图相对应的3D模型。

现在回到与图11有关的讨论，特别是对于离线学习，根据该讨论呈现用于函数和学习的配置的当前示例。

在所述配置中，该函数被配置为确定表示建筑的布局的输入的2D平面图的语义分割。该函数具有呈现卷积编码器-解码器架构的神经网络。值得注意的是，该函数可以具有呈现卷积编码器-解码器架构的单个神经网络(即，该函数没有呈现卷积编码器-解码器架构的其他神经网络)或者该函数可以是呈现卷积编码器-解码器架构的神经网络(例如，单个神经网络)。

在所述配置中，神经网络包括关于一组类的逐像素分类器(例如，softmax分类器)。在所述配置的示例中，神经网络还可以包括上采样层。上采样层可以例如布置在逐像素分类器之前。可选地或另外地，神经网络可以包括最大池化层。最大池化层可以例如布置在逐像素分类器之后。

在所述配置中，该组类包括墙壁类、门类和窗户类中的至少两个类。在所述配置的示例中，该组类可以包括墙壁类、门类和窗户类。在示例中，该组类可以替代地或另外地包括背景类。在选项中，一组类包括墙壁类、门类、窗户类和背景类。

对于2D平面图输入的图像的每个像素，逐像素分类器可以输出用于推断该组类的任何类的相应数据。因此，对于2D平面图输入图像(在数据集中或不在数据集中)的至少一个语义分割，其具有表示与背景类(例如墙壁)不同的第一类的对象/实例的第一像素和表示不同于背景类(例如门或窗户)的第二类的对象/实例的第二像素，逐像素分类器可输出用于推断第一像素的第一类的数据，以及用于推断第二像素的第二类的数据。

在所述配置中，学习该函数是基于所提供的数据集(例如，训练数据集)的。所提供的数据集包括2D平面图，每个2D平面图与相应的语义分割(例如，相应的认定的真值语义分割)相关联(例如，利用其进行注释)。

神经网络可以包括权重，并且学习可以包括利用优化算法根据数据集和损失函数更新权重。值得注意的是，学习可以包括单个优化算法(即，学习不包括其他优化算法)。在这样的示例中，(例如，单个)优化算法可以是随机梯度下降。可以在所述(例如，单个)随机梯度下降之后训练神经网络，并且因此可以在那时明确地设置其权重，包括逐像素分类器的权重。附加地或替代地，在这样的示例中，损失函数可以是交叉熵损失函数。

对于每个输入的2D平面图，逐像素分类器可以输出用于推断输入的2D平面图的语义分割蒙板的相应数据。语义分割蒙板是关于该组类的2D平面图的逐像素分类。“用于语义分割蒙板的推断”是指允许获得语义分割蒙板的任何数据。例如，它可以是直接将2D平面图的每个像素与单个类(即，语义分割蒙板)相关联的数据，或者可替代地基于其可以间接地确定语义分割蒙板的其他数据(例如，该组类分别与每个像素相关联的概率的分布)。在这样的示例中，对于数据集的每个2D平面图，损失函数可以惩罚关于与数据集中的2D平面图相关联的相应语义分割错误的语义分割蒙板的推断。换句话说并且如先前所讨论的，损失函数可以与语义分割蒙板和与数据集中的2D平面图相关联的相应语义分割之间的误差相对应。值得注意的是，逐像素分类器可以是神经网络的单层。这导致用于推断的数据是由所述单层输出的。换句话说，逐像素分类器被配置用于处理语义分割的所有类。这增加了语义分割的鲁棒性。实际上，基于单层输出的数据来推断类，这降低了模糊的风险(例如，类重叠)。此外，逐像素分类器允许减少由于逐类进行的解决方案的错误传播而导致的错误。

在所述配置的示例中，逐像素分类器可以针对输入的2D平面图的每个像素输出用于推断该组类的一类的相应数据。在这样的示例中，对于数据集的每个2D平面图的每个像素，损失函数可以惩罚对相应的类的推断，所述类与由与数据集中的2D平面图相关联的相应语义分割(例如，认定的真值语义分割)针对所述像素提供的类不同。值得注意的是，用于该组类的一类的相应数据使得能够从每个像素的一组类中确定单个类。在这样的示例中，对于至少一个输入的2D平面图，逐像素分类器可以输出用于推断至少两个类中的第一类的数据，以用于输入的2D平面图的至少一个第一像素，以及用于推断至少两个类中的第二类的数据，以用于输入的2D平面图的至少一个第二像素(第一和第二类不同并且第一和第二像素也不同)。因此，这种逐像素分类器降低了像素与多于一个类相关联的风险。

在所述配置的示例中，由逐像素分类器输出的相应的数据可以包括在该组类上的概率分布。例如，对于输入的2D平面图的每个相应的像素，相应数据可以包括与该组类的类的数量(例如，所有类，例如至少两个类)相关联的相应的像素的概率的数量(例如，类的数量)，使得一个概率与一个类相对应。在这样的示例中，神经网络还可以包括布置在逐像素分类器之后的最大池化层。最大池化层可以针对输入的2D平面图的每个像素确定一组类中的一个类。所确定的类可以是由逐像素分类器输出的相应的数据中包括的概率分布中具有最高概率的类。

例如，用于推断的数据可以包括与至少两个类中的第一类相关联的相应的像素的第一概率和与所述至少两个类中的第二类相关联的相应的像素的第二概率，第一类与第二类不同，而第一概率高于第二概率(即第一类比第二类更可能)。然后，最大池化层将相应的像素与第一类相关联。

在所述示例的示例中，损失函数可以包括损失项的加和，每个损失项关于相应的像素(即，针对相应的像素计算损失项)。损失项对由逐像素分类器输出的相应数据中包括的概率分布中的概率的小进行惩罚。在这样的示例中，每个像素损失项可以包括值之和，每个值分别根据概率分布中的概率计算。损失项可以选择值中的一值。选择可以包括选择(例如，保持、指定)从特定类的相应概率计算的值。在示例中，每个损失项包括指示符，根据该指示符执行对值的选择。在示例中，指示符可以是二元指示符，并且可以是针对认定的真值图像中的相对应的像素提供的类的函数。例如，当值是从与针对认定的真值图像中的相对应的像素提供的类相对应的类的概率计算出的时，二元指示符可以等于1，并且当该值是从与针对认定的真值图像中的相对应的像素提供的类不同的类的概率计算出的时，二元指示符可以等于0。在示例中，如果在概率小时值大，则损失项对小进行惩罚。例如，该值可以从给定函数计算，预测概率的递减函数。在示例中，给定函数可以是概率的负对数函数。

在示例中，损失可以写为：

C是该组类的类数。i指定了一组类的一类。如果类i是通过与数据集中的2D平面图相关联的相应语义分割针对相应的像素提供的类，则是二元指示符。是逐像素分类器针对类i输出的概率。

因此，损失函数可以是多项式损失函数(例如，多项逻辑损失函数)。这种损失函数允许分类器管理多个类。这增加了由学习的神经网络确定的语义分割的准确性。

Claims

1.一种用于确定函数的计算机实现的方法，所述函数被配置为确定表示建筑的布局的2D平面图的语义分割，所述函数具有呈现卷积编码器-解码器结构的神经网络，所述神经网络包括关于一组类的逐像素分类器，所述一组类包括墙壁类、门类和窗户类中的至少两个类，所述方法包括：

提供包括2D平面图的数据集，所述2D平面图中的每个与相应的语义分割相关联；以及

基于所述数据集来学习所述函数。

2.如权利要求1所述的方法，其中，所述函数呈现高于0.85的平均准确度和/或高于0.75的平均交除并。

3.如权利要求1或2所述的方法，其中，所述神经网络包括权重，并且所述学习包括利用优化算法，根据所述数据集和损失函数来更新所述权重。

4.如权利要求3所述的方法，其中，所述优化算法是随机梯度下降。

5.如权利要求4所述的方法，其中，所述损失函数是交叉熵损失函数。

6.如权利要求3、4或5所述的方法，其中，针对每个输入的2D平面图，所述逐像素分类器输出用于推断所述输入的2D平面图的语义分割蒙板的相应数据，所述语义分割蒙板是关于所述一组类的对所述2D平面图的逐像素分类，针对所述数据集的每个2D平面图，损失函数惩罚关于与所述数据集中的2D平面图相关联的相应语义分割的语义分割蒙板错误的推断。

7.如权利要求6所述的方法，其中，针对输入的2D平面图的每个像素，所述逐像素分类器输出用于推断所述一组类的一类的相应数据，针对所述数据集的每个2D平面图的每个像素，所述损失函数惩罚与通过与所述数据集中的2D平面图相关联的相应语义分割针对所述像素提供的类不同的相应类的推断。

8.如权利要求7所述的方法，其中，由所述逐像素分类器输出的相应数据包括所述一组类上的概率分布。

9.如权利要求8所述的方法，其中，所述损失函数包括损失项的加和，每个损失项关于相应的像素，每个损失项具有以下类型：

其中：

-C是所述一组类的类的数量；

-i指定所述一组类中的一类；

-如果类i是通过与所述数据集中的2D平面图相关联的相应语义分割针对所述相应的像素提供的类，则是二元指示符；以及

是由针对类i的逐像素分类器输出的概率。

10.如权利要求3至9中任一项所述的方法，其中，所述损失函数是多项式的和/或所述逐像素分类器是softmax分类器。

11.如权利要求1至10中任一项所述的方法，其中，提供所述数据集包括：

提供2D平面图的数据库，每个2D平面图与相应3D模型相关联；以及

针对每个2D平面图确定来自所述相应3D模型的相应语义分割。

12.一种用于确定表示建筑的布局的2D平面图的语义分割的计算机实现的方法，所述方法包括：

提供所述2D平面图；

将函数应用于所述2D平面图，所述函数是根据权利要求1至11中任一项所述的方法而能够学习的。

13.一种用于生成表示建筑的3D模型的计算机实现的方法，所述方法包括：

提供表示所述建筑的布局的2D平面图；

根据权利要求12所述的方法确定所述2D平面图的语义分割；

基于所述语义分割来确定所述3D模型。

14.一种计算机程序，包括用于执行如权利要求1至11中任一项所述的方法、如权利要求12所述的方法和/或如权利要求13所述的方法的指令。

15.一种包括存储器的设备，所述存储器上记录有如权利要求14所述的计算机程序，所述设备能够选择地还包括耦合到所述存储器的处理器和图形用户界面。