CN114241506A

CN114241506A - 标识和提取pdf建筑图纸内容的方法和装置

Info

Publication number: CN114241506A
Application number: CN202111537281.0A
Authority: CN
Inventors: 马恩成; 夏绪勇; 张晓龙; 孔杨; 吴自成; 李伯犀
Original assignee: Beijing Construction Technology Co ltd
Current assignee: Beijing Construction Technology Co ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-03-25

Abstract

本公开的实施例涉及一种标识和提取PDF建筑图纸内容的方法。该方法包括：基于PDF规范对PDF图纸进行解析，以获取包括在多个图层的每个图层中的矢量数据，用以还原图纸内容的位置和尺寸信息；通过使用矢量数据来绘制图层图片；将图层图片输入到GoogLeNet模型，以对图层图片进行分类来确定图层类别；以及至少部分地基于矢量数据与图层类别的结合，通过使用图形处理算法和文字标识算法来计算构件结构化数据。通过使用该方法，可以有利地获取精确的矢量信息，同时避免直接操作DWG文件，相较于现有技术提高了精度和保密性，并且分类不依赖图层名信息来匹配图层类别，而是根据图层的内容来匹配图层的类别，提高了技术的普适性。

Description

标识和提取PDF建筑图纸内容的方法和装置

技术领域

本公开的实施例涉及建筑图纸内容的标识和提取，并且更具体地，涉及标识和提取PDF建筑图纸内容的方法、装置、设备、介质和程序产品。

背景技术

目前，建筑行业对于PDF建筑图纸的应用方式，基本上停留在人工查看图纸中的信息，然后根据不同的任务需求将图纸中的信息加以利用，例如设计师根据图纸来建立三维模型，审图人员根据图纸来进行二维审查，工作人员根据图纸图签内容来进行图纸入库归档等。随着建筑行业的飞速发展，图纸的数量和规模不断的扩大，单纯依靠人工应用PDF图纸的效率已难以满足行业需求，于是借助计算机技术来自动或半自动地标识和提取PDF图纸内容成为行业的一个热点需求，且满足该需求的关键是对内容标识的精度要达到工程可用。

在目前现有的常规方法中，其一是操作DWG格式文件，需要将文件中的图层名称与数据库中的标准化图层名称进行匹配，但是由于DWG文件的图层命名方式相当混乱，没有统一的规范，而使得这样的方法普适性降低，并且由于直接暴露DWG文件的风险，而导致内容可能被直接篡改或复用。另一常规方法涉及通过AI图像分割技术来标识和提取建筑图纸的内容。然而，该方法由于目前图像分割技术水平的限制，将导致构件数量的遗漏、构件位置、尺寸精度的不足等问题，无法到达工程可用的级别。

发明内容

本公开提出了一种标识和提取PDF建筑图纸内容的计算机实现的方法和装置、设备、介质和程序产品。

为了以简化形式介绍对构思的选择而提供本发明内容，下面在具体实施方式中对这些构思进行进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征或者本质特征，也不旨在被用于限制所要求保护的主题的范围。

在本公开的第一方面中，提供了一种标识和提取PDF建筑图纸内容的方法，该方法包括：基于PDF规范对PDF图纸进行解析，以获取包括在多个图层的每个图层中的矢量数据，用以还原图纸内容的位置和尺寸信息；通过使用矢量数据来绘制图层图片；将图层图片输入到GoogLeNet模型，以对图层图片进行分类来确定图层类别；以及至少部分地基于矢量数据与图层类别的结合，通过使用图形处理算法和文字标识算法来计算构件结构化数据。

在本公开的第二方面中，提供了一种标识和提取PDF建筑图纸内容的装置，该装置包括：解析模块，被配置为基于PDF规范对PDF图纸进行解析，以获取包括在多个图层的每个图层中的矢量数据，用以还原图纸内容的位置和尺寸信息；绘制模块，被配置为通过使用矢量数据来绘制图层图片；分类模块，被配置为将图层图片输入到GoogLeNet模型，以对图层图片进行分类来确定图层类别；以及计算模块，被配置为至少部分地基于矢量数据与图层类别的结合，通过使用图形处理算法和文字标识算法来计算构件结构化数据。

在本公开的第三方面中，提供了一种电子设备。该电子设备包括：处理器；以及存储器，存储一条或多条计算机指令，其中，一条或多条计算机指令被处理器执行以实现根据第一方面所述的方法。

在本公开的第四方面中，提供了一种计算机可读存储介质。该计算机可读存储介质上存储有一条或多条计算机指令，其中，一条或多条计算机指令被处理器执行以实现根据第一方面所述的方法。

在本公开的第五方面中，提供了一种计算机程序产品。该计算机程序产品包括一条或多条计算机指令，其中一条或多条计算机指令被处理器执行以实现根据第一方面所述的方法。

下面参考附图详细地描述其他特征和优点以及各种示例实施例的结构和操作。应当注意，示例实施方式不限于本文中所描述的特定实施例。本文仅出于说明性目的而呈现这样的示例实施例。基于本文中所包括的教导，附加的实施方式对于本领域技术人员将是显而易见的。

附图说明

被并入本文中并形成说明书的一部分的附图图示了本公开的实施例，并且与描述一起进一步用于解释示例实施例的原理以及使得本技术人员能够做出和使用示例实施例，在附图中：

图1是示出了常规的标识和提取DWG建筑图纸内容的方法的流程图；

图2是示出了另一常规的标识和提取PDF建筑图纸内容的方法的流程图；

图3是图示了根据本公开的实施例的标识和提取PDF建筑图纸内容的方法的流程图；

图4是示出了示例PDF图纸的示图；

图5是示出了根据本公开的实施例的示例矢量数据的示图；

图6是示出了根据本公开的实施例的示例图层图片的示图；

图7示出了根据本公开实施例的至少部分地基于矢量数据与图层类别的结合，通过使用图形处理算法和文字标识算法而计算出的构件结构化数据的示图；

图8示出了根据本公开的实施例的标识和提取PDF建筑图纸内容的装置的框图；以及

图9示出了其中可以实现本公开的实施例的计算系统的框图。

通过结合附图对本公开的实施例进行更详细的描述，本公开的上述和其它的目的、特征和优点将变得更加清楚明白，其中，在本公开的实施例中，相同或相似的附图标记表示相同或相似的组件。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。尽管在附图中示出了本公开的一些实施例，然而应理解的是，本公开可以通过各种形式实现，而且不应被解释为限于本文中所阐述的实施例。相反，提供这些实施例是为了更加透彻和完整地理解本公开。应理解的是，本公开的附图和实施例仅出于示例性的目的，而非旨在限制本公开的保护范围。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，否则术语“或”应被理解为“和/或”，术语“基于”应被理解为“至少部分地基于”，术语“一个实施例”应被理解为“至少一个实施例”。术语“另一实施例”应被理解为“至少一个另外的实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。在下文还可能包括其他明确的和隐含的定义。

目前，建筑行业对于PDF建筑图纸的应用方式，基本还都停留在人工查看图纸中的信息，然后根据不同的任务需求将图纸中的信息加以利用，例如设计师根据图纸来建立三维模型，审图人员根据图纸来进行二维审查，工作人员根据图纸图签内容来进行图纸入库归档等。随着建筑行业的飞速发展，图纸的数量和规模不断的扩大，单纯依靠人工应用PDF图纸的效率已难以满足行业需求，于是借助计算机技术来自动或半自动地标识和提取PDF图纸内容成为行业的一个热点需求，且满足该需求的关键是对内容标识的精度要达到工程可用。

出于克服现有技术的缺点中的至少一些，根据本公开的实施例，提出了一种基于PDF解析技术和深度学习技术的标识和提取PDF建筑图纸内容的方法。

在本公开的实施例中，基于PDF规范对PDF图纸进行解析，以获取包括在多个图层的每个图层中的矢量数据，用以还原图纸内容的位置和尺寸信息；通过使用矢量数据来绘制图层图片；将图层图片输入到GoogLeNet模型，以对图层图片进行分类来确定图层类别；以及至少部分地基于矢量数据与图层类别的结合，通过使用图形处理算法和文字标识算法来计算构件结构化数据。由此，可以在获取到精确的矢量信息的同时，避免直接操作DWG文件，相较于现有技术提高了精度和保密性，并且分类不依赖图层名信息来匹配图层类别，而是根据图层的内容来匹配图层的类别，提高了技术的普适性。因此，本公开的工作原理和机制上都显著不同于任何已知方法。

图1是示出了常规的标识和提取DWG建筑图纸内容的方法100的流程图。如图1中所示，这样的常规方法包括：将用户上传的二维DWG图纸根据图层进行拆分；将图层名称和数据库中的标准化图层名称进行匹配，根据匹配结果标识出每个图层对应的类别和其内容信息，例如某层名称为“XXX梁线XXX”，则通过匹配认为该层为梁线类别；以及将各个图层中的构件、文字等信息提取出来。将理解的是，上述过程中的匹配过程的匹配准确率极大地受限于DWG图层名称的规范程度。然而，由于目前90％以上的DWG文件的图层命名方式相当混乱，没有统一的规范，从而使匹配结果不准确，导致后续的提取步骤也失去了意义。因此，这样的常规方法不具有普适性。

图2是示出了另一常规的标识和提取PDF建筑图纸内容的方法200的流程图。如图2中所示，这样的常规方法包括：预先确定需要标识的内容类别，标注图纸；设计和搭建图像分割模型，将标注好的图纸输入模型进行训练；以及将用户的上传的图像输入训练好的模型进行推理得出图纸内容信息。然而，受限于目前的图像分割技术水平，这样的常规方法无法保证精度，经常导致构件数量的遗漏、构件位置、尺寸精度的不足等问题，无法到达工程可用的级别。

图3是图示了根据本公开的实施例的标识和提取PDF建筑图纸内容的方法300的流程图。

在框301处，基于PDF规范对PDF图纸进行解析，以获取包括在多个图层的每个图层中的矢量数据，用以还原图纸内容的位置和尺寸信息。根据本公开的实施例，PDF规范的示例包括但不限于Adobe的PDF文件格式规范。由于建筑PDF图纸基本上都是由DWG文件导出，因此其保留了DWG文件中的图层和矢量信息。根据本公开的实施例，基于PDF规范对PDF图纸进行解析，将其中的图层和矢量信息提取出来，使得在能够获取到精确的矢量信息的同时也避免了直接操作DWG文件。

在框302处，通过使用矢量数据来绘制图层图片。绘制出的图层图片将作为输入在下面将详细描述的分类处理中使用，以用于确定图层类别。

在框303处，将图层图片输入到GoogLeNet模型，以对图层图片进行分类来确定图层类别。根据本公开的实施例，解析一定数量的PDF图纸，将绘制出的图层图片收集起来，然后以类别为名创建文件夹，根据图片内容将图层图片分别放入不同的类别文件夹中；搭建GoogLeNet模型，将上述经分类的图层图片输入搭建好的GoogLeNet模型中进行训练；以及使用经训练的GoogLeNet模型对图层图片进行分类并返回分类结果。相较于图像分割(像素级别的分类任务，需判断出每个像素点属于什么类别)，由于是图片级别的分类任务，只需将绘制出的图层图片归类到不同的以类别命名的文件夹中即完成了标注，避免了图像分割任务中大量繁琐的标注工作。此外，搭建和训练GoogLeNet模型周期短且对GPU资源依赖不高，在CPU上也可快速完成推理。根据本公开的实施例的分类过程，不依赖图层名信息来匹配图层类别，而是根据图层的内容来匹配图层的类别，提高了技术的普适性。

在框304处，至少部分地基于矢量数据与图层类别的结合，通过使用图形处理算法和文字标识算法来计算构件结构化数据。

在一些实施例中，矢量数据包括单段线条和多端线条。

在一些实施例中，根据本公开的实施例的标识和提取PDF建筑图纸内容的方法300，其中，对图层图片进行分类来确定图层类别包括：对图层图片进行分类来确定包括在多个图层的每个图层中的矢量数据所属的类别。

在一些实施例中，根据本公开的实施例的标识和提取PDF建筑图纸内容的方法300，其中，计算构件结构化数据包括：至少部分地基于包括在多个图层的每个图层中的矢量数据所属的类别的特征，通过使用图形处理算法和文字标识算法来计算构件结构化数据。

在一些实施例中，图形处理算法包括构造多边形算法、分割多边形算法、多变形开洞算法和直弧线检测算法，并且文字标识算法包括OCR算法。

图4是示出了示例PDF图纸的示图。

图5是示出了根据本公开的实施例的示例矢量数据的示图，并且图6是示出了根据本公开的实施例的示例图层图片的示图。根据本公开的实施例的标识和提取PDF建筑图纸内容的方法，基于PDF规范对如图4中所示的PDF图纸进行解析，以获取包括在多个图层的每个图层中的矢量数据，如图5所示。通过使用这些矢量数据来绘制图层图片，如图6中所示。绘制出的图层图片将作为输入在下面将详细描述的分类处理中使用，以用于确定图层类别。

图7示出了根据本公开实施例的至少部分地基于矢量数据与图层类别的结合，通过使用图形处理算法和文字标识算法而计算出的构件结构化数据的示图。在确定了图层类别之后，至少部分地基于矢量数据与图层类别的结合，通过使用图形处理算法和文字标识算法来计算构件结构化数据。例如，在确定图层类别为墙之后，通过将该图层所包含的矢量数据输入图形处理算法(诸如，构造多边形算法)来计算构件结构化数据，此时，矢量线条被合成为一面面独立的墙体，如图7中所示。

图8示出了根据本公开的实施例的标识和提取PDF建筑图纸内容的装置800的框图。装置800包括：

解析模块801，可以被配置为基于PDF规范对PDF图纸进行解析，以获取包括在多个图层的每个图层中的矢量数据，用以还原图纸内容的位置和尺寸信息；

绘制模块802，可以被配置为通过使用矢量数据来绘制图层图片；

分类模块803，可以被配置为将图层图片输入到GoogLeNet模型，以对图层图片进行分类来确定图层类别；以及

计算模块804，可以被配置为至少部分地基于矢量数据与图层类别的结合，通过使用图形处理算法和文字标识算法来计算构件结构化数据。

在一些实施例中，矢量数据可以包括单段线条和多端线条。

在一些实施例中，分配模块803还可以被配置为：对图层图片进行分类来确定包括在多个图层的每个图层中的矢量数据所属的类别。

在一些实施例中，计算模块804还可以被配置为：至少部分地基于包括在多个图层的每个图层中的矢量数据所属的类别的特征，通过使用图形处理算法和文字标识算法来计算构件结构化数据。

图9示出了其中可以实现本公开的实施例的计算系统900的框图。图3中所示的方法300可以由计算系统900实现。图9中所示出的计算系统900只是示例，并且其不应当构成对本文中所描述的实施方式的使用的功能和范围的限制。

如图9所示，计算系统900是通用计算设备的形式。计算系统900的组件可以包括但不限于一个或多个处理器或处理单元910，存储器920，一个或多个输入设备930，一个或多个输出设备940，存储装置950，和一个或多个通信单元940。处理单元910可以是实际或虚拟处理器并且能够根据存储器920中存储的持续来执行各种处理。在多处理系统中，多处理单元执行计算机可执行指令，以增加处理能力。

计算系统900通常包括多个计算机可读介质。这样的介质可以是计算系统900可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器920可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储装置950可以是可拆卸或不可拆卸，并且可以包括机器可读介质，诸如闪存驱动、磁盘或者任何其他介质，其可以能够用于存储信息并且可以在计算系统900内被访问。

计算系统900可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性计算机系统存储介质。尽管未在图9中示出，可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线。存储器920可以包括至少一个程序产品，具有(例如至少一个)程序模块集合，这些程序模块被配置为执行本文中所描述的各种实施例的功能。

具有一个或多个执行模块集合的程序/实用程序工具可以被存储在例如存储器920中。执行模块可以包括但不限于操作系统、一个或多个应用程序、其他程序模块和操作数据。这些示例中的每个示例或特定组合可以包括联网环境的实施方式。执行模块通常执行本文中所描述的主题的实施例的功能和/或方法，例如方法300。

输入单元930可以是一个或多个各种输入设备。例如，输入单元930可以包括用户设备、诸如鼠标、键盘、追踪球等。通信单元1160被实现在通信介质上向另外的计算实体进行通信。附加地，计算系统900的组件的功能可以以单个计算集群或多个计算机器实现，这些计算机器能够通过通信连接来通信。因此，计算系统900可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。例如但不限于，通信介质包括有线或无线联网技术。

计算系统900还可以根据需要与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等等，与一个或多个使得用户与计算系统900交互的设备进行通信，或者与使得计算系统900与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)执行。

本文中所描述的功能可以至少部分地由一个或多个硬件逻辑组件来执行。例如但不限于，可以使用的硬件逻辑组件的示意性类型包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等。

用于实施本文中所描述的主题的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开内容的上下文中，机器可读介质可以是有形的介质，其可以包括或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包括了若干具体实现细节，但是这些不应当被解释为对本文中所描述的主题的范围的限制。在单独的实施方式的上下文中描述的某些特征还可以组合地实现在单个实施方式中。相反地，在单个实施方式的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施方式中。

以下列出了本公开的一些示例实施方式。

在一些实施例中，矢量数据包括单段线条和多端线条。

在一些实施例中，根据本公开的实施例的标识和提取PDF建筑图纸内容的方法，其中，对图层图片进行分类来确定图层类别包括：对图层图片进行分类来确定包括在多个图层的每个图层中的矢量数据所属的类别。

在一些实施例中，根据本公开的实施例的标识和提取PDF建筑图纸内容的方法，其中，计算构件结构化数据包括：至少部分地基于包括在多个图层的每个图层中的矢量数据所属的类别的特征，通过使用图形处理算法和文字标识算法来计算构件结构化数据。

在一些实施例中，矢量数据可以包括单段线条和多端线条。

在一些实施例中，分配模块还可以被配置为：对图层图片进行分类来确定包括在多个图层的每个图层中的矢量数据所属的类别。

在一些实施例中，计算模块还可以被配置为：至少部分地基于包括在多个图层的每个图层中的矢量数据所属的类别的特征，通过使用图形处理算法和文字标识算法来计算构件结构化数据。

以上已经描述了本公开的实施方式，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的实施方式。在不偏离所说明的实施方式的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释实施方式的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文披露的实施方式。

Claims

1.一种标识和提取PDF建筑图纸内容的计算机实现的方法，所述方法包括：

基于PDF规范对PDF图纸进行解析，以获取包括在多个图层的每个图层中的矢量数据，用以还原图纸内容的位置和尺寸信息；

通过使用所述矢量数据来绘制图层图片；

将所述图层图片输入到GoogLeNet模型，以对所述图层图片进行分类来确定图层类别；以及

至少部分地基于所述矢量数据与所述图层类别的结合，通过使用图形处理算法和文字标识算法来计算构件结构化数据。

2.根据权利要求1所述的方法，其中，所述矢量数据包括单段线条和多端线条。

3.根据权利要求1所述的方法，其中，对所述图层图片进行分类来确定图层类别包括：对所述图层图片进行分类来确定包括在所述多个图层的每个图层中的所述矢量数据所属的类别。

4.根据权利要求1所述的方法，其中，计算所述构件结构化数据包括：至少部分地基于包括在所述多个图层的每个图层中的所述矢量数据所属的类别的特征，通过使用所述图形处理算法和所述文字标识算法来计算所述构件结构化数据。

5.根据权利要求1所述的方法，其中，所述图形处理算法包括构造多边形算法、分割多边形算法、多变形开洞算法和直弧线检测算法，并且其中，所述文字标识算法包括OCR算法。

6.一种标识和提取PDF建筑图纸内容的装置，所述装置包括：

解析模块，被配置为基于PDF规范对PDF图纸进行解析，以获取包括在多个图层的每个图层中的矢量数据，用以还原图纸内容的位置和尺寸信息；

绘制模块，被配置为通过使用所述矢量数据来绘制图层图片；

分类模块，被配置为将所述图层图片输入到GoogLeNet模型，以对所述图层图片进行分类来确定图层类别；以及

计算模块，被配置为至少部分地基于所述矢量数据与所述图层类别的结合，通过使用图形处理算法和文字标识算法来计算构件结构化数据。

7.根据权利要求6所述的装置，其中，所述矢量数据包括单段线条和多端线条。

8.根据权利要求6所述的装置，其中，对所述图层图片进行分类来确定图层类别包括：对所述图层图片进行分类来确定包括在所述多个图层的每个图层中的所述矢量数据所属的类别。

9.根据权利要求6所述的装置，其中，计算所述构件结构化数据还包括：至少部分地基于包括在所述多个图层的每个图层中的所述矢量数据所属的类别的特征，通过使用所述图形处理算法和所述文字标识算法来计算所述构件结构化数据。

10.根据权利要求6所述的装置，其中，所述图形处理算法包括构造多边形算法、分割多边形算法、多变形开洞算法和直弧线检测算法，并且其中，所述文字标识算法包括OCR算法。

11.一种电子设备，包括：

处理器；

以及存储器，存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现根据权利要求1至5中的任一项所述的方法。

12.一种计算机可读存储介质，其上存储有一条或多条计算机指令，其中，所述一条或多条计算机指令被处理器执行以实现根据权利要求1至5中的任一项所述的方法。

13.一种计算机程序产品，包括一条或多条计算机指令，其中所述一条或多条计算机指令被处理器执行以实现根据权利要求1至5中的任一项所述的方法。