CN112257629A

CN112257629A - 一种建筑图纸的文本信息识别方法及装置

Info

Publication number: CN112257629A
Application number: CN202011182735.2A
Authority: CN
Inventors: 李波; 晋杰
Original assignee: Glodon Co Ltd
Current assignee: Glodon Co Ltd
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2021-01-22

Abstract

本发明提供了一种建筑图纸的文本信息识别方法及装置，该方法包括：获取待识别建筑图纸的原始图像、文本区域颜色及目标文本颜色；根据文本区域颜色和目标文本颜色对原始图像进行图像分割，确定目标文本图像；将目标文本图像输入至文本识别模型进行文本识别，确定待识别建筑图纸对应的目标文本信息。从而仅需人工确定建筑图纸文本区域的颜色和目标文本的颜色即可自动完成建筑图纸目标文本信息的识别，对于文本颜色设计相同的建筑图纸仅需设置一次颜色信息即可，无需重复设置，从而大大缩短了每个建筑图纸的识别时间，提高了识别效率，并且可有效避免由于人工识别造成的识别错误的问题。

Description

一种建筑图纸的文本信息识别方法及装置

技术领域

本发明涉及建筑设计技术领域，具体涉及一种建筑图纸的文本信息识别方法及装置。

背景技术

在建筑领域，建筑图纸在工程预算、招投标以及施工的各个阶段不可或缺的重要文件。在建筑图纸中除了包含建筑物的设计结构，还有一个专门的区域用于显示与该建筑物设计相关属性信息的文本区域，通常图纸的图号、图名、设计单位、设计人等属性信息包含在一个白色边框的表格中，在该表格中每一个建筑图纸均对应有唯一的图号，通过该图号可以对不同建筑图纸进行区分。

在建筑设计或施工阶段，常常会涉及建筑图纸的修改，通常以图纸更改通知单的形式来进行更改，在图纸更改通知单中，包括建筑图纸对应的图号及其需要修改的内容，那么首先就需要在所有相关建筑图纸中识别出与图纸更改通知单中图号相匹配的建筑图纸，然后再对识别出的建筑图纸进行相应的修改，然而识别建筑图纸的图号这一过程在现有技术中仍然需要由人工来处理，通过人工翻阅建筑图纸内容的方式来找到对应的图号，然后看图号是否匹配，这带来了繁琐的工作量，且容易造成误检测现象，影响识别效率，出现图纸与图纸更改单中信息无法匹配的问题。

发明内容

有鉴于此，本发明实施例提供了一种建筑图纸的文本信息识别方法及装置，解决现有技术中采用人工识别建筑图纸的图号，进而导致工作量大，耗时长，识别效率低的问题。

根据第一方面，本发明实施例提供了一种建筑图纸的文本信息识别方法，包括：获取待识别建筑图纸的原始图像、文本区域颜色及目标文本颜色；

根据所述文本区域颜色和所述目标文本颜色对所述原始图像进行图像分割，确定目标文本图像；

将所述目标文本图像输入至文本识别模型进行文本识别，确定待识别建筑图纸对应的目标文本信息。

可选地，所述根据所述文本区域颜色和所述目标文本颜色对所述原始图像进行图像分割，确定目标文本图像，包括：

根据所述文本区域颜色对应的第一RGB颜色分量，对所述原始图像进行颜色阈值分割，确定文本区域图像；

根据所述目标文本颜色对应的第二RGB颜色分量，对所述文本区域图像进行颜色阈值分割，确定所述目标文本图像。

可选地，所述根据所述文本区域颜色对应的第一RGB颜色分量，对所述原始图像进行颜色阈值分割，确定文本区域图像，包括：

根据所述第一RGB颜色分量，对所述原始图像进行颜色阈值分割，确定第一图像；

根据所述第一图像的像素信息确定所述文本区域图像对应的第一边界位置信息；

根据所述第一边界位置信息及所述原始图像，确定所述文本区域图像。

可选地，所述将所述目标文本图像输入至文本识别模型进行文本识别，确定待识别建筑图纸对应的目标文本信息。包括：

获取所述目标文本图像的像素信息；

根据所述目标文本图像的像素信息，确定目标中文本对应的第二边界信息；

根据所述第二边界信息及所述目标文本图像，确定更新后的目标文本图像；

将更新后的目标文本图像输入至文本识别模型进行文本识别，确定待识别建筑图纸对应的目标文本信息。

可选地，所述文本识别模型通过以下方式进行训练得到的：

获取历史建筑图纸的历史目标文本图像及对应的历史目标文本信息；

将历史目标文本图像输入文本识别模型中，输出预测目标文本信息；

根据所述预测目标文本信息及所述目标文本信息，更新所述文本识别模型中的参数。

可选地，所述获取待识别建筑图纸的原始图像，包括：

获取所述待识别建筑图纸；

根据预设格式转换方法对所述待识别建筑图纸进行格式转换，确定所述待识别建筑图纸的原始图像。

可选地，所述文本识别模型为基于CNN+softmax的分类器模型。

根据第二方面，本发明实施例提供了一种建筑图纸的文本信息识别装置，包括：

获取模块，用于获取待识别建筑图纸的原始图像、文本区域颜色及目标文本颜色；

第一处理模块，用于根据所述文本区域颜色和所述目标文本颜色对所述原始图像进行图像分割，确定目标文本图像；

第二处理模块，用于将所述目标文本图像输入至文本识别模型进行文本识别，确定待识别建筑图纸对应的目标文本信息。

根据第三方面，本发明实施例提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令被处理器执行时实现本发明第一方面及其任意一种可选方式所述的方法。

根据第四方面，本发明实施例提供了一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行本发明第一方面及其任意一种可选方式所述的方法。

本发明技术方案，具有如下优点：

本发明实施例提供了一种建筑图纸的文本信息识别方法及装置，该方法通过获取待识别建筑图纸的原始图像、文本区域颜色及目标文本颜色；然后根据文本区域颜色和目标文本颜色对原始图像进行图像分割，确定目标文本图像；然后将目标文本图像输入至文本识别模型进行文本识别，确定待识别建筑图纸对应的目标文本信息。从而仅需人工确定建筑图纸文本区域的颜色和目标文本的颜色即可自动完成建筑图纸目标文本信息的识别，对于文本颜色设计相同的建筑图纸仅需设置一次颜色信息即可，无需重复设置，从而大大缩短了每个建筑图纸的识别时间，提高了识别效率，并且可有效避免由于人工识别造成的识别错误的问题。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中建筑图纸的文本信息识别方法的流程图；

图2为本发明实施例中建筑图纸的文本信息识别装置的结构示意图；

图3为本发明实施例中的电子设备的结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

基于上述问题，本发明实施例提供了一种建筑图纸的文本信息识别方法，如图1所示，该建筑图纸的文本信息识别方法具体包括如下步骤：

步骤S101：获取待识别建筑图纸的原始图像、文本区域颜色及目标文本颜色。在实际应用中，大多数的建筑图纸均遵循以下图纸设计规范：在建筑图纸上设置有专门的文本区域，在该文本区域中，该建筑图纸的图号、图名、设计单位、设计人等一些属性信息包含在一个白色边框的表格中，其中图号、图名的颜色是红色，其他文本信息与表格边框颜色一致是白色。本发明实施例中将以需要识别的目标文本为图号，文本区域颜色为白色(即表格边框线条为白色)，目标文本颜色为红色(即图号字体的颜色为红色)，其他非目标文本颜色也为白色为例进行说明，在实际应用中，也可以根据不同建筑图纸实际的颜色设置进行相应的调整，本发明并不以此为限。

具体地，在一实施例中，上述的步骤S101中，获取待识别建筑图纸的原始图像具体包括如下步骤：

获取待识别建筑图纸。在实际应用中，建筑图纸通常为PDF格式。

根据预设格式转换方法对待识别建筑图纸进行格式转换，确定待识别建筑图纸的原始图像。具体地，在对图像进行颜色阈值分割时，需要使用规定格式的图像，例如PNG格式，因此，需要采用预设格式转换方法对PDF格式的建筑图纸进行转换，将其转换为PNG格式等。需要说明的是，该预设格式转换方法为现有技术，例如可以采用PyMuPDF库对PDF格式建筑图纸进行格式转换等，在此不再进行赘述。

步骤S102：根据文本区域颜色和目标文本颜色对原始图像进行图像分割，确定目标文本图像。

具体地，在一实施例中，上述的步骤S102具体包括如下步骤：

步骤S201：根据文本区域颜色对应的第一RGB颜色分量，对原始图像进行颜色阈值分割，确定文本区域图像。具体地，文本区域的颜色和目标文本颜色均可以由RGB三基色来表示，并将各自颜色用RGB分量表示，例如：文本区域颜色为白色，则其对应的第一RGB分量为(255,255,255)，目标文本颜色为红色，则其对应的第二RGB分量为(255,0,0)。

具体地，在一实施例中，上述的步骤S201具体包括如下步骤：

根据第一RGB颜色分量，对原始图像进行颜色阈值分割，确定第一图像。具体地，将建筑图纸对应的原始图像进行颜色阈值分割，仅提取出文本区域所包含的白色区域对应的图像。

根据第一图像的像素信息确定文本区域图像对应的第一边界位置信息；根据第一边界位置信息及原始图像，确定文本区域图像。具体地，由于在文本区域中还包含有其他颜色文本，例如目标文本为红色，以及非文本区域为黑色等，因此第一图像中会出现空洞的情况，由于文本区域的由白色边框构成，因此为了完整提取出文本区域，可以根据第一图像的像素信息来确定文本区域的边界轮廓，例如：通过提取白色对应的像素点的坐标点确定第一边界位置信息，通过得到四个像素坐标顶点即可构成边界轮廓的四边形，然后利用该轮廓所在的边界位置信息即可从待识别建筑图纸的原始图像上完整提取出仅包含文本区域图像。从而排除图像中其他建筑设计线条颜色对后续文本识别的准确性的影响，提高文本识别的准确率。

在一可选实施方式中，还可以通过对第一图像进行二值分割，确定第二图像。然后再利用第二图像的像素信息确定文本区域图像对应的第一边界位置信息；根据第一边界位置信息及原始图像，确定文本区域图像。具体地，由于在本发明实施例中是以文本区域的颜色为白色为例进行的举例说明，所以第一图像即为二值图像，因此可以省略二值分割的步骤，直接将第一图像作为第二图像，如果文本区域的颜色为其他颜色，则首先将其转换为二值图像即第二图像。由于二值图像的像素值仅由0和1构成，因此，二值图像的对应的边界位置信息更为准确，进而提高文本区域图像的准确性。

步骤S202：根据目标文本颜色对应的第二RGB颜色分量，对文本区域图像进行颜色阈值分割，确定目标文本图像。具体地，由于目标文本包含于文本区域图像中，并且由于目标文本与文本区域图像中其他文本及区域的颜色不同，因此，可以利用目标文本的RGB颜色分量即红色对应的RGB分量对文本区域图像进行颜色阈值分割，从而仅得到包含目标文本的图像，排除其他干扰文本信息，从而降低了后续目标文本的识别难度，从而提高了文本识别的效率和准确性。

步骤S103：将目标文本图像输入至文本识别模型进行文本识别，确定待识别建筑图纸对应的目标文本信息。具体地，该目标文本信息包括：图号和/或图名，在本发明实施例中，所采用的文本识别模型是基于CNN+softmax的分类器模型，在实际应用中，也可以选择其他文本识别模型。需要说明的是，在本发明实施例中是以目标文本信息为图号为例进行的说明，并不以此为限。

具体地，在一实施例中，上述的步骤S103包括如下步骤：

获取目标文本图像的像素信息；根据目标文本图像的像素信息，确定目标中文本对应的第二边界信息；根据第二边界信息及目标文本图像，确定更新后的目标文本图像；将更新后的目标文本图像输入至文本识别模型进行文本识别，确定待识别建筑图纸对应的目标文本信息。具体地，由于上述步骤S202中确定的目标文本图像与文本区域图像的图像尺寸一致，并且目标文本通常仅占文本区域图像的很小的一部分，如果直接对所得到的目标文本图像进行目标文本的识别虽然能够得到准确的识别结果，但是由于图像尺寸较大，会影响识别速率，因此，本发明实施例通过根据目标文本图像的像素信息，确定目标文本在目标文本图像中的边界，例如可以是以包含目标文本的最小矩形作为该边界，从而通过确定四个顶点的像素值，确定边界位置，进而利用该边界信息对目标文本图像进行裁剪，得到仅包含目标文本的尺寸较小的图像，从而进一步提高目标文本识别的速率，并且降低对后续文本识别模型的要求，提高识别准确性。

具体地，在一实施例中，上述的步骤S103包括如下步骤：

步骤S301:获取历史建筑图纸的历史目标文本图像及对应的历史目标文本信息。具体地，可以从大量已经人工识别完的建筑图纸中获取每个建筑图纸对应的图号以及该图号在建筑图纸上对应的图像。

步骤S302:将历史目标文本图像输入文本识别模型中，输出预测目标文本信息。具体地，通过筑图纸中常用的文字对应的图像做成数据集，由于本发明实施例中是以目标文本信息为图号为例进行的说明，则数据集为建筑图纸中表示图号的数字1-9对应的图像。

步骤S303:根据预测目标文本信息及所述目标文本信息，更新文本识别模型中的参数。

具体地，可以利用Tensorflow框架搭建一个基于VGG的CNN分类网络模型，并利用上述的训练数据集对该模型进行训练，最后用训练完成的模型对上述待识别建筑图纸对应的目标文本图像进行识别，得到该建筑图纸对应的图号信息。由于在建筑图纸中图号仅由数字构成，并且通常均为标准的印刷体，本发明实施例所选择的基于VGG的CNN分类网络模型的模型复杂度低，因此在运行该模型时，可以提高识别速率快，并且完全可以满足对于数字的识别精度要求，因此，选择该模型进行目标文本的识别即能获得良好的识别精度还能够提高识别速率。

下面将结合一个具体应用过程示例，对本发明实施例提供的建筑图纸的文本信息识别方法进行详细的说明。

步骤S1：将PDF格式图纸F1转换成PNG格式的图像数据Img0；

步骤S2：利用建筑图纸Img0中不同文本信息的颜色特征检测目标信息区域，然后将目标信息从对原图纸中切分出来，保存为PNG格式Img。步骤S2具体通过如下步骤实现：

步骤S21：将步骤S1得到的PNG格式图像数据Img0进行颜色阈值分割，获取包含所有文本位置信息(即文本区域位置信息)的图像Img1，颜色阈值分割原理如下式：

Lower_RGB<Img1<Upper_RGB

其中Upper_RGB，Lower_RGB是文本区域颜色的上下限，包含红色(R)、绿色(G)和蓝色(B)三个颜色分量。

步骤S22：对步骤S21中获取的Img1进行二值图像分割处理，得到图像Img2，用分割的二值图像Img2文本区域位置信息的边界从原图像Img0中进行提取，得到只包含文本信息的图像Img3。

步骤S23：对步骤S22中获取的只包含文本信息图像Img3进行颜色阈值分割，获取包含目标文本位置信息的图像Img4。

步骤S24：根据目标文本位置信息(即目标文本边界)对步骤S23中获取包含的图像Img4进行裁剪处理，得到目标文本图像Img。

步骤S3：使用基于CNN+softmax的分类器利用步骤S3中得到的文本图像Img进行识别，最后输出识别的文本信息F。步骤S3具体通过如下步骤实现：

步骤S31：收集建筑图纸中常用的文字做成数据集Dataset。

步骤S32：利用Tensorflow框架搭建一个基于VGG的CNN分类网络模型OCR_Net。

步骤S33：利用数据集Dataset对模型OCR_Net进行训练。

步骤S34：利用训练好的OCR_Net模型对步骤S2中得到的文本图像Img进行识别。

步骤S35：输出文本图像Img中对应的文本信息Text。

通过对1500张建筑图纸进行实验，首先使用PyMuPDF得到png格式建筑图纸图像，然后根据图纸中文本信息的颜色特征设置颜色特征阈值TH1，得到文本区域IOU1；设置颜色特征阈值TH2，从IOU1中检测出目标文本IOU2，并将IOU2从原图中分割出来，最后使用训练好的OCR识别网络OCR_Net模型进行文本识别。实验结果表明，本发明实施例的文本识别的准确率为99.1325％，可以较好的实现了建筑图纸中的文本信息的检测和识别。

通过执行上述步骤，本发明实施例提供的建筑图纸的文本信息识别方法，通过获取待识别建筑图纸的原始图像、文本区域颜色及目标文本颜色；然后根据文本区域颜色和目标文本颜色对原始图像进行图像分割，确定目标文本图像；然后将目标文本图像输入至文本识别模型进行文本识别，确定待识别建筑图纸对应的目标文本信息。从而仅需人工确定建筑图纸文本区域的颜色和目标文本的颜色即可自动完成建筑图纸目标文本信息的识别，对于文本颜色设计相同的建筑图纸仅需设置一次颜色信息即可，无需重复设置，从而大大缩短了每个建筑图纸的识别时间，提高了识别效率，并且可有效避免由于人工识别造成的识别错误的问题。

本发明实施例还提供了一种建筑图纸的文本信息识别装置，如图2所示，该建筑图纸的文本信息识别装置包括：

获取模块101，用于获取待识别建筑图纸的原始图像、文本区域颜色及目标文本颜色。详细内容参见上述方法实施例中步骤S101的相关描述。在此不再进行赘述。

第一处理模块102，用于根据文本区域颜色和目标文本颜色对原始图像进行图像分割，确定目标文本图像。详细内容参见上述方法实施例中步骤S102的相关描述。在此不再进行赘述。

第二处理模块103，用于将所述目标文本图像输入至文本识别模型进行文本识别，确定待识别建筑图纸对应的目标文本信息。详细内容参见上述方法实施例中步骤S103的相关描述。在此不再进行赘述。

通过上述各个组成部分的协同合作，本发明实施例提供的建筑图纸的文本信息识别装置，通过获取待识别建筑图纸的原始图像、文本区域颜色及目标文本颜色；然后根据文本区域颜色和目标文本颜色对原始图像进行图像分割，确定目标文本图像；然后将目标文本图像输入至文本识别模型进行文本识别，确定待识别建筑图纸对应的目标文本信息。从而仅需人工确定建筑图纸文本区域的颜色和目标文本的颜色即可自动完成建筑图纸目标文本信息的识别，对于文本颜色设计相同的建筑图纸仅需设置一次颜色信息即可，无需重复设置，从而大大缩短了每个建筑图纸的识别时间，提高了识别效率，并且可有效避免由于人工识别造成的识别错误的问题。

本发明实施例还提供了一种电子设备，如图3所示，该电子设备可以包括处理器901和存储器902，其中处理器901和存储器902可以通过总线或者其他方式连接，图3中以通过总线连接为例。

处理器901可以为中央处理器(Central Processing Unit，CPU)。处理器901还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器902作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的方法所对应的程序指令/模块。处理器901通过运行存储在存储器902中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器901所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至处理器901。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器902中，当被处理器901执行时，执行上述方法。

上述电子设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-StateDrive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种建筑图纸的文本信息识别方法，其特征在于，包括：

获取待识别建筑图纸的原始图像、文本区域颜色及目标文本颜色；

2.根据权利要求1所述的方法，其特征在于，所述根据所述文本区域颜色和所述目标文本颜色对所述原始图像进行图像分割，确定目标文本图像，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述文本区域颜色对应的第一RGB颜色分量，对所述原始图像进行颜色阈值分割，确定文本区域图像，包括：

4.根据权利要求2所述的方法，其特征在于，所述将所述目标文本图像输入至文本识别模型进行文本识别，确定待识别建筑图纸对应的目标文本信息，包括：

获取所述目标文本图像的像素信息；

5.根据权利要求1所述的方法，其特征在于，所述文本识别模型通过以下方式进行训练得到的：

6.根据权利要求1所述的方法，其特征在于，所述获取待识别建筑图纸的原始图像，包括：

获取所述待识别建筑图纸；

7.根据权利要求1所述的方法，其特征在于，所述文本识别模型为基于CNN+softmax的分类器模型。

8.一种建筑图纸的文本信息识别装置，其特征在于，包括：

9.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令被处理器执行时实现如权利要求1-7中任一项所述的方法。

10.一种电子设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行如权利要求1-7中任一项所述方法。