CN114386504A

CN114386504A - 一种工程图纸文字识别方法

Info

Publication number: CN114386504A
Application number: CN202210025084.9A
Authority: CN
Inventors: 覃晓; 施宇; 廖显幸; 文宏凤; 周卫江; 许桓韶; 彭宏辉; 农忠霖; 李军
Original assignee: Guangxi G Energy Software Co ltd
Current assignee: Guangxi G Energy Software Co ltd
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2022-04-22

Abstract

本发明公开了一种工程图纸文字识别方法，先制作图纸内文字区域的标注数据集，利用深度学习可以更好的提取图像特征的优越性，训练深度学习的CenterNet模型用以识别文字区域，然后利用OpenCV技术能够对图像的纹理特征更敏感，更容易检测并排除表格线条干扰的有点，使用OpenCV技术中的线条检测和轮廓检测技术，对文字区域进行剪裁，最后利用OCR技术对剪裁后的区域进行文字识别，解决现有的工程图纸文字识别标注数据集难获取；工程图纸因为文字与表格嵌套、文字信息排版混乱等原因，导致识别有语义意义的字词困难的问题，能够有效自动识别工程图纸中工程名称、施工单位等关键文字。

Description

一种工程图纸文字识别方法

技术领域

本发明涉及图文识别领域，具体涉及一种工程图纸文字识别方法。

背景技术

工程图纸中的文字信息，常常出现在图纸的一角。文字常伴随表格出现，其记录了工程名称、施工单位、制图者等重要的信息。从图像中检测并识别文字，现有的主要技术包括深度学习和OCR。

基于深度学习的图像文字识别技术，需要大量的标注数据进行训练。但工程图纸为施工单位特有的带有隐私数据的图纸，无法在网络中找到相关的标注数据，因而单纯使用深度学习无法准确获取工程图纸中的文字。

传统的OCR技术，在检测并识别图像中的文字时，采用的是无差别识别策略，即不管文字的上下文语义，仅将图像中的文字做检测识别处理。利用OCR技术识别出来的工程图纸文字，是没有经过短句的无意义的文字，因而无法自动获取工程名称、施工单位等有意义的信息。

发明内容

针对现有技术中的上述不足，本发明提供了一种工程图纸文字识别方法。

为了达到上述发明目的，本发明采用的技术方案为：

一种工程图纸文字识别方法，包括如下步骤：

S1、对工程图纸文字区域进行标注，提取图纸内的文字区域；

S2、利用DSA算法对提取的文字区域制作数据集，并利用训练CenterNet模型识别工程图纸的表格和文字区域图像；

S3、利用OpenCV算法识别对步骤S2中的文字区域图像进行识别，提取其中的文字；

S4、构建工程领域词典，利用所构建的词典判断步骤S3所识别的文字，并将识别信息填充进工程信息表直至所识别的文字全部被识别。

进一步的，所述S2中利用训练CenterNet模型识别工程图纸的表格和文字区域图像的具体方式为：

S21、设置CenterNet模型参数；

S22、计算数据集的均值和方差。

进一步的，所述S21中CenterNet模型参数具体为：

根据文字区域的检测目标，设置CenterNet模型的类别数为2；

根据工程图纸扫描件的像素，将CenterNet模型的resolution参数设置为(512,512)。

进一步的，所述数据集的均值计算方式为：

x’＝sum(x)/N，

其中，x’为均值，x为数据集中所有图片都像素值，N为数据集中所有图片都像素总数。

进一步的，所述方差的计算方式为：

进一步的，所述S3具体方式为：

S31、利用OpenCV的cv2.getStructuringElement模块，对表格和文字区域图像进行线条检测，经过横线提取和竖线提取后得到包含文字的表格边框图像G1；

S32、利用OpenCv的图像擦除模块cv2.erode，擦除G1中无意义的线条，得到G2；

S33、利用OpenCv的轮廓检测模块cv2.findContours，检测G1中的表格的所有单元格，得到所有单元格的坐标集合；

S34、利用单元格坐标集合对G2进行图像切分，得到每一个单元格图像集

G3＝{g_i|i＝1,2,3....n}

其中，g_i为第i个单元格图像，i为单元格图像的索引。

进一步的，所述S4中利用所构建的词典判断步骤S3所识别的文字具体方式为：

判断g_i中的文字为键属性或值属性：

若是键属性，则将其填入工程信息表的关键字列；

若是值属性，则将其填入工程信息表中对应的值列。

本发明具有以下有益效果：

1)将精灵标注助手与坐标信息提取算法有机结合起来，为文字区域检测深度学习的数据集构造提供了自动标注数据的方法，解决了工程图纸文字识别问题数据集难以获取的实际问题。

2)在数据集较少的条件下，将深度学习和OpenCV算法进行了融合，能够有效解决传统深度学习方法中，训练数据不足，训练效果不好的问题。

3)采用工程信息领域词典与OCR结合的方式，自动识别文字的属性信息，解决了OCR仅识别文字，不理解文字语义的问题。

4)自动化处理水平较高，可以极大地降低操作人员工作量，自动识别工程图纸中的文字信息，为自动填充工程信息报表奠定基础。

附图说明

图1为本发明一种工程图纸文字识别方法流程示意图

图2为本发明实施例数据集构造方法DSA流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

一种工程图纸文字识别方法，如图1所示，包括如下步骤：

具体而言，本发明利用精灵标注助手工具，来对工程图纸进行文字区域标注。然后对标注后图纸，利用算法来制作标注数据集

S2、利用DSA算法对提取的文字区域制作数据集，并利用训练CenterNet模型识别工程图纸的表格和文字区域图像，如图2所示。

利用深度学习的CenterNet来训练数据集，以得到能够自动设别文字区域的模型参数。CenterNet采用全卷积网络直接得到4倍下采样的热力图，不需要提前设定anchors,所以大大减少了网络参数量和计算量。Centernet中在上采样前采用deformable卷积，这样能够使得网络的感受野变得更加精确。同时4倍下采样特征图的分辨率也大大高于一般网络的分辨率，因而可以很好的检测到图像目标。

训练CenterNet模型的参数设置如下：

(1)根据文字区域的检测目标，设置CenterNet的类别数为2

(2)工程图纸以扫描件为主，大多像素较高。因而将CenterNet的resolution参数设置为(512,512)；

(3)计算数据集的均值和方差。Centernet中虽然自带有计算均值和方差的模块，但因为工程图纸文字区域经过检测后经过了标注处理，因而需自己计算文字区域图片的均值和方差。公式为：

文字区域均值：x’＝sum(x)/N；

文字区域方差：

其中，x为数据集中所有图片都像素值，N为数据集中所有图片都像素总数。

S3、利用OpenCV算法识别对步骤S2中的文字区域图像进行识别，提取其中的文字，具体方式为：

G3＝{g_i|i＝1,2,3....n}

其中，g_i为第i个单元格图像，i为单元格图像的索引。

S4、构建工程领域词典，利用所构建的词典判断步骤S3所识别的文字，并将识别信息填充值工程信息表直至所识别的文字全部被识别。

具体而言，判断g_i中的文字为键属性或值属性：

若是键属性，则将其填入工程信息表的关键字列；

若是值属性，则将其填入工程信息表中对应的值列。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种工程图纸文字识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种工程图纸文字识别方法，其特征在于，所述S2中利用训练CenterNet模型识别工程图纸的表格和文字区域图像的具体方式为：

S21、设置CenterNet模型参数；

S22、计算数据集的均值和方差。

3.根据权利要求2所述的一种工程图纸文字识别方法，其特征在于，所述S21中CenterNet模型参数具体为：

根据文字区域的检测目标，设置CenterNet模型的类别数为2；

4.根据权利要求2所述的一种工程图纸文字识别方法，其特征在于，所述数据集的均值计算方式为：

x’＝sum(x)/N，

5.根据权利要求2所述的一种工程图纸文字识别方法，其特征在于，所述方差的计算方式为：

6.根据权利要求1所述的一种工程图纸文字识别方法，其特征在于，所述S3具体方式为：

G3＝{g_i|i＝1,2,3…n}

其中，g_i为第i个单元格图像，i为单元格图像的索引；

利用训练好的CenterNet模型，可以得到工程图纸的表格和文字区域图像，记为G。

7.根据权利要求1或6任一项所述的一种工程图纸文字识别方法，其特征在于，所述S4中利用所构建的词典判断步骤S3所识别的文字具体方式为：

判断g_i中的文字为键属性或值属性：

若是键属性，则将其填入工程信息表的关键字列；

若是值属性，则将其填入工程信息表中对应的值列。