CN114386504A - 一种工程图纸文字识别方法 - Google Patents

一种工程图纸文字识别方法 Download PDF

Info

Publication number
CN114386504A
CN114386504A CN202210025084.9A CN202210025084A CN114386504A CN 114386504 A CN114386504 A CN 114386504A CN 202210025084 A CN202210025084 A CN 202210025084A CN 114386504 A CN114386504 A CN 114386504A
Authority
CN
China
Prior art keywords
characters
engineering
engineering drawing
image
character area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210025084.9A
Other languages
English (en)
Inventor
覃晓
施宇
廖显幸
文宏凤
周卫江
许桓韶
彭宏辉
农忠霖
李军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi G Energy Software Co ltd
Original Assignee
Guangxi G Energy Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi G Energy Software Co ltd filed Critical Guangxi G Energy Software Co ltd
Priority to CN202210025084.9A priority Critical patent/CN114386504A/zh
Publication of CN114386504A publication Critical patent/CN114386504A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种工程图纸文字识别方法,先制作图纸内文字区域的标注数据集,利用深度学习可以更好的提取图像特征的优越性,训练深度学习的CenterNet模型用以识别文字区域,然后利用OpenCV技术能够对图像的纹理特征更敏感,更容易检测并排除表格线条干扰的有点,使用OpenCV技术中的线条检测和轮廓检测技术,对文字区域进行剪裁,最后利用OCR技术对剪裁后的区域进行文字识别,解决现有的工程图纸文字识别标注数据集难获取;工程图纸因为文字与表格嵌套、文字信息排版混乱等原因,导致识别有语义意义的字词困难的问题,能够有效自动识别工程图纸中工程名称、施工单位等关键文字。

Description

一种工程图纸文字识别方法
技术领域
本发明涉及图文识别领域,具体涉及一种工程图纸文字识别方法。
背景技术
工程图纸中的文字信息,常常出现在图纸的一角。文字常伴随表格出现,其记录了工程名称、施工单位、制图者等重要的信息。从图像中检测并识别文字,现有的主要技术包括深度学习和OCR。
基于深度学习的图像文字识别技术,需要大量的标注数据进行训练。但工程图纸为施工单位特有的带有隐私数据的图纸,无法在网络中找到相关的标注数据,因而单纯使用深度学习无法准确获取工程图纸中的文字。
传统的OCR技术,在检测并识别图像中的文字时,采用的是无差别识别策略,即不管文字的上下文语义,仅将图像中的文字做检测识别处理。利用OCR技术识别出来的工程图纸文字,是没有经过短句的无意义的文字,因而无法自动获取工程名称、施工单位等有意义的信息。
发明内容
针对现有技术中的上述不足,本发明提供了一种工程图纸文字识别方法。
为了达到上述发明目的,本发明采用的技术方案为:
一种工程图纸文字识别方法,包括如下步骤:
S1、对工程图纸文字区域进行标注,提取图纸内的文字区域;
S2、利用DSA算法对提取的文字区域制作数据集,并利用训练CenterNet模型识别工程图纸的表格和文字区域图像;
S3、利用OpenCV算法识别对步骤S2中的文字区域图像进行识别,提取其中的文字;
S4、构建工程领域词典,利用所构建的词典判断步骤S3所识别的文字,并将识别信息填充进工程信息表直至所识别的文字全部被识别。
进一步的,所述S2中利用训练CenterNet模型识别工程图纸的表格和文字区域图像的具体方式为:
S21、设置CenterNet模型参数;
S22、计算数据集的均值和方差。
进一步的,所述S21中CenterNet模型参数具体为:
根据文字区域的检测目标,设置CenterNet模型的类别数为2;
根据工程图纸扫描件的像素,将CenterNet模型的resolution参数设置为(512,512)。
进一步的,所述数据集的均值计算方式为:
x’=sum(x)/N,
其中,x’为均值,x为数据集中所有图片都像素值,N为数据集中所有图片都像素总数。
进一步的,所述方差的计算方式为:
Figure BDA0003464061600000021
进一步的,所述S3具体方式为:
S31、利用OpenCV的cv2.getStructuringElement模块,对表格和文字区域图像进行线条检测,经过横线提取和竖线提取后得到包含文字的表格边框图像G1;
S32、利用OpenCv的图像擦除模块cv2.erode,擦除G1中无意义的线条,得到G2;
S33、利用OpenCv的轮廓检测模块cv2.findContours,检测G1中的表格的所有单元格,得到所有单元格的坐标集合;
S34、利用单元格坐标集合对G2进行图像切分,得到每一个单元格图像集
G3={gi|i=1,2,3....n}
其中,gi为第i个单元格图像,i为单元格图像的索引。
进一步的,所述S4中利用所构建的词典判断步骤S3所识别的文字具体方式为:
判断gi中的文字为键属性或值属性:
若是键属性,则将其填入工程信息表的关键字列;
若是值属性,则将其填入工程信息表中对应的值列。
本发明具有以下有益效果:
1)将精灵标注助手与坐标信息提取算法有机结合起来,为文字区域检测深度学习的数据集构造提供了自动标注数据的方法,解决了工程图纸文字识别问题数据集难以获取的实际问题。
2)在数据集较少的条件下,将深度学习和OpenCV算法进行了融合,能够有效解决传统深度学习方法中,训练数据不足,训练效果不好的问题。
3)采用工程信息领域词典与OCR结合的方式,自动识别文字的属性信息,解决了OCR仅识别文字,不理解文字语义的问题。
4)自动化处理水平较高,可以极大地降低操作人员工作量,自动识别工程图纸中的文字信息,为自动填充工程信息报表奠定基础。
附图说明
图1为本发明一种工程图纸文字识别方法流程示意图
图2为本发明实施例数据集构造方法DSA流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
一种工程图纸文字识别方法,如图1所示,包括如下步骤:
S1、对工程图纸文字区域进行标注,提取图纸内的文字区域;
具体而言,本发明利用精灵标注助手工具,来对工程图纸进行文字区域标注。然后对标注后图纸,利用算法来制作标注数据集
S2、利用DSA算法对提取的文字区域制作数据集,并利用训练CenterNet模型识别工程图纸的表格和文字区域图像,如图2所示。
利用深度学习的CenterNet来训练数据集,以得到能够自动设别文字区域的模型参数。CenterNet采用全卷积网络直接得到4倍下采样的热力图,不需要提前设定anchors,所以大大减少了网络参数量和计算量。Centernet中在上采样前采用deformable卷积,这样能够使得网络的感受野变得更加精确。同时4倍下采样特征图的分辨率也大大高于一般网络的分辨率,因而可以很好的检测到图像目标。
训练CenterNet模型的参数设置如下:
(1)根据文字区域的检测目标,设置CenterNet的类别数为2
(2)工程图纸以扫描件为主,大多像素较高。因而将CenterNet的resolution参数设置为(512,512);
(3)计算数据集的均值和方差。Centernet中虽然自带有计算均值和方差的模块,但因为工程图纸文字区域经过检测后经过了标注处理,因而需自己计算文字区域图片的均值和方差。公式为:
文字区域均值:x’=sum(x)/N;
文字区域方差:
Figure BDA0003464061600000051
其中,x为数据集中所有图片都像素值,N为数据集中所有图片都像素总数。
S3、利用OpenCV算法识别对步骤S2中的文字区域图像进行识别,提取其中的文字,具体方式为:
S31、利用OpenCV的cv2.getStructuringElement模块,对表格和文字区域图像进行线条检测,经过横线提取和竖线提取后得到包含文字的表格边框图像G1;
S32、利用OpenCv的图像擦除模块cv2.erode,擦除G1中无意义的线条,得到G2;
S33、利用OpenCv的轮廓检测模块cv2.findContours,检测G1中的表格的所有单元格,得到所有单元格的坐标集合;
S34、利用单元格坐标集合对G2进行图像切分,得到每一个单元格图像集
G3={gi|i=1,2,3....n}
其中,gi为第i个单元格图像,i为单元格图像的索引。
S4、构建工程领域词典,利用所构建的词典判断步骤S3所识别的文字,并将识别信息填充值工程信息表直至所识别的文字全部被识别。
具体而言,判断gi中的文字为键属性或值属性:
若是键属性,则将其填入工程信息表的关键字列;
若是值属性,则将其填入工程信息表中对应的值列。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (7)

1.一种工程图纸文字识别方法,其特征在于,包括如下步骤:
S1、对工程图纸文字区域进行标注,提取图纸内的文字区域;
S2、利用DSA算法对提取的文字区域制作数据集,并利用训练CenterNet模型识别工程图纸的表格和文字区域图像;
S3、利用OpenCV算法识别对步骤S2中的文字区域图像进行识别,提取其中的文字;
S4、构建工程领域词典,利用所构建的词典判断步骤S3所识别的文字,并将识别信息填充值工程信息表直至所识别的文字全部被识别。
2.根据权利要求1所述的一种工程图纸文字识别方法,其特征在于,所述S2中利用训练CenterNet模型识别工程图纸的表格和文字区域图像的具体方式为:
S21、设置CenterNet模型参数;
S22、计算数据集的均值和方差。
3.根据权利要求2所述的一种工程图纸文字识别方法,其特征在于,所述S21中CenterNet模型参数具体为:
根据文字区域的检测目标,设置CenterNet模型的类别数为2;
根据工程图纸扫描件的像素,将CenterNet模型的resolution参数设置为(512,512)。
4.根据权利要求2所述的一种工程图纸文字识别方法,其特征在于,所述数据集的均值计算方式为:
x’=sum(x)/N,
其中,x’为均值,x为数据集中所有图片都像素值,N为数据集中所有图片都像素总数。
5.根据权利要求2所述的一种工程图纸文字识别方法,其特征在于,所述方差的计算方式为:
Figure FDA0003464061590000021
6.根据权利要求1所述的一种工程图纸文字识别方法,其特征在于,所述S3具体方式为:
S31、利用OpenCV的cv2.getStructuringElement模块,对表格和文字区域图像进行线条检测,经过横线提取和竖线提取后得到包含文字的表格边框图像G1;
S32、利用OpenCv的图像擦除模块cv2.erode,擦除G1中无意义的线条,得到G2;
S33、利用OpenCv的轮廓检测模块cv2.findContours,检测G1中的表格的所有单元格,得到所有单元格的坐标集合;
S34、利用单元格坐标集合对G2进行图像切分,得到每一个单元格图像集
G3={gi|i=1,2,3…n}
其中,gi为第i个单元格图像,i为单元格图像的索引;
利用训练好的CenterNet模型,可以得到工程图纸的表格和文字区域图像,记为G。
7.根据权利要求1或6任一项所述的一种工程图纸文字识别方法,其特征在于,所述S4中利用所构建的词典判断步骤S3所识别的文字具体方式为:
判断gi中的文字为键属性或值属性:
若是键属性,则将其填入工程信息表的关键字列;
若是值属性,则将其填入工程信息表中对应的值列。
CN202210025084.9A 2022-01-11 2022-01-11 一种工程图纸文字识别方法 Pending CN114386504A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210025084.9A CN114386504A (zh) 2022-01-11 2022-01-11 一种工程图纸文字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210025084.9A CN114386504A (zh) 2022-01-11 2022-01-11 一种工程图纸文字识别方法

Publications (1)

Publication Number Publication Date
CN114386504A true CN114386504A (zh) 2022-04-22

Family

ID=81199277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210025084.9A Pending CN114386504A (zh) 2022-01-11 2022-01-11 一种工程图纸文字识别方法

Country Status (1)

Country Link
CN (1) CN114386504A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115588202A (zh) * 2022-10-28 2023-01-10 南京云阶电力科技有限公司 一种基于轮廓检测的电气设计图纸中文字提取方法及系统
CN116110071A (zh) * 2023-04-07 2023-05-12 济南大学 一种基于深度学习的图像格式管道和仪表图管线识别方法
CN118172224A (zh) * 2024-05-16 2024-06-11 四川鑫海工程造价咨询事务所有限公司 一种工程造价数据管理方法
CN118172224B (zh) * 2024-05-16 2024-07-16 四川鑫海工程造价咨询事务所有限公司 一种工程造价数据管理方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115588202A (zh) * 2022-10-28 2023-01-10 南京云阶电力科技有限公司 一种基于轮廓检测的电气设计图纸中文字提取方法及系统
CN115588202B (zh) * 2022-10-28 2023-08-15 南京云阶电力科技有限公司 一种基于轮廓检测的电气设计图纸中文字提取方法及系统
CN116110071A (zh) * 2023-04-07 2023-05-12 济南大学 一种基于深度学习的图像格式管道和仪表图管线识别方法
CN116110071B (zh) * 2023-04-07 2023-09-12 济南大学 一种基于深度学习的图像格式管道和仪表图管线识别方法
CN118172224A (zh) * 2024-05-16 2024-06-11 四川鑫海工程造价咨询事务所有限公司 一种工程造价数据管理方法
CN118172224B (zh) * 2024-05-16 2024-07-16 四川鑫海工程造价咨询事务所有限公司 一种工程造价数据管理方法

Similar Documents

Publication Publication Date Title
CN111723585B (zh) 一种风格可控的图像文本实时翻译与转换方法
CN112418216B (zh) 一种复杂自然场景图像中的文字检测方法
CN112633277A (zh) 基于深度学习的航道船牌检测、定位及识别方法
CN110956138B (zh) 一种基于家教设备的辅助学习方法及家教设备
CN114386504A (zh) 一种工程图纸文字识别方法
CN112528997B (zh) 一种基于文本中心区域扩增的藏汉双语场景文本检测方法
CN109840483B (zh) 一种滑坡裂缝检测与识别的方法及装置
CN113762269B (zh) 基于神经网络的中文字符ocr识别方法、系统及介质
CN111626292B (zh) 一种基于深度学习技术的楼宇指示标识的文字识别方法
CN113936195B (zh) 敏感图像识别模型的训练方法、训练装置和电子设备
CN110879972B (zh) 一种人脸检测方法及装置
CN112883926B (zh) 表格类医疗影像的识别方法及装置
CN115588202B (zh) 一种基于轮廓检测的电气设计图纸中文字提取方法及系统
CN114663904A (zh) 一种pdf文档布局检测方法、装置、设备及介质
CN112633118A (zh) 一种文本信息提取方法、设备及存储介质
CN114529773A (zh) 基于结构单元的表格识别方法、系统、终端及介质
CN114663897A (zh) 表格提取方法与表格提取系统
CN114119949A (zh) 一种增强文本合成图像的生成方法和系统
CN111626145A (zh) 一种简捷有效的残缺表格识别及跨页拼接方法
CN115019310B (zh) 图文识别方法及设备
CN114579796B (zh) 机器阅读理解方法及装置
CN115050025A (zh) 基于公式识别的知识点抽取方法及装置
CN110956174A (zh) 一种器件编号的识别方法
CN115761782A (zh) 一种道路工程图纸标题栏信息提取方法
CN109635798A (zh) 一种信息提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination