CN114694159A - 一种工程图bom识别方法、装置、电子设备和存储介质 - Google Patents

一种工程图bom识别方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN114694159A
CN114694159A CN202210377625.4A CN202210377625A CN114694159A CN 114694159 A CN114694159 A CN 114694159A CN 202210377625 A CN202210377625 A CN 202210377625A CN 114694159 A CN114694159 A CN 114694159A
Authority
CN
China
Prior art keywords
text
bom
engineering
input
engineering technical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210377625.4A
Other languages
English (en)
Inventor
郭钧
李天成
杜百岗
周圣文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202210377625.4A priority Critical patent/CN114694159A/zh
Publication of CN114694159A publication Critical patent/CN114694159A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种工程图BOM识别方法、装置、电子设备和存储介质,该方法包括:获取工程技术图纸的图片文件;利用预设的表格识别方法对所述工程技术图纸的图片文件进行表格识别,得到待录入表格;利用预先建立的文本检测模型对所述待录入表格进行文本识别,得到待录入文本;根据所述待录入文本得到所述工程技术图纸的BOM物料清单。本发明的方法能够精确的分割和定位出工程技术图纸中的文本表格部分,相比其他表格分割方法,运行速度更快,准确率接近100%;通过文本检测模型,使得文本的检测精度得到大幅度提升,可以快速制定BOM物料清单,为产品的更新奠定了基础,提高了企业的生产效率。

Description

一种工程图BOM识别方法、装置、电子设备和存储介质
技术领域
本发明涉及物料管理技术领域,尤其涉及一种工程图BOM识别方法、装置、电子设备和存储介质。
背景技术
随着企业之间的竞争加剧,新产品的轮替更新速度不断加快。通常来说,新产品在设计和制造的过程中,会有大量的现有工程技术图纸被重新调用、参阅、修改。物料清单(BOM)是以数据格式来描述产品结构的文件,只有BOM正确才能配置出符合客户要求的新产品。组成BOM的信息需要从设计图纸中进行提取,将所有的子件和子件的配置条件等文本提取出来后进行数据格式转换。因此,电子图纸文本的提取和录入尤为重要。
传统的电子图纸文本的录入都是由人工完成,这项工作繁杂且枯燥,不可避免的存在工作效率低下、文本读取有偏差和打字失误导致错误等问题。因此,很多企业引进OCR(光学字符识别)算法,通过计算机来自动录入图纸的文本。然而,运用现有光学字符识别技术对工程技术图纸中的文本进行识别时,存在很多待解决的问题。例如,在识别工程图纸的标题栏时,对普通的文本识别较为准确,但是对零部件序号的识别却出现大量不明原因的错误,需要对识别对象进行复查,但复查时又会引起另外一个问题:由于复查时文本的相对尺寸(即文本尺寸与单元格尺寸的比值)过大,超出了现有文本检测算法的识别范围,会导致漏检和误检。
因此,亟需提出一种适用于工程图的BOM识别方法,能够对工程图中的文本进行快速而准确的识别,加快BOM清单的制定,提高企业的生产效率,加快企业产品的更新速度。
发明内容
有鉴于此,有必要提供一种工程图BOM识别方法、装置、电子设备和计算机可读存储设备,用以解决现有的工程技术图纸文本自动识别技术中存在的识别精度低、识别速度慢的问题。
为了解决上述问题,本发明提供一种工程图BOM识别方法,包括:
获取工程技术图纸的图片文件;
利用预设的表格识别方法对所述工程技术图纸的图片文件进行表格识别,得到待录入表格;
利用预先建立的文本检测模型对所述待录入表格进行文本识别,得到待录入文本;
根据所述待录入文本得到所述工程技术图纸的BOM物料清单。
进一步地,根据所述待录入文本得到BOM物料清单,包括:
对所述待录入文本的综合置信度进行计算;
当所述待录入文本的综合置信度小于预设的阈值时,利用预先建立的复核模型对所述待录入文本进行识别,得到复核录入文本;
根据所述复核录入文本,得到BOM物料清单。
进一步地,利用预设的表格识别方法对所述工程技术图纸的图片文件进行表格识别,得到待录入表格,包括:
对所述工程技术图纸的图片文件进行水平像素统计,得到所述工程技术图纸图片文件中待录入表格的轮廓峰;
对所述待录入表格的轮廓峰进行梯度直方图统计,得到所述待录入表格的垂直像素统计图;
根据所述垂直像素统计图,得到所述待录入表格每个单元格的尺寸信息和坐标信息。
进一步地,建立文本检测模型包括:将初始Yolov5网络结构的特征融合层结构设置为加权双向特征金字塔结构。
进一步地,建立复核模型包括:在初始Yolov5网络结构的检测层中增加两个检测头。
进一步地,所述待录入文本的综合置信度包括:位置误差损失值、分类误差损失值和置信度误差损失值。
进一步地,获取工程技术图纸图片文件,包括:
获取工程技术图纸文档;
对所述工程技术图纸文档进行格式转换,得到工程技术图纸的原始图;
对所述工程技术图纸的原始图进行预处理,得到工程技术图纸的图片文件。
本发明还提供一种工程图BOM识别装置,包括:
图片获取模块,用于获取工程技术图纸的图片文件;
表格识别模块,用于利用预设的表格识别方法对所述工程技术图纸的图片文件进行表格识别,得到待录入表格;
文本识别模块,用于利用预先建立的文本检测模型对所述待录入表格进行文本识别,得到待录入文本;
BOM生成模块,用于根据所述待录入文本得到所述工程技术图纸的BOM物料清单。
本发明还提供一种电子设备,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如上述任一技术方案所述的一种工程图BOM识别方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机该程序被处理器执行时,实现如上述任一技术方案所述的一种工程图BOM识别方法。
与现有技术相比,本发明的有益效果包括:首先,获取工程技术图纸的图片文件,利用预设的表格识别方法对所述工程技术图纸的图片文件进行表格识别,得到待录入表格;能够精确的分割和定位出工程技术图纸中的文本表格部分,相比其他表格分割方法,运行速度更快,准确率接近100%;其次,利用预先建立的文本检测模型,对所述待录入表格进行文本识别,得到待录入文本;通过文本检测模型,使得文本的检测精度得到大幅度提升;通过本发明的表格识别和文本识别方法,实现了对工程技术图纸标题栏中的文本进行快速、准确的提取,得到了待录入文本;最后,根据所述待录入文本得到所述工程技术图纸的BOM物料清单,可以快速制定BOM物料清单,为产品的更新奠定了基础,提高了企业的生产效率。
附图说明
图1为本发明提供的一种工程图BOM识别方法一实施例的流程示意图;
图2为本发明提供的根据所述待录入文本得到所述工程技术图纸的BOM物料清单一实施的流程示意图;
图3为本发明提供的工程图BOM识别方法一实施例的框架示意图;
图4为本发明提供的对工程技术图纸文档进行格式转换一实施例的示意图;
图5为本发明提供的工程图标题栏水平像素统计后的一实施例的梯度直方图;
图6为本发明提供的工程图表格识别后一实施例的工程图标题栏示意图;
图7为本发明提供的文本检测模型进行识别后一实施例的标题栏表格示意图;
图8为本发明提供的复核模型的网络结构一实施例的结构示意图;
图9为本发明提供的工程图标题栏识别输出为Excel一实施例的示意图;
图10为本发明提供的BOM物料清单图一实施例的示意图;
图11为本发明提供的一种工程图BOM识别装置的结构示意图;
图12为本发明提供的电子设备一实施例的结构框图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本发明提供了一种工程图BOM识别方法、装置、电子设备及计算机可读存储介质,以下分别进行详细说明。
本发明实施例提供了一种工程图BOM识别方法,其流程示意图如图1所示,包括:
步骤S101、获取工程技术图纸的图片文件;
步骤S102、利用预设的表格识别方法对所述工程技术图纸的图片文件进行表格识别,得到待录入表格;
步骤S103、利用预先建立的文本检测模型对所述待录入表格进行文本识别,得到待录入文本;
步骤S104、根据所述待录入文本得到所述工程技术图纸的BOM物料清单。
与现有技术相比,本实施例提供的一种工程图BOM识别方法,首先,获取工程技术图纸的图片文件,利用预设的表格识别方法对所述工程技术图纸的图片文件进行表格识别,得到待录入表格;能够精确的分割和定位出工程技术图纸中的文本表格部分,相比其他表格分割方法,运行速度更快,准确率接近100%;其次,利用预先建立的文本检测模型,对所述待录入表格进行文本识别,得到待录入文本;通过文本检测模型,使得文本的检测精度得到大幅度提升;通过本发明的表格识别和文本识别方法,实现了对工程技术图纸标题栏中的文本进行快速、准确的提取,得到了待录入文本;最后,根据所述待录入文本得到所述工程技术图纸的BOM物料清单,可以快速制定BOM物料清单,为产品的更新奠定了基础,提高了企业的生产效率。
作为优选的实施例,步骤S101中,获取工程技术图纸图片文件,包括:
获取工程技术图纸文档;
对所述工程技术图纸文档进行格式转换,得到工程技术图纸的原始图;
对所述工程技术图纸的原始图进行预处理,得到工程技术图纸的图片文件。
作为一个具体的实施例,对工程技术图纸文档进行格式转换包括:
将存放工程技术图纸的PDF文件夹内的PDF文件(工程技术图纸文档)转换为PNG图片文件(工程技术图纸的原始图);
对所述工程技术图纸的原始图进行预处理包括:对PNG图片的角度进行矫正。
作为一个具体的实施例,将存放工程技术图纸的PDF文件夹内的PDF文件转换为PNG图片文件包括:
第一步:对PDF文件进行比例调整,适合显示器的大小;
第二步:当所述PDF文件有多页时,对PDF文件进行分页处理;
第三步:将每一页PDF页面转化为PNG图片,保存在指定的临时文件夹中。
作为一个具体的实施例,对PNG图片的角度进行矫正包括:
第一步:判断PNG图片中工程图是否倾斜;
第二步:当PNG图片倾斜时,通过找到图片中待录入表格的最下面一条直线与水平轴的角度对图像进行仿射变换,中心旋转后使刻度盘水平,仿射变换可以用一个3*3的矩阵M来表示,其最后一行为(0,0,1)。该变换矩阵将使原图像中的点的坐标(x,y)转换为新坐标(x',y'),即:
Figure BDA0003585429850000061
式中,m11、m12、m13、m21、m22、m23表示矩阵M中的元素值。
作为优选的实施例,步骤S102中,利用预设的表格识别方法对所述工程技术图纸的图片文件进行表格识别,得到待录入表格,包括:
对所述工程技术图纸的图片文件进行水平像素统计,得到所述工程技术图纸图片文件中待录入表格的轮廓峰;
对所述待录入表格的轮廓峰进行梯度直方图统计,得到所述待录入表格的垂直像素统计图;
根据所述垂直像素统计图,得到所述待录入表格每个单元格的尺寸信息和坐标信息。
作为一个具体的实施例,所述预设的表格识别方法为基于梯度直方图的识别方法,包括:
第一步:对工程技术图纸的图片文件底部进行水平像素统计,得到水平像素统计图,将统计图中的两个最高峰作为工程技术图纸的两侧边缘,将统计图中两个次高峰作为待录入表格的轮廓线。定义代表所述待录入表格轮廓线的峰值为轮廓峰,则两个轮廓峰之间的距离则为表格的水平长度;
第二步:根据统计图中间隔规律的最低峰来检验上一步中的两个次高峰是否为正确的轮廓峰;(因为轮廓峰必然和最低峰重叠,从而排除掉可能存在的矩形无关内容的干扰);
第三步:对每个轮廓峰进行梯度直方图统计,得到类似的垂直像素统计图,通过垂直方向的轮廓峰的间距,得到表格的垂直长度以及表格中每个单元格的尺寸信息与坐标信息。这样就能准确分离出工程图中待录入表格中每个单元格的坐标。
作为优选的实施例,步骤S103中,建立文本检测模型包括:将初始Yolov5网络结构的特征融合层结构设置为加权双向特征金字塔结构。
作为一个具体的实施例,建立文本检测模型的步骤包括:
第一步:建立初始文本检测模型:
模型的结构为:保留初始Yolov5网络结构的骨干网络结构;通过保留骨干网络结构,能够对权重最大的成熟的Yolov5网络结构进行迁移学习。保留初始Yolov5的三个检测头网络结构,增大网络宽度,将初始Yolov5的特征融合层结构由FPN+PAN结构改进为BIFPN结构,提高了对文字信息的检测精度;
第二步:对初始文本检测模型进行训练,得到训练完备的文本检测模型:
分别将中文、数字和字母数据集输入到初始文本检测模型中进行训练,扩大文本识别目标类型的范围,训练完成后,得到训练完备的文本检测模型。
作为一个具体的实施例,利用预先建立的文本检测模型对所述待录入表格进行文本识别,得到待录入文本,包括:
利用训练完备的文本检测模型对所述待录入表格进行整体的初步识别,识别出所述待录入表格中每个单元格的文本,得到待录入文本;
对所述待录入文本进行协调、聚合和存储。
作为优选的实施例,步骤S104中,如图2所示,根据所述待录入文本得到BOM物料清单,包括:
步骤S201:对所述待录入文本的综合置信度进行计算;
步骤S202:当所述待录入文本的综合置信度小于预设的阈值时,利用预先建立的复核模型对所述待录入文本进行识别,得到复核录入文本;
步骤S203:根据所述复核录入文本,得到BOM物料清单。
作为优选的实施例,步骤S201中,所述待录入文本的综合置信度包括:位置误差损失值、分类误差损失值和置信度误差损失值。
Figure BDA0003585429850000081
公式(1)为位置误差损失值的计算公式,公式(1)中,LGIoU(B,Bgt)表示位置误差损失值,IoU表示检测交并比,B表示预测框的中心点,Bgt表示真实框的中心点,C是预测框和真实框的最小包围框,B∪Bgt表示对预测框和真实框取并集的范围。
Figure BDA0003585429850000082
Figure BDA0003585429850000083
公式(2)表示Sigmoid表示激活函数。
公式(3)为分类误差损失值的计算公式,公式(3)中,Lclass为表示分类误差损失值,N表示类别个数,yi为当前预测值,yi *为当前类别的真实值。
Tobj=(1-Gr)+Gr*Scoreiou (4)
公式(4)为置信度误差损失的计算公式,公式(4)中Gr为不包含非待检测目标的置信度损失权重,1-Gr表示包含非待检测目标的损失值,Scoreiou表示通过公式(1)中IoU(B,Bgt)得到的交并比的数值。Gr*Scoreiou表示包含了IoU的损失值部分,当预测框与真实框的差值越大,则乘积越大,相应的IoU损失值就越大。通过公式(4)的计算方法可以使有检测目标的区域在优化时置信度更高。
作为一个具体的实施例,所述待录入文本置信度通过所述文本检测模型进行计算。所述待录入文本置信度主要和位置误差损失值、分类误差损失值和置信度误差损失值三种损失值的加权相加有关,可以通过改变三者的权重值来调整对不同误差损失值的关注程度。
作为一个具体的实施例,步骤S202中,对置信度低于设定阈值的文本和根据统计经验容易出错的文本进行重新识别,并用重新检测的结果替换初次识别的结果。
作为优选的实施例,步骤S202中,建立复核模型包括:在初始Yolov5网络结构的检测层中增加两个检测头。
作为一个具体的实施例,建立复核模型的具体步骤包括:
第一步:建立初始复核模型:
对初始Yolov5网络结构中,权重较小的Yolov5模型进行改进,在检测层中增加两组默认锚定框,因此,所述初始复核模型包括五个检测头。由于对初始Yolov5网络结构的骨干网络进行了修改,加深了网络深度,因此无法进行迁移学习。
第二步:用单一检测对象对所述复核模型进行针对性训练,避免相似度高的不同类型的对象之间相互干扰,检测的正确率高,检测的速度快。训练完成后,得到训练完备的复核模型。
作为一个具体的实施例,利用所述训练完备的复核模型对综合置信度小于预设的阈值的待录入文本进行重新识别,得到复核文本;
用所述复核文本替换初步识别的文本内容,并将整个表格的识别结果输出到Excel保存,得到最终的识别文本;
将最终识别文本所表达的产品结构转化成数据格式,以数据格式来描述产品结构,形成BOM物料清单。
作为一个具体的实施例,利用复核模型重新检测的待录入文本时,先确定待录入字符大致的外包矩形区域,具体方法为:设置三个排序列,预先设置优先级,优先级为工程图纸名称最优、图纸页面名次优和页面块最后。
下面结合图3至图10对上述方案进行详细说明。
如图3所示,图3为本实施例的一种工程图BOM识别方法的框架示意图。
第一步:在操作UI界面选择存放PDF工程图文件夹的存放位置,运行程序。
第二步:对输入进来的PDF工程图文件对PDF文件进行比例调整,适合显示器的大小(本实施例中图片由7296×5472经过自适应尺寸调整函数resizeing()调整为500×375),如果PDF有多页,对PDF文件进行分页处理(本实施例中PDF文件只有单页,无需进行分页处理);将每页PDF转化为PNG图片的形式(如图4)保存在指定的临时文件夹,命名时保证名称的一致。
第三步:将工程图图片底部进行梯度直方图统计,得到的统计图如图5所示,可见明显的两个数值接近3500的最高峰为工程图的两侧边缘,其余的两个数值接近800和1300的次高峰为表格的轮廓线。定义代表表格轮廓线的次高峰为轮廓峰。两个轮廓峰之间的距离为则为表格的水平长度。可以根据间隔规律的最低峰来检验次高峰是否为正确的轮廓峰,因为轮廓峰必然和最低峰重叠,从而排除掉可能存在的矩形无关内容的干扰。为了准确分离出工程图标题栏表格的每个网格的坐标,再对每个轮廓峰进行垂直像素统计,得到类似的垂直像素统计图,通过垂直方向的轮廓峰的间距,得到表格的垂直长度以及每个网格的尺寸信息与坐标信息。
第四步:对得到的工程图标题栏表格四个顶点进行找寻,通过OpenCV库函数裁剪出待录入表格部分(如图6所示)。
第五步:将待录入表格图片输入文本检测模型,本实施例中的文本检测模型基于Yolov5X网络结构生成,选择Yolov5X网络为改进对象,因为它检测一次最少仅需要45毫秒,这是大部分其他算法不具备的速度。加载经过迁移学习和再训练后的文本识别的权重文件。文本检测模型会输出识别到的文本位置以及代表文本内容的标签和对应的置信度。根据第三步中得到的每个单元格的坐标信息与检测到的文本位置信息进行聚合与协调,还原每个文本在对应单元格中的顺序,并进行储存,如图7所示。
第六步:对置信度低于设定阈值(本实施例中设置为0.95)的文本和根据统计经验容易出错的文本(本实施例中为数字序号列)进行重新检测,并用重新检测的结果替换初次检测的结果。置信度主要与位置误差损失值、分类误差损失值和置信度误差损失值三种误差损失值的加权相加有关(本实施例中为GiOU_Loss),可以通过改变三者的权重值来调整对它们的关注程度(本实施例中为1:1:1)。
本实施例中,数字“3”和字母“m”很容易混淆,数字“8”和两个字母“o”很容易混淆,数字“11”和罗马数字“Ⅱ”容易混淆。所以在复核检测的时候会根据不同类型的单元格训练不同的权重文件,如:本实施例中,标题栏(待录入表格)第一列加载纯阿拉伯数字权重。
在复核检测时,由于检测对象从整个待录入表格变为一个单元,导致文本的相对大小变大,最大甚至接近于1,这会超过原始Yolov5网络结构最大检测头的检测范围。因此,在复核模型中,通过在原始Yolov5网络结构的检测层中增加两个检测头,这样可以很好的解决复核时文本相对大小过大的问题。但是对于初次大面积检测,经过增加两个检测头而改进的Yolov5网络的识别精度反而有所下降。这意味着五个检测头相比三个检测头对大目标的检测精度有所提升,但是对小目标的检测精度有所下降。
可见,虽然本实施例的方法中,所述文本检测模型和所述复核模型均是基于Yolov5网络进行改进的,但改进的方式并不相同。因此,利用文本检测模型对待录入表格进行初步检测,得到初步识别结果;再利用复核模型对初步识别结果进行复核,得到最终的待录入文本。
第七步:利用所述复核模型对文本进行复核如图8所示。本实施例中,待录入文本图像输入所述复核模型后,经过焦点层后得到64个尺寸为64*64的特征图。在第1层采用3*3的卷积核进行步长为2的卷积操作,得到128个尺寸为32*32的特征图。然后在第2层通过BottleneckCSP层,采用三倍层叠,通过多次卷积等操作输出128个尺寸为32*32的特征图。重复第1层和第二层的操作4次,加深卷积神经网络,得到1024个尺寸为2*2的特征图。在第11层采用3*3的卷积核进行步长为2的卷积操作,得到1280个尺寸为1*1的特征图。通过这种方法,构建了原始Yolov5网络结构没有的尺寸为2*2、1*1的特征图层。在12层,也就是最小的特征输出层采用空间金字塔池化层(SPP),加深了骨干网络,所以相应的将SPP层的kernel size改为3*3和5*5,保持其他结构参数不变。同时,对重新检测的文本识别网络的头部层的网络进行了改进,如图8所示。本实施例中,在13层,采用BottleneckCSP层,输出1280个尺寸为1*1的特征图。在14层采用1*1的卷积核进行步长为1的卷积操作得到1024个尺寸为1*1的特征图。在15层采用nearst插值,两倍上采样得到尺寸为2*2的特征图,在16层与第10层得到的512个尺寸的特征图进行拼接,得到2048个尺寸为8*8的特征图。在17层通过BottleneckCSP层,输出1024个尺寸为2*2的特征图。在18到29层重复13到17层的操作三次,得到256个尺寸为16*16的特征图。在30层采用3*3的卷积核进行步长为2的卷积操作得到256个尺寸为8*8的特征图。在31层采用双向跨尺度连接,对特征图尺寸同为4*4的第31层、第26层和第6层进行多尺度特征融合,得到1024个尺寸为4*4的特征图。在32层通过BottleneckCSP层,采用三倍层叠,通过多次卷积等操作输出512个尺寸为8*8的特征图。同理,在33到41层重复30到32层的操作三次,得到1280个尺寸为1*1的特征图,其中在34、37和40层采用了双向跨尺度连接。因此,通过复核模型的5个检测头(P3小目标检测头、P4中目标检测头、P5大目标检测头、P6更大目标的检测头和P7超大目标检测头),很好的解决了复核检测时目标文本相对大小过大的问题。
第八步:用复核检测的文本内容替换初始识别出的单元格内的文本内容,并将整个表格的识别结果输出到Excel保存,如图9所示。
第九步:将待录入表格中表达的产品结构转化成数据格式,以数据格式来描述产品结构,形成BOM物料清单。如图10所示。
因此,本实施例中,通过表格识别方法,精确的分割和定位出工程技术图纸的标题栏表格部分,相比其他表格分割方法,运行速度更快,准确率接近100%。通过文本检测模块对表格文本进行初步识别,对置信度小于预设阈值的文本,利用复核模型进行复核,本实施例的复核模型更适合检测相对尺寸更大的文本目标。利用复核后的文本,对初始识别的文本进行替换,得到最终识别文本,通过对最终识别文本进行数据格式转换,得到BOM物料清单。本实施例的方法可以使工程图纸的文本检测精度和速度得到大幅度提升,适合工程推广应用。
本发明实施例提供了一种工程图BOM识别装置,其结构框图如图11所示,所述一种工程图BOM识别装置1100,包括:
图片获取模块1101,用于获取工程技术图纸的图片文件;
表格识别模块1102,用于利用预设的表格识别方法对所述工程技术图纸的图片文件进行表格识别,得到待录入表格;
文本识别模块1103,用于利用预先建立的文本检测模型对所述待录入表格进行文本识别,得到待录入文本;
BOM生成模块1104,用于根据所述待录入文本得到所述工程技术图纸的BOM物料清单。
如图12所示,上述的一种工程图BOM识别方法,本发明还相应提供了一种电子设备1200,该电子设备可以是移动终端、桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该电子设备包括处理器1201、存储器1202及显示器1203。
存储器1202在一些实施例中可以是计算机设备的内部存储单元,例如计算机设备的硬盘或内存。存储器1202在另一些实施例中也可以是计算机设备的外部存储设备,例如计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器1202还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器1202用于存储安装于计算机设备的应用软件及各类数据,例如安装计算机设备的程序代码等。存储器1202还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中,存储器1202上存储有一种工程图BOM识别方法程序1204,该一种工程图BOM识别方法程序1204可被处理器1201所执行,从而实现本发明各实施例的一种工程图BOM识别方法。
处理器1201在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器1202中存储的程序代码或处理数据,例如执行一种工程图BOM识别程序等。
显示器1203在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。显示器1203用于显示在计算机设备的信息以及用于显示可视化的用户界面。计算机设备的部件1201-1203通过系统总线相互通信。
本实施例还提供了一种计算机可读存储介质,其上存储有一种工程图BOM识别方法的程序,处理器执行程序时,实现如上所述的一种工程图BOM识别方法。
根据本发明上述实施例提供的计算机可读存储介质和计算设备,可以参照根据本发明实现如上所述的一种工程图BOM识别方法具体描述的内容实现,并具有与如上所述的一种工程图BOM识别方法类似的有益效果,在此不再赘述。
本发明公开的一种工程图BOM识别方法、装置、电子设备及计算机可读存储介质,首先,获取工程技术图纸的图片文件,利用预设的表格识别方法对所述工程技术图纸的图片文件进行表格识别,得到待录入表格;能够精确的分割和定位出工程技术图纸中的文本表格部分,相比其他表格分割方法,运行速度更快,准确率接近100%;其次,利用预先建立的文本检测模型,对所述待录入表格进行文本识别,得到待录入文本;通过文本检测模型,使得文本的检测精度得到大幅度提升;通过本发明的表格识别和文本识别方法,实现了对工程技术图纸标题栏中的文本进行快速、准确的提取,得到了待录入文本;最后,根据所述待录入文本得到所述工程技术图纸的BOM物料清单,可以快速制定BOM物料清单,为产品的更新奠定了基础,提高了企业的生产效率。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种工程图BOM识别方法,其特征在于,包括:
获取工程技术图纸的图片文件;
利用预设的表格识别方法对所述工程技术图纸的图片文件进行表格识别,得到待录入表格;
利用预先建立的文本检测模型对所述待录入表格进行文本识别,得到待录入文本;
根据所述待录入文本得到所述工程技术图纸的BOM物料清单。
2.根据权利要求1所述的工程图BOM识别方法,其特征在于,根据所述待录入文本得到BOM物料清单,包括:
对所述待录入文本的综合置信度进行计算;
当所述待录入文本的综合置信度小于预设的阈值时,利用预先建立的复核模型对所述待录入文本进行识别,得到复核录入文本;
根据所述复核录入文本,得到BOM物料清单。
3.根据权利要求1所述的工程图BOM识别方法,其特征在于,利用预设的表格识别方法对所述工程技术图纸的图片文件进行表格识别,得到待录入表格,包括:
对所述工程技术图纸的图片文件进行水平像素统计,得到所述工程技术图纸图片文件中待录入表格的轮廓峰;
对所述待录入表格的轮廓峰进行梯度直方图统计,得到所述待录入表格的垂直像素统计图;
根据所述垂直像素统计图,得到所述待录入表格每个单元格的尺寸信息和坐标信息。
4.根据权利要求1所述的工程图BOM识别方法,其特征在于,建立文本检测模型包括:将初始Yolov5网络结构的特征融合层结构设置为加权双向特征金字塔结构。
5.根据权利要求2所述的工程图BOM识别方法,其特征在于,建立复核模型包括:在初始Yolov5网络结构的检测层中增加两个检测头。
6.根据权利要求2所述的工程图BOM识别方法,其特征在于,所述待录入文本的综合置信度包括:位置误差损失值、分类误差损失值和置信度误差损失值。
7.根据权利要求1所述的工程图BOM识别方法,其特征在于,获取工程技术图纸图片文件,包括:
获取工程技术图纸文档;
对所述工程技术图纸文档进行格式转换,得到工程技术图纸的原始图;
对所述工程技术图纸的原始图进行预处理,得到工程技术图纸的图片文件。
8.一种工程图BOM识别装置,其特征在于,包括:
图片获取模块,用于获取工程技术图纸的图片文件;
表格识别模块,用于利用预设的表格识别方法对所述工程技术图纸的图片文件进行表格识别,得到待录入表格;
文本识别模块,用于利用预先建立的文本检测模型对所述待录入表格进行文本识别,得到待录入文本;
BOM生成模块,用于根据所述待录入文本得到所述工程技术图纸的BOM物料清单。
9.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1-7任一所述的工程图BOM识别方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机该程序被处理器执行时,实现如权利要求1-7任一所述的工程图BOM识别方法。
CN202210377625.4A 2022-04-07 2022-04-07 一种工程图bom识别方法、装置、电子设备和存储介质 Pending CN114694159A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210377625.4A CN114694159A (zh) 2022-04-07 2022-04-07 一种工程图bom识别方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210377625.4A CN114694159A (zh) 2022-04-07 2022-04-07 一种工程图bom识别方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN114694159A true CN114694159A (zh) 2022-07-01

Family

ID=82143119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210377625.4A Pending CN114694159A (zh) 2022-04-07 2022-04-07 一种工程图bom识别方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN114694159A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116994282A (zh) * 2023-09-25 2023-11-03 安徽省交通规划设计研究总院股份有限公司 一种用于桥梁设计图的钢筋数量识别归集方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116994282A (zh) * 2023-09-25 2023-11-03 安徽省交通规划设计研究总院股份有限公司 一种用于桥梁设计图的钢筋数量识别归集方法
CN116994282B (zh) * 2023-09-25 2023-12-15 安徽省交通规划设计研究总院股份有限公司 一种用于桥梁设计图的钢筋数量识别归集方法

Similar Documents

Publication Publication Date Title
CN111401371B (zh) 一种文本检测识别方法、系统及计算机设备
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
WO2020232872A1 (zh) 表格识别方法、装置、计算机设备和存储介质
CN109389121B (zh) 一种基于深度学习的铭牌识别方法及系统
CN112528863A (zh) 表格结构的识别方法、装置、电子设备及存储介质
US20230237040A1 (en) Automated document processing for detecting, extractng, and analyzing tables and tabular data
US8824798B2 (en) Information processing device, computer readable medium storing information processing program, and information processing method
CN111027563A (zh) 一种文本检测方法、装置及识别系统
US20130159598A1 (en) Method of massive parallel pattern matching against a progressively-exhaustive knowledge base of patterns
CN112699775A (zh) 基于深度学习的证件识别方法、装置、设备及存储介质
US8804139B1 (en) Method and system for repurposing a presentation document to save paper and ink
CN111310426A (zh) 基于ocr的表格版式恢复方法、装置及存储介质
CN112949476B (zh) 基于图卷积神经网络的文本关系检测方法、装置及存储介质
CN112926565B (zh) 图片文本的识别方法、系统、设备和存储介质
CN113343740A (zh) 表格检测方法、装置、设备和存储介质
CN111460927A (zh) 对房产证图像进行结构化信息提取的方法
US20160048728A1 (en) Method and system for optical character recognition that short circuit processing for non-character containing candidate symbol images
CN111626145B (zh) 一种简捷有效的残缺表格识别及跨页拼接方法
CN110598703A (zh) 一种基于深度神经网络的ocr识别方法及装置
CN114694159A (zh) 一种工程图bom识别方法、装置、电子设备和存储介质
CN115131803A (zh) 文档字号的识别方法、装置、计算机设备和存储介质
CN114330247A (zh) 一种基于图像识别的自动化保险条款解析方法
CN111832497B (zh) 一种基于几何特征的文本检测后处理方法
CN111797685B (zh) 表格结构的识别方法及装置
WO2021143058A1 (zh) 基于图像的信息比对方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination