CN114417788A - 图纸解析方法、装置、存储介质及电子设备 - Google Patents
图纸解析方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN114417788A CN114417788A CN202111496082.XA CN202111496082A CN114417788A CN 114417788 A CN114417788 A CN 114417788A CN 202111496082 A CN202111496082 A CN 202111496082A CN 114417788 A CN114417788 A CN 114417788A
- Authority
- CN
- China
- Prior art keywords
- information
- file
- analyzed
- identifying
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims description 13
- 238000000034 method Methods 0.000 claims abstract description 71
- 238000002372 labelling Methods 0.000 claims description 17
- 238000005516 engineering process Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 239000003086 colorant Substances 0.000 claims description 4
- 238000011960 computer-aided design Methods 0.000 description 62
- 238000004519 manufacturing process Methods 0.000 description 10
- 238000001514 detection method Methods 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 239000000463 material Substances 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 206010063385 Intellectualisation Diseases 0.000 description 2
- 235000009827 Prunus armeniaca Nutrition 0.000 description 2
- 244000018633 Prunus armeniaca Species 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及图纸技术领域,特别地涉及一种图纸解析方法、装置、存储介质及电子设备,通过将CAD文件转换为预设格式的待解析文件,基于预设类库对待解析文件进行解析以获得待解析文件的各类基础信息,对基础信息进行识别以获取待解析文件的识别信息,能够对不同格式的CAD图纸进行统一解析,解决了难以对不同格式的CAD图纸进行解析以获取所需信息的技术问题。
Description
技术领域
本发明涉及CAD技术领域,特别地涉及一种图纸解析方法、装置、存储介质及电子设备。
背景技术
随着制造业向数字化、智能化、个性化、定制化等新方向转型升级,各个制造业企业在制造生产过程中往往积累大量的工业CAD(Computer-aided Design,电脑辅助设计)电子图纸。同时,CAD软件技术也在不断地发展和进步,各种CAD软件层出不穷,CAD软件的图纸文件的格式也多种多样,如DWG(AutoCAD)、EXB(CAXA)、DRW(PTC Creo)、PLT(PTC Creo)、CDR(CorelDRAW)等。
一个CAD软件所能打开的文件格式是固定的,信息也只能在该软件中展示和查看。由于CAD图纸种类多样,图纸中的元素繁杂,人工查找各种信息效率低下且容易出错,例如在零件检测时人工比对图纸和实物经常会出现错检、漏检的问题。
由此可见,本领域亟需一种方案来对不同格式的CAD图纸进行解析,以获取所需信息。
发明内容
本发明提供一种图纸解析方法、装置、存储介质及电子设备,解决了一些技术方案中难以对不同格式的CAD图纸进行解析,以获取所需信息的技术问题。
第一方面,本发明提供了一种图纸解析方法,包括:
将CAD文件转换为预设格式的待解析文件;
基于预设类库对待解析文件进行解析,以获得待解析文件的各类基础信息;
对基础信息进行识别,以获取待解析文件的识别信息;
其中,识别信息包括标注信息、表格信息、图片信息中的至少一个。
在一些实施例中,预设格式包括DXF格式。
在一些实施例中,基础信息包括图像元素信息和/或文字信息,识别信息包括表格信息;
对基础信息进行识别,以获取待解析文件的识别信息,包括:
对图像元素信息和/或文字信息进行识别,以获取待解析文件的表格信息。
在一些实施例中,图像元素信息包括水平线和/或垂直线,表格信息包括单元格的位置及内容;
对图像元素信息和/或文字信息进行识别,以获取待解析文件的表格信息,包括:
从待解析文件中识别出所有的水平线、垂直线、和/或文字信息;
对水平线和/或垂直线进行排序;
对水平线和/或垂直线进行聚类,以将存在交叉的水平线和垂直线所限定的范围识别为一个单元格,进而确定第一行单元格为表头的位置;
基于识别出的各单元格的位置及文字信息的识别结果,确定各单元格的内容。
在一些实施例中,基础信息包括文字信息,识别信息包括标注信息和/或语义信息;
对基础信息进行识别,以获取待解析文件的识别信息,包括:
对文字信息进行识别,以获取待解析文件的标注信息和/或语义信息。
在一些实施例中,标注信息包括尺寸标注、尺寸公差、形位公差、粗糙度、技术条件中的至少一个;
对文字信息进行识别,以获取待解析文件的标注信息,包括:
从文字信息中识别出待解析文件的标注信息;
对待解析文件的标注信息进行编号,以形成编号标注信息;
将编号标注信息与待解析文件中的相应标注信息的位置关联。
在一些实施例中,对文字信息进行识别,以获取待解析文件的语义信息,包括:
利用NLP技术从文字信息中识别出待解析文件中的各种语义信息。
在一些实施例中,基础信息包括图片,图片包括CAD文件中图形对应的图片;识别信息包括图片信息;
对基础信息进行识别,以获取待解析文件的识别信息,包括:
对图片进行识别,以获取待解析文件的图片信息,图片信息包括图片颜色和/或图片中的文字。
在一些实施例中,还包括:
将基础信息和/或识别信息存入关系型数据库中。
在一些实施例中,还包括:
基于待解析文件的唯一编码对述待解析文件的基础信息和/或识别信息建立索引;
响应于输入唯一编码、输入基础信息和/或输入识别信息的操作,展示相应的待解析文件、基础信息和/或识别信息。
在一些实施例中,CAD文件包括至少两个,所述基础信息包括图片,图片包括CAD文件中图形对应的图片;
方法还包括:
展示至少两个CAD文件的基础信息和/或识别信息。
在一些实施例中,识别信息至少包括标注信息,方法还包括:
基于标注信息,计算尺寸和/或数量。
第二方面,本发明提供了一种图纸解析装置,包括:
格式转化模块,用于将CAD文件转换为预设格式的待解析文件;
解析模块,用于基于预设类库对待解析文件进行解析,以获得待解析文件的各类基础信息;
识别模块,用于对基础信息进行识别,以获取待解析文件的识别信息;
其中,识别信息包括标注信息、表格信息、图片信息中的至少一个。
第三方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现第一方面的方法。
第四方面,本发明提供了一种电子设备,包括处理器和存储器,存储器上存储有计算机程序,处理器执行计算机程序时实现第一方面的方法。
本发明提供的一种图纸解析方法、装置、存储介质及电子设备,通过将CAD文件转换为预设格式的待解析文件,基于预设类库对待解析文件进行解析以获得待解析文件的各类基础信息,对基础信息进行识别以获取待解析文件的识别信息,能够对不同格式的CAD图纸进行统一解析,解决了难以对不同格式的CAD图纸进行解析以获取所需信息的技术问题。
附图说明
在下文中将基于实施例并参考附图来对本发明进行更详细的描述:
图1为本发明实施例的一种图纸解析方法流程图;
图2为本发明实施例的一种图纸解析装置示意图。
在附图中,相同的部件使用相同的附图标记,附图并未按照实际的比例绘制。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,并对本发明如何应用技术手段来解决技术问题,并达到相应技术效果的实现过程能充分理解并据以实施,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。本发明实施例以及实施例中的各个特征,在不相冲突前提下可以相互结合,所形成的技术方案均在本发明的保护范围之内。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
随着制造业向数字化、智能化、个性化、定制化等新方向转型升级,各个制造业企业在制造生产过程中往往积累大量的工业CAD(Computer-aided Design,电脑辅助设计)电子图纸。同时,CAD软件技术也在不断地发展和进步,各种CAD软件层出不穷,CAD软件的图纸文件的格式也多种多样,如DWG(AutoCAD)、EXB(CAXA)、DRW(PTC Creo)、PLT(PTC Creo)、CDR(CorelDRAW)等。并且,一个CAD软件所能打开的文件格式是固定的,信息也只能在该软件中展示和查看。这些CAD图纸种类多样,图纸中的元素繁杂,人工查找各种信息效率低下且容易出错,例如在零件检测时人工比对图纸和实物经常会出现错检、漏检的问题。另外,不同格式的CAD图纸之间,同一格式的CAD图纸的不同版本之间的比对,CAD图纸上特定的长度或面积的计算也只能由人工完成,存在同样的问题。尤其是,当一个企业长期积累了大量的不同格式的CAD图纸文件之后,如何统一解析并管理这些图纸文件中的数据信息变成了一个极富挑战的难题。
本发明开发建立一套统一的方法来解决上述技术问题,用以辅助人工完成各种与CAD图纸相关的任务,能够极大提高效率。
实施例一
图1为本发明实施例的一种图纸解析方法流程图。如图1所示,一种图纸解析方法,包括步骤S110~步骤S130:
步骤S110、将CAD文件转换为预设格式的待解析文件;
在一些实现方式中,预设格式包括DXF格式。DXF格式的文件一种绘图交换文件,是用于AutoCAD与其它软件之间进行CAD数据交换的CAD数据文件格式。DXF是一种开放的矢量数据格式,DXF格式文件为ASCII格式,DXF格式文件是由很多的“代码”和“值”组成的“数据对”构造而成。
本方法中的CAD文件可以是一个或者批量,批量时至少包括两个CAD文件,且批量CAD文件的格式可以相同也可能不同。
将各种格式的待处理的CAD文件转换成DXF格式的待解析文件(若待处理的CAD文件为DXF格式,则不需要转换),使得之后的针对于图纸进行的解析、处理、计算等流程统一,处理效率明显提高。例如,将DWG、EXB、DRW等文件通过所使用的软件另存为DXF文件而完成转换过程。可以理解的是,本实施例也可以批量导入并解析DWG、EXB、DRW和DXF等格式的CAD图纸文件进行本方法的解析。
步骤S120、基于预设类库对待解析文件进行解析,以获得待解析文件的各类基础信息;
在本实施例中,使用预设类库(例如Libre CAD)解析DXF格式的待解析文件,以得到DXF格式的待解析文件中的各类基础信息,基础信息可以包括但不限于:各种图像元素信息、文字信息、图片等。
步骤S130、对基础信息进行识别,以获取待解析文件的识别信息;
其中,识别信息包括标注信息、表格信息、图片信息中的至少一个。
在利用预设类库解析出基础信息的基础上,进一步识别标注信息、表格信息、图片信息等信息,能够高效提取出CAD文件中的一些实质性信息,这些信息可以方便地和生产、制造、财务核算等流程相结合,从而辅助或代替人工进行零件质量检测,装配过程管理、产品估价、物料标准化等工作。
在本实施例中,通过将CAD文件转换为预设格式的待解析文件,基于预设类库对待解析文件进行解析以获得待解析文件的各类基础信息,对基础信息进行识别以获取待解析文件的识别信息,能够对不同格式的CAD图纸进行统一解析,解决了难以对不同格式的CAD图纸进行解析以获取所需信息的技术问题。
实施例二
在上述实施例的基础上,基础信息包括图像元素信息和/或文字信息,识别信息包括表格信息;相应地,步骤S130对基础信息进行识别,以获取待解析文件的识别信息,可以进一步包括:
步骤S130a、对图像元素信息和/或文字信息进行识别,以获取待解析文件的表格信息。
在一些情形中,图像元素信息包括水平线和/或垂直线,表格信息包括单元格的位置及内容;相应地,步骤S130a对图像元素信息和/或文字信息进行识别,以获取待解析文件的表格信息,可以进一步包括:
步骤S130a1、从待解析文件中识别出所有的水平线、垂直线、和/或文字信息;
步骤S130a2、对水平线和/或垂直线进行排序;
步骤S130a3、对水平线和垂直线进行聚类,以将存在交叉的水平线和垂直线所限定的范围识别为一个单元格(Cell),进而确定第一行单元格为表头的位置;应当理解的是,对水平线和垂直线进行聚类的结果满足误差范围即可。
步骤S130a4、基于识别出的各单元格的位置及文字信息的识别结果,确定各单元格的内容。
应当理解的是,在一些情况下,图形元素信息还可以包括正方形、长方形、圆孔、尺寸标注等,并不限于垂直线和/或水平线。
在本实施例中,从基础信息的图像元素信息中提取DXF文件中的表格信息,表格信息包括表头的位置和内容以及单元格的位置和内容。
在实际应用中,CAD文件中的表格通常是由手工绘制的线段组成的,因此,本实施例中通过对图像元素信息和/或文字信息进行识别来获取待解析文件中的表格信息,从待解析文件中识别出所有的水平线、垂直线、和/或文字信息,并对识别出水平线和/或垂直线进行排序和聚类,从而将存在交叉的水平线和垂直线所限定的范围识别为一个单元格,循环执行上述步骤,识别出所有单元格。由于一个表格的表头通常位于表格顶部,因此在识别出各单元格的基础上,确定第一行单元格为表头的位置;最后,将文字信息的识别结果与各单元格的位置进行关联,确定各单元格的内容,至此,获取了待解析文件的表格信息。
在一些实现方式中,将识别的表格信息存入关系型数据库。
在本实施例中,通过图像元素信息的聚类而解析出图纸中由线段和文字所组成的图表,准确地解析出表头及其他单元格的位置及内容信息,实现了对CAD文件中所绘制表格的信息识别。
实施例三
在上述实施例的基础上,基础信息包括文字信息,识别信息包括标注信息和/或语义信息;相应地,步骤S130对基础信息进行识别,以获取待解析文件的识别信息,可以进一步包括:
步骤S130b、对文字信息进行识别,以获取待解析文件的标注信息和/或语义信息。
在一些情形中,标注信息包括尺寸标注、尺寸公差、形位公差、粗糙度、技术条件中的至少一个;进一步地,步骤S130b对文字信息进行识别,以获取待解析文件的标注信息,可以包括:
步骤S130b1、从文字信息中识别出待解析文件的标注信息;
步骤S130b2、对待解析文件的标注信息进行编号,以形成编号标注信息;
步骤S130b3、将编号标注信息与待解析文件中的相应标注信息的位置关联。
本实施例中,从文字信息中识别出待解析文件的标注信息进行编号所形成的编号标注信息,与待解析文件中的相应标注信息的位置关联后,形成一个或多个标注信息,再将编号标注信息写回到DXF文件中,以将编号标注信息与DXF文件的固定位置关联。同时,将编号标注信息存放到关系型数据库中。例如,将编号标注信息写入DXF文件后,再存入关系型数据库中,便于后续有信息需求时提取。
在一些情形中,识别信息至少包括标注信息,本方法还可以包括:
步骤S140、基于标注信息,计算尺寸和/或数量。
本实施例中,基于标注信息可以计算尺寸和/或数量,例如,根据标注信息中的不同位置的长度进行长度加和、利用标注的半径或直径计算相应的面积、利用对孔的相同标注信息计算孔的数量及排的数量等等。
在实际应用中,还可以结合图像元素和标注信息,进行CAD图纸中的各种元素的计算,如长度加和、面积计算、圆孔孔径、孔数和排数信息计算等,本实施例中不做一一举例。
在一些情形下,本方法还包括:
步骤S150、将基础信息和/或识别信息存入关系型数据库中,可供后续调用。
在一些情形中,基础信息包括文字信息,相应地,步骤S130b中对文字信息进行识别,以获取待解析文件的语义信息,还可以进一步包括:
步骤S130b4、利用NLP技术从文字信息中识别出待解析文件中的各种语义信息。在一些情形下,语义信息包括颜色信息。例如,从“颜色:杏灰色”这一文字信息中识别出颜色信息为“杏灰色”。
本实施例,优选采用基于规则和字典的NLP方法,从而使获得的语义信息可以达到100%的准确度,而基于统计的NLP方法则不能达到如此高的准确度。通过预设的同义词表进行语义识别,并将识别结果储存并维护于关系型数据库中。此外,还可以利用自然语言处理中的word2vec方法和命名实体识别技术,解析出图纸中文字的语义,并提供关键字查询界面。
本实施例通过文字信息对标注信息和语义信息进行识别,并将识别出的标注信息和语义信息与DXF文件关联,能够提升标注信息和语义信息的利用率,便于后述文件展示。
实施例四
在上述实施例的基础上,基础信息包括图片,图片包括CAD文件中图形对应的图片;识别信息包括图片信息;相应地,步骤S130对基础信息进行识别,以获取待解析文件的识别信息,可以进一步包括:
步骤S130c、对图片进行识别,以获取待解析文件的图片信息,图片信息包括图片颜色和/或图片中的文字。
在实际应用中,除了矢量图之外,部分CAD文件中还包括位图。本实施例能够对位图中一些信息(例如颜色、文字)精确识别。
在本实施例中,通过各种技术进行图片信息识别,例如,利用例如CV技术、OCR技术和/或机器视觉技术对位图进行识别,获取图片信息,并将图片中解析出的图片信息、颜色信息和文本信息存入关系型数据库中。
实施例五
在前述实施例的基础上,本方法还可以进一步包括:
步骤S150、基于待解析文件的唯一编码对述待解析文件的基础信息和/或识别信息建立索引;
步骤S160、响应于输入唯一编码、输入基础信息和/或输入识别信息的操作,展示相应的待解析文件、基础信息和/或识别信息。
在实际应用中,可以通过物料编码、图号等唯一编码为上述实施例生成的各种信息(图像元素、文字、图片、标注)建立索引,将解析得到的CAD图纸中的图形、文字、标注等各类信息统一在关系型数据库中存储,以供预先建立的查询接口使用,通过该接口查询一个CAD文件(例如是DWG、EXB、DRW和DXF等格式文件)及其中的各类信息。例如输入物料的图号或物料编码等唯一编码进行查询。
此外,DXF文件中出现的所有文字也储存在数据库中,并建立全文索引,full-text索引。由此,当用户输入一个查询关键字之后,系统首先查询同义词表,然后在索引中找寻任何可能出现的匹配,并最终展示在用户界面上。
在一些情形中,CAD文件包括至少两个,图片包括CAD文件中图形对应的图片。本方法还可以包括:
步骤S170、展示至少两个CAD文件的基础信息和/或识别信息。
在本实施例中,通对至少两个需要对比的CAD文件进行可视化展示,将图纸直接的内容进行比对,通过界面展示出两张图纸上的异同之处。
由于单一的图像只能起到展示作用,因此将DXF文件的“数据对”进行解析得到基础信息后,根据基础信息的坐标位置映射到图像的相应位置,实现了数据和图像的互动操作。
在一些情形中,还可以进行CAD互动展示,在展示CAD图形的基础上,根据搜索或点击定位到图形中的相应的部分并将之放大。CAD图形指的是图纸的图片格式,将解析的数据与图纸位置进行关系,例如展示时图片放在左侧,解析的基础数据和识别数据放在右侧,点击左侧图片任意部分或右侧任意部分解析数据,可以将两侧进行对应定位关联,快速找到右侧任意部分解析数据或左侧图片任意部分。
应当理解的是,虽然上述各个步骤按照一定的编号依次描述,但是这些步骤并不是必然按照编号的顺序依次执行,至少一部分步骤可以并列/同时执行,子步骤或者子阶段也并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
实施例六
图2为本发明实施例的一种图纸解析装置示意图。如图2所示,在上述实施例的基础上,本实施例提供一种图纸解析装置,包括:
格式转化模块210,用于将CAD文件转换为预设格式的待解析文件;
解析模块220,用于基于预设类库对待解析文件进行解析,以获得待解析文件的各类基础信息;
识别模块230,用于对基础信息进行识别,以获取待解析文件的识别信息;
其中,识别信息包括标注信息、表格信息、图片信息中的至少一个。
在一些实现方式中,预设格式包括DXF格式。
在一些实现方式中,基础信息包括图像元素信息和/或文字信息,识别信息包括表格信息;相应地,识别模块230在对基础信息进行识别,以获取待解析文件的识别信息时,具体包括:对图像元素信息和/或文字信息进行识别,以获取待解析文件的表格信息。
进一步地,在一些实现方式中,图像元素信息包括水平线和/或垂直线,表格信息包括单元格的位置及内容;相应地,识别模块230在对图像元素信息和/或文字信息进行识别,以获取待解析文件的表格信息时,具体包括:
从待解析文件中识别出所有的水平线、垂直线、和/或文字信息;
对水平线和/或垂直线进行排序;
对水平线和垂直线进行聚类,以将存在交叉的水平线和垂直线所限定的范围识别为一个单元格,进而确定第一行单元格为表头的位置;以及
基于识别出的各单元格的位置及文字信息的识别结果,确定各单元格的内容。
在一些实现方式中,基础信息包括文字信息,识别信息包括标注信息和/或语义信息;相应地,识别模块230在对基础信息进行识别,以获取待解析文件的识别信息时,具体包括:对文字信息进行识别,以获取待解析文件的标注信息和/或语义信息。
在一些实现方式中,标注信息包括尺寸标注、尺寸公差、形位公差、粗糙度、技术条件中的至少一个;相应地,识别模块230在对文字信息进行识别,以获取待解析文件的标注信息时,具体包括:
从文字信息中识别出待解析文件的标注信息;
对待解析文件的标注信息进行编号,以形成编号标注信息;以及
将编号标注信息与待解析文件中的相应标注信息的位置关联。
在一些实现方式中,识别模块230在对文字信息进行识别,以获取待解析文件的语义信息时,具体包括:利用NLP技术从文字信息中识别出待解析文件中的各种语义信息。
在一些实现方式中,基础信息包括图片,图片包括CAD文件中图形对应的图片;识别信息包括图片信息;相应地,识别模块230在对基础信息进行识别,以获取待解析文件的识别信息时,具体包括:对图片进行识别,以获取待解析文件的图片信息,图片信息包括图片颜色和/或图片中的文字。
在一些情形中,本装置还包括:
存储模块,用于将基础信息和/或识别信息存入关系型数据库中。
在一些情形中,本装置还包括:
索引模块,用于基于待解析文件的唯一编码对述待解析文件的基础信息和/或识别信息建立索引;以及,响应于输入唯一编码、输入基础信息和/或输入识别信息的操作,展示相应的待解析文件、基础信息和/或识别信息。
在一些情形中,CAD文件包括至少两个,图片包括CAD文件中图形对应的图片;相应地,本装置还包括:
展示模块,用于展示至少两个CAD文件的基础信息和/或识别信息。
在一些情形中,识别信息至少包括标注信息,相应地,本装置还包括:
计算模块,用于基于标注信息,计算尺寸和/或数量。
本发明通过将各种不同格式的CAD图纸转换成DXF文件,读写DXF文件中的各类信息,利用自然语言处理和图像识别技术,将各类信息进行解析、规范及关联,自动匹配和对比各种指标,有效解决了如何使CAD图纸标准通用化的技术问题,满足了质量管控等管理需求。
通过本发明,大量不同格式的CAD图纸可以被批量化、自动化地解析和处理。图纸中所包含的各类元素被提取出来,形成带有误差值的标注信息、文本语义信息、表格信息等。这些信息可以方便地和生产、制造、财务核算等流程相结合,从而辅助或代替人工进行零件质量检测,装配过程管理、产品估价、物料标准化等工作。利用DXF中间格式,统一了多种CAD图纸格式的解析流程;在一些情况下,利用本发明实施例介绍的方法和装置,能够对CAD图纸中的各种元素及元素间的关系进行计算、自动抽取和还原CAD图纸中由线段和文字组成的表格、利用自然语言算法和计算机视觉算法抽取图纸中的隐藏信息、自动对比和计算两张图纸的异同点。
实施例七
在上述实施例的基础上,本实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例的方法。
上述存储介质可以是闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等。
关于方法的内容请参见前述实施例,本实施例中不再赘述。
实施例八
在上述实施例的基础上,本实施例提供一种电子设备,包括处理器和存储器,存储器上存储有计算机程序,处理器执行计算机程序时实现上述实施例的方法。
关于方法的内容请参见前述实施例,本实施例中不再赘述。
处理器可以是专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(Digital Signal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable LogicDevice,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述实施例中的方法。关于方法的内容请参见前述实施例,本实施例中不再赘述。
存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,上述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
需要说明的是,在本发明中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然本发明所揭露的实施方式如上,但上述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (15)
1.一种图纸解析方法,其特征在于,包括:
将CAD文件转换为预设格式的待解析文件;
基于预设类库对所述待解析文件进行解析,以获得所述待解析文件的各类基础信息;
对所述基础信息进行识别,以获取待解析文件的识别信息;
其中,所述识别信息包括标注信息、表格信息、图片信息中的至少一个。
2.根据权利要求1所述的方法,其特征在于,所述预设格式包括DXF格式。
3.根据权利要求1所述的方法,其特征在于,所述基础信息包括图像元素信息和/或文字信息,所述识别信息包括表格信息;
所述对所述基础信息进行识别,以获取待解析文件的识别信息,包括:
对所述图像元素信息和/或文字信息进行识别,以获取待解析文件的表格信息。
4.根据权利要求3所述的方法,其特征在于,所述图像元素信息包括水平线和/或垂直线,所述表格信息包括单元格的位置及内容;
所述对所述图像元素信息和/或文字信息进行识别,以获取待解析文件的表格信息,包括:
从所述待解析文件中识别出所有的水平线、垂直线、和/或文字信息;
对所述水平线和/或所述垂直线进行排序;
对所述水平线和/或所述垂直线进行聚类,以将存在交叉的水平线和垂直线所限定的范围识别为一个单元格,进而确定第一行单元格为表头的位置;
基于识别出的各单元格的位置及文字信息的识别结果,确定各单元格的内容。
5.根据权利要求1所述的方法,其特征在于,所述基础信息包括文字信息,所述识别信息包括标注信息和/或语义信息;
所述对所述基础信息进行识别,以获取待解析文件的识别信息,包括:
对所述文字信息进行识别,以获取待解析文件的标注信息和/或语义信息。
6.根据权利要求5所述的方法,其特征在于,所述标注信息包括尺寸标注、尺寸公差、形位公差、粗糙度、技术条件中的至少一个;
对所述文字信息进行识别,以获取待解析文件的标注信息,包括:
从所述文字信息中识别出待解析文件的标注信息;
对所述待解析文件的标注信息进行编号,以形成编号标注信息;
将所述编号标注信息与待解析文件中的相应标注信息的位置关联。
7.根据权利要求5所述的方法,其特征在于,对所述文字信息进行识别,以获取待解析文件的语义信息,包括:
利用NLP技术从所述文字信息中识别出待解析文件中的各种语义信息。
8.根据权利要求1所述的方法,其特征在于,所述基础信息包括图片,所述图片包括CAD文件中图形对应的图片;所述识别信息包括图片信息;
所述对所述基础信息进行识别,以获取待解析文件的识别信息,包括:
对所述图片进行识别,以获取待解析文件的图片信息,所述图片信息包括图片颜色和/或图片中的文字。
9.根据权利要求1所述的方法,其特征在于,还包括:
将所述基础信息和/或所述识别信息存入关系型数据库中。
10.根据权利要求1所述的方法,其特征在于,包括:
基于所述待解析文件的唯一编码对述待解析文件的所述基础信息和/或所述识别信息建立索引;
响应于输入所述唯一编码、输入所述基础信息和/或输入所述识别信息的操作,展示相应的待解析文件、基础信息和/或识别信息。
11.根据权利要求1所述的方法,其特征在于,所述CAD文件包括至少两个,所述基础信息包括图片,所述图片包括CAD文件中图形对应的图片;
所述方法还包括:
展示至少两个CAD文件的基础信息和/或识别信息。
12.根据权利要求1所述的方法,其特征在于,所述识别信息至少包括标注信息,所述方法还包括:
基于所述标注信息,计算尺寸和/或数量。
13.一种图纸解析装置,其特征在于,包括:
格式转化模块,用于将CAD文件转换为预设格式的待解析文件;
解析模块,用于基于预设类库对所述待解析文件进行解析,以获得所述待解析文件的各类基础信息;
识别模块,用于对所述基础信息进行识别,以获取待解析文件的识别信息;
其中,所述识别信息包括标注信息、表格信息、图片信息中的至少一个。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法。
15.一种电子设备,包括处理器和存储器,其特征在于,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111496082.XA CN114417788A (zh) | 2021-12-09 | 2021-12-09 | 图纸解析方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111496082.XA CN114417788A (zh) | 2021-12-09 | 2021-12-09 | 图纸解析方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114417788A true CN114417788A (zh) | 2022-04-29 |
Family
ID=81265767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111496082.XA Pending CN114417788A (zh) | 2021-12-09 | 2021-12-09 | 图纸解析方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114417788A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115841679A (zh) * | 2023-02-23 | 2023-03-24 | 江西中至科技有限公司 | 图纸表格提取方法、系统、计算机及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN110472208A (zh) * | 2019-06-26 | 2019-11-19 | 上海恒生聚源数据服务有限公司 | Pdf文档中表格解析的方法、系统、存储介质及电子设备 |
CN113052023A (zh) * | 2021-03-12 | 2021-06-29 | 深圳小库科技有限公司 | Cad图纸解析方法、装置、设备及存储介质 |
-
2021
- 2021-12-09 CN CN202111496082.XA patent/CN114417788A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN110472208A (zh) * | 2019-06-26 | 2019-11-19 | 上海恒生聚源数据服务有限公司 | Pdf文档中表格解析的方法、系统、存储介质及电子设备 |
CN113052023A (zh) * | 2021-03-12 | 2021-06-29 | 深圳小库科技有限公司 | Cad图纸解析方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
刘孙: "面向PDM的工程图纸离线式识别提取表格信息的研究", 中国优秀硕士学位论文全文数据库, 15 November 2008 (2008-11-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115841679A (zh) * | 2023-02-23 | 2023-03-24 | 江西中至科技有限公司 | 图纸表格提取方法、系统、计算机及可读存储介质 |
CN115841679B (zh) * | 2023-02-23 | 2023-05-05 | 江西中至科技有限公司 | 图纸表格提取方法、系统、计算机及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106709032A (zh) | 抽取电子表格文档中结构化信息的方法及装置 | |
CN108664538B (zh) | 一种输变电设备疑似家族性缺陷的自动辨识方法及系统 | |
US11341319B2 (en) | Visual data mapping | |
CN116188475A (zh) | 一种外观缺陷自动光学检测的智慧控制方法、系统及介质 | |
CN110825805B (zh) | 一种数据的可视化方法及装置 | |
US12051256B2 (en) | Entry detection and recognition for custom forms | |
WO2023231380A1 (zh) | 极片缺陷识别及模型训练方法、装置及电子设备 | |
CN116244410A (zh) | 一种基于知识图谱和自然语言的指标数据分析方法及系统 | |
CN114417788A (zh) | 图纸解析方法、装置、存储介质及电子设备 | |
CN113515587B (zh) | 一种标的物信息提取方法、装置、计算机设备及存储介质 | |
CN113190680A (zh) | 一种非结构化数据标记方法、装置、设备及存储介质 | |
CN112613367A (zh) | 票据信息文本框获取方法、系统、设备及存储介质 | |
CN113434627A (zh) | 工单的处理方法、装置和计算机可读存储介质 | |
CN116340387A (zh) | 一种用于数据表的个人信息披露情况统计分析方法及系统 | |
CN114049686A (zh) | 签名识别模型训练方法、装置及电子设备 | |
CN109255122B (zh) | 一种对论文引用关系分类标记的方法 | |
CN115017872B (zh) | 智能标注pdf文件中表格的方法、装置及电子设备 | |
CN116110072B (zh) | 一种cad图纸解析方法及系统 | |
CN115640788B (zh) | 一种不可编辑文档的结构化方法和装置 | |
CN113177995B (zh) | Cad图纸的文本重组方法和计算机可读存储介质 | |
CN111026307B (zh) | 一种用于快速关联图形组态工具中图元的方法及装置 | |
CN118570822A (zh) | 设计稿中组件元素的识别方法以及装置 | |
CN116681053A (zh) | 文本标准比对方法、装置、设备及介质 | |
CN117453487A (zh) | 应用程序的异常根源数据确定方法、装置及电子设备 | |
CN116895074A (zh) | 基于光学字符识别的数字校验方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |