CN113158632A - Cad图纸的表格重建方法和计算机可读存储介质 - Google Patents

Cad图纸的表格重建方法和计算机可读存储介质 Download PDF

Info

Publication number
CN113158632A
CN113158632A CN202110484996.8A CN202110484996A CN113158632A CN 113158632 A CN113158632 A CN 113158632A CN 202110484996 A CN202110484996 A CN 202110484996A CN 113158632 A CN113158632 A CN 113158632A
Authority
CN
China
Prior art keywords
target
vector information
cad drawing
model
coordinate range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110484996.8A
Other languages
English (en)
Other versions
CN113158632B (zh
Inventor
丁冠华
谭文宇
付景蚺
王卒
陈家宁
刘大娣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glodon Co Ltd
Original Assignee
Glodon Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glodon Co Ltd filed Critical Glodon Co Ltd
Priority to CN202110484996.8A priority Critical patent/CN113158632B/zh
Publication of CN113158632A publication Critical patent/CN113158632A/zh
Application granted granted Critical
Publication of CN113158632B publication Critical patent/CN113158632B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • G06V30/422Technical drawings; Geographical maps

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种CAD图纸的表格重建方法,所述方法包括:根据包含目标表格的CAD图纸确定位图信息和元素矢量信息,其中,所述元素矢量信息包括所述CAD图纸中各个元素的矢量信息;将所述位图信息输入至预置识别模型,以确定所述CAD图纸的目标表格在所述位图信息中的表格映射位置;从所述元素矢量信息中确定与所述表格映射位置对应的目标矢量信息;根据所述目标矢量信息重建所述CAD图纸的目标表格。本发明还公开了一种计算机可读存储介质。

Description

CAD图纸的表格重建方法和计算机可读存储介质
技术领域
本发明涉及计算机技术领域,具体涉及一种CAD图纸的表格重建方法、装置、计算机设备和计算机可读存储介质。
背景技术
在建筑领域及其他工业领域中,用户常常凭借专业的知识对CAD图纸中的内容进行识别,用以建立实体三维模型或指导实际生产。
实际应用时,CAD图纸中会包含大量的表格内容,以补充图形表达的不足。在用户对CAD图纸进行识别时,往往需要对这些表格内容进行专业判断后再进行重建。
然而,发明人研究发现,CAD图纸中表格的数据结构并不具有通用性,即便是对于同类型的表格,由于设计人员的习惯不同也会有不同的格式。因此用户必须先理解表格内容再手动重建该表格,使得在处理批量化的CAD图纸时,表格的重建工作重复量大且效率极低。
针对现有技术中手动重建批量化CAD图纸中的表格使得工作重复量大且效率较低的技术问题,目前尚未提供有效的解决方案。
发明内容
本发明的目的在于提供了一种CAD图纸的表格重建方法、装置、计算机设备和计算机可读存储介质,能够解决现有技术中手动重建批量化CAD图纸中的表格使得工作重复量大且效率较低的技术问题。
本发明的一个方面提供了一种CAD图纸的表格重建方法,所述方法包括:根据包含目标表格的CAD图纸确定位图信息和元素矢量信息,其中,所述元素矢量信息包括所述CAD图纸中各个元素的矢量信息;将所述位图信息输入至预置识别模型,以确定所述CAD图纸的目标表格在所述位图信息中的表格映射位置;从所述元素矢量信息中确定与所述表格映射位置对应的目标矢量信息;根据所述目标矢量信息重建所述CAD图纸的目标表格。
可选地,所述目标矢量信息包括表格结构矢量信息和表格内容矢量信息,所述根据所述目标矢量信息重建所述CAD图纸的目标表格,包括:根据所述表格结构矢量信息重建所述目标表格的表格结构;根据所述表格内容矢量信息在所述表格结构中重组所述目标表格的表格内容。
可选地,所述将所述位图信息输入至预置识别模型,以确定所述CAD图纸的目标表格在所述位图信息中的表格映射位置,包括:将所述位图信息输入至所述预置识别模型,获得所述CAD图纸中包含的元素类型以及各个类型的元素在所述位图信息中的坐标范围;从获得的坐标范围中筛选出元素类型为表格类型所对应的坐标范围,作为所述表格映射位置。
可选地,所述从所述元素矢量信息中确定与所述表格映射位置对应的目标矢量信息,包括:在所述位图信息中确定所述CAD图纸的外边框的坐标范围,记为第一坐标范围;从所述元素矢量信息中,确定所述CAD图纸的外边框在所述CAD图纸中的坐标范围,记为第二坐标范围;确定所述第一坐标范围和所述第二坐标范围的映射关系,并计算与所述表格映射位置具有同等所述映射关系的目标坐标范围;从所述元素矢量信息中确定包含所述目标坐标范围的所述目标矢量信息。
可选地,所述在所述位图信息中确定所述CAD图纸的外边框的坐标范围,记为第一坐标范围,包括:确定所述CAD图纸的外边框在所述位图信息中的像素点位置集合,其中,所述像素点位置集合包括水平方向的像素点位置和垂直方向的像素点位置;根据所述像素点位置集合确定所述CAD图纸的外边框在所述位图信息中的坐标范围,记为所述第一坐标范围。
可选地,在所述根据所述目标矢量信息重建所述CAD图纸的目标表格之后,所述方法还包括:将所述表格内容与预置特证库中的特征匹配,获得匹配结果,其中,所述匹配结果包括匹配成功的目标特征、所述目标特征的类型数量以及每个类型的目标特征出现的次数;将所述匹配结果输入至预置分类模型,以确定所述目标表格的建筑属性类别;其中,所述预置特证库中的特征是通过对所述预置分类模型执行模型剪枝法得到的。
可选地,所述预置分类模型通过训练得到,具体包括:获取表格样本数据集,其中,所述表格样本数据集包括训练集和测试集,所述训练集和测试集均包括多条样本数据,所述样本数据包括表格与历史特征库中的特征的匹配结果和表格的建筑属性类别,该匹配结果包括匹配成功的目标特征、该目标特征的类型数量以及每个类型的目标特征出现的次数;将所述训练集中多条样本数据的匹配结果作为输入并将对应的建筑属性类别作为输出对预置的学习模型进行训练;将所述测试集中多条样本数据的匹配结果输入至训练好的学习模型,得到输出的建筑属性类别;比对训练好的学习模型输出的建筑属性类别和所述测试集中对应的建筑属性类别,判断训练好的学习模型的正确率是否大于等于预设阈值;在正确率大于等于预设阈值时,根据对应训练好的学习模型确定所述预置分类模型。
可选地,所述在正确率大于等于预设阈值时,根据对应训练好的学习模型确定所述预置分类模型,包括:在正确率大于等于预设阈值时,将对应训练好的学习模型作为备选模型;在所述备选模型包括一个时,将所述备选模型确定为所述预置分类模型;或者,在所述备选模型包括多个时,将所述备选模型中正确率最大的模型作为所述预置分类模型。
可选地,所述预置识别模型通过Retinanet模型或者Yoluv5模型学习获得。
本发明的另一个方面提供了一种CAD图纸的表格重建装置,所述装置包括:第一确定模块,用于根据包含目标表格的CAD图纸确定位图信息和元素矢量信息,其中,所述元素矢量信息包括所述CAD图纸中各个元素的矢量信息;输入模块,用于将所述位图信息输入至预置识别模型,以确定所述CAD图纸的目标表格在所述位图信息中的表格映射位置;第二确定模块,用于从所述元素矢量信息中确定与所述表格映射位置对应的目标矢量信息;重建模块,用于根据所述目标矢量信息重建所述CAD图纸的目标表格。
本发明的再一个方面提供了一种计算机设备,所述计算机设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例所述的CAD图纸的表格重建方法。
本发明的又一个方面提供了一种计算机可读存储介质,其上存储有计算机程序,上述计算机程序被处理器执行时实现上述任一实施例所述的CAD图纸的表格重建方法。
本发明提供的CAD图纸的表格重建方法,通过预置识别模型自动识别出目标表格在位图信息中的表格映射位置,然后从元素矢量信息中确定与表格映射位置对应的目标矢量信息,该目标矢量信息包括目标表格的矢量信息,而所谓矢量信息,则是包括对应元素的具体数值、字体大小和位置信息等等,因此本发明通过确定出的目标矢量信息可以自动重建目标表格,实现了表格重建流程自动化,解决了现有技术中手动重建批量化CAD图纸中的表格使得工作重复量大且效率较低的技术问题。同时,本发明考虑到位图信息是具有一固定分辨率的图像,若是直接从位图信息中识别出目标表格,可能会因为失真导致识别结果不准确,因此本发明通过位图信息和元素矢量信息的结合,确定出目标矢量信息,并根据目标矢量信息重建目标表格,不仅提高了表格识别效率,还确保了表格重建结果的准确性。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例一提供的CAD图纸的表格重建方法的流程图;
图2示出了本发明实施例二提供的CAD图纸的表格重建方法的流程图;
图3示出了本发明实施例三提供的CAD图纸的表格重建装置的框图;
图4示出了本发明实施例四提供的适于实现CAD图纸的表格重建方法的计算机设备的框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
本发明中的术语解释如下:
位图信息:简称为位图,又称为位图图像,由像素点组成,用数码相机拍摄的照片、扫描仪扫描的图片以及计算机截屏图等都属于位图。如,png格式、bmp格式和jpeg格式的图片都属于位图。
图元,是指点、线、圆(圆弧)、区域填充和字符等。
元素:CAD图纸包括多个元素,每个元素由图元组成,CAD图中的元素可以包括表格、文本或叠合板模型等等。
持久化,就是将瞬时数据(比如内存中的数据,是不能永久保存的)持久化为持久数据(比如持久化至数据库中,能够长久保存)。本申请中,可以将元素矢量信息存储到持久化文件中,其中,该持久化文件可以是通过解析出CAD图纸中的矢量元素并将这些矢量元素持久化输出得到的,其中,持久化文件可以为json文件。
实施例一
现有技术在重建CAD图纸中的表格时,对表格格式限制较大且需要用户介入诸多操作,比如需要用户手工指定表格范围,当表格量比较大时,工作重复费时,再比如,对表格内容进行重建时,用户需明确所操作表格的类型,此项操作需要一定业务以及专业知识的积累,对用户要求较高。而本发明提供的表格重建方法,考虑到位图信息是具有一固定分辨率的图像,若是直接从位图信息中识别出目标表格,识别出的目标表格可能会失真导致识别结果不准确,而元素矢量信息中存储的矢量信息包含各个元素的具体数值、字体大小、颜色和位置信息等,因此本发明通过位图信息和元素矢量信息的结合,确定出目标矢量信息,并通过目标矢量信息重建该目标表格,不仅实现了表格重建的自动化,而且还确保了重建结果的准确性。具体地,图1示出了本发明实施例一提供的CAD图纸的表格重建方法的流程图,如图1所示,该表格重建方法可以包括步骤S1~步骤S4,其中:
步骤S1,根据包含目标表格的CAD图纸确定位图信息和元素矢量信息,其中,所述元素矢量信息包括所述CAD图纸中各个元素的矢量信息。
本实施例的目的是为了将CAD图纸的格式转换为后续可以处理的格式,其中,CAD图纸的格式包括dwg格式。首先,通过ODA(Open Design Alliance)数据库对CAD图纸进行格式解析,将CAD图纸中的矢量元素输出为具有固定分辨率的位图信息,同时解析CAD图纸以获得的元素矢量信息,其中,矢量元素包括元素矢量信息,元素矢量信息可以包括元素的具体数值、字体大小、颜色以及其在CAD图纸中的位置信息等等。可选地,为了防止数据丢失,还可以将这些元素矢量信息持久化输出至持久化文件中。
步骤S2,将所述位图信息输入至预置识别模型,以确定所述CAD图纸的目标表格在所述位图信息中的表格映射位置。
目标表格可以包括CAD图纸中的一个表格、两个表格或多个表格。表格映射位置可以是坐标范围,也可以是区域范围。
可选地,步骤S2可以包括步骤S21和步骤S22,其中:
步骤S21,将所述位图信息输入至所述预置识别模型,获得所述CAD图纸中包含的元素类型以及各个类型的元素在所述位图信息中的坐标范围;
步骤S22,从获得的坐标范围中筛选出元素类型为表格类型所对应的坐标范围,作为所述表格映射位置。
本实施例中,确定的表格映射位置为坐标范围,其中,元素类型可以包括平面图、表格、文本、标题、子说明、详图、图签和会签栏等。
可选地,预置识别模型是通过训练得到的,具体包括:
获取位图样本数据集,其中,位图样本数据集包括训练集和测试集,训练集和测试集均包括多条样本数据,样本数据包括位图样本、CAD样本中包含的元素类型以及各个类型的元素在位图样本中的坐标范围;其中,位图样本是由CAD样本转换得到的;
将训练集中多条样本数据的位图样本作为输入并将对应的元素类型和坐标范围作为输出对预置的学习模型进行训练;
将测试集中多条样本数据的位图样本输入至训练好的学习模型,得到输出的元素类型和对应的坐标范围;
比对训练好的学习模型输出的元素类型和所述测试集中对应的元素类型,并比对训练好的学习模型输出的坐标范围和所述测试集中对应的坐标范围,判断训练好的学习模型的正确率是否大于等于预设阈值;
在正确率大于等于预设阈值时,将对应训练好的学习模型作为预置识别模型。
其中,预置的学习模型可以包括Retinanet模型或者Yolov5模型。具体地,可以将上述训练集中多条样本数据的位图样本作为Retinanet模型的输入,并将对应的元素类型和坐标范围作为该Retinanet模型的输出,以此得到的预置识别模型在识别位图信息中的元素类型和元素的坐标范围时,速度较快且准确率较高。或者,将上述训练集中多条样本数据的位图样本作为Yolov5模型的输入,并将对应的元素类型和坐标范围作为该Yolov5模型的输出,以此得到的预置识别模型在识别位图信息中的元素类型和元素的坐标范围时,速度比Retinanet模型更快。
本实施例中,可以预先对位图样本中的元素设置标注框,每个标注框仅包含一个元素,则预置识别模型识别出的元素的坐标范围即为该元素标注框的坐标范围。其中,对于位图样本数据集中标注的坐标范围,可以是预先为位图样本指定一个坐标系,然后以指定的坐标系为坐标基准确定各个元素的坐标范围;还可以是根据元素在位图样本中的水平像素点位置和垂直像素点位置,确定该元素的坐标范围,如成比例的缩放元素的水平像素点位置和垂直像素点位置,得到该元素的横纵坐标范围,其中,该比例包括1。
步骤S3,从所述元素矢量信息中确定与所述表格映射位置对应的目标矢量信息。其中,目标矢量信息包括CAD图纸的目标表格的矢量信息。
本实施例中,元素矢量信息包括CAD图纸中各个元素的矢量信息,而CAD图纸中又包含目标表格,则元素矢量信息中必然包含该目标表格的矢量信息。从元素矢量信息中确定的与表格映射位置对应的目标矢量信息可能就是目标表格的矢量信息,也可能不止是目标表格的矢量信息,如该目标矢量信息中还包括预先定义的编号,如第一个表格、第二个表格、…等。
可选地,由于根据坐标范围能够快速且精准实现的定位功能,因此在表格映射位置为坐标范围时,步骤S3可以包括步骤S31~步骤S34,其中:
步骤S31,在所述位图信息中确定所述CAD图纸的外边框的坐标范围,记为第一坐标范围。
其中,可以通过两种方案确定出第一坐标范围,具体地:
方案一(通过预置识别模型确定第一坐标范围)
将所述位图信息输入至所述预置识别模型,获得所述CAD图纸中包含的元素类型以及各个类型的元素在所述位图信息中的坐标范围;
从获得的坐标范围中筛选出元素类型为外边框类型所对应的坐标范围,作为所述第一坐标范围。
方案二(通过外边框在位图信息中的水平像素点位置和垂直像素点位置确定第一坐标范围)
由于位图信息具有一固定分辨率,而分辨率=画面水平方向的像素点个数*画面垂直方向的像素点个数,因此可以通过外边框在位图信息中的水平方向和垂直方向的像素点位置,确定外边框在位图信息中的横纵坐标。具体地,步骤S31可以包括步骤S311和步骤S312,其中,:
步骤S311,确定所述CAD图纸的外边框在所述位图信息中的像素点位置集合,其中,所述像素点位置集合包括水平方向的像素点位置和垂直方向的像素点位置;
步骤S312,根据所述像素点位置集合确定所述CAD图纸的外边框在所述位图信息中的坐标范围,记为所述第一坐标范围。
所谓外边框,表征所有元素均在该框内部,既外边框相比于其他元素处于CAD图纸的最外侧。因此在确定外边框的像素点位置集合时,可以分别从位图信息的四个边,由外向内开始遍历,直至确定出首个非零像素的水平像素点位置和垂直像素点位置,然后形成像素点集合。为了降低工作量,可以只确定外边框四个顶点在位图信息中的水平像素点位置和垂直像素点位置,然后汇集由直线连接四个顶点形成的框所对应的像素点位置,形成外边框对应的像素点位置集合。例如,位图信息的分辨率是1024×768,也就是说水平方向上有768行,每一行有1024个像素点,垂直方向上有1024列,每一列有768个像素点,识别出的像素点位置集合可以包括:水平方向上第10行的第104个像素点和垂直方向上第50列的第100个像素点,水平方向上第81行的第204个像素点和垂直方向上第108列的第137个像素点,…,等等。其中,进一步,将像素点位置集合成比例缩放,得到第一坐标范围,其中,该比例为正数。例如,比例为1,则直接将像素点位置集合中水平方向的像素点位置作为横坐标,将垂直方向的像素点位置作为纵坐标。
步骤S32,从所述元素矢量信息的矢量信息中,确定所述CAD图纸的外边框在所述CAD图纸中的坐标范围,记为第二坐标范围。
其中,所述CAD图纸中各个元素的矢量信息包括各个元素在所述CAD图纸中的坐标范围。从元素矢量信息中遍历出所围成的区域范围最大的坐标范围,即为该外边框的坐标范围。
步骤S33,确定所述第一坐标范围和所述第二坐标范围的映射关系,并计算与所述表格映射位置具有同等所述映射关系的目标坐标范围。
第一坐标范围和第二坐标范围的映射关系,可以为二者的坐标之间的比例关系,如比例关系为2,则将表格映射位置(目标表格在位图信息中的坐标范围)中的各个坐标放大2倍得到目标坐标范围。
步骤S34,从所述元素矢量信息中确定包含所述目标坐标范围的所述目标矢量信息。
由于元素的矢量信息中包括元素的坐标范围,因此可以反向搜索出包含目标坐标范围的矢量信息,即可得到目标矢量信息,其中,可以通过KD(K-Dimensional)树搜索算法进行搜索,还可以通过遍历所有元素的坐标范围进行搜索。
步骤S4,根据所述目标矢量信息重建所述CAD图纸的目标表格。
目标矢量信息包括表格结构矢量信息和表格内容矢量信息,其中,表格结构矢量信息用于表征表格的框架结构,如表格横线坐标范围,表格竖线坐标范围等。表格内容矢量信息包括填充在表格框架内的表格内容,具体包括字符、字符字体大小、颜色以及字符坐标范围等。
相应地,步骤S4可以包括步骤S41和步骤S42,其中,
步骤S41,根据所述表格结构矢量信息重建所述目标表格的表格结构;
步骤S42,根据所述表格内容矢量信息在所述表格结构中重组所述目标表格的表格内容。
本实施例中,表格结构矢量信息包括直线坐标信息,可以根据直线坐标信息判断表格线的交点,进而重构表格结构,然后根据表格内容矢量信息在表格结构中重组表格内容,进而实现将无序的表格结构矢量信息和表格内容矢量信息转换为二维数组的表格形式。其中,在重建目标表格时,还可以遵循预置表格格式规则进行建表,如对于表格结构矢量信息中表征出来的已合并单元格,将其拆分为单个单元格,并将表内容矢量信息中包括的已合并单元格中的内容分别填充至拆分得到的单个单元格中。
可选地,在建筑领域中,根据表格内容的不同可以将表格分为不同的建筑属性类别,如楼层表格(如包括每一层楼的层高),环境等级表格等,其中,建筑属性类别中还可以包括表格每一列的列属性类别,如楼层表格第一列为项目名称,第二列为楼层高度,等等。因此,在步骤S4之后,本发明还可以进一步识别出目标表格的建筑属性类别,具体地,所述表格重建方法还可以包括步骤A1和步骤A2,其中:
步骤A1,将所述表格内容与预置特证库中的特征匹配,获得匹配结果,其中,所述匹配结果包括匹配成功的目标特征、所述目标特征的类型数量以及每个类型的目标特征出现的次数;
步骤A2,将所述匹配结果输入至预置分类模型,以确定所述目标表格的建筑属性类别;
其中,所述预置特证库中的特征是通过对所述预置分类模型执行模型剪枝法得到的。
本实施例中,每个目标特征属于不同的类别,比如有3个目标特征:标准差、均值和楼层名称,则目标特征的类型数量为3。每个类型的目标特征出现的次数为每个类型的目标特征在表格内容中出现的次数,如标准差在表格内容中出现3次,均值在表格内容中出现6次。
本实施例中,所述预置分类模型通过训练得到,具体可以包括步骤B1~步骤B5,其中:
步骤B1,获取表格样本数据集,其中,所述表格样本数据集包括训练集和测试集,所述训练集和测试集均包括多条样本数据,所述样本数据包括表格与历史特征库中的特征的匹配结果和表格的建筑属性类别,该匹配结果包括匹配成功的目标特征、该目标特征的类型数量以及每个类型的目标特征出现的次数;
步骤B2,将将所述训练集中多条样本数据的匹配结果作为输入并将对应的建筑属性类别作为输出对预置的学习模型进行训练;
步骤B3,将所述测试集中多条样本数据的匹配结果输入至训练好的学习模型,得到输出的建筑属性类别;
步骤B4,比对训练好的学习模型输出的建筑属性类型和所述测试集中对应的建筑属性类别,判断训练好的学习模型的正确率是否大于等于预设阈值;
步骤B5,在正确率大于等于预设阈值时,根据对应训练好的学习模型确定所述预置分类模型。
其中,步骤B5可以包括步骤B51和步骤B52,其中:
步骤B51,在正确率大于等于预设阈值时,将对应训练好的学习模型作为备选模型;
步骤B52,在所述备选模型包括一个时,将所述备选模型作为所述预置分类模型;或者,在所述备选模型包括多个时,将所述备选模型中正确率最大的模型作为所述预置分类模型。
本实施例中,通过训练集训练学习模型,通过测试集测试训练好的学习模型的正确率,并筛选出正确率较高的模型,然后根据该模型确定预置分类模型。比如,将筛选出的模型作为备选模型,若备选模型中只包括一个模型,则直接将该模型作为预置分类模型,若备选模型中包括多个模型,则从备选模型中筛选出正确率最大的模型作为预置分类模型。在需要对目标表格进行分类时,将目标表格与预置特证库匹配,并将匹配结果输入预置分类模型,即可得到目标表格的建筑属性类别。其中,在训练得到预置分类模型后,通过模型剪枝法筛选出对分类结果准确性影响最优的n个特征,构成预置特征库。该特征库例如包括:特定词汇、数值类型、标准差和/或均值等。
本发明提供的CAD图纸的表格重建方法,充分利用了CAD图纸的各种信息,经过格式解析,将CAD图纸转换为含有视觉信息的位图信息以及含有元素的矢量信息的元素矢量信息,通过计算机视觉技术(既预置识别模型)对位图信息的整体特征进行利用,利用预置识别模型输出目标表格在位图信息中的表格映射位置,避免用户手动干预,进而在元素矢量信息中取得相应的目标矢量信息,通过反向建表流程,重建目标表格的表格结构并在表格结构中重组目标表格的表格内容,弥补位图信息分辨率限制引起的不足,提升整体的重建效果。此后经过自动机器学习方式,自动将表格内容与预置特征库匹配以确定匹配成功的目标特征,经过模型分类预测出目标表格的建筑属性类别。本发明大大优化了表格重建流程,无需用户过多干预,一方面大幅度提升工作效率,改善用户体验,另一方面非专业人士也可完成表格的重建,降低使用成本。
实施例二
图2示出了本发明实施例二提供的CAD图纸的表格重建方法的流程图。
如图2所示,CAD图纸又可称为dwg图纸,通过对CAD图纸的格式解析,可以得到位图信息(如png图片)和元素矢量信息,然后将元素矢量信息持久化输出至json文件中,通过视觉识别模型(预置识别模型)识别出元素区域范围,既元素在位图信息中的坐标范围,进而根据目标表格在位图信息中的坐标范围在json文件中搜索出目标矢量信息,并根据目标矢量信息重建目标表格,进一步,将表格内容的匹配结果输入预置分类模型(AutoML)得到目标表格的建筑属性类别(既图中的表格类型),其中,建筑属性类别还可以包括目标表格中每一列的列属性类型。
实施例三
本发明的实施例三还提供了一种CAD图纸的表格重建装置,该表格重建装置与上述实施例一提供的表格重建方法相对应,相应的技术特征和技术效果在本实施例中不再详述,相关之处可参考上述实施例一。具体地,图3示出了本发明实施例三提供的CAD图纸的表格重建装置的框图。如图3所示,该CAD图纸的表格重建装置300可以包括第一确定模块301、输入模块302、第二确定模块303和重建模块304,其中:
第一确定模块301,用于根据包含目标表格的CAD图纸确定位图信息和元素矢量信息,其中,所述元素矢量信息包括所述CAD图纸中各个元素的矢量信息;
输入模块302,用于将所述位图信息输入至预置识别模型,以确定所述CAD图纸的目标表格在所述位图信息中的表格映射位置;
第二确定模块303,用于从所述元素矢量信息中确定与所述表格映射位置对应的目标矢量信息;
重建模块304,用于根据所述目标矢量信息重建所述CAD图纸的目标表格。
可选地,所述目标矢量信息包括表格结构矢量信息和表格内容矢量信息,所述重建模块还用于:根据所述表格结构矢量信息重建所述目标表格的表格结构;根据所述表格内容矢量信息在所述表格结构中重组所述目标表格的表格内容。
可选地,所述输入模块还用于:将所述位图信息输入至所述预置识别模型,获得所述CAD图纸中包含的元素类型以及各个类型的元素在所述位图信息中的坐标范围;从获得的坐标范围中筛选出元素类型为表格类型所对应的坐标范围,作为所述表格映射位置。
可选地,所述第二确定模块还用于:在所述位图信息中确定所述CAD图纸的外边框的坐标范围,记为第一坐标范围;从所述元素矢量信息中,确定所述CAD图纸的外边框在所述CAD图纸中的坐标范围,记为第二坐标范围;确定所述第一坐标范围和所述第二坐标范围的映射关系,并计算与所述表格映射位置具有同等所述映射关系的目标坐标范围;从所述元素矢量信息中确定包含所述目标坐标范围的所述目标矢量信息。
可选地,所述第二确定模块在执行在所述位图信息中确定所述CAD图纸的外边框的坐标范围,记为第一坐标范围的步骤时,还用于:确定所述CAD图纸的外边框在所述位图信息中的像素点位置集合,其中,所述像素点位置集合包括水平方向的像素点位置和垂直方向的像素点位置;根据所述像素点位置集合确定所述CAD图纸的外边框在所述位图信息中的坐标范围,记为所述第一坐标范围。
可选地,所述装置还包括:匹配模块,用于在所述根据所述目标矢量信息重建所述CAD图纸的目标表格之后,将所述表格内容与预置特证库中的特征匹配,获得匹配结果,其中,所述匹配结果包括匹配成功的目标特征、所述目标特征的类型数量以及每个类型的目标特征出现的次数;处理模块,用于将所述匹配结果输入至预置分类模型,以确定所述目标表格的建筑属性类别;其中,所述预置特证库中的特征是通过对所述预置分类模型执行模型剪枝法得到的。
可选地,所述装置还包括:训练模块,用于:获取表格样本数据集,其中,所述表格样本数据集包括训练集和测试集,所述训练集和测试集均包括多条样本数据,所述样本数据包括表格与历史特征库中的特征的匹配结果和表格的建筑属性类别,该匹配结果包括匹配成功的目标特征、该目标特征的类型数量以及每个类型的目标特征出现的次数;将所述训练集中多条样本数据的匹配结果作为输入并将对应的建筑属性类别作为输出对预置的学习模型进行训练;将所述测试集中多条样本数据的匹配结果输入至训练好的学习模型,得到输出的建筑属性类别;比对训练好的学习模型输出的建筑属性类别和所述测试集中对应的建筑属性类别,判断训练好的学习模型的正确率是否大于等于预设阈值;在正确率大于等于预设阈值时,根据对应训练好的学习模型确定所述预置分类模型。
可选地,所述训练模块在执行在正确率大于等于预设阈值时,根据对应训练好的学习模型确定所述预置分类模型的步骤时,还用于:在正确率大于等于预设阈值时,将对应训练好的学习模型作为备选模型;在所述备选模型包括一个时,将所述备选模型确定为所述预置分类模型;或者,在所述备选模型包括多个时,将所述备选模型中正确率最大的模型作为所述预置分类模型。
可选地,所述预置识别模型通过Retinanet模型或者Yoluv5模型学习获得。
实施例四
图4示出了本发明实施例四提供的适于实现CAD图纸的表格重建方法的计算机设备的框图。本实施例中,计算机设备400可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图4所示,本实施例的计算机设备400至少包括但不限于:可通过系统总线相互通信连接的存储器401、处理器402、网络接口403。需要指出的是,图4仅示出了具有组件401-403的计算机设备400,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器403至少包括一种类型的计算机可读存储介质,可读存储介质包括包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器401可以是计算机设备400的内部存储单元,例如该计算机设备400的硬盘或内存。在另一些实施例中,存储器401也可以是计算机设备400的外部存储设备,例如该计算机设备400上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器401还可以既包括计算机设备400的内部存储单元也包括其外部存储设备。在本实施例中,存储器401通常用于存储安装于计算机设备400的操作系统和各类应用软件,例如CAD图纸的表格重建方法的程序代码等。
处理器402在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器402通常用于控制计算机设备400的总体操作。例如执行与计算机设备400进行数据交互或者通信相关的控制和处理等。本实施例中,处理器402用于运行存储器401中存储的CAD图纸的表格重建方法的步骤的程序代码。
在本实施例中,存储于存储器401中的CAD图纸的表格重建方法还可以被分割为一个或者多个程序模块,并由一个或多个处理器(本实施例为处理器402)所执行,以完成本发明。
网络接口403可包括无线网络接口或有线网络接口,该网络接口403通常用于在计算机设备400与其他计算机设备之间建立通信链接。例如,网络接口403用于通过网络将计算机设备400与外部终端相连,在计算机设备400与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,简称为GSM)、宽带码分多址(Wideband CodeDivision Multiple Access,简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
实施例五
本实施例还提供一种计算机可读存储介质,包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等,其上存储有计算机程序,所述计算机程序被处理器执行时实现CAD图纸的表格识别方法的步骤。
显然,本领域的技术人员应该明白,上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
需要说明的是,本发明实施例序号仅仅为了描述,并不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种CAD图纸的表格重建方法,其特征在于,所述方法包括:
根据包含目标表格的CAD图纸确定位图信息和元素矢量信息,其中,所述元素矢量信息包括所述CAD图纸中各个元素的矢量信息;
将所述位图信息输入至预置识别模型,以确定所述CAD图纸的目标表格在所述位图信息中的表格映射位置;
从所述元素矢量信息中确定与所述表格映射位置对应的目标矢量信息;
根据所述目标矢量信息重建所述CAD图纸的目标表格。
2.根据权利要求1所述的方法,其特征在于,所述目标矢量信息包括表格结构矢量信息和表格内容矢量信息,所述根据所述目标矢量信息重建所述CAD图纸的目标表格,包括:
根据所述表格结构矢量信息重建所述目标表格的表格结构;
根据所述表格内容矢量信息在所述表格结构中重组所述目标表格的表格内容。
3.根据权利要求1所述的方法,其特征在于,所述将所述位图信息输入至预置识别模型,以确定所述CAD图纸的目标表格在所述位图信息中的表格映射位置,包括:
将所述位图信息输入至所述预置识别模型,获得所述CAD图纸中包含的元素类型以及各个类型的元素在所述位图信息中的坐标范围;
从获得的坐标范围中筛选出元素类型为表格类型所对应的坐标范围,作为所述表格映射位置。
4.根据权利要求3所述的方法,其特征在于,所述从所述元素矢量信息中确定与所述表格映射位置对应的目标矢量信息,包括:
在所述位图信息中确定所述CAD图纸的外边框的坐标范围,记为第一坐标范围;
从所述元素矢量信息中,确定所述CAD图纸的外边框在所述CAD图纸中的坐标范围,记为第二坐标范围;
确定所述第一坐标范围和所述第二坐标范围的映射关系,并计算与所述表格映射位置具有同等所述映射关系的目标坐标范围;
从所述元素矢量信息中确定包含所述目标坐标范围的所述目标矢量信息。
5.根据权利要求4所述的方法,其特征在于,所述在所述位图信息中确定所述CAD图纸的外边框的坐标范围,记为第一坐标范围,包括:
确定所述CAD图纸的外边框在所述位图信息中的像素点位置集合,其中,所述像素点位置集合包括水平方向的像素点位置和垂直方向的像素点位置;
根据所述像素点位置集合确定所述CAD图纸的外边框在所述位图信息中的坐标范围,记为所述第一坐标范围。
6.根据权利要求2所述的方法,其特征在于,在所述根据所述目标矢量信息重建所述CAD图纸的目标表格之后,所述方法还包括:
将所述表格内容与预置特证库中的特征匹配,获得匹配结果,其中,所述匹配结果包括匹配成功的目标特征、所述目标特征的类型数量以及每个类型的目标特征出现的次数;
将所述匹配结果输入至预置分类模型,以确定所述目标表格的建筑属性类别;
其中,所述预置特证库中的特征是通过对所述预置分类模型执行模型剪枝法得到的。
7.根据权利要求6所述的方法,其特征在于,所述预置分类模型通过训练得到,具体包括:
获取表格样本数据集,其中,所述表格样本数据集包括训练集和测试集,所述训练集和测试集均包括多条样本数据,所述样本数据包括表格与历史特征库中的特征的匹配结果和表格的建筑属性类别,该匹配结果包括匹配成功的目标特征、该目标特征的类型数量以及每个类型的目标特征出现的次数;
将所述训练集中多条样本数据的匹配结果作为输入并将对应的建筑属性类别作为输出对预置的学习模型进行训练;
将所述测试集中多条样本数据的匹配结果输入至训练好的学习模型,得到输出的建筑属性类别;
比对训练好的学习模型输出的建筑属性类别和所述测试集中对应的建筑属性类别,判断训练好的学习模型的正确率是否大于等于预设阈值;
在正确率大于等于预设阈值时,根据对应训练好的学习模型确定所述预置分类模型。
8.根据权利要求7所述的方法,其特征在于,所述在正确率大于等于预设阈值时,根据对应训练好的学习模型确定所述预置分类模型,包括:
在正确率大于等于预设阈值时,将对应训练好的学习模型作为备选模型;
在所述备选模型包括一个时,将所述备选模型作为所述预置分类模型;或者,在所述备选模型包括多个时,将所述备选模型中正确率最大的模型作为所述预置分类模型。
9.根据权利要求1至8任一项所述的方法,其特征在于,所述预置识别模型通过Retinanet模型或者Yolov5模型学习获得。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9任一项所述的方法。
CN202110484996.8A 2021-04-30 2021-04-30 Cad图纸的表格重建方法和计算机可读存储介质 Active CN113158632B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110484996.8A CN113158632B (zh) 2021-04-30 2021-04-30 Cad图纸的表格重建方法和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110484996.8A CN113158632B (zh) 2021-04-30 2021-04-30 Cad图纸的表格重建方法和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113158632A true CN113158632A (zh) 2021-07-23
CN113158632B CN113158632B (zh) 2024-05-28

Family

ID=76873100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110484996.8A Active CN113158632B (zh) 2021-04-30 2021-04-30 Cad图纸的表格重建方法和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113158632B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6332032B1 (en) * 1998-12-03 2001-12-18 The United States Of America As Represented By The Secretary Of The Army Method for generating test files from scanned test vector pattern drawings
WO2019104879A1 (zh) * 2017-11-30 2019-06-06 平安科技(深圳)有限公司 表格类图像的信息识别方法、电子装置及可读存储介质
CN110334585A (zh) * 2019-05-22 2019-10-15 平安科技(深圳)有限公司 表格识别方法、装置、计算机设备和存储介质
CN111368757A (zh) * 2020-03-09 2020-07-03 广联达科技股份有限公司 面向机器学习的柱大样建筑图纸图层分类方法及系统
CN112100422A (zh) * 2020-09-24 2020-12-18 武汉百家云科技有限公司 工程图纸处理方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6332032B1 (en) * 1998-12-03 2001-12-18 The United States Of America As Represented By The Secretary Of The Army Method for generating test files from scanned test vector pattern drawings
WO2019104879A1 (zh) * 2017-11-30 2019-06-06 平安科技(深圳)有限公司 表格类图像的信息识别方法、电子装置及可读存储介质
CN110334585A (zh) * 2019-05-22 2019-10-15 平安科技(深圳)有限公司 表格识别方法、装置、计算机设备和存储介质
CN111368757A (zh) * 2020-03-09 2020-07-03 广联达科技股份有限公司 面向机器学习的柱大样建筑图纸图层分类方法及系统
CN112100422A (zh) * 2020-09-24 2020-12-18 武汉百家云科技有限公司 工程图纸处理方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
熊沈蜀, 周兆英, 金龙, 陈耘: "工程图矢量化处理系统", 清华大学学报(自然科学版), no. 04 *
黄秉章;: "计算机建筑图纸绘制与平法识图教学的融合", 广西物理, no. 04 *

Also Published As

Publication number Publication date
CN113158632B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
EP3570208A1 (en) Two-dimensional document processing
CN110751143A (zh) 一种电子发票信息的提取方法及电子设备
JP7000627B2 (ja) 標的細胞標識方法、装置、記憶媒体及び端末デバイス
US11288845B2 (en) Information processing apparatus for coloring an image, an information processing program for coloring an image, and an information processing method for coloring an image
CN114155244B (zh) 缺陷检测方法、装置、设备及存储介质
CN112883926B (zh) 表格类医疗影像的识别方法及装置
US11341319B2 (en) Visual data mapping
CN109840278A (zh) 柱状图数据转换控制方法、装置、计算机设备及存储介质
CN111259854A (zh) 一种文本图像中表格的结构化信息的识别方法及装置
CN115984662B (zh) 一种多模态数据预训练及识别方法、装置、设备及介质
CN113837151A (zh) 表格图像处理方法、装置、计算机设备及可读存储介质
CN114005126A (zh) 表格重构方法、装置、计算机设备及可读存储介质
CN115100673A (zh) 一种电子图纸的识别方法、装置、电子设备及存储介质
CN114359533A (zh) 一种基于页面文本的页码识别方法和计算机设备
CN113158632B (zh) Cad图纸的表格重建方法和计算机可读存储介质
CN114511862B (zh) 表格识别方法、装置及电子设备
CN113177995B (zh) Cad图纸的文本重组方法和计算机可读存储介质
CN114241356A (zh) 木板颜色识别方法、装置、电子设备及存储介质
CN113868411A (zh) 合同比对方法、装置、存储介质及计算机设备
CN113642642A (zh) 控件识别方法及装置
CN111783737A (zh) 一种数学公式的识别方法和识别装置
CN111460767A (zh) 一种hmi流程图的生成方法及装置
CN114138214B (zh) 一种自动生成打印文件的方法、装置和电子设备
CN113886745B (zh) 页面图片测试方法、装置及电子设备
CN116188802B (zh) 数据标注方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant