CN101882225B - 基于模板的工程图纸材料信息提取方法及系统 - Google Patents

基于模板的工程图纸材料信息提取方法及系统 Download PDF

Info

Publication number
CN101882225B
CN101882225B CN 200910243253 CN200910243253A CN101882225B CN 101882225 B CN101882225 B CN 101882225B CN 200910243253 CN200910243253 CN 200910243253 CN 200910243253 A CN200910243253 A CN 200910243253A CN 101882225 B CN101882225 B CN 101882225B
Authority
CN
China
Prior art keywords
template
information
material information
framework
graphic element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 200910243253
Other languages
English (en)
Other versions
CN101882225A (zh
Inventor
唐卫清
石念峰
李士才
何涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Fulong Intelligent Technology Co., Ltd
Original Assignee
Beijing Zhongke Fulong Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Fulong Computer Technology Co Ltd filed Critical Beijing Zhongke Fulong Computer Technology Co Ltd
Priority to CN 200910243253 priority Critical patent/CN101882225B/zh
Publication of CN101882225A publication Critical patent/CN101882225A/zh
Application granted granted Critical
Publication of CN101882225B publication Critical patent/CN101882225B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种基于模板的工程图纸材料信息提取方法,包括:由图形软件生成表格图形、文字及表格单元填充规则描述信息,从而生成表格提取模板;读入和识别提取模板中所包含的基本图形元素类型信息、图形属性参数信息、规则描述信息和拓扑结构信息;分析所述提取模板的特征,按照拓扑结构信息形成表格特征描述;循环地读入和识别CAD设计图纸中基本图形元素类型和图形属性参数信息,根据表格特征识别表格框架,形成表格框架集合;循环地识别每个表格框架集合的元素,读入和识别基本图形元素类型和图形属性参数信息;提取材料信息,并将材料信息存储到数据库中。本发明提高了表格特征的提取精度,保证了材料信息提取的语义关联性和准确性。

Description

基于模板的工程图纸材料信息提取方法及系统
技术领域
本发明涉及含有材料表表单的工程图纸材料信息提取技术领域,特别涉及一种基于模板的工程图纸材料信息提取方法及系统。 
背景技术
表格作为一种高度精炼、集中的信息表达形式,是工程图纸的主要设计信息载体,是工程造价概预算的依据、工程材料采购的依据,也是施工组织的依据。从上世纪90年代起,我国在工程设计领域内推动的“甩图板”工程取得了巨大得成功,但“甩图板”工程只是实现了计算机绘图。为了从大量的历史电子图纸的材料表表单中获取材料信息,进行工程造价分析或者历史设计数据复用等工作,设计人员通常要人工地逐张查阅。由于一张工程设计图纸通常包含多种表单或者多张同一种样式的表单,并且并不是每张CAD设计图纸都包含对设计人员有用的材料表表单,导致工作量大,工作效率低。因此,从电子CAD设计图纸中工程材料表表单自动识别和信息提取,成为提高设计效率和办公自动化程度的必须。 
表格自动识别和信息提取技术,是OCR(Optical Character Recognition)技术一个重要组成。目前公开发表的相关方法,主要用于受限表单自动识别技术。这些方法通常从表格结构上进行分析,建立以表格结构特征为基础的识别算法,以表格的特殊标记、主要要表格线的数量及交叉方式等结构为依据进行识别。据统计,受限表格填入信息量不到全部信息量的1/10,每种表格样式相对固定,所以这些方法通常借助训练大量空表样本来提取表格特征,利用定位算法和模式识别算法等完成单张表格识别和信息提取。从而导致这些算法自适应差,每增加一个表格样式,就需要进行大量的样本训练,并且仅适 应于单张、样式相对固定的受限表格识别和信息提取。CAD设计图纸和材料表表单具有以下五方面特点:一是动态性,表单尺寸随设计内容动态变化,且填入信息通常占到全部信息量的90%以上;二是表格样式多、差异显著,同一种表格,由于设计人员的不同,通常会存在结构相似但每个表格单元的尺寸不同;三是噪声大,CAD设计图纸大量存在的是设计图形和文字信息,材料表单一般占的比重不足5%;四是版面结构复杂,一张CAD设计图纸通常包含多种样式相似的表单或者多张同一种样式的表单;五是语义关联性,同一种材料表在同一张图纸中,有些表格虽然样式不相同但是由于具有相同结构和相邻,所以属于同一类表格,如图2(a)和图2(b),如果在一张图纸中且具有上下文关系则认为是同一张表格。 
显然,现有公开的表格识别和信息提取方法不适合具有动态性、差异显著、噪声大、版面结构复杂和语义关联性的CAD设计图纸的材料表表单识别和提取,需要一种高效地、自适应的表格识别和信息提取方法。 
发明内容
(一)发明目的 
本发明的目的是提供一种基于模板的工程图纸材料信息提取方法,以解决上述的表格识别和信息提取方法自适应差、通用性差,不适合具有动态性、差异显著、噪声大、版面结构复杂和语义关联性的CAD设计图纸的材料表表单识别和提取的问题。 
(二)发明内容 
一种基于模板的工程图纸材料信息提取方法,包括以下步骤: 
S1:由图形软件根据图纸的图形内容生成表格图形、表格文字和表格单元填充规则,从而生成表格提取模板,标注所述模板中的材料信息及材料信息类型,所述表格提取模板还描述了表格中可变部分和固定部分之间的拓扑结构,所述表格图形包括构成表格的线段位置、 边框位置、文字信息和线段形状特征,所述拓扑结构包括表格固定部分和可变化部分交点坐标,位置关系,延展方向; 
S2:读入和识别表格提取模板中所包含的基本图形元素类型信息、图形属性参数信息、规则描述信息和拓扑结构信息,所述基本图形元素为直线段、文字或字符,图形属性参数信息为所述基本图形元素绘制时的起始点坐标和终止点坐标,所述规则描述信息为表格单元格的填充规则; 
S3:识别所述表格提取模板的特征,按照拓扑结构信息形成表格特征描述,所述表格特征主要包括主线条的数目、连通性、标志性文字和表格的动态延展特性; 
S4:循环地读入和识别CAD设计图纸中基本图形元素类型和图形属性参数信息,根据S3形成的表格特征识别表格框架,形成表格框架集合,在形成识别出第一个表格框架后,将根据构成表格的线段的空间分布,修正原来从S3获取到的表格特征。 
S5:循环地识别S4中形成的每个表格框架,读入和识别基本图形元素类型和图形属性参数信息; 
S6:根据S5中的图形元素类型和图形属性参数信息和步骤S2从表格提取模板中得到填充规则信息和表格拓扑结构,提取材料信息,并将这些材料信息按照填充规格约定存储到数据库中。 
其中,所述步骤S3中识别表格特征包括识别表格固定部分的线段数量;线段之间的距离和连通性;可变化部分的单元格个数和平面空间位置关系。 
其中,所述识别线段之间连通性时按照构成表格单元的四个顶点的位置分为左上、中上、右上、左中、中中、右中、坐下、中下和右下分别识别,决定相邻单元格和构成单元的直线段之间连通关系及平面空间构成。 
其中,所述步骤S4中识别表格框架包括步骤: 
S41:根据表格中主线条的数目、连通性及表格动态延展性判断能够构成表格的基本图形元素,并分别形成初步表格框架集合; 
S42:若S41产生的初步表格框架集合为空,结束本次表格框架识别,执行步骤S4,若不为空,执行步骤S43; 
S43:根据标志性文字和表格拓扑结构,从步骤S41产生的初步表格框架集合中识别出相匹配的表格框架并形成匹配表格框架集合。 
其中,所述步骤S4之前还包括设置用于识别表格框架时匹配判定的阈值。 
其中,所述步骤S41中所述判断方式为计算一条直线段和表格其它直线段的交点,所述交点个数大于等于模版中最小交点个数则为构成表格框架的直线段要素。 
其中,所述步骤S4中在识别出第一个表格框架前采用步骤S3形成的表格描述特征进行匹配判断,以后的表格框架匹配判定可根据已经得到表格特征对S3中的表格特征进行修订。 
其中,所述步骤S6包括: 
S61:根据表格延展方向循环地逐行识别表格的每个单元格中的基本图形元素类型和图形属性,生成文字描述信息; 
S62:根据填充规则判断所述文字描述信息是否为材料信息,若是材料信息则执行S63,若不是材料信息则删除; 
S63:用户利用人机界面判断材料信息在CAD设计图纸中的平面位置和图形表达,以确定材料信息提取的准确性,并将确认后的材料信息存入数据库。 
其中,所述S61具体包括: 
若基本图形元素类型是文字则直接生成文字描述; 
若基本图形元素类型不是文字类型,按照填充规则和表格的拓扑关系,将所述基本图形元素上下文语义转换为文字描述。 
其中,所述步骤S6之后还包括判断所述表格框架集合是否为空, 若不为空执行S4,否则识别结束。 
一种基于模板的工程图纸材料信息提取系统,包括: 
表格提取模板生成模块,用于由图形软件根据图纸的图形内容生成表格图形、表格文字和表格单元填充规则,从而生成表格提取模板,标注所述模板中的材料信息,并将所述表格提取模板存储中数据库中,所述表格提取模板还描述了表格中可变部分和固定部分之间的拓扑结构; 
表格提取模板识别模块,用于读入和识别表格提取模板中所包含的基本图形元素类型信息、图形属性参数信息、规则描述信息和拓扑结构信息; 
表格提取模板特征分析模块,分析所述表格提取模板的特征,按照拓扑结构信息形成表格特征描述; 
表格框架集合生成模块,用于循环地读入和识别CAD设计图纸中基本图形元素类型和图形属性参数信息,根据表格提取模板特征分析模块形成的表格特征识别表格框架,形成表格框架集合; 
表格框架集合元素识别模块,用于循环地识别每个所述表格框架集合的元素,读入和识别基本图形元素类型和图形属性参数信息,所述基本图形元素为直线段、文字或字符,图形属性参数信息为所述基本图形元素绘制时的起始点和终止点; 
材料信息提取模块,用于根据所述图形元素类型和图形属性参数信息和表格提取模板识别模块中得到填充规则信息和表格拓扑结构,提取材料信息,并将这些材料信息存储到数据库中。 
其中,所述表格框架集合生成模块包括: 
初步表格框架集合生成模块,用于根据表格中主线条的数目、连通性及表格动态延展性判断能够构成表格的基本图形元素,并分别形成初步表格框架集合; 
判断模块:用于判断初步表格框架集合生成模块产生的初步表格 框架集合是否为空,结束本次表格框架识别,执行步骤初步表格框架集合生成模块,若不为空,执行表格框架集合生成模块; 
表格框架集合生成模块,用于根据标志性文字和表格拓扑结构,从初步表格框架集合中识别出相匹配的表格框架并形成匹配表格框架集合。 
其中,所述材料信息提取模块包括: 
文字描述信息生成模块,用于根据表格延展方向循环地逐行识别表格的每个单元格中的基本图形元素类型和图形属性,生成文字描述信息; 
材料信息判断模块,用于根据填充规则判断所述文字描述信息是否为材料信息,若是材料信息则保留,若不是材料信息则删除; 
材料信息确认模块,用于用户判断材料信息在CAD设计图纸中的平面位置和图形表达,以确定材料信息提取的准确性,并将确认后的材料信息存入数据库。 
(三)有益效果 
本发明的基于模板的工程图纸材料信息提取方法具有以下有益效果: 
(1)降低了表格识别方法的复杂性,提高了表格特征的提取精度,进而保证了识别和提取结果的准确性; 
(2)表格特征可配置方法,具有灵活性,允许人工介入,使用者可以定制需要的任何样式的表格提取模板实现表格识别和信息提取,因此既能够满足具有动态延展性的表格识别和信息提取,也适应与普通受限表格识别和信息提取,提高表格识别和信息提取方法的通用性; 
(3)在表格识别过程中根据识别的结果实时地对表格特征实施修订,保证了同一张CAD设计图纸中具有语义关联的同一类表格被正确识别; 
(4)根据表格提取模板的填充规则描述和表格拓扑关系,不仅可以将表格中图形语义能用精确的文本信息描述,而且也决定了哪些信息是材料信息需要存储到数据库中,保证了材料信息提取的准确性。 
附图说明
图1是本发明的基于模板的工程图纸材料信息提取方法的流程图; 
图2是本发明步骤S4的流程图; 
图3是本发明步骤S6的流程图; 
图4(a)是一种带有固定部分的材料表表格,(b)是一种不带固定部分的材料表表格; 
图5(a)是一种带有材料表表单的CAD设计图纸,(b)是(a)所示CAD设计图纸中材料表表单局部放大图; 
图6(a)是一种带有3张具有关联关系性的材料表表单的CAD设计图纸,(b)、(c)和(d)是(a)所示CAD设计图纸中材料表表单自右到左局部放大图; 
图7是图5(a)和图6(a)所示CAD设计图纸中材料表表单的识别和提取的表格提取模板; 
图8是图5(a)所示CAD设计图纸的材料表表格材料信息提取结果; 
图9(a)和(b)是图6(a)所示CAD设计图纸的材料表表格的材料信息提取结果。 
具体实施方式
本发明提出的基于模板的工程图纸材料信息提取方法,在对AutoCAD软件进行二次开发的基础上,利用Object ARX为AutoCAD提供添加了提取模板制作、材料表提取、提取结果编辑和提取等计算机可执行命令,从而实现了提取模板制作、CAD工程图纸材料信息提 取;材料提取后,提供了材料信息编辑界面;处理修改后的材料信息利用ODBC技术逐一存储到Microsoft Access数据库中,在后续进行汇总统计及工程造价分析、历史设计数据复用时,将数据信息读入到数组中以供使用。结合附图和实施例说明如下。 
一般CAD设计图的材料表表单可以看成是单元格的集合组成的,从表格生成的变迁性可以将材料表看成由固定部分和可变化部分等两部分组成,其中可变化部分通常按照某个特定方向延展生成;并且虽然同一种材料表表格由于设计者的不同,表格单元的高度或者宽度可能会不同,但是在同一张CAD设计图上,同一种材料表表格通常是相同的。因此,基于模板的、自适应的材料表格识别和材料信息提取是可行的。 
如图1所示,为本发明的基于模板的工程图纸材料信息提取方法的流程图。步骤S1为由图形软件生成表格提取模板,即由图形软件(常用autoCAD)生成表格图形、文字及表格单元填充规则描述信息,从而生成表格提取模板,该提取模板还描述了表格中可变部分和固定部分之间的拓扑结构,可变化部分通常按照某个特定方向延展生成,如图4(a)可以看作是图7沿正y方向向上延展生成。该步骤具体为:主要借助图形绘制软件,人机交互地完成构成表格提取模板的线段、文字、符号绘制,设置可变单元格(本例可变单元格是指[标号]、[标准图号]、[名称]、[规格]、[数量]、[材料]、[单重]、[总重]和[备注])的填充规则,这些填充规则描述了单元格之间的语义关联性(例如本例中允许[名称]的填充规则设置为不允许为空,即如果某一行的[名称]所在的单元格为空,则取上一行对应单元格的文字作为当前的材料信息),并设置哪些数据是材料信息及其数据类型(通常是字符串或者数字,例如本例中[数量]、[单重]和[总重]为数字,对应于数据库中的DB01、DB02和DB03字段),将提取后的表格提取模板存储在数据库中,如图7所示为图5(a)和图6(a)所示CAD设计图纸中材料表表 单的识别和提取后的表格提取模板。 
步骤S2中读入和识别表格提取模板中所包含的基本图形元素类型信息、图形属性参数信息、规则描述信息和拓扑结构信息,其中,图形属性参数信息,如直线段的起始点和终止点,文字的插入点和内容等;规则描述信息主要是读入每个单元格的填充规则;拓扑结构信息主要是指表格固定部分和可变化部分交点坐标,位置关系(本例表格固定部分在表格可变部分的下方),延展方向(本例的表格延展方向为沿y轴正方向向上)等。 
步骤S3中表格提取模板特征识别,按照步骤S2中的拓扑结构信息识别构成表格提取模板的线条、边框的位置及形状特征,主要包括主线条的数目连通性、标志性文字和表格的动态延展特性,如表格固定部分的线段数量(本例图7中表格固定部分由直线段101、102和103构成);线段之间的距离和连通性;可变化部分的单元格个数和平面空间位置关系等。着重的,直线段连通性可以按照构成表格单元的四个顶点的位置分为左上、中上、右上、左中、中中、右中等分别识别,然后赋予不同的权重标识,分别为1、2、3、4、5和6等,决定相邻单元格和构成单元的直线段之间连通关系及平面空间构成。 
步骤S4中读入CAD设计图纸,识别图纸中基本图形元素类型和图形属性参数信息,例如直线段的起始点和终止点,文字的插入点和内容等,并根据S3形成的表格特征识别表格框架,从而形成表格框架集合。其核心思想是识别判断哪些直线段和文字是材料表表格的组成要素,例如识别判断的原则可以是:计算并求取一条直线段和其它直线段的交点,如果一条直线段上的交点个数大于等于模板中最小交点个数才有可能是构成表格框架的线段要素;只有一条线段上的交点顺序满足表格提取模板对应直线段上的交点排列顺序或满足计算规则才有可能是构成表格框架的直线段等。具体步骤包括(如图2所示): 
(1)根据表格中主线条的数目、连通性及表格动态延展性判断 能够构成表格的基本图形元素,并分别形成初步表格框架集合; 
(2)若(1)产生的初步表格框架集合为空,结束本次表格框架识别,执行步骤S4,若不为空,执行步骤(3); 
(3)根据标志性文字(本例中的标志性文字包括“标号”、“标准图号(或所属图号)”、“名称”、“规格”、“数量”、“材料代号”等)和表格拓扑结构,从步骤(1)产生的初步表格框架集合中识别出相匹配的表格框架并形成匹配表格框架集合。 
考虑到匹配判断时的误差,在进行上述匹配表格框架时还需预先设定一个匹配判断的阈值。在识别出第一个表格框架前可采用步骤S3形成的表格描述特征进行匹配判断,在得到第一个表格框架后,重新计算表格构成元素的距离特征,例如图7中直线段101和102沿y轴正方向的垂直距离,然后据此对S3中的表格特征进行修订,以后的表格框架匹配判定可根据已经得到新表格特征进行,这保证了同一张CAD设计图纸中具有语义关联的同一类表格被正确识别。 
步骤S5循环地识别S4中形成的每个表格框架,读入和识别基本图形元素类型和图形属性参数信息。 
步骤S6根据S5中的图形元素类型和图形属性参数信息和步骤S2从表格提取模板中得到填充规则信息和表格拓扑结构,提取材料信息,并将这些材料信息存储到数据库中。具体包括(如图3所示): 
(1)根据表格延展方向循环地逐行识别表格的每个单元格中的基本图形元素类型和图形属性,生成文字描述信息,具体来说,对于基本图形元素类型是文字按照特定顺序组合生成直接生成文字描述,对于其它类型的基本图形元素,按照填充规则和表格的拓扑关系,将其上下文语义转换为文字描述; 
(2)将文字描述信息转换成材料信息,即根据填充规则判断所述文字描述信息是否为材料信息,如对于单元格中图形,如果是直线段按照表格语义应转换为空文字串;又如,如果单元本身就为空,则 需要根据表格提取模板设定的填充规则约束以及本行的数据特征,决定本单元格所描述的材料信息为空,还是取上一行或者下一行同一列单元格的数值。将是材料信息的文字信息保留,不是材料信息的文字信息删除,如在本例图6(b)中行601的数量所在信息不是数值,同时该列的填充规则对应于数据库中的DB01字段,所以本行数据不是材料信息,需要删除。 
(3)用户判断材料信息在CAD设计图纸中的平面位置和图形表达,以确定材料信息提取的准确性,特别地,对于在识别过程中存在不准确的单元格材料信息用特定的图形表达出来,比如提取材料文字反色显示等(例如图6(c)中单元格602是由图形和文本信息构成,所以提取的结果“1 2”1””会反色显示),提醒用户确认提取结果。用户完成提取材料信息确认后,还需要将提取后的材料信息,按照其数值类型和表格提取模板中的填充规则约定存储到对应的数据库中。如图8所示,为图5(a)所示CAD设计图纸的材料表表格材料信息提取结果,图9(a)和(b)是图6(a)所示CAD设计图纸的材料表表格的材料信息提取结果。 
经过一次识别和提取材料信息后还需判断所述表格框架集合是否为空,若不为空执行步骤S4,否则识别结束。 
一种基于模板的工程图纸材料信息提取系统,该系统是基于的上述工程图纸材料信息提取方法的系统,该系统包括:表格提取模板生成模块,用于由图形软件根据图纸的图形内容生成表格图形、表格文字和表格单元填充规则,从而生成表格提取模板,标注所述模板中的材料信息,并将所述表格提取模板存储中数据库中,所述表格提取模板还描述了表格中可变部分和固定部分之间的拓扑结构;表格提取模板识别模块,用于读入和识别表格提取模板中所包含的基本图形元素类型信息、图形属性参数信息、规则描述信息和拓扑结构信息;表格提取模板特征分析模块,分析所述表格提取模板的特征,按照拓扑结 构信息形成表格特征描述;表格框架集合生成模块,用于循环地读入和识别CAD设计图纸中基本图形元素类型和图形属性参数信息,根据表格提取模板特征分析模块形成的表格特征识别表格框架,形成表格框架集合;表格框架集合元素识别模块,用于循环地识别每个所述表格框架集合的元素,读入和识别基本图形元素类型和图形属性参数信息,所述基本图形元素为直线段、文字或字符,图形属性参数信息为所述基本图形元素绘制时的起始点和终止点;材料信息提取模块,用于根据所述图形元素类型和图形属性参数信息和表格提取模板识别模块中得到填充规则信息和表格拓扑结构,提取材料信息,并将这些材料信息存储到数据库中。 
其中,表格框架集合生成模块包括: 
初步表格框架集合生成模块,用于根据表格中主线条的数目、连通性及表格动态延展性判断能够构成表格的基本图形元素,并分别形成初步表格框架集合;判断模块:用于判断初步表格框架集合生成模块产生的初步表格框架集合是否为空,结束本次表格框架识别,执行步骤初步表格框架集合生成模块,若不为空,执行表格框架集合生成模块;表格框架集合生成模块,用于根据标志性文字和表格拓扑结构,从初步表格框架集合中识别出相匹配的表格框架并形成匹配表格框架集合。 
其中,材料信息提取模块包括:文字描述信息生成模块,用于根据表格延展方向循环地逐行识别表格的每个单元格中的基本图形元素类型和图形属性,生成文字描述信息;材料信息判断模块,用于根据填充规则判断所述文字描述信息是否为材料信息,若是材料信息则保留,若不是材料信息则删除;材料信息确认模块,用于用户判断材料信息在CAD设计图纸中的平面位置和图形表达,以确定材料信息提取的准确性,并将确认后的材料信息存入数据库。 
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关 技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。 

Claims (11)

1.一种基于模板的工程图纸材料信息提取方法,其特征在于,包括以下步骤:
S1:由图形软件根据图纸的图形内容生成表格图形、表格文字和表格单元填充规则,从而生成表格提取模板,标注所述模板中的材料信息及材料信息类型,所述表格提取模板还描述了表格中可变部分和固定部分之间的拓扑结构,所述表格图形包括构成表格的线段位置、边框位置、文字信息和线段形状特征,所述拓扑结构包括表格固定部分和可变化部分交点坐标,位置关系,延展方向;
S2:读入和识别表格提取模板中所包含的基本图形元素类型信息、图形属性参数信息、规则描述信息和拓扑结构信息,所述基本图形元素为直线段、文字或字符,图形属性参数信息为所述基本图形元素绘制时的起始点坐标和终止点坐标,所述规则描述信息为表格单元格的填充规则和单元格变量名称;
S3:识别所述表格提取模板的特征,按照拓扑结构信息形成表格特征描述,所述表格特征主要包括主线条的数目、连通性、标志性文字和表格的动态延展特性;
S4:循环地读入和识别CAD设计图纸中基本图形元素类型和图形属性参数信息,根据S3形成的表格特征识别表格框架,形成表格框架集合,在形成识别出第一个表格框架后,将根据构成表格的线段的空间分布,修正原来从S3获取到的表格特征,其中,根据S3形成的表格特征识别表格框架的步骤具体包括:
S41:根据表格中主线条的数目、连通性及表格动态延展性判断能够构成表格的基本图形元素,并分别形成初步表格框架集合;
S42:若S41产生的初步表格框架集合为空,结束本次表格框架识别,执行步骤S4,若不为空,执行步骤S43;
S43:根据标志性文字和表格拓扑结构,从步骤S41产生的初步表格框架集合中识别出相匹配的表格框架并形成匹配表格框架集合;
S5:循环地识别S4中形成的每个表格框架,读入和识别基本图形元素类型和图形属性参数信息;
S6:根据S5中的图形元素类型和图形属性参数信息和步骤S2从表格提取模板中得到填充规则信息和表格拓扑结构,提取材料信息,并将这些材料信息按照填充规则约定存储到数据库中。
2.如权利要求1所述的基于模板的工程图纸材料信息提取方法,其特征在于,所述步骤S3中识别表格特征包括识别表格固定部分的线段数量;线段之间的距离和连通性;可变化部分的单元格个数和平面空间位置关系。
3.如权利要求2所述的基于模板的工程图纸材料信息提取方法,其特征在于,所述识别线段之间连通性时按照构成表格单元的四个顶点的位置分为左上、中上、右上、左中、中中、右中、坐下、中下和右下分别识别,决定相邻单元格和构成单元的直线段之间连通关系及平面空间构成。
4.如权利要求1所述的基于模板的工程图纸材料信息提取方法,其特征在于,所述步骤S4之前还包括设置用于识别表格框架时匹配判定的阈值。
5.如权利要求4所述的基于模板的工程图纸材料信息提取方法,其特征在于,所述步骤S41中所述判断方式为计算一条直线段和表格其它直线段的交点,所述交点个数大于等于模版中最小交点个数则为构成表格框架的直线段要素。
6.如权利要求1所述的基于模板的工程图纸材料信息提取方法,其特征在于,所述步骤S4中在识别出第一个表格框架前采用步骤S3形成的表格描述特征进行匹配判断,以后的表格框架匹配判定可根据已经得到表格特征对S3中的表格特征进行修订。
7.如权利要求1所述的基于模板的工程图纸材料信息提取方法,其特征在于,所述步骤S6包括:
S61:根据表格延展方向循环地逐行识别表格的每个单元格中的基本图形元素类型和图形属性,生成文字描述信息;
S62:根据填充规则判断所述文字描述信息是否为材料信息,若是材料信息则执行S63,若不是材料信息则删除;
S63:用户利用人机界面判断材料信息在CAD设计图纸中的平面位置和图形表达,以确定材料信息提取的准确性,并将确认后的材料信息存入数据库。
8.如权利要求7所述的基于模板的工程图纸材料信息提取方法,其特征在于,所述S61具体包括:
若基本图形元素类型是文字则直接生成文字描述;
若基本图形元素类型不是文字类型,按照填充规则和表格的拓扑关系,将所述基本图形元素上下文语义转换为文字描述。
9.如权利要求7所述的基于模板的工程图纸材料信息提取方法,其特征在于,所述步骤S6之后还包括判断所述表格框架集合是否为空,若不为空执行S4,否则识别结束。
10.一种基于模板的工程图纸材料信息提取系统,其特征在于,包括:
表格提取模板生成模块,用于由图形软件根据图纸的图形内容生成表格图形、表格文字和表格单元填充规则,从而生成表格提取模板,标注所述模板中的材料信息,并将所述表格提取模板存储中数据库中,所述表格提取模板还描述了表格中可变部分和固定部分之间的拓扑结构;
表格提取模板识别模块,用于读入和识别表格提取模板中所包含的基本图形元素类型信息、图形属性参数信息、规则描述信息和拓扑结构信息;
表格提取模板特征分析模块,分析所述表格提取模板的特征,按照拓扑结构信息形成表格特征描述;
表格框架集合生成模块,用于循环地读入和识别CAD设计图纸中基本图形元素类型和图形属性参数信息,根据表格提取模板特征分析模块形成的表格特征识别表格框架,形成表格框架集合;
表格框架集合元素识别模块,用于循环地识别每个所述表格框架集合的元素,读入和识别基本图形元素类型和图形属性参数信息,所述基本图形元素为直线段、文字或字符,图形属性参数信息为所述基本图形元素绘制时的起始点和终止点;
材料信息提取模块,用于根据所述图形元素类型和图形属性参数信息和表格提取模板识别模块中得到填充规则信息和表格拓扑结构,提取材料信息,并将这些材料信息存储到数据库中;
其中,所述表格框架集合生成模块包括:
初步表格框架集合生成模块,用于根据表格中主线条的数目、连通性及表格动态延展性判断能够构成表格的基本图形元素,并分别形成初步表格框架集合;
判断模块:用于判断初步表格框架集合生成模块产生的初步表格框架集合是否为空,结束本次表格框架识别,执行步骤初步表格框架集合生成模块,若不为空,执行表格框架集合生成模块;
表格框架集合生成模块,用于根据标志性文字和表格拓扑结构,从初步表格框架集合中识别出相匹配的表格框架并形成匹配表格框架集合。
11.如权利要求10所述的基于模板的工程图纸材料信息提取系统,其特征在于,所述材料信息提取模块包括:
文字描述信息生成模块,用于根据表格延展方向循环地逐行识别表格的每个单元格中的基本图形元素类型和图形属性,生成文字描述信息;
材料信息判断模块,用于根据填充规则判断所述文字描述信息是否为材料信息,若是材料信息则保留,若不是材料信息则删除;
材料信息确认模块,用于用户判断材料信息在CAD设计图纸中的平面位置和图形表达,以确定材料信息提取的准确性,并将确认后的材料信息存入数据库。
CN 200910243253 2009-12-29 2009-12-29 基于模板的工程图纸材料信息提取方法及系统 Active CN101882225B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200910243253 CN101882225B (zh) 2009-12-29 2009-12-29 基于模板的工程图纸材料信息提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200910243253 CN101882225B (zh) 2009-12-29 2009-12-29 基于模板的工程图纸材料信息提取方法及系统

Publications (2)

Publication Number Publication Date
CN101882225A CN101882225A (zh) 2010-11-10
CN101882225B true CN101882225B (zh) 2013-09-18

Family

ID=43054237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200910243253 Active CN101882225B (zh) 2009-12-29 2009-12-29 基于模板的工程图纸材料信息提取方法及系统

Country Status (1)

Country Link
CN (1) CN101882225B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321405A (zh) * 2019-05-07 2019-10-11 腾讯科技(深圳)有限公司 模型匹配方法、装置、计算机可读存储介质和计算机设备

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567711A (zh) * 2010-12-29 2012-07-11 方正国际软件(北京)有限公司 一种扫描识别模板制作和使用方法及系统
CN102567565B (zh) * 2011-11-10 2013-11-27 重庆电力设计院 一种电缆参数的处理方法和系统
CN102609687B (zh) * 2012-01-31 2013-03-13 华中科技大学 一种地铁施工图纸及工程参数自动识别方法
CN103500257B (zh) * 2013-10-16 2017-01-25 苏州利驰电子商务有限公司 Dwg格式图纸识别方法及系统
CN104933625A (zh) * 2014-03-19 2015-09-23 中国石化工程建设有限公司 一种石化生产装置管道信息自动采集生成的系统及方法
CN105631071B (zh) * 2014-10-31 2019-02-12 上海神机软件有限公司 基于模板感应的模板编辑系统及方法、排模系统及方法
CN104951602A (zh) * 2015-01-09 2015-09-30 中国核工业二三建设有限公司 从AutoCAD轴测图中提取材料表的装置及方法
CN104992007B (zh) * 2015-06-24 2017-08-11 国家电网公司 一种供电方案设计图的自动评审方法
CN105183709B (zh) * 2015-08-28 2018-08-21 国脉科技股份有限公司 一种excel概预算表格排版方法
CN105975562A (zh) * 2016-05-03 2016-09-28 水木智博(北京)网络信息科技有限公司 一种工程图纸的概预算表自动生成方法和装置
CN107463868B (zh) * 2016-06-02 2021-02-23 阿里巴巴集团控股有限公司 一种电子表单核验方法及装置
CN106407883B (zh) * 2016-08-10 2019-12-27 北京工业大学 一种复杂表格及其内部手写数字识别方法
CN108427788A (zh) * 2017-08-12 2018-08-21 中民筑友科技投资有限公司 一种平面图标注方法及装置
CN107679024B (zh) * 2017-09-11 2023-04-18 畅捷通信息技术股份有限公司 识别表格的方法、系统、计算机设备、可读存储介质
CN107861931B (zh) * 2017-11-02 2021-07-30 金蝶软件(中国)有限公司 模板文件处理方法、装置、计算机设备和存储介质
CN107908843B (zh) * 2017-11-07 2022-05-27 杭州格原信息技术有限公司 基于图签信息提取的管理系统
CN108228866A (zh) * 2018-01-15 2018-06-29 苏州索及信息技术有限公司 一种匹配待加工零件与加工厂家制造工艺的方法及系统
CN108491885A (zh) * 2018-03-28 2018-09-04 广东工业大学 一种基于朴素贝叶斯分类器的autoCAD图块识别方法及装置
CN108985542A (zh) * 2018-05-08 2018-12-11 苏州显知禾创科技服务有限公司 一种科技项目评价方法及系统
CN108763768A (zh) * 2018-05-30 2018-11-06 中船黄埔文冲船舶有限公司 一种自动读取AutoCAD舾装布置图的方法及系统
CN109815461B (zh) * 2018-12-07 2024-02-09 北京天健源达科技股份有限公司 一种编辑表格的方法
CN109815635B (zh) * 2019-02-28 2023-04-18 杭州和利时自动化有限公司 一种锅炉mft自动设计系统及方法
CN111859874B (zh) * 2019-04-17 2023-06-13 百度在线网络技术(北京)有限公司 表格生成方法及其系统、视频播放设备和计算机可读介质
CN110083815B (zh) * 2019-05-07 2023-05-23 中冶赛迪信息技术(重庆)有限公司 一种同义变量识别方法和系统
CN110399631B (zh) * 2019-05-31 2023-01-24 天津大学 地浸矿山井场绘图平台的设计方法及系统
CN110347988B (zh) * 2019-07-03 2023-06-30 广东至衡工程管理有限公司 一种工程监理的模板建立方法及系统
CN110826400B (zh) * 2019-09-25 2022-08-23 杭州美创科技有限公司 图片表格用户交互增强识别的方法
CN110992600A (zh) * 2019-12-06 2020-04-10 万翼科技有限公司 建材发放和领取方法及相关设备
CN111368757A (zh) * 2020-03-09 2020-07-03 广联达科技股份有限公司 面向机器学习的柱大样建筑图纸图层分类方法及系统
CN111914315A (zh) * 2020-07-06 2020-11-10 上海电气研砼建筑科技集团有限公司 一种基于cad的物料清单统计方法及系统
CN112307725B (zh) * 2020-10-30 2022-11-25 天津光电通信技术有限公司 一种在二维制图界面添加表格信息的方法
CN112434568B (zh) * 2020-11-06 2024-09-17 北京完美知识科技有限公司 一种画作识别方法、装置、存储介质及计算设备
CN112329411B (zh) * 2020-11-10 2024-06-18 湖北福泰建筑装饰工程有限公司 一种工程预算核算管控管理软件
CN112685441A (zh) * 2021-01-06 2021-04-20 特赞(上海)信息科技有限公司 基于Metadata的内容资产管理方法和系统
CN112883800A (zh) * 2021-01-20 2021-06-01 上海品览智造科技有限公司 一种cad防雷平面图中防雷等级识别的方法
CN112883801B (zh) * 2021-01-20 2024-05-24 上海品览智造科技有限公司 Cad配电系统图中住户配电箱系统图子图的精准识别方法
CN112801620B (zh) * 2021-01-29 2022-08-19 万翼科技有限公司 工程信息处理方法、装置、设备及存储介质
CN113239424B (zh) * 2021-04-25 2021-10-15 北京城建设计发展集团股份有限公司 一种用于轨道交通设计图纸辅助核查方法
CN113468700B (zh) * 2021-07-08 2024-07-02 安天科技集团股份有限公司 拓扑信息识别方法、装置、计算设备及存储介质
US11752639B2 (en) 2022-01-21 2023-09-12 Saudi Arabian Oil Company Engineering drawing review using robotic process automation
CN114722440B (zh) * 2022-04-02 2024-07-23 广东顺德电力设计院有限公司 Cad文件数据提取识别、检查方法、系统、设备及存储介质
CN114694165B (zh) * 2022-06-01 2023-05-09 济南大学 一种pid图纸智能识别与重绘方法
CN114756976B (zh) * 2022-06-16 2022-08-23 北京汉端科技有限公司 航空器制造改装中的工作单生成方法及系统
CN116580415B (zh) * 2023-05-17 2023-11-28 深圳市四方智源科技有限公司 电子表格识别方法、装置、电子设备及存储介质
CN117011543B (zh) * 2023-10-08 2024-01-12 杭州筑峰科技有限公司 一种基于型材的图纸识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1708735A (zh) * 2002-10-25 2005-12-14 株式会社西格玛 Cad系统、操作该系统的程序和含有该程序的记录介质
CN1740932A (zh) * 2005-09-14 2006-03-01 山东大学 一种数控车床的智能控制系统及其控制方法
CN101124582A (zh) * 2004-08-11 2008-02-13 右半球有限公司 自动化衍生视图渲染系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1708735A (zh) * 2002-10-25 2005-12-14 株式会社西格玛 Cad系统、操作该系统的程序和含有该程序的记录介质
CN101124582A (zh) * 2004-08-11 2008-02-13 右半球有限公司 自动化衍生视图渲染系统
CN1740932A (zh) * 2005-09-14 2006-03-01 山东大学 一种数控车床的智能控制系统及其控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
石念峰等.表格模板可视化技术研究.《计算机工程》.2008,第34卷(第2期),第255-257、260页.
表格模板可视化技术研究;石念峰等;《计算机工程》;20080131;第34卷(第2期);第255-257、260页 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321405A (zh) * 2019-05-07 2019-10-11 腾讯科技(深圳)有限公司 模型匹配方法、装置、计算机可读存储介质和计算机设备
CN110321405B (zh) * 2019-05-07 2022-03-29 腾讯科技(深圳)有限公司 模型匹配方法、装置、计算机可读存储介质和计算机设备

Also Published As

Publication number Publication date
CN101882225A (zh) 2010-11-10

Similar Documents

Publication Publication Date Title
CN101882225B (zh) 基于模板的工程图纸材料信息提取方法及系统
CN103366633B (zh) 基于水利地图数据模型的洪水风险图绘制方法及其系统
CN107480374A (zh) 一种基于catia的桥梁bim模型创建方法
CN106446072A (zh) 网页内容的处理方法和装置
CN110738037A (zh) 用于自动生成电子表格的方法、装置、设备及存储介质
CN105631113B (zh) 核电工程管道iso图定制方法
CN109063316A (zh) 一种船用紧固件快速设计系统和方法
CN111737623A (zh) 网页信息提取方法及相关设备
CN114417486B (zh) 建筑设计图纸导入方法和装置、电子设备、存储介质
CN109766601B (zh) 电气配管计算机辅助绘图方法及装置
CN103065009B (zh) 一种交通标志标线智能设计系统及方法
CN103235757B (zh) 基于自动化造数对输入域测试对象进行测试的装置和方法
CN107180138A (zh) 一种基于mbd模型的零件可加工性分析方法及系统
CN111784801A (zh) 一种竣工单体建筑车位平面图自动化绘制方法及系统
CN112651331A (zh) 文本表格提取方法、系统、计算机设备及存储介质
CN104598553A (zh) 一种复合式的地质图制图自动综合的方法
CN112037224B (zh) 一种根据标注线生成轴线的方法、电子设备以及存储介质
Yin et al. An automated layer classification method for converting CAD drawings to 3D BIM models
CN111814495B (zh) 一种基于svg的电路图到盲文转换方法及系统
CN110750745A (zh) 基于旅游ugc的目的地形象可视化方法
CN102929700B (zh) 互动教学平台导入word题库的方法
CN116956838A (zh) 工程量清单的项目确定方法及确定装置
CN113971044A (zh) 组件文档生成方法、装置、设备及可读存储介质
CN108846099A (zh) 一种出版级地图自动制图的方法
CN113901540B (zh) 一种门窗表建筑图纸的类型和门窗的自动识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200103

Address after: 100085, Beijing, Haidian District information road, No. 28, information building, block A, nine

Patentee after: Beijing Zhongke Fulong Intelligent Technology Co., Ltd

Address before: 100085, Beijing, Haidian District information road, No. 28, information building, block A, nine

Patentee before: Beijing Zhongke Fulong Computer Technology Co., Ltd.