CN101673347A - 一种电子图档拆分方法 - Google Patents
一种电子图档拆分方法 Download PDFInfo
- Publication number
- CN101673347A CN101673347A CN200810216140A CN200810216140A CN101673347A CN 101673347 A CN101673347 A CN 101673347A CN 200810216140 A CN200810216140 A CN 200810216140A CN 200810216140 A CN200810216140 A CN 200810216140A CN 101673347 A CN101673347 A CN 101673347A
- Authority
- CN
- China
- Prior art keywords
- title block
- straight line
- file
- electronic
- rectangles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000008878 coupling Effects 0.000 claims description 2
- 238000010168 coupling process Methods 0.000 claims description 2
- 238000005859 coupling reaction Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000005194 fractionation Methods 0.000 description 5
- 238000011960 computer-aided design Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种电子图档拆分方法,用于拆分包含至少一张图纸的电子图档成为只包含一张图纸的电子文件;包括建立包括图签的特征关键字及其在所述图纸中的位置的图签特征模板;读取所述电子图档中的文字和直线的内容和位置,建立图档数据库;根据所述图签特征模板在所述图档数据库中进行搜索,找出全部图签;在所述图档数据库中,在所述图签的上、下、左、右四个方向进行搜索,找出全部包含所述图签的所有矩形;在所述全部包含所述图签的所有矩形中,选择不包含其他图签的所有矩形为候选图框,以所述候选图框中最大的矩形为边界,拆分所述电子图档。本发明以图签作为参照,不受图框大小、比例和间距的限制,有效性和执行效率高。
Description
技术领域
本发明涉及一种电子图档拆分方法,尤其涉及基于图签定位的电子图档拆分方法。
背景技术
随着计算机辅助设计(CAD)技术的普及,电子图档在很多方面取代纸质图纸,成为了重要的设计信息的传递媒介。电子图档相对于纸质的图纸,更环保、信息传输速度更快、而且方便再利用。因此,越来越多的设计企业开始重视电子图档的归档和收集工作,并开始建立电子图档管理系统。
为了便于档案管理系统进行分类和检索,大多数电子档案管理系统要求一个电子图档里面只含一张图纸的资料。但是,设计人员在实际工作过程中,为了参考方便,往往把一个工程的所有图纸都画在一个电子图档里面。这给归档工作带来很大麻烦,档案管理人员不得不打开每个电子图档,检查其中是否有多个独立的图。如果有,必须手工地一张一张拆分出来进行保存。有的电子图档里面含有多达20多张图纸的内容,这种拆分工作无疑会耗费相当多的时间,而且拆分过程中比较容易出现错误,使得存档资料不准确。
于是人们使用计算机自动处理的过程,来分析和拆分具有多张图纸内容的电子图档。该过程需要分析和识别电子图档的两个普遍特征-图框和图签,如图1所示。所有正式打印的图纸,都有一个矩形框作为边线,这种边线称为“图框”。在图框的一个角落,有一个描述表格,记录图纸的工程、编号、设计者等设计信息,称为“图签”。
以上过程可以在计算机中完成,中央处理单元在操作上连接到一个存储设备,一个控制器,一个输入设备和一个输出设备。使用存储设备来存储处理过程中用到的直线和文字,以及适用于各种电子图档的相应匹配规则。中央处理单元对电子图档进行预处理,即读取文字和直线的信息,进行筛选、排序等,从存储器获得可用的匹配规则,逐一尝试,然后对匹配结果进行筛选和处理,并且利用这个结果对图档进行拆分,得到最终的提取结果。
对电子图档进行自动拆分的工作已经有一些研究成果和应用。这些研究通过分析图框的特征来实现拆分。图框的特征包括长度和宽度的数值、长宽比例等。为了打印的需要,图框的长度和宽度往往调整为打印纸张的大小或整数倍。如A3纸为420mm×297mm,许多A3图框的长宽是420×297,或42000×29700。A0~A6规格的打印纸张,其长宽比都为1.4142∶1。另外,图框之间往往是分离的。这些特征,被用作为拆分的依据。
但是,以图框的上述特征作为依据并不可靠。首先,并不是所有的矩形框都是图框:有一些游离于图框之外的矩形框,里面包含表格或其它内容。其次并不是所有的图框的长度和宽度都是打印纸张的整数倍。很多设计人员为了节省打印纸张,将多张小图幅的图拼在一张大图幅的图里面一起打印。比如4张等于或小于A3的图纸拼装为一张A2的图纸。因为打印是以大图幅的尺寸为准,所以小图幅的图框的数值不一定是打印纸张尺寸的整数倍,可能是一个随意的数值。另外,因为各种需要,有时候在同一张图里面也可能会出现绘图比例相差较大的图纸,比如一个是1∶10绘图,图框大小为4200×2970;另外一个为1∶100,图框大小为42000×29700。因此,根据边长的大小或比例来判断图框是不可靠的,有可能会辨认出一些无效的图框,也有可能会丢失一些有效的图框。进一步的,图框“相互之间分离”的特征同样不可靠。有的设计人员喜欢把几个图框紧密的排放在一起。这时就无法找到一个分离的、完整的图框。由此可见,依靠图框的特征来进行拆分,存在许多风险。
另外,判断出图框需要耗费相当多的直线求交的运算量,导致拆图效率不高。因为在电子图档中最多的元素是直线,一个普通的图都往往有2000~20000条直线,如果是含有多个图框,直线数量达到100000以上都是很正常的。这么多的直线通过求交运行来获得几个合适的矩形,运算量非常大。
发明内容
本发明的目的在于克服现有技术的不足之处,公开一种电子图档的拆分方法,基于图签定位来分析电子图档,能大大提高拆分的有效性,并且有很高的执行效率。
本发明公开的一种电子图档拆分方法,用于拆分包含至少一张图纸的所述电子图档,成为至少一个分别包含其中一张图纸的电子文件;包括如下步骤:
第一步,建立包括图签的特征关键字及其在所述图纸中的位置的图签特征模板;
第二步,读取所述电子图档中的文字和直线的内容和位置,建立图档数据库;
第三步,根据所述图签特征模板在所述图档数据库中进行搜索,找出全部图签;再针对每一个所述图签,分别进行如下操作:
第四步,在所述图档数据库中,在所述图签的上、下、左、右四个方向进行搜索,找出全部包含所述图签的所有矩形;
第五步,在所述全部包含所述图签的所有矩形中,选择不包含其他图签的所有矩形为候选图框,以所述候选图框中最大的矩形为边界,拆分所述电子图档。
本发明还包括如下从属技术特征:
所述图签特征模板中还包括图签的图案;
还建立包括多个不同的所述图签特征模板的图签特征模板库。
在所述第二步中,建立所述图档数据库之前,还对所述文字和直线根据其位置排序。
假设与所述每一个图签匹配的所述图框的四条边,从右到左分别为直线A、直线B、直线C、和直线D;所述第四步细化成如下步骤:根据所述图签特征模板,制定搜索范围;
(1)在所述搜索范围内,按照从右至左的方向,每次取一根垂直的直线作为直线A;
(2)在所述搜索范围内,按照由近至远的顺序,每次取一条和直线A相交,且交点在所述图签范围上方的水平关联直线B;
(3)在所述搜索范围内,按照由近至远的顺序,每次取一条和直线A相交,且交点在所述图签范围下方的水平关联直线C;
(4)在所述搜索范围内,按照由近至远的顺序,每次取一条同时相交于两条所述水平关联直线B和水平关联直线C,且交点在基线左侧的直线D,由此得到一个矩形;
(5)重复上述步骤,获得全部包含所述图签的所有矩形。
然后,在所述全部包含所述图签的所有矩形中,每次取出一个所述矩形判断其中是否包含其它图签,否,则得到一个候选图框;是,则继续判断其他矩形,这样分别判断所述所有矩形从而得到所有的候选图框;以所述候选图框中最大的矩形为边界,拆分所述电子图档。
本发明由于以图签作为参照,不受图框大小、比例的限制,多个图框之间是否相连,也不会影响拆图的结果,能大大提高拆分的有效性,并且有很高的执行效率。
附图说明
图1是电子图档的图框和图签的示意图。
图2是本发明的基于图签定位的电子图档拆分流程图。
图3是本发明搜索图框用到的直线的示意图。
图4是根据图签范围寻找图框的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步详细说明。
本发明首先利用一定的规则,获取图档中的图签的大致位置和内容。然后根据图签,找到包含图签特征文字的图框,再根据图框位置,把图纸内容逐一分离出来。
本发明提出一种基于图签定位的拆分方法,能大大提高拆分的有效性,并且有很高的执行效率。图签和图框在图纸中是一一对应的,而图签的位置是更稳定可靠的判断依据。一般的设计单位都有自己特定的图签格式,并用模板固定下来。虽然在实际应用中图签会产生一些变化,如形状拉伸或者格子移位,但是图签中总存在若干特征关键字或图案,这些特征是相对固定的。找到这些特征后,再以图签范围为基准,就能找到包含图签的图框。考虑到一些企业的电子图档存在多种格式的图签(如房地产开发商),本发明提供开放式的图签特征库,用户可以不断添加各种图签的特征。
由于以图签作为参照,本发明不受图框大小、比例的限制,多个图框之间是否相连,也不会影响拆图的结果。
基于图签定位的电子图档拆分过程如图2所示,总结如下:
(6)收集和汇总各类图签的特征(图案或关键字,以及图签在图纸中的大致范围)。
(7)读取电子图档中的文字和直线的内容和位置,并根据该文字和直线的位置进行排序。
(8)根据图签特征模板在该文字和直线中进行搜索和定位,获得若干个图签信息。
(9)取出一个图签。
(10)根据模板,获得图签在图中的大致范围。
(11)以该特征为基准,在上、下、左、右四个方向进行搜索,搜索包含该图签的所有矩形。
(12)取出一个搜索到的矩形。
(13)判断该矩形是否包含其它图签,否,则得到包围该图签文字、但不包含其它图签文字的矩形,即为一个候选图框。是,则根据是否还有其他矩形,重复第(7)和第(8)步,得到所有的候选图框。
(14)在所有的候选图框中,选取一个最大的,作为寻找的包含该图签的图框。
(15)判断是否还有其它图签,是,则重复第(4)步到第(9)步,直至找出全部图框。
(16)根据找到的图框,对电子图档进行拆分。
下面说明以图签范围为基准,搜索图框的过程。为了得到准确的结果,需要以图签位置为基准,在上、下、左、右四个方向进行搜索。每个方向的搜索算法类似,下面以自右向左的搜索为例说明,参见图3和图4:
(1)根据模板和寻找到的图签特征,计算出每个图签在整图中的大致范围,作为搜索范围。
(2)在搜索范围内,按照从右至左的方向,每次取一根垂直的直线作为基线(直线A)。
(3)根据直线的上下端点,和图签对应的范围,决定两端关联直线的搜索范围。
(4)按照由近至远的顺序,循环取两条关联的直线,保证这两条直线和基线相交(直线B、C)。
(5)循环取出所有和上述两根关联直线都相交,且交点在基线左边的直线(直线D),从而形成一个矩形。
(6)判断该矩形是否包含该图签的文字或特征图案,但不包括其它图签的文字或特征图案。
(7)如果判断通过,则把该矩形作为一个候选的矩形。
如图4所示,是根据图签范围寻找图框的流程图,包括如下步骤:
(1)根据模板和寻找到的图签特征,计算出每个图签在整图中的大致范围,作为搜索范围。
(2)在搜索范围内,按照从右至左的方向,每次取一根垂直的直线作为基线(直线A)。
(3)根据基线的上下端点,和图签对应的范围,决定两端关联直线的搜索范围。
(4)按照由近至远的顺序,每次取一条和基线相交,且交点在图签范围上方的水平关联直线B。
(5)按照由近至远的顺序,每次取一条和基线相交,且交点在图签范围下方的水平关联直线。
(6)按照由近至远的顺序,每次取一条和两条关联直线均相交,且交点在基线左侧的直线(直线D),由此形成一个矩形
(7)作为一个候选图框保存。
(8)判断是否还有其它符合条件的直线D,是,则返回步骤(6);否,则进入下一步。
(9)判断是否还有其它符合条件的直线C,是,则返回步骤(5);否,则进入下一步。
(10)判断是否还有其它符合条件的直线B,是,则返回步骤(4);否,则进入下一步。
(11)判断是否还有其它符合条件的直线A,是,则返回步骤(3);否,则本次搜索过程结束。
Claims (6)
1.一种电子图档拆分方法,用于拆分包含至少一张图纸的所述电子图档,成为至少一个分别包含其中一张图纸的电子文件;其特征在于,包括如下步骤:
第一步,建立包括图签的特征关键字及其在所述图纸中的位置的图签特征模板;
第二步,读取所述电子图档中的文字和直线的内容和位置,建立图档数据库;
第三步,根据所述图签特征模板在所述图档数据库中进行搜索,找出全部图签;再针对每一个所述图签,分别进行如下操作:
第四步,在所述图档数据库中,在所述图签的上、下、左、右四个方向进行搜索,找出全部包含所述图签的所有矩形;
第五步,在所述全部包含所述图签的所有矩形中,选择不包含其他图签的所有矩形为候选图框,以所述候选图框中最大的矩形为边界,拆分所述电子图档。
2.如权利要求1所述的电子图档拆分方法,其特征在于,所述图签特征模板中还包括图签的图案。
3.如权利要求2所述的电子图档拆分方法,其特征在于,在所述第一步之前,建立包括多个不同的所述图签特征模板的图签特征模板库,所述第一步替换为在所述图签特征模板库中选择适当的图签特征模板。
4.如权利要求1所述的电子图档拆分方法,其特征在于,在所述第二步中,建立所述图档数据库之前,还对所述文字和直线根据其位置排序。
5.如权利要求4所述的电子图档拆分方法,其特征在于,假设与所述每一个图签匹配的所述图框的四条边,从右到左分别为直线A、直线B、直线C、和直线D;所述第四步细化成如下步骤:根据所述图签特征模板,制定搜索范围;
(1)在所述搜索范围内,按照从右至左的方向,每次取一根垂直的直线作为直线A;
(2)在所述搜索范围内,按照由近至远的顺序,每次取一条和直线A相交,且交点在所述图签范围上方的水平关联直线B;
(3)在所述搜索范围内,按照由近至远的顺序,每次取一条和直线A相交,且交点在所述图签范围下方的水平关联直线C;
(4)在所述搜索范围内,按照由近至远的顺序,每次取一条同时相交于两条所述水平关联直线B和水平关联直线C,且交点在直线A左侧的直线D,由此得到一个矩形;
(5)重复上述步骤,获得全部包含所述图签的所有矩形。
6.如权利要求5所述的电子图档拆分方法,其特征在于,所述第五步细化成如下步骤:
首先,在所述全部包含所述图签的所有矩形中,每次取出一个所述矩形判断其中是否包含其它图签,否,则得到一个候选图框;是,则继续判断其他矩形,这样分别判断所述所有矩形从而得到所有的候选图框;以所述候选图框中最大的矩形为边界,拆分所述电子图档。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008102161407A CN101673347B (zh) | 2008-09-12 | 2008-09-12 | 一种电子图档拆分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008102161407A CN101673347B (zh) | 2008-09-12 | 2008-09-12 | 一种电子图档拆分方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101673347A true CN101673347A (zh) | 2010-03-17 |
CN101673347B CN101673347B (zh) | 2011-07-20 |
Family
ID=42020568
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008102161407A Active CN101673347B (zh) | 2008-09-12 | 2008-09-12 | 一种电子图档拆分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101673347B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968627A (zh) * | 2011-08-31 | 2013-03-13 | 上海夏尔软件有限公司 | 基于区域关键字位置识别的精确图像切分方法 |
CN104408269A (zh) * | 2014-12-17 | 2015-03-11 | 上海天华建筑设计有限公司 | 设计图纸拆分方法 |
CN110020646A (zh) * | 2019-04-16 | 2019-07-16 | 恒生电子股份有限公司 | 文件归档方法、装置、电子设备、及存储介质 |
CN111460204A (zh) * | 2020-04-01 | 2020-07-28 | 上海建工四建集团有限公司 | 电子工程图纸的子图提取方法、装置、存储介质及终端 |
CN111611945A (zh) * | 2020-05-25 | 2020-09-01 | 江西金格科技股份有限公司 | 一种通用的AutoCAD图框识别方法 |
CN113553454A (zh) * | 2021-07-21 | 2021-10-26 | 广联达科技股份有限公司 | 图元数据处理方法、装置及电子设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN2204438Y (zh) * | 1994-05-22 | 1995-08-02 | 罗宏 | 计算机大图扫描输入器 |
CN1220962C (zh) * | 2000-11-20 | 2005-09-28 | 王建民 | 一种高分辨率资料文档快速数字化装置 |
CN2454824Y (zh) * | 2000-11-20 | 2001-10-17 | 王建民 | 一种高分辨率资料文档快速数字化装置 |
CN100555310C (zh) * | 2007-01-17 | 2009-10-28 | 永凯软件技术(上海)有限公司 | 一种工程图纸矢量化识别系统的预处理方法 |
CN100464347C (zh) * | 2007-03-09 | 2009-02-25 | 永凯软件技术(上海)有限公司 | 一种工程cad图纸的矢量化图形识别方法 |
-
2008
- 2008-09-12 CN CN2008102161407A patent/CN101673347B/zh active Active
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968627A (zh) * | 2011-08-31 | 2013-03-13 | 上海夏尔软件有限公司 | 基于区域关键字位置识别的精确图像切分方法 |
CN104408269A (zh) * | 2014-12-17 | 2015-03-11 | 上海天华建筑设计有限公司 | 设计图纸拆分方法 |
CN104408269B (zh) * | 2014-12-17 | 2017-09-29 | 上海天华建筑设计有限公司 | 设计图纸拆分方法 |
CN110020646A (zh) * | 2019-04-16 | 2019-07-16 | 恒生电子股份有限公司 | 文件归档方法、装置、电子设备、及存储介质 |
CN110020646B (zh) * | 2019-04-16 | 2021-07-27 | 恒生电子股份有限公司 | 文件归档方法、装置、电子设备、及存储介质 |
CN111460204A (zh) * | 2020-04-01 | 2020-07-28 | 上海建工四建集团有限公司 | 电子工程图纸的子图提取方法、装置、存储介质及终端 |
CN111460204B (zh) * | 2020-04-01 | 2023-05-09 | 上海建工四建集团有限公司 | 电子工程图纸的子图提取方法、装置、存储介质及终端 |
CN111611945A (zh) * | 2020-05-25 | 2020-09-01 | 江西金格科技股份有限公司 | 一种通用的AutoCAD图框识别方法 |
CN113553454A (zh) * | 2021-07-21 | 2021-10-26 | 广联达科技股份有限公司 | 图元数据处理方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN101673347B (zh) | 2011-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Vishwakarma et al. | Detection and veracity analysis of fake news via scrapping and authenticating the web search | |
US9449026B2 (en) | Sketch-based image search | |
JP5181886B2 (ja) | 電子書類の検索方法、検索システム及びコンピュータプログラム | |
Chakrabarti et al. | A graph-theoretic approach to webpage segmentation | |
CN101673347B (zh) | 一种电子图档拆分方法 | |
Pivk et al. | Transforming arbitrary tables into logical form with TARTAR | |
JP5095534B2 (ja) | ジャンクションを生成するシステム及び方法 | |
CN106709032A (zh) | 抽取电子表格文档中结构化信息的方法及装置 | |
CN105426529A (zh) | 基于用户搜索意图定位的图像检索方法及系统 | |
Fu et al. | Web content extraction based on webpage layout analysis | |
CN104317867B (zh) | 对搜索引擎返回的网页图片进行实体聚类的系统 | |
CN108647312A (zh) | 一种用户偏好分析方法及其装置 | |
CN106339481A (zh) | 基于最大置信度的中文复合新词发现方法 | |
Ruocco et al. | A scalable algorithm for extraction and clustering of event-related pictures | |
CN114241501A (zh) | 影像文档处理方法、装置及电子设备 | |
KR100609022B1 (ko) | 공간관계와 주석을 이용한 이미지 검색 방법 | |
CN104572874A (zh) | 一种网页信息的抽取方法及装置 | |
CN116757183A (zh) | 项目信息处理方法及装置 | |
Li et al. | Cleaning web pages for effective web content mining | |
Alarte et al. | Main content extraction from heterogeneous webpages | |
EP2026216A1 (en) | Data processing method, computer program product and data processing system | |
Carme et al. | The lixto project: Exploring new frontiers of web data extraction | |
Aiello et al. | Textual article clustering in newspaper pages | |
Gao et al. | An Interactive Appearance-based Document Retrieval System for Historical Newspapers. | |
Man et al. | The proposed algorithm for semi-structured data integration: Case study of Setiu wetland data set |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder |
Address after: 518000 south a, floor 6, building 120, Liantang first industrial zone, Guowei Road, Luohu District, Shenzhen City, Guangdong Province (office only) Patentee after: Weiheng Haojian Science and Technology (Shenzhen) Co., Ltd. Address before: 518020 Guangdong Province, Luohu District Shenzhen City Tian Bei Road, Wenjin Plaza, No. 23 A1 District eleventh floor A Patentee before: Weiheng Haojian Science and Technology (Shenzhen) Co., Ltd. |
|
CP02 | Change in the address of a patent holder |