CN109784236A - 一种识别铁路图纸中表格内容的方法 - Google Patents
一种识别铁路图纸中表格内容的方法 Download PDFInfo
- Publication number
- CN109784236A CN109784236A CN201811639092.2A CN201811639092A CN109784236A CN 109784236 A CN109784236 A CN 109784236A CN 201811639092 A CN201811639092 A CN 201811639092A CN 109784236 A CN109784236 A CN 109784236A
- Authority
- CN
- China
- Prior art keywords
- content
- vertical line
- closed cell
- coordinate information
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种识别铁路图纸中表格内容的方法,它包括以下步骤:步骤1,识别表格中的垂直直线和水平直线,并分别读取坐标信息;步骤2,根据所述坐标信息建立直角坐标系,确定含有最小横坐标和最小纵坐标的点为查找点;步骤3,查找交叉点,形成封闭单元格;步骤4,将每个查找到的交叉点作为新的查找点重复步骤3,直至形成整个表格;步骤5,读取表格中每段文字内容的坐标信息,并填入正确的封闭单元格;步骤6,形成表格。该识别方法是以电子图纸中的坐标信息为依据,进而确定表格中各个封闭单元格的位置,通过坐标比对在正确的封闭单元格内录入正确的文字内容,整个识别方法既降低了识别错误率,同时大大提高了识别效率。
Description
技术领域
本发明涉及一种表格内容识别的方法,具体的说,涉及了一种识别铁路图纸中表格内容的方法。
背景技术
在铁路图纸的设计过程中,设计人员通常以CAD或Visio等软件提供电子图纸,这些图纸是一系列的文字和矢量图形的总和。其他部门进行相关施工、检测等工作时需要对图纸中信息进行识别,由于这些图纸绘制复杂,图纸内容多,需要专业人员进行识别,费事费力;特别是表格信息的识别和读取,绘制人员除了通过肉眼进行识别,还需要判断、记录绘制出表格,并完成文字内容的录入。在大量相交关系错综复杂的直线中确定正确的单元格,并将相关的文字内容录入正确的单元格,其工作难度导致人员素质要求高,工程量巨大。
为了解决以上存在的问题,人们一直在寻求一种理想的技术解决方案。
发明内容
本发明的目的是针对现有技术的不足,从而提供一种错误率低、识别效率高、降低人工成本、输出结果可靠的识别铁路图纸中表格内容的方法。
为了实现上述目的,本发明所采用的技术方案是:一种识别铁路图纸中表格内容的方法,它包括以下步骤:
步骤1,识别表格中的垂直直线和水平直线,并分别读取每根所述垂直直线和每根所述水平直线的坐标信息;
步骤2,根据所述坐标信息建立直角坐标系,确定含有最小横坐标和最小纵坐标的点为查找点;
步骤3,沿位于该查找点的水平直线正向查找首根与该水平直线相交的垂直直线,二者相交位置作为交叉点,沿位于该查找点的垂直直线正向查找首根与该垂直直线相交的水平直线,二者相交位置作为交叉点,所述查找点和所述交叉点形成封闭单元格;
步骤4,将每个查找到的交叉点作为新的查找点重复步骤3,直至形成的封闭单元格包括含有最大横坐标和最大纵坐标的点;
步骤5,读取表格中每段文字内容的坐标信息,将该文字内容的坐标信息分别与每个封闭单元格的坐标信息进行比对,逐一确定每段文字内容位于表格的位置;
步骤6,形成表格,输出铁路图纸中由封闭单元格和文字内容组成的表格。
基于上述,所述步骤1中,通过比较每根所述垂直直线两端的横坐标,判断是否为垂直直线,若两个横坐标的绝对值小于0.01则认为是垂直直线,反之则认为不是垂直直线;通过比较每根所述水平直线两端的纵坐标,判断是否为水平直线,若两个纵坐标的绝对值小于0.01则认为是垂直水平直线,反之则认为不是水平直线。
基于上述,所述步骤2中还包括以下子步骤:
子步骤1,在直角坐标系中,将所有垂直直线按照横坐标从小到大的顺序进行正向排序;
子步骤2,在直角坐标系中,将所有水平直线按照纵坐标从小到大的顺序进行正向排序;
子步骤3,确定表格的四个端点分别为(X1,Y1)、(X1,Yn)、(Xn,Y1)和(Xn,Yn),以(X1,Y1)作为查找点,n是正整数。
基于上述,所述步骤5中通过确定每段文字内容的外边缘四点坐标进而确定每段文字位于所述直角坐标系的位置。
基于上述,所述文字内容若有多段信息,则分别确定每段信息的坐标位置,根据与封闭单元格坐标信息的比对,确定文字内容的位置。
本发明相对现有技术具有突出的实质性特点和显著的进步,具体的说,该识别铁路图纸中表格内容的方法是基于电子图纸中的坐标信息进行相关表格和文字内容的确定,通过建立坐标系确定每根所述垂直直线和每根所述水平直线的位置,并通过多次寻找查找点和交叉点,形成封闭单元格,进而高效率、低错误的绘制出表格,既降低了人工识别的错误率,同时大大提高了识别效率;表格确定后根据文字内容的坐标信息将相关文字内容填写进入正确的封闭单元格;整个识别方法准确性高、识别迅速、表格误差小,文字位置精确。
附图说明
图1是本发明的表格识别方法的流程示意图。
图2是本发明中表格识别的具体结构示意图。
具体实施方式
下面通过具体实施方式,对本发明的技术方案做进一步的详细描述。
实施例1
如图1所示,一种识别铁路图纸中表格内容的方法,该方法是基于电子图纸的坐标信息进行相关位置识别,通过CAD或Visio等软件绘制的图纸,一旦成图图纸内直线、文字等信息既获得特定的坐标信息,本发明基于该坐标信息进行表格内容的识别,具体包括以下步骤:
步骤1,识别表格中的垂直直线和水平直线,直线是由无数个点坐标构成的,铁路图纸一旦绘制完成,所述垂直直线和所述水平直线的个数、坐标信息就是确定的,基于铁路图纸分别读取每根所述垂直直线和每根所述水平直线的坐标信息。
步骤2,本实施例中结合附图2建立直角坐标系,以此将读取到的坐标信息对应进入该直角坐标系,方便识别图纸中的各条直线,进而依据直角坐标系确定每根所述垂直直线和每根所述水平直线位于该直角坐标系的位置。本实施例中确定具有最小横坐标和最小纵坐标的点为查找点(X1,Y1)。
然后按照步骤3和步骤4进行表格的绘制,确定表格中的每个封闭单元格位置。
步骤3,沿位于该查找点(X1,Y1)的水平直线正向查找首根与该水平直线相交的垂直直线,二者相交位置作为交叉点(X1,Ya),沿位于该查找点(X1,Y1)的垂直直线正向查找首跟与该垂直直线相交的水平直线,二者相交位置作为交叉点(Xa,Y1),所述查找点和所述交叉点形成封闭单元格,由于单元格默认为四边形结构,确定三点后即可完成封闭单元格位置的确定,以此完成首次查找。
由于表格中包含多个封闭单元格,故需要多次改变查找点进行查找和封闭单元格的确定,以已经确定的封闭单元格的端点(X1,Ya)和(Xa,Y1),再次进行查找进入步骤4。
步骤4,将每个查找到的交叉点(X1,Ya)和(Xa,Y1)分别作为新的查找点重复步骤3,直至形成的封闭单元格包括含有最大横坐标和最大纵坐标的点(Xn,Yn);此时表格内所有封闭单元格查找完毕,进而整个表格框架形成。
步骤5,读取表格中每段文字内容的坐标信息,将该文字内容的坐标信息分别与每个封闭单元格的坐标信息进行比对。以首个封闭单元格(X1,Y1)、(X1,Ya)、(Xa,Y1)和(Xa,Ya)举例,查找文字内容的最小横纵坐标和最大横纵坐标是否落入该封闭单元,如果是该文字内容位于首个封闭单元格,如果不是则查询其它封闭单元格进行比对。采用上述方法将每段文字内容的位置信息于封闭单元格的位置信息进行比对,进而完成表格中文字内容的填充。本实施例中为了方便文字识别给出了以下判断要求,所述步骤5中通过确定每段文字内容的外边缘的四点坐标,进而确定每段文字位于所述直角坐标系的位置。
步骤6,形成表格,输出铁路图纸中由封闭单元格和文字内容组成的表格。
该识别铁路图纸中表格内容的方法是基于现有电子图纸中的坐标信息进行的,通过确定表格内封闭单元格的位置和文字内容的位置,进而形成易于识别的表格,该表格可以采用WORD或者EXCEL格式直接输出,整个识别方法效率高、错误率低,有效的降低了人工识别的错误率和工作量。
整个方法通过建立坐标系确定每根所述垂直直线和每根所述水平直线的位置,并通过多次寻找查找点和交叉点,形成封闭单元格,进而高效率、低错误的绘制出表格,既降低了人工识别的错误率和重复工作,同时大大提高了识别效率;表格确定后根据文字内容的坐标信息将相关文字内容填写进入正确的封闭单元格;整个识别方法准确性高、识别迅速、表格误差小,文字位置精确。
实施例2
本实施例基于实施例1的基础给出了一种具体的直线确定方法,通过比较每根所述垂直直线两端的横坐标,判断是否为垂直直线,若两个横坐标的绝对值小于0.01则认为是垂直直线,反之则认为不是垂直直线,不作为表格内容查找;通过比较每根所述水平直线两端的纵坐标,判断是否为水平直线,若两个纵坐标的绝对值小于0.01则认为是垂直水平直线,反之则认为不是水平直线,不作为表格内容查找。
实施例3
本实施例基于实施例1的基础上给出了一种具体的直角坐标系建立方法,如图2所示,所述步骤2中还包括以下子步骤:
子步骤1,在直角坐标系中,将所有垂直直线按照横坐标从小到大的顺序在X轴上进行正向排序;
子步骤2,在直角坐标系中,将所有水平直线按照纵坐标从小到大的顺序在Y轴上进行正向排序;
子步骤3,确定表格的四个端点分别为(X1,Y1)、(X1,Yn)、(Xn,Y1)和(Xn,Yn),以(X1,Y1)作为查找点,n是正整数。
沿位于该查找点(X1,Y1)的水平直线正向查找首根与该水平直线相交的垂直直线,二者相交位置作为交叉点(X1,Ya),沿位于该查找点(X1,Y1)的垂直直线正向查找首根与该垂直直线相交的水平直线,二者相交位置作为交叉点(Xa,Y1),所述查找点和所述交叉点形成封闭单元格,进而完成首次查找。由于表格中包含多个封闭单元格,以已经确定的封闭单元格的端点(X1,Ya)和(Xa,Y1),再次进行查找进入步骤4,直至查找出所有的封闭单元格。
实施例4
本实施例基于实施例1的基础上给出了多段文字的判断方式,所述文字内容若有多段信息,则分别确定每段信息的坐标位置,所述坐标位置根据文字中最小横纵坐标和最大横纵坐标进行确定,确定了文字内容坐标位置,即可进行步骤5,进而查到出相应的封闭单元格进行文字填充。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。
Claims (5)
1.一种识别铁路图纸中表格内容的方法,其特征在于,它包括以下步骤:
步骤1,识别表格中的垂直直线和水平直线,并分别读取每根所述垂直直线和每根所述水平直线的坐标信息;
步骤2,根据所述坐标信息建立直角坐标系,确定含有最小横坐标和最小纵坐标的点为查找点;
步骤3,沿位于该查找点的水平直线正向查找首根与该水平直线相交的垂直直线,二者相交位置作为交叉点,沿位于该查找点的垂直直线正向查找首根与该垂直直线相交的水平直线,二者相交位置作为交叉点,所述查找点和所述交叉点形成封闭单元格;
步骤4,将每个查找到的交叉点作为新的查找点重复步骤3,直至形成的封闭单元格包括含有最大横坐标和最大纵坐标的点;
步骤5,读取表格中每段文字内容的坐标信息,将该文字内容的坐标信息分别与每个封闭单元格的坐标信息进行比对,逐一确定每段文字内容位于表格的位置;
步骤6,形成表格,输出铁路图纸中由封闭单元格和文字内容组成的表格。
2.根据权利要求1所述的一种识别铁路图纸中表格内容的方法,其特征在于: 所述步骤1中,通过比较每根所述垂直直线两端的横坐标,判断是否为垂直直线,若两个横坐标的绝对值小于0.01则认为是垂直直线,反之则认为不是垂直直线;通过比较每根所述水平直线两端的纵坐标,判断是否为水平直线,若两个纵坐标的绝对值小于0.01则认为是垂直水平直线,反之则认为不是水平直线。
3.根据权利要求1或2所述的一种识别铁路图纸中表格内容的方法,其特征在于,所述步骤2中还包括以下子步骤:
子步骤1,在直角坐标系中,将所有垂直直线按照横坐标从小到大的顺序进行正向排序;
子步骤2,在直角坐标系中,将所有水平直线按照纵坐标从小到大的顺序进行正向排序;
子步骤3,确定表格的四个端点分别为(X1,Y1)、(X1,Yn)、(Xn,Y1)和(Xn,Yn),以(X1,Y1)作为查找点,n是正整数。
4.根据权利要求3所述的一种识别铁路图纸中表格内容的方法,其特征在于:所述步骤5中通过确定每段文字内容的外边缘四点坐标进而确定每段文字位于所述直角坐标系的位置。
5.根据权利要求4所述的一种识别铁路图纸中表格内容的方法,其特征在于:所述文字内容若有多段信息,则分别确定每段信息的坐标位置,根据与封闭单元格坐标信息的比对,确定文字内容的位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811639092.2A CN109784236B (zh) | 2018-12-29 | 2018-12-29 | 一种识别铁路图纸中表格内容的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811639092.2A CN109784236B (zh) | 2018-12-29 | 2018-12-29 | 一种识别铁路图纸中表格内容的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109784236A true CN109784236A (zh) | 2019-05-21 |
CN109784236B CN109784236B (zh) | 2023-09-19 |
Family
ID=66499081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811639092.2A Active CN109784236B (zh) | 2018-12-29 | 2018-12-29 | 一种识别铁路图纸中表格内容的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109784236B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502985A (zh) * | 2019-07-11 | 2019-11-26 | 新华三大数据技术有限公司 | 表格识别方法、装置及表格识别设备 |
CN110598196A (zh) * | 2019-09-16 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种缺失外边框的表格数据提取方法、装置和存储介质 |
CN113392256A (zh) * | 2021-06-15 | 2021-09-14 | 万翼科技有限公司 | 边缘构件对象生成方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6006240A (en) * | 1997-03-31 | 1999-12-21 | Xerox Corporation | Cell identification in table analysis |
CN101388079A (zh) * | 2008-10-17 | 2009-03-18 | 纬衡浩建科技(深圳)有限公司 | 一种图签识别方法 |
CN105574486A (zh) * | 2015-11-25 | 2016-05-11 | 成都数联铭品科技有限公司 | 一种图像表格文字切分方法 |
CN106156761A (zh) * | 2016-08-10 | 2016-11-23 | 北京交通大学 | 面向移动终端拍摄的图像表格检测与识别方法 |
-
2018
- 2018-12-29 CN CN201811639092.2A patent/CN109784236B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6006240A (en) * | 1997-03-31 | 1999-12-21 | Xerox Corporation | Cell identification in table analysis |
CN101388079A (zh) * | 2008-10-17 | 2009-03-18 | 纬衡浩建科技(深圳)有限公司 | 一种图签识别方法 |
CN105574486A (zh) * | 2015-11-25 | 2016-05-11 | 成都数联铭品科技有限公司 | 一种图像表格文字切分方法 |
CN106156761A (zh) * | 2016-08-10 | 2016-11-23 | 北京交通大学 | 面向移动终端拍摄的图像表格检测与识别方法 |
Non-Patent Citations (1)
Title |
---|
彭欢等: "基于矩阵表达的工程图纸表信息提取方法研究", 《机械》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502985A (zh) * | 2019-07-11 | 2019-11-26 | 新华三大数据技术有限公司 | 表格识别方法、装置及表格识别设备 |
CN110502985B (zh) * | 2019-07-11 | 2022-06-07 | 新华三大数据技术有限公司 | 表格识别方法、装置及表格识别设备 |
CN110598196A (zh) * | 2019-09-16 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种缺失外边框的表格数据提取方法、装置和存储介质 |
CN113392256A (zh) * | 2021-06-15 | 2021-09-14 | 万翼科技有限公司 | 边缘构件对象生成方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109784236B (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109308476B (zh) | 票据信息处理方法、系统及计算机可读存储介质 | |
CN109784236A (zh) | 一种识别铁路图纸中表格内容的方法 | |
CN111368757A (zh) | 面向机器学习的柱大样建筑图纸图层分类方法及系统 | |
CN105184292B (zh) | 自然场景图像中手写体数学公式结构分析与识别方法 | |
CN101673410A (zh) | 一种基于矢量建筑图纸重建三维模型的方法 | |
CN109993827A (zh) | 一种将建筑图纸转换为三维bim模型的立面图识别方法 | |
CN103390358B (zh) | 对电子设备的字符书写操作进行规范性判断的方法及装置 | |
CN108921166A (zh) | 基于深度神经网络的医疗票据类文本检测识别方法及系统 | |
CN108875599A (zh) | 一种建筑行业工程cad图纸的识别审图方法 | |
CN110334390A (zh) | Cad中外墙识别方法、装置、存储介质及处理器 | |
CN111583407B (zh) | 一种高效的基于纸质钻孔的三维地质建模智能处理方法 | |
CN104077447A (zh) | 基于纸质平面数据的城市三维空间矢量建模方法 | |
CN101901494A (zh) | 自动实现地图注记的方法及其系统 | |
CN105279506B (zh) | 满文单词中轴线的定位方法 | |
CN104536953A (zh) | 一种文本情绪极性的识别方法及装置 | |
CN110163208A (zh) | 一种基于深度学习的场景文字检测方法和系统 | |
CN106528821A (zh) | 一种变动列数据导入数据库的方法 | |
CN110188495A (zh) | 一种基于深度学习的二维户型图生成三维户型图的方法 | |
CN109102538A (zh) | 利用等值线数据提取槽脊特征点与槽脊特征线的方法、天气图分析方法 | |
Weber et al. | Detecting critical regions in scalar fields | |
CN104331389B (zh) | 基于八点法的等值线追踪算法 | |
CN106021228B (zh) | 一种利用知识地形图进行文本分析的方法及系统 | |
CN107066997A (zh) | 一种基于图像识别的电气元件报价方法 | |
CN110222380A (zh) | 一种构建铁路枢纽数字化网络模型的方法及系统 | |
CN111444903A (zh) | 漫画气泡内文字定位方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |