CN115457581A - 表格提取方法、装置及计算机设备 - Google Patents
表格提取方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN115457581A CN115457581A CN202211214734.0A CN202211214734A CN115457581A CN 115457581 A CN115457581 A CN 115457581A CN 202211214734 A CN202211214734 A CN 202211214734A CN 115457581 A CN115457581 A CN 115457581A
- Authority
- CN
- China
- Prior art keywords
- target
- coordinates
- character
- character segments
- column
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 50
- 238000012015 optical character recognition Methods 0.000 claims abstract description 13
- 230000015654 memory Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 238000003672 processing method Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19107—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种表格提取方法、装置及计算机设备。其中,方法包括:获取目标无线表格的第一表格图片,其中,第一表格图片包括多个第一字符段,同一个第一字符段中相邻字符之间的距离小于第一预定距离阈值;基于光学字符识别方法提取多个第一字符段的坐标,其中,多个第一字符段的坐标包括多个第一字符段的中心点坐标;根据多个第一字符段的中心点坐标,分别对多个第一字符段进行行和列的聚类,得到多个第一字符段的行信息和列信息,解决了在相关技术中,存在无法准确提取表格图像中的表格内容的技术问题。
Description
技术领域
本发明涉及文本处理领域,具体而言,涉及一种表格提取方法、装置及计算机设备。
背景技术
在一些应用领域中,需要对例如PDF、图片等格式文本中的表格内容进行提取。
在相关技术中,通过提取表格图像中的文本信息以及单元格的单元格信息,根据单元格信息生成与表格区域对应的表格结构,根据表格结构将文本信息与单元格相融合,得到表格。这种方法虽然可以进行表格提取,但存在准确率低的问题,并且这种方法也不能用于无线表格的提取。即,在相关技术中,存在无法准确提取表格图像中的表格内容的技术问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种表格提取方法、装置及计算机设备,以至少解决在相关技术中,存在无法准确提取表格图像中的表格内容的技术问题。
根据本发明实施例的一个方面,提供了一种表格提取方法,包括:获取目标无线表格的第一表格图片,其中,所述第一表格图片包括多个第一字符段,同一个第一字符段中相邻字符之间的距离小于第一预定距离阈值;基于光学字符识别方法提取所述多个第一字符段的坐标,其中,所述多个第一字符段的坐标包括所述多个第一字符段的中心点坐标;根据所述多个第一字符段的中心点坐标,分别对所述多个第一字符段进行行和列的聚类,得到所述多个第一字符段的行信息和列信息。
可选地,所述根据所述多个第一字符段的中心点坐标,分别对所述多个第一字符段进行行和列的聚类,得到所述多个第一字符段的行信息和列信息,包括:获取所述多个第一字符段的中心点横坐标和纵坐标;根据所述多个第一字符段的中心点横坐标和第二预定距离阈值,对所述多个第一字符段进行聚类,得到所述多个第一字符段的列信息;根据所述多个第一字符段的中心点纵坐标和第三预定距离阈值,对所述多个第一字符段进行聚类,得到所述多个第一字符段的行信息。
可选地,还包括:获取目标有线表格的第二表格图片,其中,所述第二表格图片包括多个第二字符段,同一个第二字符段中相邻字符之间的距离小于第四预定距离阈值,所述第二表格图片包括多条目标行线和多条目标列线,所述多条目标行线和所述多条目标列线用于将所述目标有线表格划分为多个网格;分别获取所述多个第二字符段的坐标,以及分别获取所述多个网格的多个顶点坐标;根据所述多个第二字符段的坐标和所述多个网格的多个顶点坐标,分别确定所述多个第二字符段与所述多个网格的对应关系。
可选地,所述根据所述多个第二字符段的坐标和所述多个网格的多个顶点坐标,分别确定所述多个第二字符段与所述多个网格的对应关系,包括:针对所述多个第二字符段中的第二字符段:根据第二字符段的坐标和所述多个网格的多个顶点的坐标,分别计算所述第二字符段在所述第二表格图片中的区域与所述多个网格在所述第二表格图片中的区域的交并比IOU,根据所述交并比IOU和预定交并比阈值,确定在所述多个网格中与所述第二字符段对应的目标网格;根据分别与所述多个第二字符段对应的目标网格,分别确定所述多个第二字符段与所述多个网格的对应关系。
可选地,所述根据所述第二字符段在所述第二表格图片中的区域与所述多个网格在所述第二表格图片中的区域的多个交并比IOU和预定交并比阈值,确定在所述多个网格中与所述第二字符段对应的目标网格,包括:比对所述多个交并比IOU和所述预定交并比阈值,得到所述多个交并比IOU中大于所述预定交并比阈值的目标交并比IOU;根据所述目标交并比IOU,确定在所述多个网格中与所述第二字符段对应的目标网格。
可选地,还包括:分别获取所述目标有线表格中所述多条行线和所述多条列线的坐标;确定所述多条行线中纵坐标最大或纵坐标最小的行线为目标行线,以所述目标行线为起始行线,依次比对所述多条行线中各相邻行线之间的行间距,在所述行间距小于预定行间距的情况下,确定与所述行间距对应的两条行线中与所述目标行线的纵坐标差值较大的行线为干扰行线;根据所述多条行线中除所述干扰行线外的多条行线,获取所述多条目标行线;确定所述多条列线中横坐标最大或横坐标最小的列线为目标列线,以所述目标列线为起始列线,依次比对所述多条列线中各相邻列线之间的列间距,在所述列间距小于预定列间距的情况下,确定与所述列间距对应的两条列线中与所述目标列线的横坐标差值较大的列线为干扰列线;根据所述多条列线中除所述干扰列线外的多条列线,获取所述多条目标列线。
可选地,还包括:获取初始表格的初始表格图片;获取所述初始表格图片中的行线和列线的数量;在所述初始表格图片中的行线的数量少于第一预定数量,和/或,所述初始表格图片中列线的数量小于第二预定数量的情况下,确定所述初始表格图片中的初始表格为所述目标无线表格;在所述初始表格图片中的行线的数量大于第一预定数量,并且所述初始表格图片中列线的数量大于第二预定数量的情况下,确定所述初始表格图片中的初始表格为所述目标有线表格。
可选地,获取初始表格的初始表格图片,包括:确定目标文本,所述目标文本包括以下之一:目标PDF文本、目标图片文本;确定所述目标文本中的初始表格所处区域;根据所述初始表格所处区域,获取所述初始表格的初始表格图片。
根据本发明实施例的另一方面,还提供了一种表格提取装置,包括:第一获取模块,用于获取目标无线表格的第一表格图片,其中,所述第一表格图片包括多个第一字符段,同一个第一字符段中相邻字符之间的距离小于第一预定距离阈值;第二获取模块,用于基于光学字符识别方法提取所述多个第一字符段的坐标,其中,所述多个第一字符段的坐标包括所述多个第一字符段的中心点坐标;第三获取模块,用于根据所述多个第一字符段的中心点坐标,分别对所述多个第一字符段进行行和列的聚类,得到所述多个第一字符段的行信息和列信息。
根据本发明实施例的另一方面,还提供了一种计算机设备,包括:存储器和处理器,所述存储器存储有计算机程序;所述处理器,用于执行所述存储器中存储的计算机程序,所述计算机程序运行时使得所述处理器执行上述任意一项所述的方法。
在本发明实施例中,通过获取目标无线表格的第一表格图片,其中,所述第一表格图片包括多个第一字符段,同一个第一字符段中相邻字符之间的距离小于第一预定距离阈值;基于光学字符识别方法提取所述多个第一字符段的坐标,其中,所述多个第一字符段的坐标包括所述多个第一字符段的中心点坐标;根据所述多个第一字符段的中心点坐标,分别对所述多个第一字符段进行行和列的聚类,得到所述多个第一字符段的行信息和列信息,解决了在相关技术中,存在无法准确提取表格图像中的表格内容的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的表格提取方法的流程图;
图2是根据本发明实施例的另一种可选的表格提取方法的流程图;
图3是根据本发明实施例的一种可选的表格提取装置的框架图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种表格提取方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的表格提取方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取目标无线表格的第一表格图片,其中,第一表格图片包括多个第一字符段,同一个第一字符段中相邻字符之间的距离小于第一预定距离阈值。
步骤S104,基于光学字符识别方法提取多个第一字符段的坐标,其中,多个第一字符段的坐标包括多个第一字符段的中心点坐标。
需要明白的是,使用光学字符识别方法提取图片中字符段的坐标时,得到的提取结果包括:分别对应于各字符段的最小虚拟包围框的左上角顶点的坐标和右下角顶点的坐标。在一个实施例中,用该最小虚拟包围框的左上角和右下角的坐标表征对应字符段的坐标。根据最小虚拟包围框的左上角和右下角的坐标,可以得到最小虚拟包围框的中心点坐标,该中心点坐标即为对应字符段的中心点坐标。其中,最小虚拟包围框的中心点的横坐标等于最小虚拟包围框的左上角和右下角的横坐标之和的一半,最小虚拟包围框的中心点的纵坐标等于最小虚拟包围框的左上角和右下角的纵坐标之和的一半。
步骤S106,根据多个第一字符段的中心点坐标,分别对多个第一字符段进行行和列的聚类,得到多个第一字符段的行信息和列信息。
在一些可选实施例中,根据多个第一字符段的中心点坐标,分别对多个第一字符段进行行和列的聚类,得到多个第一字符段的行信息和列信息,包括:获取多个第一字符段的中心点横坐标和纵坐标;根据多个第一字符段的中心点横坐标和第二预定距离阈值,对多个第一字符段进行聚类,得到多个第一字符段的列信息;根据多个第一字符段的中心点纵坐标和第三预定距离阈值,对多个第一字符段进行聚类,得到多个第一字符段的行信息。在相关技术中,在对无线表格进行提取时,需要生成网格线,进而根据网格线进行表格提取,这种方法会因表格划分的准确度低而导致表格提取准确度低。在本可选实施例中,通过获取多个第一字符段的坐标信息,结合聚类方法对多个第一字符段进行行信息和列信息的提取,在处理过程中,不需要对目标无线表格进行表格划分,解决了在相关技术中因表格划分的准确度低而导致表格提取准确度低的问题,提高了表格提取的准确度。
在一些可选实施例中,获取目标有线表格的第二表格图片,其中,第二表格图片包括多个第二字符段,同一个第二字符段中相邻字符之间的距离小于第四预定距离阈值,第二表格图片包括多条目标行线和多条目标列线,多条目标行线和多条目标列线用于将目标有线表格划分为多个网格;分别获取多个第二字符段的坐标,以及分别获取多个网格的多个顶点坐标;根据多个第二字符段的坐标和多个网格的多个顶点坐标,分别确定多个第二字符段与多个网格的对应关系。在本可选实施例中,通过获取目标有线表格中的由多条目标行线和多条目标列线划分出的多个网格的多个顶点坐标,基于多个第二字符段的坐标和多个网格的多个顶点坐标,确定多个第二字符段与多个网格的对应关系。由此,能够准确获取目标有线表格中多个第二字符段在目标有线表格中的位置,实现了对目标有线表格的提取。
在一些可选实施例中,根据多个第二字符段的坐标和多个网格的多个顶点坐标,分别确定多个第二字符段与多个网格的对应关系的方法有多重,可以包括如下步骤:针对多个第二字符段中的第二字符段:根据第二字符段的坐标和多个网格的多个顶点的坐标,分别计算第二字符段在第二表格图片中的区域与多个网格在第二表格图片中的区域的交并比IOU,根据交并比IOU和预定交并比阈值,确定在多个网格中与第二字符段对应的目标网格;根据分别与多个第二字符段对应的目标网格,分别确定多个第二字符段与多个网格的对应关系。在本可选实施例中,通过第二字符段在第二表格图片中的区域与多个网格在第二表格图片中的区域的交并比IOU,分别确定与第二表格中的多个第二字符段与多个网格的对应关系。由此,可以快速且准确的获取目标有线表格中多个第二字符段在目标有线表格中的位置,实现了对目标有线表格的准确提取。
在一些可选实施例中,根据第二字符段在第二表格图片中的区域与多个网格在第二表格图片中的区域的多个交并比IOU和预定交并比阈值,确定在多个网格中与第二字符段对应的目标网格的方法有多重,可以包括如下步骤:比对多个交并比IOU和预定交并比阈值,得到多个交并比IOU中大于预定交并比阈值的目标交并比IOU;根据目标交并比IOU,确定在多个网格中与第二字符段对应的目标网格。
在一些可选实施例中,,还包括:分别获取目标有线表格中多条行线和多条列线的坐标;确定多条行线中纵坐标最大或纵坐标最小的行线为目标行线,以目标行线为起始行线,依次比对多条行线中各相邻行线之间的行间距,在行间距小于预定行间距的情况下,确定与行间距对应的两条行线中与目标行线的纵坐标差值较大的行线为干扰行线;根据多条行线中除干扰行线外的多条行线,获取多条目标行线;确定多条列线中横坐标最大或横坐标最小的列线为目标列线,以目标列线为起始列线,依次比对多条列线中各相邻列线之间的列间距,在列间距小于预定列间距的情况下,确定与列间距对应的两条列线中与目标列线的横坐标差值较大的列线为干扰列线;根据多条列线中除干扰列线外的多条列线,获取多条目标列线。通过删除干扰行线和列线,可以获取有效的目标行线和目标列线,提高了处理方法的准确度。
在一些可选实施例中,表格提取方法还包括如下步骤:获取初始表格的初始表格图片;获取初始表格图片中的行线和列线的数量;在初始表格图片中的行线的数量少于第一预定数量,和/或,初始表格图片中列线的数量小于第二预定数量的情况下,确定初始表格图片中的初始表格为目标无线表格;在初始表格图片中的行线的数量大于第一预定数量,并且初始表格图片中列线的数量大于第二预定数量的情况下,确定初始表格图片中的初始表格为目标有线表格。在本可选实施例中,通过提取初始表格图像中的行线和列线,根据行线和列线的数量,将初始表格划分为目标无线表格和目标有线表格,以用于在后续的处理过程中,针对目标无线表格和目标有线表格进行不同的处理,得到对应的表格提取结果。由此,既提高了表格提取的效率,也提高了表格提取的准确度。
在一些可选实施例中,获取初始表格的初始表格图片,包括:确定目标文本,目标文本包括以下之一:目标PDF文本、目标图片文本;确定目标文本中的初始表格所处区域;根据初始表格所处区域,获取初始表格的初始表格图片。在一个实施例中,在识别出目标文本中的初始表格所处区域后,截图该区域的初始表格,得到初始表格图片。
基于上述实施例及可选实施例,本发明提供了一种可选实施方式。
需要明白的是,在信息时代,如何从海量复杂的资源中快速获取信息,提取关键信息已成为一个重要问题。表格作为结构化数据的一种形式,它的表现形式相对规范和简单,数据结构清晰,便于用户快速理解。虽然表格提取是各个领域的常见任务,但手工提取表信息往往是一个费时费力的过程,因此,需要自动表提取方法来避免手工操作所带来的处理速度慢等问题。然而,相关技术中的表格提取方法,存在准确率较低和适用场景通用性差的问题。
在相关技术中,可以通过获取表格图像,将表格图像输入至表格提取模型,其中,表格提取模型包括文本提取网络块、单元格提取网络块和结构提取块,通过文本提取网络块对表格图像进行文本提取,得到表格图像的表格区域中单元格内的文本信息,通过单元格提取网络块对表格图像进行单元格提取,得到表格图像的表格区域中单元格的单元格信息,通过结构提取块根据单元格的单元格信息生成与表格区域对应的表格结构,按照表格结构将文本信息与单元格融合,得到电网格。这种端对端的表格提取方法的可控性较差,且需要对每个单元格做预测,可能单个单元格的准确率高,但在几个步骤的重叠操作后,会存在最终的表格提取(或表格重构)准确度低的问题。在相关技术中,还可以通过非端对端的模型进行表格提取,这一类模型通常采用机器视觉方案,这类模型在处理无线表和跨行跨列的问题上效果比较差,同时在处理速度上也比较慢。即,在相关技术中,存在表格提取准确度低/效率低和通用性差的问题。
鉴于此,本可选实施方式提供了一种表格提取方法,用于解决在相关技术中,存在表格提取准确率不高、效率低和通用性差的问题。本可选实施方式的方法能够在文档、图片、PDF等各种文件类型中自动识别表格、自动提取表格结构和内容,并且表格结构和内容提取的准确率和速度达到SOTA(state-of-the-art,高等级别)级别。
在本可选实施方法中,将提取出的表格的类型分为两种类型,一种是有线表,一种是无线表。采取有监督的深度学习方法对有线表格进行表格提取,采用无监督的聚类算法进行表格提取。
图2是根据本发明实施例的另一种可选的表格提取方法的流程图。下面结合图2,对表格提取方法进行具体说明。
步骤S11,通过前处理将要提取表格信息的文件类型转换成图像格式。
步骤S12,首把图片输入到目标检测模型,如果检测到表格那么返回表格在图片中的坐标。
步骤S13,根据步骤S12中获取的表格坐标,把目标表格截取出来进行全文OCR(optical character recognition,光学字符识别方法)识别,识别的结果返回为文字的内容和坐标。把目标表格图像进行预处理,预处理方法包括图像归一化和图像去噪。把预处理完成后的图片输入到线分割模型,进行表格中的行线和列线的提取,将识别结果写入到与目标相同大小的图片中,其中识别到线的位置像素值设置为1,其余位置的像素值设置为0。需要明白的是,在图像处理过程中,不同的像素值对应于不同的颜色,比如,像素值为0的部分对应于视觉效果中的黑色部分,像素值为255的部分对应于视觉效果中的白色部分。对像素值进行归一化处理后,得到的处理后的像素值的取值在[0,1]之间,其中,归一化后的像素值为0的部分对应于视觉效果中的黑色部分,归一化后的像素值为1的部分对应于视觉效果中的白色部分。即,在本可选实施方式中,可以通过不同的像素值区分空白区域和线条部分。
步骤S14,根据步骤S13中表格线的识别结果进行后处理,具体包括如下步骤:
步骤S141,首先分别找到水平表格线(相当于前述实施例中的行线)和竖直表格线(相当于前述实施例中的列线),接着分别计算水平表格线和竖直表格线的坐标,分别取出水平线之间距离最小的值h_min和竖直线之间距离最小的值w_min,如果水平线的距离小于h_min的话就视为干扰线并将其删除,如果竖直线的距离小于w_min的话就是为干扰线并将其删除。
以水平线为例,对确定多条行线中的干扰线的方法进行说明。方法包括如下步骤:
步骤S1411,初始化水平线之间距离的最小值h_min,将其初始值设定为无穷大。
步骤S1412,获取各水平线左端的端点坐标,用左端的端点坐标标记对应水平线的坐标,获取各水平线的纵坐标(即水平线左端的端点的纵坐标),按照纵坐标大小对水平线进行排序。
步骤S1413,获取多条水平线中第i条水平线和第i+1条水平线的纵坐标的差值,该差距即为对应两条水平线之间的距离(即前述实施例中的行间距),其中,i的初始值为1。
步骤S1414,确定步骤S1413中获取的距离是否大于预定距离(例如预定行距),且该距离小于最小值h_min,是则进入步骤S1415;如果步骤S1413中获取的距离小于预定距离,则进入步骤S1416;
步骤S1415,使用步骤S1413中获取的距离对h_min进行更新,并使i=i+1,返回步骤S1413。
步骤S1416,确定第i+1条行线为干扰线。使i=i+1,返回步骤S1413。
根据上述方法,可以确定出行线中的干扰线。
基于与上述方法类似的处理方法,可以确定出多条列线中的干扰线。
步骤S142,将水平线和竖直线的x坐标和y坐标的最小值作为表格的左上角坐标的x_min和y_min,将水平线和竖直线的x坐标和y坐标的最大值作为表格的右下角坐标的x_max和y_max,根据(x_min,y_min)和(x_max,y_max)两点就可以确定表格的位置;
步骤S143,根据步骤S142计算的所有水平线、竖直线和表格的坐标信息计算出水平、竖直线的交点坐标,根据交点信息就可以计算得到单元格的坐标值。
步骤S15,将步骤S13计算得到的文字内容和坐标信息同步骤四最后算出来的单元格坐标信息结合起来计算文字位置和单元格位置的IOU(Intersection over Union),如果大于预设的阈值就将文字内容写入到单元格信息中。
步骤S16,将步骤S15中保存的所有单元格信息写入到Excel文件中。
其中如果步骤S141中水平线或者竖直线的条数小于两条那么我们就将其作为无线表进行处理,根据步骤S13中通过OCR识别的文本位置坐标信息,采用无监督的机器学习算法分别对行信息和列信息进行聚类,计算每个类所属的单元后可以无线表进行重构。其中,对行信息和列信息进行聚类的无监督的机器学习算法可以有多种,例如,可以采用DBSCAN聚类算法对行信息和列信息进行聚类。
在本可选实施方式中,首先采用轻量级的线分割模型对表格图片中的表格进行线分割,获取表格图片中表格的表格线,使用该模型进行线分割,具有准确度高、模型参数少、处理速度快的优点;该模型是有监督模型,基于该模型获取线表格线提取,确定表格为有线表格或无线表格,并针对有线表格和无线表格进行对应的处理,实现表格提取,方法具有鲁棒性强的优点,适应于多种应用场景,尤其在处理跨行跨列的问题,具备比相关技术方法准确度高的优点。在一个实施例中,通过本可选实施方式的方法,得到表格提取结果的准确率达到99.8%,其中,线分割准确率高且速度快。
实施例2
图3是根据本发明实施例的一种可选的表格提取装置的框架图,参照图3所示,装置包括第一获取模块302、第二获取模块304和第三获取模块306。下面具体说明。
第一获取模块302,用于获取目标无线表格的第一表格图片,其中,第一表格图片包括多个第一字符段,同一个第一字符段中相邻字符之间的距离小于第一预定距离阈值;第二获取模块304,连接于上述第一获取模块302,用于基于光学字符识别方法提取多个第一字符段的坐标,其中,多个第一字符段的坐标包括多个第一字符段的中心点坐标;第三获取模块306,连接于上述第二获取模块304,用于根据多个第一字符段的中心点坐标,分别对多个第一字符段进行行和列的聚类,得到多个第一字符段的行信息和列信息。
此处需要说明的是,上述第一获取模块302、第二获取模块304和第三获取模块306分别对应于上述实施例中的步骤S102至步骤S106,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例所公开的内容。
实施例3
本本发明的实施例可以提供一种计算机设备,可选地,在本实施例中,上述计算机设备可以位于计算机网络的多个网络设备中的至少一个网络设备。该计算机设备包括存储器和处理器。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的数据处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的数据处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取目标无线表格的第一表格图片,其中,第一表格图片包括多个第一字符段,同一个第一字符段中相邻字符之间的距离小于第一预定距离阈值;基于光学字符识别方法提取多个第一字符段的坐标,其中,多个第一字符段的坐标包括多个第一字符段的中心点坐标;根据多个第一字符段的中心点坐标,分别对多个第一字符段进行行和列的聚类,得到多个第一字符段的行信息和列信息。
可选的,上述处理器还可以执行如下步骤的程序代码:根据多个第一字符段的中心点坐标,分别对多个第一字符段进行行和列的聚类,得到多个第一字符段的行信息和列信息,包括:获取多个第一字符段的中心点横坐标和纵坐标;根据多个第一字符段的中心点横坐标和第二预定距离阈值,对多个第一字符段进行聚类,得到多个第一字符段的列信息;根据多个第一字符段的中心点纵坐标和第三预定距离阈值,对多个第一字符段进行聚类,得到多个第一字符段的行信息。
可选的,上述处理器还可以执行如下步骤的程序代码:获取目标有线表格的第二表格图片,其中,第二表格图片包括多个第二字符段,同一个第二字符段中相邻字符之间的距离小于第四预定距离阈值,第二表格图片包括多条目标行线和多条目标列线,多条目标行线和多条目标列线用于将目标有线表格划分为多个网格;分别获取多个第二字符段的坐标,以及分别获取多个网格的多个顶点坐标;根据多个第二字符段的坐标和多个网格的多个顶点坐标,分别确定多个第二字符段与多个网格的对应关系。
可选的,上述处理器还可以执行如下步骤的程序代码:根据多个第二字符段的坐标和多个网格的多个顶点坐标,分别确定多个第二字符段与多个网格的对应关系,包括:针对多个第二字符段中的第二字符段:根据第二字符段的坐标和多个网格的多个顶点的坐标,分别计算第二字符段在第二表格图片中的区域与多个网格在第二表格图片中的区域的交并比IOU,根据交并比IOU和预定交并比阈值,确定在多个网格中与第二字符段对应的目标网格;根据分别与多个第二字符段对应的目标网格,分别确定多个第二字符段与多个网格的对应关系。
可选的,上述处理器还可以执行如下步骤的程序代码:根据第二字符段在第二表格图片中的区域与多个网格在第二表格图片中的区域的多个交并比IOU和预定交并比阈值,确定在多个网格中与第二字符段对应的目标网格,包括:比对多个交并比IOU和预定交并比阈值,得到多个交并比IOU中大于预定交并比阈值的目标交并比IOU;根据目标交并比IOU,确定在多个网格中与第二字符段对应的目标网格。
可选的,上述处理器还可以执行如下步骤的程序代码:分别获取目标有线表格中多条行线和多条列线的坐标;确定多条行线中纵坐标最大或纵坐标最小的行线为目标行线,以目标行线为起始行线,依次比对多条行线中各相邻行线之间的行间距,在行间距小于预定行间距的情况下,确定与行间距对应的两条行线中与目标行线的纵坐标差值较大的行线为干扰行线;根据多条行线中除干扰行线外的多条行线,获取多条目标行线;确定多条列线中横坐标最大或横坐标最小的列线为目标列线,以目标列线为起始列线,依次比对多条列线中各相邻列线之间的列间距,在列间距小于预定列间距的情况下,确定与列间距对应的两条列线中与目标列线的横坐标差值较大的列线为干扰列线;根据多条列线中除干扰列线外的多条列线,获取多条目标列线。
可选的,上述处理器还可以执行如下步骤的程序代码:获取初始表格的初始表格图片;获取初始表格图片中的行线和列线的数量;在初始表格图片中的行线的数量少于第一预定数量,和/或,初始表格图片中列线的数量小于第二预定数量的情况下,确定初始表格图片中的初始表格为目标无线表格;在初始表格图片中的行线的数量大于第一预定数量,并且初始表格图片中列线的数量大于第二预定数量的情况下,确定初始表格图片中的初始表格为目标有线表格。
可选的,上述处理器还可以执行如下步骤的程序代码:确定目标文本,目标文本包括以下之一:目标PDF文本、目标图片文本;确定目标文本中的初始表格所处区域;根据初始表格所处区域,获取初始表格的初始表格图片。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种表格提取方法,其特征在于,包括:
获取目标无线表格的第一表格图片,其中,所述第一表格图片包括多个第一字符段,同一个第一字符段中相邻字符之间的距离小于第一预定距离阈值;
基于光学字符识别方法提取所述多个第一字符段的坐标,其中,所述多个第一字符段的坐标包括所述多个第一字符段的中心点坐标;
根据所述多个第一字符段的中心点坐标,分别对所述多个第一字符段进行行和列的聚类,得到所述多个第一字符段的行信息和列信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多个第一字符段的中心点坐标,分别对所述多个第一字符段进行行和列的聚类,得到所述多个第一字符段的行信息和列信息,包括:
获取所述多个第一字符段的中心点横坐标和纵坐标;
根据所述多个第一字符段的中心点横坐标和第二预定距离阈值,对所述多个第一字符段进行聚类,得到所述多个第一字符段的列信息;
根据所述多个第一字符段的中心点纵坐标和第三预定距离阈值,对所述多个第一字符段进行聚类,得到所述多个第一字符段的行信息。
3.根据权利要求1所述的方法,其特征在于,还包括:
获取目标有线表格的第二表格图片,其中,所述第二表格图片包括多个第二字符段,同一个第二字符段中相邻字符之间的距离小于第四预定距离阈值,所述第二表格图片包括多条目标行线和多条目标列线,所述多条目标行线和所述多条目标列线用于将所述目标有线表格划分为多个网格;
分别获取所述多个第二字符段的坐标,以及分别获取所述多个网格的多个顶点坐标;
根据所述多个第二字符段的坐标和所述多个网格的多个顶点坐标,分别确定所述多个第二字符段与所述多个网格的对应关系。
4.根据权利要求3所述的方法,其特征在于,所述根据所述多个第二字符段的坐标和所述多个网格的多个顶点坐标,分别确定所述多个第二字符段与所述多个网格的对应关系,包括:
针对所述多个第二字符段中的第二字符段:根据第二字符段的坐标和所述多个网格的多个顶点的坐标,分别计算所述第二字符段在所述第二表格图片中的区域与所述多个网格在所述第二表格图片中的区域的交并比IOU,根据所述交并比IOU和预定交并比阈值,确定在所述多个网格中与所述第二字符段对应的目标网格;
根据分别与所述多个第二字符段对应的目标网格,分别确定所述多个第二字符段与所述多个网格的对应关系。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第二字符段在所述第二表格图片中的区域与所述多个网格在所述第二表格图片中的区域的多个交并比IOU和预定交并比阈值,确定在所述多个网格中与所述第二字符段对应的目标网格,包括:
比对所述多个交并比IOU和所述预定交并比阈值,得到所述多个交并比IOU中大于所述预定交并比阈值的目标交并比IOU;
根据所述目标交并比IOU,确定在所述多个网格中与所述第二字符段对应的目标网格。
6.根据权利要求3所述的方法,其特征在于,还包括:
分别获取所述目标有线表格中所述多条行线和所述多条列线的坐标;
确定所述多条行线中纵坐标最大或纵坐标最小的行线为目标行线,以所述目标行线为起始行线,依次比对所述多条行线中各相邻行线之间的行间距,在所述行间距小于预定行间距的情况下,确定与所述行间距对应的两条行线中与所述目标行线的纵坐标差值较大的行线为干扰行线;
根据所述多条行线中除所述干扰行线外的多条行线,获取所述多条目标行线;
确定所述多条列线中横坐标最大或横坐标最小的列线为目标列线,以所述目标列线为起始列线,依次比对所述多条列线中各相邻列线之间的列间距,在所述列间距小于预定列间距的情况下,确定与所述列间距对应的两条列线中与所述目标列线的横坐标差值较大的列线为干扰列线;
根据所述多条列线中除所述干扰列线外的多条列线,获取所述多条目标列线。
7.根据权利要求1至6中任一项所述的方法,其特征在于,还包括:
获取初始表格的初始表格图片;
获取所述初始表格图片中的行线和列线的数量;
在所述初始表格图片中的行线的数量少于第一预定数量,和/或,所述初始表格图片中列线的数量小于第二预定数量的情况下,确定所述初始表格图片中的初始表格为所述目标无线表格;
在所述初始表格图片中的行线的数量大于第一预定数量,并且所述初始表格图片中列线的数量大于第二预定数量的情况下,确定所述初始表格图片中的初始表格为所述目标有线表格。
8.根据权利要求7所述的方法,其特征在于,获取初始表格的初始表格图片,包括:
确定目标文本,所述目标文本包括以下之一:目标PDF文本、目标图片文本;
确定所述目标文本中的初始表格所处区域;
根据所述初始表格所处区域,获取所述初始表格的初始表格图片。
9.一种表格提取装置,其特征在于,包括:
第一获取模块,用于获取目标无线表格的第一表格图片,其中,所述第一表格图片包括多个第一字符段,同一个第一字符段中相邻字符之间的距离小于第一预定距离阈值;
第二获取模块,用于基于光学字符识别方法提取所述多个第一字符段的坐标,其中,所述多个第一字符段的坐标包括所述多个第一字符段的中心点坐标;
第三获取模块,用于根据所述多个第一字符段的中心点坐标,分别对所述多个第一字符段进行行和列的聚类,得到所述多个第一字符段的行信息和列信息。
10.一种计算机设备,其特征在于,包括:存储器和处理器,
所述存储器存储有计算机程序;
所述处理器,用于执行所述存储器中存储的计算机程序,所述计算机程序运行时使得所述处理器执行权利要求1至8中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211214734.0A CN115457581A (zh) | 2022-09-30 | 2022-09-30 | 表格提取方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211214734.0A CN115457581A (zh) | 2022-09-30 | 2022-09-30 | 表格提取方法、装置及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115457581A true CN115457581A (zh) | 2022-12-09 |
Family
ID=84308313
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211214734.0A Withdrawn CN115457581A (zh) | 2022-09-30 | 2022-09-30 | 表格提取方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115457581A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116127927A (zh) * | 2023-04-04 | 2023-05-16 | 北京智麟科技有限公司 | 一种网页表格转pdf文件的方法 |
-
2022
- 2022-09-30 CN CN202211214734.0A patent/CN115457581A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116127927A (zh) * | 2023-04-04 | 2023-05-16 | 北京智麟科技有限公司 | 一种网页表格转pdf文件的方法 |
CN116127927B (zh) * | 2023-04-04 | 2023-06-16 | 北京智麟科技有限公司 | 一种网页表格转pdf文件的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11830230B2 (en) | Living body detection method based on facial recognition, and electronic device and storage medium | |
CN110032998B (zh) | 自然场景图片的文字检测方法、系统、装置和存储介质 | |
CN110517246B (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
CN109753953B (zh) | 图像中定位文本的方法、装置、电子设备和存储介质 | |
CN111640130A (zh) | 表格还原方法及装置 | |
CN108764039B (zh) | 神经网络、遥感影像的建筑物提取方法、介质及计算设备 | |
JP7026165B2 (ja) | テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体 | |
CN110807110B (zh) | 结合局部和全局特征的图片搜索方法、装置及电子设备 | |
CN102737243A (zh) | 获取多幅图像的描述信息的方法及装置与图像匹配方法 | |
CN111597845A (zh) | 一种二维码检测方法、装置、设备及可读存储介质 | |
CN115546809A (zh) | 基于单元格约束的表格结构识别方法及其应用 | |
CN115457581A (zh) | 表格提取方法、装置及计算机设备 | |
CN113486881B (zh) | 一种文本识别方法、装置、设备及介质 | |
CN111104924A (zh) | 一种有效的识别低分辨率商品图像的处理算法 | |
CN111144407A (zh) | 一种目标检测方法、系统、装置及可读存储介质 | |
CN112883827B (zh) | 图像中指定目标的识别方法、装置、电子设备和存储介质 | |
CN112583900A (zh) | 云计算的数据处理方法及相关产品 | |
CN117496521A (zh) | 一种表格关键信息抽取方法、系统、装置及可读存储介质 | |
CN114357958A (zh) | 一种表格提取方法、装置、设备及存储介质 | |
CN113378837A (zh) | 车牌遮挡识别方法、装置、电子设备和存储介质 | |
CN117423124A (zh) | 基于表格图像的表格数据处理方法和装置、设备及介质 | |
CN109919164B (zh) | 用户界面对象的识别方法及装置 | |
CN109740337B (zh) | 一种实现滑块验证码识别的方法及装置 | |
CN116543333A (zh) | 电力系统的目标识别方法、训练方法、装置、设备和介质 | |
CN114511862B (zh) | 表格识别方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20221209 |
|
WW01 | Invention patent application withdrawn after publication |