CN112733855B - 表格结构化方法、表格恢复设备及具有存储功能的装置 - Google Patents
表格结构化方法、表格恢复设备及具有存储功能的装置 Download PDFInfo
- Publication number
- CN112733855B CN112733855B CN202011615053.6A CN202011615053A CN112733855B CN 112733855 B CN112733855 B CN 112733855B CN 202011615053 A CN202011615053 A CN 202011615053A CN 112733855 B CN112733855 B CN 112733855B
- Authority
- CN
- China
- Prior art keywords
- frame
- position information
- outline
- lines
- cell
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000006870 function Effects 0.000 claims abstract description 12
- 230000009466 transformation Effects 0.000 claims description 48
- 239000011159 matrix material Substances 0.000 claims description 41
- 238000001514 detection method Methods 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000013507 mapping Methods 0.000 claims description 10
- 238000011084 recovery Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 4
- 238000003708 edge detection Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/243—Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种表格结构化方法、表格恢复系统以及具有存储功能的装置。本申请的表格结构化方法充分利用深度学习方案得到单元格的位置信息和文字信息,准确挖掘表格线和单元格定点位置信息,从而获得准确的表格结构化。
Description
技术领域
本申请涉及光学字符识别文字检测与识别以及表格检测技术领域,特别是涉及一种表格结构化方法、表格恢复设备及具有存储功能的装置。
背景技术
在拍照和扫描图片的场景中,表格广泛存在于各种文档图片中。对表格结构和表格中的信息进行提取可有助于使用者对表格数据进行分析。对于规则的表格,表格结构信息的恢复相对简单,然后对于不规则的表格,采用规则表格结构化方法,由于单元格合并、表格残缺等原因,很难恢复表格信息。
当前表格检测的技术方案大多数都基于深度学习方案,即将表格线或者表格单元检测出来。然后基于检测出来的表格线或者表格单元进行表格结构信息的构建和恢复。然后基于深度学习方案受限于训练数据,导致无法准确的检测出表格中的所有单元格或者表格线。
发明内容
本申请主要解决的技术问题是提供一种表格结构化方法、表格恢复系统及具有存储功能的装置,解决现有的表格检测方案无法准成检测的检测出表格中的所有单元格或者表格线的问题。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种表格结构化方法,该表格结构化方法包括:获取到待结构化图像,提取待结构化图像中的文字的位置信息以及待结构化图像的多个单元格的位置信息;对多个单元格进行连通域计算,得到待结构化图像的表格的边框轮廓;获取到边框轮廓的对应的包围框的顶点的位置信息;以及获取到边框轮廓的顶点的位置信息;利用边框轮廓的顶点的位置信息及其对应的包围框的顶点的位置信息,计算得到边框轮廓的变换矩阵;通过变换矩阵对边框轮廓的单元格的位置信息进行校正;基于校正后的每个单元格的线条之间的位置关系对线条进行网格划分,得到网格线条;将网格线条与单元格进行映射,得到表格的结构化图像;利用文字的位置信息确定文字对应结构化图像的位置,以得到待结构化图像的表格的结构化信息。
其中,待结构化图像为至少一个;获取到边框轮廓对应的包围框的顶点的位置信息;以及获取到边框轮廓的顶点的位置信息的步骤包括:获取到各边框轮廓对应的包围框的顶点的位置信息;以及获取到各边框轮廓的顶点的位置信息;利用边框轮廓的顶点的位置信息及其对应的包围框的顶点的位置信息,计算得到边框轮廓的变换矩阵的步骤,包括:利用边框轮廓的顶点的位置信息及其对应的包围框的顶点的位置信息,计算得到各边框轮廓的变换矩阵;通过变换矩阵对边框轮廓的单元格的位置信息进行校正的步骤包括:通过变换矩阵对各边框轮廓的单元格的位置信息进行校正;利用校正后的单元格的位置信息以及边框轮廓的位置关系确定每个单元格所属的表格。
其中,获取到边框轮廓对应的包围框的顶点的位置信息的步骤,包括:将表格边框的最小外接边框进行旋转,得到最小外接边框旋转后的边框轮廓对应的包围框,并获取边框轮廓对应的包围框的顶点的位置信息。其中,将表格边框的最小外接边框进行旋转,得到最小外接边框旋转后的边框轮廓对应的包围框,并获取边框轮廓对应的包围框的顶点的位置信息的步骤,包括:将表格边框的最小外接斜矩形进行旋转,得到矩形的包围框,并获取矩形的包围框的顶点的位置信息。
其中,利用校正后的单元格的位置信息以及边框轮廓的位置关系确定每个单元格所属的表格的步骤,包括:利用校正后的单元格的位置信息以及边框轮廓的位置关系计算校正后的单元格与边框轮廓的重叠部分的面积的比值;判断比值是否大于第一预设值,若大于第一预设值则确定单元格属于表格;若否,则单元格不属于表格。
其中,获取到边框轮廓的顶点的位置信息以及获取到边框轮廓对应的包围框的顶点的位置信息的步骤具体包括:通过多边形拟合的方式和直线检测的方式分别获取对应边框轮廓的顶点的位置信息。
其中,获取到边框轮廓对应的包围框的顶点的位置信息之后的步骤:将多边形拟合的方式和直线检测的方式分别获取对应边框轮廓的顶点的位置信息分别映射到边框轮廓对应的包围框的顶点的位置信息上,并计算出对应的变换矩阵;根据对应的变换矩阵对表格边框的轮廓点进行透视变换得到表格边框的轮廓点对应的外接边框;计算表格边框的轮廓点对应的外接边框的倾斜角平均值;根据倾斜角平均值选择多边形拟合的方式或直线检测的方式以获取边框轮廓的顶点的位置信息。
其中,通过多边形拟合的方式和直线检测的方式获取边框轮廓的顶点的位置信息的步骤具体包括:通过二分法获得连通域的顶点的位置信息,将连通域的顶点的位置信息作为边框轮廓的顶点。
其中,通过多边形拟合的方式和直线检测的方式获取边框轮廓的顶点的位置信息的步骤还包括:通过边缘检测识别连通域的边框;通过霍夫变换检测连通域的边框中的线条;根据线条的斜率判断任意两条线条是否属于同一边线,若否,则求出两条线条的交点,重复上述步骤得到交点形成的点集;根据点集构建点集的外接边框,计算点集中距离外接边框端点最接近的点,将最接近的点作为边框轮廓的顶点。
其中,基于校正后的每个单元格的线条之间的位置关系对线条进行网格划分,得到网格线条的步骤具体还包括:计算校正后的每个单元格的外接边框的位置信息,根据校正后的每个单元格的外接边框形的位置信息将校正后的每个单元格的外接边框的位置信息拆分为多条线条,其中,每条线条用2个端点进行表示,多条线条包括沿水平方向和沿竖直方向的线条;重复上一步骤以获得线条的水平线条集合与竖直线条集合;选取任意线条,获取线条的两个端点坐标,分别计算与该端点最接近的点及其距离,判断距离是否小于第一误差值,若小于第一误差值,则停止计算;将过滤后的线条进行合并,得到网格线条。
其中,基于校正后的每个单元格的线条之间的位置关系对线条进行网格划分,得到网格线条的步骤具体还包括:计算校正后的的每个单元格的外接边框的位置信息,根据校正后的每个单元格的外接边框的位置信息获取每个单元格的外接边框的多条线条的中点坐标,其中,水平线条的中点坐标的集合为水平线条中心坐标集合,竖直线条的中点坐标的集合为竖直线条中心坐标集合;遍历水平线条中心坐标集合和竖直线条中心坐标集合,比较每个值与近邻值的差值是否小于第二误差值,若小于第二误差值,则标记两者有相同的标签,否则添加新标签;计算各类标签的均值,得到优化后的水平线条中心坐标均值集合和竖直线条中心坐标均值集合,根据优化后的水平线条中心坐标均值集合和竖直线条中心坐标均值集合进行网格划分,得到网格线条。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种表格恢复设备,包括相互耦接的处理器和存储器,其中,处理器用于执行存储器存储的计算机程序以执行上述任一项的表格结构化方法
为解决上述技术问题,本申请采用的又一个技术方案是:提供一种具有存储功能的装置,存储有程序数据,程序数据能够被处理器执行以实现如上述任一项的表格结构化方法。
本申请的有益效果是:区别于现有技术的情况,本申请提供的表格结构化,该表格结构化方法通过提取待结构化图像中的文字的位置信息以及待结构化图像的多个单元格的位置信息;对多个单元格进行连通域计算,得到待结构化图像的表格的边框轮廓;获取到边框轮廓的顶点的位置信息;以及获取到边框轮廓对应的包围框的顶点的位置信息;利用边框轮廓的顶点的位置信息及其对应的包围框的顶点的位置信息,计算得到边框轮廓的变换矩阵;通过变换矩阵对边框轮廓的单元格的位置信息进行校正;基于校正后的每个单元格的线条之间的位置关系对线条进行网格划分,得到网格线条;将网格线条与单元格进行映射,得到表格的结构化图像;利用文字的位置信息确定文字对应结构化图像的位置,以得到待结构化图像的表格的结构化信息。本申请的结构化方法充分利用深度学习方案得到单元格的位置信息和文字信息,准确挖掘表格线和单元格定点位置信息,从而获得准确的表格结构化信息。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的表格结构化方法的第一实施例的流程示意图;
图2是本申请提供的表格结构化方法的第二实施例的流程示意图;
图3是本申请提供的表格恢复设备的一实施例的结构示意图;
图4是本申请提供的具有存储功能的装置的一实施例的结构示意图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是,本申请还可以采用其他不同于在此描述的其他方式来实施,因此,本申请的保护范围并不受下面公开的具体实施例的限制。
请参阅图1,图1是本申请提供的表格结构化方法的第一实施例的流程示意图。
步骤S101:获取到待结构化图像,提取待结构化图像中的文字的位置信息以及待结构化图像的多个单元格的位置信息。
在本实施例中,在拍摄到图像或者扫描图片后,从拍摄到的图像或者扫描的图片中获取待结构化的图像,从获取到的待结构化图像提取待结构化图像中的文字的位置信息以及待结构化图像的多个单元格的位置信息。其中,文字的位置信息包括文字区域的位置和文字区域的大小等,多个单元格的位置信息包括各个单元格的位置、各个单元格的大小等。
步骤S102:对多个单元格进行连通域计算,得到待结构化图像的表格的边框轮廓。
在本实施例中,在提取到待结构化图像的多个单元格的位置信息后,对多个单元格进行扩张,进一步得到每个单元格的的位置信息,再次对多个单元格进行第二次扩张,使多个单元格之间相互进行交叠,形成交叠区域,对该交叠区域进行连通域计算,得到待结构化图像的表格的边框轮廓。
步骤S103:获取到边框轮廓对应的包围框的顶点的位置信息。
根据上述步骤中的连通域,计算出表格边框的最小外接边框,并对表格边框轮廓的最小外接边框进行旋转,使其对正,获得边框轮廓的对应的包围框,并获取该包围框的顶点的位置信息。一般情况下,表格的外轮廓都是矩形的。因此,在该表格的外轮廓是矩形时,该最小外接边框为最小外接矩形如最小外接斜矩形,并将该最小外接斜矩形进行旋转,使其对正,得到一个矩形的包围框。
步骤S104:获取到边框轮廓的顶点的位置信息。
在本实施例中,在自然场景中,由于表格复杂性,获取到的表格区域通常不是正矩形,而是带有一定的倾斜角度、旋转角度和畸变等,同时,不能保证神经网络模型能够100%检测出所有的单元格,经常会出现漏缺单元格的现象,此时的表格区域经常会缺一角。因此,在获取边框轮廓的位置信息时,同时采用多边形拟合的方式和直线检测的方式对表格的边框轮廓的顶点进行检测。
具体地,采用多边形拟合的方式,通过二分法获得步骤S102中连通域的顶点的位置信息,并将该连通域的顶点的位置信息作为边框轮廓的顶点的位置信息,以连通域为矩形为例来说,通过二分法获得连通域的4个顶点的位置信息,并将该连通域的4个顶点的位置信息作为边框轮廓的顶点的位置信息。
进一步地,采用直线检测的方式,首先通过边缘检测识别步骤S102中连通域的各表格边框,再通过霍夫变换检测各表格边框中的边线,其中,表格边框的每条边线上检测出至少一条线条,根据各表格边框中的线条的斜率判断任意两条线条是否在同一条边线上,若任意两条线条在同一边线上则跳过,否则求出两条线条的交点,反复上述过程直至求出所有线条的交点,并将所有线条的交点合并为点集P;构建点集P的外接边框,并计算点集P中距离外接边框端点最接近的点,则确定该点集P中距离外接边框端点最接近的点为边框轮廓的顶点。例如,如果连通域为矩形或者近似矩形,则该外接边框为外接斜矩阵,外接边框的端点为4个,计算点集P中距离外接斜矩阵端点最接近的点,则确定该点集P中距离外接斜矩阵端点最接近的点为边框轮廓的4个顶点。
在不同的自然场景的图片中,上述两种方式寻找到的顶点的精确度并不一致,还需进一步判断在对应场景中哪一种方式寻找到的顶点的准确度更高,以确定采用多边形拟合的方式或直线检测的方式获取的边框轮廓的顶点的位置信息进行后续计算。
具体地,在获取到边框轮廓对应的包围框的顶点的位置信息后,将通过多边形拟合的方式和直线检测的方式获取的边框轮廓的顶点的位置信息映射到边框轮廓对应的包围框的顶点的位置信息上,计算出对应的变换矩阵,再通过对应的变换矩阵对边框轮廓的位置信息进行透视变换。
其中,边框轮廓的位置信息包括边框轮廓的各轮廓点的位置信息,计算经过透视变换后多边形拟合方式和直线检测的方式对应轮廓的外接边框的倾斜角平均值,并比较多边形拟合方式和直线检测的方式对应轮廓的外界斜矩形的倾斜角平均值中倾斜角平均值更低,对应方式寻找的顶点的准确度更高,选择倾斜平均值更低的方式得到的边框轮廓的顶点的位置信息进行后续计算。即当通过多边形拟合的方式得到的边框轮廓的外接边框的倾斜角平均值更低时,则选取多边形拟合的方式得到的边框轮廓的顶点的位置信息进行后续计算;当通过直线检测的方式得到的边框轮廓的外接边框的倾斜角平均值更低时,则选取直线检测的方式得到的边框轮廓的顶点的位置信息进行后续计算。以该外接边框为外接斜矩形为例来说,即当通过多边形拟合的方式得到的边框轮廓的外接斜矩形的倾斜角平均值更低时,则选取多边形拟合的方式得到的边框轮廓的4个顶点的位置信息进行后续计算;当通过直线检测的方式得到的边框轮廓的外接斜矩形的倾斜角平均值更低时,则选取直线检测的方式得到的边框轮廓的4个顶点的位置信息进行后续计算。
步骤S105:利用边框轮廓的顶点的位置信息及其对应的包围框的顶点的位置信息,计算得到边框轮廓的变换矩阵。
在本实施例中,在计算得到边框轮廓的顶点的位置信息及其对应的包围框的顶点的位置关系后,将边框轮廓的顶点的位置信息映射到其对应的包围框的顶点的位置信息以得到边框轮廓的变换矩阵。例如,以外接边框为外接斜矩形,边框轮廓对应的包围框为矩形为例,在计算得到外接斜矩形的4个顶点的位置信息以及边框轮廓对应的矩形的包围框的4个顶点的位置信息后,将外接斜矩形的4个顶点的位置信息映射到矩形的包围框的4个顶点的位置信息,从而得到边框轮廓的变换矩阵。
步骤S106:通过变换矩阵对边框轮廓的单元格的位置信息进行校正。
在本实施例中,在得到边框轮廓的变换矩阵后,通过变换矩阵对边框轮廓进行透视变换,从而将边框轮廓进行校正。具体地,通过变换矩阵对边框轮廓的所有轮廓点进行透视变换,将边框轮廓进行校正,同时通过变换矩阵对多个单元格的轮廓点进行透视变换,将单元格进行校正,从而完成对表格的校正。
步骤S107:基于校正后的每个单元格的线条之间的位置关系对线条进行网格划分,得到网格线条。
在本实施例中,为了进一步结构化待结构化图像,需要划分网格,以校正后的每个单元格的外接边框为外接斜矩形为例,为了获得高精度化的表格信息,还需对多个单元格进行如下处理:计算校正后的每个单元格的外接斜矩形的位置信息,根据每个单元格的外接斜矩形的位置信息获取每个单元格的外接斜矩形的4个端点,从而将每个单元格的外接斜矩形拆分为4条线条,其中,每条线条用2个端点进行表示,4条线条包括分别沿水平方向和沿竖直方式的线条各2条;重复上一步骤以获得所有线条的水平线条集合Lh与竖直线条集合Lv;在水平线条集合Lh与竖直线条集合Lv中,选取任意线条,选择该线条的2个端点坐标,分别计算与该端点最接近的点及其距离,判断该距离是否小于误差值,若小于误差值,则确定该线条与最接近的点所在的线条相连接,并将该线条与最接近的点所在的线条合并成一条线条;若大于误差,则停止计算;重复上述步骤,根据误差值过滤重复的线条;将过滤后的线条进行合并,得到网格线条。
在本实施例中,当待结构化图像为至少一个时,进一步地,利用校正后的单元格的位置信息以及边框轮廓的位置关系确定每个单元格所属的表格。
步骤S108:将网格线条与单元格进行映射,得到表格的结构化图像。
在本实施例中,根据多个单元格的位置信息将每个单元格再次拆分为4条线条,并将网格线条与每个单元格拆分的4条线条进行映射,从而得到表格的结构化图像。
步骤S109:利用文字的位置信息确定文字对应结构化图像的位置,以得到待结构化图像的表格的结构化信息。
在本实施例中,利用文字的位置信息确定对应的结构化图像的位置,将文字的位置信息映射到对应结构化图像上对应的位置上,从而得到待结构化图像的表格的结构化信息。
在本实施例中,得到待结构化图像的表格的结构化信息后,根据信息提取模块提取的文字的位置信息和待结构化图像的表格的结构化信息,对表格进行还原,将还原后的表格导出Excel或Word等文档格式。
区别于现有技术的情况,本实施例提供的表格结构化方法,该表格结构化方法通过提取待结构化图像中的文字的位置信息以及待结构化图像的多个单元格的位置信息;对多个单元格进行连通域计算,得到待结构化图像的表格的边框轮廓;获取到边框轮廓的顶点的位置信息;以及获取到边框轮廓对应的包围框的顶点的位置信息;利用边框轮廓的顶点的位置信息及其对应的包围框的顶点的位置信息,计算得到边框轮廓的变换矩阵;通过变换矩阵对边框轮廓的单元格的位置信息进行校正;基于校正后的每个单元格的线条之间的位置关系对线条进行网格划分,得到网格线条;将网格线条与单元格进行映射,得到表格的结构化图像;利用文字的位置信息确定文字对应结构化图像的位置,以得到待结构化图像的表格的结构化信息。本申请的结构化方法充分利用深度学习方案得到单元格的位置信息和文字信息,准确挖掘表格线和单元格定点位置信息,从而获得准确的表格结构化信息。
请参阅图2,图2是本申请提供的表格结构化方法的第二实施例的流程示意图。
步骤S201:获取到待结构化图像,提取待结构化图像中的文字的位置信息以及待结构化图像的多个单元格的位置信息。
在本实施例中,在拍摄到图像或者扫描图片后,从拍摄到的图像或者扫描的图片中获取待结构化的图像,通过深度学习的方法提取到的待结构化图像中的文字的位置信息以及待结构化图像的多个单元格的位置信息。具体地,通过resNet,hrNet或DBNet网络等深度学习方法提取到待结构化图像中的文字的位置信息以及待结构化图像的多个单元格的位置信息,优选的,采用DBNet网络算法提取待结构化图像中的文字的位置信息以及待结构化图像的多个单元格的位置信息。其中,待结构化图像为至少一个,文字的位置信息包括文字区域的位置和文字区域的大小等,多个单元格的位置信息包括各个单元格的位置、各个单元格的大小等。
步骤S202:对多个单元格进行连通域计算,得到待结构化图像的表格的边框轮廓。
在本实施例中,在提取到待结构化图像的多个单元格的位置信息后,对多个单元格进行扩张,进一步得到每个单元格的的位置信息,再次对多个单元格进行第二次扩张,使多个单元格之间相互进行交叠,形成交叠区域,对该交叠区域进行连通域计算,得到待结构化图像的表格的边框轮廓。
在本实施例中,当待结构化图像为至少一个时,根据待结构化图像的数量,多个单元格经过两次扩张后,形成的交叠区域有多个时,对每个交叠区域对应进行连通域计算,得到待结构化图像的表格的边框轮廓对应有多个。
步骤S203:获取到各边框轮廓对应的包围框的顶点的位置信息。
在本实施例中,当待结构化图像为至少一个时,需获取各边框轮廓的对应的包围框的顶点的位置信息,各边框轮廓的对应的包围框的顶点的位置信息根据对应的连通域,计算其对应的表格边框的最小外接边框,并对其对应的最小外接边框进行旋转,使其对正,获得各边框轮廓的对应的包围框,并获取各边框轮廓对应的包围框的顶点的位置信息。一般情况下,表格的外轮廓都是矩形的。因此,在该表格的外轮廓是矩形时,该最小外接边框为最小外接矩形如最小外接斜矩形,并将该最小外接斜矩形进行旋转,使其对正,得到一个矩形的包围框。
步骤S204:获取到各边框轮廓的顶点的位置信息。
在本实施例中,当待结构化图像为至少一个时,需获取各边框轮廓的顶点的位置信息,各边框轮廓的顶点的位置信息与上述边框轮廓的顶点的位置信息的步骤相同。
步骤S205:利用边框轮廓的顶点的位置信息及其对应的包围框的顶点的位置信息,计算得到各边框轮廓的变换矩阵。
在本实施例中,当待结构化图像为至少一个时,利用边框轮廓的顶点的位置信息及其对应的包围框的顶点的位置信息,计算得到各边框轮廓的变换矩阵。其中,各边框轮廓的变换矩阵的计算步骤与上述步骤S105相同,在此不再赘述。
步骤S206:通过变换矩阵对各边框轮廓的单元格的位置信息进行校正。
在本实施例中,当待结构化图像为至少一个时,通过各边框轮廓对应的变换矩阵对各边框轮廓的单元格的位置信息进行校正,其中通过变换矩阵对边框轮廓的单元格的位置信息进行校正与上述步骤S106相同,在此不再赘述。
步骤S207:利用校正后的单元格的位置信息以及边框轮廓的位置关系确定每个单元格所属的表格。
在本实施例中,由于待结构化图像为至少一个,即单元格还需进一步确定归属于哪一个待结构化图像。具体地,利用校正后的单元格的位置信息以及边框轮廓的位置关系计算校正后的单元格与边框轮廓的重叠部分的面积的比值,通过判断比值是否大于第一预设值来确定单元格归属于哪个表格,其中,第一预设值为经验常值。具体地,利用校正后的单元格的位置信息以及边框轮廓的位置关系计算校正后的单元格与边框轮廓的重叠部分的面积的比值,判断比值是否大于第一预设值,若大于第一预设值则确定单元格属于表格;若否,则单元格不属于表格。
步骤S208:基于校正后的每个单元格的线条之间的位置关系对线条进行网格划分,得到网格线条。
在本实施例中,为了进一步结构化待结构化图像,需要划分网格,以校正后的每个单元格的外接边框为外接斜矩形为例,为了获得高精度化的表格信息,还需对多个单元格进行如下处理:计算校正后的每个单元格的外接斜矩形的位置信息,根据每个单元格的外接斜矩形的位置信息获取每个单元格的外接斜矩形的多条线条的中点坐标,优选的,获取每个单元格外接斜矩形的4条线条的中心坐标,其中,水平线条的中点坐标的记录x值,水平线条的中点坐标的集合为水平线条中心坐标集合Lx,竖直线条的中点坐标记录为y值,竖直线条的中点坐标的集合为竖直线条中心坐标集合Ly;对水平线条中点坐标集合Lx和竖直线条中点坐标集合Ly进行排序,并遍历每个集合,比较集合内每个值与近邻值的差值是否小于第二误差值,若集合内每个值与近邻值的差值小于第二误差值,则标记该值与其近邻值有相同的标签;若集合内每个值与近邻值的差值不小于第二误差值,则添加新标签;对上一步骤中的每一类标签进行计算求取其均值,得到优化后的水平线条中点坐标均值集合Lx1和竖直线条中点坐标均值集合Ly1;根据优化后的水平线条中点坐标均值集合Lx1和竖直线条中点坐标均值集合Ly1进行网格划分,得到网格线条,其中,优化后的水平线条中点坐标均值集合Lx1记录了网格线条的X轴坐标,优化后的竖直线条中点坐标均值集合Ly1记录了网格线条的Y轴坐标。
步骤S209:将网格线条与单元格进行映射,得到表格的结构化图像。
步骤S209与上述步骤S108相同,在此不再赘述。
步骤S210:利用文字的位置信息确定文字对应结构化图像的位置,以得到待结构化图像的表格的结构化信息。
步骤S210与上述步骤S109相同,在此不再赘述。
区别于现有技术,本实施例提供的表格结构化方法,该表格结构化方法通过提取待结构化图像中的文字的位置信息以及待结构化图像的多个单元格的位置信息;对多个单元格进行连通域计算,得到待结构化图像的表格的边框轮廓;获取到边框轮廓的顶点的位置信息;以及获取到边框轮廓对应的包围框的顶点的位置信息;利用边框轮廓的顶点的位置信息及其对应的包围框的顶点的位置信息,计算得到边框轮廓的变换矩阵;通过变换矩阵对边框轮廓的单元格的位置信息进行校正;基于校正后的每个单元格的线条之间的位置关系对线条进行网格划分,得到网格线条;将网格线条与单元格进行映射,得到表格的结构化图像;利用文字的位置信息确定文字对应结构化图像的位置,以得到待结构化图像的表格的结构化信息。本申请的结构化方法充分利用深度学习方案得到单元格的位置信息和文字信息,准确挖掘表格线和单元格定点位置信息,从而获得准确的表格结构化信息。
请参阅图3,图3是本申请提供的表格恢复设备的一实施例的结构示意图。本实施例中的表格恢复设备30包括相互耦接的存储器301和处理器302;存储器301用于存储计算机程序;处理器302用于执行计算机程序,以实现如上所述的表格结构化方法。
本实施例中的表格恢复设备30中的处理器302实现上述功能的具体过程可参阅上述方法实施例。
请参阅图4,图4是本申请提供的具有存储功能的装置的一实施例的结构示意图,本申请还提供具有存储功能的装置40,存储有程序数据41,程序数据41能够被处理器执行以实现上述任一项的表格结构化方法。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种表格结构化方法,其特征在于,所述表格结构化方法包括:
获取到待结构化图像,提取所述待结构化图像中的文字的位置信息以及所述待结构化图像的多个单元格的位置信息;
对多个所述单元格进行连通域计算,得到所述待结构化图像的表格的边框轮廓;
获取到所述边框轮廓对应的包围框的顶点的位置信息;以及
获取到所述边框轮廓的顶点的位置信息;具体包括:通过多边形拟合的方式和直线检测的方式分别获取对应所述边框轮廓的顶点的位置信息;
利用所述边框轮廓的顶点的位置信息及其对应的所述包围框的顶点的位置信息,计算得到所述边框轮廓的变换矩阵;
通过所述变换矩阵对边框轮廓的单元格的位置信息进行校正;
基于校正后的每个单元格的线条之间的位置关系对所述线条进行网格划分,得到网格线条;
将所述网格线条与所述单元格进行映射,得到所述表格的结构化图像;
利用所述文字的位置信息确定所述文字对应所述结构化图像的位置,以得到所述待结构化图像的表格的结构化信息。
2.根据权利要求1所述的表格结构化方法,其特征在于,所述待结构化图像为至少一个;
获取到所述边框轮廓对应的包围框的顶点的位置信息;以及获取到所述边框轮廓的顶点的位置信息的步骤包括:
获取到各所述边框轮廓对应的包围框的顶点的位置信息;以及获取到各所述边框轮廓的顶点的位置信息;
所述利用所述边框轮廓的顶点的位置信息及其对应的所述包围框的顶点的位置信息,计算得到所述边框轮廓的变换矩阵的步骤,包括:
利用所述边框轮廓的顶点的位置信息及其对应的所述包围框的顶点的位置信息,计算得到各所述边框轮廓的变换矩阵;
所述通过所述变换矩阵对边框轮廓的单元格的位置信息进行校正的步骤包括:
通过所述变换矩阵对各边框轮廓的单元格的位置信息进行校正;
利用校正后的单元格的位置信息以及所述边框轮廓的位置关系确定每个所述单元格所属的表格。
3.根据权利要求1或2任一项所述的表格结构化方法,其特征在于,所述获取到所述边框轮廓对应的包围框的顶点的位置信息的步骤,包括:
将所述表格边框的最小外接边框进行旋转,得到所述最小外接边框旋转后的所述边框轮廓对应的包围框,并获取边框轮廓对应的包围框的顶点的位置信息。
4.根据权利要求3所述的表格结构化方法,其特征在于,所述将所述表格边框的最小外接边框进行旋转,得到所述最小外接边框旋转后的所述边框轮廓对应的包围框,并获取所述边框轮廓对应的包围框的顶点的位置信息的步骤,包括:
将所述表格边框的最小外接斜矩形进行旋转,得到矩形的包围框,并获取所述矩形的包围框的顶点的位置信息。
5.根据权利要求3所述的表格结构化方法,其特征在于,所述利用校正后的单元格的位置信息以及所述边框轮廓的位置关系确定每个所述单元格所属的表格的步骤,包括:
利用所述校正后的单元格的位置信息以及所述边框轮廓的位置关系计算所述校正后的单元格与所述边框轮廓的重叠部分的面积的比值;
判断所述比值是否大于第一预设值,若大于所述第一预设值则确定所述单元格属于所述表格;若否,则所述单元格不属于所述表格。
6.根据权利要求5所述的表格结构化方法,其特征在于,所述获取到所述边框轮廓对应的包围框的顶点的位置信息之后的步骤:
将所述多边形拟合的方式和直线检测的方式分别获取对应所述边框轮廓的顶点的位置信息分别映射到所述边框轮廓对应的包围框的顶点的位置信息上,并计算出对应的变换矩阵;
根据所述对应的变换矩阵对所述表格边框的轮廓点进行透视变换得到所述表格边框的轮廓点对应的外接边框;
计算所述表格边框的轮廓点对应的外接边框的倾斜角平均值;
根据所述倾斜角平均值选择多边形拟合的方式或直线检测的方式以获取所述边框轮廓的顶点的位置信息。
7.根据权利要求5所述的表格结构化方法,其特征在于,所述通过多边形拟合的方式和直线检测的方式获取所述边框轮廓的顶点的位置信息的步骤具体包括:
通过二分法获得所述连通域的顶点的位置信息,将所述连通域的顶点的位置信息作为所述边框轮廓的顶点。
8.根据权利要求5所述的表格结构化方法,其特征在于,所述通过多边形拟合的方式和直线检测的方式获取所述边框轮廓的顶点的位置信息的步骤还包括:
通过边缘检测识别所述连通域的边框;
通过霍夫变换检测所述连通域的边框中的线条;
根据所述线条的斜率判断所述任意两条线条是否属于同一边线,若否,则求出所述两条线条的交点,重复上述步骤得到所述交点形成的点集;
根据所述点集构建所述点集的外接边框,计算所述点集中距离所述外接边框端点最接近的点,将所述最接近的点作为所述边框轮廓的顶点。
9.根据权利要求1所述的表格结构化方法,其特征在于,所述基于校正后的每个单元格的线条之间的位置关系对所述线条进行网格划分,得到网格线条的步骤具体还包括:
计算校正后的每个所述单元格的外接边框的位置信息,根据所述校正后的每个所述单元格的外接边框的位置信息将所述校正后的每个所述单元格的外接边框的位置信息拆分为多条线条,其中,每条线条用2个端点进行表示,多条线条包括沿水平方向和沿竖直方向的线条;
重复上一步骤以获得所述线条的水平线条集合与竖直线条集合;
选取任意所述线条,获取所述线条的两个端点坐标,分别计算与所述端点最接近的点及其距离,判断所述距离是否小于第一误差值,若小于第一误差值,则停止计算;
将过滤后的线条进行合并,得到所述网格线条。
10.根据权利要求1所述的表格结构化方法,其特征在于,所述基于校正后的每个单元格的线条之间的位置关系对所述线条进行网格划分,得到网格线条的步骤具体还包括:
计算校正后的的每个单元格的外接边框的位置信息;
根据所述校正后的每个单元格的外接边框的位置信息获取所述每个单元格的外接斜矩形的多条线条的中点坐标,其中,水平线条的中点坐标的集合为水平线条中心坐标集合,竖直线条的中点坐标的集合为竖直线条中心坐标集合;
遍历所述水平线条中心坐标集合和竖直线条中心坐标集合,比较每个值与近邻值的差值是否小于第二误差值,若小于第二误差值,则标记两者有相同的标签,否则添加新标签;
计算各类标签的均值,得到优化后的水平线条中心坐标均值集合和竖直线条中心坐标均值集合;
根据所述优化后的水平线条中心坐标均值集合和竖直线条中心坐标均值集合进行网格划分,得到所述网格线条。
11.一种表格恢复设备,其特征在于,包括相互耦接的处理器和存储器,其中,
所述处理器用于执行所述存储器存储的计算机程序以执行权利要求1至10任一项所述的表格结构化方法。
12.一种具有存储功能的装置,其特征在于,存储有程序数据,所述程序数据能够被处理器执行以实现如权利要求1-10任一项所述的表格结构化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011615053.6A CN112733855B (zh) | 2020-12-30 | 2020-12-30 | 表格结构化方法、表格恢复设备及具有存储功能的装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011615053.6A CN112733855B (zh) | 2020-12-30 | 2020-12-30 | 表格结构化方法、表格恢复设备及具有存储功能的装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112733855A CN112733855A (zh) | 2021-04-30 |
CN112733855B true CN112733855B (zh) | 2024-04-09 |
Family
ID=75611134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011615053.6A Active CN112733855B (zh) | 2020-12-30 | 2020-12-30 | 表格结构化方法、表格恢复设备及具有存储功能的装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112733855B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114119410B (zh) * | 2021-11-19 | 2022-04-22 | 航天宏康智能科技(北京)有限公司 | 校正畸变表格图像中的单元格的方法及装置 |
CN115620322B (zh) * | 2022-12-20 | 2023-04-07 | 华南理工大学 | 一种基于关键点检测的全线表表格结构识别方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0652156A (ja) * | 1993-06-28 | 1994-02-25 | Hitachi Ltd | 文書処理方法及び装置 |
JP2006106971A (ja) * | 2004-10-01 | 2006-04-20 | Canon Inc | 表ベクトルデータ生成方法及び文書処理装置 |
CN106650608A (zh) * | 2016-10-31 | 2017-05-10 | 广东工业大学 | 一种无定位点试卷中矩形定位框的识别方法 |
CN109948135A (zh) * | 2019-03-26 | 2019-06-28 | 厦门商集网络科技有限责任公司 | 一种基于表格特征归一化图像的方法及设备 |
CN109961008A (zh) * | 2019-02-13 | 2019-07-02 | 平安科技(深圳)有限公司 | 基于文字定位识别的表格解析方法、介质及计算机设备 |
CN110008809A (zh) * | 2019-01-04 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 表格数据的获取方法、装置和服务器 |
CN110210409A (zh) * | 2019-06-04 | 2019-09-06 | 南昌市微轲联信息技术有限公司 | 表格单据中表格框线检测方法及系统 |
CN110532968A (zh) * | 2019-09-02 | 2019-12-03 | 苏州美能华智能科技有限公司 | 表格识别方法、装置和存储介质 |
CN111259854A (zh) * | 2020-02-04 | 2020-06-09 | 北京爱医生智慧医疗科技有限公司 | 一种文本图像中表格的结构化信息的识别方法及装置 |
CN111368744A (zh) * | 2020-03-05 | 2020-07-03 | 中国工商银行股份有限公司 | 图片中非结构化表格识别方法及装置 |
CN111640130A (zh) * | 2020-05-29 | 2020-09-08 | 深圳壹账通智能科技有限公司 | 表格还原方法及装置 |
CN111814722A (zh) * | 2020-07-20 | 2020-10-23 | 电子科技大学 | 一种图像中的表格识别方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107845068B (zh) * | 2016-09-18 | 2021-05-11 | 富士通株式会社 | 图像视角变换装置以及方法 |
-
2020
- 2020-12-30 CN CN202011615053.6A patent/CN112733855B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0652156A (ja) * | 1993-06-28 | 1994-02-25 | Hitachi Ltd | 文書処理方法及び装置 |
JP2006106971A (ja) * | 2004-10-01 | 2006-04-20 | Canon Inc | 表ベクトルデータ生成方法及び文書処理装置 |
CN106650608A (zh) * | 2016-10-31 | 2017-05-10 | 广东工业大学 | 一种无定位点试卷中矩形定位框的识别方法 |
CN110008809A (zh) * | 2019-01-04 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 表格数据的获取方法、装置和服务器 |
CN109961008A (zh) * | 2019-02-13 | 2019-07-02 | 平安科技(深圳)有限公司 | 基于文字定位识别的表格解析方法、介质及计算机设备 |
CN109948135A (zh) * | 2019-03-26 | 2019-06-28 | 厦门商集网络科技有限责任公司 | 一种基于表格特征归一化图像的方法及设备 |
CN110210409A (zh) * | 2019-06-04 | 2019-09-06 | 南昌市微轲联信息技术有限公司 | 表格单据中表格框线检测方法及系统 |
CN110532968A (zh) * | 2019-09-02 | 2019-12-03 | 苏州美能华智能科技有限公司 | 表格识别方法、装置和存储介质 |
CN111259854A (zh) * | 2020-02-04 | 2020-06-09 | 北京爱医生智慧医疗科技有限公司 | 一种文本图像中表格的结构化信息的识别方法及装置 |
CN111368744A (zh) * | 2020-03-05 | 2020-07-03 | 中国工商银行股份有限公司 | 图片中非结构化表格识别方法及装置 |
CN111640130A (zh) * | 2020-05-29 | 2020-09-08 | 深圳壹账通智能科技有限公司 | 表格还原方法及装置 |
CN111814722A (zh) * | 2020-07-20 | 2020-10-23 | 电子科技大学 | 一种图像中的表格识别方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112733855A (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110210409B (zh) | 表格单据中表格框线检测方法及系统 | |
CN106960208B (zh) | 一种仪表液晶数字自动切分和识别的方法及系统 | |
CN105868758B (zh) | 图像中文本区域检测方法、装置及电子设备 | |
CN110502985B (zh) | 表格识别方法、装置及表格识别设备 | |
CN112733855B (zh) | 表格结构化方法、表格恢复设备及具有存储功能的装置 | |
JP4395188B2 (ja) | 文書画像認識装置および文書画像認識プログラムの記憶媒体 | |
CN109948521B (zh) | 图像纠偏方法和装置、设备及存储介质 | |
JP3078166B2 (ja) | 物体認識方法 | |
CN112906695B (zh) | 适配多类ocr识别接口的表格识别方法及相关设备 | |
CN111881659B (zh) | 表格图片的处理方法、系统、可读存储介质及计算机设备 | |
CN113723399A (zh) | 一种车牌图像矫正方法、车牌图像矫正装置和存储介质 | |
CN111582000A (zh) | 一种条形码定位方法、装置及相关设备 | |
CN111626145B (zh) | 一种简捷有效的残缺表格识别及跨页拼接方法 | |
CN112364834A (zh) | 一种基于深度学习和图像处理的表格识别的还原方法 | |
CN112419207A (zh) | 一种图像矫正方法及装置、系统 | |
CN112800824B (zh) | 扫描文件的处理方法、装置、设备及存储介质 | |
CN115439866A (zh) | 一种针对三线表的表格结构识别的方法、设备和存储介质 | |
CN112036294B (zh) | 一种纸质表格结构自动识别的方法及装置 | |
CN111462099B (zh) | 一种基于快速积分图监测的图像细胞区域定位方法 | |
US20040114830A1 (en) | Method and apparatus for image processing | |
CN113378847B (zh) | 字符分割方法、系统、计算机设备和存储介质 | |
CN115082944A (zh) | 表格的智能识别切分方法、系统和终端 | |
KR20100009452A (ko) | 영상 처리 방법 | |
CN107092909A (zh) | 基于三角形相似定理的角度检测算法 | |
CN109145899B (zh) | 一种汽车仪表指针提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |