CN114663897A - 表格提取方法与表格提取系统 - Google Patents

表格提取方法与表格提取系统 Download PDF

Info

Publication number
CN114663897A
CN114663897A CN202210364491.2A CN202210364491A CN114663897A CN 114663897 A CN114663897 A CN 114663897A CN 202210364491 A CN202210364491 A CN 202210364491A CN 114663897 A CN114663897 A CN 114663897A
Authority
CN
China
Prior art keywords
cell
text
determining
vertex
coordinates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210364491.2A
Other languages
English (en)
Inventor
路浩南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shell Housing Network Beijing Information Technology Co Ltd
Original Assignee
Shell Housing Network Beijing Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shell Housing Network Beijing Information Technology Co Ltd filed Critical Shell Housing Network Beijing Information Technology Co Ltd
Priority to CN202210364491.2A priority Critical patent/CN114663897A/zh
Publication of CN114663897A publication Critical patent/CN114663897A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明涉及图像处理技术领域,公开一种表格提取方法与系统。所述方法包括:通过图像分割模型对表格图像进行分割,以获得标记有各个像素点处的线属性的掩膜图像;采用图像学方法对掩膜图像进行处理,以获取每个单元格的顶点坐标、起始行索引、起始列索引、终止行索引与终止列索引;通过文本识别模型对表格图像进行识别,以获得每个文本的最小外接矩形的顶点坐标与文本内容;根据每个单元格的顶点坐标与每个文本的最小外接矩形的顶点坐标,确定每个单元格内的文本内容;以及根据上述行索引与列索引及文本内容,生成以目标文件呈现的表格。本发明在表格印刷的不清楚或噪音干扰较大的情况下,仍可精准地提取任何版式的表格。

Description

表格提取方法与表格提取系统
技术领域
本发明涉及图像处理技术领域,具体地涉及一种表格提取方法与表格提取系统。
背景技术
表格OCR(Optical Character Recognition,光学字符识别)是指对图片中表格的结构信息进行提取,并结合OCR对图像中的文字信息进行提取,并以excel等形式还原表格中的信息。
传统的表格OCR方法可以分成以下两种。一种方法是,使用OCR对表格中的文本进行检测识别,并根据文本框的空间排布信息推导出有哪些行、有哪些列、哪些单元格需合并,由此生成电子表格。对于数据表格版式并不统一的单据,采用这种方法需要编写无穷无尽的规则对识别出的文字进行结构化,且很难做到通用。另一种方法是,运用图像形态学变换并结合相应阈值等手段提取表格线,再结合OCR结果对信息进行结构化,从而生成电子表格。此种方法抗干扰性差,如果表格框线印刷的不是很清楚或者噪音干扰较大,就会影响表格框线检测结果,从而造成最终信息难以还原的结果。
发明内容
本发明的目的是提供一种表格提取方法与表格提取系统,其在表格印刷的不清楚或噪音干扰较大的情况下,仍可精准地提取任何版式的表格。
为了实现上述目的,本发明第一方面提供一种表格提取方法,所述表格提取方法包括:通过图像分割模型对表格图像进行分割,以获得标记有各个像素点处的线属性的掩膜图像;采用图像学方法对所述掩膜图像进行处理,以获取每个单元格的顶点坐标及所述每个单元格的起始行索引、起始列索引、终止行索引与终止列索引;通过文本识别模型对所述表格图像进行识别,以获得所述表格图像中的每个文本的最小外接矩形的顶点坐标与文本内容;根据所述每个单元格的顶点坐标与所述每个文本的最小外接矩形的顶点坐标,确定所述每个单元格内的文本内容;以及根据所述每个单元格的起始行索引、起始列索引、终止行索引与终止列索引及所述每个单元格内的文本内容,生成以目标文件呈现的表格。
优选地,所述采用图像学方法对所述掩膜图像进行处理包括:对所述掩膜图像进行连通域标记,得到各个连通域;根据所述各个连通域中的像素点的坐标,获取与所述各个连通域相匹配的最小外接矩形框中的四个线段的头坐标与尾坐标;根据与所述各个连通域相匹配的最小外接矩形框中的四个线段的头坐标与尾坐标,建立单元格矩阵;以及对所述单元格矩阵进行连通域标记,以获取所述每个单元格的顶点坐标。
优选地,所述获取与所述各个连通域相匹配的最小外接矩形框中的四个线段的头坐标与尾坐标包括:根据所述各个连通域中的像素点的坐标,获取与所述各个连通域相匹配的最小外接矩形框的顶点坐标;以及根据与所述各个连通域相匹配的最小外接矩形框的顶点坐标及所述最小外接矩形框中的每个线段的方向,确定所述每个线段的头坐标与尾坐标。
优选地,所述确定所述每个线段的头坐标与尾坐标包括:针对所述最小外接矩形框中的横向线段,将所述最小外接矩形框的横坐标的最小值确定为头横坐标,将所述最小外接矩形框的左上角顶点的纵坐标与左下角顶点的纵坐标的均值确定为头纵坐标,将所述最小外接矩形框的横坐标的最大值确定为尾横坐标,并将所述最小外接矩形框的右上角顶点的纵坐标与右下角顶点的纵坐标的均值为尾纵坐标;以及针对所述最小外接矩形框中的纵向线段,将所述最小外接矩形框的纵坐标的最小值确定为头纵坐标,将所述最小外接矩形框的左上角顶点的横坐标与右上角顶点的横坐标的均值确定为头横坐标,将所述最小外接矩形框的纵坐标的最大值确定为尾纵坐标,并将所述最小外接矩形框的左下角顶点的横坐标与右下角顶点的横坐标的均值确定为尾横坐标。
优选地,所述采用图像学方法对所述掩膜图像进行处理还包括:根据所述各个连通域相匹配的最小外接矩形框中的横向线段的头纵坐标或尾纵坐标,对所述横向线段进行升序排序,以形成第一集合;根据所述各个连通域相匹配的最小外接矩形框中的纵向线段的头横坐标或尾横坐标,对所述纵向线段进行升序排序,以形成第二集合;将所述第一集合中的距所述每个单元格的左上角顶点的坐标最近的线段确定为所述每个单元格的起始行索引,并将所述第一集合中的距所述每个单元格的右下角顶点的坐标最近的线段确定为所述每个单元格的终止行索引;以及将所述第二集合中的距所述每个单元格的左上角顶点的坐标最近的线段确定为所述每个单元格的起始列索引,并将所述第二集合中的距所述每个单元格的右下角顶点的坐标最近的线段确定为所述每个单元格的终止列索引。优选地,所述确定所述每个单元格内的文本内容包括:遍历所述每个单元格,并在特定文本的最小外接矩形与特定单元格的交集面积大于临界阈值的情况下,确定所述特定文本的最小外接矩形的文本内容为所述特定单元格内的文本内容。
优选地,所述临界阈值为所述特定文本的最小外接矩形的面积与所述特定单元格的面积两者中的最小值与预设值的乘积。
通过上述技术方案,本发明创造性地首先通过图像分割模型对表格图像进行分割,以获得标记有各个像素点处的线属性的掩膜图像;然后采用图像学方法对所述掩膜图像进行处理,以获取每个单元格的顶点坐标及所述每个单元格的起始行索引、起始列索引、终止行索引与终止列索引;再者通过文本识别模型对所述表格图像进行识别,以获得所述表格图像中的每个文本的最小外接矩形的顶点坐标与文本内容;之后根据所述每个单元格的顶点坐标与所述每个文本的最小外接矩形的顶点坐标,确定所述每个单元格内的文本内容;最后根据所述每个单元格的起始行索引、起始列索引、终止行索引与终止列索引及所述每个单元格内的文本内容,生成以目标文件呈现的表格。由此,本发明在表格印刷的不清楚或噪音干扰较大的情况下,也可精准地提取任何版式的表格。
本发明第二方面提供一种表格提取系统,所述表格提取系统包括:分割装置,用于通过图像分割模型对表格图像进行分割,以获得标记有各个像素点处的线属性纵线的掩膜图像;处理装置,用于采用图像学方法对所述掩膜图像进行处理,以获取每个单元格的顶点坐标及所述每个单元格的起始行索引、起始列索引、终止行索引与终止列索引;文本识别装置,用于通过文本识别模型对所述表格图像进行识别,以获得所述表格图像中的每个文本的最小外接矩形的顶点坐标与文本内容文本识别模型;文本确定装置,用于根据所述每个单元格的顶点坐标与所述每个文本的最小外接矩形的顶点坐标,确定所述每个单元格内的文本内容;以及生成装置,用于根据所述每个单元格的起始行索引、起始列索引、终止行索引与终止列索引及所述每个单元格内的文本内容,生成以目标文件呈现的表格。
有关本发明提供的表格提取系统的具体细节及益处可参阅上述针对表格提取方法的描述,于此不再赘述。
本发明第三方面还提供一种机器可读存储介质,所述机器可读存储介质上存储有指令,该指令用于使得机器执行上述的表格提取方法。
本发明第四方面还提供一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述的表格提取方法。
本发明第五方面还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述的表格提取方法。
本发明的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
图1是本发明一实施例提供的表格提取方法的流程图;
图2是本发明一实施例提供的采用图像学方法对所述掩膜图像进行处理的流程图;
图3是本发明一实施例提供的线段标注样本;
图4是本发明一实施例提供的线段分割效果图;
图5是本发明一实施例提供的单元格计算效果图;以及
图6是本发明一实施例提供的表格提取方法的流程图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
图1是本发明一实施例提供的表格提取方法的流程图。如图1所示,所述表格提取方法可包括步骤S101-S105。
在执行步骤S101之前,先对图像分割模型的训练及验证进行简要说明。
首先,使用labelme(一种用于目标分割的标注工具)对表格框线训练数据进行标注。标注原则为:对横线(即横向线段)进行从左至右的两点标注(标签标为1),对纵线(即纵向线段)进行从上到下的两点标注(标签标为2),从而生成训练集,标注文件如图3所示。
其次,将训练集输入至图像分割模型(例如DarkNet模型,具体可为DarkNet YOLOv4模型)进行训练;训练得出不同的分割模型,以验证集中的效果为准进行模型选择。验证标准为计算验证集的预测结果和真实结果的IOU值。其中,IOU值是一种衡量目标检测准确度的指标。IOU值的计算方式为“预测的边区域”和“真实的边区域”的交集和并集的比值,IOU值越高说明图像分割模型越准确。在一实施例中,可选择IOU值最大的图像分割模型为下文所述的图像分割模型。
步骤S101,通过图像分割模型对表格图像进行分割,以获得标记有各个像素点处的线属性的掩膜图像。
其中,所述各个像素点处的线属性指示各个像素点处的线是否为横线/纵线。例如,可用标识“1”表示为横线/纵线,“0”表示不为横线/纵线。
将待提取的表格图像输入到图像分割模型中,以通过该图像分割模型进行分割。输出结果包含两个矩阵,两个矩阵的维度与图像尺寸相同:一个矩阵中的每个元素代表的意义为原图中此位置像素是否为横线(“1”为是;“0”为不是),另一个矩阵中的每个元素代表的意义为原图中此位置像素是否为纵线(“1”为是;“0”为不是)。图4为由图像分割模型输出的两个矩阵叠加的掩膜(mask)图像的结果,其中白色代表线段,黑色代表非线段。
本步骤S101使用深度学习模型代替传统图像学方法可极大地提升框线分割精度与鲁棒性。
通过步骤S101得到线段的mask图,相当于只得到了属于线段区域的点的集合,但未得到每个线段的头、尾坐标与单元格的坐标,下面将使用图像学方法对mask图进行处理。
步骤S102,采用图像学方法对所述掩膜图像进行处理,以获取每个单元格的顶点坐标及所述每个单元格的起始行索引、起始列索引、终止行索引与终止列索引。
对于步骤S102,所述采用图像学方法对所述掩膜图像进行处理可包括步骤S201-S204,如图2所示。
步骤S201,对所述掩膜图像进行连通域标记,得到各个连通域。
使用膨胀与腐蚀等图像学方法(例如skimage.measure.label())对mask图进行连通域的标记,得到所有的连通域。
步骤S202,根据所述各个连通域中的像素点的坐标,获取与所述各个连通域相匹配的最小外接矩形框中的四个线段的头坐标与尾坐标。
对于步骤S202,所述获取与所述各个连通域相匹配的最小外接矩形框中的四个线段的头坐标与尾坐标包括:根据所述各个连通域中的像素点的坐标,获取与所述各个连通域相匹配的最小外接矩形框的顶点坐标;以及根据与所述各个连通域相匹配的最小外接矩形框的顶点坐标及所述最小外接矩形框中的每个线段的方向,确定所述每个线段的头坐标与尾坐标。
其中,所述确定所述每个线段的头坐标与尾坐标可包括:针对所述最小外接矩形框中的横向线段,将所述最小外接矩形框的横坐标的最小值确定为头横坐标,将所述最小外接矩形框的左上角顶点的纵坐标与左下角顶点的纵坐标的均值确定为头纵坐标,将所述最小外接矩形框的横坐标的最大值确定为尾横坐标,并将所述最小外接矩形框的右上角顶点的纵坐标与右下角顶点的纵坐标的均值为尾纵坐标;以及针对所述最小外接矩形框中的纵向线段,将所述最小外接矩形框的纵坐标的最小值确定为头纵坐标,将所述最小外接矩形框的左上角顶点的横坐标与右上角顶点的横坐标的均值确定为头横坐标,将所述最小外接矩形框的纵坐标的最大值确定为尾纵坐标,并将所述最小外接矩形框的左下角顶点的横坐标与右下角顶点的横坐标的均值确定为尾横坐标。
具体地,对任一连通域而言,首先,取此连通域内的所有像素点的坐标,以得到关于该连通域的点集合coords;然后,对点集合coords求最小外接矩形框(简称为box),并获取所述box的左上角、右上角、右下角和左下角的坐标(即顶点坐标)。接着,对于所述box的横线而言,取所述box中横坐标的最小值为头的横坐标值,取所述box的左上角顶点的纵坐标与左下角顶点的纵坐标的均值为头的纵坐标值,取所述box中的横坐标的最大值为尾的横坐标值,取所述box的右上角顶点的纵坐标与右下角顶点的纵坐标的均值为尾的纵坐标值;对于所述box的纵线而言,取所述box中的纵坐标的最小值为头的纵坐标值,取所述box的左上角顶点的纵坐标与右上角顶点的横坐标的均值为头的横坐标值,取所述box中的纵坐标的最大值为尾的纵坐标值,取所述box的左下角顶点的纵坐标与右下角顶点的横坐标的均值为尾的横坐标值,从而得到各个线段的头、尾坐标。
对于所有连通域执行上述过程,以确定各个连通域的最小外接矩形框中的四个线段的头坐标与尾坐标。
步骤S203,根据与所述各个连通域相匹配的最小外接矩形框中的四个线段的头坐标与尾坐标,建立单元格矩阵。
按照线段的头、尾坐标将各个线段放在空矩阵中的相应位置,即建立单元格矩阵。其中,所述空矩阵可与输入图像的尺寸相同。
步骤S204,对所述单元格矩阵进行连通域标记,以获取所述每个单元格的顶点坐标。
根据所述单元格矩阵,对其进行像素值为0的连通域计算,得到对应于单元格的各个连通域的四点坐标,即得到每个单元格的坐标,如图5所示。
上述内容仅得到每个单元格的坐标,但excel等目标文件中没有坐标信息,故若需要采用excel等目标文件的形式呈现表格,需要得到每个单元格的起始与终止的行和列。为解决该问题,在本实施例中,需要结合横向线段集合与纵向线段集合中的线段的排序情况,确定单元格的行、列索引。
对于步骤S102,所述采用图像学方法对所述掩膜图像进行处理还包括:
根据所述各个连通域相匹配的最小外接矩形框中的横向线段的头纵坐标或尾纵坐标,对所述横向线段进行升序排序,以形成第一集合;根据所述各个连通域相匹配的最小外接矩形框中的纵向线段的头横坐标或尾横坐标,对所述纵向线段进行升序排序,以形成第二集合;将所述第一集合中的距所述每个单元格的左上角顶点的坐标最近的线段确定为所述每个单元格的起始行索引,并将所述第一集合中的距所述每个单元格的右下角顶点的坐标最近的线段确定为所述每个单元格的终止行索引;以及将所述第二集合中的距所述每个单元格的左上角顶点的坐标最近的线段确定为所述每个单元格的起始列索引,并将所述第二集合中的距所述每个单元格的右下角顶点的坐标最近的线段确定为所述每个单元格的终止列索引。首先,根据横向线段的头纵坐标(或尾纵坐标)对所有横向线段进行从上至下的排序,以得到横线集合RowsLines{横线0、横线1、横线2、……};根据纵向线段的头横坐标(或尾横坐标)对所有纵向线段进行从左至右的排序,以得到纵线集合ColsLines{纵线0、纵线1、纵线2、……}。然后,遍历每个单元格并执行以下操作:确定每个单元格的左上角顶点p1和右下角顶点p2,计算并确定横线集合RowsLines中离p1最近的线,此线则为起始行row_st;计算并确定横线集合RowsLines中离p2最近的线,此线则为终止行row_end;计算并确定纵线集合ColsLines中离p1最近的线,此线则为起始列col_st;计算并确定纵线集合ColsLines中离p2最近的线,此线则为终止列col_end,从而得到了每个单元格的行列索引。
因此,上述步骤S102使用膨胀与腐蚀等图像学的方式对框线进行合并,并得到各个单元格的相对位置关系与四个顶点坐标。
步骤S103,通过文本识别模型对所述表格图像进行识别,以获得所述表格图像中的每个文本的最小外接矩形的顶点坐标与文本内容。
对于步骤S103,所述通过文本识别模型对所述表格图像进行识别可包括:通过所述文本识别模型中的检测模块对所述表格图像进行识别,以获得所述每个文本的最小外接矩形的顶点坐标;以及通过文本识别模型中的识别模块对所述每个文本进行识别,以获得所述每个文本的最小外接矩形内的文本内容。
其中,所述检测模块可为基于cornernet的检测模块;以及所述识别模块可为基于ResNet的识别模块。
首先,通过基于cornernet的检测模块对所述表格图像进行识别,可得到每个文本的最小外接矩形的坐标信息。然后,通过基于ResNet的识别模块对每个文本进行识别,可得到每个文本的最小外接矩形内的文本内容。
步骤S104,根据所述每个单元格的顶点坐标与所述每个文本的最小外接矩形的顶点坐标,确定所述每个单元格内的文本内容。
对于步骤S104,所述确定所述每个单元格内的文本内容可包括:遍历所述每个单元格,并在特定文本的最小外接矩形与特定单元格的交集面积大于临界阈值的情况下,确定所述特定文本的最小外接矩形的文本内容为所述特定单元格内的文本内容。
其中,所述临界阈值为所述特定文本的最小外接矩形的面积与所述特定单元格的面积两者中的最小值与预设值的乘积。
针对所识别的所有文本中的任一者(例如,特定文本A),遍历每个单元格,根据下式计算特定文本A的最小外接矩形与每个单元格的改进的IOU值,
Figure BDA0003585315450000101
若特定文本A的最小外接矩形与特定单元格的改进的IOU值大于一预设值(例如0.8),则认为此特定文本A属于所述特定单元格。由此,通过改进的IOU值确定文本内容的方式可避免漏掉面积较小的文字。对于所识别的所有文本中的其他文本执行上述类似过程,以确定各个单元格内的文本内容。
步骤S105,根据所述每个单元格的起始行索引、起始列索引、终止行索引与终止列索引及所述每个文本框的位置坐标与文本内容,生成以目标文件呈现的表格。
其中,所述目标文件为excel文件。
首先,使用表格创建模块(例如xlsxwriter)创建一个excel文件对象。然后,根据每个单元格的行、列索引,判断每个图像中的单元格所占excel文件中的单元格的个数。假设图像中一个单元格起始行列为(0,0),终止行列为(2,2),则所述图像的单元格分别对应于excel文件中的第一行第一列、第一行第二列、第二行第一列、第二行第二列的单元格。接着,将每个单元格内的文本内容填充到excel文件中,从而完成了整个表格的OCR流程。即,使用转换脚本对表格信息进行处理,以转换为excel文件。
具体而言,下面将对表格提取过程进行简要说明,如图6所示。
所述表格提取过程可包括以下步骤S601-S608。
步骤S601,输入待提取的表格图像,并执行步骤S602与步骤S605。
步骤S602,加载训练好的图像分割模型。
步骤S603,通过图像分割模型输出分割结果,并计算每个单元格的顶点坐标。
步骤S604,计算每个单元格的起始行索引、起始列索引、终止行索引与终止列索引。
步骤S605,加载训练好的文本识别模型。
步骤S606,通过文本识别模型输出每个文本的最小外接矩形的顶点坐标与文本内容。
步骤S607,确定目标文件中的每个单元格的文本内容。
步骤S608,转换脚本得到excel文件。
综上所述,本发明创造性地首先通过图像分割模型对表格图像进行分割,以获得标记有各个像素点处的线属性的掩膜图像;然后采用图像学方法对所述掩膜图像进行处理,以获取每个单元格的顶点坐标及所述每个单元格的起始行索引、起始列索引、终止行索引与终止列索引;再者通过文本识别模型对所述表格图像进行识别,以获得所述表格图像中的每个文本的最小外接矩形的顶点坐标与文本内容;之后根据所述每个单元格的顶点坐标与所述每个文本的最小外接矩形的顶点坐标,确定所述每个单元格内的文本内容;最后根据所述每个单元格的起始行索引、起始列索引、终止行索引与终止列索引及所述每个单元格内的文本内容,生成以目标文件呈现的表格。由此,本发明在表格印刷的不清楚或噪音干扰较大的情况下,也可精准地提取任何版式的表格。
本发明一实施例还提供一种表格提取系统,所述表格提取系统包括:分割装置,用于通过图像分割模型对表格图像进行分割,以获得标记有各个像素点处的线属性纵线的掩膜图像;处理装置,用于采用图像学方法对所述掩膜图像进行处理,以获取每个单元格的顶点坐标及所述每个单元格的起始行索引、起始列索引、终止行索引与终止列索引;文本识别装置,用于通过文本识别模型对所述表格图像进行识别,以获得所述表格图像中的每个文本的最小外接矩形的顶点坐标与文本内容文本识别模型;文本确定装置,用于根据所述每个单元格的顶点坐标与所述每个文本的最小外接矩形的顶点坐标,确定所述每个单元格内的文本内容;以及生成装置,用于根据所述每个单元格的起始行索引、起始列索引、终止行索引与终止列索引及所述每个单元格内的文本内容,生成以目标文件呈现的表格。
有关本发明提供的表格提取系统的具体细节及益处可参阅上述针对表格提取方法的描述,于此不再赘述。
本发明一实施例还提供一种机器可读存储介质,所述机器可读存储介质上存储有指令,该指令用于使得机器执行上述的表格提取方法。
本发明一实施例还提供一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述的表格提取方法。
本发明一实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述的表格提取方法。
以上结合附图详细描述了本发明实施例的可选实施方式,但是,本发明实施例并不限于上述实施方式中的具体细节,在本发明实施例的技术构思范围内,可以对本发明实施例的技术方案进行多种简单变型,这些简单变型均属于本发明实施例的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施例对各种可能的组合方式不再另行说明。
本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
此外,本发明实施例的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施例的思想,其同样应当视为本发明实施例所公开的内容。

Claims (10)

1.一种表格提取方法,其特征在于,所述表格提取方法包括:
通过图像分割模型对表格图像进行分割,以获得标记有各个像素点处的线属性的掩膜图像;
采用图像学方法对所述掩膜图像进行处理,以获取每个单元格的顶点坐标及所述每个单元格的起始行索引、起始列索引、终止行索引与终止列索引;
通过文本识别模型对所述表格图像进行识别,以获得所述表格图像中的每个文本的最小外接矩形的顶点坐标与文本内容;
根据所述每个单元格的顶点坐标与所述每个文本的最小外接矩形的顶点坐标,确定所述每个单元格内的文本内容;以及
根据所述每个单元格的起始行索引、起始列索引、终止行索引与终止列索引及所述每个单元格内的文本内容,生成以目标文件呈现的表格。
2.根据权利要求1所述的表格提取方法,其特征在于,所述采用图像学方法对所述掩膜图像进行处理包括:
对所述掩膜图像进行连通域标记,得到各个连通域;
根据所述各个连通域中的像素点的坐标,获取与所述各个连通域相匹配的最小外接矩形框中的四个线段的头坐标与尾坐标;
根据与所述各个连通域相匹配的最小外接矩形框中的四个线段的头坐标与尾坐标,建立单元格矩阵;以及
对所述单元格矩阵进行连通域标记,以获取所述每个单元格的顶点坐标。
3.根据权利要求2所述的表格提取方法,其特征在于,所述获取与所述各个连通域相匹配的最小外接矩形框中的四个线段的头坐标与尾坐标包括:
根据所述各个连通域中的像素点的坐标,获取与所述各个连通域相匹配的最小外接矩形框的顶点坐标;以及
根据与所述各个连通域相匹配的最小外接矩形框的顶点坐标及所述最小外接矩形框中的每个线段的方向,确定所述每个线段的头坐标与尾坐标。
4.根据权利要求3所述的表格提取方法,其特征在于,所述确定所述每个线段的头坐标与尾坐标包括:
针对所述最小外接矩形框中的横向线段,将所述最小外接矩形框的横坐标的最小值确定为头横坐标,将所述最小外接矩形框的左上角顶点的纵坐标与左下角顶点的纵坐标的均值确定为头纵坐标,将所述最小外接矩形框的横坐标的最大值确定为尾横坐标,并将所述最小外接矩形框的右上角顶点的纵坐标与右下角顶点的纵坐标的均值为尾纵坐标;以及
针对所述最小外接矩形框中的纵向线段,将所述最小外接矩形框的纵坐标的最小值确定为头纵坐标,将所述最小外接矩形框的左上角顶点的横坐标与右上角顶点的横坐标的均值确定为头横坐标,将所述最小外接矩形框的纵坐标的最大值确定为尾纵坐标,并将所述最小外接矩形框的左下角顶点的横坐标与右下角顶点的横坐标的均值确定为尾横坐标。
5.根据权利要求4所述的表格提取方法,其特征在于,所述采用图像学方法对所述掩膜图像进行处理还包括:
根据所述各个连通域相匹配的最小外接矩形框中的横向线段的头纵坐标或尾纵坐标,对所述横向线段进行升序排序,以形成第一集合;
根据所述各个连通域相匹配的最小外接矩形框中的纵向线段的头横坐标或尾横坐标,对所述纵向线段进行升序排序,以形成第二集合;
将所述第一集合中的距所述每个单元格的左上角顶点的坐标最近的线段确定为所述每个单元格的起始行索引,并将所述第一集合中的距所述每个单元格的右下角顶点的坐标最近的线段确定为所述每个单元格的终止行索引;以及
将所述第二集合中的距所述每个单元格的左上角顶点的坐标最近的线段确定为所述每个单元格的起始列索引,并将所述第二集合中的距所述每个单元格的右下角顶点的坐标最近的线段确定为所述每个单元格的终止列索引。
6.根据权利要求1所述的表格提取方法,其特征在于,所述确定所述每个单元格内的文本内容包括:
遍历所述每个单元格,并在特定文本的最小外接矩形与特定单元格的交集面积大于临界阈值的情况下,确定所述特定文本的最小外接矩形的文本内容为所述特定单元格内的文本内容。
7.根据权利要求1所述的表格提取方法,其特征在于,所述临界阈值为所述特定文本的最小外接矩形的面积与所述特定单元格的面积两者中的最小值与预设值的乘积。
8.一种表格提取系统,其特征在于,所述表格提取系统包括:
分割装置,用于通过图像分割模型对表格图像进行分割,以获得标记有各个像素点处的线属性纵线的掩膜图像;
处理装置,用于采用图像学方法对所述掩膜图像进行处理,以获取每个单元格的顶点坐标及所述每个单元格的起始行索引、起始列索引、终止行索引与终止列索引;
文本识别装置,用于通过文本识别模型对所述表格图像进行识别,以获得所述表格图像中的每个文本的最小外接矩形的顶点坐标与文本内容文本识别模型;
文本确定装置,用于根据所述每个单元格的顶点坐标与所述每个文本的最小外接矩形的顶点坐标,确定所述每个单元格内的文本内容;以及
生成装置,用于根据所述每个单元格的起始行索引、起始列索引、终止行索引与终止列索引及所述每个单元格内的文本内容,生成以目标文件呈现的表格。
9.一种机器可读存储介质,其特征在于,所述机器可读存储介质上存储有指令,该指令用于使得机器执行上述权利要求1-7中任一项所述的表格提取方法。
10.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-7中任一项所述的表格提取方法。
CN202210364491.2A 2022-04-07 2022-04-07 表格提取方法与表格提取系统 Pending CN114663897A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210364491.2A CN114663897A (zh) 2022-04-07 2022-04-07 表格提取方法与表格提取系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210364491.2A CN114663897A (zh) 2022-04-07 2022-04-07 表格提取方法与表格提取系统

Publications (1)

Publication Number Publication Date
CN114663897A true CN114663897A (zh) 2022-06-24

Family

ID=82035156

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210364491.2A Pending CN114663897A (zh) 2022-04-07 2022-04-07 表格提取方法与表格提取系统

Country Status (1)

Country Link
CN (1) CN114663897A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449620A (zh) * 2021-06-17 2021-09-28 深圳思谋信息科技有限公司 基于语义分割的表格检测方法、装置、设备和介质
CN116311311A (zh) * 2023-05-23 2023-06-23 荣耀终端有限公司 电子表格生成方法、装置、电子设备及可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449620A (zh) * 2021-06-17 2021-09-28 深圳思谋信息科技有限公司 基于语义分割的表格检测方法、装置、设备和介质
CN116311311A (zh) * 2023-05-23 2023-06-23 荣耀终端有限公司 电子表格生成方法、装置、电子设备及可读存储介质
CN116311311B (zh) * 2023-05-23 2023-10-10 荣耀终端有限公司 电子表格生成方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN111814722B (zh) 一种图像中的表格识别方法、装置、电子设备及存储介质
KR100325384B1 (ko) 문자열추출장치및패턴추출장치
CN114663897A (zh) 表格提取方法与表格提取系统
JPH08305803A (ja) 文字テンプレートセット学習マシン動作方法
CN113343740B (zh) 表格检测方法、装置、设备和存储介质
CN110135407B (zh) 样本标注方法及计算机存储介质
CN111126266B (zh) 文本处理方法、文本处理系统、设备及介质
CN111626145A (zh) 一种简捷有效的残缺表格识别及跨页拼接方法
CN116402020A (zh) 基于ofd文档的签名图像化处理方法、系统和存储介质
CN115618847A (zh) 一种解析pdf文档的方法、装置和可读存储介质
CN114495141A (zh) 文档段落位置提取方法、电子设备及存储介质
JP5601027B2 (ja) 画像処理装置及び画像処理プログラム
CN116912857A (zh) 手写体和印刷体文本分离方法及装置
CN116402028A (zh) Pdf文件的精简方法
CN115311666A (zh) 图文识别方法、装置、计算机设备及存储介质
CN112836632B (zh) 自定义模板文字识别的实现方法及系统
CN111027521B (zh) 文本处理方法及系统、数据处理设备及存储介质
CN113837119A (zh) 一种基于灰度图像识别易混淆字符的方法及设备
CN111898402A (zh) 一种智能排版系统
CN109409370B (zh) 一种远程桌面字符识别方法和装置
JP3814334B2 (ja) 画像処理装置及びその方法
CN112825141B (zh) 识别文本的方法、装置、识别设备和存储介质
JP2009193170A (ja) 文字認識装置及び文字認識方法
JPH0830725A (ja) 画像処理装置及び方法
JP2708604B2 (ja) 文字認識方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination