CN114357958A - 一种表格提取方法、装置、设备及存储介质 - Google Patents

一种表格提取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114357958A
CN114357958A CN202011066461.0A CN202011066461A CN114357958A CN 114357958 A CN114357958 A CN 114357958A CN 202011066461 A CN202011066461 A CN 202011066461A CN 114357958 A CN114357958 A CN 114357958A
Authority
CN
China
Prior art keywords
lines
line
image
cell
intersection point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011066461.0A
Other languages
English (en)
Inventor
吴秦龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Suzhou Software Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202011066461.0A priority Critical patent/CN114357958A/zh
Publication of CN114357958A publication Critical patent/CN114357958A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请公开了一种表格提取方法、装置、设备及存储介质,所述方法包括:获取包含表格的表格图像;采用预设图像处理策略对表格图像进行处理,得到表格图像中表格的横向表格线与纵向表格线;其中,预设图像处理策略具有处理可见和/或不可见表格线的功能;基于横向表格线与纵向表格线,确定表格的多个交点;采用单元格剪枝策略,确定出每个交点对应的单元格结构信息;基于每个交点对应的单元格结构信息,生成电子表格。如此,通过识别表格图像中至少一个单元格结构信息,根据单元格结构信息构建完整的表格结构,实现对表格图像中表格结构的提取。

Description

一种表格提取方法、装置、设备及存储介质
技术领域
本申请涉及图像处理领域,尤其涉及一种表格提取方法、装置、设备及存储介质。
背景技术
表格是由行与列构成的一种组织、整理数据的有效手段,其清晰、可视化的交流模式,使其在数据分析、科学研究甚至大众的生活中被广泛使用。
现有技术中提供了一种表格提取方法,提取待检测图像中的表格线,基于表格线实现表格的提取。现有技术中所提取的表格线可理解为可直观看见的表格线(即可见表格线),由于某些表格中存在不可见表格线,而现有技术无法提取不可见表格线,因此无法实现对存在不可见表格线的重新构建。
发明内容
为解决上述技术问题,本申请期望提供一种表格提取方法、装置、设备及存储介质,目的在于实现对表格图像中表格结构的提取。
本申请的技术方案是这样实现的:
第一方面,提供了一种表格提取方法,该方法包括:
获取包含表格的表格图像;
采用预设图像处理策略对所述表格图像进行处理,得到所述表格图像中表格的横向表格线与纵向表格线;其中,所述预设图像处理策略具有处理可见和/或不可见表格线的功能;
基于所述横向表格线与所述纵向表格线,确定所述表格的多个交点;
采用单元格剪枝策略,确定出每个交点对应的单元格结构信息;
基于所述每个交点对应的单元格结构信息,生成电子表格。
上述方案中,所述基于所述横向表格线与所述纵向表格线,确定所述表格的多个交点,包括:对所述横向表格线及所述纵向表格线进行标识,得到横向表格线标识信息及纵向表格线标识信息;基于所述横向表格线标识信息及所述纵向表格线标识信息,确定组成每个交点的横向表格线标识信息和纵向表格线标识信息。
上述方案中,所述采用单元格剪枝策略,确定出每个交点对应的单元格结构信息,包括:获取多个交点中目标交点对应的单元格集合;其中,所述目标交点为所述多个交点中的任意一个交点;计算所述目标交点对应的单元格集合中至少一个单元格的面积;按照面积从小到大的顺序对所述目标交点对应的至少一个单元格进行排序,得到排序结果;基于所述排序结果,确定所述目标交点对应的目标单元格;获取每个交点对应的目标单元格的单元格结构信息。
上述方案中,所述基于所述排序结果,确定所述目标交点对应的目标单元格,包括:按照所述排序结果,从排列在第一位的单元格开始依次获取待检测单元格;对所述待检测单元格进行边框判断;若所述待检测单元格的四条边都存在,则将所述待检测单元格作为所述目标单元格;若所述待检测单元格的至少一条边不存在,则从所述排序结果中获取下一个待检测单元格继续进行边框判断。
上述方案中,所述采用预设图像处理策略对所述表格图像进行处理,得到所述表格图像中表格的横向表格线与纵向表格线,包括:利用表格线分割模型对所述表格图像进行图像分割处理,得到表格线预测图;对所述表格线预测图进行二值化处理,得到表格线二值图;对所述表格线二值图进行去噪处理,得到去噪后的表格线二值图;对所述去噪后的表格线二值图进行折线拟合处理,得到所述表格图像的表格线;其中,所述表格线中包含所述横向表格线和所述纵向表格线。
上述方案中,所述利用表格线分割模型对所述表格图像进行图像分割处理之前,所述方法还包括:将表格图像样本输入到表格线分割模型中,输出所述表格图像样本的表格线预测信息;其中,所述表格图像样本中包含可见表格线和不可见表格线;根据所述表格线预测信息和表格线真实信息,确定所述表格图像样本的损失函数的值;根据所述损失函数的值调整所述表格线分割模型的参数直至满足收敛条件,得到训练好的表格线分割模型。
上述方案中,所述表格线分割模型为深度卷积神经网络模型。
上述方案中,所述横向表格线包括可见横向表格线和/或不可见横向表格线;所述纵向表格线包括可见纵向表格线和/或不可见纵向表格线。
第二方面,提供了一种表格提取装置,该装置包括:
获取单元,用于获取包含表格的表格图像;
处理单元,用于采用预设图像处理策略对所述表格图像进行处理,得到所述表格图像中表格的横向表格线与纵向表格线;其中,所述预设图像处理策略具有处理可见和/或不可见表格线的功能;
确定单元,用于基于所述横向表格线与所述纵向表格线,确定所述表格的多个交点;
所述确定单元,还用于采用单元格剪枝策略,确定出每个交点对应的单元格结构信息;
生成单元,用于基于所述至少一个单元格结构信息,生成电子表格。
第三方面,提供了一种表格提取设备,包括:处理器和配置为存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器配置为运行所述计算机程序时,执行前述方法的步骤。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其中,该计算机程序被处理器执行时实现前述方法的步骤。
采用上述技术方案,获取包含表格的表格图像;采用预设图像处理策略对表格图像进行处理,得到表格图像中表格的横向表格线与纵向表格线;其中,预设图像处理策略具有处理可见和/或不可见表格线的功能;基于横向表格线与纵向表格线,确定表格的多个交点;采用单元格剪枝策略,确定出每个交点对应的单元格结构信息;基于每个交点对应的单元格结构信息,生成电子表格。如此,通过识别表格图像中至少一个单元格结构信息,根据单元格结构信息构建完整的表格结构,实现对表格图像中表格结构的提取。
附图说明
图1为本申请实施例中表格提取方法的第一流程示意图;
图2为本申请实施例中表格提取方法的第二流程示意图;
图3为本申请实施例中待提取表格结构的第一表格图像;
图4a-图4d为本申请实施例中第一表格图像分割后的4幅二值图;
图5为本申请实施例中表格结构提取系统结构图;
图6为本申请实施例中待提取表格结构的第二表格图像;
图7为本申请实施例中表格提取方法的第三流程示意图;
图8为本申请实施例中表格提取方法的第四流程示意图;
图9a为本申请实施例中纵向表格线二值图;
图9b为本申请实施例中横向表格线二值图;
图10为本申请实施例中横向表格线与纵向表格线的交点图;
图11为本申请实施例中提取的表格结构示意图;
图12为本申请实施例中提取的电子表格结构示意图;
图13为本申请实施例中表格提取装置组成结构的示意图;
图14为本申请实施例中表格提取设备组成结构的示意图。
具体实施方式
为了能够更加详尽地了解本申请实施例的特点与技术内容,下面结合附图对本申请实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本申请实施例。
本申请实施例提供了一种表格提取方法,图1为本申请实施例中表格提取方法的第一流程示意图,如图1所示,该表格提取方法具体可以包括:
步骤101:获取包含表格的表格图像;
需要说明的是,包含表格的表格图像的获取方式可以有多种,例如,通过图像采集设备、本地存储或者外部存储方式来获取包含表格的表格图像。具体的,图像采集设备可以是智能终端,包括手机、平板电脑等,智能终端通过摄像头取采集包含表格的表格图像,并发送给表格提取设备进行表格结构的提取;或者,在本地或外部预先存储包含表格的表格图像,表格提取设备直接从本地或外部存储的图像中获取包含表格的表格图像,并进行表格结构的提取。
步骤102:采用预设图像处理策略对所述表格图像进行处理,得到所述表格图像中表格的横向表格线与纵向表格线;其中,所述预设图像处理策略具有处理可见和/或不可见表格线的功能;
需要说明的是,可见表格线指的是可直观看见的表格线,不可见表格线指的是不可直观看见的表格线。表格的构建是基于横向表格线和纵向表格线实现。若想对表格图像中的表格进行提取,需采用预设图像处理策略对表格图像进行处理得到该表格图像所包含的横向表格线和纵向表格线。由于某些表格图像中会存在部分不可见表格线,因此,这里的预设图像处理策略不仅能识别表格图像中可见的表格线,还能识别不可见的表格线。
这里,横向表格线包含可见横向表格线和/或不可见横向表格线,纵向表格线包含可见纵向表格线和/或不可见纵向表格线。
在一些实施例中,该步骤具体包括:利用表格线分割模型对所述表格图像进行图像分割处理,得到表格线预测图;对所述表格线预测图进行二值化处理,得到表格线二值图;对所述表格线二值图进行去噪处理,得到去噪后的表格线二值图;对所述去噪后的表格线二值图进行折线拟合处理,得到所述表格图像的表格线;其中,所述表格线中包含所述横向表格线和所述纵向表格线。
需要说明的是,表格图像经过训练好的表格线分割模型处理后,所得到的表格线预测图的像素值为0~1之间,其中,0表示黑色,1表示白色。通常为体现表格线的效果,会对表格线预测图进行二值化处理,即就是将像素值为0~1的表格线预测图处理成0和1的像素值组成的表格线二值图。基于表格图像经过表格线分割模型后可能会分割出其他像素值的一些像素点,所以,还需进行去噪处理,获取到平滑的表格线二值图。表格线二值图是由多个像素点组成,可以理解成横向表格线与纵向表格线均是多个像素点组成,要生成图表形式,需对其进行拟合处理,进而得到表格图像的表格线。
实际应用中,由于表格线二值图主要是由像素值0、1组成的,可能会存在一些其余像素值的像素点,所以需要对表格线二值图进行去噪处理,可通过计算连通域的方法进行去噪处理。这里,连通域指的是多个相同像素值的像素点组成的连通区域。例如,对于像素值为0的像素点,查找像素值相同的相邻像素点,将其串联起来并计算连通域面积;对于像素值为1或者其余像素值的像素点,通过上述同样的方法分别计算各自的连通域面积。将各个连通域面积分别与预设的阈值进行比较,去除连通域面积小于预设阈值的连通域,也就将其余像素值的像素点去除,实现了对表格线二值图的去噪处理。
实际应用中,表格线二值图是由多个像素点组成,且表格线二值图中多个像素点不一定位于同一条直线,存在个别像素点偏离众多像素点的情况,因此,拟合处理选为折线拟合。如果基于每一个像素点进行折线拟合,工作量大,所以,通常从多个像素点中选取出至少三个像素点,例如,当选出三个像素点时,两个像素点之间可确定一条直线。
示例性的,图3为本申请实施例中待提取表格结构的第一表格图像。当使用表格线分割模型对该第一表格图像进行图像分割时,由于该表格线分割模型可以对输入图像的每个像素点预测对应的类别,其中,预测类别包括可见的横向表格线、不可见横向表格线、可见纵向表格线、不可见纵向表格线,因此,这里经过表格线分割模型后可得到四张表格线预测图,预测图中每一个像素点的像素值为0~1之间,这里,为体现表格线的效果,得到表格线预测图后对其进行了二值化处理,即得到图4a可见的横向表格线二值图、图4b不可见横向表格线二值图、图4c可见纵向表格线二值图、图4d不可见纵向表格线二值图。二值图中每个像素点的像素值是由0和1组成,0表示黑色,1表示白色,这里,表格线是由0表示,背景是由1表示。其中,上述提到的可见表格线与不可见表格线为表格线的属性信息,后续可结合表格线的属性信息去重建表格。
需要说明的是,图4b不可见横向表格线二值图及图4d不可见纵向表格线二值图中表格线,这里虽然是由可见的表格线表示的,但是,具体还原表格时是不显示的。
在一些实施例中,所述利用表格线分割模型对所述表格图像进行图像分割处理之前,所述方法还包括:训练表格线分割模型。具体的训练表格线分割模型方法包括:将表格图像样本输入到表格线分割模型中,输出所述表格图像样本的表格线预测信息;其中,所述表格图像样本中包含可见和/或不可见表格线;根据所述表格线预测信息和表格线真实信息,确定所述预测表格图像的损失函数的值;根据所述损失函数的值调整所述表格线分割模型的参数直至满足收敛条件,得到训练好的表格线分割模型。
需要说明的是,利用表格线分割模型对表格图像进行图像分割处理之前,需要训练好能够识别并分割出可见表格线和不可见表格线的表格线分割模型。
具体地,在对表格线分割模型训练时,将包含可见和/或不可见表格线的表格图像样本输入到表格线分割模型中,输出表格图像样本的表格线预测信息,比如预测信息可以包括可见的横向表格线、可见纵向表格线、不可见横向表格线、不可见纵向表格线。与该表格图像样本的表格线真实信息相比较,得出该表格图像样本的损失函数的值。当基于损失函数的值调整表格线分割模型的参数满足收敛条件时,该表格线分割模型为训练好的分割模型。当基于损失函数的值调整表格线分割模型的参数不满足收敛条件时,需继续对表格线分割模型的参数进行调整,直至满足收敛条件。
上述提到的表格线分割模型可以是深度卷积神经网络模型。
步骤103:基于所述横向表格线与所述纵向表格线,确定所述表格的多个交点;
需要说明的是,表格的横向表格线和纵向表格线均至少包括两条表格线,一条横向表格线与一条纵向表格线可确定表格的一个交点。表格的多个交点包含四种情况,即可见横向表格线与可见纵向表格线的交点,可见横向表格线与不可见表格线的交点,不可见横向表格线与可见纵向表格线的交点,不可见横向表格线与不可见表格线的交点。
在一些实施例中,该步骤具体包括:对所述横向表格线及所述纵向表格线进行标识,得到横向表格线标识信息及纵向表格线标识信息;基于所述横向表格线标识信息及所述纵向表格线标识信息,确定组成每个交点的横向表格线标识信息和纵向表格线标识信息。
需要说明的是,表格线标识信息中包含表格线的位置信息(具体可以是以表格线行号或列号来表示)及表格线的属性信息,其中,属性信息可以是该表格线属于可见表格线还是不可见表格线。
识别每一个交点可通过每一个交点自身的标识信息去识别。所以,这里对横向表格线、纵向表格线进行标识,确定每个横向表格线及纵向表格线对应的标识信息,进而确定每个交点的横向表格线标识信息和纵向表格线标识信息。
示例性的,获取到表格图像中表格的横向表格线与纵向表格线后,对横向表格线与纵向表格线按照次序对其进行标识,可按照第0行横向表格线、第1行横向表格线等,第0列纵向表格线、第1列纵向表格线等依次排列,分别得到对应的表格线集合。其中,第0行横向表格线属于不可见表格线、第1行横向表格线属于可见表格线、第0列纵向表格线属于不可见表格线、第1列纵向表格线属于可见表格线。第0行横向表格线与第1列纵向表格线相交得到的交点,该交点包括组成该交点的横向表格线标识信息和纵向表格线标识信息,即(0-1),以及第0行横向表格线的属性信息为不可见,第1列纵向表格线的属性信息为可见,其他交点一样。
步骤104:采用单元格剪枝策略,确定出每个交点对应的单元格结构信息;
需要说明的是,获取一组对角交点的横向表格线标识信息和纵向表格线标识信息,可构建一单元格。由于横向表格线与纵向表格线确定了多个交点,每一个交点可对应的对角交点为多个,那对角交点组合成的单元格之间存在包含关系,需进一步根据单元格剪枝策略从中筛选出每一个交点对应的单元格,即也就确定了交点对应的单元格结构信息。具体的筛选方法在下一个实施例阐述。
步骤105:基于所述每个交点对应的单元格结构信息,生成电子表格。
需要说明的是,电子表格是由至少一个单元格构成,当获得每个交点对应的单元格的横向表格线标识信息和纵向表格线标识信息,在一个空白的电子表格中依据每个单元格的横、纵表格线标识信息和表格实际位置坐标可生成所需的电子表格。
这里的电子表格可以是excel表格、wps表格、word表格。
这里,步骤101至步骤105的执行主体可以为表格提取装置的处理器。
采用上述技术方案,获取包含表格的表格图像;采用预设图像处理策略对表格图像进行处理,得到表格图像中表格的横向表格线与纵向表格线;其中,预设图像处理策略具有处理可见和/或不可见表格线的功能;基于横向表格线与纵向表格线,确定表格的多个交点;采用单元格剪枝策略,确定出每个交点对应的单元格结构信息;基于每个交点对应的单元格结构信息,生成电子表格。如此,通过识别表格图像中至少一个单元格结构信息,根据单元格结构信息构建完整的表格结构,实现对表格图像中表格结构的提取。
本申请实施例还提供了另一种表格提取方法,图2为本申请实施例中表格提取方法的第二流程示意图,如图2所示,该表格提取方法具体可以包括:
步骤201:获取包含表格的表格图像;
步骤202:采用预设图像处理策略对所述表格图像进行处理,得到所述表格图像中表格的横向表格线与纵向表格线;其中,所述预设图像处理策略具有处理可见和/或不可见表格线的功能;
这里,横向表格线包含可见横向表格线和/或不可见横向表格线,纵向表格线包含可见纵向表格线和/或不可见纵向表格线。
该步骤不仅可以识别可见的表格线,也可以识别不可见的表格线,进一步提升了表格线的识别率。
步骤203:基于所述横向表格线与所述纵向表格线,确定所述表格的多个交点;
需要说明的是,表格中存在多个交点,为了区分各个交点及后续可根据交点的信息构建表格,这里对横向表格线及纵向表格线分别进行标识,表格线标识信息包括表格线的位置信息及属性信息。其中,位置信息可以是表格线行号或列号;属性信息可以是表格线的可见还是不可见。
步骤204:获取所述多个交点中目标交点对应的单元格集合;其中,所述目标交点为所述多个交点中的任意一个交点;计算所述目标交点对应的单元格集合中至少一个单元格的面积;按照面积从小到大的顺序对所述目标交点对应的至少一个单元格进行排序,得到排序结果;
需要说明的是,从表格中的多个交点中选取任一交点作为目标交点,获取与目标交点成对角关系的至少一个对角点。目标交点与任一对角点可表示一单元格,与至少一个对角点则可构成一单元格集合。这里,目标交点可为某一单元格左上角的交点,那么查找右下角的交点,即可表示一单元格。
需要说明的是,从单元格集合中确定目标交点对应的目标单元格时,通过计算目标交点与任一对角交点的横向表格线差值及纵向表格线差值,将横向表格线差值与纵向表格线差值相乘即可得到每一个单元格的面积,按照单元格面积从小到大的顺序对至少一个单元格进行排序。后续可根据排序结果,确定目标交点对应的目标单元格。
实际应用中,获取与目标交点成对角关系的至少一个对角点时,可直接从确定的多个交点中选取(单元格可能存在合并单元格情况,这样,某些交点是不存在的),也可从所有可能存在的交点中选取。
步骤205:按照所述排序结果,从排列在第一位的单元格开始依次获取待检测单元格;对所述待检测单元格进行边框判断;若所述待检测单元格的四条边都存在,则将所述待检测单元格作为所述目标单元格;若所述待检测单元格的至少一条边不存在,则从所述排序结果中获取下一个待检测单元格继续进行边框判断;
实际应用中,通过表格线分割模型得到一横向表格线集合及纵向表格线集合,在判断待检测单元格的四条边是否存在时,是基于横向表格线集合及纵向表格线集合中是否存在待检测单元格的边,若均存在,说明待检测单元格为目标单元格;若至少一条边不存在,则需获取下一个单元格并继续进行判断。
示例性的,第1行横向表格线表示(1-2)点到(1-7)点,当判断待检测单元格中的(1-3)到(1-4)之间的边框是否存在时,可根据第1行横向表格线信息(表格线信息中包含起始表格线标识信息和结束表格线标识信息),判断此边框存在,也就是说待检测单元格为目标单元格。
步骤206:获取每个交点对应的目标单元格的单元格结构信息;
需要说明的是,目标单元格的单元格结构信息指的是目标单元格的起始横、纵表格线标识信息及结束横、纵表格线标识信息。
步骤207:基于所述每个交点对应的单元格结构信息,生成电子表格。
需要说明的是,电子表格是由至少一个单元格构成,当获得每个交点对应的单元格的横向表格线标识信息和纵向表格线标识信息,在一个空白的电子表格中依据每个单元格的横、纵表格线标识信息和表格实际位置坐标可生成所需的电子表格。
实际应用中,若待检测单元格中的(1-3)到(1-4)之间的边框是存在的,且第1行横向表格线属于不可见横向表格线,则还原待检测单元格时,该边框是不可见的。
这里的电子表格可以是excel表格、wps表格、word表格。
采用上述技术方案,获取包含表格的表格图像;采用预设图像处理策略对表格图像进行处理,得到表格图像中表格的横向表格线与纵向表格线;其中,预设图像处理策略具有处理可见和/或不可见表格线的功能;基于横向表格线与纵向表格线,确定表格的多个交点;采用单元格剪枝策略,确定出每个交点对应的单元格结构信息;基于每个交点对应的单元格结构信息,生成电子表格。如此,通过识别表格图像中至少一个单元格结构信息,根据单元格结构信息构建完整的表格结构,实现对表格图像中表格结构的提取。
图5为本申请实施例中表格结构提取系统结构图,如图5所示,具体的,
表格结构提取主要包含两个主要模块:表格线分割模块50、表格线结构提取模块51。
将包含表格的表格图像输入到表格线分割模块50,根据表格线分割模块50中的表格线分割模型对表格图像进行表格线分割,得到表格线二值图,包括可见横向表格线二值图、不可见横向表格线二值图、可见纵向表格线二值图及不可见纵向表格线二值图;接着通过表格线结构提取模块51中的表格线连通区域分析、折线拟合、表格线交点计算、单元格分析提取对表格线二值图继续进行处理,进而输出表格结构信息,进而可重新构建电子表格。
下面具体给出一个对包含表格的表格图像进行表格提取的示例,图6为待提取表格结构的第二表格图像。图7为表格提取方法的第三流程示意图,是对图6中的表格图像进行提取,可忽略对表格中文字的识别,直接识别表格线,最终提取出表格的单元格结构信息,后续可通过识别文字的方法识别出文字,将文字回填于提取的表格中。
如图7所示,该方法具体包括:
步骤701:将待提取表格结构的表格图像输入到深度卷积神经网络模型模型中进行分割处理,得到表格线预测图;
这里,深度卷积神经网络模型对待提取表格结构的表格图像进行处理之前,需对深度卷积神经网络模型进行训练,训练完成的深度卷积神经网络模型具备分割可见表格线和不可见表格线的功能。
对图6进行分割处理后,得到的表格线预测图为可见横向表格线预测图及可见纵向表格线预测图。这里的表格线预测图是由多个像素点构成。
步骤702:对表格线预测图进行二值化处理,得到表格线二值图;
对由多个像素点构成的表格线预测图进行二值化处理,得到可见横向表格线二值图及可见纵向表格线二值图。
步骤703:通过表格结构提取模块提取表格图像的表格结构;
表格结构提取模块中包含表格线连通区域分析、折线拟合、表格线交点计算、单元格信息提取。图8为表格提取方法的第四流程示意图。如图8所示,具体的,
步骤801:连通区域分析;
连通区域分析操作实际上就是去噪的过程。表格线二值图主要是由像素值0、1组成的,可能会存在一些其余像素值的像素点,需对表格线二值图进行去噪处理,可通过计算连通域进行去噪处理。这里,连通域指的是多个相同像素值的像素点组成的连通区域。例如,对于像素值为0的像素点,查找像素值相同的相邻像素点,将其串联起来并计算连通域面积;对于像素值为1或者其余像素值的像素点,通过上述同样的方法分别计算各自的连通域面积。将各个连通域面积分别与预设的阈值进行比较,去除连通域面积小于预设阈值的连通域,也就将其余像素值的像素点去除,实现了对表格线二值图的去噪处理。
步骤802:折线拟合;
表格线二值图是由多个像素点组成,可以理解成横向表格线与纵向表格线均是多个数据组成,要生成图表形式,需对其进行拟合处理,进而得到表格图像的表格线。
需要说明的是,表格线二值图是由多个像素点组成,且表格线二值图中多个像素点不一定位于同一条直线,存在个别像素点偏离众多像素点的情况,因此,拟合处理选为折线拟合。如果基于每一个像素点进行折线拟合,工作量大,所以,通常从多个像素点中选取出至少三个像素点,例如,当选出三个像素点时,两个像素点之间可确定一条直线。也就是说,拟合的结果是表格线由至少两段直线表示。
步骤803:交点计算;
交点为横向表格线与纵向表格线的交点。进行交点计算之前,需对拟合后的横向表格线和纵向表格线进行标识排序操作。图9a为进行排序后的纵向表格线二值图,从图9a可看出纵向表格线二值图中表格线标识信息分别用col-0,col-1,…,col-7表示,且每一个纵向表格线均为可见。图9b为进行排序后的横向表格线二值图,从图9b可看出横向表格线二值图中表格线标识信息分别用row-0,row-1,…,row-3表示,且每一个纵向表格线均为可见。其中,横向表格线集合为[row-0,row-1,…,row-3],纵向表格线集合为:[col-0,col-1,…,col-7]。
对横向表格线与纵向表格线进行了排序及标识后,可快速明确横向表格线与纵向表格线位置信息和属性信息。
交点集合可表示为Points:[p-0,p-1,...,p-T],交点可表示为p-t:[col-m,row-n,x,y];其中,x,y为当前交点的真实位置,即x,y确定后续创建电子表格时电子表格的具体位置。
如图10为横向表格线与纵向表格线的交点图,这里,没有对交点的真实位置x、y进行标注。其中,第0行横向表格线与第0列纵向表格线相交得到交点,该交点包括组成该交点的横向表格线标识信息和纵向表格线标识信息,即(0-0),及第0行横向表格线属性信息为可见,第0列纵向表格线属性信息为不可见,其他交点同理,这样交点对应的单元格结构信息即包含了构成每个单元的横向表格线和纵向表格线的位置信息和属性信息,利用单元格信息可以得到与图像中表格具有相同表格格式的电子表格。
这里,其他交点包括:(0-2)、(0-5)、(0-7)、(1-2)、(1-3)、(1-4)、(1-5)、(1-6)、(1-7)、(2-0)、(2-1)、(2-2)、(2-3)、(2-4)、(2-5)、(2-6)、(2-7)、(3-0)、(3-1)、(3-2)、(3-3)、(3-4)、(3-5)、(3-6)、(3-7)。
步骤804:单元格剪枝策略;
列举(0-0)交点可能对应的单元格,直接从上述步骤中选取出与(0-0)成对角关系的交点,即(1-2)、(1-3)、(1-4)、(1-5)、(1-6)、(1-7)、(2-1)、(2-2)、(2-3)、(2-4)、(2-5)、(2-6)、(2-7)、(3-1)、(3-2)、(3-3)、(3-4)、(3-5)、(3-6)、(3-7)。(0-0)交点分别与成对角关系的任一交点表示一单元格。
通过剪枝策略对上述可能单元格进行判断,选取出目标单元格。具体的,
每个单元格由起始横向表格线、起始纵向表格线、结束横向表格线、结束纵向表格线、单元格面积组成。通过计算起始横向表格线与结束横向表格线之间差值,计算结束横向表格线与纵向表格线之间差值,将两个差值进行相乘即可得到对应的单元格的面积。并按照单元格面积从小到大对上述列举的至少一个单元格进行排序,这些单元格中部分存在包含关系。
若当前判断的是(0-0)与(2-1)表示的单元格,根据横、纵向表格线集合,确定(0-0)与(2-0)之间的边、(0-0)与(0-1)之间的边、(0-1)与(2-1)之间的边、(2-0)与(2-1)之间的边均是存在的,即当前单元格是存在的,不需要继续判断以(0-0)交点对应的剩余单元格。
接下来可继续对剩余交点列举可能存在的单元格,若单元格的至少一条边不存在,即可判断下一个单元格,直到找到四条边均存在的单元格;若找到四条边存在的单元格,不需对剩余的单元格进行判断。基于上述方式找到剩余交点所对应的单元格。
步骤704:输出电子表格。
将每个交点对应的单元格组合起来输出如图11所示的表格结构图。具体的,单元格0-0-2-1可理解为:左上角(0-0)与右下角(2-0)所表示的单元格;同样的,左上角(0-1)与右下角(2-1)表示的单元格为0-1-2-2;左上角(0-2)与右下角(1-5)表示的单元格为0-2-1-5;左上角(0-5)与右下角(1-7)表示的单元格为0-5-1-7;左上角(1-2)与右下角(2-3)表示的单元格为1-2-2-3;左上角(1-3)与右下角(2-5)表示的单元格为1-3-2-5;左上角(1-4)与右下角(2-5)表示的单元格为1-4-2-5;左上角(1-5)与右下角(2-6)表示的单元格为1-5-2-6;左上角(1-6)与右下角(2-7)表示的单元格为1-6-2-7;左上角(2-0)与右下角(3-1)表示的单元格为2-0-3-1;左上角(2-1)与右下角(3-2)表示的单元格为2-1-3-2;左上角(2-2)与右下角(3-3)表示的单元格为2-2-3-3;左上角(2-3)与右下角(3-4)表示的单元格为2-3-3-4;左上角(2-4)与右下角(3-5)表示的单元格为2-4-3-5;左上角(2-5)与右下角(3-6)表示的单元格为2-5-3-6;左上角(2-6)与右下角(3-7)表示的单元格为2-6-3-7。
将每个交点对应的单元格结构信息在一个空白表格中重新建立,可得到图12所示的电子表格结构示意图。
采用上述技术方案,获取包含表格的表格图像;采用预设图像处理策略对表格图像进行处理,得到表格图像中表格的横向表格线与纵向表格线;其中,预设图像处理策略具有处理可见和/或不可见表格线的功能;基于横向表格线与纵向表格线,确定表格的多个交点;采用单元格剪枝策略,确定出每个交点对应的单元格结构信息;基于每个交点对应的单元格结构信息,生成电子表格。如此,通过识别表格图像中至少一个单元格结构信息,根据单元格结构信息构建完整的表格结构,实现对表格图像中表格结构的提取。
本申请实施例中还提供了一种表格提取装置,如图13所示,该装置包括:
获取单元1301,用于获取包含表格的表格图像;
处理单元1302,用于采用预设图像处理策略对所述表格图像进行处理,得到所述表格图像中表格的横向表格线与纵向表格线;其中,所述预设图像处理策略具有处理可见和/或不可见表格线的功能;
确定单元1303,用于基于所述横向表格线与所述纵向表格线,确定所述表格的多个交点;
所述确定单元1303,还用于采用单元格剪枝策略,确定出每个交点对应的单元格结构信息;
生成单元1304,用于基于所述至少一个单元格结构信息,生成电子表格。
在一些实施例中,所述装置包括:确定单元1303,具体用于对所述横向表格线及所述纵向表格线进行标识,得到横向表格线标识信息及纵向表格线标识信息;基于所述横向表格线标识信息及所述纵向表格线标识信息,确定组成每个交点的横向表格线标识信息和纵向表格线标识信息。
在一些实施例中,所述装置包括:确定单元1303,具体还用于获取所述多个交点中目标交点对应的单元格集合;其中,所述目标交点为所述多个交点中的任意一个交点;计算所述目标交点对应的单元格集合中至少一个单元格的面积;按照面积从小到大的顺序对所述目标交点对应的至少一个单元格进行排序,得到排序结果;基于所述排序结果,确定所述目标交点对应的目标单元格;获取每个交点对应的目标单元格的单元格结构信息。
在一些实施例中,所述装置包括:确定单元1303,基于所述排序结果,确定所述目标交点对应的目标单元格时,具体用于按照所述排序结果,从排列在第一位的单元格开始依次获取待检测单元格;对所述待检测单元格进行边框判断;若所述待检测单元格的四条边都存在,则将所述待检测单元格作为所述目标单元格;若所述待检测单元格的至少一条边不存在,则从所述排序结果中获取下一个待检测单元格继续进行边框判断。
在一些实施例中,所述装置包括:处理单元1302,,具体利用表格线分割模型对所述表格图像进行图像分割处理,得到表格线预测图;对所述表格线预测图进行二值化处理,得到表格线二值图;对所述表格线二值图进行去噪处理,得到去噪后的表格线二值图;对所述去噪后的表格线二值图进行折线拟合处理,得到所述表格图像的表格线;其中,所述表格线中包含所述横向表格线和所述纵向表格线。
在一些实施例中,所述利用表格线分割模型对所述表格图像进行图像分割处理之前,将表格图像样本输入到表格线分割模型中,输出所述表格图像样本的表格线预测信息;其中,所述表格图像样本中包含可见和不可见表格线;根据所述表格线预测信息和表格线真实信息,确定所述表格图像样本的损失函数的值;根据所述损失函数的值调整所述表格线分割模型的参数直至满足收敛条件,得到训练好的表格线分割模型。
在一些实施例中,所述表格线分割模型为深度卷积神经网络模型。
在一些实施例中,所述横向表格线包括可见横向表格线和/或不可见横向表格线;所述纵向表格线包括可见纵向表格线和/或不可见纵向表格线。
采用上述技术方案,获取包含表格的表格图像;采用预设图像处理策略对表格图像进行处理,得到表格图像中表格的横向表格线与纵向表格线;其中,预设图像处理策略具有处理可见和/或不可见表格线的功能;基于横向表格线与纵向表格线,确定表格的多个交点;采用单元格剪枝策略,确定出每个交点对应的单元格结构信息;基于每个交点对应的单元格结构信息,生成电子表格。如此,通过识别表格图像中至少一个单元格结构信息,根据单元格结构信息构建完整的表格结构,实现对表格图像中表格结构的提取。
本申请实施例还提供了一种表格提取设备,如图14所示,该设备包括:处理器1401和配置为存储能够在处理器上运行的计算机程序的存储器1402;
其中,处理器1401配置为运行计算机程序时,执行前述实施例中的方法步骤。
当然,实际应用时,如图14所示,该设备中的各个组件通过总线系统1403耦合在一起。可理解,总线系统1403用于实现这些组件之间的连接通信。总线系统1403除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图14中将各种总线都标为总线系统1403。
在实际应用中,上述处理器可以为特定用途集成电路(ASIC,ApplicationSpecific Integrated Circuit)、数字信号处理装置(DSPD,Digital Signal ProcessingDevice)、可编程逻辑装置(PLD,Programmable Logic Device)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、控制器、微控制器、微处理器中的至少一种。可以理解地,对于不同的设备,用于实现上述处理器功能的电子器件还可以为其它,本申请实施例不作具体限定。
上述存储器可以是易失性存储器(volatile memory),例如随机存取存储器(RAM,Random-Access Memory);或者非易失性存储器(non-volatile memory),例如只读存储器(ROM,Read-Only Memory),快闪存储器(flash memory),硬盘(HDD,Hard Disk Drive)或固态硬盘(SSD,Solid-State Drive);或者上述种类的存储器的组合,并向处理器提供指令和数据。
本申请实施例还提供了一种计算机可读存储介质,用于存储计算机程序。
可选的,该计算机可读存储介质可应用于本申请实施例中的任意一种方法,并且该计算机程序使得计算机执行本申请实施例的各个方法中由处理器实现的相应流程,为了简洁,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种表格提取方法,其特征在于,所述方法包括:
获取包含表格的表格图像;
采用预设图像处理策略对所述表格图像进行处理,得到所述表格图像中表格的横向表格线与纵向表格线;其中,所述预设图像处理策略具有处理可见和/或不可见表格线的功能;
基于所述横向表格线与所述纵向表格线,确定所述表格的多个交点;
采用单元格剪枝策略,确定出每个交点对应的单元格结构信息;
基于所述每个交点对应的单元格结构信息,生成电子表格。
2.根据权利要求1所述的方法,其特征在于,所述基于所述横向表格线与所述纵向表格线,确定所述表格的多个交点,包括:
对所述横向表格线及所述纵向表格线进行标识,得到横向表格线标识信息及纵向表格线标识信息;
基于所述横向表格线标识信息及所述纵向表格线标识信息,确定组成每个交点的横向表格线标识信息和纵向表格线标识信息。
3.根据权利要求1所述的方法,其特征在于,所述采用单元格剪枝策略,确定出每个交点对应的单元格结构信息,包括:
获取多个交点中目标交点对应的单元格集合;其中,所述目标交点为所述多个交点中的任意一个交点;
计算所述目标交点对应的单元格集合中至少一个单元格的面积;
按照面积从小到大的顺序对所述目标交点对应的至少一个单元格进行排序,得到排序结果;
基于所述排序结果,确定所述目标交点对应的目标单元格;
获取每个交点对应的目标单元格的单元格结构信息。
4.根据权利要求3所述的方法,其特征在于,所述基于所述排序结果,确定所述目标交点对应的目标单元格,包括:
按照所述排序结果,从排列在第一位的单元格开始依次获取待检测单元格;对所述待检测单元格进行边框判断;
若所述待检测单元格的四条边都存在,则将所述待检测单元格作为所述目标单元格;
若所述待检测单元格的至少一条边不存在,则从所述排序结果中获取下一个待检测单元格继续进行边框判断。
5.根据权利要求1所述的方法,其特征在于,所述采用预设图像处理策略对所述表格图像进行处理,得到所述表格图像中表格的横向表格线与纵向表格线,包括:
利用表格线分割模型对所述表格图像进行图像分割处理,得到表格线预测图;
对所述表格线预测图进行二值化处理,得到表格线二值图;
对所述表格线二值图进行去噪处理,得到去噪后的表格线二值图;
对所述去噪后的表格线二值图进行折线拟合处理,得到所述表格图像的表格线;其中,所述表格线中包含所述横向表格线和所述纵向表格线。
6.根据权利要求5所述的方法,其特征在于,所述利用表格线分割模型对所述表格图像进行图像分割处理之前,所述方法还包括:
将表格图像样本输入到表格线分割模型中,输出所述表格图像样本的表格线预测信息;其中,所述表格图像样本中包含可见表格线和不可见表格线;
根据所述表格线预测信息和表格线真实信息,确定所述表格图像样本的损失函数的值;
根据所述损失函数的值调整所述表格线分割模型的参数直至满足收敛条件,得到训练好的表格线分割模型。
7.根据权利要求6所述的方法,其特征在于,
所述表格线分割模型为深度卷积神经网络模型。
8.根据权利要求1-7任一项所述的方法,其特征在于,
所述横向表格线包括可见横向表格线和/或不可见横向表格线;
所述纵向表格线包括可见纵向表格线和/或不可见纵向表格线。
9.一种表格提取装置,其特征在于,所述装置包括:
获取单元,用于获取包含表格的表格图像;
处理单元,用于采用预设图像处理策略对所述表格图像进行处理,得到所述表格图像中表格的横向表格线与纵向表格线;其中,所述预设图像处理策略具有处理可见和/或不可见表格线的功能;
确定单元,用于基于所述横向表格线与所述纵向表格线,确定所述表格的多个交点;
所述确定单元,还用于采用单元格剪枝策略,确定出每个交点对应的单元格结构信息;
生成单元,用于基于所述至少一个单元格结构信息,生成电子表格。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8任一项所述的方法的步骤。
CN202011066461.0A 2020-09-30 2020-09-30 一种表格提取方法、装置、设备及存储介质 Pending CN114357958A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011066461.0A CN114357958A (zh) 2020-09-30 2020-09-30 一种表格提取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011066461.0A CN114357958A (zh) 2020-09-30 2020-09-30 一种表格提取方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114357958A true CN114357958A (zh) 2022-04-15

Family

ID=81089675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011066461.0A Pending CN114357958A (zh) 2020-09-30 2020-09-30 一种表格提取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114357958A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115620321A (zh) * 2022-10-20 2023-01-17 北京百度网讯科技有限公司 表格识别方法及装置、电子设备和存储介质
CN116127928A (zh) * 2023-04-17 2023-05-16 广东粤港澳大湾区国家纳米科技创新研究院 表格数据识别方法、装置、存储介质及计算机设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115620321A (zh) * 2022-10-20 2023-01-17 北京百度网讯科技有限公司 表格识别方法及装置、电子设备和存储介质
CN115620321B (zh) * 2022-10-20 2023-06-23 北京百度网讯科技有限公司 表格识别方法及装置、电子设备和存储介质
CN116127928A (zh) * 2023-04-17 2023-05-16 广东粤港澳大湾区国家纳米科技创新研究院 表格数据识别方法、装置、存储介质及计算机设备
CN116127928B (zh) * 2023-04-17 2023-07-07 广东粤港澳大湾区国家纳米科技创新研究院 表格数据识别方法、装置、存储介质及计算机设备

Similar Documents

Publication Publication Date Title
CN108416279B (zh) 文档图像中的表格解析方法及装置
CN110852316B (zh) 一种采用密集结构卷积网络的图像篡改检测和定位方法
CN108764039B (zh) 神经网络、遥感影像的建筑物提取方法、介质及计算设备
CN110517246B (zh) 一种图像处理方法、装置、电子设备及存储介质
CN112528813B (zh) 表格识别方法、装置以及计算机可读存储介质
CN107633226A (zh) 一种人体动作跟踪识别方法及系统
CN111783753B (zh) 基于语义一致水平条和前景修正的行人重识别方法
CN114357958A (zh) 一种表格提取方法、装置、设备及存储介质
CN112257665A (zh) 图像内容的识别方法、图像识别模型的训练方法及介质
CN112819007B (zh) 图像识别方法、装置、电子设备及存储介质
CN115239644A (zh) 混凝土缺陷识别方法、装置、计算机设备和存储介质
CN108446702B (zh) 一种图像字符分割方法、装置、设备及存储介质
CN113065551A (zh) 利用深度神经网络模型执行图像分割的方法
CN112307803A (zh) 数字地质露头裂缝提取方法及装置
CN114445651A (zh) 一种语义分割模型的训练集构建方法、装置及电子设备
CN111159150A (zh) 一种数据扩充方法及装置
CN112101323B (zh) 标题列表的识别方法、系统、电子设备及存储介质
CN111914596A (zh) 车道线检测方法、装置、系统及存储介质
CN111539390A (zh) 一种基于Yolov3的小目标图像识别方法、设备和系统
CN115457581A (zh) 表格提取方法、装置及计算机设备
CN115222750A (zh) 基于多尺度融合注意力的遥感图像分割方法及系统
CN114511862A (zh) 表格识别方法、装置及电子设备
CN114496099A (zh) 细胞功能注释方法、装置、设备及介质
CN114049518A (zh) 图像分类方法、装置、电子设备和存储介质
CN110570437B (zh) 一种基于边界识别的电力通道自动化巡检数据处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination