CN115661848A - 一种基于深度学习的表格提取和识别方法及系统 - Google Patents
一种基于深度学习的表格提取和识别方法及系统 Download PDFInfo
- Publication number
- CN115661848A CN115661848A CN202210807561.7A CN202210807561A CN115661848A CN 115661848 A CN115661848 A CN 115661848A CN 202210807561 A CN202210807561 A CN 202210807561A CN 115661848 A CN115661848 A CN 115661848A
- Authority
- CN
- China
- Prior art keywords
- lines
- coordinates
- line
- cells
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Input (AREA)
Abstract
本申请公开了一种基于深度学习的表格提取和识别方法及系统,所述方法包括:S1,使用目标检测模型定位文档图片中表格的位置,去除重复检测框,获取表格的坐标,并从原图中以该坐标截取出表格图片;S2,使用图像分割模型检测表格线,获取检测表格线的首尾坐标,对表格线检测不全的线条进行填补,对表格边界未闭合的线条进行补全,通过标记二值化图片的八连通区域获取表格线搭建的单元格坐标,去除重合和不符要求的单元格;S3,对所有横线和竖线进行排序,获取单元格的行列分布,实现表格结构的重建,对原图做OCR识别,将文本识别内容和表格的单元格一一对应,实现表格内容的重建。本申请提高了表格提取和识别的正确率。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于深度学习的表格提取和识别方法及系统。
背景技术
随着计算机技术的迅速发展,将表格文档图像转换为文本文件的需求正在增加,在政务领域需要频繁且大量审核和录入表格类材料,如果可以智能识别出图像上的表格,并规范输出每个单元格的行列,可以辅助政务窗口服务人员提高工作效率,同时也能帮助用户在办件过程实现预填功能。
目前市面上的表格识别大多基于规则和版面对齐等方法,存在正确率低且通用性差等问题。
因此,如何提供一种有效的方案以准确识别图片表格,是现有技术中亟待解决的问题。
发明内容
本发明的目的在于提供一种基于深度学习的表格提取和识别方法及系统,以解决上述技术背景中提出的问题。
为实现上述目的,本发明采用以下技术方案:
本申请第一个方面提供了一种基于深度学习的表格提取和识别方法,包括:
S1,表格检测:使用目标检测模型定位文档图片中表格的位置;去除重复检测框,获取表格的坐标,并从原图中以该坐标截取出表格图片;
S2,检测表格线,获取单元格:
S21,使用图像分割模型检测表格线,图像分割模型预测出的目标区域是多边形区域;
S22,对预测的目标区域的二值化图片做八连通区域标记,获取目标区域的轮廓点集坐标,求取每个目标区域的最小外接矩形,由最小外接矩形的左上角和右下角坐标作为表格线的首尾坐标;
S23,对表格线检测不全的线条进行填补;
S24,对表格边界未闭合的线条进行补全;
S25,对处理后的表格线生成的二值化图像做八连通区域标记,获取由所有表格线所搭建的单元格坐标;
S26,去除重合的单元格和尺寸不符合预设要求的单元格;
S3,表格重建:对表格线中所有的横线和竖线进行排序,获取单元格的行列分布,实现表格结构的重建,以及对原图做OCR(Optical Character Recognition,光学字符识别)识别,将文本识别内容和表格的单元格一一对应,实现表格内容的重建。
优选地,步骤S1具体包括如下步骤:
S11,使用yolov5模型对表格位置进行定位;
S12,采用非极大值抑制NMS算法对yolov5模型预测的候选框去除重复检测框,获得表格的具体坐标。
更优选地,步骤S12具体包括如下步骤:
计算n个候选框的面积大小;
对置信度进行降序排序,获取排序后的下标序号,即采用argsort;
将当前置信度最大的候选框加入到结果列表中;
计算当前置信度最大的候选框与其他任意候选框的相交面积;
利用相交面积和两个候选框的自身面积计算候选框的交并比,将交并比大于预设阈值的候选框删除;
对剩余的候选框重复以上过程,直到处理完所有的候选框。
优选地,步骤S23具体包括如下步骤:
识别表格线中至少一条目标线段,并确定一条参考线,所述目标线段所在直线的方向与所述参考线所在直线的方向互相垂直;
设目标线段的首尾点坐标分别为p1(x1,y1)、p2(x2,y2),设参考线的直线方程为Ax+By+C=0,其中,A=y2-y1,B=x2-x1,C=x2*y1-x1*y2;计算目标线段所在直线与参考线所在直线的交点:
Ax1+By1+C1=0,Ax2+By2+C2=0
x=(B1*C2-B2*C1)/(A1*B2-A2*B1)
y=(A2*C1-A1*C2)/(A1*B2-A2*B1)
其中,(x,y)为两条直线的交点坐标;
计算目标线段的首尾点坐标到交点的距离,判断计算出的两个距离中的最小距离是否大于预设的距离阈值,若大于,则需要对目标线段进行补全。
优选地,步骤S24具体包括如下步骤:
遍历表格中所有的横线和竖线,求取处于表格区域的边界处的上下左右各四条线段;
判断这四条线段之间的位置关系,判断各线段之间是否相交,分别计算出每条线段的起始坐标和终止坐标,共获得八个边界坐标;
根据这八个边界坐标,分别计算表格区域的边界的上横线、下横线、左竖线和右竖线的直线方程;
根据该边界的四条直线,分别求取这四条直线相交的交点坐标,以这些交点坐标为准,补全表格区域的边界线条。
优选地,步骤S25中,所述获取由所有表格线所搭建的单元格坐标,具体包括如下步骤:
对二值化图像做八连通区域标记,求出标记的所有多边形区域;
求出多边形区域的最小外接矩形,获取其左上角、右上角、左下角和右下角的坐标;
根据四点坐标求取最小外接矩形的宽和高,计算公式如下:
已知一个框的坐标值为(x1,y1,x1,y2,x3,y3,x4,y4),计算所有横坐标的均值为cx=(x1+x2+x3+x4)/4.0,计算所有纵坐标的均值为cy=(y1+y2+y3+y4)/4.0,则
其中,w为最小外接矩形的宽,h为最小外接矩形的高;
保留面积小于表格区域面积一半的单元格。
优选地,步骤S26具体包括如下步骤:
计算一个单元格与其他单元格的交并比IOU,若交并比大于两者之间最小面积的第一预设倍数,则保留两者之间面积偏小的单元格,另一个单元格则舍弃掉;
根据所有单元格的坐标求出每个单元格的宽和高,对所有单元格的宽做排序处理,去掉宽度最大和最小的值,计算所有剩余单元格的宽的均值,对所有单元格的高做排序处理,去掉高度最大和最小的值,计算所有剩余单元格的高的均值;然后遍历所有的单元格,若该单元格的宽小于均值宽的第一预设比例,和/或该单元格的高小于均值高的第二预设比例,则该单元格判定为非常规框,需要被删除。
优选地,步骤S3具体包括如下步骤:
S31,将表格的所有横线和竖线进行排序,计算所有横线与直线x=0的交点(0,y),比较交点(0,y)中y坐标的大小关系,对所有横线进行上下关系排序,计算所有竖线与直线y=0的交点(x,0),比较交点(x,0)中x坐标的大小关系,对所有竖线进行左右关系排序;
S32,根据表格线为每个单元格梳理行列分布:
对每一个单元格,计算每条横线所在直线的直线方程,再分别计算当前单元格的左上角点和右下角点到该直线的距离,依次遍历完所有横线,得到分别与左上角点和右下角点距离最小的两条横线,即为该单元格的行分布信息;
对每一个单元格,计算每条竖线所在直线的直线方程,再分别计算当前单元格的左上角点和右下角点到该直线的距离,依次遍历完所有竖线,得到分别与左上角点和右下角点距离最小的两条竖线,即为该单元格的列分布信息;
S33,对原图进行OCR识别,获取所有文本内容信息和文本框的坐标信息,对每个文本框,依次遍历所有的单元格,分别计算当前文本框与单元格的交并比IOU,计算步骤如下:
当两个矩形都为正矩形时,两个矩形的坐标分别为rect1=(x1,y1,x2,y2),rect2=(x3,y3,x4,y4),计算xmin=max(x1,x3),ymin=max(y1,y3),xmax=min(x2,x4),ymax=min(y2,y4),则IOU=(xmax-xmin)*(ymax-ymin);
若交集面积大于文本框面积的第二预设倍数,则当前文本内容信息是属于该单元格的,由此将所有文本内容信息和所有的单元格一一对应上,完成表格内容的还原。
本申请第二个方面提供了一种基于深度学习的表格提取和识别系统,包括:
表格检测模块:用于使用目标检测模型定位文档图片中表格的位置;去除重复检测框,获取表格的坐标,并从原图中以该坐标截取出表格图片;
表格线检测及单元格获取模块:用于使用图像分割模型检测表格线,预测出形状为多边形区域的多个目标区域;对预测的目标区域的二值化图片做八连通区域标记,获取目标区域的轮廓点集坐标,求取每个目标区域的最小外接矩形,由最小外接矩形的左上角和右下角坐标作为表格线的首尾坐标;对表格线检测不全的线条进行填补;对表格边界未闭合的线条进行补全;对处理后的表格线生成的二值化图像做八连通区域标记,获取由所有表格线所搭建的单元格坐标;去除重合的单元格和尺寸不符合预设要求的小框;
表格重建模块:用于对表格线中所有的横线和竖线进行排序,获取单元格的行列分布,实现表格结构的重建,以及对原图做OCR识别,将文本识别内容和表格的单元格一一对应,实现表格内容的重建。
本申请第三个方面公开了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述的一种基于深度学习的表格提取和识别方法的步骤。
与现有技术相比,本发明的技术方案具有以下有益效果:
采用本申请的方法,有线表格识别可支持的功能有两个,一个是根据单元格的行列分布信息,确定单元格的位置,并提取相应的目标字段;另一个是可以将表格文档图片还原到真实excel表格中,实现表格文本信息的智能录入。
本申请利用图像处理和深度学习模型提高了表格提取和识别的正确率,已经在政务领域的智能预审和电子材料入库统计等业务场景实现运用。
附图说明
构成本申请的一部分附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本申请一种基于深度学习的表格提取和识别方法的流程图;
图2是本申请优选实施例的步骤S1中采用yolov5模型定位表格位置的示例图;
图3是本申请优选实施例的步骤S1中采用NMS处理后获取最终的目标检测框,从原本的文档图像中截取出的表格图片示例图;
图4(a)是本申请实施例中四连通区域的示意图;
图4(b)是本申请实施例中八连通区域的示意图;
图5(a)是本申请实施例的步骤S22中二值化图像中竖线的检测位置示例图;
图5(b)是本申请实施例的步骤S22中对二值化图像中竖线用不同颜色做标记后的目标位置示例图;
图6是本申请实施例中表格线出现检测不全的示例图,检测不全的位置为右上角圈出部分;
图7是本申请实施例中表格边界出现未闭合状态的示例图,边界未闭合处为下方圈出部分;
图8(a)是本申请实施例的步骤S25中为所有表格线搭建好的二值化表格图片示例图;
图8(b)是本申请实施例的步骤S25中用不同的颜色对每个多边形进行标记的标记框的示例图;
图9是采用本申请技术方方案,将表格文档图片还原到真实excel表格中,实现表格文本信息的智能录入的示例图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序,应该理解这样使用的数据在适当情况下可以互换。此外,术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例
图1为一种基于深度学习的表格提取和识别方法的流程图。
如图1所示,一种基于深度学习的表格提取和识别方法,具体包括如下步骤:
步骤S1:表格检测。
具体步骤如下:
S11,表格识别的第一步就是检测文档图片中表格的位置,本实施例中采用yolov5模型定位表格位置。
S12,yolov5模型预测的候选框中存在一个目标被多次检测的情况,如图2。为了得到准确的检测框,需要对一组候选框做NMS(非极大值抑制)操作。NMS的实现的实现原理是搜索局部极大值,抑制非极大值元素,从而做到剔除一些重复值。
其中,NMS实现的过程如下:
(1)计算n个候选框的面积大小;
(2)对置信度进行降序排序,获取排序后的下标序号,即采用argsort;
(3)将当前置信度最大的候选框加入到结果列表中;
(4)计算当前置信度最大的候选框与其他任意候选框的相交面积;
(5)利用相交的面积和两个候选框的自身面积计算框的交并比,将交并比大于阈值的候选框删掉;
(6)对剩余候选框重复以上过程,直到处理完所有候选框。
S13,NMS处理后获取最终的目标检测框,从原本的文档图像中以该目标检测框的坐标截取出表格图片,如图3。
步骤S2:检测表格线,获取单元格。
具体步骤如下:
S21,有线表格是由多条横线和竖线交叉搭建的结构,在还原表格结构之前,需要先检测出表格线,本实施例中采用unet图像分割模型检测表格线。
S22,从严格意义上来说,模型预测出的目标区域是多边形区域。为了提取表格线的首尾坐标,进行下列步骤:
(1)对预测目标区域做八连通区域标记,获取预测目标区域的轮廓点集坐标。
预测二值化图像只有0(黑)和255(白)两种可能性,每个目标区域在二值化图像中的像素均为255,且这些目标像素点以一定的分布构成一个个连通区域,连通区域是指若两个像素点相邻且像素相同,那么这两个像素点处于同一个相互连通的区域,从视觉上看,彼此连通的点形成一个区域,而该区域中所有连通点构成的集合就称为连通区域。在判断两个点是否邻接时,有两种判定方法:四连通和八连通。四连通是考虑4个相邻像素,即上下左右,如图4(a)所示;而八连通则考虑8个相邻像素,即上下左右和对角线上的像素,如图4(b)所示。
找到二值化图像中的连通区域后,对每个连通区域用不同的符号进行标记,如图5所示。图5(a)的图片为二值化图像中竖线的检测位置,图5(b)的图片为做完标记后的目标位置。
(2)求取每个目标区域的最小外接矩形,由矩形的左上角和右下角坐标作为表格线的首尾坐标。
最小外接矩形的基本原理:
获取点集初始的xmin,ymin,xmax,ymax来确定最初的外接矩形,求该矩形的面积,然后对点集进行旋转,按照以下旋转公式:
x’=xcos(angle)-ysin(angle)
y’=xsin(angle)+ycos(angle)
计算旋转后的点集坐标,再求旋转后矩形的×′min,y′min,×′max,y′max,计算当前的矩形面积,直到面积最小时,即为最小外接矩形。
S23,当表格图片中某些线条的部分区域很模糊时,出现表格线检测不全的问题,需要对这些线条进行填补,步骤如下:
(1)计算表格线的一条目标横线段(竖线段)和参考竖线(横线)的直线一般方程,计算公式如下:
已知该线段的首尾点坐标为p1(x1,y1),p2(x2,y2),直线一般方程:Ax+By+C=0
A=y2-y1
B=x1-x2
C=x2*y1-x1*y2
(2)判断目标横线段(竖线段)的首尾点与参考竖线(横线)的位置关系,计算如下:r=A*x1+B*y1+C。若r=0,则该点位于直线上;否则,该点位于直线外。
(3)若出现表格线检测不全的情况,如图6中右上角圈出部分。该目标横线段(竖线段)的首尾点都在参考直线的同一侧,则先计算目标横线段(竖线段)所在直线与参考直线的交点,交点计算公式如下:
已知两条直线的一般方程为:
A1x+B1y+C1=0,A2x+B2y+C2=0
x=(B1*C2-B2*C1)/(A1*B2-A2*B1)
y=(A2*C1-A1*C2)/(A1*B2-A2*B1)
其中,(x,y)为两条直线的交点坐标。
然后再计算目标横线段(竖线段)的首尾点坐标到交点距离,判断两个之间的最小距离是否大于给定的阈值,若大于,则说明需要补全线段。
S24,有些图片中的表格会存在边界未闭合的状态,如图7中最下方圈出的边界未闭合,因此需要补全表格区域。
步骤如下:
(1)遍历所有的横线和竖线,求取处于边界的上下左右各四条线段。
(2)判断这四条线段之间的位置关系,如分别计算最上方横线的首尾点和最左右两条竖线的位置,若两点都处于两条直线的同一侧,则处于最上方的偏左坐标为横线的初始坐标,而处于最上方的偏右坐标为横线的终止坐标;否则,处于最上方的偏左坐标为该条横线与左边竖线的交点坐标,而处于最上方的偏右坐标为横线与右边竖线的交点坐标。以此类推计算出八个边界坐标。
(3)根据这八个边界坐标,计算区域边界的上横线、下横线、左竖线和右竖线的直线方程。
(4)根据该边界四条直线,分别求取这四条直线相交的交点坐标,以这些交点坐标为准,补全表格边界。
S25,为了求出表格中的单元格,则对所有表格线搭建好的二值化表格图片做八连通区域标记,求出连通区域的位置属性,即可得到由表格线形成的多边形框。参阅图8所示,其中,图8(a)为所有表格线搭建好的二值化表格图片示例,图8(b)为标记框示例,图8(b)中用不同的颜色对每个多边形进行了标记。
其中,获取单元格的步骤如下:
(1)对二值化图片做八连通区域标记,求出标记的所有多边形区域。
(2)求出多边形区域的最小外接矩形,获取其左上角、右上角、左下角和右下角的坐标。
(3)根据四点坐标求取最小外接矩形的宽和高,计算公式如下:已知一个框的坐标值为(x1,y1,x1,y2,x3,y3,x4,y4),计算所有横坐标的均值为cx=(x1+x2+x3+x4)/4.0,计算所有纵坐标的均值为cy=(y1+y2+y3+y4)/4.0,则
其中,w为最小外接矩形的宽,h为最小外接矩形的高。
(4)保留面积小于表格区域面积一半的单元格。
S26,由于是通过寻找二值化图像的八连通区域来定位单元格,则可能存在重合框,需要进行去重处理;或是由于表格线本身有一定的倾斜度,则会造成一些不符合要求的小框,需要进行删除。具体步骤如下:
(1)计算一个单元格与其他单元格的交并比(IOU),若该值大于两者之间最小面积的0.4倍,则保留两者之间面积偏小的单元格,另一个单元格则舍弃掉。
(2)根据所有单元格的坐标求出单元格的宽和高,对所有单元格的宽(高)做排序处理,去掉最大和最小的值,计算所有剩余单元格的宽(高)的均值;然后遍历所有的单元格,若该单元格的宽(高)小于均值宽(高)的一定比例,则该单元格为非常规框,需要被去掉。
步骤S3:表格重建。
具体步骤如下:
S31,将表格的所有横线和竖线进行排序,计算所有横线与x=0的直线的交点(0,y),比较交点(0,y)中y坐标的大小关系,就可以对所有横线进行上下关系排序,同时对所有竖线也采取类似措施。
S32,根据表格线为每个单元格梳理行列分布,对每一个单元格,计算每条横线的直线方程,再分别计算当前单元格的左上角点和右下角点到该直线的距离,计算公式如下:
已知一个点p(x,y)和一条直线的一般方程Ax+By+C=0,
依次遍历完所有横线,得到分别与左上角点和右下角点距离最小的两条横线,即为该单元格的行分布信息,则该单元格的列分布信息计算方式同上,由此表格结构得以重建。
S33,对原图进行OCR识别,获取所有文本内容信息和文本框的坐标信息,对每个文本框,依次遍历所有的单元格,分别计算当前文本框与单元格的交并比IOU,计算步骤如下:
当两个矩形都为正矩形时,两个矩形的坐标分别为rect1=(x1,y1,x2,y2),rect2=(x3,y3,x4,y4);
xmin=max(x1,x3);
ymin=max(y1,y3);
xmax=min(x2,x4);
ymax=min(y2,y4);
IOU=(xmax-xmin)*(ymax-ymin);
若交集面积大于文本框面积的0.5倍,则当前文本内容信息是属于该单元格的,由此将所有文本内容信息和所有的单元格一一对应上,完成表格内容的还原。
本申请的技术方案,对目前有线表格识别可支持的功能有两个:一个是根据单元格的行列分布信息,确定单元格的位置,并提取相应的目标字段;另一个是可以将表格文档图片还原到真实excel表格中,实现表格文本信息的智能录入,如图9所示。
另一方面,本申请还提供了一种基于深度学习的表格提取和识别系统,包括:
表格检测模块:用于使用目标检测模型定位文档图片中表格的位置;去除重复检测框,获取表格的坐标,并从原图中以该坐标截取出表格图片;
表格线检测及单元格获取模块:用于使用图像分割模型检测表格线,预测出形状为多边形区域的多个目标区域;对预测的目标区域的二值化图片做八连通区域标记,获取目标区域的轮廓点集坐标,求取每个目标区域的最小外接矩形,由最小外接矩形的左上角和右下角坐标作为表格线的首尾坐标;对表格线检测不全的线条进行填补;对表格边界未闭合的线条进行补全;对处理后的表格线生成的二值化图像做八连通区域标记,获取由所有表格线所搭建的单元格坐标;去除重合的单元格和尺寸不符合预设要求的小框;
表格重建模块:用于对表格线中所有的横线和竖线进行排序,获取单元格的行列分布,实现表格结构的重建,以及对原图做OCR识别,将文本识别内容和表格的单元格一一对应,实现表格内容的重建。
另一方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述的一种基于深度学习的表格提取和识别方法的步骤。
实际应用中,本实施例中的计算机指令可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
实际应用中,计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块和算法步骤可以被实现为电子硬件、计算机软件或两者的组合
综上所述,本申请通过利用图像处理和深度学习模型提高了表格提取和识别的正确率,已经在政务领域的智能预审和电子材料入库统计等业务场景实现运用。
以上对本发明的具体实施例进行了详细描述,但其只是作为范例,本发明并不限制于以上描述的具体实施例。对于本领域技术人员而言,任何对本发明进行的等同修改和替代也都在本发明的范畴之中。因此,在不脱离本发明的精神和范围下所作的均等变换和修改,都应涵盖在本发明的范围内。
Claims (10)
1.一种基于深度学习的表格提取和识别方法,其特征在于,包括:
S1,表格检测:使用目标检测模型定位文档图片中表格的位置;去除重复检测框,获取表格的坐标,并从原图中以该坐标截取出表格图片;
S2,检测表格线,获取单元格:
S21,使用图像分割模型检测表格线,图像分割模型预测出的目标区域是多边形区域;
S22,对预测的目标区域的二值化图片做八连通区域标记,获取目标区域的轮廓点集坐标,求取每个目标区域的最小外接矩形,由最小外接矩形的左上角和右下角坐标作为表格线的首尾坐标;
S23,对表格线检测不全的线条进行填补;
S24,对表格边界未闭合的线条进行补全;
S25,对处理后的表格线生成的二值化图像做八连通区域标记,获取由所有表格线所搭建的单元格坐标;
S26,去除重合的单元格和尺寸不符合预设要求的单元格;
S3,表格重建:对表格线中所有的横线和竖线进行排序,获取单元格的行列分布,实现表格结构的重建,以及对原图做OCR识别,将文本识别内容和表格的单元格一一对应,实现表格内容的重建。
2.根据权利要求1所述的一种基于深度学习的表格提取和识别方法,其特征在于,步骤S1具体包括如下步骤:
S11,使用yolov5模型对表格位置进行定位;
S12,采用非极大值抑制NMS算法对yolov5模型预测的候选框去除重复检测框,获得表格的具体坐标。
3.根据权利要求2所述的一种基于深度学习的表格提取和识别方法,其特征在于,步骤S12具体包括如下步骤:
计算n个候选框的面积大小;
对置信度进行降序排序,获取排序后的下标序号,即采用argsort;
将当前置信度最大的候选框加入到结果列表中;
计算当前置信度最大的候选框与其他任意候选框的相交面积;
利用相交面积和两个候选框的自身面积计算候选框的交并比,将交并比大于预设阈值的候选框删除;
对剩余的候选框重复以上过程,直到处理完所有的候选框。
4.根据权利要求1所述的一种基于深度学习的表格提取和识别方法,其特征在于,步骤S23具体包括如下步骤:
识别表格线中至少一条目标线段,并确定一条参考线,所述目标线段所在直线的方向与所述参考线所在直线的方向互相垂直;
设目标线段的首尾点坐标分别为p1(x1,y1)、p2(x2,y2),设参考线的直线方程为Ax+By+C=0,其中,A=y2-y1,B=x2-x1,C=x2*y1-x1*y2;计算目标线段所在直线与参考线所在直线的交点:
Ax1+By1+C1=0,Ax2+By2+C2=0
x=(B1*C2-B2*C1)/(A1*B2-A2*B1)
y=(A2*C1-A1*C2)/(A1*B2-A2*B1)
其中,(x,y)为两条直线的交点坐标;
计算目标线段的首尾点坐标到交点的距离,判断计算出的两个距离中的最小距离是否大于预设的距离阈值,若大于,则需要对目标线段进行补全。
5.根据权利要求1所述的一种基于深度学习的表格提取和识别方法,其特征在于,步骤S24具体包括如下步骤:
遍历表格中所有的横线和竖线,求取处于表格区域的边界处的上下左右各四条线段;
判断这四条线段之间的位置关系,判断各线段之间是否相交,分别计算出每条线段的起始坐标和终止坐标,共获得八个边界坐标;
根据这八个边界坐标,分别计算表格区域的边界的上横线、下横线、左竖线和右竖线的直线方程;
根据该边界的四条直线,分别求取这四条直线相交的交点坐标,以这些交点坐标为准,补全表格区域的边界线条。
6.根据权利要求1所述的一种基于深度学习的表格提取和识别方法,其特征在于,步骤S25中,所述获取由所有表格线所搭建的单元格坐标,具体包括如下步骤:
对二值化图像做八连通区域标记,求出标记的所有多边形区域;
求出多边形区域的最小外接矩形,获取其左上角、右上角、左下角和右下角的坐标;
根据四点坐标求取最小外接矩形的宽和高,计算公式如下:
已知一个框的坐标值为(x1,y1,x1,y2,x3,y3,x4,y4),计算所有横坐标的均值为cx=(x1+X2+X3+x4)/4.0计算所有纵坐标的均值为cy=(y1+y2+y3+y4)/4.0,则
其中,w为最小外接矩形的宽,h为最小外接矩形的高;
保留面积小于表格区域面积一半的单元格。
7.根据权利要求1所述的一种基于深度学习的表格提取和识别方法,其特征在于,步骤S26具体包括如下步骤:
计算一个单元格与其他单元格的交并比IOU,若交并比大于两者之间最小面积的第一预设倍数,则保留两者之间面积偏小的单元格,另一个单元格则舍弃掉;
根据所有单元格的坐标求出每个单元格的宽和高,对所有单元格的宽做排序处理,去掉宽度最大和最小的值,计算所有剩余单元格的宽的均值,对所有单元格的高做排序处理,去掉高度最大和最小的值,计算所有剩余单元格的高的均值;然后遍历所有的单元格,若该单元格的宽小于均值宽的第一预设比例,和/或该单元格的高小于均值高的第二预设比例,则该单元格判定为非常规框,需要被删除。
8.根据权利要求1所述的一种基于深度学习的表格提取和识别方法,其特征在于,步骤S3具体包括如下步骤:
S31,将表格的所有横线和竖线进行排序,计算所有横线与直线x=0的交点(0,y),比较交点(0,y)中y坐标的大小关系,对所有横线进行上下关系排序,计算所有竖线与直线y=0的交点(x,0),比较交点(x,0)中x坐标的大小关系,对所有竖线进行左右关系排序;
S32,根据表格线为每个单元格梳理行列分布:
对每一个单元格,计算每条横线所在直线的直线方程,再分别计算当前单元格的左上角点和右下角点到该直线的距离,依次遍历完所有横线,得到分别与左上角点和右下角点距离最小的两条横线,即为该单元格的行分布信息;
对每一个单元格,计算每条竖线所在直线的直线方程,再分别计算当前单元格的左上角点和右下角点到该直线的距离,依次遍历完所有竖线,得到分别与左上角点和右下角点距离最小的两条竖线,即为该单元格的列分布信息;
S33,对原图进行OCR识别,获取所有文本内容信息和文本框的坐标信息,对每个文本框,依次遍历所有的单元格,分别计算当前文本框与单元格的交并比IOU,计算步骤如下:
当两个矩形都为正矩形时,两个矩形的坐标分别为rect1=(x1,y1,x2,y2),rect2=(x3,y3,x4,y4),计算xmin=max(x1,x3),ymin=max(y1,y3),xmax=min(x2,x4),ymax=min(y2,y4),则IOU=(xmax-xmin)*(ymax-ymin);
若交集面积大于文本框面积的第二预设倍数,则当前文本内容信息是属于该单元格的,由此将所有文本内容信息和所有的单元格一一对应上,完成表格内容的还原。
9.一种基于深度学习的表格提取和识别系统,其特征在于,包括:
表格检测模块:用于使用目标检测模型定位文档图片中表格的位置;去除重复检测框,获取表格的坐标,并从原图中以该坐标截取出表格图片;
表格线检测及单元格获取模块:用于使用图像分割模型检测表格线,预测出形状为多边形区域的多个目标区域;对预测的目标区域的二值化图片做八连通区域标记,获取目标区域的轮廓点集坐标,求取每个目标区域的最小外接矩形,由最小外接矩形的左上角和右下角坐标作为表格线的首尾坐标;对表格线检测不全的线条进行填补;对表格边界未闭合的线条进行补全;对处理后的表格线生成的二值化图像做八连通区域标记,获取由所有表格线所搭建的单元格坐标;去除重合的单元格和尺寸不符合预设要求的小框;
表格重建模块:用于对表格线中所有的横线和竖线进行排序,获取单元格的行列分布,实现表格结构的重建,以及对原图做OCR识别,将文本识别内容和表格的单元格一一对应,实现表格内容的重建。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至8任一项所述的一种基于深度学习的表格提取和识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210807561.7A CN115661848A (zh) | 2022-07-11 | 2022-07-11 | 一种基于深度学习的表格提取和识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210807561.7A CN115661848A (zh) | 2022-07-11 | 2022-07-11 | 一种基于深度学习的表格提取和识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115661848A true CN115661848A (zh) | 2023-01-31 |
Family
ID=85023792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210807561.7A Pending CN115661848A (zh) | 2022-07-11 | 2022-07-11 | 一种基于深度学习的表格提取和识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115661848A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115909369A (zh) * | 2023-02-15 | 2023-04-04 | 南京信息工程大学 | 一种汉字字体二值化切片图像的提取方法及系统 |
CN116311310A (zh) * | 2023-05-19 | 2023-06-23 | 之江实验室 | 一种结合语义分割和序列预测的通用表格识别方法和装置 |
CN117475459A (zh) * | 2023-12-28 | 2024-01-30 | 杭州恒生聚源信息技术有限公司 | 表格信息处理方法、装置、电子设备及存储介质 |
CN117611710A (zh) * | 2023-12-07 | 2024-02-27 | 南京云阶电力科技有限公司 | 基于深度学习和图像处理的端子排图纸矢量化方法及系统 |
CN117912039A (zh) * | 2024-03-20 | 2024-04-19 | 南昌航空大学 | 一种文档图像版面分析方法 |
-
2022
- 2022-07-11 CN CN202210807561.7A patent/CN115661848A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115909369A (zh) * | 2023-02-15 | 2023-04-04 | 南京信息工程大学 | 一种汉字字体二值化切片图像的提取方法及系统 |
CN115909369B (zh) * | 2023-02-15 | 2023-06-06 | 南京信息工程大学 | 一种汉字字体二值化切片图像的提取方法及系统 |
CN116311310A (zh) * | 2023-05-19 | 2023-06-23 | 之江实验室 | 一种结合语义分割和序列预测的通用表格识别方法和装置 |
CN117611710A (zh) * | 2023-12-07 | 2024-02-27 | 南京云阶电力科技有限公司 | 基于深度学习和图像处理的端子排图纸矢量化方法及系统 |
CN117475459A (zh) * | 2023-12-28 | 2024-01-30 | 杭州恒生聚源信息技术有限公司 | 表格信息处理方法、装置、电子设备及存储介质 |
CN117475459B (zh) * | 2023-12-28 | 2024-04-09 | 杭州恒生聚源信息技术有限公司 | 表格信息处理方法、装置、电子设备及存储介质 |
CN117912039A (zh) * | 2024-03-20 | 2024-04-19 | 南昌航空大学 | 一种文档图像版面分析方法 |
CN117912039B (zh) * | 2024-03-20 | 2024-05-24 | 南昌航空大学 | 一种文档图像版面分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115661848A (zh) | 一种基于深度学习的表格提取和识别方法及系统 | |
US10817717B2 (en) | Method and device for parsing table in document image | |
CN109389121B (zh) | 一种基于深度学习的铭牌识别方法及系统 | |
CN107045634B (zh) | 一种基于最大稳定极值区域与笔画宽度的文本定位方法 | |
CN110390666B (zh) | 道路损伤检测方法、装置、计算机设备及存储介质 | |
CN104751142B (zh) | 一种基于笔划特征的自然场景文本检测方法 | |
Louloudis et al. | A block-based Hough transform mapping for text line detection in handwritten documents | |
CN111460927B (zh) | 对房产证图像进行结构化信息提取的方法 | |
Shi et al. | Text extraction from gray scale historical document images using adaptive local connectivity map | |
JP2940936B2 (ja) | 表領域識別方法 | |
CN110766017B (zh) | 基于深度学习的移动终端文字识别方法及系统 | |
CN112818952B (zh) | 煤岩分界线的识别方法、装置及电子设备 | |
CN112906695B (zh) | 适配多类ocr识别接口的表格识别方法及相关设备 | |
US9965678B2 (en) | Method for recognizing table and flowchart in document images | |
Vasilopoulos et al. | Complex layout analysis based on contour classification and morphological operations | |
Louloudis et al. | Text line detection in unconstrained handwritten documents using a block-based Hough transform approach | |
JP4904330B2 (ja) | 画像からテキストを抽出する方法及び装置 | |
Roy et al. | Text line extraction in graphical documents using background and foreground information | |
CN115620322B (zh) | 一种基于关键点检测的全线表表格结构识别方法 | |
CN116824608A (zh) | 基于目标检测技术的答题卡版面分析方法 | |
RU2626656C2 (ru) | Способ и система определения ориентации изображения текста | |
CN111461126A (zh) | 文本行中的空格识别方法、装置、电子设备及存储介质 | |
CN111126266B (zh) | 文本处理方法、文本处理系统、设备及介质 | |
CN113569859A (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
CN112418210B (zh) | 一种杆塔巡检信息智能分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 200435 11th Floor, Building 27, Lane 99, Shouyang Road, Jing'an District, Shanghai Applicant after: Shanghai Tongban Information Service Co.,Ltd. Address before: No. 11, Lane 100, Zhengtong Road, Yangpu District, Shanghai 200082 (centralized registration place) Applicant before: Shanghai Tongban Information Service Co.,Ltd. |
|
CB02 | Change of applicant information |