CN113591746A - 一种文档表格结构检测方法及装置 - Google Patents
一种文档表格结构检测方法及装置 Download PDFInfo
- Publication number
- CN113591746A CN113591746A CN202110896369.5A CN202110896369A CN113591746A CN 113591746 A CN113591746 A CN 113591746A CN 202110896369 A CN202110896369 A CN 202110896369A CN 113591746 A CN113591746 A CN 113591746A
- Authority
- CN
- China
- Prior art keywords
- picture
- determining
- content
- cell
- line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims description 29
- 238000000034 method Methods 0.000 claims abstract description 68
- 238000003709 image segmentation Methods 0.000 claims abstract description 39
- 230000011218 segmentation Effects 0.000 claims description 51
- 238000012545 processing Methods 0.000 claims description 19
- 238000013136 deep learning model Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 abstract description 15
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 239000000126 substance Substances 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000005192 partition Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种文档表格结构检测方法及装置,接收待检测表格图片,将待检测表格图片发送给图像分割模型,得到表格线图片,表格线图片中包括:表格线和表格线的交点坐标;基于交点坐标和表格线确定待检测表格图片中包含的各个基本单元格;基于OCR方法识别待检测表格图片的各个表格内容和每个表格内容对应的内容位置;将内容位置与各个基本单元格进行对比,基于对比结果确定目标单元格,将与内容位置对应的表格内容添加到所述目标单元格中,得到目标文档表格。上述过程,不但对待检测表格图片中的表格内容和内容位置进行识别,还识别了表格线和交点坐标,确定了目标单元格,并将表格内容中的内容添加到了目标单元格,不再需要人工填写表格内容。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文档表格结构检测方法及装置。
背景技术
针对是pdf格式、图片格式或者其它无法直接编辑或提取内容文档。为例实现对文档中内容的识别,现有技术中主要采用OCR技术,OCR技术现在已经比较广泛应用于识别图片,pdf等格式的文档内容,并输出成可编辑格式,如word等,可以省去大量的人工工作。
现有的OCR技术在检测文字位置和识别文字内容方面有着比较高的精度。但是OCR技术只关注了文字位置和文字内容,对于表格这种特殊的文档内容,现有的方法只能够输出检测到的文字内容,输出的内容通常都不是结构化的,对于只包含纯文本的任务基本可以取代人工,但是在文档中包含表格的情况下,生成word文档后,还需要人工根据表格的结构,将相对应的文字识别内容填入表格框内,同时还需要手动调整单元格的合并。
发明内容
有鉴于此,本发明提供了一种文档表格结构检测方法及装置,用于解决现有技术中OCR技术只能够输出检测到的文字内容,输出的内容通常都不是结构化的,对于只包含纯文本的任务基本可以取代人工,但是在文档中包含表格的情况下,生成word文档后,还需要人工根据表格的结构,将相对应的文字识别内容填入表格框内,同时还需要手动调整单元格合并的问题,具体方案如下:
一种文档表格结构检测方法,包括:
接收待检测表格图片,将所述待检测表格图片发送给图像分割模型,得到表格线图片,其中,所述图像分割模型为深度学习模型,所述表格线图片中包括:表格线和表格线的交点坐标;
基于所述交点坐标和所述表格线确定所述待检测表格图片中包含的各个基本单元格;
基于OCR方法识别所述待检测表格图片的各个表格内容和每个表格内容对应的内容位置;
将所述内容位置与所述各个基本单元格进行对比,基于对比结果确定目标单元格,将与所述内容位置对应的表格内容添加到所述目标单元格中,得到目标文档表格。
上述的方法,可选的,所述表格线包括:行表格线和列表格线,将所述待检测表格图片发送给图像分割模型,得到表格线图片,包括:
对所述待检测表格图片进行神经网络处理后确定行像素分割图和列像素分割图;
针对所述行像素分割图和所述列像素分割图图中的每个像素轮廓,确定所述像素轮廓的几何中心,基于所述几何中心确定对应的行表格线和列表格线;
将所述行像素分割图和所述列像素分割图进行叠加,得到表格线的焦点坐标。
上述的方法,可选的,还包括:
将所述行像素分割图和所述列像素分割图中的像素轮廓进行空洞卷积处理。
上述的方法,可选的,基于所述交点坐标和所述表格线确定所述待检测表格图片中包含的各个基本单元格,包括:
针对所述交点坐标确定各个初始单元格;
基于所述表格线判断所述各个初始单元格中的边框是否存在,基于判断结果确定各个基本单元格。
上述的方法,可选的,将所述内容位置与所述各个基本单元格进行对比,基于对比结果确定目标单元格,包括:
基于所述内容位置确定第一单元格面积;
获取每个基本单元格的顶点坐标,基于所述顶点坐标确定第二单元格面积;
确定所述第一单元格面积与所述第二单元格面积的面积交集,在所述面积交集大于预设面积阈值的情况下,将与所述第二单元格面积对应的基本单元格作为目标单元格。
一种文档表格结构检测装置,包括:
分割模块,用于接收待检测表格图片,将所述待检测表格图片发送给图像分割模型,得到表格线图片,其中,所述图像分割模型为深度学习模型,所述表格线图片中包括:表格线和表格线的交点坐标;
确定模块,用于基于所述交点坐标和所述表格线确定所述待检测表格图片中包含的各个基本单元格;
识别模块,用于基于OCR方法识别所述待检测表格图片的各个表格内容和每个表格内容对应的内容位置;
对比和添加模块,用于将所述内容位置与所述各个基本单元格进行对比,基于对比结果确定目标单元格,将与所述内容位置对应的表格内容添加到所述目标单元格中,得到目标文档表格。
上述的装置,可选的,所述表格线包括:行表格线和列表格线,所述分割模块包括:
第一确定单元,用于对所述待检测表格图片进行神经网络处理后确定行像素分割图和列像素分割图;
第二确定单元,用于针对所述行像素分割图和所述列像素分割图图中的每个像素轮廓,确定所述像素轮廓的几何中心,基于所述几何中心确定对应的行表格线和列表格线;
叠加单元,用于将所述行像素分割图和所述列像素分割图进行叠加,得到表格线的焦点坐标。
上述的装置,可选的,还包括:
卷积单元,用于将所述行像素分割图和所述列像素分割图中的像素轮廓进行空洞卷积处理。
上述的装置,可选的,所述确定模块包括:
第三确定单元,针对所述交点坐标确定各个初始单元格;
判断单元,用于基于所述表格线判断所述各个初始单元格中的边框是否存在,基于判断结果确定各个基本单元格。
上述的装置,可选的,所述对比和添加模块包括:
第四确定单元,用于基于所述内容位置确定第一单元格面积;
获取和确定单元,用于获取每个基本单元格的顶点坐标,基于所述顶点坐标确定第二单元格面积;
第五确定单元,用于确定所述第一单元格面积与所述第二单元格面积的面积交集,在所述面积交集大于预设面积阈值的情况下,将与所述第二单元格面积对应的基本单元格作为目标单元格。
与现有技术相比,本发明包括以下优点:
本发明公开了一种文档表格结构检测方法及装置,所述方法包括:接收待检测表格图片,将所述待检测表格图片发送给图像分割模型,得到表格线图片,其中,所述图像分割模型为深度学习模型,所述表格线图片中包括:表格线和表格线的交点坐标;基于所述交点坐标和所述表格线确定所述待检测表格图片中包含的各个基本单元格;基于OCR方法识别所述待检测表格图片的各个表格内容和每个表格内容对应的内容位置;将所述内容位置与所述各个基本单元格进行对比,基于对比结果确定目标单元格,将与所述内容位置对应的表格内容添加到所述目标单元格中,得到目标文档表格。上述过程,不但对待检测表格图片中的表格内容和内容位置进行识别,还识别了表格线和交点坐标,确定了目标单元格,并将表格内容中的内容添加到了目标单元格,不再需要人工填写表格内容。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例公开的一种文档表格结构检测方法流程图;
图2为本申请实施例公开的一种文档表格结构检测装置结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
本发明公开了一种文档表格结构的检测方法及装置,用于实现对表格图片中所包含的表格的结构和文字的识别,在现有的业务需求中,需要处理大量的文档,这些文档基本都是pdf格式或图片格式,无法直接编辑或提取内容。现有技术中采用OCR技术进行识别这些文档。OCR技术现在已经比较广泛应用于识别图片,pdf等格式的文档内容,并输出成可编辑格式,如word等,可以省去大量的人工工作。现有的OCR技术只关注了文字位置和文字内容,对于表格这种特殊的文档内容,现有的方法只能够输出检测到的文字内容,这些输出的内容通常都不是结构化的,对于只包含纯文本的任务基本可以取代人工,但是在文档中包含表格的情况下,生成word文档后,还需要人工根据表格的结构,将相对应的文字识别内容填入表格框内,同时还需要手动调整单元格的合并。而已有的OCR方案并不能识别出文档中是否存在表格,只能输出非结构化的文本内容,这样一旦文档中出现表格,就要花费大量的人力再去进行检查和调整。为例解决上述问题,本发明提供了一种文档表格结构的检测方法,所述方法的执行流程如图1所示,包括步骤;
S101、接收待检测表格图片,将所述待检测表格图片发送给图像分割模型,得到表格线图片,其中,所述图像分割模型为深度学习模型,所述表格线图片中包括:表格线和表格线的交点坐标;
本发明实施例中,所述待检测表格图片是图像处理终端通过图像分割的方式,将文档中的表格进行截取得到的,其中,所述文档可以为PDF或者图片等形式,本发明实施例中不进行具体限定,所述图像处理终端发送所述待检测表格图片,接收所述待检测表格图片,将所述待检测表格图片传递给所述图像分割模型,其中,所述图像分割模型为深度学习模型,所述图像分割模型用于对所述待检测表格图像中的表格线和其它背景进行分类,将属于表格线的区域设置为1,其它背景设置为0,得到表格线图片,其中,所述表格线图片包括:表格线和表格线的焦点坐标。
本发明实施例中,由于最终的目的是输出标准的excel格式,所以只考虑横竖分割线。所述表格线包括:行表格线和列表格线,进一步的,表格线包括:可见表格线和不可见的虚拟表格线。对于可见表格线,表格线一般都比较细长,所以采用像素级别的分割方式来识别表格线。对于不可见表格,并没有很明确的表格线,而是人为的按照表格形式排列字符,形成视觉上的表格形式。本发明实施例中,为了减少所述图像分割模型的复杂程度,对不可见表格也使用同样的图像分割模型。将文字中间空白部分的作为整体划分为表格线。所以所述图像分割模型为像素级别的模型,所述图像分割模型的输入为待检测表格图片,经过所述图像分割模型的分割和分类,输出仅保留表格线区域的表格线图片,其中,所述表格线图片中表格线区域为白色,其他区域为黑色,对表格线进行分割。各个表格线类间并不互斥,因为表格线之间的交点可以同时属于多种表格线。
本发明实施例中,综合考虑模型的分割效果和检测速度,选用Unet模型进行分割。Unet模型是一种专门用于图像分割的深度学习模型,输入为待检测表格图片,最终得到的输出结果为原图中每个像素点的类别。在本发明实施例中,表格线的类别设定为1,其他背景类别均设为0。Unet模型最早运用于医疗图像的分割,因为结构简单,参数量少,所以推理速度非常快。本发明实施例中,输入图片是背景比较干净的文档表格图片,所以Unet和其他图像分模型的结果相差很小,速度却有很大提升,能够适应快速推理和在低配设备上部署的需求。
进一步的,在Unet模型的基础上,对原有的结构进行了修改,使用了残差网络中的残差块的方式,对于降采样的部分进行了优化,能够更好的在深层网络中保留浅层输入的特征。而且根据残差网络由残差块组成的特征,能够根据具体的数据量和任务目标,对Unet网络进行加深或裁剪,达到速度和精度的平衡。本专利中使用Resnet50网络结构,可以轻易地通过调节层数,变为Resnet34来加快速度,或Resnet101来提升精度
针对所所述表格线图片,对于标注和检测结果来说,都很难做到像素级别。所以将所述表格线图片中的表格线经过图像形态学处理,再生成单像素的表格线。对于输出结果,因为标注时的误差,以及考虑所述图像分割模型的稳定性,所以表格线周围的区域都会被分割为1类别。但后期的表格合并处理并不需要,所以通过图像膨胀操作,去除表格线区域内分类有可能不为1的错误点,同时产生更光滑的表格线区域边界。经过前述处理后的表格线都是规范的矩形,根据行列的区分,所述表格线包括:行表格线和列表格线,所述行表格线以行像素分割图形式存在,所述列表格线以列像素分割图形式存在,所述行像素分割图和所述列像素分割图中包含多个像素轮廓,针对每个像素轮廓,利用该连通域的不变矩找到区域的几何中心点,对连通区域进行平均几何长宽的计算,找到几何中心,一般对于矩形来说,几何中心就是矩形的中点,对于不太规范,接近矩形的多边形,使用这种方法可以使用近似矩形的中点替代几何中心,减少计算量。对于然后根据该区域是行或列,通过中点做直线,认为该条直线就是代表了这个区域的行表格线或者列表格线。使用这种方法,对于可见和不可见表格都试用,而且消除了所述图像分割模型输出的不稳定性,对于标注数据并不需要严格逐像素标注,减少了标注时的工作量。而且以一个区域代表一条直线,减少了多条密集线段对于后处理的影响。
进一步的,将所述表格线置于空白画布,采用霍夫线检测的方法,将检测出的直线直接带入原表格数据。采用霍夫线检测方法的目的在于:霍夫线检测属于传统图像检测范畴,能够非常高效的检测直线,而且霍夫线检测可以过滤掉长度太小的线段,同时也可以合并临近的线段,由于经过后处理的图像为二值图,且仅仅有直线图像,相对与直接进行直线检测,能够保证稳定性,且可以取得较好的检测效果,还可以对于少部分不连贯的表格线区域,可以合并同向线段,优化表格检测效果,提升准确率。
进一步的,将所述行像素分割图和所述列像素分割进行叠加,得到表格线的交点坐标,其中,交点分为实交点和延长交点,实交点是检测出的表格线间的交点,延长交点是生成表格线的延长线产生的虚交点,有延长交点就说明发生了表格线的合并。
S102、基于所述交点坐标和所述表格线确定所述待检测表格图片中包含的各个基本单元格;
本发明实施例中,将所述交点坐标作为初始单元格的顶点,每4个为一组,组成一个矩形范围,枚举所有的标准矩形单元格组合方式,针对每个组合方式,将各个顶点依次连接得到各个初始单元格,针对每个初始单元格,对其判断是否在表格线图片中存在有对应的真实的表格线,如果没有,则发生了单元格的合并,从而进行组合边框的筛选。因为每个单元格都是独立的,不考虑单元格中嵌套单元格的情况,所以一旦某一个组合的单元格的边框实际存在了,那么和该单元格的起始单元格相同的其他组合生成的单元格就不可能存在,这样该单元格即为合并后的基本单元格。
S103、基于OCR方法识别所述待检测表格图片的各个表格内容和每个表格内容对应的内容位置;
本发明实施例中,对于所述待检测表格图片本身,进行OCR识别的流程。通过这个流程,可以获得所述待检测表格图片中的表格内容和表格内容对应的内容位置,其中,内容位置指将包含表格内容的检测框。OCR方法使用已经开源的paddleOCR方案,该方案由百度集成,经测试有较好的识别效果,对文字的位置和内容进行识别。调用该套件,输入所述待检测表格图片,输出可以获得所述待检测表格图片中的表格内容和表格内容对应的内容位置。
S104、将所述内容位置与所述各个基本单元格进行对比,基于对比结果确定目标单元格,将与所述内容位置对应的表格内容添加到所述目标单元格中,得到目标文档表格。
本发明实施例中,由于表格线是单像素的同时对表格进行深度学习OCR检测,检测出文字所在的位置,并识别文字的内容。结合文字位置,和表格线结合分析,确定生成的表格结构。根据文字内容和每个单元格之间的交并关系,还可以判断单元格合并的情况。由上一步获得的单像素的表格线,在表格线图片中获得行列线的交点。因为行列线只考虑横竖两种,所以每4个交点围成一个矩形,可以粗略的认为这个矩形为一个基本单元格。这样识别到的文字如果识别到的表格内容如果被对应的基本单元格矩形包围,则认为这部分文字在该表格内容在原表格中在一个单元格内。具体的确定过程如下:基于所述内容位置确定第一单元格面积;获取每个基本单元格的顶点坐标,基于所述顶点坐标确定第二单元格面积;确定所述第一单元格面积与所述第二单元格面积的面积交集,在所述面积交集大于预设面积阈值的情况下,将与所述第二单元格面积对应的基本单元格作为目标单元格。其中,所述预设面积阈值可以基于经验或者具体情况进行设定,本发明实施例中不进行具体限定。
进一步的,因为一个表格内容只会在一个单元格内,这样就可以确认表内容和单元格的关系。还可以根据表格内容和每个基本单元格之间的交并关系,还可以进一步判断所述各个基本单元单元格合并的情况。
本发明公开了一种文档表格结构检测方法,包括:接收待检测表格图片,将所述待检测表格图片发送给图像分割模型,得到表格线图片,其中,所述图像分割模型为深度学习模型,所述表格线图片中包括:表格线和表格线的交点坐标;基于所述交点坐标和所述表格线确定所述待检测表格图片中包含的各个基本单元格;基于OCR方法识别所述待检测表格图片的各个表格内容和每个表格内容对应的内容位置;将所述内容位置与所述各个基本单元格进行对比,基于对比结果确定目标单元格,将与所述内容位置对应的表格内容添加到所述目标单元格中,得到目标文档表格。上述过程,不但对待检测表格图片中的表格内容和内容位置进行识别,还识别了表格线和交点坐标,确定了目标单元格,并将表格内容中的内容添加到了目标单元格,不再需要人工填写表格内容。
本发明实施例中,所述图像分割模型是预先训练得到的,具体的训练过程如下:先编码(下采样)4次,一共下采样16倍,对称的,再解码(上采样)4次,将解码获得的高级语义特征恢复到原始的输入尺寸。Unet模型共进行了4次采样,并在同一个阶段使用了skipconnection,该操作是在同一个尺度范围上,将原始的输入不经任何操作,和经过了神经网络卷积的操作直接相叠加,保证了最后恢复的特征图融合了更多的低层次特征,同时也融合了各个尺寸的特征,能够在多尺度上进行预测。四次上采样也使得分割图的边缘信息更加精细。由于表格线是细长型的,角度基本都是水平和垂直,而且有一些线会有很大的跨度,所以在横竖方向上更大的感受野就可以提升模型的效果。本方案使用了1*5和5*1的卷积核结合的方式,对于这种特征选取1*5和5*1的卷积核,能够根据行列的不同更好的提取特征。1*5的卷积核在水平方向能够更好的提取特征,有助于识别横向的表格线,5*1的卷积核在竖直方向也可以同样的运用。
因为表格线一般都是细长的,而且很多都跨越了绝大多数的表格图片范围,所以使用空洞卷积的方式增加了感受野的范围,便于识别较长的连续表格线。降采样虽然可以增减感受野,但是空间分辨率降低了。为了不丢失分辨率,且仍然扩大感受野,可以使用空洞卷积。在图像分割任务中,使用空洞卷积,大的感受野可以分割大目标,而且分辨率提高也有益于精确定位目标。
对于部分像素点,尤其在表格线不可见的图像中,既属于行也属于列,比如表格线的交点,这样像素分割的标签就并不互斥,所以对于输出结果使用了四个sigmoid函数,分别表示4个标签的概率,4个标签分别表示可见行,可见列,不可见行和不可见列。使用这种方法的目的是在一些表格中,一片区域可能既属于行,也属于列,所以不对像素点的种类进行唯一的分类,而是分别判断是否属于这四个类。同时,这种方式也解决了部分表格中,部分有表格线而一些部分没有可见表格线的特殊情况
由于各类像素数量不平衡,一般来说只有少数像素点属于表格线,所以损失函数使用了focalloss的方法,对比传统的交叉熵损失函数CE,加快了图像分割模型训练时的收敛速度。
p表示预测样本属于1的概率(范围为0-1),y表示label,y的取值为{+1,-1}。当真实label是1,也就是y=1时,假如某个样本x预测为1这个类的概率p=0.6,那么损失就是-log(0.6),注意这个损失是大于等于0的。如果p=0.9,那么损失就是-log(0.9),所以p=0.6的损失要大于p=0.9的损失,这很容易理解。这里仅仅以二分类为例,多分类以此类推。
对于交叉熵公式,以二分类为例,原来的分类loss是各个训练严格本交叉熵的和,也就是各个样本的权重是一样的。但是在本发明实施例中所应对的情况下,正负样本的数量差距非常大,所以常见的做法就是给正负样本加上不同的权重,负样本多,则降低负样本的权重,正样本数量少,就提高正样本的权重。但是这种方式只能控制正负样本的权重,无法控制容易分类和难分类的样本的权重,于是就使用了focalloss(FL)。
FL(pt)=-(1-pt)γlog(pt) (2)
其中,γ为调制系数,γ=2,pt表示预测样本属于1的概率(范围为0-1)
进一步的,在标注训练用数据时,为了减少标注的工作量以及增强模型的可靠性和适用性,对于可见的表格线,对表格线以及周围的区域都进行标注,相当于标注了一条更粗的表格线;对于不可见的表格线,将文字中间的空白部分都标注为矩形的表格线区域,将检测文字间不可见的表格线任务转化为检测用于分割文字的区域,为了方便后续的后处理,人为的将不可见表格线区域标注为矩形区域,来模拟表格线,相当于标注了一条比较粗的表格线。
本发明实施例中,所述检测方法中,第一部分为表格线的检测方法。在这一部分中,本方案使用了深度学习图像分割的方法。之所以选用深度学习的检测方法主要是因为,传统的图像处理方法对于文档这种像素密集的图片效果非常不稳定,而且无法检测不可见的表格线,对于单元格分割的情况也无法处理。但是在使用深度学习的方法分割出表格线区域前后,都可以结合传统的图像处理方法,如对输入的图片使用高斯模糊消除图像噪声;对神经网络输出的区域进行图像开运算消除内部噪点和平滑边界,使用Canny算子提取边缘和轮廓确定实际的表格线。
第二部分核心为合并OCR和表格检测的结果,实现自动化的单元格生成,合并以及填写。OCR技术采用了较为成熟的外部开源方案,结合第一部分输出的表格线,确定表格的横纵结构,根据表格线的交点确定表格单元格,对单元格进行聚类,确定单元格的位置和合并关系,根据合并后的单元格的位置和OCR识别的文字的位置,根据交并集的关系,将文字填入对应的单元格内,以此生成可编辑的文档格式。这一部分全部采用传统的图像处理和图形学处理,根据表格结构和文字位置之间的数学关系进行判断,能够在很短的时间内对神经网络生成的输出结果进行整合,提升整体流程的可用性。
因此,本发明所述检测方法采用深度学习图像分割的方式,对表格线区域进行了检测分类,且同时考虑了实际存在的表格线,和结构化数据中不实际存在的虚拟表格线。通过对图像分割模型获得的检测结果进行分析,同时基于OCR实现了表格图片数据结构化和内容读取的目的。
基于上述的一种文档表格结构的检测方法,本发明实施例中,提供了一种文档表格结构的检测装置,所述检测装置的结构框图如图2所示,包括:
分割模块201、确定模块202、识别模块203和对比和添加模块204。
其中,
所述分割模块201,用于接收待检测表格图片,将所述待检测表格图片发送给图像分割模型,得到表格线图片,其中,所述图像分割模型为深度学习模型,所述表格线图片中包括:表格线和表格线的交点坐标;
所述确定模块202,用于基于所述交点坐标和所述表格线确定所述待检测表格图片中包含的各个基本单元格;
所述识别模块203,用于基于OCR方法识别所述待检测表格图片的各个表格内容和每个表格内容对应的内容位置;
所述对比和添加模块204,用于将所述内容位置与所述各个基本单元格进行对比,基于对比结果确定目标单元格,将与所述内容位置对应的表格内容添加到所述目标单元格中,得到目标文档表格。
本发明公开了一种文档表格结构检测装置,包括:接收待检测表格图片,将所述待检测表格图片发送给图像分割模型,得到表格线图片,其中,所述图像分割模型为深度学习模型,所述表格线图片中包括:表格线和表格线的交点坐标;基于所述交点坐标和所述表格线确定所述待检测表格图片中包含的各个基本单元格;基于OCR方法识别所述待检测表格图片的各个表格内容和每个表格内容对应的内容位置;将所述内容位置与所述各个基本单元格进行对比,基于对比结果确定目标单元格,将与所述内容位置对应的表格内容添加到所述目标单元格中,得到目标文档表格。上述过程,不但对待检测表格图片中的表格内容和内容位置进行识别,还识别了表格线和交点坐标,确定了目标单元格,并将表格内容中的内容添加到了目标单元格,不再需要人工填写表格内容。
本发明实施例中,所述表格线包括:行表格线和列表格线,所述分割模块201包括:
第一确定单元205、第二确定单元206和叠加单元207。
其中,
所述第一确定单元205,用于对所述待检测表格图片进行神经网络处理后确定行像素分割图和列像素分割图;
所述第二确定单元206,用于针对所述行像素分割图和所述列像素分割图图中的每个像素轮廓,确定所述像素轮廓的几何中心,基于所述几何中心确定对应的行表格线和列表格线;
所述叠加单元207,用于将所述行像素分割图和所述列像素分割图进行叠加,得到表格线的焦点坐标。
本发明实施例中,所述分割模块201还包括:卷积单元208。
其中,
所述卷积单元208,用于将所述行像素分割图和所述列像素分割图中的像素轮廓进行空洞卷积处理。
本发明实施例中,所述确定模块202包括:
底单确定单元209和判断单元210。
其中,
所述第三确定单元209,针对所述交点坐标确定各个初始单元格;
所述判断单元210,用于基于所述表格线判断所述各个初始单元格中的边框是否存在,基于判断结果确定各个基本单元格。
本发明实施例中,所述对比和添加模块204包括:
第四确定单元211和获取和确定单元212。
其中,
所述第四确定单元211,用于基于所述内容位置确定第一单元格面积;
所述获取和确定单元212,用于获取每个基本单元格的顶点坐标,基于所述顶点坐标确定第二单元格面积;
第五确定单元,用于确定所述第一单元格面积与所述第二单元格面积的面积交集,在所述面积交集大于预设面积阈值的情况下,将与所述第二单元格面积对应的基本单元格作为目标单元格。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种文档表格结构检测方法,其特征在于,包括:
接收待检测表格图片,将所述待检测表格图片发送给图像分割模型,得到表格线图片,其中,所述图像分割模型为深度学习模型,所述表格线图片中包括:表格线和表格线的交点坐标;
基于所述交点坐标和所述表格线确定所述待检测表格图片中包含的各个基本单元格;
基于OCR方法识别所述待检测表格图片的各个表格内容和每个表格内容对应的内容位置;
将所述内容位置与所述各个基本单元格进行对比,基于对比结果确定目标单元格,将与所述内容位置对应的表格内容添加到所述目标单元格中,得到目标文档表格。
2.根据权利要求1所述的方法,其特征在于,所述表格线包括:行表格线和列表格线,将所述待检测表格图片发送给图像分割模型,得到表格线图片,包括:
对所述待检测表格图片进行神经网络处理后确定行像素分割图和列像素分割图;
针对所述行像素分割图和所述列像素分割图图中的每个像素轮廓,确定所述像素轮廓的几何中心,基于所述几何中心确定对应的行表格线和列表格线;
将所述行像素分割图和所述列像素分割图进行叠加,得到表格线的焦点坐标。
3.根据权利要求2所述的方法,其特征在于,还包括:
将所述行像素分割图和所述列像素分割图中的像素轮廓进行空洞卷积处理。
4.根据权利要求1所述的方法,其特征在于,基于所述交点坐标和所述表格线确定所述待检测表格图片中包含的各个基本单元格,包括:
针对所述交点坐标确定各个初始单元格;
基于所述表格线判断所述各个初始单元格中的边框是否存在,基于判断结果确定各个基本单元格。
5.根据权利要求1所述的方法,其特征在于,将所述内容位置与所述各个基本单元格进行对比,基于对比结果确定目标单元格,包括:
基于所述内容位置确定第一单元格面积;
获取每个基本单元格的顶点坐标,基于所述顶点坐标确定第二单元格面积;
确定所述第一单元格面积与所述第二单元格面积的面积交集,在所述面积交集大于预设面积阈值的情况下,将与所述第二单元格面积对应的基本单元格作为目标单元格。
6.一种文档表格结构检测装置,其特征在于,包括:
分割模块,用于接收待检测表格图片,将所述待检测表格图片发送给图像分割模型,得到表格线图片,其中,所述图像分割模型为深度学习模型,所述表格线图片中包括:表格线和表格线的交点坐标;
确定模块,用于基于所述交点坐标和所述表格线确定所述待检测表格图片中包含的各个基本单元格;
识别模块,用于基于OCR方法识别所述待检测表格图片的各个表格内容和每个表格内容对应的内容位置;
对比和添加模块,用于将所述内容位置与所述各个基本单元格进行对比,基于对比结果确定目标单元格,将与所述内容位置对应的表格内容添加到所述目标单元格中,得到目标文档表格。
7.根据权利要求6所述的装置,其特征在于,所述表格线包括:行表格线和列表格线,所述分割模块包括:
第一确定单元,用于对所述待检测表格图片进行神经网络处理后确定行像素分割图和列像素分割图;
第二确定单元,用于针对所述行像素分割图和所述列像素分割图图中的每个像素轮廓,确定所述像素轮廓的几何中心,基于所述几何中心确定对应的行表格线和列表格线;
叠加单元,用于将所述行像素分割图和所述列像素分割图进行叠加,得到表格线的焦点坐标。
8.根据权利要求7所述的装置,其特征在于,还包括:
卷积单元,用于将所述行像素分割图和所述列像素分割图中的像素轮廓进行空洞卷积处理。
9.根据权利要求6所述的装置,其特征在于,所述确定模块包括:
第三确定单元,针对所述交点坐标确定各个初始单元格;
判断单元,用于基于所述表格线判断所述各个初始单元格中的边框是否存在,基于判断结果确定各个基本单元格。
10.根据权利要求6所述的装置,其特征在于,所述对比和添加模块包括:
第四确定单元,用于基于所述内容位置确定第一单元格面积;
获取和确定单元,用于获取每个基本单元格的顶点坐标,基于所述顶点坐标确定第二单元格面积;
第五确定单元,用于确定所述第一单元格面积与所述第二单元格面积的面积交集,在所述面积交集大于预设面积阈值的情况下,将与所述第二单元格面积对应的基本单元格作为目标单元格。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110896369.5A CN113591746B (zh) | 2021-08-05 | 一种文档表格结构检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110896369.5A CN113591746B (zh) | 2021-08-05 | 一种文档表格结构检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113591746A true CN113591746A (zh) | 2021-11-02 |
CN113591746B CN113591746B (zh) | 2024-07-02 |
Family
ID=
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116612487A (zh) * | 2023-07-21 | 2023-08-18 | 亚信科技(南京)有限公司 | 表格识别方法、装置、电子设备及存储介质 |
CN117115839A (zh) * | 2023-08-10 | 2023-11-24 | 广州方舟信息科技有限公司 | 一种基于自循环神经网络的发票字段识别方法和装置 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017117111A (ja) * | 2015-12-22 | 2017-06-29 | シャープ株式会社 | 変換処理装置、それを備えた情報処理装置、プログラム、及び記録媒体 |
CN108491788A (zh) * | 2018-03-20 | 2018-09-04 | 上海眼控科技股份有限公司 | 一种用于财务报表单元格的智能提取方法及装置 |
CN109726643A (zh) * | 2018-12-13 | 2019-05-07 | 北京金山数字娱乐科技有限公司 | 图像中表格信息的识别方法、装置、电子设备及存储介质 |
CN110163198A (zh) * | 2018-09-27 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种表格识别重建方法、装置和存储介质 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN110796031A (zh) * | 2019-10-11 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 基于人工智能的表格识别方法、装置及电子设备 |
US20200089946A1 (en) * | 2018-06-11 | 2020-03-19 | Innoplexus Ag | System and method for extracting tabular data from electronic document |
CN111325110A (zh) * | 2020-01-22 | 2020-06-23 | 平安科技(深圳)有限公司 | 基于ocr的表格版式恢复方法、装置及存储介质 |
CN111368695A (zh) * | 2020-02-28 | 2020-07-03 | 上海汇航捷讯网络科技有限公司 | 一种表格结构提取方法 |
CN111709349A (zh) * | 2020-06-11 | 2020-09-25 | 杭州尚尚签网络科技有限公司 | 一种针对带表格合同的ocr识别方法 |
CN111814722A (zh) * | 2020-07-20 | 2020-10-23 | 电子科技大学 | 一种图像中的表格识别方法、装置、电子设备及存储介质 |
CN112200117A (zh) * | 2020-10-22 | 2021-01-08 | 长城计算机软件与系统有限公司 | 表格识别方法及装置 |
CN112528863A (zh) * | 2020-12-14 | 2021-03-19 | 中国平安人寿保险股份有限公司 | 表格结构的识别方法、装置、电子设备及存储介质 |
CN112712014A (zh) * | 2020-12-29 | 2021-04-27 | 平安健康保险股份有限公司 | 表格图片结构解析方法、系统、设备和可读存储介质 |
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017117111A (ja) * | 2015-12-22 | 2017-06-29 | シャープ株式会社 | 変換処理装置、それを備えた情報処理装置、プログラム、及び記録媒体 |
CN108491788A (zh) * | 2018-03-20 | 2018-09-04 | 上海眼控科技股份有限公司 | 一种用于财务报表单元格的智能提取方法及装置 |
US20200089946A1 (en) * | 2018-06-11 | 2020-03-19 | Innoplexus Ag | System and method for extracting tabular data from electronic document |
CN110163198A (zh) * | 2018-09-27 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种表格识别重建方法、装置和存储介质 |
CN109726643A (zh) * | 2018-12-13 | 2019-05-07 | 北京金山数字娱乐科技有限公司 | 图像中表格信息的识别方法、装置、电子设备及存储介质 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN110796031A (zh) * | 2019-10-11 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 基于人工智能的表格识别方法、装置及电子设备 |
CN111325110A (zh) * | 2020-01-22 | 2020-06-23 | 平安科技(深圳)有限公司 | 基于ocr的表格版式恢复方法、装置及存储介质 |
WO2021147252A1 (zh) * | 2020-01-22 | 2021-07-29 | 平安科技(深圳)有限公司 | 基于ocr的表格版式恢复方法、装置、电子设备及存储介质 |
CN111368695A (zh) * | 2020-02-28 | 2020-07-03 | 上海汇航捷讯网络科技有限公司 | 一种表格结构提取方法 |
CN111709349A (zh) * | 2020-06-11 | 2020-09-25 | 杭州尚尚签网络科技有限公司 | 一种针对带表格合同的ocr识别方法 |
CN111814722A (zh) * | 2020-07-20 | 2020-10-23 | 电子科技大学 | 一种图像中的表格识别方法、装置、电子设备及存储介质 |
CN112200117A (zh) * | 2020-10-22 | 2021-01-08 | 长城计算机软件与系统有限公司 | 表格识别方法及装置 |
CN112528863A (zh) * | 2020-12-14 | 2021-03-19 | 中国平安人寿保险股份有限公司 | 表格结构的识别方法、装置、电子设备及存储介质 |
CN112712014A (zh) * | 2020-12-29 | 2021-04-27 | 平安健康保险股份有限公司 | 表格图片结构解析方法、系统、设备和可读存储介质 |
Non-Patent Citations (1)
Title |
---|
田翠华;张一平;胡志钢;高静敏;李西雨;: "PDF文档表格信息的识别与提取", 厦门理工学院学报, no. 03, pages 76 - 82 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116612487A (zh) * | 2023-07-21 | 2023-08-18 | 亚信科技(南京)有限公司 | 表格识别方法、装置、电子设备及存储介质 |
CN116612487B (zh) * | 2023-07-21 | 2023-10-13 | 亚信科技(南京)有限公司 | 表格识别方法、装置、电子设备及存储介质 |
CN117115839A (zh) * | 2023-08-10 | 2023-11-24 | 广州方舟信息科技有限公司 | 一种基于自循环神经网络的发票字段识别方法和装置 |
CN117115839B (zh) * | 2023-08-10 | 2024-04-16 | 广州方舟信息科技有限公司 | 一种基于自循环神经网络的发票字段识别方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109117848B (zh) | 一种文本行字符识别方法、装置、介质和电子设备 | |
CN109902622B (zh) | 一种用于登机牌信息验证的文字检测识别方法 | |
CN105868758B (zh) | 图像中文本区域检测方法、装置及电子设备 | |
US10896357B1 (en) | Automatic key/value pair extraction from document images using deep learning | |
CN111460927B (zh) | 对房产证图像进行结构化信息提取的方法 | |
US20140270489A1 (en) | Learned mid-level representation for contour and object detection | |
CN112085022B (zh) | 一种用于识别文字的方法、系统及设备 | |
CN110533018A (zh) | 一种图像的分类方法及装置 | |
CN109344824B (zh) | 一种文本行区域检测方法、装置、介质和电子设备 | |
CN113313083B (zh) | 文本检测方法及装置 | |
CN112101386B (zh) | 文本检测方法、装置、计算机设备和存储介质 | |
CN111680690A (zh) | 一种文字识别方法及装置 | |
CN111178290A (zh) | 一种签名验证方法和装置 | |
WO2024041032A1 (zh) | 基于不可编辑的图文类图像生成可编辑文档的方法及装置 | |
CN113591719A (zh) | 一种自然场景任意形状文本检测方法、装置和训练方法 | |
CN111563505A (zh) | 一种基于像素分割合并的文字检测方法及装置 | |
CN111611933A (zh) | 文档图像的信息提取方法及系统 | |
CN110728193B (zh) | 一种脸部图像丰富度特征的检测方法及设备 | |
CN114581710A (zh) | 图像识别方法、装置、设备、可读存储介质及程序产品 | |
CN111597845A (zh) | 一种二维码检测方法、装置、设备及可读存储介质 | |
CN116597466A (zh) | 一种基于改进YOLOv5s的工程图纸文字检测识别方法及系统 | |
CN111062262A (zh) | 发票识别方法以及发票识别装置 | |
CN114330234A (zh) | 版面结构分析方法、装置、电子设备和存储介质 | |
CN113537187A (zh) | 文本识别方法、装置、电子设备及可读存储介质 | |
CN117541546A (zh) | 图像裁剪效果的确定方法和装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Country or region after: China Address after: No. 210, Liangjing Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai 200120 Applicant after: Shanghai Jinshida Software Technology Co.,Ltd. Address before: 201203 No. 210, Liangjing Road, Pudong New Area, Shanghai Applicant before: Shanghai Kingstar Software Technology Co.,Ltd. Country or region before: China |
|
GR01 | Patent grant |