CN114565927A - 表格识别方法、装置、电子设备及存储介质 - Google Patents

表格识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114565927A
CN114565927A CN202210208111.6A CN202210208111A CN114565927A CN 114565927 A CN114565927 A CN 114565927A CN 202210208111 A CN202210208111 A CN 202210208111A CN 114565927 A CN114565927 A CN 114565927A
Authority
CN
China
Prior art keywords
area
line
text
type
document image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210208111.6A
Other languages
English (en)
Inventor
于业达
孙勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hengsheng Juyuan Data Service Co ltd
Original Assignee
Shanghai Hengsheng Juyuan Data Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Hengsheng Juyuan Data Service Co ltd filed Critical Shanghai Hengsheng Juyuan Data Service Co ltd
Priority to CN202210208111.6A priority Critical patent/CN114565927A/zh
Publication of CN114565927A publication Critical patent/CN114565927A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Character Input (AREA)

Abstract

本发明提供的表格识别方法、装置、电子设备及存储介质,针对获取到的目标文档图像,能够检测目标文档图像中的表格区域,进而通过分类确定该表格区域对应的表格类型,进一步基于该表格类型检测还原该表格区域内的表格框线,由此通过检测识别表格区域内文本,将表格区域内的文本与表格框线进行组合,以此实现解析还原该目标文档图像。基于本发明,能够有效地进行不同类型的表格检测与重绘,能够实现不同类型的表格识别任务,提升识别效率。

Description

表格识别方法、装置、电子设备及存储介质
技术领域
本发明涉及软件技术领域,更具体地说,涉及一种表格识别方法、装置、电子设备及存储介质。
背景技术
随着人工智能的发展,OCR(OpticalCharacter Recognition,光学字符识别)识别技术被广泛应用在企业文档处理业务中,而表格识别是当前OCR检测任务中最为重要的任务之一。
现阶段,主要通过利用图像处理、深度学习以及规则等算法对文档中的表格区域进行文本识别、并进行表格线的重绘,使得如扫描件、相机拍摄得到的电子文档能够得到识别,并保存为可编辑的电子文档或进行相应的信息抽取。
但由于文档以表格与文本混合的形式呈现,因此尽管文档中文本方向相比场景识别更为工整,但表格区域的分布、结构、样式存在很大的不确定性,使得表格难以进行准确的识别。同时由于表格线的缺失,进一步使得无线表格难以进行有效的重绘,为信息的抽取造成了很大的局限性。
发明内容
有鉴于此,为解决上述问题,本发明提供一种表格识别方法、装置、电子设备及存储介质,技术方案如下:
一种表格识别方法,所述方法包括:
获取目标文档图像,并检测所述目标文档图像中的表格区域;
对所述表格区域进行分类,以确定所述表格区域对应的表格类型;
基于所述表格类型检测还原所述表格区域内的表格框线;
检测识别所述表格区域内的文本,并将所述表格区域内的文本与表格框线进行组合,以实现解析还原所述目标文档图像。
可选的,所述获取目标文档图像,包括:
接收输入文件;
按照文件类型提取所述输入文件中的文档图像作为所述目标文档图像。
可选的,所述检测所述目标文档图像中的表格区域,包括:
利用图像分割网络对所述目标文档图像进行表格区域的分割,以及,利用目标检测网络对所述目标文档图像进行表格区域的检测;
基于所述图像分割网络输出的分割结果与所述目标检测网络输出的检测结果,确定所述目标文档图像中的表格区域。
可选的,所述基于所述表格类型检测还原所述表格区域内的表格框线,包括:
在所述表格类型为单线表格/三线表格/下划线表格的情况下,去除所述表格区域内的干扰线,以将所述表格类型由单线表格/三线表格/下划线表格转换为无线表格;
在所述表格类型为无线表格的情况下,利用生成对抗网络分别还原所述表格区域内的行线和列线,并组合所述行线和所述列线得到所述表格框线;
在所述表格类型为虚线表格的情况下,对所述表格区域进行图像处理,以将所述表格类型由虚线表格转换为有线表格;
在所述表格类型为有线表格的情况下,基于深度学习模型检测所述表格区域中的表格线,以将所述表格线组合为所述表格框线。
可选的,所述利用生成对抗网络分别还原所述表格区域内的行线和列线,包括:
利用所述生成对抗网络确定所述表格区域内的第一单元格区域;
对所述第一单元格区域进行连通域查找得到所述第一单元格区域对应的单元格区域坐标,以及,对所述表格区域进行文本检测得到所述第一单元格区域内的文本区域坐标;
如果根据所述单元格区域坐标确定所述第一单元格区域不为列方向的合并单元格,则按照所述第一单元格区域横向贯穿所述表格区域,以得到所述表格区域内的行线;
如果根据所述文本区域坐标确定所述第一单元格区域不为行方向的合并单元格,则按照所述第一单元格区域纵向贯穿所述表格区域,以得到所述表格区域内的列线。
可选的,所述将所述表格区域内的文本与表格框线进行组合,包括:
根据所述表格区域内的表格框线确定第二单元格区域;
遍历所述表格区域内每个文本,针对遍历到的目标文本,计算所述目标文本与所述第二单元格区域的重叠比;
绑定所述目标文本与重叠比满足对应阈值的所述第二单元格区域。
一种表格识别装置,所述装置包括:
表格检测模块,用于获取目标文档图像,并检测所述目标文档图像中的表格区域;
表格分类模块,用于对所述表格区域进行分类,以确定所述表格区域对应的表格类型;
表格框线还原模块,用于基于所述表格类型检测还原所述表格区域内的表格框线;
组合模块,用于检测识别所述表格区域内的文本,并将所述表格区域内的文本与表格框线进行组合,以实现解析还原所述目标文档图像。
可选的,所述表格框线还原模块,具体用于:
在所述表格类型为单线表格/三线表格/下划线表格的情况下,去除所述表格区域内的干扰线,以将所述表格类型由单线表格/三线表格/下划线表格转换为无线表格;
在所述表格类型为无线表格的情况下,利用生成对抗网络分别还原所述表格区域内的行线和列线,并组合所述行线和所述列线得到所述表格框线;
在所述表格类型为虚线表格的情况下,对所述表格区域进行图像处理,以将所述表格类型由虚线表格转换为有线表格;
在所述表格类型为有线表格的情况下,基于深度学习模型检测所述表格区域中的表格线,以将所述表格线组合为所述表格框线。
一种电子设备,所述电子设备包括:至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述存储器存储的程序,所述程序用于实现所述的表格识别方法。
一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行所述的表格识别方法。
相较于现有技术,本发明实现的有益效果为:
本发明提供的表格识别方法、装置、电子设备及存储介质,针对获取到的目标文档图像,能够检测目标文档图像中的表格区域,进而通过分类确定该表格区域对应的表格类型,进一步基于该表格类型检测还原该表格区域内的表格框线,由此通过检测识别表格区域内文本,将表格区域内的文本与表格框线进行组合,以此实现解析还原该目标文档图像。基于本发明,能够有效地进行不同类型的表格检测与重绘,能够实现不同类型的表格识别任务,提升识别效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的表格识别方法的方法流程图;
图2为本发明实施例提供的表格识别方法的部分方法流程图;
图3为本发明实施例提供的表格区域检测示例;
图4为本发明实施例提供的表格识别方法的另一部分方法流程图;
图5为本发明实施例提供的三线表格还原的示例;
图6为本发明实施例提供的无线表格还原的示例;
图7为本发明实施例提供的表格识别装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
深度学习的发展大大推进了OCR检测技术的应用,尤其是为企业文档自动化处理提升了巨额效率,OCR检测技术利用图像处理与深度学习方法将图像文件中的内容识别成可供编辑的文本,这对于电子文档的处理具有十分重要的应用意义。
实际上,OCR技术早已得到了广泛应用,如身份证、驾驶证的卡证识别,快递单号的拍照上传识别地址信息等,与此同时,在计算机视觉研究领域,近年来对于OCR的研究创新层出不穷,端到端目标检测算法(如Yolo、MaskRCNN)使得表格检测与文本识别成为一大热门方向,国内外许多著名赛事如CVPR也越来越关注OCR,其中文档OCR检测是最为主要的研究热点,原因在于相比于卡证与场景文本识别,电子文档的页面呈现着表格与文本混合的形式,尽管文本页面的文本方向相比场景识别更为工整,但文本行数较多,同时表格结构、文档结构的分布是影响检测与识别的难点所在,不仅如此,电子文档的页面相比于上述文本识别场景来讲,文本长度差异明显、且文档页面文本内容分布密集,更为容易收到噪声、印章、模糊等各种干扰的影响。此外,表格结构形式多种多样,不同的文档可能包含有线、无线、三线、虚线以及单线等多种形式的表格,而合并单元格与下划线同样是影响文档OCR检测的关键因素。
为解决上述问题,本发明提供一种表格识别方案,能够有效地进行不同类型的表格检测与重绘,能够实现不同类型的表格识别任务,提升识别效率。
为方便理解本发明,以下首先对本发明出现的相关概念进行说明:
OCR(OpticalCharacter Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文本的过程。
图像分割,即利用图像处理与深度学习结合的方式对图片中的不同目标区域进行分割,以确定目标所属区域范围。
深度学习,即利用深度神经网络进行模型建立与训练测试的过程。
生成对抗网络,深度学习中利用生成模型与判别模型互相增强,对抗学习的网络模型。
目标检测,即利用深度学习模型获取图片中目标位置信息的过程。
参见图1,图1为本发明实施例提供的表格识别方法的方法流程图,该表格识别方法包括如下步骤:
S10,获取目标文档图像,并检测目标文档图像中的表格区域。
本发明实施例中,目标文档图像即被输入的待进行表格识别的电子文档的图像。对于目标文档图像,可以采用图像分割网络或者目标检测网络检测其中的表格区域。
具体实现过程中,为支持不同文件输入类型,步骤S10中“获取目标文档图像”可以采用如下步骤:
接收输入文件;按照文件类型提取输入文件中的文档图像作为目标文档图像。
本发明实施例中,对于输入文件,可以按照不同的文件类型对其进行预处理,以提取其中的文档图像作为目标文档图像。
具体的,若输入文件的文件类型为pdf,则可以对该输入文件进行切片得到一个或多个单页图像,将每个单页图像分别作为目标文档图像;若输入文件的文件类型为html,则遍历节点,查找所有图像元素,每个图像元素均可以分别作为目标文档图像;当然,若输入文件的文件类型为图像,则不做处理,将该图像作为目标文档图像。
具体实现过程中,为使图像分割结果更为精确逼近表格区域边缘,同时降低模型训练所需的语料数量,节省标注人力,本发明实施例中采用图像分割网络与目标检测网络综合进行表格区域的检测。
步骤S10中“检测目标文档图像中的表格区域”可以采用如下步骤,方法流程图如图2所示:
S101,利用图像分割网络对目标文档图像进行表格区域的分割,以及,利用目标检测网络对目标文档图像进行表格区域的检测;
S102,基于图像分割网络输出的分割结果与目标检测网络输出的检测结果,确定目标文档图像中的表格区域。
本发明实施例中,图像分割网络与目标检测网络均是采用常规手段训练得到的,以适应表格识别这一场景,在此不再赘述训练过程,其中图像分割网络可以为Unet图像分割网络、而目标检测网络则可以为Yolo网络。
另外,本发明中采用图像分割网络与目标检测网络双通道处理分析,分别利用图像分割网络与目标检测网络对目标文档图像的表格区域进行检测,进一步,对图像分割网络输出的分割结果与目标检测网络输出的检测结果进行综合,若图像分割网络有效获得表格区域,则以图像分割网络输出的分割结果为准来确定表格区域,否则,则以目标检测网络输出的检测结果为准来确定表格区域。这就提升了表格区域的检测准确率、召回率,并且支持pdf、图像、html多种格式。
进一步,若以图像分割网络输出的分割结果为准来确定表格区域,则进一步对表格区域进行连通域查找,以获得表格区域的位置坐标。若以目标检测网络输出的检测结果为准来确定表格区域,则可以直接获得表格区域的位置坐标。图3为本发明实施例提供的表格区域检测示例。
S20,对表格区域进行分类,以确定表格区域对应的表格类型。
本发明实施例中,根据表格区域的位置坐标,将表格区域从目标文档图像中裁剪出来。在此过程中,可以根据目标文档图像的大小加以裁剪区域的限制,得到尺寸更为合适的表格区域后,对表格区域进行裁剪。
进一步,可以利用深度学习的图像分类模型对表格区域进行分类,以确定表格区域对应的表格类型,其中表格类型主要分为有线表格和无线表格,当然还有其它类型,比如虚线表格、单线表格、三线表格和下划线表格。而图像分类模型是采用常规手段训练得到的,以使用表格识别这一场景,在此不再赘述训练过程。
S30,基于表格类型检测还原表格区域内的表格框线。
本发明实施例中,首先基于表格类型对表格区域进行还原预处理,将表格区域的表格类型最终处理为无线表格或者有线表格;进一步,对表格类型为无线表格/有线表格的表格区域进行还原,以得到该表格区域内的表格框线。本发明能够支持支持多种不同类型的表格还原,包括相对复杂的无线表格、虚线表格、单线表格等。
具体实现过程中,步骤S30“基于表格类型检测还原表格区域内的表格框线”可以采用如下步骤:
在表格类型为单线表格/三线表格/下划线表格的情况下,去除表格区域内的干扰线,以将表格类型由单线表格/三线表格/下划线表格转换为无线表格;
在表格类型为无线表格的情况下,利用生成对抗网络分别还原表格区域内的行线和列线,并组合行线和列线,得到表格框线;
在表格类型为虚线表格的情况下,对表格区域进行图像处理,以将表格类型由虚线表格转换为有线表格;
在表格类型为有线表格的情况下,基于深度学习模型检测表格区域中的表格线,以将表格线组合为表格框线。
本发明实施例中,如果表格区域的表格类型为单线表格/三线表格/下划线表格,则可以对表格区域进行形态学处理得到表格线,表格线取反后与表格区域进行或运算,去除表格区域中的单线、短线以及其它线条干扰,将表格区域的表格类型由单线表格/三线表格/下划线表格转换为无线表格。
如果表格区域的表格类型为无线表格,则可以利用生成对抗网络模型、以及OCR文本检测进行行线、列线的还原,最终组合成表格框线,并获得单元格位置。
如果表格区域的表格类型为虚线表格,则可以对表格区域进行形态学处理,分别由表格区域中的虚线得到对应的实线的行线和列线,将行实线与列实线组合后得到表格框线,再与表格区域重组,即将表格区域的表格类型由虚线表格转换为有线表格。
如果表格区域的表格类型为有线表格,则可以进行表格线检测,具体可以利用深度学习的表格线检测模型对表格区域进行表格线检测,并对得到的表格线进行筛除与合并,组合为表格框线。而在对表格线检测模型训练过程中,有线表格训练集上针对每条行线、列线区域进行标注后得到标签图像,然后利用深度学习模型进行训练,得到有效预测有线表格线的检测模型。
具体实现过程中,无线表格的表格线还原过程中行线与列线是分开进行的,采用生成对抗网络得到各单元格区域的位置坐标,并进行合并单元格查找后,根据非合并单元区域的位置坐标确定表格线所在区域,随后取合适的坐标位置画出表格线,由此实现无线表格的识别重绘。
步骤“利用生成对抗网络分别还原表格区域内的行线和列线”,可以采用如下步骤,方法流程图如图4所示:
S301,利用生成对抗网络确定表格区域内的第一单元格区域。
本发明实施例中,利用生成对抗网络确定表格区域内的单元格区域,即第一单元格区域,解决单元格内部换行的问题。
S302,对第一单元格区域进行连通域查找得到第一单元格区域对应的单元格区域坐标,以及,对表格区域进行文本检测得到第一单元格区域内的文本区域坐标。
本发明实施例中,通过连通域查找确定第一单元格区域的位置坐标,即的单元格区域坐标;利用OCR文本检测模型对表格区域进行文本检测,得到第一单元格区域内的文本区域坐标。
S303,如果根据单元格区域坐标确定第一单元格区域不为列方向的合并单元格,则按照第一单元格区域横向贯穿表格区域,以得到表格区域内的行线。
本发明实施例中,根据单元格区域坐标判断第一单元格区域是否为列方向的合并单元格,若是,则不变,反之,则横向贯穿表格区域,置为白色像素带。将第一单元格区域遍历完后,各个黑色区域内部中线即为行线。
S304,如果根据文本区域坐标确定第一单元格区域不为行方向的合并单元格,则按照第一单元格区域纵向贯穿表格区域,以得到表格区域内的列线。
本发明实施例中,根据文本区域坐标判断第一单元格区域是否为行方向的合并单元格,若是,则不变,反之,则纵向贯穿表格区域,置为白色像素带。将第一单元格区域遍历完后,各个黑色区域内部中线即为列线。
图5为本发明实施例提供的三线表格还原的示例。对于左右两侧举例较近的文本区域同样会生成粘连区域,导致列线的还原存在合并单元格的误判。对此,本发明同时针对单元格区域坐标和文本区域坐标进行合并单元格的判定,最终确定出行线和列线,最后行线与列线组合得到无线表格还原后的表格框线。
图6为本发明实施例提供的无线表格还原的示例。可以看出,对于包含多个表格的无线表格,本发明能够有效的对表格区域的表格框线进行还原,这一步是无线表格解析还原的重要一步,本发明后续的文本与表格区域组合的过程同样是基于此表格框线完成的。
S40,检测识别表格区域内的文本,并将表格区域内的文本与表格框线进行组合,以实现解析还原目标文档图像。
本发明实施例中,利用OCR文本检测模型,比如CRNN(Convolutional RecurrentNeuralNetwork,卷积循环神经网络)+CTC(Connectionist Temporal Classification,即CTC Loss,一种深度学习的损失函数)模型对表格区域内的文本进行检测识别,并进一步基于表格区域内表格框线获得真实的单元格区域,基于单个文本(即文字或者字符)与单元格区域的重叠变比对文本与表格框线进行组合。
具体实现过程中,步骤S40中“将表格区域内的文本与表格框线进行组合”可以采用如下步骤:
根据表格区域内的表格框线确定第二单元格区域;遍历表格区域内每个文本,针对遍历到的目标文本的文本区域,计算目标文本与第二单元格区域的重叠比;绑定目标文本与重叠比满足对应阈值的第二单元格区域。
本发明实施例中,根据表格框线能够确定表格区域内真实的单元格区域,即第二单元格区域,进一步,遍历表格区域内每个文本。对于每次遍历到的文件,即目标文本,计算该目标文本与第二单元格区域的重叠比(即交并比),对于重叠比大于对于阈值的第二单元格区域,将该目标文本与该第二单元格区域所绑定。这就从所有真实的单元格区域中选择出目标文本所在的单元格区域、并与目标文件完成绑定,以此实现文本与表格框线的组合。本发明中采用单个文本与单元格区域的重叠比,而非文本区域与单元区域的重叠比,可以解决文本区域位置错误的问题。
需要说明的是,本发明实施例中遍历的每个文本即为单个文本,可以为文字或者字符,本发明实施例对此不做限定。在所有文本遍历结束后,将文本与表格框组合后的表格区域封装为html表格元素。若输入文件的文件类型为pdf或者图像,则将目标文档图像中不在表格区域内的剩余文本区域封装为html文本区域,并与html表格元素进行组合,得到最终的响应返回结果;若输入文件的文件类型为html,则将html表格元素插入原节点位置进行替换,得到最终的响应返回结果。
由此,本发明能够有效地进行不同类型的表格检测,并进行有线表格与无线表格两大类表格的解析还原,在此过程中也囊括了更为细致的表格类型,如单线表格、三线表格、下划线表格、虚线表格的检测与识别。本发明实现了以下功能:
(1)支持有线、无线、虚线表格的表格框线还原与识别;(2)提供了常见合并单元格的有效处理方法;(3)消除下划线对无线表格线还原的影响,利用图像分割网络和目标检测网络进行表格检测,提升表格预测框线准确率;(4)解决一定程度上的单元格内部换行问题;(5)采用了更为简单轻量的模型,大大降低规则逻辑使用量,更易于落地与应用。
基于上述实施例提供的表格识别方法,本发明实施例则对应提供执行上述表格识别方法的装置,该装置的结构示意图如图7所示,包括:
表格检测模块10,用于获取目标文档图像,并检测目标文档图像中的表格区域;
表格分类模块20,用于对表格区域进行分类,以确定表格区域对应的表格类型;
表格框线还原模块30,用于基于表格类型检测还原表格区域内的表格框线;
组合模块40,用于检测识别表格区域内的文本,并将表格区域内的文本与表格框线进行组合,以实现解析还原目标文档图像。
可选的,用于获取目标文档图像的表格检测模块10,具体用于:
接收输入文件;按照文件类型提取输入文件中的文档图像作为目标文档图像。
可选的,用于检测目标文档图像中的表格区域的表格检测模块10,具体用于:
利用图像分割网络对目标文档图像进行表格区域的分割,以及,利用目标检测网络对目标文档图像进行表格区域的检测;基于图像分割网络输出的分割结果与目标检测网络输出的检测结果,确定目标文档图像中的表格区域。
可选的,表格框线还原模块30,具体用于:
在表格类型为单线表格/三线表格/下划线表格的情况下,去除表格区域内的干扰线,以将表格类型由单线表格/三线表格/下划线表格转换为无线表格;
在表格类型为无线表格的情况下,利用生成对抗网络分别还原表格区域内的行线和列线,并组合行线和列线得到表格框线;在表格类型为虚线表格的情况下,对表格区域进行图像处理,以将表格类型由虚线表格转换为有线表格;在表格类型为有线表格的情况下,基于深度学习模型检测表格区域中的表格线,以将表格线组合为表格框线。
可选的,利用生成对抗网络分别还原表格区域内的行线和列线的表格框线还原模块30,具体用于:
利用生成对抗网络确定表格区域内的第一单元格区域;
对第一单元格区域进行连通域查找得到第一单元格区域对应的单元格区域坐标,以及,对表格区域进行文本检测得到第一单元格区域内的文本区域坐标;如果根据单元格区域坐标确定第一单元格区域不为列方向的合并单元格,则按照第一单元格区域横向贯穿表格区域,以得到表格区域内的行线;如果根据文本区域坐标确定第一单元格区域不为行方向的合并单元格,则按照第一单元格区域纵向贯穿表格区域,以得到表格区域内的列线。
可选的,用于将表格区域内的文本与表格框线进行组合的组合模块40,具体用于:
根据表格区域内的表格框线确定第二单元格区域;遍历表格区域内每个文本,针对遍历到的目标文本,计算目标文本与第二单元格区域的重叠比;绑定目标文本与重叠比满足对应阈值的第二单元格区域。
需要说明的是,本发明实施例中各模块的细化功能可以参见上述表格识别方法实施例对应公开部分,在此不再赘述。
基于上述实施例提供的表格识别方法,本发明实施例还提供一种电子设备,该电子设备包括:至少一个存储器和至少一个处理器;存储器存储有程序,处理器调用所述存储器存储的程序,程序用于实现表格识别方法。
基于上述实施例提供的表格识别方法,本发明实施例还提供一种存储介质,该存储介质中存储有计算机可执行指令,计算机可执行指令用于执行表格识别方法。
以上对本发明所提供的一种表格识别方法、装置、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素,或者是还包括为这些过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种表格识别方法,其特征在于,所述方法包括:
获取目标文档图像,并检测所述目标文档图像中的表格区域;
对所述表格区域进行分类,以确定所述表格区域对应的表格类型;
基于所述表格类型检测还原所述表格区域内的表格框线;
检测识别所述表格区域内的文本,并将所述表格区域内的文本与表格框线进行组合,以实现解析还原所述目标文档图像。
2.根据权利要求1所述的方法,其特征在于,所述获取目标文档图像,包括:
接收输入文件;
按照文件类型提取所述输入文件中的文档图像作为所述目标文档图像。
3.根据权利要求1所述的方法,其特征在于,所述检测所述目标文档图像中的表格区域,包括:
利用图像分割网络对所述目标文档图像进行表格区域的分割,以及,利用目标检测网络对所述目标文档图像进行表格区域的检测;
基于所述图像分割网络输出的分割结果与所述目标检测网络输出的检测结果,确定所述目标文档图像中的表格区域。
4.根据权利要求1所述的方法,其特征在于,所述基于所述表格类型检测还原所述表格区域内的表格框线,包括:
在所述表格类型为单线表格/三线表格/下划线表格的情况下,去除所述表格区域内的干扰线,以将所述表格类型由单线表格/三线表格/下划线表格转换为无线表格;
在所述表格类型为无线表格的情况下,利用生成对抗网络分别还原所述表格区域内的行线和列线,并组合所述行线和所述列线得到所述表格框线;
在所述表格类型为虚线表格的情况下,对所述表格区域进行图像处理,以将所述表格类型由虚线表格转换为有线表格;
在所述表格类型为有线表格的情况下,基于深度学习模型检测所述表格区域中的表格线,以将所述表格线组合为所述表格框线。
5.根据权利要求4所述的方法,其特征在于,所述利用生成对抗网络分别还原所述表格区域内的行线和列线,包括:
利用所述生成对抗网络确定所述表格区域内的第一单元格区域;
对所述第一单元格区域进行连通域查找得到所述第一单元格区域对应的单元格区域坐标,以及,对所述表格区域进行文本检测得到所述第一单元格区域内的文本区域坐标;
如果根据所述单元格区域坐标确定所述第一单元格区域不为列方向的合并单元格,则按照所述第一单元格区域横向贯穿所述表格区域,以得到所述表格区域内的行线;
如果根据所述文本区域坐标确定所述第一单元格区域不为行方向的合并单元格,则按照所述第一单元格区域纵向贯穿所述表格区域,以得到所述表格区域内的列线。
6.根据权利要求1所述的方法,其特征在于,所述将所述表格区域内的文本与表格框线进行组合,包括:
根据所述表格区域内的表格框线确定第二单元格区域;
遍历所述表格区域内每个文本,针对遍历到的目标文本,计算所述目标文本与所述第二单元格区域的重叠比;
绑定所述目标文本与重叠比满足对应阈值的所述第二单元格区域。
7.一种表格识别装置,其特征在于,所述装置包括:
表格检测模块,用于获取目标文档图像,并检测所述目标文档图像中的表格区域;
表格分类模块,用于对所述表格区域进行分类,以确定所述表格区域对应的表格类型;
表格框线还原模块,用于基于所述表格类型检测还原所述表格区域内的表格框线;
组合模块,用于检测识别所述表格区域内的文本,并将所述表格区域内的文本与表格框线进行组合,以实现解析还原所述目标文档图像。
8.根据权利要求7所述的装置,其特征在于,所述表格框线还原模块,具体用于:
在所述表格类型为单线表格/三线表格/下划线表格的情况下,去除所述表格区域内的干扰线,以将所述表格类型由单线表格/三线表格/下划线表格转换为无线表格;
在所述表格类型为无线表格的情况下,利用生成对抗网络分别还原所述表格区域内的行线和列线,并组合所述行线和所述列线得到所述表格框线;
在所述表格类型为虚线表格的情况下,对所述表格区域进行图像处理,以将所述表格类型由虚线表格转换为有线表格;
在所述表格类型为有线表格的情况下,基于深度学习模型检测所述表格区域中的表格线,以将所述表格线组合为所述表格框线。
9.一种电子设备,其特征在于,所述电子设备包括:至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述存储器存储的程序,所述程序用于实现权利要求1-6任意一项所述的表格识别方法。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1-6任意一项所述的表格识别方法。
CN202210208111.6A 2022-03-03 2022-03-03 表格识别方法、装置、电子设备及存储介质 Pending CN114565927A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210208111.6A CN114565927A (zh) 2022-03-03 2022-03-03 表格识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210208111.6A CN114565927A (zh) 2022-03-03 2022-03-03 表格识别方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114565927A true CN114565927A (zh) 2022-05-31

Family

ID=81718652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210208111.6A Pending CN114565927A (zh) 2022-03-03 2022-03-03 表格识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114565927A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115713775A (zh) * 2023-01-05 2023-02-24 达而观信息科技(上海)有限公司 一种从文档中提取表格的方法、系统和计算机设备
CN116935418A (zh) * 2023-09-15 2023-10-24 成都索贝数码科技股份有限公司 一种三维图文模板自动重组方法、设备及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163198A (zh) * 2018-09-27 2019-08-23 腾讯科技(深圳)有限公司 一种表格识别重建方法、装置和存储介质
US20200089946A1 (en) * 2018-06-11 2020-03-19 Innoplexus Ag System and method for extracting tabular data from electronic document
CN111814722A (zh) * 2020-07-20 2020-10-23 电子科技大学 一种图像中的表格识别方法、装置、电子设备及存储介质
CN112528863A (zh) * 2020-12-14 2021-03-19 中国平安人寿保险股份有限公司 表格结构的识别方法、装置、电子设备及存储介质
CN113343815A (zh) * 2021-05-31 2021-09-03 北森云计算有限公司 一种pdf等版式文档中识别表格的方法
CN113435240A (zh) * 2021-04-13 2021-09-24 北京易道博识科技有限公司 一种端到端的表格检测和结构识别方法及系统
CN113762158A (zh) * 2021-09-08 2021-12-07 平安资产管理有限责任公司 无边框表格复原模型训练方法、装置、计算机设备和介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200089946A1 (en) * 2018-06-11 2020-03-19 Innoplexus Ag System and method for extracting tabular data from electronic document
CN110163198A (zh) * 2018-09-27 2019-08-23 腾讯科技(深圳)有限公司 一种表格识别重建方法、装置和存储介质
CN111814722A (zh) * 2020-07-20 2020-10-23 电子科技大学 一种图像中的表格识别方法、装置、电子设备及存储介质
CN112528863A (zh) * 2020-12-14 2021-03-19 中国平安人寿保险股份有限公司 表格结构的识别方法、装置、电子设备及存储介质
CN113435240A (zh) * 2021-04-13 2021-09-24 北京易道博识科技有限公司 一种端到端的表格检测和结构识别方法及系统
CN113343815A (zh) * 2021-05-31 2021-09-03 北森云计算有限公司 一种pdf等版式文档中识别表格的方法
CN113762158A (zh) * 2021-09-08 2021-12-07 平安资产管理有限责任公司 无边框表格复原模型训练方法、装置、计算机设备和介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115713775A (zh) * 2023-01-05 2023-02-24 达而观信息科技(上海)有限公司 一种从文档中提取表格的方法、系统和计算机设备
CN116935418A (zh) * 2023-09-15 2023-10-24 成都索贝数码科技股份有限公司 一种三维图文模板自动重组方法、设备及系统
CN116935418B (zh) * 2023-09-15 2023-12-05 成都索贝数码科技股份有限公司 一种三维图文模板自动重组方法、设备及系统

Similar Documents

Publication Publication Date Title
US10943105B2 (en) Document field detection and parsing
CN110363102B (zh) 一种pdf文件的对象识别处理方法及装置
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN111709420B (zh) 文本检测方法、电子设备及计算机可读介质
US20190188528A1 (en) Text detection method and apparatus, and storage medium
US7236632B2 (en) Automated techniques for comparing contents of images
US7970213B1 (en) Method and system for improving the recognition of text in an image
CN111291572B (zh) 一种文字排版方法、装置及计算机可读存储介质
CN109635805B (zh) 图像文本定位方法及装置、图像文本识别方法及装置
CN109241861B (zh) 一种数学公式识别方法、装置、设备及存储介质
CN114565927A (zh) 表格识别方法、装置、电子设备及存储介质
KR20140091762A (ko) 히스토그램들을 갖는 다중 층 연결 요소들을 사용하는 텍스트 검출
CN111274957A (zh) 网页页面验证码识别方法、装置、终端和计算机存储介质
Sidhwa et al. Text extraction from bills and invoices
CN113033269B (zh) 一种数据处理方法及装置
Malik et al. An efficient skewed line segmentation technique for cursive script OCR
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
Suleyman et al. An adaptive threshold algorithm for offline Uyghur handwritten text line segmentation
CN114330234A (zh) 版面结构分析方法、装置、电子设备和存储介质
KR101571681B1 (ko) 동질 영역을 이용한 문서 구조의 분석 방법
CN113743318A (zh) 基于行列分割的表格结构识别方法、存储介质和电子装置
CN113011246A (zh) 票据分类方法、装置、设备及存储介质
CN104598289A (zh) 一种识别方法及一种电子设备
CN111079709A (zh) 一种电子单据的生成方法、装置、计算机设备和存储介质
CN111753836A (zh) 文字识别方法、装置、计算机可读介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination