CN113408256B - 一种表格图片的表格重构方法、装置及相关设备 - Google Patents

一种表格图片的表格重构方法、装置及相关设备 Download PDF

Info

Publication number
CN113408256B
CN113408256B CN202110742082.7A CN202110742082A CN113408256B CN 113408256 B CN113408256 B CN 113408256B CN 202110742082 A CN202110742082 A CN 202110742082A CN 113408256 B CN113408256 B CN 113408256B
Authority
CN
China
Prior art keywords
triangle
picture
preset
text box
main direction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110742082.7A
Other languages
English (en)
Other versions
CN113408256A (zh
Inventor
庞烨
冯敬之
韩茂琨
刘玉宇
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110742082.7A priority Critical patent/CN113408256B/zh
Publication of CN113408256A publication Critical patent/CN113408256A/zh
Application granted granted Critical
Publication of CN113408256B publication Critical patent/CN113408256B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种表格图片的表格重构方法,应用于数据处理领域,用于提高表格图片的表格重构的准确率。本发明提供的方法包括:获取表格图片,并对表格图片中的字符位置识别,得到识别结果;根据识别结果,生成文本框并确定文本框的中心点;根据预设的三角形网络提取方式,对所有文本框的中心点进行连接操作,得到三角形网络;基于预设的边缘外边框提取方式,对三角形网络中的每个三角形的边进行频次统计,得到统计结果,并根据统计结果得到边缘外边框;基于预设的主方向提取方式,对边缘外边框进行主方向提取,得到主方向;基于主方向对表格图片进行拓扑分析与电子化,得到重构表格。

Description

一种表格图片的表格重构方法、装置及相关设备
技术领域
本发明涉及数据处理领域,尤其涉及一种表格图片的表格重构方法、装置、计算机设备及存储介质。
背景技术
表格是表达信息的一种重要载体,提高了获取和搜索信息的便利性。目前将表格录入计算机中,主要有人工手动录入表格信息以及扫描的方法,其中,扫描是当表格以非结构化数字文件(如图片)等形式呈现进行的方法。
以上方法都存在着一些问题,人工手动录入表格信息存在录入效率低的问题,扫描表格图片虽然能提高录入效率,但当扫描的表格图片中表格出现跨单元格,或者其他复杂情况的时候,现有技术一般通过行或者列直接对表格图片进行内容提取,但容易出现将表格图片不同行或者列的内容分为同一行或者列,从而生成了具有空白单元格的表格,难以准确完整的反映表格结构,从而导致识别准确率低下。
由此可知,现有技术中对表格图片进行电子化重构表格的时候,存在准确率低的问题。
发明内容
本发明实施例提供一种表格图片的表格重构方法、装置、计算机设备及存储介质,提高了表格图片的表格重构的准确率。
一种表格图片的表格重构方法,包括:
获取表格图片,并对所述表格图片中的字符位置进行识别,得到识别结果;
根据所述识别结果,生成文本框,并确定所述文本框的中心点;
根据预设的三角形网络提取方式,对所有所述文本框的中心点进行连接操作,得到所述表格图片对应的三角形网络;
基于预设的边缘外边框提取方式,对所述三角形网络中出现的每个三角形的边进行频次统计,得到统计结果,并根据所述统计结果得到所述三角形网络对应的边缘外边框;
基于预设的主方向提取方式,对所述边缘外边框进行主方向提取,得到所述边缘外边框对应的主方向;
基于所述主方向对所述表格图片进行拓扑分析与电子化,得到重构表格。
一种表格图片的表格重构装置,包括:
表格图片获取模块,用于获取表格图片,并对所述表格图片中的字符位置进行识别,得到识别结果;
中心点获取模块,用于根据所述识别结果,生成文本框,并确定所述文本框的中心点;
三角形网络获取模块,用于根据预设的三角形网络提取方式,对所有所述文本框的中心点进行连接操作,得到所述表格图片对应的三角形网络;
边缘外边框获取模块,用于基于预设的边缘外边框提取方式,对所述三角形网络中出现的每个三角形的边进行频次统计,得到统计结果,并根据所述统计结果得到所述三角形网络对应的边缘外边框;
主方向获取模块,用于基于预设的主方向提取方式,对所述边缘外边框进行主方向提取,得到所述边缘外边框对应的主方向;
重构模块,用于基于所述主方向对所述表格图片进行拓扑分析与电子化,得到重构表格。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述表格图片的表格重构方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述表格图片的表格重构方法。
本发明实施例提供的表格图片的表格重构方法、装置、计算机设备及存储介质,获取表格图片,并对所述表格图片中的字符位置进行识别,得到识别结果;根据所述识别结果,生成文本框,并确定所述文本框的中心点;根据预设的三角形网络提取方式,对所有所述文本框的中心点进行连接操作,得到所述表格图片对应的三角形网络;基于预设的边缘外边框提取方式,对所述三角形网络中出现的每个三角形的边进行频次统计,得到统计结果,并根据所述统计结果得到所述三角形网络对应的边缘外边框;基于预设的主方向提取方式,对所述边缘外边框进行主方向提取,得到所述边缘外边框对应的主方向;基于所述主方向对所述表格图片进行拓扑分析与电子化,得到重构表格。通过识别出表格图片中字符位置,先确定字符位置对应的所有文本框及其文本框的中心点,基于对文本框中心点进行三角形网络提取,从而进行一系列的拓扑分析,利用表格图片中的文本框的拓扑结果信息,进行表格重构,从而为表格重构,提供了拓扑基础,有效提高了表格重构的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中表格图片的表格重构方法的一应用环境示意图;
图2是本发明一实施例中表格图片的表格重构方法的一流程图;
图3是本发明一实施例中表格图片的表格重构方法的一文本框与文本框中心点的示例图;
图4是本发明一实施例中表格图片的表格重构方法的一三角形网络示例图;
图5是本发明一实施例中表格图片的表格重构方法的一边缘外边框示例图;
图6是本发明一实施例中表格图片的表格重构装置的结构示意图;
图7是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的表格图片的表格重构方法,可应用在如图1的应用环境中,其中,计算机设备通过网络与服务器进行通信。其中,计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种表格图片的表格重构方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤S101至S106:
S101、获取表格图片,并对表格图片中的字符位置进行识别,得到识别结果。
在步骤S101中,表格图片的来源包括但不限于对纸质文件进行拍摄或者扫描获得表格图片,爬取网络上的表格图片,将文件转化为图片获取表格图片。易理解地,根据这些途径获取到的表格图片,往往是存在倾斜角度的,不易通过线条之间的交点进行表格重构。该表格图片中的表格框架包括但不限于行与列整齐统一的简单表格框架、在行或者列上具有合并单元格操作的表格框架。
识别结果包括但不限于字符位置。
对表格图片中的字符位置进行识别的方法包括但不限于CTPN文本检测算法(Connectionist Text Proposal Network)、形态学操作、最大稳定极值区域文本检测算法。
通过上述步骤,对表格图片中的字符位置进行识别,将表格图片中的字符位置检测出来,以便于进行后面的文本框识别,只有找到了文本所在区域,即文本框,才能对文本框中的字符内容进行识别,从而在表格重构的过程,将字符位置对应的字符内容进行相应填充。
S102、根据识别结果,生成文本框,并确定文本框的中心点。
在步骤S102中,此处需要说明的是,上述根据识别结果,生成的文本框的方法包括但不限于DB算法(Differentiable Binarization,可微分二值化处理算法)、CTPN文本检测算法(Connectionist Text Proposal Network)。
以附图3为例,文本框为每个单元格中字符内容四周形成的矩形框,文本框的中心点为图3中的文本框中的中心的黑点,文本框的数量与中心点的数量一致。
对于步骤S102,其具体是:
采用可微分二值化处理算法,对识别结果进行分析,获取文本框。
基于预设的中心点获取方式,对每个文本框进行中心点提取,得到每个文本框对应的中心点。
上述预设的中心点获取方式是指对每个文本框建立直角坐标系,优选地,将该文本框左上角的点作为该直角坐标系的原点,获取该直角坐标系x坐标轴左上角跟右下角的x坐标的均值X作为该文本框的x坐标,获取该直角坐标系y坐标轴左上角跟右下角的y坐标的均值Y作为该文本框的y坐标,其中,该(X,Y)为该文本框的中心点。
通过识别结果,获取文本框的坐标信息,生成文本框,并准确找出每个文本框的中心点提高了文本框的识别精度,有利于对文本框进行拓扑分析。
在步骤S102之后,方法还包括:
对所有文本框进行内容识别,获得每个文本框对应的字符内容。
上述字符内容是指表格图片中任一文本框中出现的所有字符,该字符内容包括但不限于数字、各国语言文字、符号。
上述识别字符内容的方法包括但不限于OCR(Optical Character Recognition,光学字符识别)、STR(Scene Text Recognition,场景文字识别)。
通过对表格图片中的文本框进行内容识别,获取到每个文本框中字符内容,以便于后期在表格重构的过程,将字符内容填充到相应的文本框中,从而获得重构表格。
S103、根据预设的三角形网络提取方式,对所有文本框的中心点进行连接操作,得到表格图片对应的三角形网络。
在步骤S103中,此处需要说明的是,三角形网络(Delaunay)是指一系列相连的但不重叠的三角形的集合,而且这些三角形的外接圆不包含这个面域的其他任何点。
上述三角形网络提取方式是指提取包含所有中心点所形成的三角形网络的方式。
上述连接操作采用的方法包括但不限于逐点插入算法、翻边算法、分割合并算法、Bowyer-Watson算法。
以附图4为例,附图4为附图3基础上提取到的三角形网络,该三角形网络将所有的中心点连接成一系列相连但不重叠的三角形。
通过预设的三角形网络提取方式,将所有文本框的中心点进行连接,获得由所有中心点相连且不重叠的三角形的三角形网络对应的拓扑图形,以便于对该三角形网络进行后续操作,同时,为分析表格图片的单元格的拓扑结构提供了理论支持,从而提高了表格重构的准确率。
对于步骤S103,其具体包括如下步骤a至d:
a、基于所有文本框对应的中心点,采用逐点插入算法构造初始三角形,其中,初始三角形包围所有中心点。
b、选取初始三角形内部中心点的其中一个作为新顶点。
c、若新顶点与初始三角形的任两个顶点连接形成的三角形所在的外接圆包含初始三角形,则删除外接圆与初始三角形共同的边,形成凸多边形。
d、将新顶点与凸多边形的每一个顶点相连,得到中间三角形,并将中间三角形作为初始三角形返回选取剩余的中心点其中一个作为初始三角形的新顶点继续执行,直到所有剩余的中心点执行完毕,得到表格图片对应的三角形网络。
对于上述步骤a,上述逐点插入算法是指逐个选取中心点,加入初始三角形中的算法。初始三角形是指能够包围所有中心点而构建的三角形。
上述中心点在处理过程中,可存放但不限于在链表、序列中,以便被选取进行构造三角形。
对于上述步骤c,外接圆是指与多边形各顶点都相交的圆。
其具体是,将新顶点加入到初始三角形中,构成了具有共同边的两个三角形,将两个具有共同边的三角形合并成一个凸多边形,以最大空圆准则对凸多边形进行检查,看其新顶点是否在初始三角形的外接圆之中,如果在,则进行局部优化处理,即删除外接圆与初始三角形共同的边。
通过逐点插入算法,将所有文本框的中心点逐个加入初始三角形,进行局部优化处理,获得由所有中心点相连且不重叠的三角形集合的三角形网络对应的拓扑图形,为分析表格图片的单元格的拓扑结构提供了理论支持,从而提高了表格重构的准确率。
S104、基于预设的边缘外边框提取方式,对三角形网络中出现的每个三角形的边进行频次统计,得到统计结果,并根据统计结果得到三角形网络对应的边缘外边框。
在步骤S104中,以附图5为例,附图5为附图4的三角形网络对应的边缘外边框,该边缘外边框为浅色边。
此处需要说明的是,上述预设的边缘外边框提取方式是指提取三角形网络对应的边缘外边框的方式。
其具体是,基于预设的边缘外边框提取方式,对三角形网络中出现的每个三角形的边进行频次统计,获得统计结果。
保留统计结果为1的所有边,得到三角形网络对应的边缘外边框。
由于在三角形网络中,所有的三角形相连的但不重叠,因此,每两个相邻的三角形共同的边出现了2次,但在外轮廓上的边都只出现1次。为此,通过对三角形网络中出现的每个三角形的边进行频次统计,可以确认每条边出现的统计结果,从而根据统计结构,保留统计结果为1的所有边,该统计结果为1的所有边,则构成了三角形网络对应的边缘外边框,进一步为分析表格图片的单元格的拓扑结构提供了理论支持,从而提高了表格重构的准确率。
S105、基于预设的主方向提取方式,对边缘外边框进行主方向提取,得到边缘外边框对应的主方向。
在步骤S105中,预设的主方向提取方式是指用提取边缘外边框主方向的方式。
上述主方向是指边缘外边框的水平方向与垂直方向。
上述提取方式包括但不限于梯度计算法、局部优化算法、分割合并算法。
通过提取边缘外边框的主方向,以便于从不同主方向对表格进行重构,以确保水平方向和垂直方向上的表格的重构准确率。
对于上述步骤S105,其具体包括如下步骤e至h:
e、对边缘外边框的所有边进行梯度计算,得到每条边对应的梯度值。
f、基于梯度值,建立直方图,其中,直方图在水平方向与垂直方向具有两个峰值。
g、基于预设的字符方向获取方式,获取文本框的字符方向。
h、基于直方图水平方向与垂直方向上的两个峰值,确定边缘外边框的两个主方向,并将与字符方向相同的主方向作为水平主方向。
对于上述步骤e,优选地,以边缘外边框左上角的原点建立直角坐标系,对边缘外边框的所有边进行梯度计算,得到每条边对应的梯度值。
对于上述步骤f,基于梯度值,建立直方图,其中,该直方图的频率由预设的梯度频率,直方图的横坐标为梯度方向。通过直方图可确定表格图片在水平方向和垂直方向上的两个峰值。
以一具体实施例,对上述步骤f进行说明,预设的梯度频率为5度,则以每5度为单位统计梯度值出现的频率,建立直方图,其中,直方图的横坐标具有72项,每项代表5度的范围,纵坐标为符合该梯度范围的边的个数。
对于上述步骤g,上述预设的字符方向提取方式是指提取字符内容的方向的方法。该提取方式包括但不限于读取表格输入的字符方向。
对于上述步骤h,根据直方图水平方向与垂直方向上的两个峰值可确定出表格的两个主方向,在通过字符方向,将与字符方向一致的主方向确定为边缘外边框的水平方向,将与字符方向不一致的主方向则确定为边缘外边框的垂直方向。
通过梯度计算,建立直方图,并通过直方图确定了边缘外边框在水平方向和垂直方向上的两个峰值,并根据表格图片的字符方向,确定了边缘外边框的水平方向和垂直方向,从而为表格重构建立了两个主方向,便于后续从不同方向对表格重构进行拓扑分析,从而提高了表格重构在不同主方向上的准确率。
S106、基于主方向对表格图片进行拓扑分析与电子化,得到重构表格。
在步骤S106中,其具体是,分别从水平方向和垂直方向对表格图片进行拓扑分析和电子化,得到重构表格的单元格框架,并将不同单元格的字符内容填充到相应的单元格,得到重构表格。
通过水平方向和垂直方向对表格图片进行拓扑分析和电子化,避免了单一化方向分析带来的误差,从而提高重构表格在不同主方向上的准确率。
对于步骤S106,其具体包括如下步骤A至E:
A、计算表格图片的倾斜程度,若倾斜程度大于预设倾斜值,则对表格图片进行角度调整操作,直到表格图片的倾斜程度小于等于预设倾斜值。
B、随机选取边缘外边框的一条边作为扫描边,基于垂直主方向和水平主方向分别进行扫描,若扫描到直线,则生成单元格,直到所有边扫描结束。
C、获取所有单元格的中心点。
D、基于预设的校验方向,对单元格进行校验,若单元格的中心点与单元格对应文本框的中心点之间的距离小于预设距离值,则合并与预设的校验方向相同的相邻两个单元格,直到垂直主方向和水平主方向校验结束,得到表格图片的拓扑图。
E、将文本框对应的字符内容填充到拓扑图对应的单元格,得到重构表格。
对于上述步骤A,由于表格图片在扫描的时候可能存在角度,为此需要对表格图片进行调整。
优选地,上述计算表格图片的倾斜程度可通过上述步骤f的直方图来获取,将步骤f的直方图横坐标首次出现边的度数范围对应的度数作为表格图片的倾斜程度。
对于上述步骤B,上述扫描包括在水平方向上从左到右进行扫描和在垂直方向上从上到下进行扫描。
上述随机选取的扫描边带有缓冲区,带缓冲区是指由于表格图片经过调整后可能还存在小角度的倾斜,因此,将扫描线设计成带有一定宽度缓冲区的扫描线,能够更完成提取直线。
在扫描线移动的时候,若无直线,则沿着与主方向一致的方向继续扫描,若存在直线,则记录直线两点坐标,用于生成单元格,直到所有直线扫描完毕。
对于上述步骤D,上述预设的校验方向包括水平方向和垂直方向。
以一具体实施例为例进行说明,在垂直方向进行校验时,预设距离值为单元格高度的1/3,计算单元格的中心点与单元格对应文本框的中心点之间的距离,若单元格对应文本框的中心点离单元格的中心点的距离大于1/3单元格高度,则合并上下相邻的两个单元格并删除两个中心点之间连接的直线。
通过对表格图片进行角度调整,有利于减少表格图片倾斜程度带来的误差,对调整后的表格图片进行拓扑分析和电子化,通过带有缓冲区的扫描线对处理过后的表格图片在不同的方向进行拓扑分析,重构出表格的单元格框架,并对重构后的单元格框架进行进一步的校验,使得重构表格的准确率进一步得到提升,最后将文本框对应的字符内容填充到拓扑图对应的单元格,得到了重构表格。
进一步地,在步骤S106之后,表格图片的表格重构方法包括:
对重构表格进行置信度评估。
具体地,上述置信度评估是指将重构表格与表格图片进行对比计算置信度。
重构表格与表格图片拓扑相似部分,则赋予高置信度;
重构表格与表格图片存在偏差大于预设偏差值的拓扑部分,则赋予低置信度;
将所有置信度进行求和平均,得到重构表格的置信度。
对重构表格进行置信度评估在训练表格图片重构过程中,若置信度较低的时候,可通过人工介入有针对性对置信度低的图片进行修改调整,对表格重构进行优化,从而提高了表格重构的准确率。
本发明实施例提供的表格图片的表格重构方法,获取表格图片,并对表格图片中的字符位置进行识别,得到识别结果;根据识别结果,生成文本框,并确定文本框的中心点;根据预设的三角形网络提取方式,对所有文本框的中心点进行连接操作,得到表格图片对应的三角形网络;基于预设的边缘外边框提取方式,对三角形网络中出现的每个三角形的边进行频次统计,得到统计结果,并根据统计结果得到三角形网络对应的边缘外边框;基于预设的主方向提取方式,对边缘外边框进行主方向提取,得到边缘外边框对应的主方向;基于主方向对表格图片进行拓扑分析与电子化,得到重构表格。通过识别出表格图片中字符位置,先确定字符位置对应的所有文本框及其文本框的中心点,基于对文本框中心点进行三角形网络提取,能准确提取表格图片所有文本框的拓扑信息,并利用表格图片中的文本框的拓扑信息,进行表格重构,重构源于表格图片的拓扑信息,有效提高了表格重构的准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种表格图片的表格重构装置,该表格图片的表格重构装置与上述实施例中表格图片的表格重构方法一一对应。如图6所示,该表格图片的表格重构装置包括表格图片获取模块11、中心点获取模块12、三角形网络获取模块13、边缘外边框获取模块14、主方向获取模块15和重构模块16。各功能模块详细说明如下:
表格图片获取模块11,用于获取表格图片,并对表格图片中的字符位置进行识别,得到识别结果。
中心点获取模块12,用于根据识别结果,生成文本框,并确定文本框的中心点。
三角形网络获取模块13,用于根据预设的三角形网络提取方式,对所有文本框的中心点进行连接操作,得到表格图片对应的三角形网络。
边缘外边框获取模块14,用于基于预设的边缘外边框提取方式,对三角形网络中出现的每个三角形的边进行频次统计,得到统计结果,并根据统计结果得到所述三角形网络对应的边缘外边框。
主方向获取模块15,用于基于预设的主方向提取方式,对边缘外边框进行主方向提取,得到边缘外边框对应的主方向。
重构模块16,用于基于主方向对表格图片进行拓扑分析与电子化,得到重构表格。
在其中一个实施例中,中心点获取模块12进一步包括:
文本框获取单元,用于采用可微分二值化处理算法,对识别结果进行分析,获取文本框。
中心点获取单元,用于基于预设的中心点获取方式,对每个文本框进行中心点提取,得到每个文本框对应的中心点。
在其中一个实施例中,中心点获取模块12之后包括:
字符内容获取模块,用于对所有文本框进行内容识别,获得每个文本框对应的字符内容。
在其中一个实施例中,三角形网络获取模块13进一步包括:
初始三角形构造单元,用于基于所有文本框对应的中心点,采用逐点插入算法构造初始三角形,其中,初始三角形包围所有中心点。
新顶点选取单元,用于选取初始三角形内部中心点的其中一个作为新顶点。
凸多边形构造单元,用于若新顶点与初始三角形的任两个顶点连接形成的三角形所在的外接圆包含初始三角形,则删除外接圆与初始三角形共同的边,形成凸多边形。
三角形网络获取单元,用于将新顶点与凸多边形的每一个顶点相连,得到中间三角形,并将中间三角形作为初始三角形返回选取剩余的中心点其中一个作为初始三角形的新顶点继续执行,直到所有剩余的中心点执行完毕,得到表格图片对应的三角形网络。
在其中一个实施例中,主方向获取模块15进一步包括:
梯度计算单元,用于对边缘外边框的所有边进行梯度计算,得到每条边对应的梯度值。
直方图获取单元,用于基于梯度值,建立直方图,其中,直方图在水平方向与垂直方向具有两个峰值。
字符方向获取单元,用于基于预设的字符方向获取方式,获取文本框的字符方向。
主方向获取单元,用于基于直方图水平方向与垂直方向上的两个峰值确定边缘外边框的两个主方向,并将与字符方向相同的主方向作为水平主方向。
在其中一个实施例中,重构模块16进一步包括:
倾斜程度计算单元,用于计算表格图片的倾斜程度,若倾斜程度大于预设倾斜值,则对表格图片进行角度调整操作,直到表格图片的倾斜程度小于等于预设倾斜值。
扫描单元,用于随机选取边缘外边框的一条边作为扫描边,基于垂直主方向和水平主方向分别进行扫描,若扫描到直线,则生成单元格,直到所有边扫描结束。
中心点获取单元,用于获取所有单元格的中心点。
校验单元,用于基于预设的校验方向,对单元格进行校验,若单元格的中心点与单元格对应文本框的中心点之间的距离小于预设距离值,则合并与预设的校验方向相同的相邻两个单元格,直到垂直主方向和水平主方向校验结束,得到表格图片的拓扑图。
重构单元,用于将文本框对应的字符内容填充到拓扑图对应的单元格,得到重构表格。
在其中一个实施例中,该表格图片的表格重构装置还包括:
置信度评估模块,用于对重构表格进行置信度评估。
其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分,并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式。
关于表格图片的表格重构装置的具体限定可以参见上文中对于表格图片的表格重构方法的限定,在此不再赘述。上述表格图片的表格重构装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储表格图片的表格重构方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种表格图片的表格重构方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中表格图片的表格重构方法,例如图2所示S101至步骤S106及该方法的其它扩展和相关步骤的延伸。或者,处理器执行计算机程序时实现上述实施例中表格图片的表格重构装置的各模块/单元的功能,例如图6所示模块11至模块16的功能。为避免重复,这里不再赘述。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。
所述存储器可以集成在所述处理器中,也可以与所述处理器分开设置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中表格图片的表格重构方法,例如图2所示S101至步骤S106及该方法的其它扩展和相关步骤的延伸。或者,计算机程序被处理器执行时实现上述实施例中表格图片的表格重构装置的各模块/单元的功能,例如图6所示模块11至模块16的功能。为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (9)

1.一种表格图片的表格重构方法,其特征在于,包括:
获取表格图片,并对所述表格图片中的字符位置进行识别,得到识别结果;
根据所述识别结果,生成文本框,并确定所述文本框的中心点;
根据预设的三角形网络提取方式,对所有所述文本框的中心点进行连接操作,得到所述表格图片对应的三角形网络;
基于预设的边缘外边框提取方式,对所述三角形网络中出现的每个三角形的边进行频次统计,得到统计结果,并根据所述统计结果得到所述三角形网络对应的边缘外边框;
对所述边缘外边框的所有边进行梯度计算,得到每条边对应的梯度值;
基于所述梯度值,建立直方图,其中,所述直方图在水平方向与垂直方向具有两个峰值;
基于预设的字符方向获取方式,获取文本框的字符方向;
基于所述直方图水平方向与垂直方向上的两个峰值确定所述边缘外边框的两个主方向,并将与所述字符方向相同的主方向作为水平主方向;
基于所述主方向对所述表格图片进行拓扑分析与电子化,得到重构表格。
2.根据权利要求1所述的方法,其特征在于,所述根据所述识别结果,生成文本框,并确定所述文本框的中心点包括:
采用可微分二值化处理算法,对所述识别结果进行分析,获取文本框;
基于预设的中心点获取方式,对每个所述文本框进行中心点提取,得到每个所述文本框对应的中心点。
3.根据权利要求1所述的方法,其特征在于,所述根据所述识别结果,生成文本框,并确定所述文本框的中心点之后,所述方法还包括:
对所有所述文本框进行内容识别,获得每个所述文本框对应的字符内容。
4.根据权利要求1所述的方法,其特征在于,所述根据预设的三角形网络提取方式,对所有所述文本框的中心点进行连接操作,得到所述表格图片对应的三角形网络包括:
基于所有所述文本框对应的中心点,采用逐点插入算法构造初始三角形,其中,所述初始三角形包围所有中心点;
选取所述初始三角形内部中心点的其中一个作为新顶点;
若所述新顶点与所述初始三角形的任两个顶点连接形成的三角形所在的外接圆包含所述初始三角形,则删除所述外接圆与所述初始三角形共同的边,形成凸多边形;
将所述新顶点与所述凸多边形的每一个顶点相连,得到中间三角形,并将所述中间三角形作为初始三角形返回选取剩余的中心点其中一个作为所述初始三角形的新顶点的步骤继续执行,直到所有剩余的中心点执行完毕,得到所述表格图片对应的三角形网络。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述基于所述主方向对所述表格图片进行拓扑分析与电子化,得到重构表格包括:
计算所述表格图片的倾斜程度,若所述倾斜程度大于预设倾斜值,则对所述表格图片进行角度调整操作,直到所述表格图片的倾斜程度小于等于预设倾斜值;
随机选取所述边缘外边框的一条边作为扫描边,基于垂直主方向和水平主方向分别进行扫描,若扫描到直线,则生成单元格,直到所有边扫描结束;
获取所有所述单元格的中心点;
基于预设的校验方向,对所述单元格进行校验,若所述单元格的中心点与所述单元格对应文本框的中心点之间的距离小于预设距离值,则合并与所述预设的校验方向相同的相邻两个单元格,直到垂直主方向和水平主方向校验结束,得到所述表格图片的拓扑图;
将文本框对应的字符内容填充到所述拓扑图对应的单元格,得到重构表格。
6.根据权利要求1所述的方法,其特征在于,所述基于所述主方向对所述表格图片进行拓扑分析与电子化,得到重构表格之后,所述方法还包括:
对所述重构表格进行置信度评估。
7.一种表格图片的表格重构装置,其特征在于,包括:
表格图片获取模块,用于获取表格图片,并对所述表格图片中的字符位置进行识别,得到识别结果;
中心点获取模块,用于根据所述识别结果,生成文本框,并确定所述文本框的中心点;
三角形网络获取模块,用于根据预设的三角形网络提取方式,对所有所述文本框的中心点进行连接操作,得到所述表格图片对应的三角形网络;
边缘外边框获取模块,用于基于预设的边缘外边框提取方式,对所述三角形网络中出现的每个三角形的边进行频次统计,得到统计结果,并根据所述统计结果得到所述三角形网络对应的边缘外边框;
主方向获取模块,用于基于预设的主方向提取方式,对所述边缘外边框进行主方向提取,得到所述边缘外边框对应的主方向;
重构模块,用于基于所述主方向对所述表格图片进行拓扑分析与电子化,得到重构表格;
所述主方向获取模块还包括:
梯度计算单元,用于对所述边缘外边框的所有边进行梯度计算,得到每条边对应的梯度值;
直方图获取单元,用于基于所述梯度值,建立直方图,其中,所述直方图在水平方向与垂直方向具有两个峰值;
字符方向获取单元,用于基于预设的字符方向获取方式,获取文本框的字符方向;
主方向获取单元,用于基于所述直方图水平方向与垂直方向上的两个峰值确定所述边缘外边框的两个主方向,并将与所述字符方向相同的主方向作为水平主方向。
8.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述表格图片的表格重构方法。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述表格图片的表格重构方法。
CN202110742082.7A 2021-06-30 2021-06-30 一种表格图片的表格重构方法、装置及相关设备 Active CN113408256B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110742082.7A CN113408256B (zh) 2021-06-30 2021-06-30 一种表格图片的表格重构方法、装置及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110742082.7A CN113408256B (zh) 2021-06-30 2021-06-30 一种表格图片的表格重构方法、装置及相关设备

Publications (2)

Publication Number Publication Date
CN113408256A CN113408256A (zh) 2021-09-17
CN113408256B true CN113408256B (zh) 2023-12-19

Family

ID=77680747

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110742082.7A Active CN113408256B (zh) 2021-06-30 2021-06-30 一种表格图片的表格重构方法、装置及相关设备

Country Status (1)

Country Link
CN (1) CN113408256B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113947778A (zh) * 2021-10-12 2022-01-18 钧宏科技(北京)有限公司 一种基于档案文件数字化处理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104517112A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 一种表格识别方法与系统
CN111860257A (zh) * 2020-07-10 2020-10-30 上海交通大学 融合多种文本特征及几何信息的表格识别方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120124194A1 (en) * 2010-11-14 2012-05-17 Caroline Jacqueline Shouraboura Method and Apparatus for Efficiently Managing Network Distance between Physical Computers in a Computing Cloud
US11113518B2 (en) * 2019-06-28 2021-09-07 Eygs Llp Apparatus and methods for extracting data from lineless tables using Delaunay triangulation and excess edge removal

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104517112A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 一种表格识别方法与系统
CN111860257A (zh) * 2020-07-10 2020-10-30 上海交通大学 融合多种文本特征及几何信息的表格识别方法及系统

Also Published As

Publication number Publication date
CN113408256A (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
CN111860502B (zh) 图片表格的识别方法、装置、电子设备及存储介质
CN108875723B (zh) 对象检测方法、装置和系统及存储介质
CN109815770B (zh) 二维码检测方法、装置及系统
CN114529837A (zh) 建筑物轮廓提取方法、系统、计算机设备及存储介质
CN110647885B (zh) 基于图片识别的试卷拆分方法、装置、设备以及介质
CN112906695B (zh) 适配多类ocr识别接口的表格识别方法及相关设备
CN113283355A (zh) 一种表格图像的识别方法、装置、计算机设备及存储介质
CN112926564B (zh) 图片分析方法、系统、计算机设备和计算机可读存储介质
CN111460355B (zh) 一种页面解析方法和装置
CN111160288A (zh) 手势关键点检测方法、装置、计算机设备和存储介质
CN112348836A (zh) 一种自动提取建筑物轮廓的方法及装置
CN112926421B (zh) 图像处理方法和装置、电子设备和存储介质
CN113408256B (zh) 一种表格图片的表格重构方法、装置及相关设备
CN111291752A (zh) 一种发票识别方法及设备、介质
CN110738204A (zh) 一种证件区域定位的方法及装置
CN113591746A (zh) 一种文档表格结构检测方法及装置
CN113282905A (zh) 一种登录测试方法及装置
CN112906532B (zh) 图像处理方法和装置、电子设备和存储介质
CN113159103A (zh) 图像匹配方法、装置、电子设备以及存储介质
CN110909816B (zh) 图片识别方法和装置
CN117115840A (zh) 信息提取方法、装置、电子设备和介质
CN115457581A (zh) 表格提取方法、装置及计算机设备
CN114511862A (zh) 表格识别方法、装置及电子设备
CN113298079A (zh) 一种图像处理方法、装置、电子设备及存储介质
CN116584100A (zh) 适合于覆盖媒体内容的图像空间检测

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant