CN114332890A - 表格结构提取方法、装置、电子设备及存储介质 - Google Patents

表格结构提取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114332890A
CN114332890A CN202111485595.0A CN202111485595A CN114332890A CN 114332890 A CN114332890 A CN 114332890A CN 202111485595 A CN202111485595 A CN 202111485595A CN 114332890 A CN114332890 A CN 114332890A
Authority
CN
China
Prior art keywords
image
feature map
network
target frame
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111485595.0A
Other languages
English (en)
Inventor
蒋召
黄泽元
杨战波
祁晓婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Xumi Yuntu Space Technology Co Ltd
Original Assignee
Shenzhen Jizhi Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Jizhi Digital Technology Co Ltd filed Critical Shenzhen Jizhi Digital Technology Co Ltd
Priority to CN202111485595.0A priority Critical patent/CN114332890A/zh
Publication of CN114332890A publication Critical patent/CN114332890A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本说明书实施例提供一种表格结构提取方法、装置、电子设备及存储介质。方法包括:利用多尺度图像超分网络对原始图像进行预处理得到具有不同尺度特征的特征图,并利用预定的级联表格检测网络对特征图进行检测,得到每个特征图中目标框的位置以及置信度评分;基于目标框对应的位置以及置信度评分,分别对每个特征图中的目标框执行裁剪操作,得到每个特征图对应的表格图像;将表格图像作为输入,利用预定的表格内部结构提取算法,对表格图像中的文字执行去除操作,并对去除文字后的表格图像进行处理得到表格内部轮廓,基于表格内部轮廓进行恢复得到表格结构。本公开能够降低表格结构提取的成本,显著的提升表格识别精度、识别准确率以及识别效率。

Description

表格结构提取方法、装置、电子设备及存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种表格结构提取方法、装置、电子设备及存储介质。
背景技术
现实生活中,文档图像中往往具有很多表格,也有很多表格以图像的形式存在,为了将图片形式的表格还原为能够结构化存储的数据格式,如excel表格。首先需要对文档图像中的表格结构进行提取,因此,表格结构提取算法的识别精度和准确率,对表格还原为结构化数据具有重要意义。
传统的表格结构提取方式中,例如以提取证书文件中的表格数据为例,通常只能通过人工的方式进行手动录入,对于结构和数据比较简单的表格来说,这种传统方式也能够比较准确的提取表格结构。但是当表格结构比较复杂且单元格密集的情况下,传统提取方式很容易出现误识别和漏识别的问题,导致传统提取方式存在识别准确率低,识别精度差,识别效率低等问题。
鉴于以上现有技术中的问题,需要提供一种能够降低人工成本,既保证表格结构提取的效率,还能兼顾识别精度和准确率的表格结构提取方法。
发明内容
有鉴于此,本公开实施例提供了一种表格结构提取方法、装置、电子设备及存储介质,以解决现有技术存在的表格结构提取的人工成本高,算法识别准确率低,识别精度差,识别效率低的问题。
本公开实施例的第一方面,提供了一种表格结构提取方法,包括:获取原始图像,利用预定的多尺度图像超分网络对原始图像进行预处理得到具有不同尺度特征的特征图,以便将原始图像重构为清晰图像;将特征图作为输入,利用预定的级联表格检测网络对特征图进行检测,得到每个特征图中目标框的位置以及置信度评分,目标框中包含表格;基于目标框对应的位置以及置信度评分,分别对每个特征图中的目标框执行裁剪操作,得到每个特征图对应的表格图像;将表格图像作为输入,利用预定的表格内部结构提取算法,对表格图像中的文字执行去除操作,并对去除文字后的表格图像进行处理得到表格内部轮廓,基于表格内部轮廓执行恢复操作,得到表格对应的表格结构。
本公开实施例的第二方面,提供了一种表格结构提取装置,包括:处理模块,被配置为获取原始图像,利用预定的多尺度图像超分网络对原始图像进行预处理得到具有不同尺度特征的特征图,以便将原始图像重构为清晰图像;检测模块,被配置为将特征图作为输入,利用预定的级联表格检测网络对特征图进行检测,得到每个特征图中目标框的位置以及置信度评分,目标框中包含表格;裁剪模块,被配置为基于目标框对应的位置以及置信度评分,分别对每个特征图中的目标框执行裁剪操作,得到每个特征图对应的表格图像;提取模块,被配置为将表格图像作为输入,利用预定的表格内部结构提取算法,对表格图像中的文字执行去除操作,并对去除文字后的表格图像进行处理得到表格内部轮廓,基于表格内部轮廓执行恢复操作,得到表格对应的表格结构。
本公开实施例的第三方面,提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述方法的步骤。
本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本公开实施例采用的上述至少一个技术方案能够达到以下有益效果:
通过获取原始图像,利用预定的多尺度图像超分网络对原始图像进行预处理得到具有不同尺度特征的特征图,以便将原始图像重构为清晰图像;将特征图作为输入,利用预定的级联表格检测网络对特征图进行检测,得到每个特征图中目标框的位置以及置信度评分,目标框中包含表格;基于目标框对应的位置以及置信度评分,分别对每个特征图中的目标框执行裁剪操作,得到每个特征图对应的表格图像;将表格图像作为输入,利用预定的表格内部结构提取算法,对表格图像中的文字执行去除操作,并对去除文字后的表格图像进行处理得到表格内部轮廓,基于表格内部轮廓执行恢复操作,得到表格对应的表格结构。本公开不仅能够降低表格结构提取的人工成本,还能够提升识别准确率,提高识别精度和识别效率。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本公开实施例提供的表格结构提取方法的流程示意图;
图2是本公开实施例提供的表格结构提取装置的结构示意图;
图3是本公开实施例提供的电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
如前文所述,现实生活中,大量的文档以图像的形式进行保存,而文档图像中通常又包含了大量的表格,因此,表格实际上是以图像的形式进行存储。而实际工作中,需要将图片形式的表格还原为能够结构化存储的数据格式,如excel表格,而表格还原的重要组成部分是对文档图像中的表格结构进行提取,即从文档图像中识别出有哪些表格以及表格中的单元格的具体位置等。下面以提取证书文件中的表格结构为例,对传统的表格结构提取方式存在的问题进行详细说明,具体可以包括以下内容:
传统的提取方式中,一种是通过手工录入的方式进行提取,另一种是采用基于传统视觉的表格框线提取方法来还原表格结构。对于第一种方式,通过人工的方式进行手动录入,对于结构和数据比较简单的表格来说,这种传统方式也可以比较准确的提取表格结构,但是当表格结构比较复杂且单元格密集的情况下,传统提取方式很容易出现误识别和漏识别的问题。对于第二种方式,采用基于传统视觉的表格框线提取方法还原表格结构,这种方式对于单元格线条比较清晰的图像具有一定的提取精度,但是对于单元格线条的清晰度比较差的图像,则无法准确识别其中的单元格。因此,无论上述哪种方式,都无法很好的满足表格结构比较复杂的场景下的表格提取,无法准确识别出表格结构中的单元格,导致识别准确率低,识别精度差,识别效率低等问题。
因此,鉴于以上现有技术问题,为了降低人工成本和提高识别准确率,本公开提出了一种基于OpenCV和神经网络的表格结构提取算法,该提取算法流程可以包括预处理、表格检测、表格结构提取、表格文本识别和表格信息重建的步骤,下面结合具体实施例对本公开技术方案进行详细说明。
图1是本公开实施例提供的表格结构提取方法的流程示意图。图1的表格结构提取方法可以由服务器执行。如图1所示,该表格结构提取方法具体可以包括:
S101,获取原始图像,利用预定的多尺度图像超分网络对原始图像进行预处理得到具有不同尺度特征的特征图,以便将原始图像重构为清晰图像;
S102,将特征图作为输入,利用预定的级联表格检测网络对特征图进行检测,得到每个特征图中目标框的位置以及置信度评分,目标框中包含表格;
S103,基于目标框对应的位置以及置信度评分,分别对每个特征图中的目标框执行裁剪操作,得到每个特征图对应的表格图像;
S104,将表格图像作为输入,利用预定的表格内部结构提取算法,对表格图像中的文字执行去除操作,并对去除文字后的表格图像进行处理得到表格内部轮廓,基于表格内部轮廓执行恢复操作,得到表格对应的表格结构。
具体地,原始图像是指包含表格的图像,当然也可以是不包含任何表格的图像,对于包含表格的图像,利用本方案可以高效精准地提取其中的表格,对于不包含任何表格的图像,则本方案的级联表格检测网络则无法获取表格。在实际应用中,原始图像可以是将文本文档形式的证书文件转换为PDF或者图片格式的文件,即本方案针对的原始图像可以认为是图片形式的证书文件。应当理解的是,本公开以下实施例虽然是以证书文件作为处理对象进行描述的,但是本公开实施例不限于证书文件中的表格结构提取,任何图像或者图片都可以作为本公开的处理对象。
进一步地,目标框也可以称为候选框或者表格框,其含义是利用区域生成网络从特征图中提取出来的包含表格的框,目标框中包含表格的四个顶点的坐标位置。本公开实施例中利用多尺度图像超分网络进行预处理得到的特征图中融合了多尺度信息,特征图可以认为是一个矩阵,尺度可以认为是不同图像的占比(即面积大小),特征尺度越大,感受野就越大,特征信息也越丰富。
根据本公开实施例提供的技术方案,本公开通过获取原始图像,利用预定的多尺度图像超分网络对原始图像进行预处理得到具有不同尺度特征的特征图,以便将原始图像重构为清晰图像;将特征图作为输入,利用预定的级联表格检测网络对特征图进行检测,得到每个特征图中目标框的位置以及置信度评分,目标框中包含表格;基于目标框对应的位置以及置信度评分,分别对每个特征图中的目标框执行裁剪操作,得到每个特征图对应的表格图像;将表格图像作为输入,利用预定的表格内部结构提取算法,对表格图像中的文字执行去除操作,并对去除文字后的表格图像进行处理得到表格内部轮廓,基于表格内部轮廓执行恢复操作,得到表格对应的表格结构。本公开不仅能够降低表格结构提取的人工成本,还能够提升识别准确率,提高识别精度差和识别效率。
在一些实施例中,利用预定的多尺度图像超分网络对原始图像进行预处理得到具有不同尺度特征的特征图,包括:利用多尺度图像超分网络中的主干网络,对原始图像执行卷积操作,得到第一特征图,分别将第一特征图输入到多个第一残差网络中,多个第一残差网络分别对应不同的尺度特征提取分支,利用尺度特征提取分支,提取出包含不同尺度信息的第二特征图;对多个第二特征图执行加权融合操作,得到第三特征图,并利用第二残差网络对第三特征图中的不同尺度特征进行提取,得到第四特征图,利用尺度特征提取分支对第四特征图进行处理,得到多个具有不同尺度特征的特征图。
具体地,本公开实施例提供的基于OpenCV和神经网络的表格结构提取算法,可以包括以下几个步骤:前处理(即预处理)、表格检测、表格结构提取、表格文本识别和表格信息重建。在预处理阶段中,由于现实场景中的表格图片因存在模糊现象而导致识别精度很差,因此,为了避免模糊图像对表格结构识别的影响,本公开提出了一种多尺度图像超分算法来完成模糊图像到清晰图像的映射,即将原始的模糊图像映射为清晰图像。
进一步地,图像超分本质上是在输入图片的基础上提升像素密度,传统的上采样算法(Bilinear、Bicubic、Nearst-neighbor等)通过固定规则来完成像素填充,使得输出的高分辨率图像存在很多不真实的高频信息。这些像素最优的取值方式必然是非人工干预的,是有自我学习机制的,因此很多深度学习算法在超分领域可以取得不错的效果,但是以往的这些算法忽略了图像超分是一种病态问题的事实,即给定低分辨率输入存在多个合理预测。其将图像超分建模为确定性处理,这就导致不理想结果。因此本公开在以往的图像超分算法的基础上,通过构建多个特征提取分支,在编码阶段提取多尺度信息,同时在解码阶段进行多尺度重建,使得输出具有更高的散度。下面结合具体实施例,对利用多尺度图像超分算法进行预处理,得到多尺度特征的特征图的过程进行详细说明,具体可以包括以下内容:
多尺度图像超分网络主要包括主干网络,残差网络和注意力网络,原始图像先经过主干网络的卷积处理,得到特征图(即第一特征图)。主干网络在这里是Stem网络,Stem网络中包含很多卷积层,将原始Stem网络中的7x7的卷积层替换为三个连续的3x3卷积层,使它们具有相同的感受野大小,并且计算成本与原始Stem网络的设计相似。同时对于shortcut分支,将1x1卷积层中的下采样用步长为2的平均池化代替,这样可以避免信息损失。
在利用主干网络提取特征图之后,利用不同尺度特征提取分支对应的残差块ResBlock来提取不同感受野的特征,ResBlock堆的模块越多,提取特征的尺度越大,感受野也越大,信息也越丰富;例如在实际应用中,可以使用三个尺度特征提取分支,分别进行多尺度信息的提取,这三个尺度特征提取分支对应的ResBlock分别为ResBlock/x2、ResBlock/x3、ResBlock/x4。
进一步地,在经过编码阶段提取多尺度特征后,通过利用一个注意力模块(Split-Attention模块)来对多尺度特征进行加权融合,Split-Attention模块会自适应的为每种尺度特征学习一个权重,然后加权融合;即给每个尺度特征提取分支输出的特征图分配一个权重,将权重乘以特征图再进行加权融合,得到加权融合后的具有多尺度信息的特征图。
进一步地,在使用Split-Attention模块进行多尺度特征的加权融合之后,利用两个连续的残差网络Res2Block来进一步提取多尺度的特征,即在网络中间计算阶段引入Res2Block,利用其在卷积核内部引入多种感受野,从而提升了网络捕获多尺度特征的能力,最终输出具有不同尺度的特征图,即得到不同感受野的图像,从而实现将模糊图像重构为清晰图像。
需要说明的是,本公开多尺度图像超分网络中间的激活函数为Mish函数,其计算公式为:y=x*tanh(ln(1+exp(x)))数具有平滑、非单调、上无界、有下界等特点,与其它常用函数(如ReLU、Swish等)相比,可以提高模型非线性变换能力。
在一些实施例中,级联表格检测网络中包含特征提取网络、多层级信息融合网络、区域生成网络和预测网络;利用预定的级联表格检测网络对特征图进行检测,得到每个特征图中目标框的位置以及置信度评分,包括:利用特征提取网络对特征图进行处理,得到多个第五特征图,特征提取网络中包含可变形卷积网络,可变形卷积网络用于学习偏移值,利用偏移值进行卷积计算;利用多层级信息融合网络将第五特征图中的低层信息传递给高层信息,并对第五特征图进行信息融合,得到第六特征图;利用区域生成网络对第六特征图中的目标框进行提取,并将提取出的目标框映射到第六特征图中;利用预测网络对目标框的位置进行修正,并对目标框进行置信度评分,将修正后的目标框的位置以及置信度评分作为级联表格检测网络的输出。
具体地,在表格检测阶段,由于利用原始的Cascade Mask R-CNN网络进行表格检测,存在很多漏检和误检的情况,因此为了适配表格检测任务,分别从Backbone模块、Neck模块和损失函数这三个方面对原始的Cascade Mask R-CNN进行了改进,构建了一种级联表格检测网络,利用其可以准确且高效地提取图片中的表格。下面结合具体实施例,对利用级联表格检测网络进行表格检测得到表格框的过程进行详细说明,具体可以包括以下内容:
在级联表格检测网络的网络结构中,输入的特征图首先经过特征提取网络Backbone进行特征提取,然后在多层级信息融合网络Neck中进行多层级信息融合;接着会经过区域生成网络RPN来提取proposals(即目标框),之后利用ROI将提取的表格框映射到原始的Neck输出中去,并将这些目标框分别送入级联的预测网络Head中进行位置调整,得到最终的输出结果。
进一步地,由于现实场景下的表格图片存在多种尺度以及多种倾斜角度,因此为了增强卷积神经网络处理这些复杂数据的能力,在特征提取网络Backbone中加入可变形卷积(Deformable Convolution,DCN),DCN属于特征提取网络Backbone的中间层,DCN在进行标准卷积计算之前,首先会通过输入特征图学习一个2D偏移图,然后对当前卷积核相应的位置应用学习出的偏移值,并利用该偏移值进行正常的卷积计算过程,通过加入DCN,可以显著提升模型精度。
进一步地,在多层级信息融合网络Neck中,由于高层的特征图关注目标语义信息,低层的特征图关注目标位置信息。在原始的Cascade Mask R-CNN网络中,Neck阶段使用FPN来进行自上向下的信息融合,虽然加强了底层的目标语义信息,但是没有增强高层的目标位置信息,因此本公开利用PA-FPN结构来将低层的信息传导到高层中去,同时减少了高层和低层信息流通需要穿过的卷积层数。
进一步地,预测网络Head由卷积层和全连接层组成,利用预测网络Head对表格框的坐标进行修正,调整表格框的位置,并对表格框打分得到置信度分值,并得到最终的输出结果,即目标框的置信度分值C1以及目标框的精确位置B1。需要强调的是,原始CascadeMask R-CNN网络回归分支的损失函数为Smooth L1 Loss,但是因为检测评价的方式是使用IoU,而实际回归坐标框的时候是使用4个坐标点,因此这两种方式是不等价的,即Loss相同的框,其IoU不是唯一的。同时因为Smooth L1 Loss对于尺度不具有不变性,因此本公开利用DIoU Loss来代替Smooth L1 Loss,将表格框的4个点构成的box看成一个整体进行回归,从而更好的引导训练过程,其计算过程可以采用如下公式:
Figure BDA0003397421540000091
其中,b和bgt分别表示预测框B和目标框Bgt的中心点,ρ表示欧式距离,c表示B和Bgt的最小外界矩形的对角线距离。
在一些实施例中,预定的表格内部结构提取算法为基于OpenCV的表格内部结构提取算法,利用预定的表格内部结构提取算法,对表格图像中的文字执行去除操作,包括:对表格图像依次执行灰度化及阈值化操作,得到二值化图像,将二值化图像进行反色处理,利用非局部平均去噪算法对反色处理后得到的二值化图像进行去噪处理,并通过腐蚀算法及膨胀算法将去噪处理后得到的表格图像中的文字进行去除。
具体地,在表格结构提取阶段,为了提取出表格内部的单元格轮廓,本公开实施例提出了一种基于OpenCV的表格内部结构提取算法,用来获取表格内部单元格轮廓和位置信息,通过这些信息可以恢复出完整的表格结构。下面结合具体实施例,对利用OpenCV进行表格内部结构提取的过程进行详细说明,具体可以包括以下内容:
首先根据表格框的位置坐标,将表格进行裁剪,之后依次对所有的表格图片进行灰度化和阈值化处理,其中,阈值化处理的原理是根据预设的像素值阈值,对表格图片中像素对应的像素值进行转换得到二值化图片(即只包含黑色和白色的表格图片)。对二值化图片进行反色处理,即将表格空白区域变成黑色,表格中线条和文字变成白色。
进一步地,在反色处理完成之后,表格图片中可能存在一些噪点,这些噪点会影响后续的识别效果,因此这里采用非局部平均去噪算法来去除表格图片中的噪声点;最后通过腐蚀算法和膨胀算法去除表格图片中的文字,腐蚀、膨胀处理的次数越多,文字去除效果越明显。但是多次进行腐蚀、膨胀也会对表格线条产生影响,因此需要根据具体数据集进行调整,这里可以选用的数值为2。
在一些实施例中,对去除文字后的表格图像进行处理得到表格内部轮廓,基于表格内部轮廓执行恢复操作,得到表格对应的表格结构,包括:分别利用水平滤波器和垂直滤波器,对去除文字后的表格图像中进行处理,得到所有的水平线条和垂直线条,将水平线条和垂直线条进行叠加,得到表格整体轮廓;利用多层轮廓查找算法获得表格整体轮廓中的单元格,并对相邻单元格之间的线条进行融合,得到表格内部轮廓,根据表格内部轮廓以及单元格的信息,对表格结构进行恢复。
具体地,将表格图像中的文字去除得到二值化图片(即上述去除文字后的表格图像)之后,利用预设的水平滤波器在图片上面进行滑动,即可得到图片中的所有水平线条,同理,利用预设的垂直滤波器在图片上面进行滑动,即可得到图片中的所有垂直线条。通过将这两种线条简单的相加,即可得到表格整体轮廓。
进一步地,由于现实场景下的表格可能存在倾斜情况,因此需要对其进行矫正,通过计算水平图上的所有线条与水平线的角度,得到表格整体倾斜角度,然后将该表格图片旋转对应的角度直至水平。通过角度旋转即可得到水平的表格图片轮廓,接着通过多层轮廓查找算法得到表格中的所有单元格,由于同一个线条可能会作为多个单元格的边,因此需要对这些边进行融合,融合过后可以得到标准的表格内部轮廓。
进一步地,根据得到的表格内部轮廓以及所有单元格对应的信息之后,可以利用得到的表格单元格信息在excel中恢复出具体的表格结构。
在一些实施例中,在得到表格对应的表格结构之后,该方法还包括:获取原始图像,利用表格文本识别算法对原始图像中的表格进行识别,提取表格的位置信息和文字信息,并根据位置信息中的坐标值,将文字信息嵌入到表格结构中,以便基于表格结构对表格信息进行重建。
具体地,以上实施例对本公开表格结构提取算法中的前三个阶段做了详细介绍。在实际应用中,为了得到最终表格,即包含了表格结构和文字信息的表格,还需要单独对原始图像进行文本识别,提取原始图像的表格中的文字信息、位置信息、以及材质信息等,并根据文字信息对应表格的位置坐标,将文字嵌入到表格结构中去,从而实现对表格信息的重建。
根据本公开实施例提供的技术方案,本公开提出了一种基于OpenCV和神经网络的表格结构提取算法,该算法通过在编码阶段和解码阶段引入了不同大小的感受野特征,因此可以提取出多尺寸信息,利用该算法可以完成模糊图像到清晰图像的映射。为了适配表格检测任务,分别从Backbone、Neck和损失函数三个方面对原始的Cascade Mask R-CNN进行了改进,构建了一种级联表格检测网络,其可以准确且高效的提取图片中的表格;最后利用基于OpenCV的表格内部结构提取算法,直接获取表格内部单元格轮廓和位置信息,通过这些信息可以恢复出完整的表格结构。基于以上这些处理,可以降低表格结构提取的人工成本,能够显著的提升表格识别精度、识别准确率以及识别效率。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图2是本公开实施例提供的表格结构提取装置的结构示意图。如图2所示,该表格结构提取装置包括:
处理模块201,被配置为获取原始图像,利用预定的多尺度图像超分网络对原始图像进行预处理得到具有不同尺度特征的特征图,以便将原始图像重构为清晰图像;
检测模块202,被配置为将特征图作为输入,利用预定的级联表格检测网络对特征图进行检测,得到每个特征图中目标框的位置以及置信度评分,目标框中包含表格;
裁剪模块203,被配置为基于目标框对应的位置以及置信度评分,分别对每个特征图中的目标框执行裁剪操作,得到每个特征图对应的表格图像;
提取模块204,被配置为将表格图像作为输入,利用预定的表格内部结构提取算法,对表格图像中的文字执行去除操作,并对去除文字后的表格图像进行处理得到表格内部轮廓,基于表格内部轮廓执行恢复操作,得到表格对应的表格结构。
在一些实施例中,图2的处理模块201利用多尺度图像超分网络中的主干网络,对原始图像执行卷积操作,得到第一特征图,分别将第一特征图输入到多个第一残差网络中,多个第一残差网络分别对应不同的尺度特征提取分支,利用尺度特征提取分支,提取出包含不同尺度信息的第二特征图;对多个第二特征图执行加权融合操作,得到第三特征图,并利用第二残差网络对第三特征图中的不同尺度特征进行提取,得到第四特征图,利用尺度特征提取分支对第四特征图进行处理,得到多个具有不同尺度特征的特征图。
在一些实施例中,级联表格检测网络中包含特征提取网络、多层级信息融合网络、区域生成网络和预测网络;图2的检测模块202利用特征提取网络对特征图进行处理,得到多个第五特征图,特征提取网络中包含可变形卷积网络,可变形卷积网络用于学习偏移值,利用偏移值进行卷积计算;利用多层级信息融合网络将第五特征图中的低层信息传递给高层信息,并对第五特征图进行信息融合,得到第六特征图;利用区域生成网络对第六特征图中的目标框进行提取,并将提取出的目标框映射到第六特征图中;利用预测网络对目标框的位置进行修正,并对目标框进行置信度评分,将修正后的目标框的位置以及置信度评分作为级联表格检测网络的输出。
在一些实施例中,预定的表格内部结构提取算法为基于OpenCV的表格内部结构提取算法,图2的提取模块204对表格图像依次执行灰度化及阈值化操作,得到二值化图像,将二值化图像进行反色处理,利用非局部平均去噪算法对反色处理后得到的二值化图像进行去噪处理,并通过腐蚀算法及膨胀算法将去噪处理后得到的表格图像中的文字进行去除。
在一些实施例中,图2的提取模块204分别利用水平滤波器和垂直滤波器,对去除文字后的表格图像中进行处理,得到所有的水平线条和垂直线条,将水平线条和垂直线条进行叠加,得到表格整体轮廓;利用多层轮廓查找算法获得表格整体轮廓中的单元格,并对相邻单元格之间的线条进行融合,得到表格内部轮廓,根据表格内部轮廓以及单元格的信息,对表格结构进行恢复。
在一些实施例中,图2的重建模块205在得到表格对应的表格结构之后,获取原始图像,利用表格文本识别算法对原始图像中的表格进行识别,提取表格的位置信息和文字信息,并根据位置信息中的坐标值,将文字信息嵌入到表格结构中,以便基于表格结构对表格信息进行重建。
在一些实施例中,原始图像为根据证书文件所生成的原始图像,原始图像为模糊图像。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。
图3是本公开实施例提供的电子设备3的结构示意图。如图3所示,该实施例的电子设备3包括:处理器301、存储器302以及存储在该存储器302中并且可以在处理器301上运行的计算机程序303。处理器301执行计算机程序303时实现上述各个方法实施例中的步骤。或者,处理器301执行计算机程序303时实现上述各装置实施例中各模块/单元的功能。
示例性地,计算机程序303可以被分割成一个或多个模块/单元,一个或多个模块/单元被存储在存储器302中,并由处理器301执行,以完成本公开。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序303在电子设备3中的执行过程。
电子设备3可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备3可以包括但不仅限于处理器301和存储器302。本领域技术人员可以理解,图3仅仅是电子设备3的示例,并不构成对电子设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如,电子设备还可以包括输入输出设备、网络接入设备、总线等。
处理器301可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器302可以是电子设备3的内部存储单元,例如,电子设备3的硬盘或内存。存储器302也可以是电子设备3的外部存储设备,例如,电子设备3上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器302还可以既包括电子设备3的内部存储单元也包括外部存储设备。存储器302用于存储计算机程序以及电子设备所需的其它程序和数据。存储器302还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
在本公开所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本公开实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围,均应包含在本公开的保护范围之内。

Claims (10)

1.一种表格结构提取方法,其特征在于,包括:
获取原始图像,利用预定的多尺度图像超分网络对所述原始图像进行预处理得到具有不同尺度特征的特征图,以便将所述原始图像重构为清晰图像;
将所述特征图作为输入,利用预定的级联表格检测网络对所述特征图进行检测,得到每个所述特征图中目标框的位置以及置信度评分,所述目标框中包含表格;
基于所述目标框对应的位置以及置信度评分,分别对每个所述特征图中的所述目标框执行裁剪操作,得到每个所述特征图对应的表格图像;
将所述表格图像作为输入,利用预定的表格内部结构提取算法,对所述表格图像中的文字执行去除操作,并对去除文字后的表格图像进行处理得到表格内部轮廓,基于所述表格内部轮廓执行恢复操作,得到所述表格对应的表格结构。
2.根据权利要求1所述的方法,其特征在于,所述利用预定的多尺度图像超分网络对所述原始图像进行预处理得到具有不同尺度特征的特征图,包括:
利用所述多尺度图像超分网络中的主干网络,对所述原始图像执行卷积操作,得到第一特征图,分别将所述第一特征图输入到多个第一残差网络中,多个所述第一残差网络分别对应不同的尺度特征提取分支,利用所述尺度特征提取分支,提取出包含不同尺度信息的第二特征图;
对多个所述第二特征图执行加权融合操作,得到第三特征图,并利用第二残差网络对所述第三特征图中的不同尺度特征进行提取,得到第四特征图,利用所述尺度特征提取分支对所述第四特征图进行处理,得到多个具有不同尺度特征的特征图。
3.根据权利要求1所述的方法,其特征在于,所述级联表格检测网络中包含特征提取网络、多层级信息融合网络、区域生成网络和预测网络;所述利用预定的级联表格检测网络对所述特征图进行检测,得到每个所述特征图中目标框的位置以及置信度评分,包括:
利用所述特征提取网络对所述特征图进行处理,得到多个第五特征图,所述特征提取网络中包含可变形卷积网络,所述可变形卷积网络用于学习偏移值,利用所述偏移值进行卷积计算;
利用所述多层级信息融合网络将所述第五特征图中的低层信息传递给高层信息,并对所述第五特征图进行信息融合,得到第六特征图;
利用所述区域生成网络对所述第六特征图中的所述目标框进行提取,并将提取出的所述目标框映射到所述第六特征图中;
利用所述预测网络对所述目标框的位置进行修正,并对所述目标框进行置信度评分,将修正后的所述目标框的位置以及所述置信度评分作为所述级联表格检测网络的输出。
4.根据权利要求1所述的方法,其特征在于,所述预定的表格内部结构提取算法为基于OpenCV的表格内部结构提取算法,所述利用预定的表格内部结构提取算法,对所述表格图像中的文字执行去除操作,包括:
对所述表格图像依次执行灰度化及阈值化操作,得到二值化图像,将所述二值化图像进行反色处理,利用非局部平均去噪算法对所述反色处理后得到的二值化图像进行去噪处理,并通过腐蚀算法及膨胀算法将所述去噪处理后得到的表格图像中的文字进行去除。
5.根据权利要求4所述的方法,其特征在于,所述对去除文字后的表格图像进行处理得到表格内部轮廓,基于所述表格内部轮廓执行恢复操作,得到所述表格对应的表格结构,包括:
分别利用水平滤波器和垂直滤波器,对所述去除文字后的表格图像中进行处理,得到所有的水平线条和垂直线条,将所述水平线条和垂直线条进行叠加,得到表格整体轮廓;
利用多层轮廓查找算法获得所述表格整体轮廓中的单元格,并对相邻所述单元格之间的线条进行融合,得到所述表格内部轮廓,根据所述表格内部轮廓以及所述单元格的信息,对所述表格结构进行恢复。
6.根据权利要求1所述的方法,其特征在于,在所述得到所述表格对应的表格结构之后,所述方法还包括:
获取所述原始图像,利用表格文本识别算法对所述原始图像中的表格进行识别,提取所述表格的位置信息和文字信息,并根据所述位置信息中的坐标值,将所述文字信息嵌入到所述表格结构中,以便基于所述表格结构对表格信息进行重建。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述原始图像为根据证书文件所生成的原始图像,所述原始图像为模糊图像。
8.一种表格结构提取装置,其特征在于,包括:
处理模块,被配置为获取原始图像,利用预定的多尺度图像超分网络对所述原始图像进行预处理得到具有不同尺度特征的特征图,以便将所述原始图像重构为清晰图像;
检测模块,被配置为将所述特征图作为输入,利用预定的级联表格检测网络对所述特征图进行检测,得到每个所述特征图中目标框的位置以及置信度评分,所述目标框中包含表格;
裁剪模块,被配置为基于所述目标框对应的位置以及置信度评分,分别对每个所述特征图中的所述目标框执行裁剪操作,得到每个所述特征图对应的表格图像;
提取模块,被配置为将所述表格图像作为输入,利用预定的表格内部结构提取算法,对所述表格图像中的文字执行去除操作,并对去除文字后的表格图像进行处理得到表格内部轮廓,基于所述表格内部轮廓执行恢复操作,得到所述表格对应的表格结构。
9.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
CN202111485595.0A 2021-12-07 2021-12-07 表格结构提取方法、装置、电子设备及存储介质 Pending CN114332890A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111485595.0A CN114332890A (zh) 2021-12-07 2021-12-07 表格结构提取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111485595.0A CN114332890A (zh) 2021-12-07 2021-12-07 表格结构提取方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114332890A true CN114332890A (zh) 2022-04-12

Family

ID=81049007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111485595.0A Pending CN114332890A (zh) 2021-12-07 2021-12-07 表格结构提取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114332890A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115331245A (zh) * 2022-10-12 2022-11-11 中南民族大学 一种基于图像实例分割的表格结构识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115331245A (zh) * 2022-10-12 2022-11-11 中南民族大学 一种基于图像实例分割的表格结构识别方法
CN115331245B (zh) * 2022-10-12 2023-02-03 中南民族大学 一种基于图像实例分割的表格结构识别方法

Similar Documents

Publication Publication Date Title
CN110414507B (zh) 车牌识别方法、装置、计算机设备和存储介质
CN110659647B (zh) 印章图像识别方法及装置、智能发票识别设备和存储介质
JP5775225B2 (ja) マルチレイヤ連結成分をヒストグラムと共に用いるテキスト検出
CN111583097A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN114529459B (zh) 一种对图像边缘进行增强处理的方法和系统及介质
CN112184585B (zh) 一种基于语义边缘融合的图像补全方法及系统
CN110427946B (zh) 一种文档图像二值化方法、装置和计算设备
CN111681273A (zh) 图像分割方法、装置、电子设备及可读存储介质
CN110852311A (zh) 一种三维人手关键点定位方法及装置
CN112183517B (zh) 证卡边缘检测方法、设备及存储介质
CN112651380A (zh) 人脸识别方法、人脸识别装置、终端设备及存储介质
CN115830004A (zh) 表面缺陷检测方法、装置、计算机设备和存储介质
CN113592923A (zh) 一种基于深度局部特征匹配的批图像配准方法
CN115471682A (zh) 一种基于SIFT融合ResNet50的图像匹配方法
CN113888431A (zh) 图像修复模型的训练方法、装置、计算机设备及存储介质
CN111104941B (zh) 图像方向纠正方法、装置及电子设备
Panda et al. Filtering corrupted image and edge detection in restored grayscale image using derivative filters
CN114332890A (zh) 表格结构提取方法、装置、电子设备及存储介质
CN110751156A (zh) 用于表格线大块干扰去除方法、系统、设备及介质
CN114445620A (zh) 一种改进Mask R-CNN的目标分割方法
CN114444565A (zh) 一种图像篡改检测方法、终端设备及存储介质
CN111179289B (zh) 一种适用于网页长图宽图的图像分割方法
CN113228105A (zh) 一种图像处理方法、装置和电子设备
CN115909378A (zh) 单据文本检测模型的训练方法及单据文本检测方法
CN115937537A (zh) 一种目标图像的智能识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230103

Address after: 518054 cable information transmission building 25f2504, no.3369 Binhai Avenue, Haizhu community, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen Xumi yuntu Space Technology Co.,Ltd.

Address before: No.103, no.1003, Nanxin Road, Nanshan community, Nanshan street, Nanshan District, Shenzhen City, Guangdong Province

Applicant before: Shenzhen Jizhi Digital Technology Co.,Ltd.