CN110163198B - 一种表格识别重建方法、装置和存储介质 - Google Patents
一种表格识别重建方法、装置和存储介质 Download PDFInfo
- Publication number
- CN110163198B CN110163198B CN201811130207.5A CN201811130207A CN110163198B CN 110163198 B CN110163198 B CN 110163198B CN 201811130207 A CN201811130207 A CN 201811130207A CN 110163198 B CN110163198 B CN 110163198B
- Authority
- CN
- China
- Prior art keywords
- image
- line
- frame line
- position information
- segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
Abstract
本发明实施例公开了一种表格识别重建方法、装置和存储介质;本发明实施例获取待识别的表格图像;采用表格框线分割模型对表格图像进行表格框线分割,得到框线分割图像;从框线分割图像中检测表格行线和表格列线,得到表格行线和表格列线的位置信息;根据表格行线和表格列线的位置信息获取表格的单元格结构信息;根据表格行线的位置信息、表格列线的位置信息以及单元格结构信息生成相应格式的电子表格文件。该方案可以对各种样式表格进行准确地识别重建,可以提升表格识别重建的准确性和可用性。
Description
技术领域
本发明涉及通信技术领域,具体涉及一种表格识别重建方法、装置和存储介质。
背景技术
表格识别重建为通过一系列图像处理算法和策略将表格图像转化成某种格式的电子表格,比如,转化成excel格式的电子表格等。
目前表格识别重建方案主要基于人工设计的特征和规则来识别重建表格;具体地,可以从表格图像中抽取人工设计的表格特征(如基于树状结构的表格特征、基于框线的特征、基于规则线的特征等等),然后,根据这些表格特征和规则检测出表格,即确定表格的位置;接着,根据表格的位置对表格类型进行识别,得到识别结果,根据识别结果重建电子表格;其中,具体地的识别过程可以为提取人工设计的表格特征(如文本块特征、表格区域逻辑关系特征、线交点特征等等),根据提取的表格特征识别表格类型。
然而,由于目前表格识别重建方案中表格检测和识别均需要基于人工设计的特征,因此,目前表格识别重建方案过于依赖专家知识和特定的表格应用场景,比如,仅仅适用于某些特定样式的表格识别重建,这样会导致在图像噪声大、表格样式多变等场景容易不能准确地识别重建表格;可见,目前表格识别重建方案的准确性和可用性较低。
发明内容
本发明实施例提供一种表格识别重建方法、装置和存储介质,可以提升表格识别重建的准确性和可用性。
本发明实施例提供一种表格识别重建方法,包括:
获取待识别的表格图像;
采用表格框线分割模型对所述表格图像进行表格框线分割,得到框线分割图像,所述表格框线分割模型由标记了样本框线分割图像的样本表格图像训练而成;
从所述框线分割图像中检测表格行线和表格列线,得到表格行线和表格列线的位置信息;
根据所述表格行线和表格列线的位置信息获取表格的单元格结构信息;
根据所述表格行线的位置信息、所述表格列线的位置信息以及所述单元格结构信息生成相应格式的电子表格文件。
本发明实施例还提供一种表格识别重建装置,包括:
图像获取单元,用于获取待识别的表格图像;
图像分割单元,用于采用表格框线分割模型对所述表格图像进行表格框线分割,得到框线分割图像,所述表格框线分割模型由标记了样本框线分割图像的样本表格图像训练而成;
检测单元,用于从所述框线分割图像中检测表格行线和表格列线,得到表格行线和表格列线的位置信息;
信息获取单元,用于根据所述表格行线和表格列线的位置信息获取表格的单元格结构信息;
表格生成单元,用于根据所述表格行线的位置信息、所述表格列线的位置信息以及所述单元格结构信息生成相应格式的电子表格文件。
此外,本发明实施例还提供一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一种表格识别重建方法中的步骤。
本发明实施例获取待识别的表格图像;采用表格框线分割模型对表格图像进行表格框线分割,得到框线分割图像;从框线分割图像中检测表格行线和表格列线,得到表格行线和表格列线的位置信息;根据表格行线和表格列线的位置信息获取表格的单元格结构信息;根据表格行线的位置信息、表格列线的位置信息以及单元格结构信息生成相应格式的电子表格文件。由于该方案可以通过深度学习网络模型自动提取表格框线,然后,基于表格框线重建表格,因此,该方案无需人工设计表格特征和规则,也无需依赖特征的表格应用场景和专家知识,可以对各种样式表格进行准确地识别重建,可以提升表格识别重建的准确性和可用性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本发明实施例提供的表格识别重建方法的场景示意图;
图1b是本发明实施例提供的表格识别重建方法的流程示意图;
图1c是本发明实施例提供的图像扫描示意图;
图1d是本发明实施例提供的待识别表格图像选择示意图;
图1e是本发明实施例提供的表格识别区域调整示意图;
图1f是本发明实施例提供的识别重建的表格示意图;
图2a是本发明实施例提供的表格框线分割模型的结构示意图;
图2b是本发明实施例提供的表格框线分割模型的另一结构示意图;
图2c是本发明实施例提供的表格框线分割模型的另一结构示意图;
图2d是本发明实施例提供的表格框线分割模型的另一结构示意图;
图3a是本发明实施例提供的仿真训练样本生成示意图;
图3b是本发明实施例提供的生成的样本图像示意图;
图4a是本发明实施例提供的另一种表格识别重建方法的流程示意图;
图4b是本发明实施例提供的另一种待识别表格图像选择示意图;
图5a是本发明实施例提供的另一种表格识别重建方法的流程示意图;
图5b是本发明实施例提供的单元格坐标计算示意图;
图6a是本发明实施例提供的表格识别重建装置的第一种结构示意图;
图6b是本发明实施例提供的表格识别重建装置的第二种结构示意图;
图6c是本发明实施例提供的表格识别重建装置的第三种结构示意图;
图6d是本发明实施例提供的表格识别重建装置的第四种结构示意图;
图6e是本发明实施例提供的表格识别重建装置的第五种结构示意图;
图6f是本发明实施例提供的表格识别重建装置的第六种结构示意图;
图6g是本发明实施例提供的表格识别重建装置的第七种结构示意图;
图7是本发明实施例提供的网络设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种表格识别重建方法、装置和存储介质。
其中,该表格识别重建装置具体可以集成在网络设备,如终端或服务器等设备中,例如,参考图1a,网络设备可以获取待识别的表格图像,比如,可以接收图像采集设备如手机、摄像头设备等发送的表格图像,或者网络设备可以自己采集待识别的表格图像;然后,采用表格框线分割模型对表格图像进行表格框线分割,得到框线分割图像,该表格框线分割模型由标记了样本框线分割图像的样本表格图像训练而成;从框线分割图像中检测表格行线和表格列线,得到表格行线和表格列线的位置信息;根据表格行线和表格列线的位置信息获取表格的单元格结构信息;根据表格行线的位置信息、表格列线的位置信息以及单元格结构信息生成相应格式的电子表格文件。
以下分别进行详细说明。需说明的是,以下实施例的序号不作为对实施例优选顺序的限定。
在本发明实施例中,将表格识别重建装置的角度进行描述,该表格识别重建装置具体可以集成在网络设备,如终端或服务器等设备中。
在一实施例中,提供了一种表格识别重建方法,该方法可以由网络设备的处理器执行,如图1b所示,该表格识别重建方法的具体流程可以如下:
101、获取待识别的表格图像。
其中,表格图像为图像内容包含表格的图像,比如,包含excel表格的图像等。
其中,待识别的表格图像的获取方式可以有多种,比如,在一实施例中,可以由图像采集设备采集,也即可以接收图像采集设备发送的表格图像。其中,图像采集设备可以为智能终端,如手机、平板电脑等设备。智能终端可以通过摄像头采集表格图像,并发送给网络设备进行表格识别重建。
又比如,在一实施例中,还可以从本地存储的图像,或者外部存储的图像中获取待识别的表格图像;例如,可以从本地图像数据库如相册中获取待识别的表格图像;或者,通过网络从其他存储设备中获取如下载待识别的表格图像。
又比如,在一实施例中,网络设备还可以自己采集表格图像,并从中选择待识别的表格图像。具体地,步骤“获取待识别的表格图像”,可以包括:实时采集表格预览图像;从采集到的表格预览图像中选择待识别的表格图像。
其中,表格预览图像为在图像采集预览阶段采集到的表格图像,比如,在手机相机拍照之前手机采集并在相机预览界面显示的表格图像。
其中,从表格预览图像中选择图像的方式可以有多种,比如,在一实施例中,可以根据表格预览图像的采集时间选择待识别的表格图像。又比如,在一实施例中,可以基于用户的操作来选择待识别的表格图像。例如,可以基于检测到的用户输入的图像确认操作从表格预览图像中选择待识别的表格图像。
在一实施例中,为了便于用户选择合适和满意的表格图像,提升表格识别重建速度,可以对表格预览图像进行表格框线预识别,并在预览界面绘制显示预识别到的表格框线,这样用户可以直观了解当前采集到的表格图像中框线与预识别到的框线之间的差异程度,以便辅助用户调整采集参数如焦距等,来采集合适的表格图像,进而得到高质量的待识别表格图像。
其中,表格框线预识别过程可以包括表格框线预分割和表格框线预检测两个部分,表格框线预分割是从表格预览图像中预分割表格框线,表格框线预检测是从预分割得到的框线图像中检测表格框线的位置信息。
具体地,步骤“获取待识别的表格图像”,可以包括:
实时采集表格预览图像;
对当前采集到的表格预览图像进行表格框线预分割,得到框线分割预览图像;
从框线分割预览图像中预检测预览表格框线,得到预览表格框线的位置信息,预览表格框线包括表格行线和表格列线;
根据预览表格框线的位置信息在预览界面中绘制显示相应的预览表格框线;
当检测到用户针对预览界面的图像确认操作时,根据当前采集到的表格预览图像获取待识别的表格图像,比如,可以将当前采集到的表格预览图像作为待识别的表格图像,或者对当前采集到的表格预览图像进行预处理得到待识别表格图像。
在一实施例中,可以接收表格识别指令,根据表格识别指令实时采集表格预览图像。其中,表格识别指令的触发方式可以有多种,比如,可以在界面上设置一表格识别接口,这样当用户对该表格识别接口操作时如点击操作时,便可以触发表格识别指令。
其中,表格识别接口的表现形式可以有多种,比如,可以为图标按钮等形式。
例如,参考图1c,用户打开应用程序(如社交应用、文档应用)或者小程序之后,可以通过应用界面中的图标按钮触发表格识别指令,比如,用户可以点击应用中“+号”选择“表格识别”,此时,将会触发表格识别指令;终端可以根据表格识别指令调用相机采集表格预览图像,并在预览界面显示当前采集到的表格预览图像,如调用相机对需要扫描的文档表格进行扫描,持续得到多帧表格预览图像,并在预览界面显示当前扫描到的预览图像,即当前帧。
然后,终端可以获取当前帧的表格预览图像,对当前的表格预览图像(即当前帧)进行预识别,得到预览表格框线的位置信息,然后,根据预览表格框线的位置信息在预览界面中绘制显示相应的预览表格框线。如图1c所示,白色框线即为绘制的框线。
如果用户对当前绘制的框线效果满意,那么,用户可以点击在预览界面上图像确认按钮,便会触发图像确认指令,此时,终端可以确定当前的表格预览图像(即当前帧)为待识别表格图像。对当前帧进行表格识别重建。
如果用户对当前绘制的框线效果不满意,那么,可以采集下一个表格预览图像即下一帧,比如,用户可以调整对焦等参数再次采集下一帧的表格预览图像。
其中,表格框线的位置信息可以包括表格框线在表格图像中的位置信息,如,可以表格图像对应的图像坐标系中坐标,比如,在图像坐标系中的x、y坐标值。
在一实施例中,可以根据预览表格框线的位置信息获取单元格结构信息,根据单元格结构信息在预览界面绘制单元格;参考图1d,可以获取当前采集到的表格预览图像即当前帧,然后,对当前帧进行表格预识别(预分割和预检测),得到预览表格框线的位置信息如坐标,然后,根据预览框线的位置信息如坐提取单元格结构信息(如单元格坐标),根据单元格结构信息在屏幕绘制显示单元格。如果用户对单元格的效果尚满意,就会点击确认按钮,当前帧就会上传,如果用户不满意,则获取下一帧,继续进行前述预识别、单元格绘制过程。参考图1c,左边为确认之前的图像示意图,右边为确认后的图像示意图。
在一实施例中,为了提升表格识别重建的速度和准确性,还可以在确定待识别的表格图像之后,从表格图像中提取表格区域图像,以便对表格区域图像进行识别重建。
在一实施例中,可以对当前采集到的表格预览图像进行预处理,得到待识别的表格图像,比如,可以自动确定一个待识别区域,然后,根据待识别区域从当前表格图像中提取相应的表格区域图像,将表格区域图像作为待识别的表格图像。
在一实施例中,为了提升对表格区域图像选择的灵活性,以便选择高质量的待识别图像,提升识别重建速度和准确性,还可以根据用户操作的来调整待识别区域,也即,用户对自动的待识别区域不满意时,可以手动调整待识别区域。
具体地,步骤“根据当前采集到的表格预览图像获取待识别的表格图像”,可以包括:
在当前采集到的表格预览图像中确定待识别区域;
在表格识别界面显示表格预览图像、并标记待识别区域;
基于用户针对表格识别界面的区域调整操作,对待识别区域进行调整,得到调整后区域;
当检测到用户针对表格识别界面的识别确认操作时,根据调整后区域从表格预览图像中提取相应的表格区域图像,得到待识别的表格图像。
其中,区域调整操作的类型可以有多种,比如,拖动操作、点击操作等等;识别确认操作的类型也可以有多种,比如,点击操作、滑动操作等等。
例如,参考图1c,当用户点击确认按钮时,可以先确定相应的待识别区域,然后,显示表格识别界面,该界面包括当前帧的表格预览图像,以及待识别区域的标记信息(如图1c右图中的矩形框)。如果用户对自动确定的待识别区域不满意,那么可以手动对区域进行调整,参考图1e,用户可以拖动区域的定位点如矩形框的顶点来调整区域的大小和形状等。当用户确定待识别区域时,可以点击表格识别界面中“检测”按钮,此时,终端可以根据调整后的区域从表格预览图像中提取相应的表格区域图像作为待识别的表格图像;之后,对该表格区域图像进行识别重建生成相应的电子表格。
102、采用表格框线分割模型对表格图像进行表格框线分割,得到框线分割图像。其中,表格框线分割模型由标记了样本框线分割图像的样本表格图像训练而成。
其中,框线分割图像为仅包含分割的表格框线的图像,该框线分割图像可以为一个二值化图像,框线的颜色为白色、背景颜色为黑色。该框线分割图像的尺寸可以与表格图像的尺寸相同。
在一实施例中,框线分割图像可以同时包含行线和列线;也即表格框线分割模型的输出为一张行列线分割图像,该分割图像即包含分割的行线,又包含分割的列线。相应地,样本框线分割图像也是一样。
在一实施例中,框线分割图像可以包括:行线分割图像和列线分割图像;也即表格框线分割模型的输出为两张框线分割图像,一张为行线分割图像、另一张为列线分割图像。相应地,样本框线分割图像也是一样,包括样本行线分割图像和样本列线分割图像。
其中,行线分割图像仅包含分割的表格行线,列线分割图像仅包含分割的列线。
其中,表格框线分割模型可以为深度学习网络模型,用于对表格图像进行图像分割,得到框线分割图像,如行线、列线分割图像等。比如,表格框线分割模型可以为基于卷积神经网络的模型;可选地,在一实施例中,表格框线分割模型可以基于全卷积神经网络的模型,比如,可以为unet网络结构的图像分割模型。
以表格框线分割模型为基于全卷积神经网络的模型为例,该模型可以包括卷积网络和反卷积网络,卷积网络包括多个尺度的卷积层,反卷积网络包括多个尺度的反卷积层;其中,尺度为图像的尺寸。比如,参考图2a,unet图像分割网络模型可以包括:尺度为572*572pixel(像素)、282*282、100*100、30*30等等的卷积层、反卷积层。其中,卷积网络和反卷积网络连接构成了一个U形结构。
其中,卷积层:主要用于对输入的图像(比如训练样本或需要识别的图像)进行特征提取(即将原始数据映射到隐层特征空间),其中,卷积核大小可以根据实际应用而定。
反卷积层(也称为转置卷积层):主要用于对输入的低维图像特征线高维图像特征进行转换,比如,将低尺度的图像特征转换成高尺度的图像特征。
在一实施例中,包含多个尺度的卷积层的卷积网络可以看成一个编码器,用于对输入的图像进行低维图像特征提取;包含多个尺度的反卷积层的反卷积网络可以看成一个解码器,用于实现低维图像特征到高维图像特征的转换。此时,参考图2b,表格框线分割模型可以包括编码器和解码器。编码器和解码器形成了一个U型结构,将表格图像输入至表格框线分割模型,表格框线分割模型的输出为一张二值化分割图像(包含行线和列线)。
又比如,参考图2c,表格框线分割模型可以包括编码器和解码器。编码器和解码器形成了一个U型结构,将表格图像输入至表格框线分割模型,表格框线分割模型的输出为一张二值化分割图像(包含行线和列线)。
为了防止丢失边缘细节特征信息,提升表格图像分割的准确性和速度,在一实施例中,还可以采用多尺度融合的表格框线分割模型;具体地,对相同尺度的卷积图像特征、反卷积图像特征进行融合,也即对相同尺度的编码器特征和解码器特征相互融合。比如,可以将282*282的卷积图像特征、反卷积图像特征进行融合。
以上述介绍的结构为例,表格框线分割模型分割图像的过程,可以包括:
a、将表格图像输入至卷积网络。
比如,可以将572*572pixel的表格图像输入至卷积网络。
b、在每个尺度的卷积层对上一层输出的图像特征进行卷积运算,得到卷积网络的输出结果。
在卷积网络的每个尺度的卷积层,对上一层输出的图像特征进行多通道的卷积运算。比如,参考图2a,在572*572pixel(像素)、282*282、100*100、30*30的卷积层,分别对上一层输入的图像特征进行多通道的卷积运算,每个尺度的卷积层将会输出该尺度对应的卷积图像特征。
其中,卷积网络的输出结果为卷积网络中最后一层卷积层输出的卷积图像特征。
c、将卷积网络的输出结果输入至反卷积网络。
d、在每个尺度的反卷积层对上一层输出的图像特征进行反卷积运算,并将本层输出的反卷积图像特征、与相同尺度卷积层输出的卷积图像特征进行融合,得到框线分割图像。
比如,参考图2a,可以在572*572pixel、282*282、100*100、30*30的反卷积层,分别对上一层输入的图像特征进行反卷积运算,得到本层输出的反卷积图像特征,如在572*572的反卷积层,对上一层输入的图像特征进行反卷积运算,得到572*572对应的反卷积层的输出特征,并572*572对应的反卷积层的输出特征,与572*572对应的卷积层输出特征进行融合。同理对于,82*282、100*100、30*30的卷积层一样。
也即,本实施例模型可在将相同尺度的反卷积层与卷积层的输出特征进行融合,提升图像分割的准确性。
为了进一步提升模型分割图像的准确性,在模型的最后一层反卷积层(即输出层),可以将输出层的反卷积图像特征、与相同尺度卷积层输出的卷积图像特征以及所有其他尺度反卷积层输出的反卷积图像特征进行融合,得到最终框线分割图像。
比如,步骤“在每个尺度的反卷积层对上一层输出的图像特征进行反卷积运算,并将本层输出的反卷积图像特征、与相同尺度卷积层输出的卷积图像特征进行融合,得到框线分割图像”,可以包括:
确定当前处理特征的反卷积层的当前尺度;
当当前尺度不为输出尺度时,在当前反卷积层对上一层输出的图像特征进行反卷积运算,并将本层输出的反卷积图像特征、与相同尺度卷积层输出的卷积图像特征进行融合,将融合后图像特征输入至下一层反卷积层;返回执行确定当前处理特征的反卷积层的当前尺度的步骤;
当当前尺度为输出尺度时,在当前反卷积层对上一层输出的图像特征进行反卷积运算;并将本层输出的反卷积图像特征、与相同尺度卷积层输出的卷积图像特征、以及其余尺度反卷积层输出的反卷积图像特征进行融合,得到框线分割图像。
其中,输出尺度为模型中输出最终结果的反卷积层的尺度,比如,图2b和图2c中的572*572即为输出尺度。
例如,参考图2d,在30*30反卷积层可以对上一层输出的特征进行反卷积运算,得到本层输出的反卷积图像特征;并将本层输出的反卷积图像特征与30*30卷积层输出的卷积图像特征进行融合,将融合后图像特征输入至100*100反卷积层;
同样,在100*100反卷积层可以对上一层输出的特征进行反卷积运算,得到本层输出的反卷积图像特征;并将本层输出的反卷积图像特征与100卷积层输出的卷积图像特征进行融合,将融合后图像特征输入至282*282反卷积层;
……
在最后一个尺度572*572反卷积层中,可以对上一层如282*282反卷积层输出的特征进行反卷积运算,得到本层输出的反卷积图像特征;然后,将本层输出的反卷积图像特征、与572*572卷积层输出的融合后图像特征、282*282反卷积层输出的融合后图像特征、30*30反卷积层反卷积层输出的融合后图像特征……进行融合,得到最终的框线分割图像。
其中,本发明实施例采用的表格框线分割模型可以为经过大量样本训练后的表格框线分割模型。具体地,表格框线分割模型的训练过程如下:
(1)、生成已标注样本框线分割图像的样本表格图像,得到训练样本集。
基于数据驱动的分割模型往往需要大量的标注数据,这耗费极大的时间成本和人力资源,本发明实施例提供一种自动生成训练样本的方式,即仿真训练数据生成方式,可以自动化生成各式各样的表格数据和标注结果,以便对分割模型进行训练。
具体地,步骤“生成已标注样本框线分割图像的样本表格图像”,可以包括:
获取样本背景图像;
根据预先定义的表格位置和尺寸在样本背景图像中创建待生成表格的表格区域;
根据预先定义的表格版式信息和单元格内容在表格区域生成相应的样本表格,得到样本表格图像;
根据表格版式信息获取样本表格对应的样本框线分割图像,并将样本框线分割图像作为样本表格图像的标注内容。
其中,样本背景图像可以为文档图像,比如,可以建立一图像数据库,并存储大量文档图像,实际应用中,可以从网络爬取各种文档图像。
其中,表格位置可以包括表格在样本背景图像中的位置信息,如在图像坐标系统中坐标。其中,表格尺寸为表格大小。表格位置和尺寸可以根据实际需求设定。
其中,表格版式信息可以包括表格框线(行列线)的位置信息、行数、列数、单元格结构信息等等;根据表格版式信息可以生成相应的框线分割图像,比如,行线分割图像、列线分割图像。
以上表格位置、版式、单元格内容等都是可以随机定义的。
在一实施例中,为了防止仿真的图片表格区域和周围存在明显颜色、亮度差异,出现低质量样本,导致训练后模型的框线分割准确性较低的问题,本发明实施例,可以对样本背景图像与表格区域进行颜色融合,比如,引入图像融合技术(如poisson blend)修复表格区域颜色亮度,使得整体图片风格一致。
具体地,步骤“根据预先定义的表格版式信息和单元格内容在表格区域生成相应的样本表格,得到样本表格图像”,可以包括:
根据预先定义的表格版式信息和单元格内容在表格区域生成相应的样本表格,得到样本表格图像。
比如,参考图3a,可以首先建立一个数据库存放大量文档图片,作为后续仿真表格的背景,即背景文档图像;随机定义要生成表格在背景图片中的位置和大小,并根据表格位置和大小在背景图片中创建表格区域,将表格区域内的内容去除或者擦除(inpainting);随机定义生成表格的版式以及每个单元格的内容(包括单元格字体、内容),并根据表格版式和单元格内容在表格区域生成表格,同时根据表格的版式生成框线分割图像,将框线分割图像作为标注结果;引入图像融合技术(如poisson blend)修复表格区域颜色亮度,使得整体图片风格一致,如图3b所示,为仿真生成的样本表格图像。
在一实施例中,考虑到表格框线分割不同于传统的语义分割,对边缘的准确性提出更高的要求,而一般网络输入图像分辨率(即尺度)较小,为了保持原始高分辨率的细节特征可以对图像进行一定的形态学变化和图像增强等预处理。
也即,步骤“将样本框线分割图像作为样本表格图像的标注内容”,可以包括:
对样本框线分割图像进行预处理,得到处理后样本框线分割图像,预处理包括形态学变换和图像增强处理;
将处理后样本框线分割图像作为样本表格图像的标注内容。
其中,形态学变换可以包括膨胀、腐蚀等操作,比如,可以对样本框线分割图像中框线进行加粗等处理。
其中,图像增强处理,可以包括将原来不清晰的图像变得清晰或强调某些感兴趣的特征,扩大图像中不同物体特征之间的差别,抑制不感兴趣的特征,使之改善图像质量、丰富信息量,加强图像判读和识别效果。比如,可以对框线进行图像增强。
(2)、根据训练样本集中已标注样本框线分割图像的样本表格图像对表格框线分割模型,得到训练后的表格框线分割模型。例如,具体如下:
S1、从训练样本集中选择已标注的样本表格图像,作为当前训练样本。
例如,在通过上述样本生成方式生成样本表格图像之后,便可以得到训练样本集,在模型训练时,可以从该样本集中选择一张样本表格图像。
S2、将当前训练样本输入至表格框线分割模型,得到训练样本的预测框线分割图像。
其中,表格框线分割模型具体的结构和工作过程可以参考上述的描述。
S3、对预测框线分割图像与标注的样本框线分割图像进行收敛,得到训练后模型。
比如,例如,具体可以采用预设损失函数对该预测框线分割图像和样本框线分割图像进行收敛,得到训练后模型。
在一实施例中,为了节省训练时间,提升模型训练效率,还可以采用批量样本对模型进行训练,也即一次采用多张样本表格图像对模型进行训练。实际应用中每个训练批次均对应一个损失函数,具体地,可以从训练样本集中选择当前训练批次的多张样本表格图像,然后,根据当前训练批次的多张样本表格以及损失函数对表格框线分割模型进行训练。
在一实施例中,考虑到给定一个待分割的图片,有效的表格框线往往很少,因此会导致的类别分布不均衡问题,非框线元素相比框线元素所占比例大太多,降低图像分割的准确性。为了提升图像分割的准确性,可以在训练中动态调整损失函数中的类别权重,也即,在每个训练批次,均需要调整损失函数中的类别权重,使用调整后的损失函数进行本批次的模型训练。基于每个批次的类别分布动态调整损失函数中两个类别的权重;比如,可以根据每个批次的非框线比例和框线比例来调整权重。
具体地,步骤“根据训练样本集中样本表格图像对表格框线分割模型,得到训练后的表格框线分割模型”,可以包括:
从训练样本集中选择当前训练批次的多张样本表格图像;
获取当前批次的样本表格图像中非框线比例和框线比例;
根据非框线比例和框线比例对损失函数中框线类别权重、非框线类别权重进行调整,得到当前训练批次对应的损失函数;
根据当前训练批次的多张样本表格图像以及损失函数,对表格框线分割模型,得到训练后的表格框线分割模型。
其中,每个批次的非框线比例为:该批次的样本表格图像中,非框线总数量与线总数量之间的比值;每个批次的框线比例为:该批次的样本表格图像中,框线总数量与线总数量之间的比值。
其中,根据非框线比例和框线比例调整权重的方式可以包括:非框线权重:1;框线权重:每个批次非框线比例/每个批次框线比例。经过实际测试通过这种方式可以将图像分割的准确率从93%提高到95%。
103、从框线分割图像中检测表格行线和表格列线,得到表格行线和表格列线的位置信息。
其中,表格行线和列线的检测指的是获取表格行线和表格列线的位置信息的过程,也即将图像中表格行线和列线的位置如坐标求解出来的过程。
其中,表格行线或列线的位置信息为表格行线或列线在图像如框线分割图像或者表格图像中的位置信息,比如,在框线分割图像的图像坐标系中的坐标,如x、y值。
其中,框线检测的方式可以有多种,如下:
(1)、模型输出包括行线分割图像和列线分割图像:
在一实施例中,当框线分割图像包括行线分割图像和列线分割图像时,可以在行线分割图像中检测表格行线,得到表格行线的位置信息;在列线分割图像中检测表格列线,得到表格列线的位置信息。
下面将以从行线分割图像中检测行线为例,来介绍表格框线的具体检测过程,同理列线的检测可以与行线检测的方式一致,可以参考行线的检测过程,如下:
1.1、根据预设像素值在行线分割图像中检测像素连通区域。
其中,像素连通区域由行线分割图像中像素值均等于预设像素值、且连续的像素点构成;比如,在框线分割图像中框线像素的像素值为1时,可以在行线分割图像中检测像素值为1且连续的像素点,这些像素点构成的区域即为像素连通区域。
1.2、根据检测到的像素连通区域确定表格行线。
比如,可以将检测到的像素连通区域直接作为表格行线。又比如,在一实施例中,为了提升框线检测的准确性,还可以通过计算像素连通区域的置信度来确定是否将连通区域作为表格线;也即,步骤“根据检测到的像素连通区域确定表格行线”,可以包括:
获取像素连通区域的置信度;
当置信度大于预设置信度时,确定像素连通区域为表格行线。
其中,置信度是指:像素连通区域为一条表格框线如行线或列线的可信度。该置信度可以有多种方式来衡量,比如,可以通过连通区域内像素点距离拟合直线的距离来衡量。
具体地,步骤“获取像素连通区域的置信度”,可以包括:
根据像素连通区域内像素点的位置信息拟合一条直线;
计算像素连通区域内像素点与该直线的距离;
根据像素点与该直线的距离构建像素连通区域的置信度。
其中,像素点与直线的距离为像素点与直线的垂直距离,可以用像素点个数表示,比如,距离为5个像素点。
比如,在一实施例中,可以计算距离小于预设距离的像素点占区域内总像素点的比例,该比例即可作为置信度。
在一实施例中,为了提升框线检测的准确性,在连通区域的置信度不大于预设置信度时,可以在预设方向对像素连通区域进行水漫填充,得到若干线段;根据线段确定表格行线。
其中,预设方向可以根据实际需求设定,在检测行线时,预设方向可以设定为水平方向(即相对水平线0度的方向),在检测列线时,该预设方向可以为垂直方向(即相对水平线90度的方向)。比如,可以在水平方向对置信度不大于预设置信度的连通区域进行水漫填充,可以得到若干条线段。
其中,水漫填充(Flood fill)是给定一个联通域内的一个点,以此为起点找到这个联通域的其余所有点并将其填充为指定颜色的一种算法。本发明实施例可以通过置信度低的像素连通区域进行直线水漫填充,在每条直线的水流结束时,记录直线的起点与终点,便可以得到若干线段。
本发明实施例,可以对行线分割图像检测的像素连通区域,然后,确定像素连通区域的置信度是否大于预设置信度,若大于,则直接确定该连通区域为行线,若不大于,则在预设方向对该像素连通区域进行直线水漫填充,得到连通区域对应的若干条线段。之后,可以根据线段来确定表格行线。
其中,根据线段确定表格行线或列线的方式,可以包括:对线段进行合并,根据合并后线段确定表格行线。
具体地,在一实施例中,可以基于线段之间的夹角和/或平均投影距离来进行合并。比如,步骤“根据线段确定表格行线”,可以包括“:
获取线段之间的夹角角度、以及平均投影距离;
根据夹角角度和平均投影距离对线段进行合并,得到合并后线段;
根据合并后线段确定表格行线。
其中,线段之间的夹角角度可以为两个线段之间的夹角角度,两个线段之间的平均投影距离为:一个线段的端点与经过另一线段的直线之间的平均距离;例如,线段AB与线段CD之间的平均投影距离计算方式为:获取端点A与经过线段CD直线的距离L1,端点B与经过线段CD直线的距离L2,平均投影距离=(L1+L2)/2。
在一实施中,两个线段件的平均投影距离还可以为:一个线段的所有点与经过另一线段的直线之间的平均距离。平均投影距离L’=(L1+L2+……+Ln)/n,L为线段上点与直线之间的距离,n为大于2的整数。
根据夹角角度和平均投影距离进行线段合并方式可以包括:当两线段之间的夹角小于预设角度,且平均投影距离小于预设距离时,将这两个线段进行合并。其中,预设角度可以根据需求设定,比如,可以为5度,同样预设距离可以根据实际需求设备,比如,以像素个数表示距离时,可以为5个像素点。
通过上述介绍的方式,可以从行分割图像中检测表格行线,得到表格行线的位置信息,同样从列分割图像中检测表格列线的方式与行线检测方式相同,可以参考上述的行线检测的介绍。
(2)、模型输出为一张包含表格行线、列线的框线分割图像。
比如,参考图2b,模型输出一张黑白色的框线分割图像,该图像包含白色的行线和列线,在此情况,由于框线分割图像中包含行列线,因此,需要识别出行线和列线,具体地,如下:
2.1、在多个预设方向对框线分割图像进行直线水漫填充,得到线段集合。
比如,可以从4个或者4个以上的预设方向对框线分割图像进行直线水漫填充。其中,预设方向可以根据实际需求设定,该预设方向包括:与水平方向偏移0度、30度、60度、90度的方向。
实际应用中,首先在分割图上进行四个方向的直线水漫填充,分别是0度,30度,60度,90度,每条直线的水流结束,就记下直线的起点与终点,由此得到一批初始的线段。
2.2、对线段集合中属于同一表格框线的线段进行合并,得到合并后线段集合。
在得到线段集合之后,可以对集合内线段进行合并,比如,可以使用并查集算法进行合并,合并的方式可以参考上述(1)方式中的线段合并方式,比如,合并标准可以包括两线夹角小于5度,且平均投影距离不超过5个像素。具体地线段合并为:根据夹角和平均投影距离将集合内线段进行划分,对属于同个划分集合的线段(也即夹角和平均投影距离满足预设条件的线段)进行点的均匀采样,利用这些点拟合一条新的线段代表原来同个集合的所有线段。
2.3、根据合并后线段集合中线段相对于预设方向的角度,将合并后线段集合中线段聚类为表格行线和表格列线。
比如,将相对于水平方向的角度为0度的线段聚类为表格行线,将相对于说方向的角度为90度的线段聚类为表格列线,这样便可以从得到表格列线和行线。
根据上述介绍的方式可以从框线分割图像中检测出表格行线和表格列线,从而得到表格行线和表格列线的位置信息。
在一实施例中,为了提升表格识别重建的准确性,在通过上述方式如(1)(2)方式检测出表格行线和表格列线之后,还可以去除噪点直线,具体地,本发明方法还可以包括:
根据表格行线与第一预设方向间的角度去除相应的表格行线;
根据表格列线与第二预设方向间的角度去除相应的表格列线。
其中,第一预设方向与行线方向对应,可以为水平方向,第二预设方向与列线方向对应,可以为垂直方向。
具体地,步骤“根据表格行线与第一预设方向间的角度去除相应的表格行线”,可以包括:
获取表格行线与第一预设方向间的角度值、平均角度值、以及角度标准差;
获取角度值与平均角度之间的角度差值;
当角度差值的绝对值大于角度标准差时,去除表格行线。
其中,表格行线的平均角度值,为所有行线与第一预设方向间的角度平均值,由所有行线与第一预设方向如水平方向的角度和除以行线数量求得。
同理,可以步骤“根据表格列线与第二预设方向间的角度去除相应的表格列线”,可以包括:
获取表格列线与第二预设方向间的角度值、平均角度值、以及角度标准差;
获取角度值与平均角度之间的角度差值;
当角度差值的绝对值大于角度标准差时,去除表格列线。
也即,当角度比本类平均角度值大/小一个标准差的框线如行线或列线删除。
其中,表格列线线的平均角度值,为所有列线与第二预设方向间的角度平均值,由所有行线与第二预设方向如垂直方向的角度和除以列线数量求得。
在一实施例中,为了能够准确地重建表格,在得到表格行列线的位置信息后,还可以对表格行列线的位置信息进行倾斜校正,比如,本发明方法还可以包括:分别对表格行线、表格列线的位置信息进行倾斜校正。
其中,倾斜校正是对表格行列线的位置信息校正或调整,使得表格行线、列线不倾斜,比如,表格行线的方向与水平方向一致,表格列线的方向与垂直线方向一致。
比如,以框线的位置信息包括框线端点的位置信息如坐标为例,可以将同一条行线的端点的y坐标都校正为一样,将同一列线的端点的x坐标都校正为一样。
104、根据表格行线和表格列线的位置信息获取表格的单元格结构信息。
其中,单元格结构信息可以包括单元格位置信息,单元格合并关系;该单元格的位置信息可以包括单元格定位点如顶点的位置信息。比如,单元格的对角顶点的位置信息。
其中,单元格位置信息为单元格在图像如框线分割图像、或者表格图像中的位置信息,可以包括单元格在图像如框线分割图像的坐标系中的坐标,如x、y坐标值。
其中,单元格的位置信息可以基于表格行、列线的位置信息得到,比如,可以根据表格行线和表格列线的位置信息获取表格行线与表格列线的交点的位置信息,根据交点的位置信息如坐标得到单元格的位置信息如坐标。
其中,单元格合并关系,用于指示需要合并的单元格,也即指示哪些单元格是由哪些合并而来。
该单元格合并关系可以通过单元格位置信息得到,比如,可以根据单元格位置信息如坐标推导出单元格合并关系。
在一实施例中,步骤“根据表格行线和表格列线的位置信息获取表格的单元格结构信息”,可以包括:
根据表格行线和表格列线的位置信息获取表格的单元格位置信息;
根据单元格位置信息获取单元格合并关系。
例如,可以基于行线和列线的坐标,求取行线和列线的交点的坐标,根据交点的坐标,可得出单元格的坐标;在得到单元格坐标之后根据每个单元格的坐标,可以推导出单元格合并关系。
105、根据表格行线的位置信息、表格列线的位置信息以及单元格结构信息生成相应格式的电子表格文件。
在通过上述步骤得到表格行列线位置如坐标、单元格位置如坐标、单元格合并关系之后,可以根据表格行列线位置如坐标、单元格位置如坐标、单元格合并关系生成相应格式的电子表格文件。
在一实施例中,生成的电子表格文件中表格内容可以为空,也即,表格没有内容,只要表格框架。
比如,以图1c所示的表格图像为例,可以通过上述步骤对该表格图像进行表格识别重建,得到没有单元格内容的电子表格,如图1f中表格内容去除即为生成的空电子表格。
在一实施例中,生成的电子表格文件还可以包括单元格内容,此时,步骤“根据表格行线的位置信息、表格列线的位置信息以及单元格结构信息生成相应格式的电子表格文件”,可以包括:
根据单元格结构信息对表格图像中的单元格内容进行识别,得到识别结果;
根据识别结果、表格行线的位置信息、表格列线的位置信息以及单元格结构信息生成相应格式的电子表格文件。
其中,单元格内容识别可以为通过OCR(光学字符识别)识别,OCR是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。
比如,以图1c所示的表格图像为例,可以通过上述步骤可以得到行列线坐标、单元格坐标、单元格合并关系;之后,根据单元格坐标、单元格合并关系对表格图像中的单元格内容进行识别如OCR识别,得到内容识别结果;然后,根据行列坐标,单元格坐标,单元格合并关系、以及内容识别结果生成相应格式的电子表格文件,生成的电子表格可以参考图1f所示。
在一实施例中,在对表格行列线位置进行倾斜校正的情况下,为了提升单元格内容识别的准确性,还需要通过透视变换对表格图像进行倾斜校正。比如,本发明方法还可以包括:
根据表格行线的校正前位置信息、校正后位置信息,以及表格列线的校正前位置信息、校正后位置信息,获取相应的透视变换矩阵;
根据透视变换矩阵对表格图像进行透视变换,得到变换后表格图像;
此时,步骤“根据单元格结构信息对表格图像中的单元格内容进行识别”,可以包括:根据单元格结构信息对变换后表格图像中的单元格内容进行识别。
其中,透视变换矩阵的计算方式可以有多种,比如,采用Ransac(随机抽样一致算法)法求得透视变换矩阵。
在一实施例中,为了提升单元格识别的效率和准确性,在内容识别之前,还可以对透视变换后的表格图像进行预处理,比如,可以根据单元格位置信息如坐标从变化后的表格图像中提取待内容识别图像,具体地,可以将根据单元格覆盖的区域将校正后的图像中表格区域框出,其他区域丢弃。
由上可知,本发明实施例可以获取待识别的表格图像;采用表格框线分割模型对表格图像进行表格框线分割,得到框线分割图像,表格框线分割模型由标记了样本框线分割图像的样本表格图像训练而成;从框线分割图像中检测表格行线和表格列线,得到表格行线和表格列线的位置信息;根据表格行线和表格列线的位置信息获取表格的单元格结构信息;根据表格行线的位置信息、表格列线的位置信息以及单元格结构信息生成相应格式的电子表格文件。由于该方案可以通过深度学习网络模型自动提取表格框线,然后,基于表格框线重建表格,因此,该方案无需人工设计表格特征和规则,也无需依赖特征的表格应用场景和专家知识,可以对各种样式表格进行准确地识别重建,可以提升表格识别重建的准确性、可用性以及召回率。
此外,本发明实施例还可以仿真生成标注的训练样本,大大降低标注成本、以及提升模型训练效率。
根据上述实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该表格识别重建装置具体集成在网络设备中为例进行说明。
(一)、首先,需要对表格框线分割模型进行训练,具体可如下:
(1)、根据上述介绍的仿真训练数据生成方式自动生成已标注的样本表格图像,得到训练样本,比如,获取样本背景图像;根据预先定义的表格位置和尺寸在样本背景图像中创建待生成表格的表格区域;根据预先定义的表格版式信息和单元格内容在表格区域生成相应的样本表格,得到样本表格图像;根据表格版式信息获取样本表格对应的样本框线分割图像,并将样本框线分割图像作为样本表格图像的标注内容。
具体的样本生成方式可以参考上述的介绍。
其中,样本框线分割图像可以包括行线分割图像和列线分割图像两张图像,或者,可以为一张同时包含行线和列线的框线分割图像。具体地,可以根据实际需求选择。
其中,采用不同的样本框线分割图像对模型进行训练,那么后续从模型输出的框线分割图像检测行列线的方式也不相同,比如,参考上述介绍的在两种模型输出情况下的行列线检测方式。
在一实施例中,考虑到表格框线分割不同于传统的语义分割,对边缘的准确性提出更高的要求,而一般网络输入图像分辨率(即尺度)较小,为了保持原始高分辨率的细节特征可以对图像进行一定的形态学变化和图像增强等预处理
(2)、根据训练样本集中已标注样本框线分割图像的样本表格图像对表格框线分割模型,得到训练后的表格框线分割模型。
具体地的训练过程可以参考上述介绍的模型训练过程,比如,为了节省训练时间,提升模型训练效率,可以采用批量训练的方式,可以从训练样本集中选择当前训练批次的多张样本表格图像;获取当前批次的样本表格图像中非框线比例和框线比例;根据非框线比例和框线比例对损失函数中框线类别权重、非框线类别权重进行调整,得到当前训练批次对应的损失函数;根据当前训练批次的多张样本表格图像以及损失函数,对表格框线分割模型,得到训练后的表格框线分割模型。
本发明实施例中,模型训练可以由网络设备如终端或服务器执行,也可以由其他设备执行,比如,在其他设备根据上述方式训练模型后,网络设备可以从其他设备获取训练后的模型来使用。
(二)、其次,通过训练好的表格框线分割模型便可以对表格图像进行识别和重建,具体过程,可以参考图4a。
如图4a所示,将以待识别表格图像由图像采集设备上传为例,来介绍表格识别重建方法,具体流程如下:
201、图像采集设备实时采集表格预览图像,并从采集到的表格预览图像中选择待识别的表格图像上传给网络设备。
其中,表格预览图像为在图像采集预览阶段采集到的表格图像,比如,在手机相机拍照之前手机采集并在相机预览界面显示的表格图像。
其中,从表格预览图像中选择图像的方式可以有多种,比如,在一实施例中,可以根据表格预览图像的采集时间选择待识别的表格图像。又比如,在一实施例中,可以基于用户的操作来选择待识别的表格图像。例如,可以基于检测到的用户输入的图像确认操作从表格预览图像中选择待识别的表格图像。
比如,图像采集设备如手机,实时采集表格预览图像;对当前采集到的表格预览图像进行表格框线预分割,得到框线分割预览图像;从框线分割预览图像中预检测预览表格框线,得到预览表格框线的位置信息,预览表格框线包括表格行线和表格列线;根据预览表格框线的位置信息在预览界面中绘制显示相应的预览表格框线;当检测到用户针对预览界面的图像确认操作时,在当前采集到的表格预览图像中确定待识别区域;在表格识别界面显示表格预览图像、并标记待识别区域;基于用户针对表格识别界面的区域调整操作,对待识别区域进行调整,得到调整后区域;当检测到用户针对表格识别界面的识别确认操作时,根据调整后区域从表格预览图像中提取相应的表格区域图像,得到待识别的表格图像。具体的产品表现可以参考图1c和图1e。
其中,表格框线的预采集可以使用精简后的表格框线分割模型,也即,采用精简后的表格框线分割模型对当前采集到的表格预览图像进行表格框线预分割。
其中,表格框线的预检测,可以使用上述实施例介绍的表格行列线检测方式(即步骤103的描述内容)。
比如,可以参考图4b,当图像采集设备为移动终端时,由于移动终端计算能力有限,并且为了实时展示,所以本发明实施例会在移动终端运行一个精简过的深度学习模型(即精简过的表格框线分割模型)。采用精简过的深度学习模型对当前帧进行预分割,然后使用上述介绍的行列线检测方式进行行列坐标提取,进而得到单元格结构化信息如单元格坐标,按照单元格坐标将单元格绘制到屏幕。如果用户对单元格的效果尚满意,就会点击确认按钮,当前帧就会上传,如果用户不满意,则软件获取下一帧,继续运行这个预识别过程。
202、网络设备采用表格框线分割模型对表格图像进行表格框线分割,得到行线分割图像和列线分割图像。
其中,行线分割图像仅包含表格行线,可以为一张二值化图像,行线的颜色为白色、背景颜色为黑色。同样列线分割图像仅包含表格列线,也可以为一张二值化图像,列线的颜色为白色、背景颜色为黑色。
其中,行线分割图像和列线分割图像的尺寸可以一致,比如,均为512*512pixel。
其中,表格框线分割模型可以为深度学习网络模型,用于对表格图像进行图像分割,得到行线、列线分割图像等,比如,表格框线分割模型可以为unet网络结构的图像分割模型。表格框线分割模型的具体结构和分割过程可以参考上述实施例的描述。
例如参考图2c,将表格图像输入至表格框线分割模型,模型输出两张黑白分割图像,一张为行线分割图像、另一张为列线分割图像。
203、网络设备在行线分割图像中检测表格行线,得到表格行线的位置信息。
比如,可以根据预设像素值在行线分割图像中检测像素连通区域;获取像素连通区域的置信度;当置信度大于预设置信度时,确定像素连通区域为表格行线;当连通区域的置信度不大于预设置信度时,在预设方向对像素连通区域进行水漫填充,得到若干线段;根据线段确定表格行线。
其中,骤“根据线段确定表格行线”,可以包括“:获取线段之间的夹角角度、以及平均投影距离;根据夹角角度和平均投影距离对线段进行合并,得到合并后线段;根据合并后线段确定表格行线。
其中,从行线分割图像中检测表格行线的方式可以参考上述实施例的描述,如1.1-1.2的描述。
此外,网络设备在检测到表格行线之后,可以根据表格行线与水平方向间的角度去除相应的表格行线,以去除噪点直线。
204、网络设备在列线分割图像中检测表格行线,得到表格列线的位置信息。
同样,从列线分割图像中检测表格列线的方式可以参考上述实施例关于检测行线的描述。二者采用的检测方式相同,这里不再赘述。
步骤203和204之间的时序不受序号限制,可以同时执行,也可以先后。
此外,网络设备也可以在检测到列线之后,根据表格列线与垂直方向间的角度去除相应的表格列线。
205、网络设备分别对表格行线、表格列线的位置信息进行倾斜校正。
其中,倾斜校正是对表格行列线的位置信息校正或调整,使得表格行线、列线不倾斜,比如,表格行线的方向与水平方向一致,表格列线的方向与垂直线方向一致。
比如,以框线的位置信息包括框线端点的位置信息如坐标为例,可以将同一条行线的端点的y坐标都校正为一样,将同一列线的端点的x坐标都校正为一样。
206、网络设备获取切斜校正对应的透视变换矩阵,并根据透视变换矩阵对表格图像进行透视变换,得到变换后表格图像。
比如,网络设备根据表格行线的校正前位置信息、校正后位置信息,以及表格列线的校正前位置信息、校正后位置信息,获取相应的透视变换矩阵。
其中,透视变换矩阵的计算方式可以有多种,比如,采用Ransac(随机抽样一致算法)法求得透视变换矩阵。
207、网络设备根据表格行线和表格列线的位置信息获取表格的单元格结构信息。
其中,单元格结构信息可以包括单元格位置信息,单元格合并关系;该单元格的位置信息可以包括单元格定位点如顶点的位置信息。比如,单元格的对角顶点的位置信息。
其中,单元格合并关系,用于指示需要合并的单元格,也即指示哪些单元格是由哪些合并而来。
该单元格合并关系可以通过单元格位置信息得到,比如,可以根据单元格位置信息如坐标推导出单元格合并关系。
具体地,单元格位置信息和单元格合并关系的获取可以参考上述实施了的描述。
208、网络设备根据单元格结构信息对变换后表格图像中的单元格内容进行识别,得到识别结果。
比如,网络设备可以根据单元格坐标、单元格合并关系对表格图像中的单元格内容进行识别如OCR识别,得到内容识别结果
209、网络设备根据识别结果、表格行线的位置信息、表格列线的位置信息以及单元格结构信息生成相应格式的电子表格文件。
此外,网络设备还可以将电子表格文件发送给图像采集设备如手机进行显示。
在一实施例中,在经过上述模型训练之后,如图5a所示,将以待识别表格图像由图像采集设备上传为例,来介绍另一表格识别重建方法,具体流程如下:
301、图像采集设备实时采集表格预览图像,并从采集到的表格预览图像中选择待识别的表格图像上传给网络设备。
比如,可以实时采集表格预览图像;采用精简后的表格框线分割模型对当前采集到的表格预览图像进行表格框线预分割,得到框线分割预览图像;采用上述实施例介绍的框线检测方式从框线分割预览图像中预检测预览表格框线,得到预览表格框线的位置信息,预览表格框线包括表格行线和表格列线;根据预览表格框线的位置信息在预览界面中绘制显示相应的预览表格框线;当检测到用户针对预览界面的图像确认操作时,在当前采集到的表格预览图像中确定待识别区域;在表格识别界面显示表格预览图像、并标记待识别区域;基于用户针对表格识别界面的区域调整操作,对待识别区域进行调整,得到调整后区域;当检测到用户针对表格识别界面的识别确认操作时,根据调整后区域从表格预览图像中提取相应的表格区域图像,得到待识别的表格图像。具体的产品表现可以参考图1c和图1e。
302、网络设备采用表格框线分割模型对表格图像进行表格框线分割,得到框线分割图像。
其中,框线分割图像包含表格行线和列线,可以为一张二值化图像,分割图像的尺寸可以与表格图像的尺寸相等。
例如,参考图2b,将表格图像输入至表格框线分割模型,模型输出一张黑白分割图像。
表格框线分割模型的具体结构和分割过程可以参考上述实施例的描述。
303、网络设备在多个预设方向对框线分割图像进行直线水漫填充,得到线段集合。
比如,参考图5b,网络设备可以从4个或者4个以上的预设方向对框线分割图像进行直线水漫填充。其中,预设方向可以根据实际需求设定,该预设方向包括:与水平方向偏移0度、30度、60度、90度的方向。
304、网络设备对线段集合中属于同一表格框线的线段进行合并,得到合并后线段集合。
参考图5b,在得到线段集合之后,可以对集合内线段进行合并,比如,可以使用并查集算法进行合并,合并的方式可以参考上述(1)方式中的线段合并方式,比如,合并标准可以包括两线夹角小于5度,且平均投影距离不超过5个像素。
305、网络设备根据合并后线段集合中线段相对于预设方向的角度,将合并后线段集合中线段聚类为表格行线和表格列线。
比如,将相对于水平方向的角度为0度的线段聚类为表格行线,将相对于说方向的角度为90度的线段聚类为表格列线,这样便可以从得到表格列线和行线。
306、网络设备从表格行线和表格列线中剔除离群噪点。
比如,网络设备根据表格行线与第一预设方向间的角度去除相应的表格行线;根据表格列线与第二预设方向间的角度去除相应的表格列线。
其中,第一预设方向与行线方向对应,可以为水平方向,第二预设方向与列线方向对应,可以为垂直方向。
其中,离群点剔除的标准为:角度比本类平均值大/小一个标准差以外的线被剔除。具体可以参考上述实施例的介绍。
307、网络设备分别对表格行线、表格列线的位置信息进行倾斜校正。
其中,倾斜校正是对表格行列线的位置信息校正或调整,使得表格行线、列线不倾斜,比如,表格行线的方向与水平方向一致,表格列线的方向与垂直线方向一致。
308、网络设备获取切斜校正对应的透视变换矩阵,并根据透视变换矩阵对表格图像进行透视变换,得到变换后表格图像。
例如,参考图5b,在得到行列线坐标后可以对行列线坐标进行倾斜校正,以及表格图像的校正,具体地,采用透视变换方式来校正图像。
309、网络设备根据表格行线和表格列线的位置信息获取表格的单元格结构信息。
其中,单元格结构信息可以包括单元格位置信息,单元格合并关系;该单元格的位置信息可以包括单元格定位点如顶点的位置信息
例如,参考图5b,可以根据表格行线和表格列线的位置信息获取行线和列线交点的位置信息如坐标,然后,根据交点的位置信息计算(即定位)单元格的位置信息如单元格坐标。
310、网络设备根据单元格结构信息对变换后表格图像中的单元格内容进行识别,得到识别结果。
网络设备根据识别结果、表格行线的位置信息、表格列线的位置信息以及单元格结构信息生成相应格式的电子表格文件。
由上可知,由于本发明实施例提供的方案可以通过深度学习网络模型自动提取表格框线,然后,基于表格框线重建表格,因此,该方案无需人工设计表格特征和规则,也无需依赖特征的表格应用场景和专家知识,可以对各种样式表格进行准确地识别重建,可以提升表格识别重建的准确性、可用性以及召回率。
并且,技术人员还经过系列测试实验证明了采用本发明实施例深度学习分割图像的方式相对于传统分割方式的优势。传统分割方法对于表格线的分割主要依赖于图像二值化或者图像边缘检测算法,这里选取了OTSU(大津法)二值化法、opencvadaptiveThreshold(自适应图像阈值化)、Canny算子和SED边缘检测法做为对比对象。
采集并标注了了20000个表格图像样本,用10000个样本做训练集,10000个样本做验证集,在精确率,召回率,IOU这三个指标上考察表格线分割效果。所有算法所需的参数都是在训练集上学习的,超参数是在训练集上进行网格搜索得到的。下表是效果对比,可以看出,本发明相比传统方法有绝对优势。
另外,本发明实施例还可以仿真生成标注的训练样本,大大降低标注成本、以及提升模型训练效率。比如,在真实数据采集阶段,可以用于网络爬虫在一天内就可以搜集10000张有效样本。在标注阶段,只需5个人就能在一个星期内标注完。仿真数据的生成速度可以达到每秒3张图,其分辨率为512*512。所以本发明的总体开发,训练和部署成本是较低的。
此外,本发明实施例提供的方案其实现表格识别重建的速度比如传统方案快,比如,将本方案部署在四核CPU的Linux服务器、或者手机上,与传统方案相比,以10000张表格图片进行测试,传统方案平均将一张图转为xlsx文件需要4.03秒。而在服务器上本方案平均只需0.15秒,在手机上本系统平均只需0.83秒,运行速度大大优于传统方案,并且用户体验较好。。
为了更好地实施以上方法,本发明实施例还提供一种表格识别重建装置,该表格识别重建装置具体可以集成在网络设备如终端或服务器等设备中,该终端可以包括手机、平板电脑、笔记本电脑或PC等设备。
例如,如图6a所示,该表格识别重建装置可以包括图像获取单元401、图像分割单元402、检测单元403、信息获取单元404、以及表格生成单元405,如下:
图像获取单元401,用于获取待识别的表格图像;
图像分割单元402,用于采用表格框线分割模型对所述表格图像进行表格框线分割,得到框线分割图像,所述表格框线分割模型由标记了样本框线分割图像的样本表格图像训练而成;
检测单元403,用于从所述框线分割图像中检测表格行线和表格列线,得到表格行线和表格列线的位置信息;
信息获取单元404,用于根据所述表格行线和表格列线的位置信息获取表格的单元格结构信息;
表格生成单元405,用于根据所述表格行线的位置信息、所述表格列线的位置信息以及所述单元格结构信息生成相应格式的电子表格文件。
在一实施例中,参考图6b,所述框线分割图像包括行线分割图像和列线分割图像;所述检测单元403,可以包括:
行线检测子单元4031,用于在所述行线分割图像中检测表格行线,得到表格行线的位置信息;
列线检测子单元4032,用于在所述列线分割图像中检测表格列线,得到表格列线的位置信息。
在一实施例中,行线检测子单元4031,可以用于:
根据预设像素值在所述行线分割图像中检测像素连通区域;
根据检测到的像素连通区域确定表格行线。
在一实施例中,行线检测子单元4031,可以用于:
根据预设像素值在所述行线分割图像中检测像素连通区域;
获取所述像素连通区域的置信度;
当所述置信度大于预设置信度时,确定所述像素连通区域为表格行线;
当所述置信度不大于预设置信度时,在预设方向对所述像素连通区域进行直线水漫填充,得到若干线段;根据所述线段确定表格行线。
在一实施例中,行线检测子单元4031,可以用于:
获取所述线段之间的夹角角度、以及平均投影距离;
根据所述夹角角度和所述平均投影距离对所述线段进行合并,得到合并后线段;
根据合并后线段确定表格行线。
在一实施例中,所述检测单元403,可以具体用于:
在多个预设方向对所述框线分割图像进行直线水漫填充,得到线段集合;
对线段集合中属于同一表格框线的线段进行合并,得到合并后线段集合;
根据合并后线段集合中线段相对于预设方向的角度,将合并后线段集合中线段聚类为表格行线和表格列线。
在一实施例中,参考图6c,本发明实施例装置还可以包括:框线去除单元406;
所述框线去除单元406,可以用于在检测单元403检测到表格行线和表格列线之后,根据表格行线与第一预设方向间的角度去除相应的表格行线;根据表格列线与第二预设方向间的角度去除相应的表格列线。
在一实施例中,参考图6d,表格生成单元405,可以包括:
识别子单元4051,用于根据所述单元格结构信息对所述表格图像中的单元格内容进行识别,得到识别结果;
表格生成子单元4052,用于根据所述识别结果、所述表格行线的位置信息、所述表格列线的位置信息以及所述单元格结构信息生成相应格式的电子表格文件。
在一实施例中,参考图6e,本发明实施例装置还可以包括:校正单元407;
所述校正单元407,用于:
分别对所述表格行线、表格列线的位置信息进行倾斜校正;
根据表格行线的校正前位置信息、校正后位置信息,以及表格列线的校正前位置信息、校正后位置信息,获取相应的透视变换矩阵;
根据所述透视变换矩阵对所述表格图像进行透视变换,得到变换后表格图像;
识别子单元4051,可以用于根据所述单元格结构信息对变换后表格图像中的单元格内容进行识别。
在一实施例中,所述单元格结构信息包括单元格位置信息和单元格合并关系;所述信息获取单元404,可以具体用于:
根据所述表格行线和表格列线的位置信息获取表格的单元格位置信息;
根据所述单元格位置信息获取单元格合并关系。
在一实施例中,参考图6f,本发明实施例装置还可以包括:样本生成单元408和训练单元409;
所述样本生成单元408,用于生成已标注样本框线分割图像的样本表格图像,得到训练样本集;
训练单元409,用于根据训练样本集中样本表格图像对表格框线分割模型,得到训练后的表格框线分割模型。
在一实施例中,所述样本生成单元408,可以具体用于:
获取样本背景图像;
根据预先定义的表格位置和尺寸在样本背景图像中创建待生成表格的表格区域;
根据预先定义的表格版式信息和单元格内容在所述表格区域生成相应的样本表格,得到样本表格图像;
根据所述表格版式信息获取样本表格对应的样本框线分割图像,并将所述样本框线分割图像作为所述样本表格图像的标注内容。
在一实施例中,所述样本生成单元408,可以用于:
根据预先定义的表格版式信息和单元格内容在所述表格区域生成相应的样本表格;
对样本背景图像与表格区域进行颜色融合,得到样本表格图像。
在一实施例中,所述样本生成单元408,可以用于:
对样本框线分割图像进行预处理,得到处理后样本框线分割图像,所述预处理包括形态学变换和图像增强处理;
将处理后样本框线分割图像作为所述样本表格图像的标注内容。
在一实施例中,训练单元409,可以具体用于:
从训练样本集中选择当前训练批次的多张样本表格图像;
获取当前批次的样本表格图像中非框线比例和框线比例;
根据所述非框线比例和所述框线比例对损失函数中框线类别权重、非框线类别权重进行调整,得到当前训练批次对应的损失函数;
根据所述当前训练批次的多张样本表格图像以及损失函数,对表格框线分割模型,得到训练后的表格框线分割模型。
在一实施例中,表格框线分割模型包括:卷积网络和反卷积网络,所述卷积网络包括多个尺度的卷积层;所述反卷积网络包括多个尺度的反卷积层;
其中,所述图像分割单元402,可以具体用于:
将所述表格图像输入至所述卷积网络;
在每个尺度的卷积层对上一层输出的图像特征进行卷积运算,得到所述卷积网络的输出结果;
将所述卷积网络的输出结果输入至所述反卷积网络;
在每个尺度的反卷积层对上一层输出的图像特征进行反卷积运算,并将本层输出的反卷积图像特征、与相同尺度卷积层输出的卷积图像特征进行融合,得到框线分割图像。
在一实施例中,其中,图像分割单元402在每个尺度的反卷积层对上一层输出的图像特征进行反卷积运算,并将本层输出的反卷积图像特征、与相同尺度卷积层输出的卷积图像特征进行融合,得到框线分割图像,可以具体包括:
确定当前处理特征的反卷积层的当前尺度;
当所述当前尺度不为输出尺度时,在当前反卷积层对上一层输出的图像特征进行反卷积运算,并将本层输出的反卷积图像特征、与相同尺度卷积层输出的卷积图像特征进行融合,将融合后图像特征输入至下一层反卷积层;返回执行确定当前处理特征的反卷积层的当前尺度的步骤;
当所述当前尺度为输出尺度时,在当前反卷积层对上一层输出的图像特征进行反卷积运算;并将本层输出的反卷积图像特征、与相同尺度卷积层输出的卷积图像特征、以及其余尺度反卷积层输出的融合后图像特征进行融合,得到框线分割图像。
在一实施例中,参考图6g,图像获取单元401,可以包括:
采集子单元4011,用于实时采集表格预览图像;
预分识别子单元4012,用于对当前采集到的表格预览图像进行表格框线预分割,得到框线分割预览图像;从所述框线分割预览图像中预检测预览表格框线,得到预览表格框线的位置信息,所述预览表格框线包括表格行线和表格列线;
显示子单元4013,用于根据所述预览表格框线的位置信息在所述预览界面中绘制显示相应的预览表格框线;
图像获取子单元4014,用于当检测到用户针对预览界面的图像确认操作时,根据当前采集到的表格预览图像获取待识别的表格图像。
在一实施例中,图像获取子单元4014,可以具体用于:
当检测到用户针对预览界面的图像确认操作时,在所述当前采集到的表格预览图像中确定待识别区域;
在表格识别界面显示所述表格预览图像、并标记所述待识别区域;
基于用户针对所述表格识别界面的区域调整操作,对所述待识别区域进行调整,得到调整后区域;
当检测到用户针对所述表格识别界面的识别确认操作时,根据所述调整后区域从所述表格预览图像中提取相应的表格区域图像,得到待识别的表格图像。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本实施例的表格识别重建装置通过图像获取单元401获取待识别的表格图像;然后,由图像分割单元402采用表格框线分割模型对所述表格图像进行表格框线分割,得到框线分割图像,所述表格框线分割模型由标记了样本框线分割图像的样本表格图像训练而成;由检测单元403从所述框线分割图像中检测表格行线和表格列线,得到表格行线和表格列线的位置信息;由信息获取单元404根据所述表格行线和表格列线的位置信息获取表格的单元格结构信息;由表格生成单元405根据所述表格行线的位置信息、所述表格列线的位置信息以及所述单元格结构信息生成相应格式的电子表格文件。由于该方案可以通过深度学习网络模型自动提取表格框线,然后,基于表格框线重建表格,因此,该方案无需人工设计表格特征和规则,也无需依赖特征的表格应用场景和专家知识,可以对各种样式表格进行准确地识别重建,可以提升表格识别重建的准确性、可用性以及召回率。本发明实施例还提供一种网络设备,该网络设备可以为服务器或终端等设备。如图7所示,其示出了本发明实施例所涉及的网络设备的结构示意图,具体来讲:
该网络设备可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解,图7中示出的网络设备结构并不构成对网络设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器501是该网络设备的控制中心,利用各种接口和线路连接整个网络设备的各个部分,通过运行或执行存储在存储器502内的软件程序和/或模块,以及调用存储在存储器502内的数据,执行网络设备的各种功能和处理数据,从而对网络设备进行整体监控。可选的,处理器501可包括一个或多个处理核心;优选的,处理器501可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器501中。
存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据网络设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器501对存储器502的访问。
网络设备还包括给各个部件供电的电源503,优选的,电源503可以通过电源管理系统与处理器501逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该网络设备还可包括输入单元504,该输入单元504可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,网络设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,网络设备中的处理器501会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器501来运行存储在存储器502中的应用程序,从而实现各种功能,如下:
获取待识别的表格图像;采用表格框线分割模型对所述表格图像进行表格框线分割,得到框线分割图像,所述表格框线分割模型由标记了样本框线分割图像的样本表格图像训练而成;从所述框线分割图像中检测表格行线和表格列线,得到表格行线和表格列线的位置信息;根据所述表格行线和表格列线的位置信息获取表格的单元格结构信息;根据所述表格行线的位置信息、所述表格列线的位置信息以及所述单元格结构信息生成相应格式的电子表格文件。
例如,所述框线分割图像包括行线分割图像和列线分割图像;在所述行线分割图像中检测表格行线,得到表格行线的位置信息;在所述列线分割图像中检测表格列线,得到表格列线的位置信息。
又例如,在多个预设方向对所述框线分割图像进行直线水漫填充,得到线段集合;对线段集合中属于同一表格框线的线段进行合并,得到合并后线段集合;根据合并后线段集合中线段相对于预设方向的角度,将合并后线段集合中线段聚类为表格行线和表格列线。
其中,该表格框线分割模型的结构具体可以参见前面的实施例,在此不再赘述。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本实施例的网络设备可以获取待识别的表格图像;采用表格框线分割模型对所述表格图像进行表格框线分割,得到框线分割图像;从所述框线分割图像中检测表格行线和表格列线,得到表格行线和表格列线的位置信息;根据所述表格行线和表格列线的位置信息获取表格的单元格结构信息;根据所述表格行线的位置信息、所述表格列线的位置信息以及所述单元格结构信息生成相应格式的电子表格文件。由于该方案可以通过深度学习网络模型自动提取表格框线,然后,基于表格框线重建表格,因此,该方案无需人工设计表格特征和规则,也无需依赖特征的表格应用场景和专家知识,可以对各种样式表格进行准确地识别重建,可以提升表格识别重建的准确性、可用性以及召回率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种图像识别方法中的步骤。例如,该指令可以执行如下步骤:
获取待识别的表格图像;采用表格框线分割模型对所述表格图像进行表格框线分割,得到框线分割图像,所述表格框线分割模型由标记了样本框线分割图像的样本表格图像训练而成;从所述框线分割图像中检测表格行线和表格列线,得到表格行线和表格列线的位置信息;根据所述表格行线和表格列线的位置信息获取表格的单元格结构信息;根据所述表格行线的位置信息、所述表格列线的位置信息以及所述单元格结构信息生成相应格式的电子表格文件。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种表格识别重建方法中的步骤,因此,可以实现本发明实施例所提供的任一种表格识别重建方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种表格识别重建方法、装置和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (15)
1.一种表格识别重建方法,其特征在于,包括:
获取待识别的表格图像;
采用表格框线分割模型对所述表格图像进行表格框线分割,得到框线分割图像,所述表格框线分割模型由标记了样本框线分割图像的样本表格图像训练而成;所述表格框线分割模型包括卷积网络和反卷积网络,所述卷积网络包括多个尺度的卷积层;所述反卷积网络包括多个尺度的反卷积层;
从所述框线分割图像中检测表格行线和表格列线,得到表格行线和表格列线的位置信息;
根据所述表格行线和表格列线的位置信息获取表格的单元格结构信息;
根据所述表格行线的位置信息、所述表格列线的位置信息以及所述单元格结构信息生成相应格式的电子表格文件;
所述采用表格框线分割模型对所述表格图像进行表格框线分割,得到框线分割图像,包括:
将所述表格图像输入至所述卷积网络;
在每个尺度的卷积层对上一层输出的图像特征进行卷积运算,得到所述卷积网络的输出结果;
将所述卷积网络的输出结果输入至所述反卷积网络;
在每个尺度的反卷积层对上一层输出的图像特征进行反卷积运算,并将本层输出的反卷积图像特征、与相同尺度卷积层输出的卷积图像特征进行融合,得到所述框线分割图像。
2.如权利要求1所述的表格识别重建方法,其特征在于,所述框线分割图像包括行线分割图像和列线分割图像;
从所述框线分割图像中检测表格行线和表格列线,得到表格行线和表格列线的位置信息,包括:
在所述行线分割图像中检测表格行线,得到表格行线的位置信息;
在所述列线分割图像中检测表格列线,得到表格列线的位置信息。
3.如权利要求2所述的表格识别重建方法,其特征在于,在所述行线分割图像中检测表格行线,包括:
根据预设像素值在所述行线分割图像中检测像素连通区域;
根据检测到的像素连通区域确定表格行线。
4.如权利要求3所述的表格识别重建方法,其特征在于,根据检测到的像素连通区域确定表格行线,包括:
获取所述像素连通区域的置信度;
当所述置信度大于预设置信度时,确定所述像素连通区域为表格行线;
所述方法还包括:当所述置信度不大于预设置信度时,在预设方向对所述像素连通区域进行直线水漫填充,得到若干线段;根据所述线段确定表格行线。
5.如权利要求1所述的表格识别重建方法,其特征在于,从所述框线分割图像中检测表格行线和表格列线,包括:
在多个预设方向对所述框线分割图像进行直线水漫填充,得到线段集合;
对线段集合中属于同一表格框线的线段进行合并,得到合并后线段集合;
根据合并后线段集合中线段相对于预设方向的角度,将合并后线段集合中线段聚类为表格行线和表格列线。
6.如权利要求1-5任一项所述的表格识别重建方法,其特征在于,根据所述表格行线的位置信息、所述表格列线的位置信息以及所述单元格结构信息生成相应格式的电子表格文件,包括:
根据所述单元格结构信息对所述表格图像中的单元格内容进行识别,得到识别结果;
根据所述识别结果、所述表格行线的位置信息、所述表格列线的位置信息以及所述单元格结构信息生成相应格式的电子表格文件。
7.如权利要求6所述的表格识别重建方法,其特征在于,所述方法还包括:
分别对所述表格行线、表格列线的位置信息进行倾斜校正;
根据表格行线的校正前位置信息、校正后位置信息,以及表格列线的校正前位置信息、校正后位置信息,获取相应的透视变换矩阵;
根据所述透视变换矩阵对所述表格图像进行透视变换,得到变换后表格图像;
根据所述单元格结构信息对所述表格图像中的单元格内容进行识别,包括:根据所述单元格结构信息对变换后表格图像中的单元格内容进行识别。
8.如权利要求1所述的表格识别重建方法,其特征在于,还包括:
获取样本背景图像;
根据预先定义的表格位置和尺寸在样本背景图像中创建待生成表格的表格区域;
根据预先定义的表格版式信息和单元格内容在所述表格区域生成相应的样本表格,得到样本表格图像;
根据所述表格版式信息获取样本表格对应的样本框线分割图像,并将所述样本框线分割图像作为所述样本表格图像的标注内容,得到训练样本集;
根据训练样本集中样本表格图像对表格框线分割模型,得到训练后的表格框线分割模型。
9.如权利要求8所述的表格识别重建方法,其特征在于,根据训练样本集中样本表格图像对表格框线分割模型,得到训练后的表格框线分割模型,包括:
从训练样本集中选择当前训练批次的多张样本表格图像;
获取当前批次的样本表格图像中非框线比例和框线比例;
根据所述非框线比例和所述框线比例对损失函数中框线类别权重、非框线类别权重进行调整,得到当前训练批次对应的损失函数;
根据所述当前训练批次的多张样本表格图像以及损失函数,对表格框线分割模型,得到训练后的表格框线分割模型。
10.如权利要求1所述的表格识别重建方法,其特征在于,在每个尺度的反卷积层对上一层输出的图像特征进行反卷积运算,并将本层输出的反卷积图像特征、与相同尺度卷积层输出的卷积图像特征进行融合,得到框线分割图像,包括:
确定当前处理特征的反卷积层的当前尺度;
当所述当前尺度不为输出尺度时,在当前反卷积层对上一层输出的图像特征进行反卷积运算,并将本层输出的反卷积图像特征、与相同尺度卷积层输出的卷积图像特征进行融合,将融合后图像特征输入至下一层反卷积层;返回执行确定当前处理特征的反卷积层的当前尺度的步骤;
当所述当前尺度为输出尺度时,在当前反卷积层对上一层输出的图像特征进行反卷积运算;并将本层输出的反卷积图像特征、与相同尺度卷积层输出的卷积图像特征、以及其余尺度反卷积层输出的融合后图像特征进行融合,得到框线分割图像。
11.如权利要求1所述的表格识别重建方法,其特征在于,获取待识别的表格图像,包括:
实时采集表格预览图像;
对当前采集到的表格预览图像进行表格框线预分割,得到框线分割预览图像;
从所述框线分割预览图像中预检测预览表格框线,得到预览表格框线的位置信息,所述预览表格框线包括表格行线和表格列线;
根据所述预览表格框线的位置信息在预览界面中绘制显示相应的预览表格框线;
当检测到用户针对预览界面的图像确认操作时,根据当前采集到的表格预览图像获取待识别的表格图像。
12.如权利要求11所述的表格识别重建方法,其特征在于,根据当前采集到的表格预览图像获取待识别的表格图像,包括:
在所述当前采集到的表格预览图像中确定待识别区域;
在表格识别界面显示所述表格预览图像、并标记所述待识别区域;
基于用户针对所述表格识别界面的区域调整操作,对所述待识别区域进行调整,得到调整后区域;
当检测到用户针对所述表格识别界面的识别确认操作时,根据所述调整后区域从所述表格预览图像中提取相应的表格区域图像,得到待识别的表格图像。
13.一种表格识别重建装置,其特征在于,包括:
图像获取单元,用于获取待识别的表格图像;
图像分割单元,用于采用表格框线分割模型对所述表格图像进行表格框线分割,得到框线分割图像,所述表格框线分割模型由标记了样本框线分割图像的样本表格图像训练而成;所述表格框线分割模型包括卷积网络和反卷积网络,所述卷积网络包括多个尺度的卷积层;所述反卷积网络包括多个尺度的反卷积层;所述采用表格框线分割模型对所述表格图像进行表格框线分割,得到框线分割图像,包括:将所述表格图像输入至所述卷积网络;在每个尺度的卷积层对上一层输出的图像特征进行卷积运算,得到所述卷积网络的输出结果;将所述卷积网络的输出结果输入至所述反卷积网络;在每个尺度的反卷积层对上一层输出的图像特征进行反卷积运算,并将本层输出的反卷积图像特征、与相同尺度卷积层输出的卷积图像特征进行融合,得到所述框线分割图像;
检测单元,用于从所述框线分割图像中检测表格行线和表格列线,得到表格行线和表格列线的位置信息;
信息获取单元,用于根据所述表格行线和表格列线的位置信息获取表格的单元格结构信息;
表格生成单元,用于根据所述表格行线的位置信息、所述表格列线的位置信息以及所述单元格结构信息生成相应格式的电子表格文件。
14.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至12任一项所述的表格识别重建方法中的步骤。
15.一种网络设备,其特征在于,包括:存储器,存储有应用程序;处理器,读取存储器存储的应用程序,以执行权利要求1至12任一项所述的表格识别重建方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811130207.5A CN110163198B (zh) | 2018-09-27 | 2018-09-27 | 一种表格识别重建方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811130207.5A CN110163198B (zh) | 2018-09-27 | 2018-09-27 | 一种表格识别重建方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110163198A CN110163198A (zh) | 2019-08-23 |
CN110163198B true CN110163198B (zh) | 2022-03-08 |
Family
ID=67645072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811130207.5A Active CN110163198B (zh) | 2018-09-27 | 2018-09-27 | 一种表格识别重建方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110163198B (zh) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110633660B (zh) * | 2019-08-30 | 2022-05-31 | 盈盛智创科技(广州)有限公司 | 一种文档识别的方法、设备和存储介质 |
CN111989692A (zh) * | 2019-09-30 | 2020-11-24 | 北京市商汤科技开发有限公司 | 表单识别方法、表格提取方法及相关装置 |
WO2021062896A1 (zh) * | 2019-09-30 | 2021-04-08 | 北京市商汤科技开发有限公司 | 表单识别方法、表格提取方法及相关装置 |
CN110929561B (zh) * | 2019-10-11 | 2024-04-12 | 平安科技(深圳)有限公司 | 表格文本智能过滤方法、装置及计算机可读存储介质 |
CN110738219A (zh) * | 2019-10-15 | 2020-01-31 | 腾讯科技(深圳)有限公司 | 图像中线条提取方法和装置、存储介质及电子装置 |
CN110738030A (zh) * | 2019-10-17 | 2020-01-31 | 上海眼控科技股份有限公司 | 表格重建方法、装置、电子设备及存储介质 |
CN110909733A (zh) * | 2019-10-28 | 2020-03-24 | 世纪保众(北京)网络科技有限公司 | 基于ocr图片识别的模版定位方法、装置和计算机设备 |
CN110807404A (zh) * | 2019-10-29 | 2020-02-18 | 上海眼控科技股份有限公司 | 基于深度学习的表格线检测方法、装置、终端、存储介质 |
CN111241365B (zh) * | 2019-12-23 | 2023-06-30 | 望海康信(北京)科技股份公司 | 表格图片解析方法及系统 |
CN113627143B (zh) * | 2020-05-09 | 2024-02-02 | 北京金山数字娱乐科技有限公司 | 一种表格创建方法、装置、电子设备及存储介质 |
CN111797685B (zh) * | 2020-05-27 | 2022-04-15 | 贝壳找房(北京)科技有限公司 | 表格结构的识别方法及装置 |
CN111639637B (zh) * | 2020-05-29 | 2023-08-15 | 北京百度网讯科技有限公司 | 表格识别方法、装置、电子设备和存储介质 |
CN111695553B (zh) * | 2020-06-05 | 2023-09-08 | 北京百度网讯科技有限公司 | 表格识别方法、装置、设备和介质 |
CN111709338B (zh) * | 2020-06-08 | 2024-02-27 | 苏州超云生命智能产业研究院有限公司 | 一种用于表格检测的方法、装置及检测模型的训练方法 |
CN111444689B (zh) * | 2020-06-17 | 2020-10-09 | 广州市玄武无线科技股份有限公司 | 一种基于数据的表格合并单元格的方法及系统 |
CN111860502A (zh) * | 2020-07-15 | 2020-10-30 | 北京思图场景数据科技服务有限公司 | 图片表格的识别方法、装置、电子设备及存储介质 |
CN111881883A (zh) * | 2020-08-10 | 2020-11-03 | 晶璞(上海)人工智能科技有限公司 | 一种基于卷积特征提取与形态学处理的表格文档提取方法 |
CN111985506A (zh) * | 2020-08-21 | 2020-11-24 | 广东电网有限责任公司清远供电局 | 一种图表信息提取方法、装置和存储介质 |
CN112016557B (zh) * | 2020-08-26 | 2022-05-24 | 深圳致宇智能商业有限公司 | 一种表格干扰线去除方法 |
CN111985459B (zh) * | 2020-09-18 | 2023-07-28 | 北京百度网讯科技有限公司 | 表格图像校正方法、装置、电子设备和存储介质 |
CN112183038A (zh) * | 2020-09-23 | 2021-01-05 | 国信智能系统(广东)有限公司 | 一种表格识别套打方法、计算机设备及计算机可读存储介质 |
CN112257598A (zh) * | 2020-10-22 | 2021-01-22 | 北京字跳网络技术有限公司 | 图像中四边形的识别方法、装置、可读介质和电子设备 |
CN112241730A (zh) * | 2020-11-21 | 2021-01-19 | 杭州投知信息技术有限公司 | 一种基于机器学习的表格提取方法和系统 |
CN113065396A (zh) * | 2021-03-02 | 2021-07-02 | 国网湖北省电力有限公司 | 基于深度学习的扫描档案图像的自动化归档处理系统及方法 |
CN113297308B (zh) * | 2021-03-12 | 2023-09-22 | 贝壳找房(北京)科技有限公司 | 表格结构化信息提取方法、装置及电子设备 |
CN113139457A (zh) * | 2021-04-21 | 2021-07-20 | 浙江康旭科技有限公司 | 一种基于crnn的图片表格提取方法 |
CN113420669B (zh) * | 2021-06-24 | 2022-05-10 | 武汉工程大学 | 基于多尺度训练和级联检测的文档版面分析方法和系统 |
CN113591746A (zh) * | 2021-08-05 | 2021-11-02 | 上海金仕达软件科技有限公司 | 一种文档表格结构检测方法及装置 |
CN113743253A (zh) * | 2021-08-17 | 2021-12-03 | 山东师范大学 | 一种基于深度图像分割的表格行列识别方法及系统 |
CN113505762B (zh) * | 2021-09-09 | 2021-11-30 | 冠传网络科技(南京)有限公司 | 一种表格识别方法和装置、终端及存储介质 |
CN113792677B (zh) * | 2021-09-17 | 2023-10-17 | 日立楼宇技术(广州)有限公司 | 一种表格识别方法、装置、计算机设备和存储介质 |
CN113723362A (zh) * | 2021-09-27 | 2021-11-30 | 上海合合信息科技股份有限公司 | 一种在图像中检测表格线的方法及装置 |
CN114119410B (zh) * | 2021-11-19 | 2022-04-22 | 航天宏康智能科技(北京)有限公司 | 校正畸变表格图像中的单元格的方法及装置 |
CN115273111B (zh) * | 2022-06-27 | 2023-04-18 | 北京互时科技股份有限公司 | 一种无模板识别图纸材料表的装置 |
CN116259064A (zh) * | 2023-03-09 | 2023-06-13 | 北京百度网讯科技有限公司 | 表格结构识别方法、表格结构识别模型的训练方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4974920A (en) * | 1989-04-17 | 1990-12-04 | General Electric Company | Electronic holographic apparatus |
EP1014268A2 (en) * | 1998-12-23 | 2000-06-28 | Tera Computer Company | RAM configurable redundancy |
JP2001273072A (ja) * | 2000-03-27 | 2001-10-05 | Seiko Epson Corp | 表データ作成システム、表データ作成方法、及び表データを作成するためのプログラムを記録した記録媒体 |
CN201638471U (zh) * | 2010-01-08 | 2010-11-17 | 於建平 | 学生用万年日历 |
CN102710882A (zh) * | 2011-03-28 | 2012-10-03 | 富士施乐株式会社 | 图像处理设备和图像处理方法 |
CN104318231A (zh) * | 2014-10-15 | 2015-01-28 | 南通北城科技创业管理有限公司 | 一种选票图像快速定位的方法 |
CN106156761A (zh) * | 2016-08-10 | 2016-11-23 | 北京交通大学 | 面向移动终端拍摄的图像表格检测与识别方法 |
CN108334486A (zh) * | 2018-01-19 | 2018-07-27 | 广州视源电子科技股份有限公司 | 表格控制方法、装置、设备及存储介质 |
CN108537146A (zh) * | 2018-03-22 | 2018-09-14 | 五邑大学 | 一种印刷体与手写体混合文本行提取系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020178183A1 (en) * | 2001-04-10 | 2002-11-28 | Uwe Meding | Data extraction method and apparatus |
-
2018
- 2018-09-27 CN CN201811130207.5A patent/CN110163198B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4974920A (en) * | 1989-04-17 | 1990-12-04 | General Electric Company | Electronic holographic apparatus |
EP1014268A2 (en) * | 1998-12-23 | 2000-06-28 | Tera Computer Company | RAM configurable redundancy |
JP2001273072A (ja) * | 2000-03-27 | 2001-10-05 | Seiko Epson Corp | 表データ作成システム、表データ作成方法、及び表データを作成するためのプログラムを記録した記録媒体 |
CN201638471U (zh) * | 2010-01-08 | 2010-11-17 | 於建平 | 学生用万年日历 |
CN102710882A (zh) * | 2011-03-28 | 2012-10-03 | 富士施乐株式会社 | 图像处理设备和图像处理方法 |
CN104318231A (zh) * | 2014-10-15 | 2015-01-28 | 南通北城科技创业管理有限公司 | 一种选票图像快速定位的方法 |
CN106156761A (zh) * | 2016-08-10 | 2016-11-23 | 北京交通大学 | 面向移动终端拍摄的图像表格检测与识别方法 |
CN108334486A (zh) * | 2018-01-19 | 2018-07-27 | 广州视源电子科技股份有限公司 | 表格控制方法、装置、设备及存储介质 |
CN108537146A (zh) * | 2018-03-22 | 2018-09-14 | 五邑大学 | 一种印刷体与手写体混合文本行提取系统 |
Non-Patent Citations (2)
Title |
---|
A closed-form solution for paraperspective reconstruction;Etienne Grossmann等;《Proceedings 15th International Conference on Pattern Recognition》;20001231;第864-867页 * |
印刷体表格识别的研究;刘昱;《中国优秀博硕士学位论文全文数据库(硕士)(信息科技辑)》;20140415;第I138-979页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110163198A (zh) | 2019-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163198B (zh) | 一种表格识别重建方法、装置和存储介质 | |
CN110532984B (zh) | 关键点检测方法、手势识别方法、装置及系统 | |
US10810454B2 (en) | Apparatus, method and program for image search | |
CN110598610B (zh) | 一种基于神经选择注意的目标显著性检测方法 | |
CN106447721B (zh) | 图像阴影检测方法和装置 | |
CN105678347A (zh) | 行人检测方法及装置 | |
CN111523414A (zh) | 人脸识别方法、装置、计算机设备和存储介质 | |
CN111553923B (zh) | 一种图像处理方法、电子设备及计算机可读存储介质 | |
CN112752158B (zh) | 一种视频展示的方法、装置、电子设备及存储介质 | |
CN109492576A (zh) | 图像识别方法、装置及电子设备 | |
CN111461070B (zh) | 文本识别方法、装置、电子设备及存储介质 | |
CN111597845A (zh) | 一种二维码检测方法、装置、设备及可读存储介质 | |
CN114067339A (zh) | 图像识别方法及其装置、电子设备、计算机可读存储介质 | |
CN112801911A (zh) | 一种去除自然图像中文字类噪声的方法及装置、存储介质 | |
CN112734747A (zh) | 一种目标检测方法、装置、电子设备和存储介质 | |
CN111062924A (zh) | 图像处理方法、装置、终端和存储介质 | |
CN109886865A (zh) | 自动屏蔽不良信息的方法、装置、计算机设备以及存储介质 | |
CN114255493A (zh) | 图像检测方法、人脸检测方法及装置、设备及存储介质 | |
CN113591858A (zh) | 一种文本识别方法、装置、电子设备和存储介质 | |
CN108171149B (zh) | 一种人脸识别方法、装置、设备及可读存储介质 | |
Wang et al. | MobileSky: Real-Time Sky Replacement for Mobile AR | |
CN116740721B (zh) | 手指查句方法、装置、电子设备及计算机存储介质 | |
CN110222207B (zh) | 图片的整理方法、装置和智能终端 | |
CN116958164A (zh) | 一种图像处理方法、装置、电子设备和存储介质 | |
CN117036178A (zh) | 一种图像修复方法、装置、计算机设备、介质及程序 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |