CN114529773A - 基于结构单元的表格识别方法、系统、终端及介质 - Google Patents
基于结构单元的表格识别方法、系统、终端及介质 Download PDFInfo
- Publication number
- CN114529773A CN114529773A CN202011188084.8A CN202011188084A CN114529773A CN 114529773 A CN114529773 A CN 114529773A CN 202011188084 A CN202011188084 A CN 202011188084A CN 114529773 A CN114529773 A CN 114529773A
- Authority
- CN
- China
- Prior art keywords
- structural unit
- document
- structural
- identifying
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于结构单元的表格识别方法及系统,包括:对文档中表格的结构单元进行识别;基于获取的所述结构单元,对表格进行表格空间结构确定;对文档进行文字检测与识别,并将识别得到的所述文字内容填放到确定的所述表格空间结构中对应的所述结构单元中,对表格进行重建,完成表格识别。本发明同时提供了一种相应的终端及存储介质。本发明提供的基于结构单元的表格识别方法、系统、终端及介质,利用表格中的结构单元有明显的局部空间特征和局部语义特征的特点,直接识别文档中表格的结构单元,无需检测表格线或者表格分隔行列,处理过程简单、准确和高效,同时适用于具有完全表格线和非完全表格线等多种类型的表格情况。
Description
技术领域
本发明涉及表格识别技术领域,具体地,涉及一种基于结构单元的表格识别方法、系统、终端及介质。
背景技术
随着时代的发展,对环保和资源节约等方面的重视,无纸化办公成为当前数字化办公方面的发展热点。采用图文识别可以将图片文字映射入一个可编辑的文档中,以代替繁杂的人工导入,节约人力成本。在图文识别的过程中,需要力求识别的准确性。
传统的方法确定表格的结构,主要采用确定表格中水平和垂直表格线的方法,通过检测到的表格线对表格进行分割,确定基本的表格结构单元,然后对表格结构单元中的文字进行识别。但是上述方法存在诸多弊端,例如依赖于表格线检测的方法,没有利用表格的局部空间特征,在图像不是很清晰或者图像有倾斜时,线检测准确率不高,另外基于检测线的方法无法适应非完全表格线表格。
经过检索发现:
公开号为CN104094282A的中国发明专利申请《无边框表格检测引擎》,公开了一种用于标识出现在从固定格式文档提取的数据中的无边框表格的无边框表格检测引擎和相关联的方法。由于缺乏可视的边框,对无边框表格的可信赖的自动化检测是困难的。无边框表格检测引擎使用空白区而非内容来检测无边框表格候选。通过应用试探法分析,无边框表格检测引擎丢弃具有缺乏表格的足够特征且不可能是有效的无边框表格的布局的无边框表格候选。上述方案通过表格中相互垂直交叠的空白区域来确定列分割符和行分割符,与行贯穿线和列贯穿线类似,再用分割符来划分表格结构单元。由于该方案采用空白区域而非表格线或者内容来检测表格和划分表格结构单元,可以用来处理无边框表格,但是该方法受表格中空白区域的宽度影响很大,而且确定空白区域以及划分表格结构单元采用非人工智能的方法,受很多预设的固定参数的影响很大,方法的性能和普适性都相对较差。
公开号为CN110532834A的中国发明专利申请《基于富文本格式文档的表格提取方法、装置、设备和介质》,公开了:获取页面内容;通过预设表格检测模型,对页面内容进行表格检测处理,得到表格标签列表,以及得到第一表格内容;依据预设画贯穿线模型,对第一表格内容进行画贯穿线处理,得到惯穿线标签列表,以及得到第二表格内容;基于预设单元表格合并模型,对第二表格内容进行表格单元合并处理,得到短线标签列表,以及得到显性表格内容。根据该方案,通过预先训练出预设表格检测模型、预设画贯穿线模型和预设单元表格合并模型的这3个模型,以得到显性表格内容。上述方案通过检测表格的行贯穿线和列贯穿线,来确定表格单元格以及表格结构,采取了额外的处理,而且在确定贯穿线和合并单元格的过程都很容易出错,尤其容易受到表格线倾斜和变形的影响而导致确定表格单元和表格结构的准确率严重下降。
公开号为CN109993112A的中国发明专利申请《图片中表格的识别方法及装置》,公开了:识别所有表格区域中单元格的线条;识别所述表格区域中的文字区域;将识别出的单元格的线条和识别出的全部文字区域相结合,确定所述表格区域的单元格,并对所述表格区域的单元格进行重制;将每个单元格区域进行切分,识别出每个单元格区域中的字符内容;将识别出的字符内容填入到重制后的单元格中,形成识别后的表格。上述方案,单元格是指表格中有线的闭合区域。目标是利用检测和识别表格区域中所有有线单元格获取单元格的线条而非单元格本身,并且将单元格的线条和识别出的全部文字区域位置结合,补齐没检测到的线条,修正错误识别的线条,然后根据线条重新确定所述表格区域的单元格。在该方案中,只针对有线表格提取单元格的线条,不能应用到不完全线表格和无线表格中。另外该方案需要根据文字位置来补齐线条和调整线条,在图像不清晰、文字比较密集的情况,由于文字定位会带来很多错误,从而导致单元格重构出错率高。此外,当表格存在大量空单元格时,无法利用文字区域位置信息进行线的修正。因此该方案操作较复杂、性能不稳定,在图像不清晰文字较密时出错率高,而且不能应用于不完全线表格和无线表格的识别。
公开号为CN108416279A的中国发明专利《文档图像中的表格解析方法及装置》公开了:利用预先训练的表格检测模型,检测出待解析文档图像中的表格区域;利用预先训练的文字检测模型,检测出该表格区域中所包含的内部文字块;确定表格的空间结构;以及根据所确定的表格的空间结构对每个单元格中的文字块进行文字识别,从而解析得到可编辑的结构化数据。确定表格的空间结构是该方案的重点,而确定表格的空间结构时,必须先对文字区域进行检测,然后基于文字区域的位置进行行聚类和列聚类,进而获得文字块的行列号实现结构化。首先该方法是传统方法非深度学习模型方法,另外该方法基于单行文字区域位置信息进行行列结构化而不是基于结构单元,较小的图像倾斜都会对行列结构化影响很大。虽然该方法不依赖于线,可以应用于完全表格线表格和非完全表格线表格。但是由于该方法只利用单一文字位置信息,没有考虑结构单元所包含的空间特征信息,因此它只适用于具有简单结构的表格,对一个结构单元中包含多行文字的情况则很难处理,对跨行跨列的复杂表格很难处理。另外,该方法的行列化依赖文字区域检测,当图像不是很清晰时,文字区域检测错误将严重影响行列化的准确率。总体来说,该方法对倾斜图像、图像不清晰、文字密集文字检测效果不好、包含多行文字等复杂结构的表格,识别准确率低。
综上所述,现有的表格识别技术,对于非完全表格线表格(例如无表格线、部分表格线或者表格线不清楚的表格),确定主要依靠文字区域的识别,这种方法对表格图像质量和表格结构要求高且识别准确率低;对于有全部表格线的表格,主要依靠对单元格线条的识别进而实现对表格单元格的确认,这种方法操作较复杂、性能不稳定且准确率低;因此,现有的表格识别技术,无法真正满足日益增长的表格识别要求,目前没有发现同本发明类似技术的说明或报道,也尚未收集到国内外类似的资料。
发明内容
本发明针对现有技术中存在的上述不足,提供了一种基于结构单元的表格识别方法、系统、终端及介质。
根据本发明的一个方面,提供了一种基于结构单元的表格识别方法,包括:
对文档中表格的结构单元进行识别;
基于获取的所述结构单元,进行表格空间结构确定;
对文档进行文字检测与识别,并将识别得到的所述文字内容填放到确定的所述表格空间结构中对应的所述结构单元中,对表格进行重建,完成表格识别。
优选地,所述对文档中表格的结构单元进行识别,包括:
对于给定的文档中的表格,利用预训练的表格结构单元检测模型,基于图像特征,将文档中表格的结构单元视为图像目标进行识别,记录识别到的结构单元及其对应的结构单元信息。
优选地,所述表格结构单元检测模型,基于深度学习的目标检测网络构建得到;所述预训练的过程包括:
获取表格图像,并对获取的所述表格图像进行预处理;
基于预处理后的表格图像建立表格结构单元检测模型样本;
根据建立的所述样本,训练表格结构单元检测模型,完成模型训练。
优选地,所述预训练过程还包括如下任一项或任意多项:
在所述表格结构单元检测模型中添加整张表格的全局图像特征;
在所述表格结构单元检测模型中基于图像特征进行行池化和列池化;
采用软化的非最大抑制方法或基于混合高斯模型和检测目标合并方法,对所述表格结构单元检测模型进行目标候选框处理。
优选地,所述文档中的表格包括:完全表格线表格和非完全表格线表格;当识别到的表格为完全表格线表格时,所述结构单元为完全表格线表格中的矩形线框单元;当识别到的表格为非完全表格线表格时,所述结构单元为非完全表格线表格中按语义理解的表格最小单元。
优选地,所述结构单元信息,包括:每一个所述结构单元的区域位置信息和置信度信息;其中:
所述区域位置信息,用于表示所述结构单元在文档中的位置;
所述置信度信息,为每一个所述结构单元的附属概率信息,用于表示所述结构单元识别结果的准确度。
优选地,所述区域位置信息的确定方法,包括:通过所述结构单元的四个顶点坐标确定或通过所述结构单元的中心点及长宽值确定。
优选地,所述对文档中表格的结构单元进行识别,还包括:
对识别到的结构单元进行后处理,包括:
利用表格的完整性,补齐漏检的结构单元,对齐结构单元位置。
优选地,所述对文档进行文字检测与识别的方法,包括:
采用深度学习检测模型,对文档中的文字进行文字块检测;
利用预训练的文字识别模型,识别文字块中所有的文字内容和相应的位置,然后根据位置,将文字内容填放到确定的所述表格空间结构中对应的结构单元中。
优选地,所述对文档中的文字内容进行识别的方法,包括:
将文档中表格的结构单元对应区域的影像截取出来,采用深度学习检测模型,对影像中的文字进行文字块检测;
利用预训练的文字识别模型识别文字块中的文字内容,然后填放到确定的所述表格空间结构中对应的结构单元中。
优选地,所述文档中的表格为一个或多个。
优选地,所述文档为图像文档。
优选地,在对文档中表格的结构单元进行识别前,还包括:
获取文档中的表格区域,进而基于表格区域,对表格的结构单元进行识别。
优选地,采用预训练的表格识别模型,对文档图像中的表格区域进行识别,获取文档图像中的一个或多个表格区域。
优选地,还包括如下任意一项或任意多项:
-对于每一个识别到的表格区域,输出对应的区域信息;
-对识别到的表格区域进行预处理,包括:倾斜角度矫正和/或图片尺寸调整。
根据本发明的第二个方面,提供了一种基于结构单元的表格识别系统,包括:
表格结构单元检测模块,对文档中表格的结构单元进行识别;
表格空间结构确定模块,对获取的所述结构单元进行表格空间结构确定;
表格重建模块,对文档中的文字内容进行识别,并将识别的所述文字内容填方到确定的所述表格空间结构中对应的所述结构单元中,对表格进行重建,完成表格识别。
根据本发明的第三个方面,提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述任一项所述的方法。
根据本发明的第四个方面,一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行上述任一项所述的方法。
由于采用了上述技术方案,与现有技术相比,本发明具有如下有益效果:
1、本发明提供的基于结构单元的表格识别方法、系统、终端及介质,利用表格中的结构单元有明显的局部空间特征和局部语义特征的特点,通过直接对表格的结构单元进行识别,避免了现有方法中需要建立表格行和列分割线的中间过程以及建立表格行和列分割线存在的不准确和不稳定的问题,避开对表格线的检测处理,识别过程简单、准确和高效,效果良好,可以适用于完全表格线表格和非完全表格线表格的多种类型的表格识别;表格识别可以不受表格倾斜和扭曲的影响,可以快速准确地重建表格。
2、本发明提供的基于结构单元的表格识别方法、系统、终端及介质,对于无线表格、线不完整表格,通过直接确定表格结构单元,无需依赖文字区域位置信息,对表格图像质量和表格结构没有要求,可以准确重建包括具有多行文字、跨行跨列等任意情况下的非全线表格。
3、本发明提供的基于结构单元的表格识别方法、系统、终端及介质,通过针对表格的结构单元的特征,对深度学习模型进行改进(例如特征添加、池化、目标候选框处理等),能够更好地检测表格的结构单元和更准确地重建表格。
4、本发明提供的基于结构单元的表格识别方法、系统、终端及介质,针对表格的结构单元目标的长宽比可能过大导致目标检测不准确的问题,对深度学习模型进行改进,尤其是在行/列池化以及检测结构单元的四个顶点方面,从而更有效检测表格以及能适应旋转的表格和结构单元。
5、本发明提供的基于结构单元的表格识别方法、系统、终端及介质,直接通过目标检测的方法确定文档中表格的结构单元,不需要识别结构单元格线条和文字区域,然后根据结构单元格重制表格,该方法简单有效,准确率高。
实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例中基于结构单元的表格识别方法流程图;
图2为本发明一优选实施例中表格结构单元检测模型训练过程流程图;
图3为本发明一优选实施例中有表格线表格的结构单元识别示例图;其中,(a)为原始文档,(b)为识别后文档;
图4为本发明一优选实施例中表格线很少表格的结构单元识别示例图;其中,(a)为原始文档,(b)为识别后文档;
图5为本发明一优选实施例中结构简单表格的空间结构确定示例图;其中,(a)为原始文档,(b)为确定后文档;
图6为本发明一优选实施例中基于结构单元的表格识别方法流程图;
图7为本发明一实施例中基于结构单元的表格识别系统的组成模块示意图。
具体实施方式
下面对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
图1为本发明一实施例中基于结构单元的表格识别方法流程图,该方法直接通过目标检测的方法确定文档中表格的结构单元,不需要识别单元格线条和文字区域,然后根据单元格重制表格,该方案简单有效,准确率高。
如图1所示,该实施例提供的基于结构单元的表格识别方法,可以包括以下步骤:
S100,对文档中表格的结构单元进行识别;
S200,基于获取的所述结构单元,进行表格空间结构确定;
S300,对文档进行文字检测与识别,并将识别得到的所述文字内容填放到确认的所述表格空间结构中对应的所述结构单元中,对表格进行重建,完成表格识别。
本发明上述实施例,直接对表格的结构单元进行识别,识别过程简单、准确和高效,效果良好,可以快速准确地重建表格。
上述实施例的S100中,对文档中表格的结构单元进行识别,可以优选包括如下步骤:
S101,对于给定的文档中的表格,利用预训练的表格结构单元检测模型,基于图像特征,将文档中表格的结构单元视为图像目标进行识别,记录识别到的结构单元及其对应的结构单元信息。
在一具体实施例中,图像特征为整张表格的全局图像特征,其中包含了单个结构单元的图像特征。检测结构单元时,由于不能清楚知道结构单元的位置等信息,因此首先根据整张表格中不同位置的特征,区分/检测(识别)出各个结构单元。
作为一优选实施例,表格结构单元检测模型,基于深度学习的目标检测网络构建得到;如图2所示,预训练的过程可以包括如下步骤:
S1011,获取表格图像,并对获取的所述表格图像进行预处理;
S1012,基于预处理后的表格图像建立表格结构单元检测模型样本;
S1013,根据建立的所述样本,训练表格结构单元检测模型,完成模型训练。
作为一优选实施例,预训练过程还可以包括如下任一项或任意多项:
-在所述表格结构单元检测模型中添加整张表格的全局图像特征;
-在所述表格结构单元检测模型中基于图像特征进行行池化和列池化;
-采用软化的非最大抑制方法或基于混合高斯模型和检测目标合并方法,对所述表格结构单元检测模型进行目标候选框处理。
作为一优选实施例,所述文档中的表格包括:完全表格线表格和非完全表格线表格;当识别到的表格为完全表格线表格时,所述结构单元为完全表格线表格中的矩形线框单元,如图3中(a)和(b)所示;当识别到的表格为非完全表格线表格时,所述结构单元为非完全表格线表格中按语义理解的表格最小单元,如图4中(a)和(b)所示。
进一步地,非完全表格线表格包括:部分表格线表格和无表格线表格。
作为一优选实施例,所述结构单元信息,包括:每一个所述结构单元的区域位置信息和置信度信息;其中:
所述区域位置信息,用于表示所述结构单元在文档中的位置;
所述置信度信息,为每一个所述结构单元的附属概率信息,用于表示所述结构单元识别结果的准确度。
作为一优选实施例,所述区域位置信息的确定方法,包括:通过所述结构单元的四个顶点坐标确定或通过所述结构单元的中心点及长宽值确定。
作为一优选实施例,所述对文档中表格的结构单元进行识别,还可以优选包括如下步骤:
S102,对识别到的结构单元进行后处理,包括:
利用表格的完整性,补齐漏检的结构单元,对齐结构单元位置。
上述实施例的S200中,对获取的所述结构单元进行表格空间结构确定的方法,可以采用结构单元行相交和列相交的方法或其他任意能够实现该表格空间结构确定的现有方法,此处不再赘述。确定结果如图5中(a)和(b)所示。
其中:
结构单元行相交和列相交的方法,具体为:
步骤1:根据结构单元区域的四个顶点位置信息,向Y方向进行投影,投影相交面积大于某个阈值的结构单元组成一行;
步骤2:根据结构单元区域的四个顶点位置信息,向X方向进行投影,投影相交面积大于某个阈值的结构单元组成一列;
步骤3:重复上述步骤直到所有结构单元的初始行列号以及每行每列包含的结构单元信息。
该结构单元行相交和列相交的方法,还可以包括以下步骤,下面的步骤能够适应跨行跨列的复杂表空间结构:
步骤4:对上述结果中的每一行,去掉Y方向上投影最大的一些结构单元,对该行剩余的结构单元重复步骤1进行相交行化,如果只有一行,不需特殊处理。如果得到多行,则说明存在跨行的情况,继续重复步骤4,直到剩下的结构单元行化后都是一行。记录下每个结构单元对应的内部行号。
步骤5:对上述结果中的每一列,去掉X方向上投影最大的一些结构单元,对该列剩余的结构单元重复步骤2进行相交列化,如果只有一列,不需特殊处理。如果得到多列,则说明存在跨列的情况,继续重复步骤5,直到剩下的结构单元列化后都是一列。记录下每个结构单元对应的内部列号。
步骤6:根据步骤3获取的结构单元对应的初始行列号以及步骤4和步骤5获取的内部行列号,给结构单元重新分配在整个表格上的行列号。得到空间结构信息。
上述实施例的S300中,对文档进行文字检测与识别的方法,可以优选包括如下步骤:
S301a,采用深度学习检测模型,对文档中的文字进行文字块检测;
S302a,利用预训练的文字识别模型,识别文字块中所有的文字内容和相应的位置,然后根据位置,将文字内容填放到确认的所述表格空间结构中对应的结构单元中。
上述实施例的S300中,所述对文档中的文字内容进行识别的方法,还可以优选包括如下步骤:
S301b,将文档中表格的结构单元对应区域的影像截取出来,采用深度学习检测模型,对影像中的文字进行文字块检测;
S302b,利用预训练的文字识别模型识别文字块中的文字内容,然后填放到确认的所述表格空间结构中对应的结构单元中。
作为一优选实施例,所述文档中的表格为一个或多个。
作为一优选实施例,所述文档可以为word文档、PDF文档或图像文档等多种不同格式的文档;当文档为word文档或PDF文档时,可以先将文档转换为图像格式,以便进一步对文档中表格的格式单元进行识别。较优地,文档为图像文档。
作为一优选实施例,在对文档中表格的结构单元进行识别前,还可以优选包括如下步骤:
S000,获取文档中的表格区域,进而基于表格区域,对表格的结构单元进行识别。
上述S000中,可以优选采用预训练的表格区域识别模型,对文档图像中的表格区域进行识别,获取文档图像中的一个或多个表格区域。
上述S000中,还可以优选包括如下任意一项或任意多项:
-对于每一个识别到的表格区域,输出对应的区域信息;
-对识别到的表格区域进行预处理,包括:倾斜角度矫正和/或图片尺寸调整。
在本发明部分实施例中:
表格区域是指一张完整的表格,而表格的结构单元是指表格里面的一个最小单元,可以理解为是一个单元格。
表格空间结构是指一张表格的行列结构。
区域位置信息可以是能够表示这个区域在文档中的位置的任何形式,例如,可以用区域的顶点在文档中的坐标(绝对或相对坐标),也可以是区域的顶点的坐标和边长等。
进行表格空间结构确认的方法,可以采用简单的将结构单元左右和上下顶点相连的方法。
图6为本发明一优选实施例中基于表格结构单元的表格识别方法流程图。
如图6所示,本优选实施例提供的基于表格结构单元的表格识别方法,可以包括以下步骤:
S1,表格区域检测步骤:基于所述表格文档的影像和预先训练的表格识别模型,识别表格文档中的一个或者多个表格区域;
S2,表格结构单元检测步骤:利用预训练的深度学习表格结构单元检测模型基于图像特征检测出表格中的结构单元信息;
S3,表格空间结构确定步骤:根据结构单元检测步骤检测出的结构单元信息,确定表格的空间结构。
S4,表格文字识别步骤:利用预训练的文字检测模型和识别模型,对文档中的文字进行检测与识别;
S5,表格重建步骤:将识别的文字内容与表格空间结构对齐,重建表格。
进一步地,S1,可以包括如下步骤:
通过预训练好的模型检测图像的表格区域,对每个检测到的表格,根据模型检测的结果输出每个表格的区域位置信息及表格名称。
其中,区域位置可以是能够表示这个区域在文档影像中的位置的任何形式,例如,可以用区域的顶点在文档中的坐标(绝对或相对坐标),也可以是区域的顶点的坐标和边长等。
进一步地,S2,可以包括如下步骤:
S21,对于给定的表格,利用预训练的深度学习表格结构单元检测模型,将表格表格中的结构单元视为图像目标进行检测,记录检测到的结构单元对应的边界框的坐标信息。预训练的结构单元检测模型,可以检测有表格边框的结构单元,也可以检测没有表格边框的结构单元。表格的结构单元信息包括结构单元的区域位置信息和置信度信息等。
表格的结构单元的区域位置可以是能够表示这个区域在文档影像中的位置的任何形式,例如,可以用区域的顶点在文档中的坐标(绝对或相对坐标),也可以是区域的顶点的坐标和边长等。
S22,深度学习表格结构单元检测模型优化步骤:在深度学习表格结构单元检测模型增加整张表格的全局图像特征利用和/或增强特征提取:
设特征图像大小为h*w,
做行池化时:采用m*n的池化范围,其中m取值范围为[1,k1],n取值范围为[1,w],行池化取最大值,最小值或者平均值;
做列池化时:采用p*q的池化范围,其中p取值范围为[1,h],q取值范围为[1,k2],列池化取最大值,最小值或者平均值;k1和k2取值小于等于字高。
S23,可选的结构单元信息优化步骤:对深度学习表格结构单元检测模型检测到的表格的结构单元信息优化合并,将基于深度学习表格结构单元检测模型检测到的所有结构单元都转换为以结构单元中心为均值的图像上的二维高斯分布,将所有结构单元的高斯分布以从深度学习表格结构单元检测模型输出的结构单元信息的可信度加权相加,形成混合高斯分布,根据得到的混合高斯分布,选择出优化的结构单元信息。
进一步地,S3,可以包括如下步骤:
S31,在S2表格结构单元检测输出结果的基础上,利用完整排列规则的表格空间结构补齐漏检的表格的结构单元信息,对齐表格的结构单元信息的位置,确定表格的空间结构,记录改进后的表格的结构单元的位置信息。
进一步地,S4,可以包括如下步骤:
利用预训练的文字识别模型,对图像表格内的文字进行检测和识别,并输出检测和识别到的文字内容以及相应的文字的位置信息。
进一步地,S5,可以包括如下步骤:
利用上述步骤确定的表格的行列结构和相应的位置信息以及文字内容和相应的位置信息,将表格中的文字内容与表格行列结构对齐,将表格中的文字内容填放到表格的结构单元中,重构表格。
在本发明部分实施例中:
基于所述表格文档的影像和预先训练的表格识别模型,识别表格文档中的一个或者多个表格区域,完成表格区域检测步骤。
基于所述一个或者多个表格区域中的每个表格区域(或者任意给定表格)的影像、以及预先训练的单元格检测模型,识别每个表格区域中的所有结构单元区域,完成表格的结构单元检测步骤。
基于所述的每个表格区域的所有结构单元区域,确定每个表格区域的空间结构,完成表格空间结构确定。
基于所述的表格区域的表格空间结构以及预先训练的文字检测模型和文字识别模型,检测和识别表格中的文字内容,并将文字内容填放到表格空间结构相应的结构单元中,重建表格,完成表格重建步骤。
表格重建步骤,可以采取多种方法,包括:1)不考虑表格的空间结构,用文字检测/识别模型检测/识别文档中的文字内容和相应的位置,然后根据位置,将文字内容填放到表格空间结构中对应的结构单元中去;2)将表格对应的区域的影像截取出来,用文字检测/识别模型检测/识别结构单元中的文字内容,然后填放到表格空间结构中对应的结构单元。
本发明上述优选实施例提供的基于结构单元的表格识别方法,与传统的基于表格线进行表格识别的方式不同,主要是通过图像特征实现表格的识别,其中图像特征可以是表格中的语义、表格线、行列分隔区域、表格空间结构的任一项或任多项。首先利用深度学习表格结构单元检测模型基于图像特征检测出图像文档中表格的结构单元信息;再根据结构单元信息,确定表格空间结构。其中,图像文档中表格包括完全表格线表格和非完全表格线表格,当检测的是完全表格线表格时,表格的结构单元采用完全表格线表格中的矩形线框,当检测的是非完全表格线表格时,表格的结构单元采用按语义理解的表格最小单元。具体可参见图2和图3的示例。
进一步地,本发明上述优选实施例中,深度学习表格结构单元检测模型需要先进行模型训练,再进行检测。具体的,首先获取/生成表格图像,并对表格图像进行预处理,基于获取/生成的表格图像建立深度学习表格结构单元检测模型样本,根据所述样本训练深度学习表格结构单元检测模型,完成模型训练。基于深度学习的目标检测可以使用FasterRCNN、YOLO、Maskrcnn和SSD等模型。虽然深度学习目标检测在计算机视觉领域得到广泛应用,但是尚未出现应用深度学习技术检测表格中的结构单元的方法。检测表格的结构单元时,通过已经训练的深度学习表格结构单元检测模型获取待检测对象的结构单元。深度学习表格结构单元检测模型检测到的信息,包括每个结构单元的区域位置信息和置信度信息。区域位置信息可以通过四个顶点坐标或者区域中心点及长宽值确定。置信度信息,是深度学习表格结构单元检测模型输出的对于每一个检测到的结构单元的附属的概率信息,表示深度学习表格结构单元检测模型认为检测到的结构单元是正确的检测的程度,置信度的取值在0到1之间,数值越大,代表正确的程度越高。
检测到表格结构单元后,根据表格结构单元信息,确定表格空间结构。确定表格空间结构的方法,包括但不限于采用结构单元行相交和列相交的方法。
进一步地,得到表格空间结构后,通过文字检测与识别方法,输出文档中的文字信息。其中文字检测识别可以是对整个文档进行文字检测识别,如果具有表格区域检测步骤,则可以选择只对表格区域内的文字进行检测识别,输出文字位置和文字内容。可以是传统OCR识别方法也可以是深度学习方法。输出文本单字位置与内容有利于分配结构单元内的文本内容。也可以输出文本字段位置与内容,或者两者都选用。基于文字检测识别结果,可以利用文字位置和文本内容纠正结构单元的一些漏检和错检问题。
本发明上述优选实施例提出的方法,可以应用到其它具有结构单元的文档的识别,比如表单的识别。表格主要用于页面布局,统计和存放数据。表单是一种和表格类似的数据组织和管理的格式,包括文本框、多行文本框、密码框、复选框、单选框和下拉选择框等,主要用于采集用户的输入数据和搜集网上数据等。
下面结合具体实例,对本发明上述优选实施例所提供的技术方案进一步详细说明。
通常常规的深度学习目标检测模型检测的是自然世界的目标,比如行人,汽车,动物等,通常一幅图像中目标的个数比较少,且形状各异。但是在表格结构单元检测时,检测的目标是形状相对规则的长方形的结构单元,这些结构单元紧密相邻,排列有序,而且结构单元的数目可能很大。因此相对于常规的目标检测,表格的结构单元检测问题具有独特性。针对表格的结构单元检测的特定问题,对原始的深度学习目标检测模型进行改进,在原始深度学习模型中添加对整张表格的全局图像特征的利用,提高表格结构单元的检测性能。由于表格中同行或者同列的单元格具有很多关联和相似的特征,因此还可以进一步在原始深度学习目标检测模型中添加基于长条形的行池化和列池化,增强特征提取,提高结构单元检测的性能。
下面以长条形的池化方法为例进行说明:
假设特征图像大小为h*w,
步骤a.做行池化时:采用m*n的池化范围,其中m取值范围为[1,k1],n取值范围为[1,w],池化可以是但不限于取最大值,最小值或者平均值。
步骤b.做列池化时:采用p*q的池化范围,其中p取值于[1,h],q取值于[1,k2],池化可以是但不限于取最大值,最小值或者平均值。
上述操作中,k1与k2可以相同,也可以不同;k1,k2一般取不大于字高。
针对表格中可能有密集、紧密相接的结构单元,可以通过适合表格的目标检测模型进行目标候选框的处理,包括软化的非最大抑制(soft-NMS)方法和基于混合高斯模型和检测目标合并方法。以基于混合高斯模型和检测目标合并方法为例:将基于深度学习技术检测到的所有结构单元都转换为以结构单元中心为均值的图像上的二维高斯分布,将所有结构单元的高斯分布以从深度学习模型输出的结构单元的可信度加权相加,形成一个混合高斯分布。根据得到的混合高斯分布,选择出一定数目的优化的结构单元,从而减少误检和结构单元过多重叠的问题。
在进行结构单元的检测之前,可以先进行表格区域检测,具体如下:
利用预训练好的模型对单张图像进行表格区域检测。对每个检测到的表格,根据模型检测的结果输出每个表格的区域位置信息及可选的表格名称。
其中每个表格的区域位置和表格名称的区域位置可通过多边形表示。
进一步地,可以对检测到的表格进行预处理操作,比如表格倾斜角度矫正和图片大小调整等。
在确定表格结构之前,可以通过如下步骤对检测的结构单元进行后处理,包括:利用表格的完整性补齐漏检的结构单元,对齐结构单元位置。
表格里面的文字检测与识别,可以通过基于深度学习模型的全文本检测与识别方法,检测和识别出表格中所有的文字块和位置。检测表格中文字块,有多种深度学习模型,包括EAST(Efficient and Accuracy Scene Text detection pipeline)模型、CTPN模型、旋转区域候选网络(RRPN)模型、FTSN(Fused Text Segmentation Networks)模型。以EAST模型为例,它首先使用全卷积网络(FCN)生成多尺度融合的特征图,然后在此基础上直接进行像素级的文本块预测。EAST模型中,支持旋转矩形框、任意四边形两种文本区域标注和检测模式。对于表格中文字块检测,采用旋转矩形框检测模式,模型执行时会对特征图中每个像素预测其到矩形框四边的距离、以及矩形框的方向角,输出检测到的文字块矩形框的四个顶点的坐标和矩形框的旋转角度。在得到文字块的坐标和旋转角度后,可以调整得到水平的文字块,从图片中截取出水平的文字块部分图片,输入到识别文字的深度学习模型,可以得到文字块中的文字内容。识别文字的深度学习模型,主要有基于CRNN+CTC的模型和基于注意力机制的模型。
利用上述步骤确定的表格的行列结构和相应的位置信息以及文字内容和相应的位置信息,将表格中的文字内容与表格行列结构对齐,将表格中的文字内容填放到表格结构单元中,重建表格。
下面以图3中的示例为例,通过本发明上述实施例所提供的基于结构单元的表格识别方法,完成结构单元检测步骤、表格空间结构确定步骤以及文字识别输出步骤后,得到的重建的表格如下表所示:
由此可知,本发明上述实施例所提供的基于结构单元的表格识别方法,可以有效识别文档中表格,表格识别可以不受表格倾斜和扭曲的影响,可以快速准确地重建表格,简单有效,准确率高。
本发明第二个实施例提供了一种基于结构单元的表格识别系统,如图7所示,可以包括:表格结构单元检测模块、表格空间结构确认模块和表格重建模块。其中:
表格结构单元检测模块,对文档中表格的结构单元进行识别;
表格空间结构确认模块,对获取的所述结构单元进行表格空间结构确认;
表格重建模块,对文档中的文字内容进行识别,并将识别的所述文字内容填方到确认的所述表格空间结构中对应的所述结构单元中,对表格进行重建,完成表格识别。
本发明第三个实施例提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行本发明上述实施例中任一项所述的方法。
可选地,存储器,用于存储程序;存储器,可以包括易失性存储器(英文:volatilememory),例如随机存取存储器(英文:random-access memory,缩写:RAM),如静态随机存取存储器(英文:static random-access memory,缩写:SRAM),双倍数据率同步动态随机存取存储器(英文:Double Data Rate Synchronous Dynamic Random Access Memory,缩写:DDR SDRAM)等;存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等,上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
处理器,用于执行存储器存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。
处理器和存储器可以是独立结构,也可以是集成在一起的集成结构。当处理器和存储器是独立结构时,存储器、处理器可以通过总线耦合连接。
本发明第四个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行本发明上述实施例中任一项所述的方法。
需要说明的是,本发明提供的方法中的步骤,可以利用系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照方法的技术方案实现系统的组成,即,方法中的实施例可理解为构建系统的优选例,在此不予赘述。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本发明上述实施例提供的基于结构单元的表格识别方法、系统、终端及介质,直接识别文档中表格的结构单元,避开对表格线的检测和结构单元合并的处理,处理过程简单、准确和高效;针对现有技术中采用行贯穿线和列贯穿线存在的问题,解决了传统的基于表格线确定表格结构方法中存在的检测表格线和通过表格线确定表格的结构的不准确和不稳定等问题。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (17)
1.一种基于结构单元的表格识别方法,其特征在于,包括:
对文档中表格的结构单元进行识别;
基于获取的所述结构单元,进行表格空间结构确定;
对文档进行文字检测与识别,并将识别得到的所述文字内容填放到确定的所述表格空间结构中对应的所述结构单元中,对表格进行重建,完成表格识别。
2.根据权利要求1所述的基于结构单元的表格识别方法,其特征在于,所述对文档中表格的结构单元进行识别,包括:
对于给定的文档中的表格,利用预训练的表格结构单元检测模型,基于图像特征,将文档中表格的结构单元视为图像目标进行识别,记录识别到的结构单元及其对应的结构单元信息。
3.根据权利要求2所述的基于结构单元的表格识别方法,其特征在于,所述表格结构单元检测模型,基于深度学习的目标检测网络构建得到;所述预训练的过程包括:
获取表格图像,并对获取的所述表格图像进行预处理;
基于预处理后的表格图像建立表格结构单元检测模型样本;
根据建立的所述样本,训练表格结构单元检测模型,完成模型训练。
4.根据权利要求3所述的基于结构单元的表格识别方法,其特征在于,所述预训练过程还包括如下任一项或任意多项:
在所述表格结构单元检测模型中添加整张表格的全局图像特征;
在所述表格结构单元检测模型中基于图像特征进行行池化和列池化;
采用软化的非最大抑制方法或基于混合高斯模型和检测目标合并方法,对所述表格结构单元检测模型进行目标候选框处理。
5.根据权利要求2所述的基于结构单元的表格识别方法,其特征在于,所述文档中的表格包括:完全表格线表格和非完全表格线表格;当识别到的表格为完全表格线表格时,所述结构单元为完全表格线表格中的矩形线框单元;当识别到的表格为非完全表格线表格时,所述结构单元为非完全表格线表格中按语义理解的表格最小单元。
6.根据权利要求2所述的基于结构单元的表格识别方法,其特征在于,所述结构单元信息,包括:每一个所述结构单元的区域位置信息和置信度信息;其中:
所述区域位置信息,用于表示所述结构单元在文档中的位置;
所述置信度信息,为每一个所述结构单元的附属概率信息,用于表示所述结构单元识别结果的准确度。
7.根据权利要求6所述的基于结构单元的表格识别方法,其特征在于,所述区域位置信息的确定方法,包括:通过所述结构单元的四个顶点坐标确定或通过所述结构单元的中心点及长宽值确定。
8.根据权利要求2所述的基于结构单元的表格识别方法,其特征在于,所述对文档中表格的结构单元进行识别,还包括:
对识别到的结构单元进行后处理,包括:
利用表格的完整性,补齐漏检的结构单元,对齐结构单元位置。
9.根据权利要求1所述的基于结构单元的表格识别方法,其特征在于,所述对文档进行文字检测与识别的方法,包括:
采用深度学习检测模型,对文档中的文字进行文字块检测;
利用预训练的文字识别模型,识别文字块中所有的文字内容和相应的位置,然后根据位置,将文字内容填放到确定的所述表格空间结构中对应的结构单元中。
10.根据权利要求1所述的基于结构单元的表格识别方法,其特征在于,所述对文档中的文字内容进行识别的方法,包括:
将文档中表格的结构单元对应区域的影像截取出来,采用深度学习检测模型,对影像中的文字进行文字块检测;
利用预训练的文字识别模型识别文字块中的文字内容,然后填放到确定的所述表格空间结构中对应的结构单元中。
11.根据权利要求1~10中任一项所述的基于结构单元的表格识别方法,其特征在于,所述文档中的表格为一个或多个;和/或
所述文档为图像文档。
12.根据权利要求1~10中任一项所述的基于结构单元的表格识别方法,其特征在于,在对文档中表格的结构单元进行识别前,还包括:
获取文档中的表格区域,进而基于表格区域,对表格的结构单元进行识别。
13.根据权利要求12所述的基于结构单元的表格识别方法,其特征在于,采用预训练的表格区域识别模型,对文档图像中的表格区域进行识别,获取文档图像中的一个或多个表格区域。
14.根据权利要求13所述的基于结构单元的表格识别方法,其特征在于,还包括如下任意一项或任意多项:
-对于每一个识别到的表格区域,输出对应的区域信息;
-对识别到的表格区域进行预处理,包括:倾斜角度矫正和/或图片尺寸调整。
15.一种基于结构单元的表格识别系统,其特征在于,包括:
表格结构单元检测模块,对文档中表格的结构单元进行识别;
表格空间结构确定模块,对获取的所述结构单元进行表格空间结构确定;
表格重建模块,对文档中的文字内容进行识别,并将识别的所述文字内容填方到确定的所述表格空间结构中对应的所述结构单元中,对表格进行重建,完成表格识别。
16.一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可用于执行权利要求1-15中任一项所述的方法。
17.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时可用于执行权利要求1-15中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011188084.8A CN114529773A (zh) | 2020-10-30 | 2020-10-30 | 基于结构单元的表格识别方法、系统、终端及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011188084.8A CN114529773A (zh) | 2020-10-30 | 2020-10-30 | 基于结构单元的表格识别方法、系统、终端及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114529773A true CN114529773A (zh) | 2022-05-24 |
Family
ID=81619130
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011188084.8A Pending CN114529773A (zh) | 2020-10-30 | 2020-10-30 | 基于结构单元的表格识别方法、系统、终端及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114529773A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114694165A (zh) * | 2022-06-01 | 2022-07-01 | 济南大学 | 一种pid图纸智能识别与重绘方法 |
CN115273113A (zh) * | 2022-09-27 | 2022-11-01 | 深圳擎盾信息科技有限公司 | 表格类文本语义识别方法及装置 |
CN116127928A (zh) * | 2023-04-17 | 2023-05-16 | 广东粤港澳大湾区国家纳米科技创新研究院 | 表格数据识别方法、装置、存储介质及计算机设备 |
-
2020
- 2020-10-30 CN CN202011188084.8A patent/CN114529773A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114694165A (zh) * | 2022-06-01 | 2022-07-01 | 济南大学 | 一种pid图纸智能识别与重绘方法 |
CN115273113A (zh) * | 2022-09-27 | 2022-11-01 | 深圳擎盾信息科技有限公司 | 表格类文本语义识别方法及装置 |
CN115273113B (zh) * | 2022-09-27 | 2022-12-27 | 深圳擎盾信息科技有限公司 | 表格类文本语义识别方法及装置 |
CN116127928A (zh) * | 2023-04-17 | 2023-05-16 | 广东粤港澳大湾区国家纳米科技创新研究院 | 表格数据识别方法、装置、存储介质及计算机设备 |
CN116127928B (zh) * | 2023-04-17 | 2023-07-07 | 广东粤港澳大湾区国家纳米科技创新研究院 | 表格数据识别方法、装置、存储介质及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210256253A1 (en) | Method and apparatus of image-to-document conversion based on ocr, device, and readable storage medium | |
CN109902622B (zh) | 一种用于登机牌信息验证的文字检测识别方法 | |
CN101908136B (zh) | 一种表格识别处理方法及系统 | |
CN114529773A (zh) | 基于结构单元的表格识别方法、系统、终端及介质 | |
WO2018103608A1 (zh) | 一种文字检测方法、装置及存储介质 | |
CN101453575B (zh) | 一种视频字幕信息提取方法 | |
WO2020133442A1 (zh) | 一种识别文本的方法及终端设备 | |
CN112597773B (zh) | 文档结构化方法、系统、终端及介质 | |
CN111860502A (zh) | 图片表格的识别方法、装置、电子设备及存储介质 | |
CN111091123A (zh) | 文本区域检测方法及设备 | |
CN111460927B (zh) | 对房产证图像进行结构化信息提取的方法 | |
CN111898668A (zh) | 一种基于深度学习的小目标物体检测方法 | |
US20210142513A1 (en) | Copy area identification method and device | |
CN110689012A (zh) | 一种端到端的自然场景文本识别方法及系统 | |
CN113239818B (zh) | 基于分割和图卷积神经网络的表格跨模态信息提取方法 | |
CN112906695B (zh) | 适配多类ocr识别接口的表格识别方法及相关设备 | |
CN110738030A (zh) | 表格重建方法、装置、电子设备及存储介质 | |
CN104298947A (zh) | 一种对二维条码精确定位的方法及装置 | |
CN114419647A (zh) | 一种表格信息提取方法及系统 | |
JP2023527615A (ja) | 目標対象検出モデルのトレーニング方法、目標対象検出方法、機器、電子機器、記憶媒体及びコンピュータプログラム | |
CN114677695A (zh) | 表格解析方法、装置、计算机设备和存储介质 | |
CN115546809A (zh) | 基于单元格约束的表格结构识别方法及其应用 | |
CN115797592A (zh) | 一种基于倾斜摄影三维模型自动生成建筑物体块的方法和装置 | |
CN112949649A (zh) | 一种文本图像的识别方法、装置及计算设备 | |
CN111709338A (zh) | 一种用于表格检测的方法、装置及检测模型的训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |