CN112241730A - 一种基于机器学习的表格提取方法和系统 - Google Patents
一种基于机器学习的表格提取方法和系统 Download PDFInfo
- Publication number
- CN112241730A CN112241730A CN202011315774.5A CN202011315774A CN112241730A CN 112241730 A CN112241730 A CN 112241730A CN 202011315774 A CN202011315774 A CN 202011315774A CN 112241730 A CN112241730 A CN 112241730A
- Authority
- CN
- China
- Prior art keywords
- prediction
- cell
- instance
- module
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 30
- 238000010801 machine learning Methods 0.000 title claims abstract description 8
- 238000012549 training Methods 0.000 claims abstract description 57
- 238000000034 method Methods 0.000 claims abstract description 42
- 230000011218 segmentation Effects 0.000 claims abstract description 22
- 238000002372 labelling Methods 0.000 claims abstract description 8
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000012015 optical character recognition Methods 0.000 claims description 6
- 238000011084 recovery Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 3
- 239000004816 latex Substances 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 102100031315 AP-2 complex subunit mu Human genes 0.000 description 1
- 101000796047 Homo sapiens AP-2 complex subunit mu Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005859 cell recognition Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Geometry (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种基于机器学习的表格提取方法和系统,所述方法包括:获取表格模板集;根据表格模板集生成第一实例;获取第一实例中表格的单元格坐标;随机隐藏表格的边框线,获得第二实例;基于单元格坐标为第二实例的表格打标签;基于实例分割模型对第二实例进行训练,获得预测模型;基于预测模型分析预测文档;提取单元格坐标区域内的单元格内容;根据单元格坐标恢复预测表格的结构;基于单元格内容、单元格坐标和预测表格的结构,结构化预测表格。预测模型可以识别预测文档中的单元格及其坐标,从而获得复杂单元格的区域和表格的结构,再提取单元格的内容,使预测表格结构化。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于机器学习表格提取的方法和系统。
背景技术
在日常生活或工作中涉及到大量的表格及其文档,尤其是金融行业中的金融表格,相关人员可以从这些表格中读取到有用的数据,而对于复杂的表格,需要检索表格中的某一个特定内容或数据,通常需要将文档中含有的表格进行结构化,以便于内容检索。
当表格结构较为复杂时,如含有合并单元格或无表格边框,此类表格的结构化十分困难:含有大量的复杂合并单元格,甚至有多层次的合并单元格,准确识别表格结构十分困难;无外表格边框,甚至有的表格内部都没有边框线,这样精确区分每一个单元格所在位置十分困难,准确提取每一个单元格的内容也十分困难。
发明内容
针对现有技术中存在的上述技术问题,本发明提供一种基于机器学习的表格提取方法和系统,便于识别复杂表格的结构及其内容。
本发明公开了一种基于机器学习的表格提取方法,所述方法包括:获取表格模板集;根据所述表格模板集生成第一实例;获取第一实例中表格的单元格坐标;随机隐藏第一实例中表格的边框线,获得第二实例;基于所述单元格坐标为第二实例的表格及其单元格打标签;基于实例分割模型对第二实例进行训练,获得预测模型;基于所述预测模型分析预测文档,所述预测文档包括预测表格,获得预测表格的单元格坐标;提取所述单元格坐标区域内的单元格内容;根据所述单元格坐标恢复预测表格的结构;基于所述单元格内容、单元格坐标和预测表格的结构,结构化预测表格。
优选的,所述表格模板集的模板包括以下情形之一或它们的组合:含有多层次的合并单元格、缺少表格外边框线和缺少内边框线。
优选的,所述第一实例基于弱监督学习的方法生成。
优选的,获取第一实例中表格的单元格坐标的方法包括:根据表格模板生成训练表格;根据训练表格生成PDF文档;获取所述PDF文档的矢量化信息;基于所述矢量化信息识别表格、表格坐标和单元格坐标。
优选的,获得第二实例的方法包括:随机删除表格的边框线或使用白色粗线覆盖表格的边框线;将所述表格保存为图片,作为第二实例。
优选的,所述基于实例分割模型对第二实例进行训练的方法包括:将所述第二实例划分为预训练实例和复杂训练实例;基于实例分割模型对预训练实例进行训练,获得第一模型;基于第一模型训练复杂训练实例进行训练,获得预测模型。
优选的,提取单元格内容的方法包括:矢量化提取法或光学字符识别法。
优选的,本发明的方法还包括分割所述预测文档的预测表格的方法:通过连通域分析方法获取预测文档中的预测表格及其坐标范围;将每个识别的单元格按所属的预测表格进行归类。
优选的,恢复预测表格结构的方法包括:根据单元格坐标恢复所述预测表格的边框线;根据所述单元格坐标和预测表格的边框线获取单元格的行列;根据所述单元格的行列恢复预测表格的结构。
本发明还提供一种用于实现上述方法的表格提取系统,包括第一获取模块、第一实例模块、单元格坐标获取模块、第二实例模块、标签模块、训练模块、预测模块、内容提取模块、表格结构恢复模块和表格结构化模块,所述第一获取模块用于获取表格模板集;所述第一实例模块用于根据所述表格模板集生成第一实例;所述单元格坐标获取模块用于获取第一实例中表格的单元格坐标;所述第二实例模块用于随机隐藏第一实例中表格的边框线,获得第二实例;所述标签模块用于基于所述单元格坐标为第二实例的表格及其单元格打标签;所述训练模块用于基于实例分割模型对第二实例进行训练,获得预测模型;所述预测模块用于基于所述预测模型分析预测文档,所述预测文档包括预测表格,获得预测表格的单元格坐标;所述内容提取模块用于提取单元格坐标区域内的单元格内容;所述表格结构恢复模块用于根据单元格坐标恢复预测表格的结构;所述表格结构化模块用于基于单元格内容、单元格坐标和预测表格的结构,结构化预测表格。
与现有技术相比,本发明的有益效果为:
通过构建表格结构复杂的训练实例,基于实例分割算法对第二实例进行训练,使预测模型可以识别预测文档中的表格、单元格及其坐标,从而获得复杂单元格的区域和表格的结构,再提取单元格的内容,从而恢复单元格,根据单元格恢复预测表格,使预测表格结构化。预测表格的结构化,包括预测表结构、单元格结构和每个单元格的内容,便于检索表格的内容,并获得单元格的坐标或位置,
附图说明
图1是本发明的表格提取方法流程图;
图2是获取第一实例中表格的单元格坐标的方法流程图;
图3是获得第二实例的方法流程图;
图4是基于实例分割模型对第二实例进行训练的方法流程图;
图5是基于预测模型分析预测文档的方法流程图;
图6是标记坐标区域的效果图;
图7是为预测文档分割预测表格的方法流程图;
图8是恢复预测表格结构的方法流程图;
图9是本发明的表格提取系统的逻辑框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
一种基于机器学习的表格提取方法,如图1所示,所述方法包括:
步骤S1:获取表格模板集。其中,模板集中的模板可以根据表格的种类进行设定,如金融表格中的含有:含有多层次的合并单元格、缺少表格外边框线或缺少内边框线,则模板集中的模板应当反应表格所属种类的特性。
步骤S2:根据所述表格模板集生成第一实例。可以通过弱监督学习的方法根据所述表格模板集的模板生成定义大量复杂的表格模板或表格,使第一实例中的表格具有待预测表格的属性,如具有复杂的合并单元格,缺少部分外边框,但不限于此,本发明也可以用于其它特殊表格形式。其中第一实例可以是文档格式的,如word文档、excel文档、LaTeX文档或PDF文档。
步骤S3:获取第一实例中表格的单元格坐标。可以通过矢量化分析方法分析文档元信息,获取文档中表格的坐标。
步骤S4:随机隐藏第一实例中所述表格的边框线,并保存为第二实例。通过随机隐藏边框线的方式,提高训练的复杂程序,使第二实例中的表格更符合所属种类的特性,第二实例可以是图片格式。
步骤S5:基于所述单元格坐标为第二实例的表格及其单元格打标签。其中,标签可以包括单元格标签和表格标签,分别用于标记单元格和表格。
步骤S6:基于实例分割模型对第二实例进行训练,获得预测模型。可以以每个单元格作为一个训练实例,通过训练并筛选出预测准确率高的模型,其中实例分割模型包括:Mask R-CNN模型,但不限于此,基于实例分割模型进行训练为现有技术,本发明中不再赘述。
步骤S7:基于所述预测模型分析预测文档,所述预测文档包括预测表格,获得预测表格的单元格坐标。输入预测文档,通过所述预测模型分析预测文档中包括的表格和单元格坐标。
步骤S8:提取所述单元格坐标区域内的单元格内容。可以通过矢量化分析方法或OCR(光学字符识别,Optical Character Recognition)技术提取单元格内容。其中,预测文档为PDF文档时,可以使用矢量化分析的方法,识别点线信息,得到单元格里的内容;预测文档为Word文档图片、PDF影印文档或图片,可以使用OCR技术识别每个单元格坐标范围内的内容。通过矢量化分析方法或OCR技术提取单元,可以有效提取含有空白或省略符的单元格的内容。
步骤S9:根据所述单元格坐标恢复预测表格的结构。
步骤S10:基于所述单元格内容、单元格坐标和预测表格的结构,结构化预测表格。
预测表格的结构化,包括预测表结构、单元格结构和每个单元格的内容,便于检索表格的内容,以提高内容检索的工作效率,并获得单元格的坐标或位置。通过构建表格结构复杂的训练实例,基于实例分割算法对第二实例进行训练,使预测模型可以识别预测文档中的表格、单元格及其坐标,从而获得复杂单元格的区域和表格的结构,再提取单元格的内容,从而恢复单元格,根据单元格恢复预测表格,使预测表格结构化。
实施例1
如图2所示,步骤S3中,获取第一实例中表格的单元格坐标的方法包括:
步骤S301:根据表格模板生成训练表格。在一个具体实施例,训练表格保存在LaTeX文档中,LaTeX文档跨平台性较好,使文档在不同平台编译出来效果一致,但不限于此,也可以通过word或excel生成训练表格。
步骤S302:根据训练表格生成PDF文档。
步骤S303:获取所述PDF文档的矢量化信息。
步骤S304:基于所述矢量化信息识别表格、表格坐标和单元格坐标。可以通过矢量化分析的方法获得PDF文档底层的矢量化点线信息获得表格、表格坐标和单元格坐标。
其中,可以将PDF文档的矢量化信息转换为结构化的标签,使第二实例可以用于模型训练,从而定义标签体系。
如图3所示,步骤S4中,获得第二实例的方法包括:
步骤S401:随机删除第一实例中表格的边框线或使用白色粗线覆盖表格的边框线。可以通过矢量化技术隐藏表格边框线,如使用白色粗线覆盖边框线,使所述边框线视觉上不可被识别。第一实例或表格模板中的表格,也存在缺少部分边框线的情况,步骤S4与之形成互补,使第二实例复杂化。
步骤S402:将隐藏边框线的表格保存为图片,作为第二实例。图片格式可以是Jpeg、gif或png的格式,但不限于此。
相应的,预测文档可以转为指定像素大小的图片,与第二实例中的图片相符。
实施例2
如图4所示,步骤S6中,基于实例分割模型对第二实例进行训练的方法包括:
步骤S601:将所述第二实例划分为预训练实例和复杂训练实例。
步骤S602:基于实例分割模型对预训练实例的表格或单元格进行训练,获得第一模型。选取视实例分割模型,并进行预训练。
步骤S603:基于第一模型训练复杂训练实例的表格或单元格进行训练,获得预测模型。在复杂训练实例的的基础上优化模型效果,调节各类参数。
先通过预训练技术得到第一模型,使第一模型可以适应表格或单元格识别的任务,然后采用迁移训练的方法对复杂训练实例进行训练,以增加预测模型的泛化效果。
可以通过交叉验证和可视化技术筛选预测准确率高的预测模型,以增加泛化效果。
实施例3
如图5所示,步骤S7所述,基于预测模型分析预测文档的方法包括:
步骤S701:将预测文档通过矢量化技术转为指定像素大小的矢量图。
步骤S702:使用预测模型预测所述矢量图中单元格的坐标区域。
在一个具体实施例,可以通过实例分割测评的方法评估预测准确率:
通过可视化的技术标记每个坐标区域的颜色。
通过实例分割评测标准评估识别准确率。其中,实例分割评测标准可以包括AP、AP50、AP75、Aps、APm或APl,但不限于此。相邻坐标区域的颜色不相同,从而可以通过色彩区别来查看识别效果。
在一个具体实施例中,如图6所示,以灰度深浅标记不同的坐标区域,但不限于此,可以通过多种颜色标记不同的坐标区域,经测试,图6中各个表格预测准确率为100%。
实施例4
对于预测文档一个页面内包含两个或多个表格的情况,如图7所示,本实施例提供分割预测文档的预测表格的方法:
步骤S111:通过连通域分析方法获取预测文档中的预测表格及其坐标范围。连通域分析(connected component analysis)将图像中的连通区域找出来并标记,图像中的表格具有连续性,因此可以通过分析相同像素值的连通域获取预测表格的数量和坐标范围。
步骤S112:将每个识别的单元格按所属的预测表格进行归类。从而分割预测表格,并获得每个表格的单元格。便于准确恢复各个预测表格的结构。
如图8所示,步骤S9中,恢复预测表格结构的方法包括:
步骤S901:根据单元格坐标或表格坐标恢复所述预测表格的边框线。其中,表格坐标可以由预测模型预测获得,也可以通过连通分析方法获得。
步骤S902:根据所述单元格坐标和预测表格的边框线获取单元格的行列。其中合并单元格可以跨越多个行或多个列。
步骤S903:根据所述行列恢复预测表格的结构。从而恢复具有复杂合并单元格的表格结构。
本发明还提供一种用于实现上述方法的表格提取系统,如图9所示,包括第一获取模块1、第一实例模块2、单元格坐标获取模块3、第二实例模块4、标签模块5、训练模块6、预测模块7、内容提取模块8、表格结构恢复模块9和表格结构化模块10,
第一获取模块1用于获取表格模板集;
第一实例模块2用于根据所述表格模板集生成第一实例;
单元格坐标获取模块3用于获取第一实例中表格的单元格坐标;
第二实例模块4用于随机隐藏第一实例中表格的边框线,获得第二实例;标签模块5用于基于所述单元格坐标为第二实例的表格打标签
训练模块6用于基于实例分割模型对第二实例进行训练,获得预测模型;
预测模块7用于基于所述预测模型分析预测文档,所述预测文档包括预测表格,获取预测表格的单元格坐标;
内容提取模块8用于提取单元格坐标区域内的单元格内容;
表格结构恢复模块9用于根据单元格坐标恢复预测表格的结构;
表格结构化模块10用于基于单元格内容、单元格坐标和预测表格的结构,结构化预测表格。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于机器学习的表格提取方法,其特征在于,所述方法包括:
获取表格模板集;
根据所述表格模板集生成第一实例;
获取第一实例中表格的单元格坐标;
随机隐藏第一实例中表格的边框线,获得第二实例;
基于所述单元格坐标为第二实例的表格及其单元格打标签;
基于实例分割模型对第二实例进行训练,获得预测模型;
基于所述预测模型分析预测文档,所述预测文档包括预测表格,获得预测表格的单元格坐标;
提取所述单元格坐标区域内的单元格内容;
根据所述单元格坐标恢复预测表格的结构;
基于所述单元格内容、单元格坐标和预测表格的结构,结构化预测表格。
2.根据权利要求1所述的表格提取方法,其特征在于,所述表格模板集的模板包括以下情形之一或它们的组合:含有多层次的合并单元格、缺少表格外边框线和缺少内边框线。
3.根据权利要求1所述的表格提取方法,其特征在于,所述第一实例基于弱监督学习的方法生成。
4.根据权利要求1所述的表格提取方法,其特征在于,获取第一实例中表格的单元格坐标的方法包括:
根据表格模板生成训练表格;
根据训练表格生成PDF文档;
获取所述PDF文档的矢量化信息;
基于所述矢量化信息识别表格、表格坐标和单元格坐标。
5.根据权利要求4所述的表格提取方法,其特征在于,获得第二实例的方法包括:
随机删除表格的边框线或使用白色粗线覆盖表格的边框线;
将所述表格保存为图片,作为第二实例。
6.根据权利要求1所述的表格提取方法,其特征在于,所述基于实例分割模型对第二实例进行训练的方法包括:
将所述第二实例划分为预训练实例和复杂训练实例;
基于实例分割模型对预训练实例进行训练,获得第一模型;
基于第一模型训练复杂训练实例进行训练,获得预测模型。
7.根据权利要求1所述的表格提取方法,其特征在于,提取单元格内容的方法包括:矢量化提取法或光学字符识别法。
8.根据权利要求1所述的表格提取方法,其特征在于,还包括分割所述预测文档的预测表格的方法:
通过连通域分析方法获取预测文档中的预测表格及其坐标范围;
将每个识别的单元格按所属的预测表格进行归类。
9.根据权利要求1或8所述的表格提取方法,其特征在于,恢复预测表格结构的方法包括:
根据单元格坐标恢复所述预测表格的边框线;
根据所述单元格坐标和预测表格的边框线获取单元格的行列;
根据所述单元格的行列恢复预测表格的结构。
10.一种用于实现权利要求1-9任一项所述方法的表格提取系统,其特征在于,包括第一获取模块、第一实例模块、单元格坐标获取模块、第二实例模块、标签模块、训练模块、预测模块、内容提取模块、表格结构恢复模块和表格结构化模块,
所述第一获取模块用于获取表格模板集;
所述第一实例模块用于根据所述表格模板集生成第一实例;
所述单元格坐标获取模块用于获取第一实例中表格的单元格坐标;
所述第二实例模块用于随机隐藏第一实例中表格的边框线,获得第二实例;
所述标签模块用于基于所述单元格坐标为第二实例的表格及其单元格打标签;
所述训练模块用于基于实例分割模型对第二实例进行训练,获得预测模型;
所述预测模块用于基于所述预测模型分析预测文档,所述预测文档包括预测表格,获得预测表格的单元格坐标;
所述内容提取模块用于提取单元格坐标区域内的单元格内容;
所述表格结构恢复模块用于根据单元格坐标恢复预测表格的结构;
所述表格结构化模块用于基于单元格内容、单元格坐标和预测表格的结构,结构化预测表格。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011315774.5A CN112241730A (zh) | 2020-11-21 | 2020-11-21 | 一种基于机器学习的表格提取方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011315774.5A CN112241730A (zh) | 2020-11-21 | 2020-11-21 | 一种基于机器学习的表格提取方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112241730A true CN112241730A (zh) | 2021-01-19 |
Family
ID=74175324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011315774.5A Pending CN112241730A (zh) | 2020-11-21 | 2020-11-21 | 一种基于机器学习的表格提取方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112241730A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255501A (zh) * | 2021-05-18 | 2021-08-13 | 北京百度网讯科技有限公司 | 生成表格识别模型的方法、设备、介质及程序产品 |
CN113762158A (zh) * | 2021-09-08 | 2021-12-07 | 平安资产管理有限责任公司 | 无边框表格复原模型训练方法、装置、计算机设备和介质 |
CN113989822A (zh) * | 2021-12-24 | 2022-01-28 | 中奥智能工业研究院(南京)有限公司 | 基于计算机视觉和自然语言处理的图片表格内容提取方法 |
CN115639935A (zh) * | 2022-12-14 | 2023-01-24 | 亿海蓝(北京)数据技术股份公司 | 表格操作方法、装置和可读存储介质 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416279A (zh) * | 2018-02-26 | 2018-08-17 | 阿博茨德(北京)科技有限公司 | 文档图像中的表格解析方法及装置 |
CN108446264A (zh) * | 2018-03-26 | 2018-08-24 | 阿博茨德(北京)科技有限公司 | Pdf文档中的表格矢量解析方法及装置 |
CN108491788A (zh) * | 2018-03-20 | 2018-09-04 | 上海眼控科技股份有限公司 | 一种用于财务报表单元格的智能提取方法及装置 |
CN109446487A (zh) * | 2018-11-01 | 2019-03-08 | 北京神州泰岳软件股份有限公司 | 一种解析便携式文档格式文档表格的方法及装置 |
CN110163198A (zh) * | 2018-09-27 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种表格识别重建方法、装置和存储介质 |
CN110188649A (zh) * | 2019-05-23 | 2019-08-30 | 成都火石创造科技有限公司 | 基于tesseract-ocr的pdf文件解析方法 |
CN110334585A (zh) * | 2019-05-22 | 2019-10-15 | 平安科技(深圳)有限公司 | 表格识别方法、装置、计算机设备和存储介质 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN110472208A (zh) * | 2019-06-26 | 2019-11-19 | 上海恒生聚源数据服务有限公司 | Pdf文档中表格解析的方法、系统、存储介质及电子设备 |
CN110532968A (zh) * | 2019-09-02 | 2019-12-03 | 苏州美能华智能科技有限公司 | 表格识别方法、装置和存储介质 |
CN110532834A (zh) * | 2018-05-24 | 2019-12-03 | 北京庖丁科技有限公司 | 基于富文本格式文档的表格提取方法、装置、设备和介质 |
CN111027297A (zh) * | 2019-12-23 | 2020-04-17 | 海南港澳资讯产业股份有限公司 | 一种对图像型pdf财务数据关键表格信息的处理方法 |
CN111259873A (zh) * | 2020-04-26 | 2020-06-09 | 江苏联著实业股份有限公司 | 一种表格数据提取方法及装置 |
CN111309819A (zh) * | 2020-01-19 | 2020-06-19 | 中国农业科学院农业信息研究所 | 训练表格指标抽取模型、表格指标抽取的方法及系统 |
CN111368638A (zh) * | 2020-02-10 | 2020-07-03 | 深圳追一科技有限公司 | 电子表格的创建方法、装置、计算机设备和存储介质 |
CN111639637A (zh) * | 2020-05-29 | 2020-09-08 | 北京百度网讯科技有限公司 | 表格识别方法、装置、电子设备和存储介质 |
CN111709349A (zh) * | 2020-06-11 | 2020-09-25 | 杭州尚尚签网络科技有限公司 | 一种针对带表格合同的ocr识别方法 |
CN111814598A (zh) * | 2020-06-22 | 2020-10-23 | 吉林省通联信用服务有限公司 | 一种基于深度学习框架的财务报表自动识别方法 |
-
2020
- 2020-11-21 CN CN202011315774.5A patent/CN112241730A/zh active Pending
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416279A (zh) * | 2018-02-26 | 2018-08-17 | 阿博茨德(北京)科技有限公司 | 文档图像中的表格解析方法及装置 |
CN108491788A (zh) * | 2018-03-20 | 2018-09-04 | 上海眼控科技股份有限公司 | 一种用于财务报表单元格的智能提取方法及装置 |
CN108446264A (zh) * | 2018-03-26 | 2018-08-24 | 阿博茨德(北京)科技有限公司 | Pdf文档中的表格矢量解析方法及装置 |
CN110532834A (zh) * | 2018-05-24 | 2019-12-03 | 北京庖丁科技有限公司 | 基于富文本格式文档的表格提取方法、装置、设备和介质 |
CN110163198A (zh) * | 2018-09-27 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种表格识别重建方法、装置和存储介质 |
CN109446487A (zh) * | 2018-11-01 | 2019-03-08 | 北京神州泰岳软件股份有限公司 | 一种解析便携式文档格式文档表格的方法及装置 |
CN110334585A (zh) * | 2019-05-22 | 2019-10-15 | 平安科技(深圳)有限公司 | 表格识别方法、装置、计算机设备和存储介质 |
CN110188649A (zh) * | 2019-05-23 | 2019-08-30 | 成都火石创造科技有限公司 | 基于tesseract-ocr的pdf文件解析方法 |
CN110472208A (zh) * | 2019-06-26 | 2019-11-19 | 上海恒生聚源数据服务有限公司 | Pdf文档中表格解析的方法、系统、存储介质及电子设备 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN110532968A (zh) * | 2019-09-02 | 2019-12-03 | 苏州美能华智能科技有限公司 | 表格识别方法、装置和存储介质 |
CN111027297A (zh) * | 2019-12-23 | 2020-04-17 | 海南港澳资讯产业股份有限公司 | 一种对图像型pdf财务数据关键表格信息的处理方法 |
CN111309819A (zh) * | 2020-01-19 | 2020-06-19 | 中国农业科学院农业信息研究所 | 训练表格指标抽取模型、表格指标抽取的方法及系统 |
CN111368638A (zh) * | 2020-02-10 | 2020-07-03 | 深圳追一科技有限公司 | 电子表格的创建方法、装置、计算机设备和存储介质 |
CN111259873A (zh) * | 2020-04-26 | 2020-06-09 | 江苏联著实业股份有限公司 | 一种表格数据提取方法及装置 |
CN111639637A (zh) * | 2020-05-29 | 2020-09-08 | 北京百度网讯科技有限公司 | 表格识别方法、装置、电子设备和存储介质 |
CN111709349A (zh) * | 2020-06-11 | 2020-09-25 | 杭州尚尚签网络科技有限公司 | 一种针对带表格合同的ocr识别方法 |
CN111814598A (zh) * | 2020-06-22 | 2020-10-23 | 吉林省通联信用服务有限公司 | 一种基于深度学习框架的财务报表自动识别方法 |
Non-Patent Citations (3)
Title |
---|
MINGHAO LI 等: "TableBank: A Benchmark Dataset for Table Detection and Recognition", 《ARXIV:1903.01949V2 [CS.CV]》 * |
YIREN LI 等: "GFTE: Graph-based Financial Table Extraction", 《ARXIV:2003.07560V1 [CS.CV]》 * |
于丰畅等: "一种学术文献图表位置标注数据集构建方法", 《数据分析与知识发现》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255501A (zh) * | 2021-05-18 | 2021-08-13 | 北京百度网讯科技有限公司 | 生成表格识别模型的方法、设备、介质及程序产品 |
CN113255501B (zh) * | 2021-05-18 | 2023-08-04 | 北京百度网讯科技有限公司 | 生成表格识别模型的方法、设备、介质及程序产品 |
CN113762158A (zh) * | 2021-09-08 | 2021-12-07 | 平安资产管理有限责任公司 | 无边框表格复原模型训练方法、装置、计算机设备和介质 |
CN113989822A (zh) * | 2021-12-24 | 2022-01-28 | 中奥智能工业研究院(南京)有限公司 | 基于计算机视觉和自然语言处理的图片表格内容提取方法 |
CN115639935A (zh) * | 2022-12-14 | 2023-01-24 | 亿海蓝(北京)数据技术股份公司 | 表格操作方法、装置和可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516208B (zh) | 一种针对pdf文档表格提取的系统及方法 | |
CN110766014B (zh) | 票据信息定位方法、系统及计算机可读存储介质 | |
KR100248917B1 (ko) | 패턴인식장치및방법 | |
CN113158808B (zh) | 中文古籍字符识别、组段与版面重建方法、介质和设备 | |
Choudhary et al. | A new character segmentation approach for off-line cursive handwritten words | |
CN105868758B (zh) | 图像中文本区域检测方法、装置及电子设备 | |
CN112241730A (zh) | 一种基于机器学习的表格提取方法和系统 | |
CN110503054B (zh) | 文本图像的处理方法及装置 | |
CN105654072A (zh) | 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法 | |
CN111523622B (zh) | 基于特征图像自学习的机械臂模拟手写笔迹方法 | |
CN115424282A (zh) | 一种非结构化文本表格识别方法和系统 | |
CN105117741A (zh) | 一种书法字风格的识别方法 | |
CN112446259A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN110826393B (zh) | 钻孔柱状图信息自动提取方法 | |
CN116824608A (zh) | 基于目标检测技术的答题卡版面分析方法 | |
CN111626145A (zh) | 一种简捷有效的残缺表格识别及跨页拼接方法 | |
CN113673294B (zh) | 文献关键信息的提取方法、装置、计算机设备和存储介质 | |
CN115311666A (zh) | 图文识别方法、装置、计算机设备及存储介质 | |
CN117437647B (zh) | 基于深度学习和计算机视觉的甲骨文字检测方法 | |
CN111612045B (zh) | 一种获取目标检测数据集的通用方法 | |
CN111832390B (zh) | 一种手写古文字检测方法 | |
CN111145314A (zh) | 一种结合地名标注的扫描电子地图地名符号的提取方法 | |
CN115019310B (zh) | 图文识别方法及设备 | |
CN109800758A (zh) | 一种极大值区域检测的自然场景文字检测方法 | |
Randriamasy et al. | Automatic benchmarking scheme for page segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210119 |