CN111507230A - 一种文档和表格数据的识别和提取方法及系统 - Google Patents
一种文档和表格数据的识别和提取方法及系统 Download PDFInfo
- Publication number
- CN111507230A CN111507230A CN202010281837.3A CN202010281837A CN111507230A CN 111507230 A CN111507230 A CN 111507230A CN 202010281837 A CN202010281837 A CN 202010281837A CN 111507230 A CN111507230 A CN 111507230A
- Authority
- CN
- China
- Prior art keywords
- document
- feature
- self
- data
- table data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 44
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims description 69
- 238000001514 detection method Methods 0.000 claims description 30
- 238000005516 engineering process Methods 0.000 claims description 23
- 238000013075 data extraction Methods 0.000 claims description 22
- 230000006872 improvement Effects 0.000 claims description 20
- 238000012512 characterization method Methods 0.000 claims description 5
- 230000001172 regenerating effect Effects 0.000 claims description 3
- 238000013479 data entry Methods 0.000 abstract description 9
- 238000011161 development Methods 0.000 abstract description 2
- 230000006835 compression Effects 0.000 description 8
- 238000007906 compression Methods 0.000 description 8
- 238000000926 separation method Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Abstract
本发明公开了一种文档和表格数据的识别和提取方法及系统,所述方法包括:对接收的文档和表格数据进行分类,对分类后的数据进行预处理;建立需要识别的文档和表格数据的第一特征规则;如果存在特征无法分离和绘制的文档和表格数据,根据第一特征自学习模型中相似度高于第一阈值的的特征去尝试识别;建立需要提取的文档和表格数据的第二特征规则;如果存在无法提取的表格数据,根据第二特征自学习模型中相似度高于第二阈值的的特征去尝试提取。通过本发明的方法,能够在多种类型文档的数据识别和提取工作过程中,降低了规则生成的复杂度,提高了规则生成的效率,促进了数据录入、数据交换、数据共享的快速发展。
Description
技术领域
本发明实施例涉及计算机技术领域,特别涉及一种文档和表格数据的识别和提取方法及系统。
背景技术
现有的文档数据提取通常采用以OCR(光学字符识别)技术为核心的非自学习技术实现方案,通常的技术步骤如下:
1、文档类型识别,根据不同的文档数据特征进行分类处理,包括但不限于:图片、文本、表格、图文混合等多种类型;
2、文档转换,将不同类型的文档统一转换为标准化格式,便于对表格和文字进行识别和提取;
3、表格识别,基于预先开发和设置好的表格样式和特征模板对表格整体进行识别,以区分出对应的表头和表元;
4、文字识别,根据表头和表元的对应关系,使用预先开发和设置好的OCR技术模型,进行成对的数据识别和提取,例如:表头数据为:国籍,表元数据为:中国;
5、反复进行步骤3和步骤4,完成所有的数据识别和提取。
现有技术方案中采用的是以文字为中心的提取方案,没有针对表格的针对性技术,然而在当前的应用环境中,存在大量样式各异的表格,需要进行表格的大小调整、单元格合并等操作,需要识别和提取任意多行数据、任意多列数据和任意多单元格数据,现有技术对不同文档类型采用标准化格式进行识别和处理,对PDF、WORD、EXCEL等特殊文档中的批注数据、多层数据等会影响识别和提取的结果,表格的大小调整、单元格合并会造成预先开发和设置好的表格模型和文字模型出现偏差,需要单独开发新的表格模型和文字模型,导致效率低;同时现有技术以文字识别和提取为核心,脱离了表格数据对文字数据的抽象和归纳,使得识别和提取的准确率低,效率低。
如何快速检测文档和表格实现文档分类,自动识别和分离文本数据和表格数据,提高识别和提取的效率成为一个亟待解决的问题。
发明内容
针对现有技术中的问题,本发明提供一种文档和表格数据的识别和提取方法和系统,以在多种类型文档的数据识别和提取工作过程中,针对多种类型文档的不同特点进行规则化的处理,提高了不同类型文档的数据识别和提取的准确率,降低了规则生成的复杂度,提高了规则生成的效率;提升了文档识别和提取的通用性和兼容性。
本发明提供一种文档和表格数据的识别和提取方法,所述方法包括:
步骤1,对接收的文档和表格数据进行分类;
步骤2,分别对分类后的各类所述文档和表格数据进行预处理;
步骤3,建立需要识别的文档和表格数据的第一特征规则,依据所述第一特征规则对所述文档和表格数据进行识别;
步骤4,判断是否存在特征规则无法分离和绘制的文档和表格数据,如果是,则根据第一特征自学习模型中相似度高于第一阈值的的特征规则去尝试识别无法分离和绘制的文档和表格数据;
步骤5,建立需要提取的文档和表格数据的第二特征规则,依据所述第二特征规则对所述文档和表格数据进行提取;
步骤6,判断是否存在无法提取的表格数据,如果是,则根据第二特征自学习模型中相似度高于第二阈值的的特征规则去尝试提取无法提取的表格数据。
本发明还提供一种文档和表格数据的识别和提取的系统,其特征在于,所述系统包括:文档分类单元,文档和表格识别单元,表格化数据提取单元,以及多个不同类型的文档处理单元;
所述文档分类单元,用于对接收的文档和表格数据进行分类,
所述多个不同类型的文档处理单元,用于分别对分类后的各类所述文档和表格数据进行预处理;
所述文档和表格识别单元,用于建立需要识别的文档和表格数据的第一特征规则,依据所述第一特征规则对所述文档和表格数据进行识别;判断是否存在特征无法分离和绘制的文档和表格数据,如果是,则根据第一特征自学习模型中相似度高于第一阈值的的特征规则去尝试识别无法分离和绘制的文档和表格数据;
所述表格化数据提取单元,用于建立需要提取的文档和表格数据的第二特征规则,依据所述第二特征规则对所述文档和表格数据进行提取;判断是否存在无法提取的表格数据,如果是,则根据第二特征自学习模型中相似度高于第二阈值的的特征规则去尝试提取无法提取的表格数据。
本发明还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如上所述的方法。
通过本发明的方法,能够快速检测文档和表格实现文档分类,自动识别和分离文本数据和表格数据,提高识别和提取的效率,提升了用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明一个实施例中的文档和表格数据的识别和提取系统示意图。
图2是本发明一个实施例中的自学习模型示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。本发明的实施例以及实施例的具体特征是对本发明实施例技术方案的详细说明,而非对本发明说明书技术方案的限定,在不冲突的情况下,本发明的实施例以及实施例的技术特征可以相互结合。
以下先对本发明的文档和表格数据的识别和提取系统进行说明,参见图1,所述系统包括:文档分类单元,文档和表格识别单元,表格化数据提取单元,以及多个不同类型的文档处理单元。
所述文档分类单元,用于对接收的文档和表格数据进行分类,
所述多个不同类型的文档处理单元,用于分别对分类后的各类所述文档和表格数据进行预处理;
所述文档和表格识别单元,用于建立需要识别的文档和表格数据的第一特征规则,依据所述第一特征规则对所述文档和表格数据进行识别;判断是否存在特征无法分离和绘制的文档和表格数据,如果是,则根据第一特征自学习模型中相似度高于第一阈值的的特征规则去尝试识别无法分离和绘制的文档和表格数据;
所述表格化数据提取单元,用于建立需要提取的文档和表格数据的第二特征规则,依据所述第二特征规则对所述文档和表格数据进行提取;判断是否存在无法提取的表格数据,如果是,则根据第二特征自学习模型中相似度高于第二阈值的的特征规则去尝试提取无法提取的表格数据。
在一种优选的实施方式中,所述文档分类单元,进一步包含多协议文档接收模块,多格式文档探测模块以及文档分发模块。
所述多协议文档接收模块,提供多种标准化的国际通用的网络传输协议,用于在需要数据录入、交换及分享的环境中产生的各种文档、表格等数据,包括但不限于HTTP、FTP、S3等。
所述多格式文档探测模块,提供不依赖于文档后缀的内容深度探测方式,用于探测需要数据录入、交换及分享的环境中产生的各种文档、表格等数据;所述实际类型和数据特征,包括:PDF、DOC、DOCX、XLS、XLSX、JPG、PNG、BMP等。
所述文档分发模块,根据文档探测模块的结果,将不同类型的文档分发到不同的处理单元进行针对性处理。文档分发模块采用并行处理技术以提高处理海量文档时的数据传输效率。
具体地,所述多格式文档探测模块可以采用并行镜像探测技术,在探测进行前建立文档、表格等的多个镜像数据,并行应用多个检测规则一一作用与多个镜像数据,检测规则包括不同类型和文档的数据特征、类型特征、版本特征、状态特征等。通过镜像探测技术不会改变原始数据的任何状态,保证了数据的完整性。多个检测规则的并行应用提高了检测效率,可快速得到海量文档的类型、版本和状态的探测结果。
可选地,所述多格式文档探测模块可以采用自学习探测技术,对现有规则无法探测和识别完整的文档、表格等数据,通过一个自学习模块以“反复试错”的方式来建立一个自动训练、即时反馈和自动建立模型的工作机制,从而形成一个全新的检测规则以适配新的文档、表格等数据。
可选地,所述多格式文档探测模块可以采用数据修复技术,对存在错误、损坏或故障的文档、表格等数据,通过一个数据修复模块,对文件头损坏、文件尾损坏、文件体损坏、编码损坏、语法损坏等故障通过读取原始数据后重新生成文档、表格等数据的方式进行修复。
具体地,所述所述文档和表格识别单元还包含特征化数据识别模块,第一特征库模块,第一特征自学习模块;
所述文档和表格识别单元可以包括特征化数据识别模块,所述特征化数据识别模块按照第一特征库模块提供的文档特征和表格特征来建立需要识别的文档和表格的特征规则,所述特征规则包括:
标题特征: 针对标题的位置、关键字、图形等特征进行匹配和识别;
页眉和页脚特征:针对页眉和页脚的位置、关键字、图形等特征进行匹配和识别;
行特征:针对文档中的表格行的数量、分布、位置等特征进行匹配和识别;
列特征:针对文档中的表格列的数量、分布、位置等特征进行匹配和识别;
单元格特征:针对文档中的表格的单元格的数量、分布、位置等特征进行匹配和识别;
线条特征:针对文档中的表格线的数量、分布、位置等特征进行匹配和识别。
所述文档和表格识别单元进一步包括第一特征库模块,所述第一特征库模块使用数据管理方式对文档和表格识别单元的所有特征进行集中管理,所述第一特征库能够提供特征库查询、特征库导入和导出、特征库删除等功能。
参考图2的自学习模型,所述第一特征自学习模块,对现有特征无法分离和绘制的表格,通过一个自学习模块以“反复试错”的方式来建立一个自动训练、即时反馈和自动建立模型的工作机制,从而形成一个全新的分离和绘制规则以适配新的表格分离和绘制处理。
在一种优选实施方式中,所述第一特征自学习模块根据相似度较高的特征去尝试识别无法分离和绘制的表格,如果相似度低于一个设定的阈值,则按照随机的方式进行选择,例如,针对特征规则无法分离和绘制的文档和表格数据,根据第一特征自学习模型中相似度高于第一阈值的特征规则去尝试识别无法分离和绘制的文档和表格数据;如果不存在相似度高于第一阈值的的特征,则按照随机的方式选择所述第一特征自学习模型中的特征规则;
所述第一特征自学习模块,根据尝试识别的结果进行评价,识别准确率达到设定的阈值就认为本次尝试达到预期,将结果反馈到特征自学习模块进行模型的自学习正向改进。如果识别准确率低于设定的阈值就认为本次尝试未达到预期,将结果反馈到特征自学习模块进行模型的自学习负向改进。例如接收反馈信息,基于所述反馈信息确定识别准确率,如果识别准确率大于或等于设定的第三阈值,则将结果反馈到第一特征自学习模块进行模型的自学习正向改进;如果识别准确率低于设定的第三阈值,将结果反馈到第一特征自学习模块进行模型的自学习负向改进。经过特征自学习模块的多轮尝试后,再加入人工评价和确认后,本次的特征自学习完成,将相应的特征加入到特征库中。
在一种优选实施方式中,所述表格化数据提取单元包括特征化数据提取模块,第二特征库模块,第二特征自学习模块;
所述特征化数据提取模块按照第二特征库模块提供的文档特征和表格特征来建立需要提取的文档和表格的特征规则,所述建立需要识别的文档和表格的特征规则包括:
表格区域提取:通过自学习的表格特征提取技术解决,实现了按行、按列、按单元格、按区域块、按几何图形的数据提取。对现有特征无法提取的表格,通过一个自学习模块以“反复试错”的方式来建立一个自动训练、即时反馈和自动建立模型的工作机制,从而形成一个全新的提取规则以适配新的表格区域特征提取。
文档尺寸形变提取:通过分区域缩放提取技术解决,实现了相同样式文档由于尺寸发生变化时准确提取数据。
表头和表元提取:针对需要数据录入、交换及分享的环境中文档和数据,实现了表头和表元的数据都匹配的成对提取规则。
字典提取:针对需要数据录入、交换及分享的环境中文档和数据,实现了基于国家名称字典、港口字典、币制字典、计量单位字典、唛头字典的提取规则。
相似提取:针对需要数据录入、交换及分享的环境中文档和数据,实现了数据的相似度提取,针对同义词、近义词、通配符的提取规则。
所述表格化数据提取单元进一步包括第二特征库模块,使用数据管理方式对文档和表格提取单元的所有特征进行集中管理,所述第二特征库能够提供特征库查询、特征库导入和导出、特征库删除等功能。
在一种优选实施方式中,所述第二特征自学习模块,对现有特征无法识别的表格,通过一个自学习模块以“反复试错”的方式来建立一个自动训练、即时反馈和自动建立模型的工作机制,从而形成一个全新的识别规则以适配新的表格化数据提取。
特征自学习模块根据相似度较高的特征去尝试提取无法表格化数据提取的表格,如果提取率低于一个设定的阈值,则按照随机的方式进行选择;
具体地,所述第二特征自学习模块针对无法提取的表格数据,根据第二特征自学习模型中相似度高于第三阈值的特征规则去尝试识别无法提取的表格数据;如果不存在相似度高于第三阈值的的特征规则,则按照随机的方式选择所述第二特征自学习模型中的特征规则;
所述第二特征自学习模块,根据尝试提取的结果进行评价,提取率达到设定的阈值就认为本次尝试达到预期,将结果反馈到特征自学习模块进行模型的自学习正向改进。如果提取率低于设定的阈值就认为本次尝试未达到预期,将结果反馈到特征自学习模块进行模型的自学习负向改进。具体地,可以接收反馈信息,基于所述反馈信息确定提取准确率,如果提取准确率大于或等于设定的第四阈值,则将结果反馈到第二特征自学习模块进行模型的自学习正向改进;如果识别准确率低于设定的第四阈值,将结果反馈到第二特征自学习模块进行模型的自学习负向改进。经过特征自学习模块的多轮尝试后,再加入人工评价和确认后,本次的特征自学习完成,将相应的特征加入到特征库中。
所述多个不同类型的文档处理单元进一步包括:PDF处理单元,WORD处理单元,EXCEL处理单元,图片处理单元。
所述PDF处理单元,针对需要进行文档传输和保存的环境中产生的PDF文档的特点进行针对性的处理,完成PDF处理后由文档和表格识别单元、表格化数据提取单元完成后续处理步骤。
所述PDF处理单元执行的针对性的处理包括:
多层文本重叠处理:通过分层文本重建技术,实现了按照层次读取后合并处理的效果。
文本读取乱序处理:通过文本区域坐标重建技术,实现了读取结果与视图结果的一致。
文本边框越界处理:通过线框合并技术,实现了文本区域超过表格框时的正确提取。
文件压缩处理: 针对特定场景下对文档的文件大小要求,进行文件压缩处理。
所述多个不同类型的文档处理单元进一步还包括:WORD处理单元,针对需要进行文档传输和保存的环境中产生的WORD文档的特点进行针对性的处理,完成WORD处理后由文档和表格识别单元、表格化数据提取单元完成后续处理步骤。
所述WORD处理单元执行的针对性的处理包括:
文档批注处理:通过批注合并提取技术,实现了同一个区域文本和批注数据后合并处理的效果。
尺寸形变处理:通过分区域缩放技术,实现了相同样式的WORD文档由于尺寸发生变化时的适应性处理。
兼容性处理:通过版本转换技术,实现了不同操作系统和不同版本的WORD文档采用同一套提取方法的效果。
文件压缩处理: 针对特定场景下对文档的文件大小要求,进行文件压缩处理。
所述多个不同类型的文档处理单元进一步还包括:EXCEL处理单元,针对需要进行文档传输和保存的环境中产生的EXCEL文档的特点进行针对性的处理,完成EXCEL处理后由文档和表格识别单元、表格化数据提取单元完成后续处理步骤。所述EXCEL处理单元执行的针对性的处理包括:
多工作表处理:通过多工作表合并技术,实现了多个工作表按顺序合并的效果
文档批注处理:通过批注合并提取技术,实现了同一个区域文本和批注数据后合并处理的效果。
尺寸形变处理:通过分区域缩放技术,实现了相同样式的EXCEL文档由于尺寸发生变化时的适应性处理。
兼容性处理:通过版本转换技术,实现了不同操作系统和不同版本的EXCEL文档采用同一套提取方法的效果。
文件压缩处理: 针对特定场景下对文档的文件大小要求,进行文件压缩处理。
所述多个不同类型的文档处理单元进一步还包括:图片处理单元,针对需要进行文档传输和保存的环境中产生的图片类文档的特点进行针对性的处理,完成图片处理后由文档和表格识别单元、表格化数据提取单元完成后续处理步骤。所述图片处理单元执行的针对性的处理包括:
图片处理:通过图片预处理技术,实现图片反转、倾斜矫正、分割、模糊、旋转、裁剪、亮度、对比度、二值化、灰度等处理,提高图片类型文档的识别准确率和效率。
表格分离和绘制处理:针对应用场景中文档的复杂表格,通过表格分离技术基于分离规则将待识别和提取的文本区域图片和表格线条进行分离,识别和提取文本区域图片的区域、结构和位置特征,识别和提取表格线条的区域、结构和位置特征。通过表格绘制技术基于绘制规则将待识别和提取的文本区域图片和表格线条,按照表格分离提取的特征绘制为PDF类型的文档。对现有特征无法分离和绘制的表格,通过一个自学习模块以“反复试错”的方式来建立一个自动训练、即时反馈和自动建立模型的工作机制,从而形成一个全新的分离和绘制规则以适配新的表格分离和绘制处理。
文件压缩处理: 针对特定场景下对文档的文件大小要求,进行文件压缩处理。
本发明引入的多类型的文档检测能够不依赖于任何显式数据(如:文件后缀名)探测出多种文档的类型和质量情况,自动处理由于不同操作系统、不同软件产生的文档差异和文档质量问题,提升了文档识别和提取的通用性和兼容性。本发明的文档并行处理也能够针对需要数据录入、交换及分享的环境中产生的多种类型文档的不同特点进行规则化的处理,提高了不同类型文档的数据识别和提取的准确率。本发明在多种类型文档的数据识别和提取工作过程中,降低了规则生成的复杂度,提高了规则生成的效率,促进了需要数据录入、交换及分享的环境中数据录入、数据交换、数据共享等作业的快速开展。
在另一种实施方式中,本发明还提供一种文档和表格数据的识别和提取方法,其特征在于,所述方法包括:
步骤1,对接收的文档和表格数据进行分类,
步骤2,分别对分类后的各类所述文档和表格数据进行预处理;
步骤3,建立需要识别的文档和表格数据的第一特征规则,依据所述第一特征规则对所述文档和表格数据进行识别;
步骤4,判断是否存在特征规则无法分离和绘制的文档和表格数据,如果是,则根据第一特征自学习模型中相似度高于第一阈值的的特征规则去尝试识别无法分离和绘制的文档和表格数据;
步骤5,建立需要提取的文档和表格数据的第二特征规则,依据所述第二特征规则对所述文档和表格数据进行提取;
步骤6,判断是否存在无法提取的表格数据,如果是,则根据第二特征自学习模型中相似度高于第二阈值的的特征规则去尝试提取无法提取的表格数据。
具体地,步骤1具体包括
步骤11,接收文档和表格数据;
步骤12,建立文档和表格数据的多个镜像数据;
步骤13,采用并行镜像探测技术,并行应用多个检测规则一一作用与多个镜像数据,所述检测规则包括不同类型和文档的数据特征、类型特征、版本特征、状态特征;
步骤14,当存在无法探测和识别完整的文档和表格数据时,通过第三特征自学习模型中相似度高于预定阈值的特征规则去尝试探测无法探测和识别完整的文档和表格数据。
具体地,步骤1还包括
步骤15,判断是否存在错误、损坏或故障的文档和表格数据,如果是,则读取原始数据后重新生成修复后的文档和表格数据。
具体地,步骤3具体包括
步骤31,按照第一特征库模块提供的文档特征和表格特征来建立需要识别的文档和表格数据的第一特征规则,其中所述第一特征规则包括:标题特征规则、页眉和页脚特征规则、行特征规则、列特征规则、单元格特征规则、线条特征规则;
步骤32,依据所述第一特征规则对所述文档和表格数据进行识别。
具体地,步骤4具体包括
步骤41,判断是否存在特征规则无法分离和绘制的文档和表格数据,如果是,则根据第一特征自学习模型中相似度高于第一阈值的特征规则去尝试识别无法分离和绘制的文档和表格数据;如果不存在相似度高于第一阈值的的特征规则,则按照随机的方式选择所述第一特征自学习模型中的特征规则;
步骤42,接收反馈信息,基于所述反馈信息确定识别准确率,如果识别准确率大于或等于设定的第二阈值,则将结果反馈到第一特征自学习模块进行模型的自学习正向改进;如果识别准确率低于设定的第二阈值,将结果反馈到第一特征自学习模块进行模型的自学习负向改进。
具体地,步骤5具体包括
步骤51,按照第二特征库模块提供的文档特征和表格特征来建立需要提取的文档和表格数据的第二特征规则;所述第二特征规则包括:表格区域提取规则、文档尺寸形变提取表格区域提取规则、表头和表元提取规则、字典提取规则、相似提取规则;
步骤52,依据所述第二特征规则对所述文档和表格数据进行提取。
具体地,步骤6具体包括
步骤61,判断是否存在无法提取的表格数据,如果是,则根据第二特征自学习模型中相似度高于第三阈值的特征规则去尝试识别无法提取的表格数据;如果不存在相似度高于第三阈值的的特征规则,则按照随机的方式选择所述第二特征自学习模型中的特征规则;
步骤62,接收反馈信息,基于所述反馈信息确定提取准确率,如果提取准确率大于或等于设定的第四阈值,则将结果反馈到第二特征自学习模块进行模型的自学习正向改进;如果识别准确率低于设定的第四阈值,将结果反馈到第二特征自学习模块进行模型的自学习负向改进。
本发明还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如上所述的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质可以包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、闪存、可擦式可编程只读存储器(EPROM)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码。
以上说明只是为了方便理解本发明而举出的例子,不用于限定本发明的范围。在具体实现时,本领域技术人员可以根据实际情况对装置的部件进行变更、增加、减少,在不影响方法所实现的功能的基础上可以根据实际情况对方法的步骤进行变更、增加、减少或改变顺序。
尽管已经示出和描述了本发明的实施例,本领域技术人员应当理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同替换所限定,在未经创造性劳动所作的改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种文档和表格数据的识别和提取方法,其特征在于,所述方法包括:
步骤1,对接收的文档和表格数据进行分类,
步骤2,分别对分类后的各类所述文档和表格数据进行预处理;
步骤3,建立需要识别的文档和表格数据的第一特征规则,依据所述第一特征规则对所述文档和表格数据进行识别;
步骤4,判断是否存在特征规则无法分离和绘制的文档和表格数据,如果是,则根据第一特征自学习模型中相似度高于第一阈值的的特征规则去尝试识别无法分离和绘制的文档和表格数据;
步骤5,建立需要提取的文档和表格数据的第二特征规则,依据所述第二特征规则对所述文档和表格数据进行提取;
步骤6,判断是否存在无法提取的表格数据,如果是,则根据第二特征自学习模型中相似度高于第二阈值的的特征规则去尝试提取无法提取的表格数据。
2.根据权利要求1所述的方法,其特征在于,步骤1具体包括
步骤11,接收文档和表格数据;
步骤12,建立文档和表格数据的多个镜像数据;
步骤13,采用并行镜像探测技术,并行应用多个检测规则一一作用与多个镜像数据,所述检测规则包括不同类型和文档的数据特征、类型特征、版本特征、状态特征;
步骤14,当存在无法探测和识别完整的文档和表格数据时,通过第三特征自学习模型中相似度高于预定阈值的检测规则去尝试探测无法探测和识别完整的文档和表格数据。
3.根据权利要求1所述的方法,其特征在于,步骤1还包括
步骤15,判断是否存在错误、损坏或故障的文档和表格数据,如果是,则读取原始数据后重新生成修复后的文档和表格数据。
4.根据权利要求1所述的方法,其特征在于,步骤4具体包括
步骤41,判断是否存在特征规则无法分离和绘制的文档和表格数据,如果是,则根据第一特征自学习模型中相似度高于第一阈值的特征规则去尝试识别无法分离和绘制的文档和表格数据;如果不存在相似度高于第一阈值的的特征规则,则按照随机的方式选择所述第一特征自学习模型中的特征规则;
步骤42,接收反馈信息,基于所述反馈信息确定识别准确率,如果识别准确率大于或等于设定的第二阈值,则将结果反馈到第一特征自学习模块进行模型的自学习正向改进;如果识别准确率低于设定的第二阈值,将结果反馈到第一特征自学习模块进行模型的自学习负向改进。
5.根据权利要求1所述的方法,其特征在于,步骤6具体包括
步骤61,判断是否存在无法提取的表格数据,如果是,则根据第二特征自学习模型中相似度高于第三阈值的特征规则去尝试识别无法提取的表格数据;如果不存在相似度高于第三阈值的的特征规则,则按照随机的方式选择所述第二特征自学习模型中的特征规则;
步骤62,接收反馈信息,基于所述反馈信息确定提取准确率,如果提取准确率大于或等于设定的第四阈值,则将结果反馈到第二特征自学习模块进行模型的自学习正向改进;如果识别准确率低于设定的第四阈值,将结果反馈到第二特征自学习模块进行模型的自学习负向改进。
6.一种文档和表格数据的识别和提取的系统,其特征在于,所述系统包括:文档分类单元,文档和表格识别单元,表格化数据提取单元,以及多个不同类型的文档处理单元;
所述文档分类单元,用于对接收的文档和表格数据进行分类,
所述多个不同类型的文档处理单元,用于分别对分类后的各类所述文档和表格数据进行预处理;
所述文档和表格识别单元,用于建立需要识别的文档和表格数据的第一特征规则,依据所述第一特征规则对所述文档和表格数据进行识别;判断是否存在特征无法分离和绘制的文档和表格数据,如果是,则根据第一特征自学习模型中相似度高于第一阈值的的特征规则去尝试识别无法分离和绘制的文档和表格数据;
所述表格化数据提取单元,用于建立需要提取的文档和表格数据的第二特征规则,依据所述第二特征规则对所述文档和表格数据进行提取;判断是否存在无法提取的表格数据,如果是,则根据第二特征自学习模型中相似度高于第二阈值的的特征规则去尝试提取无法提取的表格数据。
7.根据权利要求6所述的系统,其特征在于,所述文档分类单元,进一步包含文档接收模块,文档探测模块以及文档分发模块;
所述文档接收模块,用于接收文档和表格数据;
所述文档探测模块,用于采用并行镜像探测技术,并行应用多个检测规则一一作用与多个镜像数据,所述检测规则包括不同类型和文档的数据特征、类型特征、版本特征、状态特征;以及用于当存在无法探测和识别完整的文档和表格数据时,通过第三特征自学习模型中相似度高于预定阈值的检测规则去尝试探测无法探测和识别完整的文档和表格数据。
8.根据权利要求7所述的系统,其特征在于,
所述文档探测模块,用于判断是否存在错误、损坏或故障的文档和表格数据,如果是,则读取原始数据后重新生成修复后的文档和表格数据。
9.根据权利要求7所述的系统,其特征在于,所述所述文档和表格识别单元还包含特征化数据识别模块,第一特征库模块,第一特征自学习模块;
所述第一特征自学习模块,用于针对特征规则无法分离和绘制的文档和表格数据,根据第一特征自学习模型中相似度高于第一阈值的特征规则去尝试识别无法分离和绘制的文档和表格数据;如果不存在相似度高于第一阈值的的特征,则按照随机的方式选择所述第一特征自学习模型中的特征规则;
所述第一特征自学习模块,还用于接收反馈信息,基于所述反馈信息确定识别准确率,如果识别准确率大于或等于设定的第三阈值,则将结果反馈到第一特征自学习模块进行模型的自学习正向改进;如果识别准确率低于设定的第三阈值,将结果反馈到第一特征自学习模块进行模型的自学习负向改进。
10.根据权利要求6所述的系统,其特征在于,所述表格化数据提取单元包括特征化数据提取模块,第二特征库模块,第二特征自学习模块;
所述第二特征自学习模块,用于针对无法提取的表格数据,根据第二特征自学习模型中相似度高于第三阈值的特征规则去尝试识别无法提取的表格数据;如果不存在相似度高于第三阈值的的特征规则,则按照随机的方式选择所述第二特征自学习模型中的特征规则;
所述第二特征自学习模块,还用于接收反馈信息,基于所述反馈信息确定提取准确率,如果提取准确率大于或等于设定的第四阈值,则将结果反馈到第二特征自学习模块进行模型的自学习正向改进;如果识别准确率低于设定的第四阈值,将结果反馈到第二特征自学习模块进行模型的自学习负向改进。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010281837.3A CN111507230A (zh) | 2020-04-11 | 2020-04-11 | 一种文档和表格数据的识别和提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010281837.3A CN111507230A (zh) | 2020-04-11 | 2020-04-11 | 一种文档和表格数据的识别和提取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111507230A true CN111507230A (zh) | 2020-08-07 |
Family
ID=71863962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010281837.3A Pending CN111507230A (zh) | 2020-04-11 | 2020-04-11 | 一种文档和表格数据的识别和提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111507230A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115932A (zh) * | 2020-08-19 | 2020-12-22 | 泰康保险集团股份有限公司 | 文本提取方法、装置、电子设备及存储介质 |
CN112381089A (zh) * | 2020-11-20 | 2021-02-19 | 山西同方知网数字出版技术有限公司 | 一种复杂环境下的自反馈文本分离方法及系统 |
CN115659934A (zh) * | 2022-12-09 | 2023-01-31 | 泰盈科技集团股份有限公司 | 一种表格文档中不同工作表列数据计算存储的方法 |
CN116757807A (zh) * | 2023-08-14 | 2023-09-15 | 湖南华菱电子商务有限公司 | 一种基于光学字符识别的智能辅助评标方法 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5502777A (en) * | 1993-06-30 | 1996-03-26 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for recognizing table and figure having many lateral and longitudinal lines |
JP2002202984A (ja) * | 2000-11-02 | 2002-07-19 | Fujitsu Ltd | ルールベースモデルに基づくテキスト情報自動分類装置 |
US20050134935A1 (en) * | 2003-12-19 | 2005-06-23 | Schmidtler Mauritius A.R. | Automatic document separation |
US20060288268A1 (en) * | 2005-05-27 | 2006-12-21 | Rage Frameworks, Inc. | Method for extracting, interpreting and standardizing tabular data from unstructured documents |
US20140195891A1 (en) * | 2013-01-04 | 2014-07-10 | Cognizant Technology Solutions India Pvt. Ltd. | System and method for automatically extracting multi-format data from documents and converting into xml |
CN105045769A (zh) * | 2015-06-01 | 2015-11-11 | 中国人民解放军装备学院 | 一种基于结构识别的Web表格信息抽取方法 |
JP2016126796A (ja) * | 2014-12-27 | 2016-07-11 | 株式会社 ハンモック | 活字ocrシステム |
CN106951400A (zh) * | 2017-02-06 | 2017-07-14 | 北京因果树网络科技有限公司 | 一种pdf文件的信息抽取方法及装置 |
CN108614898A (zh) * | 2018-05-10 | 2018-10-02 | 爱因互动科技发展(北京)有限公司 | 文档解析方法与装置 |
CN108734089A (zh) * | 2018-04-02 | 2018-11-02 | 腾讯科技(深圳)有限公司 | 识别图片文件中表格内容的方法、装置、设备及存储介质 |
CN109684457A (zh) * | 2018-12-27 | 2019-04-26 | 清华大学 | 一种个股公告数据提取的方法及系统 |
CN110363102A (zh) * | 2019-06-24 | 2019-10-22 | 北京融汇金信信息技术有限公司 | 一种pdf文件的对象识别处理方法及装置 |
CN110413979A (zh) * | 2019-08-05 | 2019-11-05 | 金税桥大数据科技股份有限公司 | 基于图像识别技术的行业表格数字化处理方法 |
CN110472209A (zh) * | 2019-07-04 | 2019-11-19 | 重庆金融资产交易所有限责任公司 | 基于深度学习的表格生成方法、装置和计算机设备 |
CN110795919A (zh) * | 2019-11-07 | 2020-02-14 | 达而观信息科技(上海)有限公司 | 一种pdf文档中的表格抽取方法、装置、设备及介质 |
CN110889310A (zh) * | 2018-09-07 | 2020-03-17 | 上海怀若智能科技有限公司 | 金融文档信息智能提取系统及方法 |
-
2020
- 2020-04-11 CN CN202010281837.3A patent/CN111507230A/zh active Pending
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5502777A (en) * | 1993-06-30 | 1996-03-26 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for recognizing table and figure having many lateral and longitudinal lines |
JP2002202984A (ja) * | 2000-11-02 | 2002-07-19 | Fujitsu Ltd | ルールベースモデルに基づくテキスト情報自動分類装置 |
US20050134935A1 (en) * | 2003-12-19 | 2005-06-23 | Schmidtler Mauritius A.R. | Automatic document separation |
US20060288268A1 (en) * | 2005-05-27 | 2006-12-21 | Rage Frameworks, Inc. | Method for extracting, interpreting and standardizing tabular data from unstructured documents |
US20140195891A1 (en) * | 2013-01-04 | 2014-07-10 | Cognizant Technology Solutions India Pvt. Ltd. | System and method for automatically extracting multi-format data from documents and converting into xml |
JP2016126796A (ja) * | 2014-12-27 | 2016-07-11 | 株式会社 ハンモック | 活字ocrシステム |
CN105045769A (zh) * | 2015-06-01 | 2015-11-11 | 中国人民解放军装备学院 | 一种基于结构识别的Web表格信息抽取方法 |
CN106951400A (zh) * | 2017-02-06 | 2017-07-14 | 北京因果树网络科技有限公司 | 一种pdf文件的信息抽取方法及装置 |
CN108734089A (zh) * | 2018-04-02 | 2018-11-02 | 腾讯科技(深圳)有限公司 | 识别图片文件中表格内容的方法、装置、设备及存储介质 |
CN108614898A (zh) * | 2018-05-10 | 2018-10-02 | 爱因互动科技发展(北京)有限公司 | 文档解析方法与装置 |
CN110889310A (zh) * | 2018-09-07 | 2020-03-17 | 上海怀若智能科技有限公司 | 金融文档信息智能提取系统及方法 |
CN109684457A (zh) * | 2018-12-27 | 2019-04-26 | 清华大学 | 一种个股公告数据提取的方法及系统 |
CN110363102A (zh) * | 2019-06-24 | 2019-10-22 | 北京融汇金信信息技术有限公司 | 一种pdf文件的对象识别处理方法及装置 |
CN110472209A (zh) * | 2019-07-04 | 2019-11-19 | 重庆金融资产交易所有限责任公司 | 基于深度学习的表格生成方法、装置和计算机设备 |
CN110413979A (zh) * | 2019-08-05 | 2019-11-05 | 金税桥大数据科技股份有限公司 | 基于图像识别技术的行业表格数字化处理方法 |
CN110795919A (zh) * | 2019-11-07 | 2020-02-14 | 达而观信息科技(上海)有限公司 | 一种pdf文档中的表格抽取方法、装置、设备及介质 |
Non-Patent Citations (1)
Title |
---|
秦振海;谭守标;徐超;: "基于Web的表格信息抽取研究", 计算机技术与发展, no. 02 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115932A (zh) * | 2020-08-19 | 2020-12-22 | 泰康保险集团股份有限公司 | 文本提取方法、装置、电子设备及存储介质 |
CN112115932B (zh) * | 2020-08-19 | 2023-11-14 | 泰康保险集团股份有限公司 | 文本提取方法、装置、电子设备及存储介质 |
CN112381089A (zh) * | 2020-11-20 | 2021-02-19 | 山西同方知网数字出版技术有限公司 | 一种复杂环境下的自反馈文本分离方法及系统 |
CN115659934A (zh) * | 2022-12-09 | 2023-01-31 | 泰盈科技集团股份有限公司 | 一种表格文档中不同工作表列数据计算存储的方法 |
CN115659934B (zh) * | 2022-12-09 | 2023-03-07 | 泰盈科技集团股份有限公司 | 一种表格文档中不同工作表列数据计算存储的方法 |
CN116757807A (zh) * | 2023-08-14 | 2023-09-15 | 湖南华菱电子商务有限公司 | 一种基于光学字符识别的智能辅助评标方法 |
CN116757807B (zh) * | 2023-08-14 | 2023-11-14 | 湖南华菱电子商务有限公司 | 一种基于光学字符识别的智能辅助评标方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111507230A (zh) | 一种文档和表格数据的识别和提取方法及系统 | |
CN109933756B (zh) | 基于ocr的图像转档方法、装置、设备及可读存储介质 | |
CN109858036B (zh) | 一种文书划分方法及装置 | |
US9275307B2 (en) | Method and system for automatic selection of one or more image processing algorithm | |
CN111797630B (zh) | 一种面向pdf格式论文的生物医学实体识别方法 | |
CN104636322A (zh) | 一种文本复制的方法及装置 | |
CN113011144A (zh) | 表单信息的获取方法、装置和服务器 | |
CN113221711A (zh) | 一种信息提取方法及装置 | |
CN114821612B (zh) | 一种证券期货场景下pdf文档的信息抽取方法和系统 | |
FI20176151A1 (en) | A heuristic method for analyzing the contents of an electronic document | |
CN114036909A (zh) | Pdf文档跨页表格合并方法、装置及相关设备 | |
CN111859885A (zh) | 一种法律判决书自动生成方法及系统 | |
CN115828874A (zh) | 基于图像识别技术的行业表格数字化处理方法 | |
CN102467664B (zh) | 辅助光学字符识别的方法和装置 | |
CN112380812B (zh) | Pdf不完整框线表格提取方法、装置、设备及存储介质 | |
CN113269101A (zh) | 一种票据识别方法、装置和设备 | |
CN111291535A (zh) | 剧本处理方法、装置、电子设备及计算机可读存储介质 | |
US20230315799A1 (en) | Method and system for extracting information from input document comprising multi-format information | |
CN110363667A (zh) | 基于ai的订单融资处理方法、装置、计算机设备及存储介质 | |
CN116029280A (zh) | 一种文档关键信息抽取方法、装置、计算设备和存储介质 | |
CN114911753A (zh) | 一种演示文档的生成方法、装置、电子设备及存储介质 | |
CN109739981B (zh) | 一种pdf文件类别判定方法及文字提取方法 | |
CN113779218B (zh) | 问答对构建方法、装置、计算机设备和存储介质 | |
CN117496542B (zh) | 文档信息提取方法、装置、电子设备和存储介质 | |
CN110717091B (zh) | 基于人脸识别的词条数据扩充方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |