CN109670477B - 面向pdf表格的自动识别系统和方法 - Google Patents

面向pdf表格的自动识别系统和方法 Download PDF

Info

Publication number
CN109670477B
CN109670477B CN201811627644.8A CN201811627644A CN109670477B CN 109670477 B CN109670477 B CN 109670477B CN 201811627644 A CN201811627644 A CN 201811627644A CN 109670477 B CN109670477 B CN 109670477B
Authority
CN
China
Prior art keywords
pdf
data
file
automatic identification
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811627644.8A
Other languages
English (en)
Other versions
CN109670477A (zh
Inventor
张长虹
冯卫强
张友豪
罗万昆
王瑞
贺晓燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Financial China Information & Technology Co ltd
Original Assignee
Shanghai Financial China Information & Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Financial China Information & Technology Co ltd filed Critical Shanghai Financial China Information & Technology Co ltd
Priority to CN201811627644.8A priority Critical patent/CN109670477B/zh
Publication of CN109670477A publication Critical patent/CN109670477A/zh
Application granted granted Critical
Publication of CN109670477B publication Critical patent/CN109670477B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

本发明提供一种面向PDF表格的自动识别系统和方法,扫描PDF格式的报表,识别出PDF文件中的表格内容、文字内容;完整保留原始表格样式,根据业务需求解析表格内容,对原始表格样式进行调整,得到调整后表格样式;自动识别表格内容中的文本和表头,以结构化形式输出,对得到的结构化入库数据进行筛选,根据业务需求过滤无效信息,校验表头各个科目数据的业务平衡性,得到校验合格数据并录入数据库;根据原始表格样式或者调整后表格样式对校验合格数据进行展示,并提供表格下载,得到excel格式的表格。实现PDF公告文件中表格的自动识别,结合实际金融业务处理的需求对表格进行个性化调整,解决现阶段数据快速增长报表处理速度问题。

Description

面向PDF表格的自动识别系统和方法
技术领域
本发明涉及数字媒体加工技术领域,具体地,涉及面向PDF表格的自动识别系统和方法。
本发明涉及加工技术领域,更具体的说,涉及解析PDF文件方法及系统。
背景技术
互联网的飞速发展催生了大数据时代的来临,数据信息庞大且繁杂,其中金融行业一直是大数据的重要产生者和消费者。随着上市公司、发债机构的大量增加,导致每天需要处理的信息呈爆发式增长,原有的手工+程序处理方式,已经远远无法达到现阶段的要求,其中就有财务PDF公告的信息处理。
Solid Converter是一套专门将PDF文件转换成DOC的软件,除了转换成DOC文件外,还可以转换成RTF以及Word XML文件。除此之外,Solid Converter还有一个图片撷取功能,可以让我们将PDF档里的图片撷取出来,以及将PDF档里的表格撷取出来,并输出到Excel里,方便我们编辑表格里的资料。
但对于比较复杂的企业财务信息,不仅要把表格撷取出来,还要满足金融行业实际的业务需求对表格进行分析,并且能够快速、准确识别处理文件中的表格、文字、图片等内容,满足不断快速增长的数据处理需求。因此需要提供一种能够自动识别PDF表格,且实现金融业务处理,解决现阶段数据快速增长系统处理速度的问题。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种面向PDF表格的自动识别系统和方法。
根据本发明提供的一种面向PDF表格的自动识别系统,包括:
识别表格模块:扫描PDF格式的报表,识别出PDF文件中的表格内容、文字内容;
抽取表格模块:完整保留原始表格样式,根据业务需求解析表格内容,对原始表格样式进行调整,得到调整后表格样式;
识别文字模块:自动识别表格内容中的文本和表头,将文本和表头以结构化形式输出,得到结构化入库数据;
筛选校验模块:对结构化入库数据进行筛选,根据业务需求过滤无效信息,校验表头各个科目数据的业务平衡性,得到校验合格数据并录入数据库;
表格展示模块:根据原始表格样式或者调整后表格样式对校验合格数据进行展示,并提供表格下载,得到excel格式的表格。
优选地,所述扫描PDF格式的报表是通过二进制读取的方式进行,根据读取得到的一个或多个内容流,进行创建虚拟内容流,并对虚拟内容流创建内容索引号,每个内容流通过关键字参数顶到到所需的内容索引号。
优选地,所述调整后表格样式是通过对原始表格样式的合并与补全,采用全局阈值和动态阈值相结合实现图像区域和背景区域的分割。
优选地,所述识别表格内容基于深度学习,深度学习通过财务报表数据库进行。
优选地,所述无效信息是根据财务报表的业务需求判定得出的重复数据或者不必要数据。
根据本发明提供的一种面向PDF表格的自动识别方法,包括:
识别表格步骤:扫描PDF格式的报表,识别出PDF文件中的表格内容、文字内容;
抽取表格步骤:完整保留原始表格样式,根据业务需求解析表格内容,对原始表格样式进行调整,得到调整后表格样式;
识别文字步骤:自动识别表格内容中的文本和表头,将文本和表头以结构化形式输出,得到结构化入库数据;
筛选校验步骤:对结构化入库数据进行筛选,根据业务需求过滤无效信息,校验表头各个科目数据的业务平衡性,得到校验合格数据并录入数据库;
表格展示步骤:根据原始表格样式或者调整后表格样式对校验合格数据进行展示,并提供表格下载,得到excel格式的表格。
与现有技术相比,本发明具有如下的有益效果:
1、实现PDF公告文件中表格的自动识别,结合实际金融业务处理的需求对表格进行个性化调整,解决现阶段数据快速增长报表处理速度的问题;
2、PDF识别速度大幅提高,一个PDF由原来的2-5分钟,缩短至10秒左右,可识别虚线图片表格;
3、支持个性化的表格样式调整,实现各类财务报表中图片的快速识别和结构化入库。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为PDF表格的自动识别系统流程图;
图2为PDF表格抽取后的实现效果示意图;
图3为本发明的实现效果示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明实现PDF公告文件中表格的自动识别,结合实际金融业务处理的需求对表格进行个性化调整,解决现阶段数据快速增长系统处理速度的问题,同时提升公司处理季度、年度财务报告的能力,节省公司人力成本,提升效率,为客户提供更高效、及时、准确的相关数据服务。
根据本发明提供的一种面向PDF表格的自动识别系统,包括:
识别表格模块:扫描PDF格式的报表,识别出PDF文件中的表格内容、文字内容;
抽取表格模块:完整保留原始表格样式,根据业务需求解析表格内容,对原始表格样式进行调整,得到调整后表格样式;
识别文字模块:自动识别表格内容中的文本和表头,将文本和表头以结构化形式输出,得到结构化入库数据;
筛选校验模块:对结构化入库数据进行筛选,根据业务需求过滤无效信息,校验表头各个科目数据的业务平衡性,得到校验合格数据并录入数据库;
表格展示模块:根据原始表格样式或者调整后表格样式对校验合格数据进行展示,并提供表格下载,得到excel格式的表格。
具体地,所述扫描PDF格式的报表是通过二进制读取的方式进行,根据读取得到的一个或多个内容流,进行创建虚拟内容流,并对虚拟内容流创建内容索引号,每个内容流通过关键字参数顶到到所需的内容索引号。
具体地,所述调整后表格样式是通过对原始表格样式的合并与补全,采用全局阈值和动态阈值相结合实现图像区域和背景区域的分割。
具体地,所述识别表格内容基于深度学习,深度学习通过财务报表数据库进行。
具体地,所述无效信息是根据财务报表的业务需求判定得出的重复数据或者不必要数据。
根据本发明提供的一种面向PDF表格的自动识别方法,包括:
识别表格步骤:扫描PDF格式的报表,识别出PDF文件中的表格内容、文字内容;
抽取表格步骤:完整保留原始表格样式,根据业务需求解析表格内容,对原始表格样式进行调整,得到调整后表格样式;
识别文字步骤:自动识别表格内容中的文本和表头,将文本和表头以结构化形式输出,得到结构化入库数据;
筛选校验步骤:对结构化入库数据进行筛选,根据业务需求过滤无效信息,校验表头各个科目数据的业务平衡性,得到校验合格数据并录入数据库;
表格展示步骤:根据原始表格样式或者调整后表格样式对校验合格数据进行展示,并提供表格下载,得到excel格式的表格。
本发明提供的面向PDF表格的自动识别系统,可以通过面向PDF表格的自动识别方法的步骤流程实现。本领域技术人员可以将面向PDF表格的自动识别方法理解为所述面向PDF表格的自动识别系统的优选例。
PDF文件格式以其安全可靠,易于交换,及保真度高而成为电子文档的标准。本发明主要面向PDF文档,对特定内容的检索、识别、抽取、筛选、校验、入库等,以二进制读取的方式对文件进行解析,并通过遍历所有的对象及流对象,构建PDF页内容,解析PDF页面上内容,最终将处理后的数据内容并入数据库。
如图1所示,本发明在PDF识别的实现方面,用于对企业按季度、年度披露的PDF格式的财务报表进行扫描,识别出PDF文件中的表格及文字内容;在表格抽取的实现方面,用于对PDF财务公告中的表格进行解析,完整保留原PDF财务公告中的表格样式,同时可以生成根据业务需求调整后的表格样式;在文字识别方面,自动识别PDF财务公告图片中的文字,结构化输出相关的文字内容及表头等内容;在数据筛选与校验方面,将表格抽取出的数据进行筛选,自动过滤无效信息,由于财务数据准确性要求非常高,需要对筛选出的数据进行数据校验,以保证数据的准确性。
在具体的实施过程中,由于扫描的是PDF文件,一个PDF文件从大的方面来说分4个部分,文件头、文件体、交叉引用表和文件尾。其中,文件头,指明了该文件所遵从的PDF规范的版本号,它出现在PDF文件的第一行。文件体,PDF文件的主要部分,由一系列对象组成。交叉引用表,为了能对间接对象进行随机存取而设立的一个间接对象的地址索引表。文件尾,声明了交叉引用表的地址,即指明了文件体的概对象(Catalog),从而能够找到PDF文件中各个对象体的位置,达到随机访问。另外还保存了PDF文件的加密等安全信息。程序以二进制读取的方式打开PDF文件(一次一个字节)。文件分析开始于检查头部签名和结尾签名。分析完成后,拥有所有的间接对象的数组,接下来遍历所有的对象,并处理流对象。程序读取和对象相关联的流,并分解流到多个间接对象上。程序跟随从根开始的页面树来构建页内容。页对象不是流对象,页对象字典有/Contents的键值对,程序将为来自于一个或多个内容流的页面创建虚拟的内容流。最后,程序从每个内容流通过关键字参数定位到所需内容索引号。然后进行表格抽取,通过动态提取处理及优化转换数据,过滤无效信息,提取表格及文本数据,智能判断合并与补全表格,识别虚线图片表格,构成PDF中完整表格样式。并采用自动全局阈值和动态阈值相结合的方法实现图像区域和背景区域的分割,优化对图片表格的识别。支持生成个性化表格样式,对表格进行拆分,以便根据实际的业务需求进行采集解析,并提高PDF识别的速度。实现效果如图2所示,图2中的左侧表格是PDF表格,右侧表格是经过处理的表格。在文字识别时,自动识别PDF财务公告图片中的文字,结构化输出相关的文字内容及表头等内容,基于深度学习技术,依托海量优质数据,提高精度,并实现各类财务报表图片的快速识别和结构化入库。实现效果可参考图3,图3的图片截图是参照百度云的文字识别,图3中的左侧表格是图片形式,右侧表格是经过转换后的内容生成财务表格的形式。在数据筛选与校验中,通过解析科目,检测其是否为必备科目,若已有必备科目,则跳过,动态提取处理转换的数据,过滤无效信息。同时对相关科目数据进行平衡校验,对主要财务数据进行勾稽关系校验,如资产负债表、现金流量表、利润表等,将校验合格的数据自动录入数据库。其中,科目是对财务相关的要素具体内容进行分类,如“应收账款”,“应付账款”等。必备科目一般以财务的三大报表为准,同时结合实际的业务判断是否需要加入其他财务要素,如需要则视为必备科目。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种面向PDF表格的自动识别系统,其特征在于,包括:
识别表格模块:扫描PDF格式的报表,识别出PDF文件中的表格内容、文字内容;
抽取表格模块:完整保留原始表格样式,根据业务需求解析表格内容,对原始表格样式进行调整,得到调整后表格样式;
识别文字模块:自动识别表格内容中的文本和表头,将文本和表头以结构化形式输出,得到结构化入库数据;
筛选校验模块:对结构化入库数据进行筛选,根据业务需求过滤无效信息,校验表头各个科目数据的业务平衡性,得到校验合格数据并录入数据库;
表格展示模块:根据原始表格样式或者调整后表格样式对校验合格数据进行展示,并提供表格下载,得到excel格式的表格;
PDF文件分为4个部分,文件头、文件体、交叉引用表和文件尾;其中,文件头,指明该PDF文件所遵从的PDF规范的版本号,出现在PDF文件的第一行;文件体,由多个对象组成;交叉引用表,为间接对象的地址索引表;文件尾,声明交叉引用表的地址,从而能够找到PDF文件中各个对象的位置;
面向PDF表格的自动识别系统以二进制读取的方式打开PDF文件进行文件分析;
文件分析开始于检查头部签名和结尾签名;
分析完成后,拥有所有的间接对象的数组,接下来遍历所有的对象,并处理流对象;
面向PDF表格的自动识别系统读取和对象相关联的流,并分解流到多个间接对象上;
面向PDF表格的自动识别系统跟随从根开始的页面树来构建页内容;页对象字典有/Contents的键值对,面向PDF表格的自动识别系统将为来自于一个或多个内容流的页面创建虚拟的内容流;
最后,面向PDF表格的自动识别系统从每个内容流通过关键字参数定位到所需内容索引号;
然后进行表格抽取,通过动态提取处理及优化转换数据,过滤无效信息,提取表格及文本数据,智能判断合并与补全表格,识别虚线图片表格,构成PDF中完整表格样式;并采用自动全局阈值和动态阈值相结合的方法实现图像区域和背景区域的分割,优化对图片表格的识别;
面向PDF表格的自动识别系统支持生成个性化表格样式,对表格进行拆分;
在文字识别时,自动识别PDF文件中的文字,结构化输出相关的内容,基于深度学习技术,实现各类财务报表图片的快速识别和结构化入库;在数据筛选与校验中,通过解析科目,检测其是否为必备科目,若已有必备科目,则跳过,动态提取处理转换的数据,过滤无效信息;同时对相关科目数据进行平衡校验,对主要财务数据进行勾稽关系校验,将校验合格的数据自动录入数据库;
其中,科目是对财务相关的要素具体内容进行分类;必备科目以财务的三大报表为准,同时结合实际的业务判断是否需要加入其他财务要素,如需要则视为必备科目。
2.根据权利要求1所述的面向PDF表格的自动识别系统,其特征在于,所述扫描PDF格式的报表是通过二进制读取的方式,根据读取得到的一个或多个内容流创建虚拟内容流,并对虚拟内容流创建内容索引号,每个内容流通过关键字参数定位到所需的内容索引号。
3.根据权利要求1所述的面向PDF表格的自动识别系统,其特征在于,所述调整后表格样式是通过对原始表格样式的合并与补全,采用全局阈值和动态阈值相结合实现图像区域和背景区域的分割。
4.根据权利要求1所述的面向PDF表格的自动识别系统,其特征在于,所述识别表格内容基于深度学习,深度学习通过财务报表数据库进行。
5.根据权利要求1所述的面向PDF表格的自动识别系统,其特征在于,所述无效信息是根据财务报表的业务需求判定得出的重复数据或者不必要数据。
6.一种面向PDF表格的自动识别方法,其特征在于,包括:
识别表格步骤:扫描PDF格式的报表,识别出PDF文件中的表格内容、文字内容;
抽取表格步骤:完整保留原始表格样式,根据业务需求解析表格内容,对原始表格样式进行调整,得到调整后表格样式;
识别文字步骤:自动识别表格内容中的文本和表头,将文本和表头以结构化形式输出,得到结构化入库数据;
筛选校验步骤:对结构化入库数据进行筛选,根据业务需求过滤无效信息,校验表头各个科目数据的业务平衡性,得到校验合格数据并录入数据库;
表格展示步骤:根据原始表格样式或者调整后表格样式对校验合格数据进行展示,并提供表格下载,得到excel格式的表格;
PDF文件分为4个部分,文件头、文件体、交叉引用表和文件尾;其中,文件头,指明该PDF文件所遵从的PDF规范的版本号,出现在PDF文件的第一行;文件体,由多个对象组成;交叉引用表,为间接对象的地址索引表;文件尾,声明交叉引用表的地址,从而能够找到PDF文件中各个对象的位置;
面向PDF表格的自动识别系统以二进制读取的方式打开PDF文件进行文件分析;
文件分析开始于检查头部签名和结尾签名;
分析完成后,拥有所有的间接对象的数组,接下来遍历所有的对象,并处理流对象;
面向PDF表格的自动识别系统读取和对象相关联的流,并分解流到多个间接对象上;
面向PDF表格的自动识别系统跟随从根开始的页面树来构建页内容;页对象字典有/Contents的键值对,面向PDF表格的自动识别系统将为来自于一个或多个内容流的页面创建虚拟的内容流;
最后,面向PDF表格的自动识别系统从每个内容流通过关键字参数定位到所需内容索引号;
然后进行表格抽取,通过动态提取处理及优化转换数据,过滤无效信息,提取表格及文本数据,智能判断合并与补全表格,识别虚线图片表格,构成PDF中完整表格样式;并采用自动全局阈值和动态阈值相结合的方法实现图像区域和背景区域的分割,优化对图片表格的识别;
面向PDF表格的自动识别系统支持生成个性化表格样式,对表格进行拆分;
在文字识别时,自动识别PDF文件中的文字,结构化输出相关的内容,基于深度学习技术,实现各类财务报表图片的快速识别和结构化入库;在数据筛选与校验中,通过解析科目,检测其是否为必备科目,若已有必备科目,则跳过,动态提取处理转换的数据,过滤无效信息;同时对相关科目数据进行平衡校验,对主要财务数据进行勾稽关系校验,将校验合格的数据自动录入数据库;
其中,科目是对财务相关的要素具体内容进行分类;必备科目以财务的三大报表为准,同时结合实际的业务判断是否需要加入其他财务要素,如需要则视为必备科目。
7.根据权利要求6所述的面向PDF表格的自动识别方法,其特征在于,所述扫描PDF格式的报表是通过二进制读取的方式,根据读取得到的一个或多个内容流创建虚拟内容流,并对虚拟内容流创建内容索引号,每个内容流通过关键字参数定位到所需的内容索引号。
8.根据权利要求6所述的面向PDF表格的自动识别方法,其特征在于,所述调整后表格样式是通过对原始表格样式的合并与补全,采用全局阈值和动态阈值相结合实现图像区域和背景区域的分割。
9.根据权利要求6所述的面向PDF表格的自动识别方法,其特征在于,所述识别表格内容基于深度学习,深度学习通过财务报表数据库进行。
10.根据权利要求6所述的面向PDF表格的自动识别方法,其特征在于,所述无效信息是根据财务报表的业务需求判定得出的重复数据或者不必要数据。
CN201811627644.8A 2018-12-28 2018-12-28 面向pdf表格的自动识别系统和方法 Active CN109670477B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811627644.8A CN109670477B (zh) 2018-12-28 2018-12-28 面向pdf表格的自动识别系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811627644.8A CN109670477B (zh) 2018-12-28 2018-12-28 面向pdf表格的自动识别系统和方法

Publications (2)

Publication Number Publication Date
CN109670477A CN109670477A (zh) 2019-04-23
CN109670477B true CN109670477B (zh) 2021-02-26

Family

ID=66147026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811627644.8A Active CN109670477B (zh) 2018-12-28 2018-12-28 面向pdf表格的自动识别系统和方法

Country Status (1)

Country Link
CN (1) CN109670477B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472209B (zh) * 2019-07-04 2024-02-06 深圳同奈信息科技有限公司 基于深度学习的表格生成方法、装置和计算机设备
CN115828874A (zh) * 2019-08-05 2023-03-21 金税桥大数据科技股份有限公司 基于图像识别技术的行业表格数字化处理方法
CN111209831A (zh) * 2019-12-31 2020-05-29 上海犀语科技有限公司 一种基于分类算法的文档表格内容识别方法及装置
CN111291302B (zh) * 2020-03-20 2023-06-27 成都药王科技股份有限公司 一种快速创建活动页面的方法
CN113159969A (zh) * 2021-05-17 2021-07-23 广州故新智能科技有限责任公司 一种金融长文本复核系统
CN115357160B (zh) * 2022-07-13 2023-10-27 北京庖丁科技有限公司 文档内容点选方法、装置、电子设备、介质和程序产品

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6757870B1 (en) * 2000-03-22 2004-06-29 Hewlett-Packard Development Company, L.P. Automatic table detection method and system
CN106649223A (zh) * 2016-12-23 2017-05-10 北京文因互联科技有限公司 基于自然语言处理的金融报告自动生成方法
CN107622233A (zh) * 2017-09-11 2018-01-23 畅捷通信息技术股份有限公司 一种表格识别方法、识别系统及计算机装置
CN108765324A (zh) * 2018-05-16 2018-11-06 上海爱优威软件开发有限公司 一种基于红外的图像处理方法及系统

Also Published As

Publication number Publication date
CN109670477A (zh) 2019-04-23

Similar Documents

Publication Publication Date Title
CN109670477B (zh) 面向pdf表格的自动识别系统和方法
US20210201016A1 (en) Classifying digital documents in multi-document transactions based on embedded dates
CN110889402A (zh) 一种基于深度学习的营业执照内容识别方法及系统
Cruz et al. Local binary patterns for document forgery detection
CN110929580A (zh) 一种基于ocr的财务报表信息快速提取方法及系统
US11769014B2 (en) Classifying digital documents in multi-document transactions based on signatory role analysis
US7310773B2 (en) Removal of extraneous text from electronic documents
AU2015203150A1 (en) System and method for data extraction and searching
US20210366055A1 (en) Systems and methods for generating accurate transaction data and manipulation
CN110909123B (zh) 一种数据提取方法、装置、终端设备及存储介质
US11010543B1 (en) Systems and methods for table extraction in documents
CN110543475A (zh) 一种基于机器学习的财务报表数据自动识别和分析方法
CN111078979A (zh) 一种基于ocr和文本处理技术识别网贷网站的方法及系统
WO2020071558A1 (ja) 帳票レイアウト解析装置、その解析プログラムおよびその解析方法
CN112434970A (zh) 一种基于智能数据采集的资质数据验证方法、装置
Rigaud et al. What do we expect from comic panel extraction?
CN115062117A (zh) 一种基于自然语言处理技术的文档自动生成分类的方法
CN112508000B (zh) 一种用于ocr图像识别模型训练数据生成的方法及设备
Heidari et al. Financial footnote analysis: developing a text mining approach
CN112418813A (zh) 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质
Vafaie et al. Handwritten and printed text identification in historical archival documents
Anagha et al. An automatic histogram detection and information extraction from document images
CN114115831A (zh) 数据处理方法、装置、设备和存储介质
CN113935296A (zh) 一种使用滑动模板技术进行纸质银行流水信息提取的方法
CN111986015A (zh) 提取财务信息用于记账的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zhang Changhong

Inventor after: Feng Weiqiang

Inventor after: Zhang Youhao

Inventor after: Luo Wankun

Inventor after: Wang Rui

Inventor after: He Xiaoyan

Inventor before: Zhang Changhong

Inventor before: Feng Weiqiang

Inventor before: Zhang Youhao

Inventor before: Luo Wankun

Inventor before: Wang Rui

Inventor before: He Xiaoyan

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230414

Address after: Room 2402, Anguo City Plaza Office, No. 99 Wangjiang West Road, Shushan District, Hefei City, Anhui Province, 230031

Patentee after: Hefei Da Zhi Cai Hui Data Technology Co.,Ltd.

Address before: Room 21501-21507, building 12, No. 498, GuoShouJing Road, pilot Free Trade Zone, Pudong New Area, Shanghai, 200120

Patentee before: SHANGHAI FINANCIAL CHINA INFORMATION & TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240119

Address after: Room 21501-21507, Building 12, No. 498 Guo Shoujing Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai, March 2012

Patentee after: SHANGHAI FINANCIAL CHINA INFORMATION & TECHNOLOGY Co.,Ltd.

Address before: Room 2402, Anguo City Plaza Office, No. 99 Wangjiang West Road, Shushan District, Hefei City, Anhui Province, 230031

Patentee before: Hefei Da Zhi Cai Hui Data Technology Co.,Ltd.