CN114626341A - 文档转换方法、装置及存储介质 - Google Patents
文档转换方法、装置及存储介质 Download PDFInfo
- Publication number
- CN114626341A CN114626341A CN202210229152.3A CN202210229152A CN114626341A CN 114626341 A CN114626341 A CN 114626341A CN 202210229152 A CN202210229152 A CN 202210229152A CN 114626341 A CN114626341 A CN 114626341A
- Authority
- CN
- China
- Prior art keywords
- document
- target
- target document
- classification
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种文档转换方法、装置及存储介质,其中方法包括:获取目标文档,目标文档为可携带文档格式PDF文档;对目标文档进行分类定级,确定目标文档对应的目标分类,目标分类为文字类型,表格类型,或光学字符识别OCR类型;根据目标分类对目标文档进行处理,获得目标文档对应的表格文档;对表格文档进行转换,获得目标文档对应的字符串报文。采用本申请实施例的方法,能够兼容不同类别的PDF文档的解析过程,实现PDF文档的高效率转换。
Description
技术领域
本申请涉及大数据处理技术领域,特别是涉及一种文档转换方法、装置及存储介质。
背景技术
可携带文档格式(Portable Document Format,PDF)文档用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。PDF文件以PostScript语言图像模型为基础,无论在哪种打印机上都可保证精确的颜色和准确的打印效果,即PDF会忠实地再现原稿的每一个字符、颜色以及图像。
由于PDF对应的特性,该种文档格式得到了广泛运用,例如税务、海关等政府部门在电子税务局上提供企业下载自己的历史数据,具体如申报数据、财报数据、报关单数据等,这些数据单多数采用表格形式提供数据内容。但也正是由于PDF对应的特性,使得PDF文档无法直接编辑或读取,需要进行进一步解析,将PDF转换为可编辑的文档格式。而在解析过程中,不同的PDF文档内容(包括签名、图片、表格、以及各类字体等等)具有不同的解析进程,目前现有的PDF转换工具,可以提供接口或者人工交互的方式,实现PDF文件中数据的解析,但是存在如下缺陷:很难有一个兼容的能够处理所有的PDF文档内容解析的工具;将PDF文档内容进行不同线路的转换(例如转换为Word、Excel等多类型格式),需要在不同工具之间切换尝试,耗费大量的时间。因此,需要提供一种更有效的PDF文档解析方式,能够兼容不同PDF文档内容的解析过程,高效率实现PDF文档的转换。
发明内容
本申请实施例提供了一种文档转换方法、装置及存储介质,通过对PDF文档分类定级,确定PDF文档对应的分类,然后根据分类将PDF文档统一解析为表格文档,最后转换成能够编辑读取的字符串报文,兼容了不同类别的PDF文档的解析过程,实现了PDF文档的高效率转换。
第一方面,提供了一种文档转换方法,该方法包括:获取目标文档,目标文档为可携带文档格式PDF文档;对目标文档进行分类定级,确定目标文档对应的目标分类,目标分类为文字类型,表格类型,或光学字符识别OCR类型;根据目标分类对目标文档进行处理,获得目标文档对应的表格文档;对表格文档进行转换,获得目标文档对应的字符串报文。
可见,在本申请实施例中,通过将PDF文档分类定级,确定PDF文档的分类,然后根据分类对PDF文档进行解析,获得对应的表格文档,也即是说,任何类型的PDF文档都能够完成解析过程,然后将获得的表格文档进行转换,获得字符串报文,字符串报文是可以编辑读取的文档,以便对转换后的PDF文档进行统一读取。实现了PDF文档的高效率转换。
在一个可能的示例中,对目标文档进行分类定级,确定目标文档对应的目标分类,包括:根据目标文档对应的数据源的分类定级确定目标文档的目标分类,数据源的分类定级包括按照业务范围分类定级,和/或按照组织机构分类定级。
在一个可能的示例中,根据目标分类对目标文档进行处理,获得目标文档对应的表格文档,包括:若目标文档的目标分类为表格模式,对目标文档采用第一解析工具进行结构化解析,获得目标文档对应的表格文档;和/或若目标文档的目标分类为OCR类型,则对目标文档采用第二解析工具进行OCR结构化识别,获得目标文档对应的表格文档;和/或若目标文档的目标分类为文字类型,则对目标文档采用第三解析工具进行文本解析,获得目标文档对应的表格文档。
在一个可能的示例中,该方法还包括:若采用第一解析工具进行结构化解析未获得目标文档对应的表格文档,则采用第二解析工具进行OCR结构化识别,获得目标文档对应的表格文档;若采用第二解析工具进行OCR结构化识别未获得目标文档对应的表格文档,则采用第三解析工具进行文本解析,获得目标文档对应的表格文档。
在一个可能的示例中,在对目标文档采用第二解析工具进行OCR工具进行结构化识别之前,方法还包括:将目标文档的目标分类确定为OCR类型,完成对目标文档的重新分类定级;和/或在对目标文档采用第三解析工具进行文本解析之前,该方法还包括:将目标文档的目标分类确定为文字类型,完成对目标文档的重新分类定级。
在一个可能的示例中,根据目标分类对目标文档进行处理,获得目标文档对应的表格文档,包括:根据目标分类对目标文档进行第一处理,获得目标文档对应的表格文档;对目标文档进行第二处理,获得目标文档对应的校验表格文档;该方法还包括:根据校验表格文档转换后的字符串报文对表格文档转换后的字符串报文进行正确性校验。
在一个可能的示例中,根据校验表格文档转换后的字符串报文对表格文档转换后的字符串报文进行正确性校验,包括:对表格文档转换后的字符串报文的数字内容进行校验,确定数字内容的字符类型正确性;和/或对表格文档转换后的字符串报文的关键项目进行校验,确定关键项目中包的数字内容与关键项目中包括的文本内容相匹配。
第二方面,提供了一种文档转换装置,其中包括:
获取单元,用于获取目标文档,目标文档为可携带文档格式PDF文档;
定级单元,用于对目标文档进行分类定级,确定目标文档对应的目标分类,目标分类为文字类型,表格类型,或光学字符识别OCR类型;
处理单元,用于根据目标分类对目标文档进行处理,获得目标文档对应的表格文档;
转换单元,用于对表格文档进行转换,获得目标文档对应的字符串报文。
在一个可能的示例中,对目标文档进行分类定级,确定目标文档对应的目标分类,包括:根据目标文档对应的数据源的分类定级确定目标文档的目标分类,数据源的分类定级包括按照业务范围分类定级,和/或按照组织机构分类定级。
在一个可能的示例中,根据目标分类对目标文档进行处理,获得目标文档对应的表格文档,包括:若目标文档的目标分类为表格模式,对目标文档采用第一解析工具进行结构化解析,获得目标文档对应的表格文档;和/或若目标文档的目标分类为OCR类型,则对目标文档采用第二解析工具进行OCR结构化识别,获得目标文档对应的表格文档;和/或若目标文档的目标分类为文字类型,则对目标文档采用第三解析工具进行文本解析,获得目标文档对应的表格文档。
在一个可能的示例中,处理单元还用于:若采用第一解析工具进行结构化解析未获得目标文档对应的表格文档,则采用第二解析工具进行OCR结构化识别,获得目标文档对应的表格文档;若采用第二解析工具进行OCR结构化识别未获得目标文档对应的表格文档,则采用第三解析工具进行文本解析,获得目标文档对应的表格文档。
在一个可能的示例中,在对目标文档采用第二解析工具进行OCR工具进行结构化识别之前,处理单元还用于:将目标文档的目标分类确定为OCR类型,完成对目标文档的重新分类定级;和/或在对目标文档采用第三解析工具进行文本解析之前,处理单元还用于:将目标文档的目标分类确定为文字类型,完成对目标文档的重新分类定级。
在一个可能的示例中,根据目标分类对目标文档进行处理,获得目标文档对应的表格文档,包括:根据目标分类对目标文档进行第一处理,获得目标文档对应的表格文档;对目标文档进行第二处理,获得目标文档对应的校验表格文档;该装置还包括校验单元,用于:根据校验表格文档转换后的字符串报文对表格文档转换后的字符串报文进行正确性校验。
在一个可能的示例中,根据校验表格文档转换后的字符串报文对表格文档转换后的字符串报文进行正确性校验,包括:对表格文档转换后的字符串报文的数字内容进行校验,确定数字内容的字符类型正确性;和/或对表格文档转换后的字符串报文的关键项目进行校验,确定关键项目中包的数字内容与关键项目中包括的文本内容相匹配。
第三方面,提供了一种电子装置,上述装置包括:处理器、存储器、通信接口,处理器、存储器和通信接口相互连接,并且完成相互间的通信工作;
存储器上存储有可执行程序代码,通信接口用于进行无线通信;
处理器用于调取存储器上存储的可执行程序代码,执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。
第四方面,本申请实施例提供了一种计算机程序产品,其中,计算机程序产品包括计算机程序,计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
第五方面,本申请实施例提供了一种文档解析系统,其中包括第三方面所描述的电子装置,还可以包括用于与该电子装置交互的其他装置。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种PDF文档转换系统示意图;
图2为本申请实施例提供的一种文档转换方法流程图;
图3为本申请实施例提供的一种PDF文档的目标分类为表格类型的处理示意图;
图4为本申请实施例提供的另一种PDF文档的目标分类为表格类型的处理示意图;
图5为本申请实施例提供的一种PDF文档的目标分类与解析工具绑定的示意图;
图6为本申请实施例提供的一种文档转换装置的结构示意图;
图7是本申请实施例提供的一种电子装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤的过程、方法、系统、产品或设备没有限定于已列出的步骤,而是可选地还包括没有列出的步骤,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
首先,请参阅图1,图1为本申请实施例提供的一种PDF文档转换系统示意图,如图1所示,该系统中包括文档解析服务器和文档转换服务器,其中用户向文档解析服务器输入多个PDF文档,经过文档解析服务器解析后,获得表格文档,多个表格文档输入文档转换服务器后转换获得字符串报文。其中,文档解析服务器和文档转换服务器可以是独立的服务器,也可以是功能组合的服务器。
请参阅图2,图2为本申请实施例提供的一种文档转换方法流程图,应用于上述PDF文档转换系统,具体地,该方法包括如下步骤:
201、获取目标文档,目标文档为可携带文档格式PDF文档。
PDF文档是很多领域都广泛运用的文档格式。本申请实施例中,主要涉及的应用场景是很多组织或机构,例如政府部门,为其他企业提供自身数据的下载功能,如税务、海关等政府部门在电子税务局上提供企业下载自己的历史数据,具体例如申报数据、财报数据、报关单数据等。PDF文档功能非常强大,除了不可修改外,内容可支持签名、图片、表格、以及各类字体等等。其他企业下载了PDF文档后,需要对其进行数据清洗加工,以及统计分析等。PDF文档本身具有不可编辑性,因此需要先将PDF文档进行转换,获得字符串报文,例如JASON文档,以便进行后续文档内容分析处理。
202、对目标文档进行分类定级,确定目标文档对应的目标分类,目标分类为文字类型,表格类型,或光学字符识别OCR类型。
根据前述内容描述的,PDF文档可支持各种内容,包括签名、图片、表格、以及各类字体等等,但是对于不同的内容,其对应的解析方式会有所不同,例如PDF文档为图片内容,那么需要对PDF文档进行光学字符识别(Optical Character Recognition,OCR),使得图片内容能够转换为计算机文本。而对于PDF为非图像内容,即PDF文档由机器生成,而非扫描生成的情况下,可以通过表格提取获得PDF文档的内容。或者,PDF文档可能不具有结构性的特点,则对PDF文档进行内容提取的过程采用文本识别的方式实现。因此,根据PDF解析难易程度,可以将PDF文档分类为:OCR类型,表格类型,以及文字类型。
可选地,对目标文档进行分类定级,确定目标文档对应的目标分类,包括:根据目标文档对应的数据源的分类定级确定目标文档的目标分类,数据源的分类定级包括按照业务范围分类定级,和/或按照组织机构分类定级。
对目标文档进分类定级,其含义是指根据历史经验,或者PDF文档的粗略分析,大致确定目标文档对应的PDF文档类型。生成PDF文档的机构或组织会根据自身需要采用合适的方式生成PDF文档。例如银行在于客户产生交易时,为了保证交易过程的可靠性,通常需要用户手写签字,而针对这些交易信息生成PDF文档,则多半采用扫描方式生成,则生成的PDF文档为OCR类型。而针对税务局的用户纳税信息,目前已经广泛实现电子流存档记录,因此纳税信息对应的PDF文档多半由机器生成,则生成的PDF文档为表格类型。基于这种考虑,可以根据目标文档对应的数据源的分类定级确定目标文档的目标分类。数据源是指生成PDF文档的组织或机构。数据源的分类定级,假设按照业务范围分类定级,例如目标文档对应的业务范围包括多方交易,申报记录,规则信息等。那么其中多方交易由于需要线下确认签字,可以将该类业务范围对应的目标文档的目标分类确定为OCR类型;申报记录需要电子流记录,具有一定的结构性和可编辑性,可以将该类业务范围对应的目标文档的目标分类确定为表格类型;规则信息多半为文字内容,可以将该类业务范围对应的目标文档的目标分类确定为文字类型。
数据源的分类定级,假设按照组织机构分类定级,例如目标文档对应的组织机构为银行,银行的数据对可靠性要求最高,因此可以将银行对应的目标文档的目标分类确定为OCR类型;而税务局的数据对可编辑性有一定要求,且多数为报表模式,因此可以将税务局对应的目标文档的目标分类确定为表格类型;而新闻机构的数据多数为文字内容,且对可编辑性要求高,因此可以将新闻机构对应的目标文档的目标分类确定为文字类型。
或者,也可以根据对目标文档的内容识别进行分类定级,例如识别到PDF文档中带有签名,或者PDF文档由图片组成,则可以确定该目标文档对应的目标分类为OCR类型,如果能直接对PDF文档汇总的表格和文字进行提取,则确定目标分类为表格类型等。
在一些情况下,同一个PDF文档可能不同页面满足不同分类定级,例如一些页面为表格类型,另一些页面为OCR类型,此时可以对PDF文档进行页面拆分,使得拆分出的子文档只满足一种目标分类,以便后续根据目标分类进行PDF文档处理时,提升处理效率和成功率。
203、根据目标分类对目标文档进行处理,获得目标文档对应的表格文档。
不同PDF文档的分类,其对应的解析逻辑是不同的,例如OCR类型的PDF文档,首先针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式。因此,在确定目标文档对应的目标分类后,可以根据目标分类对目标文档采用对应的处理方式进行解析,获得表格文档。其中,将目标文档统一处理为表格文档,是由于本申请实施例中涉及的场景,其对应的PDF文档数据多半包括表格数据,将其转换为表格文档,例如Excel文档,而不是转换为文字文档,例如word文档,或者txt文档,一方面可以降低文档解析难度,另一方面也是为了统一转换后的文档格式,提升将文档进一步转换为字符串报文的效率。
可选地,根据目标分类对目标文档进行处理,获得目标文档对应的表格文档,包括:若目标文档的目标分类为表格模式,对目标文档采用第一解析工具进行结构化解析,获得目标文档对应的表格文档;和/或若目标文档的目标分类为OCR类型,则对目标文档采用第二解析工具进行OCR结构化识别,获得目标文档对应的表格文档;和/或若目标文档的目标分类为文字类型,则对目标文档采用第三解析工具进行文本解析,获得目标文档对应的表格文档。
可选地,该方法还包括:若采用第一解析工具进行结构化解析未获得目标文档对应的表格文档,则采用第二解析工具进行OCR结构化识别,获得目标文档对应的表格文档;若采用第二解析工具进行OCR结构化识别未获得目标文档对应的表格文档,则采用第三解析工具进行文本解析,获得目标文档对应的表格文档。
具体地,目标文档的目标分类为表格模式,是指目标文档为机器生成的PDF文档。同时由于本申请实施例的场景中,PDF文档中的业务数据具有一定的结构化要求,因此,可以将目标分类确定为表格模式,再以结构化解析的方式获得表格文档。
由于PDF文档本身为非结构化数据,因此对PDF文档的结构化解析过程即是将非结构化数据转换为结构化数据的过程。以PDF文档中的数据内容为财务报表为例:
一般的财务报表包含资产负债表、利润表;对于中小微企业,需要支持的财务会计准则包含如下种类,对于不同的会计准则的报表,可以根据表头,表格编号,关键科目等内容来辨别,目前支持的会计准则如下:
a、一般企业准则资产负债表;
b、小企业准则资产负债表;
c、企业准则资产负债表;
d、一般企业准则利润表;
e、小企业准则利润表;
f、企业准则利润表;
g、小企业年报;
以上需要处理的业务报表,在PDF文档处理环节上首先需要将财务报表和会计准则进行对应,明确处理的业务内容。
结构化相当于为表格文档的模板,具体例如为Excel模板;不同的会计准则相当于Excel模板中包含的具体的会计科目。
在确定目标文档的目标分类为表格类型的情况下,具体处理过程如下:
A、先进行结构化解析,这个是处理业务数据的关键,业务数据以表格的形式展示,所以首先需要确定PDF文档能够转为表格形式的文档;
B、表格形式多样化的处理,表格分为单元行列表格;也包含各类合并表格;在结构化的过程中,需要对合并形式的表格做差异性处理。
合并表格分为:
b1:表头的合并。具体可参阅图3,图3为本申请实施例提供的一种PDF文档的目标分类为表格类型的处理示意图,如图3中的(a)所示,该文档中包括一个表格,该表格的表头占用了两行,在对该表格进行结构化处理时,将获得如图3中的(b)所示的结构化表格,该结构化处理过程对表头占用的两行进行了合并处理。进一步地,为该结构化表格设置具体的表头模板,可以如表1所示,即合并后的两行添加对应的表格框线。
表1
b2:合并行列的处理。具体可参阅图4,为本申请实施例提供的另一种PDF文档的目标分类为表格类型的处理示意图,如图4中的(a)所示,PDF文档中包括一个表格,该表格中很多行列,将其进行结构化处理后,获得如图4中的(b)所示的结构化表格,由于总机构填报、分支机构填报属于多余的信息,需要转换后进行清除替换;对于错位的数据,需要根据序号,进行内容拼接;具体可以采用专门的方法处理这块业务逻辑。
C、如果可以通过结构化解析获得表格形式的数据,则通过模板匹配、确定表格的边界等方式确定表格的关键的行、列数据,进而获取表格文档;
D、如果不能通过结构化解析获得表格形式的数据,则可能目标文档的目标分类为OCR类型,可以采用OCR识别工具来进行结构化识别,如果识别成功,则进行上述b的流程获得表格文档;
E、如果通过OCR识别工具不能获得表格形式的数据,则可以进行文本解析,分行读取文本,按照文本的关键科目还原表结构。这类方式容易出错,而且很容易发生混淆;一般是针对个别关键科目采用,而且还需要比较前后文,防止提取的内容出错。因此最后考虑采用这种方式获得表格文档。
上述步骤A~E可以为目标文档的目标分类为表格类型时,获得表格文档的处理流程。假设目标文档的目标分类被确定为OCR类型,则可以从步骤D开始处理,假设目标文档的目标分类被确定为文字类型,则可以从步骤E开始处理,获得目标文档对应的表格文档。
可见,在本申请实施例中,针对不同分类的目标文档,采用不同的处理方法获得目标文档中的结构化数据,或者实现非结构化数据的结构化,获得对应的表格文档,可以兼容实现不同分类的PDF文档的处理过程,同时提升PDF文档的转换效率。
需要说明的是,目标文档对应的不同目标分类,可以封装绑定特定的解析工具完成表格文档的处理流程。具体可参阅图5,图5为本申请实施例提供的一种PDF文档的目标分类与解析工具绑定的示意图,如图5所示,表格类型的目标文档采用第一解析工具进行处理,OCR类型的目标文档采用第二解析工具进行处理,文字类型的目标文档采用第三解析工具进行处理。第二解析工具例如可以为pdfplumber工具,第一解析工具例如可以为pywinauto工具,第三解析工具例如可以为camelot工具。
进一步地,该方法还包括:在对目标文档采用第二解析工具进行OCR工具进行结构化识别之前,方法还包括:将目标文档的目标分类确定为OCR类型,完成对目标文档的重新分类定级;和/或在对目标文档采用第三解析工具进行文本解析之前,方法还包括:将目标文档的目标分类确定为文字类型,完成对目标文档的重新分类定级。
即是说,一种分类的目标文档对应一种绑定的解析工具进行目标文档的处理过程,针对初步分类定级的目标文档,如果采用该目标分类对应的解析工具进行处理无法获得表格文档,需要转换其他解析工具对该目标文档进行处理,也需要先将该目标文档的进行重新分类定级,确定为其他目标分类,才能够采用其他目标分类对应的解析工具对目标文档进行处理,以保证目标分类与解析工具的绑定。
可见,在本申请实施例中,针对PDF文档的不同分类,采用不用的解析工具与每个分类进行绑定,使得PDF文档被分类定级为对应的目标分类时,可以快速获取到其对应的解析工具对该目标分类进行处理,快速获得PDF文档对应的表格文档,并且,由于目标分类与解析工具的对应性,也可以保证采用该目标分类对应的解析工具对PDF文档进行处理时的有效性,提升PDF文档的处理效率。
204、对表格文档进行转换,获得目标文档对应的字符串报文。
在获得PDF文档对应的表格文档后,将其转换为便于处理器读取的字符串报文,具体可以为JSON文档。
在将PDF文档转换为JSON文档后,由于转换过程中可能发生错误,例如OCR识别错误,结构化过程出错等,导致JSON文档与原PDF文档内容存在偏差,为了保证JSON文档的质量,可以对JSON文档进行进一步的质量校验。
可选地,根据目标分类对目标文档进行处理,获得目标文档对应的表格文档,包括:根据目标分类对目标文档进行第一处理,获得目标文档对应的表格文档;对目标文档进行第二处理,获得目标文档对应的校验表格文档;该方法还包括:根据校验表格文档中转换后的字符串报文对表格文档转换后的字符串报文进行正确性校验。
可选地,根据校验表格文档转换后的字符串报文对表格文档转换后的字符串报文进行正确性校验,包括:对表格文档转换后的字符串报文的数字内容进行校验,确定数字内容的字符类型正确性;和/或对表格文档转换后的字符串报文的关键项目进行校验,确定关键项目中包的数字内容与关键项目中包括的文本内容相匹配。
具体地,可以对同一目标文档采用不同的处理方式转换为表格文档,例如针对表格类型的目标文档,可以采用表格类型对应的第一解析工具进行处理获得表格文档,但实际上,也可以采用文本类型对应的第三解析工具进行处理获得表格文档(处理效果可能存在差异),将采用目标文档的目标分类对应的解析工具进行处理获得的表格文档作为标准文档,采用其他分类对应的解析工具对目标文档进行处理获得的表格文档作为校验文档,将标准文档进行转换获得第一字符串报文,将校验文档进行转换获得第二字符串报文,采用第二字符串报文对第一字符串报文进行校验,包括对数字内容进行校验,防止数据字符串中间出现非数字,例如转换出的标准内容中包括“89823I389”,根据前后文推理这应该是一串数字,中间出现字符“I”可能发生了错误,根据校验文档,可以进一步确定该字符“I”实际为数字“1”。还可以对一些关键项目进行校验,例如项目名称为“手机号码”,则该项目内容应该为满足手机号码对应要求的数字内容,例如包括11位数字,以“1”开头等。通过该质量校验过程可以保证PDF文档转换为字符串报文的质量,提升获得字符串报文内容的准确性。
可见,在本申请实施例中,通过将PDF文档分类定级,确定PDF文档的分类,然后根据分类对PDF文档进行解析,获得对应的表格文档,也即是说,任何类型的PDF文档都能够完成解析过程,然后将获得的表格文档进行转换,获得字符串报文,字符串报文是可以编辑读取的文档,以便对转换后的PDF文档进行统一读取。实现了PDF文档的高效率转换。
与上述图1~图4对应实施例一致的,请参阅图6,图6为本申请实施例提供的一种文档转换装置500的结构示意图,如图6所示,其中包括:
获取单元501,用于获取目标文档,目标文档为可携带文档格式PDF文档;
定级单元502,用于对目标文档进行分类定级,确定目标文档对应的目标分类,目标分类为文字类型,表格类型,或光学字符识别OCR类型;
处理单元503,用于根据目标分类对目标文档进行处理,获得目标文档对应的表格文档;
转换单元504,用于对表格文档进行转换,获得目标文档对应的字符串报文。
可以看出,本申请实施例所描述的装置,通过将PDF文档分类定级,确定PDF文档的分类,然后根据分类对PDF文档进行解析,获得对应的表格文档,也即是说,任何类型的PDF文档都能够完成解析过程,然后将获得的表格文档进行转换,获得字符串报文,字符串报文是可以编辑读取的文档,以便对转换后的PDF文档进行统一读取。实现了PDF文档的高效率转换。
可选地,对目标文档进行分类定级,确定目标文档对应的目标分类,包括:根据目标文档对应的数据源的分类定级确定目标文档的目标分类,数据源的分类定级包括按照业务范围分类定级,和/或按照组织机构分类定级。
可选地,根据目标分类对目标文档进行处理,获得目标文档对应的表格文档,包括:若目标文档的目标分类为表格模式,对目标文档采用第一解析工具进行结构化解析,获得目标文档对应的表格文档;和/或若目标文档的目标分类为OCR类型,则对目标文档采用第二解析工具进行OCR结构化识别,获得目标文档对应的表格文档;和/或若目标文档的目标分类为文字类型,则对目标文档采用第三解析工具进行文本解析,获得目标文档对应的表格文档。
可选地,处理单元503还用于:若采用第一解析工具进行结构化解析未获得目标文档对应的表格文档,则采用第二解析工具进行OCR结构化识别,获得目标文档对应的表格文档;若采用第二解析工具进行OCR结构化识别未获得目标文档对应的表格文档,则采用第三解析工具进行文本解析,获得目标文档对应的表格文档。
可选地,在对目标文档采用第二解析工具进行OCR工具进行结构化识别之前,处理单元503还用于:将目标文档的目标分类确定为OCR类型,完成对目标文档的重新分类定级;和/或在对目标文档采用第三解析工具进行文本解析之前,处理单元503还用于:将目标文档的目标分类确定为文字类型,完成对目标文档的重新分类定级。
可选地,根据目标分类对目标文档进行处理,获得目标文档对应的表格文档,包括:根据目标分类对目标文档进行第一处理,获得目标文档对应的表格文档;对目标文档进行第二处理,获得目标文档对应的校验表格文档;该装置还包括校验单元505,用于:根据校验表格文档转换后的字符串报文对表格文档转换后的字符串报文进行正确性校验。
可选地,根据校验表格文档转换后的字符串报文对表格文档转换后的字符串报文进行正确性校验,包括:对表格文档转换后的字符串报文的数字内容进行校验,确定数字内容的字符类型正确性;和/或对表格文档转换后的字符串报文的关键项目进行校验,确定关键项目中包的数字内容与关键项目中包括的文本内容相匹配。
具体地,本申请实施例可以根据上述方法示例对数据采集装置进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
与上述图1~图4对应实施例一致的,请参阅图7,图7是本申请实施例提供的一种电子装置的结构示意图,如图7所示:该装置包括处理器、存储器、通信接口,处理器、存储器和通信接口相互连接,并且完成相互间的通信工作;
存储器上存储有可执行程序代码,通信接口用于进行无线通信;
处理器用于调取存储器上存储的可执行程序代码,执行如上述方法实施例中记载的任何一种数据采集方法的部分或全部步骤,上述计算机包括电子终端设备。
其中,存储器可以是易失性存储器如动态随机存储器DRAM,也可以是非易失性存储器如机械硬盘。上述存储器用于存储一组可执行程序代码,上述处理器用于调用存储器中存储的可执行程序代码,可以执行包括以下指令:
获取目标文档,目标文档为可携带文档格式PDF文档;对目标文档进行分类定级,确定目标文档对应的目标分类,目标分类为文字类型,表格类型,或光学字符识别OCR类型;根据目标分类对目标文档进行处理,获得目标文档对应的表格文档;对表格文档进行转换,获得目标文档对应的字符串报文。
可见,在本申请实施例中,通过将PDF文档分类定级,确定PDF文档的分类,然后根据分类对PDF文档进行解析,获得对应的表格文档,也即是说,任何类型的PDF文档都能够完成解析过程,然后将获得的表格文档进行转换,获得字符串报文,字符串报文是可以编辑读取的文档,以便对转换后的PDF文档进行统一读取。实现了PDF文档的高效率转换。
可选地,在对目标文档进行分类定级,确定目标文档对应的目标分类方面,上述处理器用于调用存储器中存储的可执行程序代码用于:根据目标文档对应的数据源的分类定级确定目标文档的目标分类,数据源的分类定级包括按照业务范围分类定级,和/或按照组织机构分类定级。
可选地,在根据目标分类对目标文档进行处理,获得目标文档对应的表格文档方面,上述处理器用于调用存储器中存储的可执行程序代码用于:若目标文档的目标分类为表格模式,对目标文档采用第一解析工具进行结构化解析,获得目标文档对应的表格文档;和/或若目标文档的目标分类为OCR类型,则对目标文档采用第二解析工具进行OCR结构化识别,获得目标文档对应的表格文档;和/或若目标文档的目标分类为文字类型,则对目标文档采用第三解析工具进行文本解析,获得目标文档对应的表格文档。
可选地,上述处理器用于调用存储器中存储的可执行程序代码还用于:若采用第一解析工具进行结构化解析未获得目标文档对应的表格文档,则采用第二解析工具进行OCR结构化识别,获得目标文档对应的表格文档;若采用第二解析工具进行OCR结构化识别未获得目标文档对应的表格文档,则采用第三解析工具进行文本解析,获得目标文档对应的表格文档。
可选地,在对目标文档采用第二解析工具进行OCR工具进行结构化识别之前,上述处理器用于调用存储器中存储的可执行程序代码用于:将目标文档的目标分类确定为OCR类型,完成对目标文档的重新分类定级;和/或在对目标文档采用第三解析工具进行文本解析之前,该方法还包括:将目标文档的目标分类确定为文字类型,完成对目标文档的重新分类定级。
可选地,在根据目标分类对目标文档进行处理,获得目标文档对应的表格文档方面,上述处理器用于调用存储器中存储的可执行程序代码,用于:根据目标分类对目标文档进行第一处理,获得目标文档对应的表格文档;对目标文档进行第二处理,获得目标文档对应的校验表格文档;上述处理器用于调用存储器中存储的可执行程序代码还用于:根据校验表格文档转换后的字符串报文对表格文档转换后的字符串报文进行正确性校验。
可选地,在根据校验表格文档转换后的字符串报文对表格文档转换后的字符串报文进行正确性校验方面,上述处理器用于调用存储器中存储的可执行程序代码,用于:对表格文档转换后的字符串报文的数字内容进行校验,确定数字内容的字符类型正确性;和/或对表格文档转换后的字符串报文的关键项目进行校验,确定关键项目中包的数字内容与关键项目中包括的文本内容相匹配。
本申请实施例提供了一种计算机程序产品,其中,计算机程序产品包括计算机程序,计算机程序可操作来使计算机如上述方法实施例中记载的任何一种贷款风险评估方法的部分或全部步骤,该计算机程序产品可以是一个软件安装包。
需要说明的是,对于前述的任一种文档转换方法的实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请所必须的。
尽管在此结合各实施例对本申请进行了描述,然而,在实施所要求保护的本申请过程中,本领域技术人员通过查看附图、公开内容、以及所附权利要求书,可理解并实现所公开实施例的其他变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
本领域普通技术人员可以理解上述任一种数据采集方法的方法实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请一种数据采集方法及装置的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请一种数据采集方法及装置的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
本申请是参照本申请实施例的方法、硬件产品和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
可以理解的是,凡是被控制或者被配置以用于执行本申请一种数据采集方法的方法实施例所描述的流程图的处理方法的产品,如上述流程图的终端以及计算机程序产品,均属于本申请所描述的相关产品的范畴。
显然,本领域的技术人员可以对本申请提供的一种数据采集方法及装置进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种文档转换方法,其特征在于,所述方法包括:
获取目标文档,所述目标文档为可携带文档格式PDF文档;
对所述目标文档进行分类定级,确定所述目标文档对应的目标分类,所述目标分类为文字类型,表格类型,或光学字符识别OCR类型;
根据所述目标分类对所述目标文档进行处理,获得所述目标文档对应的表格文档;
对所述表格文档进行转换,获得所述目标文档对应的字符串报文。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标文档进行分类定级,确定所述目标文档对应的目标分类,包括:
根据所述目标文档对应的数据源的分类定级确定所述目标文档的目标分类,所述数据源的分类定级包括按照业务范围分类定级,和/或按照组织机构分类定级。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述目标分类对所述目标文档进行处理,获得所述目标文档对应的表格文档,包括:
若所述目标文档的目标分类为表格模式,对所述目标文档采用第一解析工具进行结构化解析,获得所述目标文档对应的表格文档;和/或
若所述目标文档的目标分类为OCR类型,则对所述目标文档采用第二解析工具进行OCR结构化识别,获得所述目标文档对应的表格文档;和/或
若所述目标文档的目标分类为文字类型,则对所述目标文档采用第三解析工具进行文本解析,获得所述目标文档对应的表格文档。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
若采用第一解析工具进行结构化解析未获得所述目标文档对应的表格文档,则采用第二解析工具进行OCR结构化识别,获得所述目标文档对应的表格文档;
若采用第二解析工具进行OCR结构化识别未获得所述目标文档对应的表格文档,则采用第三解析工具进行文本解析,获得所述目标文档对应的表格文档。
5.根据权利要求4所述的方法,其特征在于,在对所述目标文档采用第二解析工具进行OCR工具进行结构化识别之前,所述方法还包括:将所述目标文档的目标分类确定为所述OCR类型,完成对所述目标文档的重新分类定级;和/或
在对所述目标文档采用第三解析工具进行文本解析之前,所述方法还包括:将所述目标文档的目标分类确定为所述文字类型,完成对所述目标文档的重新分类定级。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述根据所述目标分类对所述目标文档进行处理,获得所述目标文档对应的表格文档,包括:
根据所述目标分类对所述目标文档进行第一处理,获得所述目标文档对应的表格文档;
对所述目标文档进行第二处理,获得所述目标文档对应的校验表格文档;
所述方法还包括:根据所述校验表格文档转换后的字符串报文对所述表格文档转换后的字符串报文进行正确性校验。
7.根据权利要求6所述的方法,其特征在于,所述根据所述校验表格文档转换后的字符串报文对所述表格文档转换后的字符串报文进行正确性校验,包括:
对所述表格文档转换后的字符串报文的数字内容进行校验,确定所述数字内容的字符类型正确性;和/或
对所述表格文档转换后的字符串报文的关键项目进行校验,确定所述关键项目中包的数字内容与所述关键项目中包括的文本内容相匹配。
8.一种文档转换装置,其特征在于,所述装置包括:
获取单元,用于获取目标文档,所述目标文档为可携带文档格式PDF文档;
定级单元,用于对所述目标文档进行分类定级,确定所述目标文档对应的目标分类,所述目标分类为文字类型,表格类型,或光学字符识别OCR类型;
处理单元,用于根据所述目标分类对所述目标文档进行处理,获得所述目标文档对应的表格文档;
转换单元,用于对所述表格文档进行转换,获得所述目标文档对应的字符串报文。
9.一种电子装置,其特征在于,所述装置包括:
处理器、存储器、通信接口,所述处理器、所述存储器和所述通信接口相互连接,并且完成相互间的通信工作;
所述存储器上存储有可执行程序代码,所述通信接口用于进行无线通信;
所述处理器用于调取所述存储器上存储的所述可执行程序代码,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210229152.3A CN114626341A (zh) | 2022-03-08 | 2022-03-08 | 文档转换方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210229152.3A CN114626341A (zh) | 2022-03-08 | 2022-03-08 | 文档转换方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114626341A true CN114626341A (zh) | 2022-06-14 |
Family
ID=81899162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210229152.3A Pending CN114626341A (zh) | 2022-03-08 | 2022-03-08 | 文档转换方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114626341A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115357160B (zh) * | 2022-07-13 | 2023-10-27 | 北京庖丁科技有限公司 | 文档内容点选方法、装置、电子设备、介质和程序产品 |
-
2022
- 2022-03-08 CN CN202210229152.3A patent/CN114626341A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115357160B (zh) * | 2022-07-13 | 2023-10-27 | 北京庖丁科技有限公司 | 文档内容点选方法、装置、电子设备、介质和程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109377342A (zh) | 单据处理方法、装置、计算机设备和存储介质 | |
US10282410B2 (en) | Assistive technology for the impaired | |
US20050289182A1 (en) | Document management system with enhanced intelligent document recognition capabilities | |
CN113935710A (zh) | 一种合同审核的方法、装置、电子设备及存储介质 | |
CN112434501A (zh) | 工单智能生成的方法、装置、电子设备及介质 | |
CN112418813A (zh) | 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质 | |
US11620842B2 (en) | Automated data extraction and document generation | |
CN114626341A (zh) | 文档转换方法、装置及存储介质 | |
CN113158988B (zh) | 财务报表处理方法、装置以及计算机可读存储介质 | |
CN118194842A (zh) | 文档智能识别方法、装置、电子设备及存储介质 | |
CN113657096A (zh) | 基于rpa和ai的异常业务数据处理方法、装置、设备及介质 | |
KR20200091560A (ko) | 세관신고 자동화를 위한 문서 내 텍스트 자동 추출 시스템 및 이를 이용한 방법 | |
CN117541180A (zh) | 一种发票处理方法、装置及介质 | |
CN112508717A (zh) | 一种影像信息的审核方法、装置、电子设备及存储介质 | |
US20200226162A1 (en) | Automated Reporting System | |
CN116384344A (zh) | 一种文档转换方法、装置及存储介质 | |
CN111145143A (zh) | 问题图像确定方法及装置、电子设备和存储介质 | |
CN116340820A (zh) | 数据审核方法、装置、系统与计算机可读存储介质 | |
US20100023517A1 (en) | Method and system for extracting data-points from a data file | |
CN114495138A (zh) | 一种智能文档识别与特征提取方法、装置平台和存储介质 | |
CN112445461B (zh) | 一种业务规则生成方法、装置、电子设备和可读存储介质 | |
CN114549177A (zh) | 保函审查方法、装置、系统与计算机可读存储介质 | |
CN112651725B (zh) | 电子发票解析方法和装置 | |
CN112732948B (zh) | 身份验证方法、装置及存储介质 | |
TWI768744B (zh) | 參考單據產生方法及系統 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |