CN111046634A

CN111046634A - 文档处理方法、装置、计算机设备以及存储介质

Info

Publication number: CN111046634A
Application number: CN201911257981.7A
Authority: CN
Inventors: 郑泽重; 范有文; 李如先
Original assignee: Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Current assignee: Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-04-21

Abstract

本发明实施例公开了一种文档处理方法、装置、计算机设备以及存储介质，所述方法包括：将PDF文件转换为EXCEL文件；从所述EXCEL文件中提取关键文本信息；将所述关键文本信息进行分词，得到所述关键文本信息的分词结果，所述分词结果包括一个或者多个词语；将所述多个词语按照先后顺序转换为JSON格式的数据，并将所述JSON格式的数据导入至预设数据存储目录中。本发明能够将非结构化的文本数据转换为JSON格式的结构化数据，实现文件数据的自动化转换，并且JSON格式占用空间相对较小能够进一步提高数据的传输速率。

Description

文档处理方法、装置、计算机设备以及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种文档处理方法、装置、计算机设备以及存储介质。

背景技术

现有技术中，对于文档的关键文本信息的提取一般情况下都是通过人工的方式静态的进行获取，对于关键文本信息的格式转换也没有一个完整、合理的转换方式，如果当文档的数量达到一个量级时，通过人工提取和格式转换的方式并不能达到高效率的处理目的，并且通常会花费大量的人力和物力，随着技术的不断革新，业务合同数量的不断增长，人工处理文档的方式已经不能满足当下的业务需求与发展。

发明内容

有鉴于此，本发明实施例提供一种文档处理方法、装置、计算机设备以及存储介质，能够将非结构化的文本数据转换为JSON格式的结构化数据，实现文件数据的自动化转换，并且JSON格式占用空间相对较小能够进一步提高数据的传输速率。

一方面，本发明实施例提供了一种文档处理方法，该方法包括：

将PDF文件转换为EXCEL文件；

从所述EXCEL文件中提取关键文本信息；

将所述关键文本信息进行分词，得到所述关键文本信息的分词结果，所述分词结果包括一个或者多个词语；

将所述多个词语按照先后顺序转换为JSON格式的数据，并将所述JSON格式的数据导入至预设数据存储目录中。

另一方面，本发明实施例提供了一种文档处理装置，所述装置包括：

第一转换单元，用于将PDF文件转换为EXCEL文件；

提取单元，用于从所述EXCEL文件中提取关键文本信息；

分词单元，用于将所述关键文本信息进行分词，得到所述关键文本信息的分词结果，所述分词结果包括一个或者多个词语；

第二转换单元，用于将所述多个词语按照先后顺序转换为JSON格式的数据，并将所述JSON格式的数据导入至预设数据存储目录中。

又一方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的文档处理方法。

再一方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者一个以上计算机程序，所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行，以实现如上所述的文档处理方法。

本发明实施例提供一种文档处理方法、装置、计算机设备以及存储介质，其中方法包括：将PDF文件转换为EXCEL文件；从所述EXCEL文件中提取关键文本信息；将所述关键文本信息进行分词，得到所述关键文本信息的分词结果，所述分词结果包括一个或者多个词语；将所述多个词语按照先后顺序转换为JSON格式的数据，并将所述JSON格式的数据导入至预设数据存储目录中。本发明能够将非结构化的文本数据转换为JSON格式的结构化数据，实现文件数据的自动化转换，并且JSON格式占用空间相对较小能够进一步提高数据的传输速率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种文档处理方法的应用场景示意图；

图2是本发明实施例提供的一种文档处理方法的示意流程图；

图3是本发明实施例提供的一种文档处理方法的另一示意流程图；

图4是本发明实施例提供的一种文档处理方法的另一示意流程图；

图5是本发明实施例提供的一种文档处理方法的另一示意流程图；

图6是本发明实施例提供的一种文档处理装置的示意性框图；

图7是本发明实施例提供的一种文档处理装置的另一示意性框图；

图8是本发明实施例提供的一种文档处理装置的另一示意性框图；

图9是本发明实施例提供的一种文档处理装置的另一示意性框图；

图10是本发明实施例提供的一种文档处理装置的另一示意性框图；

图11是本发明实施例提供的一种计算机设备的结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的一种文档处理方法的应用场景示意图，图2为本发明实施例提供的一种文档处理方法的流程示意图。该文档处理方法应用于服务器或终端中，其中，终端可以是智能手机、平板电脑、笔记本电脑或者台式电脑等具有通信功能的电子设备，服务器可以为分布式服务平台中的一台服务器。作为一应用，如图1所示，该文档处理方法应用于终端20中，该终端20从服务器10中获取开票数据并执行缓存指令以完成缓存开票数据的缓存操作，并通过接收用户的开票请求将所缓存的开票数据发送给用户。

需要说明的是，图1中仅仅示意出一台服务器10，在实际操作过程中，终端20可以从多台服务器10中获取缓存开票数据。

请参阅图2，图2为本发明实施例提供的一种文档处理方法的示意流程图。如图2所示，该方法包括以下步骤S101～S104。

S101，将PDF文件转换为EXCEL文件。

在本发明实施例中，通过将PDF文件转换成EXCEL文件，实现自动分析PDF文档结构，便于下一步对关键文档信息的提取，本实施例提供的PDF文件转换为EXCEL文件的方法可以看成是一个轻量级的服务，外部系统可以通过调用本实施例提供的API接口提代文档转换服务，并通过该服务将PDF文件转换为EXCEL文件。具体的，请参阅图3，所述步骤S101包括以下步骤S201～S203：S201，读取所述PDF文件中的基本元素信息，所述基本元素信息包括用于生成所述EXCEL文件的属性信息和文本信息；S202，将所述文本信息按照EXCEL文件的排版格式进行排版并获取排版结果；S203，调用JAVA工具，根据所述属性信息和所述排版结果生成所述EXCEL文件。其中，所述基本元素信息至少包括待生成EXCEL文件中所需要的属性信息和文本信息，其中，属性信息为所述PDF文件的文件名称以及文件大小，文本信息为所述PDF文件中正文记载的文字信息，一份PDF文件生成一份EXCEL文件；更具体的，所述读取所述PDF文件中的基本元素信息具体包括：读取用于生成EXCEL文件的属性信息，所述属性信息为所述PDF文件的文件名称和文件大小；读取用于生成EXCEL文件的文本信息，所述属性信息为所述PDF文件的正文的文字信息。

S102，从所述EXCEL文件中提取关键文本信息。

在本发明实施例中，所述关键文本信息指的是位于EXCEL文件正文中用于表达文件具体内容的文本信息，例如，对于转让合同文件，所述关键文本信息包括出让人(出质人)信息，受让人信息，财产转让描述信息，附件描述信息；对于劳动合同文件，所述关键文本信息包括雇主信息、受雇人信息、劳动报酬信息、合同有效期信息等。

S103，将所述关键文本信息进行分词，得到所述关键文本信息的分词结果，所述分词结果包括一个或者多个词语。

在本发明实施例中，所述分词结果包括一个或者多个词语，所述将所述关键文本信息进行分词，得到所述关键文本信息的分词结果的步骤具体包括：使用基于概率统计模型的分词方法对所述关键文本信息进行分词，并得到所述分词结果。例如，令C＝C1C2...Cm，C是待分词的关键文本信息对应的汉字串，令W＝W1W2...Wn，W是分词的结果，Wa，Wb，…，Wk是C的所有可能的分词方案。那么，基于概率统计的分词模型就是能够找到目的词串W，使得W满足：P(W|C)＝MAX(P(Wa|C)，P(Wb|C)...P(Wk|C))的分词模型，上述分词模型得到的词串W即估计概率为最大之词串，并将词串W作为所述关键文本信息分词后得到的分词结果。比如：关键文本信息为“合同编号为VKGC-XY-2015-005-01发票号为09833577出让人(出质人)为张三受让人信息为李四财产转让标的为200万”，通过上述分词模型进行分词后得到的分词结果为：“合同编号为VKGC-XY-2015-005-01”，“发票号为09833577”，“出让人(出质人)为张三”，“受让人信息为李四”，“财产转让标的为200万”。

S104，将所述多个词语按照先后顺序转换为JSON格式的数据，并将所述JSON格式的数据导入至预设数据存储目录中。

在本发明实施例中，文本数据格式数据量较大，在数据传输，转移以及存储时比较耗费时间以及存储空间，因此需要将文本数据格式转换成占用空间相对较小的文件，以提高数据的传输速率。本实施例中，将分词结果出来的文字信息和字段一一对应起来，组装为一个结构化的JSON数据，按照JSON格式返回给调用的人或者接口，例如：提取到的分词“合同编号为VKGC-XY-2015-005-01”，“发票号为09833577”，按照约定的格式为JSON，可以组装成结构化的JSON数据，如{“contract_no”:“VKGC-XY-2015-005-01”，“bill_no”:“09833577”}，返回给调用者。

请参阅图4，所述步骤S104包括以下步骤S301～S304：

S301，遍历所述分词结果中的所有词语。

S302，使用预设JSON格式模板构建与每一词语相对应的键值对。

在本实施例中，在预设JSON格式模板的开头部分以键值对的形式(“键：值”)添加数据类型、参考坐标系，每个键值对分别用“，”隔开；在字段组(Fields)中添加字段列表，每个字段包括名称(name)，类型(fieldtype)，长度(length)三个键值对，每个键值对分别用“，”隔开，相邻的字段用“，”分割，所有的字段分别与字段值组成键值对。

S303，使用第一预设字符将每一个键值对分开，并将所有的键值对存放在第二预设字符中。

在本实施例中，所述第一预设字符为“，”，所述第二预设字符为“{}”，所述使用第一预设字符将每一个键值对分开，并将所有的键值对存放在第二预设字符中，即每个键值对之间用“，”分开，所有的键值对存放在“{}”中。

S304，将存放在第二预设字符中的所有键值对进行保存以得到转换后的JSON格式数据，将所述JSON格式的数据导入至预设数据存储目录中。

在本实施例中，将存放在第二预设字符中的所有键值对进行保存以得到转换后的JSON格式数据，例如，将分词“合同编号为VKGC-XY-2015-005-01”，“发票号为09833577”转换成JSON格式的数据的格式如下：

{“contract_no”:“VKGC-XY-2015-005-01”，“bill_no”:“09833577”}

最后，将所述JSON格式的数据导入到预设数据存储目录中，具体为通过Hadoop自带-put命令将格式化的JSON格式数据导入到hdfs目录下进行保存。最后再按照JSON格式返回给调用的人或者接口。

在一个实施例中，请参阅图5，所述文档处理方法在所述将所述关键文本信息进行分词，得到所述关键文本信息的分词结果之后，还包括以下步骤：

S405，对所述分词结果中的各词语进行词性标注。

在本发明实施例中，为每个词语加注标签词，所述标签词根据词语属性进行确定，例如，出让人(出质人)信息和受让人信息，对应的标签词为“人名”，对于财产转让描述信息，对应的标签词为“金融”，对于附件描述信息，对应的标签词为“其他”。

由以上可见，本发明实施例通过将PDF文件转换为EXCEL文件；从所述EXCEL文件中提取关键文本信息；将所述关键文本信息进行分词，得到所述关键文本信息的分词结果，所述分词结果包括一个或者多个词语；将所述多个词语按照先后顺序转换为JSON格式的数据，并将所述JSON格式的数据导入至预设数据存储目录中。本发明能够将非结构化的文本数据转换为JSON格式的结构化数据，实现文件数据的自动化转换，并且JSON格式占用空间相对较小能够进一步提高数据的传输速率。

请参阅图6，对应上述一种文档处理方法，本发明实施例还提出一种文档处理装置，该装置100包括：第一转换单元101、提取单元102、分词单元103、第二转换单元104。

其中，所述第一转换单元101，用于将PDF文件转换为EXCEL文件；提取单元102，用于从所述EXCEL文件中提取关键文本信息；分词单元103，用于将所述关键文本信息进行分词，得到所述关键文本信息的分词结果，所述分词结果包括一个或者多个词语；转换单元104，用于将所述多个词语按照先后顺序转换为JSON格式的数据，并将所述JSON格式的数据导入至预设数据存储目录中。

请参阅图7，所述转换单元101，包括：读取单元101a，用于读取所述PDF文件中的基本元素信息，所述基本元素信息包括用于生成所述EXCEL文件的属性信息和文本信息；排版单元101b，用于将所述文本信息按照EXCEL文件的排版格式进行排版并获取排版结果；生成单元101c，用于调用JAVA工具，根据所述属性信息和所述排版结果生成所述EXCEL文件。

请参阅图8，所述分词单元103，包括：分词子单元103a，用于使用基于概率统计模型的分词方法对所述关键文本信息进行分词，并得到所述分词结果。

请参阅图9，所述第二转换单元104，包括：遍历单元104a，用于遍历所述分词结果中的所有词语；构建单元104b，用于使用预设JSON格式模板构建与每一词语相对应的键值对；存放单元104c，用于使用第一预设字符将每一个键值对分开，并将所有的键值对存放在第二预设字符中；保存单元104d，用于将存放在第二预设字符中的所有键值对进行保存以得到转换后的JSON格式数据，将所述JSON格式的数据导入至预设数据存储目录中。

请参阅图10，所述一种文档处理装置还包括：标注单元105，用于对所述分词结果中的各词语进行词性标注。

上述文档处理装置与上述文档处理方法一一对应，其具体的原理和过程与上述实施例所述方法相同，不再赘述。

上述文档处理装置可以实现为一种计算机程序的形式，计算机程序可以在如图11所示的计算机设备上运行。

图11为本发明一种计算机设备的结构组成示意图。该设备可以是终端，也可以是服务器，其中，终端可以是智能手机、平板电脑、笔记本电脑以及台式电脑等电子装置。服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。参照图11，该计算机设备500包括通过系统总线501连接的处理器502、非易失性存储介质503、内存储器504和网络接口505。其中，该计算机设备500的非易失性存储介质503可存储操作系统5031和计算机程序5032，该计算机程序5032被执行时，可使得处理器502执行一种文档处理方法。该计算机设备500的处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序被处理器执行时，可使得处理器502执行一种文档处理方法。计算机设备500的网络接口505用于进行网络通信。本领域技术人员可以理解，图11中所示仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502执行所述计算机程序时实现如下操作：

将PDF文件转换为EXCEL文件；

从所述EXCEL文件中提取关键文本信息；

在一个实施例中，所述将PDF文件转换为EXCEL文件，包括：

读取所述PDF文件中的基本元素信息，所述基本元素信息包括用于生成所述EXCEL文件的属性信息和文本信息；

将所述文本信息按照EXCEL文件的排版格式进行排版并获取排版结果；

调用JAVA工具，根据所述属性信息和所述排版结果生成所述EXCEL文件。

在一个实施例中，所述将所述关键文本信息进行分词，得到所述关键文本信息的分词结果，包括：

使用基于概率统计模型的分词方法对所述关键文本信息进行分词，并得到所述分词结果。

在一个实施例中，所述将所述多个词语按照先后顺序转换为JSON格式的数据，并将所述JSON格式的数据导入至预设数据存储目录中，包括：

遍历所述分词结果中的所有词语；

使用预设JSON格式模板构建与每一词语相对应的键值对；

使用第一预设字符将每一个键值对分开，并将所有的键值对存放在第二预设字符中；

将存放在第二预设字符中的所有键值对进行保存以得到转换后的JSON格式数据，将所述JSON格式的数据导入至预设数据存储目录中。

在一个实施例中，所述处理器502执行所述计算机程序时还实现如下操作：

对所述分词结果中的各词语进行词性标注。

本领域技术人员可以理解，图11中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图11所示实施例一致，在此不再赘述。

本发明提供了一种计算机可读存储介质，计算机可读存储介质存储有一个或者一个以上计算机程序，所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行，以实现以下步骤：

将PDF文件转换为EXCEL文件；

从所述EXCEL文件中提取关键文本信息；

在一个实施例中，所述将PDF文件转换为EXCEL文件，包括：

遍历所述分词结果中的所有词语；

使用预设JSON格式模板构建与每一词语相对应的键值对；

在一个实施例中，所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行，还实现以下步骤：

对所述分词结果中的各词语进行词性标注。

本发明前述的存储介质包括：磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等各种可以存储程序代码的介质。

本发明所有实施例中的单元可以通过通用集成电路，例如CPU(CentralProcessing Unit，中央处理器)，或通过ASIC(Application Specific IntegratedCircuit，专用集成电路)来实现。

本发明实施例文档处理方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本发明实施例文档处理装置中的单元可以根据实际需要进行合并、划分和删减。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种文档处理方法，其特征在于，所述方法包括：

将PDF文件转换为EXCEL文件；

从所述EXCEL文件中提取关键文本信息；

2.如权利要求1所述的方法，其特征在于，所述将PDF文件转换为EXCEL文件，包括：

3.如权利要求1所述的方法，其特征在于，所述将所述关键文本信息进行分词，得到所述关键文本信息的分词结果，包括：

4.如权利要求1所述的方法，其特征在于，所述将所述多个词语按照先后顺序转换为JSON格式的数据，并将所述JSON格式的数据导入至预设数据存储目录中，包括：

遍历所述分词结果中的所有词语；

使用预设JSON格式模板构建与每一词语相对应的键值对；

5.如权利要求1所述的方法，其特征在于，在所述将所述关键文本信息进行分词，得到所述关键文本信息的分词结果之后，所述方法还包括：

对所述分词结果中的各词语进行词性标注。

6.一种文档处理装置，其特征在于，所述装置包括：

第一转换单元，用于将PDF文件转换为EXCEL文件；

提取单元，用于从所述EXCEL文件中提取关键文本信息；

7.如权利要求6所述的装置，其特征在于，所述第一转换单元，包括：

读取单元，用于读取所述PDF文件中的基本元素信息，所述基本元素信息包括用于生成所述EXCEL文件的属性信息和文本信息；

排版单元，用于将所述文本信息按照EXCEL文件的排版格式进行排版并获取排版结果；

生成单元，用于调用JAVA工具，根据所述属性信息和所述排版结果生成所述EXCEL文件。

8.如权利要求6所述的装置，其特征在于，所述分词单元，包括：

分词子单元，用于使用基于概率统计模型的分词方法对所述关键文本信息进行分词，并得到所述分词结果。

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-5任一项所述的文档处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者一个以上计算机程序，所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行，以实现如权利要求1-5任一项所述的文档处理方法。