CN115563941A

CN115563941A - 复合文档处理方法、装置、存储介质及计算机设备

Info

Publication number: CN115563941A
Application number: CN202211200637.6A
Authority: CN
Inventors: 卞晓瑜; 肖鸣林; 周楚远
Original assignee: Yida Technology Shanghai Co ltd
Current assignee: Yida Technology Shanghai Co ltd
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2023-01-03
Anticipated expiration: 2042-09-29
Also published as: CN115563941B

Abstract

本申请提供了一种复合文档处理方法、装置、存储介质及计算机设备，所述方法包括：获取复合文档；获取所述复合文档中每页文档所对应的第一文档类型，并根据各页文档所对应的第一文档类型对各页文档进行分组，以得到多个目标组别；其中，页码连续且对应着相同的第一文档类型的各页文档属于同个目标组别，对应着不同的第一文档类型的任意两页文档属于不同的目标组别；针对每个目标组别，对属于该目标组别的各页文档进行模板匹配，并在模板匹配成功的情况下，对属于该目标组别的各页文档进行数据提取，以得到该目标组别所对应的页面数据；根据各个目标组别所对应的页面数据，生成校对页面。本申请可提高复合文档的处理效率。

Description

复合文档处理方法、装置、存储介质及计算机设备

技术领域

本申请涉及数据处理技术领域，尤其涉及一种复合文档处理方法、装置、存储介质及计算机设备。

背景技术

随着计算机技术的发展，越来越多的企业开发或购买有专用系统，并选择将业务数据或生产数据录入到该系统中，以便于进行线上审批或者数据存储。在一些应用场景中，待录入至系统的原始数据是通过PDF(Portable Document Format，便携式文档格式)或其他格式的文档进行存储，且该文档为复合文档，也即一份文档记录有多个不同类型的子文档。例如，一个PDF文档的第1至2页为海运提单，第3到6页为商业发票，第7到10页为装箱单，第11到12页为对账单。

对于不同的复合文档而言，其包含的文档类型、每个文档类型所对应的页数、各子文档的排列顺序等都可能会有所不同。因此，在现有的实现方式中，若要将复合文档中记录的数据录入到系统中，则用户需要首先按照各个子文档的文档类型手动拆分复合文档，使得拆分后的每个子文档仅包括对应于同一文档类型的文档页面。而后，用户需按照一定的命名规则对各个子文档进行重命名，以将从同一个复合文档中拆分出来的各个子文档进行关联。重命名后，用户可登录系统(如企业资源计划系统)，并将每个子文档分别上传到对应的菜单下，使得系统可以根据每个子文档的上传位置对该子文档进行模板匹配，以从子文档中提取数据并将数据填写到校对页面的对应位置处。

由此可见，在根据复合文档录入数据时，现有技术需要手动拆分文档、手动重命名文档和手动上传各个子文档，存在处理效率低的问题。

发明内容

本申请的目的旨在至少能解决上述的技术缺陷之一，特别是现有技术中处理效率低的技术缺陷。

第一方面，本申请实施例提供了一种复合文档处理方法，所述方法包括：

获取复合文档；

获取所述复合文档中每页文档所对应的第一文档类型，并根据各页文档所对应的第一文档类型对各页文档进行分组，以得到多个目标组别；其中，页码连续且对应着相同的第一文档类型的各页文档属于同个目标组别，对应着不同的第一文档类型的任意两页文档属于不同的目标组别；

针对每个目标组别，对属于该目标组别的各页文档进行模板匹配，并在模板匹配成功的情况下，对属于该目标组别的各页文档进行数据提取，以得到该目标组别所对应的页面数据；

根据各个目标组别所对应的页面数据，生成校对页面。

在其中一个实施例中，所述获取所述复合文档中每页文档所对应的第一文档类型，并根据各页文档所对应的第一文档类型对各页文档进行分组，以得到多个目标组别的步骤，包括：

将所述复合文档中的每页文档作为目标页文档，并分别确定各所述目标页文档所对应的第一文档类型；

根据各所述目标页文档所对应的第一文档类型以及各所述目标页文档在所述复合文档中的页码，对各所述目标页文档进行分组，以得到各个初始分组；其中，页码连续且对应着相同的第一文档类型的各页文档属于同个初始组别，对应着不同的第一文档类型的任意两页文档属于不同的初始组别；

针对每个初始分组，对该初始分组所对应的各所述目标页文档进行矢量化处理，以得到该初始分组所对应的矢量值，并根据该初始分组所对应的矢量值确定该初始分组所对应的第二文档类型；

根据每个初始分组所对应的第一文档类型和第二文档类型，确定各个目标分组。

在其中一个实施例中，所述根据每个初始分组所对应的第一文档类型和第二文档类型，确定各个目标分组的步骤，包括：

针对每个初始分组，若该初始分组所对应的第一文档类型与该初始分组所对应的第二文档类型相同，则将该初始分组作为目标分组并将属于该初始分组的各页文档作为非目标页文档，否则，将属于该初始分组的各页文档保留为所述目标页文档；

若所述复合文档中至少一页文档为所述目标页文档，则进入所述分别确定所述各所述目标页文档所对应的第一文档类型的步骤。

在其中一个实施例中，所述分别确定各所述目标页文档所对应的第一文档类型的步骤，包括：

确定每一所述目标页文档所对应的矢量值，并将各所述目标页文档所对应的矢量值输入至文档类型确定模型中，以获取所述文档类型确定模型所输出的各所述目标页文档所对应的第一文档类型；

和/或

所述根据该初始分组所对应的矢量值确定该初始分组所对应的第二文档类型的步骤，包括：

将所述初始分组所对应的矢量值输入至所述文档类型确定模型中，以获取所述文档类型确定模型所输出的该初始分组所对应的第二文档类型。

在其中一个实施例中，所述对属于该目标组别的各页文档进行模板匹配的步骤，包括：

根据该目标组别所对应的第一文档类型，确定各个目标模板，并分别将各个所述目标模板与属于该目标组别的各页文档进行模板匹配。

在其中一个实施例中，所述在模板匹配成功的情况下，对属于该目标组别的各页文档进行数据提取，以得到该目标组别所对应的页面数据的步骤，包括：

若各个所述目标模板中存在与属于该目标组别的各页文档成功匹配的匹配模板，则基于所述匹配模板的模板配置信息，对属于该目标组别的各页文档进行数据提取，以得到各个数据提取结果，并将各个所述数据提取结果作为该目标分组所对应的页面生成数据；其中，每个数据提取结果包括关键字段和该关键字段所对应的字段属性。

在其中一个实施例中，每个数据提取结果还包括该关键字段所对应的文档来源位置，所述文档来源位置为该关键字段在所述复合文档中的出现位置；所述校对页面包括信息显示子页面；

所述根据各个目标组别所对应的页面数据，生成校对页面的步骤，包括：

在得到至少一个数据提取结果的情况下，根据各个所述数据提取结果中的所述关键字段和所述字段属性，将各个所述关键字段录入至所述信息显示子页面中；

根据各个所述数据提取结果中的所述文档来源位置，调整所述信息显示子页面的字段显示顺序，以使调整后的所述信息显示子页面按照各个所述文档来源位置的位置顺序显示各个所述关键字段。

在其中一个实施例中，所述校对页面还包括文档显示子页面；

所述根据各个目标组别所对应的页面数据，生成校对页面的步骤，还包括：

对所述复合文档中的每页文档进行光学字符识别，以得到识别后的复合文档；

根据各个所述数据提取结果中的所述文档来源位置，在所述文档显示子页面中显示所述识别后的复合文档中目标位置处的文档，所述目标位置为所述信息录入子页面当前显示的关键字段所对应的文档来源位置。

第二方面，本申请实施例提供了一种复合文档处理装置，所述装置包括：

文档获取模块，用于获取复合文档；

分组模块，用于获取所述复合文档中每页文档所对应的第一文档类型，并根据各页文档所对应的第一文档类型对各页文档进行分组，以得到多个目标组别；其中，页码连续且对应着相同的第一文档类型的各页文档属于同个目标组别，对应着不同的第一文档类型的任意两页文档属于不同的目标组别；

页面数据获取模块，用于针对每个目标组别，对属于该目标组别的各页文档进行模板匹配，并在模板匹配成功的情况下，对属于该目标组别的各页文档进行数据提取，以得到该目标组别所对应的页面数据；

页面生成模块，用于根据各个目标组别所对应的页面数据，生成校对页面。

第三方面，本申请实施例提供了一种存储介质，所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一实施例所述复合文档处理方法的步骤。

第四方面，本申请实施例提供了一种计算机设备，包括：一个或多个处理器，以及存储器；

所述存储器中存储有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，执行上述任一实施例所述复合文档处理方法的步骤。

在本申请提供的复合文档处理方法、装置、存储介质及计算机设备中，计算机设备在获取到复合文档后，可以根据各页文档所对应的第一文档类型，将第一文档类型相同且页码连续的各页文档划分为同一目标组别，将第一文档类型不同的各页文档划分为不同的目标组别，从而实现复合文档的自动分组。分组后，对于每一个目标组别，计算机设备可以对属于该目标组别的各页文档进行模板匹配，以从各页文档中提取页面数据。在得到各页面数据后，计算机设备可根据各页面数据自动生成校对页面。如此，无需手动拆分文档、手动重命名文档和手动上传各个子文档，在将复合文档上传至计算机设备后，计算机设备可自动完成分组、模板匹配、数据提取和校对页面生成等处理，从而可显著减少人工工作量，提高复合文档的处理效率，进而提高信息录入效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为一个实施例中复合文档处理方法的流程示意图之一；

图2为一个实施例中得到多个目标组别步骤的流程示意图；

图3为一个实施例中复合文档处理方法的流程示意图之二；

图4为一个实施例中复合文档处理装置的结构示意图；

图5为一个实施例中计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在一个实施例中，本申请提供了一种复合文档处理方法。下述实施例以该方法应用于计算机设备为例进行说明，可以理解，执行该方法的计算机设备是指具备数据处理功能的设备，可以但不限于是服务器、个人笔记本电脑或终端等，本申请对此不作具体限制。如图1所示，该方法具体可包括如下步骤：

S102：获取复合文档。其中，复合文档是指包括多个子文档的总文档，任意两个子文档可对应着不同的文档类型，对应着相同文档类型的任意两个子文档页码不连续。也即，若第一子文档的文档类型与第二子文档的文档类型相同，则第一子文档的最大页码与第二子文档的最小页码不相邻。

需要说明的是，本申请所述的页码是指页面在复合文档中的页码。例如，复合文档中第1到3页为第一子文档，复合文档中第4到5页为第二子文档，第二子文档的第一页所对应的页码为4，第二子文档的第二页所对应的页码为5。除非特别说明，下述各实施例所述的页码均可按此理解。

最大页码是指子文档所对应的各个页码中的最大值，最小页码是指子文档所对应的各个页码中的最小值。在上述示例中，第一子文档的最小页码为1，最大页码为3。第二子文档的最小页码为4，最大页码为5。

S104：获取所述复合文档中每页文档所对应的第一文档类型，并根据各页文档所对应的第一文档类型对各页文档进行分组，以得到多个目标组别；其中，页码连续且对应着相同的第一文档类型的各页文档属于同个目标组别，对应着不同的第一文档类型的任意两页文档属于不同的目标组别。

其中，第一文档类型可用于指示复合文档中该页文档所对应的文档类型。

具体而言，在得到复合文档后，计算机设备可分别确定复合文档中每一页文档所对应的第一文档类型。可以理解，计算机设备可采用任意方式来确定第一文档类型，本申请对此不作具体限制。在其中一个实施例中，针对复合文档中的每一页文档，计算机设备可以对该页文档进行矢量化处理，以得到该页文档所对应的矢量值，并将该页文档所对应的矢量值输入到预先训练的文档类型确定模型中，文档类型确定模型所输出的第一文档类型为该页文档所对应的第一文档类型。

在确定各页文档所对应的第一文档类型后，计算机设备可以根据各页文档所对应的第一文档类型和各页文档的页码，对各页文档进行分组，进而得到多个目标组别。其中，对于任意两页文档而言，若该两页文档所对应的第一文档类型不同，则该两页文档分别属于不同的目标组别。对于第一文档类型相同的各页文档而言，页码连续的各页文档属于同一目标组别。页码连续是指各个页码为连续的正整数。如此，可从复合文档中自动识别并划分各个子文档。

在其中一个实施例中，在实际情况中，属于同一份子文档的各页文档一般页码连续。对于页码不连续且第一文档类型相同的任意两页文档，假设其中一页文档的页码为P1，另一页文档的页码为P2，两页文档所对应的第一文档类型为T1，若区间(P1，P2)之间存在至少一个目标页码P3，则计算机设备可将页码P1所对应的文档和页码P2所对应的文档分别划分至不同的目标组别中。其中，目标页码是指第一文档类型不同于T1的页文档所对应的页码。如此，可提高后续模板匹配的匹配效果，进而提高数据提取的准确性。

可以理解，在具体实现上，计算机设备可以采用多种方式来实现上述分组，本申请对此不作具体限制，只需计算机设备按照上述要求完成各页文档的分组即可。

S106：针对每个目标组别，对属于该目标组别的各页文档进行模板匹配，并在模板匹配成功的情况下，对属于该目标组别的各页文档进行数据提取，以得到该目标组别所对应的页面数据。

具体而言，分组后，对于每一个目标组别，计算机设备均可对该目标组别下的各页文档进行模板匹配，以尝试从文档中提取数据。在其中一个实施例中，计算机设备可以采用模板指纹算法，对该目标组别下各页文档进行模板匹配。例如，计算机设备可预先将不同文档中的模板字段词(键名)的内容及位置矢量化后，通过余弦相似度或者协方差，确定模板与该目标组别下各页文档的相似度，并根据计算所得相似度与预设相似度阈值的比较结果判断是否匹配。

对于每一个目标组别，若模板匹配成功，则计算机设备可利用匹配成功的模板，从属于该目标组别的各页文档中自动提取关键数据，以得到该目标组别所对应的页面数据。如此，无需人工手动录入数据，既可提高数据的准确率，也可提高复合文档的处理效率。

S108：根据各个目标组别所对应的页面数据，生成校对页面。

在将数据存储到数据库之前，需要人工复核录入数据的准确性。计算机设备可根据从各页文档中提取的页面数据，自动生成校对页面，以方便核对人员核对数据。在其中一个实施例中，在生成校对数据后，计算机设备可显示该校对页面。

在其中一个实施例中，该校对页面为可编辑页面，以便于用于修正和/或补充数据。计算机设备在接收到用户录入的数据时，将所接收的录入数据填充到校对页面的对应位置处，以便于用户在填写后进行最后的核对。

在其中一个实施例中，计算机设备在接收到存储指令的情况下，将校对页面上的录入数据保存在数据库中，以实现数据落库。

本实施例中，计算机设备在获取到复合文档后，可以根据各页文档所对应的第一文档类型，将第一文档类型相同且页码连续的各页文档划分为同一目标组别，将第一文档类型不同的各页文档划分为不同的目标组别，从而实现复合文档的自动分组。分组后，对于每一个目标组别，计算机设备可以对属于该目标组别的各页文档进行模板匹配，以从各页文档中提取页面数据。在得到各页面数据后，计算机设备可根据各页面数据自动生成校对页面。如此，无需手动拆分文档、手动重命名文档和手动上传各个子文档，在将复合文档上传至计算机设备后，计算机设备可自动完成分组、模板匹配、数据提取和校对页面生成等处理，从而可显著减少人工工作量，提高复合文档的处理效率，进而提高信息录入效率。

在一个实施例中，如图2所示，所述获取所述复合文档中每页文档所对应的第一文档类型，并根据各页文档所对应的第一文档类型对各页文档进行分组，以得到多个目标组别的步骤，包括：

S202：将所述复合文档中的每页文档作为目标页文档；

S204：分别确定各所述目标页文档所对应的第一文档类型；

S206：根据各所述目标页文档所对应的第一文档类型以及各所述目标页文档在所述复合文档中的页码，对各所述目标页文档进行分组，以得到各个初始分组；其中，页码连续且对应着相同的第一文档类型的各页文档属于同个初始组别，对应着不同的第一文档类型的任意两页文档属于不同的初始组别；

S208：针对每个初始分组，对该初始分组所对应的各所述目标页文档进行矢量化处理，以得到该初始分组所对应的矢量值，并根据该初始分组所对应的矢量值确定该初始分组所对应的第二文档类型；

S210：根据每个初始分组所对应的第一文档类型和第二文档类型，确定各个目标分组。

具体而言，计算机设备可以将复合文档中的每一页文档作为目标页文档，并分别确定各目标页文档所对应的第一文档类型。在得到各目标页文档所对应的第一文档类型后，计算机设备可以根据各目标页文档所对应的第一文档类型和页码，对各目标页文档进行分组，以得到各个初始分组。其中，初始分组的具体限定可参阅上述目标分组的相关描述，此处不再赘述。

在得到各个初始分组后，计算机设备需要对各个初始分组的划分准确性进行验证，以确定每个初始分组是否包括至少两种不同的文档。具体地，针对每个初始分组，计算机设备将该初始分组下的各目标页文档作为一个整体，并计算该整体所对应的一个矢量值。换言之，在计算每个初始分组所对应的矢量值时，计算机设备是对该初始分组下的全部文档进行矢量化处理，以得到一个矢量值，并根据该初始分组所对应的矢量值重新确定该初始分组所对应的文档类型，即确定第二文档类型。

由于同个初始分组中各页文档所对应的第一文档类型相同，因此在分组完成后，每个初始分组所对应的第一文档类型是确定的，其可以为该初始分组下任一页文档所对应的第一文档类型。计算机设备可以根据每个初始分组所对应的第一文档类型和每个初始分组所对应的第二文档类型，确定各个目标分组。

本实施例中，计算机设备首先根据单页文档所对应的文档类型进行初始分组，并在初始分组后，以同个初始分组下的全部页文档作为一个整体，重新确定该初始分组所对应的文档类型，并根据单页确定的文档类型和重新确定文档类型确定最终分组，从而可提高分组的准确性，进而提高后续模板匹配和数据提取的成功率，以进一步提高复合文档的处理效率。

在一个实施例中，所述根据每个初始分组所对应的第一文档类型和第二文档类型，确定各个目标分组的步骤，包括：

具体而言，针对每个初始分组，计算机设备可判断该初始分组所对应的第一文档类型与第二文档类型是否相同，进而判断该初始分组的划分是否准确。对于每一个初始分组，若该初始分组所对应的第一文档类型与第二文档类型相同，则表明该初始分组下的各页文档是属于同一个文档类型的，即该初始分组下的各页文档属于同个子文档，因此，可将该初始分组作为一个目标分组，并将属于该初始分组的各页文档作为非目标页文档，以避免后续重复处理。

对于每一个初始分组，若该初始分组所对应的第一文档类型与第二文档类型不同，则表明该初始分组可能包括了至少两种的文档类型所对应的页文档，也即，该初始分组的划分准确性有所不足。因此，计算机设备需要将该初始分组下的各页文档保留为目标页文档。

在复合文档存在至少一页目标页文档的情况下，计算机设备均会重新进入步骤S204，并依次执行步骤S204、S206、S208和S210，直至复合文档中每页文档均为非目标页文档。当目标页文档的组成发生改变时，文档类型的确定结果也可能会有所改变，本实施例将第一文档类型和第二文档类型相同的各页文档作为非目标页文档，而仅仅将第一文档类型和第二的文档类型不同的各页文档作为目标页文档并做后续处理，如此，可避免确定最终分组的各页文档影响各目标页文档的处理结果，提高所确定的文档类型的准确性。

在一个实施例中，所述分别确定各所述目标页文档所对应的第一文档类型的步骤，包括：确定每一所述目标页文档所对应的矢量值，并将各所述目标页文档所对应的矢量值输入至文档类型确定模型中，以获取所述文档类型确定模型所输出的各所述目标页文档所对应的第一文档类型；

和/或

所述根据该初始分组所对应的矢量值确定该初始分组所对应的第二文档类型的步骤，包括：将所述初始分组所对应的矢量值输入至所述文档类型确定模型中，以获取所述文档类型确定模型所输出的该初始分组所对应的第二文档类型。

本申请可采用AI(Artificial Intelligence，人工智能)模型来确定文档类型。其中，文档类型确定模型是通过预训练得到且能识别多种文档类型的特征模型。在确定第一文档类型时，计算机设备可预先确定每一目标页文档所对应的矢量值，并将各目标页文档对应的矢量值输入到文档类型确定模型中，以得到各目标页文档所对应的第一文档类型。类似地，在确定第二文档类型时，计算机设备可计算按照上述实施例所述的步骤，计算初始分组的矢量值，并将初始分组所对应的矢量值输入到文档类型确定模型中，以得到该初始分组所对应的第二文档类型。

在其中一个实施例中，计算机设备可获取模型训练集，该训练集中包括各种可能出现在复合文档中的文档类型，以及各个文档类型所对应的多个样本文档。在训练集中，一个文档类型对应着多个版式不同的样本文档，以便于模型提取到足够的特征信息。针对每个文档类型，计算机设备可计算训练集中该文档类型所对应的每个样本文档的矢量值，并将各个矢量值和文档类型作为输入数据输入到初始模型里，以对初始模型进行训练，并得到训练后的模型。该训练后的模型为上述文档类型确定模型。

在其中一个实施例中，本申请的文档类型确定模型在接收到矢量值的情况下，可根据训练情况对矢量值进行聚类，并根据聚类结果输出文档类型。具体而言，某页文档的矢量值和某分组下各页文档的矢量值均可视为多维空间中的一个文档坐标，当该文档坐标与预训练的某个文档类型的坐标足够接近时，可将这两个坐标聚为两个不可分裂的类，如此，即可获得文档类型。

本实施例中，通过AI模型可准确、快速地确定文档类型，以进一步提高复合文档处理效率。

在一个实施例中，所述对属于该目标组别的各页文档进行模板匹配的步骤，包括：根据该目标组别所对应的第一文档类型，确定各个目标模板，并分别将各个所述目标模板与属于该目标组别的各页文档进行模板匹配。

其中，由于属于同个目标组别的各页文档对应着相同的第一文档类型，因此，目标组别对应的第一文档类型可以是属于该目标组别的任一页文档所对应的第一文档类型。

具体而言，由于复合文档可能包括任意组合的文档类型，因为，需要预先设置每一种可能出现的文档类型所对应的模板。同时，在一些情况下，同一文档类型可能会出现多种版式，如文档类型发票可能会对应着增值税发票模板、通用定额发票模板和机动车销售统一发票模板等。

在进行模板匹配时，若每个目标组别都与全部模板进行模板匹配，则需要消耗较多时间资源和计算资源。因此，为减少匹配数据量，以进一步提高复合文档处理效率，对于每一个目标组别，计算机设备可以根据该目标组别所对应的第一文档类型，从全部模板中选取该第一文档类型所对应的模板作为目标模板，并分别将各个目标模板与该目标组别下的各页文档进行模板匹配。

例如，对于某目标组别，若其包括第一页文档和第二页文档，且其对应的目标模板为第一模板与第二模板，则计算机设备可以将第一模板与第一页文档、第二页文档进行模板匹配，以及将第二模板与第一页文档、第二页文档进行模板匹配。

在一个实施例中，所述在模板匹配成功的情况下，对属于该目标组别的各页文档进行数据提取，以得到该目标组别所对应的页面数据的步骤，包括：

具体而言，本申请所述的“模板匹配成功”，是指各个目标模板中存在至少一个目标模板与目标组别下的各页文档匹配成功，该匹配成功的目标模板为本文所述的匹配模板。

对于每个目标组别，若根据模板匹配结果，确定该目标组别对应的匹配模板，则可基于匹配模板的模板配置信息，从属于该目标组别的各页文档中提取文档数据，以得到各个数据提取结果，从该目标组别中提取得到的各个数据提取结果即为该目标组别所对应的页面生成数据。其中，每个数据提取结果均可包括关键字段和关键字段对应的字段属性，该关键字段是指需要录入至计算机设备的字段，字段属性用于反映关键字段的字段含义。如，关键字段可为12345678，其对应的字段属性为发票号码；又如，关键字段可为XS202200，其对应的字段属性为合同编号。

在其中一个实施例中，在从目标组别的各页文档中提取数据后，计算机设别可以按照预定义的数据模型对所提取的数据进行映射转换，以得到结构化数据，该结构化数据可为上述的数据提取结果。

本实施例中，在模板匹配成功的情况下，可基于匹配模板自动地从复合文档中抽取关键数据，无需人工录入数据。同时，计算机设备还可生成关键数据与该关键数据对应的字段数据之间的映射关系，以便于后续根据数据提取结果生成校对页面。

在一个实施例中，每个数据提取结果还包括该关键字段所对应的文档来源位置，所述文档来源位置为该关键字段在所述复合文档中的出现位置，例如，该关键字段在复合文档中出现的页码以及行列数。校对页面包括信息显示子页面。

具体而言，在得到至少一个数据提取结果的情况下，计算机设备需要根据各个关键字段所对应的字段属性，分别将从复合文档中提取出来的关键字段录入至信息显示子页面的指定栏目处，实现信息的自动录入。其中，指定栏目是指用于录入字段属性所对应的信息的栏目，可根据关键字段所对应的字段属性来确定。例如，对于12345678及发票号码这一数据抽取结果，计算机设备可根据发票号码，确定用于填写发票号码的栏目，并将12345678填入至该栏目内，完成信息录入。如此，可在信息显示子页面中分别显示从各个子文档中提取的关键字段，从而可在一个界面内完成一份复合文档的信息校对，以便于在各个子文档之间相互对照校验，进而可降低出错率并大幅提高校对效率。

在将全部数据提取结果录入至信息显示子页面后，计算机设备可按照各个关键字段在复合文档中的出现顺序，调整各个字段的显示顺序，使得信息显示页面按照与复合文档相同的顺序依次显示各个关键字段，以便于进行信息核对，进而可降低出错率并大幅提高校对效率。

在一个实施例中，所述校对页面还包括文档显示子页面，该文档显示子页面用于显示复合文档，以便于校对信息。

具体而言，复合文档中，一些目标组别不存在与之对应的匹配模板，无法自动从复合文档中提取数据。或者，一些目标组别即使存在与之对应的匹配模板，也可能存在提取失败的字段数据。因此，需要人工录入信息。

本申请中，计算机设备可以对复合文档中的每页文档进行OCR(OpticalCharacter Recognition，光学字符识别)，使得识别后的复合文档可支持字段复制操作，也即，用户可以直接从复合文档中复制相应的关键字段，而无需人工逐个字地输入。

在生成校对页面时，计算机设备可在信息显示子页面显示提取的关键字段，显示在信息显示子页面上的关键字段为目标关键字段。计算机设备可在文档显示子页面同步显示该目标关键字段所对应的文档来源位置处的文档，以方便校对，并提高校对效率。

校对时，若发现信息录入错误，则可从文档显示子页面中复制正确的关键字段，并将复制所得的关键字段粘贴到信息录入子页面中，从而可进一步避免出错，方便人工修改信息。

在为便于理解本申请的方案，下面通过一个具体的示例进行说明。如图3所示，提供了一种复合文档处理方法，该方法具体包括如下步骤：

S302：获取复合文档。

S304：分别对复合文档中的每页文档进行矢量化处理，以得到每页文档的矢量值。

S306：将各页文档的矢量值输入到文档类型确定模型中，以通过文档类型确定模型进行聚类，并确定各页文档所对应的第一文档类型。

S308：对第一文档类型相同的连续页文档划分为同一初始分组，以得到各个初始分组。

S310：对于每个初始分组，计算该初始分组下各页文档所对应的矢量值。

S312：将各个初始分组所对应的矢量值输入到文档类型确定模型中，以通过文档类型确定模型进行聚类，并确定各个初始分组所对应的第二文档类型。

S314：判断每个初始分组的第二文档类型与该初始分组的第一文档类型是否相同，若是，则进入步骤S318，若否，则进入步骤S316。具体地，若初始分组的二次聚类成功(即初始分组的第一文档类型与第二文档类型相同)，则将该初始分组作为一个目标分组。

S316：排除二次聚类成功的页文档和文档类型，并进入步骤S306。也即，在本次执行S306的过程中，将不会重新确定二次聚类成功的页文档的第一文档类型。

S318：基于模板指纹算法，分别对每个目标组别所对应的页文档进行模板匹配。

S320：判断模板匹配是否匹配成功，若是，则进入步骤S322，否则，进入步骤S324。

S322：按照模板配置信息进行数据抽取和结构化处理，以得到页面数据。

S324：仅进行数据位置、内容提取和格式转换，而不进行结构化处理。如，进行该目标组别的各页文档进行OCR识别。

S326：按页码顺序进行融合所有数据，并生成信息显示子页面和文档显示子页面。如此，可方便用户对数据提取失败的文档数据进行校对，并补齐所有必填数据。在用户提交文档数据后，计算机设备可将提交的文档数据存入数据库。

进一步地，计算机设备可高亮显示提取失败的字段数据，以快捷定位。同时，还可在同一界面预览复合文档，并获得复合文档与结构化数据集的每个字段的对应关系，实现相互定位。

本示例中，对于复杂的复合文档，无需再手动按文档类型进行拆分，也无需手动维护成套关系，计算机设备可以基于AI聚类算法对复合文档进行分段归类，显著减少工作量。

不同文档类型的文档都支持多模板识别提取，通过模板指纹算法进行精确匹配，复合文档可以批量上传识别，不再需要分开上传各个子文档，显著减少工作量。计算机设备还可基于复合文档内匹配上的每个文档类型的模板动态渲染需校对的字段，可实现同一份文件在一个界面内一次性完成校对，同一套文件可以相互对照进行校验，降低出错率，大幅提升校对效率。

下面对本申请实施例提供的复合文档处理装置进行描述，下文描述的复合文档处理装置与上文描述的复合文档处理方法可相互对应参照。

在一个实施例中，本申请提供了一种复合文档处理装置400。如图4所示，该装置400具体包括文档获取模块410、分组模块420、页面数据获取模块430和页面生成模块440。其中：

文档获取模块410，用于获取复合文档；

分组模块420，用于获取所述复合文档中每页文档所对应的第一文档类型，并根据各页文档所对应的第一文档类型对各页文档进行分组，以得到多个目标组别；其中，页码连续且对应着相同的第一文档类型的各页文档属于同个目标组别，对应着不同的第一文档类型的任意两页文档属于不同的目标组别；

页面数据获取模块430，用于针对每个目标组别，对属于该目标组别的各页文档进行模板匹配，并在模板匹配成功的情况下，对属于该目标组别的各页文档进行数据提取，以得到该目标组别所对应的页面数据；

页面生成模块440，用于根据各个目标组别所对应的页面数据，生成校对页面。

在一个实施例中，分组模块420包括第一文档类型获取单元、第一分组单元、第二文档类型获取单元和第二分组单元。其中，第一文档类型获取单元用于将所述复合文档中的每页文档作为目标页文档，并分别确定各所述目标页文档所对应的第一文档类型。第一分组单元用于根据各所述目标页文档所对应的第一文档类型以及各所述目标页文档在所述复合文档中的页码，对各所述目标页文档进行分组，以得到各个初始分组；其中，页码连续且对应着相同的第一文档类型的各页文档属于同个初始组别，对应着不同的第一文档类型的任意两页文档属于不同的初始组别。第二文档类型获取单元用于针对每个初始分组，对该初始分组所对应的各所述目标页文档进行矢量化处理，以得到该初始分组所对应的矢量值，并根据该初始分组所对应的矢量值确定该初始分组所对应的第二文档类型。第二分组单元用于根据每个初始分组所对应的第一文档类型和第二文档类型，确定各个目标分组。

在一个实施例中，第二分组单元被配置为执行以下步骤：针对每个初始分组，若该初始分组所对应的第一文档类型与该初始分组所对应的第二文档类型相同，则将该初始分组作为目标分组并将属于该初始分组的各页文档作为非目标页文档，否则，将属于该初始分组的各页文档保留为所述目标页文档；若所述复合文档中至少一页文档为所述目标页文档，则进入所述分别确定所述各所述目标页文档所对应的第一文档类型的步骤。

在一个实施例中，第一文档类型获取单元用于确定每一所述目标页文档所对应的矢量值，并将各所述目标页文档所对应的矢量值输入至文档类型确定模型中，以获取所述文档类型确定模型所输出的各所述目标页文档所对应的第一文档类型。和/或，第二文档类型获取单元用于将所述初始分组所对应的矢量值输入至所述文档类型确定模型中，以获取所述文档类型确定模型所输出的该初始分组所对应的第二文档类型。

在一个实施例中，页面数据获取模块430包括模板匹配单元。该模板匹配单元用于根据该目标组别所对应的第一文档类型，确定各个目标模板，并分别将各个所述目标模板与属于该目标组别的各页文档进行模板匹配。

在一个实施例中，页面数据获取模块430包括数据提取单元。该数据提取单元用于在各个所述目标模板中存在与属于该目标组别的各页文档成功匹配的匹配模板的情况下，基于所述匹配模板的模板配置信息，对属于该目标组别的各页文档进行数据提取，以得到各个数据提取结果，并将各个所述数据提取结果作为该目标分组所对应的页面生成数据；其中，每个数据提取结果包括关键字段和该关键字段所对应的字段属性。

在一个实施例中，每个数据提取结果还包括该关键字段所对应的文档来源位置，所述文档来源位置为该关键字段在所述复合文档中的出现位置；所述校对页面包括信息显示子页面。

页面生成模块440包括录入单元和顺序调整单元。其中，录入单元用于在得到至少一个数据提取结果的情况下，根据各个所述数据提取结果中的所述关键字段和所述字段属性，将各个所述关键字段录入至所述信息显示子页面中。顺序调整单元用于根据各个所述数据提取结果中的所述文档来源位置，调整所述信息显示子页面的字段显示顺序，以使调整后的所述信息显示子页面按照各个所述文档来源位置的位置顺序显示各个所述关键字段。

在一个实施例中，所述校对页面还包括文档显示子页面。页面生成模块440还包括识别单元和文档显示单元。其中，识别单元用于对所述复合文档中的每页文档进行光学字符识别，以得到识别后的复合文档。文档显示单元用于根据各个所述数据提取结果中的所述文档来源位置，在所述文档显示子页面中显示所述识别后的复合文档中目标位置处的文档，所述目标位置为所述信息录入子页面当前显示的关键字段所对应的文档来源位置。

在一个实施例中，本申请还提供了一种存储介质，所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任意实施例所述复合文档处理方法的步骤。

在一个实施例中，本申请还提供了一种计算机设备。所述计算机设备中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任意实施例中所述复合文档处理方法的步骤。

示意性地，图5为本申请实施例提供的一种计算机设备的内部结构示意图，在一个示例中，该计算机设备可以为服务器。参照图5，计算机设备900包括处理组件902，其进一步包括一个或多个处理器，以及由存储器901所代表的存储器资源，用于存储可由处理组件902的执行的指令，例如应用程序。存储器901中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件902被配置为执行指令，以执行上述任意实施例所述复合文档处理方法的步骤。

计算机设备900还可以包括一个电源组件903被配置为执行计算机设备900的电源管理，一个有线或无线网络接口904被配置为将计算机设备900连接到网络，和一个输入输出(I/O)接口905。计算机设备900可以操作基于存储在存储器901的操作系统，例如WindowsServer TM、Mac OS XTM、Unix TM、Linux TM、Free BSDTM或类似。

本领域技术人员可以理解，本申请示出的计算机设备的内部结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本文中，“一”、“一个”、“所述”、“该”和“其”也可以包括复数形式，除非上下文清楚指出另外的方式。多个是指至少两个的情况，如2个、3个、5个或8个等。“和/或”包括相关所列项目的任何及所有组合。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种复合文档处理方法，其特征在于，所述方法包括：

获取复合文档；

根据各个目标组别所对应的页面数据，生成校对页面。

2.根据权利要求1所述的方法，其特征在于，所述获取所述复合文档中每页文档所对应的第一文档类型，并根据各页文档所对应的第一文档类型对各页文档进行分组，以得到多个目标组别的步骤，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据每个初始分组所对应的第一文档类型和第二文档类型，确定各个目标分组的步骤，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述分别确定各所述目标页文档所对应的第一文档类型的步骤，包括：

和/或

5.根据权利要求1至3任一项所述的方法，其特征在于，所述对属于该目标组别的各页文档进行模板匹配的步骤，包括：

6.根据权利要求5所述的方法，其特征在于，所述在模板匹配成功的情况下，对属于该目标组别的各页文档进行数据提取，以得到该目标组别所对应的页面数据的步骤，包括：

7.根据权利要求6所述的方法，其特征在于，每个数据提取结果还包括该关键字段所对应的文档来源位置，所述文档来源位置为该关键字段在所述复合文档中的出现位置；所述校对页面包括信息显示子页面；

8.根据权利要求7所述的方法，其特征在于，所述校对页面还包括文档显示子页面；

9.一种复合文档处理装置，其特征在于，所述装置包括：

文档获取模块，用于获取复合文档；

10.一种存储介质，其特征在于，所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至8任一项所述复合文档处理方法的步骤。

11.一种计算机设备，其特征在于，包括：一个或多个处理器，以及存储器；

所述存储器中存储有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，执行如权利要求1至8任一项所述复合文档处理方法的步骤。