CN114997137A

CN114997137A - 一种文档信息抽取方法、装置、设备及可读存储介质

Info

Publication number: CN114997137A
Application number: CN202210680234.XA
Authority: CN
Inventors: 卞晓瑜; 肖鸣林; 周浩然
Original assignee: Yida Technology Shanghai Co ltd
Current assignee: Yida Technology Shanghai Co ltd
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2022-09-02

Abstract

本申请公开了一种文档信息抽取方法、装置、设备及可读存储介质，方法包括：确定获取到的待抽取文档的目标文档类型，并解析得到待抽取文档的文本数据，进而再获取目标文档类型的目标模板，目标模板包含目标文档类型所对应的所有文档中必定出现的目标特征文本及其对应的目标文本，还有目标文本相对目标特征文本的目标位置信息，基于目标位置信息，可以从文本数据中获取与目标特征文本对应的目标文本，最后可以将目标特征文本与目标文本整合成抽取文本，并向用户终端输出抽取文本。本申请可以根据预先配置好的各个模板抽取各种不同类型的文档的文本，无需针对每种类型的文档都开发一种抽取方法，提高了文档抽取方法的通用性与兼容性。

Description

一种文档信息抽取方法、装置、设备及可读存储介质

技术领域

本申请涉及数据处理技术领域，更具体地说，涉及一种文档信息抽取方法、装置、设备及可读存储介质。

背景技术

现有的文档信息抽取的方法，一般只能抽取某一类格式固定的文档，例如只能应用于电子合同或者只能应用于增值税发票等。

随着市场上出现的文档类型及格式越来越多样，也更复杂，甚至同一行业内的交互文档内都会出现含义一样但写法不一样的问题，并且文档内容的空间位置和内容长度往往不是确定的范围。面对如此多种多样的文件类型或格式，每种都开发一套特定的信息抽取方法显然是不现实的，投入的时间和成本将会非常庞大。

因此，需要一种更加通用、兼容性更高的文档信息抽取方案，以抽取各种不同文档的信息。

发明内容

有鉴于此，本申请提供了一种文档信息抽取方法、装置、设备及可读存储介质，用于提供一种更加通用、兼容性更高的文档信息抽取方案，以抽取各种不同文档的信息。

为了实现上述目的，现提出的方案如下：

一种文档信息抽取方法，包括：

获取待抽取文档，确定所述待抽取文档的目标文档类型，并解析所述待抽取文档，得到所述待抽取文档的文本数据；

从预设的各个模板中，确定所述目标文档类型对应的目标模板，所述目标模板中包括所述目标文档类型所对应的所有文档中固定出现的目标特征文本，以及目标文本相对所述目标特征文本的目标位置信息，所述目标文本为所述待抽取文档中的目标特征文本对应的文本；

根据所述目标位置信息，从所述文本数据中获取所述目标特征文本对应的目标文本；

将所述目标特征文本与所述目标文本整合成抽取文本，并向用户终端输出所述抽取文本。

优选地，所述预设的各个模板中任意一个模板的预设过程，包括：

获取第一文档及其第一文档类型，并在存储模板的数据库中查询是否存在所述第一文档类型对应的第一模板；

若否，则确定所述第一文档类型所对应的所有文档中固定出现的第一特征文本、所述第一特征文本对应的第一文本，相对所述第一特征文本的第一位置信息；

将所述第一特征文本，以及所述第一位置信息配置为一个模板，作为所述第一模板。

优选地，所述确定所述目标文档类型对应的目标模板，包括：

读取每个所述模板包括的特征文本，每个所述模板包括一个以上的特征文本；

统计每个所述模板的特征文本出现在所述文本数据中的个数；

将所述特征文本出现在所述文本数据中个数最多的一个模板确定为所述目标文档类型对应的目标模板。

优选地，所述根据所述目标位置信息，从所述文本数据中获取所述目标特征文本对应的目标文本，包括：

确定所述文本数据中的各文本在所述待抽取文档的位置坐标；

获取位置坐标与所述目标位置信息系相符的文本，作为所述目标特征文本对应的目标文本。

优选地，所述目标文本相对所述目标特征文本的目标位置信息，包括：

所述目标文本所在区域的区域边界描述。

优选地，所述解析所述待抽取文档，得到所述待抽取文档的文本数据，包括：

若所述待抽取文档为非图像类型的文档，则利用文档解析工具获取所述待抽取文档的文本数据；

若所述待抽取文档为图像类型的文档，则使用OCR识别所述待抽取文档，得到所述待抽取文档的文本数据。

一种文档信息抽取装置，包括：

文档获取单元，用于获取待抽取文档，确定所述待抽取文档的目标文档类型，并解析所述待抽取文档，得到所述待抽取文档的文本数据；

目标模板确定单元，用于从预设的各个模板中，确定所述目标文档类型对应的目标模板，所述目标模板中包括所述目标文档类型所对应的所有文档中固定出现的目标特征文本，以及目标文本相对所述目标特征文本的目标位置信息，所述目标文本为所述待抽取文档中的目标特征文本对应的文本；

目标文本获取单元，用于根据所述目标位置信息，从所述文本数据中获取所述目标特征文本对应的目标文本；

抽取文本输出单元，用于将所述目标特征文本与所述目标文本整合成抽取文本，并向用户终端输出所述抽取文本。

优选地，还包括模板配置单元，用于配置所述预设的各个模板中任意一个模板；

所述模板配置单元包括：

文档信息获取单元，用于获取第一文档及其第一文档类型，并在存储模板的数据库中查询是否存在所述第一文档类型对应的第一模板；

特征信息确定单元，用于若存储模板的数据库中不存在所述第一文档类型对应的第一模板，则确定所述第一文档类型所对应的所有文档中固定出现的第一特征文本、所述第一特征文本对应的第一文本，相对所述第一特征文本的第一位置信息；

模板确定单元，用于将所述第一特征文本，以及所述第一位置信息配置为一个模板，作为所述第一模板。

一种文档信息抽取设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现上述文档信息抽取方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述文档信息抽取方法的各个步骤。

从上述方案可以看出，本申请提供的文档信息抽取方法，先确定获取到的待抽取文档的目标文档类型，解析得到待抽取文档的文本数据，进而再获取目标文档类型的目标模板，目标模板包含目标文档类型所对应的所有文档中必定出现的目标特征文本、目标特征文本对应的目标文本以及目标文本相对目标特征文本的目标位置信息，基于该目标位置信息，可以从文本数据中获取与目标特征文本对应的目标文本，最后可以将目标特征文本与目标文本整合成抽取文本，并向用户终端输出抽取文本。

本申请提供的文档信息抽取方法可以根据预先配置好的各个模板抽取各种不同类型的文档的文本，无需针对每种类型的文档都开发一种抽取方法，提高了文档抽取方法的通用性与兼容性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种文档信息抽取方法的流程示意图；

图2为本申请实施例公开的一种文档信息抽取装置的结构示意图；

图3为本申请实施例公开的一种文档信息抽取设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

接下来对本申请的文档信息抽取方法进行详细的介绍，请参照图1，图1为本申请实施例中提供的一种文档信息抽取方法的流程示意图，该方法包括：

步骤S100：获取待抽取文档，确定所述待抽取文档的目标文档类型，并解析所述待抽取文档，得到所述待抽取文档的文本数据。

具体的，不同类型的文档包括不同类型的信息，需要抽取的文本也不相同。因此，可以先获取待抽取文档，并确定待抽取文档的文档类型，进而可以将待抽取文档的文档类型作为目标文档类型。

然后，可以解析待抽取文档，得到待抽取文档的文本数据，其中，文本数据中包括待抽取文档中的各个文本，各个文本可以包括其在待抽取文档中的相关信息，示例如：位置坐标、字号、字体大小等。

步骤S110：确定所述目标文档类型对应的目标模板。

具体的，可以预先设置多个模板，各个模板均存储于数据库中。每个模板都可以对应有一种类型的文档，每一种文档类型所对应的所有文档中都可以存在固定出现的特征文本，每个特征文本在文档中都可以有对应的文本。需要说明的是，在同一文档类型对应的所有文档中，各个文档包含的特征文本可以是相同，但不同的文档中的特征文本对应的文本可以是不相同的。

另外，针对一些用户指定的特定文档，特定文档的某些特征文本可以是用户指定的，且特定文档对应的模板中也可以包括用户指定的特征文本。

接下来，以具体示例说明上述的模板。

由于，待抽取的文档可以是同一类型的不同文档中包括相同的特征文本的文档，那么待抽取文档可以是快递单、入学申请表、合同等。其中，快递单包含发货人、收货人、地址等特征文本，这些特征文本在所有的快递单中都可以是固定出现的，而发货人、收货人姓名，具体地址等信息则可以是快递单的特征文本对应的文本；入学申请表可以包含申请人、住址、申请日期等特征文本，这些特征文本对应的文本则可以是申请人的姓名、详细住址、日期等；同样的，合同的特征文本可以是甲方、乙方等，对应的文本可以是甲乙双方的姓名或公司名称。

模板可以是包含其对应的文档类型，所对应的所有文档中固定出现的特征文本，并可以包含特征文本对应的文本，相对特征文本的位置信息。

上述介绍的特征文本对应的文本，相对特征文本的位置信息，其可以是表征特征文本对应的文本在文档中的位置信息，位置信息可以包括：特征文本对应的文本所在区域的区域边界描述，特征文本对应的文本所在区域可以是处于固定的位置，那么区域边界描述可以包括特征文本对应的文本在文档中的范围大小，以及该范围的各个边界的位置坐标。另外，特征文本对应的文本所在区域还可以是以特征文本为中心向四周扩散的区域，此时区域边界描述可以包括向四周扩散的区域的范围大小，该范围可以是：截止到与其它特征文本所在位置开始接触的范围。

因此，可以从预先存储在数据库的各个模板中，确定目标文档类型对应的目标模板。目标模板中可以包括目标文档类型所对应的所有文档中固定出现的目标特征文本，以及目标文本相对目标特征文本的目标位置信息，目标文本可以是待抽取文档中的目标特征文本对应的文本。

步骤S120：根据所述目标位置信息，从所述文本数据中获取所述目标特征文本对应的目标文本。

具体的，目标模板中包括目标文本相对目标特征文本的目标位置信息，因此可以依据目标位置信息从文本数据中获取目标文本。

步骤S130：将所述目标特征文本与所述目标文本整合成抽取文本，并向用户终端输出所述抽取文本。

具体的，可以按照目标位置信息中目标特征文本与目标文本的位置关系，将目标特征文本与目标文本整合成抽取文本，并可以向用户终端输出抽取文本，以供用户浏览、使用。

从上述方案可以看出，本申请可以确定待抽取文档对应的目标模板，并依据目标模板包含的目标特征文本与目标位置信息，快速地从待抽取文档中解析得到的文本数据获取目标文本。显然，只要预设的各个模板中存在待抽取文档对应的目标模板，即可直接进行文本抽取，相比于现有的对各种类型的文档都单独开发一套文本抽取方案，本申请更具通用性，效率更高。

接下来，对上述步骤S100中的，解析所述待抽取文档，得到所述待抽取文档的文本数据的过程作进一步说明。

具体的，待抽取文档可以包括图像类型文档和非图像类型文档。图像类型文档可以有多种，示例如：PNG、JPG等，或其它图片格式的文档，非图像类型的文档也可以有多种，示例如：DOC、XLS、RTF、PDF等，或其它的非图像类型文档。

若待抽取文档为非图像类型的文档，则可以利用文档解析工具获取待抽取文档的文本数据。

若待抽取文档为图像类型的文档，则可以使用OCR识别待抽取文档，得到所述待抽取文档的文本数据。

从上述方案可以看出，相比于现有技术中，无论是否图像类型的待抽取文档，均使用OCR技术解析，本申请对于非图像类型的待抽取文档，使用文档解析工具进行解析，解析得到的文本数据可以保证无误差，避免了OCR识别非图像类型的待抽取文档时，出现解析不准确的情况。

接下来，将介绍预设的各个模板中任意一个模板的预设过程。

具体的，任意一个模板的预设过程可以包括以下步骤：

S1、获取第一文档及其第一文档类型，并在存储模板的数据库中查询是否存在所述第一文档类型对应的第一模板，若否，则执行步骤S2。

具体的，可以任意获取一种类型的文档，获取到的文档可以作为第一文档，进而可以确定第一文档的文档类型，作为第一文档类型。

然后，在存储各个模板的数据库中查询是否存在第一文档类型对应的第一模板，若数据库中没有第一模板，则可以执行步骤S2。

S2、确定所述第一文档类型所对应的所有文档中固定出现的第一特征文本、所述第一特征文本对应的第一文本，相对所述第一特征文本的第一位置信息。

具体的，第一文档类型对应的所有文档中固定出现的文本可以作为第一特征文本，用户指定的文本也可以作为第一特征文本。

第一位置信息可以参考上述步骤S110中介绍的每个模板的位置信息，此处不再赘述。

S3、将所述第一特征文本，以及所述第一位置信息配置为一个模板，作为所述第一模板。

具体的，配置后的模板可以存储于数据库中，以便后续抽取文档信息时使用。

从上述方案可以看出，本申请可以对多种不同类型的文档配置对应的模板，当获取到任意类型的待抽取文档时，若该类型的文档已经预先配置了模板，那么可以直接从数据库中获取该类型对应的模板，并对待抽取文档进行信息抽取。

在本申请的一些实施例中，介绍了上述步骤S110，确定所述目标文档类型对应的目标模板的过程，接下来将对该过程作进一步说明。

具体的，该过程可以包括以下步骤：

S1、读取每个所述模板包括的特征文本，每个所述模板包括一个以上的特征文本。

具体的，可以从预先设置并存储于数据库中的各个模板中，读取每个模板包括的特征文本。

S2、统计每个所述模板的特征文本出现在所述文本数据中的个数。

具体的，若文本数据中的文本与模板的特征文本相同，即可以视为模板的特征文本出现在文本数据中，而每个模板可以有多个不同的特征文本，文本数据中也可以包括多个不同的文本，因此可以统计每个模板的特征文本出现在文本数据中的个数。

S3、将所述特征文本出现在所述文本数据中个数最多的一个模板确定为所述目标文档类型对应的目标模板。

具体的，特征文本出现在文本数据中的个数最多的模板可以作为候选模板，而候选模板可能存在多个，此时可以确定每个候选模板的特征文本的坐标值，进而确定每个候选模板的各个特征文本间的位置关系。基于各个特征文本间的位置关系，从多个候选模板中选定一个与待抽取文档中的特征文本的位置关系相符的模板，作为目标模板。

如果特征文本出现在文本数据中的个数最多的模板仅有一个，那么可以直接将该模板作为目标模板。

从上述方案可以看出，本申请可以读取每个模板的特征文本，并判断每个模板的特征文本在文本数据中的出现情况，基于此从各个模板中确定目标模板。

在本申请的一些实施例中，介绍了上述步骤S120，根据所述目标位置信息，从所述文本数据中获取所述目标特征文本对应的目标文本的过程，接下来将对获取目标文本的过程作进一步说明。

具体的，可以包括以下步骤：

S1、确定所述文本数据中的各文本在所述待抽取文档的位置坐标。

具体的，文本数据中可以包括多个文本，每个文本可以包括其在待抽取文档中的位置坐标。

S2、获取位置坐标与所述目标位置信息系相符的文本，作为所述目标特征文本对应的目标文本。

具体的，目标位置信息可以包括目标文本相对目标特征文本的位置，以及目标文本所在区域的区域边界描述，可以先确定位置坐标与目标特征文本的相对位置相符的文本，且该文本的位置处于目标文本所在区域的区域边界内，进而可以将符合目标位置信息的条件的文本作为目标文本。

从上述方案可以看出，本申请可以确定文本数据中各文本的位置坐标，并从中选出目标文本。

下面对本申请实施例提供的文档信息抽取装置进行描述，下文描述的文档信息抽取装置与上文描述的文档信息抽取方法可相互对应参照。

首先，结合图2对文档信息抽取装置进行介绍，如图2所示，该文档信息抽取装置可以包括：

文档获取单元100，用于获取待抽取文档，确定所述待抽取文档的目标文档类型，并解析所述待抽取文档，得到所述待抽取文档的文本数据；

目标模板确定单元110，用于从预设的各个模板中，确定所述目标文档类型对应的目标模板，所述目标模板中包括所述目标文档类型所对应的所有文档中固定出现的目标特征文本，以及目标文本相对所述目标特征文本的目标位置信息，所述目标文本为所述待抽取文档中的目标特征文本对应的文本；

目标文本获取单元120，用于根据所述目标位置信息，从所述文本数据中获取所述目标特征文本对应的目标文本；

抽取文本输出单元130，用于将所述目标特征文本与所述目标文本整合成抽取文本，并向用户终端输出所述抽取文本。

可选的，文档信息抽取装置还可以包括模板配置单元，用于配置所述预设的各个模板中任意一个模板；

所述模板配置单元包括：

可选的，所述目标模板确定单元，可以包括：

特征文本读取单元，用于读取每个所述模板包括的特征文本，每个所述模板包括一个以上的特征文本；

特征文本统计单元，用于统计每个所述模板的特征文本出现在所述文本数据中的个数；

目标模板选取单元，用于将所述特征文本出现在所述文本数据中个数最多的一个模板确定为所述目标文档类型对应的目标模板。

可选的，所述目标文本获取单元，可以包括：

文本坐标确定单元，用于确定所述文本数据中的各文本在所述待抽取文档的位置坐标；

目标文本选取单元，用于获取位置坐标与所述目标位置信息系相符的文本，作为所述目标特征文本对应的目标文本。

可选的，所述目标文本相对所述目标特征文本的目标位置信息，可以包括：

所述目标文本所在区域的区域边界描述。

可选的，所述文档获取单元，可以包括：

直接解析单元，用于若所述待抽取文档为非图像类型的文档，则利用文档解析工具获取所述待抽取文档的文本数据；

OCR识别单元，用于若所述待抽取文档为图像类型的文档，则使用OCR识别所述待抽取文档，得到所述待抽取文档的文本数据。

本申请实施例提供的文档信息抽取装置可应用于文档信息抽取设备。图3示出了文档信息抽取设备的硬件结构框图，参照图3，文档信息抽取设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文档信息抽取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述预设的各个模板中任意一个模板的预设过程，包括：

3.根据权利要求1所述的方法，其特征在于，所述确定所述目标文档类型对应的目标模板，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述目标位置信息，从所述文本数据中获取所述目标特征文本对应的目标文本，包括：

5.根据权利要求1所述的方法，其特征在于，所述目标文本相对所述目标特征文本的目标位置信息，包括：

所述目标文本所在区域的区域边界描述。

6.根据权利要求1所述的方法，其特征在于，所述解析所述待抽取文档，得到所述待抽取文档的文本数据，包括：

7.一种文档信息抽取装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，还包括模板配置单元，用于配置所述预设的各个模板中任意一个模板；

所述模板配置单元包括：

9.一种文档信息抽取设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1-6任一项的文档信息抽取方法的各个步骤。

10.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-6任一项的文档信息抽取方法的各个步骤。