CN115982358B

CN115982358B - 文档拆分方法、装置、终端设备和计算机可读存储介质

Info

Publication number: CN115982358B
Application number: CN202211731011.8A
Authority: CN
Inventors: 卞晓瑜; 肖鸣林; 黄�俊
Original assignee: Yida Technology Shanghai Co ltd
Current assignee: Yida Technology Shanghai Co ltd
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2024-03-26
Anticipated expiration: 2042-12-30
Also published as: CN115982358A

Abstract

本申请提供了一种文档拆方法、装置、终端设备和计算机可读存储介质，方法包括首先获取待拆分文档；其中，待拆分文档包括至少一种子文档；子文档包括至少一页文档；然后采用特征提取模型对待拆分文档的每一页文档进行特征提取，得到每一页文档的特征向量；再计算每一页文档的特征向量与预先配置的各子文档首尾页特征向量的相似度；选择大于预设阈值，且取值最大的相似度对应的子文档首尾特征向量的标签作为每一页文档的标签；最后根据标签对待拆分文档进行拆分，以形成多种子文档。该文档拆分方法采用文档特征来进行拆分，不需要进行文档内容或样式等解析，速度非常快，且成本低。

Description

文档拆分方法、装置、终端设备和计算机可读存储介质

技术领域

本申请涉及文档拆分技术领域，具体涉及一种文档拆分方法、装置、终端设备和计算机可读存储介质。

背景技术

对于一个很多页的长文档而言，其内部往往包含一种或多种子文档，且每种子文档的页数为一页或多页，在一些场景下需要将该长文档拆分为多个子文档。现有拆分方法主要是利用OCR识别其中的文本内容，通过查找其中的关键信息来进行文档拆分；或者解析出原始文件的XML格式和段落样式，以此为依据进行关键信息匹配进而实现文档拆分。

OCR识别出全部文本内容再进行关键信息检索的方式可以达到非常高的准确率，但对于大文档来说成本很高，且速度很慢，当OCR准确率不够高时，分割精度也会下降；而解析原始文档的XML格式和段落样式的方法需要原始文档为可解析类型，因此该方法无法识别每一页都是图像格式的文档。

发明内容

有鉴于此，本申请实施例中提供了一种文档拆分方法、装置、终端设备和计算机可读存储介质，以克服现有技术识别成本高，速度慢以及无法识别图像格式的文档的问题。

第一方面，本申请实施例提供了一种文档拆分方法，该方法包括：

获取待拆分文档；其中，所述待拆分文档包括至少一种子文档；所述子文档包括至少一页文档；

采用特征提取模型对所述待拆分文档的每一页文档进行特征提取，得到每一页文档的特征向量；

计算每一页文档的特征向量与预先配置的各子文档首尾页特征向量的相似度；

选择大于预设阈值，且取值最大的相似度对应的子文档首尾特征向量的标签作为每一页文档的标签；

根据所述标签对待拆分文档进行拆分，以形成多种子文档。

第二方面，本申请实施例提供了一种文档拆分装置，该装置包括：

待拆分文档获取模块，用于获取待拆分文档；其中，所述待拆分文档包括至少一种子文档；所述子文档包括至少一页文档；

特征提取模块，用于采用特征提取模型对所述待拆分文档的每一页文档进行特征提取，得到每一页文档的特征向量；

相似度计算模块，用于计算每一页文档的特征向量与预先配置的各子文档首尾页特征向量的相似度；

标签确定模型，用于选择大于预设阈值，且取值最大的相似度对应的子文档首尾特征向量的标签作为每一页文档的标签；

文档拆分模块，用于根据所述标签对待拆分文档进行拆分，以形成多种子文档。

第三方面，本申请实施例提供了一种终端设备，包括：存储器；一个或多个处理器，与所述存储器耦接；一个或多个应用程序，其中，一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个应用程序配置用于执行上述第一方面提供的文档拆分方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，计算机可读取存储介质中存储有程序代码，程序代码可被处理器调用执行上述第一方面提供的文档拆分方法。

本申请实施例提供的文档拆方法、装置、终端设备和计算机可读存储介质，方法包括首先获取待拆分文档；其中，待拆分文档包括至少一种子文档；子文档包括至少一页文档；然后采用特征提取模型对待拆分文档的每一页文档进行特征提取，得到每一页文档的特征向量；再计算每一页文档的特征向量与预先配置的各子文档首尾页特征向量的相似度；选择大于预设阈值，且取值最大的相似度对应的子文档首尾特征向量的标签作为每一页文档的标签；最后根据标签对待拆分文档进行拆分，以形成多种子文档。

本申请实施例中提供的文档拆分方法采用文档特征来进行拆分，不需要进行文档内容或样式等解析，速度非常快，且成本低。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的文档拆分方法的应用场景示意图；

图2为本申请一个实施例提供的文档拆分方法的流程示意图；

图3为本申请一个实施例中提供的文档拆分装置的结构示意图；

图4为本申请一个实施例中提供的终端设备的结构示意图；

图5为本申请一个实施例中提供的计算机可读存储介质的结构示意图。

具体实施方式

下面将对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了更详细说明本申请，下面结合附图对本申请提供的一种文档拆分方法、装置、终端设备和计算机可读存储介质，进行具体地描述。

请参考图1，图1示出了本申请实施例提供的文档拆分方法的应用场景的示意图，该应用场景包括本申请实施例提供的终端设备100，终端设备100可以是具有显示屏的各种电子设备(如102、104、106和108的结构图)，包括但不限于智能手机和计算机设备，其中计算机设备可以是台式计算机、便携式计算机、膝上型计算机、平板电脑等设备中的至少一种。此外，该终端设备100还以维护有至少一种数据库，用于存储预先配置的各子文档首尾页特征向量等。终端设备100可以泛指多个终端设备中的一个，本实施例仅以终端设备100来举例说明。本领域技术人员可以知晓，上述终端设备的数量可以更多或更少。比如上述终端设备可以仅为几个，或者上述终端设备为几十个或几百个，或者更多数量，本申请实施例对终端设备的数量和类型不加以限定。终端设备100可以用来执行本申请实施例中提供的一种文档拆分方法。

在一种可选的实施方式中，该应用场景包括本申请实施例提供的终端设备100之外，还可以包括服务器，其中服务器与终端设备之间设置有网络。网络用于在终端设备和服务器之间提供通信链路的介质。网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

应该理解，终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器可以是多个服务器组成的服务器集群等。其中，终端设备通过网络与服务器交互，以接收或发送消息等。服务器可以是提供各种服务的服务器。其中服务器可以用来执行本申请实施例中提供的一种文档拆分方法的步骤。此外，终端设备在执行本申请实施例中提供的一种文档拆分方法时，可以将一部分步骤在终端设备执行，一部分步骤在服务器执行，在这里不进行限定。

基于此，本申请实施例中提供了一种文档拆分方法。请参阅图2，图2示出了本申请实施例提供的一种文档拆分方法的流程示意图，以该方法应用于图1中的终端设备为例进行说明，包括以下步骤：

步骤S110，获取待拆分文档。

其中，待拆分文档包括至少一种子文档；子文档包括至少一页文档。

待拆分文档通常是包含很多页的长文档，该长文档中常常包含有多种不同种类的子文档。每种子文档中包括一页或多页文档。

步骤S120，采用特征提取模型对待拆分文档的每一页文档进行特征提取，得到每一页文档的特征向量。

其中特征提取是指将一些原始的输入的数据维度减少或者将原始的特征进行重新组合以便后期使用。在本实施例中，将待拆分文档输入到特征提取模型，对每一页文档进行特征提取，得到每一页文档的特征向量。

在一个实施例中，在执行步骤S120，采用特征提取模型对待拆分文档的每一页文档进行特征提取，得到每一页文档的特征向量，包括：采用神经网络模型对待拆分文档的每一页文档进行特征提取，得到每一页文档的图像特征；将每一页文档的图像特征进行转换，以形成每一页文档的特征向量。

具体来说，可以使用神经网络模型中特征提取层提取每一页文档的图像特征，然后对图像特征进行转换形成特征向量。

可选地，神经网络模型可以是主干网络为Resnet18的神经网络模型。采用该神经网络模式在提取文档特征是可以达到20～50ms一张图像的速度，因此可以进一步提高文档拆分速度。

在一个实施例中，神经网络模型的损失函数为TripletLoss；其中使用TripletLoss作为损失函数，可以更好的区分相似文档，有利于提高文档拆分的准确率。

应当理解，提取文档特征使用的模型不限于本实施例中提到的神经网络模型或干网络为Resnet18的神经网络模型，根据本发明的技术启示，本领域技术人员还可以采用其他模型来进行文档特征提取。

步骤S130，计算每一页文档的特征向量与预先配置的各子文档首尾页特征向量的相似度。

具体来说，预先配置的各子文档首尾页特征向量是指预先采用特征提取模型对各种子文档的首页文档和尾页文档进行特征提取，以形成各子文档首页和尾页特征向量，然后根据各子文档首页和尾页特征向量组成预先配置的各子文档首尾页特征向量。

进一步地，给出了一种建立预先配置的各子文档首尾页特征向量的实施方式，详细描述如下：

在一个实施例中，建立预先配置的各子文档首尾页特征向量，包括：

S1：获取多种子文档；S2：采用特征提取模型分别对每种子文档的首页和尾页文档进行特征提取，以得到每种子文档的首页和尾页特征向量；

S3：将每种子文档的首页和尾页特征向量保持至数据库或配置文件，以建立预先配置的各子文档首尾页特征向量。

具体地，先获取多种子文档，然后从每一种子文档中提取该子文档的首页和尾页文档，并采用特征提取模型分别对每种子文档的首页和尾页文档进行特征提取，以得到每种子文档的首页和尾页特征，再将每种文档的首页和尾页特征提取出来存入数据库作为配置信息保持至数据库，也可以直接保存到一个配置文件中，以建立预先配置的各子文档首尾页特征向量。

需要说明的是，如果某种子文档只有一页，那么首尾页相同。

另外需要说明的是，建立预先配置的各子文档首尾页特征向量时使用的特征提取模型与对待拆分文档的每一页文档进行特征提取时使用的特征提取模型是相同的模型。

在一个实施例中，在执行步骤S2，采用特征提取模型分别对每种子文档的首页和尾页文档进行特征提取，以得到每种子文档的首页和尾页特征向量，包括：采用神经网络模型分别对每种子文档的首页和尾页文档进行特征提取，以得到每种子文档的首页和尾页图像特征；对每种子文档的首页和尾页图像特征进行转换，以得到每种子文档的首页和尾页特征向量。

在一个实施例中，神经网络模型的损失函数为TripletLoss。

具体来说，可以使用神经网络模型中特征提取层提取每种子文档的首页和尾页文档的图像特征，然后对图像特征进行转换形成特征向量。

步骤S140，选择大于预设阈值，且取值最大的相似度对应的子文档首尾特征向量的标签作为每一页文档的标签。

具体地，将待拆分文档每一页文档与预先配置的各子文档首尾页特征向量进行相似度对比，选择出大于预设阈值，且相似度最高的子文档首尾页特征向量的标签来作为每一页文档的标签对其进行标记。

在一个实施例中，在执行步骤S140，选择大于预设阈值，且取值最大的相似度对应的子文档首尾特征向量的标签作为每一页文档的标签，包括：选择大于预设阈值的相似度对应的子文档首尾特征向量形成每一页文档的候选集；从候选集中选出最大相似度对应的子文档首尾特征向量的标签作为每一页文档的标签。

其中，可以先选出相似度大于预设阈值的子文档首尾页特征向量作为候选集；然后从候选集汇总选出最高相似度的子文档首尾页特征向量的标签来对该页文档进行标记。

步骤S150，根据标签对待拆分文档进行拆分，以形成多种子文档。

在一个实施例中，在执行步骤S150，根据标签对待拆分文档进行拆分，包括：将待拆分文档中相同标签的每一页文档拆分成同种子文档。

在对待拆分文档的每一页文档进行标签标记后，可以根据标签来对文档进行拆分，其中将相同标签的文档拆分成同一个子文档，从而形成多种子文档。

本申请实施例提供的文档拆方法包括首先获取待拆分文档；其中，待拆分文档包括至少一种子文档；子文档包括至少一页文档；然后采用特征提取模型对待拆分文档的每一页文档进行特征提取，得到每一页文档的特征向量；再计算每一页文档的特征向量与预先配置的各子文档首尾页特征向量的相似度；选择大于预设阈值，且取值最大的相似度对应的子文档首尾特征向量的标签作为每一页文档的标签；最后根据标签对待拆分文档进行拆分，以形成多种子文档。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

上述本申请公开的实施例中详细描述了一种文档拆分方法，对于本申请公开的上述方法可采用多种形式的设备实现，因此本申请还公开了对应上述方法的文档拆分装置，下面给出具体的实施例进行详细说明。

请参阅图3，为本申请实施例公开的一种文档拆分装置，主要包括：

待拆分文档获取模块310，用于获取待拆分文档；其中，待拆分文档包括至少一种子文档；子文档包括至少一页文档；

特征提取模块320，用于采用特征提取模型对待拆分文档的每一页文档进行特征提取，得到每一页文档的特征向量；

相似度计算模块330，用于计算每一页文档的特征向量与预先配置的各子文档首尾页特征向量的相似度；

标签确定模型340，用于选择大于预设阈值，且取值最大的相似度对应的子文档首尾特征向量的标签作为每一页文档的标签；

文档拆分模块350，用于根据标签对待拆分文档进行拆分，以形成多种子文档。

在一个实施例中，特征提取模块320，用于采用神经网络模型对待拆分文档的每一页文档进行特征提取，得到每一页文档的图像特征；将每一页文档的图像特征进行转换，以形成每一页文档的特征向量。

在一个实施例中，装置包括：配置特征向量建立模块，用于获取多种子文档；采用特征提取模型分别对每种子文档的首页和尾页文档进行特征提取，以得到每种子文档的首页和尾页特征向量；将每种子文档的首页和尾页特征向量保持至数据库或配置文件，以建立预先配置的各子文档首尾页特征向量。

在一个实施例中，标签确定模型340，用于选择大于预设阈值的相似度对应的子文档首尾特征向量形成每一页文档的候选集；从候选集中选出最大相似度对应的子文档首尾特征向量的标签作为每一页文档的标签。

在一个实施例中，文档拆分模块350，用于将待拆分文档中相同标签的每一页文档拆分成同种子文档。

在一个实施例中，配置特征向量建立模块，用于采用神经网络模型分别对每种子文档的首页和尾页文档进行特征提取，以得到每种子文档的首页和尾页图像特征；对每种子文档的首页和尾页图像特征进行转换，以得到每种子文档的首页和尾页特征向量。

在一个实施例中，神经网络模型的损失函数为TripletLoss。

关于文档拆分装置的具体限定可以参见上文中对于方法的限定，在此不再赘述。上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于终端设备中的处理器中，也可以以软件形式存储于终端设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

请参考图4，图4其示出了本申请实施例提供的一种终端设备的结构框图。该终端设备40可以是计算机设备。本申请中的终端设备40可以包括一个或多个如下部件：处理器42、存储器44以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器44中并被配置为由一个或多个处理器42执行，一个或多个应用程序配置用于执行上述应用于文档拆分方法实施例中所描述的方法。

处理器42可以包括一个或者多个处理核。处理器42利用各种接口和线路连接整个终端设备40内的各个部分，通过运行或执行存储在存储器44内的指令、程序、代码集或指令集，以及调用存储在存储器44内的数据，执行终端设备40的各种功能和处理数据。可选地，处理器42可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器42可集成中央处理器(Central ProcessingUnit，CPU)、图形处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器42中，单独通过一块通信芯片进行实现。

存储器44可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器44可用于存储指令、程序、代码、代码集或指令集。存储器44可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端设备40在使用中所创建的数据等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的终端设备的限定，具体的终端设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

综上，本申请实施例提供的终端设备用于实现前述方法实施例中相应的文档拆分方法，并具有相应的方法实施例的有益效果，在此不再赘述。

请参阅图5，其示出了本申请实施例提供的一种计算机可读取存储介质的结构框图。该计算机可读取存储介质50中存储有程序代码，程序代码可被处理器调用执行上述文档拆分方法实施例中所描述的方法。

计算机可读取存储介质50可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读取存储介质50包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读取存储介质50具有执行上述方法中的任何方法步骤的程序代码52的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码52可以例如以适当形式进行压缩。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文档拆分方法，其特征在于，所述方法包括：

根据所述标签对待拆分文档进行拆分，以形成多种子文档；

所述采用特征提取模型对所述待拆分文档的每一页文档进行特征提取，得到每一页文档的特征向量，包括：

采用神经网络模型对所述待拆分文档的每一页文档进行特征提取，得到每一页文档的图像特征；

将每一页文档的图像特征进行转换，以形成每一页文档的特征向量；

建立所述预先配置的各子文档首尾页特征向量，包括：

获取多种子文档；

采用特征提取模型分别对每种子文档的首页和尾页文档进行特征提取，以得到每种子文档的首页和尾页特征向量；

将每种子文档的首页和尾页特征向量保持至数据库或配置文件，以建立预先配置的各子文档首尾页特征向量；

所述采用特征提取模型分别对每种所述子文档的首页和尾页文档进行特征提取，以得到每种子文档的首页和尾页特征向量，包括：

采用神经网络模型分别对每种子文档的首页和尾页文档进行特征提取，以得到每种子文档的首页和尾页图像特征；

对每种子文档的首页和尾页图像特征进行转换，以得到每种子文档的首页和尾页特征向量。

2.根据权利要求1所述的方法，其特征在于，所述选择大于预设阈值，且取值最大的相似度对应的子文档首尾特征向量的标签作为每一页文档的标签，包括：

选择大于所述预设阈值的相似度对应的子文档首尾特征向量形成每一页文档的候选集；

从所述候选集中选出最大相似度对应的子文档首尾特征向量的标签作为每一页文档的标签。

3.根据权利要求1-2任一项所述的方法，其特征在于，所述根据所述标签对待拆分文档进行拆分，包括：

将待拆分文档中相同标签的每一页文档拆分成同种子文档。

4.根据权利要求1所述的方法，其特征在于，所述神经网络模型的损失函数为TripletLoss。

5.一种文档拆分装置，其特征在于，所述装置包括：

文档拆分模块，用于根据所述标签对待拆分文档进行拆分，以形成多种子文档；

所述特征提取模块，还用于采用神经网络模型对待拆分文档的每一页文档进行特征提取，得到每一页文档的图像特征；将每一页文档的图像特征进行转换，以形成每一页文档的特征向量；

配置特征向量建立模块，用于获取多种子文档；采用特征提取模型分别对每种子文档的首页和尾页文档进行特征提取，以得到每种子文档的首页和尾页特征向量；将每种子文档的首页和尾页特征向量保持至数据库或配置文件，以建立预先配置的各子文档首尾页特征向量；

所述配置特征向量建立模块，还用于采用神经网络模型分别对每种子文档的首页和尾页文档进行特征提取，以得到每种子文档的首页和尾页图像特征；对每种子文档的首页和尾页图像特征进行转换，以得到每种子文档的首页和尾页特征向量。

6.一种终端设备，其特征在于，包括：

存储器；一个或多个处理器，与所述存储器耦接；一个或多个应用程序，其中，一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个应用程序配置用于执行如权利要求1-4任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-4任一项所述的方法。