CN115546813A

CN115546813A - 一种文档分析方法、装置、存储介质及设备

Info

Publication number: CN115546813A
Application number: CN202211228209.4A
Authority: CN
Inventors: 杨航远
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2022-12-30

Abstract

本申请公开了一种文档分析方法、装置、存储介质及设备，该方法包括：首先获取目标文档所在的目标图像，并对其进行识别处理，得到目标文档中的目标文本行及目标文本行所在的文本框位置；然后将目标文本行和目标图像输入预先构建的文档分析模型，预测得到目标文本行对应的版面特征；接着，对目标文本中目标文本行对应的版面特征进行分析处理，得到目标文档的分析结果。由于本申请在利用文档分析模型对目标文档进行分析时，通过门控特征融合机制充分融合目标文档中的各模态信息，使得在利用模型进行文档分析时可以有效提高分析精度，从而提高了目标文档的分析效率和准确率。

Description

一种文档分析方法、装置、存储介质及设备

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种文档分析方法、装置、存储介质及设备。

背景技术

随着信息时代的到来，需要处理的信息量呈现几何级别的增长。而文档在人们的日常生活中更是随处可见，如公司的章程合同、产品的使用说明书、报销时使用的发票凭证等，在这种情况下，如何实现更加快速、准确的对文档进行分析处理，以获得其中的有用信息已成为一项重要的研究课题。

目前，通常是通过版面预训练来提高文档的分析精度，具体可以包括两种实现方案：一种是基于单字输入的版面预训练方案；另一种是基于句子输入的版面预训练方案。这两种方案都是在早期对语义和视觉特征进行融合，但由于不同神经层中的语义和视觉信息之间的依赖关系有所不同，早期的融合很难充分捕获语义和视觉两种模态之间的交互信息。并且，这两种方案中采用的变换(transformer)网络中都包含有自注意力机制，其是存在效率低下的问题。比如，对于输入长度为n的序列，自注意力机制需要关注序列中的每个输入，因此复杂度为O(n2)。在一份文档中，通常人们都有这样一个先验知识，即一个句子往往是和它相邻的句子具有更紧密的关系。然而这两种方案在模型训练过程中，需要对整个文档的句子都进行自注意力计算，这不仅增大了学习的成本，降低了分析效率，也导致文档最终的分析结果不够准确。

发明内容

本申请实施例的主要目的在于提供一种文档分析方法、装置、存储介质及设备，能够提高文档的分析效率和准确率。

本申请实施例提供了一种文档分析方法，包括：

获取待分析的目标文档所在的目标图像，并对所述目标图像进行识别处理，得到所述目标文档中的目标文本行以及所述目标文本行所在的文本框位置；

将所述目标文本行和所述目标图像输入预先构建的文档分析模型，预测得到所述目标文本行对应的版面特征；所述文档分析模型是利用门控特征融合机制，根据预设文本训练任务训练得到的；

对所述目标文本中所述目标文本行对应的版面特征进行分析处理，得到所述目标文档的分析结果。

一种可能的实现方式中，所述对所述目标图像进行识别处理，得到所述目标文档中的目标文本行以及所述目标文本行所在的文本框位置，包括：

利用OCR文字识别工具对所述目标图像进行识别处理，得到所述目标文档中的目标文本行以及所述目标文本行所在的文本框位置。

一种可能的实现方式中，所述将所述目标文本行和所述目标图像输入预先构建的文档分析模型，预测得到所述目标文本行对应的版面特征，包括：

将所述目标文本行输入所述文档分析模型的文本编码网络进行文本编码，得到所述目标文本行的文本编码特征；

将所述目标图像输入所述文档分析模型的图像编码网络进行图像编码，得到所述目标文本行的视觉特征；

将所述目标文本行的文本编码特征和视觉特征共同输入文档分析模型的融合网络，利用门控特征融合机制进行特征融合处理，得到所述目标文本行对应的版面特征。

一种可能的实现方式中，所述将所述目标文本行输入所述文档分析模型的文本编码网络进行文本编码，得到所述目标文本行的文本编码特征，包括：

对所述目标文本行的位置信息进行编码，得到位置编码特征；

将所述目标文本行输入所述文档分析模型的文本编码网络，提取出所述目标文本行的语义特征；

将所述目标文本行的语义特征输入全连接层进行编码，得到语义编码特征；

将所述位置编码特征和所述语义编码特征进行求和计算，并将得到的求和结果作为所述目标文本行的文本编码特征。

一种可能的实现方式中，所述将所述目标文本行的文本编码特征和视觉特征共同输入文档分析模型的文本编码网络，利用门控特征融合机制和图注意力机制进行特征融合处理，得到所述目标文本行对应的版面特征，包括：

将所述目标文本行的文本编码特征和视觉特征共同输入文档分析模型的融合网络，并在所述融合网络中的每一层，利用门控特征融合机制，计算得到所述目标文本行对应的融合特征；

根据所述目标文本行对应的融合特征,确定所述目标文本行与所述目标文档中其他文本行之间的注意力分数，并根据所述注意力分数，计算出所述目标文本行对应的版面特征。

一种可能的实现方式中，所述根据所述目标文本行对应的融合特征,确定所述目标文本行与所述目标文档中其他文本行之间的注意力分数，并根据所述注意力分数，计算出所述目标文本行对应的版面特征，包括：

利用图注意力机制，通过欧式距离计算出所述目标文档中距离所述目标文本行最近的预设数量的文本行，并根据所述目标文本行对应的融合特征，计算出所述目标文本行与所述预设数量的文本行之间的注意力分数；

根据所述目标文本行与所述预设数量的文本行之间的注意力分数，计算出所述目标文本行对应的版面特征。

一种可能的实现方式中，所述预设文本训练任务为文本行掩码预测任务；所述文档分析模型的构建过程如下:

获取按照预设比例进行文本行掩码的训练文档所在的训练图像，所述训练文档中被遮挡内容已替换成预设符号；

将所述训练图像输入初始文档分析模型，利用预设的目标函数进行训练，生成所述文档分析模型；

其中，所述预设的目标函数为光滑之后的最小绝对值偏差。

一种可能的实现方式中，所述对所述目标文本中所述目标文本行对应的版面特征进行分析处理，得到所述目标文档的分析结果，包括：

对所述目标文档中所述目标文本行对应的版面特征进行分类，并根据分类结果，识别出所述目标文本行的要素类别，实现对所述目标文本行的要素抽取，得到抽取结果。

本申请实施例还提供了一种文档分析装置，包括：

第一获取单元，用于获取待分析的目标文档所在的目标图像，并对所述目标图像进行识别处理，得到所述目标文档中的目标文本行以及所述目标文本行所在的文本框位置；

预测单元，用于将所述目标文本行和所述目标图像输入预先构建的文档分析模型，预测得到所述目标文本行对应的版面特征；所述文档分析模型是利用门控特征融合机制，根据预设文本训练任务训练得到的；

分析单元，用于对所述目标文本中所述目标文本行对应的版面特征进行分析处理，得到所述目标文档的分析结果。

一种可能的实现方式中，所述第一获取单元具体用于：

一种可能的实现方式中，所述预测单元包括：

第一输入子单元，用于将所述目标文本行输入所述文档分析模型的文本编码网络进行文本编码，得到所述目标文本行的文本编码特征；

第二输入子单元，用于将所述目标图像输入所述文档分析模型的图像编码网络进行图像编码，得到所述目标文本行的视觉特征；

第三输入子单元，用于将所述目标文本行的文本编码特征和视觉特征共同输入文档分析模型的融合网络，利用门控特征融合机制进行特征融合处理，得到所述目标文本行对应的版面特征。

一种可能的实现方式中，所述第一输入子单元包括：

第一编码子单元，用于对所述目标文本行的位置信息进行编码，得到位置编码特征；

提取子单元，用于将所述目标文本行输入所述文档分析模型的文本编码网络，提取出所述目标文本行的语义特征；

第二编码子单元，用于将所述目标文本行的语义特征输入全连接层进行编码，得到语义编码特征；

第一计算子单元，用于将所述位置编码特征和所述语义编码特征进行求和计算，并将得到的求和结果作为所述目标文本行的文本编码特征。

一种可能的实现方式中，所述第三输入子单元包括：

第二计算子单元，用于将所述目标文本行的文本编码特征和视觉特征共同输入文档分析模型的融合网络，并在所述融合网络中的每一层，利用门控特征融合机制，计算得到所述目标文本行对应的融合特征；

第三计算子单元，用于根据所述目标文本行对应的融合特征,确定所述目标文本行与所述目标文档中其他文本行之间的注意力分数，并根据所述注意力分数，计算出所述目标文本行对应的版面特征。

一种可能的实现方式中，所述第三计算子单元包括：

第四计算子单元，用于利用图注意力机制，通过欧式距离计算出所述目标文档中距离所述目标文本行最近的预设数量的文本行，并根据所述目标文本行对应的融合特征，计算出所述目标文本行与所述预设数量的文本行之间的注意力分数；

第五计算子单元，用于根据所述目标文本行与所述预设数量的文本行之间的注意力分数，计算出所述目标文本行对应的版面特征。

一种可能的实现方式中，所述预设文本训练任务为文本行掩码预测任务；所述装置还包括：

第二获取单元，用于获取按照预设比例进行文本行掩码的训练文档所在的训练图像，所述训练文档中被遮挡内容已替换成预设符号；

训练单元，用于将所述训练图像输入初始文档分析模型，利用预设的目标函数进行训练，生成所述文档分析模型；

其中，所述预设的目标函数为光滑之后的最小绝对值偏差。

一种可能的实现方式中，所述分析单元具体用于：

本申请实施例还提供了一种文档分析设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述文档分析方法中的任意一种实现方式。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述文档分析方法中的任意一种实现方式。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述文档分析方法中的任意一种实现方式。

本申请实施例提供的一种文档分析方法、装置、存储介质及设备，首先获取待分析的目标文档所在的目标图像，并对目标图像进行识别处理，得到目标文档中的目标文本行以及目标文本行所在的文本框位置；然后将目标文本行和目标图像输入预先构建的文档分析模型，预测得到目标文本行对应的版面特征；其中，文档分析模型是利用门控特征融合机制，根据预设文本训练任务训练得到的；接着，可以对目标文本中目标文本行对应的版面特征进行分析处理，得到目标文档的分析结果。可见，由于本申请在利用预先构建的文档分析模型对目标文档进行分析时，能够通过门控特征融合机制充分融合目标文档中的各模态信息，使得在利用模型进行目标文档分析时可以大幅度提高分析精度，从而提高了目标文档的分析效率和准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种文档分析方法的流程示意图；

图2为本申请实施例提供的文档分析模型的组成示意图；

图3为本申请实施例提供的一种文档分析装置的组成示意图。

具体实施方式

文档分析可以指的是针对文档中的信息进行抽取并进行结构化的操作。不同于传统的信息抽取技术，文档分析不止依赖于文档中的文本信息，同时还会考虑文本的图像和布局位置等信息。对于不同类型的文档，人们所关心的信息通常会出现在不同的视觉位置上，这是由文档模板的类型和风格所决定的。因此，为精确分析不同类型的文档，需要利用不同模态之间的关联，通过对文本、图像等信息进行联合建模来进行高精度的文档分析。

目前，通常是通过版面预训练来提高文档的分析精度，具体可以包括两种预训练方案：第一种是基于单字输入的版面预训练方案，该方案首先通过编码层对文档中的每个字进行编码，然后通过视觉主干网络对图片进行编码，最后将文字编码和图像编码拼接在一起送入transformer网络，并通过文本掩码、图像掩码、文本图像对齐等预训练任务对transformer网络进行预训练。第二种是基于句子输入的版面预训练方案，该方案首先通过Bert模型提取每个句子的语义特征，然后通过视觉主干网络得到每一个句子相应图像区域的视觉特征，将语义和视觉特征进行拼接后，再通过一个transformer网络对语义特征和视觉特征进行融合，并设计预训练任务对transformer网络进行预训练。

可见，由于上述第一种方案是将每个单字作为输入，细粒度过高，模型会过度关注细节而难以对整个文档版面进行理解。此外，基于单字的版面预训练模型会存在输入长度上的限制，比如，通常要求输入限制在512个字符以内，而很多文档的字符数都超过了这个值。而上述第二种方案虽然是将整个句子作为输入，从而能够从全局的角度更好的学习到整个文档版面的信息，并且字符个数(如512个)的输入限制也不存在了，但其仍然存在效率较低的问题。

这是因为上述两种预训练方案都是在早期对文档的语义和视觉特征进行融合，但由于不同神经层中的语义和视觉信息之间的依赖关系有所不同，早期的融合很难充分捕获语义和视觉两种模态特征之间的交互信息。并且，这两种方案中采用的transformer网络中都包含有自注意力机制，其是存在效率低下的问题的。比如，对于输入长度为n的序列，自注意力机制需要关注序列中的每个输入，因此复杂度为O(n2)。在一份文档中，通常人们都有这样一个先验知识，即一个句子往往是和它相邻的句子具有更紧密的关系。然而上述两种预训练方案在模型训练过程中，需要对整个文档的句子都进行自注意力计算，这不仅增大了学习的成本，降低了分析效率，也导致文档最终的分析结果不够准确。

因此，如何利用先验知识提高模型的学习效果，进而提高文档的分析效率和准确率是目前亟待解决的技术问题。

为解决上述缺陷，本申请提供了一种文档分析方法，首先获取待分析的目标文档所在的目标图像，并对目标图像进行识别处理，得到目标文档中的目标文本行以及目标文本行所在的文本框位置；然后将目标文本行和目标图像输入预先构建的文档分析模型，预测得到目标文本行对应的版面特征；其中，文档分析模型是利用门控特征融合机制和图注意力机制，根据预设文本训练任务训练得到的；接着，可以对目标文本中目标文本行对应的版面特征进行分析处理，得到目标文档的分析结果。可见，由于本申请在利用预先构建的文档分析模型对目标文档进行分析时，能够通过门控特征融合机制充分融合目标文档中的各模态信息，使得在利用模型进行目标文档分析时可以大幅度提高分析精度，从而提高了目标文档的分析效率和准确率。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

第一实施例

参见图1，为本实施例提供的一种文档分析方法的流程示意图，该方法包括以下步骤：

S101：获取待分析的目标文档所在的目标图像，并对目标图像进行识别处理，得到目标文档中的目标文本行以及目标文本行所在的文本框位置。

在本实施例中，将采用本实施例实现文档分析的任一文档定义为目标文档，并将目标文档所在的图像定义为目标图像。并且，本实施例不限制目标文档的语种类型，比如，目标文档可以是中文文档、或英文文档等；本实施例也不限制目标文档的来源，比如，目标文档可以是来自于语音识别的结果，也可以是从网络平台获取到的文档数据；本实施例也不限制目标文档的类型，比如，目标文档可以是公司的章程合同，也可以是产品的使用说明书等。

此外，本实施例也不限制目标图像的类型，比如，目标图像可以是由红(R)、绿(G)、蓝(B)三原色组成的彩色图像、也可以是灰度图像等。并且，本实施例也不限制目标图像的分辨率，比如，目标图像可以是分辨率为720*480RGB图像、也可以是高分辨率1920*1280RGB图像等。本实施例也不限制目标图像获取方法，比如可以通过手机摄像头对文档进行拍摄得到等。

为了提高对于目标文档的分析效率和准确率，本申请在获取到待分析的目标文档所在的目标图像后，可以利用现有或未来出现的图像识别技术，对目标图像进行识别处理，比如，可以利用OCR(optical character recognition)文字识别工具对目标图像进行识别处理，得到目标文档中的目标文本行以及目标文本行所在的文本框位置，用以执行后续步骤S102。需要说明的是，目标文档中的每一句子都可以作为目标文本行，后续将以第i个目标文本行为作为示例进行介绍。

S102：将目标文本行和目标图像输入预先构建的文档分析模型，预测得到目标文本行对应的版面特征；其中，文档分析模型是利用门控特征融合机制，根据预设文本训练任务训练得到的。

在本实施例中，通过步骤S101获取到待分析的目标文档所在的目标图像，并对目标图像进行识别处理，得到目标文档中的目标文本行以及目标文本行所在的文本框位置后，进一步可以将目标文本行和目标图像输入至预先构建的文档分析模型中，从而预测得到目标文本行对应的版面特征，用以执行后续步骤S103。

需要说明的是，为了能够提高对于目标文档的分析效率和准确率，本实施例首先会利用门控特征融合机制，根据预设文本训练任务(具体内容可根据实际情况进行设定，本申请不进行限定，比如可以将其设定为文本行掩码预测任务等)训练得到文档分析模型，从而在利用该模型进行目标文档分析时，可以通过门控特征融合机制充分融合目标文档中的各模态信息，从而能够大幅度提高对于目标文档的分析精度和分析效率。

其中，一种可选的实现方式是，本步骤S102的实现过程具体可以包括下述步骤S1021-S1023：

步骤S1021：将目标文本行输入文档分析模型的文本编码网络进行文本编码，得到目标文本行的文本编码特征。

在本实现方式中，在获取到目标文档中的目标文本行及其所在的文本框位置后，首先可以对其位置信息进行编码，得到位置编码特征。其中，第i个目标文本行的位置信息可以定义为(x_i0,y_i0,x_i1,y_i1,w_i,g_i)，其中，(x_i0,y_i0)表示第i个目标文本行所在文本框左上角的坐标，(x_i1,y_i1)表示第i个目标文本行所在文本框右下角的坐标，w_i、g_i分别表示第i个目标文本行所在文本框的宽和高的取值，i∈(1,2,3,…,N)，且，N表示目标文档中目标文本行的个数，N的取值为正整数。由于目标文档中每一目标文本行的位置信息对于文档分析都具有较大的帮助，所以本申请采用了一个嵌入层对目标文本行的位置信息进行编码，具体编码公式如下：

I_i＝Emb(x_i0，y_i0，x_i1，y_i1，w_i，g_i) (1)

其中，I_i表示目标文档中第i个目标文本行的位置编码特征；x_i0、y_i0分别表示第i个目标文本行所在文本框左上角的坐标，x_i1、y_i1分别表示第i个目标文本行所在文本框右下角的坐标，w_i、g_i分别表示第i个目标文本行所在文本框的宽和高。

然后，可以将目标文本行输入文档分析模型的文本编码网络，提取出目标文本行的语义特征，其中，本实施例对文本编码网络的具体构成不做限定，比如可以将Sentence-Bert网络作为文档分析模型的文本编码网络，如图2所示。接着，可以将目标文本行的语义特征输入全连接层进行编码，得到语义编码特征，再将目标文本行的位置编码特征和语义编码特征进行求和计算，并将得到的求和结果作为目标文本行的文本编码特征，用以执行后续步骤S1023，具体计算公式如下：

s_i＝f(SentenceEmb(t_i))+I_i (2)

其中，s_i表示第i个目标文本行的文本编码特征；I_i表示第i个目标文本行的位置编码特征；SentenceEmb表示文档分析模型的Sentence-Bert；f表示一个全连接层。

步骤S1022：将目标图像输入文档分析模型的图像编码网络进行图像编码，得到所述目标文本行的视觉特征。

在本实现方式中，在获取到目标文档所在的目标图像后，进一步可以将目标图像输入文档分析模型的图像编码网络进行图像编码，得到目标文本行的视觉特征，用以执行后续步骤S1023。其中，本实施例对图像编码网络的具体构成不做限定，比如可以将视觉主干网络作为文档分析模型的图像编码网络，如图2所示。

具体来讲，当采用视觉主干网络作为文档分析模型的图像编码网络时，可以采用一个Swin Transformer网络连接一个特征金字塔网络(Feature Pyramid Network，FPN)作为视觉主干网络，这样，对于输入的目标图像来说，可以先对其进行尺寸规整的预处理，例如可以将1000*1000RGB的目标图像调整为512*512RGB的形式，然后再将其输入视觉主干网络，得到整张目标图像特征图，再根据各个目标文本行所在文本框的位置，通过ROI的方式得到第i个目标文本行对应的视觉特征，用以执行后续步骤S1023，具体计算公式如下：

v_i＝ROI(Pool(Backbone(I))) (3)

其中，v_i表示第i个目标文本行的视觉特征；Backbone表示视觉主干网络；Pool表示一个池化层；I表示目标图像。

步骤S1023：将目标文本行的文本编码特征和视觉特征共同输入文档分析模型的融合网络，利用门控特征融合机制进行特征融合处理，得到所述目标文本行对应的版面特征。

通过步骤S1021和S1022分别得到目标文本行的文本编码特征和视觉特征后，进一步可以将二者共同输入文档分析模型的融合网络，在融合网络中，可以利用门控特征融合机制进行特征融合处理，得到目标文本行对应的版面特征，用以执行后续步骤S103。其中，本实施例对文档分析模型中融合网络的具体构成不做限定，比如可以将transformer网络作为文档分析模型的融合网络，如图2所示。

具体来讲，由于在融合网络(如transformer网络)中不同网络层的语义和视觉特征不同，例如浅层的语义特征表示单个字的语义，而深层的语义特征能表达整个文本行句子的语义，为了更好的融合语义和视觉信息，本申请在融合网络(如transformer网络)中的每一层都采用了门控特征融合机制，这样，在将目标文本行的文本编码特征和视觉特征共同输入文档分析模型的融合网络(如transformer网络)后，在融合网络(如transformer网络)中的每一层，都可以利用门控特征融合机制，计算得到目标文本行对应的融合特征，从而可以让融合网络(如transformer网络)在融合过程中自主的学习每一层中语义和视觉特征所对应的权重，以便于为不同网络层的语义和视觉特征寻找最佳的融合方式。

例如，目标文档中不同颜色、不同大小的字体可能会表示不同的含义，门控融合机制通过训练会给视觉特征分配更大的权重，以区分不同句子的含义。但对于视觉上类似的目标文本行，则会给语义特征分配更大的权重。

门控融合机制的计算公式如下：

其中，

作为门控系数，用于表示第l层中第i个目标文本行的语义和视觉特征所对应的权重；

表示第l-1层transformer网络层输出的第i个目标文本行对应的文本行特征；

作为门控机制的输出，用于表示第l层transformer网络层中第i个目标文本行对应的融合特征；σ表示激活函数；W和b分别表示权重矩阵和偏置。

接着，可以根据目标文本行对应的融合特征,确定出目标文本行与目标文档中其他文本行之间的注意力分数，并根据该注意力分数，计算出目标文本行对应的版面特征。

需要说明的是，由于在传统的融合网络(如transformer网络)中，通常会利用自注意力机制，计算文档中一个文本行与所有文本行的注意力分数，这种计算方式不但会增加计算复杂度，还可能导致网络无法关注到更重要的文本行。由此，为提高计算精度并降低计算复杂度，一种可选的实现方式是，本申请提出在融合网络(如transformer网络)中加入图注意力机制，这样，在进行注意力计算时，只会关注目标文档中离目标文本行最近的一些文本行，从而能够大幅度降低网络的计算量，并且提升模型的性能。

在本实现方式中，可以先利用图注意力机制，通过欧式距离计算出目标文档中距离目标文本行最近的预设数量(具体取值可根据实际情况设定，本申请不限定，比如可将其设定为36等)的文本行，并根据目标文本行对应的融合特征，以及目标文档中距离目标文本行最近的预设数量的文本行对应的融合特征，计算出目标文本行与这些预设数量的文本行之间的注意力分数，然后可以再根据得到注意力分数，计算出目标文本行对应的版面特征。

具体来讲，假设目标文档包含有N个目标文本行，且通过上述公式(5)计算出这N个目标文本行在第l层对应的融合特征分别为

则第i个目标文本行与第j个目标文本之间注意力分数的计算公式如下：

其中，e_ij表示第i个目标文本行与第j个目标文本之间注意力分数；W^Q，W^K分别表示为权重矩阵；

表示第i个目标文本行在第l层对应的融合特征；

表示第j个目标文本行在第l层对应的融合特征。

进一步的，在通过欧式距离计算出目标文档中距离第i个目标文本行最近的K个文本行后，可以计算出目标文本行对应的版面特征如下公式(7)所示：

其中，

表示第i个目标文本行对应的版面特征；D(i)表示通过欧式距离计算出的目标文档中距离第i个目标文本行对应的融合特征的邻域，即通过欧式距离计算出的目标文档中距离第i个目标文本行最近的K个文本行，K为大于0的正整数。

需要说明的是，为了更好的表征文档中语义和视觉模态的交互，在本实施例的一种可能的实现方式中，预设文本训练任务可以设定为文本行掩码预测任务，则文档分析模型的构建过程具体可以包括以下步骤A-B：

步骤A：获取按照预设比例进行文本行掩码的训练文档所在的训练图像，其中，训练文档中被遮挡内容已替换成预设符号。

在本实施例中，为了构建文档分析模型，需要预先进行大量的准备工作，首先，需要收集大量按照预设比例(具体取值可根据实际情况设定，本申请不限定，比如可将其设定为15％等)进行文本行掩码的训练文档所在的训练图像，比如，可以预先收集100幅不同训练文档所在的训练图像，并将其中被遮挡内容替换为预设符号(具体取值可根据实际情况设定，本申请不限定，比如可将其设定为[MASK]等)，同时保留其视觉信息(即视觉特征)和布局信息(即位置编码特征)。再将收集到的每一幅训练图像分别作为样本图像，并预先标注出这些样本图像中被掩码的文本行特征，用以训练文档分析模型。

步骤B：将训练图像输入初始文档分析模型，利用预设的目标函数进行训练，生成文档分析模型。

在本实施例中，在本实施例中，通过步骤A获取到训练图像后，进一步的，可以依次将一幅训练图像作为样本图像输入初始文档分析模型，以通过被掩码的文本行的视觉信息(即视觉特征)和布局信息(即位置编码特征)，以及它周围文本行的特征预测得到样本图像中被掩码文本行的文本行特征(即版面特征)，并利用该预测结果与对应的预先标注结果进行比较，并根据二者的差异，以及预设的目标函数(可根据实际情况和经验值进行设定，本申请不做限定)进行多轮模型训练，直到满足训练结束条件为止，此时，即可生成文档分析模型。其中，初始文档分析模型模型的具体构成不做限制，比如初始文档分析模型模型可以包括但不限于初始Sentence-Bert网络、初始视觉主干网络和初始transformer网络等。

在训练过程中，一种可选的实现方式是，预设的目标函数可以采用光滑之后的最小绝对值偏差(smoothL1)，具体计算公式如下：

其中，p_i表示被掩码的文本行的期望取值；

表示被掩码后的文本行；V表示模型输入所有特征，如视觉特征、文本编码特征等；

表示文档分析模型对p_i的预测结果，即预测得到被掩码的文本行版面特征。

进而可以在模型训练过程中，可以根据L值的变化，对文档分析模型的模型参数进行不断更新，直至L值满足要求，比如变化幅度很小，则停止模型参数的更新，完成文档分析模型的训练，以得到训练后的文档分析模型。

需要说明的是，在利用文本行掩码预测任务训练得到文档分析模型后，还可以直接将直接把模型迁移到其他文档分析任务的处理中，如进行图像掩码、文本图像对齐等，仅需要少量的训练数据进行微调即可，在此不再一一赘述。

S103：对目标文本中目标文本行对应的版面特征进行分析处理，得到目标文档的分析结果。

在本实施例中，通过步骤S102预测得到目标文本行对应的版面特征后，进一步可以对目标文本中目标文本行对应的版面特征进行分析处理，得到目标文档的分析结果，从而实现了对目标文档的更加精准、快速的分析，提高了分析效果。

具体来讲，一种可选的实现方式是，当文档分析场景具体为对文档进行要素抽取任务时，如需要对一个信息文档中抽出名称、地址、电话等要素时，可以将该信息文档作为目标文档，并将其所在的图像作为目标图像，再通过上述步骤S101-S102，计算出该信息文档中各个目标文本行对应的版面特征，进而可以对该各个目标文本行对应的版面特征进行分类，并根据分类结果，识别出目标文本行对应的要素类别，如识别出哪个文本行对应名称、哪个文本行对应地址、以及哪个文本行对应电话要素等。从而实现了对目标文本行的要素抽取，得到抽取结果。

综上，本实施例提供的一种文档分析方法，首先获取待分析的目标文档所在的目标图像，并对目标图像进行识别处理，得到目标文档中的目标文本行以及目标文本行所在的文本框位置；然后将目标文本行和目标图像输入预先构建的文档分析模型，预测得到目标文本行对应的版面特征；其中，文档分析模型是利用门控特征融合机制和图注意力机制，根据预设文本训练任务训练得到的；接着，可以对目标文本中目标文本行对应的版面特征进行分析处理，得到目标文档的分析结果。可见，由于本申请在利用预先构建的文档分析模型对目标文档进行分析时，能够通过门控特征融合机制充分融合目标文档中的各模态信息，使得在利用模型进行目标文档分析时可以大幅度提高分析精度，从而提高了目标文档的分析效率和准确率。

第二实施例

本实施例将对一种文档分析装置进行介绍，相关内容请参见上述方法实施例。

参见图3，为本实施例提供的一种文档分析装置的组成示意图，该装置300包括：

第一获取单元301，用于获取待分析的目标文档所在的目标图像，并对所述目标图像进行识别处理，得到所述目标文档中的目标文本行以及所述目标文本行所在的文本框位置；

预测单元302，用于将所述目标文本行和所述目标图像输入预先构建的文档分析模型，预测得到所述目标文本行对应的版面特征；所述文档分析模型是利用门控特征融合机制，根据预设文本训练任务训练得到的；

分析单元303，用于对所述目标文本中所述目标文本行对应的版面特征进行分析处理，得到所述目标文档的分析结果。

在本实施例的一种实现方式中，所述第一获取单元301具体用于：

在本实施例的一种实现方式中，所述预测单元302包括：

在本实施例的一种实现方式中，所述第一输入子单元包括：

在本实施例的一种实现方式中，所述第三输入子单元包括：

在本实施例的一种实现方式中，所述第三计算子单元包括：

在本实施例的一种实现方式中，所述预设文本训练任务为文本行掩码预测任务；所述装置还包括：

其中，所述预设的目标函数为光滑之后的最小绝对值偏差。

在本实施例的一种实现方式中，所述分析单元303具体用于：

进一步地，本申请实施例还提供了一种文档分析设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述文档分析方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述文档分析方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述文档分析方法的任一种实现方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文档分析方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述目标图像进行识别处理，得到所述目标文档中的目标文本行以及所述目标文本行所在的文本框位置，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述目标文本行和所述目标图像输入预先构建的文档分析模型，预测得到所述目标文本行对应的版面特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述目标文本行输入所述文档分析模型的文本编码网络进行文本编码，得到所述目标文本行的文本编码特征，包括：

5.根据权利要求3所述的方法，其特征在于，所述将所述目标文本行的文本编码特征和视觉特征共同输入文档分析模型的融合网络，利用门控特征融合机制进行特征融合处理，得到所述目标文本行对应的版面特征，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述目标文本行对应的融合特征,确定所述目标文本行与所述目标文档中其他文本行之间的注意力分数，并根据所述注意力分数，计算出所述目标文本行对应的版面特征，包括：

7.根据权利要求1所述的方法，其特征在于，所述预设文本训练任务为文本行掩码预测任务；所述文档分析模型的构建过程如下:

其中，所述预设的目标函数为光滑之后的最小绝对值偏差。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述对所述目标文本中所述目标文本行对应的版面特征进行分析处理，得到所述目标文档的分析结果，包括：

9.一种文档分析装置，其特征在于，包括：

10.一种文档分析设备，其特征在于，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行权利要求1-8任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1-8任一项所述的方法。