CN114170482B

CN114170482B - 一种文档预训练模型训练方法、装置、设备及介质

Info

Publication number: CN114170482B
Application number: CN202210126826.7A
Authority: CN
Inventors: 罗楚威; 唐国志; 郑琪; 姚聪
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2022-02-11
Filing date: 2022-02-11
Publication date: 2022-05-17
Anticipated expiration: 2042-02-11
Also published as: CN114170482A

Abstract

本申请实施例提供一种模型训练方法、装置、设备及介质。在本申请实施例中，将文档图像、包含文档图像中文字的文本文件和文字在文档图像中的实际位置输入至文档预训练模型，得到文档图像中图像区域的视觉表征和文字的文本表征；根据视觉表征和/或文本表征，利用监督策略确定损失值；根据损失值，调整模型参数，得到训练后的文档预训练模型。其中，监督策略包括基于文本图像位置感知任务、区域文本预测任务、文本图像双向对齐任务中的至少一种预训练任务确定损失值。从而，通过视觉信息与文本信息充分交互的预训练任务，提高文档预训练模型的训练效果，进而提高文档预训练模型对文档图像进行文档理解的准确性。

Description

一种文档预训练模型训练方法、装置、设备及介质

技术领域

本申请涉及深度学习技术领域，尤其涉及一种模型训练方法、装置、设备及介质。

背景技术

文档理解（Document Understanding）旨在对文档进行自动分析和关键信息提取，是涉及自然语言处理和计算机视觉的重要研究领域之一，具有较高的学术价值和应用价值。近年来，随着深度学习技术的普及，尤其是文档预训练模型的出现，极大地推动了文档理解的发展，如通过文档预训练模型实现文档布局分析、视觉信息提取、文档视觉问答、文档图像分类。

在文档理解中，文档中的文本信息和视觉信息均起到至关重要的作用。目前，已有结合文本信息和视觉信息进行文档理解的文档预训练模型，其主要是在模型的监督策略中采用文本信息和视觉信息作为模型的文本端和视觉端的监督信号，比如，将文本信息作为模型的文本端的监督信号，采用视觉信息作为模型的视觉端的监督信号。

然而，基于上述监督方式得到的文档预训练模型的文档理解准确性还有待提高。

发明内容

本申请的多个方面提供一种模型训练方法、装置、设备及介质，用以解决文档预训练模型的文档理解准确性不高的问题。

第一方面，本申请实施例提供一种模型训练方法，包括：将文档图像、包含文档图像中文字的文本文件和文字在文档图像中的实际位置输入至文档预训练模型，通过文档预训练模型中的嵌入网络和自注意力网络进行特征处理，得到文档图像中图像区域的视觉表征和文字的文本表征；根据视觉表征和/或文本表征，利用监督策略确定损失值；根据损失值，调整文档预训练模型的模型参数，得到训练后的文档预训练模型；其中，监督策略包括基于视觉语言交互的预训练任务确定损失值，预训练任务包括如下至少一种：对文字在文档图像中的位置进行预测的文本图像位置感知任务、对图像区域中的文字进行预测的区域文本预测任务、对文档图像中的被遮挡文字以及文本文件中的被遮挡文字进行预测的文本图像双向对齐任务。

第二方面，本申请实施例提供一种图像处理方法，包括：确定目标文档图像、包含目标文档图像中文字的目标文本文件和文字在目标文档图像中的实际位置；将目标文档图像、目标文本文件和文字在目标文档图像中的实际位置输入至图像处理模型中，得到目标文档图像的处理结果；其中，图像处理模型包括根据第一方面提供的模型训练方法训练得到的文档预训练模型，在图像处理模型中，文档预训练模型用于确定目标文档图像中图像区域的视觉表征和文字的文本表征。

第三方面，本申请实施例提供一种模型训练装置，包括：数据处理单元，用于将文档图像、包含文档图像中文字的文本文件和文字在文档图像中的实际位置输入至文档预训练模型，通过文档预训练模型中的嵌入网络和自注意力网络进行特征处理，得到文档图像中图像区域的视觉表征和文字的文本表征；损失确定单元，用于根据视觉表征和/或文本表征，利用监督策略确定损失值；模型训练单元，用于根据损失值，调整文档预训练模型的模型参数，得到训练后的文档预训练模型；其中，监督策略包括基于视觉语言交互的预训练任务确定损失值，预训练任务包括如下至少一种：对文字在文档图像中的位置进行预测的文本图像位置感知任务、对图像区域中的文字进行预测的区域文本预测任务、对文档图像中的被遮挡文字以及文本文件中的被遮挡文字进行预测的文本图像双向对齐任务。

第四方面，本申请实施例提供一种图像处理装置，包括：数据确定单元，用于确定目标文档图像、包含目标文档图像中文字的目标文本文件和文字在目标文档图像中的实际位置；数据处理单元，用于将目标文档图像、目标文本文件和文字在目标文档图像中的实际位置输入至图像处理模型中，得到目标文档图像的处理结果；其中，图像处理模型包括根据第一方面提供的模型训练方法训练得到的文档预训练模型，在图像处理模型中，文档预训练模型用于确定目标文档图像中图像区域的视觉表征和文字的文本表征。

第五方面，本申请实施例提供一种云服务器，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被所述至少一个处理器执行的指令，该指令被至少一个处理器执行，以使云服务器能够执行第一方面提供的模型训练方法和/或第二方面提供的图像处理方法。

第六方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时第一方面提供的模型训练方法和/或第二方面提供的图像处理方法。

第七方面，本申请实施例提供一种模型训练方法，包括：将文档图像、包含文档图像中文字的文本文件和文字在文档图像中的实际位置输入至文档预训练模型中的嵌入网络，得到文档图像中图像区域对应的嵌入向量和文字对应的嵌入向量；根据图像区域对应的嵌入向量和文字对应的嵌入向量，通过文档预训练模型中的自注意力网络确定文字对应的混合注意特征和图像区域对应的混合注意特征，其中，自注意力网络采用视觉语言双向混合注意力机制；对文字对应的混合注意特征和图像区域对应的混合注意特征进行结合，得到视觉文本双向混合注意特征；根据视觉文本双向混合特征，确定图像区域的视觉表征和文字的文本表征；根据视觉表征和/或文本表征，利用监督策略确定损失值；根据损失值，调整文档预训练模型的模型参数，得到训练后的文档预训练模型。

在本申请实施例中，将文档图像、包含文档图像中文字的文本文件和文字在文档图像中的实际位置输入至文档预训练模型中，通过文档预训练模型中的嵌入网络和自注意力网络进行特征处理，得到文档图像中图像区域的视觉表征和文字的文字表征；根据视觉表征和/或文字表征，利用监督策略确定损失值，基于该损失值调整文档预训练模型的模型参数，完成对文档预训练模型的一次训练。其中，监督策略包括基于文本图像位置感知任务、区域文本预测任务、文本图像双向对齐任务中的至少一种预训练任务确定损失值的策略。从而，通过设计视觉信息与文本信息充分交互的预训练任务，并利用预训练任务对文档预训练模型的训练过程进行监督的方式，有效地提高了文档预训练模型的训练效果，进而提高文档预训练模型的文档理解准确性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请示例性实施例提供的一种模型训练方法的场景示意图；

图2 为本申请示例性实施例提供的一种模型训练方法的流程示意图一；

图3 为本申请示例性实施例提供的一种模型训练方法的流程示意图二；

图4为本申请示例性实施例提供的一种文档预训练模型和预训练任务的示例图；

图5为本申请示例性实施例提供的一种图像处理方法的流程示意图；

图6为本申请示例性实施例提供的模型训练装置的结构框图；

图7为本申请示例性实施例提供的图像处理装置的结构框图；

图8为本申请示例性实施例提供的一种云服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在预训练模型的训练过程中，预训练任务的设计是预训练模型能否取得良好效果的关键。其中，预训练模型是指基于训练数据进行训练得到的且可以应用于多个下游任务的模型。

本申请主要涉及文档预训练模型的预训练过程。其中，文档预训练模型能够从视觉丰富的文档图像（例如包含表格的图像、包含收据的图像）中自动分析和提取出重要内容，可以应用于文档理解的多个下游子任务，比如表格理解、发票信息抽取、文档视觉问答、文档分类。同样的，预训练任务的设计是文档预训练模型能否取得良好效果的关键。

从监督策略角度，文档预训练模型的预训练任务可以分为以下三种：

类型一、利用相同模态的监督信号进行监督（corresponding-modality-supervisio4）

在文档的预训练任务中，按照模态划分，监督信号可以分为两类：视觉信息和文本信息（又可称为语言信号）。因此，利用相同模态的监督信号进行监督包括：将文档图像中的视觉信息作为文本预训练模型的视觉端的监督信号，即利用文档图像中的视觉信息监督文本预训练模型预测的视觉信息；将文档图像中的文本信息作为文本训练模型的文本端的监督信号，即利用文档图像中的文本信息监督文本训练模型预测的文本信息。

类型二、利用视觉信息监督模型端输出的文本信息（Vision-supervise-language）

该类预训练任务中，利用文档图像中的视觉信息监督文本预训练模型预测的文本信息。

类型三、利用文本信息监督模型端输出的视觉信息（Language-supervise-vision）

该类预训练任务中，利用文档图像中的文本信息监督文本预训练模型预测的视觉信息。

类型四、视觉语言双向监督

该类训练任务包括：利用文档图像中的视觉信息监督文本预训练模型预测的文本信息，利用文档图像中的文本信息监督文本预训练模型预测的视觉信息。该类训练任务是本申请所提出的。

相关技术中，文档预训练模型的预训练任务主要集中在类型一和类型二，类型三的研究十分缺乏。因此，视觉信息和文本信息之间的交互不充分，阻碍了文本预训练模型取得更好的泛化能力和更高的文档理解准确性。

因此，本申请实施例提供了一种模型训练方法、装置、设备及介质。在本申请实施例中，在监督策略中设计了视觉信息与文本信息进行充分交互的预训练任务：文本图像位置感知任务、区域文本预测任务、文本图像双向对齐任务。在文档预训练模型的预训练过程中，利用监督策略和文档预训练模型的输出数据，确定损失值，基于损失值调整文档预训练模型的模型参数。从而，通过视觉信息与文本信息充分交互的预训练任务对文档预训练模型的预训练过程进行监督，提高文档预训练模型的泛化能力和文档理解准确性。

具体的，模型训练方法的执行主体可以为模型训练装置，模型训练装置可以通信连接有客户端，参考附图1所示：

其中，客户端可以是任何具有一定数据传输能力的计算设备，此外，客户端的基本结构可以包括：至少一个处理器。处理器的数量取决于客户端的配置和类型。客户端也可以包括存储器，该存储器可以为易失性的，例如RAM，也可以为非易失性的，例如只读存储器（Read-Only memory，简称ROM）、闪存等，或者也可以同时包括两种类型。存储器内通常存储有操作系统（Operating System，简称OS）、一个或多个应用程序，也可以存储有程序数据等。除了处理单元和存储器之外，客户端还包括一些基本配置，例如网卡芯片、IO总线、显示组件以及一些外围设备等。可选地，一些外围设备可以包括，例如键盘、鼠标、输入笔、打印机等。其它外围设备在本领域中是众所周知的，在此不做赘述。可选地，客户端可以为PC（personal computer）终端、手持终端（例如：智能手机、平板电脑）等。

模型训练装置是指可以在网络虚拟环境中提供文档预训练模型的预训练服务的设备，通常是指部署有文档预训练模型，并基于训练数据对文档预训练模型进行模型参数调整的装置。在物理实现上，模型训练装置可以是任何能够提供计算服务，响应服务请求，并进行处理的设备，例如：可以是集群服务器、常规服务器、云服务器、云主机、虚拟中心等。模型训练装置的构成主要包括处理器、硬盘、内存、系统总线等，和通用的计算机架构类似。

在上述本实施例中，客户端可以与模型训练装置进行网络连接，该网络连接可以是无线或有线网络连接。若客户端与模型训练装置是通信连接，该移动网络的网络制式可以为2G（GSM）、2.5G（GPRS）、3G（WCDMA、TD-SCDMA、CDMA2000、UTMS）、4G（LTE）、4G+（LTE+）、WiMax、5G等中的任意一种。

在本申请实施例中，客户端可以向模型训练装置发送文档图像。

当然，模型训练装置也可以自己采集文档图像，再基于文档图像得到包含文档图像中文字的文本文件和文字在文本图像中的实际位置。

其中，模型训练装置主要用于：将文档图像、包含文档图像中文字的文本文件和文字在文档图像中的实际位置输入至文档预训练模型，通过文档预训练模型中的嵌入网络和自注意力网络进行特征处理，得到文档图像中图像区域的视觉表征和文字的文本表征；根据视觉表征和/或文本表征，利用监督策略确定损失值；根据损失值，调整文档预训练模型的模型参数，得到训练后的文档预训练模型。其中，监督策略包括基于视觉语言交互的预训练任务确定损失值，预训练任务包括如下至少一种：对文字在文档图像中的位置进行预测的文本图像位置感知任务、对图像区域中的文字进行预测的区域文本预测任务、对文档图像中的被遮挡文字以及文本文件中的被遮挡文字进行预测的文本图像双向对齐任务。

以下结合附图，详细说明本申请各实施例提供的技术方案。

参考图2，图2为本申请示例性实施例提供的一种模型训练方法的流程示意图一。

如图2所示，本实施例提供了一种模型训练方法，该方法能够利用监督策略训练文档预训练模型，以提高文档训练模型的泛化能力和文档理解准确性，该方法的执行主体可以为模型训练装置，可以理解的是，该模型训练装置可以实现为软件、或者软件和硬件的组合。具体的，该模型训练方法可以包括：

S201、将文档图像、包含文档图像中文字的文本文件和文字在文档图像中的实际位置输入至文档预训练模型，通过文档预训练模型中的嵌入网络和自注意力网络进行特征处理，得到文档图像中图像区域的视觉表征和文字的文本表征。

其中，文档图像是指文档以图像格式进行呈现，可通过对文档进行成像得到文档图像。

其中，文档预训练模型为深度学习模型，包括嵌入网络和自注意力网络。嵌入网络包括嵌入层（Embedding Layer），用于将输入至文档预训练模型中的数据编码压缩为相应的嵌入向量，同时还可以在编码压缩过程中学习数据中蕴含的语义；自注意力网络包括注意力层，注意力层是采用注意力机制的特征提取层，用于对输入至自注意力网络中的数据进行特征提取并通过注意力机制学习特征之间的联系。因此，文档预训练模型采用嵌入网络和自注意力网络，有利于提高文档预训练模型的文档理解准确性。

其中，视觉表征即视觉特征表示（Visual Token Representations），是指通过文档预训练模型对文档图像进行文档理解得到的视觉方面的特征向量，不同的图像区域可对应不同的视觉表征；文本表征即文本特征表示（Text Token Represe4tations），是指通过文档预训练模型对文档图像进行文档理解得到的语言方面的特征向量，不同的文字可对应不同的文本表征。

本实施例中，可先基于预先采集的训练数据，得到文档图像、包含文档图像中文字的文本文件和文字在文档图像中的实际位置。一种方式中，训练数据包含文档图像、包含文档图像中文字的文本文件以及文字在文档图像中的实际位置，此时，可通过在训练数据库中获取训练数据的方式，得到文档预训练模型的这些输入数据；另一种方式中，训练数据包括文档图像，此时，可从训练数据库中获取文档图像，对文档图像进行文字识别，得到包含文档图像中文字的文本文件并得到文字在文档图像中的实际位置。

在得到文档图像、包含文档图像中文字的文本文件和文字在文档图像中的实际位置之后，将这些数据输入至文档预训练模型中。在文档预训练模型中，首先通过嵌入网络对这些输入数据进行编码压缩，得到文档图像中图像区域对应的嵌入向量和文字对应的嵌入向量，将图像区域对应的嵌入向量和文字对应的嵌入向量输入至自注意力网络中进行特征学习，最终得到文档训练模型的输出数据，输出数据包括文档图像中图像区域的视觉表征和文字的文本表征。

其中，一张文档图像可以包括多个图像区域。可以在输入文档预训练模型之前将文档图像划分为多个图像区域，也可以在输入文档预训练模型之后将文档图像划分为多个图像区域。

可选的，多个图像区域的大小相同，其大小取决于视觉表征的大小。

可选的，通过光学字符识别（Optical Character Recognition，OCR）识别文档图像中的文字并获取文字在文档图像中的实际位置，以提高文字识别和定位的准确性。

示例性的，训练数据可为IIT-CDIP测试集。其中，IIT-CDIP测试集中包含丰富的扫描文档图像（相当于本实施例中的文档图像）。可通过ORC提取IIT-CDIP测试集中文档图像上的文本和提取文字的边界框的方式，得到文本文件和文字的实际位置。

S202、根据视觉表征和/或文本表征，利用监督策略确定损失值。

其中，监督策略是指对文本预训练模型进行监督训练的策略，在该策略中，包括基于视觉语言交互的预训练任务确定损失值。其中，预训练任务包括如下至少一种：对文字在文档图像中的位置进行预测的文本图像位置感知任务、对图像区域中的文字进行预测的区域文本预测任务、对文档图像中的被遮挡文字以及文本文件中的被遮挡文字进行预测的文本图像双向对齐任务。下面分别对这几个预训练任务进行解释：

（1）文本图像位置感知（Text Image Position Awareness，简称TIPA）任务：用于感知文档图像中文字的位置，具体的，基于文字的文本表征预测文字在文档图像中的位置，利用文字在文档图像中的实际位置对预测到的位置进行监督。该任务属于利用文档图像的视觉信息监督文本预训练模型输出的文本信息（Vision-supervise-la4guage），即上述类型二。

（2）区域文本预测（Region-Wise Text Prediction，简称RWTP）任务：用于预测图像区域中包含的文字，主要是引导文本信息传递至视觉端。具体的，基于图像区域的视觉表征和文字的文本表征，预测图像区域中包含文本文件中的哪些文字。该任务属于利用文档图像的文本信息监督文本预训练模型输出的视觉信息（language-supervise-vision），即上述类型三。

（3）文本图像双向对齐（Bidirectional Text-Image Alignment，简称BTIA）任务：基于文字的文本表征和图像区域的视觉表征，预测文字在图像中是否为被遮挡文字并预测图像区域中是否包含被遮挡文字。在该过程中，既利用了视觉信息监督文本信息，又利用了文本信息监督了视觉信息，实现了视觉语言双向监督，属于上述类型四。

可见，本实施例通过在利用文本信息监督视觉信息、利用视觉信息监督文本信息、视觉语言双向监督一个或多个方面设计预训练任务，尤其地，通过区域文本预测任务改进上述类型三的监督方式，并通过文本图像双向对齐任务引入上述类型四的监督方式，有效地提高了文本信息与视觉信息交互的充分程度，进而提高了文本训练模型的监督训练效果。

本实施例中，在监督策略中，将图像区域的视觉表征和/或文字的文本表征输入至预训练任务中，通过执行预训练任务，得到文档预训练模型的损失值。具体的，在文本图像位置感知任务中，基于文字的文本表征对文字在文档图像中的位置进行预测，基于预测结果确定损失值；在区域文本预测任务中，基于图像区域的视觉表征和文字的文本表征，对图像区域中的文字进行预测，基于预测结果确定损失值；在文本图像双向对齐任务中，基于图像区域的视觉表征和文字的文本表征，对文字在文档图像中是否为被遮挡文字以及图像区域中是否包含被遮挡文字进行预测，基于预测结果确定损失值。如此，通过设计上述预训练任务，提高文本信息与视觉信息交互的充分程度，提高对文本训练模型的监督训练效果。

S203、根据损失值，调整文档预训练模型的模型参数，得到训练后的文档预训练模型。

本实施例中，在得到损失值后，基于损失值和优化算法对文档预训练模型的模型参数进行调整，例如通过梯度下降法来调整文档预训练模型的模型参数。如此，完成文档预训练模型的一次训练。在此，对文档预训练模型的优化算法不做限制。

其中，可对文档预训练模型进行多次训练，以提高模型训练效果。每次训练可获取文档图像、包含文档图像中文字的文本文件和文字在文档图像中的实际位置，并执行S201~S203。

本申请实施例中，将文档图像、包含文档图像中文字的文本文件和文字在文档图像中的实际位置输入至文档预训练模型，得到文档图像中图像区域的视觉表征和文字的文本表征。根据视觉表征和/或文字表征，通过文本图像位置感知任务、区域文本预测任务、文本图像双向对齐任务中的至少一种训练任务，确定损失值，基于损失值调整文档预训练模型的模型参数。从而，通过设计视觉信息与文本信息充分交互的预训练任务，提高文档预训练模型的训练监督过程中视觉信息与文本信息的交互程度，提高了模型训练效果，进而提高了文档预训练模型的泛化能力和文档理解准确性。

参考图3，图3为本申请示例性实施例提供的一种模型训练方法的流程示意图二。

在图2所示的实施例的基础上，可在通过嵌入网络将输入至文档预训练模型的数据转换为嵌入向量后，对嵌入向量进行相应的预处理操作，以提高预训练任务的执行效果，进而提高文档预训练模型的训练效果。具体的，如图3所示，该模型训练方法可以包括：

S301、将文本图像、文本文件和文字的实际位置输入至文档预训练模型中的嵌入网络，得到图像区域对应的嵌入向量和文字对应的嵌入向量。

其中，图像区域对应的嵌入向量包括图像区域的视觉特征嵌入和图像区域的空间特征嵌入，文字对应的嵌入向量包括文字的文本特征嵌入和文字的空间特征嵌入。

本实施例中，在嵌入网络中，对文本图像中多个图像区域进行特征编码，得到图像区域的视觉特征嵌入和图像区域的空间特征嵌入，其中，视觉特征嵌入反映图像区域中包含的视觉特征，空间特征嵌入反映图像区域在文本图像中的位置特征；在嵌入网络中，针对文本文件中的各文字，对文字和文字的实际位置进行特征编码，得到文字的文本特征嵌入和文字的空间特征嵌入，其中，文字的文本特征嵌入反映文字中包含的文字特征，文字的空间特征嵌入反映文字在文本图像中的位置特征。之后，针对各图像区域，可通过将图像区域的视觉特征嵌入和图像区域的空间特征嵌入进行拼接，得到图像区域对应的嵌入向量；针对各文字，可通过将文字的视觉特征嵌入和文字的空间特征嵌入进行拼接，得到文字对应的嵌入向量。

因此，图像区域对应的嵌入向量既可以反映图像区域的视觉特征又可以反映图像区域的位置特征，文字对应的嵌入向量既可以反映文字的视觉特征又可以反映文字的位置特征，在文档预训练模型中充分利用了图像区域和文字的视觉信息、空间信息，有效地提高了文档预训练模型的文档理解准确性。

可选的，嵌入网络采用卷积神经网络，以从文档图像和文本文件中提取出基本特征信息。

可选的，图像区域的空间特征嵌入包括图像区域的空间位置特征嵌入（Spatialposition features Embedding）、ID行排序嵌入（ID line rank Embedding）、特征局部位置嵌入（Token local position Embedding）；文字对应的空间特征嵌入包括文字的空间位置特征嵌入、ID行排序嵌入、特征局部位置嵌入。从而，通过全局的空间位置和局部位置，进一步细化和丰富图像区域的空间特征嵌入和文字的空间特征嵌入。

其中，图像区域的空间位置特征嵌入是基于图像区域在文档图像中的全局位置（即图像坐标）得到的，该全局位置在将文档图像划分为图像区域时可以得到；图像区域的ID行排序嵌入、特征局部位置嵌入是基于图像区域在文档图像中的局部位置得到的，比如图像区域在文本图像中的排序、图像区域在同一排的多个图像区域中的排序。

其中，文字的空间位置特征嵌入是基于文字在文档图像中的全局位置（即图像坐标）得到的，该全局位置可以基于文字的实际位置得到；文字的ID行排序嵌入是基于文字所在的文本行的ID（比如第一行文本的ID为1，第二行文本的ID为2）得到的，文字的特征局部位置嵌入是基于文字在文本行中的顺序得到的，比如文字是文本行中的第1个文字，则该特征局部位置嵌入的取值为1。相较于图像区域的局部位置，文字所在的文本行、文字在文本行中的顺序所反映的局部位置更为重要，所以，图像区域中的ID行排序嵌入、特征局部位置嵌入的设计更多是为了使得图像区域对应的嵌入向量与文字对应的嵌入向量对齐。

作为示例的，如图4所示，对文档图像和文字进行基础的特征提取的过程如下：

（1）文档图像经视觉特征提取网络（即嵌入网络，可为卷积神经网络）进行基础的特征提取后，可得到4个图像区域分别对应的视觉特征嵌入V1~V4、空间位置特征嵌入P_V1~P_V4、ID行排序嵌入LR_V1~LR_V4、局部位置嵌入LP_V1~LP_V4。将V1、P_V1、P_V1、LP_V1进行拼接，得到第一个图像区域对应的嵌入向量，依次类推，可得到4个图像区域分别对应的嵌入向量。

（2）文档图像经过OCR引擎处理后，提取到文本文件和文字的实际位置，通过嵌入网络对文本文件和文字的实际位置进行基础的特征提取，可得到4个文字分别对应的视觉特征嵌入T1~T4、空间位置特征嵌入P_T1~P_T4、ID行排序嵌入LR_T1~LR_T4、局部位置嵌入LP_T1~LP_T4。将T1、P_T1、P_T1、LP_T1进行拼接，得到第一个文字对应的嵌入向量，如此类推。

S302、对图像区域对应的嵌入向量和文字对应的嵌入向量进行如下至少一种预处理：对图像区域的视觉特征嵌入进行随机屏蔽、对文字的文本特征嵌入进行随机屏蔽、对文字的空间特征嵌入进行随机屏蔽。

本实施例中，在预训练任务中会对文本、文本位置等信息进行预测，而基于文档图像、文本文件、文字在文档图像中的实际位置所得到的嵌入向量包含与文本、文本位置相关的特征，因此，为提高预训练任务的执行效果，可屏蔽嵌入向量中的部分特征信息，即部分文字、部分文字的实际位置等特征信息不输入至文档预训练模型中，使得文档预训练模型输出的视觉表征和/或文本表征不包含这些特征信息，而是由预训练任务去预测这些特征信息。

本实施例中，在预训练任务中：文本图像位置感知任务用于感知文档图像中文字的位置，即预测文字在文档图像中的位置，所以，为提高文本图像位置感知任务的执行效果，可对文字的空间特征嵌入进行随机屏蔽；区域文本预测任务预测图像区域中包含的文字，所以，为提高区域文本预测任务的执行效果，可将图像区域的视觉特征嵌入和/或文本的空间特征嵌入进行随机屏蔽；文本图像双向对齐任务用于预测文字在文档图像中是否被遮挡和图像区域中是否包含被遮挡文字，所以，为提高文本图像双向对齐任务，可对文字的文本特征嵌入和图像区域的视觉特征嵌入进行随机屏蔽。

因此，在预训练任务包含文本图像位置感知任务、区域文本检测任务、文本图像双向对齐任务中至少一种的情况下，可对图像区域对应的嵌入向量和文字对应的嵌入向量进行至少一种预处理：对图像区域的视觉特征嵌入进行随机屏蔽、对文字的文本特征嵌入进行随机屏蔽、对文字的空间特征嵌入进行随机屏蔽。

其中，对图像区域的视觉特征嵌入进行随机屏蔽，可以通过将图像区域的视觉特征嵌入随机设置为0的方式实现。此外，也可以通过数据丢弃等方式实现。对文字的文本特征嵌入进行随机屏蔽、对文字的空间特征嵌入进行随机屏蔽也是如此，不再赘述。

可选的，在文字对应的空间特征嵌入包括文字的空间位置特征嵌入、ID行排序嵌入、特征局部位置嵌入的情况下，对文字对应的空间特征进行随机屏蔽，可以是对文字的空间位置特征嵌入、ID行排序嵌入、特征局部位置嵌入中的至少一种数据的随机屏蔽。

例如，如图4所示，对第4个文本的空间位置特征嵌入P_T4进行屏蔽。

S303、在预处理后，将图像区域对应的嵌入向量和文字对应的嵌入向量输入至自注意力网络，得到图像区域的视觉表征和文字的文本表征。

本实施例中，在对图像区域对应的嵌入向量和/或文字对应的嵌入向量进行预处理后，在自注意力网络中，采用注意力机制对图像区域对应的嵌入向量和文字对应的嵌入向量做进一步的特征编码，最终得到图像区域的视觉表征和文字的文本表征。

例如，如图4所示，经过自注意力网络后得到4个图像区域的视觉表征R_V1~R_V4以及4个文字的文本表征R_T1~R_T4。

S304、根据视觉表征和/或文本表征，利用监督策略确定损失值。

本实施例中，在监督策略中，将图像区域的视觉表征和/或文字的文本表征输入至预训练任务中，通过执行预训练任务，得到文档预训练模型的损失值。

具体的，可基于预训练任务包括文本图像位置感知任务、区域文本感知任务、文本图像双向对齐任务中的至少一种，提供一下几个可行的实施例：

（1）预训练任务包括文本图像位置感知任务

在一可选实施例中，在预训练任务包括文本图像位置感知任务的情况下，损失值可包括基于文本图像位置感知任务确定的第一损失值，预处理可包括对文字的空间特征嵌入进行随机屏蔽。此时，S304的一种可能的实现方式包括：根据文本表征，通过位置感知网络对文字进行位置预测，得到文字在文档图像中的预测位置；根据预测位置和实际位置，确定第一损失值。

本可选实施例中，可将文字的文本表征输入至位置感知网络中，由于存在文字的空间特征嵌入被随机屏蔽，因此，可通过位置感知网络基于文字的文本表征对文字进行位置预测，得到文字分别在文档图像中的预测位置。接着，由于文字在文档图像中的实际位置已知，所以，可确定文字的预测位置与文字的实际位置之间的差异，根据该差异，得到第一损失值。

其中，位置感知网络可采用成熟的、训练好的神经网络，使得第一损失值能够更准确地反映出文字的文本表征的准确性，即更准确地反映文档预训练模型的文档理解能力。具体的，第一损失值越小，则文字的文本表征越准确，说明文档预训练模型的文档理解越准确。

在文字的空间特征嵌入包括文字的空间位置特征嵌入、ID行排序嵌入、特征局部位置嵌入的情况下，由于对文字的位置进行了细粒度的区域划分，具体到了文字所在的文本行，甚至具体到了文字在文本行中的位置，所以文本图像位置感知任务中可以对文字在文本行中的相对空间位置（即局部区域位置）进行建模，即预测出文字更具体的位置。因此，实现文字位置的细粒度预测，提高了第一损失值的准确性，进而提高了对文档预训练模型的监督效果。

可选的，文字的预测位置包括文字对应的预测框，文字的实际位置包括文字对应的目标框。其中，文字对应的预测框的位置可以通过该预测框的四个顶点的位置进行表示，文字对应的目标框可以通过该目标框的四个顶点的位置进行表示。此时，可确定目标框的中心点与预测框的中心点之间的归一化距离，根据归一化距离，得到第一损失值。从而，利用边界框来表示文字的位置的方式，提高基于文字图像位置感知得到的损失值的准确性。

本可选方式中，位置感知网络可为包括全连接层的神经网络。将文字的文本表征输入位置感知网络后，可得到该位置感知网络输出的包含4个参数化坐标的向量，该4个参数化坐标即该文字对应的预测框的四个顶点的位置。之后，基于文字对应的目标框的顶点坐标，确定目标框的中心点，基于文字对应的预测框的顶点坐标，确定预测框的中心点，确定目标框的中心点与预测框的中心点之间的归一化距离，即得到第一损失值。

进一步的，在计算目标框的中心点与预测框的中心点之间的归一化距离的过程中，可确定目标框与预测框之间的交并比（Intersection-over-Union，IoU），确定覆盖目标框和预测框的最小矩形框的对角线长度，确定目标框的中心点与预测框的中心点之间的欧几里得距离，根据交并比、对角线长度和欧几里得距离，计算得到归一化距离，即得到第一损失值。

进一步的，归一化距离的计算公式可表示为：

其中，

表示归一化距离，IoU表示交并比，

表示欧几里得距离，C表示覆盖目标框和预测框的最小矩形框的对角线长度，

表示预测框的中心点，

表示通过一层或多层网络层（如全连接层）对基于文字的文本表征（例如图4中的R_T1）进行处理得到的，

也表示网络层（如全连接层），

表示目标框的中心点。

作为示例的，如图4所示，真实的P_T4被屏蔽，将R_T1~ R_T4共4个文字的文本表征输入至文本图像位置感知任务中，进行文字位置预测，其中得到了P_T4的预测位置[x,y,w,h]。

（2）预训练任务包括区域文本预测任务

在一可选实施例中，在预训练任务包括区域文本预测任务的情况下，损失值可包括基于区域文本预测任务确定的第二损失值，预处理可包括将图像区域的视觉特征嵌入和/或文本的空间特征嵌入进行随机屏蔽，如此在视觉表征和/或文本表征中并不能得到图像区域真实包含的文字，但可基于视觉表征和/或文本表征预测对图像区域中包含的文字，以检测文档预测模型的文本理解能力。此时，S304的又一种可能的实现方式包括：根据文字的实际位置，确定图像区域包含的实际文字；根据图像区域的视觉表征和文字的文本表征，确定图像区域包含的预测文字；根据图像区域包含的实际文字和图像区域包含的预测文字，确定第二损失值。

本可选实施例中，文字的实际位置已知，所以根据文字的实际位置既可以得到文字实际位于哪个图像区域，即可以得到图像区域包含的实际文字。在对图像区域包含的文字进行预测的过程中，可基于图像区域的视觉表征和文字的文本表征，分析图像区域与文字的关系，进而得到图像区域包含的预测文字。之后，再确定图像区域包含的实际文字与图像区域包含的预测文字之间的差异，得到第二损失值。其中，第二损失值越小，则图像区域的文本预测越准确，说明文档预训练模型的文档理解越准确。

可选的，在基于图像区域的视觉表征和文字的文本表征确定图像区域包含的预测文字的过程中，一种可能的实现方式包括：将所有图像区域的视觉表征与所有文本的文本表征进行矩阵相乘，得到乘积矩阵；根据乘积矩阵，确定各个图像区域包含的预测文字。

本可选方式中，在矩阵相乘的过程中，可将第一个图像区域的视觉表征分别与所有文本的文本表征相乘，得到乘积矩阵中第一行的所有元素，将第二个图像区域的视觉表征分别与所有文本的文本表征相乘，得到乘积矩阵中第二行的所有元素，……，最终得到乘积矩阵。其中，乘积矩阵中的元素可反映图像区域与文字之间的关系，例如第一个元素反映第一图像区域与第一个文字之间的关系，第二个元素反映第二个图像区域与第二个文字之间的关系。因此，在得到乘积矩阵之后，可根据乘积矩阵中的各个元素，确定图像区域是否包含相应的文字，进而得到图像区域包含的预测文字。比如，如果乘积矩阵中第一个元素的元素值小于阈值，则确定第一个图像区域不包含第一个文字，否则确定第一个图像区域包含第一个文字。

可选的，在图像区域包含的实际文字与图像区域包含的预测文字之间的差异，得到第二损失值的过程中，可将图像区域是否包含文本看作二分类问题，如果图像区域包含文字，则该图像区域与该文字构成的二元组所对应的标签为第一标签（例如为1），否则该图像与该文本构成的二元组所对应的标签为第二标签（例如为0）。因此，可根据图像区域包含的实际文字，得到图像区域与文字构成的二元组对应的实际标签，根据图像区域包含的预测文字，得到图像区域与文字构成的二元组对应的预测标签，根据实际标签和预测标签之间的差异，确定第二损失值。例如，将所有实际标签与所有预测标签的差值确定为第二损失值。

作为示例的，如图4所示，通过将R_V1~R_V4分别与R_T1~R_T4进行矩阵相乘，得到一个乘积矩阵，基于该乘积矩阵预测出：V1对应的图像区域中包含T1对应的文字、T4对应的文字以及T8对应的文字；V2对应的图像区域中包含T9对应的文字；……；V4对应的图像区域中包含T59对应的文字、T89对应的文字以及T97对应的文字。

（3）预训练任务包括文本图像双向对齐任务

在一可选实施例中，在预训练任务包括文本图像双向对齐任务的情况下，损失值包括基于文本图像双向对齐任务得到的第三损失值和第四损失值，预处理包括对图像区域的视觉特征嵌入进行随机屏蔽和对文字的文本特征嵌入进行随机屏蔽。其中，对图像区域的视觉特征嵌入随机屏蔽相当于对图像区域中的文字进行随机遮挡，对文字的文本特征嵌入进行随机屏蔽相当于对文本文件中的文字进行随机遮挡。此时，S304的一种可能的实现方式包括：通过文本图像对齐方式，确定第三损失值；通过图像文本对齐方式，确定第四损失值。

其中，文本图像对齐方式（Text-Image-Alignment，简称TIA）用于对文字在文本图像中是否位于目标图像区域进行预测，目标图像区域为视觉特征嵌入在预处理中被屏蔽的图像区域，图像文本对齐方式（Image-Text- Alignment，简称ITA）用于对图像区域是否包含目标文字，目标文字为文本特征嵌入在预处理中被屏蔽的文字。

本可选实施例中，在将图像区域对应的嵌入向量和文字对应的嵌入向量输入至文档预训练模型之前，通过对图像区域的视觉特征嵌入进行随机屏蔽的方式，对图像区域中的文字进行了遮挡，通过对文字的文本特征嵌入进行随机屏蔽的方式，对文本文件中的文字进行了遮挡。在得到文档预训练模型输出的图像区域的视觉表征和文字的文本表征之后，可执行以下操作：（1）在文本图像对齐方式中，根据图像区域的视觉表征和文字的文本表征，对文字在文本图像中是否位于目标图像区域进行预测，根据预测结果和文字是否位于目标图像区域的实际情况之间的差异来确定第三损失值；（2）在图像文本对齐方式中，根据图像区域的视觉表征和文字的文本表征，对图像是否包含目标文字进行预测，根据预测结果和图像是否包含目标文字的实际情况之间的差异来确定第四损失值。可见，文本图像对齐方式是“视觉信息监督文本信息”的过程，该过程鼓励将图像区域中的视觉和布局信息转化为文本信息；图像文本对齐方式是“文本信息监督视觉信息”的过程，该过程鼓励将文本信息转化为图像区域中的视觉和布局信息，所以在图像区域中的视觉和布局信息中实现了视觉语言双向监督，即利用视觉信息监督文本信息并利用文本信息监督视觉信息，有效地提高了两者交互充分性。

可选的，在文本图像对齐方式中，可根据图像区域的视觉表征和文字的文本表征，对文字在文本图像中是否位于目标图像区域进行预测，得到文字对应的预测遮挡标签，根据文字对应的预测遮挡标签与文字的实际遮挡标签之间的差异，确定第三损失值，其中，如果文字位于目标图像区域则文字对应的预测遮挡标签为文字被遮挡，否则为文字未被遮挡；

可选的，在图像文本对齐方式中，可根据图像区域的视觉表征和文字的文本表征，通过遮挡预测网络对图像区域是否包含目标文字进行预测，得到图像区域的预测遮挡标签，根据图像区域的预测遮挡标签和图像区域的实际遮挡标签，确定第四损失值。

其中，实际遮挡标签根据图像区域与目标文字之间的位置关系确定。在文字的实际位置一致的情况下，可根据目标文字的实际位置，确定图像区域与目标文字之间的位置关系。如果该位置关系为图像区域包含目标文字，则确定图像区域的实际遮挡标签为第三标签（例如为1），表示图像区域中包含目标文字，即包含被遮挡文字；否则，确定图像区域的实际遮挡标签为第四标签（例如为0），表示图像区域中不包含目标文字，即不包含被遮挡文字。

本可选方式中，可将图像区域的视觉表征和文字的文本表征输入至遮挡预测网络中，得到遮挡预测网络的输出数据，即图像区域的预测遮挡标签，其中，遮挡预测网络为二分类网络，用于基于图像区域的视觉表征和文字的文本表征，确定图像区域的预测遮挡标签是第三标签还是第四标签。在得到图像区域的预测遮挡标签之后，根据图像区域的实际遮挡标签与图像区域的预测遮挡标签之间的差异，得到第四损失值。

进一步的，遮挡预测网络包括特征融合层、池化层和分类层，根据文本表征和视觉表征。此时，通过遮挡预测网络对图像区域是否包含目标文字进行预测，得到图像区域的预测遮挡标签，包括：通过特征融合层对文字的文本表征和图像区域的视觉表征进行融合，得到融合特征；通过池化层对融合特征进行池化处理，得到池化后的融合特征；将池化后的融合特征输入值分类层，得到图像区域的预测遮挡标签。从而，通过特征融合、池化以及分类，提高图像区域的预测遮挡标签的准确性。

进一步的，池化层为平均池化层(Average Pooling)，以提高池化效果。

进一步的，特征融合和池化过程可表示为：

其中，m、n是在对文字的文本表征和图像区域的视觉表征进行融合的过程中对文字的文本表征的维数与图像区域的视觉表征的维数进行聚合后得到的维数。

是文字的文本表征的进一步表示，是通过至少一层网络层（例如全连接层）对文字的文本表征进行处理后得到的，

是图像区域的视觉表征的进一步表示，也是通过至少一层网络层（例如全连接层）对图像区域的视觉表征进行处理后得到的，

，

。F表示

和

的组合。在维数聚合之后，通过特征融合层

对

和进行拼接。接着，通过平均池化层

对融合特征进行池化处理，得到池化后的特征

。

之后，将特征

输入至分类层中，该分类层输出图像区域的预测遮挡标签，比如[有遮挡文字]或[没有遮挡文字]。其中，分类层可基于交叉熵损失进行参数调整。

可选的，在根据图像区域与目标文字之间的位置关系确定图像区域的实际遮挡标签的过程中，可以计算图像区域和目标文字对应的目标框之间的交并比，如果该交并比大于阈值，则确定实际遮挡标签为第三标签，即图像区域包含目标文字，否则为第四标签，即图像区域不包含目标文字。从而，提高实际遮挡标签的准确性。

作为示例的，如图4所示，在文本图像双向对齐任务中，预测得到第一个图像区域的预测遮挡标签为“有遮挡文字”、第二个图像区域的预测遮挡标签为“无遮挡文字”、……、最后一个图像区域的预测遮挡标签为“无遮挡文字”，预测得到第一个文字的预测遮挡标签为“被遮挡”、第二个文字的预测遮挡标签为“未被遮挡”、……、最后一个文字的预测遮挡标签为“被遮挡”。

S305、根据损失值，调整文档预训练模型的模型参数，得到训练后的文档预训练模型。

本实施例中，损失值包括第一损失值、第二损失值、第三损失值、第四损失值中的至少一种，可基于上述预训练任务得到这些损失值，在调整文档预训练模型的模型参数的过程中，可基于优化算法，朝着最小化这些损失值的方向进行模型参数的调整，得到训练后的文档预训练模型。在此，对优化算法和模型参数的具体调整过程不做限制。

本申请实施例中，对部分图像区域的嵌入向量和/或部分文字的嵌入向量进行屏蔽，在利用视觉信息与文本信息充分交互的预训练任务进行相应信息的预测，提高了预训练任务的执行效果，进而提高了通过预训练模型对文档预训练模型的预训练过程进行监督的效果，提高了文档预训练模型的泛化能力和文档理解准确性。

基于前述任一实施例，可选的，自注意力网络采用视觉语言双向混合注意力机制。其中，在文档理解过程中视觉信息会对文本信息产生影响（或者贡献）、文本信息也会对视觉信息产生影响，视觉语言双向混合注意力机制能够发掘哪些视觉信息对文本信息产生影响以及哪些文本信息对视觉信息产生影响，有利于提高文档预训练模型的文档理解能力。

在自注意力网络采用视觉语言双向混合注意力机制的情况下，在自注意力网络中：可根据图像区域对应的嵌入向量和文字对应的嵌入向量，通过自注意力网络确定文字对应的混合注意特征和图像区域对应的混合注意特征；对文字对应的混合注意特征和图像区域对应的混合注意特征进行结合，得到视觉文本双向混合注意特征；根据视觉文本双向混合特征，确定图像区域的视觉表征和文字的文本表征。其中，文字对应的混合注意特征关注了视觉信息对文本信息的影响，图像区域对应的混合注意特征关注了文本信息对视觉信息的影响。从而，通过视觉语言双向混合注意力机制，使得图像区域的视觉表征包含了丰富的文本信息（或语言信息），使得文字的文本表征包含了丰富的视觉信息。

其中，基于视觉文本双向混合特征确定图像区域的视觉表征和文字的文本表征的过程，例如可以基于视觉文本双向混合特征对图像区域对应的嵌入向量、文本对应的嵌入向量进行加权等方式进行处理，得到图像区域的视觉表征和文字的文本表征，具体在此不做限制，可以参照现有注意力机制中利用注意力特征进行特征处理的过程。

本可选方式中，在自注意力网络中，可通过对图像区域对应的嵌入向量进行线性变换，得到与图像区域相关的注意力向量，对文字对应的嵌入向量进行线性变换，得到与文字相关的注意力向量。其中，与图像区域相关的注意力向量包括与图像区域相关的查询向量、键向量和值向量，与文字相关的注意力向量包括与文字相关的查询向量、键向量和值向量。

之后，可根据与文字相关的注意力向量，确定文本注意力特征，根据与文字相关的查询向量、与图像区域相关的键向量和与图像区域相关的值向量，确定视觉-文本混合注意力特征，根据文本注意力特征和视觉-文本混合注意力特征，确定文字对应的混合注意特征。同样的，可根据与图像区域相关的注意力向量，确定视觉注意力特征，根据与图像区域相关的查询向量、与文字相关的键向量和与文字相关的值向量，确定文本-视觉混合注意力特征，根据视觉注意力特征和文本-视觉混合注意力特征，确定图像区域对应的混合注意特征。

进一步的，文字对应的混合注意特征的计算公式可表示为：

图像区域对应的混合注意特征可表示为：

其中，f表示注意力层，A表示对查询向量和键向量进行结合的网络层，

、

、

分别表示与文字相关的查询向量、键向量、值向量，

、

、

表示与图像区域相关的查询向量、键向量、值向量，

表示文字对应的混合注意特征，

表示图像区域对应的混合注意特征。

表示文本注意力特征，

表示视觉-文本混合注意力特征，

表示视觉注意力特征，表示文本-视觉混合注意力特征。

进一步的：

的计算公式可表示为：

的计算公式可表示为：

的计算公式可表示为：

的计算公式可表示为：

的计算公式可表示为：

的计算公式可表示为：

其中，

为文字的文本表征的进一步表示，可以通过一层或多层网络层对文字的文本表征进行处理得到；

为图像区域的视觉表征的进一步表示，可以通过一层或多层网络层对图像区域的视觉表征进行处理得到；

、

、

分别表示对

进行线性变换得到的查询向量、键向量、值向量，相当于与文字相关的查询向量、键向量、值向量；

、

、

分别表示对

进行线性变换得到的查询向量、键向量、值向量，相当于与图像区域相关的查询向量、键向量、值向量；

表示

网络层；

为键向量的维度；LN表示归一化网络层；

即

，

即

，

即

，

即

，

即

，

即

。

其中，查询向量、键向量、值向量的计算可参照现有注意力机制，不进行描述。

进一步的，对文字对应的混合注意特征和图像区域对应的混合注意特征进行结合，得到视觉文本双向混合注意特征，可表示为：

其中，

表示视觉文本双向混合注意特征，LN表示归一化网络层。

需要说明的是，文档预训练模型中的自注意力网络采用视觉文本双向注意力机制时，也可以采用其他的监督策略，由于自注意力网络采用视觉文本双向注意力机制，提高了文档图像上的视觉信息与文本信息的交互程度，提高了文档预训练模型的特征提取能力，同样可以达到提高文档预训练模型的文档理解准确性的效果。

基于前述任一实施例，可选的，自注意力网络可采用transformer网络。其中，transformer网络可以通过多个注意力头进行并行的特征学习，有利于提取到更多的特征，进而提高文档预训练模型的文档理解准确性。

参考图5，图5为本申请示例性实施例提供的一种图像处理方法的流程示意图。如图5所示，图像处理方法包括：

S501、确定目标文档图像、包含目标文档图像中文字的目标文本文件和文字在目标文档图像中的实际位置。

其中，目标文档图像为模型应用过程中的待处理图像。

本实施例中，可获取用户输入的目标文档图像，或者获取来自其他设备的目标文档图像，或者可从数据库中获取预先采集的目标文档图像，在此对目标文档图像的获取不做限制。接着，可在目标文档图像中进行文字识别（例如通过OCR工具），得到包含目标文档图像中文字的目标文本文件和文字在目标文档图像中的实际位置。

S502、将目标文档图像、目标文本文件和文字在目标文档图像中的实际位置输入至图像处理模型中，得到目标文档图像的处理结果。

其中，图像处理模型包括根据前述任一实施例提供的模型训练方法训练得到的文档预训练模型，在图像处理模型中，文档预训练模型用于确定目标文档图像中图像区域的视觉表征和目标文档图像中文字的文本表征。

其中，图像处理模型可以为文档预训练模型，也可以为包含文档预训练模型且用于执行下游任务（表格理解、发票信息抽取、文档视觉问答、文档分类）的网络模型。比如，图像处理模型用于表格理解、发票信息抽取、文档视觉文档时，可以在文档预训练模型中连接一个或多个用于单个文字分类的分类层（例如全连接层），此时目标文档图像的处理结果包括目标文档图像中单个文字的分类结果；又如，图像处理模型用于文档分类时，可以在文档预训练模型中连接一个或多个用于文档分类的分类层（例如全连接层），此时目标文档图像的处理结果包括目标文档图像中文档的分类结果。

本实施例中，将目标文档图像、目标文本文件和文字在目标文档图像中的实际位置输入至图像处理模型中，通过图像处理模型的处理，尤其是经过图像处理模型中文档预训练模型的处理，得到目标文档图像的处理结果。其中，由文档预训练模型对目标文档图像、目标文本文件和文字在目标文档图像中的实际位置进行处理的过程，可参照前述实施例，不再赘述。

因此，在本实施例中，在图像处理模型中，利用经前述任一实施例训练得到的文档预训练模型进行文档图像处理，由于文档预训练模型的文档理解能力提高，图像处理模型对文档图像的处理结果的准确性也会相应提高。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，S201至S203的执行主体可以为设备A；又比如，S201和S202的执行主体可以为设备A，S203的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如S201、S202等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

参考图6，图6为本申请示例性实施例提供的模型训练装置600的结构框图。如图6所示，模型训练装置600包括数据处理单元601、损失确定单元602和损失确定单元603，其中：

数据处理单元601，用于将文档图像、包含文档图像中文字的文本文件和文字在文档图像中的实际位置输入至文档预训练模型，通过文档预训练模型中的嵌入网络和自注意力网络进行特征处理，得到文档图像中图像区域的视觉表征和文字的文本表征；

损失确定单元602，用于根据视觉表征和/或文本表征，利用监督策略确定损失值；

模型训练单元603，用于根据损失值，调整文档预训练模型的模型参数，得到训练后的文档预训练模型。

其中，监督策略包括基于视觉语言交互的预训练任务确定损失值，预训练任务包括如下至少一种：对文字在文档图像中的位置进行预测的文本图像位置感知任务、对图像区域中的文字进行预测的区域文本预测任务、对文档图像中的被遮挡文字以及文本文件中的被遮挡文字进行预测的文本图像双向对齐任务。

在一可选实施例中，在将文档图像、包含文档图像中文字的文本文件和文字在文档图像中的实际位置输入至文档预训练模型，通过文档预训练模型中的嵌入网络和自注意力网络进行特征处理，得到文档图像中图像区域的视觉表征和文字的文本表征的过程中，数据处理单元601具体用于：将文本图像、文本文件和文字的实际位置输入至嵌入网络，得到图像区域对应的嵌入向量和文字对应的嵌入向量，其中，图像区域对应的嵌入向量包括图像区域的视觉特征嵌入和图像区域的空间特征嵌入，文字对应的嵌入向量包括文字的文本特征嵌入和文字的空间特征嵌入；对图像区域对应的嵌入向量和文字对应的嵌入向量进行如下至少一种预处理：对图像区域的视觉特征嵌入进行随机屏蔽、对文字的文本特征嵌入进行随机屏蔽、对文字的空间特征嵌入进行随机屏蔽；在预处理后，将图像区域对应的嵌入向量和文字对应的嵌入向量输入至自注意力网络，得到视觉表征和文本表征。

在一可选实施例中，预训练任务包括文本图像位置感知任务，损失值包括基于文本图像位置感知任务确定的第一损失值，在根据视觉表征和/或文本表征，利用监督策略确定损失值的过程中，模型训练单元603具体用于：根据文本表征，通过位置感知网络对文字进行位置预测，得到文字在文档图像中的预测位置；根据预测位置和实际位置，确定第一损失值。

在一可选实施例中，预测位置包括文字对应的预测框，文字的实际位置包括文字对应的目标框，在根据预测位置和实际位置，确定第一损失值的过程中，模型训练单元603具体用于：确定目标框的中心点与预测框的中心点之间的归一化距离；根据归一化距离，得到第一损失值。

在一可选实施例中，预训练任务包括区域文本预测任务，损失值包括基于区域文本预测任务得到的第二损失值，在根据视觉表征和/或文本表征，利用监督策略确定损失值的过程中，模型训练单元603具体用于：根据文字的实际位置，确定图像区域包含的实际文字；根据视觉表征和文本表征，确定图像区域包含的预测文字；根据实际文字和预测文字，确定第二损失值。

在一可选实施例中，预训练任务包括文本图像双向对齐任务，损失值包括基于文本图像双向对齐任务得到的第三损失值和第四损失值，在根据视觉表征和/或文本表征，利用监督策略确定损失值的过程中，模型训练单元603具体用于：通过文本图像对齐方式，确定第三损失值，其中，文本图像对齐方式用于对文字在文本图像中是否位于目标图像区域进行预测，目标图像区域的视觉特征嵌入在预处理中被屏蔽；通过图像文本对齐方式，确定第四损失值，其中，图像文本对齐方式用于对图像区域是否包含目标文字，目标文字的文本特征嵌入在预处理中被屏蔽。

在一可选实施例中，在通过图像文本对齐方式，确定第四损失值的过程中，模型训练单元603具体用于：根据文本表征和视觉表征，通过遮挡预测网络对图像区域是否包含目标文字进行预测，得到图像区域的预测遮挡标签；根据预测遮挡标签和图像区域的实际遮挡标签，确定第四损失值，实际遮挡标签根据图像区域与目标文字之间的位置关系确定。

在一可选实施例中，遮挡预测网络包括特征融合层、池化层和分类层，在根据文本表征和视觉表征，通过遮挡预测网络对图像区域是否包含目标文字进行预测，得到图像区域的预测遮挡标签的过程中，模型训练单元603具体用于：通过特征融合层对文本表征和视觉表征进行融合，得到融合特征；通过池化层对融合特征进行池化处理，得到池化后的融合特征；将池化后的融合特征输入值分类层，得到预测遮挡标签。

在一可选实施例中，自注意力网络采用视觉语言双向混合注意力机制，在预处理后，在将图像区域对应的嵌入向量和文字对应的嵌入向量输入至自注意力网络，得到视觉表征和文本表征的过程中，数据处理单元601具体用于：根据图像区域对应的嵌入向量和文字对应的嵌入向量，通过自注意力网络确定文字对应的混合注意特征和图像区域对应的混合注意特征；对文字对应的混合注意特征和图像区域对应的混合注意特征进行结合，得到视觉文本双向混合注意特征；根据视觉文本双向混合特征，确定视觉表征和文本表征。

本申请实施例提供的模型训练装置600，用于执行对应的方法实施例中的技术方案，其实现原理和技术效果类似，在此不再赘述。

参考图7，图7为本申请一实施例提供的图像处理装置700的结构框图。如图7所示，图像处理装置700包括数据确定单元701和数据处理单元702，其中：

数据确定单元701，用于确定目标文档图像、包含目标文档图像中文字的目标文本文件和文字在目标文档图像中的实际位置；

数据处理单元702，用于将目标文档图像、目标文本文件和文字在目标文档图像中的实际位置输入至图像处理模型中，得到目标文档图像的处理结果；

其中，图像处理模型包括根据前述任一实施例提供的模型训练方法训练得到的文档预训练模型，在图像处理模型中，文档预训练模型用于确定目标文档图像中图像区域的视觉表征和文字的文本表征。

本申请实施例提供的图像处理装置700，用于执行对应的方法实施例中的技术方案，其实现原理和技术效果类似，在此不再赘述。

图8为本申请示例性实施例提供的一种云服务器的结构示意图。该云服务器用于训练用于文本理解的文本预训练模型。如图8所示，该云服务器包括：存储器83和处理器84。

存储器83，用于存储计算机程序，并可被配置为存储其它各种数据以支持在云服务器上的操作。该存储器83可以是对象存储(Object Storage Service，OSS)。

存储器83可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

处理器84，与存储器83耦合，用于执行存储器83中的计算机程序，以用于：将文档图像、包含文档图像中文字的文本文件和文字在文档图像中的实际位置输入至文档预训练模型，通过文档预训练模型中的嵌入网络和自注意力网络进行特征处理，得到文档图像中图像区域的视觉表征和文字的文本表征；根据视觉表征和/或文本表征，利用监督策略确定损失值；根据损失值，调整文档预训练模型的模型参数，得到训练后的文档预训练模型；其中，监督策略包括基于视觉语言交互的预训练任务确定损失值，预训练任务包括如下至少一种：对文字在文档图像中的位置进行预测的文本图像位置感知任务、对图像区域中的文字进行预测的区域文本预测任务、对文档图像中的被遮挡文字以及文本文件中的被遮挡文字进行预测的文本图像双向对齐任务。

在一可选实施例中，在将文档图像、包含文档图像中文字的文本文件和文字在文档图像中的实际位置输入至文档预训练模型，通过文档预训练模型中的嵌入网络和自注意力网络进行特征处理，得到文档图像中图像区域的视觉表征和文字的文本表征的过程中，处理器84具体用于：将文本图像、文本文件和文字的实际位置输入至嵌入网络，得到图像区域对应的嵌入向量和文字对应的嵌入向量，其中，图像区域对应的嵌入向量包括图像区域的视觉特征嵌入和图像区域的空间特征嵌入，文字对应的嵌入向量包括文字的文本特征嵌入和文字的空间特征嵌入；对图像区域对应的嵌入向量和文字对应的嵌入向量进行如下至少一种预处理：对图像区域的视觉特征嵌入进行随机屏蔽、对文字的文本特征嵌入进行随机屏蔽、对文字的空间特征嵌入进行随机屏蔽；在预处理后，将图像区域对应的嵌入向量和文字对应的嵌入向量输入至自注意力网络，得到视觉表征和文本表征。

在一可选实施例中，预训练任务包括文本图像位置感知任务，损失值包括基于文本图像位置感知任务确定的第一损失值，在根据视觉表征和/或文本表征，利用监督策略确定损失值的过程中，处理器84具体用于：根据文本表征，通过位置感知网络对文字进行位置预测，得到文字在文档图像中的预测位置；根据预测位置和实际位置，确定第一损失值。

进一步的，预测位置包括文字对应的预测框，文字的实际位置包括文字对应的目标框，在根据预测位置和实际位置，确定第一损失值的过程中，处理器84具体用于：确定目标框的中心点与预测框的中心点之间的归一化距离；根据归一化距离，得到第一损失值。

在一可选实施例中，预训练任务包括区域文本预测任务，损失值包括基于区域文本预测任务得到的第二损失值，在根据视觉表征和/或文本表征，利用监督策略确定损失值的过程中，处理器84具体用于：根据文字的实际位置，确定图像区域包含的实际文字；根据视觉表征和文本表征，确定图像区域包含的预测文字；根据实际文字和预测文字，确定第二损失值。

在一可选实施例中，预训练任务包括文本图像双向对齐任务，损失值包括基于文本图像双向对齐任务得到的第三损失值和第四损失值，在根据视觉表征和/或文本表征，利用监督策略确定损失值的过程中，处理器84具体用于：通过文本图像对齐方式，确定第三损失值，其中，文本图像对齐方式用于对文字在文本图像中是否位于目标图像区域进行预测，目标图像区域的视觉特征嵌入在预处理中被屏蔽；通过图像文本对齐方式，确定第四损失值，其中，图像文本对齐方式用于对图像区域是否包含目标文字，目标文字的文本特征嵌入在预处理中被屏蔽。

进一步的，在通过图像文本对齐方式，确定第四损失值的过程中，处理器84具体用于：根据文本表征和视觉表征，通过遮挡预测网络对图像区域是否包含目标文字进行预测，得到图像区域的预测遮挡标签；根据预测遮挡标签和图像区域的实际遮挡标签，确定第四损失值，实际遮挡标签根据图像区域与目标文字之间的位置关系确定。

进一步的，遮挡预测网络包括特征融合层、池化层和分类层，在根据文本表征和视觉表征，通过遮挡预测网络对图像区域是否包含目标文字进行预测，得到图像区域的预测遮挡标签的过程中，处理器84具体用于：通过特征融合层对文本表征和视觉表征进行融合，得到融合特征；通过池化层对融合特征进行池化处理，得到池化后的融合特征；将池化后的融合特征输入值分类层，得到预测遮挡标签。

在一可选实施例中，自注意力网络采用视觉语言双向混合注意力机制，在预处理后，在将图像区域对应的嵌入向量和文字对应的嵌入向量输入至自注意力网络，得到视觉表征和文本表征的过程中，处理器84具体用于：根据图像区域对应的嵌入向量和文字对应的嵌入向量，通过自注意力网络确定文字对应的混合注意特征和图像区域对应的混合注意特征；对文字对应的混合注意特征和图像区域对应的混合注意特征进行结合，得到视觉文本双向混合注意特征；根据视觉文本双向混合特征，确定视觉表征和文本表征。

进一步，处理器84执行存储器83中的计算机程序时，还可用于：确定目标文档图像、包含所述目标文档图像中文字的目标文本文件和所述文字在目标文档图像中的实际位置；将目标文档图像、目标文本文件和文字在目标文档图像中的实际位置输入至图像处理模型中，得到目标文档图像的处理结果；其中，图像处理模型包括根据前述任一实施例提供的模型训练方法训练得到的文档预训练模型，在图像处理模型中，文档预训练模型用于确定目标文档图像中图像区域的视觉表征和文字的文本表征。

进一步，如图8所示，该云服务器还包括：防火墙81、负载均衡器82、通信组件85、电源组件86等其它组件。图8中仅示意性给出部分组件，并不意味着云服务器只包括图8所示组件。

本申请实施例提供的云服务器，通过文档预训练模型对文档图像、包含文档图像中文字的文本文件和文字在文档图像中的实际位置进行特征处理，输出文档图像中图像区域的视觉表征和文字的文字表征；根据视觉表征和/或文字表征，利用监督策略确定损失值，基于该损失值调整文档预训练模型的模型参数，完成对文档预训练模型的一次训练。其中，监督策略包括基于文本图像位置感知任务、区域文本预测任务、文本图像双向对齐任务中的至少一种预训练任务确定损失值的策略。从而，通过视觉信息与文本信息充分交互的预训练任务对文档预训练模型的训练过程进行监督，有效地提高了文档预训练模型的训练效果，进而提高文档预训练模型的泛化能力和文档理解准确性。

上述图8中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G/LTE、5G等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件还包括近场通信（NFC）模块，以促进短程通信。例如，在NFC模块可基于射频识别（RFID）技术，红外数据协会（IrDA）技术，超宽带（UWB）技术，蓝牙（BT）技术和其他技术来实现。

上述图8中的电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，当计算机程序/指令被处理器执行时，致使处理器实现图2、图3和/或图5所示方法中的步骤。

相应地，本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，当计算机程序/指令被处理器执行时，致使处理器实现图2、图3和/或图5所示方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种文档预训练模型的训练方法，其特征在于，包括：

将文档图像、包含所述文档图像中文字的文本文件和所述文字在所述文档图像中的实际位置输入至文档预训练模型，通过所述文档预训练模型中的嵌入网络和自注意力网络进行特征处理，得到所述文档图像中图像区域的视觉表征和所述文字的文本表征；

根据所述视觉表征和/或所述文本表征，利用监督策略确定损失值；

根据所述损失值，调整所述文档预训练模型的模型参数，得到训练后的文档预训练模型；

其中，所述监督策略包括基于视觉语言交互的预训练任务确定所述损失值，所述预训练任务包括：对所述文字在所述文档图像中的位置进行预测的文本图像位置感知任务、对所述图像区域中的文字进行预测的区域文本预测任务、以及对所述文档图像中的被遮挡文字和所述文本文件中的被遮挡文字进行预测的文本图像双向对齐任务；

所述将文档图像、包含所述文档图像中文字的文本文件和所述文字在所述文档图像中的实际位置输入至文档预训练模型，通过所述文档预训练模型中的嵌入网络和自注意力网络进行特征处理，得到所述文档图像中图像区域的视觉表征和所述文字的文本表征，包括：

将所述文本图像、所述文本文件和所述文字的实际位置输入至所述嵌入网络，得到所述图像区域对应的嵌入向量和所述文字对应的嵌入向量，其中，所述图像区域对应的嵌入向量包括所述图像区域的视觉特征嵌入和所述图像区域的空间特征嵌入，所述文字对应的嵌入向量包括所述文字的文本特征嵌入和所述文字的空间特征嵌入；

对所述图像区域对应的嵌入向量和所述文字对应的嵌入向量进行如下预处理：对所述图像区域的视觉特征嵌入进行随机屏蔽、对所述文字的文本特征嵌入进行随机屏蔽以及对所述文字的空间特征嵌入进行随机屏蔽；

在所述预处理后，将所述图像区域对应的嵌入向量和所述文字对应的嵌入向量输入至所述自注意力网络，得到所述视觉表征和所述文本表征。

2.根据权利要求1所述的文档预训练模型的训练方法，其特征在于，所述预训练任务包括所述文本图像位置感知任务，所述损失值包括基于所述文本图像位置感知任务确定的第一损失值，所述根据所述视觉表征和/或所述文本表征，利用监督策略确定损失值，包括：

根据所述文本表征，通过位置感知网络对所述文字进行位置预测，得到所述文字在所述文档图像中的预测位置；

根据所述预测位置和所述实际位置，确定所述第一损失值。

3.根据权利要求2所述的文档预训练模型的训练方法，其特征在于，所述预测位置包括所述文字对应的预测框，所述文字的实际位置包括所述文字对应的目标框，所述根据所述预测位置和所述实际位置，确定所述第一损失值，包括：

确定所述目标框的中心点与所述预测框的中心点之间的归一化距离；

根据所述归一化距离，得到所述第一损失值。

4.根据权利要求1至3任一项所述的文档预训练模型的训练方法，其特征在于，所述预训练任务包括所述区域文本预测任务，所述损失值包括基于所述区域文本预测任务得到的第二损失值，所述根据所述视觉表征和/或所述文本表征，利用监督策略确定损失值，包括：

根据所述文字的实际位置，确定所述图像区域包含的实际文字；

根据所述视觉表征和所述文本表征，确定所述图像区域包含的预测文字；

根据所述实际文字和所述预测文字，确定所述第二损失值。

5.根据权利要求1至3任一项所述的文档预训练模型的训练方法，其特征在于，所述预训练任务包括所述文本图像双向对齐任务，所述损失值包括基于所述文本图像双向对齐任务得到的第三损失值和第四损失值，所述根据所述视觉表征和/或所述文本表征，利用监督策略确定损失值，包括：

通过文本图像对齐方式，确定所述第三损失值，其中，所述文本图像对齐方式用于对所述文字在所述文本图像中是否位于目标图像区域进行预测，所述目标图像区域的视觉特征嵌入向量在所述预处理中被屏蔽；

通过图像文本对齐方式，确定所述第四损失值，其中，所述图像文本对齐方式用于对所述图像区域是否包含目标文字，所述目标文字的文本特征嵌入在所述预处理中被屏蔽。

6.根据权利要求5所述的文档预训练模型的训练方法，其特征在于，所述通过图像文本对齐方式，确定所述第四损失值，包括：

根据所述文本表征和所述视觉表征，通过遮挡预测网络对所述图像区域是否包含所述目标文字进行预测，得到所述图像区域的预测遮挡标签；

根据所述预测遮挡标签和所述图像区域的实际遮挡标签，确定所述第四损失值，所述实际遮挡标签根据所述图像区域与所述目标文字之间的位置关系确定。

7.根据权利要求1至3任一项所述的文档预训练模型的训练方法，其特征在于，所述自注意力网络采用视觉语言双向混合注意力机制，所述在所述预处理后，将所述图像区域对应的嵌入向量和所述文字对应的嵌入向量输入至所述自注意力网络，得到所述视觉表征和所述文本表征，包括：

根据所述图像区域对应的嵌入向量和所述文字对应的嵌入向量，通过所述自注意力网络确定所述文字对应的混合注意特征和所述图像区域对应的混合注意特征；

对所述文字对应的混合注意特征和所述图像区域对应的混合注意特征进行结合，得到视觉文本双向混合注意特征；

根据所述视觉文本双向混合特征，确定所述视觉表征和所述文本表征。

8.一种图像处理方法，其特征在于，包括：

确定目标文档图像、包含所述目标文档图像中文字的目标文本文件和所述文字在所述目标文档图像中的实际位置；

将所述目标文档图像、所述目标文本文件和所述文字在所述目标文档图像中的实际位置输入至图像处理模型中，得到所述目标文档图像的处理结果；

其中，所述图像处理模型包括根据权利要求1至7任一项所述的文档预训练模型的训练方法训练得到的文档预训练模型，在所述图像处理模型中，所述文档预训练模型用于确定所述目标文档图像中图像区域的视觉表征和所述文字的文本表征。

9.一种文档预训练模型的训练装置，其特征在于，包括：

数据处理单元，用于将文档图像、包含所述文档图像中文字的文本文件和所述文字在所述文档图像中的实际位置输入至文档预训练模型，通过所述文档预训练模型中的嵌入网络和自注意力网络进行特征处理，得到所述文档图像中图像区域的视觉表征和所述文字的文本表征；

损失确定单元，用于根据所述视觉表征和/或所述文本表征，利用监督策略确定损失值；

模型训练单元，用于根据所述损失值，调整所述文档预训练模型的模型参数，得到训练后的文档预训练模型；

其中，所述监督策略包括基于视觉语言交互的预训练任务确定所述损失值，所述预训练任务包括：对所述文字在所述文档图像中的位置进行预测的文本图像位置感知任务、对所述图像区域中的文字进行预测的区域文本预测任务以及对所述文档图像中的被遮挡文字和所述文本文件中的被遮挡文字进行预测的文本图像双向对齐任务；

所述数据处理单元具体用于：

对所述图像区域对应的嵌入向量和所述文字对应的嵌入向量进行如下预处理：对所述图像区域的视觉特征嵌入进行随机屏蔽、对所述文字的文本特征嵌入向量进行随机屏蔽以及对所述文字的空间特征嵌入进行随机屏蔽；

10.一种图像处理装置，其特征在于，包括：

数据确定单元，用于确定目标文档图像、包含所述目标文档图像中文字的目标文本文件和所述文字在所述目标文档图像中的实际位置；

数据处理单元，用于将所述目标文档图像、所述目标文本文件和所述文字在所述目标文档图像中的实际位置输入至图像处理模型中，得到所述目标文档图像的处理结果；

11.一种文档预训练模型的训练方法，其特征在于，包括：

将文档图像、包含所述文档图像中文字的文本文件和所述文字在所述文档图像中的实际位置输入至文档预训练模型中的嵌入网络，得到所述文档图像中图像区域对应的嵌入向量和所述文字对应的嵌入向量；

根据所述图像区域对应的嵌入向量和所述文字对应的嵌入向量，通过所述文档预训练模型中的自注意力网络确定所述文字对应的混合注意特征和所述图像区域对应的混合注意特征，其中，所述自注意力网络采用视觉语言双向混合注意力机制，在所述视觉语言双向混合注意力机制中，所述文字对应的混合注意特征是结合与所述图像区域相关的注意力向量中的键向量、与所述图像区域相关的注意力向量中的值向量和与所述文字相关的注意力向量得到的，所述图像区域对应的混合注意特征是结合与所述文字相关的注意力向量中的键向量、与所述文字相关的注意力向量中的值向量和与所述图像区域相关的注意力向量得到的，与所述图像区域相关的注意力向量基于所述图像区域对应的嵌入向量得到，与所述文字相关的注意力向量基于所述文字对应的嵌入向量得到；

根据所述视觉文本双向混合特征，确定所述图像区域的视觉表征和所述文字的文本表征；

根据所述损失值，调整所述文档预训练模型的模型参数，得到训练后的文档预训练模型。