CN116311323A

CN116311323A - 基于对比学习的预训练文档模型对齐优化方法

Info

Publication number: CN116311323A
Application number: CN202310078942.0A
Authority: CN
Inventors: 何家邦; 徐行; 王磊; 刘宁; 刘辉; 刘炳宇; 韩起磊
Original assignee: Beijing Rongda Technology Co ltd
Current assignee: Beijing Rongda Technology Co ltd
Priority date: 2023-01-17
Filing date: 2023-01-17
Publication date: 2023-06-23

Abstract

本发明提供基于对比学习的预训练文档模型对齐优化方法，涉及跨模态理解与迁移学习中的文档理解领域。该基于对比学习的预训练文档模型对齐优化方法，该方法包括文档图像特征提取模块、文档文本特征提取模块、用于对比学习的动量更新参数模块、文档图像文本特征融合模块以及四种特征对齐模块。本发明中，该方法在性能方面，提出的基于对比学习的预训练文档模型对齐优化方法在各种下游任务上进行微调优于现有最先进的预训练模型，并且在利用跨模态和模态内对比损失进行文档级对齐，用于在文档图像文本中建模局部和全局结构信息的全局‑局部对齐的基础上，提出了局部水平对齐以获得更精确的块级别水平信息。

Description

基于对比学习的预训练文档模型对齐优化方法

技术领域

本发明涉及跨模态理解与迁移学习中的文档理解领域，具体为基于对比学习的预训练文档模型对齐优化方法，用于调整预训练的文档图像模型，以支持联合执行模态融合前的模态对齐和下游任务特定的监督。

背景技术

最近旨在学习通用表征的自监督预训练技术对于文档图像理解非常有效。值得注意的是，基于预训练的文档图像模型的迁移学习在各种与文档相关的下游任务上表现良好。文档图像理解中的一种典型的预训练方法是在大量文档图像和OCR文本对上利用布局信息在无监督损失下预训练文档模型。然后，下游任务通常利用预训练好的文档模型权重进行初始化。然后使用特定于具体下游任务的监督目标，针对下游任务对初始化模型进行微调。

文档图像包含丰富的上下文文本和结构信息，需要图像和文本之间的细粒度交互建模。尽管自监督在文档图像相关任务中取得了很大进展，但大多数现有的预训练文档图像模型都是以粗略的自监督损失进行训练的，这忽略了图像和文本之间的细粒度交互建模。尽管在大规模自监督预训练文档图像模型中，图像和文本之间的对齐显示出了较好的改进，但研究更有效或者在预训练期间使用更细粒度的对齐技术需要巨大的计算成本和时间。因此，自然产生了一个问题：我们是否可以微调预训练模型，以适应具有更多对齐目标的下游任务，并实现可比或更好的性能。

近年来，随着大规模预训练模型的广泛成功，出现了一系列调整技术，以使这些通用模型适应下游任务。模型调整策略在自适应期间调整所有模型参数。为了提高训练效率，adapters和prompt tuning通过少量参数对预训练的模型进行调优，但与微调相比，它们的性能可能会略有下降。此外，任务自适应预训练继续使用特定任务无标记数据训练预训练模型。然而由于预训练模型的固定模型架构的限制而难以将对齐损失并入现有的调整策略中，ALBEF和TCL在通过多模态编码器融合之前，使用额外的图像编码器和额外的文本编码器独立地对文档图像和文本进行编码。然后使用对齐图像文本特征策略对模型进行预训练，以提高学习特征的表达能力，这对于联合多模态表示学习至关重要。然而，如前所述，在预训练阶段实现更有效或更细粒度的对齐技术需要大量计算成本和时间。

为了弥补上述研究空白，提出了基于对比学习的预训练文档模型对齐优化方法，用于调整预训练的文档图像自适应模型，以支持联合执行下游任务特定的监督和对齐目标。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了基于对比学习的预训练文档模型对齐优化方法，用于调整预训练的文档图像模型，以支持联合执行模态融合前的模态对齐和下游任务特定的监督。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

基于对比学习的预训练文档模型对齐优化方法，该方法包括文档图像特征提取模块、文档文本特征提取模块、用于对比学习的动量更新参数模块、文档图像文本特征融合模块以及四种特征对齐模块，四种所述特征对齐模块分别是跨模态全局级图像文本特征对齐模块、单模态全局级图像文本特征对齐模块、单模态全局-局部互信息最大化模块和局部级跨模态图像文本特征对齐模块，最后是具体下游任务微调损失函数。

优选的，所述文档图像特征提取模块使用的ViT模型采用在ImageNet-1k上预训练好的DeiT初始化，对于ViT_base模型，输入大小统一为224*224的图像，ViT模型会将图像划分为大小为16*16的特征图，并且可以在位置编码的第1位添加可学习的全局图像信息v_cls，然后将特征图展平为长度是196的向量，最终base模型得到文档图像特征向量的长度为197，维度为768维，对于ViT_large模型，最终得到的文档图像特征的维度为1024维。

优选的，所述文档文本特征提取模块使用的是预训练好的RoBERTa模型，对于RoBERT a_base模型，输入的文档文本和相应的Layout信息需要通过谷歌开源的OCR识别引擎Tesseract-OCR工具来获取，文本的输入长度是512，最终得到的文本表征的第一位表示的是全局的文本信息w_cls，其余位置对应每个OCR检测识别结果经过RoBERTa分词器分词以后的局部表征，所有表征的维度都为768，对于Ro BERT a_base模型，最终得到的文档文本特征的维度为1024维。

优选的，所述用于对比学习的动量更新参数模块使用的是和上述模块相同初始化参数的动量图像编码器ViT和动量文本编码器RoBERTa，在训练过程中不更新梯度，由上述特征提取模块的模型更新各自对应的动量编码器参数，对于动量图像编码器的输入需要同一图像样本经过图像增广后得到的增广样本经过动量图像编码器后得到表征

最终对于base模型，动量图像编码器得到的图像表征长度为197，维度为768，动量文本编码器得到的文本表征长度为512，维度为768，对于larger模型，最终维度为1024，所得到的表征向量的第1位都表示是全局信息，模型参数动量更新如下：

θ_k←mθ_k+(1-m)θ_q

其中，θ_k表示动量图像/文本编码器参数，θ_q表示图像/文本编码器参数，m为动量系数。

优选的，所述文档图像文本特征融合模块，采用预训练好的LayoutLMv3模型，LayoutLMv3在含有1100万张图像的大型数据集IIT-CDIP上预训练，对于LayoutLMv3_base模型，一共有12层Transformer layer，带有12个自注意力头，隐藏层维度为768，对于LayoutLMv3_base模型使用24层Transformer layer，带有16个自注意力头，隐藏层维度为1024；LayoutLMv3模型词表与RoBERTa保持一致，文档图像的输入大小为224*224，文档文本的输入长度统一填充到512；

在获取的特征文档图像文本全局和局部的特征基础上设计四种特征对齐模块，分别是跨模态全局级图像文本特征对齐模块，单模态全局级图像文本特征对齐模块，单模态全局-局部级MI最大化模块，局部级跨模态图像文本特征对齐模块，取上述所有模块的损失函数的加权和作为除具体下游任务损失之外的所有损失，最终可以将模型的损失函数定义为如下：

其中，

表示四种特征对齐模块的总体损失值，/>

表示具体下游任务的损失值，α和η为权衡因子。

优选的，所述跨模态全局级图像文本特征对齐模块，最大化文档全局级图像文本对交互信息，通过对比损失函数跨模态对齐，将匹配的图像-文本对的表征拉近，并将不匹配的图像-文本对拉远，使用相似度函数

以及

其中f_img和f_txt是两个投影头，将768维度的向量投影到256维度，v_cls和w_cls表示由图像和文本编码器生成的[CLS]向量，将同一样本的图像文本对视为正样本对，将不同样本的图像文本对视为负样本，其中图像文本的正样本对采用w_cls和动量图像全局特征/>

以及和动量文本全局特征/>

用两个大小为65536的队列来存储由动量图像编码器生成的全局图像特征/>

和由动量文本编码器生成的全局文本特征/>

由全局图像到全局文本的对齐损失函数可以被计算为：

由全局文本到全局图像的对齐损失函数可以被计算为：

上述损失函数中是温度系数，K是队列中存储的表征数量，最后可以将该模块的损失函数定义为：

上述损失函数中B表示输入图像文本对的batch大小，考虑到一张图像的负样本文本可能也会和该图像匹配，因此这里采用伪真值进行学习；

所述单模态全局级图像文本特征对齐模块，最大化文档全局级图像与图像以及文本与文本的互信息，对于文档图像编码器生成的图像块表征，其中N表示图像表征长度，对于文档文本表征，L表示文本表征长度，此时队列中存储的动量图像编码器生成的全局表征为，相应的队列中动量文本编码器生成的全局表征为，x和y表示此时队列中存储的全局表征数量，将和文档图像经过图像增广后输入动量图像编码器生成的全局表征视为正样本对，同理将和动量文本编码器生成的全局表征视为正样本对，将与视为负样本，将与视为负样本，最终可以将该模块的损失函数定义为：

所述单模态全局-局部互信息最大化模块，通过建模文档全局级表征和局部表征区域之间的交互，在单个模态中捕获局部结构信息。对于视觉模态，基于某一图像样本m的全局表征v_{cls_m}和动量图像编码器生成的图像块表征

计算图像全局到局部的对比损失。同样，对于文本模态，使用文本的全局表征w_{cls_m}和动量文本编码器生成的文本表征/>

来计算文本全局到局部的对比损失，最终可以将该模块的损失函数定义为：

其中，

和/>

表示负样本对的选定，B表示输入图像文本对的batch大小，Z表示总的正负样本对数量，同一个batch中，除了该样本m外的其余样本n(n∈B,n！＝m)的图像块表征/>

与v_{cls_m}视为负样本对，文本表征/>

与w_{cls_m}视为负样本对；

所述局部级跨模态图像文本特征对齐模块，虽然引入的单模态全局-局部互信息最大化模块能够捕获输入中的某些单模态局部结构信息，但它忽略了局部级别图像和局部级别上下文文本之间的块级别对齐。块级别对齐对于学习更精确和更细粒度的表征以获得更准确的文档理解至关重要。因此，引入局部级跨模态图像文本特征对齐模块，作为对前三种对比损失的补充。为了计算块级别对齐损失，首先通过获得的layout信息定位图像块中的文本。然后平均匹配文本的表征向量，计算出图像块相应的匹配文本{t₁,t₂,…,t_N}的块级别文本表征后，通过训练文档图像特征提取模块和文档文本特征提取模块，最大化N个图像文本正样本对的余弦相似度，最小化N²-N个图像文本负样本对的余弦相似度，其中余弦相似度定义为：

最终可以将该模块的损失函数定义为:

优选的，所述具体下游任务微调损失函数记为

一共有三类下游任务，分别是文档命名实体识别任务，文档分类任务以及文档视觉问答任务，每种下游任务分别记为

最终可以将表示的四种特征对齐模块的总体损失值定义为：

其中，λ₁,λ₂,λ₃,λ₄分别为

的预设权重参数，最终基于预训练文档图像模型的对齐优化方法损失函数定义如下：

其中，α和η为权衡因子。

优选的，基于预训练文档图像模型的对齐优化方法，采用如权利要求1所述的预训练文档图像模型的对齐优化模型实现，所述对齐优化方法包括如下步骤：

步骤1：数据预处理，选取四个公开数据集进行实验，包括FUNSD、CORD、RVL-CDIP-1和DocVQA；

FUNSD是一个从RVL-CDIP数据集中采样的用于扫描表单理解的数据集，它由199个文档(149个训练文档和50个测试文档)和9707个语义实体组成；

CORD是一个用于收据的关键信息提取数据集，包括1000张收据样本和4种类别下定义的30种语义标签，其中800个样本用于训练，100个样本用于验证，100个样本用于测试；

RVL-CDIP-1数据集是IIT-CDIP数据集的一个子集，一共有16种文档类别，RVL-CDIP-1数据集包含400000张文档图像，其中320000张是训练图像，40000张是验证图像，400000张是测试图像；

DocVQA数据集是文档图像视觉问答的标准数据集，官方划分后DocVQA数据集由10194/1286/1287个图像组成，分别包含39463/5349/5188个问题，分别对应于训练集，验证集，测试集；

数据的预处理过程除了RVL-CDIP-1数据集的文档图像需要用开源OCR工具Tesseract-OCR来获取图像中的文本和文本框的坐标，其余数据集中均可获取文本框的坐标信息，文本框的坐标需要归一化到[0，1000]，对于所有数据集的图像增广需要包含简单的图像缩放以及随机翻转和裁剪的操作，将最终输入图像的大小调整为224*224。

步骤2：对预处理后的图像数据使用文档图像特征提取模块提取图像基本特征，对于base模型，采用预训练好的ViT模型提取图像特征，将输入图像切分为14*14个大小为16*16的图像块，并在头部添加一个可学习的全局图像表征，输出维度为768的特征向量，动量模型部分，采用ViT_m模型，初始化模型参数为上述ViT模型，将增广后的图像样本输入，得到输出维度为768的特征向量，对预处理后的文本数据使用文档文本特征提取模块提取文本基本特征，对于base模型，采用预训练好的RoBERTa模型提取文本特征，输入文本长度统一到512，输出维度为768的特征向量。

步骤3：图像文本特征对齐损失函数计算，获取图像特征{v_cls,v₁,…,v_N}、文本特征{w_cls,w₁,…,w_L}以及动量图像特征

动量文本特征/>

此时队列中存储的动量图像编码器生成的全局表征为/>

相应的队列中动量文本编码器生成的全局表征为/>

分别计算以下三个模块的损失函数，跨模态全局级图像文本特征对齐模块，单模态全局级图像文本特征对齐模块，单模态全局-局部级MI最大化模块；对于跨模态全局级图像文本特征对齐模块，计算的损失函数定义为：

由于此处的正样本对通常具有弱相关性，文档识别的文本中可能有文字识别错误，即包含与图像不相关的单词，或者图像中可能包含识别的文本中未描述的实体。对于DITC的学习，一个文档图像的negative文本也可能匹配图像中的内容时，真值需要动量蒸馏，采用为伪标签的计算方式：

对于所有下游任务α＝0.4；

对于单模态全局级图像文本特征对齐模块，计算的损失函数定义为：

对于单模态全局-局部级MI最大化模块，计算损失函数定义为：

对于局部级跨模态图像文本特征对齐模块，首先得到文本表征w_t(1<＝t<＝L)对应的文本框位置[x_{t_min},y_{t_min},x_{t_max},y_{t_max}]，对于通过预处理可以得到14*14个大小为16*16的图像块对应的文本框[x_{p_min},y_{p_min},x_{p_max},y_{p_max}]，得到每个图像块在文本框归一化处理后的大小为71*71，为了方便计算将大小调整为72，通过判定是否完全包围，来划定文本的表征的所在区域：

(x_{t_min}/71＝x_{t_max}/71)&&(y_{t_min}/71＝y_{t_max}/71)

统计所在图像块内的文本表征数量，计算出图像块相应的匹配文本{t₁,t₂,…,t_N}的块级别文本表征后，最大化N个图像文本正样本对的余弦相似度，最小化个图像文本负样本对的余弦相似度，其中余弦相似度定义为：

最终可以将该模块的损失函数定义为:

将前述所有损失函数加权求合，获得模型利用对比学习进行图像文档对齐的损失函数：

步骤4：文档图像文本特征融合模块与模型的训练，步骤3的训练过程优化调整图像编码器参数和文本编码器参数，两个编码器所得到的对齐的表征align_image和align_text进入文档图像文本特征融合模块，在LayoutLMv3模型的embedding层对输入的视觉embedding和文本embedding进行融合；

选用base模型时，对于表单和收据理解任务，选取FUNSD和CORD数据集，对于FUNSD数据集，batch大小设置为4，优化器采用Adamw，学习率设定为3e-5，最小学习率设定为2e-5,warm_up学习率设定为2e-5，训练epochs为30轮，warmup_epochs为20轮，weight_decay为0.02，使用的学习器为CosineLRScheduler，最终精度的评价指标为预测实体的F1度量；

对于CORD数据集，将学习率设定为5e-5，最小学习率设定为3e-5，,warm_up学习率设定为3e-5，训练epochs为40轮，其余训练参数设定与FUNSD数据集上的训练参数相同，最终精度的评价指标为预测实体的F1度量(F1)；对于文档分类任务，在模型输出[CLS]后连接分类器，将batch设置为4，训练epochs为80轮，其余训练参数设定与FUNSD数据集上的训练参数相同，最终精度的评价指标为文档预测的准确率(Acc)；

对于文档视觉问答任务，采用fp16参与训练，batch设置为8，优化器采用Adamw，学习率大小为3e-5，使用的学习器为LambdaLR，输入部分含有答案在问题中的起始位置和终止位置作为真值标签，最终模型输出后连接分类器预测答案的起始位置和终止位置，最终精度的评价指标为平均归一化列文斯坦相似度(ANLS)；

将前述所有损失函数加权求合，获得模型的整体损失函数：

其中，λ₁,λ₂,λ₃,λ₄分别为

的预设权重参数，α和η为权衡因子。

步骤5：使用所述基于对比学习的预训练文档模型对齐优化方法在所述步骤1中所提到的四种数据集上均进行了如步骤2-4所述的训练，其中FUNSD数据集上进行测试集的测试，CORD，RVL-CDIP-1,DocVQA数据集上选取验证集上最佳性能的模型在测试集上进行测试。

(三)有益效果

本发明提供了基于对比学习的预训练文档模型对齐优化方法。具备以下

有益效果：

1、本发明提供了基于对比学习的预训练文档模型对齐优化方法，该方法从以下三个方面考虑对齐：1)利用跨模态和模态内对比损失进行文档级对齐；2)用于在文档图像中建模局部和全局结构信息的全局-局部对齐；3)局部水平对齐以获得更精确的块级别水平信息，引入了在多模式融合之前，额外的视觉编码器作为用于对齐校准的图像编码器，额外的文本编码器作为对齐校准的文本编码器，以用于调整预训练的文档图像模型，进而支持联合执行模态融合前的模态对齐和下游任务特定的监督。

2、本发明提供了基于对比学习的预训练文档模型对齐优化方法，该方法在性能方面，提出的基于对比学习的预训练文档模型对齐优化方法在各种下游任务上进行微调优于现有最先进的预训练模型。

3、本发明提供了基于对比学习的预训练文档模型对齐优化方法，该方法在利用跨模态和模态内对比损失进行文档级对齐，用于在文档图像文本中建模局部和全局结构信息的全局-局部对齐的基础上，提出了局部水平对齐以获得更精确的块级别水平信息。

附图说明

图1为本发明的基于对比学习的预训练文档模型对齐优化方法的实现流程图；

图2为本发明的基于对比学习的预训练文档模型对齐优化方法的框架示意图；

图3为本发明的特征对齐损失函数示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

考虑到现有的使用对齐图像文本特征策略对模型进行预训练，在预训练阶段实现更有效或更细粒度的对齐技术需要大量计算成本和时间，本发明提出了一种基于对比学习的预训练文档模型对齐优化方法。本发明在利用跨模态和模态内对比损失进行文档级对齐，用于在文档图像文本中建模局部和全局结构信息的全局-局部对齐的基础上，提出了局部水平对齐以获得更精确的块级别水平信息，并在各种下游任务上进行微调优于现有最先进的预训练模型。下面结合具体实例，对本发明进行详细完整的说明。

实施例：

如图1-3所示，本发明实施例提供基于对比学习的预训练文档模型对齐优化方法，该方法包括文档图像特征提取模块、文档文本特征提取模块、用于对比学习的动量更新参数模块、文档图像文本特征融合模块以及四种特征对齐模块，四种所述特征对齐模块分别是跨模态全局级图像文本特征对齐模块、单模态全局级图像文本特征对齐模块、单模态全局-局部互信息最大化模块和局部级跨模态图像文本特征对齐模块，最后是具体下游任务微调损失函数。

所述文档图像特征提取模块使用的ViT模型采用在ImageNet-1k上预训练好的DeiT初始化，对于ViT_base模型，输入大小统一为224*224的图像，ViT模型会将图像划分为大小为16*16的特征图，并且可以在位置编码的第1位添加可学习的全局图像信息v_cls，然后将特征图展平为长度是196的向量，最终base模型得到文档图像特征向量的长度为197，维度为768维，对于ViT_large模型，最终得到的文档图像特征的维度为1024维。

所述文档文本特征提取模块使用的是预训练好的RoBERTa模型，对于Ro BERTa_base模型，输入的文档文本和相应的Layout信息需要通过谷歌开源的OCR识别引擎Tesseract-OCR工具来获取，文本的输入长度是512，最终得到的文本表征的第一位表示的是全局的文本信息w_cls，其余位置对应每个OCR检测识别结果经过RoBERTa分词器分词以后的局部表征，所有表征的维度都为768，对于Ro BERT a_base模型，最终得到的文档文本特征的维度为1024维。

所述用于对比学习的动量更新参数模块使用的是和上述模块相同初始化参数的动量图像编码器ViT和动量文本编码器RoBERTa，在训练过程中不更新梯度，由上述特征提取模块的模型更新各自对应的动量编码器参数，对于动量图像编码器的输入需要同一图像样本经过图像增广后得到的增广样本经过动量图像编码器后得到表征

θ_k←mθ_k+(1-m)θ_q

所述文档图像文本特征融合模块，采用预训练好的LayoutLMv3模型，LayoutLMv3在含有1100万张图像的大型数据集IIT-CDIP上预训练，对于LayoutLMv3_base模型，一共有12层Transformer layer，带有12个自注意力头，隐藏层维度为768，对于LayoutLMv3_base模型使用24层Transformer layer，带有16个自注意力头，隐藏层维度为1024；LayoutLMv3模型词表与RoBERTa保持一致，文档图像的输入大小为224*224，文档文本的输入长度统一填充到512；

其中，

表示四种特征对齐模块的总体损失值，/>

表示具体下游任务的损失值，α和η为权衡因子。

所述跨模态全局级图像文本特征对齐模块，最大化文档全局级图像文本对交互信息，通过对比损失函数跨模态对齐，将匹配的图像-文本对的表征拉近，并将不匹配的图像-文本对拉远，使用相似度函数

以及

以及和动量文本全局特征/>

和由动量文本编码器生成的全局文本特征/>

由全局图像到全局文本的对齐损失函数可以被计算为：

由全局文本到全局图像的对齐损失函数可以被计算为：

其中，

和/>

与v_{cls_m}视为负样本对，文本表征/>

与w_{cls_m}视为负样本对；

最终可以将该模块的损失函数定义为:

所述具体下游任务微调损失函数记为

最终可以将表示的四种特征对齐模块的总体损失值定义为：

其中，λ₁,λ₂,λ₃,λ₄分别为

/>

其中，α和η为权衡因子。

基于预训练文档图像模型的对齐优化方法，采用如权利要求1所述的预训练文档图像模型的对齐优化模型实现，所述对齐优化方法包括如下步骤：

动量文本特征/>

此时队列中存储的动量图像编码器生成的全局表征为/>

相应的队列中动量文本编码器生成的全局表征为/>

对于所有下游任务α＝0.4；

(x_{t_min}/71＝x_{t_max}/71)&&(y_{t_min}/71＝y_{t_max}/71)

最终可以将该模块的损失函数定义为:

将前述所有损失函数加权求合，获得模型的整体损失函数：

其中，λ₁,λ₂,λ₃,λ₄分别为

的预设权重参数，α和η为权衡因子。

实验结果显示，本发明提出的基于对比学习的预训练文档模型对齐优化方法在FUNSD，CORD上，在base模型上F1度量分别为91.55％，97.04％，结果达到了前沿水平，在large模型上F1度量分别是92.33％，97.52％，结果也达到了前沿水平，说明本发明提出的模型能够在文档理解命名实体识别任务上有效。

在FUNSD数据集和CORD数据集上的测试结果如下表1，下表2所示：

表1在FUNSD，CORD数据集上的base模型性能对比

表2在FUNSD，CORD数据集上的large模型性能对比

在模态融合前进行对齐有效的拉近相同实体embedding的距离，拉远不同实体embedding的距离；在RVL-CDIP-1数据集上进行了文档分类的实验，在base模型上分类正确率为96.30％，在l arge模型上分类正确率为96.71％；在DocVQA数据集上进行了文档视觉问答实验，在base模型上，平均归一化列文斯坦相似度为79.73％，在DocVQA数据集上的测试结果如下表3所示：

表3在DocVQA数据集上的base模型性能对比

为进一步验证本发明提出各个模块以及损失函数的有效性，在FUNSD数据集上对各个损失函数进行消融实验，直接加上文档图像特征提取模块和文档文本特征提取模块后，F1为89.77％，说明直接引入额外的编码器并不能带来性能的提升；加上发明提出的不同模块后，F1度量均有不同程度的提升。由此说明，本发明提出的四种特征对齐损失函数在多个层面上对文档预训练在下游任务上精度的提升是有效的，消融实验如下表4所示：

表4调优模块的消融实验

为进一步验证本发明提出对比学习调优方法的优越性，在FUNSD数据集上使用Fine-Tuning，P-Tuning与本发明提出的方法进行比较，结果显示，Fine-Tuning得到的F1度量为89.82％，P-Tuning得到的F1度量为83.75％，基于对比学习的预训练文档模型对齐优化方法得到的F1度量为91.55％。由此说明，本发明提出的方法相对于其他调优更有效，调优方法性能的比较如下表5所示：

表5基于模型的调优方法性能对比

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于对比学习的预训练文档模型对齐优化方法，其特征在于：该方法包括文档图像特征提取模块、文档文本特征提取模块、用于对比学习的动量更新参数模块、文档图像文本特征融合模块以及四种特征对齐模块，四种所述特征对齐模块分别是跨模态全局级图像文本特征对齐模块、单模态全局级图像文本特征对齐模块、单模态全局-局部互信息最大化模块和局部级跨模态图像文本特征对齐模块，最后是具体下游任务微调损失函数。

2.根据权利要求1所述的基于对比学习的预训练文档模型对齐优化方法，其特征在于：所述文档图像特征提取模块使用的ViT模型采用在ImageNet-1k上预训练好的DeiT初始化，对于ViT_base模型，输入大小统一为224*224的图像，ViT模型会将图像划分为大小为16*16的特征图，并且可以在位置编码的第1位添加可学习的全局图像信息v_cls，然后将特征图展平为长度是196的向量，最终base模型得到文档图像特征向量的长度为197，维度为768维，对于ViT_large模型，最终得到的文档图像特征的维度为1024维。

3.根据权利要求1所述的基于对比学习的预训练文档模型对齐优化方法，其特征在于：所述文档文本特征提取模块使用的是预训练好的RoBERTa模型，对于RoBERT a_base模型，输入的文档文本和相应的Layout信息需要通过谷歌开源的OCR识别引擎Tesseract-OCR工具来获取，文本的输入长度是512，最终得到的文本表征的第一位表示的是全局的文本信息w_cls，其余位置对应每个OCR检测识别结果经过RoBERTa分词器分词以后的局部表征，所有表征的维度都为768，对于RoBERT a_base模型，最终得到的文档文本特征的维度为1024维。

4.根据权利要求1所述的基于对比学习的预训练文档模型对齐优化方法，其特征在于：所述用于对比学习的动量更新参数模块使用的是和上述模块相同初始化参数的动量图像编码器ViT和动量文本编码器RoBERTa，在训练过程中不更新梯度，由上述特征提取模块的模型更新各自对应的动量编码器参数，对于动量图像编码器的输入需要同一图像样本经过图像增广后得到的增广样本经过动量图像编码器后得到表征

θ_k←mθ_k+(1-m)θ_q

5.根据权利要求1所述的基于对比学习的预训练文档模型对齐优化方法，其特征在于：所述文档图像文本特征融合模块，采用预训练好的LayoutLMv3模型，LayoutLMv3在含有1100万张图像的大型数据集IIT-CDIP上预训练，对于LayoutLMv3_base模型，一共有12层Transformer layer，带有12个自注意力头，隐藏层维度为768，对于LayoutLMv3_base模型使用24层Transformer layer，带有16个自注意力头，隐藏层维度为1024；LayoutLMv3模型词表与RoBERTa保持一致，文档图像的输入大小为224*224，文档文本的输入长度统一填充到512；

其中，

表示四种特征对齐模块的总体损失值，/>

表示具体下游任务的损失值，α和η为权衡因子。

6.根据权利要求1所述的基于对比学习的预训练文档模型对齐优化方法，其特征在于：所述跨模态全局级图像文本特征对齐模块，最大化文档全局级图像文本对交互信息，通过对比损失函数跨模态对齐，将匹配的图像-文本对的表征拉近，并将不匹配的图像-文本对拉远，使用相似度函数

以及

以及和动量文本全局特征/>

和由动量文本编码器生成的全局文本特征/>

由全局图像到全局文本的对齐损失函数可以被计算为：

由全局文本到全局图像的对齐损失函数可以被计算为：

计算图像全局到局部的对比损失。同样，对于文本模态，使用文本的全局表征w_{cls_m}和动量文本编码器生成的文本表征

其中，

和/>

表示负样本对的选定，B表示输入图像文本对的batch大小，Z表示总的正负样本对数量，同一个batch中，除了该样本m外的其余样本n(n∈B,n！＝m)的图像块表征

与v_{cls_m}视为负样本对，文本表征/>

与w_{cls_m}视为负样本对；

最终可以将该模块的损失函数定义为:

7.根据权利要求1所述的基于对比学习的预训练文档模型对齐优化方法，其特征在于：所述具体下游任务微调损失函数记为

最终可以将表示的四种特征对齐模块的总体损失值定义为：

其中，λ₁,λ₂,λ₃,λ₄分别为

其中，α和η为权衡因子。

8.基于预训练文档图像模型的对齐优化方法，采用如权利要求1所述的预训练文档图像模型的对齐优化模型实现，其特征在于，所述对齐优化方法包括如下步骤：

步骤1：数据预处理，得到预处理后的数据。

步骤2：对预处理后的数据使用文档图像特征提取模块获取图像特征，文档文本特征提取模块获取文本特征，对比学习的动量更新参数模块获取动量图像特征和动量文本特征。

动量文本特征/>

此时队列中存储的动量图像编码器生成的全局表征为/>

相应的队列中动量文本编码器生成的全局表征为/>

分别计算以下模块的损失函数，跨模态全局级图像文本特征对齐模块，单模态全局级图像文本特征对齐模块，单模态全局-局部级MI最大化模块，局部级跨模态图像文本特征对齐模块；

步骤4：文档图像文本特征融合模块与模型的训练，步骤3的训练过程优化调整图像编码器参数和文本编码器参数，两个编码器所得到的对齐的表征align_image和align_text进入文档图像文本特征融合模块，在LayoutLMv3模型的embedding层对输入的视觉embedding和文本embedding进行融合，对具体下游任务，LayoutLMv3模型输出的表征计算相应的损失；

将前述所有损失函数加权求合，获得模型的整体损失函数：

其中，λ₁,λ₂,λ₃,λ₄分别为

的预设权重参数，α和η为权衡因子。

步骤5：使用所述基于对比学习的预训练文档模型对齐优化方法在所述的四种数据集上均进行了如步骤2-4所述的训练，其中FUNSD数据集上进行测试集的测试，CORD，RVL-CDIP-1，DocVQA数据集上选取验证集上最佳性能的模型在测试集上进行测试。