CN116311323A - 基于对比学习的预训练文档模型对齐优化方法 - Google Patents

基于对比学习的预训练文档模型对齐优化方法 Download PDF

Info

Publication number
CN116311323A
CN116311323A CN202310078942.0A CN202310078942A CN116311323A CN 116311323 A CN116311323 A CN 116311323A CN 202310078942 A CN202310078942 A CN 202310078942A CN 116311323 A CN116311323 A CN 116311323A
Authority
CN
China
Prior art keywords
image
text
document
global
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310078942.0A
Other languages
English (en)
Inventor
何家邦
徐行
王磊
刘宁
刘辉
刘炳宇
韩起磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Rongda Technology Co ltd
Original Assignee
Beijing Rongda Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Rongda Technology Co ltd filed Critical Beijing Rongda Technology Co ltd
Priority to CN202310078942.0A priority Critical patent/CN116311323A/zh
Publication of CN116311323A publication Critical patent/CN116311323A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供基于对比学习的预训练文档模型对齐优化方法,涉及跨模态理解与迁移学习中的文档理解领域。该基于对比学习的预训练文档模型对齐优化方法,该方法包括文档图像特征提取模块、文档文本特征提取模块、用于对比学习的动量更新参数模块、文档图像文本特征融合模块以及四种特征对齐模块。本发明中,该方法在性能方面,提出的基于对比学习的预训练文档模型对齐优化方法在各种下游任务上进行微调优于现有最先进的预训练模型,并且在利用跨模态和模态内对比损失进行文档级对齐,用于在文档图像文本中建模局部和全局结构信息的全局‑局部对齐的基础上,提出了局部水平对齐以获得更精确的块级别水平信息。

Description

基于对比学习的预训练文档模型对齐优化方法
技术领域
本发明涉及跨模态理解与迁移学习中的文档理解领域,具体为基于对比学习的预训练文档模型对齐优化方法,用于调整预训练的文档图像模型,以支持联合执行模态融合前的模态对齐和下游任务特定的监督。
背景技术
最近旨在学习通用表征的自监督预训练技术对于文档图像理解非常有效。值得注意的是,基于预训练的文档图像模型的迁移学习在各种与文档相关的下游任务上表现良好。文档图像理解中的一种典型的预训练方法是在大量文档图像和OCR文本对上利用布局信息在无监督损失下预训练文档模型。然后,下游任务通常利用预训练好的文档模型权重进行初始化。然后使用特定于具体下游任务的监督目标,针对下游任务对初始化模型进行微调。
文档图像包含丰富的上下文文本和结构信息,需要图像和文本之间的细粒度交互建模。尽管自监督在文档图像相关任务中取得了很大进展,但大多数现有的预训练文档图像模型都是以粗略的自监督损失进行训练的,这忽略了图像和文本之间的细粒度交互建模。尽管在大规模自监督预训练文档图像模型中,图像和文本之间的对齐显示出了较好的改进,但研究更有效或者在预训练期间使用更细粒度的对齐技术需要巨大的计算成本和时间。因此,自然产生了一个问题:我们是否可以微调预训练模型,以适应具有更多对齐目标的下游任务,并实现可比或更好的性能。
近年来,随着大规模预训练模型的广泛成功,出现了一系列调整技术,以使这些通用模型适应下游任务。模型调整策略在自适应期间调整所有模型参数。为了提高训练效率,adapters和prompt tuning通过少量参数对预训练的模型进行调优,但与微调相比,它们的性能可能会略有下降。此外,任务自适应预训练继续使用特定任务无标记数据训练预训练模型。然而由于预训练模型的固定模型架构的限制而难以将对齐损失并入现有的调整策略中,ALBEF和TCL在通过多模态编码器融合之前,使用额外的图像编码器和额外的文本编码器独立地对文档图像和文本进行编码。然后使用对齐图像文本特征策略对模型进行预训练,以提高学习特征的表达能力,这对于联合多模态表示学习至关重要。然而,如前所述,在预训练阶段实现更有效或更细粒度的对齐技术需要大量计算成本和时间。
为了弥补上述研究空白,提出了基于对比学习的预训练文档模型对齐优化方法,用于调整预训练的文档图像自适应模型,以支持联合执行下游任务特定的监督和对齐目标。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了基于对比学习的预训练文档模型对齐优化方法,用于调整预训练的文档图像模型,以支持联合执行模态融合前的模态对齐和下游任务特定的监督。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
基于对比学习的预训练文档模型对齐优化方法,该方法包括文档图像特征提取模块、文档文本特征提取模块、用于对比学习的动量更新参数模块、文档图像文本特征融合模块以及四种特征对齐模块,四种所述特征对齐模块分别是跨模态全局级图像文本特征对齐模块、单模态全局级图像文本特征对齐模块、单模态全局-局部互信息最大化模块和局部级跨模态图像文本特征对齐模块,最后是具体下游任务微调损失函数。
优选的,所述文档图像特征提取模块使用的ViT模型采用在ImageNet-1k上预训练好的DeiT初始化,对于ViTbase模型,输入大小统一为224*224的图像,ViT模型会将图像划分为大小为16*16的特征图,并且可以在位置编码的第1位添加可学习的全局图像信息vcls,然后将特征图展平为长度是196的向量,最终base模型得到文档图像特征向量的长度为197,维度为768维,对于ViTlarge模型,最终得到的文档图像特征的维度为1024维。
优选的,所述文档文本特征提取模块使用的是预训练好的RoBERTa模型,对于RoBERT abase模型,输入的文档文本和相应的Layout信息需要通过谷歌开源的OCR识别引擎Tesseract-OCR工具来获取,文本的输入长度是512,最终得到的文本表征的第一位表示的是全局的文本信息wcls,其余位置对应每个OCR检测识别结果经过RoBERTa分词器分词以后的局部表征,所有表征的维度都为768,对于Ro BERT abase模型,最终得到的文档文本特征的维度为1024维。
优选的,所述用于对比学习的动量更新参数模块使用的是和上述模块相同初始化参数的动量图像编码器ViT和动量文本编码器RoBERTa,在训练过程中不更新梯度,由上述特征提取模块的模型更新各自对应的动量编码器参数,对于动量图像编码器的输入需要同一图像样本经过图像增广后得到的增广样本经过动量图像编码器后得到表征
Figure BDA0004066904720000031
最终对于base模型,动量图像编码器得到的图像表征长度为197,维度为768,动量文本编码器得到的文本表征长度为512,维度为768,对于larger模型,最终维度为1024,所得到的表征向量的第1位都表示是全局信息,模型参数动量更新如下:
θk←mθk+(1-m)θq
其中,θk表示动量图像/文本编码器参数,θq表示图像/文本编码器参数,m为动量系数。
优选的,所述文档图像文本特征融合模块,采用预训练好的LayoutLMv3模型,LayoutLMv3在含有1100万张图像的大型数据集IIT-CDIP上预训练,对于LayoutLMv3base模型,一共有12层Transformer layer,带有12个自注意力头,隐藏层维度为768,对于LayoutLMv3base模型使用24层Transformer layer,带有16个自注意力头,隐藏层维度为1024;LayoutLMv3模型词表与RoBERTa保持一致,文档图像的输入大小为224*224,文档文本的输入长度统一填充到512;
在获取的特征文档图像文本全局和局部的特征基础上设计四种特征对齐模块,分别是跨模态全局级图像文本特征对齐模块,单模态全局级图像文本特征对齐模块,单模态全局-局部级MI最大化模块,局部级跨模态图像文本特征对齐模块,取上述所有模块的损失函数的加权和作为除具体下游任务损失之外的所有损失,最终可以将模型的损失函数定义为如下:
Figure BDA0004066904720000041
其中,
Figure BDA0004066904720000042
表示四种特征对齐模块的总体损失值,/>
Figure BDA0004066904720000043
表示具体下游任务的损失值,α和η为权衡因子。
优选的,所述跨模态全局级图像文本特征对齐模块,最大化文档全局级图像文本对交互信息,通过对比损失函数跨模态对齐,将匹配的图像-文本对的表征拉近,并将不匹配的图像-文本对拉远,使用相似度函数
Figure BDA0004066904720000044
Figure BDA0004066904720000045
以及
Figure BDA0004066904720000046
其中fimg和ftxt是两个投影头,将768维度的向量投影到256维度,vcls和wcls表示由图像和文本编码器生成的[CLS]向量,将同一样本的图像文本对视为正样本对,将不同样本的图像文本对视为负样本,其中图像文本的正样本对采用wcls和动量图像全局特征/>
Figure BDA0004066904720000047
以及和动量文本全局特征/>
Figure BDA0004066904720000048
用两个大小为65536的队列来存储由动量图像编码器生成的全局图像特征/>
Figure BDA0004066904720000049
和由动量文本编码器生成的全局文本特征/>
Figure BDA00040669047200000410
由全局图像到全局文本的对齐损失函数可以被计算为:
Figure BDA00040669047200000411
由全局文本到全局图像的对齐损失函数可以被计算为:
Figure BDA0004066904720000051
上述损失函数中是温度系数,K是队列中存储的表征数量,最后可以将该模块的损失函数定义为:
Figure BDA0004066904720000052
上述损失函数中B表示输入图像文本对的batch大小,考虑到一张图像的负样本文本可能也会和该图像匹配,因此这里采用伪真值进行学习;
所述单模态全局级图像文本特征对齐模块,最大化文档全局级图像与图像以及文本与文本的互信息,对于文档图像编码器生成的图像块表征,其中N表示图像表征长度,对于文档文本表征,L表示文本表征长度,此时队列中存储的动量图像编码器生成的全局表征为,相应的队列中动量文本编码器生成的全局表征为,x和y表示此时队列中存储的全局表征数量,将和文档图像经过图像增广后输入动量图像编码器生成的全局表征视为正样本对,同理将和动量文本编码器生成的全局表征视为正样本对,将与视为负样本,将与视为负样本,最终可以将该模块的损失函数定义为:
Figure BDA0004066904720000053
所述单模态全局-局部互信息最大化模块,通过建模文档全局级表征和局部表征区域之间的交互,在单个模态中捕获局部结构信息。对于视觉模态,基于某一图像样本m的全局表征vcls_m和动量图像编码器生成的图像块表征
Figure BDA0004066904720000054
Figure BDA0004066904720000055
计算图像全局到局部的对比损失。同样,对于文本模态,使用文本的全局表征wcls_m和动量文本编码器生成的文本表征/>
Figure BDA0004066904720000056
来计算文本全局到局部的对比损失,最终可以将该模块的损失函数定义为:
Figure BDA0004066904720000061
其中,
Figure BDA0004066904720000062
和/>
Figure BDA0004066904720000063
表示负样本对的选定,B表示输入图像文本对的batch大小,Z表示总的正负样本对数量,同一个batch中,除了该样本m外的其余样本n(n∈B,n!=m)的图像块表征/>
Figure BDA0004066904720000064
与vcls_m视为负样本对,文本表征/>
Figure BDA0004066904720000065
Figure BDA0004066904720000066
与wcls_m视为负样本对;
所述局部级跨模态图像文本特征对齐模块,虽然引入的单模态全局-局部互信息最大化模块能够捕获输入中的某些单模态局部结构信息,但它忽略了局部级别图像和局部级别上下文文本之间的块级别对齐。块级别对齐对于学习更精确和更细粒度的表征以获得更准确的文档理解至关重要。因此,引入局部级跨模态图像文本特征对齐模块,作为对前三种对比损失的补充。为了计算块级别对齐损失,首先通过获得的layout信息定位图像块中的文本。然后平均匹配文本的表征向量,计算出图像块相应的匹配文本{t1,t2,…,tN}的块级别文本表征后,通过训练文档图像特征提取模块和文档文本特征提取模块,最大化N个图像文本正样本对的余弦相似度,最小化N2-N个图像文本负样本对的余弦相似度,其中余弦相似度定义为:
Figure BDA0004066904720000067
最终可以将该模块的损失函数定义为:
Figure BDA0004066904720000068
优选的,所述具体下游任务微调损失函数记为
Figure BDA0004066904720000069
一共有三类下游任务,分别是文档命名实体识别任务,文档分类任务以及文档视觉问答任务,每种下游任务分别记为
Figure BDA00040669047200000610
最终可以将表示的四种特征对齐模块的总体损失值定义为:
Figure BDA0004066904720000071
其中,λ1234分别为
Figure BDA0004066904720000072
的预设权重参数,最终基于预训练文档图像模型的对齐优化方法损失函数定义如下:
Figure BDA0004066904720000073
其中,α和η为权衡因子。
优选的,基于预训练文档图像模型的对齐优化方法,采用如权利要求1所述的预训练文档图像模型的对齐优化模型实现,所述对齐优化方法包括如下步骤:
步骤1:数据预处理,选取四个公开数据集进行实验,包括FUNSD、CORD、RVL-CDIP-1和DocVQA;
FUNSD是一个从RVL-CDIP数据集中采样的用于扫描表单理解的数据集,它由199个文档(149个训练文档和50个测试文档)和9707个语义实体组成;
CORD是一个用于收据的关键信息提取数据集,包括1000张收据样本和4种类别下定义的30种语义标签,其中800个样本用于训练,100个样本用于验证,100个样本用于测试;
RVL-CDIP-1数据集是IIT-CDIP数据集的一个子集,一共有16种文档类别,RVL-CDIP-1数据集包含400000张文档图像,其中320000张是训练图像,40000张是验证图像,400000张是测试图像;
DocVQA数据集是文档图像视觉问答的标准数据集,官方划分后DocVQA数据集由10194/1286/1287个图像组成,分别包含39463/5349/5188个问题,分别对应于训练集,验证集,测试集;
数据的预处理过程除了RVL-CDIP-1数据集的文档图像需要用开源OCR工具Tesseract-OCR来获取图像中的文本和文本框的坐标,其余数据集中均可获取文本框的坐标信息,文本框的坐标需要归一化到[0,1000],对于所有数据集的图像增广需要包含简单的图像缩放以及随机翻转和裁剪的操作,将最终输入图像的大小调整为224*224。
步骤2:对预处理后的图像数据使用文档图像特征提取模块提取图像基本特征,对于base模型,采用预训练好的ViT模型提取图像特征,将输入图像切分为14*14个大小为16*16的图像块,并在头部添加一个可学习的全局图像表征,输出维度为768的特征向量,动量模型部分,采用ViT_m模型,初始化模型参数为上述ViT模型,将增广后的图像样本输入,得到输出维度为768的特征向量,对预处理后的文本数据使用文档文本特征提取模块提取文本基本特征,对于base模型,采用预训练好的RoBERTa模型提取文本特征,输入文本长度统一到512,输出维度为768的特征向量。
步骤3:图像文本特征对齐损失函数计算,获取图像特征{vcls,v1,…,vN}、文本特征{wcls,w1,…,wL}以及动量图像特征
Figure BDA0004066904720000081
动量文本特征/>
Figure BDA0004066904720000082
此时队列中存储的动量图像编码器生成的全局表征为/>
Figure BDA0004066904720000083
相应的队列中动量文本编码器生成的全局表征为/>
Figure BDA0004066904720000084
分别计算以下三个模块的损失函数,跨模态全局级图像文本特征对齐模块,单模态全局级图像文本特征对齐模块,单模态全局-局部级MI最大化模块;对于跨模态全局级图像文本特征对齐模块,计算的损失函数定义为:
Figure BDA0004066904720000085
由于此处的正样本对通常具有弱相关性,文档识别的文本中可能有文字识别错误,即包含与图像不相关的单词,或者图像中可能包含识别的文本中未描述的实体。对于DITC的学习,一个文档图像的negative文本也可能匹配图像中的内容时,真值需要动量蒸馏,采用为伪标签的计算方式:
Figure BDA0004066904720000086
对于所有下游任务α=0.4;
对于单模态全局级图像文本特征对齐模块,计算的损失函数定义为:
Figure BDA0004066904720000091
对于单模态全局-局部级MI最大化模块,计算损失函数定义为:
Figure BDA0004066904720000092
对于局部级跨模态图像文本特征对齐模块,首先得到文本表征wt(1<=t<=L)对应的文本框位置[xt_min,yt_min,xt_max,yt_max],对于通过预处理可以得到14*14个大小为16*16的图像块对应的文本框[xp_min,yp_min,xp_max,yp_max],得到每个图像块在文本框归一化处理后的大小为71*71,为了方便计算将大小调整为72,通过判定是否完全包围,来划定文本的表征的所在区域:
(xt_min/71=xt_max/71)&&(yt_min/71=yt_max/71)
统计所在图像块内的文本表征数量,计算出图像块相应的匹配文本{t1,t2,…,tN}的块级别文本表征后,最大化N个图像文本正样本对的余弦相似度,最小化个图像文本负样本对的余弦相似度,其中余弦相似度定义为:
Figure BDA0004066904720000093
最终可以将该模块的损失函数定义为:
Figure BDA0004066904720000094
将前述所有损失函数加权求合,获得模型利用对比学习进行图像文档对齐的损失函数:
Figure BDA0004066904720000095
步骤4:文档图像文本特征融合模块与模型的训练,步骤3的训练过程优化调整图像编码器参数和文本编码器参数,两个编码器所得到的对齐的表征align_image和align_text进入文档图像文本特征融合模块,在LayoutLMv3模型的embedding层对输入的视觉embedding和文本embedding进行融合;
选用base模型时,对于表单和收据理解任务,选取FUNSD和CORD数据集,对于FUNSD数据集,batch大小设置为4,优化器采用Adamw,学习率设定为3e-5,最小学习率设定为2e-5,warm_up学习率设定为2e-5,训练epochs为30轮,warmup_epochs为20轮,weight_decay为0.02,使用的学习器为CosineLRScheduler,最终精度的评价指标为预测实体的F1度量;
对于CORD数据集,将学习率设定为5e-5,最小学习率设定为3e-5,,warm_up学习率设定为3e-5,训练epochs为40轮,其余训练参数设定与FUNSD数据集上的训练参数相同,最终精度的评价指标为预测实体的F1度量(F1);对于文档分类任务,在模型输出[CLS]后连接分类器,将batch设置为4,训练epochs为80轮,其余训练参数设定与FUNSD数据集上的训练参数相同,最终精度的评价指标为文档预测的准确率(Acc);
对于文档视觉问答任务,采用fp16参与训练,batch设置为8,优化器采用Adamw,学习率大小为3e-5,使用的学习器为LambdaLR,输入部分含有答案在问题中的起始位置和终止位置作为真值标签,最终模型输出后连接分类器预测答案的起始位置和终止位置,最终精度的评价指标为平均归一化列文斯坦相似度(ANLS);
将前述所有损失函数加权求合,获得模型的整体损失函数:
Figure BDA0004066904720000101
其中,λ1234分别为
Figure BDA0004066904720000102
的预设权重参数,α和η为权衡因子。
步骤5:使用所述基于对比学习的预训练文档模型对齐优化方法在所述步骤1中所提到的四种数据集上均进行了如步骤2-4所述的训练,其中FUNSD数据集上进行测试集的测试,CORD,RVL-CDIP-1,DocVQA数据集上选取验证集上最佳性能的模型在测试集上进行测试。
(三)有益效果
本发明提供了基于对比学习的预训练文档模型对齐优化方法。具备以下
有益效果:
1、本发明提供了基于对比学习的预训练文档模型对齐优化方法,该方法从以下三个方面考虑对齐:1)利用跨模态和模态内对比损失进行文档级对齐;2)用于在文档图像中建模局部和全局结构信息的全局-局部对齐;3)局部水平对齐以获得更精确的块级别水平信息,引入了在多模式融合之前,额外的视觉编码器作为用于对齐校准的图像编码器,额外的文本编码器作为对齐校准的文本编码器,以用于调整预训练的文档图像模型,进而支持联合执行模态融合前的模态对齐和下游任务特定的监督。
2、本发明提供了基于对比学习的预训练文档模型对齐优化方法,该方法在性能方面,提出的基于对比学习的预训练文档模型对齐优化方法在各种下游任务上进行微调优于现有最先进的预训练模型。
3、本发明提供了基于对比学习的预训练文档模型对齐优化方法,该方法在利用跨模态和模态内对比损失进行文档级对齐,用于在文档图像文本中建模局部和全局结构信息的全局-局部对齐的基础上,提出了局部水平对齐以获得更精确的块级别水平信息。
附图说明
图1为本发明的基于对比学习的预训练文档模型对齐优化方法的实现流程图;
图2为本发明的基于对比学习的预训练文档模型对齐优化方法的框架示意图;
图3为本发明的特征对齐损失函数示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
考虑到现有的使用对齐图像文本特征策略对模型进行预训练,在预训练阶段实现更有效或更细粒度的对齐技术需要大量计算成本和时间,本发明提出了一种基于对比学习的预训练文档模型对齐优化方法。本发明在利用跨模态和模态内对比损失进行文档级对齐,用于在文档图像文本中建模局部和全局结构信息的全局-局部对齐的基础上,提出了局部水平对齐以获得更精确的块级别水平信息,并在各种下游任务上进行微调优于现有最先进的预训练模型。下面结合具体实例,对本发明进行详细完整的说明。
实施例:
如图1-3所示,本发明实施例提供基于对比学习的预训练文档模型对齐优化方法,该方法包括文档图像特征提取模块、文档文本特征提取模块、用于对比学习的动量更新参数模块、文档图像文本特征融合模块以及四种特征对齐模块,四种所述特征对齐模块分别是跨模态全局级图像文本特征对齐模块、单模态全局级图像文本特征对齐模块、单模态全局-局部互信息最大化模块和局部级跨模态图像文本特征对齐模块,最后是具体下游任务微调损失函数。
所述文档图像特征提取模块使用的ViT模型采用在ImageNet-1k上预训练好的DeiT初始化,对于ViTbase模型,输入大小统一为224*224的图像,ViT模型会将图像划分为大小为16*16的特征图,并且可以在位置编码的第1位添加可学习的全局图像信息vcls,然后将特征图展平为长度是196的向量,最终base模型得到文档图像特征向量的长度为197,维度为768维,对于ViTlarge模型,最终得到的文档图像特征的维度为1024维。
所述文档文本特征提取模块使用的是预训练好的RoBERTa模型,对于Ro BERTabase模型,输入的文档文本和相应的Layout信息需要通过谷歌开源的OCR识别引擎Tesseract-OCR工具来获取,文本的输入长度是512,最终得到的文本表征的第一位表示的是全局的文本信息wcls,其余位置对应每个OCR检测识别结果经过RoBERTa分词器分词以后的局部表征,所有表征的维度都为768,对于Ro BERT abase模型,最终得到的文档文本特征的维度为1024维。
所述用于对比学习的动量更新参数模块使用的是和上述模块相同初始化参数的动量图像编码器ViT和动量文本编码器RoBERTa,在训练过程中不更新梯度,由上述特征提取模块的模型更新各自对应的动量编码器参数,对于动量图像编码器的输入需要同一图像样本经过图像增广后得到的增广样本经过动量图像编码器后得到表征
Figure BDA0004066904720000131
最终对于base模型,动量图像编码器得到的图像表征长度为197,维度为768,动量文本编码器得到的文本表征长度为512,维度为768,对于larger模型,最终维度为1024,所得到的表征向量的第1位都表示是全局信息,模型参数动量更新如下:
θk←mθk+(1-m)θq
其中,θk表示动量图像/文本编码器参数,θq表示图像/文本编码器参数,m为动量系数。
所述文档图像文本特征融合模块,采用预训练好的LayoutLMv3模型,LayoutLMv3在含有1100万张图像的大型数据集IIT-CDIP上预训练,对于LayoutLMv3base模型,一共有12层Transformer layer,带有12个自注意力头,隐藏层维度为768,对于LayoutLMv3base模型使用24层Transformer layer,带有16个自注意力头,隐藏层维度为1024;LayoutLMv3模型词表与RoBERTa保持一致,文档图像的输入大小为224*224,文档文本的输入长度统一填充到512;
在获取的特征文档图像文本全局和局部的特征基础上设计四种特征对齐模块,分别是跨模态全局级图像文本特征对齐模块,单模态全局级图像文本特征对齐模块,单模态全局-局部级MI最大化模块,局部级跨模态图像文本特征对齐模块,取上述所有模块的损失函数的加权和作为除具体下游任务损失之外的所有损失,最终可以将模型的损失函数定义为如下:
Figure BDA0004066904720000141
其中,
Figure BDA0004066904720000142
表示四种特征对齐模块的总体损失值,/>
Figure BDA0004066904720000143
表示具体下游任务的损失值,α和η为权衡因子。
所述跨模态全局级图像文本特征对齐模块,最大化文档全局级图像文本对交互信息,通过对比损失函数跨模态对齐,将匹配的图像-文本对的表征拉近,并将不匹配的图像-文本对拉远,使用相似度函数
Figure BDA0004066904720000144
Figure BDA0004066904720000145
以及
Figure BDA0004066904720000146
其中fimg和ftxt是两个投影头,将768维度的向量投影到256维度,vcls和wcls表示由图像和文本编码器生成的[CLS]向量,将同一样本的图像文本对视为正样本对,将不同样本的图像文本对视为负样本,其中图像文本的正样本对采用wcls和动量图像全局特征/>
Figure BDA0004066904720000147
以及和动量文本全局特征/>
Figure BDA0004066904720000148
用两个大小为65536的队列来存储由动量图像编码器生成的全局图像特征/>
Figure BDA0004066904720000149
和由动量文本编码器生成的全局文本特征/>
Figure BDA00040669047200001410
由全局图像到全局文本的对齐损失函数可以被计算为:
Figure BDA00040669047200001411
由全局文本到全局图像的对齐损失函数可以被计算为:
Figure BDA00040669047200001412
上述损失函数中是温度系数,K是队列中存储的表征数量,最后可以将该模块的损失函数定义为:
Figure BDA0004066904720000151
上述损失函数中B表示输入图像文本对的batch大小,考虑到一张图像的负样本文本可能也会和该图像匹配,因此这里采用伪真值进行学习;
所述单模态全局级图像文本特征对齐模块,最大化文档全局级图像与图像以及文本与文本的互信息,对于文档图像编码器生成的图像块表征,其中N表示图像表征长度,对于文档文本表征,L表示文本表征长度,此时队列中存储的动量图像编码器生成的全局表征为,相应的队列中动量文本编码器生成的全局表征为,x和y表示此时队列中存储的全局表征数量,将和文档图像经过图像增广后输入动量图像编码器生成的全局表征视为正样本对,同理将和动量文本编码器生成的全局表征视为正样本对,将与视为负样本,将与视为负样本,最终可以将该模块的损失函数定义为:
Figure BDA0004066904720000152
所述单模态全局-局部互信息最大化模块,通过建模文档全局级表征和局部表征区域之间的交互,在单个模态中捕获局部结构信息。对于视觉模态,基于某一图像样本m的全局表征vcls_m和动量图像编码器生成的图像块表征
Figure BDA0004066904720000153
Figure BDA0004066904720000154
计算图像全局到局部的对比损失。同样,对于文本模态,使用文本的全局表征wcls_m和动量文本编码器生成的文本表征/>
Figure BDA0004066904720000155
来计算文本全局到局部的对比损失,最终可以将该模块的损失函数定义为:
Figure BDA0004066904720000156
其中,
Figure BDA0004066904720000157
和/>
Figure BDA0004066904720000158
表示负样本对的选定,B表示输入图像文本对的batch大小,Z表示总的正负样本对数量,同一个batch中,除了该样本m外的其余样本n(n∈B,n!=m)的图像块表征/>
Figure BDA0004066904720000159
与vcls_m视为负样本对,文本表征/>
Figure BDA00040669047200001510
Figure BDA0004066904720000161
与wcls_m视为负样本对;
所述局部级跨模态图像文本特征对齐模块,虽然引入的单模态全局-局部互信息最大化模块能够捕获输入中的某些单模态局部结构信息,但它忽略了局部级别图像和局部级别上下文文本之间的块级别对齐。块级别对齐对于学习更精确和更细粒度的表征以获得更准确的文档理解至关重要。因此,引入局部级跨模态图像文本特征对齐模块,作为对前三种对比损失的补充。为了计算块级别对齐损失,首先通过获得的layout信息定位图像块中的文本。然后平均匹配文本的表征向量,计算出图像块相应的匹配文本{t1,t2,…,tN}的块级别文本表征后,通过训练文档图像特征提取模块和文档文本特征提取模块,最大化N个图像文本正样本对的余弦相似度,最小化N2-N个图像文本负样本对的余弦相似度,其中余弦相似度定义为:
Figure BDA0004066904720000162
最终可以将该模块的损失函数定义为:
Figure BDA0004066904720000163
所述具体下游任务微调损失函数记为
Figure BDA0004066904720000164
一共有三类下游任务,分别是文档命名实体识别任务,文档分类任务以及文档视觉问答任务,每种下游任务分别记为
Figure BDA0004066904720000165
最终可以将表示的四种特征对齐模块的总体损失值定义为:
Figure BDA0004066904720000166
其中,λ1234分别为
Figure BDA0004066904720000167
的预设权重参数,最终基于预训练文档图像模型的对齐优化方法损失函数定义如下:
Figure BDA0004066904720000168
/>
其中,α和η为权衡因子。
基于预训练文档图像模型的对齐优化方法,采用如权利要求1所述的预训练文档图像模型的对齐优化模型实现,所述对齐优化方法包括如下步骤:
步骤1:数据预处理,选取四个公开数据集进行实验,包括FUNSD、CORD、RVL-CDIP-1和DocVQA;
FUNSD是一个从RVL-CDIP数据集中采样的用于扫描表单理解的数据集,它由199个文档(149个训练文档和50个测试文档)和9707个语义实体组成;
CORD是一个用于收据的关键信息提取数据集,包括1000张收据样本和4种类别下定义的30种语义标签,其中800个样本用于训练,100个样本用于验证,100个样本用于测试;
RVL-CDIP-1数据集是IIT-CDIP数据集的一个子集,一共有16种文档类别,RVL-CDIP-1数据集包含400000张文档图像,其中320000张是训练图像,40000张是验证图像,400000张是测试图像;
DocVQA数据集是文档图像视觉问答的标准数据集,官方划分后DocVQA数据集由10194/1286/1287个图像组成,分别包含39463/5349/5188个问题,分别对应于训练集,验证集,测试集;
数据的预处理过程除了RVL-CDIP-1数据集的文档图像需要用开源OCR工具Tesseract-OCR来获取图像中的文本和文本框的坐标,其余数据集中均可获取文本框的坐标信息,文本框的坐标需要归一化到[0,1000],对于所有数据集的图像增广需要包含简单的图像缩放以及随机翻转和裁剪的操作,将最终输入图像的大小调整为224*224。
步骤2:对预处理后的图像数据使用文档图像特征提取模块提取图像基本特征,对于base模型,采用预训练好的ViT模型提取图像特征,将输入图像切分为14*14个大小为16*16的图像块,并在头部添加一个可学习的全局图像表征,输出维度为768的特征向量,动量模型部分,采用ViT_m模型,初始化模型参数为上述ViT模型,将增广后的图像样本输入,得到输出维度为768的特征向量,对预处理后的文本数据使用文档文本特征提取模块提取文本基本特征,对于base模型,采用预训练好的RoBERTa模型提取文本特征,输入文本长度统一到512,输出维度为768的特征向量。
步骤3:图像文本特征对齐损失函数计算,获取图像特征{vcls,v1,…,vN}、文本特征{wcls,w1,…,wL}以及动量图像特征
Figure BDA0004066904720000181
动量文本特征/>
Figure BDA0004066904720000182
此时队列中存储的动量图像编码器生成的全局表征为/>
Figure BDA0004066904720000183
相应的队列中动量文本编码器生成的全局表征为/>
Figure BDA0004066904720000184
分别计算以下三个模块的损失函数,跨模态全局级图像文本特征对齐模块,单模态全局级图像文本特征对齐模块,单模态全局-局部级MI最大化模块;对于跨模态全局级图像文本特征对齐模块,计算的损失函数定义为:
Figure BDA0004066904720000185
由于此处的正样本对通常具有弱相关性,文档识别的文本中可能有文字识别错误,即包含与图像不相关的单词,或者图像中可能包含识别的文本中未描述的实体。对于DITC的学习,一个文档图像的negative文本也可能匹配图像中的内容时,真值需要动量蒸馏,采用为伪标签的计算方式:
Figure BDA0004066904720000186
对于所有下游任务α=0.4;
对于单模态全局级图像文本特征对齐模块,计算的损失函数定义为:
Figure BDA0004066904720000187
对于单模态全局-局部级MI最大化模块,计算损失函数定义为:
Figure BDA0004066904720000188
对于局部级跨模态图像文本特征对齐模块,首先得到文本表征wt(1<=t<=L)对应的文本框位置[xt_min,yt_min,xt_max,yt_max],对于通过预处理可以得到14*14个大小为16*16的图像块对应的文本框[xp_min,yp_min,xp_max,yp_max],得到每个图像块在文本框归一化处理后的大小为71*71,为了方便计算将大小调整为72,通过判定是否完全包围,来划定文本的表征的所在区域:
(xt_min/71=xt_max/71)&&(yt_min/71=yt_max/71)
统计所在图像块内的文本表征数量,计算出图像块相应的匹配文本{t1,t2,…,tN}的块级别文本表征后,最大化N个图像文本正样本对的余弦相似度,最小化个图像文本负样本对的余弦相似度,其中余弦相似度定义为:
Figure BDA0004066904720000191
最终可以将该模块的损失函数定义为:
Figure BDA0004066904720000192
将前述所有损失函数加权求合,获得模型利用对比学习进行图像文档对齐的损失函数:
Figure BDA0004066904720000193
步骤4:文档图像文本特征融合模块与模型的训练,步骤3的训练过程优化调整图像编码器参数和文本编码器参数,两个编码器所得到的对齐的表征align_image和align_text进入文档图像文本特征融合模块,在LayoutLMv3模型的embedding层对输入的视觉embedding和文本embedding进行融合;
选用base模型时,对于表单和收据理解任务,选取FUNSD和CORD数据集,对于FUNSD数据集,batch大小设置为4,优化器采用Adamw,学习率设定为3e-5,最小学习率设定为2e-5,warm_up学习率设定为2e-5,训练epochs为30轮,warmup_epochs为20轮,weight_decay为0.02,使用的学习器为CosineLRScheduler,最终精度的评价指标为预测实体的F1度量;
对于CORD数据集,将学习率设定为5e-5,最小学习率设定为3e-5,,warm_up学习率设定为3e-5,训练epochs为40轮,其余训练参数设定与FUNSD数据集上的训练参数相同,最终精度的评价指标为预测实体的F1度量(F1);对于文档分类任务,在模型输出[CLS]后连接分类器,将batch设置为4,训练epochs为80轮,其余训练参数设定与FUNSD数据集上的训练参数相同,最终精度的评价指标为文档预测的准确率(Acc);
对于文档视觉问答任务,采用fp16参与训练,batch设置为8,优化器采用Adamw,学习率大小为3e-5,使用的学习器为LambdaLR,输入部分含有答案在问题中的起始位置和终止位置作为真值标签,最终模型输出后连接分类器预测答案的起始位置和终止位置,最终精度的评价指标为平均归一化列文斯坦相似度(ANLS);
将前述所有损失函数加权求合,获得模型的整体损失函数:
Figure BDA0004066904720000201
其中,λ1234分别为
Figure BDA0004066904720000202
的预设权重参数,α和η为权衡因子。
步骤5:使用所述基于对比学习的预训练文档模型对齐优化方法在所述步骤1中所提到的四种数据集上均进行了如步骤2-4所述的训练,其中FUNSD数据集上进行测试集的测试,CORD,RVL-CDIP-1,DocVQA数据集上选取验证集上最佳性能的模型在测试集上进行测试。
实验结果显示,本发明提出的基于对比学习的预训练文档模型对齐优化方法在FUNSD,CORD上,在base模型上F1度量分别为91.55%,97.04%,结果达到了前沿水平,在large模型上F1度量分别是92.33%,97.52%,结果也达到了前沿水平,说明本发明提出的模型能够在文档理解命名实体识别任务上有效。
在FUNSD数据集和CORD数据集上的测试结果如下表1,下表2所示:
表1在FUNSD,CORD数据集上的base模型性能对比
Figure BDA0004066904720000211
表2在FUNSD,CORD数据集上的large模型性能对比
Figure BDA0004066904720000212
在模态融合前进行对齐有效的拉近相同实体embedding的距离,拉远不同实体embedding的距离;在RVL-CDIP-1数据集上进行了文档分类的实验,在base模型上分类正确率为96.30%,在l arge模型上分类正确率为96.71%;在DocVQA数据集上进行了文档视觉问答实验,在base模型上,平均归一化列文斯坦相似度为79.73%,在DocVQA数据集上的测试结果如下表3所示:
表3在DocVQA数据集上的base模型性能对比
Figure BDA0004066904720000221
为进一步验证本发明提出各个模块以及损失函数的有效性,在FUNSD数据集上对各个损失函数进行消融实验,直接加上文档图像特征提取模块和文档文本特征提取模块后,F1为89.77%,说明直接引入额外的编码器并不能带来性能的提升;加上发明提出的不同模块后,F1度量均有不同程度的提升。由此说明,本发明提出的四种特征对齐损失函数在多个层面上对文档预训练在下游任务上精度的提升是有效的,消融实验如下表4所示:
表4调优模块的消融实验
Figure BDA0004066904720000222
Figure BDA0004066904720000231
为进一步验证本发明提出对比学习调优方法的优越性,在FUNSD数据集上使用Fine-Tuning,P-Tuning与本发明提出的方法进行比较,结果显示,Fine-Tuning得到的F1度量为89.82%,P-Tuning得到的F1度量为83.75%,基于对比学习的预训练文档模型对齐优化方法得到的F1度量为91.55%。由此说明,本发明提出的方法相对于其他调优更有效,调优方法性能的比较如下表5所示:
表5基于模型的调优方法性能对比
Figure BDA0004066904720000232
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.基于对比学习的预训练文档模型对齐优化方法,其特征在于:该方法包括文档图像特征提取模块、文档文本特征提取模块、用于对比学习的动量更新参数模块、文档图像文本特征融合模块以及四种特征对齐模块,四种所述特征对齐模块分别是跨模态全局级图像文本特征对齐模块、单模态全局级图像文本特征对齐模块、单模态全局-局部互信息最大化模块和局部级跨模态图像文本特征对齐模块,最后是具体下游任务微调损失函数。
2.根据权利要求1所述的基于对比学习的预训练文档模型对齐优化方法,其特征在于:所述文档图像特征提取模块使用的ViT模型采用在ImageNet-1k上预训练好的DeiT初始化,对于ViTbase模型,输入大小统一为224*224的图像,ViT模型会将图像划分为大小为16*16的特征图,并且可以在位置编码的第1位添加可学习的全局图像信息vcls,然后将特征图展平为长度是196的向量,最终base模型得到文档图像特征向量的长度为197,维度为768维,对于ViTlarge模型,最终得到的文档图像特征的维度为1024维。
3.根据权利要求1所述的基于对比学习的预训练文档模型对齐优化方法,其特征在于:所述文档文本特征提取模块使用的是预训练好的RoBERTa模型,对于RoBERT abase模型,输入的文档文本和相应的Layout信息需要通过谷歌开源的OCR识别引擎Tesseract-OCR工具来获取,文本的输入长度是512,最终得到的文本表征的第一位表示的是全局的文本信息wcls,其余位置对应每个OCR检测识别结果经过RoBERTa分词器分词以后的局部表征,所有表征的维度都为768,对于RoBERT abase模型,最终得到的文档文本特征的维度为1024维。
4.根据权利要求1所述的基于对比学习的预训练文档模型对齐优化方法,其特征在于:所述用于对比学习的动量更新参数模块使用的是和上述模块相同初始化参数的动量图像编码器ViT和动量文本编码器RoBERTa,在训练过程中不更新梯度,由上述特征提取模块的模型更新各自对应的动量编码器参数,对于动量图像编码器的输入需要同一图像样本经过图像增广后得到的增广样本经过动量图像编码器后得到表征
Figure FDA0004066904590000021
最终对于base模型,动量图像编码器得到的图像表征长度为197,维度为768,动量文本编码器得到的文本表征长度为512,维度为768,对于larger模型,最终维度为1024,所得到的表征向量的第1位都表示是全局信息,模型参数动量更新如下:
θk←mθk+(1-m)θq
其中,θk表示动量图像/文本编码器参数,θq表示图像/文本编码器参数,m为动量系数。
5.根据权利要求1所述的基于对比学习的预训练文档模型对齐优化方法,其特征在于:所述文档图像文本特征融合模块,采用预训练好的LayoutLMv3模型,LayoutLMv3在含有1100万张图像的大型数据集IIT-CDIP上预训练,对于LayoutLMv3base模型,一共有12层Transformer layer,带有12个自注意力头,隐藏层维度为768,对于LayoutLMv3base模型使用24层Transformer layer,带有16个自注意力头,隐藏层维度为1024;LayoutLMv3模型词表与RoBERTa保持一致,文档图像的输入大小为224*224,文档文本的输入长度统一填充到512;
在获取的特征文档图像文本全局和局部的特征基础上设计四种特征对齐模块,分别是跨模态全局级图像文本特征对齐模块,单模态全局级图像文本特征对齐模块,单模态全局-局部级MI最大化模块,局部级跨模态图像文本特征对齐模块,取上述所有模块的损失函数的加权和作为除具体下游任务损失之外的所有损失,最终可以将模型的损失函数定义为如下:
Figure FDA0004066904590000022
其中,
Figure FDA0004066904590000023
表示四种特征对齐模块的总体损失值,/>
Figure FDA0004066904590000024
表示具体下游任务的损失值,α和η为权衡因子。
6.根据权利要求1所述的基于对比学习的预训练文档模型对齐优化方法,其特征在于:所述跨模态全局级图像文本特征对齐模块,最大化文档全局级图像文本对交互信息,通过对比损失函数跨模态对齐,将匹配的图像-文本对的表征拉近,并将不匹配的图像-文本对拉远,使用相似度函数
Figure FDA0004066904590000031
Figure FDA0004066904590000032
以及
Figure FDA0004066904590000033
其中fimg和ftxt是两个投影头,将768维度的向量投影到256维度,vcls和wcls表示由图像和文本编码器生成的[CLS]向量,将同一样本的图像文本对视为正样本对,将不同样本的图像文本对视为负样本,其中图像文本的正样本对采用wcls和动量图像全局特征/>
Figure FDA0004066904590000034
以及和动量文本全局特征/>
Figure FDA0004066904590000035
用两个大小为65536的队列来存储由动量图像编码器生成的全局图像特征/>
Figure FDA0004066904590000036
和由动量文本编码器生成的全局文本特征/>
Figure FDA0004066904590000037
由全局图像到全局文本的对齐损失函数可以被计算为:
Figure FDA0004066904590000038
由全局文本到全局图像的对齐损失函数可以被计算为:
Figure FDA0004066904590000039
上述损失函数中是温度系数,K是队列中存储的表征数量,最后可以将该模块的损失函数定义为:
Figure FDA00040669045900000310
上述损失函数中B表示输入图像文本对的batch大小,考虑到一张图像的负样本文本可能也会和该图像匹配,因此这里采用伪真值进行学习;
所述单模态全局级图像文本特征对齐模块,最大化文档全局级图像与图像以及文本与文本的互信息,对于文档图像编码器生成的图像块表征,其中N表示图像表征长度,对于文档文本表征,L表示文本表征长度,此时队列中存储的动量图像编码器生成的全局表征为,相应的队列中动量文本编码器生成的全局表征为,x和y表示此时队列中存储的全局表征数量,将和文档图像经过图像增广后输入动量图像编码器生成的全局表征视为正样本对,同理将和动量文本编码器生成的全局表征视为正样本对,将与视为负样本,将与视为负样本,最终可以将该模块的损失函数定义为:
Figure FDA0004066904590000041
所述单模态全局-局部互信息最大化模块,通过建模文档全局级表征和局部表征区域之间的交互,在单个模态中捕获局部结构信息。对于视觉模态,基于某一图像样本m的全局表征vcls_m和动量图像编码器生成的图像块表征
Figure FDA0004066904590000042
Figure FDA0004066904590000043
计算图像全局到局部的对比损失。同样,对于文本模态,使用文本的全局表征wcls_m和动量文本编码器生成的文本表征
Figure FDA0004066904590000044
来计算文本全局到局部的对比损失,最终可以将该模块的损失函数定义为:
Figure FDA0004066904590000045
其中,
Figure FDA0004066904590000046
和/>
Figure FDA0004066904590000047
表示负样本对的选定,B表示输入图像文本对的batch大小,Z表示总的正负样本对数量,同一个batch中,除了该样本m外的其余样本n(n∈B,n!=m)的图像块表征
Figure FDA0004066904590000048
与vcls_m视为负样本对,文本表征/>
Figure FDA0004066904590000049
Figure FDA00040669045900000410
与wcls_m视为负样本对;
所述局部级跨模态图像文本特征对齐模块,虽然引入的单模态全局-局部互信息最大化模块能够捕获输入中的某些单模态局部结构信息,但它忽略了局部级别图像和局部级别上下文文本之间的块级别对齐。块级别对齐对于学习更精确和更细粒度的表征以获得更准确的文档理解至关重要。因此,引入局部级跨模态图像文本特征对齐模块,作为对前三种对比损失的补充。为了计算块级别对齐损失,首先通过获得的layout信息定位图像块中的文本。然后平均匹配文本的表征向量,计算出图像块相应的匹配文本{t1,t2,…,tN}的块级别文本表征后,通过训练文档图像特征提取模块和文档文本特征提取模块,最大化N个图像文本正样本对的余弦相似度,最小化N2-N个图像文本负样本对的余弦相似度,其中余弦相似度定义为:
Figure FDA0004066904590000051
最终可以将该模块的损失函数定义为:
Figure FDA0004066904590000052
7.根据权利要求1所述的基于对比学习的预训练文档模型对齐优化方法,其特征在于:所述具体下游任务微调损失函数记为
Figure FDA0004066904590000053
一共有三类下游任务,分别是文档命名实体识别任务,文档分类任务以及文档视觉问答任务,每种下游任务分别记为
Figure FDA0004066904590000054
最终可以将表示的四种特征对齐模块的总体损失值定义为:
Figure FDA0004066904590000055
其中,λ1234分别为
Figure FDA0004066904590000056
的预设权重参数,最终基于预训练文档图像模型的对齐优化方法损失函数定义如下:
Figure FDA0004066904590000057
其中,α和η为权衡因子。
8.基于预训练文档图像模型的对齐优化方法,采用如权利要求1所述的预训练文档图像模型的对齐优化模型实现,其特征在于,所述对齐优化方法包括如下步骤:
步骤1:数据预处理,得到预处理后的数据。
步骤2:对预处理后的数据使用文档图像特征提取模块获取图像特征,文档文本特征提取模块获取文本特征,对比学习的动量更新参数模块获取动量图像特征和动量文本特征。
步骤3:图像文本特征对齐损失函数计算,获取图像特征{vcls,v1,…,vN}、文本特征{wcls,w1,…,wL}以及动量图像特征
Figure FDA0004066904590000061
动量文本特征/>
Figure FDA0004066904590000062
此时队列中存储的动量图像编码器生成的全局表征为/>
Figure FDA0004066904590000063
相应的队列中动量文本编码器生成的全局表征为/>
Figure FDA0004066904590000064
分别计算以下模块的损失函数,跨模态全局级图像文本特征对齐模块,单模态全局级图像文本特征对齐模块,单模态全局-局部级MI最大化模块,局部级跨模态图像文本特征对齐模块;
步骤4:文档图像文本特征融合模块与模型的训练,步骤3的训练过程优化调整图像编码器参数和文本编码器参数,两个编码器所得到的对齐的表征align_image和align_text进入文档图像文本特征融合模块,在LayoutLMv3模型的embedding层对输入的视觉embedding和文本embedding进行融合,对具体下游任务,LayoutLMv3模型输出的表征计算相应的损失;
将前述所有损失函数加权求合,获得模型的整体损失函数:
Figure FDA0004066904590000065
其中,λ1234分别为
Figure FDA0004066904590000066
的预设权重参数,α和η为权衡因子。
步骤5:使用所述基于对比学习的预训练文档模型对齐优化方法在所述的四种数据集上均进行了如步骤2-4所述的训练,其中FUNSD数据集上进行测试集的测试,CORD,RVL-CDIP-1,DocVQA数据集上选取验证集上最佳性能的模型在测试集上进行测试。
CN202310078942.0A 2023-01-17 2023-01-17 基于对比学习的预训练文档模型对齐优化方法 Pending CN116311323A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310078942.0A CN116311323A (zh) 2023-01-17 2023-01-17 基于对比学习的预训练文档模型对齐优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310078942.0A CN116311323A (zh) 2023-01-17 2023-01-17 基于对比学习的预训练文档模型对齐优化方法

Publications (1)

Publication Number Publication Date
CN116311323A true CN116311323A (zh) 2023-06-23

Family

ID=86791421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310078942.0A Pending CN116311323A (zh) 2023-01-17 2023-01-17 基于对比学习的预训练文档模型对齐优化方法

Country Status (1)

Country Link
CN (1) CN116311323A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036652A (zh) * 2023-10-08 2023-11-10 腾讯科技(深圳)有限公司 布局信息生成方法、模型训练方法、装置及电子设备
CN117408330A (zh) * 2023-12-14 2024-01-16 合肥高维数据技术有限公司 面向非独立同分布数据的联邦知识蒸馏方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996502A (zh) * 2022-06-23 2022-09-02 天津理工大学 一种联合图文匹配和视觉推理的多任务学习模型、视觉常识推理方法及计算机设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996502A (zh) * 2022-06-23 2022-09-02 天津理工大学 一种联合图文匹配和视觉推理的多任务学习模型、视觉常识推理方法及计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LEIWANG等: "Alignment-Enriched Tuning for Patch-Level Pre-trained Document Image Models", HTTPS://ARXIV.ORG/PDF/2211.14777, 1 December 2022 (2022-12-01), pages 1 - 13 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036652A (zh) * 2023-10-08 2023-11-10 腾讯科技(深圳)有限公司 布局信息生成方法、模型训练方法、装置及电子设备
CN117036652B (zh) * 2023-10-08 2024-02-06 腾讯科技(深圳)有限公司 布局信息生成方法、模型训练方法、装置及电子设备
CN117408330A (zh) * 2023-12-14 2024-01-16 合肥高维数据技术有限公司 面向非独立同分布数据的联邦知识蒸馏方法及装置
CN117408330B (zh) * 2023-12-14 2024-03-15 合肥高维数据技术有限公司 面向非独立同分布数据的联邦知识蒸馏方法及装置

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
CN116311323A (zh) 基于对比学习的预训练文档模型对齐优化方法
CN113204952B (zh) 一种基于聚类预分析的多意图与语义槽联合识别方法
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN112800190B (zh) 基于Bert模型的意图识别与槽值填充联合预测方法
CN110347857B (zh) 基于强化学习的遥感影像的语义标注方法
CN112733866A (zh) 一种提高可控图像文本描述正确性的网络构建方法
CN114169442B (zh) 基于双原型网络的遥感图像小样本场景分类方法
CN110826609B (zh) 一种基于强化学习的双流特征融合图像识别方法
CN109933792A (zh) 基于多层双向lstm和验证模型的观点型问题阅读理解方法
CN115309927B (zh) 多标签引导和多视图度量的海洋遥感图像检索方法及系统
CN114398855A (zh) 基于融合预训练的文本抽取方法、系统及介质
CN110084240A (zh) 一种文字提取系统、方法、介质和计算设备
CN113032601A (zh) 一种基于判别性提升的零样本草图检索方法
CN111666376A (zh) 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置
WO2023071120A1 (zh) 数字资产中的绿色资产的占比的识别方法及相关产品
CN114972904A (zh) 一种基于对抗三元组损失的零样本知识蒸馏方法及系统
CN117217807B (zh) 一种基于多模态高维特征的不良资产估值方法
CN110704665A (zh) 一种基于视觉注意力机制的图像特征表达方法及系统
CN115640418B (zh) 基于残差语义一致性跨域多视角目标网站检索方法及装置
CN111161238A (zh) 图像质量评价方法及装置、电子设备、存储介质
CN114092931B (zh) 场景文字识别方法、装置、电子设备及存储介质
CN113723111B (zh) 一种小样本意图识别方法、装置、设备及存储介质
CN113792120B (zh) 图网络的构建方法及装置、阅读理解方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination