CN116756574A

CN116756574A - 多模态预训练模型的训练方法、使用方法、装置和设备

Info

Publication number: CN116756574A
Application number: CN202311032903.3A
Authority: CN
Inventors: 关永航; 项进喜; 罗凤; 张军
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-08-16
Filing date: 2023-08-16
Publication date: 2023-09-15
Anticipated expiration: 2043-08-16
Also published as: CN116756574B

Abstract

本申请提供了一种多模态预训练模型的训练方法、使用方法、装置和设备，属于人工智能技术领域。方法包括：获取样本图像的第一图块序列信息；将第一图块序列信息输入视觉分词器，得到第一语义特征，视觉分词器为知识蒸馏中的教师网络；对第一图块序列信息所指示的图块序列中的至少一个图块进行掩码，得到第二图块序列信息；将第二图块序列信息输入多模态预训练模型，得到第二语义特征，多模态预训练模型为知识蒸馏中的学生网络；基于第一语义特征和第二语义特征，确定第一损失值，第一损失值用于指示第一语义特征和第二语义特征之间的差距；基于第一损失值对视觉分词器和多模态预训练模型进行训练，提高了视觉分词器和多模态预训练模型的泛化能力。

Description

多模态预训练模型的训练方法、使用方法、装置和设备

技术领域

本申请涉及人工智能技术领域，特别涉及一种多模态预训练模型的训练方法、使用方法、装置和设备。

背景技术

多模态预训练模型可以对两种或两种以上模态的数据进行训练与学习，通过对多模态预训练模型进行训练，使得多模态预训练模型能够学习到不同模态之间的对应关系，进入使得多模态预训练模型可以用于跨模态的语义识别任务上。例如，多模态预训练模型可以学习到图像和文本的语义之间的对应关系，进而可以应用到图像和文本的跨模态的语义识别任务上。为了使得多模态预训练模型能够执行跨模态的语义识别任务，需要对多模态预训练模型进行训练。

相关技术中，在基于图像对多模态预训练模型进行训练时，一般是使用事先训练好的离线的视觉分词器对图像进行切分，得到富含语义信息的图块单元序列，即得到图像的语义特征。然后基于图块单元序列对多模态预训练模型进行掩码训练。

由于视觉分词器一般事先离线训练好，这样导致视觉分词器与多模态预训练模型的训练数据不同。而若视觉分词器与多模态预训练模型的训练数据属于不同域，会导致视觉分词器的泛化能力较差，进而降低多模态预训练模型的泛化能力。

发明内容

本申请实施例提供了一种多模态预训练模型的训练方法、使用方法、装置和设备，提高了视觉分词器和多模态预训练模型的泛化能力。所述技术方案如下。

一方面，提供了一种多模态预训练模型的训练方法，所述方法包括：

获取样本图像的第一图块序列信息，所述第一图块序列信息用于指示图块序列，所述图块序列包括样本图像中的多个图块；

将所述第一图块序列信息输入视觉分词器，得到第一语义特征，所述视觉分词器为知识蒸馏中的教师网络，所述视觉分词器用于提取图像的语义特征；

对所述第一图块序列信息所指示的图块序列中的至少一个图块进行掩码，得到第二图块序列信息；

将所述第二图块序列信息输入多模态预训练模型，得到第二语义特征，所述多模态预训练模型为知识蒸馏中的学生网络，所述多模态预训练模型用于预测语义特征；

基于所述第一语义特征和所述第二语义特征，确定第一损失值，所述第一损失值用于指示所述第一语义特征和所述第二语义特征之间的差距；

基于所述第一损失值，对所述视觉分词器和所述多模态预训练模型进行训练。

另一方面，提供了一种多模态预训练模型的使用方法，所述方法包括：

获取图像文本对，所述图像文本对包括语义匹配的第一图像和第一文本；

确定所述第一图像的图块序列和所述第一文本的词汇序列；

将所述第一图像的图块序列和所述第一文本的词汇序列输入多模态预训练模型，得到所述第一图像的语义特征和所述第一文本的语义特征，所述多模态预训练模型通过上述实现方式训练得到，所述第一图像的语义特征和所述第一文本的语义特征用于执行跨模态的语义识别任务。

另一方面，提供了一种多模态预训练模型的训练装置，所述装置包括：

获取模块，用于获取样本图像的第一图块序列信息，所述第一图块序列信息用于指示图块序列，所述图块序列包括样本图像中的多个图块；

输入输出模块，用于将所述第一图块序列信息输入视觉分词器，得到第一语义特征，所述视觉分词器为知识蒸馏中的教师网络，所述视觉分词器用于提取图像的语义特征；

掩码模块，用于对所述第一图块序列信息所指示的图块序列中的至少一个图块进行掩码，得到第二图块序列信息；

所述输入输出模块，还用于将所述第二图块序列信息输入多模态预训练模型，得到第二语义特征，所述多模态预训练模型为知识蒸馏中的学生网络，所述多模态预训练模型用于预测语义特征；

确定模块，用于基于所述第一语义特征和所述第二语义特征，确定第一损失值，所述第一损失值用于指示所述第一语义特征和所述第二语义特征之间的差距；

训练模块，用于基于所述第一损失值，对所述视觉分词器和所述多模态预训练模型进行训练。

在一些实施例中，所述第一图块序列信息包括图块序列和全局信息，所述获取模块，用于：

对所述样本图像进行数据增强，得到所述样本图像的增强图像；

对所述增强图像进行图块划分，得到所述增强图像的图块序列；

基于所述增强图像的图块序列，提取所述增强图像的全局信息，得到所述增强图像的全局信息。

在一些实施例中，所述第一语义特征包括图块序列对应的第一特征和全局信息对应的第二特征，所述第二语义特征包括图块序列对应的第三特征和全局信息对应的第四特征；所述确定模块，用于：

基于所述第一特征和所述第三特征，确定第一子损失值，所述第一子损失值用于指示所述第一特征和所述第三特征之间的差距；

基于所述第二特征和所述第四特征，确定第二子损失值，所述第二子损失值用于指示所述第二特征和所述第四特征之间的差距；

基于所述第一子损失值和所述第二子损失值，确定所述第一损失值。

在一些实施例中，所述确定模块，用于：

基于被掩码的所述至少一个图块在所述图块序列中的位置信息，确定所述第一特征中与所述位置信息匹配的第一子特征，以及确定所述第三特征中与所述位置信息匹配的第二子特征；

基于所述第一子特征和所述第二子特征，确定所述第一子损失值。

在一些实施例中，所述增强图像包括第一增强图像和第二增强图像，所述确定模块，用于：

基于第一增强特征和第二增强特征，确定第一增强损失值，所述第一增强特征为所述第一增强图像对应的第二特征，所述第二增强特征为所述第二增强图像对应的第四特征，所述第一增强损失值用于指示所述第一增强特征和所述第二增强特征之间的差距；

基于第三增强特征和第四增强特征，确定第二增强损失值，所述第三增强特征为所述第二增强图像对应的第二特征，所述第四增强特征为所述第一增强图像对应的第四特征，所述第二增强损失值用于指示所述第三增强特征和所述第四增强特征之间的差距；

基于所述第一增强损失值和所述第二增强损失值，确定所述第二子损失值。

在一些实施例中，所述训练模块，用于：

基于所述第一损失值，更新所述多模态预训练模型的模型参数，得到更新后的多模态预训练模型；

基于更新后的多模态预训练模型的模型参数，确定所述多模态预训练模型的指数移动平均；

基于所述指数移动平均，更新所述视觉分词器的模型参数，得到更新后的视觉分词器。

在一些实施例中，所述多模态预训练模型包括自注意力模块、视觉模块、文本模块和多模态模块，所述注意力模块用于提取图像、文本和图像文本对的注意力特征，所述视觉模块、文本模块和多模态模块分别用于对图像、文本和图像文本对的注意力特征进行特征转换，得到语义特征；所述训练模块，用于：

基于所述第一损失值，对所述多模态预训练模型中的自注意力模块和视觉模块进行训练。

在一些实施例中，所述装置还包括：

切分模块，用于通过文本分词器对样本文本进行切分，得到第三语义特征，所述第三语义特征包括所述样本文本中的多个词汇单元各自的语义特征；

所述掩码模块，还用于对所述第三语义特征所指示的词汇序列中的至少一个词汇单元进行掩码，得到第四语义特征；

所述输入输出模块，还用于将所述第四语义特征输入所述多模态预训练模型，得到第五语义特征；

所述确定模块，还用于基于被掩码的所述至少一个词汇单元在所述词汇序列中的位置信息，确定所述第五语义特征中与所述位置信息匹配的第三子特征；

所述确定模块，还用于基于所述第三子特征和第四子特征，确定第二损失值，所述第四子特征为所述第四语义特征包括的所述至少一个词汇单元的语义特征，所述第二损失值用于指示所述第三子特征和所述第四子特征之间的差距；

所述训练模块，还用于基于所述第二损失值，对所述多模态预训练模型中的文本模块进行训练。

在一些实施例中，所述获取模块，还用于获取样本图像文本对，所述样本图像文本对包括语义匹配的图像和文本；

所述确定模块，还用于通过训练得到的视觉分词器，得到第六语义特征，通过文本分词器，得到第七语义特征，所述第六语义特征为所述样本图像文本对中的图像的语义特征，所述第七语义特征为所述样本图像文本对中的文本的语义特征；

所述掩码模块，还用于对所述第六语义特征所指示的图块序列中的至少一个图块进行掩码，得到第八语义特征，对所述第七语义特征所指示的词汇序列中的至少一个词汇单元进行掩码，得到第九语义特征；

所述输入输出模块，还用于将所述第八语义特征和所述第九语义特征分别输入所述多模态预训练模型，得到所述样本图像文本对的融合语义特征；

所述确定模块，还用于基于所述融合语义特征、所述第六语义特征和所述第七语义特征，确定第三损失值，所述第三损失值用于指示所述融合语义特征中的图像语义特征和所述第六语义特征之间的差距以及指示所述融合语义特征中的文本语义特征和所述第七语义特征之间的差距；

所述训练模块，还用于基于所述第三损失值，对所述多模态预训练模型进行训练。

在一些实施例中，所述多模态预训练模型包括多层，所述多层中的第一层包括自注意力模块、文本模块和视觉模块，所述多层中的第二层包括自注意力模块、文本模块、视觉模块和多模态模块，所述第一层为所述多层中前目标数目的层，所述第二层为所述多层中第一层以外的层；所述输入输出模块，还用于：

将所述第八语义特征依次输入所述第一层中的自注意力模块和视觉模块，得到中间图像特征，将所述第九语义特征依次输入所述第一层中的自注意力模块和文本模块，得到中间文本特征；

将所述中间图像特征依次输入所述第二层中的自注意力模块和多模态模块，将所述中间文本特征依次输入所述第二层中的自注意力模块和多模态模块，通过所述多模态模块，对所述中间图像特征和所述中间文本特征进行融合，得到所述融合语义特征。

另一方面，提供了一种多模态预训练模型的使用装置，所述装置包括：

获取模块，用于获取图像文本对，所述图像文本对包括语义匹配的第一图像和第一文本；

确定模块，用于确定所述第一图像的图块序列和所述第一文本的词汇序列；

输入输出模块，用于将所述第一图像的图块序列和所述第一文本的词汇序列输入多模态预训练模型，得到所述第一图像的语义特征和所述第一文本的语义特征，所述多模态预训练模型通过上述装置训练得到，所述第一图像的语义特征和所述第一文本的语义特征用于执行跨模态的语义识别任务。

在一些实施例中，所述输入输出模块，用于：

将所述图块序列输入所述多模态预训练模型，通过所述多模态预训练模型中的自注意力模块和视觉模块，得到中间图像特征，将所述词汇序列输入所述多模态预训练模型，通过所述多模态预训练模型中的自注意力模块和文本模块，得到中间文本特征；

将所述中间图像特征和所述中间文本特征输入所述多模态预训练模型的自注意力模块和多模态模块，通过所述多模态模块，对所述中间图像特征和所述中间文本特征进行融合，得到所述图像文本对的融合语义特征，所述融合语义特征包括所述第一图像的语义特征和所述第一文本的语义特征；

其中，所述注意力模块用于提取图像、文本和图像文本对的注意力特征，所述视觉模块、文本模块和多模态模块分别用于对图像、文本和图像文本对的注意力特征进行特征转换，得到语义特征。

在一些实施例中，所述获取模块，还用于：

获取第二图像的图块序列，将所述第二图像的图块序列输入所述多模态预训练模型，通过所述多模态预训练模型中的自注意力模块和视觉模块，得到所述第二图像的语义特征，所述第二图像的语义特征用于执行图像语义识别任务；或者，

获取第二文本的词汇序列，将所述第二文本的词汇序列输入所述多模态预训练模型，通过所述多模态预训练模型中的自注意力模块和文本模块，得到所述第二文本的语义特征，所述第二文本的语义特征用于执行文本语义识别任务；

其中，所述注意力模块用于提取图像、文本和图像文本对的注意力特征，所述视觉模块、所述文本模块和所述多模态模块分别用于对图像、文本和图像文本对的注意力特征进行特征转换，得到语义特征。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器用于存储至少一段程序，所述至少一段程序由所述处理器加载并执行以实现本申请实施例中的多模态预训练模型的训练方法或多模态预训练模型的使用方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现本申请实施例中的多模态预训练模型的训练方法或多模态预训练模型的使用方法。

另一方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序代码，所述计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从所述计算机可读存储介质读取所述计算机程序代码，所述处理器执行所述计算机程序代码，使得所述计算机设备执行上述任一实现方式所述的多模态预训练模型的训练方法或多模态预训练模型的使用方法。

本申请实施例提供了一种多模态预训练模型的训练方法，该方法将知识蒸馏中的教师网络作为视觉分词器，将知识蒸馏中的学生网络作为多模态预训练模型；然后对图块序列信息所指示的图块序列中的部分图块进行掩码后，输入多模态预训练模型，将多模态预训练模型的输出以视觉分词器的输出为监督信号，来确定两个输出之间的损失值，进而对视觉分词器和多模态预训练模型进行训练；由于视觉分词器和多模态预训练模型的优化目标均为图像的语义特征，这样通过对视觉分词器和多模态预训练模型的联合优化，使得视觉分词器和多模态预训练模型能够更好地捕获图像的语义特征；且基于相同的图像数据对视觉分词器和多模态预训练模型进行联合优化，使得视觉分词器和多模态预训练模型的训练数据域相同，进而可以提高视觉分词器和多模态预训练模型的协作能力，从而提高视觉分词器和多模态预训练模型的泛化能力。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种多模态预训练模型的训练方法的流程图；

图3是本申请实施例提供的另一种多模态预训练模型的训练方法的流程图；

图4是本申请实施例提供的一种多模态预训练模型的结构示意图；

图5是本申请实施例提供的一种视觉分词器和多模态预训练模型的训练过程示意图；

图6是本申请实施例提供的一种视觉问答任务的执行示意图；

图7是本申请实施例提供的一种图像描述任务的执行示意图；

图8是本申请实施例提供的一种多模态预训练模型的使用方法的流程图；

图9是本申请实施例提供的一种多模态预训练模型的训练装置的框图；

图10是本申请实施例提供的一种多模态预训练模型的使用装置的框图；

图11是本申请实施例提供的一种服务器的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

本申请中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上。

需要说明的是，本申请所涉及的信息（包括但不限于用户设备信息、用户个人信息等）、数据（包括但不限于用于分析的数据、存储的数据、展示的数据等）以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的样本图像、样本文本和样本图像文本对都是在充分授权的情况下获取的。

以下，对本申请涉及的专业术语进行介绍：

人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理（Nature Language processing，NLP）是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言，即人们日常使用的语言，与语言学研究密切。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。人工智能领域模型训练的重要技术，预训练模型，即是从NLP领域的大语言模型（Large Language Model）发展而来。经过微调，大语言模型可以广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。预训练模型是深度学习的最新发展成果，融合了以上技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

以下，对本申请涉及的实施环境进行介绍：

本申请实施例提供的多模态预训练模型的训练方法，能够由计算机设备执行，该计算机设备提供为终端或服务器。参见图1，图1为本申请实施例提供的一种多模态预训练模型的训练方法的实施环境的示意图，该实施环境包括终端101和服务器102。终端101和服务器102能够通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在一些实施例中，终端101上安装有目标应用，该目标应用用于实现跨模态的语义识别任务，如在该目标应用内可以执行文本生成图像、图像生成文本、跨模态检索、视觉问答等任务。服务器102为该目标应用的后台服务器，用于训练好多模态预训练模型。终端101嵌入该多模态预训练模型，用于执行跨模态的语义识别任务。或者，终端101基于服务器102上的多模态预训练模型来执行跨模态的语义识别任务。

在一些实施例中，终端101可以为智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、车载终端、飞行器、VR（Virtual Reality，虚拟现实）装置、AR（Augmented Reality，增强现实）装置等，但并不限于此。在一些实施例中，服务器102是独立的服务器也能够是多个服务器构成的服务器集群或者分布式系统，还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network 内容分发网络）以及大数据和人工智能平台等基础云计算服务的云服务器。在一些实施例中，服务器102主要承担计算工作，终端101承担次要计算工作；或者，服务器102承担次要计算服务，终端101承担主要计算工作；或者，服务器102和终端101二者之间采用分布式计算架构进行协同计算。

参见图2，图2为本申请实施例提供的一种多模态预训练模型的训练方法的流程图，该方法包括以下步骤。

201、计算机设备获取样本图像的第一图块序列信息，第一图块序列信息用于指示图块序列，图块序列包括样本图像中的多个图块。

在本申请实施例中，多个图块（patch）基于对图像进行划分得到。多个图块的数目可以根据需要进行设定并更改。多个图块在图块序列中按照预设顺序排列，预设顺序可以根据需要进行设定并更改，在此不作具体限定。

202、计算机设备将第一图块序列信息输入视觉分词器，得到第一语义特征，视觉分词器为知识蒸馏中的教师网络，视觉分词器用于提取图像的语义特征。

在本申请实施例中，知识蒸馏（knowledge distillation）是一种学习范式，由教师网络（teacher network）和学生网络（student network）两部分组成。知识蒸馏训练学生网络去拟合教师网络的输出，来达到优化学生网络性能的目的。

在本申请实施例中，第一语义特征用于描述图像的语义。进一步地，第一语义特征用于指示第一图块序列信息所指示的图块序列中的多个图块的语义。进一步地，第一语义特征包括多个图块各自对应的语义子特征。可选地，语义子特征的表现形式为特征向量；相应地，第一语义特征的表现形式为矩阵。

203、计算机设备对第一图块序列信息所指示的图块序列中的至少一个图块进行掩码，得到第二图块序列信息。

在本申请实施例中，对图块进行掩码，即将图块序列中的该图块进行屏蔽。可选地，对图块进行掩码指用掩码（mask）替换图块。至少一个图块可以为图块序列中相邻的图块，也可以为不相邻的图块，在此不作具体限定。

204、计算机设备将第二图块序列信息输入多模态预训练模型，得到第二语义特征，多模态预训练模型为知识蒸馏中的学生网络，多模态预训练模型用于预测语义特征。

在本申请实施例中，多模态预训练模型为一种预训练模型，可以直接应用于下游任务；或者作为下游任务的初始模型，通过微调（fine-tuning）的方式，来获取更好的性能。多模态预训练模型能够同时处理多种模态的数据，相应地，多模态预训练模型能够用于执行跨模态的语义识别任务上，如视觉问答、图像描述、文本生成图像等任务。

在本申请实施例中，多模态预训练模型用于基于上下文信息预测被掩码图块的语义特征。即训练多模态预训练模型使其学习到图块序列的上下文信息。

在本申请实施例中，第二语义特征用于指示掩码后的图块序列中的多个图块的语义。进一步地，第二语义特征包括掩码后图块序列中的多个图块各自对应的语义子特征。可选地，语义子特征的表现形式为特征向量；相应地，第二语义特征的表现形式为矩阵。

205、计算机设备基于第一语义特征和第二语义特征，确定第一损失值，第一损失值用于指示第一语义特征和第二语义特征之间的差距。

在本申请实施例中，第一损失值即代表多模态预训练模型预测的语义特征与视觉分词器（visual tokenizer）提取的语义特征之间的差距。

206、计算机设备基于第一损失值，对视觉分词器和多模态预训练模型进行训练。

在本申请实施例中，样本图像为多个，计算机设备基于多个样本图像迭代执行上述步骤201-206，以对视觉分词器和多模态预训练模型进行迭代训练。

上述图2为多模态预训练模型的基本训练过程，下面基于图3的实施例对多模态预训练模型的训练过程进行进一步介绍。参见图3，图3是本申请实施例提供的一种多模态预训练模型的训练方法的流程图，该方法包括以下步骤。

301、计算机设备获取样本图像的第一图块序列信息，第一图块序列信息用于指示图块序列，图块序列包括样本图像中的多个图块。

在一些实施例中，第一图块序列信息包括图块序列和全局信息。相应地，上述计算机设备获取第一图块序列信息，包括以下步骤。计算机设备对样本图像进行数据增强，得到样本图像的增强图像；对增强图像进行图块划分，得到增强图像的图块序列；基于图块序列，提取增强图像的全局信息，得到增强图像的全局信息。

在本申请实施例中，数据增强指通过对已有数据添加微小改动或从已有数据新创建合成数据，以增加数据量的方法，提高模型泛化能力。数据增强的方法包括但不限于对图像的几何变换方法和像素变换方法。几何变换方法包括翻转、旋转、裁剪、缩放、平移、抖动等。像素变换方法包括加椒盐噪声、加高斯噪声、进行高斯模糊、调节亮度、调节饱和度、直方图均衡化、调整白平衡等。

在本申请实施例中，计算机设备可以对样本图像进行多次数据增强，以得到样本图像的多个增强图像，进而基于多个增强图像进行模型训练。在该实施例中，通过对样本图像进行数据增强，可增加样本数量；通过改变图像的形式来进行训练，可提高训练的有效性，进而提高视觉分词器和多模态预训练模型的泛化能力。

其中，计算机设备对样本图像进行多次数据增强，可以为并列的多次数据增强，也可以为递进的数据增强。例如，计算机设备对样本图像进行两次数据增强，可以为对样本图像分别进行翻转和裁剪，得到翻转对应的增强图像和裁剪对应的增强图像；也可以为对样本图像进行翻转后，再进行裁剪，得到翻转对应的增强图像和翻转、裁剪对应的增强图像，在此不作具体限制。

在本申请实施例中，全局信息集成了多个图块的信息，即具有全局性。可选地，全局信息基于对多个图块进行加权求和得到。第一图块序列信息包括的图块序列的表现形式为多个图块的特征向量组成的矩阵，包括的全局信息的表现形式为特征向量。相应地，第一图块序列信息的表现形式为矩阵。

302、计算机设备将第一图块序列信息输入视觉分词器，得到第一语义特征，视觉分词器为知识蒸馏中的教师网络，视觉分词器用于提取图像的语义特征。

在本申请实施例中，第一语义特征包括图块序列对应的第一特征和全局信息对应的第二特征。即第一特征为图块序列的语义特征，用于描述图块序列的语义。第二特征为全局信息的语义特征，用于描述全局信息的语义。在本申请实施例中，第一语义特征包括多个图块各自对应的语义子特征，语义子特征的表现形式为特征向量。

可选地，特征向量为概率分布向量，即特征向量的每个维度对应一个浮点型数据，多个维度对应的浮点型数据之和为1。由于图像的多个图块在其语义含义上具有模糊性，图块之间的语义具有连续性和冗余性，而采用独热（one-hot）编码将图像的多个图块映射为离散化的ID（Identity Document，身份标识），可能会限制图像中图块的语义表达能力。而本申请实施例使用概率分布向量来取代独热编码方式，且作为训练的监督信号，可以更好地对图像的图块进行语义提取。

303、计算机设备对第一图块序列信息所指示的图块序列中的至少一个图块进行掩码，得到第二图块序列信息。

在本申请实施例中，第二图块序列信息包括图块序列和全局信息。由于第二图块序列信息基于对图块进行掩码后得到，相应地，第二图块序列信息不仅包括掩码后的图块序列，还包括对至少一个图块掩码后的图块序列以及对至少一个图块掩码后的图块序列对应的全局信息。

在一些实施例中，计算机设备对图块序列中的图块进行随机掩码，得到被掩码的至少一个图块。

其中，第二图块序列信息包括的图块序列的表现形式为掩码后的多个图块的特征向量组成的矩阵，包括的全局信息的表现形式为特征向量。相应地，第二图块序列信息的表现形式为矩阵。相应地，对图块进行掩码指对图块的特征向量进行掩码。

304、计算机设备将第二图块序列信息输入多模态预训练模型，得到第二语义特征，多模态预训练模型为知识蒸馏中的学生网络，多模态预训练模型用于预测语义特征。

在本申请实施例中，第二语义特征包括图块序列对应的第三特征和全局信息对应的第四特征。即第三特征为图块序列的语义特征，用于描述图块序列的语义。第四特征为全局信息的语义特征，用于描述全局信息的语义。

在本申请实施例中，第二语义特征包括多个图块各自对应的语义子特征，语义子特征的表现形式为特征向量。可选地，特征向量为概率分布向量，即特征向量的每个维度对应一个浮点型数据，多个维度对应的浮点型数据之和为1。

305、计算机设备基于第一语义特征和第二语义特征，确定第一损失值，第一损失值用于指示第一语义特征和第二语义特征之间的差距。

在一些实施例中，上述计算机设备基于第一语义特征和第二语义特征，确定第一损失值的过程，包括以下步骤：计算机设备基于第一特征和第三特征，确定第一子损失值，第一子损失值用于指示第一特征和第三特征之间的差距；基于第二特征和第四特征，确定第二子损失值，第二子损失值用于指示第二特征和第四特征之间的差距；基于第一子损失值和第二子损失值，确定第一损失值。在该实施例中，基于全局信息的语义特征之间的差距确定一个损失值，且基于图块序列的语义特征之间的差距确定一个损失值，进而基于这两个损失值，确定一个综合的第一损失值；即该实施例不仅考虑了图块序列的语义特征造成的损失，还考虑了全局信息的语义特征造成的损失，这样确定的第一损失值更全面以及更准确，进而可提高基于第一损失值进行训练的训练效果。

其中，第一子损失值用于指示第一图块序列信息和第二图块序列信息中图块序列的语义特征之间的差距，第二子损失值用于指示第一图块序列信息和第二图块序列信息中的全局信息之间的差距。

在一些实施例中，上述计算机设备基于第一特征和第三特征，确定第一子损失值的过程，包括以下步骤：计算机设备基于被掩码的至少一个图块在图块序列中的位置信息，确定第一特征中与位置信息匹配的第一子特征，以及确定第三特征中与位置信息匹配的第二子特征；基于第一子特征和第二子特征，确定第一子损失值。

在本申请实施例中，多个图块在图块序列中按照预设顺序排列，多个图块的语义特征在第一特征中也按照该预设顺序排列，以及在第三特征中也按照该预设顺序排列。相应地，基于任一图块在图块序列中的位置信息，在第一特征中确定的与该位置信息匹配的第一子特征即为该图块的语义特征。同理，基于任一图块在图块序列中的位置信息，在第三特征中确定的与该位置信息匹配的第二子特征即为该图块的语义特征。

在一些实施例中，被掩码的图块为多个，则可选地，对于每个图块，基于该图块对应的第一子特征和第二子特征，确定一个损失值；然后将多个图块对应的损失值的均值作为第一子损失值。

在本申请实施例中，上述计算机设备基于第一子特征和第二子特征，确定第一子损失值的过程，包括以下步骤。计算机设备确定第一子特征和第二子特征之间的交叉熵损失值，将该交叉熵损失值作为第一子损失值。

在该实施例中，由于多模态预训练模型用于基于上下文信息预测被掩码图块的语义特征，而第一子特征和第二子特征分别代表被掩码图块在掩码前后的语义特征，进而基于这两个特征来确定损失值，使得该损失值能够有效代表多模态预训练模型预测的语义特征与掩码前的语义特征之间的差距，进入基于该损失值来训练多模态预训练模型，能够提高训练的准确性和有效性。

在一些实施例中，计算机设备对样本图像进行两次数据增强，得到两个增强图像，即增强图像包括第一增强图像和第二增强图像。相应地，上述计算机设备基于第二特征和第四特征，确定第二子损失值的过程，包括以下步骤。计算机设备基于第一增强特征和第二增强特征，确定第一增强损失值，第一增强特征为第一增强图像对应的第二特征，第二增强特征为第二增强图像对应的第四特征，第一增强损失值用于指示第一增强特征和第二增强特征之间的差距；基于第三增强特征和第四增强特征，确定第二增强损失值，第三增强特征为第二增强图像对应的第二特征，第四增强特征为第一增强图像对应的第四特征，第二增强损失值用于指示第三增强特征和第四增强特征之间的差距；基于第一增强损失值和第二增强损失值，确定第二子损失值。

其中，基于两个增强图像，分别得到两个语义特征，即得到第一增强图像对应的第一语义特征和第二语义特征，以及得到第二增强特征对应的第一语义特征和第二语义特征。且基于第一增强图像的第一语义特征中全局信息的语义特征和第二增强图像的第二语义特征中全局信息的语义特征来确定一个损失值，基于第二增强图像的第一语义特征中全局信息的语义特征和第一增强图像的第二语义特征中全局信息的语音特征来确定一个损失值，进而基于两个损失值来确定一个综合损失值。由于图像经过数据增强后，形式发生改变，但语义并没有发生改变，这样将两个增强图像对应的语义特征交叉来确定损失值，进而基于该损失值训练到的多模态预训练模型能够更好地提取图像的语义特征，可提高对模型训练的准确性和有效性。

可选地，计算机设备将第一增强特征和第二增强特征之间的交叉熵损失值作为第一增强损失值，将第三增强特征和第四增强特征之间的交叉熵损失值作为第二增强损失值。可选地，计算机设备将第一增强损失值和第二增强损失值的均值，作为第二子损失值。

例如，计算机设备通过下述公式（1）确定第二子损失值。

（1）；

其中，代表第二子损失值；代表第一增强图像；代表第二增强图像；代表第一增强特征；代表第二增强特征；代表第三增强特征，代表第四增强特征；代表交叉熵损失函数（Cross Entropy Loss）。

在本申请实施例中，上述计算机设备基于第一子损失值和第二子损失值，确定第一损失值的过程，包括以下两种实现方式。计算机设备将第一子损失值和第二子损失值的平均值，作为第一损失值。或者，计算机设备对第一子损失值和第二子损失值加权求和，得到第一损失值。

306、计算机设备基于第一损失值，更新多模态预训练模型中自注意力模块和视觉模块的模型参数，得到更新后的多模态预训练模型。

在本申请实施例中，多模态预训练模型包括自注意力模块、视觉模块、文本模块和多模态模块，注意力模块用于提取图像、文本和图像文本对的注意力特征，视觉模块、文本模块和多模态模块分别用于对图像、文本和图像文本对的注意力特征进行特征转换，得到语义特征。

其中，视觉模块、文本模块和多模态模块分别为前缀神经网络（Feed ForwardNetwork，FFN）。视觉模块、文本模块和多模态模块分别与自注意力模块连接，以共享自注意力模块。在该实施例中，不同模态的数据，首先通过一个共享的自注意力模块，通过自注意力模块提取注意力特征后，再根据其模态进入到对应的前缀神经网络中，这样通过参数共享策略，自注意力模块可以使得不同模态数据的特征之间深度融合，并且促进了不同模态数据在特征空间上的对齐。且为不同模态的数据分别建立特定的前缀神经网络，使得多模态预训练模型可以捕获更多模态特定的信息，提高了准确性。且通过多路自注意力模块可以高效地对单模态或多模态的数据进行编码，并应用于一系列的下游任务。其中，单独的图像的数据输入多模态预训练模型时，只会激活视觉模块，以基于视觉模块提取语义特征。单独的文本的数据输入多模态预训练模型时，只会激活文本模块，以基于文本模块提取语义特征。

例如，参见图4，图4是本申请实施例提供的一种多模态预训练模型的结构示意图。其中，自注意力模块分别与视觉模块、文本模块和多模态模块连接。多个模态的模块独立，且通过自注意力模块参数共享。可以对图像、文本和图像文本对进行处理。

在一些实施例中，自注意力模块、视觉模块、文本模块和多模态模块分别连接有一个残差连接层和归一化（layer normalization）层，进而降低多模态预训练模型的学习难度，提高训练效率。

在本申请实施例中，通过上述步骤306，实现了计算机设备基于第一损失值，对多模态预训练模型进行训练的过程。在该实施例中，由于第一损失值基于图像的语义特征得到，而图像的语义特征基于多模态预训练模型中的自注意力模块和视觉模块得到，进而基于第一损失值对自注意力模块和视觉模块训练，提高了训练的有效性和准确性。

需要说明的是，步骤306仅为基于第一损失值，对多模态预训练模型进行训练的一种可选地实现方式，计算机设备还可以通过其他可选地实现方式实现该过程。例如，计算机设备基于第一损失值，更新多模态预训练模型中的注意力模块、视觉模块、文本模块和多模态模块。

在本申请实施例中，计算机设备基于第一损失值，更新多模态预训练模型中的自注意力模块和视觉模块的模型参数的过程，包括以下步骤。计算机设备基于第一损失值，采用反向传播算法来更新模型参数。

307、计算机设备基于更新后的多模态预训练模型的模型参数，确定多模态预训练模型的指数移动平均，基于指数移动平均，更新视觉分词器的模型参数，得到更新后的视觉分词器。

在本申请实施例中，自蒸馏是一种特殊的知识蒸馏，是一种自监督学习的方式，被用于计算机视觉技术领域。自蒸馏中的教师网络为学生网络的指数移动平均（ExponentialMoving Average，EMA），即教师网络的模型参数根据学生网络的模型参数的指数移动平均得到。

例如，计算机设备通过下述公式（2）得到指数移动平均。

EMA_t=α×x_t+（1-α）×EMA_t-1 （2）；

其中，t代表时间步，x_t代表第t个时间点的原始数据；α代表平滑因子，通常取值在0到1之间，表示当前样本的权重；（1-α）代表历史数据的权重；EMA_t代表第t个时间点的指数移动平均，EMA_t-1代表上一个时间点的指数移动平均。即计算机设备将当前数据点的权重α乘以当前数据点x_t，再用历史数据的权重（1-α）乘以上一个时间点的指数移动平均，然后将两者相加，就得到了当前时间点的指数移动平均。其中，每个时间点的数据指该时间点对应的迭代过程所使用的样本图像的图块序列。

其中，指数移动平均的本质是对历史数据进行加权平均，每个时间点数据的权重随着它距离当前时间点的远近而不断减小，进而可以有效地平滑时间序列数据，使其更加连续和稳定。

在本申请实施例中，基于指数移动平均，更新视觉分词器的模型参数，得到更新后的视觉分词器，即将当前时间点的指数移动平均，作为视觉分词器在当前时间点的模型参数，也即将视觉分词器的模型参数，更新为该指数移动平均，即得到更新后的视觉分词器。

在本申请实施例中，通过自蒸馏方法构建了在线的视觉分词器，并同时进行了多模态预训练模型的训练学习。例如，参见图5，图5是本申请实施例提供的一种视觉分词器和多模态预训练模型的训练过程示意图。其中，将图像x进行两次数据增强，得到增强图像u和增强图像v，即得到随机视图u和v。然后得到两个增强图像的图块序列，将完整的图块序列和全局信息输入教师网络，即输入视觉分词器。然后对图块序列进行掩码，将掩码后的图块序列和全局信息输入学生网络，即输入多模态预训练模型；基于教师网络和学生网络的输出，对教师网络和学生网络进行自蒸馏，以及进行掩码图像建模。将训练好的教师网络作为视觉分词器，将训练好的学生网络作为多模态预训练模型。

需要说明的是，样本图像为多个，计算机设备基于多个样本图像迭代执行步骤301-307，直到达到预设要求。该预设要求可以为第一损失值达到预设损失值，或者第一损失值达到收敛，或者迭代次数达到预设次数，在此不作具体限定。

在本申请实施例中，将多模态预训练模型与视觉分词器联合训练，使得视觉分词器能够更好地捕获图像的语义特征。而由于多模态预训练模型基于视觉分词器的输出得到损失值，以调整预训练模型的模型参数，且由于视觉分词器的输出准确，使得得到的损失值也准确，进而基于准确的损失值训练的多模态预训练模型准确，提高了训练效果。

308、计算机设备基于样本文本，更新多模态预训练模型中文本模块的模型参数。

在一些实施例中，上述计算机设备基于样本文本，更新多模态预训练模型中文本模块的模型参数的过程，包括以下步骤。计算机设备通过文本分词器对样本文本进行切分，得到第三语义特征，第三语义特征包括样本文本中多个词汇单元（tokens）各自的语义特征；对第三语义特征所指示的词汇序列中的至少一个词汇单元进行掩码，得到第四语义特征；将第四语义特征输入多模态预训练模型，得到第五语义特征；基于被掩码的至少一个词汇单元在词汇序列中的位置信息，确定第五语义特征中与位置信息匹配的第三子特征；基于第三子特征和第四子特征，确定第二损失值，第四子特征为第四语义特征包括的至少一个词汇单元的语义特征，第二损失值用于指示第三子特征和第四子特征之间的差距；基于第二损失值，对多模态预训练模型中的文本模块进行训练。

其中，文本分词器用于提取文本的语义特征。第三语义特征用于指示文本对应的词汇序列中的多个词汇单元各自的语义。进一步地，第三语义特征包括多个词汇单元各自对应的语义子特征。语义子特征的表现形式为特征向量；相应地，第三语义特征的表现形式为矩阵。第四语义特征用于指示掩码后的词汇序列中的多个词汇单元的语义。进一步地，第四语义特征包括掩码后的词汇序列中多个词汇单元各自对应的语义子特征。语义子特征的表现形式为特征向量；相应地，第四语义特征的表现形式为矩阵。可选地，任一语义特征中的特征向量为概率分布向量，即特征向量的每个维度对应一个浮点型数据，多个维度对应的浮点型数据之和为1。

在本申请实施例中，对词汇单元进行掩码指用掩码（mask）替换词汇单元。其中，对任一词汇单元进行掩码指对第三语义特征中该词汇单元对应的语义子特征进行掩码。

在一些实施例中，计算机设备对词汇序列中的词汇单元进行随机掩码，得到被掩码的至少一个词汇单元。

在该实施例中，由于第二损失值基于文本的语义特征得到，而文本的语义特征基于多模态预训练模型中的文本模块得到，进而基于第二损失值对文本模块进行训练，提高了训练的有效性和准确性。且文本进行掩码后对多模态预训练模型进行训练，使得多模态预训练模型能够学习到文本中的上下文信息，进而能够对文本进行语义预测。

可选地，计算机设备将第三子特征和第四子特征之间的交叉熵损失值作为第二损失值。相应地，计算机设备基于第二损失值，采用反向传播算法来更新文本模块的模型参数。

需要说明的是，该实施例仅为训练文本模块的一种可选地实现方式，还可以通过其他可选地实现方式来实现该过程，在此不再赘述。

需要说明的是，样本文本为多个，计算机设备基于多个样本文本迭代执行上述步骤308，直到达到预设要求。该预设要求可以为第二损失值达到预设损失值，或者第二损失值达到收敛，或者迭代次数达到预设次数，在此不作具体限定。

309、计算机设备基于样本图像文本对，更新多模态预训练模型的模型参数。

在一些实施例中，上述基于样本图像文本对，更新多模态预训练模型的模型参数的过程，包括以下步骤。计算机设备获取样本图像文本对，样本图像文本对包括语义匹配的图像和文本；通过训练得到的视觉分词器，得到第六语义特征，通过文本分词器，得到第七语义特征，第六语义特征为样本图像文本对中的图像的语义特征，第七语义特征为样本图像文本对中的文本的语义特征；对第六语义特征所指示的图块序列中的至少一个图块进行掩码，得到第八语义特征，对第七语义特征所指示的词汇序列中的至少一个词汇单元进行掩码，得到第九语义特征；将第八语义特征和第九语义特征分别输入多模态预训练模型，得到样本图像文本对的融合语义特征；基于融合语义特征、第六语义特征和第七语义特征，确定第三损失值，第三损失值用于指示融合语义特征中的图像语义特征和第六语义特征之间的差距以及指示融合语义特征中的文本语义特征和第七语义特征之间的差距；基于第三损失值，对多模态预训练模型进行训练。

在本申请实施例中，语义匹配指对于图像或文本任一模态中的实例，在另一模态中存在语义相关的实例。语义匹配的图像和文本可以为全局语义匹配，也可以为部分语义匹配。如对于一张包括猫的图像，则与其语义匹配的文本可以为“图像中包括的动物为猫”、“图像中包括的动物是什么”等。

在该实施例中，由于第三损失值基于样本图像文本对中图像和文本的语义特征得到，而图像和文本的语义特征不仅基于多模态预训练模型中的自注意力模块和多模态模块得到，还基于视觉模块和文本模块得到，进而基于第三损失值，对多模态预训练模型中的全部模块进行训练，提高了训练的有效性和准确性。且对图像和文本分别掩码后对多模态预训练模型进行训练，使得多模态预训练模型能够学习到图像和文本中的上下文信息，且还能够进行图像和文本的联合语义预测，进而使得多模态预训练模型能够用于跨模态的语义识别任务中，提高了训练的有效性和准确性。

需要说明的是，该实施例仅为基于样本图像文本对，训练多模态预训练模型的一种可选地实现方式，还可以通过其他可选地实现方式来实现该过程，在此不再赘述。

在一些实施例中，上述计算机设备基于融合语义特征、第六语义特征和第七语义特征，确定第三损失值的过程，包括以下步骤。计算机设备确定融合语义特征中的图像语义特征和第六语义特征之间的交叉熵损失值，以及确定融合语义特征中的图像语义特征和第七语义特征之间的交叉熵损失值，将两个交叉熵损失值的均值作为第三损失值；或者对两个交叉熵损失值加权求和，得到第三损失值。相应地，计算机设备基于第三损失值，采用反向传播算法来更新多模态预训练模型的模型参数。

在一些实施例中，多模态预训练模型包括多层，多层中的第一层包括自注意力模块、文本模块和视觉模块，多层中的第二层包括自注意力模块、文本模块、视觉模块和多模态模块，第一层为多层中前目标数目的层，第二层为多层中第一层以外的层。

相应地，上述计算机设备将第八语义特征和第九语义特征分别输入多模态预训练模型，得到样本图像文本对的融合语义特征的过程，包括以下步骤。计算机设备将第八语义特征依次输入第一层中的自注意力模块和视觉模块，得到中间图像特征，将第九语义特征依次输入第一层中的自注意力模块和文本模块，得到中间文本特征；将中间图像特征依次输入第二层中的自注意力模块和多模态模块，将中间文本特征依次输入第二层中的自注意力模块和多模态模块，通过多模态模块，对中间图像特征和中间文本特征进行融合，得到融合语义特征。

在本申请实施例中，将第八语义特征依次输入第一层中的自注意力模块和视觉模块指对于任一个第一层，将上一个第一层的输出作为下一个第一层的输入，使得第八语义特征依次通过多个第一层的自注意力模块和视觉模块进行特征提取，进而得到中间图像特征；第九语义特征依次输入第一层中的自注意力模块和文本模块的过程于此同理，在此不再赘述。

在本申请实施例中，对中间图像特征和中间文本特征进行融合，指对中间图像特征和中间文本特征进行拼接；进一步地，还基于多模态模块分别对中间图像特征和中间文本特征进行特征的进一步提取，然后再进行拼接，来得到融合语义特征。由于图像文本对中的图像和文本语义匹配，使得多模态模块以中间图像特征为参考，能够提取到更准确和更全面的文本特征，以及以中间文本特征为参考，能够提取到更准确和更全面的图像特征，提高融合语义特征的准确性。

在该实施例中，先通过第一层中的视觉模块和语义模块，分别对图像和文本进行特征提取，这样可以提取到图像和文本的有效语义特征；然后在此基础上将中间图像特征和中间文本特征输入第二层中的多模态模块进行特征融合，可提高特征融合的有效性和准确性，进而提高融合语义特征的准确性。

在本申请实施例中，多模态预训练模型由多层级联而成。第一层对应的目标层数可以根据需要进行设定并更改。第二层的层数可以根据目标层数的更改而更改。可选地，第二层的层数为3。则在前N-3层，第八语义特征和第九语义特征分别经过视觉模块和文本模块，在最后3层，二者经过共同的多模态模块，用于进行模态融合。

在本申请实施例中，若多模态预训练模型仅输入文本的数据，如第四语义特征；则文本的数据依次经过第一层和第二层中的自注意力模块和文本模块，得到文本的语义特征。若多模态预训练模型仅输入图像的数据，如第二图块序列信息，则图像的数据依次经过第一层和第二层中的自注意力模块和视觉模块，得到图像的语义特征。

需要说明的是，样本图像文本对为多组，计算机设备基于多组样本图像文本对迭代执行上述步骤309，直到达到预设要求。该预设要求可以为第三损失值达到预设损失值，或者第三损失值达到收敛，或者迭代次数达到预设次数，在此不作具体限定。

本申请实施例中，对多模态预训练模型采用分阶段的训练方式。其中，步骤301-307对应图像训练阶段，步骤308对应文本训练阶段，步骤309对应图像文本对训练阶段。在图像训练阶段，通过自蒸馏的策略，构建了在线视觉分词器，对视觉分词器和多模态预训练模型中的自注意力模块和视觉模块实现了联合优化。在文本训练阶段，固定自注意力模块和视觉模块的模型参数，对文本模块进行训练。在图像文本对训练阶段，固定视觉分词器的模型参数，对多模态预训练模型中的全部模块进行训练。在图像训练阶段和文本训练阶段，分别只使用了单独的图像数据和单独的文本数据，使得多模态预训练模型具有了一定的训练基础，进而再使用图像文本对的数据进行训练，相对于仅使用图像文本对的数据进行训练，可降低图像文本对的数量，即降低了数据收集难度，实现了数据的高效利用。且还使得多模态预训练模型见过种类更多的图像和文本，并不局限于图像文本对中的图像和文本。且本申请实施例通过有效地利用单模态和多模态的数据，通过单模态+多模态的分阶段训练策略有助于提高下游任务的泛化性能，进而可以提高多模态预训练模型的泛化性能。

本申请实施例训练得到的多模态预训练模型可以作为基础模型应用于各种跨模态的下游语义识别任务中。如应用于文本生成图像、图像生成文本、跨模态检索、视觉问答等任务中，具有广泛的应用前景，可作为基础模型应用于各种跨模态任务中，多模态预训练是AIGC（Artificial Intelligence Generated Content，人工智能生成内容）和元宇宙的关键技术之一，可以作为核心算法被用于原画设计，电商广告推荐，图库搜索等场景中。

例如，参见图6，图6是本申请实施例提供的一种视觉问答任务的执行示意图。其中，对多模态预训练模型输入图像和文本问题后，可以得到文本回答。再如，参见图7，图7是本申请实施例提供的一种图像描述任务的执行示意图。其中，对多模态预训练模型输入图像后，可以输出文本描述。进一步地，对多模态预训练模型进行微调后，使多模态预训练模型执行上述视觉问答任务和图像描述任务。

需要说明的是，本申请实施例提供的对视觉分词器和多模态预训练模型的训练方法，可以用于除了图像文本对的多模态以外的其他多模态领域的训练中。如用于文本-语音对、文本-图像-语音对等多模态领域。

本申请实施例提供的训练监督方式不限于MIM（Masked Image Modeling，掩码图像建模）和MLM（Masked Language Modeling，掩码语言建模），本申请实施例提供的训练监督方式还可以为基于负感知注意力的图文匹配（image-text matching）、图像文本对比学习（image text contrastive learning）等监督方式。本申请实施例中的文本可以为多种语言的文本，文本分词器可以对多种语言的文本进行处理，进而可以将多模态预训练模型拓展为多语言的多模态预训练模型。

本申请实施例构建了一个在线分词器（online tokenizer），能够通过自蒸馏的方式构建视觉分词器，并应用于MIM训练。通过自蒸馏构建的在线分词器可以更好地捕获图像数据的视觉语义信息，同时避免了离线分词器带来的问题，具有更好的泛化性。除了视觉分词器外，多模态预训练模型还实现了模态对齐和模态融合。为了让多模态预训练模型更有效地应用于跨模态的语义识别任务，模型需要能够将文本和图像的特征空间对齐，并允许多模态数据在模型中进行深度交互。本专利基于混合专家模型（Mixture of Experts，MoE），采用多路自注意力策略，实现了模态数据的深度交互和独立编码。其中，自注意力模块通过参数共享，使得图像和文本的数据能够进行深度交互，并且实现了不同模态在特征空间上的对齐。而前馈神经网络则可以对不同模态的数据进行独立编码，进而捕获更多模态特定的信息。此外，本申请实施例采用了分阶段训练策略，实现了高效利用数据、降低数据收集难度以及提高了模型泛化性能。本申请实施例提供的方法有助于在有限的计算资源和数据条件下，实现多模态预训练模型的优化和应用。

本申请实施例提供的训练方法为一种多模态预训练技术，用于训练一个一个的模型，使其能够理解和处理来自不同模态的数据（如图像文本对）。多模态预训练技术打破了不同模态数据之间的隔阂，能够同时学习到图像和文本数据更加全面的表征。通过多模态预训练技术，模型可以更好地捕捉数据之间的内在联系，提高模型在各种任务上的性能，促进了AIGC、元宇宙等领域的发展。

本申请实施例通过自蒸馏学习的方式构建了在线分词器，替代了离线训练的视觉分词器，能够对视觉分词器和多模态预训练模型进行联合优化。该方式可以更好地捕获图像数据的视觉语义信息，同时避免了离线分词器带来的问题，提升了视觉语义的表达能力，不存在数据跨域的问题，具有更好的泛化性。并且，本申请实施例采用多路自注意力模型来编码图像文本模态的信息，实现了多模态特征的深度融合与对齐，并可以灵活地应用于各种类型的下游任务。并且，在线视觉分词器可以使用概率分布来取代独热编码方式，使其作为MIM的监督信号，可以更好地对图像的图块序列进行语义建模。进而提高了本申请实施例训练得到的多模态预训练模型的准确性。

参见图8，图8是本申请实施例提供的一种多模态预训练模型的使用方法的流程图，该过程中使用的多模态预训练模型为上述通过图2或图3的实施例训练得到的多模态预训练模型。该方法包括以下步骤。

801、计算机设备获取图像文本对，图像文本对包括语义匹配的第一图像和第一文本。

在本申请实施例中，图像文本对为跨模态的语义识别任务中所使用的图像文本对。

802、计算机设备确定第一图像的图块序列和第一文本的词汇序列。

在一些实施例中，第一图像的图块序列基于对第一图像进行划分得到，如将第一图像划分为64个图块，则得到包括64个图块的图块序列。

在一些实施例中，第一文本的文本序列基于对文本进行划分得到，如将文本划分为5个词汇单元，得到包括5个词汇单元的词汇序列。

在另一些实施例中，第一文本的文本序列基于文本分词器得到，即通过文本分词器对第一文本进行划分，得到第一文本的词汇序列，则该词汇序列指示文本中多个词汇单元的语义，该词汇序列包括多个词汇单元各自的语义特征。

803、计算机设备将第一图像的图块序列和第一文本的词汇序列输入多模态预训练模型，得到第一图像的语义特征和第一文本的语义特征，第一图像的语义特征和第一文本的语义特征用于执行跨模态的语义识别任务。

可选地，计算机设备在将图块序列输入多模态预训练模型之前，对图块序列进行特征提取，得到图块序列的图块序列特征，可选地，该图块序列特征包括各个图块各自的图块子特征，图块子特征的表现形式为特征向量，图块序列特征的表现形式为矩阵。

需要说明的是，计算机设备在将图块序列输入多模态预训练模型之前，若词汇序列为包括多个词汇单元的序列，则对词汇序列进行特征提取，得到词汇序列的词汇序列特征，词汇序列特征包括文本中的多个词汇单元各自的文本子特征，文本子特征的表现形式为特征向量，文本序列特征的表现形式为矩阵。如词汇序列基于文本分词器得到，则直接输入多模态预训练模型。

在本申请实施例中，通过多模态预训练模型提取图像文本对的语义特征，由于多模态预训练模型基于与视觉分词器联合训练得到，而视觉分词器提取的语义特征更准确，进而基于视觉分词器提取的语义特征对多模态预训练模型进行训练，使得多模态预训练模型能够更好地捕获图像的语义特征，进而基于多模态预训练模型得到的语义特征更加准确，即提高了基于多模态预训练模型得到的语义特征的准确性。

在一些实施例中，多模态预训练模型包括自注意力模块、视觉模块、文本模块和多模态模块，注意力模块用于提取图像、文本和图像文本对的注意力特征，视觉模块、文本模块和多模态模块分别用于对图像、文本和图像文本对的注意力特征进行特征转换，得到语义特征。

相应地，上述计算机设备将第一图像的图块序列和第一文本的词汇序列输入多模态预训练模型，得到第一图像的语义特征和第一文本的语义特征的过程，包括以下步骤。计算机设备将图块序列输入多模态预训练模型，通过多模态预训练模型中的自注意力模块和视觉模块，得到中间图像特征，将词汇序列输入多模态预训练模型，通过多模态预训练模型中的自注意力模块和文本模块，得到中间文本特征；将中间图像特征和中间文本特征输入多模态预训练模型的自注意力模块和多模态模块，通过多模态模块，对中间图像特征和中间文本特征进行融合，得到图像文本对的融合语义特征，融合语义特征包括第一图像的语义特征和第一文本的语义特征。

可选地，多模态预训练模型包括多层，多层中的第一层包括自注意力模块、文本模块和视觉模块，多层中的第二层包括自注意力模块、文本模块、视觉模块和多模态模块，第一层为多层中前目标数目的层，第二层为多层中第一层以外的层。

相应地，计算机设备将第一图像的图块序列依次输入第一层中的自注意力模块和视觉模块，得到中间图像特征，将第一文本的词汇序列依次输入第一层中的自注意力模块和文本模块，得到中间文本特征。将中间图像特征依次输入第二层中的自注意力模块和多模态模块，将中间文本特征依次输入第二层中的自注意力模块和多模态模块，通过多模态模块，对中间图像特征和中间文本特征进行融合，得到融合语义特征。

在另一些实施例中，多模态预训练模型还能够单独识别图像的语义特征或文本的语义特征。相应地，还包括以下两种实现方式。

在一种实现方式中，计算机设备获取第二图像的图块序列，将第二图像的图块序列输入多模态预训练模型，通过多模态预训练模型中的自注意力模块和视觉模块，得到第二图像的语义特征，第二图像的语义特征用于执行图像语义识别任务。进一步地，图块序列依次输入第一层和第二层中的自注意力模块和视觉模块，得到第一图像的语义特征。

在另一种实现方式中，计算机设备获取第二文本的词汇序列，将第二文本的词汇序列输入多模态预训练模型，通过多模态预训练模型中的自注意力模块和文本模块，得到第二文本的语义特征，第二文本的语义特征用于执行文本语义识别任务。进一步地，词汇序列依次输入第一层和第二层中的自注意力模块和文本模块，得到第一文本的语义特征。

在本申请实施例中，通过多模态预训练模型，不仅能够基于语义匹配的图像和文本提取到图像和文本更加全面的表征，且还能够单独提取图像和文本的语义特征，提高了多模态预训练模型的泛化能力。

参见图9，图9是根据本申请实施例提供的一种多模态预训练模型的训练装置的框图。该装置用于执行上述多模态预训练模型的训练方法时的步骤，装置包括：

获取模块901，用于获取样本图像的第一图块序列信息，第一图块序列信息用于指示图块序列，图块序列包括样本图像中的多个图块；

输入输出模块902，用于将第一图块序列信息输入视觉分词器，得到第一语义特征，视觉分词器为知识蒸馏中的教师网络，视觉分词器用于提取图像的语义特征；

掩码模块903，用于对第一图块序列信息所指示的图块序列中的至少一个图块进行掩码，得到第二图块序列信息；

输入输出模块902，还用于将第二图块序列信息输入多模态预训练模型，得到第二语义特征，多模态预训练模型为知识蒸馏中的学生网络，多模态预训练模型用于预测语义特征；

确定模块904，用于基于第一语义特征和第二语义特征，确定第一损失值，第一损失值用于指示第一语义特征和第二语义特征之间的差距；

训练模块905，用于基于第一损失值，对视觉分词器和多模态预训练模型进行训练。

在一些实施例中，第一图块序列信息包括图块序列和全局信息，获取模块901，用于：

对样本图像进行数据增强，得到样本图像的增强图像；

对增强图像进行图块划分，得到增强图像的图块序列；

基于增强图像的图块序列，提取增强图像的全局信息，得到增强图像的全局信息。

在一些实施例中，第一语义特征包括图块序列对应的第一特征和全局信息对应的第二特征，第二语义特征包括图块序列对应的第三特征和全局信息对应的第四特征；确定模块904，用于：

基于第一特征和第三特征，确定第一子损失值，第一子损失值用于指示第一特征和第三特征之间的差距；

基于第二特征和第四特征，确定第二子损失值，第二子损失值用于指示第二特征和第四特征之间的差距；

基于第一子损失值和第二子损失值，确定第一损失值。

在一些实施例中，确定模块904，用于：

基于被掩码的至少一个图块在图块序列中的位置信息，确定第一特征中与位置信息匹配的第一子特征，以及确定第三特征中与位置信息匹配的第二子特征；

基于第一子特征和第二子特征，确定第一子损失值。

在一些实施例中，增强图像包括第一增强图像和第二增强图像，确定模块904，用于：

基于第一增强特征和第二增强特征，确定第一增强损失值，第一增强特征为第一增强图像对应的第二特征，第二增强特征为第二增强图像对应的第四特征，第一增强损失值用于指示第一增强特征和第二增强特征之间的差距；

基于第三增强特征和第四增强特征，确定第二增强损失值，第三增强特征为第二增强图像对应的第二特征，第四增强特征为第一增强图像对应的第四特征，第二增强损失值用于指示第三增强特征和第四增强特征之间的差距；

基于第一增强损失值和第二增强损失值，确定第二子损失值。

在一些实施例中，训练模块905，用于：

基于第一损失值，更新多模态预训练模型的模型参数，得到更新后的多模态预训练模型；

基于更新后的多模态预训练模型的模型参数，确定多模态预训练模型的指数移动平均；

基于指数移动平均，更新视觉分词器的模型参数，得到更新后的视觉分词器。

在一些实施例中，多模态预训练模型包括自注意力模块、视觉模块、文本模块和多模态模块，注意力模块用于提取图像、文本和图像文本对的注意力特征，视觉模块、文本模块和多模态模块分别用于对图像、文本和图像文本对的注意力特征进行特征转换，得到语义特征；训练模块905，用于：

基于第一损失值，对多模态预训练模型中的自注意力模块和视觉模块进行训练。

在一些实施例中，装置还包括：

切分模块，用于通过文本分词器对样本文本进行切分，得到第三语义特征，第三语义特征包括样本文本中的多个词汇单元各自的语义特征；

掩码模块903，还用于对第三语义特征所指示的词汇序列中的至少一个词汇单元进行掩码，得到第四语义特征；

输入输出模块902，还用于将第四语义特征输入多模态预训练模型，得到第五语义特征；

确定模块904，还用于基于被掩码的至少一个词汇单元在词汇序列中的位置信息，确定第五语义特征中与位置信息匹配的第三子特征；

确定模块904，还用于基于第三子特征和第四子特征，确定第二损失值，第四子特征为第四语义特征包括的至少一个词汇单元的语义特征，第二损失值用于指示第三子特征和第四子特征之间的差距；

训练模块905，还用于基于第二损失值，对多模态预训练模型中的文本模块进行训练。

在一些实施例中，获取模块901，还用于获取样本图像文本对，样本图像文本对包括语义匹配的图像和文本；

确定模块904，还用于通过训练得到的视觉分词器，得到第六语义特征，通过文本分词器，得到第七语义特征，第六语义特征为样本图像文本对中的图像的语义特征，第七语义特征为样本图像文本对中的文本的语义特征；

掩码模块903，还用于对第六语义特征所指示的图块序列中的至少一个图块进行掩码，得到第八语义特征，对第七语义特征所指示的词汇序列中的至少一个词汇单元进行掩码，得到第九语义特征；

输入输出模块902，还用于将第八语义特征和第九语义特征分别输入多模态预训练模型，得到样本图像文本对的融合语义特征；

确定模块904，还用于基于融合语义特征、第六语义特征和第七语义特征，确定第三损失值，第三损失值用于指示融合语义特征中的图像语义特征和第六语义特征之间的差距以及指示融合语义特征中的文本语义特征和第七语义特征之间的差距；

训练模块905，还用于基于第三损失值，对多模态预训练模型进行训练。

在一些实施例中，多模态预训练模型包括多层，多层中的第一层包括自注意力模块、文本模块和视觉模块，多层中的第二层包括自注意力模块、文本模块、视觉模块和多模态模块，第一层为多层中前目标数目的层，第二层为多层中第一层以外的层；

输入输出模块902，还用于：

将第八语义特征依次输入第一层中的自注意力模块和视觉模块，得到中间图像特征，将第九语义特征依次输入第一层中的自注意力模块和文本模块，得到中间文本特征；

将中间图像特征依次输入第二层中的自注意力模块和多模态模块，将中间文本特征依次输入第二层中的自注意力模块和多模态模块，通过多模态模块，对中间图像特征和中间文本特征进行融合，得到融合语义特征。

本申请实施例提供了一种多模态预训练模型的训练装置，该装置将知识蒸馏中的教师网络作为视觉分词器，将知识蒸馏中的学生网络作为多模态预训练模型；然后对图块序列信息所指示的图块序列中的部分图块进行掩码后，输入多模态预训练模型，将多模态预训练模型的输出以视觉分词器的输出为监督信号，来确定两个输出之间的损失值，进而对视觉分词器和多模态预训练模型进行训练；由于视觉分词器和多模态预训练模型的优化目标均为图像的语义特征，这样通过对视觉分词器和多模态预训练模型的联合优化，使得视觉分词器和多模态预训练模型能够更好地捕获图像的语义特征；且基于相同的图像数据对视觉分词器和多模态预训练模型进行联合优化，使得视觉分词器和多模态预训练模型的训练数据域相同，进而可以提高视觉分词器和多模态预训练模型的协作能力，从而提高视觉分词器和多模态预训练模型的泛化能力。

参见图10，图10是本申请实施例提供的一种多模态预训练模型的使用装置的框图。该装置用于执行上述多模态预训练模型的使用方法时的步骤，装置包括：

获取模块1001，用于获取图像文本对，图像文本对包括语义匹配的第一图像和第一文本；

确定模块1002，用于确定第一图像的图块序列和第一文本的词汇序列；

输入输出模块1003，用于将第一图像的图块序列和第一文本的词汇序列输入多模态预训练模型，得到第一图像的语义特征和第一文本的语义特征，多模态预训练模型通过上述任一实现方式训练得到，第一图像的语义特征和第一文本的语义特征用于执行跨模态的语义识别任务。

在一些实施例中，输入输出模块1003，用于：

将图块序列输入多模态预训练模型，通过多模态预训练模型中的自注意力模块和视觉模块，得到中间图像特征，将词汇序列输入多模态预训练模型，通过多模态预训练模型中的自注意力模块和文本模块，得到中间文本特征；

将中间图像特征和中间文本特征输入多模态预训练模型的自注意力模块和多模态模块，通过多模态模块，对中间图像特征和中间文本特征进行融合，得到图像文本对的融合语义特征，融合语义特征包括第一图像的语义特征和第一文本的语义特征；

其中，注意力模块用于提取图像、文本和图像文本对的注意力特征，视觉模块、文本模块和多模态模块分别用于对图像、文本和图像文本对的注意力特征进行特征转换，得到语义特征。

在一些实施例中，获取模块1001，还用于执行以下至少一项：

获取第二图像的图块序列，将第二图像的图块序列输入多模态预训练模型，通过多模态预训练模型中的自注意力模块和视觉模块，得到第二图像的语义特征，第二图像的语义特征用于执行图像语义识别任务；

获取第二文本的词汇序列，将第二文本的词汇序列输入多模态预训练模型，通过多模态预训练模型中的自注意力模块和文本模块，得到第二文本的语义特征，第二文本的语义特征用于执行文本语义识别任务；

图11是根据本申请实施例提供的一种服务器的结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（CentralProcessing Units，CPU）1101和一个或一个以上的存储器1102，其中，存储器1102用于存储可执行程序代码，处理器1101被配置为执行上述可执行程序代码，以实现上述各个方法实施例提供的多模态预训练模型的训练方法或多模态预训练模型的使用方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于执行设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质中存储有至少一段程序，至少一段程序由处理器加载并执行，以实现上述任一实现方式的多模态预训练模型的训练方法或多模态预训练模型的使用方法。

本申请实施例还提供了一种计算机程序产品，计算机程序产品包括计算机程序代码，计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取计算机程序代码，处理器执行计算机程序代码，使得计算机设备执行上述任一实现方式的多模态预训练模型的训练方法或多模态预训练模型的使用方法。

在一些实施例中，本申请实施例所涉及的计算机程序产品可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。

以上仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种多模态预训练模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一图块序列信息包括图块序列和全局信息，所述获取样本图像的第一图块序列信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述第一语义特征包括图块序列对应的第一特征和全局信息对应的第二特征，所述第二语义特征包括图块序列对应的第三特征和全局信息对应的第四特征；

所述基于所述第一语义特征和所述第二语义特征，确定第一损失值，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一特征和所述第三特征，确定第一子损失值，包括：

5.根据权利要求3所述的方法，其特征在于，所述增强图像包括第一增强图像和第二增强图像，所述基于所述第二特征和所述第四特征，确定第二子损失值，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述第一损失值，对所述视觉分词器和所述多模态预训练模型进行训练，包括：

7.根据权利要求1所述的方法，其特征在于，所述多模态预训练模型包括自注意力模块、视觉模块、文本模块和多模态模块，所述注意力模块用于提取图像、文本和图像文本对的注意力特征，所述视觉模块、所述文本模块和所述多模态模块分别用于对图像、文本和图像文本对的注意力特征进行特征转换，得到语义特征；

基于所述第一损失值，对所述多模态预训练模型进行训练，包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

通过文本分词器对样本文本进行切分，得到第三语义特征，所述第三语义特征包括所述样本文本中的多个词汇单元各自的语义特征；

对所述第三语义特征所指示的词汇序列中的至少一个词汇单元进行掩码，得到第四语义特征；

将所述第四语义特征输入所述多模态预训练模型，得到第五语义特征；

基于被掩码的所述至少一个词汇单元在所述词汇序列中的位置信息，确定所述第五语义特征中与所述位置信息匹配的第三子特征；

基于所述第三子特征和第四子特征，确定第二损失值，所述第四子特征为所述第四语义特征包括的所述至少一个词汇单元的语义特征，所述第二损失值用于指示所述第三子特征和所述第四子特征之间的差距；

基于所述第二损失值，对所述多模态预训练模型中的文本模块进行训练。

9.根据权利要求7所述的方法，其特征在于，所述方法还包括：

获取样本图像文本对，所述样本图像文本对包括语义匹配的图像和文本；

通过训练得到的视觉分词器，得到第六语义特征，通过文本分词器，得到第七语义特征，所述第六语义特征为所述样本图像文本对中的图像的语义特征，所述第七语义特征为所述样本图像文本对中的文本的语义特征；

对所述第六语义特征所指示的图块序列中的至少一个图块进行掩码，得到第八语义特征，对所述第七语义特征所指示的词汇序列中的至少一个词汇单元进行掩码，得到第九语义特征；

将所述第八语义特征和所述第九语义特征分别输入所述多模态预训练模型，得到所述样本图像文本对的融合语义特征；

基于所述融合语义特征、所述第六语义特征和所述第七语义特征，确定第三损失值，所述第三损失值用于指示所述融合语义特征中的图像语义特征和所述第六语义特征之间的差距以及指示所述融合语义特征中的文本语义特征和所述第七语义特征之间的差距；

基于所述第三损失值，对所述多模态预训练模型进行训练。

10.根据权利要求9所述的方法，其特征在于，所述多模态预训练模型包括多层，所述多层中的第一层包括自注意力模块、文本模块和视觉模块，所述多层中的第二层包括自注意力模块、文本模块、视觉模块和多模态模块，所述第一层为所述多层中前目标数目的层，所述第二层为所述多层中第一层以外的层；

所述将所述第八语义特征和所述第九语义特征分别输入所述多模态预训练模型，得到所述样本图像文本对的融合语义特征，包括：

11.一种多模态预训练模型的使用方法，其特征在于，所述方法包括：

确定所述第一图像的图块序列和所述第一文本的词汇序列；

将所述第一图像的图块序列和所述第一文本的词汇序列输入多模态预训练模型，得到所述第一图像的语义特征和所述第一文本的语义特征，所述多模态预训练模型通过权利要求1-10任一项训练得到，所述第一图像的语义特征和所述第一文本的语义特征用于执行跨模态的语义识别任务。

12.根据权利要求11所述的方法，其特征在于，所述将所述第一图像的图块序列和所述第一文本的词汇序列输入多模态预训练模型，得到所述第一图像的语义特征和所述第一文本的语义特征，包括：

13.根据权利要求11所述的方法，其特征在于，所述方法还包括：

其中，所述注意力模块用于提取图像和文本的注意力特征，所述视觉模块和所述文本模块分别用于对图像和文本的注意力特征进行特征转换，得到语义特征。

14.一种多模态预训练模型的训练装置，其特征在于，所述装置包括：

15.一种多模态预训练模型的使用装置，其特征在于，所述装置包括：

输入输出模块，用于将所述第一图像的图块序列和所述第一文本的词汇序列输入多模态预训练模型，得到所述第一图像的语义特征和所述第一文本的语义特征，所述多模态预训练模型通过权利要求14训练得到，所述第一图像的语义特征和所述第一文本的语义特征用于执行跨模态的语义识别任务。

16.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器用于存储至少一段程序，所述至少一段程序由所述处理器加载并执行权利要求1-10任一项所述的多模态预训练模型的训练方法或权利要求11-13任一项所述的多模态预训练模型的使用方法。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储至少一段程序，所述至少一段程序用于执行权利要求1-10任一项所述的多模态预训练模型的训练方法或权利要求11-13任一项所述的多模态预训练模型的使用方法。