CN114372414A

CN114372414A - 多模态模型构建方法、装置和计算机设备

Info

Publication number: CN114372414A
Application number: CN202210024221.7A
Authority: CN
Inventors: 刘刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-06
Filing date: 2022-01-06
Publication date: 2022-04-19
Anticipated expiration: 2042-01-06

Abstract

本申请涉及一种多模态模型构建方法、装置、计算机设备、存储介质和计算机程序产品，本发明实施例可应用于地图领域，其中方法设置迭代周期来进行多模态模型的构建，可以从当前迭代周期内的至少一个信息流任务中获取大规模预训练数据，从而基于这些预训练数据来完成当前迭代周期中多模态预训练模型的自监督预训练，同时，在当前迭代周期中，还可以根据当前迭代周期内的至少一个信息流任务，来对当前迭代周期前形成的多模态预训练模型进行微调，得到信息流任务所需要的目标多模态模型，从而有效地减少模型训练的真空期，提高模型训练的效率。

Description

多模态模型构建方法、装置和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种多模态模型构建方法、装置和计算机设备。

背景技术

随着互联网快速发展的时代，机器学习技术也随之不断更新发展，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。现有的机器学习模型迭代过程通常包括以下步骤：需求确定->数据采集->模型训练->模型测试与上线。在模型训练过程中，通常包括两个元素：模型结构设计以及对应的预训练模型。

目前，由于预训练模型需要采集大量数据以及需要大量训练时间，因此一般不会额外训练预训练模型，而是直接利用已有的预训练模型，而后根据实际模型所要执行的任务对预训练模型进行相应的微调。然而这种预训练模型在模型训练的过程中存在大量的训练真空期，无法保证模型训练的效率。

发明内容

基于此，有必要针对上述技术问题，提供一种能够保证模型训练效率的多模态模型构建方法、装置和计算机设备。

第一方面，本申请提供了一种多模态模型构建方法。所述方法包括：

从当前迭代周期内的至少一个信息流任务中获取大规模预训练数据，所述预训练数据为无标注图文对样本数据；

基于所述无标注图文对样本数据对当前迭代周期前形成的多模态预训练模型进行自监督预训练；

基于所述当前迭代周期内的至少一个信息流任务对所述当前迭代周期前形成的多模态预训练模型进行微调，形成与所述当前迭代周期内的至少一个信息流任务匹配的目标多模态模型。

第二方面，本申请还提供了一种多模态模型构建装置。所述装置包括：

数据获取模块，用于从当前迭代周期内的至少一个信息流任务中获取大规模预训练数据，所述预训练数据为无标注图文对样本数据；

模型预训练模块，用于基于所述无标注图文对样本数据对当前迭代周期前形成的多模态预训练模型进行自监督预训练；

模型构建模块，用于基于所述当前迭代周期内的至少一个信息流任务对所述当前迭代周期前形成的多模态预训练模型进行微调，形成与所述当前迭代周期内的至少一个信息流任务匹配的目标多模态模型。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述多模态模型构建方法、装置、计算机设备、存储介质和计算机程序产品，其中方法通过设置迭代周期来进行多模态模型的构建，可以从当前迭代周期内的至少一个信息流任务中获取大规模预训练数据，从而基于这些预训练数据来完成当前迭代周期中多模态预训练模型的自监督预训练，同时，在当前迭代周期中，还可以根据当前迭代周期内的至少一个信息流任务，来对当前迭代周期前形成的多模态预训练模型进行微调，得到信息流任务所需要的目标多模态模型，因此，预训练模型可以不间歇地根据迭代周期进行迭代训练，在对预训练模型进行训练的同时，也可以基于信息流任务与当前迭代周期前形成的多模态预训练模型来构建目标多模态模型，从而有效地减少模型训练的真空期，提高模型训练的效率。

附图说明

图1为一个实施例中多模态模型构建方法的应用环境图；

图2为一个实施例中多模态模型构建方法的流程示意图；

图3为一个实施例中Transformer seq2seq模型结构示意图；

图4为一个实施例中构建图文样本对数据步骤的流程示意图；

图5为另一个实施例中构建图文样本对数据步骤的流程示意图；

图6为一个实施例中对当前迭代周期前形成的多模态预训练模型进行自监督预训练步骤的流程示意图；

图7为一个实施例中通过掩码语言建模进程和图文匹配进程对当前迭代周期前形成的多模态预训练模型进行自监督预训练步骤的流程示意图；

图8为一个实施例中Transformer模型的网络结构以及处理流程示意图；

图9为一个实施例中基于图文多模态预训练模型获取目标多模态模型步骤的流程示意图；

图10为另一个实施例中基于图文多模态预训练模型获取目标多模态模型步骤的流程示意图；

图11为一个实施例中基于图文多模态预训练模型进行审核模型构建的完整构建流程的流程示意图；

图12为一个实施例中现有面对单一任务的预训练模型迭代模式的流程示意图；

图13为一个实施例中内容发布平台的整体处理结构的结构示意图；

图14为一个实施例中多模态模型构建装置的结构框图；

图15为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请的技术方案主要涉及到了人工智能中的机器学习技术。

其中，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的多模态模型构建方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。终端102可以在需要进行模型训练时，持续向服务器104发送信息流任务，并在信息流任务重附带预训练数据，以通过服务器104来基于预训练数据来实现预训练模型的构建，而后可以在需要构建模型时，服务器104也可以基于信息流任务的任务要求，来构建目标多模态模型。服务器104从当前迭代周期内的至少一个信息流任务中获取大规模预训练数据，预训练数据为无标注图文对样本数据；基于无标注图文对样本数据对当前迭代周期前形成的多模态预训练模型进行自监督预训练；基于当前迭代周期内的至少一个信息流任务对当前迭代周期前形成的多模态预训练模型进行微调，形成与当前迭代周期内的至少一个信息流任务匹配的目标多模态模型其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在本文中，需要理解的是，所涉及的术语：

模态：表示信息的来源或者形式。每一种信息的来源或者形式，都可以称为一种模态，例如，多媒体资源的信息有语音、图像、文字等多个模态。

特征：指数据或信息经过计算机模型处理后的高维度数值表示，也可称作特征向量。视频特征指视频数据经过计算机模型处理后的高维度数值表示，也可称作视频向量。由于特征是模型对视频的数值化输出，所以不同的模型对视频的偏好作用和输出特征也是不同的，例如，视觉模型用于提取视频的视觉信息，那么输出的就是视频的视觉特征；音频模型用于提取视频的声音信息，输出的则为音频特征；文本模型用于提取视频文字或标题信息内容，输出的是文本特征等。

多模态特征：多媒体资源的各个模态的特征表示共同组成了多媒体资源的数值表示，可以将多媒体资源的多个模态的特征称为多媒体资源的多模态特征。设多媒体资源为视频，则多模态特征包括音频模态特征、图像模态特征、文本模态特征等，例如对于视频，以上各个模态的特征表示共同组成了视频的数值表征，将视频的多个模态的特征表示称为视频多模态特征。

多模态特征融合：综合多媒体资源的各个模态的特征，实现各个模态特征之间的信息互补。

在一个实施例中，如图2所示，提供了一种多模态模型构建方法，以该方法应用于图1中的服务器104端为例进行说明，包括以下步骤：

步骤201，从当前迭代周期内的至少一个信息流任务中获取大规模预训练数据，预训练数据为无标注图文对样本数据。

其中，迭代周期是指针对多模态预训练模型进行训练的一个迭代周期，该多模态预训练模型用于根据信息流任务来构建多模态模型。在服务器104中，可以基于信息流任务来收集大规模的预训练数据，基于这些数据来循环迭代地对多模态预训练模型进行迭代训练。预训练数据是指本申请的多模态模型构建方法中用于训练预训练模型的数据，由于预训练过程为自监督预训练，因此这些预训练数据无需进行标记。大批量用于形容预训练数据的来源广泛，可以覆盖信息流任务对应的业务领域，从而得到大量的无标注的预训练数据。预训练数据基于相同业务领域的信息流任务获取，这些数据具体包括了相同业务领域内海量的图像部分数据以及文本部分数据，且预训练数据中的图像部分数据与文本部分数据存在着一一对应的关系，在基于信息流任务收集预训练数据时，可以进行有目的和有选择的收集，比如在信息流业务领域的内容处理链路上来进行具体收集作者发布时候上传的内容本身标题和对应的封面图可以作为数据对。预训练数据具体可以通过不同的信息收集途径获取。图文对样本数据则是指根据预训练数据中的图像部分数据与文本部分数据间的对应关系，将图像部分数据与文本部分数据相结合得到的一组数据，因此图文对样本数据中既包含了图像与文本，且图像与文本之间存在着较强的关联关系。

具体地，当终端102方的工作人员需要在某个业务领域内构建信息流任务相应的业务模型时，可以先实现构建出该业务领域内对应的图文多模态预训练模型，而后基于预训练模型来实现模型的构建，此时可以通过将这个业务领域内多模态的预训练数据不间断地发送至服务器104，以通过服务器104来对该领域内的预训练模型进行不间断地迭代预训练，从而保证模型预训练的效果。在进行实际训练时，具体可以以迭代训练的方式来对预训练模型进行循环往复的迭代训练，在训练到一个新的迭代周期时，可以从当前迭代周期内的至少一个信息流任务中获取大规模的预训练数据，从而开始当前迭代周期内的模型预训练任务。在一个具体的实施例中，本申请中的多模态预训练数据具体用于信息流任务中进行内容审核模型的预训练，这些内容审核模型具体用于在内容发布平台上对用户发布的多模态内容进行审核，比如自媒体和机构的PGC(Professional Generated Content，专业生产内容)，UGC(User Generated Content，用户生成内容)等内容进行审核。此时，预训练数据具体可以从发布内容相关的领域数据中获取。具体包括信息流业务场景数据、OCR(Optical Character Recognition，光学字符识别)识别数据获取以及网络数据爬取三个方向。

步骤203，基于无标注图文对样本数据对当前迭代周期前形成的多模态预训练模型进行自监督预训练。

其中，自监督是无监督训练的一种，没有额外监督信号输入，模型直接从无标签数据中自行学习，比如本申请中的图文对样本数据，如果其中文本为图像对应的描述标题可以认为是两者是对应的，而其他不来自此图像的文本可以认为是不相关的。当前迭代周期前形成的多模态预训练模型具体可以包括初始状态的多模态预训练模型以及上一个迭代周期内训练得到的多模态预训练模型，如果当前的迭代周期为模型预训练的第一个迭代周期，则前迭代周期前形成的多模态预训练模型为初始状态的多模态预训练模型。如果当前的迭代周期不为模型预训练的第一个迭代周期，则前迭代周期前形成的多模态预训练模型为上一个迭代周期内训练得到的多模态预训练模型。多模态预训练模型具体可以为Transformer模型，Transformer模型基于Transformer结构构建，完全使用attention机制进行序列建模，并且在机器翻译任务上取得了最好的结果，打破了encoder-decoder模型必须结合RNN的传统模式，在不损失效果甚至提升效果的前提下，大大提高了模型并行度。Transformer seq2seq模型的结构具体可以参照图3，其中1、Multi-Head Self-Attention：对序列应用Self-Attention，可以同时挖掘序列中每一个item与其他所有item间的相互关系。使用“Multi-Head”Attention，可以从不同的向量子空间进行信息挖掘。2、Position-wise Feed-Forward Network：在Attention之后加入一层前馈网络，赋予模型非线性表达能力，并且可以挖掘不同维度间的交互关系。3、Transformer Layer：一个transformerlayer由一个Multi-Head Self-Attention Layer和一个Position-wise Feed-ForwardNetwork组成，其中，Attention Layer和FFN在输出部分都使用了残差网络，并进行了LayerNormalization。4、Stacking Transformer Layers：将多个transformer layer叠加在一起，可以学习更复杂更高阶的交互信息。

具体地，在得到无标注图文对样本数据之后，可以将得到的无标注图文对样本数据输入到上次预训练完成后所得到的多模态预训练模型中。多模态预训练模型在得到输入的无标注图文对样本数据后，会基于多模态预训练的需求，来进行自监督预训练。在其中一个实施例中，多模态预训练模型会创建出掩码语言建模进程和图文匹配进程两个独立进程，而后则可以基于掩码语言建模进程和图文匹配进程来加载相应的特征序列数据，并基于特征序列数据来执行掩码语言建模进程和图文匹配进程，从而完成本轮次内对多模态预训练模型的预训练。每一轮训练完成后，得到的即为当前迭代轮次下训练完成的图文多模态预训练模型，也是下一个迭代轮次的图文多模态预训练模型，以此进行循环迭代地训练。算法模型的迭代过程将预训练模型作为一个独立且与各个业务任务周期并行的模块，不间断收集各类无标注图文数据对，利用这些数据进行模型预训练，从而不间断提升模型泛化能力。

步骤205，基于当前迭代周期内的至少一个信息流任务对当前迭代周期前形成的多模态预训练模型进行微调，形成与当前迭代周期内的至少一个信息流任务匹配的目标多模态模型。

其中，微调即fine-tuning，是一种模型的调整方法，相当于在预训练模型的基础上进行继续训练，跟直接训练的区别是初始化的时候：直接训练是按照网络定义指定的方式初始化，而微调是用你已经有的参数文件来初始化。而目标多模态模型则是信息流任务所需要的，应用于实际业务中的模型。

具体地，服务器104在对多模态预训练模型进行自监督预训练时，还可以同步的进行目标多模态模型的训练任务，这一个过程使用的同样是当前迭代周期前形成的多模态预训练模型，而下一个迭代周期中构建目标多模态模型则使用当前周期内训练得到的多模态预训练模型。在构建目标多模态模型时，可以对当前迭代周期前形成的多模态预训练模型进行微调，根据信息流任务的具体信息来对多模态预训练模型进行微调，从而形成该信息流任务对应的目标多模态模型。

本申请的方案中，在方法执行后就可以在服务器104中不断地对预训练模型进行循环迭代的训练，在不断的训练中持续提升具体任务相关指标比如准召率，同时在目标多模态模型构建时，提前收集和利用了业务领域大规模的无监督数据，来进行预学习，得到预训练模型。可以类比人类学习时候，如果提前储备了大量背景和相关领域的知识，解决同类问题效率会提升很多，技能在相关任务上可以迁移和复用的。因此可以基于预训练模型来高效地构建模型任务需求对应的目标多模态模型。在接收到模型任务需求时，根据模型任务需求对当前迭代轮次下的图文多模态预训练模型进行调整，例如可以选取预训练模型中的部分模块，作为用于训练目标多模态模型的初始模型，而后基于模型任务需求所对应的模型训练数据，来对初始模型进行训练，以获取模型任务需求对应的目标多模态模型。目前的业务模型训练中，在算法迭代周期中，存在的训练真空期。在得到业务反馈前，很难对模型进行持续迭代，面对快速变化的场景和业务难以应对，同时内容很多模态之间的相互信息没有被充分利用起来，而本申请的通过无标注的预训练数据来对图文多模态预训练模型进行循环迭代的训练，而后需要构建实际业务模型时，基于最新的图文多模态预训练模型来实现目标多模态模型的构建，可以有效拜托模型训练中的真空期，提高模型训练效率。

上述多模态模型构建方法，通过设置迭代周期来进行多模态模型的构建，可以从当前迭代周期内的至少一个信息流任务中获取大规模预训练数据，从而基于这些预训练数据来完成当前迭代周期中多模态预训练模型的自监督预训练，同时，在当前迭代周期中，还可以根据当前迭代周期内的至少一个信息流任务，来对当前迭代周期前形成的多模态预训练模型进行微调，得到信息流任务所需要的目标多模态模型，因此，预训练模型可以不间歇地根据迭代周期进行迭代训练，在对预训练模型进行训练的同时，也可以基于信息流任务与当前迭代周期前形成的多模态预训练模型来构建目标多模态模型，从而有效地减少模型训练的真空期，提高模型训练的效率。

在其中一个实施例中，如图4所示，大规模预训练数据包括图像搜索数据；步骤201具体包括：

步骤401，从当前迭代周期内的至少一个信息流任务中获取大规模图像搜索数据，提取图像搜索数据中的搜索关键词与搜索结果。

步骤403，基于搜索关键词与搜索结果，构建无标注图文对样本数据。

其中，图像搜索数据具体是指通过搜索引擎在网络中进行图像搜索后，所得到的数据。图像搜索数据具体包括了用于图像搜索的搜索关键词以及搜索结果，其中搜索结果中的图像为图像数据，而搜索关键词以及搜索到的图像对应的描述数据则是文本数据。搜索关键词可以由模型训练人员指定，可以是通用领域的关键词，也可以针对特定任务选择领域关键词。

具体地，在需要获取大规模预训练数据时，模型训练端的工作人员可以根据模型建模任务所指定的领域，确定若干的搜索关键词，而后将搜索关键词输入到不同的图像搜索引擎，得到与搜索关键词相关联的搜索结果。在需要构建预训练数据时，即可将搜索关键词与搜索结果相关联，从而构建无标记的图文对样本数据，图文对样本数据中的文本数据基于搜索关键词以及搜索结果中图像对应的文本构建，图像数据则根据搜索结果中图像构建。在一个具体的实施例中，本申请具体通过网络数据爬取的方法来获取预训练数据，并从预训练数据中抽取图文对样本数据。通过预先指定一定关键词，而后通过各类图像搜索引擎获取对应图像，对应图像一般存在对应文本标题。由于爬取的内容对应的文本一般为图像标题，因此文本主要为图像描述性内容，文本匹配度与质量较高。其中，爬取的关键词通过人为指定，可以选择通用性关键词，也可针对特定任务选择领域关键词。本实施例中，通过图像搜索技术来构建无标注图文对样本数据，可以有效保证图文对样本数据的获取效率，从而保证模型预训练过程的顺利进行。

在其中一个实施例中，如图5所示，大规模预训练数据包括图像数据，步骤201包括：

步骤502，从当前迭代周期内的至少一个信息流任务中获取大规模图像数据，识别图像数据中文字内容数据。

步骤504，基于预设数据清洗规则对文字内容数据进行清洗，获取图像文本数据。

步骤506，基于图像数据与图像文本数据，构建无标注图文对样本数据。

其中，图像数据是指从各类内容场景下获取得到的图像数据，具体包括了图文内容数据，图集内容数据以及视频内容数据等。预设数据清洗规则则需要根据图像数据的具体类型设置，一般可用于清洗内容数据中的重复内容和无意义文本等内容。识别图像数据中文字内容数据具体可以通过OCR(optical character recognition，光学字符识别)，OCR可以将图像中的文字识别出来，并将其转换成文本格式。

具体地，本申请的方案在构建预训练数据时，还可以基于内容场景中的纯图像数据来构建无标注图文对样本数据。在构建时，首先从各类内容场景(图文内容，图集内容，视频内容)数据源获取海量纯图像数据，这些图像数据中有部分存在字幕、水印等文字内容。其中对于图文内容以及图像内容，可以仅提取出其中的图像内容来进行处理。而对于视频内容，则通常可以通过视频的抽帧处理，将视频内容转化为图像内容后再进行处理。在得到海量纯图像数据后，则通过OCR模块从图像数据中获取对应的文本内容，而由于直接提取出的文本内容存在很多无意义的部分，因此，最后还可以通过数据清洗规则，比如内容去重以及无意义的文本(乱码，纯符号等)过滤等方式，对文字内容数据进行清洗，从而获取到图像数据对应的图像文本数据。而后基于图像数据与图像文本数据，构建无标注图文对样本数据。本实施例中，通过文字内容识别，可以有效地将图像自带的文本数据提取出来，从而有效地构建无标注图文对样本数据，并建立图像对样本数据内图像内容与文本内容的关联，从而有效保证多模态预训练模型的预训练效果。

在另一个实施例中，本申请的多模态模型构建方法具体应用于内容发布平台的内容审核模型处理。此时，本申请还可以基于信息流业务图文文本内容来构建无标注图文对样本数据。此时，可以指定某些内容发布作者。而后根据这些内容发布作者所发布的内容来构建图文本样本数据，其中图文对样本数据中的文本内容为内容标题，而图像内容则是由内容发布作者自己手动选择的封面图。具体地，进行图文对样本数据时，无论利用OCR进行数据获取还是使用网络爬取的方式进行数据获取，或者基于信息流业务范文的选择筛选，都有非常高的采集效率。以上三种数据获取方式都可以不间断同时进行，从而快速且低成本地构建出大量无标注图文对数据集，而后基于大规模的无标注图文对数据集来不间断地对图文多模态预训练模型循环进行循环迭代的自监督预训练，从而持续优化预训练模型，持续提升具体任务相关指标比如准召率，通过持续收集各类无标注数据，有效增强预训练模型泛化性，预训练模型可应用于多种信息流内容处理下游任务，包括信息流领域的图文类任务(比如质量审核，广告检测等)以及纯图像类任务，持续的图文预训练模型迭代训练，从而可以进一步提升下游任务效果。

在其中一个实施例中，如图6所示，步骤203具体包括：

步骤601，将图文对样本数据转化为特征序列数据。

其中，特征序列数据可以理解为用序列如向量等形式来表示特征，当从大规模预训练数据中抽取图文对样本数据后，可以对图文对样本数据进行特征提取操作，通过特征提取来分别将图文对样本数据中的图像数据和样本数据转换为特征序列数据。

具体地，当从大规模预训练数据中抽取出图文对样本数据之后，为了更有效地实现模型的预训练过程，还需要进行特征提取操作，将图像数据和文本数据转换为特征序列数据后在进行下一步的处理。其中，将图文对样本数据转化为特征序列数据，可以通过神经网络模型来实现，图文对样本数据中的图像数据可以采用CNN模型，也可以采用Transform模型，当使用Transform模型时，需要把图像切成一个一个path类似文本token序列。而对于，文本数据则可以采用Transform模型。

步骤603，将特征序列数据输入当前迭代周期前形成的多模态预训练模型，创建基于当前迭代周期前形成的多模态预训练模型的掩码语言建模进程和图文匹配进程。

步骤605，执行掩码语言建模进程和图文匹配进程，以基于特征序列数据对当前迭代周期前形成的多模态预训练模型进行自监督预训练。

其中，掩码语言建模进程(Masked Language Model)，其主要实现要根据图像内容和文本序列的上下文信息预测文本序列中被遮蔽的词。而图文匹配进程(Image TextMatch)则是用于判断图像文本是否匹配。

具体地，在得到特征序列数据之后，可以将得到的特征序列数据分批次地输入到预训练完成后所得到的多模态预训练模型中。多模态预训练模型在得到特征序列数据后，会基于多模态预训练的需求，创建出掩码语言建模进程和图文匹配进程两个独立进程，而后则可以基于掩码语言建模进程和图文匹配进程来加载相应的特征序列数据，并基于特征序列数据来执行掩码语言建模进程和图文匹配进程，从而完成本轮次内对初始多模态预训练模型的预训练。每一轮训练完成后，得到的即为当前轮次下训练完成的图文多模态预训练模型，也是下一轮次的多模态预训练模型，以此进行循环迭代地训练。算法模型的迭代过程将预训练模型作为一个独立且与各个业务任务周期并行的模块，不间断收集各类无标注图文数据对，利用这些数据进行模型预训练，从而不间断提升模型泛化能力。本实施例中，通过构建掩码语言建模进程和图文匹配进程，可以有效完成对多模态预训练模型的训练，保证多模态预训练模型的训练效果。

在其中一个实施例中，特征序列数据包括文本序列数据以及图像序列数据；如图7所示，步骤207包括：

步骤702，对文本序列数据中的部分内容进行随机遮蔽处理。

步骤704，确定遮蔽文本内容对应上下文部分的文本序列数据，以及文本序列数据对应的图像序列数据。

步骤706，通过当前迭代周期前形成的多模态预训练模型，基于上下文部分的文本序列数据以及文本序列数据对应的图像序列数据，对遮蔽文本内容进行预测，以基于特征序列数据对当前迭代周期前形成的进行自监督预训练。

步骤708，随机将部分文本序列数据对应的图像序列数据替换。

步骤710，通过当前迭代周期前形成的多模态预训练模型，对文本序列数据以及文本序列数据对应的图像序列数据的匹配性进行预测，以基于特征序列数据对当前迭代周期前形成的多模态预训练模型进行自监督预训练。

其中，文本序列数据为基于文本数据进行特征提取后得到的特征数据，而图像序列数据为基于图像据进行特征提取后得到的特征数据。文本序列数据以及图像序列数集成了文本数据和图像数据的关联关系。随机遮蔽是指将文本序列数据中的部分内容进行遮蔽处理，如将一句话中间的部分词语进行遮蔽。上下文部分的文本序列数据是指除被遮蔽的内容外的其他部分文本数据。而随机部分文本序列数据对应的图像序列数据替换则是指基于预设的概率数值，来将所有的特征序列数据中的对应关系进行替换，如在其中一个实施例中，可以随机以0.5的概率将文本序列数据对应的图像序列数据替换成不同的图像序列数据。

具体地，对多模态预训练模型进行多模态的自监督预训练的过程具体通过构建掩码语言建模进程和图文匹配进程两个任务来实现，其中掩码语言建模进程用于实现要根据图像内容和文本序列的上下文信息预测文本序列中被遮蔽的词。任务过程需要对文本序列数据中的部分内容进行随机遮蔽处理。而后确定遮蔽文本内容对应上下文部分的文本序列数据，以及文本序列数据对应的图像序列数据。从而通过多模态预训练模型，基于上下文部分的文本序列数据以及文本序列数据对应的图像序列数据，对遮蔽文本内容进行预测，以基于特征序列数据对多模态预训练模型进行自监督预训练。而图文匹配进程则是用于判断图像文本是否匹配，这个任务的实现过程需要先随机将部分文本序列数据对应的图像序列数据替换，从而使得图像序列数据与文本序列数据中出现不匹配的数据，而后通过当前迭代周期前形成的多模态预训练模型，对文本序列数据以及文本序列数据对应的图像序列数据的匹配性进行预测，以基于特征序列数据对多模态预训练模型进行自监督预训练。在其中一个实施例中，模型处理的过程具体可以参照图8所示，先将图文对样本数据中的图像模态数据和文本模态数据转换成特征序列，其中图像数据可以通过CNN模型或者Transform模型来进行特征转换，其中Transform计算模型速度更快一点，CNN有些结构约束，对图片不同尺度适应性更好一些，这两者功能上没有本质区别。然后通过定义掩码语言建模进程以及图文匹配进程，实现自监督预训练。如图中的掩码语言建模进程通过遮蔽文本数据后，文本数据中的“你知道两只猫是如何吵架的吗？”变为了“你知道两只[mask]是如何[mask][mask]的吗？”本实施例中，通过掩码语言建模进程和图文匹配进程可以有效地实现多模态预训练模型的训练，从而保证模型的预训练效果。

在其中一个实施例中，如图9所示，步骤209包括：

步骤902，获取当前迭代周期内的至少一个信息流任务对应的模型模态需求数据以及模型训练数据。

步骤904，基于模型模态需求数据，获取图文多模态预训练模型中的目标预训练模块。

步骤906，通过模型训练数据对目标预训练模块进行训练，以获取当前迭代周期内的至少一个信息流任务对应的目标多模态模型。

其中，模型模态需求数据是指用于指定预训练模型对应目标多模态模型模态的数据，由于本申请的预训练模型为多模态预训练模型，可以用于实现不同模态以及模态组合等方向模型的构建。因此在需要构建实际的业务模型时，可以在信息流任务中，通过终端102向服务器104提供机器学习建模任务的模型模态需求数据，来指定预训练模型的微调(fine-tune)方向，目标预训练模块则与模型模态需求数据相对应，图文多模态预训练模型中包含有各个模态对应的模型模块以及多模态融合处理的模块，服务器104可以根据模型模态需求数据来确定选用那些模块来进行目标多模态模型的训练。

具体地，在进行任务对应的多模态模型训练时，由于下游任务的差异，可以预先将图文多模态预训练模型设置为由不同的目标预训练模块组合而成。图文多模态预训练模型包含有多个根据用于实现单模态任务的预训练模块，以及跨模态Transformer部分。当需要执行单模态任务时，可以调用相应的单模态目标预训练模块来进行微调，这一过程可以由外界输入目标多模态模型对应的模型训练数据。而后由模型训练数据对这些目标预训练模块进行有监督训练，得到最终的目标多模态模型。当然如果需要执行多模态任务时，则需要相应地使用到多个不同单模态目标预训练模块以及跨模态的模块。本实施例中，基于机器学习建模任务的模型模态需求数据以及模型训练数据来进行预训练模型的选取以及目标多模态模型的训练，可以有效加快算法模型研发进度，缩短算法模型研发时间，整体提升算法研发整体效率。

在其中一个实施例中，模型模态需求数据包括文本模型需求、图像模型需求以及跨模态模型需求；图文多模态预训练模型包括文本处理模块、图像处理模块以及跨模态处理模块；基于模型模态需求数据，获取图文多模态预训练模型中的目标预训练模块包括：当模型模态需求数据为文本模型需求时，获取图文多模态预训练模型中的文本处理模块；当模型模态需求数据为图像模型需求时，获取图文多模态预训练模型中的图像处理模块；当模型模态需求数据为跨模态模型需求时，获取图文多模态预训练模型中的文本处理模块、图像处理模块以及跨模态处理模块。

其中，文本模型需求用于请求服务器102实现文本类目标多模态模型的训练。图像模型需求用于请求服务器102实现图像类目标多模态模型的训练。而跨模态模型需求用于请求服务器102实现包含文本与图像交互下的跨模态目标多模态模型的训练。图文多模态预训练模型则由文本处理模块、图像处理模块以及跨模态处理模块等几个模块组成，具体可以由纯图像Transformer，纯文本Transformer以及跨模态Transformer，图像CNN模型等四个模块组成。根据不同下游任务差异，将利用预训练模型不同部分进行微调，从而实现目标多模态模型的训练。如图10所示，在其中一个实施例中，例如在进行图文内容审核任务时，目标多模态模型对应的为跨模态模型，模型模态需求数据为跨模态模型需求，此时完整使用各个模块组成图文审核模型，而后利用有标注的数据对模型进行微调。在进行纯图像模型内容审核任务时，利用图像CNN模型(也可以纯图像的Transform部分)部分作为各类任主干网络，可应用于分类检测等各类纯图像任务。比如画面主体检测，敏感建筑或者设施检测。本实施例中，通过模型模态需求数据所指定的具体需求来调用对应的目标预训练模块，可以在后续目标多模态模型训练过程中做到使用更少的标注样本达到更好的效果，从而有效降低标注依赖和提升研发效率。

本申请还提供一种应用场景，该应用场景应用上述的多模态模型构建方法。具体地，该多模态模型构建方法在该应用场景的应用如下：

当用户需要进行内容发布平台中用户提交的待发布内容的审核时，由于内容发布平台的内容涉及到多个不同领域以及不同模态，部分内容涉及到了图文交互的部分，因此需要构建不同的审核模型来进行内容审核。此时，审核模型的完整构建流程可以参照图11所示，其中需要先根据审核模型的任务类型来定义模型需求，而后进行预训练数据的收集。而后通过收集来的训练数据对预训练模型进行下游任务的微调，从而可以在模型测试完成后直接上线。其中预训练模型不同于如图12所示的以往面向单一任务的迭代模式，该迭代方式通过持续收集无标注图文数据进行循环迭代的自监督预训练，不断优化预训练模型效果。同时，通过模型结构与预训练任务的改进，减少了预训练时间消耗。该方法得到预训练模型具备较好迁移性，其不仅能提升各类图文多模态任务效果，也能提升部分纯图任务效果。相比现在使用一般的imagenet预训练的模型，在单机单卡或多机多卡上做小规模的微调，能做到使用更少的标注样本达到更好的效果，有效降低标注依赖和提升研发效率。本实施例中，图文多模态预训练模型的迭代过程中可以将预训练模型作为一个独立且与各个业务任务周期并行的模块，在执行信息流任务的过程中还会不间断收集各类无标注图文数据对，利用这些数据进行模型预训练，从而不间断提升模型泛化能力。当有新任务开始进行时，直接利用已经预训练好的预训练模型进行微调。预训练数据采用持续收集的无标注图文数据对，各个信息流审核任务领域采集的数据也可作为预训练模型的训练数据。随着预训练数据积累，泛化性也加强，能够灵活支持各类下游任务进行迁移学习，缓解对标注数据的依赖。并且在各个任务真空期，也能持续不断进行预训练模型优化进行知识积累。其中每一轮次的预训练过程中，需要先从当前迭代周期内的至少一个信息流任务获取预训练数据，从预训练数据中抽取图文对样本数据；将图文对样本数据转化为特征序列数据；将特征序列数据输入当前迭代周期前形成的多模态预训练模型，创建基于当前迭代周期前形成的多模态预训练模型的掩码语言建模进程和图文匹配进程；执行掩码语言建模进程和图文匹配进程，以基于特征序列数据对当前迭代周期前形成的多模态预训练模型进行自监督预训练，得到图文多模态预训练模型。其中，模型预训练用到的图文对样本数据具体可以通过信息流业务(场景、OCR识别数据提取以及网络爬取图像数据等方式来提取得到。而模型预训练过程，则需要对文本序列数据中的部分内容进行随机遮蔽处理；确定遮蔽文本内容对应上下文部分的文本序列数据，以及文本序列数据对应的图像序列数据；通过当前迭代周期前形成的多模态预训练模型，基于上下文部分的文本序列数据以及文本序列数据对应的图像序列数据，对遮蔽文本内容进行预测，以对当前迭代周期前形成的多模态预训练模型进行自监督预训练；随机将部分文本序列数据对应的图像序列数据替换；通过初始Transformer模型，基于文本序列数据以及文本序列数据对应的图像序列数据的匹配性进行预测，以对当前迭代周期前形成的多模态预训练模型进行自监督预训练。当模型预训练的同时，还可以同步完成目标多模态模型的构建任务，服务器获取当前迭代周期内的至少一个信息流任务对应的模型模态需求数据以及模型训练数据，当模型模态需求数据为文本模型需求时，获取图文多模态预训练模型中的文本处理模块；当模型模态需求数据为图像模型需求时，获取图文多模态预训练模型中的图像处理模块；当模型模态需求数据为跨模态模型需求时，获取图文多模态预训练模型中的文本处理模块、图像处理模块以及跨模态处理模块。最后通过模型训练数据对目标预训练模块进行训练，以获取机器学习建模任务对应的目标多模态模型。

在其中一个实施例中，本申请多模态模型构建方法用于实现内容发布平台中发布内容的审核，内容发布平台的整体处理结构可以参照图13所示。其中包括：

一，如图13的内容生产端，包括PGC或者UGC，MCN(Multi-Channel Network，多频道网络)或者PUGC(Professional User Generated Content，专业用户生产内容)的内容生产者，以及内容消费端，其在平台内可进行的操作包括：

(1)通过移动端或者后端接口API系统，提供本地或者拍摄的视频内容或者撰写的自媒体文章或者图集，作者可以选择主动上传对应内容的封面图，这些都是分发内容的主要内容来源。

(2)通过和上下行内容接口服务的通讯，先获取上传服务器接口地址，然后在上传本地文件，拍摄过程当中本地视频内容可以选择搭配的音乐，滤镜模板和视频的美化功能等等。

(3)作为消费者，和内容分发出口服务器通讯，获取对应内容的索引信息，视频的话然后和视频存储服务器同学，下载对应的流媒体文件并且通过本地播放器来播放观看，图文的话通常是直接边缘部署的CDN服务通讯；

(4)同时将上传和下载过程当中用户浏览的行为数据，阅读速度，完成率，阅读时间，卡顿，加载时间，播放点击等上报给服务器。

(5)消费端通常通过Feeds流方式浏览消费数据，对于消费端质量问题相关内容提供直接举报和反馈的入口，直接和人工审核系统对接，进行确认和复核。

二、对于与内容生产者对接的上下行内容接口服务器，其在平台内可进行的操作包括：

(1)和内容生产端直接通讯，从前端提交的内容，通常是内容的标题，发布者，摘要，封面图，发布时间，或者是拍摄的视频直接通过该服务器进入服务端，把文件存入视频内容存储服务。

(2)将视频内容的元信息，比如视频文件大小，封面图链接，码率，文件格式，标题，发布时间，作者等信息写入内容数据库。

(3)将上传的文件和内容元信息提交给调度中心服务，进行后续的内容处理和流转。

三、对于上下行内容接口服务器连接的内容数据库，其在平台内可进行的操作包括：

(1)内容的核心数据库，所有生产者发布内容的元信息都保存在这个业务数据库当中，重点是内容本身的元信息比如文件大小，封面图链接，码率，文件格式，标题，发布时间，作者，视频文件大小，视频格式，是否原创的标记或者首发还包括人工审核过程中对内容的分类(包括一，二，三级别分类和标签信息，比如一篇讲解A品牌手机的文章，一级分科是科技，二级分类是智能手机，三级分类是国内手机，标签信息是A平台，X型号)。

(2)人工审核过程当中会读取内容数据库当中的信息，同时人工审核的结果和状态也会回传进入内容数据库。

(3)调度中心对内容处理主要包括机器处理和人工审核处理，这里机器处理核心各种质量判断比如低质过滤，低俗内容标签比如分类，标签信息，还有就是内容排重，他们的结果会写入内容数据库，完全重复一样的内容不会给人工进行重复的二次处理。

(4)后续构建图文预训练模型的时候会从内容数据库读取内容的元信息。

四、对于上下行内容接口服务器以及人工审核系统连接的调度中心服务器，其在平台内可进行的操作包括：

(1)负责视频和图文内容流转的整个调度过程，通过上下行内容接口服务器收入数据库的内容，然后从内容元信息数据库中获取内容的元信息；

(2)在作为图文和视频链路运行的实际调度控制者，按照内容的类型，对链路当中的图片内容，调度内容处理业务服务系统来处理和审核对应的内容，直接过滤和对内容打上对应的特征标记供下游推荐分发使用；

(3)调度人工审核系统和机器处理系统，控制调度的顺序和优先级；

(4)通过人工审核系统内容被启用，然后通过内容出口分发服务(通常是推荐引擎或者搜索引擎或者运营)直接的展示页面提供给终端的内容消费者，也就是消费端获得的内容索引信息。

五、对于平台中的人工审核系统，其对应的可进行操作包括：

(1)其通常是一个WEB系统，在链路上，承接机器过滤的结果，对结果进行人工确认和复核，将复核的结果写入内容信息元数据库记录下来，同时可以通过这里人工复核的结果来在线评估过滤模型的实际效果。

(2)上报人工审核过程领取任务的来源，审核结果，审核开始和结束时间等审核的详细流水到统计服务器。

(3)和用户消费端的投诉和内容举报及巡检的复核系统对接，同时也对线上业务处理过程的流水进行主动的巡检，结果作为业务样本数据库，为后续结合具体任务迭代提供微调的样本数据帮助模型持续的升级。

六、对于平台中的内容存储服务器，其对应的可进行操作包括：

(1)通常是一组分布范围很广，离C侧用户很久的就近接入的存储服务器通常外围还有CDN加速服务器进行分布式缓存加速，通过上下行内容接口服务器将内容生产者上传的视频和图片内容保存起来。

(2)终端消费者在获取内容索引信息后，也可以直接访问视频内容存储服务器下载对应的内容。

(3)除了作为对外服务的数据源意外，还作为对内服务的数据源，供下载文件系统获取原始的视频数据进行相关的处理，内外数据源的通路通常是分开部署的，避免相互影响。

七、对于平台中的业务样本库，其对应的可进行操作包括：

(1)如上保存人工复核样本的审核结果。

(2)作为基于大规模图文预训练模型为基础构建具体业务模型的微调任务领域模型的样本数据来源。

八、对于平台中的内容处理业务服务，其对应的可进行操作包括：

(1)这里是指图文审核和视频审核都会涉及到大量质量相关的模型(标题党，广告营销内容，低俗图片，软色情内容检测等等)，这些模型对应的业务服务器。

九、对于平台中的内容业务模型库，其对应的可进行操作包括：

(1)按照上面描述的方法，构建大规模的图文预训练模型，然后结合业务样本数据库，来快速构建内容业务层面的模型库。

(2)以此模型库为基础构建内容处理业务服务。

十、对于平台中的预训练样本库，其对应的可进行操作包括：

(1)按照上描述的三个渠道，收集和构造预训练样本库，主要包括信息流业务场景数据+OCR识别数据获取+网络数据爬取；

十一、对于平台中的爬虫系统，其对应的可进行操作包括：

(1)通过各类图像搜索引擎获取对应图像，对应图像一般存在对应文本标题，这里主要用来收集预训练的样本对；

(2)爬虫系统使用的爬虫引擎的原型可以以Puppeteer为实现载体。它提供的API能方便地控制浏览器，实现爬虫应用、网站截屏、生成网站PDF等。爬取结果经过清洗后保存在预训练样本库当中。

十二、对于平台中的反馈举报与巡检业务服务器，其对应的可进行操作包括：

(1)收集消费端用户主动反馈和举报的各种内容质量问题，将其中涉及到图片和文字相关的数据经过人工复核以后作为后续微调建模的样本任务保存在样本库中；

(2)主动巡检线上模型流水，人工复核后保存在样本库当中，避免模型衰退和持续能够最新的检测服务，主动巡检样本写入，模型可以按照天来快速迭代和更新。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的多模态模型构建方法的多模态模型构建装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个多模态模型构建装置实施例中的具体限定可以参见上文中对于多模态模型构建方法的限定，在此不再赘述。

在一个实施例中，如图14所示，提供了一种多模态模型构建装置，包括：

数据获取模块1401，用于从当前迭代周期内的至少一个信息流任务中获取大规模预训练数据，预训练数据为无标注图文对样本数据；

模型预训练模块1403，用于基于无标注图文对样本数据对当前迭代周期前形成的多模态预训练模型进行自监督预训练；

模型构建模块1405，用于基于当前迭代周期内的至少一个信息流任务对当前迭代周期前形成的多模态预训练模型进行微调，形成与当前迭代周期内的至少一个信息流任务匹配的目标多模态模型。

在其中一个实施例中，预训练数据包括图像搜索数据；数据获取模块1401具体用于：从当前迭代周期内的至少一个信息流任务中获取大规模图像搜索数据，提取图像搜索数据中的搜索关键词与搜索结果；基于搜索关键词与搜索结果，构建无标注图文对样本数据。

在其中一个实施例中，预训练数据包括图像数据；数据获取模块140具体用于：从当前迭代周期内的至少一个信息流任务中获取大规模图像数据，识别图像数据中文字内容数据；基于预设数据清洗规则对文字内容数据进行清洗，获取图像文本数据；基于图像数据与图像文本数据，构建无标注图文对样本数据。

在其中一个实施例中，模型预训练模块1403具体用于：将图文对样本数据转化为特征序列数据；将特征序列数据输入当前迭代周期前形成的多模态预训练模型，创建基于当前迭代周期前形成的多模态预训练模型的掩码语言建模进程和图文匹配进程；执行掩码语言建模进程和图文匹配进程，以基于特征序列数据对当前迭代周期前形成的多模态预训练模型进行自监督预训练

在其中一个实施例中，特征序列数据包括文本序列数据以及图像序列数据；模型预训练模块1403具体用于：对文本序列数据中的部分内容进行随机遮蔽处理；确定遮蔽文本内容对应上下文部分的文本序列数据，以及文本序列数据对应的图像序列数据；通过当前迭代周期前形成的多模态预训练模型，基于上下文部分的文本序列数据以及文本序列数据对应的图像序列数据，对遮蔽文本内容进行预测，以基于特征序列数据对当前迭代周期前形成的进行自监督预训练；随机将部分文本序列数据对应的图像序列数据替换；通过当前迭代周期前形成的多模态预训练模型，对文本序列数据以及文本序列数据对应的图像序列数据的匹配性进行预测，以基于特征序列数据对当前迭代周期前形成的多模态预训练模型进行自监督预训练。

在其中一个实施例中，模型构建模块1406具体用于：获取当前迭代周期内的至少一个信息流任务对应的模型模态需求数据以及模型训练数据；基于模型模态需求数据，获取当前迭代周期前形成的多模态预训练模型中的目标预训练模块；通过模型训练数据对目标预训练模块进行训练，以获取当前迭代周期内的至少一个信息流任务对应的目标多模态模型。目标多模态模型

在其中一个实施例中，模型构建模块1406具体用于：当模型模态需求数据为文本模型需求时，获取当前迭代周期前形成的多模态预训练模型中的文本处理模块；当模型模态需求数据为图像模型需求时，获取当前迭代周期前形成的多模态预训练模型中的图像处理模块；当模型模态需求数据为跨模态模型需求时，获取当前迭代周期前形成的多模态预训练模型中的文本处理模块、图像处理模块以及跨模态处理模块。

上述多模态模型构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图15所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储多模态预训练模型训练数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多模态模型构建方法。

本领域技术人员可以理解，图15中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种多模态模型构建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述大规模预训练数据包括图像搜索数据；

所述从当前迭代周期内的至少一个信息流任务中获取大规模预训练数据包括：

从当前迭代周期内的至少一个信息流任务中获取大规模图像搜索数据，提取所述图像搜索数据中的搜索关键词与搜索结果；

基于所述搜索关键词与搜索结果，构建无标注图文对样本数据。

3.根据权利要求1所述的方法，其特征在于，所述大规模预训练数据包括图像数据；

从当前迭代周期内的至少一个信息流任务中获取大规模图像数据，识别所述图像数据中文字内容数据；

基于预设数据清洗规则对所述文字内容数据进行清洗，获取图像文本数据；

基于所述图像数据与所述图像文本数据，构建无标注图文对样本数据。

4.根据权利要求1所述的方法，其特征在于，所述基于所述无标注图文对样本数据对当前迭代周期前形成的多模态预训练模型进行自监督预训练包括：

将所述图文对样本数据转化为特征序列数据；

将所述特征序列数据输入当前迭代周期前形成的多模态预训练模型，创建基于所述当前迭代周期前形成的多模态预训练模型的掩码语言建模进程和图文匹配进程；

执行所述掩码语言建模进程和所述图文匹配进程，以基于特征序列数据对所述当前迭代周期前形成的多模态预训练模型进行自监督预训练。

5.根据权利要求4所述的方法，其特征在于，所述特征序列数据包括文本序列数据以及图像序列数据；

执行所述掩码语言建模进程，以基于特征序列数据对所述当前迭代周期前形成的多模态预训练模型进行自监督预训练包括：

对所述文本序列数据中的部分内容进行随机遮蔽处理；

确定遮蔽文本内容对应上下文部分的文本序列数据，以及所述文本序列数据对应的图像序列数据；

通过所述当前迭代周期前形成的多模态预训练模型，基于所述上下文部分的文本序列数据以及所述文本序列数据对应的图像序列数据，对所述遮蔽文本内容进行预测，以基于特征序列数据对所述当前迭代周期前形成的进行自监督预训练；

执行所述图文匹配进程，以基于特征序列数据对所述当前迭代周期前形成的多模态预训练模型进行自监督预训练包括：

随机将部分文本序列数据对应的图像序列数据替换；

通过所述当前迭代周期前形成的多模态预训练模型，对所述文本序列数据以及所述文本序列数据对应的图像序列数据的匹配性进行预测，以基于特征序列数据对所述当前迭代周期前形成的多模态预训练模型进行自监督预训练。

6.根据权利要求1所述的方法，其特征在于，所述基于所述当前迭代周期内的至少一个信息流任务对所述当前迭代周期前形成的多模态预训练模型进行微调，形成与所述当前迭代周期内的至少一个信息流任务匹配的目标多模态模型包括：

获取所述当前迭代周期内的至少一个信息流任务对应的模型模态需求数据以及模型训练数据；

基于所述模型模态需求数据，获取所述当前迭代周期前形成的多模态预训练模型中的目标预训练模块；

通过所述模型训练数据对所述目标预训练模块进行训练，以获取所述当前迭代周期内的至少一个信息流任务对应的目标多模态模型。

7.根据权利要求6所述的方法，其特征在于，所述模型模态需求数据包括文本模型需求、图像模型需求以及跨模态模型需求；所述图文多模态预训练模型包括文本处理模块、图像处理模块以及跨模态处理模块；

基于所述模型模态需求数据，获取所述当前迭代周期前形成的多模态预训练模型中的目标预训练模块包括：

当所述模型模态需求数据为文本模型需求时，获取所述当前迭代周期前形成的多模态预训练模型中的文本处理模块；

当所述模型模态需求数据为图像模型需求时，获取所述当前迭代周期前形成的多模态预训练模型中的图像处理模块；

当所述模型模态需求数据为跨模态模型需求时，获取所述当前迭代周期前形成的多模态预训练模型中的文本处理模块、图像处理模块以及跨模态处理模块。

8.一种多模态模型构建装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。