CN117216534A

CN117216534A - 一种模型训练方法、装置、设备、存储介质及产品

Info

Publication number: CN117216534A
Application number: CN202310181561.5A
Authority: CN
Inventors: 吉雅太; 涂荣成; 孔伟杰; 蒋杰; 蔡成飞; 赵文哲; 王红法; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-02-22
Filing date: 2023-02-22
Publication date: 2023-12-12
Also published as: US20250200955A1; WO2024174583A1; WO2024174583A9

Abstract

本申请实施例公开了一种模型训练方法、装置、设备、存储介质及产品。其中方法包括：获取第一模态数据集合，第二模态数据集合，第一掩盖数据集合和第二掩盖数据集合，采用特征提取模型对第一掩盖数据集合和第二模态数据集合进行特征预测处理，并对第二掩盖数据集合和第一模态数据集合进行特征预测处理，得到第一模态数据集合和第二模态数据集合对应的全局复原特征和全局特征，并根据预测结果，对特征提取模型进行优化处理。可见，基于第一模态数据集合和第二模态数据集合对应的全局复原特征和全局特征对特征提取模型进行优化处理，可以促进特征提取模型学习全局特征与局部特征的对齐，从而提高特征提取模型的预测结果的准确度。

Description

一种模型训练方法、装置、设备、存储介质及产品

技术领域

本申请涉及计算机技术领域，具体涉及一种模型训练方法、一种模型训练装置、一种计算机设备、一种计算机可读存储介质及一种模型训练产品。

背景技术

随着科技研究的进步，网络中涌现出海量的数据(如文字、图像、视频等)。多种(至少两种)不同存在形式的数据可被称为多模态数据。在许多领域中涉及多模态数据之间的语义关联；如文本配图领域、看图写话领域、广告推送领域等等。研究发现，确定多模态数据之间的语义关联的主流方式为：通过特征提取模型提取多模态数据的特征，并基于多模态数据的特征预测多模态数据之间的语义关联。如何提高特征提取模型的预测结果的准确度成为目前研究的热门问题。

发明内容

本申请实施例提供了一种模型训练方法、装置、设备、计算机可读存储介质及产品，能够提高特征提取模型的预测结果的准确度。

一方面，本申请实施例提供了一种模型训练方法，包括：

获取第一模态数据集合和第二模态数据集合，第一模态数据集合包括M个第一模态数据，每个第一模态数据包含至少两个第一子模态数据，第二模态数据集合包括M个第二模态数据，每个第二模态数据包含至少两个第二子模态数据；M个第一模态数据与M个第二模态数据一一对应；M为大于1的整数；

获取第一掩盖数据集合和第二掩盖数据集合，第一掩盖数据集合是对第一模态数据集合中每个第一模态数据包含的至少一个第一子模态数据进行掩盖处理得到的；第二掩盖数据集合是对第二模态数据集合中每个第二模态数据包含的至少一个第二子模态数据进行掩盖处理得到的；

采用特征提取模型对第一掩盖数据集合和第二模态数据集合进行特征预测处理，得到M个第一模态数据各自对应的全局复原特征和M个第二模态数据各自对应的全局特征；

采用特征提取模型对第二掩盖数据集合和第一模态数据集合进行特征预测处理，得到M个第一模态数据各自对应的全局特征和M个第二模态数据各自对应的全局复原特征；

根据M个第一模态数据对应的全局复原特征、M个第一模态数据对应的全局特征、M个第二模态数据对应的全局复原特征、M个第二模态数据对应的全局复原特征，对特征提取模型进行优化处理；优化处理后的特征提取模型用于检索相互对应的第一模态数据和第二模态数据。

一方面，本申请实施例提供了一种模型训练装置，该模型训练装置包括：

获取单元，用于获取第一模态数据集合和第二模态数据集合，第一模态数据集合包括M个第一模态数据，每个第一模态数据包含至少两个第一子模态数据，第二模态数据集合包括M个第二模态数据，每个第二模态数据包含至少两个第二子模态数据；M个第一模态数据与M个第二模态数据一一对应；M为大于1的整数；

以及用于获取第一掩盖数据集合和第二掩盖数据集合，第一掩盖数据集合是对第一模态数据集合中每个第一模态数据包含的至少一个第一子模态数据进行掩盖处理得到的；第二掩盖数据集合是对第二模态数据集合中每个第二模态数据包含的至少一个第二子模态数据进行掩盖处理得到的；

处理单元，用于采用特征提取模型对第一掩盖数据集合和第二模态数据集合进行特征预测处理，得到M个第一模态数据各自对应的全局复原特征和M个第二模态数据各自对应的全局特征；

以及用于采用特征提取模型对第二掩盖数据集合和第一模态数据集合进行特征预测处理，得到M个第一模态数据各自对应的全局特征和M个第二模态数据各自对应的全局复原特征；

以及用于根据M个第一模态数据对应的全局复原特征、M个第一模态数据对应的全局特征、M个第二模态数据对应的全局复原特征、M个第二模态数据对应的全局复原特征，对特征提取模型进行优化处理；优化处理后的特征提取模型用于检索相互对应的第一模态数据和第二模态数据。

在一种实施方式中，处理单元用于，根据M个第一模态数据对应的全局复原特征、M个第一模态数据对应的全局特征、M个第二模态数据对应的全局复原特征、M个第二模态数据对应的全局复原特征，对特征提取模型进行优化处理，具体用于：

根据每个第一模态数据对应的全局复原特征与M个第一模态数据对应的全局特征的相似度，计算第一语义损失值；

根据每个第二模态数据对应的全局复原特征与M个第二模态数据对应的全局特征的相似度，计算第二语义损失值；

对第一语义损失值和第二语义损失值进行求和处理，得到第一损失值；

通过第一损失值，对特征提取模型进行优化处理。

在一种实施方式中，处理单元用于，通过第一损失值，对特征提取模型进行优化处理，具体用于：

根据M个第一模态数据各自对应的全局特征和M个第二模态数据各自对应的全局特征，计算第二损失值；

通过目标第一模态数据的全局特征和目标第二模态数据的全局特征，计算第三损失值；目标第一模态数据的全局特征和目标第二模态数据的全局特征是特征提取模型对第一模态数据集合中被标记的第一模态数据和第二模态数据集合中被标记的第二模态数据进行特征提取处理得到的；

获取目标第一模态数据对应的局部复原特征，并根据目标第一模态数据对应的局部复原特征计算第四损失值；

对第一损失值、第二损失值、第三损失值和第四损失值进行求和处理，并根据求和结果对特征提取模型进行优化处理。

在一种实施方式中，处理单元用于，根据M个第一模态数据各自对应的全局特征和M个第二模态数据各自对应的全局特征，计算第二损失值，具体用于：

根据每个第一模态数据对应的全局特征与M个第二模态数据对应的全局特征的相似度，计算第三语义损失值；

根据每个第二模态数据对应的全局特征与M个第一模态数据对应的全局特征的相似度，计算第四语义损失值；

对第三语义损失值和第四语义损失值进行求和处理，得到第二损失值。

在一种实施方式中，处理单元用于，通过目标第一模态数据的全局特征和目标第二模态数据的全局特征，计算第三损失值，具体用于：

对目标第一模态数据的全局特征和目标第二模态数据的全局特征进行拼接处理，得到拼接特征；

通过拼接特征预测目标第一模态数据的全局特征和目标第二模态数据的全局特征之间的匹配关系；

基于预测的匹配关系，以及目标第一模态数据的全局特征和目标第二模态数据的全局特征之间的实际对应关系，计算第三损失值。

在一种实施方式中，目标第一模态数据对应的局部复原特征是特征提取模型对被掩盖后的目标第一模态数据和目标第一模态数据对应的第二模态数据进行特征提取处理后得到的；处理单元用于，根据目标第一模态数据对应的局部复原特征计算第四损失值，具体用于：

通过目标第一模态数据对应的局部复原特征预测目标第一模态数据中被掩盖的第一子模态数据；

基于预测的第一子模态数据和目标第一模态数据中被掩盖的第一子模态数据，计算第四损失值。

在一种实施方式中，特征提取模型包括第一编码器，第二编码器和第三编码器；处理单元用于，采用特征提取模型对第一掩盖数据集合和第二模态数据集合进行特征预测处理，得到M个第一模态数据各自对应的全局复原特征和M个第二模态数据各自对应的全局特征，具体用于：

采用第一编码器分别对第一掩盖数据集合中每个第一掩盖数据进行编码处理，得到每个第一掩盖数据对应的第一特征信息；

采用第二编码器分别对第二模态数据集合中每个第二模态数据进行编码处理，得到每个第二模态数据对应的第二特征信息；

采用第三编码器对M个第一掩盖数据各自对应的第一特征信息和M个第二模态数据各自对应的第二特征信息进行特征交互处理，得到M个第一模态数据对应的全局复原特征和M个第二模态数据对应的全局特征。

在一种实施方式中，第i个第一掩盖数据对应的第一特征信息包括第i个第一掩盖数据的局部特征，i为小于等于M的正整数；第i个第二模态数据对应的第二特征信息包括第i个第二模态数据的局部特征；第三编码器包括自注意力机制模块和交叉注意力机制模块；

采用第三编码器对M个第一掩盖数据对应的第一特征信息和M个第二模态数据对应的第二特征信息进行特征交互处理的过程包括：

采用自注意力机制模块挖掘每个第一掩盖数据对应的局部特征之间的关联关系；以及采用自注意力机制模块挖掘每个第二模态数据各自对应的局部特征之间的关联关系；

采用交叉注意力机制模块对M个第一掩盖数据对应的挖掘后的局部特征和M个第二模态数据对应的挖掘后的局部特征进行特征交互处理。

在一种实施方式中，特征提取模型包括第一编码器，第二编码器和第三编码器；处理单元用于，采用特征提取模型对第二掩盖数据集合和第一模态数据集合进行特征预测处理，得到M个第一模态数据各自对应的全局特征和M个第二模态数据各自对应的全局复原特征，具体用于：

采用第一编码器分别对第一模态数据集合中每个第一模态数据进行编码处理，得到每个第一模态数据对应的第三特征信息；

采用第二编码器分别对第二掩盖数据集合中每个第二掩盖数据进行编码处理，得到每个第二掩盖数据对应的第四特征信息；

采用第三编码器对M个第一模态数据各自对应的第三特征信息和M个第二掩盖数据各自对应的第四特征信息进行特征交互处理，得到M个第一模态数据对应的全局特征和M个第二模态数据对应的全局复原特征。

在一种实施方式中，处理单元用于，获取第一掩盖数据集合和第二掩盖数据集合，具体用于：

分别对第一模态数据集合中的第一模态数据进行划分，得到每个第一模态数据对应的第一数据序列，第一数据序列包括至少两个第一子模态数据；

分别对第二模态数据集合中的第二模态数据进行划分，得到每个第二模态数据对应的第二数据序列，第二数据序列包括至少两个第二子模态数据；

对每个第一模态数据对应的第一数据序列中的至少一个第一子模态数据进行掩盖处理，得到第一掩盖数据集合；

对每个第二模态数据对应的第二数据序列中的至少一个第二子模态数据进行掩盖处理，得到第二掩盖数据集合。

在一种实施方式中，处理单元还用于：

获取目标图像和目标图像对应的问题文本；

采用优化处理后的特征提取模型对目标图像和问题文本进行特征提取处理，得到目标图像和问题文本各自对应的特征信息；

通过多层感知机对目标图像和问题文本各自对应的特征信息进行分类处理，得到目标图像对应的问题文本对应的答复文本。

相应地，本申请提供了一种计算机设备，该计算机设备包括：

存储器，存储器中存储有计算机程序；

处理器，用于加载计算机程序实现上述模型训练方法。

相应地，本申请提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序适于由处理器加载并执行上述模型训练方法。

相应地，本申请提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述模型训练方法。

本申请实施例中，获取第一模态数据集合和第二模态数据集合，并获取第一掩盖数据集合和第二掩盖数据集合，采用特征提取模型对第一掩盖数据集合和第二模态数据集合进行特征预测处理，得到M个第一模态数据各自对应的全局复原特征和M个第二模态数据各自对应的全局特征，采用特征提取模型对第二掩盖数据集合和第一模态数据集合进行特征预测处理，得到M个第一模态数据各自对应的全局特征和M个第二模态数据各自对应的全局复原特征，根据M个第一模态数据对应的全局复原特征、M个第一模态数据对应的全局特征、M个第二模态数据对应的全局复原特征、M个第二模态数据对应的全局复原特征，对特征提取模型进行优化处理。可见，基于第一模态数据集合和第二模态数据集合对应的全局复原特征和全局特征对特征提取模型进行优化处理，可以促进特征提取模型学习全局特征与局部特征的对齐，从而提高特征提取模型的预测结果的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种模型训练框架图；

图2为本申请实施例提供的一种模型训练方法的流程图；

图3为本申请实施例提供的一种模态数据处理示意图；

图4为本申请实施例提供的另一种模型训练方法的流程图；

图5为本申请实施例提供的一种模型效果展示图；

图6为本申请实施例提供的一种模型训练装置的结构示意图；

图7为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请涉及人工智能、计算机视觉技术、自然语言处理技术和深度学习，下面对相关技术进行简单介绍：

人工智能(Artificial Intelligence，AI)：所谓AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。本申请实施例主要涉及通过特征提取模型提取多模态数据的特征，并通过提取的特征分析不同模态数据之间的语义关联。

AI技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大应用程序的处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)：计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、追随和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。本申请实施例主要涉及通过特征提取模态提取图像(视频)模态数据中的特征。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本申请实施例主要涉及通过特征提取模态提取文本模态数据中的特征。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。本申请实施例主要通过第一模态数据集合和第二模态数据集合对应的全局复原特征和全局特征对特征提取模型进行优化处理，以促进特征提取模型学习全局特征与局部特征的对齐，从而提高特征提取模型的预测结果的准确度。

基于人工智能、计算机视觉技术、自然语言处理技术和机器学习，本申请实施例提供了一种模型训练方案，以提高特征提取模型的预测结果的准确度。图1为本申请实施例提供的一种模型训练框架图，如图1所示，该模型训练框架可由搭载在计算机设备101中，此处的计算机设备101可以是终端设备或者服务器。其中，终端设备可以包括但不限于：智能手机(如Android手机、IOS手机等)、平板电脑、便携式个人计算机、移动互联网设备(MobileInternet Devices，简称MID)、车载终端、智能家电、无人飞行器、可穿戴设备等，本申请实施例对此不做限定。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器，本申请实施例对此不做限定。

需要说明的是，图1中计算机设备的数量仅用于举例，并不构成本申请的实际限定；例如，图1中的模型训练框架还可以搭载分别搭载在多个计算机设备中，各个计算机设备可以通过有线或无线的方式进行连接，本申请对此不作限制。

在具体实现中，该模型训练方案的大致原理如下：

(1)计算机设备101获取第一模态数据集合和第二模态数据集合。第一模态数据集合包括M个第一模态数据，每个第一模态数据包含至少两个第一子模态数据；例如，假设第一模态数据为文本模态数据，第一子模态数据可以是指对文本进行分词处理后的字或词(token)；假设第一模态数据为图像模态数据，第一子模态数据可以是指对图像进行网块划分后的网块(token)。类似地，第二模态数据集合包括M个第二模态数据，每个第二模态数据包含至少两个第二子模态数据，M为大于1的整数。

第一模态数据与第二模态数据的存在形式不同，M个第一模态数据与M个第二模态数据一一对应；例如，第一模态数据是文本模态数据，第二模态数据是图像模态数据；又例如，第一模态数据是视频模态数据，第二模态数据是文本模态数据。所谓对应，在语义空间中可以理解为：相互对应的第一模态数据和第二模态数据的特征在语义空间中相互匹配；在现实世界中可以理解为：第一模态数据和第二模态数据可以相互描述；例如，第一模态数据为图像1，第二模态数据为文本A，通过图像1中的内容可以概括出文本A，通过文本A也可以描述图像1中的内容。

(2)计算机设备101获取第一掩盖数据集合和第二掩盖数据集合。第一掩盖数据集合是对第一模态数据集合中每个第一模态数据包含的至少一个第一子模态数据进行掩盖处理得到的；第二掩盖数据集合是对第二模态数据集合中每个第二模态数据包含的至少一个第二子模态数据进行掩盖处理得到的。对于文本模态数据来说，掩盖处理具体可以是指将文本中的至少一个字或词(token)替换为预设标识，或者替换为其它的字或词；对于图像模态数据来说，掩盖处理具体可以是指将图像中的至少一个网块(token)替换为预设标识，或者替换为其它任意图像。

(3)计算机设备101采用特征提取模型对第一掩盖数据集合和第二模态数据集合进行特征预测处理，得到M个第一模态数据各自对应的全局复原特征和M个第二模态数据各自对应的全局特征。

在一种实施方式中，特征提取模型包括第一编码器，第二编码器和第三编码器；其中，第一编码器和第二编码器为单模态编码器，第三编码器为垮模态编码器，单模态编码器用于提取单一模态数据的特征，垮模态编码器用于加强多模态数据特征间的交互。计算机设备101采用第一编码器分别对第一掩盖数据集合中每个第一掩盖数据进行编码处理，得到每个第一掩盖数据对应的第一特征信息。类似地，计算机设备101采用第二编码器分别对第二模态数据集合中每个第二模态数据进行编码处理，得到每个第二模态数据对应的第二特征信息。在得到每个第一掩盖数据对应的第一特征信息和每个第二模态数据对应的第二特征信息后，计算机设备101采用第三编码器对M个第一掩盖数据各自对应的第一特征信息和M个第二模态数据各自对应的第二特征信息进行特征交互处理，得到M个第一模态数据对应的全局复原特征和M个第二模态数据对应的全局特征。

(4)计算机设备101采用特征提取模型对第二掩盖数据集合和第一模态数据集合进行特征预测处理，得到M个第一模态数据各自对应的全局特征和M个第二模态数据各自对应的全局复原特征。

与步骤(3)类似，特征提取模型包括第一编码器，第二编码器和第三编码器。计算机设备101采用第一编码器分别对第一模态数据集合中每个第一模态数据进行编码处理，得到每个第一模态数据对应的第三特征信息。类似地，计算机设备101采用第二编码器分别对第二掩盖数据集合中每个第二掩盖数据进行编码处理，得到每个第二掩盖数据对应的第四特征信息。在得到每个第一模态数据对应的第三特征信息和每个第二掩盖数据对应的第四特征信息后，计算机设备101采用第三编码器对M个第一模态数据各自对应的第三特征信息和M个第二掩盖数据各自对应的第四特征信息进行特征交互处理，得到M个第一模态数据对应的全局特征和M个第二掩盖数据对应的全局复原特征。

(5)计算机设备101根据M个第一模态数据对应的全局复原特征、M个第一模态数据对应的全局特征、M个第二模态数据对应的全局复原特征、M个第二模态数据对应的全局复原特征，对特征提取模型进行优化处理，得到优化处理后的特征提取模型。优化处理后的特征提取模型可以用于检索具有对应关系的多模态数据；例如，检索第二模态数据集合中与目标第一模态数据对应的第二模态数据；又例如，检索第一模态数据集合中与目标第二模态数据对应的第一模态数据。

在一种实施方式中，一方面，计算机设备101根据每个第一模态数据对应的全局复原特征与M个第一模态数据对应的全局特征的相似度，计算第一语义损失值。另一方面，计算机设备101根据每个第二模态数据对应的全局复原特征与M个第二模态数据对应的全局特征的相似度，计算第二语义损失值。在得到第一语义损失值和第二语义损失值后，计算机设备101对第一语义损失值和第二语义损失值进行求和处理，得到第一损失值，并通过第一损失值，对特征提取模型进行优化处理(如调整特征提取模型中网络层的数量、网络层中卷积核的数量、网络层中卷积核的尺度等)，得到优化后的特征提取模型。

基于上述模型训练方案，本申请实施例提出更为详细的模型训练方法，下面将结合附图对本申请实施例提出的模型训练方法进行详细介绍。

请参阅图2，图2为本申请实施例提供的一种模型训练方法的流程图，该模型训练方法可以由计算机设备执行，该计算机设备可以是终端设备或者服务器。如图2所示，该模型训练方法可包括如下步骤S201-S205：

S201、获取第一模态数据集合和第二模态数据集合。

第一模态数据集合包括M个第一模态数据，每个第一模态数据包含至少两个第一子模态数据，M为大于1的整数；例如，假设第一模态数据为文本模态数据，第一子模态数据可以是指对文本进行分词处理后的字或词(token)；假设第一模态数据为图像模态数据，第一子模态数据可以是指对图像进行网块划分后的网块(token)。类似地，第二模态数据集合包括M个第二模态数据，每个第二模态数据包含至少两个第二子模态数据。

第一模态数据与第二模态数据的存在形式不同；例如，第一模态数据是文本模态数据，第二模态数据是图像模态数据；又例如，第一模态数据是视频模态数据，第二模态数据是文本模态数据。M个第一模态数据与M个第二模态数据一一对应；所谓对应，在语义空间中可以理解为：相互对应的第一模态数据和第二模态数据的特征在语义空间中相互匹配；在现实世界中可以理解为：第一模态数据和第二模态数据可以相互描述；例如，第一模态数据为图像1，第二模态数据为文本A，通过图像1中的内容可以概括出文本A，通过文本A也可以描述图像1中的内容。

S202、获取第一掩盖数据集合和第二掩盖数据集合。

在一种实施方式中，计算机设备分别对第一模态数据集合中的第一模态数据进行划分，得到每个第一模态数据对应的第一数据序列，第一数据序列包括至少两个第一子模态数据。类似地，计算机设备分别对第二模态数据集合中的第二模态数据进行划分，得到每个第二模态数据对应的第二数据序列，第二数据序列包括至少两个第二子模态数据。

接着计算机设备对第一模态数据集合中每个第一模态数据包含的至少一个第一子模态数据进行掩盖处理，得到第一掩盖数据集合。每个第一模态数据中被掩盖的第一子模态数据的数量可以相同或不同，每个第一模态数据中被掩盖的第一子模态数据的数量可以根据实际情况进行调整(如调整每个第一模态数据对应的掩盖比例)，本申请对此不作限制。掩盖处理是指将模态数据包含的至少一个子模态数据替换为预设标识，或者替换为其它干扰数据；例如，对于文本模态数据来说，掩盖处理可以理解为将文本(模态数据)中的至少一个字或词(token)替换为预设标识，或者替换为其它的字或词；对图像模态数据来说，掩盖处理可以理解为将图像(模态数据)中的至少一个网块(token)替换为预设标识，或者替换为其它任意图像。

类似地，计算机设备对第二模态数据集合中每个第二模态数据包含的至少一个第二子模态数据进行掩盖处理，得到第二掩盖数据集合。具体地，计算机设备获取每个第二模态数据对应的掩盖比例，根据每个第二模态数据对应的掩盖比例对该第二模态数据中的至少一个第二子模态数据进行掩盖处理，得到的第二掩盖数据集合。

S203、采用特征提取模型对第一掩盖数据集合和第二模态数据集合进行特征预测处理，得到M个第一模态数据各自对应的全局复原特征和M个第二模态数据各自对应的全局特征。

特征提取模型包括第一编码器，第二编码器和第三编码器；其中，第一编码器和第二编码器为单模态编码器，第三编码器为垮模态编码器，单模态编码器用于提取单一模态数据的特征，垮模态编码器用于加强多模态数据特征间的交互。

在一种实施方式中，计算机设备采用第一编码器分别对第一掩盖数据集合中每个第一掩盖数据进行编码处理，得到每个第一掩盖数据对应的第一特征信息。类似地，计算机设备采用第二编码器分别对第二模态数据集合中每个第二模态数据进行编码处理，得到每个第二模态数据对应的第二特征信息。

可以理解的是，由于第一掩盖数据是对第一模态数据进行掩盖处理后得到的，第i个第一特征信息中包含第i个第一模态数据中未被掩盖部分的特征(为第i个第一模态数据的局部特征)以及第i个第一模态数据中被掩盖部分的特征(为第i个第一模态数据的局部复原特征)，第i个第一模态数据中被掩盖部分的特征可以基于第i个第一模态数据中未被掩盖部分的特征还原得到，i为小于等于M的正整数。此外，第一特征信息还包括可以包括第i个第一模态数据的全局复原特征。第i个第二特征信息中包含第i个第二模态数据的局部特征和全局特征。需要说明的是，模态数据的全局特征(全局复原特征)可以是由局部特征(局部复原特征)直接组合得到的，可以是对局部特征(局部复原特征)进行进一步处理(如降噪处理、特征提取处理等)后得到的。

在得到每个第一掩盖数据对应的第一特征信息和每个第二模态数据对应的第二特征信息后，计算机设备采用第三编码器对M个第一掩盖数据各自对应的第一特征信息和M个第二模态数据各自对应的第二特征信息进行特征交互处理，得到M个第一模态数据对应的全局复原特征和M个第二模态数据对应的全局特征。

具体来说，第i个第一掩盖数据对应的第一特征信息包括第i个第一掩盖数据的局部特征；第i个第二模态数据对应的第二特征信息包括第i个第二模态数据的局部特征(局部复原特征)，i为小于等于M的正整数。第三编码器包括自注意力机制模块和交叉注意力机制模块。计算机设备采用第三编码器对M个第一掩盖数据对应的第一特征信息和M个第二模态数据对应的第二特征信息进行特征交互处理的过程包括：采用自注意力机制模块挖掘每个第一掩盖数据对应的局部特征(局部复原特征)之间的关联关系，以及采用自注意力机制模块挖掘每个第二模态数据各自对应的局部特征之间的关联关系。接着采用交叉注意力机制模块对M个第一掩盖数据对应的挖掘后的局部特征和M个第二模态数据对应的挖掘后的局部特征进行特征交互处理。

举例来说，假设第一模态数据(第一掩盖数据)为图像模态数据，第二模态数据(第二掩盖数据)为文本模态数据，计算机设备可以将第一掩盖数据对应的挖掘后的局部特征作为问题(query)，第二模态数据对应的挖掘后的局部特征作为答案(key和value)来进行特征交互。可选的，计算机设备还可以将第一掩盖数据对应的全局复原特征作为问题(query)，第二模态数据对应的挖掘后的局部特征作为答案(key和value)来进行特征交互。

S204、采用特征提取模型对第二掩盖数据集合和第一模态数据集合进行特征预测处理，得到M个第一模态数据各自对应的全局特征和M个第二模态数据各自对应的全局复原特征。

在一种实施方式中，计算机设备采用第一编码器分别对第一模态数据集合中每个第一模态数据进行编码处理，得到每个第一模态数据对应的第三特征信息。类似地，计算机设备采用第二编码器分别对第二掩盖数据集合中每个第二掩盖数据进行编码处理，得到每个第二掩盖数据对应的第四特征信息。

可以理解的是，由于第二掩盖数据是对第二模态数据进行掩盖处理后得到的，第i个第四特征信息中包含第i个第二模态数据中未被掩盖部分的特征(为第i个第二模态数据的局部特征)以及第i个第二模态数据中被掩盖部分的特征(为第i个第二模态数据的局部复原特征)，第i个第二模态数据中被掩盖部分的特征可以基于第i个第二模态数据中未被掩盖部分的特征还原得到，i为小于等于M的正整数。此外，第四特征信息还包括可以包括第i个第二模态数据的全局复原特征。第i个第三特征信息中包含第i个第一模态数据的局部特征和全局特征。

在得到每个第一模态数据对应的第三特征信息和每个第二掩盖数据对应的第四特征信息后，计算机设备采用第三编码器对M个第一模态数据各自对应的第三特征信息和M个第二掩盖数据各自对应的第四特征信息进行特征交互处理，得到M个第一模态数据对应的全局特征和M个第二模态数据对应的全局复原特征。

具体来说，第i个第一模态数据对应的第三特征信息包括第i个第一模态数据的局部特征；第i个第二掩盖数据对应的第四特征信息包括第i个第二掩盖数据的局部特征(局部复原特征)，i为小于等于M的正整数。计算机设备采用第三编码器对M个第一模态数据对应的第三特征信息和M个第二掩盖数据对应的第四特征信息进行特征交互处理的过程包括：采用自注意力机制模块挖掘每个第一模态数据对应的局部特征之间的关联关系，以及采用自注意力机制模块挖掘每个第二掩盖数据各自对应的局部特征(局部复原特征)之间的关联关系。接着采用交叉注意力机制模块对M个第一模态数据对应的挖掘后的局部特征和M个第二掩盖数据对应的挖掘后的局部特征进行特征交互处理。

S205、根据M个第一模态数据对应的全局复原特征、M个第一模态数据对应的全局特征、M个第二模态数据对应的全局复原特征、M个第二模态数据对应的全局复原特征，对特征提取模型进行优化处理。

优化处理后的特征提取模型可以用于检索具有对应关系的多模态数据；例如，检索第二模态数据集合中与目标第一模态数据对应的第二模态数据。

图3为本申请实施例提供的一种模态数据处理示意图。如图3所示，在特征提取模型优化过程中，可以让特征提取模型通过跨模态交互复原被掩盖数据的全局复原特征，对相互对应的第一模态数据和第二模态数据，可以先按照掩盖比例分别随机掩盖第一模态数据或第二模态数据得到{I_mask,T}和{,T_mask}，这样被掩盖的模态数据就可以从另一个未被掩盖的模态数据中学习丢失的语义信息。对于图像模态数据(第一模态数据)和文本模态数据(第二模态数据)，掩盖率可以分别为80％和40％，即80％的图像网块(patch)和40％的文本单词。然后两组数据分别送入模型，利用跨模态的信息获得复原的全局表征，通过对比学习的形式让复原特征接近完整特征

在一种实施方式中，一方面，计算机设备根据每个第一模态数据对应的全局复原特征与M个第一模态数据对应的全局特征的相似度，计算第一语义损失值。具体可以表示为：

其中，NCE_V为第一语义损失值，表示第i个第一模态数据对应的全局复原特征，表示第i个第一模态数据对应的全局特征，s(x,y)表示计算x和y的余弦相似度，exp()为指数函数，τ为温度系数，M为第一模态数据集合中第一模态数据的数量。

另一方面，计算机设备根据每个第二模态数据对应的全局复原特征与M个第二模态数据对应的全局特征的相似度，计算第二语义损失值。具体可以表示为：

其中，NCE_L为第二语义损失值，表示第i个第二模态数据对应的全局复原特征，/>表示第i个第二模态数据对应的全局特征，s(x,y)表示计算x和y的余弦相似度，exp()为指数函数，τ为温度系数，M为第二模态数据集合中第二模态数据的数量。

在得到第一语义损失值和第二语义损失值后，计算机设备对第一语义损失值和第二语义损失值进行求和处理，得到第一损失值。具体可以表示为：

L_SCL＝CE_V+CE_L

其中，L_SCL为第一损失值，NCE_V为第一语义损失值，NCE_L为第二语义损失值。

在得到第一损失值后，计算机设备可以通过第一损失值，对特征提取模型进行优化处理(如调整特征提取模型中网络层的数量、网络层中卷积核的数量、网络层中卷积核的尺度等)，得到优化后的特征提取模型。

请参阅图4，图4为本申请实施例提供的另一种模型训练方法的流程图，该模型训练方法可以由计算机设备执行，该计算机设备可以是终端设备或者服务器。如图4所示，该模型训练方法可包括如下步骤S401-S409：

S401、获取第一模态数据集合和第二模态数据集合。

S402、获取第一掩盖数据集合和第二掩盖数据集合。

步骤S401和步骤S402的具体实施方式可参考图2中步骤S201和步骤S202的实施方式，在此不再赘述。

S403、采用特征提取模型对第一掩盖数据集合和第二模态数据集合进行特征预测处理，得到M个第一模态数据各自对应的全局复原特征和M个第二模态数据各自对应的全局特征。

在一种实施方式中，计算机设备采用特征提取模型对第一掩盖数据集合和第二模态数据集合进行特征预测处理，得到M个第一模态数据各自对应的全局复原特征和M个第二模态数据各自对应的全局特征。具体来说，计算机设备可以采用特征提取模型对第一掩盖数据集合和第二模态数据集合中相互对应的第一掩盖数据和第二模态数据进行特征预测处理，得到该第一掩盖数据所属的第一模态数据的全局复原特征(和局部复原特征)；以及该第二模态数据的全局特征(和局部特征)。具体可以表示为：

I_Re,T_Co＝Model(I_mask,T)

其中，I_Re为第一模态数据的全局复原特征，T_Co为第二模态数据的全局特征，I_mask为第一掩盖数据，T为第二模态数据，Model(a,b)表示采用特征提取模型对a和b进行特征预测处理。

计算机设备按照上述实施方式，重复调用特征提取模型对第一掩盖数据集合中每个第一掩盖数据以及该第一掩盖数据对应的第二模态数据进行特征预测处理，即可得到M个第一模态数据各自对应的全局复原特征和M个第二模态数据各自对应的全局特征。

S404、采用特征提取模型对第二掩盖数据集合和第一模态数据集合进行特征预测处理，得到M个第一模态数据各自对应的全局特征和M个第二模态数据各自对应的全局复原特征。

在一种实施方式中，计算机设备采用特征提取模型对第一模态数据集合和第二掩盖数据集合进行特征预测处理，得到M个第一模态数据各自对应的全局特征和M个第二模态数据各自对应的全局复原特征。具体来说，计算机设备可以采用特征提取模型对第二掩盖数据集合和第一模态数据集合中相互对应的第二掩盖数据和第一模态数据进行特征预测处理，得到该第二掩盖数据所属的第二模态数据的全局复原特征(和局部复原特征)；以及该第一模态数据的全局特征(和局部特征)。具体可以表示为：

I_Co,T_Re＝Model(I,T_mask)

其中，I_Co为第一模态数据的全局特征，T_Re为第二模态数据的全局复原特征，I为第一模态数据，T_mask为第二掩盖数据，Model(a,b)表示采用特征提取模型对a和b进行特征预测处理。

计算机设备按照上述实施方式，重复调用特征提取模型对第二掩盖数据集合中每个第二掩盖数据以及该第二掩盖数据对应的第一模态数据进行特征预测处理，即可得到M个第一模态数据各自对应的全局特征和M个第二模态数据各自对应的全局复原特征。

S405、根据M个第一模态数据对应的全局复原特征、M个第一模态数据对应的全局特征、M个第二模态数据对应的全局复原特征、M个第二模态数据对应的全局复原特征，计算第一损失值。

步骤S405的具体实施方式可参考图2中步骤S205中第一损失值的计算方式，在此不再赘述。

S406、根据M个第一模态数据各自对应的全局特征和M个第二模态数据各自对应的全局特征，计算第二损失值。

在特征提取模型的优化过程中，可以将第一模态数据集合中M个第一模态数据各自对应的全局特征和第二模态数据集合中M个第二模态数据各自对应的全局特征分别映射到视觉编码空间和语言编码空间，然后通过对比学习调整M个第一模态数据各自对应的全局特征和M个第二模态数据各自对应的全局特征在语义空间中的位置，使得正样本特征靠近、负样本相远离。将M个第一模态数据各自对应的全局特征和M个第二模态数据各自对应的全局特征映射到统一语义空间后，在第三编码器(融合编码器)对M个第一模态数据各自包含的第一子模态数据(如文本中的字或词)和M个第二模态数据各自包含的第二子模态数据(如图像中的网块)进行(token级别)交互。具体来说，第一模态数据集合和第二模态数据集合中，相互对应的第一模态数据和第二模态数据作为正样本，第二模态数据集合中除当前第二模态数据外的其它第二模态数据对于当前第一模态数据来说是负样本。

在一种实施方式中，计算机设备获取M个第一模态数据各自对应的全局特征和M个第二模态数据各自对应的全局特征。在一个实施例中，M个第一模态数据各自对应的全局特征是由步骤S404得到，M个第二模态数据各自对应的全局特征是由步骤S403得到的。在另一个实施例中，计算机设备采用特征提取模型对第一模态数据集合和第二模态数据集合进行特征提取处理，得到M个第一模态数据各自对应的全局特征和M个第二模态数据各自对应的全局特征。具体来说，计算机设备采用第一编码器分别对第一模态数据集合中每个第一模态数据进行编码处理，得到每个第一模态数据对应的第三特征信息。类似地，计算机设备采用第二编码器分别对第二模态数据集合中每个第二模态数据进行编码处理，得到每个第二模态数据对应的第二特征信息。在得到每个第一模态数据对应的第三特征信息和每个第二模态数据对应的第二特征信息后，计算机设备采用第三编码器对M个第一模态数据各自对应的第三特征信息和M个第二模态数据各自对应的第二特征信息进行特征交互处理，得到M个第一模态数据对应的全局特征和M个第二模态数据对应的全局特征。

进一步地，计算机设备根据M个第一模态数据各自对应的全局特征和M个第二模态数据各自对应的全局特征，计算第二损失值的具体实施方式如下：

一方面，计算机设备根据每个第一模态数据对应的全局特征与M个第二模态数据对应的全局特征的相似度，计算第三语义损失值。具体可以表示为：

其中，NCE_V2T为第三语义损失值，V_i表示第i个第一模态数据对应的全局特征，T_i表示第i个第二模态数据对应的全局特征，s(x,y)表示计算x和y的余弦相似度，exp()为指数函数，τ为温度系数，M为第一模态数据集合中第一模态数据的数量。

另一方面，计算机设备根据每个第二模态数据对应的全局特征与M个第一模态数据对应的全局特征的相似度，计算第四语义损失值。具体可以表示为：

其中，NCE_T2V为第四语义损失值，T_i表示第i个第二模态数据对应的全局特征，V_i表示第i个第一模态数据对应的全局特征，s(x,y)表示计算x和y的余弦相似度，exp()为指数函数，τ为温度系数，M为第二模态数据集合中第二模态数据的数量。

在得到第三语义损失值和第四语义损失值后，计算机设备对第三语义损失值和第四语义损失值进行求和处理，得到第二损失值。具体可以表示为：

L_CL＝CE_V2T+CE_T2V

其中，L_CL为第二损失值，NCE_V2T为第三语义损失值，NCE_T2V为第四语义损失值。

S407、通过目标第一模态数据的全局特征和目标第二模态数据的全局特征，计算第三损失值。

在特征提取模型的优化过程中，可以对第三编码器(融合编码器)输出的被标记(如通过[CLS]进行标记)的第一模态数据的全局特征和被标记的第二模态数据的全局特征进行拼接，然后对拼接结果进行二分类，以帮助特征提取模型学习第一模态数据和第二模态数据的整体信息的对应关系。第一模态数据集合和第二模态数据集合中，相互对应的目标第一模态数据和目标第二模态数据作为正样本，将目标第一模态数据随机替换成第一模态数据集合中其它第一模态数据来构建负样本。

在一种实施方式中，目标第一模态数据的全局特征和目标第二模态数据的全局特征是特征提取模型对第一模态数据集合中被标记的第一模态数据和第二模态数据集合中被标记的第二模态数据进行特征提取处理得到的。第一模态数据集合中被标记的第一模态数据的数量可以为[1,M]，第二模态数据集合中被标记的第二模态数据的数量可以为[1,M]。计算机设备对目标第一模态数据的全局特征和目标第二模态数据的全局特征进行拼接处理，得到拼接特征。在得到拼接特征后，通过拼接特征预测目标第一模态数据的全局特征和目标第二模态数据的全局特征之间的匹配关系，并基于预测的匹配关系，以及目标第一模态数据的全局特征和目标第二模态数据的全局特征之间的实际对应关系，计算第三损失值。具体可以表示为：

L_VTM＝CE(φ(concat[V,T]),y)

其中，L_VTM为第三损失值，V为目标第一模态数据的全局特征，T为目标第二模态数据的全局特征，concat(a,b)表示连接特征a和特征b，φ为二分类器，y为V和T的实际对应关系(0表示不对应，1表示对应)，CE(c,d)表示计算c和d的交叉熵损失。

S408、获取目标第一模态数据对应的局部复原特征，并根据目标第一模态数据对应的局部复原特征计算第四损失值。

设第一模态数据为文本模态数据，第二模态数据为视觉(图像/视频)模态数据，在特征提取模型的优化过程中，可以对每个文本模态数据中的部分(至少一个)字或词(即第一子模态数据)进行掩盖处理，让特征提取模型根据视觉信息(即第二模态数据)和文本上下文(即第一模态数据中未被掩盖的第一子模态数据)预测被掩盖的字或词(即第一模态数据中被掩盖的第一子模态数据)。这种字/词(token)级别的重建可以帮助模型学习语言单词和视觉实体间的联系，实现准确的局部到局部的对齐。

目标第一模态数据对应的局部复原特征是特征提取模型对被掩盖后的目标第一模态数据和目标第一模态数据对应的第二模态数据进行特征提取处理后得到的。

在一种实施方式中，计算机设备可以通过步骤S403获取到目标第一模态数据对应的局部复原特征，并通过目标第一模态数据对应的局部复原特征预测目标第一模态数据中被掩盖的第一子模态数据；例如，预测目标第一模态数据中被掩盖的第一子模态数据在词表中的标识(ID)。在预测出目标第一模态数据中被掩盖的第一子模态数据后，基于预测的第一子模态数据和目标第一模态数据中被掩盖的第一子模态数据，计算第四损失值。具体可以表示为：

L_MLM＝E(φ(T_maqk),y)

其中，L_MLM为第四损失值，T_mask为目标第一模态数据中被掩盖的第一子模态数据对应的局部复原特征，φ()为词表分类器，y为目标第一模态数据中被掩盖的第一子模态数据在词表中的标识(ID)，CE(a,b)表示计算a和b的交叉熵损失。

S409、对第一损失值、第二损失值、第三损失值和第四损失值进行求和处理，并根据求和结果对特征提取模型进行优化处理。

对第一损失值、第二损失值、第三损失值和第四损失值进行求和处理，可以表示为：

L＝L_CL+_VTM+_MLM+_SCL

其中，L为总体损失，L_SCL为第一损失值，L_CL为第二损失值，L_VTM为第三损失值，L_MLM为第四损失值。

可选的，计算机设备还可以基于第一损失值和第二损失值-第四损失值中的至少一个来计算总体损失；例如，基于第一损失值和第二损失值来计算总体损失；又例如，基于第一损失值，第三损失值，第四损失值来计算总体损失。

在得到总体损失后，计算机设备可以对特征提取模型进行优化处理(如调整特征提取模型中网络层的数量、网络层中卷积核的数量、网络层中卷积核的尺度等)，得到优化后的特征提取模型。

在一个实施例中，第一模态数据为图像模态数据或者视频模态数据，第一编码器为视觉编码器；第一模态数据集合(输入的图像集合或视频)先通过卷积的方式处理成网块(patch)特征，尺寸为Q×3×N×P×P，其中P为网块(patch)的大小，N为每张图像patch的数量，Q为帧数，对于图像模态数据Q的值1，然后还可以再加上可学习的位置编码和时序编作为特征提取模型的输入。然后网块特征经过第一编码其中堆叠的视觉注意力模块，进行特征提取。对于视觉编码器(第一编码器)，可以使用已有图像编码器(如CLIP-ViT)中的参数对第一编码器做参数初始化。第二模态数据为文本模态数据，第二编码器为文本编码器，对于第二模态数据集合，先用分词器做分词，得到字/词(token)序列，再映射到隐空间维度。然后映射结果经过第二编码器中堆叠的自注意力模块，进行文本上下文的学习。可以使用已有文本编码器(如RoBERTa)中的参数对第二编码器做参数初始化。融合编码器(第三编码器)为双流的融合结构，共有k层(k为正整数，如k＝6)，每层模块由模态内的自注意力和模态间的交叉注意力构成。以图片特征为例，在每一层先经过视觉自注意力挖掘模态内信息，然后图片特征作为query，文本特征作为key和value进行交叉注意力。其中，所有编码器隐状态空间维度可以为768，预训练时图像尺寸可以为288×288，文本长度可以为50。

图5为本申请实施例提供的一种模型效果展示图。如图5所示，通过本申请提供的模型训练方法对特征提取模型进行训练后，文本模态数据的总体表征(局部特征和全局特征)可以更加准确关注到图像中的对应目标。通过利用可见的局部特征信息来复原被掩盖数据的全局特征，从而使特征提取模型学到有强表征能力的全局特征。在同等预训练数据量下，通过本申请提出的模型训练方法得到的优化后的特征提取模型的预测结果的更加准确，且在众多下游任务中取得了更好的效果。

进一步地，优化后的特征提取模型可以应用于视频智能创作，广告指纹生成，广告推荐等多个场景中，提升广告全链路整体投放效果与内容消费者使用体验。具体场景如下：

(1)应用于视频智能创作：通过跨模态检索+拼接的方式，自动化地根据文案批量生成视频创意，可极大地提升视频创作效率。具体而言，给定需要创作的视频的文本模态数据，通过优化后的特征提取模型根据文本模态数据从海量视频库中检索回语义关联的视频片段，然后将检索回的片段根据相似度、点击率等维度，进行粗排、精排，最终组合渲染成视频。可以理解的是，由于该流程自动化，因此极大提升视频创作效率。

(2)广告指纹生成：通过优化后的特征提取模型，能够更好的通过创意的多模态(文本模态、图像模态等)特征，召回相似广告，生成广告指纹；从而提升广告预估一致性，及内容消费者的新鲜度。

(3)广告推荐：对于一条广告视频创意，通常包含文案+视频素材；优化后的特征提取模型，可对一条创意生成语义关联的文本特征+视频特征，该多模态(文本模态、图像模态等)特征能够更好的表征一条广告创意内容。此外，优化后的特征提取模型提取的文本特征+视频特征还可以应用于广告推荐模型中，以辅助广告推荐模型更好地理解广告内容，提升推荐效果(如使得广告推荐更具针对性)。

(4)图文问答：计算机设备可以获取目标图像和目标图像对应的问题文本。采用优化处理后的特征提取模型对目标图像和问题文本进行特征提取处理，得到目标图像和问题文本各自对应的特征信息，并通过多层感知机(Multilayer Perceptron，MLP)对目标图像和问题文本各自对应的特征信息进行分类处理，得到目标图像对应的问题文本对应的答复文本。

本申请实施例中，获取第一模态数据集合和第二模态数据集合，并获取第一掩盖数据集合和第二掩盖数据集合，采用特征提取模型对第一掩盖数据集合和第二模态数据集合进行特征预测处理，得到M个第一模态数据各自对应的全局复原特征和M个第二模态数据各自对应的全局特征，采用特征提取模型对第二掩盖数据集合和第一模态数据集合进行特征预测处理，得到M个第一模态数据各自对应的全局特征和M个第二模态数据各自对应的全局复原特征，根据M个第一模态数据对应的全局复原特征、M个第一模态数据对应的全局特征、M个第二模态数据对应的全局复原特征、M个第二模态数据对应的全局复原特征，对特征提取模型进行优化处理。可见，基于第一模态数据集合和第二模态数据集合对应的全局复原特征和全局特征对特征提取模型进行优化处理，可以促进特征提取模型学习到更准确的全局到局部的对齐，让全局表征挖掘到更多的跨模态信息，从而提高特征提取模型的预测结果的准确度。

上述详细阐述了本申请实施例的方法，为了便于更好地实施本申请实施例的上述方案，相应地，下面提供了本申请实施例的装置。

请参见图6，图6为本申请实施例提供的一种模型训练装置的结构示意图，图6所示的模型训练装置可以搭载在计算机设备中，该计算机设备具体可以是终端设备或者服务器。图6所示的模型训练装置可以用于执行上述图2和图4所描述的方法实施例中的部分或全部功能。请参见图6，该模型训练装置包括：

获取单元601，用于获取第一模态数据集合和第二模态数据集合，第一模态数据集合包括M个第一模态数据，每个第一模态数据包含至少两个第一子模态数据，第二模态数据集合包括M个第二模态数据，每个第二模态数据包含至少两个第二子模态数据；M个第一模态数据与M个第二模态数据一一对应；M为大于1的整数；

处理单元602，用于采用特征提取模型对第一掩盖数据集合和第二模态数据集合进行特征预测处理，得到M个第一模态数据各自对应的全局复原特征和M个第二模态数据各自对应的全局特征；

在一种实施方式中，处理单元602用于，根据M个第一模态数据对应的全局复原特征、M个第一模态数据对应的全局特征、M个第二模态数据对应的全局复原特征、M个第二模态数据对应的全局复原特征，对特征提取模型进行优化处理，具体用于：

通过第一损失值，对特征提取模型进行优化处理。

在一种实施方式中，处理单元602用于，通过第一损失值，对特征提取模型进行优化处理，具体用于：

在一种实施方式中，处理单元602用于，根据M个第一模态数据各自对应的全局特征和M个第二模态数据各自对应的全局特征，计算第二损失值，具体用于：

在一种实施方式中，处理单元602用于，通过目标第一模态数据的全局特征和目标第二模态数据的全局特征，计算第三损失值，具体用于：

在一种实施方式中，目标第一模态数据对应的局部复原特征是特征提取模型对被掩盖后的目标第一模态数据和目标第一模态数据对应的第二模态数据进行特征提取处理后得到的；处理单元602用于，根据目标第一模态数据对应的局部复原特征计算第四损失值，具体用于：

在一种实施方式中，特征提取模型包括第一编码器，第二编码器和第三编码器；处理单元602用于，采用特征提取模型对第一掩盖数据集合和第二模态数据集合进行特征预测处理，得到M个第一模态数据各自对应的全局复原特征和M个第二模态数据各自对应的全局特征，具体用于：

在一种实施方式中，特征提取模型包括第一编码器，第二编码器和第三编码器；处理单元602用于，采用特征提取模型对第二掩盖数据集合和第一模态数据集合进行特征预测处理，得到M个第一模态数据各自对应的全局特征和M个第二模态数据各自对应的全局复原特征，具体用于：

在一种实施方式中，处理单元602用于，获取第一掩盖数据集合和第二掩盖数据集合，具体用于：

在一种实施方式中，处理单元602还用于：

获取目标图像和目标图像对应的问题文本；

根据本申请的一个实施例，图2和图4所示的模型训练方法所涉及的部分步骤可由图6所示的模型训练装置中的各个单元来执行。例如，图2中所示的步骤S201和步骤S202可由图6所示的获取单元601执行，步骤S203-步骤S205可由图6所示的处理单元602执行；图4中所示的步骤S401，步骤S402可由图6所示的获取单元601执行，步骤S403-步骤S407和步骤S409可由图6所示的处理单元602执行，步骤S408可由图6所示的获取单元601和处理单元602联合执行。图6所示的模型训练装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，模型训练装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机设备的通用计算装置上运行能够执行如图2和图4中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图6中所示的模型训练装置，以及来实现本申请实施例的模型训练方法。计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算装置中，并在其中运行。

请参阅图7，图7为本申请实施例提供的一种计算机设备的结构示意图，该计算机设备可以终端设备或者服务器。如图7所示，计算机设备至少包括处理器701、通信接口702和存储器703。其中，处理器701、通信接口702和存储器703可通过总线或其他方式连接。其中，处理器701(或称中央处理器(Central Processing Unit，CPU))是计算机设备的计算核心以及控制核心，其可以解析计算机设备内的各类指令以及处理计算机设备的各类数据，例如：CPU可以用于解析对象向计算机设备所发出的开关机指令，并控制计算机设备进行开关机操作；再如：CPU可以在计算机设备内部结构之间传输各类交互数据，等等。通信接口702可选的可以包括标准的有线接口、无线接口(如WI-FI、移动通信接口等)，受处理器701的控制可以用于收发数据；通信接口702还可以用于计算机设备内部数据的传输以及交互。存储器703(Memory)是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的存储器703既可以包括计算机设备的内置存储器，当然也可以包括计算机设备所支持的扩展存储器。存储器703提供存储空间，该存储空间存储了计算机设备的操作系统，可包括但不限于：Android系统、iOS系统、Windows Phone系统等等，本申请对此并不作限定。

本申请实施例还提供了一种计算机可读存储介质(Memory)，计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了计算机设备的处理系统。并且，在该存储空间中还存放了适于被处理器701加载并执行的计算机程序。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器的计算机可读存储介质。

在一个实施例中，处理器701通过运行存储器703中的计算机程序，执行如下操作：

作为一种可选的实施例，处理器701根据M个第一模态数据对应的全局复原特征、M个第一模态数据对应的全局特征、M个第二模态数据对应的全局复原特征、M个第二模态数据对应的全局复原特征，对特征提取模型进行优化处理的具体实施例为：

通过第一损失值，对特征提取模型进行优化处理。

作为一种可选的实施例，处理器701通过第一损失值，对特征提取模型进行优化处理的具体实施例为：

作为一种可选的实施例，处理器701根据M个第一模态数据各自对应的全局特征和M个第二模态数据各自对应的全局特征，计算第二损失值的具体实施例为：

作为一种可选的实施例，处理器701通过目标第一模态数据的全局特征和目标第二模态数据的全局特征，计算第三损失值的具体实施例为：

作为一种可选的实施例，目标第一模态数据对应的局部复原特征是特征提取模型对被掩盖后的目标第一模态数据和目标第一模态数据对应的第二模态数据进行特征提取处理后得到的；处理器701根据目标第一模态数据对应的局部复原特征计算第四损失值的具体实施例为：

作为一种可选的实施例，特征提取模型包括第一编码器，第二编码器和第三编码器；处理器701采用特征提取模型对第一掩盖数据集合和第二模态数据集合进行特征预测处理，得到M个第一模态数据各自对应的全局复原特征和M个第二模态数据各自对应的全局特征的具体实施例为：

作为一种可选的实施例，第i个第一掩盖数据对应的第一特征信息包括第i个第一掩盖数据的局部特征，i为小于等于M的正整数；第i个第二模态数据对应的第二特征信息包括第i个第二模态数据的局部特征；第三编码器包括自注意力机制模块和交叉注意力机制模块；

作为一种可选的实施例，特征提取模型包括第一编码器，第二编码器和第三编码器；处理器701采用特征提取模型对第二掩盖数据集合和第一模态数据集合进行特征预测处理，得到M个第一模态数据各自对应的全局特征和M个第二模态数据各自对应的全局复原特征的具体实施例为：

作为一种可选的实施例，处理器701获取第一掩盖数据集合和第二掩盖数据集合的具体实施例为：

作为一种可选的实施例，处理器701通过运行存储器703中的计算机程序，还执行如下操作：

获取目标图像和目标图像对应的问题文本；

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序适于被处理器加载并执行上述方法实施例的模型训练方法。

本申请实施例还提供一种计算机程序产品，该计算机程序产品包括计算机程序，计算机程序适于被处理器加载并执行上述方法实施例的模型训练方法。

本申请实施例还提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的模型训练方法。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，可读存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

以上所揭露的仅为本申请一种较佳实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于申请所涵盖的范围。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

获取第一模态数据集合和第二模态数据集合，所述第一模态数据集合包括M个第一模态数据，每个第一模态数据包含至少两个第一子模态数据，所述第二模态数据集合包括M个第二模态数据，每个第二模态数据包含至少两个第二子模态数据；所述M个第一模态数据与所述M个第二模态数据一一对应；M为大于1的整数；

获取第一掩盖数据集合和第二掩盖数据集合，所述第一掩盖数据集合是对所述第一模态数据集合中每个第一模态数据包含的至少一个第一子模态数据进行掩盖处理得到的；所述第二掩盖数据集合是对所述第二模态数据集合中每个第二模态数据包含的至少一个第二子模态数据进行掩盖处理得到的；

采用特征提取模型对所述第一掩盖数据集合和所述第二模态数据集合进行特征预测处理，得到所述M个第一模态数据各自对应的全局复原特征和所述M个第二模态数据各自对应的全局特征；

采用特征提取模型对所述第二掩盖数据集合和所述第一模态数据集合进行特征预测处理，得到所述M个第一模态数据各自对应的全局特征和所述M个第二模态数据各自对应的全局复原特征；

根据所述M个第一模态数据对应的全局复原特征、所述M个第一模态数据对应的全局特征、所述M个第二模态数据对应的全局复原特征、所述M个第二模态数据对应的全局复原特征，对所述特征提取模型进行优化处理；优化处理后的特征提取模型用于检索相互对应的第一模态数据和第二模态数据。

2.如权利要求1所述的方法，其特征在于，所述根据所述M个第一模态数据对应的全局复原特征、所述M个第一模态数据对应的全局特征、所述M个第二模态数据对应的全局复原特征、所述M个第二模态数据对应的全局复原特征，对所述特征提取模型进行优化处理，包括：

根据每个第一模态数据对应的全局复原特征与所述M个第一模态数据对应的全局特征的相似度，计算第一语义损失值；

根据每个第二模态数据对应的全局复原特征与所述M个第二模态数据对应的全局特征的相似度，计算第二语义损失值；

对所述第一语义损失值和所述第二语义损失值进行求和处理，得到第一损失值；

通过所述第一损失值，对所述特征提取模型进行优化处理。

3.如权利要求2所述的方法，其特征在于，所述通过所述第一损失值，对所述特征提取模型进行优化处理，包括：

根据所述M个第一模态数据各自对应的全局特征和所述M个第二模态数据各自对应的全局特征，计算第二损失值；

通过目标第一模态数据的全局特征和目标第二模态数据的全局特征，计算第三损失值；所述目标第一模态数据的全局特征和所述目标第二模态数据的全局特征是所述特征提取模型对所述第一模态数据集合中被标记的第一模态数据和所述第二模态数据集合中被标记的第二模态数据进行特征提取处理得到的；

获取目标第一模态数据对应的局部复原特征，并根据所述目标第一模态数据对应的局部复原特征计算第四损失值；

对所述第一损失值、所述第二损失值、所述第三损失值和所述第四损失值进行求和处理，并根据求和结果对所述特征提取模型进行优化处理。

4.如权利要求3所述的方法，其特征在于，所述根据所述M个第一模态数据各自对应的全局特征和所述M个第二模态数据各自对应的全局特征，计算第二损失值，包括：

根据每个第一模态数据对应的全局特征与所述M个第二模态数据对应的全局特征的相似度，计算第三语义损失值；

根据每个第二模态数据对应的全局特征与所述M个第一模态数据对应的全局特征的相似度，计算第四语义损失值；

对所述第三语义损失值和所述第四语义损失值进行求和处理，得到第二损失值。

5.如权利要求3所述的方法，其特征在于，所述通过目标第一模态数据的全局特征和目标第二模态数据的全局特征，计算第三损失值，包括：

通过所述拼接特征预测所述目标第一模态数据的全局特征和所述目标第二模态数据的全局特征之间的匹配关系；

基于预测的匹配关系，以及所述目标第一模态数据的全局特征和所述目标第二模态数据的全局特征之间的实际对应关系，计算第三损失值。

6.如权利要求3所述的方法，其特征在于，所述目标第一模态数据对应的局部复原特征是所述特征提取模型对被掩盖后的目标第一模态数据和所述目标第一模态数据对应的第二模态数据进行特征提取处理后得到的；所述根据所述目标第一模态数据对应的局部复原特征计算第四损失值，包括：

通过所述目标第一模态数据对应的局部复原特征预测所述目标第一模态数据中被掩盖的第一子模态数据；

基于预测的第一子模态数据和所述目标第一模态数据中被掩盖的第一子模态数据，计算第四损失值。

7.如权利要求1所述的方法，其特征在于，所述特征提取模型包括第一编码器，第二编码器和第三编码器；所述采用特征提取模型对所述第一掩盖数据集合和所述第二模态数据集合进行特征预测处理，得到所述M个第一模态数据各自对应的全局复原特征和所述M个第二模态数据各自对应的全局特征，包括：

采用所述第一编码器分别对所述第一掩盖数据集合中每个第一掩盖数据进行编码处理，得到每个第一掩盖数据对应的第一特征信息；

采用所述第二编码器分别对所述第二模态数据集合中每个第二模态数据进行编码处理，得到每个第二模态数据对应的第二特征信息；

采用所述第三编码器对所述M个第一掩盖数据各自对应的第一特征信息和所述M个第二模态数据各自对应的第二特征信息进行特征交互处理，得到所述M个第一模态数据对应的全局复原特征和所述M个第二模态数据对应的全局特征。

8.如权利要求7所述的方法，其特征在于，第i个第一掩盖数据对应的第一特征信息包括所述第i个第一掩盖数据的局部特征，i为小于等于M的正整数；第i个第二模态数据对应的第二特征信息包括所述第i个第二模态数据的局部特征；所述第三编码器包括自注意力机制模块和交叉注意力机制模块；

所述采用所述第三编码器对所述M个第一掩盖数据对应的第一特征信息和所述M个第二模态数据对应的第二特征信息进行特征交互处理的过程包括：

采用所述自注意力机制模块挖掘每个第一掩盖数据对应的局部特征之间的关联关系；以及采用所述自注意力机制模块挖掘每个第二模态数据各自对应的局部特征之间的关联关系；

采用所述交叉注意力机制模块对所述M个第一掩盖数据对应的挖掘后的局部特征和所述M个第二模态数据对应的挖掘后的局部特征进行特征交互处理。

9.如权利要求1所述的方法，其特征在于，所述特征提取模型包括第一编码器，第二编码器和第三编码器；所述采用特征提取模型对所述第二掩盖数据集合和所述第一模态数据集合进行特征预测处理，得到所述M个第一模态数据各自对应的全局特征和所述M个第二模态数据各自对应的全局复原特征，包括：

采用所述第一编码器分别对所述第一模态数据集合中每个第一模态数据进行编码处理，得到每个第一模态数据对应的第三特征信息；

采用所述第二编码器分别对所述第二掩盖数据集合中每个第二掩盖数据进行编码处理，得到每个第二掩盖数据对应的第四特征信息；

采用所述第三编码器对所述M个第一模态数据各自对应的第三特征信息和所述M个第二掩盖数据各自对应的第四特征信息进行特征交互处理，得到所述M个第一模态数据对应的全局特征和所述M个第二模态数据对应的全局复原特征。

10.如权利要求1所述的方法，其特征在于，所述获取第一掩盖数据集合和第二掩盖数据集合，包括：

分别对所述第一模态数据集合中的第一模态数据进行划分，得到每个第一模态数据对应的第一数据序列，所述第一数据序列包括至少两个第一子模态数据；

分别对所述第二模态数据集合中的第二模态数据进行划分，得到每个第二模态数据对应的第二数据序列，所述第二数据序列包括至少两个第二子模态数据；

11.如权利要求1所述的方法，其特征在于，所述方法还包括：

获取目标图像和所述目标图像对应的问题文本；

采用优化处理后的特征提取模型对所述目标图像和所述问题文本进行特征提取处理，得到所述目标图像和所述问题文本各自对应的特征信息；

通过多层感知机对所述目标图像和所述问题文本各自对应的特征信息进行分类处理，得到目标图像对应的问题文本对应的答复文本。

12.一种模型训练装置，其特征在于，所述模型训练装置包括：

获取单元，用于获取第一模态数据集合和第二模态数据集合，所述第一模态数据集合包括M个第一模态数据，每个第一模态数据包含至少两个第一子模态数据，所述第二模态数据集合包括M个第二模态数据，每个第二模态数据包含至少两个第二子模态数据；所述M个第一模态数据与所述M个第二模态数据一一对应；M为大于1的整数；

以及用于获取第一掩盖数据集合和第二掩盖数据集合，所述第一掩盖数据集合是对所述第一模态数据集合中每个第一模态数据包含的至少一个第一子模态数据进行掩盖处理得到的；所述第二掩盖数据集合是对所述第二模态数据集合中每个第二模态数据包含的至少一个第二子模态数据进行掩盖处理得到的；

处理单元，用于采用特征提取模型对所述第一掩盖数据集合和所述第二模态数据集合进行特征预测处理，得到所述M个第一模态数据各自对应的全局复原特征和所述M个第二模态数据各自对应的全局特征；

以及用于采用特征提取模型对所述第二掩盖数据集合和所述第一模态数据集合进行特征预测处理，得到所述M个第一模态数据各自对应的全局特征和所述M个第二模态数据各自对应的全局复原特征；

以及用于根据所述M个第一模态数据对应的全局复原特征、所述M个第一模态数据对应的全局特征、所述M个第二模态数据对应的全局复原特征、所述M个第二模态数据对应的全局复原特征，对所述特征提取模型进行优化处理；优化处理后的特征提取模型用于检索相互对应的第一模态数据和第二模态数据。

13.一种计算机设备，其特征在于，包括：存储器和处理器；

存储器，所述存储器中存储有计算机程序；

处理器，用于加载所述计算机程序实现如权利要求1-11任一项所述的模型训练方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于被处理器加载并执行如权利要求1-11任一项所述的模型训练方法。

15.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序适于被处理器加载并执行如权利要求1-11任一项所述的模型训练方法。