CN115131638B

CN115131638B - 视觉文本预训练模型的训练方法、装置、介质和设备

Info

Publication number: CN115131638B
Application number: CN202210612980.5A
Authority: CN
Inventors: 郑茂; 袁宇辰; 柴子峰; 蒋树强; 黎向阳; 朱永清; 杨嘉豪
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2024-03-15
Anticipated expiration: 2042-05-31
Also published as: CN115131638A

Abstract

本申请提供了一种视觉文本预训练模型的训练方法、装置、介质和设备，可应用于人工智能、计算机视觉、智慧交通等场景，该方法包括：根据视频文本样本对进行特征提取得到初始视频特征和初始文本特征；根据初始视频特征和初始文本特征进行特征融合得到融合特征；根据融合特征和预设的多个中间特征确定桥接特征；根据初始视频特征、初始文本特征、桥接特征和预设的掩码矩阵确定目标视频特征和目标文本特征，预设的掩码矩阵用于使初始视频特征和初始文本特征相互掩模；根据初始视频特征、初始文本特征、桥接特征、目标视频特征以及目标文本特征确定目标函数，并根据目标函数对进行模型训练，以学习多模态交互信息、且保持多模态之间的模态分离性。

Description

视觉文本预训练模型的训练方法、装置、介质和设备

技术领域

本发明涉及信息处理技术领域，更具体地，涉及一种视觉文本预训练模型的训练方法、装置、介质和设备。

背景技术

随着大规模视频文本数据集的迅速发展和计算能力的增强，视频文本预训练，因其可迁移性广且在众多下游任务上的性能显著而备受关注。

然而，目前的视频文本预训练技术，在一种情况中，缺少跨模态信息的交互；在另一种情况中，最终得到的跨模态表示缺乏对原模态的区分。

发明内容

本申请实施例提供了一种视觉文本预训练模型的训练方法、装置、介质和设备，可以在保证视觉文本预训练模型对各模态信息的融合表示能力的同时，保持各模态信息的分离性。

一方面，本申请实施例提供了一种视觉文本预训练模型的训练方法，所述训练方法包括：

获取成对标注的视频文本样本对，并对所述视频文本样本对进行特征提取，得到所述视频文本样本对中视频样本的初始视频特征、以及所述视频文本样本对中文本样本的初始文本特征；

根据所述初始视频特征以及所述初始文本特征进行特征融合，得到第一融合特征；

根据所述第一融合特征和预设的多个中间特征确定桥接特征；

根据所述初始视频特征、所述初始文本特征、所述桥接特征和预设的掩码矩阵确定目标视频特征和目标文本特征，其中，所述预设的掩码矩阵用于使所述初始视频特征和所述初始文本特征相互掩模；

根据所述初始视频特征、所述初始文本特征、所述桥接特征、所述目标视频特征以及所述目标文本特征确定目标函数；

根据所述目标函数对所述视觉文本预训练模型进行训练，以使训练后的视觉文本预训练模型用于学习所述视频文本样本对的所述初始视频特征与所述初始文本特征之间的细粒度交互信息、且所述初始视频特征与所述初始文本特征之间保持模态分离性。

另一方面，本申请实施例提供了一种视觉文本预训练模型的训练装置，包括：

提取模块，用于获取成对标注的视频文本样本对，并对所述视频文本样本对进行特征提取，得到所述视频文本样本对中视频样本的初始视频特征、以及所述视频文本样本对中文本样本的初始文本特征；

融合模块，用于根据所述初始视频特征以及所述初始文本特征进行特征融合，得到第一融合特征；

第一确定模块，用于根据所述第一融合特征和预设的多个中间特征确定桥接特征；

第二确定模块，用于根据所述初始视频特征、所述初始文本特征、所述桥接特征和预设的掩码矩阵确定目标视频特征和目标文本特征，其中，所述预设的掩码矩阵用于使所述初始视频特征和所述初始文本特征相互掩模；

第三确定模块，用于根据所述初始视频特征、所述初始文本特征、所述桥接特征、所述目标视频特征以及所述目标文本特征确定目标函数；

训练模块，用于根据所述目标函数对所述视觉文本预训练模型进行训练，以使训练后的视觉文本预训练模型用于学习所述视频文本样本对的所述初始视频特征与所述初始文本特征之间的细粒度交互信息、且所述初始视频特征与所述初始文本特征之间保持模态分离性。

另一方面，提供了一种计算机可读存储介质，包括指令，当所述指令在计算机设备上运行时，使得所述计算机设备执行如上述第一方面所述的方法。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行如上述第一方面所述的视觉文本预训练模型的训练方法。

另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述第一方面所述的视觉文本预训练模型的训练方法。

本申请实施例提供了一种视觉文本预训练模型的训练方法、装置、介质和设备，通过将初始视频特征、初始文本特征和桥接特征输入跨模态编码器中，然后通过掩码矩阵使视频特征和文本特征相互掩模，使得在跨模态编码器中，初始视频特征和初始文本特征分别与桥接特征进行注意力计算，而初始视频特征和初始文本特征之间不进行注意力计算，从而得到交互后仍然保持各自模态特性的目标视频特征和目标文本特征。然后，通过根据初始视频特征、初始文本特征、桥接特征、目标视频特征和目标文本特征进行预训练，从而使得预训练得到的跨模态编码器用于学习多模态交互信息、且保持多模态之间的模态分离性。

附图说明

图1是本申请实施例提供的相关技术中的视觉文本跨模态学习架构的结构示意图。

图2是本申请实施例提供的视觉文本预训练模型的训练方法的流程示意图。

图3是本申请实施例提供的视觉文本预训练模型的训练方法的第一应用场景示意图。

图4是本申请实施例提供的视觉文本预训练模型的训练方法的第二应用场景示意图。

图5是本申请实施例提供的视觉文本预训练模型的训练方法的第三应用场景示意图。

图6是本申请实施例提供的视觉文本预训练模型的训练方法的第四应用场景示意图。

图7是本申请实施例提供的视觉文本预训练模型的训练方法在视频文本检索任务中与相关方法的性能对比示意图。

图8是本申请实施例提供的视觉文本预训练模型的训练方法在视频描述任务中与相关方法的性能对比示意图。

图9是本申请实施例提供的视觉文本预训练模型的训练方法在视频问答任务中与相关方法的性能对比示意图。

图10是本申请实施例提供的视觉文本预训练模型的训练方法在视频文本检索任务、视频描述任务和视频问答任务中与相关方法的性能对比示意图。

图11是本申请实施例提供的视觉文本预训练模型的训练装置的示意性框图。

图12是本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。针对本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种视觉文本预训练模型的训练方法、装置、介质和设备。具体地，本申请实施例的视觉文本预训练模型的训练方法可以由计算机设备执行，其中，该计算机设备可以为终端或者服务器等设备。该终端可以为智能手机、平板电脑、笔记本电脑、智能电视、智能音箱、穿戴式智能设备、智能车载终端等设备，终端还可以包括客户端，该客户端可以是应用程序客户端、浏览器客户端或即时通信客户端等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

本申请实施例可应用于各种场景，包括但不限于人工智能、自然语言处理、计算机视觉、智慧交通等各种场景。其中，计算机视觉场景可以包括视频文本检索、视频描述、视频问答等应用场景。

首先，对本申请实施例进行描述的过程中出现的部分名词或者术语作如下解释：

人工智能(ArtificialIntelligence，AI)，是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(ComputerVision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

自然语言处理(NatureLanguageprocessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(MachineLearning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

智能交通系统(IntelligentTrafficSystem，ITS)又称智能运输系统(IntelligentTransportationSystem)，是将先进的科学技术(信息技术、计算机技术、数据通信技术、传感器技术、电子控制技术、自动控制理论、运筹学、人工智能等)有效地综合运用于交通运输、服务控制和车辆制造，加强车辆、道路、使用者三者之间的联系，从而形成一种保障安全、提高效率、改善环境、节约能源的综合运输系统。

云技术(Cloudtechnology)：是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

模态是指人或设备接收信息的特定方式或来源，如人接收信息的方式有触觉、味觉、视觉、嗅觉等等，信息传递的方式依据渠道的不同，采用不同的媒介，如音频、视频、文字等，在设备层面，如传感器、雷达、红外以及加速度计等。由于多媒体数据往往是多种信息的传递媒介，多模态学习已逐渐发展为多媒体内容分析与理解的主要手段。

均值池化(mean-pooling)即对局部接受域中的所有值求均值。

余弦相似度，又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度。

损失函数(loss)，在机器学习中是指模型训练要最小化的目标。

交叉熵损失函数(CrossEntropyLossFunction，CE)能够衡量同一个随机变量中的两个不同概率分布的差异程度，在机器学习中就表示为真实概率分布与预测概率分布之间的差异。

近年来，随着计算机视觉技术和自然语言处理的迅速发展，视觉到文本被推向了跨模态分析的研究的高潮。视觉文本预训练技术是近近年来多模态领域的研究热点之一，通过使模型在大规模数据集上进行预训练，使模型进行跨模态交互，学习到更好的多模态特征表示，从而提升各种多模态下游任务中模型的性能，比如多模态理解和推理任务，例如视频文本检索、视频描述、视频问答等。

请参阅图1，相关技术中的视觉文本跨模态学习架构根据模态间的交互方式可以大致分为两种类型：特定模态表示架构和联合模态表示架构。

其中，特定模态表示架构(如图1中的a所示)利用独立编码器分别学习视频和文本的表示。特定模态表示架构主要采取的模态交互方式，是通过对比学习损失函数对齐来自模态独立编码器的视频和对应文本的整体表示。缺乏了视觉区域或视频帧特征与文本单词特征之间的细粒度交互。在模型中两种模态缺少跨模态信息的交互，而部分多模态理解任务需要这种信息交互，这就导致其可迁移的下游任务具有局限性。

其中，联合模态表示架构(如图1中的b所示)将视频和文本表示融合后在跨模态编码器进行统一编码，使两种模态的表示无差别地相互感知以进行交互。联合模态表示架构主要是将预先提取的视觉特征和文本特征连接后输入到跨模态编码器中，以学习不同模态的融合表示。然而，由于联合模态表示架构使视觉和文本模态表示在跨模态编码器中进行无差别的融合，这种共享式的交互机制降低了模态的可分离性，导致最终得到的跨模态表示缺乏对原模态的区分。

由此可见，相关技术中的视觉文本预训练模型无法在进行视觉区域或视频特征与文本特征之间的细粒度交互的同时，保持各自模态的分离性。因此，本申请实施例提供一种视觉文本预训练模型的训练方法、装置、介质和设备，涉及人工智能、自然语言处理、计算机视觉等技术，通过用底层视频编码器和底层文本编码器分别提取视频特征和文本特征，然后根据视频特征和文本特征得到融合特征，接着根据该融合特征与记忆内存中的特征分别计算相似度作为概率，通过记忆内存的线性组合来生成桥接特征。然后将视频特征、桥接特征和文本特征连接，并输入跨模态编码器。在跨模态编码器中，掩码矩阵使视频特征和文本特征互相掩模。通过根据视频特征、文本特征、桥接特征、以及跨模态编码器生成的特征编码确定目标函数，并根据目标函数对视觉文本预训练模型进行训练，从而使得训练后的模型用于学习视频文本样本对的视频特征和文本特征之间的细粒度交互信息、并保持模态分离性。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优先顺序的限定。

本申请各实施例提供了一种视觉文本预训练模型的训练方法，该方法可以由终端或服务器执行，也可以由终端和服务器共同执行；本申请实施例以视觉文本预训练模型的训练方法由服务器执行为例来进行说明。

请参阅图2至图10，图2示出了本申请实施例所描述的视觉文本预训练模型的训练方法的流程示意图，图3至图6示出了本申请实施例提供的视觉文本预训练模型的训练方法的相关应用场景示意图，图7至图10示出了本申请实施例提供的视觉文本预训练模型的训练方法在相关任务中与相关方法的性能对比示意图。该方法主要包括步骤101至步骤106，说明如下：

步骤101，获取成对标注的视频文本样本对，并对视频文本样本对进行特征提取，得到视频文本样本对中视频样本的初始视频特征、以及视频文本样本对中文本样本的初始文本特征。

在本申请实施例中，可以从大规模视频文本数据集中，比如MSR-VTT、MSVD、LSMDC等数据集中，获取一定数量的成对标注的视频文本样本对。每一视频文本样本对可以包括视频样本以及对应的文本样本。例如，视频文本样本对还可以包括对应的标注信息，该标注信息可以包括真实匹配标注，其中，所述真实匹配标注用于标注所述视频文本样本对中的视频样本与文本样本是否匹配。其中，视频样本对应的文本样本可以包括以下至少其中之一者：视频的标题、视频的摘要、视频的描述等，本申请对此不作限定。

如图4至图6所示，本申请实施例提供的视觉文本预训练模型主要包括底层视频编码器、底层文本编码器、记忆模块和跨模态编码器。其中，底层文本编码器、底层视频编码器、跨模态编码器均可以基于Transformer架构实现。其中，底层视频编码器用于提取视频帧特征，底层文本编码器用于提取文本特征，跨模态编码器用于进行跨模态特征编码或者解码，记忆模块用于存储中间特征，该中间特征用于表征丰富的中间模态信息。比如，该记忆模块可以包括一个在训练过程中对整个数据集共享的记忆内存其中，m表示记忆内存大小。每个内存条目M_j代表一个中间特征，即潜在的中间模态表示。

在本申请实施例中，可以通过底层视频编码器对视频样本进行编码，并基于底层视频编码器中的掩模矩阵进行编码处理，以提取视频样本中的视频特征，作为初始视频特征；并通过底层文本编码器对文本样本进行编码，并基于底层文本编码器中的掩模矩阵进行编码处理，以提取文本样本中的文本特征，作为初始文本编码器。具体地，初始视频特征和初始文本特征可以通过下列公式表示：

v＝BVE(V，Mask_V)；

t＝BTE(T，Mask_T)。

其中，BVE表示底层视频编码器，BTE表示底层文本编码器，V表示视频样本，T表示文本样本。v表示初始视频特征，t表示初始文本特征，其中，表示F个D维视频特征，表示L个D维文本特征。Mask_V为底层视频编码器中的掩模矩阵，用于填充空白视频帧。Mask_T为底层文本编码器中的掩模矩阵，用于填充空白词。

步骤102，根据初始视频特征以及初始文本特征进行特征融合，得到融合特征。

在本申请实施例中，初始视频特征包括多个第一视频帧特征，初始文本特征包括第一文本结尾特征，步骤102主要可以包括：将多个第一视频帧特征进行均值池化，得到第一整体视频特征；根据第一整体视频特征和第一文本结尾特征进行特征融合，得到第一融合特征。

具体地，初始视频特征可以包括多个第一视频帧特征，通过将多个第一视频帧特征均值池化，得到初始视频特征的第一整体视频特征，可以将该第一整体视频特征作为底层视频特征v_base。初始文本特征可以包括多个文本单词特征、以及表示句子开头和结尾的开头特征[CLS]和文本结尾特征[SEP]，可以将文本结尾特征[SEP]作为底层文本特征t_base。具体地，可以通过MLP(Multi-layerPerceptron，多层感知机)模型将底层视频特征v_base和底层文本特征t_base融合。

步骤103，根据融合特征和预设的多个中间特征确定桥接特征。

具体地，如图4至图6所示，初始视频特征、桥接特征与初始文本特征拼接起来，输入至跨模态编码器中。在跨模态编码器中，初始视频特征、初始文本特征均与桥接特征进行交互。可以认为，桥接特征与初始视频特征、初始文本特征应该有一定相似性。因此，在本申请实施例中，可以根据融合特征，在记忆模块里获取一些与融合特征更相似的信息，得到桥接特征。

在预训练过程中，记忆内存存储了大量用于模态交互的记忆表示，以增强跨模态桥接的表示能力和提升模型鲁棒性。

在一些实施例中，步骤103主要可以包括：确定第一融合特征和每个中间特征之间的第一相似度；根据第一相似度对多个中间特征进行加权求和，得到桥接特征。

具体地，请参阅图3，如图3中的(1)所示，可以通过计算第一融合特征和每个中间特征之间的余弦相似度得到第一相似度，如图3中的(2)所示，还可以通过第一融合特征输入网络模型直接得到第一融合特征和每个中间特征之间的第一相似度。譬如，针对如图3中的(1)所示的情况，通过将视频特征v对应的底层视频特征v_base以及文本特征t对应的底层文本特征t_base相融合，得到第一融合特征。然后，可以计算第一融合特征与记忆内存中每个中间特征的余弦相似度，根据每个中间特征与第一融合特征的相似度作为权重线性相加，得到与融合特征更为相似的桥接特征。

具体地，可以表示为下述公式：

p_i,j＝Softmax_(j)(s_i,j)

b＝pM

其中，是将映射到的MLP映射器，sg表示停止计算梯度操作，以确保桥接特征生成过程不影响底层特征，S_c表示余弦相似度，M_j表示中间特征，表示记忆内存中存储表示的寻址概率，p_i,j表示第i个桥接特征中第j个记忆内存表示的权重。以基于底层视频文本表示自适应地得到了B个记忆增强的桥接特征

步骤104，根据初始视频特征、初始文本特征、桥接特征和预设的掩码矩阵确定目标视频特征和目标文本特征，其中，掩码矩阵用于使初始视频特征和初始文本特征相互掩模。

具体地，为了建立视频模态和文本模态间的交互，并保证视频模态和文本模态之间的模态分离性，本申请实施例引入学习到底层视频模态信息和底层文本模态信息的桥接特征。通过掩码矩阵使视频模态和文本模态相互掩模，分别与桥接特征进行细粒度交互，从而实现跨模态之间的细粒度交互，并保证不同模态之间的模态分离性。

在本申请实施例中，如图4至图6所示，经过底层编码器得到初始视频特征v和初始文本特征t后，将初始视频特征v、初始文本特征t和桥接特征b拼接，并将拼接后的特征输入到跨模态编码器中。其中，在跨模态编码器中，本申请实施例应用一种新颖的模态间交互机制，其中，初始视频特征v和初始文本特征t不直接交互，而是分别与桥接特征b交互。具体来说，在跨模态编码器的自注意力模块中，桥接特征b分别与初始视频特征v和初始文本特征t进行注意力计算，而v和t不直接进行相互的注意力计算。

在一些实施例中，可以将跨模态编码器中预设的掩码矩阵Mask_CME设置为：

其中，I，O分别表示全一矩阵和零矩阵，Mask_V表示底层视频编码器中的掩膜矩阵，Mask_V为底层文本编码器中的掩膜矩阵。

具体地，初始视频特征v、初始文本特征t和桥接特征b经过跨模态编码器进行编码，并基于跨模态编码器中预设的掩码矩阵进行编码处理，得到目标视频特征v_CME、目标文本特征t_CME和目标桥接特征b_CME：

[v_CME，b_CME，t_CME]＝CME([v，b，t]，Mask_CME)

其中，Mask_CME为跨模态编码器中的预设的掩码矩阵，CME表示跨模态编码器。

具体地，作为视频和文本模态之间交换信息的唯一途径，桥接特征学习到了有利于两个原始模态交互的中间模态信息。通过相互掩模视频和文本来保证模态可分离性，获得了交互后的保持各自模态特性的目标视频特征v_CME和目标文本特征t_CME。

步骤105，根据初始视频特征、初始文本特征、桥接特征、目标视频特征以及目标文本特征确定目标函数。

具体地，为了提高经过跨模态编码器后视频特征和文本特征之间的相似性，可以对经过跨模态编码器后得到的目标视频特征和目标文本特征进行相似度匹配，并根据对应的真实匹配标注构建损失函数，对该视觉文本预训练模型进行训练。

在一些实施例中，步骤105主要可以包括：根据目标视频特征、目标文本特征以及预设的可学习矩阵，确定目标视频特征和目标文本特征之间是否匹配的二分类概率；根据二分类概率与视频文本样本对所对应的真实匹配标注确定第一损失函数，并根据第一损失函数确定目标函数，其中，真实匹配标注用于标注视频文本样本对中的视频样本与文本样本是否匹配。

具体地，可学习参数，是指在训练过程中学习的参数值。对于可学习参数，通常从一组随机值开始，然后随着网络的学习，以迭代的方式更新这些值。容易理解的是，可学习矩阵，则指在训练过程中学习的矩阵，可以从一个随机矩阵开始。在本申请实施例中，引入两个可学习矩阵来预测二分类概率具体地，视频文本样本对对应的各模态特征经过跨模态编码器后，需要进行相似度的匹配，即根据是否匹配将视频特征和文本特征之间的相似性分为两类。

具体地，可以针对根据跨模态编码器输出的每个目标视频特征v_CME，通过将每个目标视频特征v_CME中的视频帧特征进行均值池化，得到目标整体视频特征v_out。并将跨模态编码器输出的目标文本特征t_CME中的文本结尾特征[SEP]视为目标文本特征的整体文本特征t_out。具体地，可以根据下列公式确定目标视频特征和目标文本特征对应的二分类概率

其中，t_out整体文本特征，即为是目标文本特征t_CME中的文本结尾特征[SEP]；v_out是目标视频特征v_CME对应的目标整体视频特征；T表示转置操作，A_m，A_～m为两个可学习矩阵，Softmax为归一化操作。

具体地，可以根据预测值和真实匹配标注之间的交叉熵确定第一损失函数：

其中，p_m，p_～m是目标视频特征和目标文本特征对应的二分类概率，y_vtsm是真实匹配标注，即表示视频样本和文本样本是否匹配的真实标注二进制化向量；CE表示交叉熵。

具体地，对视觉文本预训练模型进行训练时，通常采用包含大量视频文本样本的训练样本集，针对每一对视频文本样本对所对应的目标整体视频特征v_out和目标整体文本特征t_out，可以认为是一个正样本对。而针对每一个目标整体视频特征v_out或目标整体文本特征t_out来说，均对应有多个负样本。在对目标视频特征和目标文本特征进行相似度匹配时，可以计算每一个正样本对之间的二分类概率，并根据每一个正样本对之间的二分类概率，以及每一个正样本对所对应的真实匹配标注，构建交叉熵损失函数；以及计算每一个目标整体视频特征v_out或目标整体文本特征t_out与负样本例之间的二分类概率，并根据每一个目标整体视频特征v_out或目标整体文本特征t_out与负样本例之间的二分类概率，以及每一个负样本对所对应的真实匹配标注，构建交叉熵损失函数；并根据交叉熵函数对视觉文本预训练模型进行训练，从而使每一个正样本对以及每一个负样本对之间的二分类概率都更接近真实匹配标注。

容易理解的是，考虑到降低计算成本，可以通过为每个正样本对分别采样一个视频负例和一个文本负例，分别构建各自的交叉熵损失函数，之后将三个交叉熵损失函数相加，对视觉文本预训练模型进行训练。

具体地，该方法还可以包括：获取包含有多个视频文本样本对的训练样本集；基于训练样本集中多个视频文本样本对所对应的初始视频特征、初始文本特征、桥接特征和预设的掩码矩阵，确定目标视频特征集合和目标文本特征集合，其中，目标视频特征集合中包含每个视频样本对应的目标视频特征、以及每个文本样本对应的目标文本特征，目标文本特征集合中的每个目标文本特征包括第二文本结尾特征，目标视频特征集合中的每个目标视频特征包括多个第二视频帧特征；根据第一整体视频特，从目标文本特征集合对应的多个第二文本结尾特征中确定一个难负文本特征；分别将目标视频特征集合中的每个目标视频特征所对应的多个第二视频帧特征进行均值池化，得到目标视频特征集合中的每个目标视频特征所对应的第二整体视频特征；根据第一文本结尾特征，从目标视频特征集合对应的多个第二整体视频特征中确定一个难负视频特征。

具体地，步骤105主要可以包括：根据目标视频特征、目标文本特征、以及预设的可学习矩阵，确定目标视频特征和目标文本特征之间是否匹配的二分类概率、目标视频特征和难负文本特征之间是否匹配的二分类概率、目标视频特征和难负文本特征之间是否匹配的二分类概率、以及目标文本特征和难负视频特征之间是否匹配的二分类概率；根据目标视频特征和目标文本特征之间的二分类概率、目标视频特征和难负文本特征之间的二分类概率、目标文本特征和难负视频特征之间的二分类概率、以及目标视频特征和目标文本特征对应的真实匹配标注、目标视频特征和难负文本特征对应的真实匹配标注、目标文本特征和难负视频特征之间的真实匹配标注确定第一损失函数，并根据第一损失函数确定目标函数，其中，真实匹配标注用于标注不同特征之间是否匹配。

其中，可以在获得底层视频特征v_base和底层文本特征t_base后，使用它们的相似性作为归一化概率，从训练样本集中为每个视频文本样本对所对应的底层视频特征v_base和底层文本特征t_base分别采样一个难负文本例和一个难负视频例，具体地：

其中，是难负文本例，是难负视频例，是固定的查询视频特征，是固定的查询文本特征，是训练样本集中每个文本样本所对应的底层文本特征，是训练样本集中每个文本样本所对应的底层视频特征，j∈[1，BS]，BS是训练样本集的数据量。

在一些实施例中，为了提高底层表示能力，可以设置底层模态间对齐(BaseInter-ModalityAlignment，BIMA)的训练任务，起到融合之前先对齐的功能，从而使得预训练得到的底层视频编码器和底层文本编码器可以更方便做检索类任务。

具体地，步骤105主要可以包括：计算第一整体视频特征与第一文本结尾特征之间的第二相似度；计算第一整体视频特征，以及多个第二文本结尾特征中不与第一整体视频特征对应的第二文本结尾特征之间的第三相似度；根据第二相似度和第三相似度确定第二损失函数，并根据第二损失函数确定目标函数。

同理，步骤105还可以包括：计算第一文本结尾特征与第一整体视频特征之间的第四相似度；计算第一文本结尾特征，以及多个第二整体视频特征中不与第一文本结尾特征相对应的第二整体视频特征之间的第五相似度；根据第四相似度和第五相似度确定第三损失函数，并根据第三损失函数确定目标函数。

譬如，可以采用对比学习损失函数来对齐底层模态。具体地，以最大化第一整体视频特征以及第一文本结尾特征之间相似度、最小化第一整体视频特征与其他样本对所对应的第二文本结尾特征之间的相似度为目标，来对齐第一整体视频特征以及第一文本结尾特征同理，以最大化以及第一文本结尾特征以及第一整体视频特征之间相似度、最小化第一文本结尾特征与其他样本对所对应的第二整体视频特征之间的相似度为目标，来对齐第一文本结尾特征以及第一整体视频特征

其中，表示视频到文本的对比学习损失函数，表示从文本到视频的对比学习损失函数，表示第一整体视频特征，表示第一文本结尾特征，表示训练样本集中其他样本对所对应的第二文本结尾特征，表示训练样本集中其他样本对所对应的第二整体视频特征，Sc表示余弦相似度，exp表示指数，log表示对数。

容易理解的是，可以采用和中的其中之一者对模型进行训练，也可以采用和之和对模型进行训练：

譬如，如图4所示，本申请实施例通过将视频文本样本对中的视频样本输入底层视频编码器，将文本样本输入底层文本编码器，得到视频特征和文本特征。并且通过视频特征和文本特征对应的底层特征融合输入记忆模块，得到桥接特征。此时，可以底层视频特征和底层文本特征进行底层模态间对齐。并且，视频特征、桥接特征和文本特征拼接输入跨模态编码器，跨模态编码器对视频特征和文本特征进行编码，并输出目标视频特征和目标文本特征。然后，可以根据目标视频特征和目标文本特征进行视频文本相似度匹配。

具体地，为了提高模型对文本的表征能力，还可以通过掩模句子中的单词，输入至跨模态编码器进行预测，使跨模态编码器通过学习上下文的信息、以及跨模态交互信息来判断出需要预测的单词，以提高模型对文本特征的表示能力。

在一些实施例中步骤105主要可以包括：获取第一掩模视频文本样本对，第一掩模视频文本样本对包括第一掩模文本样本和视频样本，第一掩模文本样本为以预设概率随机设置第一掩模单词的文本样本；获取视频样本的初始视频特征，以及第一掩模文本样本的第一文本特征；根据初始视频特征和第一文本特征进行特征融合得到第二融合特征；根据第二融合特征和预设的多个中间特征确定第二桥接特征；根据初始视频特征、所受第一文本特征和第二桥接特征，确定第一掩模文本样本中第一掩模单词的第一词表预测概率；根据第一词表预测概率和第一掩模文本样本中第一掩模单词对应的第一真实词表标注确定第四损失函数，并根据第四损失函数确定目标函数。

其中，预设概率可以为百分之十五。譬如，可以以15％的概率随机掩模文本单词确定第一掩模单词特征t_m，得到第一未掩模单词特征t_～m，然后，根据第一未掩模单词特征t_～m和桥接特征b进行预测，可以得到对第一掩模单词特征t_m的第一词表预测概率p_mlm。接着，可以根据第一词表预测概率p_mlm和第一掩码单词对应的真实标注二进制化词表维向量y_mlm构建交叉熵损失函数，得到第二损失函数：

其中，CE表示交叉熵，y_mlm表示第一掩模文本样本中第一掩模单词特征对应的第一真实词表标注，p_mlm(t_m|t_～m，b)表示根据第一未掩模单词特征t_～m和桥接特征b预测出的第一掩模单词特征t_m的第一词表预测概率。

具体地，通过随机掩模(mask)初始文本特征中的文本单词，然后通过未被mask的文本单词的特征以及桥接特征去推断被mask的文本单词，得到对掩模词的词表预测概率，可以认为是根据掩模词的上下文的文本特征以及文本特征与视频特征的交互来预测被掩模的文本单词。然后，再根据掩模词的真实标注二进制化词表维向量和词表预测概率构建损失函数进行训练，有助于建立视觉模态和语言模态之间的联系。

具体地，如图5所示，本申请通过将第一掩模视频文本样本对中的视频样本输入底层视频编码器，将第一掩模文本样本(第一掩模单词为football)输入底层文本编码器，得到视频特征和文本特征。并且通过视频特征和文本特征对应的底层特征融合输入记忆模块，得到桥接特征。然后，视频特征、桥接特征和文本特征拼接输入跨模态编码器，跨模态编码器对掩模单词特征进行预测，并输出第一词表预测概率。然后，可以根据该第一词表预测概率进行掩模文本建模，对模型进行训练。

在一些实施例中，步骤105还可以包括：获取第二掩模视频文本样本对，第二掩模视频文本样本对包括第二掩模文本样本和视频样本，第二掩模文本样本为在文本样本的目标位置之后设置第二掩模单词的文本样本，目标位置为文本样本中随机选择的位置；获取视频样本的初始视频特征，以及第二掩模文本样本的第二文本特征；根据初始视频特征和第二文本特征进行特征融合得到第三融合特征；根据第三融合特征和预设的多个中间特征确定第三桥接特征；根据初始视频特征、第二文本特征和第三桥接特征，确定第二掩模文本样本中第二掩模单词的第二词表预测概率；根据第二词表预测概率和第二掩模文本样本中第二掩模单词对应的第二真实词表标注确定第五损失函数，并根据第五损失函数确定目标函数。

在本申请实施例中，可以随机选择文本样本中的一个位置作为目标位置，然后掩模目标位置之后的单词确定第二掩模单词，得到第二掩模文本样本。

具体地，在得到视频样本的初始视频特征、第二掩模文本样本的第二文本特征以及对应的第三融合特征后，可以将初始视频特征、第二文本特征和第三桥接特征拼接输入跨模态编码器。跨模态编码器可以根据前缀的第二未掩模单词特征t_＜＝m和桥接特征b得到对第二掩模单词特征t_m的第二词表预测概率p_plm的损失函数：

其中，CE表示交叉熵，y_plm表示第二掩模文本样本中第二掩模单词对应的第二真实词表标注，p_mlm(t_m|t_＜＝m，b)表示根据第二未掩模单词特征t_＜＝m和桥接特征b预测出的第二掩模单词特征t_m的第二词表预测概率。

具体地，如图6所示，本申请通过将第二掩模视频文本样本对中的视频样本输入底层视频编码器，将第二掩模文本样本(第二掩模单词为onthefield)输入底层文本编码器，得到视频特征和文本特征。并且通过视频特征和文本特征对应的底层特征融合输入记忆模块，得到桥接特征。然后，视频特征、桥接特征和文本特征拼接输入跨模态编码器，跨模态编码器对第二掩模单词特征进行预测，并输出第二词表预测概率。然后，可以根据该第二词表预测概率进行前缀文本建模，对模型进行训练。

容易理解的是，掩模文本建模和前缀文本建模本质上都是掩模部分文本，然后通过上下文文本和视频的交互来预测被掩模的文本，通过根据预测结果建立损失函数，并对模型进行训练，可以提高模型的文本表示能力。

步骤106，根据目标函数对视觉文本预训练模型进行训练，以使训练后的视觉文本预训练模型用于学习视频文本样本对的初始视频特征与初始文本特征之间的细粒度交互信息、且初始视频特征与初始文本特征之间保持模态分离性。

具体地，可以使用Adam优化器，分两步训练模型，首先，只使用底层模态间对齐任务训练底层视频和文本编码器，然后，在使用全部的预训练任务对模型进行训练。

在本申请实施例中，步骤105主要可以包括：将第二损失函数与第三损失函数中的至少其中之一者，或者第二损失函数与第三损失函数之和，确定为第一目标函数；将第一损失函数、第二损失函数、第三损失函数、第四损失函数和第五损失函数之和，确定为第二目标函数；步骤106可以包括：根据第一目标函数对视觉文本预训练模型进行一阶段训练，以及根据第二目标函数对视觉文本预训练模型进行二阶段训练。

具体地，可以确定一阶段损失函数为和中的其中之一者、或者

具体地，可以确定二阶段损失函数为：

具体地，本申请采用多模态任务数据集、通过上述一阶段损失函数和二阶段损失函数对视觉文本预训练模型进行训练，其中，这里的多模态任务数据集指的是包括视觉和文本两种模态的任务数据集，从而对视觉文本预训练模型的参数进行微调，经过微调之后的视觉文本预训练模型学习到样本对内视频和文本间的对应关系，进而可以应用于视频文本检索、视频描述、视频问答等下游业务中。

具体地，本申请实施例采用数据集WebVid-2.5M对该视觉文本与训练模型进行训练。WebVid-2.5M是一个公开的视频文本数据集，包含从网络上抓取的二百五十万视频文本对。在模型参数设置方面，本申请实施例使用CLIP模型来初始化底层视频编码器和底层文本编码器，底层视频编码器和底层文本编码器都是12层的Transformer架构。本申请实施例将跨模态编码器的参数从底层文本编码器的前6层初始化，将文本句子的最大长度设置为30。本申请实施例统一采样每个视频的12帧，将维度D设置为512，将训练数据集的大小BS设置为256。其中，记忆内存和MLP映射器的参数是随机初始化的。将桥接特征数量k设置为8，记忆内存大小m设置为8192。在训练策略方面，本申请实施例使用Adam优化器，分两步重新训练模型。第一步，首先使用底层模态间对齐任务(BIMA)训练底层视频编码器和底层文本编码器，初始学习率可以设置为1e-7。第二步，使用其他全部的预训练任务训练模型，初始学习率可以设置为1e-5。其中，初始学习率可以使用余弦衰减。本申请实施例提供的预训练任务是在32个NvidiaTeslaV100GPU上进行的。

具体地，请参阅图7至图10，本申请实施例通过将该视觉文本预训练方法应用于在视频文本检索、视频描述、视频问答三个下游任务上的多个公开数据集上，通过与其他训练方法相比，可见本方法达到了很好的性能提升。如图7所示，在通过文本检索视频的任务中，在多个公开数据集(MSR-VTT、MSVD、LSMDC、DiDemo)上，本申请提出的训练方法的召回率基本高于其他训练方法。其中，MSR-VTT是一个包含视频及字幕的大规模数据集，由来自20个类别的一万个视频片段组成，每个视频片段由20个英文句子注释。其中，MSVD包含1970个视频，每个视频包含40个句子。其中，LSMDC包括超过十二万的视频-句子对，主要来自音频描述。其中，DiDeMo包括超过10,000个25-30秒长的个人视频和超过40,000个文本描述。如图8所示，在视频描述任务中，本申请提出的训练方法的BLEU-4、ROUGE-L、METEOR、CIDEr指标值也高于其他方法，其中，BLEU是根据精确率(Precision)衡量描述的质量，ROUGE是自动摘要任务的评价标准，是基于召回率(Recall)计算的，METEOR考虑了基于整个语料库上的准确率和召回率，而最终得出测度，CIDEr是专门设计出来用于视觉描述问题的，用于衡量图像标注的一致性。如图9所示，在视频问答任务中，本申请提出的训练方法的准确率也高于其他方法。此外，如图10所示，本申请提出的基于记忆模块的记忆增强的跨模态桥接技术，在视频文本检索任务中，视频检索文本召回率、文本检索视频召回率均高于相关技术中不涉及基于记忆模块的记忆增强的跨模态桥接技术。本申请提出的基于记忆模块的记忆增强的跨模态桥接技术，在视频描述任务中，BLEU-4、ROUGE-L、METEOR、CIDEr指标值也高于相关技术中不涉及基于记忆模块的记忆增强的跨模态桥接技术。本申请提出的基于记忆模块的记忆增强的跨模态桥接技术，在视频问答任务中，准确率也高于相关技术中不涉及基于记忆模块的记忆增强的跨模态桥接技术。

上述所有的技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

本申请实施例通过获取成对标注的视频文本样本对，并对视频文本样本对进行特征提取，得到视频文本样本对中视频样本的初始视频特征、以及视频文本样本对中文本样本的初始文本特征；根据初始视频特征以及初始文本特征进行特征融合，得到第一融合特征；根据第一融合特征和预设的多个中间特征确定桥接特征；根据初始视频特征、初始文本特征、桥接特征和预设的掩码矩阵确定目标视频特征和目标文本特征，其中，预设的掩码矩阵用于使初始视频特征和初始文本特征相互掩模；根据初始视频特征、初始文本特征、桥接特征、目标视频特征以及目标文本特征确定目标函数；根据目标函数对视觉文本预训练模型进行训练，以使训练后的视觉文本预训练模型用于学习视频文本样本对的初始视频特征与初始文本特征之间的细粒度交互信息、且初始视频特征与初始文本特征之间保持模态分离性。

上文详细描述了本申请的方法实施例，下文结合图5和图6，详细描述本申请的装置实施例，应理解，装置实施例与方法实施例相互对应，类似的描述可以参照方法实施例。

图11是根据本申请实施例的一种视觉文本预训练模型的训练装置10的示意性结构图，如图11所示，该视觉文本预训练模型的训练装置10可以包括：

提取模块11，用于获取成对标注的视频文本样本对，并对视频文本样本对进行特征提取，得到视频文本样本对中视频样本的初始视频特征、以及视频文本样本对中文本样本的初始文本特征；

融合模块12，用于根据初始视频特征以及初始文本特征进行特征融合，得到第一融合特征；

第一确定模块13，用于根据第一融合特征和预设的多个中间特征确定桥接特征；

第二确定模块14，用于根据初始视频特征、初始文本特征、桥接特征和预设的掩码矩阵确定目标视频特征和目标文本特征，其中，预设的掩码矩阵用于使初始视频特征和初始文本特征相互掩模；

第三确定模块15，用于根据初始视频特征、初始文本特征、桥接特征、目标视频特征以及目标文本特征确定目标函数；

训练模块16，用于根据目标函数对视觉文本预训练模型进行训练，以使训练后的视觉文本预训练模型用于学习视频文本样本对的初始视频特征与初始文本特征之间的细粒度交互信息、且初始视频特征与初始文本特征之间保持模态分离性。

可选的，第一确定模块13，可以用于：确定第一融合特征和每个中间特征之间的第一相似度；根据第一相似度对多个中间特征进行加权求和，得到桥接特征。

可选的，初始视频特征包括多个第一视频帧特征，初始文本特征包括第一文本结尾特征，融合模块12，可以用于：将多个第一视频帧特征进行均值池化，得到第一整体视频特征；根据第一整体视频特征和第一文本结尾特征进行特征融合，得到第一融合特征。

可选的，第三确定模块15，可以用于：根据目标视频特征、目标文本特征以及预设的可学习矩阵，确定目标视频特征和目标文本特征之间是否匹配的二分类概率；根据二分类概率与视频文本样本对所对应的真实匹配标注确定第一损失函数，并根据第一损失函数确定目标函数，其中，真实匹配标注用于标注视频文本样本对中的视频样本与文本样本是否匹配。

可选的，第三确定模块15，还可以用于：获取包含有多个视频文本样本对的训练样本集；基于训练样本集中多个视频文本样本对所对应的初始视频特征、初始文本特征、桥接特征和预设的掩码矩阵，确定目标视频特征集合和目标文本特征集合，其中，目标视频特征集合中包含每个视频样本对应的目标视频特征、以及每个文本样本对应的目标文本特征，目标文本特征集合中的每个目标文本特征包括第二文本结尾特征，目标视频特征集合中的每个目标视频特征包括多个第二视频帧特征；根据第一整体视频特征，从目标文本特征集合对应的多个第二文本结尾特征中确定一个难负文本特征；分别将目标视频特征集合中的每个目标视频特征所对应的多个第二视频帧特征进行均值池化，得到目标视频特征集合中的每个目标视频特征所对应的第二整体视频特征；根据第一文本结尾特征，从目标视频特征集合对应的多个第二整体视频特征中确定一个难负视频特征。

可选的，第三确定模块15，还可以用于：根据目标视频特征、目标文本特征、以及预设的可学习矩阵，确定目标视频特征和目标文本特征之间是否匹配的二分类概率、目标视频特征和难负文本特征之间是否匹配的二分类概率、以及目标文本特征和难负视频特征之间是否匹配的二分类概率；根据目标视频特征和目标文本特征之间是否匹配的二分类概率、目标视频特征和难负文本特征之间是否匹配的二分类概率、目标文本特征和难负视频特征之间是否匹配的二分类概率、以及目标视频特征和目标文本特征对应的真实匹配标注、目标视频特征和难负文本特征对应的真实匹配标注、目标文本特征和难负视频特征之间的真实匹配标注确定第一损失函数，并根据第一损失函数确定目标函数，其中，真实匹配标注用于标注不同特征之间是否匹配。

可选的，第三确定模块15，还可以用于：计算第一整体视频特征与第一文本结尾特征之间的第二相似度；计算第一整体视频特征，以及多个第二文本结尾特征中不与第一整体视频特征对应的第二文本结尾特征之间的第三相似度；根据第二相似度和第三相似度确定第二损失函数，并根据第二损失函数确定目标函数。

可选的，第三确定模块15，还可以用于：计算第一文本结尾特征与第一整体视频特征之间的第四相似度；计算第一文本结尾特征，以及多个第二整体视频特征中不与第一文本结尾特征相对应的第二整体视频特征之间的第五相似度；根据第四相似度和第五相似度确定第三损失函数，并根据第三损失函数确定目标函数。

可选的，第三确定模块15，还可以用于：获取第一掩模视频文本样本对，第一掩模视频文本样本对包括第一掩模文本样本和视频样本，第一掩模文本样本为以预设概率随机设置第一掩模单词的文本样本；获取视频样本的初始视频特征，以及第一掩模文本样本的第一文本特征；根据初始视频特征和第一文本特征进行特征融合得到第二融合特征；根据第二融合特征和预设的多个中间特征确定第二桥接特征；根据初始视频特征、所受第一文本特征和第二桥接特征，确定第一掩模文本样本中第一掩模单词的第一词表预测概率；根据第一词表预测概率和第一掩模文本样本中第一掩模单词对应的第一真实词表标注确定第四损失函数，并根据第四损失函数确定目标函数。

可选的，第三确定模块15，还可以用于：获取第二掩模视频文本样本对，第二掩模视频文本样本对包括第二掩模文本样本和视频样本，第二掩模文本样本为在文本样本的目标位置之后设置第二掩模单词的文本样本，目标位置为文本样本中随机选择的位置；获取视频样本的初始视频特征，以及第二掩模文本样本的第二文本特征；根据初始视频特征和第二文本特征进行特征融合得到第三融合特征；根据第三融合特征和预设的多个中间特征确定第三桥接特征；根据初始视频特征、第二文本特征和第三桥接特征，确定第二掩模文本样本中第二掩模单词的第二词表预测概率；根据第二词表预测概率和第二掩模文本样本中第二掩模单词对应的第二真实词表标注确定第五损失函数，并根据第五损失函数确定目标函数。

可选的，第三确定模块15，还可以用于：将第二损失函数与第三损失函数中的至少其中之一者，或者第二损失函数与第三损失函数之和，确定为第一目标函数；将第一损失函数、第二损失函数、第三损失函数、第四损失函数和第五损失函数之和，确定为第二目标函数；训练模块16，可以用于：根据第一目标函数对视觉文本预训练模型进行一阶段训练，以及根据第二目标函数对视觉文本预训练模型进行二阶段训练。

需要说明的是，本申请实施例中的视觉文本预训练模型的训练装置10中各模块的功能可对应参考上述各方法实施例中的具体实现方式，这里不再赘述。

上述视觉文本预训练模型的训练装置10中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各个模块可以以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行上述各个模块对应的操作。

本申请实施例提供的视觉文本预训练模型的训练装置10，通过获取成对标注的视频文本样本对，并对视频文本样本对进行特征提取，得到视频文本样本对中视频样本的初始视频特征、以及视频文本样本对中文本样本的初始文本特征，接着融合模块12根据初始视频特征以及初始文本特征进行特征融合，得到第一融合特征，然后第一确定模块13根据第一融合特征和预设的多个中间特征确定桥接特征，然后第二确定模块14根据初始视频特征、初始文本特征、桥接特征和预设的掩码矩阵确定目标视频特征和目标文本特征，其中，预设的掩码矩阵用于使初始视频特征和初始文本特征相互掩模，之后，第三确定模块15根据初始视频特征、初始文本特征、桥接特征、目标视频特征以及目标文本特征确定目标函数，最后训练模块16根据目标函数对视觉文本预训练模型进行训练，以使训练后的视觉文本预训练模型用于学习视频文本样本对的初始视频特征与初始文本特征之间的细粒度交互信息、且初始视频特征与初始文本特征之间保持模态分离性。

在一些实施例中，本申请还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

图12为本申请实施例提供的计算机设备的示意性结构图，该计算机设备可以是图1所示的终端或服务器。如图12所示，计算机设备30可以包括：通信接口31，存储器32，处理器33和通信总线34。通信接口31，存储器32，处理器33通过通信总线34实现相互间的通信。通信接口31用于计算机设备30与外部设备进行数据通信。存储器32可用于存储软件程序以及模块，处理器33通过运行存储在存储器32的软件程序以及模块，例如前述方法实施例中的相应操作的软件程序。

在一些实施例中，该处理器33可以调用存储在存储器32的软件程序以及模块执行如下操作：

获取成对标注的视频文本样本对，并对视频文本样本对进行特征提取，得到视频文本样本对中视频样本的初始视频特征、以及视频文本样本对中文本样本的初始文本特征；根据初始视频特征以及初始文本特征进行特征融合，得到第一融合特征；根据第一融合特征和预设的多个中间特征确定桥接特征；根据初始视频特征、初始文本特征、桥接特征和预设的掩码矩阵确定目标视频特征和目标文本特征，其中，预设的掩码矩阵用于使初始视频特征和初始文本特征相互掩模；根据初始视频特征、初始文本特征、桥接特征、目标视频特征以及目标文本特征确定目标函数；根据目标函数对视觉文本预训练模型进行训练，以使训练后的视觉文本预训练模型用于学习视频文本样本对的初始视频特征与初始文本特征之间的细粒度交互信息、且初始视频特征与初始文本特征之间保持模态分离性。

本申请实施例还提供了一种计算机可读存储介质，用于存储计算机程序。该计算机可读存储介质可应用于计算机设备，并且该计算机程序使得计算机设备执行本申请实施例中的视频预览方法中的相应流程，为了简洁，在此不再赘述。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得计算机设备执行本申请实施例中的视频预览方法中的相应流程，为了简洁，在此不再赘述。

本申请实施例还提供了一种计算机程序，该计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得计算机设备执行本申请实施例中的视频预览方法中的相应流程，为了简洁，在此不再赘述。

应理解，本申请实施例的处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(FieldProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-OnlyMemory，ROM)、可编程只读存储器(ProgrammableROM，PROM)、可擦除可编程只读存储器(ErasablePROM，EPROM)、电可擦除可编程只读存储器(ElectricallyEPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(RandomAccessMemory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(StaticRAM，SRAM)、动态随机存取存储器(DynamicRAM，DRAM)、同步动态随机存取存储器(SynchronousDRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(DoubleDataRateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM，ESDRAM)、同步连接动态随机存取存储器(SynchlinkDRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambusRAM，DRRAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

应理解，上述存储器为示例性但不是限制性说明，例如，本申请实施例中的存储器还可以是静态随机存取存储器(staticRAM，SRAM)、动态随机存取存储器(dynamicRAM，DRAM)、同步动态随机存取存储器(synchronousDRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(doubledatarateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlinkDRAM，SLDRAM)以及直接内存总线随机存取存储器(DirectRambusRAM，DRRAM)等等。也就是说，本申请实施例中的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种视觉文本预训练模型的训练方法，其特征在于，所述方法包括：

确定所述第一融合特征和每个中间特征之间的第一相似度，并根据所述第一相似度对多个中间特征进行加权求和，得到桥接特征；其中，每个所述中间特征为预先存储于记忆内存中的每个内存条目下的信息，所述中间特征用于表征中间模态信息；

2.根据权利要求1所述的视觉文本预训练模型的训练方法，其特征在于，所述初始视频特征包括多个第一视频帧特征，所述初始文本特征包括第一文本结尾特征，所述根据所述初始视频特征以及所述初始文本特征进行特征融合，得到第一融合特征，包括：

将所述多个第一视频帧特征进行均值池化，得到第一整体视频特征；

根据所述第一整体视频特征和所述第一文本结尾特征进行特征融合，得到第一融合特征。

3.根据权利要求2所述的视觉文本预训练模型的训练方法，其特征在于，所述根据所述初始视频特征、所述初始文本特征、所述桥接特征、所述目标视频特征以及所述目标文本特征确定目标函数，包括：根据所述目标视频特征、所述目标文本特征以及预设的可学习矩阵，确定所述目标视频特征和所述目标文本特征之间是否匹配的二分类概率；

根据所述二分类概率与所述视频文本样本对所对应的真实匹配标注确定第一损失函数，并根据所述第一损失函数确定目标函数，其中，所述真实匹配标注用于标注所述视频文本样本对中的视频样本与文本样本是否匹配。

4.根据权利要求3所述的视觉文本预训练模型的训练方法，其特征在于，所述方法还包括：

获取包含有多个所述视频文本样本对的训练样本集；

基于所述训练样本集中多个所述视频文本样本对所对应的所述初始视频特征、所述初始文本特征、所述桥接特征和所述预设的掩码矩阵，确定目标视频特征集合和目标文本特征集合，其中，所述目标视频特征集合中包含每个所述视频样本对应的目标视频特征、以及每个所述文本样本对应的目标文本特征，所述目标文本特征集合中的每个目标文本特征包括第二文本结尾特征，所述目标视频特征集合中的每个目标视频特征包括多个第二视频帧特征；

根据所述第一整体视频特征，从所述目标文本特征集合对应的多个所述第二文本结尾特征中确定一个难负文本特征；

分别将所述目标视频特征集合中的每个目标视频特征所对应的多个第二视频帧特征进行均值池化，得到所述目标视频特征集合中的每个目标视频特征所对应的第二整体视频特征；

根据所述第一文本结尾特征，从所述目标视频特征集合对应的多个所述第二整体视频特征中确定一个难负视频特征。

5.根据权利要求4所述的视觉文本预训练模型的训练方法，其特征在于，所述根据所述初始视频特征、所述初始文本特征、所述桥接特征、所述目标视频特征以及所述目标文本特征确定目标函数，包括：

根据所述目标视频特征、所述目标文本特征、以及预设的可学习矩阵，确定所述目标视频特征和所述目标文本特征之间是否匹配的二分类概率、所述目标视频特征和所述难负文本特征之间是否匹配的二分类概率、以及所述目标文本特征和所述难负视频特征之间是否匹配的二分类概率；

根据所述目标视频特征和所述目标文本特征之间是否匹配的二分类概率、所述目标视频特征和所述难负文本特征之间是否匹配的二分类概率、所述目标文本特征和所述难负视频特征之间是否匹配的二分类概率、以及所述目标视频特征和所述目标文本特征对应的真实匹配标注、所述目标视频特征和所述难负文本特征对应的真实匹配标注、所述目标文本特征和所述难负视频特征之间的真实匹配标注确定第一损失函数，并根据所述第一损失函数确定目标函数，其中，所述真实匹配标注用于标注不同特征之间是否匹配。

6.根据权利要求4所述的视觉文本预训练模型的训练方法，其特征在于，所述根据所述初始视频特征、所述初始文本特征、所述桥接特征、所述目标视频特征以及所述目标文本特征确定目标函数，包括：

计算所述第一整体视频特征与所述第一文本结尾特征之间的第二相似度；

计算所述第一整体视频特征，以及多个所述第二文本结尾特征中不与所述第一整体视频特征对应的第二文本结尾特征之间的第三相似度；

根据所述第二相似度和所述第三相似度确定第二损失函数，并根据所述第二损失函数确定目标函数。

7.根据权利要求6所述的视觉文本预训练模型的训练方法，其特征在于，所述根据所述初始视频特征、所述初始文本特征、所述桥接特征、所述目标视频特征以及所述目标文本特征确定目标函数，包括：

计算所述第一文本结尾特征与所述第一整体视频特征之间的第四相似度；

计算所述第一文本结尾特征，以及多个所述第二整体视频特征中不与所述第一文本结尾特征相对应的第二整体视频特征之间的第五相似度；

根据所述第四相似度和所述第五相似度确定第三损失函数，并根据所述第三损失函数确定目标函数。

8.根据权利要求7所述的视觉文本预训练模型的训练方法，其特征在于，所述根据所述初始视频特征、所述初始文本特征、所述桥接特征、所述目标视频特征以及所述目标文本特征确定目标函数，还包括：

获取第一掩模视频文本样本对，所述第一掩模视频文本样本对包括第一掩模文本样本和所述视频样本，所述第一掩模文本样本为以预设概率随机设置第一掩模单词的文本样本；

获取所述视频样本的所述初始视频特征，以及所述第一掩模文本样本的第一文本特征；

根据所述初始视频特征和所述第一文本特征进行特征融合得到第二融合特征；

根据所述第二融合特征和所述预设的多个中间特征确定第二桥接特征；

根据所述初始视频特征、所述第一文本特征和所述第二桥接特征，确定所述第一掩模文本样本中所述第一掩模单词的第一词表预测概率；

根据所述第一词表预测概率和所述第一掩模文本样本中所述第一掩模单词对应的第一真实词表标注确定第四损失函数，并根据所述第四损失函数确定目标函数。

9.根据权利要求8所述的视觉文本预训练模型的训练方法，其特征在于，所述根据所述初始视频特征、所述初始文本特征、所述桥接特征、所述目标视频特征以及所述目标文本特征确定目标函数，包括：

获取第二掩模视频文本样本对，所述第二掩模视频文本样本对包括第二掩模文本样本和所述视频样本，所述第二掩模文本样本为在所述文本样本的目标位置之后设置第二掩模单词的文本样本，所述目标位置为所述文本样本中随机选择的位置；

获取所述视频样本的所述初始视频特征，以及所述第二掩模文本样本的第二文本特征；

根据所述初始视频特征和所述第二文本特征进行特征融合得到第三融合特征；

根据所述第三融合特征和所述预设的多个中间特征确定第三桥接特征；

根据所述初始视频特征、所述第二文本特征和所述第三桥接特征，确定所述第二掩模文本样本中所述第二掩模单词的第二词表预测概率；

根据所述第二词表预测概率和所述第二掩模文本样本中所述第二掩模单词对应的第二真实词表标注确定第五损失函数，并根据所述第五损失函数确定目标函数。

10.根据权利要求9所述的视觉文本预训练模型的训练方法，其特征在于，所述根据所述初始视频特征、所述初始文本特征、所述桥接特征、所述目标视频特征以及所述目标文本特征确定目标函数，包括：

将所述第二损失函数与所述第三损失函数中的至少其中之一者，或者所述第二损失函数与所述第三损失函数之和，确定为第一目标函数；

将所述第一损失函数、所述第二损失函数、所述第三损失函数、所述第四损失函数和所述第五损失函数之和，确定为第二目标函数；

所述根据所述目标函数对所述视觉文本预训练模型进行训练，包括：根据所述第一目标函数对所述视觉文本预训练模型进行一阶段训练，以及根据所述第二目标函数对视觉文本预训练模型进行二阶段训练。

11.一种视觉文本预训练模型的训练装置，其特征在于，包括：

第一确定模块，用于确定所述第一融合特征和每个中间特征之间的第一相似度，并根据所述第一相似度对多个中间特征进行加权求和，得到桥接特征；其中，每个所述中间特征为预先存储于记忆内存中的每个内存条目下的信息，所述中间特征用于表征中间模态信息；

12.一种计算机可读存储介质，包括指令，其特征在于，当所述指令在计算机设备上运行时，使得所述计算机设备执行如权利要求1至10中任意一项所述的视觉文本预训练模型的训练方法。

13.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行权利要求1至10中任意一项所述的视觉文本预训练模型的训练方法。