CN115115984A

CN115115984A - 视频数据处理方法、装置、程序产品、计算机设备和介质

Info

Publication number: CN115115984A
Application number: CN202210741685.XA
Authority: CN
Inventors: 曾雅文; 黎功福; 王艺如
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2022-09-27

Abstract

本申请公开了一种视频数据处理方法、装置、程序产品、计算机设备和介质，该方法包括：获取样例对和样本关联对；样例对按照包含的视频片段与文本间的内容差异被分为正样例对和负样例对；样本关联对包含文本和该文本在样本视频数据中所属的视频片段；样本视频数据具有视频描述标签；调用生成网络对样例对进行对比学习得到学习偏差；调用生成网络基于样本关联对预测样本视频数据的样本视频描述信息，基于视频描述标签和样本视频描述信息得到预测偏差；根据学习偏差和预测偏差训练生成网络，得到训练好的生成网络。采用本申请，可提高训练得到的生成网络的准确性，进而采用训练好的生成网络也可以准确地生成视频数据的视频描述信息。

Description

视频数据处理方法、装置、程序产品、计算机设备和介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频数据处理方法、装置、程序产品、计算机设备和介质。

背景技术

在视频检索类应用中，用户通常可以输入检索信息来检索相关的视频，后台则可以对用户输入的检索信息与视频库中视频的标题信息进行匹配，若匹配成功(如检索信息与视频的标题信息间的文本相似度较高)，则可以向用户推送所具有的标题信息与用户输入的检索信息相匹配的视频。

但是，若视频的视频内容与视频的标题信息所描述的内容之间并不相符，则用户通过检索信息也并不能检索到准确的视频，因此，如何准确地生成视频数据的相关描述信息(用于与用户输入的检索信息进行匹配)成为一个亟待解决的问题。

发明内容

本申请提供了一种视频数据处理方法、装置、程序产品、计算机设备和介质，可提高训练好的生成网络的准确性，进而采用训练好的生成网络可以准确地生成视频数据的视频描述信息。

本申请一方面提供了一种视频数据处理方法，该方法包括：

获取样例对和样本关联对；一个样例对包含一个第一视频片段和一个第一文本，样例对按照包含的第一视频片段与第一文本间的内容差异被分为正样例对和负样例对；一个样本关联对包含一个第二文本和该第二文本在样本视频数据中所属的第二视频片段；样本视频数据具有视频描述标签；

调用生成网络对样例对进行特征对比学习，得到学习偏差；学习偏差用于减小正样例对中的第一视频片段与第一文本间的特征差异，并用于增大负样例对中的第一视频片段与第一文本间的特征差异；

调用生成网络对样本关联对进行预测处理，得到样本视频数据的样本视频描述信息，并基于视频描述标签获取生成网络针对样本视频描述信息的预测偏差；

根据学习偏差和预测偏差修正生成网络的网络参数，得到训练好的生成网络；训练好的生成网络用于生成视频数据的视频描述信息。

本申请一方面提供了一种视频数据处理装置，该装置包括：

获取模块，用于获取样例对和样本关联对；一个样例对包含一个第一视频片段和一个第一文本，样例对按照包含的第一视频片段与第一文本间的内容差异被分为正样例对和负样例对；一个样本关联对包含一个第二文本和该第二文本在样本视频数据中所属的第二视频片段；样本视频数据具有视频描述标签；

学习模块，用于调用生成网络对样例对进行特征对比学习，得到学习偏差；学习偏差用于减小正样例对中的第一视频片段与第一文本间的特征差异，并用于增大负样例对中的第一视频片段与第一文本间的特征差异；

预测模块，用于调用生成网络对样本关联对进行预测处理，得到样本视频数据的样本视频描述信息，并基于视频描述标签获取生成网络针对样本视频描述信息的预测偏差；

训练模块，用于根据学习偏差和预测偏差修正生成网络的网络参数，得到训练好的生成网络；训练好的生成网络用于生成视频数据的视频描述信息。

可选的，正样例对包含的第一视频片段的视频内容与正样例对包含的第一文本描述的内容相同；负样例对包含的第一视频片段的视频内容与负样例对包含的第一文本描述的内容不同。

可选的，上述装置还用于：

获取样本视频数据的样本音频数据，并对样本音频数据进行文本转换处理，得到样本文本数据；

对样本文本数据进行文本分割处理，得到样本文本数据包含的至少一个第二文本。

可选的，至少一个第二文本中的任一个表示为目标文本；上述装置还用于：

获取目标文本在样本音频数据中对应的音频片段；

获取音频片段在样本视频数据中的起始播放时刻和终止播放时刻；

根据起始播放时刻和终止播放时刻从样本视频数据中，切割得到目标文本所属的第二视频片段；

根据目标文本和目标文本所属的第二视频片段构建样本关联对。

可选的，学习模块调用生成网络对样例对进行特征对比学习，得到学习偏差的方式，包括：

调用生成网络生成正样例对中第一视频片段的第一视频特征和正样例对中第一文本的第一文本特征；

调用生成网络生成负样例对中第一视频片段的第二视频特征和负样例对中第一文本的第二文本特征；

基于第一视频特征、第一文本特征、第二视频特征和第二文本特征，获取生成网络针对样例对的学习偏差。

可选的，预测模块调用生成网络对样本关联对进行预测处理，得到样本视频数据的样本视频描述信息的方式，包括：

调用生成网络生成样本关联对中第二文本的第三文本特征和样本关联对中第二视频片段的第三视频特征；

获取样本关联对中第二文本包含的至少一个分词，并获取每个分词的词嵌入特征；

调用生成网络基于第三文本特征、第三视频特征和每个分词的词嵌入特征，预测样本视频描述信息。

可选的，预测模块调用生成网络生成样本关联对中子文本的第三文本特征和样本关联对中子文本的关联视频片段的第三视频特征的方式，包括：

获取样本关联对中第二文本的文本嵌入特征和样本关联对中第二视频片段的视频嵌入特征；

调用生成网络基于文本嵌入特征生成第三文本特征，并调用生成网络基于视频嵌入特征生成第三视频特征。

可选的，预测模块调用生成网络基于第三文本特征、第三视频特征和每个分词的词嵌入特征，预测样本视频描述信息的方式，包括：

调用生成网络基于第三文本特征、第三视频特征和每个分词的词嵌入特征，生成样本视频数据的多模态特征；

基于多模态特征预测样本视频数据的样本视频描述信息。

可选的，生成网络包含视频编码器和文本解码器，多模态特征基于视频编码器生成；

预测模块基于多模态特征预测样本视频数据的样本视频描述信息的方式，包括：

调用文本解码器基于多模态特征预测得到样本视频描述信息。

可选的，预测模块调用文本解码器基于多模态特征预测得到样本视频描述信息的方式，包括：

调用文本解码器基于多模态特征、及文本解码器所预测的样本视频数据的前n-1个描述字符，预测样本视频数据的第n个描述字符；n为正整数；

若第n个描述字符不携带预测结束标识，则调用文本解码器基于多模态特征、前n-1个描述字符、及第n个描述字符，预测样本视频数据的第n+1个描述字符；

若第n+1个描述字符携带预测结束标识，则根据前n-1个描述字符、第n个描述字符和第n+1个描述字符确定样本视频描述信息。

可选的，训练模块根据学习偏差和预测偏差修正生成网络的网络参数，得到训练好的生成网络的方式，包括：

获取针对学习偏差的第一偏差权重和针对预测偏差的第二偏差权重；

基于第一偏差权重和第二偏差权重对学习偏差和预测偏差进行加权求和，得到生成网络针对样例对和样本关联对的综合训练偏差；

基于综合训练偏差修正生成网络的网络参数，得到训练好的生成网络。

可选的，上述装置还用于：

获取目标视频数据及根据目标视频数据提取得到的目标文本数据；

根据目标文本数据的各个子文本和各个子文本分别在目标视频数据中所属的视频片段，构建目标关联对；

调用训练好的生成网络对目标关联对进行预测处理，得到目标视频数据的目标视频描述信息。

可选的，上述装置还用于：

获取视频客户端发送的视频检索文本；

若视频检索文本与目标视频描述信息之间的文本相似度大于或等于相似度阈值，则将目标视频数据返回给视频客户端，使视频客户端输出目标视频数据。

本申请一方面提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行本申请中一方面中的方法。

本申请一方面提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时使该处理器执行上述一方面中的方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述一方面等各种可选方式中提供的方法。

本申请首先可以获取样例对和样本关联对；一个样例对包含一个第一视频片段和一个第一文本，样例对按照包含的第一视频片段与第一文本间的内容差异被分为正样例对和负样例对；一个样本关联对包含一个第二文本和该第二文本在样本视频数据中所属的第二视频片段；样本视频数据具有视频描述标签；接着，可以调用生成网络对样例对进行特征对比学习，得到学习偏差；学习偏差用于减小正样例对中的第一视频片段与第一文本间的特征差异，并用于增大负样例对中的第一视频片段与第一文本间的特征差异；进而，可以调用生成网络对样本关联对进行预测处理，得到样本视频数据的样本视频描述信息，并基于视频描述标签获取生成网络针对样本视频描述信息的预测偏差；最后，根据学习偏差和预测偏差可以修正生成网络的网络参数，得到训练好的生成网络；训练好的生成网络就可以用于生成视频数据的视频描述信息。由此可见，本申请提出的方法可以结合视频数据及视频数据的相关文本数据(如第二文本)来一起训练生成网络，同时，还会对样例对进行对比学习，以此来辅助生成网络对于视频数据和视频数据的相关文本数据间的学习偏差，这双重提高了对生成网络进行训练的准确性，进而通过训练好的生成网络也可以准确地生成视频数据的视频描述信息。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的一种网络架构的结构示意图；

图2是本申请提供的一种网络训练的场景示意图；

图3是本申请提供的一种视频数据处理方法的流程示意图；

图4是本申请提供的一种构建样本关联对的场景示意图；

图5是本申请提供的一种构建样例对的场景示意图；

图6是本申请提供的一种构建负样例对的场景示意图；

图7是本申请提供的一种客户端页面的页面示意图；

图8是本申请提供的一种信息预测方法的流程示意图；

图9是本申请提供的一种特征加和的场景示意图；

图10是本申请提供的一种信息预测的场景示意图；

图11是本申请提供的一种生成视频描述信息的流程示意图；

图12是本申请提供的一种视频数据处理装置的结构示意图；

图13是本申请提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请涉及到人工智能相关技术。其中，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请中主要涉及到了人工智能中的机器学习。其中，机器学习(MachineLearning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请中所涉及到的机器学习主要指，如何训练得到生成网络，以通过该训练好的生成网络生成视频数据准确的视频描述信息，具体可以参见下述图3对应的实施例中的描述。

本申请涉及到云技术。其中，云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

本申请中所涉及到的云技术是指后台可以通过“云”向视频客户端进行视频推送。

首先，需要进行说明的是，本申请在收集用户的相关数据(如用户输入的视频检索信息等用户数据)之前以及在收集用户的相关数据的过程中，都可以显示提示界面或者弹窗，该提示界面或者弹窗用于提示用户当前正在搜集其相关数据，使得本申请仅仅在获取到用户对该提示界面或者弹窗发出的确认操作后，才开始执行获取用户相关数据的相关步骤，否则(即未获取到用户对该提示界面或者弹窗发出的确认操作时)，结束获取用户相关数据的相关步骤，即不获取用户的相关数据。换句话说，本申请所采集的所有用户数据都是在用户同意并授权的情况下进行采集的，且相关用户数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

请参见图1，图1是本申请提供的一种网络架构的结构示意图。如图1所示，网络架构可以包括服务器200和终端设备集群，终端设备集群可以包括一个或者多个终端设备，这里将不对终端设备的数量进行限制。如图1所示，多个终端设备具体可以包括终端设备100a、终端设备101a、终端设备102a、…、终端设备103a；如图1所示，终端设备100a、终端设备101a、终端设备102a、…、终端设备103a均可以与服务器200进行网络连接，以便于每个终端设备可以通过网络连接与服务器200之间进行数据交互。

如图1所示的服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是：智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视等智能终端。下面以终端设备100a与服务器200之间的通信为例，进行本申请实施例的具体描述。

请一并参见图2，图2是本申请提供的一种网络训练的场景示意图。如图2所示，本申请可以由上述服务器200来训练生成网络，服务器200可以获取到到用于对生成网络进行训练的样本视频数据，进而，服务器200可以通过样本视频数据构建若干样本关联对，任一个样本关联对可以包含一个句子(即文本)和该句子的一个关联视频片段，该句子可以是对样本视频数据的音频数据进行文本转换得到，该句子的关联视频片段即为样本视频数据中与该句子对应的音频片段同步播放的视频片段，该句子对应的音频片段可以指样本视频数据的音频数据中进行文本转换可以得到该句子的音频片段。因此，可以理解为任一个样本关联对中的句子所表达的内容与该样本关联对中视频片段的视频内容是一致的。

服务器200还可以获取到若干样例对，该若干样例对可以包括若干正样例对和若干负样例对。其中，任一个样例对中也可以包含一个句子和一个视频片段，只不过任一正样例对包含的句子所描述的内容与该正样例对包含的视频片段的视频内容是一致，但是任一负样例对包含的句子所描述的内容与该负样例对包含的视频片段的视频内容是不一致的。

因此，服务器200可以通过上述若干样本关联对和若干正负样例对一起训练生成网络，使得生成网络可以通过样本关联对来对样本视频数据的视频片段的信息与样本视频数据的音频转文本所得到的句子的信息进行融合学习后，来生成更为精准的样本视频数据的视频描述信息。

与此同时，服务器200还通过对若干正负样例对进行特征对比学习，以此让句子和视频片段之间的上下文语义进行对齐，使得生成网络可以更为精确地通过样本关联对来生成样本视频数据的视频描述信息。

通过上述样本关联对和样例对一起训练生成网络，可以训练得到非常准确的生成网络，该生成网络可以结合上视频数据的音频转换的文本对视频数据进行更为充分的理解和学习，通过训练得到的生成网络可以生成视频数据准确的视频描述信息。对生成网络进行训练的具体过程可以参见下述图3对应实施例中的相关描述。

更多的，训练好的生成网络就可以用于生成视频库中各个视频数据的视频描述信息。进而，若服务器200获取到终端设备100a发送的用于检索视频的视频检索文本，则服务器200可以对该视频检索文本与视频库中各个视频数据的视频描述信息进行文本相似度比对，并将视频描述信息与该视频检索文本之间的文本相似度较高的视频数据推送给终端设备200，终端设备200就可以在终端界面中显示服务器200向其推送的视频数据，达到终端设备200通过视频检索文本进行准确的视频检索的目的。

请参见图3，图3是本申请提供的一种视频数据处理方法的流程示意图。本申请实施例中的执行主体可以是一个计算机设备或者多个计算机设备所构成的计算机设备集群。该计算机设备可以是服务器，也可以终端设备。因此，本申请实施例中的执行主体可以是服务器，也可以是终端设备，还可以是由服务器和终端设备共同构成。下述中，将本申请实施例中的执行主体统称为计算机设备为例进行说明。如图3所示，该方法可以包括：

步骤S101，获取样例对和样本关联对；一个样例对包含一个第一视频片段和一个第一文本，样例对按照包含的第一视频片段与第一文本间的内容差异被分为正样例对和负样例对；一个样本关联对包含一个第二文本和该第二文本在样本视频数据中所属的第二视频片段；样本视频数据具有视频描述标签。

可选的，计算机设备可以获取若干样例对以及若干样本关联对。其中，任一个样例对中可以包含一个视频片段和一个文本，可以将样例对中包含的视频片段称之为是第一视频片段，可以将样例对中包含的文本称之为是第一文本，因此，可以理解的是，一个样例对就包含一个第一视频片段和一个第一文本。样例对的数量具体根据实际应用场景确定，对此不做限制。样例对主要是用于对生成网络进行特征对比学习，具体可以参见下述步骤S102中的描述。

其中，样例对可以按照包含的第一视频片段和第一文本间的内容差异被分为正样例对和负样例对。其中，正样例对是指包含的第一视频片段的视频内容与包含的第一文本描述的内容相同的样例对，换句话说，正样例对是指包含的第一文本所描述的内容与包含的第一视频片段的视频内容相符合的样例对，正样例对中第一文本所描述的内容是该正样例对中第一视频片段所发生的内容。

反之，负样例对则可以是指包含的第一视频片段的视频内容与包含的第一文本描述的内容不同的样例对，换句话说，负样例对是指包含的第一文本所描述的内容与包含的第一视频片段的视频内容不相符合的样例对，负样例对中第一文本所描述的内容不是该负样例对中第一视频片段所发生的内容。

对于正样例对，例如，一个正样例对中的第一文本可以是“现在我们把西瓜切好，尽量切小一点”，则该正样例对中的第一视频片段可以是人正在切西瓜的片段；再如，一个正样例对中的第一文本可以是“现在我们在汤里放盐”，则该正样例对中的第一视频片段可以是正在往汤里放盐的视频片段。

对于负样例对，例如，一个负样例对中的第一文本可以是“接下来我们在汤里加一些姜片使汤的味道更好”，但是该负样例对中的第一视频片段则不是在汤里加姜片的视频片段；再如，一个负样例对中的第一文本是“刚刚我们已经切了蔬菜”，但是该负样例对中的第一视频片段也不是切蔬菜的视频片段。

而任一个样本关联对则是可以包括一个文本以及该文本在对应视频数据中所属的视频片段，样本关联对中的文本可以称之为是第二文本，样本关联对中的视频片段可以称之为是第二视频片段，该第二文本和第二视频片段可以来源于样本视频数据，具体参见下述内容描述。

可选的，获取上述样例对以及样本关联对的方式可以包括：

计算机设备可以获取到用于对生成网络进行训练的若干样本视频数据，该样本视频数据的数量根据实际应用场景确定，对此不做限制。下述以对一个样本音频数据进行处理为例进行说明，请参见下述内容描述。

计算机设备可以获取到样本视频数据包含的音频数据(可以称之为是样本音频数据)，该样本音频数据可以是样本视频数据自带的在播放样本视频数据时同步播放的音频数据。计算机设备可以对样本音频数据进行文本转换，即将样本音频数据转换为文本数据，得到样本文本数据，并可以得到该样本文本数据所包含的多个句子，一个句子可以理解为是样本文本数据的一个子文本，样本文本数据中的一个子文本可以称之为是一个第二文本，即通过上述可以获取到样本文本数据包含的若干个第二文本。一个样本音频数据可以具有一个样本文本数据，一个样本文本数据可以包含若干个第二文本(如至少一个)。

可选的，计算机设备可以采用ASR(Automatic Speech Recognition，自动语音识别技术)对上述样本音频数据进行文本转换，得到样本文本数据。该样本文本数据中可以包含文本转换得到的分隔符(如标点符号，如逗号、句号等)，进而，计算机设备可以通过样本文本数据中的分隔符对样本文本数据进行文本分割处理(如按照句号来进行分割)，可以得到样本文本数据中的若干个句子，该若干个句子就可以是样本文本数据包含的若干个第二文本，该若干个第二文本可以是对样本视频数据中人说话的声音转换得到的文本。

因此，以通过一个样本视频数据构建样本关联对的过程为例进行说明：可以将样本文本数据包含的若干个第二文本中的任一个表示为目标文本，并可以获取该目标文本在样本音频数据中对应的音频片段，目标文本对应的音频片段就可以是进行文本转换可以得到目标文本的音频片段，例如，通过对样本音频数据中的音频片段1进行文本转换可以得到目标文本，则该音频片段1就可以是目标文本在样本音频数据中对应的音频片段。

进而，计算机设备可以获取到目标文本对应的音频片段在样本视频数据中的起始播放时刻以及终止播放时刻，该起始播放时刻也就是在播放样本视频数据时目标文本对应的音频片段开始被播放的时刻(可以理解为是目标文本对应的音频片段的开始播放时刻)，该终止播放时刻也就是在播放样本视频数据时目标文本对应的音频片段被结束播放的时刻(可以理解为是目标文本对应的音频片段的最后播放时刻)。

因此，计算机设备可以根据该起始播放时刻和终止播放时刻从样本视频数据中，切割得到目标文本在样本视频数据中所属的第二视频片段，切割的第二视频片段就是样本视频数据中从起始播放时刻到终止播放时刻间的视频片段。换句话说，目标文本所属的第二视频片段也就可以是样本视频数据中与目标文本对应的音频片段同步播放的视频片段。

因此，计算机设备可以通过目标文本以及目标文本在样本视频数据中所属的第二视频片段，构建得到一个样本关联对，目标文本在样本视频数据中所属的第二视频片段可以称之为是目标文本的关联视频片段。

计算机设备可以通过上述与构建目标文本所属样本关联对相同的方式，构建样本视频数据中各个第二文本所属的样本关联对，得到若干个样本关联对，一个第二文本对应于一个样本关联对。该样本关联对可以是在训练生成网络之前预先构建，也可以是在训练生成网络时实时构建，具体根据实际应用场景确定，对此不做限制。

请参见图4，图4是本申请提供的一种构建样本关联对的场景示意图。如图4所示，样本视频数据具有样本音频数据，该样本视频数据与样本音频数据是同步播放的。通过对样本音频数据进行文本转换可以得到样本文本数据，该样本文本数据可以包含若干个句子，该若干个句子可以是样本文本数据包含的若干子文本，该若干子文本可以是样本文本数据包含的若干第二文本，此处该若干第二文本可以包含文本1、文本2、文本3和文本4。

其中，文本1可以是通过对样本音频数据中音频片段1进行文本转换得到，文本2可以是通过对样本音频数据中音频片段2进行文本转换得到，文本3可以是通过对样本音频数据中音频片段3进行文本转换得到，文本4可以是通过对样本音频数据中音频片段4进行文本转换得到。可以理解为，样本音频数据中只有音频片段1～音频片段4有说话的声音，可以转换得到对应的文本。

样本视频数据中与音频片段1同步播放的视频片段可以是视频片段1，即音频片段1和视频片段1的播放起始时刻和播放终止时刻相同；样本视频数据中与音频片段2同步播放的视频片段可以是视频片段2，即音频片段2和视频片段2的播放起始时刻和播放终止时刻相同；样本视频数据中与音频片段3同步播放的视频片段可以是视频片段3，即音频片段3和视频片段3的播放起始时刻和播放终止时刻相同，样本视频数据中与音频片段4同步播放的视频片段可以是视频片段4，即音频片段4和视频片段4的播放起始时刻和播放终止时刻相同。

因此，如图4所示，通过上述视频片段1与文本1可以构建得到一个样本关联对(如样本关联对1)，通过上述视频片段2与文本2可以构建得到一个样本关联对(如样本关联对2)，通过上述视频片段3与文本3可以构建得到一个样本关联对(如样本关联对3)，通过上述视频片段4与文本4可以构建得到一个样本关联对(如样本关联对4)。

更多的，计算机设备获取上述正样例对的方式可以包括：通常情况下，可以认为某个视频数据中在某个时间说话的内容与该视频数据中该个时间说话前后邻近时间的视频片段的视频内容是相同或者相似的(即是相符合的)，因此，计算机设备可以通过样本视频数据的各个第二文本以及该样本视频数据中与各个第二文本前后临近的视频片段来生成正样例对。即正样例对中的第一文本可以是来源于样本视频数据的第二文本，正样例对中的第一视频片段也可以是来源于样本视频数据的第二视频片段。

其中，由于本申请是结合样本视频数据以及通过样本视频数据的样本音频数据转换得到的样本文本数据来协同训练生成网络，因此，本申请中重点关注样本视频数据中具有说话声音的视频片段，即本申请重点关注样本视频数据中播放音频可以转换得到对应第二文本的视频片段。

可以理解的是，根据样本视频数据的样本音频数据转换得到的样本文本数据所包含的各个第二文本之间，是根据对应音频片段被播放的时间先后顺序进行排序的，即样本文本数据包含的各个第二文本之间是有序的。因此，本申请中可以根据任意一个第二文本以及与该第二文本邻近的其他第二文本(如与该第二文本邻近前后的各5个第二文本)在样本视频数据中的关联视频片段构建得到正样例对，即一个正样例对中可以包含任意一个第二文本以及与该第二文本邻近的其他第二文本在样本视频数据中的关联视频片段；或者，本申请可以包含根据任意一个第二文本以及该第二文本在样本视频数据中的关联视频片段来构建得到正样例对，即一个正样例对中可以包含任意一个第二文本以及该第二文本在样本视频数据中的关联视频片段。

更多的，计算机设备获取上述负样例对的方式可以包括：通常情况下，可以认为某个视频数据中在某个时间说话的内容与该视频数据中该个时间说话前后较远时间的视频片段的视频内容是不同的(即是不相符合的)，并且，还可以认为某个视频数据中说话的内容与另外的视频数据中某个视频片段的内容是不同的。

因此，本申请可以通过同一样本视频数据的各个第二文本以及该样本视频数据中与该各个第二文本相隔较远的第二文本的关联视频片段，来构建负样例对，即负样例对中包含的第二文本和视频片段可以是来自于相同样本视频数据，但是该第二文本的关联视频片段与该视频片段在样本视频数据中需要相隔较远时间间隔(如相隔5个以上的第二文本的关联视频片段)；或者，本申请还可以通过一个样本视频数据的第二文本与另外的样本视频数据中第二文本的关联视频片段，来构建负样例对，即负样例对中包含的第二文本和视频片段可以来自于不同的样本视频数据。即负样例对中的第一文本可以是来源于样本视频数据的第二文本，负样例对中的第一视频片段也可以是来源于样本视频数据的第二视频片段。

举个例子，若样本视频数据1的样本文本数据1依次可以包含第二文本1、第二文本2、第二文本3、第二文本4、第二文本5、第二文本6、第二文本7，可以以2个视频片段(也可以是其他数值，具体根据实际应用场景设置)为分割来构建正负样例对，相隔2个视频片段内可以构建正样例对，相隔大于2个视频片段可以构建负样例对。

则通过第二文本4和样本视频数据1中第二文本4的关联视频片段可以构建一个正样例对、通过第二文本4和样本视频数据1中第二文本2的关联视频片段可以构建一个正样例对、通过第二文本4和样本视频数据1中第二文本3的关联视频片段可以构建一个正样例对、通过第二文本4和样本视频数据1中第二文本5的关联视频片段可以构建一个正样例对、以及通过第二文本4和样本视频数据1中第二文本6的关联视频片段可以构建一个正样例对；更多的，通过第二文本4和样本视频数据1中第二文本1的关联视频片段可以构建一个负样例对、以及通过第二文本4和样本视频数据1中第二文本7的关联视频片段可以构建一个负样例对。或者，通过第二文本4也可以与样本视频数据2中某个第二文本的关联视频片段构建得到对应的负样例对，样本视频数据2与样本视频数据1不是同一个样本视频数据。

请参见图5，图5是本申请提供的一种构建样例对的场景示意图。如图5所示，根据样本视频数据的音频转文本得到的若干第二文本从样本视频数据中所切割的各个第二文本对应的关联视频片段可以包括视频片段1、视频片段2、…、视频片段a、视频片段a+1、…视频片段a+c。其中a和c均为正整数，具体数值可以根据实际应用场景确定。

可选的，与某个视频片段相邻2个视频片段内的视频片段都可以认为是与该个视频片段相邻近的视频片段，可以通过与任一视频片段相邻近的视频片段以及该视频片段对应的第二文本(该第二文本的关联视频片段可以是该视频片段)来构建正样例对，并可以通过与任一视频片段不相邻近(如间隔大于2个视频片段)的视频片段以及该视频片段对应的第二文本来构建负样例对。

此处，视频片段a+3对应的第二文本可以是文本a+3，文本a+3的关联视频片段就为视频片段a+3，即文本a+3对应的音频片段是与视频片段a+3同步播放的。

如图5所示，与视频片段a+3相邻近的视频片段可以包括视频片段a+1、视频片段a+2、视频片段a+4和视频片段a+5，因此，此处可以通过视频片段1与文本a+3构建得到一个负样例对、…、通过视频片段a与文本a+3构建得到一个负样例对、通过视频片段a+1与文本a+3构建得到一个正样例对、通过视频片段a+2与文本a+3构建得到一个正样例对、通过视频片段a+3与文本a+3构建得到一个正样例对、通过视频片段a+4与文本a+3构建得到一个正样例对、通过视频片段a+5与文本a+3构建得到一个正样例对、通过视频片段a+6与文本a+3构建得到一个负样例对、…、通过视频片段a+c与文本a+3构建得到一个负样例对。通过样本视频数据中其他视频片段对应的第二文本来构建正负样例对的原理相同。

再请参见图6，图6是本申请提供的一种构建负样例对的场景示意图。如图6所示，通过对样本视频数据1的音频数据进行文本转换得到的样本视频数据的若干第二文本可以包括文本1、文本2、文本3、…。通过样本视频数据2的若干第二文本从样本视频数据中切割得到的若干视频片段(即各个第二文本的关联视频片段)可以包括视频片段1、视频片段2、视频片段3、…。

因此，计算机设备可以通过对样本视频数据1的若干个第二文本(文本1、文本2、文本3、…)和样本视频数据2的若干个视频片段(视频片段1、视频片段2、视频片段3、…)进行组合，来构建得到负样例对。

可以理解的是，在通过上述若干样本视频数据来训练生成网络时，生成网络需要预测各个样本视频数据的视频描述信息(可以称为样本视频描述信息)，并且还会得到生成网络针对该视频描述信息的预测偏差，该预测偏差可以用于修正生成网络的网络参数，具体可以参见下述各个步骤的内容描述。因此，本申请中通过上述各个样本视频数据来构建上述样例对，并通过基于上述各个样本视频数据构建的样例对协同各个样本视频数据一起训练生成网络，可以实现样本来源的统一，即样例对的来源以及需要预测视频描述信息的视频数据都是样本视频数据，这可以提高对生成网络的训练效果，进而提高训练得到的生成网络的准确性。

或者，可选的，样例对也可以不是通过上述样本视频数据所构建，样例对中的第一文本和第一视频片段可以来自于任意的视频数据，只要正样例对中第一文本描述的内容与该正样例对中第一视频片段的视频内容相同，且负样例对中第一文本描述的内容与该负样例对中第一视频片段的视频内容不同即可。即样例对中的第一文本可以不是来源于样本视频数据的第二文本，样例对中的第一视频片段也可以不是来源于样本视频数据的第二视频片段。只是通过采用此种方式得到的样例对以及需要预测视频描述信息的上述样本视频数据(即不统一的样本)一起训练生成网络，此时训练得到的生成网络的性能会比上述样本统一的情形下训练得到的生成网络的性能弱一点。

其中，构建上述样例对和样本关联对都可以是由机器实现，如生成网络也可以具备构建上述样例对和样本关联对的能力，上述样例对和样本关联对可以是在训练生成网络之前就提前进行构建，在训练生成网络时，直接获取即可。

步骤S102，调用生成网络对样例对进行特征对比学习，得到学习偏差；学习偏差用于减小正样例对中的第一视频片段与第一文本间的特征差异，并用于增大负样例对中的第一视频片段与第一文本间的特征差异。

可选的，计算机设备可以调用生成网络对上述样例对进行特征对比学习，得到生成网络针对该样例对的学习偏差，如下述内容描述。

计算机设备可以调用生成网络生成正样例对中第一视频片段的视频特征(可以称为第一视频特征)以及正样例对中第一文本的文本特征(可以称之为是第一文本特征)，并且，计算机设备也可以调用生成网络生成负样例对中第一视频片段的视频特征(可以称为第二视频特征)和负样例对中第一文本的文本特征(可以称为第二文本特征)：

计算机设备可以获取到正样例对中第一视频片段的视频嵌入特征，该视频嵌入特征可以是通过将正样例对中的第一视频片段输入训练好的S3D网络(separable 3DCNN，一种视频理解网络)，通过该S3D网络抽取得到。

计算机设备还可以获取到正样例对中第一文本的文本嵌入特征，该文本嵌入特征可以是通过将正样例对中的第一文本输入训练好的bert模型(一种词向量模型)，通过该bert模型抽取得到。

同理，计算机设备也可以获取到负样例对中第一视频片段的视频嵌入特征，该视频嵌入特征也可以是通过将负样例对中的第一视频片段输入上述训练好的S3D网络，通过该S3D网络抽取得到。

计算机设备还可以获取到负样例对中第一文本的文本嵌入特征，该文本嵌入特征也可以是通过将负样例对中的第一文本输入上述训练好的bert模型，通过该bert模型抽取得到。

进而，计算机设备可以调用生成网络对上述正样例对中第一文本的文本嵌入特征进行特征投影，投影到一个语义空间中，即可得到上述正样例对中第一文本的第一文本特征。可以理解的是，调用生成网络对正样例对中第一文本的文本嵌入特征进行特征投影的过程就是通过正样例对中第一文本的文本嵌入特征生成第一文本特征的过程。

计算机设备还可以调用生成网络对上述正样例对中第一视频片段的视频嵌入特征进行特征投影，投影到上述语义空间中，即可得到上述正样例对中第一视频片段的第一视频特征。可以理解的是，调用生成网络对正样例对中第一视频片段的视频嵌入特征进行特征投影的过程就是通过正样例对中第一视频片段的视频嵌入特征生成第一视频特征的过程。

同理，计算机设备可以调用生成网络对上述负样例对中第一文本的文本嵌入特征进行特征投影，投影到上述语义空间中，即可得到上述负样例对中第一文本的第二文本特征。可以理解的是，调用生成网络对负样例对中第一文本的文本嵌入特征进行特征投影的过程就是通过负样例对中第一文本的文本嵌入特征生成第二文本特征的过程。

计算机设备还可以调用生成网络对上述负样例对中第一视频片段的视频嵌入特征进行特征投影，投影到上述语义空间中，即可得到上述负样例对中第一视频片段的第二视频特征。可以理解的是，调用生成网络对负样例对中第一视频片段的视频嵌入特征进行特征投影的过程就是通过负样例对中第一视频片段的视频嵌入特征生成第二视频特征的过程。

可选的，可以将正负样例对中任一第一文本的文本嵌入特征记为s，生成网络可以通过特征投影函数g对第一文本的文本嵌入特征s进行特征投影，得到该第一文本的文本特征x_s，如下述公式所示：

x_s＝g(s) (1)

例如，特征投影函数g可以是w₁x₁+b₁，其中，w₁是生成网络中需要训练更新的网络参数，x₁表示函数g的输入(如s)，b₁表示偏置，b₁的数值可以预先进行设置。正负样例对中第一文本的文本特征都可以调用生成网络通过公式(1)的原理生成，只是可以将正样例对中第一文本的文本特征称之为是第一文本特征，并可以将负样例对中第一文本的文本特征称之为是第二文本特征。

可选的，可以将正负样例对中任一第一视频片段的视频嵌入特征记为v，生成网络可以通过特征投影函数f对第一视频片段的视频嵌入特征v进行特征投影，得到该第一视频片段的视频特征x_v，如下述公式所示：

x_v＝f(v) (2)

例如，特征投影函数f可以是w₂x₂+b₂，其中，w₂是生成网络中需要训练更新的网络参数，x₂表示函数f的输入(如v)，b₂表示偏置，b₂的数值可以预先进行设置。正负样例对中第一视频片段的视频特征都可以调用生成网络通过公式(2)的原理生成，只是可以将正样例对中第一视频片段的视频特征称之为是第一视频特征，并可以将负样例对中第一视频片段的视频特征称之为是第二视频特征。

上述第一视频特征、第一文本特征、第二视频特征以及第二文本特征都属于相同语义空间中的特征。

进而，计算机网络通过上述生成的第一视频特征、第一文本特征、第二视频特征以及第二文本特征，即可获取到生成网络针对样例对的学习偏差L_CL，如下述公式所示：

其中，x_sx_v表示第一文本s的文本特征与第一视频片段v的视频特征之间的内积。P表示若干正样例对构成的集合，集合P中一个正样例对可以对应一个x_sx_v(即该正样例对中第一文本的文本特征与该正样例对中第一视频片段的视频特征之间的内积)，即集合P中一个正样例对可以对应一个

(指数)，

表示集合P中各个正样例对对应的

之和；同理，N表示负样例对构成的集合，集合N中一个负样例对可以对应一个x_sX_v(即该负样例对中第一文本的文本特征与该负样例对中第一视频片段的视频特征之间的内积)，即集合N中一个负样例对可以对应一个

(指数)，

表示集合P中各个负样例对对应的

之和。

需要说明的是，训练过程中，需要使得学习偏差L_CL趋近于0，使得学习偏差趋近于0就是使得log后面部分

趋近于1，也就是使得集合P中各个正样例对对应的内积x_sx_v更大，且使得集合N中各个负样例对对应的内积x_sx_v更小。

其中，可以理解的是，使得集合P中各个正样例对对应的内积x_sx_v更大所达到的效果就是，使得各个正样例对中第一文本的文本特征对应与各个正样例对中第一视频片段的视频特征之间更为接近，也就是使得同一正样例对中第一文本和第一视频片段之间的特征差异更小，实现对内容相似或相同的文本和视频片段进行跨模态的特征对齐(可以理解为是上下文对齐)。

同理，使得集合N中各个负样例对对应的内积x_sx_v更小所达到的效果就是，使得各个负样例对中第一文本的文本特征(生成网络生成的)对应与各个负样例对中第一视频片段的视频特征(生成网络生成的)之间更不接近，也就是使得同一负样例对中第一文本和第一视频片段之间的特征差异更大。

为了对生成网络进行有效的对比学习，上述集合P中各个正样例对和集合N中各个负样例对均可以包含相同的第一文本，且集合P中各个正样例对和集合N中各个负样例对可以包含不同的第一视频片段，可以理解为对比学习时，需要找到一个锚点(如集合P中各个正样例对和集合N中各个负样例对中所具有的同一第一文本)，基于该锚点来进行对比学习，如让与该第一文本内容相同的视频片段的特征与该文本的特征对齐(即特征差异更小)，以及让与该第一文本内容不同的视频片段的特征与该文本的特征差异更大。

因此，可以理解的是，对于样本视频数据的不同第二文本而言，针对任一个第二文本都可以构建包含该第二文本的正样例对(可以包含该第二文本的关联视频片段、或者可以包含样本视频数据中与该第二文本邻近的其他第二文本的关联视频片段)和负样例对(可以包含样本视频数据中与该第二文本不邻近的其他第二文本的关联视频片段、或者可以包含除该第二文本所属样本视频数据之外的样本视频数据中的视频片段)，包含该第二文本的若干正样例对就可以构成该第二文本对应的上述集合P，包含该第二文本的若干负样例对就可以构成该第二文本对应的上述集合N。

因此，对于样本视频数据的每个第二文本而言，针对每个第二文本对应的集合P和集合N均可以分别生成一个如公式(3)中的学习偏差L_CL，通过对每个第二文本对应的学习偏差L_CL进行求和即可得到生成网络针对样例对最终的学习偏差。该学习偏差在训练时，就用于减小正样例对中第一视频片段与第一文本之间的特征差异，并用于增大负样例对中第一视频片段与第一文本之间的特征差异。

上述对样例对进行对比学习的方法可以称之为是对样例对进行对比性空间约束的方法。可选的，对样例对进行对比学习时，除了可以采用对比性空间约束的方法之外，还可以采用注意力机制或欧式距离约束来对样例对进行对比学习，学习的原理也是拉近正样例对中第一文本和第一视频片段之间的特征距离(即减小特征差异)，以及拉远负样例对中第一文本和第一视频片段之间的特征距离(即增大特征差异)。具体对样例对采用何种对比学习的方式，具体可以根据实际应用场景确定，对此不做限制。

步骤S103，调用生成网络对样本关联对进行预测处理，得到样本视频数据的样本视频描述信息，并基于视频描述标签获取生成网络针对样本视频描述信息的预测偏差。

可选的，计算机设备可以调用生成网络对上述样本关联对进行预测处理，以得到样本视频数据的视频描述信息，可以将生成网络所预测的样本视频数据的视频描述信息称之为是样本视频描述信息。换句话说，计算机设备可以调用生成网络基于上述样本关联对来预测得到样本视频数据的视频描述信息，此处是以通过一个样本视频数据的样本关联对来预测该样本视频数据的样本视频描述信息来进行说明的，若输入有多个样本视频数据，则是通过每个样本视频数据的样本关联对来分别预测每个样本视频数据的样本视频描述信息。其中，具体如何调用生成网络通过样本关联对来预测样本视频数据的样本视频描述信息，可以参见下述图8对应实施例中的内容描述。

更多的，上述样本视频数据还可以具有视频描述标签，该视频描述标签标注了样本视频数据实际的视频描述信息，一个样本视频数据可以具有一个视频描述标签，不同样本视频数据可以具有不同视频描述标签。

因此，计算机设备就可以通过样本视频数据具有的视频描述标签来获取生成网络针对该样本视频数据的样本视频描述信息的预测偏差L_ce，如下述公式所示：

L_ce＝crossentropy(Y^′,Y) (4)

其中，crossentropy表示交叉熵，预测偏差L_ce可以是Y^′与Y之间的交叉熵损失，Y^′表示调用生成网络所预测的样本视频数据的样本视频描述信息(可以是文本)，Y表示样本视频数据的视频描述标签所标注的该样本视频数据真实的视频描述信息(也可以是文本)。

若同时输入了多个样本视频数据到生成网络，则生成网络对每个样本视频数据进行预测都可以获取到如公式(4)的预测偏差L_ce，一个样本视频数据对应一个预测偏差L_ce，通过将各个样本视频数据对应的预测偏差L_ce进行求和即可得到生成网络针对样本视频数据最终的预测偏差，该预测偏差就表征了生成网络所预测的样本视频数据的样本视频描述信息与样本视频数据真实的视频描述信息之间的差异。

步骤S104，根据学习偏差和预测偏差修正生成网络的网络参数，得到训练好的生成网络；训练好的生成网络用于生成视频数据的视频描述信息。

可选的，计算机设备可以根据上述得到的针对生成网络最终的学习偏差和预测偏差来修正生成网络的网络参数，以得到训练好的生成网络，训练好的生成网络就可以用于准确地生成任意视频数据的视频描述信息。

通过训练好的生成网络所生成的视频数据的视频描述信息，可以用于后续支持用户对视频数据的检索。例如，用户可以在视频客户端输入用于进行视频检索的文本信息(可以称为视频检索文本)，该文本信息可以给到计算机设备，计算机设备可以对该文本信息与通过训练好的生成网络所生成的各个视频数据的视频描述信息(也可以是文本)进行文本比对，将比对出的对应视频描述信息与该文本信息的文本相似度排序在前T(正整数，具体数值可以根据实际应用场景进行设置)个的视频数据推送给用户(即推送给视频客户端)，或者可以将比对出的对应视频描述信息与该文本信息的文本相似度大于或等于相似度阈值(可以根据实际应用场景进行设置)的视频数据推送给用户，实现向用户进行准确的视频推送的目的。

可选的，计算机设备根据上述针对针对生成网络最终的学习偏差和预测偏差来修正生成网络的网络参数的过程可以包括：

计算机设备可以根据学习偏差和预测偏差得到针对生成网络的综合训练偏差：计算机设备可以获取到针对学习偏差的第一偏差权重和针对预测偏差的第二偏差权重，该第一偏差权重和第二偏差权重可以根据实际应用场景中，对比学习与描述信息预测这两个任务的重要程度来进行设置，例如，第一偏差权重可以是λ，第二偏差权重可以是1。

进而，计算机通过上述第一偏差权重和第二偏差权重对学习偏差和预测偏差进行加权求和，即可得到生成网络针对样例对和样本关联对最终的综合训练偏差。如下述公式所示，生成网络的综合训练偏差L可以是：

L＝L_ce+λL_CL (5)

进而，计算机设备即可通过上述综合训练偏差修正生成网络的网络参数，修正的目标可以是让综合训练偏差达到最小值(如趋近于0)，计算机网络可以不断通过上述过程采用若干样本视频数据对生成网络进行迭代训练，当对生成网络的训练次数达到次数阈值或者将生成网络训练至收敛状态，即可将此时的生成网络作为训练好的生成网络。

可选的，在得到训练好的生成网络后，计算机设备还可以采用生成网络生成的样本视频描述信息对生成网络的质量进行测试，节省人工再标注测试数据的工作量。

在训练得到上述训练好的生成网络后，计算机设备还可以获取到目标视频数据，该目标视频数据可以是任意需要生成视频描述信息的视频数据。

计算机设备可以根据目标视频数据提取得到目标文本数据，计算机设备根据目标视频数据提取得到目标文本数据的过程，与上述根据样本视频数据提取得到样本文本数据的过程相同。如计算机设备可以先获取目标视频数据的音频数据，进而对该音频数据进行文本转换，即可得到目标文本数据，进而对该目标文本数据也进行文本分割处理，就可以得到目标文本数据包含的若干子文本，此处目标文本数据包含的若干子文本的含义等同于上述样本文本数据包含的若干第二文本的含义。

因此，计算机设备可以根据目标文本数据的各个子文本以及各个子文本分别在目标视频数据中所属的视频片段(如各个子文本在目标视频数据中的关联视频片段)，构建目标关联对。其中，确定目标文本数据的各个子文本在目标视频数据中的关联视频片段的过程与上述确定目标文本在样本视频数据中的关联视频片段的过程相同，此处构建根据各个子文本及各个子文本的关联视频片段构建目标关联对的过程与上述根据各个第二文本及各个第二文本的关联视频片段构建样本关联对的过程相同。

进而，计算机设备即可调用训练好的生成网络对目标关联对进行预测处理，即可生成目标视频数据的视频描述信息，可以将所生成的目标视频数据的视频描述信息称之为是目标视频描述信息。计算机设备调用训练好的生成网络对目标关联对进行预测处理以生成目标视频描述信息的过程，与上述调用生成网络对样本关联对进行预测处理以生成样本视频描述信息的过程相同，具体也可以参见下述图8对应实施例中的描述。

其中，所生成的目标视频数据的目标视频描述信息可以用于支持用户对目标视频数据的检索。

后续，若计算机设备获取到视频客户端(可以是任意可以进行视频检索的客户端)发送的视频检索文本(可以是视频客户端的用户所录入的用于检索相关视频的文本)，则计算机设备可以对比该视频检索文本与目标视频数据的目标视频描述信息之间的文本相似度，若该文本相似度大于或等于相似度阈值，则可以将目标视频数据返回给视频客户端，使得视频客户端可以输入目标视频数据，如视频客户端可以在视频检索的结果页面输出显示该目标视频数据，实现向用户推送该目标视频数据的目的。

请参见图7，图7是本申请提供的一种客户端页面的页面示意图。如图7所示，视频客户端可以是通信客户端，客户端页面1中包含视频客户端的若干功能栏，该若干功能包括朋友圈的功能栏、扫一扫的功能栏、附近的功能栏、摇一摇的功能栏、以及搜一搜的功能栏。

用户可以点击客户端页面1中搜一搜的功能栏。视频客户端就可以从客户端页面1显示到客户端页面2。客户端页面2中包含可以进行数据检索的输入框，用户可以在该输入框输入想要检索的视频的相关检索文本(可以称为视频检索文本)，此处该检索文本为“怎么种花”，视频客户端就可以从客户端页面2显示到客户端页面3。

客户端页面3中就可以显示有通过上述检索文本为“怎么种花”检索到的相关视频，该相关视频就可以包括视频库中视频描述信息(通过上述训练好的生成网络生成)与上述检索文本“怎么种花”之间的文本相似度大于或等于阈值的视频数据。

本申请中，通过训练好的生成网络可以生成视频库中各个视频数据准确的视频描述信息，即使视频库中存在若干视频数据的视频内容与对应视频标题并不相符的情况，可以不采用视频数据的视频标题，而是通过所生成的各个视频数据准确的视频描述信息来实现通过检索文本对相关视频数据(如视频内容与检索文本所描述的内容相同的视频数据)的准确检索。

本申请可以利用视频自带的ASR音频转录文本(如上述样本视频数据的样本文本数据)的信息对视频进行全面的内容理解，通过对齐视频和ASR音频转录文本的上下文语义(如第二文本与该第二文本在样本视频数据中的关联视频片段之间的语义)以充分理解视频内容，以此来生成视频准确的描述性句子(如视频描述信息)，进而通过该视频准确的描述性句子也可以提升针对视频搜索业务的准确性和体验感。

此外，本申请中有可能存在样本关联对中第二文本描述的内容与该第二文本对应的关联视频片段的视频内容之间具有内容差异的情况，因此，本申请通过对正负样例对进行自监督的对比学习，就可以解决样本关联对中第二文本与对应视频片段之间存在内容差异的问题，实现文本与对应视频片段之间的上下文语义准确的对齐训练，进一步提升对生成网络的训练效果。

综上，本申请通过对文本与对应视频片段之间进行上下文对齐的方式(如将文本的文本特征和视频片段的视频特征都投影到相同的语义空间中)可以减少跨模态语义噪声，可以对上下文视频片段和句子(即文本)的表征得到充分学习，使得到的表征更加健全。并且，本申请可以在无需人工标记视频(即视频片段)和句子(即文本)上下文对应关系的自监督范式下进行生成网络的优化学习，加强对局部语义特征(如局部视频片段和文本语义的特征)的理解，来使得最终生成的视频描述信息更加精准。

请参见图8，图8是本申请提供的一种信息预测方法的流程示意图。本申请实施例中的执行主体也可以是上述计算机设备，如图8所示，该方法可以包括：

步骤S201，调用生成网络生成样本关联对中第二文本的第三文本特征和样本关联对中第二视频片段的第三视频特征。

可选的，计算机设备可以调用生成网络生成样本关联对中第二文本的文本特征，可以将调用生成网络所生成的样本关联对中第二文本的文本特征称之为是第三文本特征。

计算机设备还可以调用生成网络生成样本关联对中第二视频片段的视频特征，可以将调用生成网络所生成的样本关联对中第二视频片段的视频特征称之为是第三视频特征。

其中，计算机设备调用生成网络生成样本关联对中的第二文本的文本特征的原理，与上述计算机设备调用生成网络生成样例对中第一文本的文本特征的原理相同(如上述公式(1)的原理)。如计算机设备可以获取到样本关联对中的第二文本的文本嵌入特征，并可以调用生成网络对样本关联对中的第二文本的文本嵌入特征进行特征投影，以此来得到样本关联对中的第二文本的上述第三文本特征。

同理，计算机设备调用生成网络生成样本关联对中的第二视频片段的视频特征的原理，与上述计算机设备调用生成网络生成样例对中第一视频片段的视频特征的原理相同(如上述公式(2)的原理)。如计算机设备可以获取到样本关联对中的第二视频片段的视频嵌入特征，并可以调用生成网络对样本关联对中的第二视频片段的视频嵌入特征进行特征投影，以此来得到样本关联对中的第二视频片段的视频特征。

步骤S202，获取样本关联对中第二文本包含的至少一个分词，并获取每个分词的词嵌入特征。

可选的，计算机设备还可以获取到样本关联对中第二文本包含的至少一个分词。如计算机设备可以对样本关联对中第二文本进行分词处理，得到样本关联对中第二文本包含的若干个分词。

计算机设备还可以获取到样本关联对中第二文本包含的各个分词的词嵌入特征，如可以将各个分词输入训练好的bert模型，通过该bert模型生成各个分词的词嵌入特征(可以是特征向量)。

步骤S203，调用生成网络基于第三文本特征、第三视频特征和每个分词的词嵌入特征，预测样本视频描述信息。

可选的，计算机设备可以调用生成网络基于上述第三文本特征、第三视频特征以及每个分词的词嵌入特征，生成样本视频数据的多模态特征，该多模态特征可以理解为是融合了样本视频数据本身的视频片段以及样本视频数据的各个第二文本之间进行语义对齐的特征，该多模态特征即为样本视频数据最终的全局表征。

进而，计算机设备可以调用生成网络基于上述多模态特征来预测得到样本视频数据的样本视频描述信息，该过程可以如下内容描述。

可选的，生成网络可以包含视频编码器和文本解码器，该视频编码器和文本解码器都可以是基于Transformer网络(一种图神经网络，主要是基于自注意力机制的网络)构成，该Transformer网络主要由多头自注意力机制、跳跃连接、层归一化和前向神经网络等模块组成。

其中，视频编码器可以用于结合样本关联对中第二视频片段与第二文本之间的上下文语义信息，以得到样本视频数据更好的视频表征(如多模态特征)。因此，计算机设备可以将上述样本关联对中第二文本的第三文本特征、样本关联对中第二视频片段的第三视频特征、以及样本关联对中第二文本包含的各个分词的词嵌入特征一起输入到上述视频编码器，第三文本特征、第三视频特征和任一个分词的词嵌入特征的特征维度可以是相同的，如都可以是512维的，视频编码器可以对样本关联对中属于同一个样本关联对的第三文本特征、第三视频特征和任一个分词的词嵌入特征进行加和(如将该三个特征中对应位置处的特征值分别进行相加，一共有512个位置)，得到加和之后的特征，加和之后的特征也是512维的。

由上述可以知道，由于视频编码器可以对属于相同样本关联对的第三文本特征、第三视频特征和任一个分词的词嵌入特征进行加和，因此，一个样本关联对中第二文本包含的一个分词可以对应一个加和后的特征，这样，若有多个样本关联对，各个样本关联对中第二文本也可以包含多个分词，那么就可以获取到若干个加和后的特征，一个分词对应一个加和后的特征。

请参见图9，图9是本申请提供的一种特征加和的场景示意图。如图9所示，样本关联对中第二文本的第三文本特征可以是[A1，A2，A3，A4，A5]，该样本关联对中第二视频片段的第三视频特征可以是[B1，B2，B3，B4，B5]，该样本关联对中第二文本的一个分词的词嵌入特征可以是[C1，C2，C3，C4，C5]。

因此，对该第三文本特征[A1，A2，A3，A4，A5]、第三视频特征[B1，B2，B3，B4，B5]和词嵌入特征[C1，C2，C3，C4，C5]进行加和，得到的一个加和后的特征可以是[D1，D2，D3，D4，D5]。其中，D1就等于A1+B1+C1，D2就等于A2+B2+C2，D3就等于A3+B3+C3，D4就等于A4+B4+C4，D5就等于A5+B5+C5。

进而，视频编码器可以采用多头自注意力机制对各个加和后的特征(属于同一个样本视频数据的各个加和后的特征)进行交叉学习，可以理解为对各个加和后的特征之间进行特征传递(即信息传递)，即可学习生成该样本视频数据的多模态特征，最终生成的多模态特征也可以与上述第三文本特征、第三视频特征以及分词的词嵌入特征是相同维度的，如该多模态特征也可以是512维的。

可以理解的是，若输入有多个样本视频数据，则可以根据每个样本视频数据分别对应的若干加和后的特征，各自生成每个样本视频数据的多模态特征。

上述生成的多模态特征即为样本视频数据的全局特征，该全局特征是通过对样本视频数据的全局信息(如整个视频片段和第二文本的特征)以及局部信息(如第二文本中各个分词的特征)进行充分融合后所得到的优质的视频特征。如下述公式所示，样本视频数据的多模态特征x_D可以是：

x_D＝TransformerEncoder(w，x_sg，x_vg) (6)

其中，TransformerEncoder表示上述视频编码器，w表示样本关联对中第二文本包含的各个分词，x_sg表示样本关联对中第二文本的第三文本特征，x_vg表示样本关联对中第二视频片段的第三视频特征。

进而，计算机设备可以将上述生成的样本视频数据的多模态特征输入上述文本解码器，以调用该文本解码器基于该多模态特征预测得到样本视频数据的样本视频描述信息。如下述公式所示，样本视频数据的样本视频描述信息Y′为：

Y′＝TransformerDecoder(x_D) (7)

其中，TransformerDecoder表示文本解码器，x_D为上述样本视频数据的多模态特征。

可选的，计算机设备调用文本解码器基于样本视频数据的多模态特征生成该样本视频数据的样本视频描述信息的过程可以包括：计算机设备可以调用文本解码器基于样本视频数据的多模态特征进行逐字地预测，以得到样本视频数据的样本视频描述信息，在预测后面的字符(可以称之为是描述字符)时可以利用之前预测得到的字符(可以称之为是描述字符)和多模态特征一起进行预测，如下述内容描述。

计算机设备可以调用文本解码器基于上述多模态特征、以及文本解码器所预测的样本视频数据的前n-1个描述字符，来预测样本视频数据的第n个描述字符，n为正整数。如文本解码器可以根据多模态特征、预测的前n-1个描述字符来预测字符表中各个字符为第n个字符的概率，并将字符表中预测的概率最高的字符作为所预测的第n个描述字符。

可以理解的是，若n等于1，则前n-1个描述字符就不存在，第n个描述字符是需要预测的第1个描述字符，此时直接将多模态特征输入文本解码器即可预测得到第1个描述字符。

若n等于2，则前n-1个描述字符就包括所预测的第1个描述字符，第n个描述字符是需要预测的第2个描述字符，此时将多模态特征以及第1个描述字符输入文本解码器即可预测得到第2个描述字符。

若n等于3，则前n-1个描述字符就包括所预测的第1个描述字符和第2个描述字符，第n个描述字符是需要预测的第3个描述字符，此时将多模态特征、第1个描述字符和第2个描述字符输入文本解码器即可预测得到第3个描述字符。以此推类。若在预测得到某个描述字符时，该描述字符还具有预测结束字符，那么表明该个描述字符就是预测的最后一个描述字符，该描述字符就为预测的样本视频描述信息的最后一个描述字符。

综上，若第n个描述字符不携带预测结束标识，则可以调用文本解码器基于上述多模态特征、前n个描述字符(包括前n-1个描述字符以及第n个描述字符)预测样本视频数据的第n+1个描述字符。若该第n+1个描述字符携带预测结束标识，则根据所预测得到的n+1个描述字符(包括上述前n-1个描述字符、第n个描述字符以及第n+1个描述字符)即可得到样本视频描述信息，该样本视频描述信息就依次(根据该n+1个描述字符的预测顺序)包含所预测的该n+1个描述字符。

请参见图10，图10是本申请提供的一种信息预测的场景示意图。计算机设备可以将上述得到的若干第三文本特征、若干第三视频特征以及若干第二文本中各个分词的词嵌入特征输入视频编码器，通过该视频编码器生成样本视频数据的多模态特征，进而将该多模态特征输入文本解码器，即可通过文本解码器预测得到样本视频数据的样本视频描述信息。

通过上述过程，即可通过视频编码器和文本解码器预测得到样本视频数据的样本视频描述信息。可选的，本申请除了可以采用上述transformer编码器和transformer解码器来预测样本视频数据的样本视频描述信息之外，还可以将Transformer改为其他网络，如LSTM(长短期记忆神经网络)、或者ConvLSTM(卷积长短期记忆神经网络)等能够学习视频片段/句子序列的网络，来生成视频表征(如多模态特征)，进而通过该视频表征来预测样本视频数据的样本视频描述信息。

本申请可以通过对视频片段与对应第二文本进行上下文语义对齐(如可以认为某个视频片段的内容语义与该视频片段同步播放的音频片段所转换得到的第二文本的内容语义相同)，以实现通过文本对视频进行更充分的理解，进而生成视频数据准确的视频描述信息，通过该视频描述信息后续也可以实现通过检索文本对视频数据进行准确的检索(即搜索)。

请参见图11，图11是本申请提供的一种生成视频描述信息的流程示意图。如图11所示，S1，计算机设备可以先获取待处理的视频数据(如上述样本视频数据)。S2，计算机设备还可以获取到待处理的视频数据的音频转录文本(如上述样本文本数据)。

进而，S3，计算机设备可以按照文本的分句(如样本视频数据包含的若干个第二文本)时间(如对应音频片段的播放时间)对上述待处理的视频数据进行切段，得到各个分句的关联视频片段(与获取目标文本的关联视频片段的原理相同)，通过各个分句和各个分句的关联视频片段就可以构建得到上述样本关联对。

接着，S4，计算机设备可以对生成网络使用样例对进行对比学习，使得生成网络可以自监督地完成对视频片段与对应文本之间的上下文(如上文可以是视频片段，下文可以是视频片段对应的文本)语义对齐。S5，计算机设备可以使用编码器(如上述视频编码器)对全局信息(如样本关联对包含的视频片段及该视频片段对应文本的信息)和局部信息(如样本关联对中第二文本包含的若干分词的信息)进行融合，就可以得到待处理的视频数据的视频特征表示(如上述多模态特征)。

最后，S6，计算机设备可以将量该视频特征表示输入解码器(如上述文本解码器)，即可在该解码器中生成待处理的样本视频数据的视频描述信息(如上述样本视频描述信息)。其中，调用生成网络生成上述目标视频数据的视频描述信息的原理，与调用生成网络生成样本视频数据的视频描述信息的原理是相同的。

本申请使用ASR文本(如样本文本数据)对于视频数据的补充作用，其可以补充视频数据很多的细节或者概念信息，从而生成视频数据质量更好的视频描述信息。并且，使用局部对齐视频片段和句子(如第二文本)上下文，能够处理视频数据的音画语义描述不一致的困难，提升多模态视频表征能力，进而提升生成网络生成视频数据的视频描述信息的准确性。

请参见图12，图12是本申请提供的一种视频数据处理装置的结构示意图。该视频数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该视频数据处理装置为一个应用软件，该视频数据处理装置可以用于执行本申请实施例提供的方法中的相应步骤。如图12所示，该视频数据处理装置1可以包括：获取模块11、学习模块12、预测模块13和训练模块14。

获取模块11，用于获取样例对和样本关联对；一个样例对包含一个第一视频片段和一个第一文本，样例对按照包含的第一视频片段与第一文本间的内容差异被分为正样例对和负样例对；一个样本关联对包含一个第二文本和该第二文本在样本视频数据中所属的第二视频片段；样本视频数据具有视频描述标签；

学习模块12，用于调用生成网络对样例对进行特征对比学习，得到学习偏差；学习偏差用于减小正样例对中的第一视频片段与第一文本间的特征差异，并用于增大负样例对中的第一视频片段与第一文本间的特征差异；

预测模块13，用于调用生成网络对样本关联对进行预测处理，得到样本视频数据的样本视频描述信息，并基于视频描述标签获取生成网络针对样本视频描述信息的预测偏差；

训练模块14，用于根据学习偏差和预测偏差修正生成网络的网络参数，得到训练好的生成网络；训练好的生成网络用于生成视频数据的视频描述信息。

可选的，上述装置1还用于：

可选的，至少一个第二文本中的任一个表示为目标文本；上述装置1还用于：

获取目标文本在样本音频数据中对应的音频片段；

可选的，学习模块12调用生成网络对样例对进行特征对比学习，得到学习偏差的方式，包括：

可选的，预测模块13调用生成网络对样本关联对进行预测处理，得到样本视频数据的样本视频描述信息的方式，包括：

可选的，预测模块13调用生成网络生成样本关联对中子文本的第三文本特征和样本关联对中子文本的关联视频片段的第三视频特征的方式，包括：

可选的，预测模块13调用生成网络基于第三文本特征、第三视频特征和每个分词的词嵌入特征，预测样本视频描述信息的方式，包括：

基于多模态特征预测样本视频数据的样本视频描述信息。

预测模块13基于多模态特征预测样本视频数据的样本视频描述信息的方式，包括：

可选的，预测模块13调用文本解码器基于多模态特征预测得到样本视频描述信息的方式，包括：

可选的，训练模块14根据学习偏差和预测偏差修正生成网络的网络参数，得到训练好的生成网络的方式，包括：

可选的，上述装置1还用于：

获取视频客户端发送的视频检索文本；

根据本申请的一个实施例，图3所示的视频数据处理方法所涉及的步骤可由图12所示的视频数据处理装置1中的各个模块来执行。例如，图3中所示的步骤S101可由图12中的获取模块11来执行，图3中所示的步骤S102可由图12中的学习模块12来执行；图3中所示的步骤S103可由图12中的预测模块13来执行，图3中所示的步骤S104可由图12中的训练模块14来执行。

本申请首先可以获取样例对和样本关联对；一个样例对包含一个第一视频片段和一个第一文本，样例对按照包含的第一视频片段与第一文本间的内容差异被分为正样例对和负样例对；一个样本关联对包含一个第二文本和该第二文本在样本视频数据中所属的第二视频片段；样本视频数据具有视频描述标签；接着，可以调用生成网络对样例对进行特征对比学习，得到学习偏差；学习偏差用于减小正样例对中的第一视频片段与第一文本间的特征差异，并用于增大负样例对中的第一视频片段与第一文本间的特征差异；进而，可以调用生成网络对样本关联对进行预测处理，得到样本视频数据的样本视频描述信息，并基于视频描述标签获取生成网络针对样本视频描述信息的预测偏差；最后，根据学习偏差和预测偏差可以修正生成网络的网络参数，得到训练好的生成网络；训练好的生成网络就可以用于生成视频数据的视频描述信息。由此可见，本申请提出的装置可以结合视频数据及视频数据的相关文本数据(如第二文本)来一起训练生成网络，同时，还会对样例对进行对比学习，以此来辅助生成网络对于视频数据和视频数据的相关文本数据间的学习偏差，这双重提高了对生成网络进行训练的准确性，进而通过训练好的生成网络也可以准确地生成视频数据的视频描述信息。

根据本申请的一个实施例，图12所示的视频数据处理装置1中的各个模块可以分别或全部合并为一个或若干个单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个子单元，可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的，在实际应用中，一个模块的功能也可以由多个单元来实现，或者多个模块的功能由一个单元实现。在本申请的其它实施例中，视频数据处理装置1也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算机设备上运行能够执行如图3中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图12中所示的视频数据处理装置1，以及来实现本申请实施例的视频数据处理方法。上述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

请参见图13，图13是本申请提供的一种计算机设备的结构示意图。如图13所示，计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图13所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图13所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图3对应实施例中对上述视频数据处理方法的描述，也可执行前文图12所对应实施例中对上述视频数据处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有前文提及的视频数据处理装置1所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图3所对应实施例中对视频数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

作为示例，上述程序指令可被部署在一个计算机设备上执行，或者被部署位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链网络。

上述计算机可读存储介质可以是前述任一实施例提供的视频数据处理装置或者上述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前文图3对应实施例中对上述视频数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种视频数据处理方法，其特征在于，所述方法包括：

获取样例对和样本关联对；一个样例对包含一个第一视频片段和一个第一文本，所述样例对按照包含的第一视频片段与第一文本间的内容差异被分为正样例对和负样例对；一个样本关联对包含一个第二文本和该第二文本在样本视频数据中所属的第二视频片段；所述样本视频数据具有视频描述标签；

调用生成网络对所述样例对进行特征对比学习，得到学习偏差；所述学习偏差用于减小所述正样例对中的第一视频片段与第一文本间的特征差异，并用于增大所述负样例对中的第一视频片段与第一文本间的特征差异；

调用所述生成网络对所述样本关联对进行预测处理，得到所述样本视频数据的样本视频描述信息，并基于所述视频描述标签获取所述生成网络针对所述样本视频描述信息的预测偏差；

根据所述学习偏差和所述预测偏差修正所述生成网络的网络参数，得到训练好的生成网络；所述训练好的生成网络用于生成视频数据的视频描述信息。

2.如权利要求1所述的方法，其特征在于，所述正样例对包含的第一视频片段的视频内容与所述正样例对包含的第一文本描述的内容相同；所述负样例对包含的第一视频片段的视频内容与所述负样例对包含的第一文本描述的内容不同。

3.如权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述样本视频数据的样本音频数据，并对所述样本音频数据进行文本转换处理，得到样本文本数据；

对所述样本文本数据进行文本分割处理，得到所述样本文本数据包含的至少一个第二文本。

4.如权利要求3所述的方法，其特征在于，所述至少一个第二文本中的任一个表示为目标文本；所述方法还包括：

获取所述目标文本在所述样本音频数据中对应的音频片段；

获取所述音频片段在所述样本视频数据中的起始播放时刻和终止播放时刻；

根据所述起始播放时刻和所述终止播放时刻从所述样本视频数据中，切割得到所述目标文本所属的第二视频片段；

根据所述目标文本和所述目标文本所属的第二视频片段构建所述样本关联对。

5.如权利要求1所述的方法，其特征在于，所述调用生成网络对所述样例对进行特征对比学习，得到学习偏差，包括：

调用所述生成网络生成所述正样例对中第一视频片段的第一视频特征和所述正样例对中第一文本的第一文本特征；

调用所述生成网络生成所述负样例对中第一视频片段的第二视频特征和所述负样例对中第一文本的第二文本特征；

基于所述第一视频特征、所述第一文本特征、所述第二视频特征和所述第二文本特征，获取所述生成网络针对所述样例对的所述学习偏差。

6.如权利要求1所述的方法，其特征在于，所述调用所述生成网络对所述样本关联对进行预测处理，得到所述样本视频数据的样本视频描述信息，包括：

调用所述生成网络生成所述样本关联对中第二文本的第三文本特征和所述样本关联对中第二视频片段的第三视频特征；

获取所述样本关联对中第二文本包含的至少一个分词，并获取每个分词的词嵌入特征；

调用所述生成网络基于所述第三文本特征、所述第三视频特征和所述每个分词的词嵌入特征，预测所述样本视频描述信息。

7.如权利要求6所述的方法，其特征在于，所述调用所述生成网络生成所述样本关联对中子文本的第三文本特征和所述样本关联对中子文本的关联视频片段的第三视频特征，包括：

获取所述样本关联对中第二文本的文本嵌入特征和所述样本关联对中第二视频片段的视频嵌入特征；

调用所述生成网络基于所述文本嵌入特征生成所述第三文本特征，并调用所述生成网络基于所述视频嵌入特征生成所述第三视频特征。

8.如权利要求6所述的方法，其特征在于，所述调用所述生成网络基于所述第三文本特征、所述第三视频特征和所述每个分词的词嵌入特征，预测所述样本视频描述信息，包括：

调用所述生成网络基于所述第三文本特征、所述第三视频特征和所述每个分词的词嵌入特征，生成所述样本视频数据的多模态特征；

基于所述多模态特征预测所述样本视频数据的所述样本视频描述信息。

9.如权利要求8所述的方法，其特征在于，所述生成网络包含视频编码器和文本解码器，所述多模态特征基于所述视频编码器生成；

所述基于所述多模态特征预测所述样本视频数据的所述样本视频描述信息，包括：

调用所述文本解码器基于所述多模态特征预测得到所述样本视频描述信息。

10.如权利要求9所述的方法，其特征在于，所述调用所述文本解码器基于所述多模态特征预测得到所述样本视频描述信息，包括：

调用所述文本解码器基于所述多模态特征、及所述文本解码器所预测的所述样本视频数据的前n-1个描述字符，预测所述样本视频数据的第n个描述字符；n为正整数；

若所述第n个描述字符不携带预测结束标识，则调用所述文本解码器基于所述多模态特征、所述前n-1个描述字符、及所述第n个描述字符，预测所述样本视频数据的第n+1个描述字符；

若所述第n+1个描述字符携带所述预测结束标识，则根据所述前n-1个描述字符、所述第n个描述字符和所述第n+1个描述字符确定所述样本视频描述信息。

11.如权利要求1所述的方法，其特征在于，所述根据所述学习偏差和所述预测偏差修正所述生成网络的网络参数，得到训练好的生成网络，包括：

获取针对所述学习偏差的第一偏差权重和针对所述预测偏差的第二偏差权重；

基于所述第一偏差权重和所述第二偏差权重对所述学习偏差和所述预测偏差进行加权求和，得到所述生成网络针对所述样例对和所述样本关联对的综合训练偏差；

基于所述综合训练偏差修正所述生成网络的网络参数，得到所述训练好的生成网络。

12.如权利要求1所述的方法，其特征在于，所述方法还包括：

获取目标视频数据及根据所述目标视频数据提取得到的目标文本数据；

根据所述目标文本数据的各个子文本和所述各个子文本分别在所述目标视频数据中所属的视频片段，构建目标关联对；

调用所述训练好的生成网络对所述目标关联对进行预测处理，得到所述目标视频数据的目标视频描述信息。

13.如权利要求12所述的方法，其特征在于，所述方法还包括：

获取视频客户端发送的视频检索文本；

若所述视频检索文本与所述目标视频描述信息之间的文本相似度大于或等于相似度阈值，则将所述目标视频数据返回给所述视频客户端，使所述视频客户端输出所述目标视频数据。

14.一种视频数据处理装置，其特征在于，所述装置包括：

获取模块，用于获取样例对和样本关联对；一个样例对包含一个第一视频片段和一个第一文本，所述样例对按照包含的第一视频片段与第一文本间的内容差异被分为正样例对和负样例对；一个样本关联对包含一个第二文本和该第二文本在样本视频数据中所属的第二视频片段；所述样本视频数据具有视频描述标签；

学习模块，用于调用生成网络对所述样例对进行特征对比学习，得到学习偏差；所述学习偏差用于减小所述正样例对中的第一视频片段与第一文本间的特征差异，并用于增大所述负样例对中的第一视频片段与第一文本间的特征差异；

预测模块，用于调用所述生成网络对所述样本关联对进行预测处理，得到所述样本视频数据的样本视频描述信息，并基于所述视频描述标签获取所述生成网络针对所述样本视频描述信息的预测偏差；

训练模块，用于根据所述学习偏差和所述预测偏差修正所述生成网络的网络参数，得到训练好的生成网络；所述训练好的生成网络用于生成视频数据的视频描述信息。

15.一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现权利要求1-13任一项所述方法的步骤。

16.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1-13中任一项所述方法的步骤。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适用于由处理器加载并执行权利要求1-13任一项所述的方法。