CN113688951B

CN113688951B - 视频数据处理方法以及装置

Info

Publication number: CN113688951B
Application number: CN202111237666.5A
Authority: CN
Inventors: 罗永盛
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-10-25
Filing date: 2021-10-25
Publication date: 2022-01-21
Anticipated expiration: 2041-10-25
Also published as: CN113688951A

Abstract

本申请实施例提供了一种视频数据处理方法以及装置，该方法涉及网络媒体技术领域，可以采用深度学习算法实现对视频数据的处理；包括：对所获取的视频标签集合中的视频标签进行聚类，得到K个标签簇；获取样本视频数据对应的样本视频类别和样本视频标签，根据样本视频标签所属的标签簇，确定样本视频数据的样本簇类标识；通过初始视频多模态模型输出样本视频数据对应的样本多模态特征；将样本多模态特征输入至N个分类组件，通过N个分类组件输出样本视频数据对应的N个分类结果；根据N个分类结果、样本视频类别、样本视频标签以及样本簇类标识，对初始视频多模态模型进行训练。采用本申请实施例，可以提升视频多模态表征学习的效果。

Description

视频数据处理方法以及装置

技术领域

本申请涉及网络媒体技术领域，尤其涉及一种视频数据处理方法以及装置。

背景技术

在互联网大数据背景下，通常需要对特定数据进行处理分析，从数据中抽取有用信息，即对数据进行表征学习，如何利用互联网上的海量数据挖掘出有效信息，受到了广泛关注。目前视频数据的表征学习，可以采用基于有监督的训练方法，通过获取视频数据的监督信息，利用该监督信息可以指导视频数据特征的分类；然而，现有的监督信息通常为人为标注的单一标签，利用该监督信息学习到的视频数据特征往往为粗粒度特征，该视频数据特征的预测分类结果与视频数据本身的内容可能存在差异，使得视频数据表征学习的效果并不理想。

发明内容

本申请实施例提供一种视频数据处理方法以及装置，可以提升视频多模态表征学习的效果。

本申请实施例一方面提供了一种视频数据处理方法，包括：

获取视频标签集合，对视频标签集合中所包含的视频标签进行聚类，得到K个标签簇；K为正整数；

获取样本视频数据对应的样本视频类别和样本视频标签，根据样本视频标签所属的标签簇，确定样本视频数据对应的样本簇类标识；样本视频数据包括样本视频流和样本描述文本；

通过初始视频多模态模型输出样本视频数据对应的样本多模态特征；样本多模态特征是对样本视频流对应的样本视频特征，以及样本描述文本对应的样本文本特征进行融合得到的；

将样本多模态特征输入至N个分类组件，通过N个分类组件输出样本视频数据对应的N个分类结果；N个分类组件用于执行不同的分类任务，N个分类结果包括样本预测类别、簇类标识预测结果以及标签预测结果，N为正整数；

根据N个分类结果、样本视频类别、样本视频标签以及样本簇类标识，对初始视频多模态模型的网络参数进行修正，生成目标视频多模态模型；目标视频多模态模型用于从源视频数据中提取表征视频内容的视频多模态特征。

本申请实施例一方面提供了一种视频数据处理装置，包括：

聚类处理模块，用于获取视频标签集合，对视频标签集合中所包含的视频标签进行聚类，得到K个标签簇；K为正整数；

簇类标识确定模块，用于获取样本视频数据对应的样本视频类别和样本视频标签，根据样本视频标签所属的标签簇，确定样本视频数据对应的样本簇类标识；样本视频数据包括样本视频流和样本描述文本；

特征提取模块，用于通过初始视频多模态模型输出样本视频数据对应的样本多模态特征；样本多模态特征是对样本视频流对应的样本视频特征，以及样本描述文本对应的样本文本特征进行融合得到的；

分类模块，用于将样本多模态特征输入至N个分类组件，通过N个分类组件输出样本视频数据对应的N个分类结果；N个分类组件用于执行不同的分类任务，N个分类结果包括样本预测类别、簇类标识预测结果以及标签预测结果，N为正整数；

参数修正模块，用于根据N个分类结果、样本视频类别、样本视频标签以及样本簇类标识，对初始视频多模态模型的网络参数进行修正，生成目标视频多模态模型；目标视频多模态模型用于从源视频数据中提取表征视频内容的视频多模态特征。

其中，聚类处理模块包括：

标签转换单元，用于获取视频标签集合，将视频标签集合中的每个视频标签均转换为标签向量，将每个视频标签所对应的标签向量添加至标签向量集合，从标签向量集合中选择中心向量t_i；i为小于或等于K的正整数；

相似度获取单元，用于获取标签向量集合中的每个标签向量分别与中心向量t_i之间的相似度，若标签向量集合中的标签向量G_j与中心向量t_i的相似度最大，则将标签向量G_j添加至中心向量t_i所属的待处理簇C_i；j为小于或者等于标签向量集合中所包含的标签向量的数量的正整数；

簇更新单元，用于根据待处理簇C_i中所包含的标签向量，更新中心向量t_i，直至待处理簇C_i中更新后的中心向量t_i与更新前的中心向量t_i相同时，将待处理簇C_i确定为标签簇。

其中，标签转换单元包括：

字符划分子单元，用于将视频标签集合中的视频标签b_j划分为D个单位字符，获取D个单位字符分别对应的单位词向量；D为正整数；

字符转换子单元，用于根据D个单位字符在视频标签b_j中的语义信息，获取D个单位字符分别对应的文本向量；

位置向量获取子单元，用于根据D个单位字符在视频标签b_j中的文本位置，获取D个单位字符分别对应的位置向量；

向量叠加子单元，用于将单位词向量、文本向量以及位置向量进行叠加，得到初始表示特征，通过文本编码器对初始表示特征进行文本编码，生成视频标签b_j对应的标签向量G_j。

其中，初始视频多模态模型包括视频流组件和文本组件；

特征提取模块包括：

采样处理单元，用于将样本视频数据中的样本视频流进行采样处理，得到M个目标视频帧；M为正整数；

帧特征聚合单元，用于将M个目标视频帧依次输入至视频流组件，通过视频流组件获取M个目标视频帧分别对应的样本图像特征，对M个样本图像特征进行特征聚合，得到样本视频流对应的样本视频特征；

分词处理单元，用于将样本视频数据中的样本描述文本输入至文本组件，通过文本组件对样本描述文本进行分词处理，得到H个样本描述字符，将H个样本描述字符均转换为样本描述向量；H为正整数；

循环编码单元，用于根据文本组件中的循环神经网络，对H个样本描述向量进行双向循环编码，得到样本描述文本对应的样本文本特征；

特征融合单元，用于对样本视频特征和样本文本特征进行融合，得到样本视频数据对应的样本多模态特征。

其中，N个分类组件包括类别分类组件、簇类分类组件以及标签分类组件；

分类模块包括：

第一预测单元，用于将样本多模态特征输入至类别分类组件、簇类分类组件以及标签分类组件，通过类别分类组件对样本多模态特征进行类别预测，得到样本视频数据对应的样本预测类别；

第二预测单元，用于通过簇类分类组件对样本多模态特征进行簇类预测，得到样本视频数据对应的簇类标识预测结果；簇类标识预测结果包括样本视频数据分别属于K个标签簇的预测数值；

第三预测单元，用于通过标签分类组件对样本多模态特征进行标签预测，得到样本视频数据对应的标签预测结果；标签预测结果包括样本视频数据分别属于视频标签集合中的每个视频标签的预测数值。

分类模块包括：

第四预测单元，用于将样本多模态特征输入至类别分类组件，通过类别分类组件对样本多模态特征进行类别预测，得到样本视频数据对应的样本预测类别；

第五预测单元，用于将样本多模态特征和样本预测类别输入至簇类分类组件，通过簇类分类组件对样本多模态特征进行簇类预测，得到样本视频数据对应的簇类标识预测结果；簇类标识预测结果包括样本视频数据分别属于K个标签簇的预测数值；

第六预测单元，用于将样本多模态特征和簇类标识预测结果输入至标签分类组件，通过标签分类组件对样本多模态特征进行标签预测，得到样本视频数据对应的标签预测结果；标签预测结果包括样本视频数据分别属于视频标签集合中的每个视频标签的预测数值。

其中，样本簇类标识的数量为X个，样本视频标签的数量为Y个，X和Y均为正整数；

参数修正模块包括：

第一损失确定单元，用于根据样本预测类别和样本视频类别，确定类别分类组件对应的第一分类损失结果；

第二损失确定单元，用于根据簇类标识预测结果和X个样本簇类标识，确定簇类分类组件对应的第二分类损失结果；

第三损失确定单元，用于根据标签预测结果和Y个样本视频标签，确定标签分类组件对应的第三分类损失结果；

损失累加单元，用于将第一分类损失结果、第二分类损失结果以及第三分类损失结果进行累加，得到初始视频多模态模型对应的模型总损失结果；

网络参数调整单元，用于根据模型总损失结果，对初始视频多模态模型的网络参数进行修正，生成目标视频多模态模型。

其中，该装置还包括：

视频特征获取模块，用于获取视频应用中的视频数据库，通过目标视频多模态模型中的视频流组件，获取源视频数据a中的视频流所对应的目标视频特征；源视频数据a属于视频数据库，a为正整数；

文本特征获取模块，用于通过目标视频多模态模型中的文本组件，获取源视频数据a中的视频描述文本所对应的目标文本特征，将目标视频特征和目标文本特征进行融合，得到源视频数据a对应的视频多模态特征；

相似视频确定模块，用于获取源视频数据a的视频多模态特征与剩余的源视频数据的视频多模态特征之间的相似度，根据相似度从视频数据库中确定源视频数据a的相似视频数据；

相似视频删除模块，用于当源视频数据a在视频应用中的发布时间早于相似视频数据在视频应用中的发布时间时，在视频数据库中删除相似视频数据。

其中，该装置还包括：

引导特征获取模块，用于在视频应用中获取目标对象对应的已播放视频数据，通过目标视频多模态模型获取已播放视频数据对应的引导多模态特征；

第一特征拼接模块，用于获取目标对象对应的对象描述特征，将引导多模态特征和对象描述特征进行拼接，得到目标对象对应的对象融合特征；

候选特征获取模块，用于在视频应用中获取候选视频集合，通过目标视频多模态模型获取候选视频集合中的每个候选视频数据分别对应的候选多模态特征；

第二特征拼接模块，用于获取每个候选视频数据分别对应的基础描述特征，将基础描述特征和候选多模态特征进行拼接，得到每个候选视频数据分别对应的视频融合特征；

视频推荐模块，用于根据对象融合特征和视频融合特征，确定每个候选视频数据分别对应的推荐评估值，根据推荐评估值，在候选视频集合中确定为目标对象推荐的视频数据。

本申请实施例一方面提供了一种计算机设备，包括存储器和处理器，存储器与处理器相连，存储器用于存储计算机程序，处理器用于调用计算机程序，以使得该计算机设备执行本申请实施例中上述一方面提供的方法。

本申请实施例一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序适于由处理器加载并执行，以使得具有处理器的计算机设备执行本申请实施例中上述一方面提供的方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述一方面提供的方法。

本申请实施例可以对视频标签集合中的所有视频标签进行聚类，得到K个标签簇，K为正整数；对于用来训练初始视频多模态模型的样本视频数据，可以将该样本视频数据所属的标签簇，确定为该样本视频数据对应的样本簇类标识，进而可以基于该样本视频数据对应的样本视频类别、样本标签类别以及样本簇类标识，形成层次监督信息；通过初始视频多模态模型提取到样本视频数据对应的样本多模态特征，进而可以利用N个分类组件可以输出该样本视频数据对应的N个分类结果，根据N个分类结果、样本视频类别、样本视频标签以及样本簇类标识，对初始视频多模态模型的网络参数进行修正，生成目标视频多模态模型。可见，通过对视频标签集合中的视频标签进行聚类，可以建立由样本视频类别到样本视频标签的桥梁（即样本簇类标识），形成样本视频类别-样本簇类标识-样本视频标签的层次监督信息，基于该层次监督信息对初始视频多模态模型进行训练，使得训练得到的目标视频多模态模型学习到的多模态特征既具备视频类别信息的泛化性，又具备多视频标签信息的具体性，进而有利于提升多模态特征的区分性，可以提升视频多模态表征学习的效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构的结构示意图；

图2是本申请实施例提供的一种视频数据处理方法的流程示意图；

图3是本申请实施例提供的一种标签向量的聚类示意图；

图4是本申请实施例提供的一种提取样本多模态特征的示意图；

图5是本申请实施例提供的一种多个分类组件的并行结构示意图；

图6是本申请实施例提供的一种多个分类组件的级联结构示意图；

图7是本申请实施例提供的一种视频去重场景示意图；

图8是本申请实施例提供的一种视频推荐排序场景的示意图；

图9是本申请实施例提供的一种视频数据处理装置的结构示意图；

图10是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请涉及以下几个概念：

多任务学习（Multi-Task）：多任务学习是一种训练范式，机器学习模型可以同时使用来自多个任务的数据进行训练，使用共享表示来学习不同的任务。

视频多模态：模态可以是指某些事情发生或经历的方式，视频数据可以包括标题（或者字幕）、视频流、音频等多种模态信息。

视频多模态特征：可以是指具有固定维度的稠密向量，视频数据间的相关度可以通过视频多模态特征之间的距离来度量。

表征学习：在深度学习领域，表征学习可以是指学习一个特征的技术集合，如将原始数据转换成为能够被机器所学习并用来有效开发的一种形式，把原始数据的无效或者冗余信息进行剔除，把有效信息进行提炼并形成特征。

请参见图1，图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示，该网络架构可以包括服务器10d和用户终端集群，该用户终端集群可以包括一个或者多个用户终端，这里不对用户终端的数量进行限制。如图1所示，该用户终端集群可以具体包括用户终端10a、用户终端10b以及用户终端10c等。其中，服务器10d可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。用户终端10a、用户终端10b以及用户终端10c等均可以包括：智能手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备（mobile internet device，MID）、可穿戴设备（例如智能手表、智能手环等）、智能语音交互设备、智能家电（例如智能电视等）以及车载终端等具有视频/图像播放功能的电子设备。如图1所示，用户终端10a、用户终端10b以及用户终端10c等可以分别与服务器10d进行网络连接，以便于每个用户终端可以通过该网络连接与服务器10d之间进行数据交互。

以图1所示的服务器10d为例，该服务器10d可以为视频应用（例如，视频播放器、短视频应用等）对应的后台服务器，此时图1所示的用户终端集群中的每个用户终端都可以安装有该视频应用对应的客户端，在该客户端中可以播放视频应用中的视频数据。该服务器10d可以获取视频应用中的视频数据库，利用目标视频多模态模型可以对视频数据库中的各个视频数据分别进行特征编码，得到每个视频数据分别对应的视频多模态特征，即从视频数据库的每个视频数据中提取各自的视频多模态特征，此处的视频多模态特征可以是指单个视频数据中的视频流所对应的视频特征和单个视频数据的标题（也可以称为视频描述文本）所对应的文本特征之间的融合特征。

进一步地，通过各个视频数据所对应的视频多模态特征，可以从视频数据库中找到相同或相似的视频数据，进而从相同或相似的视频数据中确定原始视频数据（例如，在视频应用中最早发布的视频数据，或者原创账号发布的视频数据等）；将相同或相似的视频数据中除该原始视频数据之外的视频数据确定为重复视频数据，在视频数据库中删除重复视频数据，即视频去重处理。可选的，视频数据库中的各个视频数据所对应的视频多模态特征还可以用于视频数据的推荐排序、召回打散等场景。

需要说明的是，上述服务器10d还可以通过大量视频数据的视频类别和视频标签，对初始视频多模态模型进行训练，训练完成后的初始视频多模态模型可以称为目标视频多模态模型。其中，上述初始视频多模态模型可以是指训练过程中还未完成训练的视频多模态模型，此处的视频多模态模型可以用于对视频数据进行多模态特征提取，目标视频多模态模型可以是指训练完成后的初始视频多模态模型。可选的，视频数据的多模态特征提取过程可以由服务器10d执行，也可以由图1所示的用户终端集群中的任一个用户终端来执行。

请参见图2，图2是本申请实施例提供的一种视频数据处理方法的流程示意图。可以理解地，该视频数据处理方法由计算机设备执行，该计算机设备可以为用户终端（例如，图1所对应实施例中的用户终端10a），或者为服务器（例如，图1所对应实施例中的服务器10d），或者为计算机程序（包括程序代码）；如图2所示，该视频数据处理方法可以包括以下步骤S101-步骤S105：

步骤S101，获取视频标签集合，对视频标签集合中所包含的视频标签进行聚类，得到K个标签簇；K为正整数。

具体的，计算机设备可以获取用于训练初始视频多模态模型的样本视频数据，该样本视频数据的数量可以为多个，每个样本视频数据都可以具有已知的视频类别和视频标签，该视频类别可以用于表示样本视频数据所属的视频类目，该视频类别可以包括电影、综艺、搞笑、游戏、音乐、动漫、电视剧、娱乐、曲艺、网红达人等，一个样本视频数据可以对应一个或多个视频类别，当样本视频数据对应一个视频类别时，针对视频类别的分类问题可以认为是单个多分类问题；当样本视频数据对应多个视频类别时，针对视频类别的分类问题可以认为是多个二分类问题；

为方便描述，本申请实施以一个样本视频数据对应一个视频类别为例进行说明。视频标签可以用于表示样本视频数据中的视频内容所对应的视频语义标签，视频标签可以包括各个综艺名称、电视剧名称、参演人员名称、电影名称、游戏类型名称、视频主题等，一个样本视频数据可以对应多个视频标签，也就是说，针对视频标签的分类问题可以认为是多个二分类问题。可以理解的是，每个样本视频数据所对应的视频类别和视频标签都是由该样本视频数据的视频内容所确定的，且一个样本视频数据所对应的视频类别的数量通常会小于样本视频数据所对应的视频标签的数量。

计算机设备可以将所有样本视频数据的对应的视频标签都添加到视频标签集合中，通过对视频标签集合中的所有视频标签进行聚类，得到K个标签簇，其中K为正整数，如K可以取值为1，2，……；对视频标签集合中的视频标签进行聚类处理后，在上述K个标签簇中，相似的视频标签可以被划分到同一个标签簇中，不同的视频标签可以被划分到不同的标签簇中。其中，聚类处理后所得到的标签簇的数量K可以是预先设置的固定数值，也可以是在聚类处理过程中不断合并视频标签集合中的视频标签后所确定的，本申请对标签簇的数量不做限定。计算机设备对视频标签集合中的视频标签进行聚类处理所采用的聚类算法可以包括但不限于：K-means（均值）聚类算法、均值偏移（Mean shift）聚类算法、DBSCAN（Density-Based Spatial Clustering of Applications with Noise）聚类算法、使用高斯混合模型（Gaussian Mixture Model，GMM）的期望最大化（Expectation-maximization，EM）聚类算法、层次聚类算法，本申请对所采用的聚类算法的类型不做限定。

在一个或多个实施例中，由于视频标签集合中所包含的视频标签为自然语言描述的语义标签，因此在对视频标签集合中所包含的视频标签进行聚类处理之前，计算机设备需要对视频标签集合中所包含的所有视频标签进行向量转换，得到每个视频标签分别对应的标签向量。其中，计算机设备可以通过词向量模型对视频标签进行向量转换，该词向量模型可以包括但不限于：word2vec（通过词的上下文得到词的向量化表示的词向量模型）、glove（一种利用共现矩阵的词向量）、ELMo（Embeddings from Language Models）、BERT（Bidirectional Encoder Representations from Transformers）、潜在语义分析模型（Latent Semantic Analysis，LSA）、潜在狄利克雷分配模型（Latent DirichletAllocation，LDA），本申请对所采用的词向量模型不做限定。

其中，为方便描述，下面以BERT模型为例，对视频标签集合中的视频标签的向量化转换过程进行描述。可以将该视频标签集合标记为B，该视频标签集合中的视频标签可以记为b_j，即视频标签集合中的第j个视频标签，j为小于或者等于视频标签集合中所包含的视频标签的数量的正整数，例如视频标签集合中所包含的视频标签的数量为1000，那么j的取值范围为1至1000。计算机设备可以对视频标签b_j进行分词处理，将其划分为D个单位字符，获取D个单位字符分别对应的单位词向量，其中D为正整数，即D为视频标签b_j所包含的单位字符的数量，如D可以取值为1，2，……；进而可以根据D个单位字符在视频标签b_j中的语义信息，获取D个单位字符分别对应的文本向量；根据D个单位字符在视频标签b_j中的文本位置，获取D个单位字符分别对应的位置向量；将单位词向量、文本向量以及位置向量进行叠加，得到初始表示特征，通过文本编码器对初始表示特征进行文本编码，生成视频标签b_j对应的标签向量G_j。其中，上述文本编码器可以理解为词向量模型（例如，BERT模型），计算机设备可以将初始表示特征输入BERT模型，通过该BERT模型生成视频标签b_j对应的标签向量G_j。

其中，计算机设备可以通过查询字向量表，将视频标签b_j中的每个单位字符转换为词向量（即单位词向量），其中字向量表可以包含所有常用字符对应的字向量，该字向量表可以理解为包含所有常用字符向量的“词典”，单位字符可以是指视频标签b_j中的每个字；文本向量的取值可以在BERT模型的训练过程中自动学习，该文本向量可以用于刻画视频标签b_j的全局语义信息，可以与单位词向量进行融合；由于出现在视频标签b_j不同位置的单位字符所携带的语义信息存在差异（例如，“我等你”和“你等我”所携带的语义信息存在差异），因此可以为视频标签b_j中的D个单位字符分别附加一个不同的位置向量以作区分。可以将单位词向量、文本向量以及位置向量的加和作为BERT模型的输入数据（即初始表示特征），将初始表示特征输入至BERT模型后，可以通过该BERT模型对初始表示特征进行文本编码，以得到视频标签b_j对应的标签向量G_j。

可以理解的是，基于上述相同的方式，计算机设备可以获取视频标签集合中的所有视频标签分别对应的标签向量，通过每个视频标签所对应的标签向量可以构成标签向量集合。该标签向量集合中所包含的标签向量的数量与视频标签集合中所包含的视频标签的数量是相同的，即一个视频标签对应一个标签向量，上述标签向量G_j即为标签向量集合中的其中一个标签向量。计算机设备获取到标签向量集合之后，可以采用聚类算法对标签向量集合所包含的标签向量进行聚类处理，以得到K个标签簇。

可选的，下面以K-means为例，对标签向量集合所包含的标签向量的聚类过程进行具体说明。

计算机设备可以从标签向量集合中选择中心向量t_i，其中i为小于或等于K的正整数；获取标签向量集合中的每个标签向量分别与中心向量t_i之间的相似度，若标签向量集合中的标签向量G_j与中心向量t_i的相似度最大，则将标签向量G_j添加至中心向量t_i所属的待处理簇C_i；进而可以根据待处理簇C_i中所包含的标签向量，更新中心向量t_i，直至待处理簇C_i中更新后的中心向量t_i与更新前的中心向量t_i相同时，将待处理簇C_i确定为标签簇。

其中，计算机设备可以预先设置标签向量集合所包含的所有标签向量对应的聚类数（也可以称为簇数量，即上述K），可以从标签向量集合中随机选择K个标签向量作为初始的中心向量，即中心向量t_i（i为小于或等于K的正整数）；聚类算法中设置的聚类数可以影响标签向量的最终聚类效果，聚类数太大，使得相似的标签向量有可能被分到不同的标签簇中，聚类数太小，使得不相似的标签向量有可能被分到同一个标签簇中，本申请实施例中可以根据经验来设置聚类数，如K可以取值为2000，当然也可以采用交叉验证等方法来确定聚类数。

可选的，为了达到更好的聚类效果，计算机设备可以从标签向量集合中选择彼此距离尽可能远的K个标签向量作为初始的中心向量。具体选择方式为：从标签向量集合中随机选择一个标签向量作为第一个中心向量t₁；进而可以从标签向量集合剩余的标签向量（未被选择的标签向量）中选择与第一个中心向量t₁距离最远的标签向量作为第二个中心向量t₂；可以计算第一个中心向量t₁和第二个中心向量t₂之间的中心点（该中心点可以为第一个中心向量t₁和第二个中心向量t₂之间的平均值所对应的标签向量，如与该平均值距离最近的标签向量），从标签向量集合剩余的标签向量中选择与该中心点距离最远的标签向量作为第三个中心向量t₃；以此类推，直至确定第K个中心向量t_K，即可以确定K个中心向量。

计算机设备可以计算标签向量集合中每个标签向量与各个中心向量之间的距离（可以用两个标签向量之间的相似度来衡量两者之间的距离，相似度越大，距离越短，相似度越小，距离越大），即标签向量集合中每个标签向量G_j与每个中心向量t_i之间的距离，将标签向量G_j划分到距离最近的中心向量所属的待处理簇，可以初步得到K个待处理簇（每个中心向量对应一个待处理簇），每个待处理簇均可以包括多个标签向量（不同的待处理簇中所包含的标签向量的数量可以一样，也可以不一样）。

其中，计算两个标签向量之间的距离所采用的方法可以包括但不限于：欧几里得距离（Eucledian Distance）、曼哈顿距离（Manhattan Distance）、明可夫斯基距离（Minkowski distance）、余弦相似度（Cosine Similarity）。以余弦相似度为例，对于标签向量集合中的标签向量G_j与中心向量t_i，其两者之间的距离可以表示为：dis<G_j，t_i>=cosin（G_j，t_i），其中，dis<G_j，t_i>用于表示标签向量G_j与中心向量t_i之间的距离，cosin为余弦函数，若标签向量集合中的标签向量G_j与8个中心向量（此处的聚类数取值为8）的距离分别为：35，17，25，30，41，5，10，28，则可以将标签向量G_j划分到第5个中心向量所属的待处理簇C₅。

对于上述得到的K个待处理簇，可以计算每一个待处理簇中所包含的所有标签向量的均值，根据均值更新待处理簇对应的中心向量，得到一个新的中心向量，进而根据标签向量集合中每个标签向量与每个新的中心向量之间的距离，对每个待处理簇中所包含的标签向量进行更新。不断重复上述过程，当每个待处理簇中所包含的标签向量不再发生变化，即每个待处理簇分别对应的中心向量固定不变时，此时的K个待处理簇可以确定为标签向量集合最终的聚类结果，即K个标签簇。

请参见图3，图3是本申请实施例提供的一种标签向量的聚类示意图。如图3所示，当标签向量集合20a中所包含的标签向量的位置如图3所示，假设聚类数为3（图中的圆圈用于表示标签向量，此处的K取值为3），计算机设备可以从标签向量集合20a中选择3个标签向量作为初始的中心向量，如选择标签向量t1作为第一个中心向量，标签向量t2作为第二个中心向量，标签向量t3作为第三个中心向量。

计算机设备可以计算标签向量集合20a中每个标签向量分别与标签向量t1、标签向量t2以及标签向量t3之间的距离，将标签向量划分到距离最短的中心向量所属的待处理簇，完成k-means聚类算法中的第一次迭代过程，待处理簇C1、待处理簇C2以及待处理簇C3即为标签向量集合20a中第一次迭代后所得到的结果。

计算机设备可以根据待处理簇C1、待处理簇C2以及待处理簇C3分别包含的标签向量，更新每个待处理簇中的中心向量，如待处理簇C1的中心向量由标签向量t1更新为标签向量t4，待处理簇C2的中心向量由标签向量t2更新为标签向量t5，待处理簇C3的中心向量由标签向量t3更新为标签向量t6；再次计算标签向量集合20a中每个标签向量分别与标签向量t4、标签向量t5以及标签向量t6之间的距离，基于距离将待处理簇C1更新为待处理簇C4，将待处理簇C2更新为待处理簇C5，将待处理簇C3更新为待处理簇C6，完成聚类算法中的第二次迭代过程；不断重复上述过程，直至每个待处理簇中所包含的标签向量不再发生变化，或者达到预设的最大迭代次数，将最终得到的待处理簇确定为标签向量集合20a对应的3个标签簇，如图3中的标签簇1、标签簇2以及标签簇3。

步骤S102，获取样本视频数据对应的样本视频类别和样本视频标签，根据样本视频标签所属的标签簇，确定样本视频数据对应的样本簇类标识；样本视频数据包括样本视频流和样本描述文本。

具体的，在初始视频多模态模型的训练过程中，每次迭代训练时可以输入一个或多个样本视频数据，如对样本视频数据进行批次处理时，可以将样本视频数据分批次输入到初始视频多模态模型中。可以理解的是，对于任意一个样本视频数据，其在初始视频多模态模型中的处理过程都是相同的，为方便描述，下面以一个样本视频数据为例，对初始视频多模态模型进行详细描述，可以将该样本视频数据所对应的视频类别称为样本视频类别，将该样本视频数据所对应的视频标签称为样本视频标签，该样本视频数据所对应的样本视频标签的数量可以为多个，每个样本视频标签所属的标签簇，都可以确定为该样本视频数据对应的样本簇类标识。

其中，可以为上述K个标签簇设置簇标识，该簇标识可以表示为编号、名称等信息，每个标签簇所对应的簇标识均是唯一的，该样本视频数据所对应的每个视频标签都被划分到对应的标签簇中，那么每个视频标签都可以对应一个簇标识，属于同一个标签簇中的样本视频标签所对应的簇标识是相同的；例如，样本视频数据所对应的样本视频标签包括视频标签1、视频标签2、视频标签3以及视频标签4，视频标签1属于标签簇C1，视频标签2和视频标签3属于标签簇C2，视频标签4属于标签簇C3，那么可以将标签簇C1、标签簇C2以及标签簇C3分别对应的簇标识，确定为样本视频数据对应的样本簇类标识；其中，一个样本视频数据可以对应一个或多个样本簇类标识。计算机设备在获取到样本视频数据对应的样本簇类标识后，可以形成针对该样本视频数据的层次监督信息，即样本视频类别-样本簇类标识-样本视频标签。

可选的，在本申请实施例中，每个样本视频数据可以包括样本视频流和样本描述文本，其中样本视频流可以由一帧一帧的视频帧组成，样本描述文本可以是指该样本视频数据的标题或字幕信息，该样本视频流和样本描述文本可以称为该样本视频数据的多模态信息。

步骤S103，通过初始视频多模态模型输出样本视频数据对应的样本多模态特征；样本多模态特征是对样本视频流对应的样本视频特征，以及样本描述文本对应的样本文本特征进行融合得到的。

具体的，计算机设备可以将样本视频数据输入至初始视频多模态模型，通过该初始视频多模态模型可以输出该样本视频数据对应的样本多模态特征。其中，该初始视频多模态模型可以包括视频流组件和文本组件，该视频流组件可以用于处理样本视频数据中的样本视频流，该文本组件可以用于处理样本视频数据中的样本描述文本，该样本多模态特征可以是对样本视频流所对应的样本视频特征和样本描述文本对应的样本文本特征进行融合得到的。

在一个或多个实施例中，计算机设备可以将样本视频数据中的样本视频流进行采样处理，得到M个目标视频帧，其中M为正整数，如M可以取值为1，2，……；上述采样处理可以包括全局采样、稀疏采样等过程，当然此处的采样处理还可以为局部采样过程，本申请对样本视频流的采样处理不做限定。

在得到采样后的M个目标视频帧后，可以将M个目标视频帧依次输入至视频流组件，在视频流组件中获取M个目标视频帧分别对应的样本图像特征，对M个目标视频帧分别对应的样本图像特征进行特征聚合，可以得到样本视频流对应的样本视频特征。

其中，视频流组件可以包括视频采样模块、图像特征提取模块以及特征聚合模块；视频采样模块用于从样本视频流中采样得到M个目标视频帧，该视频采样模块可以包括但不限于：TNS（Temporal Segment Networks）采样、TRN（Temporal Relation Network）采样、ECO（在TNS采样的基础上进行扩展变形后的方法）采样；图像特征提取模块用于从单个目标视频帧中提取样本图像特征，该图像特征提取模块可以包括但不限于：InceptionResNetV2（一种神经卷积网络）、ResNet（一种残差网络）、EfficienNet（一种卷积神经网络）等不同类型的深度神经网络。特征聚合模块可以用于聚合M个样本图像特征，即帧特征聚合处理，该特征聚合模块可以包括但不限于：VLAD（Vector of Local Aggregated Descriptors，局部聚合描述符向量）、NetVLAD（对VLAD进行扩展变形后所得到的）、NeXtVLAD（对NetVLAD进行扩展变形后所得到的）；本申请对视频流组件的网络结构（如视频采样模块、图像特征提取模块以及特征聚合模块的网络结构）不做限定。

可选的，上述视频流组件还可以包括特征增强模块，如该特征增强模块可以为SENet（Squeeze-and-Excitation Networks），该特征增强模块可以用于对特征聚合模块所输出的特征进行特征增强，进而可以将特征增强模块所输出的特征认为是视频流组件所输出的样本视频特征。

其中，通过视频流组件对样本视频数据中的样本视频流进行处理的同时，可以将样本视频数据中的样本描述文本输入至文本组件，在改文本组件中，可以对样本描述文本进行分词处理，得到H个样本描述字符，进而可以将H个样本描述字符均转换为样本描述向量，其中H为正整数，如H可以取值为1，2，……，该样本描述向量的获取过程可以参见上述单位词向量的获取过程，此处不再赘述。根据文本组件中的循环神经网络，可以对H个样本描述向量进行双向循环编码，得到样本描述文本对应的样本文本特征。

其中，文本组件可以包括分词处理模块、词向量转换模块以及循环编码模块（此处的循环编码模块可以认为是文本组件中的特征提取模块）；分词处理模块用于对样本描述文本进行分词处理，得到该样本描述文本对应的分词结果（即上述H个样本描述字符）；词向量转换模块可以为上述词向量转换模型，也可以称为词嵌入层，用于将样本描述文本的分词结果转换为样本描述向量（也可以理解为词向量）；循环编码模块可以用于对H个样本描述字符所对应的样本描述向量进行循环编码，该循环编码模块可以包括但不限于：循环神经网络（Rerrent Neural Network，RNN）、长短期记忆模型（Long short-term memory，LSTM）、GRU（Gated Recurrent Unit，LSTM的变体）；本申请对文本组件的网络结构不做限定。

可选的，文本组件还可以包括池化层，该池化层可以连接在循环编码模块的后面，用于对循环编码模块输出的特征进行池化处理，该池化层所输出的特征可以认为是文本组件所输出的样本文本特征。

进一步地，计算机设备可以对样本视频特征和样本文本特征进行融合，得到样本视频数据对应的样本多模态特征，该样本视频特征和样本文本特征可以认为是样本视频数据的两个模态特征。计算机设备可以通过GMU（Gate Multimodal Unit）结构对样本视频特征和样本文本特征进行融合，得到样本视频数据对应的样本多模态特征。

请参见图4，图4是本申请实施例提供的一种提取样本多模态特征的示意图。如图4所示，样本视频数据包括样本视频流30a和样本描述文本30g（此处的样本描述文本30g为样本视频数据的标题），初始视频多模态模型可以包括视频流组件30e和文本组件30f，上述样本视频流30a可以输入至初始视频多模态模型的视频流组件30e，在视频流组件30e中，可以对样本视频流30a进行采样处理（例如，TSN采样），从样本视频流30a中抽取M个目标视频帧，进而可以通过对M个目标视频帧依次进行特征提取，可以得到每个目标视频帧分别对应的样本图像特征，例如，此处的特征提取可以利用上述InceptionResNetV2来实现，进而可以通过特征聚合模块30b（例如，该特征聚合模块30b可以为NeXtVLAD）对M个目标视频帧分别对应的样本图像特征进行特征聚合，可以得到视频级的特征，继而可以通过对视频级的特征进行特征增强（例如，经过SENet进行特征增强），得到样本视频流30a对应的样本视频特征30d。

上述样本描述文本30g可以输入至初始视频多模态模型的文本组件30f，在文本组件30f中，可以对样本描述文本30g进行分词处理，得到针对样本描述文本30g的分词结果（如上述H个样本描述字符），将分词结果输入至词嵌入层（如上述词向量转换模型），可以得到分词结果分别对应的词向量（如上述H个样本描述向量），对分词结果对应的词向量进行双向循环编码（例如，可以通过前向和后向两层RNN构成的网络来实现），并通过池化层可以得到样本描述文本30g对应的样本文本特征30h。进而可以通过GMU结构对样本视频特征30d和样本文本特征30h进行特征融合，最终得到样本视频数据对应的样本多模态特征30i。

步骤S104，将样本多模态特征输入至N个分类组件，通过N个分类组件输出样本视频数据对应的N个分类结果；N个分类组件用于执行不同的分类任务，N个分类结果包括样本预测类别、簇类标识预测结果以及标签预测结果，N为正整数。

具体的，本申请实施例可以采用多任务的视频多模态表征学习方法进行模型训练，例如，当每个样本视频数据对应一个样本视频类别-样本簇类标识-样本视频标签的层次监督信号时，在初始视频多模态模型的训练过程中，可以建立至少3个不同的分类任务，如类别分类任务、标签分类任务、簇类分类任务（也可以称为聚类任务），一个分类任务可以对应一个分类组件。计算机设备可以通过N个分类组件的输出结果来训练初始视频多模态模型，N可以为正整数，如N可以取值为1，2，……；将样本视频数据对应的样本多模态特征输入至N个分类组件，每个分类组件都可以输出针对样本视频数据对应的分类结果，一个分类组件可以对应一个分类结果。需要说明的是，上述N个分类组件可以使用并行结构，也可以采用级联结构，本申请对N个分类组件之间的结构不做限定。

可选的，上述N个分类组件可以包括但不限于：类别分类组件、簇类分类组件、标签分类组件以及账号分类组件等。举例来说，当上述N个分类组件包括类别分类组件、簇类分类组件以及标签分类组件时，类别分类组件与样本视频类别相对应，簇类分类组件与样本簇类标识相对应，标签分类组件与样本视频标签相对应。若N个分类组件使用并行结构，则计算机设备可以将样本多模态特征分别输入至类别分类组件、簇类分类组件以及标签分类组件，通过类别分类组件可以对样本多模态特征进行类别预测，得到样本视频数据对应的样本预测类别；通过簇类分类组件对样本多模态特征进行簇类预测，得到样本视频数据对应的簇类标识预测结果，该簇类标识预测结果包括样本视频数据分别属于K个标签簇的预测数值；通过标签分类组件对样本多模态特征进行标签预测，得到样本视频数据对应的标签预测结果，该标签预测结果包括样本视频数据分别属于视频标签集合中的每个视频标签的预测数值。

其中，类别分类组件、簇类分类组件以及标签分类组件可以共享样本多模态特征，类别分类组件需要预测样本视频数据所属的视频类别，如该类别分类组件可以输出样本多模态特征属于各个视频类别的概率值（也可以称为预测数值），进而可以将最大的概率值所对应的视频类别作为样本视频数据对应的样本预测类别。由于样本视频数据所属的样本簇类标识的数量可以为一个或多个，因此簇类分类组件需要对K个标签簇所对应的簇标识都进行预测是否包含该标签簇，如该簇类分类组件可以输出样本多模态特征属于各个标签簇所对应的簇标识的概率值，将概率值大于预先设置的概率阈值的簇标识作为该样本视频数据对应的簇类标识预测结果。由于样本视频数据对应的样本视频标签的数量同样可以为一个或多个，因此标签分类组件需要对视频标签集合中的每个视频标签都进行预测是否包含该视频标签，与上述簇类分类组件类似，通过标签分类组件得到样本视频数据对应的标签预测结果，此处不再进行赘述。

请参见图5，图5是本申请实施例提供的一种多个分类组件的并行结构示意图。如图5所示，计算机设备通过初始视频多模态模型获取到样本视频数据对应的样本多模态特征后，可以将该样本多模态特征输入至具有并行结构的类别分类组件30a、簇类分类组件30b以及标签分类组件30c（此时的分类组件的数量N为3），如图5所示的类别分类组件30a可以包括9个视频类别（分别为视频类别1至视频类别9，类别分类组件30a中的条形图可以用于表示样本视频数据属于各个视频类别的概率值，概率值越大，条形图的长度越长），通过类别分类组件30a可以预测得到该样本视频数据对应的类别预测结果，并计算类别预测结果与样本视频数据的真实类别（即样本视频类别）之间的多分类交叉熵损失值，此处的多分类交叉熵损失值可以称为第一分类损失结果。

如图5所示的簇类分类组件30b可以包括K个标签簇所对应的簇类标识（也可以称为簇标识，分别为簇类标识1至簇类标识K，簇类分类组件30b中的条形图可以用于表示样本视频数据属于各个簇类标识的概率值，概率值越大，条形图的长度越长），通过簇类分类组件30b对每个标签簇所对应的簇标识都预测是否包含该标签簇，即簇类标识预测结果，并计算每个标签簇所对应的簇标识计算二分类交叉熵损失值，此处各个簇标识所对应的二分类交叉熵损失值可以称为第二分类损失结果。

其中，对于标签分类组件30c，该标签分类组件30c可以包括100个视频标签，上述簇类分类组件30b中的K个簇类标识所对应的K个标签簇是通过对标签分类组件30c中的100个视频标签进行聚类处理后所得到的。与上述簇类分类组件30b类似，可以对每个视频标签计算二分类交叉熵损失值，此处各个视频标签所对应的二分类交叉熵损失值可以称为第三分类损失结果。通过将第一分类损失结果、第二分类损失结果以及第三分类损失结果进行累加，可以得到初始视频多模态所对应的模型总损失结果。

可选的，若N个分类组件使用级联结构，则将样本多模态特征输入至类别分类组件，通过类别分类组件对样本多模态特征进行类别预测，得到样本视频数据对应的样本预测类别；将样本多模态特征和样本预测类别输入至簇类分类组件，通过簇类分类组件对样本多模态特征进行簇类预测，得到样本视频数据对应的簇类标识预测结果，该簇类标识预测结果包括样本视频数据分别属于K个标签簇的预测数值；将样本多模态特征和簇类标识预测结果输入至标签分类组件，通过标签分类组件对样本多模态特征进行标签预测，得到样本视频数据对应的标签预测结果，该标签预测结果包括样本视频数据分别属于视频标签集合中的每个视频标签的预测数值。换言之，类别分类组件、簇类分类组件以及标签分类组件同样可以共享样本多模态特征，且类别分类组件的样本预测类别可以连同样本多模态特征一起输入到簇类分类组件中，指导簇类分类组件的分类任务，可以提升簇类标识分类组件的学习效果；簇类分类组件的簇类标识预测结果可以连同样本多模态特征一起输入到标签分类组件中，指导标签分类组件的分类任务，可以提升标签分类组件的学习效果。

请参见图6，图6是本申请实施例提供的一种多个分类组件的级联结构示意图。如图6所示的类别分类组件40a、簇类分类组件40b以及标签分类组件40c同图5所示的类别分类组件30a、簇类分类组件30b以及标签分类组件30c，在上述三个分类组件中，对样本多模态特征的处理过程是相同的，只是图5所示的三个分类组件为并行结构，而图6所示的三个分类组件为级联结构，因此图6所示的簇类分类组件40b的输入数据包括类别分类组件40a所输出的样本预测类别，用于指导簇类分类组件40b对样本多模态特征进行簇类标识分类；图6所示的标签分类组件40c的输入数据中包括簇类分类组件40b所输出的簇类标识预测结果，用于指导标签分类组件40c对样本多模态特征进行标签分类，以形成层次监督，可以提高初始视频多模态模型的表征能力。采用与图5所对应实施例中相同的方式，可以计算得到类别分类组件40a对应的第一分类损失结果、簇类分类组件40b对应的第二分类损失结果，以及标签分类组件40c对应的第三分类损失结果，通过将第一分类损失结果、第二分类损失结果以及第三分类损失结果进行累加，可以得到初始视频多模态模型所对应的模型总损失结果。

可选的，上述N个分类组件除了包括上述类别分类组件、簇类分类组件以及标签分类组件之外，还可以包括其余分类组件，如账号分类组件，该账号分类组件用于分类样本视频数据所对应的发布账号。换言之，在训练初始视频多模态模型的过程中，可以将发布样本视频数据的账号信息也作为一个监督信息，将账号信息也作为一个分类任务加入到初始视频多模态模型的训练框架中。

步骤S105，根据N个分类结果、样本视频类别、样本视频标签以及样本簇类标识，对初始视频多模态模型的网络参数进行修正，生成目标视频多模态模型；目标视频多模态模型用于从源视频数据中提取表征视频内容的视频多模态特征。

具体的，计算机设备可以根据N个分类结果、样本视频类别、样本视频标签以及样本簇类标识，确定初始视频多模态模型对应的模型总损失函数，通过对模型总损失函数进行最小化优化处理，对初始视频多模态模型的网络参数进行调整，直至初始视频多模态的训练过程达到预先设置的最大迭代次数，或者训练过程达到收敛，此时的初始视频多模态模型可以称为目标视频多模态模型。该目标视频多模态模型可以用于从源视频数据中提取表征视频内容的视频多模态特征。

其中，假设样本视频数据所对应的样本簇类标识的数量为X个，样本视频标签的数量为Y个，其中X和Y均为正整数；计算机设备可以根据样本预测类别和样本视频类别，确定类别分类组件对应的第一分类损失结果；根据簇类标识预测结果和X个样本簇类标识，确定簇类分类组件对应的第二分类损失结果；根据标签预测结果和Y个样本视频标签，确定标签分类组件对应的第三分类损失结果；将第一分类损失结果、第二分类损失结果以及第三分类损失结果进行累加，得到初始视频多模态模型对应的模型总损失结果，其中模型总损失结果的获取方式可以参见图5和图6所对应实施例中的描述，此处不再进行赘述。

计算机设备可以根据模型总损失结果，对初始视频多模态模型的网络参数进行修正，生成目标视频多模态模型，如通过对模型总损失结果进行求导，计算初始视频多模态模型中的网络参数的梯度，并分别从N个分类组件进行梯度的反向传播，来不断地更新初始视频多模态模型中的网络参数，直至初始视频多模态的训练过程达到预先设置的最大迭代次数，或者训练过程达到收敛，获取训练完成的目标视频多模态模型。

可选的，为了验证本申请中所获得的目标视频多模态模型的特征提取能力，对此进行了实验，本申请通过对比单标签分类组件（即单标签任务）与多分类组件（即多任务，包括类别分类任务、簇类标识分类任务以及标签分类任务等，在实验过程中采用了多个分类组件之间的级联结构）的视频多模态表征学习，证明了在信息流场景中，多任务表征学习方法取得了更优的效果，实验结果如下所示：

表1

其中，表1中的mAP@10、召回率以及F1都是指用于表示模型效果的评价指标，mAP@10（mean Average Precision）可以用于表示10个位置上的均值平均精度，即各类别平均精度的平均值；召回率表示被正确分配的正样本数占总正样本数的比例，召回率又可以称为查全率；F1可以称为F1分数，是精度和召回率的调和平均数，是分类问题的一个衡量指标。由上述表1可知，本申请提出的多个分类任务的视频多模态表征学习，比现有的单标签分类任务的视频多模态表征学习具有更优的效果。

可选的，训练完成的目标视频多模态模型可以用于从视频数据中提取视频多模态特征，该视频多模态特征可以作为视频内容的底层特征供下游任务，如推荐排序、召回打散、视频去重等。当上述训练完成的目标视频多模态模型应用在视频应用的视频去重场景中时，计算机设备可以获取视频应用中的视频数据库，通过目标视频多模态模型中的视频流组件，获取源视频数据a中的视频流所对应的目标视频特征，该源视频数据a可以为视频数据库中的任意一个视频数据，a为正整数，如a可以取值为1，2，……；通过目标视频多模态模型中的文本组件，获取源视频数据a中的视频描述文本所对应的目标文本特征，将目标视频特征和目标文本特征进行融合，得到源视频数据a对应的视频多模态特征。计算机设备可以获取源视频数据a的视频多模态特征与剩余的源视频数据的视频多模态特征之间的相似度，根据相似度从视频数据库中确定源视频数据a的相似视频数据；当源视频数据a在视频应用中的发布时间早于相似视频数据在视频应用中的发布时间时，在视频数据库中删除相似视频数据。

其中，由于目标视频多模态模型与上述初始视频多模态模型的网络结构是一样的，只是两者的网络参数不一样，因此采用目标视频多模态模型对视频数据库中的任意一个源视频数据的处理过程与前述利用初始视频多模态模型对样本视频数据的处理过程是类似的，如目标视频特征的提取过程与前述样本视频特征的提取过程类似，目标文本特征的提取过程与前述样本文本特征的提取过程是一致的，目标文本特征与目标视频特征之间的特征融合操作，类似于前述样本视频特征与样本文本特征之间的特征融合操作，此处均不再进行赘述。

具体的，计算机设备可以获取上述视频数据库所包含的每个源视频数据分别对应的视频多模态特征，通过计算任意两个视频多模态特征之间的相似度，可以从视频数据库中确定重复的源视频数据，如可以通过计算源视频数据a的视频多模态特征与剩余的源视频数据的视频多模态特征之间的相似度，将相似度大于相似度阈值（可以进行预先设置，如相似度阈值可以设置为0.9）的源视频数据确定为源视频数据a的相似视频数据，并获取源视频数据a和相似视频数据的发布账号信息和发布时间，从源视频数据a和相似视频数据中选择发布时间最早的源视频数据作为初始视频数据，将源视频数据a和相似视频数据中除初始视频数据之外的其余视频数据确定为重复视频数据，从上述视频数据库中删除这些重复视频数据。当然，还可以对发布这些重复视频数据的账号信息进行惩罚，如规定某段时间内（例如，一个月）限制该账号信息在视频应用中发布任何信息等，通过视频多模态信息删除重复的源视频数据，可以减少用户观看重复视频的次数，提高信息流产品（例如，上述视频应用）的体验效果。

可以理解地，在一个示例性实施例中，比如在视频去重场景的实际应用中，计算机设备从视频数据库中查找出初始视频数据的重复视频数据后，可以判断重复视频数据的发布账号信息与初始视频数据的发布账号信息是否相关联，若某个重复视频数据的发布账号信息与初始视频数据的发布账号信息相关联，则确定该重复视频数据和初始视频数据为同一个用户或平台所发布的视频数据，在视频数据库中保留该重复视频数据，删除其余重复视频数据；此时其余重复视频数据的发布账号信息可以称为搬运号，在视频应用中可以对其进行打压，即限制搬运号的权限，如封号、禁止发布新的视频数据、删除之前发布的视频数据等。若初始视频数据的发布账号信息与所有重复视频数据的发布账号信息均不相关联，则表明这些重复视频数据的发布账号信息均为搬运号，可以在视频数据库中删除初始视频数据的所有重复视频数据。

其中，初始视频数据的发布账号信息与重复视频数据的发布账号信息之间相关联，可以是指两个视频数据的发布账号信息相同，也可以是指两个视频数据的发布账号信息具有绑定关系，例如：初始视频数据是用户A使用账号1所发布的，重复视频数据是用户A使用账号2所发布的，且账号1和账号2为用户A在不同平台中所注册的账号时，表示两个视频数据的发布账号信息具有绑定关系。

举例来说，计算机设备从视频数据库中查找到源视频数据a1、源视频数据a2、源视频数据a3以及源视频数据a4之间的相似度均大于相似度阈值，且源视频数据a1在视频应用中的发布时间早于源视频数据a2、源视频数据a3以及源视频数据a4在视频应用中的发布时间时，可以将源视频数据a1确定为初始视频数据。若源视频数据a1的发布账号信息与源视频数据a2的发布账号信息相同或具有绑定关系，则在视频数据库中保留源视频数据a2，且仍然保持源视频数据a2的发布账号信息在视频应用中的原有权限；而与源视频数据a1的发布账号信息不存在关联关系的源视频数据a3和源视频数据a4，则从视频数据库中删除，并将源视频数据a3和源视频数据a4的发布账号信息确定为搬运账号，在视频应用中对搬运账号进行打压。

可选的，计算机设备还可以通过向量索引工具检索出任意一个视频数据的重复视频，该向量检索工具可以为faiss（Facebook AI Similarity Search）或其余索引工具，该faiss是一个开源库，针对高维空间中的海量数据，提供了高效且可靠的检索方法，即采用faiss进行视频检索，可以快速地从视频数据库中检索出重复的视频数据，进而可以提高视频数据的去重效率。

请参见图7，图7是本申请实施例提供的一种视频去重场景示意图。如图7所示，计算机设备通过目标视频多模态模型获取到视频数据库中的每个源视频数据分别对应的视频多模态特征后，通过向量检索工具检索得到源视频数据50a、源视频数据50c以及源视频数据50e为相似的源视频数据，其中，源视频数据50a、源视频数据50c以及源视频数据50e中的视频流内容是一样的，只有在视频标签（视频描述文本）上存在些许差异，如源视频数据50a的视频标题50b为“休闲时间需要轻松愉悦一下”、源视频数据50c的视频标题50d为“下饭短视频”，以及源视频数据50e的视频标题为“下饭短视频，轻松一刻”。当源视频数据50a在视频应用中的发布时间早于源视频数据50c和源视频数据50d的发布时间，可以确定源视频数据50e和源视频数据50c均为重复视频，进而从视频应用的视频数据库中删除源视频数据50e和源视频数据50c。

可选的，当上述训练完成的目标视频多模态模型应用在视频应用的推荐排序场景中时，计算机设备可以在视频应用中获取目标对象对应的已播放视频数据，通过目标视频多模态模型获取已播放视频数据对应的引导多模态特征；获取目标对象对应的对象描述特征，将引导多模态特征和对象描述特征进行拼接，得到目标对象对应的对象融合特征；在视频应用中获取候选视频集合，通过目标视频多模态模型获取候选视频集合中的每个候选视频数据分别对应的候选多模态特征；获取每个候选视频数据分别对应的基础描述特征，将基础描述特征和候选多模态特征进行拼接，得到每个候选视频数据分别对应的视频融合特征；根据对象融合特征和视频融合特征，确定每个候选视频数据分别对应的推荐评估值，根据推荐评估值，在候选视频集合中确定为目标对象推荐的视频数据。

其中，在推荐排序场景中通常需要利用推荐模型对待推荐的视频数据进行排序，根据排序结果向用户推荐相应的视频数据；该推荐排序场景可以是指短视频浮层粗排（pre-rank）插入场景，上述推荐模型可以为时长模型等，该推荐模型中可以引入视频数据的视频多模态特征作为连续值特征，推荐模型可以采用双塔结构（包括用户侧和物品侧）。在用户侧，计算机设备可以将被插入视频（可以认为是待推荐的视频数据）的引导视频（可以认为是用户正在播放或已播放完毕的视频数据，如上述已播放视频数据）的多模态特征（如上述引导多模态特征）与用户侧的离散特征（如上述对象描述特征）进行拼接，可以得到用户侧的对象融合特征，该对象融合特征可以认为是结合用户画像和用户播放视频的多模态特征的融合特征，用于为用户推荐个性化的视频数据。

在物品侧，计算机设备可以将待打分的候选视频（可以认为是等待被推荐的候选视频数据，如上述候选视频数据）的多模态特征（如上述候选多模态特征）与物品侧的离散特征（如上述基础描述特征）进行拼接，可以得到物品侧的视频融合特征，该视频融合特征可以用于为各个候选视频数据进行打分，得到各个候选视频数据分别对应的分数（或者可以称为评估值），此处的分数可以作为候选视频数据被推荐的指标，分数越高，被推荐的可能性越大。计算机设备可以将对象融合特征和视频融合特征作为推荐模型的输入特征，通过推荐模型得到候选视频数据对应的推荐评估值，通过对各个候选视频数据的推荐评估值进行排序，可以按照排序结果为用户推荐相应的视频数据，通过引入视频多模态特征，可以优化视频数据的粗排效果，改善用户体验。

需要说明的是，本申请所涉及粗排可以是指对视频应用中的大量视频数据进行排序，从大量的视频数据中粗略的选出一部分候选视频数据，如根据用户过往的兴趣筛选出一部分候选视频数据。粗排通常可以接受多个输入，如几千个输入，可以提高粗排处理效率，而将本申请中的视频多模态特征引入粗排场景中，在保证粗排处理效率的基础上，还能优化粗排效果。在获取到粗排结果后，计算机设备还可以对粗排结果进行精排，精排的目标是根据所获取到的所有信息（如视频的播放率、下载率等信息）输出最准确的预测结果，为用户推荐真正感兴趣的视频数据。

请参见图8，图8是本申请实施例提供的一种视频推荐排序场景的示意图。如图8所示，在视频应用中的推荐模型可以采用双塔结构，该推荐模型可以为时长模型，该双塔结构可以分为物品侧和用户侧。对于用户侧，计算机设备可以获取针对某用户（为方便描述，该用户可以称为目标用户）的空间特征60a，该空间特征60a可以包括非数值表示的多个特征，如特征1、特征2、……、特征p（p为正整数），空间特征60a可以用于表征目标用户的用户画像；进而可以将空间特征60a输入至词嵌入层60b，得到该空间特征60a对应的对象描述特征；与此用时，计算机设备可以通过目标视频多模态模型获取目标用户对应的已播放视频数据的视频多模态特征，此处已播放视频数据的视频多模态特征可以称为引导多模态特征，将对象描述特征和引导多模态特征进行拼接，可以得到对象融合特征60c。

同理，对于物品侧，计算机设备可以获取每个候选视频数据的空间特征60d，该空间特征60d可以包括非数值表示的多个特征，如特征1、特征2、……、特征q（q为正整数），空间特征60d可以用于表征候选视频数据的播放信息，如播放候选视频数据的用户信息、播放时间信息、播放速度等；进而可以将空间特征60d输入至词嵌入层60e，得到该空间特征60d对应的基础描述特征；与此用时，计算机设备可以通过目标视频多模态模型获取候选视频数据的视频多模态特征，此处候选视频数据的视频多模态特征可以称为候选多模态特征，将基础描述特征和候选多模态特征进行拼接，可以得到视频融合特征60f。进一步地，计算机设备可以通过对象融合特征60c和视频融合特征60f，获取所有候选视频数据分别对应的推荐评估值，如候选视频数据1对应的推荐评估值为推荐评估值1，候选视频数据2对应的推荐评估值为推荐评估值2，候选视频数据3对应的推荐评估值为推荐评估值3等。通过推荐评估值对所有候选视频数据进行排序，并将前5个（此处的5仅为举例，还可以为其余数值）候选视频数据推荐给目标用户，即此处的前5个候选视频数据可以是指为目标对象推荐的视频数据。

可选地，本申请实施例可以应用在任何涉及视频数据的场景中，例如云技术、人工智能、智慧交通、辅助驾驶等各种场景，本申请对目标视频多模态模型的应用场景不作限定。

本申请实施例中，可以通过对视频标签集合中的视频标签进行聚类，可以建立由样本视频类别到样本视频标签的桥梁（即样本簇类标识），形成样本视频类别-样本簇类标识-样本视频标签的层次监督信息，基于该层次监督信息对初始视频多模态模型进行训练，使得训练得到的目标视频多模态模型学习到的多模态特征既具备视频类别信息的泛化性，又具备多视频标签信息的具体性，进而有利于提升多模态特征的区分性，可以提升视频多模态表征学习的效果。

请参见图9，图9是本申请实施例提供的一种视频数据处理装置的结构示意图。如图9所示，该视频数据处理装置1可以包括：聚类处理模块11，簇类标识确定模块12，特征提取模块13，分类模块14，参数修正模块15；

聚类处理模块11，用于获取视频标签集合，对视频标签集合中所包含的视频标签进行聚类，得到K个标签簇；K为正整数；

簇类标识确定模块12，用于获取样本视频数据对应的样本视频类别和样本视频标签，根据样本视频标签所属的标签簇，确定样本视频数据对应的样本簇类标识；样本视频数据包括样本视频流和样本描述文本；

特征提取模块13，用于通过初始视频多模态模型输出样本视频数据对应的样本多模态特征；样本多模态特征是对样本视频流对应的样本视频特征，以及样本描述文本对应的样本文本特征进行融合得到的；

分类模块14，用于将样本多模态特征输入至N个分类组件，通过N个分类组件输出样本视频数据对应的N个分类结果；N个分类组件用于执行不同的分类任务，N个分类结果包括样本预测类别、簇类标识预测结果以及标签预测结果，N为正整数；

参数修正模块15，用于根据N个分类结果、样本视频类别、样本视频标签以及样本簇类标识，对初始视频多模态模型的网络参数进行修正，生成目标视频多模态模型；目标视频多模态模型用于从源视频数据中提取表征视频内容的视频多模态特征。

其中，聚类处理模块11，簇类标识确定模块12，特征提取模块13，分类模块14，参数修正模块15的具体功能实现方式可以参见图2所对应实施例中的步骤S101-步骤S105，这里不再进行赘述。

在一个或多个实施例中，聚类处理模块11可以包括：标签转换单元111，相似度获取单元112，簇更新单元113；

标签转换单元111，用于获取视频标签集合，将视频标签集合中的每个视频标签均转换为标签向量，将每个视频标签所对应的标签向量添加至标签向量集合，从标签向量集合中选择中心向量t_i；i为小于或等于K的正整数；

相似度获取单元112，用于获取标签向量集合中的每个标签向量分别与中心向量t_i之间的相似度，若标签向量集合中的标签向量G_j与中心向量t_i的相似度最大，则将标签向量G_j添加至中心向量t_i所属的待处理簇C_i；j为小于或者等于标签向量集合中所包含的标签向量的数量的正整数；

簇更新单元113，用于根据待处理簇C_i中所包含的标签向量，更新中心向量t_i，直至待处理簇C_i中更新后的中心向量t_i与更新前的中心向量t_i相同时，将待处理簇C_i确定为标签簇。

在一个或多个实施例中，标签转换单元111可以包括：字符划分子单元1111，字符转换子单元1112，位置向量获取子单元1113，向量叠加子单元1114；

字符划分子单元1111，用于将视频标签集合中的视频标签b_j划分为D个单位字符，获取D个单位字符分别对应的单位词向量；D为正整数；

字符转换子单元1112，用于根据D个单位字符在视频标签b_j中的语义信息，获取D个单位字符分别对应的文本向量；

位置向量获取子单元1113，用于根据D个单位字符在视频标签b_j中的文本位置，获取D个单位字符分别对应的位置向量；

向量叠加子单元1114，用于将单位词向量、文本向量以及位置向量进行叠加，得到初始表示特征，通过文本编码器对初始表示特征进行文本编码，生成视频标签b_j对应的标签向量G_j。

其中，标签转换单元111，相似度获取单元112，簇更新单元113以及标签转换单元111所包含的字符划分子单元1111，字符转换子单元1112，位置向量获取子单元1113，向量叠加子单元1114的具体功能实现方式可以参见图2所对应实施例中的步骤S101，这里不再进行赘述。

在一个或多个实施例中，初始视频多模态模型包括视频流组件和文本组件；

特征提取模块13可以包括：采样处理单元131，帧特征聚合单元132，分词处理单元133，循环编码单元134，特征融合单元135；

采样处理单元131，用于将样本视频数据中的样本视频流进行采样处理，得到M个目标视频帧；M为正整数；

帧特征聚合单元132，用于将M个目标视频帧依次输入至视频流组件，通过视频流组件获取M个目标视频帧分别对应的样本图像特征，对M个样本图像特征进行特征聚合，得到样本视频流对应的样本视频特征；

分词处理单元133，用于将样本视频数据中的样本描述文本输入至文本组件，通过文本组件对样本描述文本进行分词处理，得到H个样本描述字符，将H个样本描述字符均转换为样本描述向量；H为正整数；

循环编码单元134，用于根据文本组件中的循环神经网络，对H个样本描述向量进行双向循环编码，得到样本描述文本对应的样本文本特征；

特征融合单元135，用于对样本视频特征和样本文本特征进行融合，得到样本视频数据对应的样本多模态特征。

其中，采样处理单元131，帧特征聚合单元132，分词处理单元133，循环编码单元134，特征融合单元135的具体功能实现方式可以参见图2所对应实施例中的步骤S103，这里不再进行赘述。

在一个或多个实施例中，N个分类组件包括类别分类组件、簇类分类组件以及标签分类组件；

分类模块14可以包括：第一预测单元141，第二预测单元142，第三预测单元143，第四预测单元144，第五预测单元145，第六预测单元146；

第一预测单元141，用于将样本多模态特征输入至类别分类组件、簇类分类组件以及标签分类组件，通过类别分类组件对样本多模态特征进行类别预测，得到样本视频数据对应的样本预测类别；

第二预测单元142，用于通过簇类分类组件对样本多模态特征进行簇类预测，得到样本视频数据对应的簇类标识预测结果；簇类标识预测结果包括样本视频数据分别属于K个标签簇的预测数值；

第三预测单元143，用于通过标签分类组件对样本多模态特征进行标签预测，得到样本视频数据对应的标签预测结果；标签预测结果包括样本视频数据分别属于视频标签集合中的每个视频标签的预测数值。

第四预测单元144，用于将样本多模态特征输入至类别分类组件，通过类别分类组件对样本多模态特征进行类别预测，得到样本视频数据对应的样本预测类别；

第五预测单元145，用于将样本多模态特征和样本预测类别输入至簇类分类组件，通过簇类分类组件对样本多模态特征进行簇类预测，得到样本视频数据对应的簇类标识预测结果；簇类标识预测结果包括样本视频数据分别属于K个标签簇的预测数值；

第六预测单元146，用于将样本多模态特征和簇类标识预测结果输入至标签分类组件，通过标签分类组件对样本多模态特征进行标签预测，得到样本视频数据对应的标签预测结果；标签预测结果包括样本视频数据分别属于视频标签集合中的每个视频标签的预测数值。

其中，第一预测单元141，第二预测单元142，第三预测单元143，第四预测单元144，第五预测单元145，第六预测单元146的具体功能实现方式可以参见图2所对应实施例中的步骤S104，这里不再进行赘述。其中，当第一预测单元141，第二预测单元142，第三预测单元143在执行相应的操作时，第四预测单元144，第五预测单元145，第六预测单元146均暂停执行相应的操作；当第四预测单元144，第五预测单元145，第六预测单元146在执行相应的操作时，第一预测单元141，第二预测单元142，第三预测单元143均暂停执行操作。其中，第一预测单元141和第四预测单元144可以合并为同一个预测单元，第二预测单元142和第五预测单元145可以合并为同一个预测单元，第三预测单元143和第四预测单元146可以合并为同一个预测单元。

在一个或多个实施例中，样本簇类标识的数量为X个，样本视频标签的数量为Y个，X和Y均为正整数；

参数修正模块15可以包括：第一损失确定单元151，第二损失确定单元152，第三损失确定单元153，损失累加单元154，网络参数调整单元155；

第一损失确定单元151，用于根据样本预测类别和样本视频类别，确定类别分类组件对应的第一分类损失结果；

第二损失确定单元152，用于根据簇类标识预测结果和X个样本簇类标识，确定簇类分类组件对应的第二分类损失结果；

第三损失确定单元153，用于根据标签预测结果和Y个样本视频标签，确定标签分类组件对应的第三分类损失结果；

损失累加单元154，用于将第一分类损失结果、第二分类损失结果以及第三分类损失结果进行累加，得到初始视频多模态模型对应的模型总损失结果；

网络参数调整单元155，用于根据模型总损失结果，对初始视频多模态模型的网络参数进行修正，生成目标视频多模态模型。

其中，第一损失确定单元151，第二损失确定单元152，第三损失确定单元153，损失累加单元154，网络参数调整单元155的具体功能实现方式可以参见图2所对应实施例中的步骤S105，这里不再进行赘述。

在一个或多个实施例中，该视频数据处理装置1还可以包括：视频特征获取模块16，文本特征获取模块17，相似视频确定模块18，相似视频删除模块19，引导特征获取模块20，第一特征拼接模块21，候选特征获取模块22，第二特征拼接模块23，视频推荐模块24；

视频特征获取模块16，用于获取视频应用中的视频数据库，通过目标视频多模态模型中的视频流组件，获取源视频数据a中的视频流所对应的目标视频特征；源视频数据a属于视频数据库，a为正整数；

文本特征获取模块17，用于通过目标视频多模态模型中的文本组件，获取源视频数据a中的视频描述文本所对应的目标文本特征，将目标视频特征和目标文本特征进行融合，得到源视频数据a对应的视频多模态特征；

相似视频确定模块18，用于获取源视频数据a的视频多模态特征与剩余的源视频数据的视频多模态特征之间的相似度，根据相似度从视频数据库中确定源视频数据a的相似视频数据；

相似视频删除模块19，用于当源视频数据a在视频应用中的发布时间早于相似视频数据在视频应用中的发布时间时，在视频数据库中删除相似视频数据。

引导特征获取模块20，用于在视频应用中获取目标对象对应的已播放视频数据，通过目标视频多模态模型获取已播放视频数据对应的引导多模态特征；

第一特征拼接模块21，用于获取目标对象对应的对象描述特征，将引导多模态特征和对象描述特征进行拼接，得到目标对象对应的对象融合特征；

候选特征获取模块22，用于在视频应用中获取候选视频集合，通过目标视频多模态模型获取候选视频集合中的每个候选视频数据分别对应的候选多模态特征；

第二特征拼接模块23，用于获取每个候选视频数据分别对应的基础描述特征，将基础描述特征和候选多模态特征进行拼接，得到每个候选视频数据分别对应的视频融合特征；

视频推荐模块24，用于根据对象融合特征和视频融合特征，确定每个候选视频数据分别对应的推荐评估值，根据推荐评估值，在候选视频集合中确定为目标对象推荐的视频数据。

其中，视频特征获取模块16，文本特征获取模块17，相似视频确定模块18，相似视频删除模块19，引导特征获取模块20，第一特征拼接模块21，候选特征获取模块22，第二特征拼接模块23，视频推荐模块24的具体功能实现方式可以参见图2所对应实施例中的步骤S105，这里不再进行赘述。

本申请实施例中，可以通过对视频标签集合中的视频标签进行聚类，可以建立由样本视频类别到样本视频标签的桥梁（即样本簇类标识），形成样本视频类别-样本簇类标识-样本视频标签的层次监督信息，基于该层次监督信息对初始视频多模态模型进行训练，使得训练得到的目标视频多模态模型学习到的多模态特征既具备视频类别信息的泛化性，又具备多视频标签信息的具体性，进而提升了多模态特征的区分性，可以提升视频多模态表征学习的效果。

请参见图10，图10是本申请实施例提供的一种计算机设备的结构示意图。如图10所示，该计算机设备1000可以为用户终端，例如，图1所对应实施例中的用户终端10a，还可以为服务器，例如，图1所对应实施例中的服务器10d，这里将不对其进行限制。为便于理解，本申请以计算机设备为用户终端为例，该计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，该计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如WI-FI接口）。存储器1004可以是高速RAM存储器，也可以是非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

其中，该计算机设备1000中的网络接口1004还可以提供网络通讯功能，且可选用户接口1003还可以包括显示屏（Display）、键盘（Keyboard）。在图10所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

在一个或多个实施例中，N个分类组件包括类别分类组件、簇类分类组件以及标签分类组件，此时的处理器1001还可以用于实现：

将样本多模态特征输入至类别分类组件、簇类分类组件以及标签分类组件，通过类别分类组件对样本多模态特征进行类别预测，得到样本视频数据对应的样本预测类别；

通过簇类分类组件对样本多模态特征进行簇类预测，得到样本视频数据对应的簇类标识预测结果；簇类标识预测结果包括样本视频数据分别属于K个标签簇的预测数值；

通过标签分类组件对样本多模态特征进行标签预测，得到样本视频数据对应的标签预测结果；标签预测结果包括样本视频数据分别属于视频标签集合中的每个视频标签的预测数值。

在一个或多个实施例中，处理器1001还可以用于实现：

将样本多模态特征输入至类别分类组件，通过述类别分类组件对样本多模态特征进行类别预测，得到样本视频数据对应的样本预测类别；

将样本多模态特征和样本预测类别输入至簇类分类组件，通过簇类分类组件对样本多模态特征进行簇类预测，得到样本视频数据对应的簇类标识预测结果；簇类标识预测结果包括样本视频数据分别属于K个标签簇的预测数值；

将样本多模态特征和簇类标识预测结果输入至标签分类组件，通过述标签分类组件对样本多模态特征进行标签预测，得到样本视频数据对应的标签预测结果；标签预测结果包括样本视频数据分别属于视频标签集合中的每个视频标签的预测数值。

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图2所对应实施例中对视频数据处理方法的描述，也可执行前文图9所对应实施例中对视频数据处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有前文提及的视频数据处理装置1所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图2所对应实施例中对视频数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。作为示例，程序指令可被部署在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行，分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。

此外，需要说明的是：本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或者计算机程序可以包括计算机指令，该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器可以执行该计算机指令，使得该计算机设备执行前文图2所对应实施例中对视频数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节，请参照本申请方法实施例的描述。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储器（Read-Only Memory，ROM）或随机存储器（Random Access Memory，RAM）等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种视频数据处理方法，其特征在于，包括：

获取视频标签集合，对所述视频标签集合中所包含的视频标签进行聚类，得到K个标签簇；K为正整数；

获取样本视频数据对应的样本视频类别和样本视频标签，根据所述样本视频标签所属的标签簇，确定所述样本视频数据对应的样本簇类标识；所述样本视频数据包括样本视频流和样本描述文本，所述样本视频类别用于表示所述样本视频数据所属的视频类目，所述样本视频标签用于表示所述样本视频数据中的视频内容所对应的视频语义标签；

通过初始视频多模态模型输出所述样本视频数据对应的样本多模态特征；所述样本多模态特征是对所述样本视频流对应的样本视频特征，以及所述样本描述文本对应的样本文本特征进行融合得到的；

将所述样本多模态特征输入至N个分类组件，通过所述N个分类组件输出所述样本视频数据对应的N个分类结果；所述N个分类组件用于执行不同的分类任务，所述N个分类结果包括样本预测类别、簇类标识预测结果以及标签预测结果，N为正整数；

根据所述N个分类结果、所述样本视频类别、所述样本视频标签以及所述样本簇类标识，对所述初始视频多模态模型的网络参数进行修正，生成目标视频多模态模型；所述目标视频多模态模型用于从源视频数据中提取表征视频内容的视频多模态特征。

2.根据权利要求1所述的方法，其特征在于，所述获取视频标签集合，对所述视频标签集合中所包含的视频标签进行聚类，得到K个标签簇，包括：

获取视频标签集合，将视频标签集合中的每个视频标签均转换为标签向量，将所述每个视频标签所对应的标签向量添加至标签向量集合，从所述标签向量集合中选择中心向量t_i；i为小于或等于K的正整数；

获取所述标签向量集合中的每个标签向量分别与所述中心向量t_i之间的相似度，若所述标签向量集合中的标签向量G_j与所述中心向量t_i的相似度最大，则将标签向量G_j添加至所述中心向量t_i所属的待处理簇C_i；j为小于或者等于所述标签向量集合中所包含的标签向量的数量的正整数；

根据所述待处理簇C_i中所包含的标签向量，更新所述中心向量t_i，直至所述待处理簇C_i中更新后的中心向量t_i与更新前的中心向量t_i相同时，将所述待处理簇C_i确定为标签簇。

3.根据权利要求2所述的方法，其特征在于，所述将视频标签集合中的每个视频标签均转换为标签向量，包括：

将所述视频标签集合中的视频标签b_j划分为D个单位字符，获取所述D个单位字符分别对应的单位词向量；D为正整数；

根据所述D个单位字符在所述视频标签b_j中的语义信息，获取所述D个单位字符分别对应的文本向量；

根据所述D个单位字符在所述视频标签b_j中的文本位置，获取所述D个单位字符分别对应的位置向量；

将所述单位词向量、所述文本向量以及所述位置向量进行叠加，得到初始表示特征，通过文本编码器对所述初始表示特征进行文本编码，生成所述视频标签b_j对应的标签向量G_j。

4.根据权利要求1所述的方法，其特征在于，所述初始视频多模态模型包括视频流组件和文本组件；

所述通过初始视频多模态模型输出所述样本视频数据对应的样本多模态特征，包括：

将所述样本视频数据中的所述样本视频流进行采样处理，得到M个目标视频帧；M为正整数；

将所述M个目标视频帧依次输入至所述视频流组件，通过所述视频流组件获取所述M个目标视频帧分别对应的样本图像特征，对M个样本图像特征进行特征聚合，得到所述样本视频流对应的样本视频特征；

将所述样本视频数据中的所述样本描述文本输入至所述文本组件，通过所述文本组件对所述样本描述文本进行分词处理，得到H个样本描述字符，将所述H个样本描述字符均转换为样本描述向量；H为正整数；

根据所述文本组件中的循环神经网络，对H个样本描述向量进行双向循环编码，得到所述样本描述文本对应的样本文本特征；

对所述样本视频特征和所述样本文本特征进行融合，得到所述样本视频数据对应的样本多模态特征。

5.根据权利要求1所述的方法，其特征在于，所述N个分类组件包括类别分类组件、簇类分类组件以及标签分类组件；

所述将所述样本多模态特征输入至N个分类组件，通过所述N个分类组件输出所述样本视频数据对应的N个分类结果，包括：

将所述样本多模态特征输入至所述类别分类组件、所述簇类分类组件以及所述标签分类组件，通过所述类别分类组件对所述样本多模态特征进行类别预测，得到所述样本视频数据对应的样本预测类别；

通过所述簇类分类组件对所述样本多模态特征进行簇类预测，得到所述样本视频数据对应的簇类标识预测结果；所述簇类标识预测结果包括所述样本视频数据分别属于所述K个标签簇的预测数值；

通过所述标签分类组件对所述样本多模态特征进行标签预测，得到所述样本视频数据对应的标签预测结果；所述标签预测结果包括所述样本视频数据分别属于所述视频标签集合中的每个视频标签的预测数值。

6.根据权利要求1所述的方法，其特征在于，所述N个分类组件包括类别分类组件、簇类分类组件以及标签分类组件；

将所述样本多模态特征输入至所述类别分类组件，通过所述类别分类组件对所述样本多模态特征进行类别预测，得到所述样本视频数据对应的样本预测类别；

将所述样本多模态特征和所述样本预测类别输入至所述簇类分类组件，通过所述簇类分类组件对所述样本多模态特征进行簇类预测，得到所述样本视频数据对应的簇类标识预测结果；所述簇类标识预测结果包括所述样本视频数据分别属于所述K个标签簇的预测数值；

将所述样本多模态特征和所述簇类标识预测结果输入至所述标签分类组件，通过述标签分类组件对所述样本多模态特征进行标签预测，得到所述样本视频数据对应的标签预测结果；所述标签预测结果包括所述样本视频数据分别属于所述视频标签集合中的每个视频标签的预测数值。

7.根据权利要求5-6任一项所述的方法，其特征在于，所述样本簇类标识的数量为X个，所述样本视频标签的数量为Y个，X和Y均为正整数；

所述根据所述N个分类结果、所述样本视频类别、所述样本视频标签以及所述样本簇类标识，对所述初始视频多模态模型的网络参数进行修正，生成目标视频多模态模型，包括：

根据所述样本预测类别和所述样本视频类别，确定所述类别分类组件对应的第一分类损失结果；

根据所述簇类标识预测结果和X个样本簇类标识，确定所述簇类分类组件对应的第二分类损失结果；

根据所述标签预测结果和Y个样本视频标签，确定所述标签分类组件对应的第三分类损失结果；

将所述第一分类损失结果、所述第二分类损失结果以及所述第三分类损失结果进行累加，得到所述初始视频多模态模型对应的模型总损失结果；

根据所述模型总损失结果，对所述初始视频多模态模型的网络参数进行修正，生成目标视频多模态模型。

8.根据权利要求1所述的方法，其特征在于，还包括：

获取视频应用中的视频数据库，通过所述目标视频多模态模型中的视频流组件，获取源视频数据a中的视频流所对应的目标视频特征；所述源视频数据a属于所述视频数据库，a为正整数；

通过所述目标视频多模态模型中的文本组件，获取所述源视频数据a中的视频描述文本所对应的目标文本特征，将所述目标视频特征和所述目标文本特征进行融合，得到所述源视频数据a对应的视频多模态特征；

获取所述源视频数据a的视频多模态特征与剩余的源视频数据的视频多模态特征之间的相似度，根据所述相似度从所述视频数据库中确定所述源视频数据a的相似视频数据；

当所述源视频数据a在所述视频应用中的发布时间早于所述相似视频数据在所述视频应用中的发布时间时，在所述视频数据库中删除所述相似视频数据。

9.根据权利要求1所述的方法，其特征在于，还包括：

在视频应用中获取目标对象对应的已播放视频数据，通过所述目标视频多模态模型获取所述已播放视频数据对应的引导多模态特征；

获取所述目标对象对应的对象描述特征，将所述引导多模态特征和所述对象描述特征进行拼接，得到所述目标对象对应的对象融合特征；

在所述视频应用中获取候选视频集合，通过所述目标视频多模态模型获取所述候选视频集合中的每个候选视频数据分别对应的候选多模态特征；

获取所述每个候选视频数据分别对应的基础描述特征，将所述基础描述特征和所述候选多模态特征进行拼接，得到所述每个候选视频数据分别对应的视频融合特征；

根据所述对象融合特征和所述视频融合特征，确定所述每个候选视频数据分别对应的推荐评估值，根据所述推荐评估值，在所述候选视频集合中确定为所述目标对象推荐的视频数据。

10.一种视频数据处理装置，其特征在于，包括：

聚类处理模块，用于获取视频标签集合，对所述视频标签集合中所包含的视频标签进行聚类，得到K个标签簇；K为正整数；

簇类标识确定模块，用于获取样本视频数据对应的样本视频类别和样本视频标签，根据所述样本视频标签所属的标签簇，确定所述样本视频数据对应的样本簇类标识；所述样本视频数据包括样本视频流和样本描述文本，所述样本视频类别用于表示所述样本视频数据所属的视频类目，所述样本视频标签用于表示所述样本视频数据中的视频内容所对应的视频语义标签；

特征提取模块，用于通过初始视频多模态模型输出所述样本视频数据对应的样本多模态特征；所述样本多模态特征是对所述样本视频流对应的样本视频特征，以及所述样本描述文本对应的样本文本特征进行融合得到的；

分类模块，用于将所述样本多模态特征输入至N个分类组件，通过所述N个分类组件输出所述样本视频数据对应的N个分类结果；所述N个分类组件用于执行不同的分类任务，所述N个分类结果包括样本预测类别、簇类标识预测结果以及标签预测结果，N为正整数；

参数修正模块，用于根据所述N个分类结果、所述样本视频类别、所述样本视频标签以及所述样本簇类标识，对所述初始视频多模态模型的网络参数进行修正，生成目标视频多模态模型；所述目标视频多模态模型用于从源视频数据中提取表征视频内容的视频多模态特征。

11.一种计算机设备，其特征在于，包括存储器和处理器；

所述存储器与所述处理器相连，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以使得所述计算机设备执行权利要求1-9任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序适于由处理器加载并执行，以使得具有所述处理器的计算机设备执行权利要求1-9任一项所述的方法。