CN111611436A

CN111611436A - 一种标签数据处理方法、装置以及计算机可读存储介质

Info

Publication number: CN111611436A
Application number: CN202010588565.1A
Authority: CN
Inventors: 陈小帅; 李伟康
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Yayue Technology Co ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-09-01
Anticipated expiration: 2040-06-24
Also published as: CN111611436B

Abstract

本申请公开了一种标签数据处理方法、装置以及计算机可读存储介质，该方法包括：获取目标视频数据，确定目标视频数据的目标视频类型；获取目标视频数据的目标视频关键词，根据目标视频类型和目标视频关键词，在倒排索引库中获取目标视频数据的相似视频数据；倒排索引库，包括至少两个已有标签视频数据的已有视频关键词与至少两个已有标签视频数据之间的映射关系；相似视频数据为具有目标视频类型且与目标视频关键词具有映射关系的已有标签视频数据；将相似视频数据的第一视频标签，添加到候选标签集合；从候选标签集合，确定目标视频数据的目标视频标签。采用本申请，可提高针对目标视频标签的获取效率，并丰富所获取到的目标视频标签的标签种类。

Description

一种标签数据处理方法、装置以及计算机可读存储介质

技术领域

本申请涉及数据处理的技术领域，尤其涉及一种标签数据处理方法、装置以及计算机可读存储介质。

背景技术

随着计算机网络的不断发展，计算机网络中所产生的视频数据的数量越来越多，为了使用户能够快速分辨出想要进行观看的视频数据，通常会给视频数据添加视频标签，使得用户可以通过视频数据的视频标签，快速判断是否想要观看浏览到的视频数据。

现有技术中，在对视频数据添加视频标签时，通常需要上传视频数据的用户手动为所上传的视频数据添加视频标签。或者，系统可以根据用户在上传视频数据时，对视频数据所选择的视频类型，为视频数据添加视频标签，此种情况下，为视频数据添加的视频标签就只有该视频数据的视频类型的标签。

由此可知，现有技术中，在为视频数据添加视频标签时，若是通过用户手动为视频数据添加视频标签，会导致为视频数据添加视频标签的效率低。若是通过用户为所上传的视频数据所选择的视频类型，为视频数据添加标签，也会导致视频数据被添加的视频标签单一。

发明内容

本申请提供了一种标签数据处理方法、装置以及计算机可读存储介质，可提高针对目标视频标签的获取效率，并丰富所获取到的目标视频标签的标签种类。

本申请一方面提供了一种标签数据处理方法，该方法包括：

获取目标视频数据，确定目标视频数据的目标视频类型；

获取目标视频数据的目标视频关键词，根据目标视频类型和目标视频关键词，在倒排索引库中获取目标视频数据的相似视频数据；倒排索引库中，包括至少两个已有标签视频数据的已有视频关键词与至少两个已有标签视频数据之间的映射关系；相似视频数据为具有目标视频类型的已有标签视频数据；与相似视频数据具有映射关系的已有视频关键词，属于目标视频关键词；

将相似视频数据的第一视频标签，添加到候选标签集合；

从候选标签集合中，确定目标视频数据的目标视频标签。

其中，候选标签集合还包括第二视频标签；

上述方法还包括：

将目标视频数据的视频特征向量，输入标签生成模型；标签生成模型，是基于至少两个已有标签视频数据的视频特征向量和至少两个已有标签视频数据的视频标签训练得到；

基于标签生成模型，生成目标视频数据的至少两个视频生成标签，获取每个视频生成标签的生成概率；

将每个视频生成标签的生成概率，确定为每个视频生成标签与目标视频数据之间的标签可信度；

将至少两个视频生成标签中，标签可信度大于或等于第二标签可信度阈值的视频生成标签，确定为第二视频标签。

其中，获取目标视频数据，确定目标视频数据的目标视频类型，包括：

获取目标视频数据的视频图像信息和视频音频信息，获取目标视频数据的视频文本信息；

将视频图像信息、视频音频信息以及视频文本信息，输入视频分类模型；视频分类模型，是通过至少两个已有标签视频数据以及至少两个已有标签视频数据对应的视频类型训练得到；

基于视频分类模型，输出目标视频数据的目标视频类型。

其中，获取目标视频数据的视频文本信息，包括：

获取目标视频数据的视频标题信息、视频描述信息和视频字幕信息；

对视频字幕信息进行分词，得到视频字幕信息中的字幕关键词；

对视频标题信息、视频描述信息和字幕关键词进行拼接，得到目标视频数据的视频文本信息。

其中，获取目标视频数据，包括：

获取客户端发送的目标视频数据；

上述方法还包括：

将目标视频数据的目标视频标签发送至客户端，以使客户端对目标视频数据以及目标视频标签进行关联输出。

本申请一方面提供了一种标签数据处理装置，该装置包括：

视频获取模块，用于获取目标视频数据，确定目标视频数据的目标视频类型；

相似视频获取模块，用于获取目标视频数据的目标视频关键词，根据目标视频类型和目标视频关键词，在倒排索引库中获取目标视频数据的相似视频数据；倒排索引库中，包括至少两个已有标签视频数据的已有视频关键词与至少两个已有标签视频数据之间的映射关系；相似视频数据为具有目标视频类型的已有标签视频数据；与相似视频数据具有映射关系的已有视频关键词，属于目标视频关键词；

添加模块，用于将相似视频数据的第一视频标签，添加到候选标签集合；

标签确定模块，用于从候选标签集合中，确定目标视频数据的目标视频标签。

其中，相似视频获取模块，包括：

信息获取单元，用于获取目标视频数据的视频标题信息、视频描述信息和视频字幕信息；

分词单元，用于对视频标题信息、视频描述信息和视频字幕信息分别进行分词，得到视频标题信息中的标题关键词、视频描述信息中的描述关键词和视频字幕信息中的字幕关键词；

关键词确定单元，用于将标题关键词、描述关键词和字幕关键词，确定为目标视频关键词。

其中，标签数据处理装置，还包括：

关键词库确定模块，用于获取所述至少两个已有标签视频数据中的每个已有标签视频数据的已有视频关键词，将所述每个已有标签视频数据的已有视频关键词均添加至关键词库；

关系建立模块，用于建立所述关键词库中的每个已有视频关键词与所对应的已有标签视频数据之间的映射关系；每个已有视频关键词，均与至少一个已有标签视频数据具备映射关系；

索引库生成模块，用于根据每个已有视频关键词与所对应的已有标签视频数据之间的映射关系，生成倒排索引库。

其中，倒排索引库中的每个已有标签视频数据还携带有视频类型标签；视频类型标签包括指向目标视频类型的目标视频类型标签；

相似视频获取模块，包括：

候选视频检索单元，用于根据目标视频关键词，在倒排索引库中检索携带有目标视频类型标签，且与目标视频关键词具有映射关系的已有标签视频数据，作为候选视频数据；

相似度获取单元，用于获取目标视频数据与候选视频数据之间的视频相似度；

相似视频确定单元，用于当视频相似度大于或等于相似度阈值时，将候选视频数据确定为相似视频数据。

其中，相似度获取单元，包括：

相关度获取子单元，用于获取目标视频关键词与候选视频数据之间的关键词相关度；

权重确定子单元，用于根据至少两个已有标签视频数据的视频数量、以及目标视频关键词所属的已有标签视频数据的视频数量，确定目标视频关键词对应的关键词权重；

加权求和子单元，用于基于目标视频关键词对应的关键词权重，对候选视频数据与目标视频关键词之间的关键词相关度进行加权求和，得到候选视频数据与目标视频数据之间的视频相似度。

其中，目标视频关键词的数量为至少两个，至少两个目标视频关键词包括目标视频关键词q_i，i为小于或等于目标视频关键词的数量的正整数；

相关度获取子单元，用于：

根据目标视频关键词q_i在至少两个目标视频关键词中的出现频率、目标视频关键词q_i在候选视频数据的已有视频关键词中的出现频率、候选视频数据的已有视频关键词的关键词数量、以及至少两个已有标签视频数据的已有视频关键词的平均关键词数量，获取目标视频关键词q_i与候选视频数据之间的关键词相关度。

其中，候选标签集合还包括第二视频标签；

标签数据处理装置，还包括：

向量获取模块，用于获取目标视频数据的视频特征向量，获取每个已有标签视频数据的视频特征向量；

向量距离获取模块，用于获取目标视频数据的视频特征向量分别与每个已有标签视频数据的视频特征向量之间的向量距离；

第一标签可信度确定模块，用于根据每个已有标签视频数据分别对应的向量距离，确定每个已有标签视频数据的视频标签分别与目标视频数据之间的标签可信度；

第一候选标签确定模块，用于将具有目标视频类型的已有标签视频数据的视频标签中，标签可信度大于或等于第一标签可信度阈值的视频标签，确定为第二视频标签。

其中，候选标签集合还包括第二视频标签；

标签数据处理装置，还包括：

标签输入模块，用于将目标视频数据的视频特征向量，输入标签生成模型；标签生成模型，是基于至少两个已有标签视频数据的视频特征向量和至少两个已有标签视频数据的视频标签训练得到；

标签生成模块，用于基于标签生成模型，生成目标视频数据的至少两个视频生成标签，获取每个视频生成标签的生成概率；

第二标签可信度确定模块，用于将每个视频生成标签的生成概率，确定为每个视频生成标签与目标视频数据之间的标签可信度；

第二候选标签确定模块，用于将至少两个视频生成标签中，标签可信度大于或等于第二标签可信度阈值的视频生成标签，确定为第二视频标签。

其中，候选标签集合中还包括第三视频标签；

标签数据处理装置，还包括：

关联标签获取模块，用于获取第一视频标签的第一关联标签，获取第二视频标签的第二关联标签；第一关联标签，是基于第一视频标签与第一候选视频数据的视频标签在至少两个已有标签视频数据的视频标签中的共现次数所确定的；第一候选视频数据为包含第一视频标签的已有标签视频数据；第二关联标签，是基于第二视频标签与第二候选视频数据的视频标签在至少两个已有标签视频数据的视频标签中的共现次数所确定的；第二候选视频数据为包含第二视频标签的已有标签视频数据；

第三候选标签确定模块，用于将第一关联标签和第二关联标签，确定为第三视频标签。

其中，标签确定模块，包括：

候选标签确定单元，用于将候选标签集合中的第一视频标签、第二视频标签以及第三视频标签，均确定为候选标签；

可信度获取单元，用于获取每个候选标签与目标视频数据之间的目标标签可信度；

目标标签确定单元，用于根据每个候选标签与目标视频数据之间的目标标签可信度，从候选标签集合中，确定目标视频标签。

其中，候选标签集合中包括候选标签b_l，l为小于或等于候选标签集合中候选标签的标签总数量的正整数；

可信度获取单元，包括：

第一可信度确定子单元，用于若候选标签b_l属于第一视频标签，且不属于第二视频标签，则将相似视频数据与目标视频数据之间的视频相似度，确定为候选标签b_l与目标视频数据之间的目标标签可信度；

第二可信度确定子单元，用于若候选标签b_l属于第二视频标签，且不属于第一视频标签，则将候选标签b_l与目标视频数据之间的标签可信度，确定为候选标签b_l与目标视频数据之间的目标标签可信度；

可信度权重获取子单元，用于若候选标签b_l既属于第一视频标签，且属于第二视频标签，则获取第一视频标签对应的第一标签配置权重，获取第二视频标签对应的第二标签配置权重；

第三可信度确定子单元，用于根据第一标签配置权重、第二标签配置权重、相似视频数据与目标视频数据之间的视频相似度、以及候选标签b_l与目标视频数据之间的标签可信度，确定候选标签b_l与目标视频数据之间的目标标签可信度。

其中，候选标签集合中还包括候选标签b_j，j为小于或等于候选标签集合中候选标签的标签总数量的正整数；

标签数据处理装置，还包括：

关联度获取模块，用于若候选标签b_j为候选标签b_l的第二关联标签，则获取候选标签b_j与候选标签b_l之间的标签关联度；标签关联度，是基于候选标签b_j和候选标签b_l在至少两个已有标签视频数据的视频标签中的共现次数所确定的；

关联可信度确定模块，用于根据标签关联度、以及候选标签b_l与目标视频数据之间的标签可信度，确定候选标签b_j与目标视频数据之间的目标标签可信度。

其中，目标标签确定单元，包括：

可信度确定模型输入子单元，用于将每个候选标签和目标视频数据的视频特征向量，输入可信度确定模型；可信度确定模型，是通过至少两个已有标签视频数据的视频特征向量以及至少两个已有标签视频数据的视频标签训练得到；

模型可信度输出子单元，用于基于可信度确定模型，输出每个候选标签分别与目标视频数据之间的模型可信度；

筛选可信度确定子单元，用于基于每个候选标签分别与目标视频数据之间的模型可信度、以及每个候选标签分别与目标视频数据之间的目标标签可信度，确定每个候选标签分别与目标视频数据之间的筛选标签可信度；

标签筛选子单元，用于将候选标签集合中，与目标视频数据之间的筛选标签可信度大于或等于筛选可信度阈值的候选标签，确定为目标视频标签。

其中，筛选可信度确定子单元，包括：

配置权重获取子单元，用于获取针对模型可信度的第一可信度配置权重，获取针对目标标签可信度的第二可信度配置权重；

筛选可信度计算子单元，用于根据第一可信度配置权重、第二可信度配置权重、每个候选标签分别与目标视频数据之间的模型可信度、以及每个候选标签分别与目标视频数据之间的目标标签可信度，确定每个候选标签分别与目标视频数据之间的筛选标签可信度。

其中，视频获取模块，包括：

视频信息获取单元，用于获取目标视频数据的视频图像信息和视频音频信息，获取目标视频数据的视频文本信息；

分类模型输入单元，用于将视频图像信息、视频音频信息以及视频文本信息，输入视频分类模型；视频分类模型，是通过至少两个已有标签视频数据以及至少两个已有标签视频数据对应的视频类型训练得到；

分类模型输出单元，用于基于视频分类模型，输出目标视频数据的目标视频类型。

其中，视频信息获取单元，包括：

文本信息获取子单元，用于获取目标视频数据的视频标题信息、视频描述信息和视频字幕信息；

分词子单元，用于对视频字幕信息进行分词，得到视频字幕信息中的字幕关键词；

拼接子单元，用于对视频标题信息、视频描述信息和字幕关键词进行拼接，得到目标视频数据的视频文本信息。

其中，视频图像信息包括目标视频数据的至少两个图像帧；视频音频信息包括目标视频数据的音频数据的至少两个音频帧；

分类模型输出单元，包括：

图像向量生成子单元，用于基于视频分类模型，生成至少两个图像帧中的每个图像帧的图像特征向量，对每个图像帧的图像特征向量进行特征向量融合，得到图像融合特征向量；

音频向量生成子单元，用于基于视频分类模型，生成至少两个音频帧中的每个音频帧的音频特征向量，对每个音频帧的音频特征向量进行特征向量融合，得到音频融合特征向量；

文本向量生成子单元，用于基于视频分类模型，生成视频文本信息的文本特征向量；

向量拼接子单元，用于对图像融合特征向量、音频融合特征向量和文本特征向量进行向量拼接，得到目标视频数据的视频特征向量；

类型输出子单元，用于根据目标视频数据的视频特征向量，在视频分类模型中输出目标视频数据的目标视频类型。

其中，视频获取模块，用于：

获取客户端发送的目标视频数据；

标签数据处理装置，还用于：

本申请一方面提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行如本申请中一方面中的方法。

本申请一方面提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时使该处理器执行上述一方面中的方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述一方面等各种可选方式中提供的方法。

本申请可以获取目标视频数据，确定目标视频数据的目标视频类型；获取目标视频数据的目标视频关键词，根据目标视频类型和目标视频关键词，在倒排索引库中获取目标视频数据的相似视频数据；倒排索引库中，包括至少两个已有标签视频数据的已有视频关键词与至少两个已有标签视频数据之间的映射关系；相似视频数据为具有目标视频类型的已有标签视频数据；与相似视频数据具有映射关系的已有视频关键词，属于目标视频关键词；将相似视频数据的第一视频标签，添加到候选标签集合；从候选标签集合中，确定目标视频数据的目标视频标签。由此可见，本申请提出的方法由于可以通过已有标签视频数据所建立的倒排索引库，来得到针对目标视频数据的相似视频数据，进而可以通过相似视频数据的视频标签来得到目标视频数据的目标视频标签，因此，提高了针对目标视频标签的获取效率。并且，相似视频数据还可以有多个，因此，还丰富了针对目标视频标签的标签种类。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构的结构示意图；

图2a是本申请提供的一种标签数据处理的场景示意图；

图2b是本申请提供的一种标签数据处理的场景示意图；

图3是本申请提供的一种标签数据处理方法的流程示意图；

图4是本申请提供的一种视频类型识别方法的流程示意图；

图5是本申请提供的一种视频标签获取方法的流程示意图；

图6是本申请提供的一种标签关联概率的表格示意图；

图7是本申请提供的一种模型可信度确定方法的流程示意图；

图8是本申请提供的一种标签获取方法的场景示意图；

图9a是本申请提供的一种终端设备的页面示意图；

图9b是本申请提供的一种终端设备的页面示意图；

图10是本申请提供的一种标签获取方法的流程示意图；

图11是本申请提供的一种标签数据处理装置的结构示意图；

图12是本申请提供的一种标签数据处理装置的结构示意图；

图13是本申请提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请中主要涉及到了人工智能中的机器学习。其中，机器学习(MachineLearning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请中所涉及到的机器学习主要指，通过机器学习得到标签生成模型、视频分类模型和可信度确定模型。其中，标签生成模型用于生成视频数据的视频标签，视频分类模型用于识别视频数据的视频类型，可信度确定模型用于识别视频标签与视频数据之间的可信度。标签生成模型、视频分类模型和可信度确定模型的具体用途可以参见下述步骤图3对应的实施例中的描述。

请参见图1，图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示，网络架构可以包括服务器200和终端设备集群，终端设备集群可以包括一个或者多个终端设备，这里将不对终端设备的数量进行限制。如图1所示，多个终端设备具体可以包括终端设备100a、终端设备101a、终端设备102a、…、终端设备103a；如图1所示，终端设备100a、终端设备101a、终端设备102a、…、终端设备103a可以分别与服务器200进行网络连接，以便于每个终端设备可以通过网络连接与服务器200之间进行数据交互。

如图1所示的服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是：智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视等智能终端。

下面以终端设备100a与服务器200之间的通信为例，进行本申请实施例的具体描述。本申请实施例中具体描述了，如何通过已有标签视频数据的视频标签，来得到目标视频数据的视频标签。其中，已有标签视频数据相当于样本视频数据，是指已经被添加有视频标签的视频数据，换句话说，已有标签视频数据为已经被添加有视频标签的历史视频数据。目标视频数据则可以为任意一个需要添加视频标签的视频数据。其中，终端设备100a可以通过客户端将目标视频数据发送给服务器200，进而服务器200就可以为目标视频数据生成对应的视频标签，请参见下述：

请参见图2a，图2a是本申请提供的一种标签数据处理的场景示意图。如图2a所示，此处假设有已有标签视频数据包括已有标签视频数据1、已有标签视频数据2和已有标签视频数据3。服务器200可以通过已有标签视频数据的视频关键词来创建倒排索引库，进而通过所创建的倒排索引库来获取目标视频数据的视频标签。具体为：首先，服务器200可以获取每个已有标签视频数据的视频关键词以及目标视频数据的视频数据。其中，一个视频数据的视频关键词可以是该视频数据的视频标题信息、视频描述信息以及视频字幕信息中的关键词。视频数据的视频标题信息也就是视频数据的标题，例如，视频数据的标题可以为“xx工程师自制直升机”等。视频数据的视频描述信息可以是关于视频数据的介绍信息，例如视频数据的视频描述信息可以为“该视频拍摄于xx场地，主要描述了xx”等。视频数据的视频字幕信息即为视频数据中的字幕，视频字幕信息可以是从视频数据中提取出来的字幕信息。

此处，如区域100b所示，已有标签视频数据1的视频关键词可以包括“视频关键词1、视频关键词2和视频关键词3”。如区域101b所示，已有标签视频数据2的视频关键词可以包括“视频关键词2、视频关键词3和视频关键词5”。如区域102b所示，已有标签视频数据3的视频关键词可以包括“视频关键词3、视频关键词4和视频关键词5”。如区域106b所示，目标视频数据的视频关键词可以包括“视频关键词1、视频关键词3和视频关键词4”。

其中，若已有标签视频数据a的视频关键词包括视频关键词1，那么，可以将已有标签视频数据a描述为视频关键词1对应的已有标签视频数据。再例如，若已有标签视频数据a的视频关键词和已有标签视频数据b的视频关键词，均包括视频关键词2，那么，视频关键词2对应的已有标签视频数据就包括已有标签视频数据a和已有标签视频数据b。

接着，服务器200即可根据各个已有标签视频数据的视频关键词创建得到倒排索引库103b，其中，创建倒排索引库即是创建各个视频关键词与对应的已有标签视频数据之间的映射关系。如倒排索引库103b所示，视频关键词1与已有标签视频数据1之间具有映射关系，表明已有标签视频数据1的视频关键词中包括视频关键词1。视频关键词2与已有标签视频数据1和已有标签视频数据2均具有映射关系，表明已有标签视频数据1的视频关键词和已有标签视频数据2的视频关键词均包括视频关键词2。视频关键词3与已有标签视频数据1、已有标签视频数据2和已有标签视频数据3均具有映射关系，表明已有标签视频数据1的视频关键词、已有标签视频数据2的视频关键词和已有标签视频数据3的视频关键词均包括视频关键词3。视频关键词4与已有标签视频数据3之间具有映射关系，表明已有标签视频数据3的视频关键词中包括视频关键词4。视频关键词5与已有标签视频数据2和已有标签视频数据3均具有映射关系，表明已有标签视频数据2的视频关键词和已有标签视频数据3的视频关键词均包括视频关键词5。

创建好倒排索引库103b之后，服务器200就可以根据目标视频数据的视频关键词，在倒排索引库中检索与目标视频数据相似的已有标签视频数据，可以将检索到的与目标视频数据相似的已有标签视频数据，称之为目标视频数据的相似视频数据。其中，服务器200可以通过目标视频数据的视频关键词，对倒排索引库中的视频关键词进行文本相似检索，更具体的可以通过某种文本相似检索算法来检索，检索之后，可以得到每个已有标签视频数据与目标视频数据之间的视频相似度，可以将与目标视频数据之间的视频相似度大于或者等于相似度阈值的已有标签视频数据，作为目标视频数据的相似视频数据，该相似度阈值可以自行进行设置。其中，通过目标视频数据的视频关键词以及文本相似检索算法，在倒排索引库中检索目标视频数据的相似视频数据的具体过程可以参见下述步骤S102。

更多的，服务器200还可以通过视频分类模型获取上述目标视频数据的视频类型，可以将目标视频数据的视频类型称之为目标视频类型，因此，服务器200在倒排索引库中检索目标视频数据的相似视频数据时，还可以通过目标视频类型来检索目标视频数据的相似视频数据，换句话说，通过目标视频类型来检索目标视频数据的相似视频数据，可以使得检索到的目标视频数据的相似视频数据的视频类型也为目标视频类型。其中，上述视频分类模型的训练过程以及通过视频分类模型得到目标视频数据的目标视频类型的具体过程，可以参见下述步骤S101。

此处，如区域104b所示，假设服务器200检索到的目标视频数据的相似视频数据包括已有标签视频数据1和已有标签视频数据3。接着，服务器200可以将已有标签视频数据1的视频标签和已有标签视频数据3的视频标签，作为针对目标视频数据的候选视频标签，该候选视频标签可以简称为候选标签。如上述区域100b所示，已有标签视频数据1的视频标签包括视频标签1、视频标签2和视频标签3。如上述区域101b所示，已有标签视频数据2的视频标签包括视频标签2、视频标签5和视频标签6。如上述区域102b所示，已有标签视频数据3的视频标签包括视频标签2、视频标签3和视频标签4。因此，已有标签视频数据1的视频标签和已有标签视频数据3的视频标签包括视频标签1、视频标签2、视频标签3和视频标签4，如区域105b所示，也就是目标视频数据的候选视频标签包括视频标签1、视频标签2、视频标签3和视频标签4。

请一并参见图2b，图2b是本申请提供的一种标签数据处理的场景示意图。如图2b所示，区域100c中的视频标签1、视频标签2、视频标签3和视频标签4即为上述图2a的区域105b中所得到的目标视频数据的候选视频标签。服务器200可以获取到每个候选视频标签与目标视频数据之间的目标标签可信度，该目标标签可信度可以表征候选视频标签为目标视频数据的视频标签的可信度。具体为：

由于视频标签1为上述已有标签视频数据1的视频标签，那么视频标签1的目标标签可信度1可以为目标视频数据与已有标签视频数据1之间的视频相似度；由于视频标签2和视频标签3，同时为上述已有标签视频数据1和已有标签视频数据3的视频标签，那么视频标签2的目标标签可信度2和视频标签3的目标标签可信度3，均可以为目标视频数据与已有标签视频数据1和已有标签视频数据3的视频相似度中的最大值。举个例子，假设，目标视频数据与已有标签视频数据1之间的视频相似度为0.7，目标视频数据与已有标签视频数据3之间的视频相似度为0.9，那么，视频标签2的目标标签可信度2和视频标签3的目标标签可信度3均可以等于0.9，因此，0.7和0.9中的最大值为0.9。由于视频标签4为上述已有标签视频数据3的视频标签，那么视频标签4的目标标签可信度4可以为目标视频数据与已有标签视频数据4之间的视频相似度。通过上述过程，即可得到每个候选视频标签分别与目标视频数据之间的目标标签可信度。

服务器200还可以将每个候选视频标签以及目标视频数据的视频特征向量，输入可信度确定模型101c中。其中，可信度确定模型101c是通过已有标签视频数据的视频特征向量与已有标签视频数据的视频标签训练得到的，可信度确定模型用于得到所输入的每个候选视频标签与目标视频数据之间的模型可信度，该模型可信度也可以表征候选视频标签为目标视频数据的视频标签的可信度。一个视频数据的视频特征向量，即为表示一个视频数据的机器语言，上述已有标签视频数据的视频特征向量和目标视频数据的视频特征向量的具体获取过程，可以参见下述步骤S101。

接着，服务器200可以通过可信度确定模型101c输出每个候选视频标签与目标视频数据之间的模型可信度，如区域102c所示，包括视频标签1的模型可信度1、视频标签2的模型可信度2、视频标签3的模型可信度3和视频标签4的模型可信度4。接着，如区域103c所示，服务器200可以通过每个候选视频标签分别对应的目标标签可信度以及模型可信度，计算得到每个候选视频标签的筛选标签可信度，该筛选标签可信度表征了最终的每个候选视频标签为目标视频数据的视频标签的可信度。此处，计算出的视频标签1的筛选标签可信度为筛选标签可信度1，视频标签2的筛选标签可信度为筛选标签可信度2，视频标签3的筛选标签可信度为筛选标签可信度3，视频标签4的筛选标签可信度为筛选标签可信度4。其中，计算每个候选视频标签的筛选标签可信度的具体过程也可以参见下述步骤S104。

服务器200可以将筛选标签可信度大于或者等于筛选可信度阈值的候选视频标签，作为目标视频数据的视频标签。其中，筛选可信度阈值可以根据实际应用场景自行设置，对此不作限制。可以将最终得到的目标视频数据的视频标签称之为目标视频标签。如区域104c所示，服务器200最终得到的目标视频数据的目标视频标签就可以包括视频标签1和视频标签3。

接着，服务器200就可以将获取到的目标视频标签发送给终端设备100a，终端设备100a可以对目标视频数据和目标视频标签进行关联输出显示。

可选的，上述获取目标视频数据的目标视频标签的过程还可以是终端设备100a执行的，换句话说，终端设备100a可以自行独立得到目标视频数据的目标视频标签，进而对目标视频数据和目标视频标签进行关联输出显示。此外，获取目标视频数据的目标视频标签的过程，也可以是由终端设备100a和服务器200共同执行。获取目标视频标签的执行主体根据具体应用场景决定，对此不作限制。

通过本申请所提供的方法，可以通过已有标签视频数据的视频标签创建得到倒排索引库，进而可以通过所创建的倒排索引库来获取目标视频数据的目标视频标签，提高了针对目标视频标签的获取效率，并丰富了目标视频标签的标签类型。

请参见图3，图3是本申请提供的一种标签数据处理方法的流程示意图，该方法可以由终端设备(例如，上述图1所示的终端设备)执行，也可以由服务器(例如，上述图1所示的服务器)执行，还可以由终端设备和服务器共同协作执行。为便于理解，本实施例以该方法由上述服务器执行为例进行说明，以阐述获取目标视频数据的目标视频标签的具体过程。如图3所示，该方法可以包括：

步骤S101，获取目标视频数据，确定目标视频数据的目标视频类型；

具体的，服务器可以获取到目标视频数据，该目标视频数据可以是任意一个视频数据，该目标视频数据可以携带有视频标题信息、视频描述信息和视频字幕信息。例如，目标视频数据可以是客户端向服务器发送的，客户端可以通过向服务器发送目标视频数据，以向服务器请求生成目标视频数据的视频标签，目标视频数据可以是用户在客户端所导入的任意一个视频。其中，目标视频数据的视频标题信息指目标视频数据的视频标题，也就是视频名称。目标视频数据的视频描述信息可以是与目标视频数据相关的介绍信息等。目标视频数据的视频字幕信息可以指视频数据中的视频字幕。

首选，服务器可以先获取目标视频数据的视频类型，可以将目标视频数据的视频类型称之为目标视频类型，例如该目标视频类型可以是电视剧的类型、电影的类型、游戏的类型、动漫的类型、科技的类型、政治的类型或者生活的类型等。下面描述如何获取目标视频数据的目标视频类型：

首先，服务器可以获取到目标视频数据的视频图像信息、视频音频信息以及视频文本信息。针对目标视频数据的视频图像信息，服务器可以抽取目标视频数据的图像帧，例如，可以采用FFmpeg均匀抽帧的方法，来对目标视频数据进行抽帧，即抽取目标视频数据的图像帧。其中，FFmpeg是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序，通过使用FFmpeg将目标视频数据转化为流，即可实现对目标视频数据的快速抽帧。其中，在抽取目标视频数据的图像帧时，可以以20毫秒的间隔对目标视频数据进行抽帧，通过对目标视频数据进行抽帧，可以得到目标视频数据中的多个图像帧。其中，每个图像帧可以是通过图像中的像素值进行表示的，一个图像帧可以通过所包含的像素值表示为一个序列，也可以通过所包含的像素值表示为一个矩阵。在本申请中，多个指至少两个。可以将对目标视频数据进行抽帧所得到的多个图像帧，作为目标视频数据的视频图像信息。

针对目标视频数据的视频音频信息，服务器可以从目标视频数据中，分离出目标视频数据的音频数据。接着，服务器可以对所分离出的目标视频数据的音频数据进行音频分帧，例如，同样可以采用上述FFmpeg均匀抽帧的方法，来对目标视频数据的音频数据进行分帧。通过对目标视频数据的音频数据进行分帧，可以得到目标视频数据的多个音频帧。其中，一个音频帧可以通过所包含的能量值表示为一个序列。在抽取目标视频数据的音频帧时，也可以以20毫秒的间隔来进行抽帧。

针对目标视频数据的视频文本信息，服务器可以通过目标视频数据的视频标题信息、视频描述信息和视频字幕信息来得到。其中，视频字幕信息可以是服务器通过对目标视频数据的视频画面进行ocr(一种通过图像识别，从图像中提取出文字的方法)识别，所识别的出来的。或者，视频字幕信息也可以是服务器通过对目标视频数据的音频数据进行asr(一种通过语音识别，将语音转化为文字的方法)识别，所识别出来的。由于，目标视频数据的视频字幕信息通常会比较长，因此，可以对目标视频数据的视频字幕信息进行分词，通过分词，可以获取到该视频字幕信息中的字幕关键词。其中，可以预先设定一个关键词匹配库，该关键词匹配库中所包含的词即为关键词，该关键词匹配库中未包含的词即不为关键词。因此，对字幕关键词进行分词后，可以将分词后所得到的多个词与关键词匹配库中的词进行匹配，保留下该多个词中关键词匹配库存在的词，作为目标视频数据的字幕关键词，丢掉该多个词中关键词匹配库不存在的词。通常，目标视频数据的视频标题信息和视频描述信息比较短，因此，可以直接将目标视频数据的视频标题信息、视频描述信息以及字幕关键词进行拼接，得到目标视频数据的视频文本信息。

可选的，若是目标视频数据的视频描述信息也比较长，则也可以对目标视频数据的视频描述信息进行分词，得到视频描述信息中的关键词，进而服务器可以将目标视频数据的视频标题信息、视频描述信息中的关键词和字幕关键词进行拼接，得到目标视频数据的视频文本信息。

在得到目标视频数据的视频图像信息、视频音频信息以及视频文本信息之后，进一步的，服务器还可以构建目标视频数据的视频音频信息中的每个音频帧的梅尔频谱图特征。由于梅尔频谱图特征能够抽取得到音频帧的频谱图的轮廓信息，因此，通过梅尔频谱图特征来表示音频帧，可以更能体现出音频帧的能量变化特征。服务器可以将上述视频图像信息、视频音频信息中的每个音频帧的梅尔频谱图特征以及视频文本信息，输入到视频分类模型中。

其中，视频分类模型为通过已有标签视频数据的视频音频信息、视频文本信息、视频音频信息、以及视频类型训练得到。其中，已有标签视频数据即为已经被添加有对应的视频标签的历史视频数据。通过使用大量的已有标签视频数据的视频音频信息、视频文本信息、视频音频信息、以及视频类型来训练得到视频分类模型，使得视频分类模型可以学习到哪种视频音频信息、视频文本信息和视频音频信息对应于哪种视频类型。因此，通过向视频分类模型输入目标视频数据的视频音频信息、视频文本信息和视频音频信息，视频分类模型可以对应输出目标视频数据的视频类型。其中，可以将目标视频数据的视频类型称之为目标视频类型。

其中，视频分类模型得到目标视频数据的目标视频类型的具体过程为：

视频分类模型可以生成服务器所输入的每个图像帧(表示为一个序列或者矩阵)的图像特征向量，该图像特征向量即为视频分类模型学习到的每个图像帧所包含的特征，一个图像帧对应于一个图像特征向量。视频分类模型还可以生成服务器所输入的每个音频帧的梅尔频谱图特征对应的音频特征向量，该音频特征向量即为视频分类模型学习到的每个音频帧的梅尔频谱图特征所包含的特征，一个音频帧对应于一个音频特征向量。视频分类模型还可以生成服务器所输入的视频文本信息的文本特征向量，该文本特征向量即为视频分类模型学习到的视频文本信息所包含的特征。

接着，视频分类模型可以对所有图像特征向量进行特征向量融合，例如，视频分类模型可以通过NetVLAD网络来对每个图像特征向量进行特征向量融合，其中，NetVLAD网络为一种特征提取网络，可以实现对特征的降维，例如，将多个特征向量融合为一个特征向量，以实现对特征的降维。因此，视频分类模型可以通过NetVLAD网络，将每个图像帧分别对应的图像特征向量，融合为一个特征向量，可以将融合每个图像特征向量所得到的特征向量称之为图像融合特征向量。

视频分类模型还可以对所有音频特征向量进行特征向量融合，例如，视频分类模型同样可以通过NetVLAD网络，来对每个音频特征向量进行特征向量融合。因此，视频分类模型可以通过NetVLAD网络，将每个音频帧分别对应的音频特征向量，融合为一个特征向量，可以将融合每个音频特征向量所得到的特征向量称之为音频融合特征向量。

视频分类模型可以将上述图像融合特征向量、音频融合特征向量以及文本特征向量进行向量拼接，得到目标视频数据的视频特征向量。其中，目标视频数据的视频特征向量为一个多模态的特征向量，它同时融合了目标视频数据的视频文本信息的文本特征、视频音频信息的音频特征以及视频图像信息的图像特征，因此，通过视频分类模型所得到的目标视频数据的视频特征向量，可以较为全面且准确地表示目标视频数据的视频特征。换句话说，目标视频数据的视频特征向量，为视频分类模型最终学习到的目标视频数据的特征。

其中，由于视频分类模型已经通过已有标签视频数据的视频文本信息、视频音频信息以及视频图像信息，采用与上述相同的过程学习到了已有标签视频数据的特征，也就是学习到了已有标签视频数据的视频特征向量，并且，也学习到了各个已有标签视频数据的视频特征向量应该对应于哪种视频类型。因此，视频分类模型可以通过一个全连接层，输出上述所学习到的目标视频数据的视频特征向量所对应的视频类型，即输出目标视频类型。

通过上述过程，即完成了对目标视频数据的视频类型的识别，获取到了目标视频数据的目标视频类型。

请参见图4，图4是本申请提供的一种视频类型识别方法的流程示意图。图4中的网络结构为视频分类模型的网络结构。S201：首先，服务器可以将目标视频数据的视频帧序列输入视频分类模型，该视频帧序列也就是上述目标视频数据的多个图像帧分别对应的像素序列。S202：视频分类模型可以构建视频帧表示，其中，构建视频帧表示也就是得到每个图像帧分别对应的图像特征向量，该图像特征向量即为图像帧的一种向量表示。其中，视频分类模型可以通过inception-resnet2网络(一种用于进行特征提取的卷积网络)来得到每个图像帧的图像特征向量。S203：服务器可以对所得到的多个图像特征向量进行多帧特征融合，也就是将多个图像特征向量进行融合，得到一个图像融合特征向量。

接着，S204：服务器可以将目标视频数据的音频帧序列输入视频分类模型，该音频帧序列也就是上述目标视频数据的多个音频帧分别对应的能量值序列。S205：视频分类模型可以构建音频帧表示，其中，构建音频帧表示也就是得到每个音频帧分别对应的音频特征向量，该音频特征向量即为音频帧的一种向量表示。其中，视频分类模型可以通过Vggish网络(一种音频特征提取网络)来得到每个音频帧的音频特征向量。S206：服务器可以对所得到的多个音频特征向量进行多帧特征融合，也就是将多个音频特征向量进行融合，得到一个音频融合特征向量。

接着，S207：服务器可以通过目标视频数据的视频标题信息、视频描述信息和字幕关键词，得到目标视频数据的视频文本信息。S208：服务器可以将目标视频数据的视频文本信息输入到视频分类模型，视频分类模型可以通过自注意力机制网络(一种自然语言处理网络)，来构建目标视频数据的视频文本信息的文本表示。S209：视频分类模型通过构建目标视频数据的视频文本信息的文本表示，即可得到该视频文本信息对应的文本特征向量。该文本特征向量即为视频分类模型所得到的文本特征。

接着，S210：视频分类模型可以对上述获取到的图像融合特征向量、音频融合特征向量以及文本特征向量进行向量拼接，得到目标视频数据的视频特征向量。其中，目标视频数据的视频特征向量也就是目标视频数据的视频多模态特征融合表示。S211：视频分类模型可以将目标视频数据的视频特征向量给到全连接层网络，通过该全连接层网络对目标视频数据的视频特征向量进行识别，即可得到目标视频数据的视频类型。S212：视频分类模型可以输出所得到的目标视频数据的视频类型，即输出目标视频类型。

步骤S102，获取目标视频数据的目标视频关键词，根据目标视频类型和目标视频关键词，在倒排索引库中获取目标视频数据的相似视频数据；倒排索引库中，包括至少两个已有标签视频数据的已有视频关键词与至少两个已有标签视频数据之间的映射关系；相似视频数据为具有目标视频类型的已有标签视频数据；与相似视频数据具有映射关系的已有视频关键词，属于目标视频关键词；

具体的，在获取到了目标视频数据的目标视频类型之后，服务器还可以获取到目标视频数据的视频关键词，可以将目标视频数据的视频关键词称之为目标视频关键词。服务器可以对目标视频数据的视频字幕信息、视频描述信息以及视频标题信息进行分词，通过上述关键词匹配库对分词后所得到的多个词进行匹配，可以得到目标视频数据的视频标题信息中的关键词、视频描述信息中的关键词以及视频字幕信息中的关键词。其中，可以将视频标题信息中的关键词称之为标题关键词，可以将视频描述信息中的关键词称之为描述关键词，可以将视频字幕信息中的关键词称之为字幕关键词。可以将目标视频数据的标题关键词、描述关键词以及字幕关键词，作为目标视频数据的目标视频关键词。

接着，服务器可以通过目标视频数据的目标视频关键词以及目标视频类型，在倒排索引库中检索与目标视频数据的相似视频数据，该相似视频数据为具有目标视频类型的已有标签视频数据，并且与该相似视频数据具有映射关系的视频关键词属于目标视频关键词，具体请参见下述：

上述倒排索引库是通过已有标签视频数据的视频关键词所创建的，可以将已有标签视频数据的视频关键词称之为已有视频关键词，获取已有标签视频数据的已有视频关键词的方法与上述获取目标视频数据的目标视频关键词的方法相同。服务器可以获取每个已有标签视频数据的已有视频关键词，将每个已有标签视频数据的已有视频关键词添加到关键词库，将每个已有标签视频数据的已有视频关键词添加到关键词库中时，可以采用去重添加，即关键词库中没有相互重复的关键词。

其中，若已有标签视频数据a的已有视频关键词包括已有视频关键词1，那么，可以将已有标签视频数据a描述为已有视频关键词1对应的已有标签视频数据。再例如，若已有标签视频数据a的已有视频关键词和已有标签视频数据b的已有视频关键词，均包括已有视频关键词2，那么，已有视频关键词2对应的已有标签视频数据就包括已有标签视频数据a和已有标签视频数据b。

服务器可以建立关键词库中的每个已有视频关键词与对应的已有标签视频数据之间的映射关系，一个已有视频关键词与至少一个已有标签视频数据具备映射关系。举个例子，若已有标签视频数据1的已有视频关键词与已有标签视频数据2的已有视频关键词均包括已有视频关键词1，那么已有视频关键词1就与已有标签视频数据1以及已有标签视频数据2具有映射关系。服务器可以根据每个已有视频关键词与所对应的已有标签视频数据之间的映射关系，生成上述倒排索引库。换句话说，倒排索引库中包括每个已有视频关键词与对应的已有标签视频数据之间的映射关系。其中，可以使用视频标识来表示对应的已有标签视频数据，一个已有标签视频数据对应于一个视频标识，例如视频标识a为已有标签视频数据1的视频标识，那么，已有视频关键词与已有标签视频数据1之间的映射关系，就可以表示为已有视频关键词与视频标识a之间的映射关系。

更多的，服务器还可以通过ElasticSearch(一种倒排索引工具)来构建上述倒排索引库。其中，ElasticSearch具有实时搜索、稳定、可靠、快速和安装使用方便的优点，通过ElasticSearch来创建倒排索引库，可以保证在通过目标视频数据的目标视频关键词，在倒排索引库中的检索相似视频数据的实时性、稳定性、可靠性和快速性。

其中，上述倒排索引库中的每个已有标签视频数据还携带有视频类型标签，该视频类型标签表征了已有标签视频数据的视频类型，该视频类型标签可以包括指向目标视频数据的目标视频类型的目标视频类型标签。换句话说，携带有目标视频类型标签的已有标签视频数据的视频类型为目标视频类型。

服务器可以通过目标视频数据的目标视频关键词，在倒排索引库中检索携带有上述目标视频类型标签，并且与目标视频关键词具有映射关系的已有标签视频数据，作为候选视频数据。

服务器还可以获取该候选视频数据与目标视频数据之间的视频相似度，并将与目标视频数据之间的视频相似度大于或者等于相似度阈值的候选视频数据，作为目标视频数据的相似视频数据。其中，该相似度阈值可以根据实际应用场景自行进行设置，对此不作限制。举个例子，假设相似度阈值为0.8，那么，可以将与目标视频数据之间的视频相似度大于或者等于0.8的候选视频数据，作为目标视频数据的相似视频数据。

其中，服务器获取候选视频数据与目标视频数据之间的视频相似度的过程，可以为：

目标视频数据的目标视频关键词通常有多个，服务器可以获取每个目标视频关键词分别与候选视频数据之间的关键词相关度。服务器还可以获取每个目标视频关键词分别对应的关键词权重，接着，服务器可以通过每个目标视频关键词分别对应的关键词权重，对每个目标视频关键词分别与候选视频数据之间的关键词相关度进行加权求和，得到候选视频数据与目标视频数据之间的视频相似度。服务器可以通过bm2.5算法(一种文本相似检索算法)来获取候选视频数据与目标视频数据之间的视频相似度，具体算法请参见下述。

其中，服务器获取可以通过已有标签视频数据的视频数量、以及目标视频关键词所属的已有标签视频数据的和视频数量，得到目标视频关键词对应的关键词权重。一个目标视频关键词对应于一个关键词权重。如公式(1)所示：

其中，q_i表示目标视频关键词，i为小于或者等于目标视频关键词的关键词总数量的正整数，i取不同的值，q_i就为不同的目标视频关键词。w(q_i)表示目标视频关键词q_i的关键词权重，N表示倒排索引库中的已有标签视频数据的视频总数量，n(q_i)表示倒排索引库中与目标视频关键词q_i具有映射关系的已有标签视频数据的视频数量。

由上述公式(1)可知，与目标视频关键词q_i具有映射关系的已有标签视频数据越多，目标视频关键词q_i的关键词权重越低。这是由于若太多已有标签视频数据与目标视频关键词q_i具有映射关系，表明目标视频关键词q_i为一个比较普遍和寻常的词，若比较少的已有标签视频数据与目标视频关键词q_i具有映射关系，表明目标视频关键词q_i为一个比较特别的词，表明目标视频关键词q_i更能表征目标视频数据的特征。

通过上述公式(1)，即可得到目标视频数据的每个目标视频关键词分别对应的关键词权重。

其中，若目标视频数据的目标视频关键词包括目标视频关键词q_i，则目标视频服务器还可以通过目标视频关键词q_i在所有目标视频关键词中的出现频率、目标视频关键词q_i在候选视频数据的已有视频关键词中的出现频率、候选视频数据的已有视频关键词的关键词数量、以及所有已有标签视频数据的已有视频关键词的平均关键词数量，得到目标视频关键词q_i与候选视频数据之间的关键词相关度。一个候选视频数据与每个目标视频关键词之间均对应有一个关键词相关度。如下述公式(2)所示：

其中，q_i表示目标视频关键词，i为小于或者等于目标视频关键词的关键词总数量的正整数，i取不同的值，q_i就为不同的目标视频关键词。d_j表示候选视频数据，j为小于或者等于候选视频数据的视频总数量的正整数，j取不同的值，就为d_j不同的候选视频数据。R(q_i,d_j)表示目标视频关键词q_i与候选视频数据d_j之间的关键词相关度。f_i表示目标视频关键词q_i在候选视频数据d_j的已有视频关键词中的出现频率，qf_i表示目标视频关键词q_i在所有目标视频关键词中的出现频率。dl表示候选视频数据d_j的已有视频关键词的关键词数量，avgdl表示所有已有标签视频数据的已有视频关键词的平均关键词数量。例如，存在已有标签视频数据1和已有标签视频数据2，已有标签视频数据1有5和已有视频关键词，已有标签视频数据2有7个已有视频关键词，那么，avgdl就等于(5+7)/2，也就是6。上述参数k₁、k₂和b为调节因子，均为固定的常数，用于调节目标视频关键词q_i与候选视频数据d_j之间的关键词相关度。

服务器在得到上述目标视频关键词与候选视频数据之间的关键词相关度、以及各个目标视频关键词的关键词权重之后，就可以计算出每个候选视频数据与目标视频数据之间的视频相似度。请参见下述公式(3)：

其中，n为目标视频关键词的总数量，Q表示目标视频数据，score(Q,d_j)表示目标视频数据Q与候选视频数据d_j之间的视频相似度。w(q_i)表示目标视频关键词q_i的关键词权重，R(q_i,d_j)表示目标视频关键词q_i与候选视频数据d_j之间的关键词相关度。

通过公式(3)，即可计算得到每个候选视频数据分别与目标视频数据之间的视频相似度。可以将与目标视频数据之间的视频相似度大于或者等于相似度阈值的候选视频数据，作为目标视频数据的相似视频数据。

步骤S103，将相似视频数据的第一视频标签，添加到候选标签集合；

具体的，相似视频数据也是已有标签视频数据，可以将相似视频数据的视频标签称之为第一视频标签，服务器可以将相似视频数据的第一视频标签，添加到候选标签集合中。

步骤S104，从候选标签集合中，确定目标视频数据的目标视频标签；

具体的，服务器可以从候选标签集合中，获取目标视频数据的目标视频标签。其中，候选标签集合中还可以包括第二视频标签，下面描述第二视频标签的获取方式：

获取第二视频标签的第1种方式，服务器可以获取到目标视频数据的视频特征向量，还可以获取到每个已有标签视频数据的视频特征向量。其中，服务器获取目标视频数据的视频特征向量的过程以及获取每个已有标签视频数据的视频特征向量的过程，与上述步骤S101中通过视频分类模型获取目标视频数据的视频特征向量和已有标签视频数据的视频特征向量的过程相同，此处不再进行赘述。换句话说，可以采用与上述步骤S101中相同的过程，通过视频数据的视频图像信息、视频音频信息以及视频文本信息，得到视频数据的视频特征向量。

其中，在获取到目标视频数据的视频特征向量以及每个已有标签视频数据的视频特征向量之后，服务器还可以获取到每个已有标签视频数据的视频特征向量分别与目标视频数据的视频特征向量之间的向量距离，一个已有标签视频数据对应于一个向量距离。服务器可以将每个已有标签视频数据分别对应的向量距离的倒数，作为每个已有标签视频数据的视频标签分别与目标视频数据之间的标签可信度，该标签可信度可以表征已有标签视频数据的视频标签为目标视频数据的视频标签的可信度。可选的，还可以设置一个相似度调节参数，可以将每个已有标签视频数据分别对应的向量距离的倒数与该相似度调节参数之间的乘积，作为每个已有标签视频数据的视频标签与目标视频数据之间的标签可信度。其中，向量距离越大，对应的标签可信度也就越小。可以将标签可信度大于或者等于第一标签可信度阈值，并且所属的已有标签视频数据的视频类型为目标视频类型的视频标签，作为上述第二视频标签。其中，第一标签可信度阈值可以根据实际应用场景进行设置，对此不作限制。

或者，也可以换种说法，可以将每个已有标签视频数据分别对应的向量距离的倒数，或者，将每个已有标签视频数据分别对应的向量距离的倒数与相似度调节参数之间的乘积，作为每个已有标签视频数据与目标视频数据之间的视频相似度，可以将该视频相似度大于或者等于上述第一标签可信度阈值，并且视频类型为上述目标视频类型的已有标签视频数据的视频标签，作为上述第二视频标签。此种情况，可以将第一标签可信度阈值理解为视频相似度阈值。

其中，在检索与目标视频数据的视频特征向量之间的向量距离更小的已有标签视频数据的视频特征向量时，服务器可以先生成每个已有标签视频数据的视频特征向量，并通过ElasticFaiss(一种快速检索方法)构建每个已有标签视频数据的视频特征向量的相似检索索引。通过构建每个已有标签视频数据的视频特征向量的相似检索索引，后续可以通过目标视频数据的视频特征向量，在每个已有标签视频数据的视频特征向量的相似检索索引中，快速检索到与目标视频数据的视频特征向量之间的向量距离，更小的已有标签视频数据的视频特征向量的相似检索索引。换句话说，通过构建每个已有标签视频数据的视频特征向量的相似检索索引，可以提高通过向量距离来获取上述第二视频标签的获取效率。

获取第二视频标签的第2种方式，服务器可以将目标视频数据的视频特征向量以及目标视频类型，输入标签生成模型。其中，标签生成模型是通过大量已有标签视频数据的视频特征向量、该已有标签视频数据的视频标签以及该已有标签视频数据的视频类型训练得到。或者，也可以将目标视频数据的视频图像信息、视频文本信息和视频音频信息以及目标视频类型，输入标签生成模型，通过标签生成模型来生成目标视频数据的视频特征向量。通过已有标签视频数据的视频特征向量、视频标签以及视频类型训练得到的标签生成模型，可以学习到哪种视频特征向量对应有哪些视频标签，以及哪种视频类型的视频数据对应有哪些视频标签。标签生成模型可以根据获取到的目标视频数据的视频特征向量以及目标视频类型，生成目标视频数据的多个视频标签。可以将标签生成模型生成的目标视频数据的视频标签，称之为视频生成标签。并且，标签生成模型在生成视频生成标签时，还可以得到针对每个视频生成标签的生成概率。可以将每个视频生成标签对应的生成概率，作为每个视频生成标签与目标视频数据之间的标签可信度。服务器可以将该标签可信度大于或者等于第二标签可信度阈值的视频生成标签，作为上述第二视频标签。其中，第二标签可信度阈值可以根据实际应用场景进行设置，对此不作限制。

可选的，通过上述两种方式分别获取到的第二视频标签，可以同时存在于标签候选集合中，或者，候选标签集合中也可以只存在通过其中一种方式获取到的第二视频标签，具体根据实际应用场景决定，对此不做限制。

请参见图5，图5是本申请提供的一种视频标签获取方法的流程示意图。图5中的网络结构为标签生成模型的网络结构。S301：首先，服务器可以将目标视频数据的视频帧序列输入标签生成模型，该视频帧序列也就是上述目标视频数据的多个图像帧分别对应的像素序列。S302：标签生成模型可以构建视频帧表示，其中，构建视频帧表示也就是得到每个图像帧分别对应的图像特征向量，该图像特征向量即为图像帧的一种向量表示。其中，标签生成模型可以通过inception-resnet2网络(一种用于进行特征提取的卷积网络)来得到每个图像帧的图像特征向量。S303：服务器可以对所得到的多个图像特征向量进行多帧特征融合，也就是将多个图像特征向量进行融合，得到一个图像融合特征向量。

接着，S304：服务器可以将目标视频数据的音频帧序列输入标签生成模型，该音频帧序列也就是上述目标视频数据的多个音频帧分别对应的能量值序列。S305：标签生成模型可以构建音频帧表示，其中，构建音频帧表示也就是得到每个音频帧分别对应的音频特征向量，该音频特征向量即为音频帧的一种向量表示。其中，标签生成模型可以通过Vggish网络(一种音频特征提取网络)来得到每个音频帧的音频特征向量。S306：服务器可以对所得到的多个音频特征向量进行多帧特征融合，也就是将多个音频特征向量进行融合，得到一个音频融合特征向量。

接着，S307：服务器可以通过目标视频数据的视频标题信息、视频描述信息和字幕关键词，得到目标视频数据的视频文本信息。S308：服务器可以将目标视频数据的视频文本信息输入到标签生成模型，标签生成模型可以通过Transformer Encoder网络(一种深度学习网络)，来构建目标视频数据的视频文本信息的文本表示。S309：标签生成模型通过构建目标视频数据的视频文本信息的文本表示，即可得到该视频文本信息对应的文本特征向量。该文本特征向量即为标签生成模型所得到的文本特征。

接着，S310：标签生成模型可以将上述所得到的目标视频数据的音频融合特征向量、图像融合特征向量和文本特征向量输入特征提取器，该特征提取器也可以是由上述Transformer Encoder网络所构成的。此外，服务器还可以将目标视频数据的目标视频类型输入特征提取器，通过特征提取器可以提取得到目标视频数据的视频特征向量，进而视频分类模型就可以通过所得到的目标视频数据的视频特征向量以及目标视频类型，输出为目标视频数据所生成的多个模型生成标签，该多个模型生成标签具体包括此处的标签1、标签2、……和标签n。视频分类模型还会输出所生成的每个模型生成标签的生成概率。服务器可以将每个视频生成标签对应的生成概率，作为每个视频生成标签与目标视频数据之间的标签可信度。服务器可以将该标签可信度大于或者等于第二标签可信度阈值的视频生成标签，作为上述第二视频标签。

其中，上述候选标签集合中还可以包括第三视频标签。第三视频标签的获取过程可以为：服务器可以获取到第一视频标签的关联标签，可以将第一视频标签的关联标签称之为第一关联标签。其中，第一关联标签，是通过第一视频标签与第一候选视频数据的视频标签在所有已有标签视频数据的视频标签中的共现次数所决定的。其中，第一候选视频数据为所属的视频标签中包含第一视频标签的已有标签视频数据。服务器还可以获取到第二视频标签的关联标签，可以将第二视频标签的关联标签称之为第二关联标签。其中，第二关联标签，是通过第二视频标签与第二候选视频数据的视频标签在所有已有标签视频数据的视频标签中的共现次数所决定的。其中，第二候选视频数据为所属的视频标签中包含第二视频标签的已有标签视频数据。可以将上述第一关联标签和第二关联标签均作为上述第三视频标签。

其中，在获取第三视频标签时，均是在视频类型为目标视频类型的已有标签视频数据的视频标签中获取。因此，上述第一候选视频数据和第二候选视频数据的视频类型均为目标视频类型。上述第一视频标签与第一候选视频数据的视频标签在所有已有标签视频数据的视频标签中的共现次数，是指第一视频标签与第一候选视频数据的视频标签，在所有视频类型为目标视频类型的已有标签视频数据的视频标签中的共现次数。上述第二视频标签与第二候选视频数据的视频标签在所有已有标签视频数据的视频标签中的共现次数，同样是指第二视频标签与第二候选视频数据的视频标签，在所有视频类型为目标视频类型的已有标签视频数据的视频标签中的共现次数。

具体的，服务器可以统计得到第一视频标签与第一候选视频数据的视频标签在所有已有标签视频数据中的共现次数。举个例子，若第一视频标签包括视频标签b1，存在2个第一候选视频数据，一个第一候选视频数据的视频标签中包括视频标签b1、视频标签b2和视频标签b3，另一个第一候选视频数据的视频标签中包括视频标签b1和视频标签b2。那么，视频标签b1与视频标签b2的共现次数就为2，视频标签b1与视频标签b3的共现次数就为1。

接着，服务器可以通过第一视频标签与第一候选视频数据的视频标签在所有已有标签视频数据中的共现次数，计算得到第一视频标签与第一候选视频数据的视频标签之间的标签关联概率。接着上段所举的例子，若除了上述2个第一候选视频数据之外，还另外存在3个视频类型为目标视频类型的已有标签视频数据，该3个已有标签视频数据的视频标签中不包括上述视频标签b1。

那么，视频标签b1与视频标签b2之间的共现概率，就为视频标签b1与视频标签b2之间的共现次数除以所有已有标签视频数据(包括上述2个候选视频数据和此处的3个另外的已有标签视频数据)的视频数量的值，即2/5。视频标签b1在所有目标视频类型的已有标签视频数据的视频标签中的出现概率，就为视频标签b1出现的次数除以所有目标视频类型的已有标签视频数据的数量的值，即2/5。视频标签b1与视频标签b2之间的标签关联概率，为视频标签b1与视频标签b2之间的共现概率2/5除以视频标签b1的出现概率2/5，为1。

同理，视频标签b1与视频标签b3之间的共现概率，就为视频标签b1与视频标签b3之间的共现次数除以所有已有标签视频数据(包括上述2个候选视频数据和此处的3个另外的已有标签视频数据)的视频数量的值，即1/5。视频标签b1在所有目标视频类型的已有标签视频数据的视频标签中的出现概率，就为视频标签b1出现的次数除以所有目标视频类型的已有标签视频数据的数量的值，即2/5。视频标签b1与视频标签b3之间的标签关联概率，为视频标签b1与视频标签b3之间的共现概率1/5除以视频标签b1的出现概率2/5，为1/2。

通过上述过程，服务器就可以获取到第一候选视频数据的每个视频标签分别与第一视频标签之间的标签关联概率。服务器可以将第一候选视频数据的视频标签中，与第一视频标签之间的标签关联概率大于或者等于关联概率阈值的视频标签，作为第一视频标签的第一关联标签。同理，服务器可以通过与获取第一视频标签的第一关联标签相同的方式，获取到第二视频标签的第二关联标签。通过上述方式，即可根据视频标签与视频标签之间的标签关联度，进而获取到已经获取到的第一视频标签的第一关联标签，以及第二视频标签的第二关联标签。可以将第一关联标签和第二关联标签统称为第三视频标签。其中，上述关联概率阈值也可以根据实际应用场景进行设置。

请参见图6，图6是本申请提供的一种标签关联概率的表格示意图。如图6所示，假设目标视频数据的目标视频类型为“电影”的视频类型，假设，图6的表中的原标签为上述第一视频标签，关联标签为第一候选视频数据的视频标签。并且，计算出的标签b1与标签b2之间的标签关联概率为0.937，标签b3与标签b4之间的标签关联概率为0.856，标签b5与标签b6之间的标签关联概率为0.717。假设关联概率阈值为0.8，由于标签b1与标签b2之间的标签关联概率0.937、以及标签b3与标签b4之间的标签关联概率0.856均大于0.8，则可以将标签b2和标签b4作为上述第一关联标签。

由上可知，候选标签集合中可以包括上述第一视频标签、第二视频标签和第三视频标签。可以将候选标签集合中的第一视频标签、第二视频标签和第三视频标签统称为目标视频数据的候选标签。服务器可以获取到候选标签集合中的每个候选标签与目标视频数据之间的目标标签可信度，进而服务器可以通过每个候选标签与目标视频数据之间的目标标签可信度，从候选标签集合中，获取目标视频数据的目标视频标签。

具体的，假设候选标签集合中包括候选标签b_l，l为小于或等于候选标签集合中候选标签的标签总数量的正整数。若候选标签b_l属于第一视频标签，而不属于第二视频标签，则候选标签b_l与目标视频数据之间的目标标签可信度，可以为候选标签b_l所属的相似视频数据与目标视频数据之间的视频相似度。若是第一视频标签中存在多于一个的候选标签b_l(即第一视频标签中的有重复的视频标签)，则可以将候选标签b_l所属的多个相似视频数据分别对应的视频相似度中的最大值，作为候选标签b_l的目标标签可信度。或者，也可以将候选标签b_l所属的多个相似视频数据分别对应的视频相似度的平均值，作为候选标签b_l的目标标签可信度。

若候选标签b_l属于第二视频标签，而不属于第一视频标签，那么候选标签b_l与目标视频数据之间的目标标签可信度，就可以为上述所获取到的候选标签b_l与目标视频数据之间的标签可信度。若是第二视频标签(此处可以指通过上述向量距离来获取到的第二视频标签，因为通过标签生成模型所得到的第二视频标签通常没有重复的)包括不止一个候选标签b_l，则候选标签b_l的目标标签可信度，就可以为候选标签b_l与目标视频数据之间的多个标签可信度中的最大值，或者，也可以为候选标签b_l与目标视频数据之间的多个标签可信度的平均值。

若候选标签b_l既属于第一视频标签，也属于第二视频标签，则服务器可以获取第一视频标签对应的第一标签配置权重，并获取第二视频标签对应的第二标签配置权重。其中，若第二视频标签同时存在通过上述2种方式(一种方式为通过视频特征向量之间的向量距离来获取第二视频标签，一种方式为通过标签生成模型来获取第二视频标签)所获取到的视频标签，那么，第二标签配置权重也可以有2个，一种方式对应一个。其中，上述第一标签配置权重和第二标签配置权重可以自行设置为一个合理的值，例如，将第一标签配置权重设置为0.35，将第二标签配置权重设置为0.35或者0.3等。

服务器可以通过第一标签配置权重对候选标签b_l所属的相似视频数据与目标视频数据之间的视频相似度进行加权，得到一个加权值，服务器还可以通过第二标签配置权重对候选标签b_l与目标视频数据之间的标签可信度进行加权，得到另一个加权值。进而服务器可以将该两个加权值进行求和，即可得到候选标签b_l与目标视频数据之间的目标标签可信度。若候选标签b_l既属于上述第一视频标签，并且同时属于通过上述两种方式得到的第二视频标签，那么，候选标签b_l与目标视频数据之间的目标标签可信度，为第一标签配置权重对候选标签b_l所属的相似视频数据与目标视频数据之间的视频相似度进行加权得到的加权值、一个第二标签配置权重对通过第1种方式所获取到的候选标签b_l的标签可信度进行加权得到的加权值、以及另一个第二标签配置权重对通过第2种方式所获取到的候选标签b_l的标签可信度进行加权得到的加权值之和。

此外，假设候选标签集合中还包括候选标签b_j，j为小于或等于候选标签集合中候选标签的标签总数量的正整数。若候选标签b_j为上述候选标签b_l的第一关联标签，则服务器可以将候选标签b_j与候选标签b_l之间的标签关联度、和候选标签b_l所属的相似视频数据与目标视频数据之间的视频相似度之间的乘积，作为候选标签b_j与目标视频数据之间的目标标签可信度。若候选标签b_j为上述候选标签b_l的第二关联标签，则服务器可以将候选标签b_j与候选标签b_l之间的标签关联度、以及候选标签b_l与目标视频数据之间的标签可信度(即候选标签b_l对应的生成概率)的乘积，作为候选标签b_j与目标视频数据之间的目标标签可信度。其中，候选标签b_j与候选标签b_l之间的标签关联度，就为候选标签b_j与候选标签b_l之间的标签关联概率。此种情况下，需要候选标签集合中只存在一个候选标签b_j。若是候选标签集合中存在多个候选标签b_j，则计算第一关联标签的目标标签可信度或计算第二关联标签的目标标签可信度的过程，可以参见下述图8中的描述。

通过上述过程，即可得到候选标签集合中的每个候选标签的目标标签可信度。接着，服务器还可以获取到每个候选标签的模型可信度，服务器可以通过每个候选标签分别对应的目标标签可信度和模型可信度，得到每个候选标签最终对应的筛选标签可信度，进而服务器通过每个候选标签的筛选标签可信度，即可从候选标签集合中，获取目标视频数据的目标视频标签。

具体为，服务器可以将候选标签集合中的每个候选标签和目标视频数据的视频特征向量，输入可信度确定模型。其中，可信度确定模型是通过大量已有标签视频数据的视频特征向量和该已有标签视频数据的视频标签训练得到。通过已有标签视频数据的视频特征向量和该已有标签视频数据的视频标签训练得到的可信度确定模型，可以学习到哪种视频特征向量与哪种视频标签越相关，视频特征向量与哪种视频标签越相关，那么可信度确定模型得到的该视频特征向量与对应的视频标签之间的模型可信度也就越高。其中，可信度确定模型也可以自行得到视频数据的视频特征向量，因此，服务器也可以将目标视频数据的视频图像信息、视频音频信息和视频文本信息输入可信度确定模型，由可信度确定模型根据目标视频数据的视频图像信息、视频音频信息和视频文本信息，来得到目标视频数据的视频特征向量。接着，可信度确定模型可以根据获取到的目标视频数据的视频特征向量，对应输出目标视频数据分别与每个候选标签之间的模型可信度。

服务器可以获取到针对目标标签可信度的第二可信度配置权重，并获取到针对模型可信度的第一可信度配置权重。其中，第一可信度配置权重和第二可信度配置权重可以是自行设定的在合理范围内的参数，例如第一可信配置权重可以是0.7，第二可信度配置权重可以是0.3。服务器可以通过第一可信度配置权重对每个候选标签的模型可信度进行加权，得到每个候选标签分别对应的加权值，还可以通过第二可信度配置权重对每个候选标签的目标标签可信度进行加权，得到每个候选标签分别对应的另一个加权值。服务器可以将每个候选标签分别对应的该两个加权值进行求和，即可每个候选标签分别对应的筛选标签可信度。举个例子，若候选标签b的目标标签可信度为x1、模型可信度为x2，并且，第一可信度配置权重为y1，第二可信度配置权重为y2，那么，候选标签b的筛选标签可信度就为x1*y2+x2*y1。

通过上述过程，服务器即可得到每个候选标签的筛选标签可信度，服务器可以将候选标签集合中筛选标签可信度大于或者等于筛选可信度阈值的候选标签，作为目标视频数据的目标视频标签。其中，筛选可信度阈值可以根据实际应用场景进行设置，对此不作限制。此处，服务器获取到的目标视频标签，即为最终为目标视频数据生成的视频标签。

服务器还可以将上述所得到的目标视频标签发送给客户端，使得客户端可以对目标视频数据和目标视频标签进行关联输出显示，以呈现给用户查看。

请参见图7，图7是本申请提供的一种模型可信度确定方法的流程示意图。图7中的网络结构为可信度确定模型的网络结构。S401：首先，服务器可以将目标视频数据的视频帧序列输入可信度确定模型，该视频帧序列也就是上述目标视频数据的多个图像帧分别对应的像素序列。S402：可信度确定模型可以构建视频帧表示，其中，构建视频帧表示也就是得到每个图像帧分别对应的图像特征向量，该图像特征向量即为图像帧的一种向量表示。其中，可信度确定模型可以通过inception-resnet2网络(一种用于进行特征提取的卷积网络)来得到每个图像帧的图像特征向量。S403：服务器可以对所得到的多个图像特征向量进行多帧特征融合，也就是将多个图像特征向量进行融合，得到一个图像融合特征向量。

接着，S404：服务器可以将目标视频数据的音频帧序列输入可信度确定模型，该音频帧序列也就是上述目标视频数据的多个音频帧分别对应的能量值序列。S405：可信度确定模型可以构建音频帧表示，其中，构建音频帧表示也就是得到每个音频帧分别对应的音频特征向量，该音频特征向量即为音频帧的一种向量表示。其中，可信度确定模型可以通过Vggish网络(一种音频特征提取网络)来得到每个音频帧的音频特征向量。S406：服务器可以对所得到的多个音频特征向量进行多帧特征融合，也就是将多个音频特征向量进行融合，得到一个音频融合特征向量。

接着，S407：服务器可以通过目标视频数据的视频标题信息、视频描述信息和字幕关键词，得到目标视频数据的视频文本信息。S408：服务器可以将目标视频数据的视频文本信息输入到可信度确定模型，可信度确定模型可以通过自注意力机制网络(一种自然语言处理网络)，来构建目标视频数据的视频文本信息的文本表示。S409：可信度确定模型通过构建目标视频数据的视频文本信息的文本表示，即可得到该视频文本信息对应的文本特征向量。该文本特征向量即为可信度确定模型所得到的文本特征。

接着，S410：可信度确定模型可以对所获取到的目标视频数据的音频融合特征向量、图像融合特征向量以及文本特征向量进行向量拼接，即可得到目标视频数据的视频特征向量。其中，目标视频数据的视频特征向量即为目标视频数据的视频多模态特征融合表示。

接着，S411：服务器还可以将目标视频数据的所有候选标签(即上述候选标签集合中的候选标签，此处输入的候选标签无重复，此处具体指标签1，……和标签n)，输入可信度确定模型，可信度确定模型可以通过自注意力机制网络构建每个候选标签的文本表示，即将每个候选标签表示为机器语言。S412，可信度确定模型通过构建每个候选标签的文本表示，可以得到每个候选标签的标签表示，该标签表示可以为一个标识或者一个向量。

接着，S413：可信度确定模型可以对每个候选标签的标签表示以及目标视频数据的视频特征向量，进行特征交互识别，即识别每个候选标签的标签表示分别与目标视频数据的视频特征向量之间的相关度，该相关度即为上述模型可信度。S414：可信度确定模型可以输出每个候选标签分别与目标视频数据之间的模型可信度。

请参见图8，图8是本申请提供的一种标签获取方法的场景示意图。如图8所示，标签100e是通过上述倒排索引库所获取到的标签，即标签100e可以为上述第一视频标签。标签101e是通过目标视频数据的视频特征向量与已有标签视频数据的视频特征向量之间的向量距离所获取到的，换句话说，标签101e是通过上述第1种方式获取到的第二视频标签。标签102e是通过标签生成模型所获取到的，换句话说，标签102e是通过上述第2种方式获取到的第二视频标签。

此外，关联标签103e为获取到的标签100e的关联标签，关联标签103e也就是上述第一关联标签。关联标签104e为获取到的标签101e的关联标签，关联标签104e属于上述第二关联标签。关联标签105e为获取到的标签102e的关联标签，关联标签105e也属于上述第二关联标签。

可以将上述标签100e和关联标签103e进行合并，得到标签110e；可以将标签101e和关联标签104e进行合并，得到标签111e；可以将标签102e和关联标签105e进行合并，得到标签112e。

其中，上述标签110e、标签111e和标签112e之间可能会存在相同的标签，例如，标签110e和标签111e中都包括标签b1，再例如，标签110e、标签111e和标签112e中都包括标签b2。此种情况下，就需要获取针对标签110e的第一标签配置权重，并获取针对标签111e和标签112e分别对应的第二标签配置权重，记针对标签110e的第一标签配合权重为z1，针对标签111e的第二标签配置权重为z2，针对标签112e的第二标签配置权重为z3。

若标签b1只存在于标签110e中的标签100e中，则标签b1的目标标签可信度就为所属的相似视频数据与目标视频数据之间的视频相似度。若标签b1只存在于标签110e中的关联标签103e中，并且为标签b2的关联标签时，则标签b1的目标标签可信度，就为标签b1与标签b2之间的标签关联度乘以标签b2所属的相似视频数据与目标视频数据之间的视频相似度。

若标签b1只存在于标签111e中的标签101e中，则标签b1的目标标签可信度就为标签b1与目标视频数据之间的标签可信度。若标签b1只存在于标签111e中的关联标签104e中，并且为标签b2的关联标签时，则标签b1的目标标签可信度，就为标签b1与标签b2之间的标签关联度乘以标签b2与目标视频数据之间的标签可信度。

若标签b1只存在于标签112e中的标签102e中，则标签b1的目标标签可信度就为标签b1的生成概率。若标签b1只存在于标签112e中的关联标签105e中，并且为标签b2的关联标签时，则标签b1的目标标签可信度，就为标签b1与标签b2之间的标签关联度乘以标签b2的生成概率。

若标签b1同时存在于标签110e、标签111e和标签112e中的任意两种标签中，例如同时存在于标签110e和标签111e中，则此时标签b1的目标标签可信度就为，上述标签b1单独存在于标签110e中时的目标标签可信度乘以上述z1，再加上标签b1单独存在与标签111e中时的目标标签可信度乘以上述z2。

若标签b1同时存在于标签110e、标签111e和标签112e中，则此时标签b1的目标标签可信度就为，标签b1单独存在于上述标签110e中时的目标标签可信度乘以上述z1，加上标签b1单独存在于上述标签111e中时的目标标签可信度乘以上述z2，再加上标签b1单独存在于上述标签112e中时的目标标签可信度乘以上述z3。

通过上述过程，即可得到标签110e、标签111e和标签112e中的每个标签的目标标签可信度，得到融合标签106e。融合标签106e包括标签110e、标签111e和标签112e中的每个标签，并且融合标签106e中的标签不重复，融合标签106e中的每个标签分别对应于一个目标标签可信度。融合标签106e相当于上述候选视频标签集合。可以理解的是，上述候选视频标签集合中虽然记录有重复的候选标签，那是由于重复的候选标签对应有不同的标签可信度(因为获取方法不同造成)，但是重复的候选标签对应于同一个目标标签可信度，因此重复的候选标签实际上为一个候选标签，只是需要通过重复的候选标签分别对应的标签可信度，来计算得到其共同对应的目标标签可信度，这相当于是对重复的候选标签进行融合的一个过程。

服务器可以将融合标签106e中的每个标签输入可信度确定模型107e，通过该可信度确定模型得到融合标签106e中的每个标签分别与目标视频数据之间的模型可信度，即得到模型可信度108e。接着，服务器即可根据融合标签106e中的每个标签分别对应的模型可信度以及目标标签可信度，得到融合标签106e中的每个标签分别对应的筛选标签可信度。进而，服务器可以将融合标签106e中，筛选标签可信度大于或者等于筛选可信度阈值的标签，作为目标视频标签109e。

请参见图9a，图9a是本申请提供的一种终端设备的页面示意图。终端设备可以响应用户针对终端页面100f中的控件104f的点击操作，获取用户向终端设备所导入的视频，显示到终端页面101f。如终端页面101f所示，终端设备已经获取到用户所导入的视频。终端设备可以响应用户针对“自动为视频添加标签”控件105f的选中操作已经针对“确认上传”控件106f的点击操作，显示到终端页面102f。在此过程中，由于用户选中了控件105f，因此，表明用户想要系统自动为所上传的视频添加标签，那么，终端设备可以将用户所上传的视频作为上述目标视频数据，并将该目标视频数据发送给服务器。

服务器在获取到终端设备发送的目标视频数据之后，可以采用上述图3的实施例中所描述的方法，为目标视频数据生成对应的目标视频标签。服务器在获取到目标视频数据的目标视频标签之后，可以将所获取到的目标视频标签发送给终端设备。终端设备在获取到目标视频标签之后，就可以从终端页面102f跳转显示到终端页面103f。在终端页面103f中，终端设备可以对用户所上传的视频以及获取到的目标视频标签进行关联显示。如终端页面103f所示，终端设备获取到的目标视频标签107f包括标签“搞笑”、标签“好物分享”、标签“旅行”以及标签“美食”。

请参见图9b，图9b是本申请提供的一种终端设备的页面示意图。如图9b所示，终端页面100g中显示有多个视频数据，该多个视频数据具体包括视频数据101g、视频数据102g、视频数据103g和视频数据104g。其中，在终端页面100g中的每个视频数据下方，均显示有其对应的视频标签，每个视频数据对应的视频标签均可以是通过上述图3对应的实施例中所描述的方法获取到的。如终端页面100g所示，视频数据101g的下方显示有其对应的视频标签“搞笑”、视频标签“好物分享”、视频标签“旅行”和视频标签“美食”。视频数据102g的下方显示有其对应的视频标签“运动”、视频标签“篮球”和视频标签“比赛”。视频数据103g的下方显示有其对应的视频标签“服饰”、视频标签“穿搭”、视频标签“探店”和视频标签“美妆”。视频数据104g的下方显示有其对应的视频标签“吃播”、视频标签“美食”和视频标签“大胃王”。

请参见图10，图10是本申请提供的一种标签获取方法的流程示意图。如图10所示，该方法包括：步骤S501：服务器可以获取待识别标签视频，该待识别标签视频也就是上述的目标视频数据。步骤S502：服务器可以对待识别视频进行视频分类识别，即识别出目标视频数据的视频类型。步骤S503：服务器可以通过相似检索的方法来召回(即获取)目标视频数据的候选标签。其中，相似检索的方法可以包括，上述采用倒排索引库的方法，以及上述采用已有标签视频数据的视频特征向量与目标视频数据的视频特征向量之间的向量距离的方法。步骤S504：服务器可以通过标签生成模型(也就是此处的生成模型)来召回目标视频数据的候选标签。步骤S505：服务器可以对上述步骤S503和步骤S504中获取到的候选标签进行关联标签召回，也就是获取上述步骤S503和步骤S504中获取到的候选标签的关联标签(可以包括上述第一关联标签和第二关联标签)，可以将该关联标签也作为目标视频数据的候选标签。

接着，步骤S506：服务器可以对上述步骤S503、步骤S504和步骤S505中所获取到的候选标签，进行多路视频标签标签候选融合，也就是计算每个候选标签分别对应的目标标签可信度，由于可能会有重复的候选标签，因此对重复的候选标签计算得到一个共同的目标标签可信度的过程，可以称之为标签融合过程，可以理解为是为对候选标签进行去重。步骤S507：可以通过可信度确定模型得到上述每个候选标签分别的模型可信度。可以通过每个候选标签分别对应的模型可信度以及目标标签可信度，计算得到每个候选标签分别对应的筛选标签可信度。通过筛选标签可信度对每个候选标签进行排序，也就是进行视频-标签相关度排序。步骤S508：可以将进行视频标签相关度排序后，处于前s个的候选标签作为目标视频数据的目标视频标签，该目标视频标签也就是最终所得到的针对目标视频数据的视频标签结果。其中，s的具体数值可以根据实际应用场景进行设置。

请参见图11，图11是本申请提供的一种标签数据处理装置的结构示意图。如图11所示，该标签数据处理装置2可以包括：视频获取模块21、相似视频获取模块22、添加模块23和标签确定模块24；

视频获取模块21，用于获取目标视频数据，确定目标视频数据的目标视频类型；

相似视频获取模块22，用于获取目标视频数据的目标视频关键词，根据目标视频类型和目标视频关键词，在倒排索引库中获取目标视频数据的相似视频数据；倒排索引库中，包括至少两个已有标签视频数据的已有视频关键词与至少两个已有标签视频数据之间的映射关系；相似视频数据为具有目标视频类型的已有标签视频数据；与相似视频数据具有映射关系的已有视频关键词，属于目标视频关键词；

添加模块23，用于将相似视频数据的第一视频标签，添加到候选标签集合；

标签确定模块24，用于从候选标签集合中，确定目标视频数据的目标视频标签。

其中，视频获取模块21、相似视频获取模块22、添加模块23和标签确定模块24的具体功能实现方式请参见图3对应的实施例中的步骤S101-步骤S104，这里不再进行赘述。

可以理解的是，本申请实施例中的标签数据处理装置2可执行前文图3所对应实施例中对标签数据处理方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

请参见图12，图12是本申请提供的一种标签数据处理装置的结构示意图。如图12所示，该标签数据处理装置1可以包括：视频获取模块101、相似视频获取模块102、添加模块103和标签确定模块104；

其中，视频获取模块101具有与上述图11中的视频获取模块21同样的功能，相似视频获取模块102具有与上述图11中的相似视频获取模块22同样的功能，添加模块103具有与上述图11中的添加模块23同样的功能，标签确定模块104具有与上述图11中的标签确定模块24同样的功能。

其中，相似视频获取模块102，包括：信息获取单元1021、分词单元1022和关键词确定单元1023；

信息获取单元1021，用于获取目标视频数据的视频标题信息、视频描述信息和视频字幕信息；

分词单元1022，用于对视频标题信息、视频描述信息和视频字幕信息分别进行分词，得到视频标题信息中的标题关键词、视频描述信息中的描述关键词和视频字幕信息中的字幕关键词；

关键词确定单元1023，用于将标题关键词、描述关键词和字幕关键词，确定为目标视频关键词。

其中，信息获取单元1021、分词单元1022和关键词确定单元1023的具体功能实现方式请参见图3对应的实施例中的步骤S102，这里不再进行赘述。

其中，标签数据处理装置1，还包括：关键词库确定模块105、关系建立模块106和索引库生成模块107；

关键词库确定模块105，用于获取所述至少两个已有标签视频数据中的每个已有标签视频数据的已有视频关键词，将所述每个已有标签视频数据的已有视频关键词均添加至关键词库；

关系建立模块106，用于建立所述关键词库中的每个已有视频关键词与所对应的已有标签视频数据之间的映射关系；每个已有视频关键词，均与至少一个已有标签视频数据具备映射关系；

索引库生成模块107，用于根据每个已有视频关键词与所对应的已有标签视频数据之间的映射关系，生成倒排索引库。

其中，关键词库确定模块105、关系建立模块106和索引库生成模块107的具体功能实现方式请参见图3对应的实施例中的步骤S102，这里不再进行赘述。

相似视频获取模块102，包括：候选视频检索单元1024、相似度获取单元1025和相似视频确定单元1026；

候选视频检索单元1024，用于根据目标视频关键词，在倒排索引库中检索携带有目标视频类型标签，且与目标视频关键词具有映射关系的已有标签视频数据，作为候选视频数据；

相似度获取单元1025，用于获取目标视频数据与候选视频数据之间的视频相似度；

相似视频确定单元1026，用于当视频相似度大于或等于相似度阈值时，将候选视频数据确定为相似视频数据。

其中，候选视频检索单元1024、相似度获取单元1025和相似视频确定单元1026的具体功能实现方式请参见图3对应的实施例中的步骤S102，这里不再进行赘述。

其中，相似度获取单元1025，包括：相关度获取子单元10251、权重确定子单元10252和加权求和子单元10253；

相关度获取子单元10251，用于获取目标视频关键词与候选视频数据之间的关键词相关度；

权重确定子单元10252，用于根据至少两个已有标签视频数据的视频数量、以及目标视频关键词所属的已有标签视频数据的视频数量，确定目标视频关键词对应的关键词权重；

加权求和子单元10253，用于基于目标视频关键词对应的关键词权重，对候选视频数据与目标视频关键词之间的关键词相关度进行加权求和，得到候选视频数据与目标视频数据之间的视频相似度。

其中，相关度获取子单元10251、权重确定子单元10252和加权求和子单元10253的具体功能实现方式请参见图3对应的实施例中的步骤S102，这里不再进行赘述。

相关度获取子单元10251，用于：

其中，候选标签集合还包括第二视频标签；

标签数据处理装置1，还包括：向量获取模块108、向量距离获取模块109、第一标签可信度确定模块110和第一候选标签确定模块111；

向量获取模块108，用于获取目标视频数据的视频特征向量，获取每个已有标签视频数据的视频特征向量；

向量距离获取模块109，用于获取目标视频数据的视频特征向量分别与每个已有标签视频数据的视频特征向量之间的向量距离；

第一标签可信度确定模块110，用于根据每个已有标签视频数据分别对应的向量距离，确定每个已有标签视频数据的视频标签分别与目标视频数据之间的标签可信度；

第一候选标签确定模块111，用于将具有目标视频类型的已有标签视频数据的视频标签中，标签可信度大于或等于第一标签可信度阈值的视频标签，确定为第二视频标签。

其中，向量获取模块108、向量距离获取模块109、第一标签可信度确定模块110和第一候选标签确定模块111的具体功能实现方式请参见图3对应的实施例中的步骤S104，这里不再进行赘述。

其中，候选标签集合还包括第二视频标签；

标签数据处理装置1，还包括：标签输入模块112、标签生成模块113、第二标签可信度确定模块114和第二候选标签确定模块115；

标签输入模块112，用于将目标视频数据的视频特征向量，输入标签生成模型；标签生成模型，是基于至少两个已有标签视频数据的视频特征向量和至少两个已有标签视频数据的视频标签训练得到；

标签生成模块113，用于基于标签生成模型，生成目标视频数据的至少两个视频生成标签，获取每个视频生成标签的生成概率；

第二标签可信度确定模块114，用于将每个视频生成标签的生成概率，确定为每个视频生成标签与目标视频数据之间的标签可信度；

第二候选标签确定模块115，用于将至少两个视频生成标签中，标签可信度大于或等于第二标签可信度阈值的视频生成标签，确定为第二视频标签。

其中，标签输入模块112、标签生成模块113、第二标签可信度确定模块114和第二候选标签确定模块115的具体功能实现方式请参见图3对应的实施例中的步骤S104，这里不再进行赘述。

其中，候选标签集合中还包括第三视频标签；

标签数据处理装置1，还包括：关联标签获取模块116和第三候选标签确定模块117；

关联标签获取模块116，用于获取第一视频标签的第一关联标签，获取第二视频标签的第二关联标签；第一关联标签，是基于第一视频标签与第一候选视频数据的视频标签在至少两个已有标签视频数据的视频标签中的共现次数所确定的；第一候选视频数据为包含第一视频标签的已有标签视频数据；第二关联标签，是基于第二视频标签与第二候选视频数据的视频标签在至少两个已有标签视频数据的视频标签中的共现次数所确定的；第二候选视频数据为包含第二视频标签的已有标签视频数据；

第三候选标签确定模块117，用于将第一关联标签和第二关联标签，确定为第三视频标签。

其中，关联标签获取模块116和第三候选标签确定模块117的具体功能实现方式请参见图3对应的实施例中的步骤S104，这里不再进行赘述。

其中，标签确定模块104，包括：候选标签确定单元1041、可信度获取单元1042和目标标签确定单元1043；

候选标签确定单元1041，用于将候选标签集合中的第一视频标签、第二视频标签以及第三视频标签，均确定为候选标签；

可信度获取单元1042，用于获取每个候选标签与目标视频数据之间的目标标签可信度；

目标标签确定单元1043，用于根据每个候选标签与目标视频数据之间的目标标签可信度，从候选标签集合中，确定目标视频标签。

其中，候选标签确定单元1041、可信度获取单元1042和目标标签确定单元1043的具体功能实现方式请参见图3对应的实施例中的步骤S104，这里不再进行赘述。

可信度获取单元1042，包括：第一可信度确定子单元10421、第二可信度确定子单元10422、可信度权重获取子单元10423和第三可信度确定子单元10424；

第一可信度确定子单元10421，用于若候选标签b_l属于第一视频标签，且不属于第二视频标签，则将相似视频数据与目标视频数据之间的视频相似度，确定为候选标签b_l与目标视频数据之间的目标标签可信度；

第二可信度确定子单元10422，用于若候选标签b_l属于第二视频标签，且不属于第一视频标签，则将候选标签b_l与目标视频数据之间的标签可信度，确定为候选标签b_l与目标视频数据之间的目标标签可信度；

可信度权重获取子单元10423，用于若候选标签b_l既属于第一视频标签，且属于第二视频标签，则获取第一视频标签对应的第一标签配置权重，获取第二视频标签对应的第二标签配置权重；

第三可信度确定子单元10424，用于根据第一标签配置权重、第二标签配置权重、相似视频数据与目标视频数据之间的视频相似度、以及候选标签b_l与目标视频数据之间的标签可信度，确定候选标签b_l与目标视频数据之间的目标标签可信度。

其中，第一可信度确定子单元10421、第二可信度确定子单元10422、可信度权重获取子单元10423和第三可信度确定子单元10424的具体功能实现方式请参见图3对应的实施例中的步骤S104，这里不再进行赘述。

标签数据处理装置1，还包括：关联度获取模块118和关联可信度确定模块119；

关联度获取模块118，用于若候选标签b_j为候选标签b_l的第二关联标签，则获取候选标签b_j与候选标签b_l之间的标签关联度；标签关联度，是基于候选标签b_j和候选标签b_l在至少两个已有标签视频数据的视频标签中的共现次数所确定的；

关联可信度确定模块119，用于根据标签关联度、以及候选标签b_l与目标视频数据之间的标签可信度，确定候选标签b_j与目标视频数据之间的目标标签可信度。

其中，关联度获取模块118和关联可信度确定模块119的具体功能实现方式请参见图3对应的实施例中的步骤S104，这里不再进行赘述。

其中，目标标签确定单元1043，包括：可信度确定模型输入子单元10431、模型可信度输出子单元10432、筛选可信度确定子单元10433和标签筛选子单元10434；

可信度确定模型输入子单元10431，用于将每个候选标签和目标视频数据的视频特征向量，输入可信度确定模型；可信度确定模型，是通过至少两个已有标签视频数据的视频特征向量以及至少两个已有标签视频数据的视频标签训练得到；

模型可信度输出子单元10432，用于基于可信度确定模型，输出每个候选标签分别与目标视频数据之间的模型可信度；

筛选可信度确定子单元10433，用于基于每个候选标签分别与目标视频数据之间的模型可信度、以及每个候选标签分别与目标视频数据之间的目标标签可信度，确定每个候选标签分别与目标视频数据之间的筛选标签可信度；

标签筛选子单元10434，用于将候选标签集合中，与目标视频数据之间的筛选标签可信度大于或等于筛选可信度阈值的候选标签，确定为目标视频标签。

其中，可信度确定模型输入子单元10431、模型可信度输出子单元10432、筛选可信度确定子单元10433和标签筛选子单元10434的具体功能实现方式请参见图3对应的实施例中的步骤S104，这里不再进行赘述。

其中，筛选可信度确定子单元10433，包括：配置权重获取子单元104331和筛选可信度计算子单元104332；

配置权重获取子单元104331，用于获取针对模型可信度的第一可信度配置权重，获取针对目标标签可信度的第二可信度配置权重；

筛选可信度计算子单元104332，用于根据第一可信度配置权重、第二可信度配置权重、每个候选标签分别与目标视频数据之间的模型可信度、以及每个候选标签分别与目标视频数据之间的目标标签可信度，确定每个候选标签分别与目标视频数据之间的筛选标签可信度。

其中，配置权重获取子单元104331和筛选可信度计算子单元104332的具体功能实现方式请参见图3对应的实施例中的步骤S104，这里不再进行赘述。

其中，视频获取模块101，包括：视频信息获取单元1011、分类模型输入单元1012和分类模型输出单元1013；

视频信息获取单元1011，用于获取目标视频数据的视频图像信息和视频音频信息，获取目标视频数据的视频文本信息；

分类模型输入单元1012，用于将视频图像信息、视频音频信息以及视频文本信息，输入视频分类模型；视频分类模型，是通过至少两个已有标签视频数据以及至少两个已有标签视频数据对应的视频类型训练得到；

分类模型输出单元1013，用于基于视频分类模型，输出目标视频数据的目标视频类型。

其中，视频信息获取单元1011、分类模型输入单元1012和分类模型输出单元1013的具体功能实现方式请参见图3对应的实施例中的步骤S101，这里不再进行赘述。

其中，视频信息获取单元1011，包括：文本信息获取子单元10111、分词子单元10112和拼接子单元10113；

文本信息获取子单元10111，用于获取目标视频数据的视频标题信息、视频描述信息和视频字幕信息；

分词子单元10112，用于对视频字幕信息进行分词，得到视频字幕信息中的字幕关键词；

拼接子单元10113，用于对视频标题信息、视频描述信息和字幕关键词进行拼接，得到目标视频数据的视频文本信息。

其中，文本信息获取子单元10111、分词子单元10112和拼接子单元10113的具体功能实现方式请参见图3对应的实施例中的步骤S101，这里不再进行赘述。

分类模型输出单元1013，包括：图像向量生成子单元10131、音频向量生成子单元10132、文本向量生成子单元10133、向量拼接子单元10134和类型输出子单元10135；

图像向量生成子单元10131，用于基于视频分类模型，生成至少两个图像帧中的每个图像帧的图像特征向量，对每个图像帧的图像特征向量进行特征向量融合，得到图像融合特征向量；

音频向量生成子单元10132，用于基于视频分类模型，生成至少两个音频帧中的每个音频帧的音频特征向量，对每个音频帧的音频特征向量进行特征向量融合，得到音频融合特征向量；

文本向量生成子单元10133，用于基于视频分类模型，生成视频文本信息的文本特征向量；

向量拼接子单元10134，用于对图像融合特征向量、音频融合特征向量和文本特征向量进行向量拼接，得到目标视频数据的视频特征向量；

类型输出子单元10135，用于根据目标视频数据的视频特征向量，在视频分类模型中输出目标视频数据的目标视频类型。

其中，图像向量生成子单元10131、音频向量生成子单元10132、文本向量生成子单元10133、向量拼接子单元10134和类型输出子单元10135的具体功能实现方式请参见图3对应的实施例中的步骤S101，这里不再进行赘述。

其中，视频获取模块101，用于：

获取客户端发送的目标视频数据；

标签数据处理装置1，还用于：

本申请可以获取目标视频数据，确定目标视频数据的目标视频类型；获取目标视频数据的目标视频关键词，根据目标视频类型和目标视频关键词，在倒排索引库中获取目标视频数据的相似视频数据；倒排索引库中，包括至少两个已有标签视频数据的已有视频关键词与至少两个已有标签视频数据之间的映射关系；相似视频数据为具有目标视频类型的已有标签视频数据；与相似视频数据具有映射关系的已有视频关键词，属于目标视频关键词；将相似视频数据的第一视频标签，添加到候选标签集合；从候选标签集合中，确定目标视频数据的目标视频标签。由此可见，上述装置由于可以通过已有标签视频数据所建立的倒排索引库，来得到针对目标视频数据的相似视频数据，进而可以通过相似视频数据的视频标签来得到目标视频数据的目标视频标签，因此，提高了针对目标视频标签的获取效率。并且，相似视频数据还可以有多个，因此，还丰富了针对目标视频标签的标签种类。

请参见图13，图13是本申请提供的一种计算机设备的结构示意图。如图13所示，计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图13所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图13所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现前文图3对应实施例中对标签数据处理方法的描述。应当理解，本申请中所描述的计算机设备1000也可执行前文图11所对应实施例中对标签数据处理装置2的描述，还可执行前文图12所对应实施例中对标签数据处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有前文提及的标签数据处理装置1和标签数据处理装置2所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图3对应实施例中对标签数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖范围。

Claims

1.一种标签数据处理方法，其特征在于，包括：

获取目标视频数据，确定所述目标视频数据的目标视频类型；

获取所述目标视频数据的目标视频关键词，根据所述目标视频类型和所述目标视频关键词，在倒排索引库中获取所述目标视频数据的相似视频数据；所述倒排索引库中，包括至少两个已有标签视频数据的已有视频关键词与所述至少两个已有标签视频数据之间的映射关系；所述相似视频数据为具有所述目标视频类型的已有标签视频数据；与所述相似视频数据具有映射关系的已有视频关键词，属于所述目标视频关键词；

将所述相似视频数据的第一视频标签，添加到候选标签集合；

从所述候选标签集合中，确定所述目标视频数据的目标视频标签。

2.根据权利要求1所述的方法，其特征在于，所述获取所述目标视频数据的目标视频关键词，包括：

获取所述目标视频数据的视频标题信息、视频描述信息和视频字幕信息；

对所述视频标题信息、所述视频描述信息和所述视频字幕信息分别进行分词，得到所述视频标题信息中的标题关键词、所述视频描述信息中的描述关键词和所述视频字幕信息中的字幕关键词；

将所述标题关键词、所述描述关键词和所述字幕关键词，确定为所述目标视频关键词。

3.根据权利要求1所述的方法，其特征在于，还包括：

获取所述至少两个已有标签视频数据中的每个已有标签视频数据的已有视频关键词，将所述每个已有标签视频数据的已有视频关键词均添加至关键词库；

建立所述关键词库中的每个已有视频关键词与所对应的已有标签视频数据之间的映射关系；每个已有视频关键词，均与至少一个已有标签视频数据具备映射关系；

根据所述每个已有视频关键词与所对应的已有标签视频数据之间的映射关系，生成所述倒排索引库。

4.根据权利要求3所述的方法，其特征在于，所述倒排索引库中的每个已有标签视频数据还携带有视频类型标签；所述视频类型标签包括指向所述目标视频类型的目标视频类型标签；

所述根据所述目标视频类型和所述目标视频关键词，在倒排索引库中获取所述目标视频数据的相似视频数据，包括：

根据所述目标视频关键词，在所述倒排索引库中检索携带有所述目标视频类型标签，且与所述目标视频关键词具有映射关系的已有标签视频数据，作为候选视频数据；

获取所述目标视频数据与所述候选视频数据之间的视频相似度；

当所述视频相似度大于或等于相似度阈值时，将所述候选视频数据确定为所述相似视频数据。

5.根据权利要求4所述的方法，其特征在于，所述获取所述目标视频数据与所述候选视频数据之间的视频相似度，包括：

获取所述目标视频关键词与所述候选视频数据之间的关键词相关度；

根据所述至少两个已有标签视频数据的视频数量、以及所述目标视频关键词所属的已有标签视频数据的视频数量，确定所述目标视频关键词对应的关键词权重；

基于所述目标视频关键词对应的关键词权重，对所述候选视频数据与所述目标视频关键词之间的关键词相关度进行加权求和，得到所述候选视频数据与所述目标视频数据之间的所述视频相似度。

6.根据权利要求5所述的方法，其特征在于，所述目标视频关键词的数量为至少两个，至少两个目标视频关键词包括目标视频关键词q_i，i为小于或等于所述目标视频关键词的数量的正整数；

所述获取所述目标视频关键词与所述候选视频数据之间的关键词相关度，包括：

根据所述目标视频关键词q_i在所述至少两个目标视频关键词中的出现频率、所述目标视频关键词q_i在所述候选视频数据的已有视频关键词中的出现频率、所述候选视频数据的已有视频关键词的关键词数量、以及所述至少两个已有标签视频数据的已有视频关键词的平均关键词数量，获取所述目标视频关键词q_i与所述候选视频数据之间的关键词相关度。

7.根据权利要求1所述的方法，其特征在于，所述候选标签集合还包括第二视频标签；

所述方法还包括：

获取所述目标视频数据的视频特征向量，获取每个已有标签视频数据的视频特征向量；

获取所述目标视频数据的视频特征向量分别与所述每个已有标签视频数据的视频特征向量之间的向量距离；

根据所述每个已有标签视频数据分别对应的向量距离，确定所述每个已有标签视频数据的视频标签分别与所述目标视频数据之间的标签可信度；

将具有所述目标视频类型的已有标签视频数据的视频标签中，标签可信度大于或等于第一标签可信度阈值的视频标签，确定为所述第二视频标签。

8.根据权利要求7所述的方法，其特征在于，所述候选标签集合中还包括第三视频标签；

所述方法还包括：

获取所述第一视频标签的第一关联标签，获取所述第二视频标签的第二关联标签；所述第一关联标签，是基于所述第一视频标签与第一候选视频数据的视频标签在所述至少两个已有标签视频数据的视频标签中的共现次数所确定的；所述第一候选视频数据为包含所述第一视频标签的已有标签视频数据；所述第二关联标签，是基于所述第二视频标签与第二候选视频数据的视频标签在所述至少两个已有标签视频数据的视频标签中的共现次数所确定的；所述第二候选视频数据为包含所述第二视频标签的已有标签视频数据；

将所述第一关联标签和所述第二关联标签，确定为所述第三视频标签。

9.根据权利要求8所述的方法，其特征在于，所述从所述候选标签集合中，确定所述目标视频数据的目标视频标签，包括：

将所述候选标签集合中的所述第一视频标签、所述第二视频标签以及所述第三视频标签，均确定为候选标签；

获取每个候选标签与所述目标视频数据之间的目标标签可信度；

根据所述每个候选标签与所述目标视频数据之间的目标标签可信度，从所述候选标签集合中，确定所述目标视频标签。

10.根据权利要求9所述的方法，其特征在于，所述候选标签集合中包括候选标签b_l，l为小于或等于所述候选标签集合中候选标签的标签总数量的正整数；

所述获取每个候选标签与所述目标视频数据之间的目标标签可信度，包括：

若所述候选标签b_l属于所述第一视频标签，且不属于所述第二视频标签，则将所述相似视频数据与所述目标视频数据之间的视频相似度，确定为所述候选标签b_l与所述目标视频数据之间的目标标签可信度；

若所述候选标签b_l属于所述第二视频标签，且不属于所述第一视频标签，则将所述候选标签b_l与所述目标视频数据之间的标签可信度，确定为所述候选标签b_l与所述目标视频数据之间的目标标签可信度；

若所述候选标签b_l既属于所述第一视频标签，且属于所述第二视频标签，则获取所述第一视频标签对应的第一标签配置权重，获取所述第二视频标签对应的第二标签配置权重；

根据所述第一标签配置权重、所述第二标签配置权重、所述相似视频数据与所述目标视频数据之间的所述视频相似度、以及所述候选标签b_l与所述目标视频数据之间的标签可信度，确定所述候选标签b_l与所述目标视频数据之间的目标标签可信度。

11.根据权利要求10所述的方法，其特征在于，所述候选标签集合中还包括候选标签b_j，j为小于或等于所述候选标签集合中候选标签的标签总数量的正整数；

所述方法还包括：

若所述候选标签b_j为所述候选标签b_l的第二关联标签，则获取所述候选标签b_j与所述候选标签b_l之间的标签关联度；所述标签关联度，是基于所述候选标签b_j和所述候选标签b_l在所述至少两个已有标签视频数据的视频标签中的共现次数所确定的；

根据所述标签关联度、以及所述候选标签b_l与所述目标视频数据之间的标签可信度，确定所述候选标签b_j与所述目标视频数据之间的目标标签可信度。

12.根据权利要求9所述的方法，其特征在于，所述根据所述每个候选标签与所述目标视频数据之间的目标标签可信度，从所述候选标签集合中，确定所述目标视频标签，包括：

将所述每个候选标签和所述目标视频数据的视频特征向量，输入可信度确定模型；所述可信度确定模型，是通过所述至少两个已有标签视频数据的视频特征向量以及所述至少两个已有标签视频数据的视频标签训练得到；

基于所述可信度确定模型，输出所述每个候选标签分别与所述目标视频数据之间的模型可信度；

基于所述每个候选标签分别与所述目标视频数据之间的模型可信度、以及所述每个候选标签分别与所述目标视频数据之间的目标标签可信度，确定所述每个候选标签分别与所述目标视频数据之间的筛选标签可信度；

将所述候选标签集合中，与所述目标视频数据之间的筛选标签可信度大于或等于筛选可信度阈值的候选标签，确定为所述目标视频标签。

13.根据权利要求12所述的方法，其特征在于，所述基于所述每个候选标签分别与所述目标视频数据之间的模型可信度、以及所述每个候选标签分别与所述目标视频数据之间的目标标签可信度，确定所述每个候选标签分别与所述目标视频数据之间的筛选标签可信度，包括：

获取针对模型可信度的第一可信度配置权重，获取针对目标标签可信度的第二可信度配置权重；

根据所述第一可信度配置权重、所述第二可信度配置权重、所述每个候选标签分别与所述目标视频数据之间的模型可信度、以及所述每个候选标签分别与所述目标视频数据之间的目标标签可信度，确定所述每个候选标签分别与所述目标视频数据之间的筛选标签可信度。

14.根据权利要求1所述的方法，其特征在于，所述获取目标视频数据，确定所述目标视频数据的目标视频类型，包括：

获取所述目标视频数据的视频图像信息和视频音频信息，获取所述目标视频数据的视频文本信息；

将所述视频图像信息、所述视频音频信息以及所述视频文本信息，输入视频分类模型；所述视频分类模型，是通过所述至少两个已有标签视频数据以及所述至少两个已有标签视频数据对应的视频类型训练得到；

基于所述视频分类模型，输出所述目标视频数据的所述目标视频类型。

15.根据权利要求14所述的方法，其特征在于，所述视频图像信息包括所述目标视频数据的至少两个图像帧；所述视频音频信息包括所述目标视频数据的音频数据的至少两个音频帧；

所述基于所述视频分类模型，输出所述目标视频数据的所述目标视频类型，包括：

基于所述视频分类模型，生成所述至少两个图像帧中的每个图像帧的图像特征向量，对所述每个图像帧的图像特征向量进行特征向量融合，得到图像融合特征向量；

基于所述视频分类模型，生成所述至少两个音频帧中的每个音频帧的音频特征向量，对所述每个音频帧的音频特征向量进行特征向量融合，得到音频融合特征向量；

基于所述视频分类模型，生成所述视频文本信息的文本特征向量；

对所述图像融合特征向量、所述音频融合特征向量和所述文本特征向量进行向量拼接，得到所述目标视频数据的视频特征向量；

根据所述目标视频数据的视频特征向量，在所述视频分类模型中输出所述目标视频数据的所述目标视频类型。