CN111711869A

CN111711869A - 一种标签数据处理方法、装置以及计算机可读存储介质

Info

Publication number: CN111711869A
Application number: CN202010587034.0A
Authority: CN
Inventors: 陈小帅; 李伟康
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Yayue Technology Co ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-09-25
Anticipated expiration: 2040-06-24
Also published as: CN111711869B

Abstract

本申请公开了一种标签数据处理方法、装置以及计算机可读存储介质，该方法包括：获取目标视频数据，确定目标视频数据的目标视频类型；获取互信息索引表；互信息索引表是基于至少两个已有标签视频数据的已有视频词语集合与至少两个已有标签视频数据的视频标签之间的互信息创建的；获取目标视频数据的目标视频词语集合，根据目标视频词语集合和目标视频类型，在互信息索引表中获取目标视频数据的第一候选视频标签；将第一候选视频标签添加到候选标签集合，从候选标签集合中，确定目标视频数据的目标视频标签。采用本申请，可提高针对目标视频标签的获取效率，并丰富所获取到的目标视频标签的标签种类。

Description

一种标签数据处理方法、装置以及计算机可读存储介质

技术领域

本申请涉及数据处理的技术领域，尤其涉及一种标签数据处理方法、装置以及计算机可读存储介质。

背景技术

随着计算机网络的不断发展，计算机网络中所产生的视频数据的数量越来越多，为了使用户能够快速分辨出想要进行观看的视频数据，通常会给视频数据添加视频标签，使得用户可以通过视频数据的视频标签，快速判断是否想要观看浏览到的视频数据。

现有技术中，在对视频数据添加视频标签时，通常需要上传视频数据的用户手动为所上传的视频数据添加视频标签。或者，系统可以根据用户在上传视频数据时，对视频数据所选择的视频类型，为视频数据添加视频标签，此种情况下，为视频数据添加的视频标签就只有该视频数据的视频类型的标签。

由此可知，现有技术中，在为视频数据添加视频标签时，若是通过用户手动为视频数据添加视频标签，会导致为视频数据添加视频标签的效率低。若是通过用户为所上传的视频数据所选择的视频类型，为视频数据添加标签，也会导致视频数据被添加的视频标签单一。

发明内容

本申请提供了一种标签数据处理方法、装置以及计算机可读存储介质，可提高针对目标视频标签的获取效率，并丰富所获取到的目标视频标签的标签种类。

本申请一方面提供了一种标签数据处理方法，该方法包括：

获取目标视频数据，确定目标视频数据的目标视频类型；

获取互信息索引表；互信息索引表是基于至少两个已有标签视频数据的已有视频词语集合与至少两个已有标签视频数据的视频标签之间的互信息所创建的；

获取目标视频数据的目标视频词语集合，根据目标视频词语集合和目标视频类型，在互信息索引表中获取目标视频数据的第一候选视频标签；第一候选视频标签，为具有目标视频类型的已有标签视频数据的视频标签；

将第一候选视频标签添加到候选标签集合，根据第一候选视频标签与所对应的已有视频词语集合之间的互信息，从候选标签集合中，确定目标视频数据的目标视频标签。

其中，获取目标视频数据，确定目标视频数据的目标视频类型，包括：

获取目标视频数据的视频图像信息和视频音频信息，获取目标视频数据的视频文本信息；

将视频图像信息、视频音频信息以及视频文本信息，输入视频分类模型；视频分类模型，是通过至少两个已有标签视频数据以及至少两个已有标签视频数据对应的视频类型训练得到；

基于视频分类模型，输出目标视频数据的目标视频类型。

其中，获取目标视频数据的视频文本信息，包括：

获取目标视频数据的视频标题信息、视频描述信息和视频字幕信息；

对视频字幕信息进行分词，得到视频字幕信息中的字幕关键词；

对视频标题信息、视频描述信息和字幕关键词进行拼接，得到目标视频数据的视频文本信息。

其中，获取目标视频数据，包括：

获取客户端发送的目标视频数据；

上述方法还包括：

将目标视频数据的目标视频标签发送至客户端，以使客户端对目标视频数据以及目标视频标签进行关联输出。

本申请一方面提供了一种标签数据处理装置，该装置包括：

视频获取模块，用于获取目标视频数据，确定目标视频数据的目标视频类型；

索引表获取模块，用于获取互信息索引表；互信息索引表是基于至少两个已有标签视频数据的已有视频词语集合与至少两个已有标签视频数据的视频标签之间的互信息所创建的；

候选标签获取模块，用于获取目标视频数据的目标视频词语集合，根据目标视频词语集合和目标视频类型，在互信息索引表中获取目标视频数据的第一候选视频标签；第一候选视频标签，为具有目标视频类型的已有标签视频数据的视频标签；

目标标签确定模块，用于将第一候选视频标签添加到候选标签集合，根据第一候选视频标签与所对应的已有视频词语集合之间的互信息，从候选标签集合中，确定目标视频数据的目标视频标签。

其中，候选标签获取模块，包括：

信息获取单元，用于获取目标视频数据的视频标题信息、视频描述信息和视频字幕信息；

分词单元，用于对视频标题信息、视频描述信息和视频字幕信息分别进行分词，得到视频标题信息中的标题词语、视频描述信息中的描述词语和视频字幕信息中的字幕词语；

词语确定单元，用于将标题词语、描述词语和字幕词语，确定为目标视频数据的目标视频词语；

词语组合单元，用于根据组合单词数量，对目标视频数据的目标视频词语进行组合，得到目标视频词语集合；一个目标视频词语集合中的目标视频词语的词语数量不大于组合单词数量。

其中，互信息索引表包括至少两个已有标签视频数据的已有视频词语集合与至少两个已有标签视频数据的视频标签之间的映射关系，该映射关系还携带有所包含的视频标签所属的已有标签视频数据的视频类型信息；视频类型信息包括指向目标视频类型的目标视频类型信息；

候选标签获取模块，包括：

目标词语确定单元，用于将互信息索引表中，与目标视频词语集合相同的已有视频词语集合，确定为目标词语集合；

目标关系确定单元，用于将互信息索引表中，携带有目标视频类型信息，且包括目标词语集合的映射关系，确定为目标映射关系；

候选标签确定单元，用于将目标映射关系所包括的视频标签，确定为第一候选视频标签。

其中，上述标签数据处理装置还包括：

词语组合模块，用于根据组合单词数量，分别对每个已有标签视频数据的已有视频词语进行词语组合，得到每个已有标签视频数据分别对应的已有视频词语集合；一个已有视频词语集合中的已有视频词语的词语数量不大于组合单词数量；

关系建立模块，用于在每个已有视频词语集合与所属的已有标签视频数据的视频标签之间，建立映射关系；

索引表生成模块，用于根据每个已有视频词语集合与所对应的视频标签之间的映射关系，生成互信息索引表。

其中，索引表生成模块，包括：

互信息值获取单元，用于根据每个映射关系所包含的已有视频词语集合和视频标签共同所属的已有标签视频数据的视频数量，获取每个映射关系所包含的已有视频词语集合和视频标签之间的互信息值；

保留关系确定单元，用于将所属的互信息值大于或等于互信息阈值的映射关系，确定为保留映射关系；

信息添加单元，用于根据保留映射关系包含的视频标签所属的已有标签视频数据的视频类型，为保留映射关系添加视频类型信息；

索引表生成单元，用于根据保留映射关系和保留映射关系携带的视频类型信息，生成互信息索引表。

其中，候选标签集合还包括第二候选视频标签；

上述标签数据处理装置还包括：

向量获取模块，用于获取目标视频数据的视频特征向量；

向量输入模块，用于将目标视频数据的视频特征向量，输入标签生成模型；标签生成模型，是基于至少两个已有标签视频数据的视频特征向量和至少两个已有标签视频数据的视频标签训练得到；

标签生成模块，用于基于标签生成模型和目标视频数据的视频特征向量，生成目标视频数据的至少两个视频生成标签，获取每个视频生成标签的生成概率；

第一候选标签确定模块，用于将至少两个视频生成标签中，生成概率大于或等于生成概率阈值的视频生成标签，确定为第二候选视频标签。

其中，候选标签集合中还包括第三候选视频标签；

上述标签数据处理装置还包括：

关联标签获取模块，用于获取第一候选视频标签的第一关联标签，获取第二候选视频标签的第二关联标签；第一关联标签，是基于第一候选视频标签与第一候选视频数据的视频标签在至少两个已有标签视频数据的视频标签中的共现次数所确定的；第一候选视频数据为包含第一候选视频标签的已有标签视频数据；第二关联标签，是基于第二候选视频标签与第二候选视频数据的视频标签在至少两个已有标签视频数据的视频标签中的共现次数所确定的；第二候选视频数据为包含第二候选视频标签的已有标签视频数据；

第二候选标签确定模块，用于将第一关联标签和第二关联标签，确定为第三候选视频标签。

其中，目标标签确定模块，包括：

集合标签确定单元，用于将候选标签集合中的第一候选视频标签、第二候选视频标签以及第三候选视频标签，确定为候选视频标签；

可信度获取单元，用于根据第一候选视频标签与所对应的已有视频词语集合之间的互信息和第二候选视频标签对应的生成概率，获取每个候选视频标签与目标视频数据之间的标签可信度；

目标标签获取单元，用于根据每个候选视频标签与目标视频数据之间的标签可信度，从候选标签集合中，确定目标视频标签。

其中，候选标签集合中包括候选视频标签b_l，l为小于或等于候选标签集合中候选视频标签的标签总数量的正整数；

可信度获取单元，包括：

第一可信度确定子单元，用于若候选视频标签b_l属于第一候选视频标签，且不属于第二候选视频标签，则根据候选视频标签b_l与所对应的已有视频词语集合之间的互信息，确定候选视频标签b_l与目标视频数据之间的标签可信度；

第二可信度确定子单元，用于若候选视频标签b_l属于第二候选视频标签，且不属于第一候选视频标签，则将候选视频标签b_l对应的生成概率，确定为候选视频标签b_l与目标视频数据之间的标签可信度；

标签权重获取子单元，用于若候选视频标签b_l既属于第一候选视频标签，且属于第二候选视频标签，则获取第一候选视频标签对应的第一标签配置权重，获取第二候选视频标签对应的第二标签配置权重；

第三可信度确定子单元，用于根据第一标签配置权重、第二标签配置权重、候选视频标签b_l与所对应的已有视频词语集合之间的互信息、以及候选视频标签b_l对应的生成概率，确定候选视频标签b_l与目标视频数据之间的标签可信度。

其中，互信息索引表中还包括候选视频标签b_l与所对应的已有视频词语集合之间的互信息值；候选视频标签b_l与所对应的已有视频词语之间的互信息值，是根据候选视频标签b_l与所对应的已有视频词语共同所属的已有标签视频数据的视频数量，所确定的；

第一可信度确定子单元，包括：

互信息值获取子单元，用于从互信息索引表中，获取候选视频标签b_l与所对应的已有视频词语集合之间的互信息值；

字数获取子单元，用于获取候选视频标签b_l所对应的已有视频词语集合中的词语字数；

可信度计算子单元，用于根据可信度调整参数、候选视频标签b_l对应的互信息值以及词语字数，确定候选视频标签b_l的标签可信度。

其中，候选标签集合中还包括候选视频标签b_j，j为小于或等于候选标签集合中候选视频标签的标签总数量的正整数；

上述标签数据处理装置还包括：

第一关联度获取模块，用于若候选视频标签b_j为候选视频标签b_l的第一关联标签，则获取候选视频标签b_j与候选视频标签b_l之间的第一标签关联度；第一标签关联度，是基于候选视频标签b_j和候选视频标签b_l在至少两个已有标签视频数据的视频标签中的共现次数所确定的；

第一可信度确定模块，用于根据第一标签关联度、以及候选视频标签b_l与所对应的已有视频词语集合之间的互信息，确定候选视频标签b_j与目标视频数据之间的标签可信度；

第二关联度获取模块，用于若候选视频标签b_j为候选视频标签b_l的第二关联标签，则获取候选视频标签b_j与候选视频标签b_l之间的第二标签关联度；第二标签关联度，是基于候选视频标签b_j和候选视频标签b_l在至少两个已有标签视频数据的视频标签中的共现次数所确定的；

第二可信度确定模块，用于根据第二标签关联度、以及候选视频标签b_l对应的生成概率，确定候选视频标签b_j与目标视频数据之间的标签可信度。

其中，目标标签获取单元，包括：

可信度模型输入子单元，用于将每个候选视频标签和目标视频数据的视频特征向量，输入可信度确定模型；可信度确定模型，是通过至少两个已有标签视频数据的视频特征向量以及至少两个已有标签视频数据的视频标签训练得到；

模型可信度输出子单元，用于基于可信度确定模型和目标视频数据的视频特征向量，输出每个候选视频标签分别与目标视频数据之间的模型可信度；

筛选可信度确定子单元，用于基于每个候选视频标签分别与目标视频数据之间的模型可信度、以及每个候选视频标签分别与目标视频数据之间的标签可信度，确定每个候选视频标签分别与目标视频数据之间的筛选标签可信度；

目标标签确定子单元，用于将候选标签集合中，与目标视频数据之间的筛选标签可信度大于或等于筛选可信度阈值的候选视频标签，确定为目标视频标签。

其中，筛选可信度确定子单元，包括：

可信度权重获取子单元，用于获取针对模型可信度的第一可信度配置权重，获取针对标签可信度的第二可信度配置权重；

筛选可信度计算子单元，用于根据第一可信度配置权重、第二可信度配置权重、每个候选视频标签分别与目标视频数据之间的模型可信度、以及每个候选视频标签分别与目标视频数据之间的标签可信度，确定每个候选视频标签分别与目标视频数据之间的筛选标签可信度。

其中，视频获取模块，包括：

文本信息获取单元，用于获取目标视频数据的视频图像信息和视频音频信息，获取目标视频数据的视频文本信息；

分类模型输入单元，用于将视频图像信息、视频音频信息以及视频文本信息，输入视频分类模型；视频分类模型，是通过至少两个已有标签视频数据以及至少两个已有标签视频数据对应的视频类型训练得到；

目标类型输出单元，用于基于视频分类模型，输出目标视频数据的目标视频类型。

其中，文本信息获取单元，包括：

视频信息获取子单元，用于获取目标视频数据的视频标题信息、视频描述信息和视频字幕信息；

信息分词子单元，用于对视频字幕信息进行分词，得到视频字幕信息中的字幕关键词；

拼接子单元，用于对视频标题信息、视频描述信息和字幕关键词进行拼接，得到目标视频数据的视频文本信息。

其中，视频图像信息包括目标视频数据的至少两个图像帧；视频音频信息包括目标视频数据的音频数据的至少两个音频帧；

目标类型输出单元，包括：

图像向量融合子单元，用于基于视频分类模型，生成至少两个图像帧中的每个图像帧的图像特征向量，对每个图像帧的图像特征向量进行特征向量融合，得到图像融合特征向量；

音频向量融合子单元，用于基于视频分类模型，生成至少两个音频帧中的每个音频帧的音频特征向量，对每个音频帧的音频特征向量进行特征向量融合，得到音频融合特征向量；

文本向量生成子单元，用于基于视频分类模型，生成视频文本信息的文本特征向量；

向量拼接子单元，用于对图像融合特征向量、音频融合特征向量和文本特征向量进行向量拼接，得到目标视频数据的视频特征向量；

目标类型输出子单元，用于根据目标视频数据的视频特征向量，在视频分类模型中输出目标视频数据的目标视频类型。

其中，视频获取模块，用于：

获取客户端发送的目标视频数据；

上述标签数据处理装置还用于：

本申请一方面提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行如本申请中一方面中的方法。

本申请一方面提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时使该处理器执行上述一方面中的方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述一方面等各种可选方式中提供的方法。

本申请可以获取目标视频数据，确定目标视频数据的目标视频类型；获取互信息索引表；互信息索引表是基于至少两个已有标签视频数据的已有视频词语集合与至少两个已有标签视频数据的视频标签之间的互信息所创建的；获取目标视频数据的目标视频词语集合，根据目标视频词语集合和目标视频类型，在互信息索引表中获取目标视频数据的第一候选视频标签；第一候选视频标签，为具有目标视频类型的已有标签视频数据的视频标签；将第一候选视频标签添加到候选标签集合，根据第一候选视频标签与所对应的已有视频词语集合之间的互信息，从候选标签集合中，确定目标视频数据的目标视频标签。由此可见，本申请提出的方法由于可以通过已有标签视频数据所建立的互信息索引表，来得到针对目标视频数据的第一候选视频标签，进而可以通过该第一候选视频标签来得到目标视频数据的目标视频标签，因此，提高了针对目标视频标签的获取效率。并且，第一候选视频标签还可以有多个以及多种，因此，还丰富了针对目标视频标签的标签种类。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构的结构示意图；

图2a是本申请提供的一种标签数据处理的场景示意图；

图2b是本申请提供的一种获取候选视频标签的场景示意图；

图2c是本申请提供的一种获取目标视频标签的场景示意图；

图3是本申请提供的一种标签数据处理方法的流程示意图；

图4是本申请提供的一种视频类型识别方法的流程示意图；

图5是本申请提供的一种视频标签获取方法的流程示意图；

图6是本申请提供的一种标签关联概率的表格示意图；

图7是本申请提供的一种模型可信度确定方法的流程示意图；

图8是本申请提供的一种标签获取方法的场景示意图；

图9a是本申请提供的一种终端设备的页面示意图；

图9b是本申请提供的一种终端设备的页面示意图；

图10是本申请提供的一种标签获取方法的流程示意图；

图11是本申请提供的一种标签数据处理装置的结构示意图；

图12是本申请提供的一种标签数据处理装置的结构示意图；

图13是本申请提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请中主要涉及到了人工智能中的机器学习。其中，机器学习(MachineLearning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请中所涉及到的机器学习主要指，通过机器学习得到标签生成模型、视频分类模型和可信度确定模型。其中，标签生成模型用于生成视频数据的视频标签，视频分类模型用于识别视频数据的视频类型，可信度确定模型用于识别视频标签与视频数据之间的可信度。标签生成模型、视频分类模型和可信度确定模型的具体用途可以参见下述步骤图3对应的实施例中的描述。

请参见图1，图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示，网络架构可以包括服务器200和终端设备集群，终端设备集群可以包括一个或者多个终端设备，这里将不对终端设备的数量进行限制。如图1所示，多个终端设备具体可以包括终端设备100a、终端设备101a、终端设备102a、…、终端设备103a；如图1所示，终端设备100a、终端设备101a、终端设备102a、…、终端设备103a均可以与服务器200进行网络连接，以便于每个终端设备可以通过网络连接与服务器200之间进行数据交互。

如图1所示的服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是：智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视等智能终端。

下面以终端设备100a与服务器200之间的通信为例，进行本申请实施例的具体描述。本申请实施例中具体描述了，如何通过已有标签视频数据的视频标签，来得到目标视频数据的视频标签。其中，已有标签视频数据相当于样本视频数据，是指已经被添加有视频标签的视频数据，换句话说，已有标签视频数据为已经被添加有视频标签的历史视频数据。目标视频数据则可以为任意一个需要添加视频标签的视频数据。其中，终端设备100a可以通过客户端将目标视频数据发送给服务器200，进而服务器200就可以为目标视频数据生成对应的视频标签，请参见下述：

请参见图2a，图2a是本申请提供的一种标签数据处理的场景示意图。如图2a所示，此处以服务器200通过已有标签视频数据101b的视频词语和视频标签来生成互信息索引表为例，进行本申请的说明。如区域101b所示，已有标签视频数据101b的视频词语包括视频词语1、视频词语2和视频词语3，已有标签视频数据101b的视频标签包括视频标签1和视频标签2。其中，已有标签视频数据101b的视频词语，可以包括已有标签视频数据101b的视频标题信息中的词语、视频描述信息中的词语以及视频字幕信息中的词语。可以理解的是，视频数据的视频标题信息也就是视频数据的标题，例如，视频数据的标题可以为“xx工程师自制直升机”等。视频数据的视频描述信息可以是关于视频数据的介绍信息，例如视频数据的视频描述信息可以为“该视频拍摄于xx场地，主要描述了xx”等。视频数据的视频字幕信息即为视频数据中的字幕，视频字幕信息可以是从视频数据中提取出来的字幕信息。

接着，服务器200可以通过组合单词数量对上述已有标签视频数据101b的视频词语进行组合，得到由已有标签视频数据101b的视频词语组成的视频词语集合，一个视频词语集合中所包括的视频词语不大于组合单词数量。此处假设组合单词数量为3，那么服务器200对已有标签视频数据101b的视频词语进行组合，一共可以得到区域104b中显示的7个视频词语集合，该7个视频词语集合分别为：视频词语集合105b、视频词语集合106b、视频词语集合107b、视频词语集合108b、视频词语集合109b、视频词语集合110b以及视频词语集合111b，每个视频词语集合中的视频词语的个数均不大于组合单词数量3。

其中，视频词语集合105b中包括视频词语1；视频词语集合106b中包括视频词语2；视频词语集合107b中包括视频词语3；视频词语集合108b中包括视频词语1和视频词语2；视频词语集合109b中包括视频词语1和视频词语3；视频词语集合110b中包括视频词语2和视频词语3；视频词语集合111b中包括视频词语1、视频词语2和视频词语3。

接下来，服务器200就可以构建上述所得到的每个视频词语集合分别与已有标签视频数据101b的视频标签之间的映射关系，并计算每个视频词语集合分别与已有标签视频数据101b的视频标签之间的互信息值，以生成互信息索引表。如表112b所示，表112b中除了表头“视频类型信息视频词语集合视频标签互信息值”，每行包含一个映射关系，一个映射关系中包括一个视频词语集合、一个视频标签、一个互信息值和一个视频类型信息。其中视频类型信息用于表征映射关系中所包含的视频标签所属的已有标签视频数据的视频类型，例如此处表112b中所包括的映射关系为已有标签视频数据101b的视频词语集合与已有标签视频数据101b的视频标签之间的映射关系，由表112b的第1列“视频类型信息”可知，已有标签视频数据101b的视频类型为电视剧的视频类型。其中，互信息值是通过映射关系中所包含的视频词语集合与视频标签共同所属的已有标签视频数据的视频数量，计算出来的，对于互信息值的具体计算过程可以参见下述步骤S102。

具体的，在表112b中，行100h中包括视频词语集合105b与视频标签1之间的映射关系，视频词语集合105b与视频标签1之间的互信息值为0.109。行101h中包括视频词语集合106b与视频标签1之间的映射关系，视频词语集合106b与视频标签1之间的互信息值为0.762。行102h中包括视频词语集合107b与视频标签1之间的映射关系，视频词语集合107b与视频标签1之间的互信息值为0.234。行103h中包括视频词语集合108b与视频标签1之间的映射关系，视频词语集合108b与视频标签1之间的互信息值为0.325。行104h中包括视频词语集合109b与视频标签1之间的映射关系，视频词语集合109b与视频标签1之间的互信息值为0.865。行105h中包括视频词语集合110b与视频标签1之间的映射关系，视频词语集合110b与视频标签1之间的互信息值为0.561。行106h中包括视频词语集合111b与视频标签1之间的映射关系，视频词语集合111b与视频标签1之间的互信息值为0.686。

更多的，行107h中包括视频词语集合105b与视频标签2之间的映射关系，视频词语集合105b与视频标签2之间的互信息值为0.356。行108h中包括视频词语集合106b与视频标签2之间的映射关系，视频词语集合106b与视频标签2之间的互信息值为0.891。行109h中包括视频词语集合107b与视频标签2之间的映射关系，视频词语集合107b与视频标签2之间的互信息值为0.985。行110h中包括视频词语集合108b与视频标签2之间的映射关系，视频词语集合108b与视频标签2之间的互信息值为0.997。行111h中包括视频词语集合109b与视频标签2之间的映射关系，视频词语集合109b与视频标签2之间的互信息值为0.416。行112h中包括视频词语集合110b与视频标签2之间的映射关系，视频词语集合110b与视频标签2之间的互信息值为0.632。行113h中包括视频词语集合111b与视频标签2之间的映射关系，视频词语集合111b与视频标签2之间的互信息值为0.367。

其中，服务器200可以将上述表112b中互信息值大于或等于互信息阈值的映射关系保留下来，用于生成互信息索引表，而去掉互信息值小于互信息阈值的映射关系。假设为互信息阈值为0.7，如表113b，表113b可以看做是通过已有标签视频数据101b的视频词语集合和视频标签所生成的互信息索引表，表113b中包括上述表112b中互信息值大于互信息阈值0.7的映射关系，具体包括上述表112b中行101h中的映射关系、行104h中的映射关系、行108h中的映射关系、行109h中的映射关系以及行110h中的映射关系。

上述为服务器200通过已有标签视频数据101b的视频词语集合和视频标签，来生成互信息索引表的过程，实际场景中，会涉及到多个已有标签视频数据，会通过多个已有标签视频数据的视频词语集合和视频标签来生成互信息索引表。用于生成互信息索引表的已有标签视频数据的视频数量，可以根据实际应用场景决定，对此不作限制。

请一并参见图2b，图2b是本申请提供的一种获取候选视频标签的场景示意图。如图2b所示，假设服务器200通过多个已有标签视频数据的视频词语集合和视频标签所生成的互信息索引表为表116b。服务器200还可以获取目标视频数据的视频词语集合，服务器获取目标视频数据的视频词语集合的过程，与获取已有标签视频数据的视频词语集合的过程相同。此处服务器200获取到目标视频数据的视频词语集合包括区域114b中的视频词语集合117b、视频词语集合118b和视频词语集合119b。视频词语集合117b中包括视频词语1，视频词语集合118b中包括视频词语2，视频词语集合119b中包括视频词语1和视频词语2。

若目标视频数据的视频类型为电视剧的视频类型，则服务器200可以在表116b中检索包含目标视频数据的视频词语集合、并且视频类型信息为电视剧的映射关系，作为目标映射关系。服务器200可以将目标映射关系所包含的视频标签，作为目标视频数据的候选视频标签。如表116b所示，在表116b中的行100k、行102k、行103k、行104k和行105k中的映射关系既包括“电视剧”的视频类型信息，也包括目标视频数据的视频词语集合。因此，可以将行100k中的视频标签1、行102k中的视频标签2、行103k中的视频标签4、行104k中的视频标签2和行105k中的视频标签3，作为目标视频数据的候选视频标签。因此，此处获取到的目标视频数据的候选视频标签就包括区域115b中的视频标签1、视频标签2、视频标签3和视频标签4。

请一并参见图2c，图2c是本申请提供的一种获取目标视频标签的场景示意图。服务器200可以从上述图2b中获取到的候选视频标签中，获取目标视频数据的目标视频标签，该目标视频标签也就是服务器200最终为目标视频数据所生成的视频标签。首先，服务器200可以获取每个候选视频标签的标签可信度，该标签可信度可以表征候选视频标签为目标视频标签的可信度。服务器200可以通过每个候选视频标签对应的互信息值，来得到每个候选视频标签的标签可信度。

其中，每个候选视频标签的互信息值的获取方式为：由于候选视频标签包括视频标签1，而视频标签1是从上述表116b的行100k中获取到的，因此，视频标签1的互信息值就为0.762。候选视频标签还包括视频标签2，而视频标签2是通过表116b的行102k和行104k所获取到的，因此，可以将行102k和行104k中的互信息值的最大值0.997作为视频标签2的互信息值。因此，同理，作为候选视频标签的视频标签3的互信息值为行105k中的互信息值0.997，作为候选视频标签的视频标签4的互信息值为行103k中的互信息值0.985。接着，服务器就可以通过视频标签1、视频标签2、视频标签3和视频标签4分别对应的互信息值，计算得到视频标签1、视频标签2、视频标签3和视频标签4分别对应的标签可信度。如区域100c所示，此处，计算得到的视频标签1对应的标签可信度为标签可信度1、视频标签2对应的标签可信度为标签可信度2、视频标签3对应的标签可信度为标签可信度3和视频标签4对应的标签可信度为标签可信度4。其中，服务器计算每个候选视频标签的标签可信度的具体过程，可以参见下述步骤S102。

接着，服务器200还可以将每个候选视频标签以及目标视频数据的视频特征向量，输入可信度确定模型101c中。其中，可信度确定模型101c是通过已有标签视频数据的视频特征向量与已有标签视频数据的视频标签训练得到的，可信度确定模型用于得到所输入的每个候选视频标签与目标视频数据之间的模型可信度，该模型可信度也可以表征候选视频标签为目标视频数据的视频标签的可信度。一个视频数据的视频特征向量，即为表示一个视频数据的机器语言，上述已有标签视频数据的视频特征向量和目标视频数据的视频特征向量的具体获取过程，可以参见下述步骤S101。

接着，服务器200可以通过可信度确定模型101c输出每个候选视频标签与目标视频数据之间的模型可信度，如区域102c所示，包括视频标签1的模型可信度1、视频标签2的模型可信度2、视频标签3的模型可信度3和视频标签4的模型可信度4。接着，如区域103c所示，服务器200可以通过每个候选视频标签分别对应的标签可信度以及模型可信度，计算得到每个候选视频标签的筛选标签可信度，该筛选标签可信度表征了最终的每个候选视频标签为目标视频数据的目标视频标签的可信度。此处，计算出的视频标签1的筛选标签可信度为筛选标签可信度1，视频标签2的筛选标签可信度为筛选标签可信度2，视频标签3的筛选标签可信度为筛选标签可信度3，视频标签4的筛选标签可信度为筛选标签可信度4。其中，计算每个候选视频标签的筛选标签可信度的具体过程也可以参见下述步骤S104。

服务器200可以将筛选标签可信度大于或者等于筛选可信度阈值的候选视频标签，作为目标视频数据的目标视频标签。其中，筛选可信度阈值可以根据实际应用场景自行设置，对此不作限制。如区域104c所示，服务器200最终得到的目标视频数据的目标视频标签就可以包括视频标签1和视频标签3。

接着，服务器200就可以将获取到的目标视频标签发送给终端设备100a，终端设备100a可以对目标视频数据和目标视频标签进行关联输出显示，以展示给用户查看。

可选的，上述获取目标视频数据的目标视频标签的过程还可以是终端设备100a执行的，换句话说，终端设备100a可以自行独立得到目标视频数据的目标视频标签，进而对目标视频数据和目标视频标签进行关联输出显示。当然，上述获取目标视频数据的目标视频标签的过程还可以由终端设备100a和服务器200共同执行。获取目标视频标签的执行主体根据具体应用场景决定，对此不作限制。

通过本申请所提供的方法，可以通过已有标签视频数据的视频词语集合和视频标签创建得到互信息索引库，进而可以通过所创建的互信息索引库来获取目标视频数据的目标视频标签，提高了针对目标视频标签的获取效率，并丰富了目标视频标签的标签类型。

请参见图3，图3是本申请提供的一种标签数据处理方法的流程示意图，该方法可以由终端设备(例如，上述图1所示的终端设备)执行，也可以由服务器(例如，上述图1所示的服务器200)执行，还可以由终端设备和服务器共同协作执行。为便于理解，本实施例以该方法由上述服务器执行为例进行说明，以阐述获取目标视频数据的目标视频标签的具体过程。如图3所示，该方法可以包括：

步骤S101，获取目标视频数据，确定目标视频数据的目标视频类型；

具体的，服务器可以获取到目标视频数据，该目标视频数据可以是任意一个视频数据，该目标视频数据可以携带有视频标题信息、视频描述信息和视频字幕信息。例如，目标视频数据可以是客户端向服务器发送的，客户端可以通过向服务器发送目标视频数据，以向服务器请求生成目标视频数据的视频标签，目标视频数据可以是用户在客户端所导入的任意一个视频。其中，目标视频数据的视频标题信息指目标视频数据的视频标题，也就是视频名称。目标视频数据的视频描述信息可以是与目标视频数据相关的介绍信息等。目标视频数据的视频字幕信息可以指视频数据中的视频字幕。

首选，服务器可以先获取目标视频数据的视频类型，可以将目标视频数据的视频类型称之为目标视频类型，例如该目标视频类型可以是电视剧的类型、电影的类型、游戏的类型、动漫的类型、科技的类型、政治的类型或者生活的类型等。下面描述如何获取目标视频数据的目标视频类型：

首先，服务器可以获取到目标视频数据的视频图像信息、视频音频信息以及视频文本信息。针对目标视频数据的视频图像信息，服务器可以抽取目标视频数据的图像帧，例如，可以采用FFmpeg均匀抽帧的方法，来对目标视频数据进行抽帧，即抽取目标视频数据的图像帧。其中，FFmpeg是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序，通过使用FFmpeg将目标视频数据转化为流，即可实现对目标视频数据的快速抽帧。其中，在抽取目标视频数据的图像帧时，可以以20毫秒的间隔对目标视频数据进行抽帧，通过对目标视频数据进行抽帧，可以得到目标视频数据中的多个图像帧。其中，每个图像帧可以是通过图像中的像素值进行表示的，一个图像帧可以通过所包含的像素值表示为一个序列，也可以通过所包含的像素值表示为一个矩阵。在本申请中，多个指至少两个。可以将对目标视频数据进行抽帧所得到的多个图像帧，作为目标视频数据的视频图像信息。

针对目标视频数据的视频音频信息，服务器可以从目标视频数据中，分离出目标视频数据的音频数据。接着，服务器可以对所分离出的目标视频数据的音频数据进行音频分帧，例如，同样可以采用上述FFmpeg均匀抽帧的方法，来对目标视频数据的音频数据进行分帧。通过对目标视频数据的音频数据进行分帧，可以得到目标视频数据的多个音频帧。其中，一个音频帧可以通过所包含的能量值表示为一个序列。在抽取目标视频数据的音频帧时，也可以以20毫秒的间隔来进行抽帧。

针对目标视频数据的视频文本信息，服务器可以通过目标视频数据的视频标题信息、视频描述信息和视频字幕信息来得到。其中，视频字幕信息可以是服务器通过对目标视频数据的视频画面进行ocr(一种通过图像识别，从图像中提取出文字的方法)识别，所识别的出来的。或者，视频字幕信息也可以是服务器通过对目标视频数据的音频数据进行asr(一种通过语音识别，将语音转化为文字的方法)识别，所识别出来的。由于，目标视频数据的视频字幕信息通常会比较长，因此，可以对目标视频数据的视频字幕信息进行分词，通过分词，可以获取到该视频字幕信息中的字幕关键词。其中，可以预先设定一个关键词匹配库，该关键词匹配库中所包含的词即为关键词，该关键词匹配库中未包含的词即不为关键词。因此，对字幕关键词进行分词后，可以将分词后所得到的多个词与关键词匹配库中的词进行匹配，保留下该多个词中关键词匹配库存在的词，作为目标视频数据的字幕关键词，丢掉该多个词中关键词匹配库不存在的词。通常，目标视频数据的视频标题信息和视频描述信息比较短，因此，可以直接将目标视频数据的视频标题信息、视频描述信息以及字幕关键词进行拼接，得到目标视频数据的视频文本信息。

可选的，若是目标视频数据的视频描述信息也比较长，则也可以对目标视频数据的视频描述信息进行分词，得到视频描述信息中的关键词，进而服务器可以将目标视频数据的视频标题信息、视频描述信息中的关键词和字幕关键词进行拼接，得到目标视频数据的视频文本信息。

在得到目标视频数据的视频图像信息、视频音频信息以及视频文本信息之后，进一步的，服务器还可以构建目标视频数据的视频音频信息中的每个音频帧的梅尔频谱图特征。由于梅尔频谱图特征能够抽取得到音频帧的频谱图的轮廓信息，因此，通过梅尔频谱图特征来表示音频帧，可以更能体现出音频帧的能量变化特征。服务器可以将上述视频图像信息、视频音频信息中的每个音频帧的梅尔频谱图特征以及视频文本信息，输入到视频分类模型中。

其中，视频分类模型为通过已有标签视频数据的视频音频信息、视频文本信息、视频音频信息、以及视频类型训练得到。其中，已有标签视频数据即为已经被添加有对应的视频标签的历史视频数据。通过使用大量的已有标签视频数据的视频音频信息、视频文本信息、视频音频信息、以及视频类型来训练得到视频分类模型，使得视频分类模型可以学习到哪种视频音频信息、视频文本信息和视频音频信息对应于哪种视频类型。因此，通过向视频分类模型输入目标视频数据的视频音频信息、视频文本信息和视频音频信息，视频分类模型可以对应输出目标视频数据的视频类型。其中，可以将目标视频数据的视频类型称之为目标视频类型。

其中，视频分类模型得到目标视频数据的目标视频类型的具体过程为：

视频分类模型可以生成服务器所输入的每个图像帧(表示为一个序列或者矩阵)的图像特征向量，该图像特征向量即为视频分类模型学习到的每个图像帧所包含的特征，一个图像帧对应于一个图像特征向量。视频分类模型还可以生成服务器所输入的每个音频帧的梅尔频谱图特征对应的音频特征向量，该音频特征向量即为视频分类模型学习到的每个音频帧的梅尔频谱图特征所包含的特征，一个音频帧对应于一个音频特征向量。视频分类模型还可以生成服务器所输入的视频文本信息的文本特征向量，该文本特征向量即为视频分类模型学习到的视频文本信息所包含的特征。

接着，视频分类模型可以对所有图像特征向量进行特征向量融合，例如，视频分类模型可以通过NetVLAD网络来对每个图像特征向量进行特征向量融合，其中，NetVLAD网络为一种特征提取网络，可以实现对特征的降维，例如，将多个特征向量融合为一个特征向量，以实现对特征的降维。因此，视频分类模型可以通过NetVLAD网络，将每个图像帧分别对应的图像特征向量，融合为一个特征向量，可以将融合每个图像特征向量所得到的特征向量称之为图像融合特征向量。

视频分类模型还可以对所有音频特征向量进行特征向量融合，例如，视频分类模型同样可以通过NetVLAD网络，来对每个音频特征向量进行特征向量融合。因此，视频分类模型可以通过NetVLAD网络，将每个音频帧分别对应的音频特征向量，融合为一个特征向量，可以将融合每个音频特征向量所得到的特征向量称之为音频融合特征向量。

视频分类模型可以将上述图像融合特征向量、音频融合特征向量以及文本特征向量进行向量拼接，得到目标视频数据的视频特征向量。其中，目标视频数据的视频特征向量为一个多模态的特征向量，它同时融合了目标视频数据的视频文本信息的文本特征、视频音频信息的音频特征以及视频图像信息的图像特征，因此，通过视频分类模型所得到的目标视频数据的视频特征向量，可以较为全面且准确地表示目标视频数据的视频特征。换句话说，目标视频数据的视频特征向量，为视频分类模型最终学习到的目标视频数据的特征。

其中，由于视频分类模型已经通过已有标签视频数据的视频文本信息、视频音频信息以及视频图像信息，采用与上述相同的过程学习到了已有标签视频数据的特征，也就是学习到了已有标签视频数据的视频特征向量，并且，也学习到了各个已有标签视频数据的视频特征向量应该对应于哪种视频类型。因此，视频分类模型可以通过一个全连接层，输出上述所学习到的目标视频数据的视频特征向量所对应的视频类型，即输出目标视频类型。

通过上述过程，即完成了对目标视频数据的视频类型的识别，获取到了目标视频数据的目标视频类型。

请参见图4，图4是本申请提供的一种视频类型识别方法的流程示意图。图4中的网络结构为视频分类模型的网络结构。S201：首先，服务器可以将目标视频数据的视频帧序列输入视频分类模型，该视频帧序列也就是上述目标视频数据的多个图像帧分别对应的像素序列。S202：视频分类模型可以构建视频帧表示，其中，构建视频帧表示也就是得到每个图像帧分别对应的图像特征向量，该图像特征向量即为图像帧的一种向量表示。其中，视频分类模型可以通过inception-resnet2网络(一种用于进行特征提取的卷积网络)来得到每个图像帧的图像特征向量。S203：服务器可以对所得到的多个图像特征向量进行多帧特征融合，也就是将多个图像特征向量进行融合，得到一个图像融合特征向量。

接着，S204：服务器可以将目标视频数据的音频帧序列输入视频分类模型，该音频帧序列也就是上述目标视频数据的多个音频帧分别对应的能量值序列。S205：视频分类模型可以构建音频帧表示，其中，构建音频帧表示也就是得到每个音频帧分别对应的音频特征向量，该音频特征向量即为音频帧的一种向量表示。其中，视频分类模型可以通过Vggish网络(一种音频特征提取网络)来得到每个音频帧的音频特征向量。S206：服务器可以对所得到的多个音频特征向量进行多帧特征融合，也就是将多个音频特征向量进行融合，得到一个音频融合特征向量。

接着，S207：服务器可以通过目标视频数据的视频标题信息、视频描述信息和字幕关键词，得到目标视频数据的视频文本信息。S208：服务器可以将目标视频数据的视频文本信息输入到视频分类模型，视频分类模型可以通过自注意力机制网络(一种自然语言处理网络)，来构建目标视频数据的视频文本信息的文本表示。S209：视频分类模型通过构建目标视频数据的视频文本信息的文本表示，即可得到该视频文本信息对应的文本特征向量。该文本特征向量即为视频分类模型所得到的文本特征。

接着，S210：视频分类模型可以对上述获取到的图像融合特征向量、音频融合特征向量以及文本特征向量进行向量拼接，得到目标视频数据的视频特征向量。其中，目标视频数据的视频特征向量也就是目标视频数据的视频多模态特征融合表示。S211：视频分类模型可以将目标视频数据的视频特征向量给到全连接层网络，通过该全连接层网络对目标视频数据的视频特征向量进行识别，即可得到目标视频数据的视频类型。S212：视频分类模型可以输出所得到的目标视频数据的视频类型，即输出目标视频类型。

步骤S102，获取互信息索引表；互信息索引表是基于至少两个已有标签视频数据的已有视频词语集合与至少两个已有标签视频数据的视频标签之间的互信息所创建的；

具体的，服务器还可以获取互信息索引表，该互信息索引表为用于获取目标视频数据的候选视频标签的索引表，可以将从互信息索引表中所获取到的目标视频数据的候选视频标签统称为第一候选视频标签。其中，互信息索引表是通过已有标签视频数据的视频词语集合、以及该已有标签视频数据的视频标签获取到的。可以将已有标签视频数据的视频词语称之为已有视频词语，将已有标签视频数据的视频词语集合称之为已有视频词语集合，将目标视频数据的视频词语称之为目标视频词语，将目标视频数据的视频词语集合称之为目标视频词语集合。其中，互信息索引表的具体获取过程为：

服务器可以通过多个(指至少两个)已有标签视频数据来创建互信息索引表，服务器可以分别获取每个已有标签视频数据的已有视频词语集合。其中，已有标签视频数据的已有视频词语集合的获取方式为：服务器可以获取到已有标签视频数据视频标题信息、视频描述信息和视频字幕信息。服务器可以对已有标签视频数据的视频标题信息、视频描述信息和视频字幕信息分别进行分词，得到视频标题信息中的词语、视频描述信息中的词语以及视频字幕信息中的词语。可以将视频标题信息中的词语称之为标题词语，可以将视频描述信息中的词语称之为描述词语，可以将视频字幕信息中的词语称之为字幕词语。例如，若视频标题信息为“今天晚上聚餐”，则对该视频标题信息进行分词，可以得到标题词语“今天”、标题词语“晚上”和标题词语“聚餐”。

其中，由于视频数据的视频字幕信息通常比较长，视频字幕信息中的词语通常就比较多，因此，可以只取视频字幕信息中的字幕关键词，作为视频字幕信息中的字幕词语。可以通过关键词匹配库来筛选出视频字幕信息中的字幕关键词，即关键词匹配库中存在的词为关键词，关键词匹配库中不存在的词不为关键词。可以将视频字幕信息中在关键词匹配库存在的词语，作为视频字幕信息的字幕词语，将视频字幕信息中在关键词匹配库不存在的词语丢弃。

可以将已有标签视频数据的标题词语、描述词语和字幕词语统称为已有标签视频数据的已有视频词语。接下来，服务器可以对每个已有标签视频数据分别对应的已有视频词语进行组合，得到每个已有标签视频数据分别对应的已有视频词语集合。具体的，服务器可以根据组合单词数量对已有标签视频数据的已有视频词语进行组合，得到已有标签视频数据的已有视频词语集合，一个已有视频词语集合中所包括的已有视频词语的词语数量不大于组合单词数量。可以理解的是，对已有视频词语进行组合指的是对属于同一个已有标签视频数据的多个已有视频词语之间的组合。

举个例子，若某个已有标签视频数据的已有视频词语包括视频词语1、视频标词语2和视频词语3，组合单词数量,为2，则对该已有标签视频数据的已有视频词语进行组合，可以得到包括视频词语1的视频词语集合、包括视频词语2的视频词语集合、包括视频词语3的视频词语集合、包括视频词语1和视频词语2的视频词语集合、包括视频词语1和视频词语3的视频词语集合以及包括视频词语2和视频词语3的视频词语集合。若组合单词数量为3，则对该已有标签视频数据的已有视频词语进行组合，除了可以得到上述6个视频词语集合之外，还能得到包括视频词语1、视频词语2和视频词语3的视频词语集合。

服务器可以创建每个已有标签视频数据的已有视频词语集合与该每个已有标签视频数据的视频标签之间的映射关系，一个映射关系对应于一个已有视频词语集合和一个视频标签。举个例子，若存在已有标签视频数据1和已有标签视频数据2，已有标签视频数据1的视频标签包括视频标签b1和视频标签b2，已有标签视频数据1的已有视频词语集合包括已有视频词语集合j1和已有视频词语集合j2。已有标签视频数据2的视频标签包括视频标签b3和视频标签b4，已有标签视频数据2的已有视频词语集合包括已有视频词语集合j1和已有视频词语集合j3。

则服务器创建的映射关系，可以包括针对已有标签视频数据1的映射关系：已有视频词语集合j1与视频标签b1之间的映射关系、已有视频词语集合j1与视频标签b2之间的映射关系、已有视频词语集合j2与视频标签b1之间的映射关系、已有视频词语集合j2与视频标签b2之间的映射关系；还可以包括针对已有标签视频数据2的映射关系：已有视频词语集合j1与视频标签b3之间的映射关系、已有视频词语集合j1与视频标签b4之间的映射关系、已有视频词语集合j3与视频标签b3之间的映射关系、已有视频词语集合j3与视频标签b4之间的映射关系。

服务器还可以计算每个映射关系所包含的视频标签与已有视频词语集合之间的互信息值，该互信息值表征了已有视频词语集合和视频标签之间的关联性，换句话说，该互信息值表征了已有视频词语集合与视频标签共同出现的概率。举个例子，已有视频词语集合x和视频标签y之间的互信息值指，当某个已有标签视频数据的已有视频词语集合包括已有视频词语集合x时，该已有标签视频数据的视频标签中同时包括视频标签y的概率。

下面描述互信息值的计算方式：其中，互信息值可以针对每一种视频类型的已有标签视频数据分别计算，一个映射关系对应于一个互信息值。每个映射关系的互信息值的计算方式相同，此处以计算映射关系x的互信息值为例进行说明。假设映射关系x包括已有视频词语集合y和视频标签z，并且，视频标签z所属的已有标签视频数据的视频类型为视频类型h，那么，服务器可以获取到已有视频词语集合y在具有视频类型h的已有标签视频数据的已有视频词语集合中的出现次数。可以理解的是，属于同一个已有标签视频数据的多个已有视频词语集合中没有重复的已有视频词语集合，那么可以理解为上述已有视频词语集合y的出现次数，就为具有已有视频词语集合y的已有标签视频数据的视频数量。

举个例子，若具有视频类型h的已有标签视频数据包括已有标签视频数据1、已有标签视频数据2和已有标签视频数据3，其中，已有标签视频数据1的已有视频词语集合包括已有视频词语集合y，已有标签视频数据2的已有视频词语集合也包括已有视频词语集合y，已有标签视频数据3的已有视频词语集合不包括已有视频词语集合y，那么已有视频词语集合y的出现次数就为2。

服务器还可以以与获取已有视频词语集合y的出现次数同样的方式，获取到视频标签z在具有视频类型h的已有标签视频数据的视频标签中的出现次数。此外，服务器还可以获取到已有视频词语集合y和视频标签z的共现次数，该共现次数也就是已有视频词语集合y和视频标签z共同所属的已有标签视频数据的视频数量。举个例子，若具有视频类型h的已有标签视频数据包括已有标签视频数据1、已有标签视频数据2和已有标签视频数据3，并且，只有已有标签视频数据1的已有视频词语集合包括已有视频词语集合y且已有标签视频数据1的视频标签中包括视频标签z，则已有视频词语集合y和视频标签z的共现次数就为1。

服务器在获取到已有视频词语集合h的出现次数(可以记为c1)、视频标签z的出现次数(可以记为c2)以及已有视频词语集合h与视频标签z(可以记为c3)之间的共现次数之后，可以将已有视频词语集合h与视频标签z之间的共现次数的平方项除以已有视频词语集合h的出现次数与视频标签z的出现次数之间的乘积，作为已有视频词语集合h与视频标签z之间的互信息值，即作为映射关系x对应的互信息值，换句话说，映射关系x对应的互信息值就等于

其中，服务器可以将互信息值大于或等于互信息阈值的映射关系，称之为保留映射关系，该保留映射关系为用于生成互信息索引表的映射关系，而将互信息值小于该互信息阈值的映射关系丢弃。换句话说，服务器可以对映射关系进行筛选，去掉互信息值较小的映射关系，保留互信息值较大的映射关系来生成互信息索引表。

更多的，服务器还可以根据每个保留映射关系所包含的视频标签所属的已有标签视频数据的视频类型，分别为每个保留映射关系添加视频类型信息，该视频类型信息说明了每个保留映射关系所包含的视频标签所属的已有标签视频数据的视频类型。例如，若保留映射关系中所包含的视频标签所属的已有标签视频数据的视频类型为电视剧，那么该保留映射关系被添加的视频类型信息就可以为电视剧。若保留映射关系中所包含的视频标签所属的已有标签视频数据的视频类型为电影，那么该保留映射关系被添加的视频类型信息就可以为电影。

服务器可以根据上述每个保留映射关系以及每个保留映射关系被添加的视频类型信息，生成互信息索引表。换句话说，互信息索引表中包括每个保留映射关系，且互信息索引表中每个保留映射关系还携带有对应的视频类型信息，实际上，互信息索引表中还包括每个保留映射关系分别对应的互信息值。

其中，上述互信息索引表可以是服务器预先生成，并存储下来的，服务器可以直接从存储区中获取到所生成的互信息索引表。换句话说，并不需要每获取到一个目标视频数据，就重新实时生成互信息索引表，服务器可以直接获取到互信息索引表。更多的，服务器可以对所生成的互信息索引表进行定期更新，例如使用新获取到的已有标签视频数据的已有视频词语集合和视频标签进行更新。

步骤S103，获取目标视频数据的目标视频词语集合，根据目标视频词语集合和目标视频类型，在互信息索引表中获取目标视频数据的第一候选视频标签；第一候选视频标签，为具有目标视频类型的已有标签视频数据的视频标签；

具体的，服务器可以以获取已有标签视频数据的已有视频词语集合相同的方式，获取到目标视频数据的目标视频词语集合。即服务器可以获取到目标视频数据的视频标题信息、视频描述信息以及视频字幕信息，服务器可以对目标视频数据的视频标题信息、视频描述信息以及视频字幕信息进行分词，得到目标视频数据的视频标题信息中的标题词语、视频描述信息中的描述词语以及视频字幕信息中的字幕词语。

服务器可以将目标视频数据的标题词语、描述词语以及字幕词语，作为目标视频数据的目标视频词语。服务器可以通过组合单词数量，对目标视频数据的目标视频词语进行组合，得到目标视频数据的目标视频词语集合，一个目标视频词语集合中的目标视频词语的词语数量不大于组合单词数量。其中，可以理解的是，已有标签视频数据对应的组合单词数量与目标视频数据对应的组合单词数量相同。

服务器可以根据目标视频数据的视频类型(即目标视频类型)，在互信息索引表中，检索目标视频词语集合。其中，互信息索引表中的映射关系被添加的视频类型信息还包括目标视频类型信息，该目标视频类型信息，表明了映射关系中所包含的视频标签所属的已有标签视频数据的视频类型，为目标视频类型，即与目标视频数据是相同的视频类型。服务器可以将在互信息索引表中检索到的，与目标视频词语集合相同的已有视频词语集合，称之为目标词语集合。服务器可以将互信息索引表中，携带有目标视频类型信息，并且包括该目标词语集合的映射关系，称之为目标映射关系。

服务器可以将目标映射关系所包括的视频标签，作为目标视频数据的第一候选视频标签。

步骤S104，将第一候选视频标签添加到候选标签集合，根据第一候选视频标签与所对应的已有视频词语集合之间的互信息，从候选标签集合中，确定目标视频数据的目标视频标签；

具体的，服务器可以将上述所获取到的目标视频数据的第一候选视频标签，添加到候选标签集合中。更多的，候选标签集合中还可以包括第二候选视频标签，第二候选视频标签的获取方式可以是：

服务器可以将目标视频数据的视频特征向量以及目标视频类型，输入标签生成模型。其中，标签生成模型是通过大量已有标签视频数据的视频特征向量、该已有标签视频数据的视频标签以及该已有标签视频数据的视频类型训练得到。或者，服务器也可以将目标视频数据的视频图像信息、视频文本信息和视频音频信息以及目标视频类型，输入标签生成模型，通过标签生成模型来生成目标视频数据的视频特征向量。通过已有标签视频数据的视频特征向量、视频标签以及视频类型训练得到的标签生成模型，可以学习到哪种视频特征向量对应有哪些视频标签，以及哪种视频类型的视频数据对应有哪些视频标签。

标签生成模型可以根据获取到的目标视频数据的视频特征向量以及目标视频类型，生成目标视频数据的多个视频标签。可以将标签生成模型生成的目标视频数据的视频标签，称之为视频生成标签。并且，标签生成模型在生成视频生成标签时，还可以得到针对每个视频生成标签的生成概率。服务器可以将生成概率大于或者等于生成概率阈值的视频生成标签，作为上述第二候选视频标签。其中，生成概率阈值可以根据实际应用场景进行设置，对此不作限制。

请参见图5，图5是本申请提供的一种视频标签获取方法的流程示意图。图5中的网络结构为标签生成模型的网络结构。S301：首先，服务器可以将目标视频数据的视频帧序列输入标签生成模型，该视频帧序列也就是上述目标视频数据的多个图像帧分别对应的像素序列。S302：标签生成模型可以构建视频帧表示，其中，构建视频帧表示也就是得到每个图像帧分别对应的图像特征向量，该图像特征向量即为图像帧的一种向量表示。其中，标签生成模型可以通过inception-resnet2网络(一种用于进行特征提取的卷积网络)来得到每个图像帧的图像特征向量。S303：服务器可以对所得到的多个图像特征向量进行多帧特征融合，也就是将多个图像特征向量进行融合，得到一个图像融合特征向量。

接着，S304：服务器可以将目标视频数据的音频帧序列输入标签生成模型，该音频帧序列也就是上述目标视频数据的多个音频帧分别对应的能量值序列。S305：标签生成模型可以构建音频帧表示，其中，构建音频帧表示也就是得到每个音频帧分别对应的音频特征向量，该音频特征向量即为音频帧的一种向量表示。其中，标签生成模型可以通过Vggish网络(一种音频特征提取网络)来得到每个音频帧的音频特征向量。S306：服务器可以对所得到的多个音频特征向量进行多帧特征融合，也就是将多个音频特征向量进行融合，得到一个音频融合特征向量。

接着，S307：服务器可以通过目标视频数据的视频标题信息、视频描述信息和字幕关键词，得到目标视频数据的视频文本信息。S308：服务器可以将目标视频数据的视频文本信息输入到标签生成模型，标签生成模型可以通过Transformer Encoder网络(一种深度学习网络)，来构建目标视频数据的视频文本信息的文本表示。S309：标签生成模型通过构建目标视频数据的视频文本信息的文本表示，即可得到该视频文本信息对应的文本特征向量。该文本特征向量即为标签生成模型所得到的文本特征。

接着，S310：标签生成模型可以将上述所得到的目标视频数据的音频融合特征向量、图像融合特征向量和文本特征向量输入特征提取器，该特征提取器也可以是由上述Transformer Encoder网络所构成的。此外，服务器还可以将目标视频数据的目标视频类型输入特征提取器，通过特征提取器可以提取得到目标视频数据的视频特征向量，进而视频分类模型就可以通过所得到的目标视频数据的视频特征向量以及目标视频类型，输出为目标视频数据所生成的多个模型生成标签，该多个模型生成标签具体包括此处的标签1、标签2、……和标签n。视频分类模型还会输出所生成的每个模型生成标签的生成概率。服务器可以将该生成概率大于或者等于生成概率阈值的视频生成标签，作为上述第二候选视频标签。

其中，上述候选标签集合中还可以包括第三候选视频标签。第三候选视频标签的获取过程可以为：服务器可以获取到第一候选视频标签的关联标签，可以将第一候选视频标签的关联标签称之为第一关联标签。其中，第一关联标签，是通过第一候选视频标签与第一候选视频数据的视频标签在所有已有标签视频数据的视频标签中的共现次数所决定的。其中，第一候选视频数据为所属的视频标签中包含第一候选视频标签的已有标签视频数据。服务器还可以获取到第二候选视频标签的关联标签，可以将第二候选视频标签的关联标签称之为第二关联标签。其中，第二关联标签，是通过第二候选视频标签与第二候选视频数据的视频标签在所有已有标签视频数据的视频标签中的共现次数所决定的。其中，第二候选视频数据为所属的视频标签中包含第二候选视频标签的已有标签视频数据。可以将上述第一关联标签和第二关联标签均作为上述第三候选视频标签。

其中，在获取第三候选视频标签时，均是在视频类型为目标视频类型的已有标签视频数据的视频标签中获取。因此，上述第一候选视频数据和第二候选视频数据的视频类型均为目标视频类型。上述第一候选视频标签与第一候选视频数据的视频标签在所有已有标签视频数据的视频标签中的共现次数，是指第一候选视频标签与第一候选视频数据的视频标签，在所有视频类型为目标视频类型的已有标签视频数据的视频标签中的共现次数。上述第二候选视频标签与第二候选视频数据的视频标签在所有已有标签视频数据的视频标签中的共现次数，同样是指第二候选视频标签与第二候选视频数据的视频标签，在所有视频类型为目标视频类型的已有标签视频数据的视频标签中的共现次数。

具体的，服务器可以统计得到第一候选视频标签与第一候选视频数据的视频标签在所有视频类型为目标视频类型的已有标签视频数据中的共现次数。举个例子，若第一候选视频标签包括视频标签b1，存在2个第一候选视频数据，一个第一候选视频数据的视频标签中包括视频标签b1、视频标签b2和视频标签b3，另一个第一候选视频数据的视频标签中包括视频标签b1和视频标签b2。那么，视频标签b1与视频标签b2的共现次数就为2，视频标签b1与视频标签b3的共现次数就为1。

接着，服务器可以通过第一候选视频标签与第一候选视频数据的视频标签在所有已有标签视频数据中的共现次数，计算得到第一候选视频标签与第一候选视频数据的视频标签之间的标签关联概率。接着上段所举的例子，若除了上述2个第一候选视频数据之外，还另外存在3个视频类型为目标视频类型的已有标签视频数据，该3个已有标签视频数据的视频标签中不包括上述视频标签b1。

那么，视频标签b1与视频标签b2之间的共现概率，就为视频标签b1与视频标签b2之间的共现次数除以所有已有标签视频数据(包括上述2个候选视频数据和此处的3个另外的已有标签视频数据)的视频数量的值，即2/5。视频标签b1在所有目标视频类型的已有标签视频数据的视频标签中的出现概率，就为视频标签b1出现的次数除以所有目标视频类型的已有标签视频数据的数量的值，即2/5。视频标签b1与视频标签b2之间的标签关联概率，为视频标签b1与视频标签b2之间的共现概率2/5除以视频标签b1的出现概率2/5，为1。

同理，视频标签b1与视频标签b3之间的共现概率，就为视频标签b1与视频标签b3之间的共现次数除以所有已有标签视频数据(包括上述2个候选视频数据和此处的3个另外的已有标签视频数据)的视频数量的值，即1/5。视频标签b1在所有目标视频类型的已有标签视频数据的视频标签中的出现概率，就为视频标签b1出现的次数除以所有目标视频类型的已有标签视频数据的数量的值，即2/5。视频标签b1与视频标签b3之间的标签关联概率，为视频标签b1与视频标签b3之间的共现概率1/5除以视频标签b1的出现概率2/5，为1/2。

通过上述过程，服务器就可以获取到第一候选视频数据的每个视频标签分别与第一候选视频标签之间的标签关联概率。服务器可以将第一候选视频数据的视频标签中，与第一候选视频标签之间的标签关联概率大于或者等于关联概率阈值的视频标签，作为第一候选视频标签的第一关联标签。同理，服务器可以通过与获取第一候选视频标签的第一关联标签相同的方式，获取到第二候选视频标签的第二关联标签。通过上述方式，即可根据视频标签与视频标签之间的标签关联度，进而获取到已经获取到的第一候选视频标签的第一关联标签，以及第二候选视频标签的第二关联标签。可以将第一关联标签和第二关联标签统称为第三候选视频标签。其中，上述关联概率阈值也可以根据实际应用场景进行设置。

请参见图6，图6是本申请提供的一种标签关联概率的表格示意图。如图6所示，假设目标视频数据的目标视频类型为“电影”的视频类型，假设，图6的表中的原标签为上述第一候选视频标签，关联标签为第一候选视频数据的视频标签。并且，计算出的标签b1与标签b2之间的标签关联概率为0.937，标签b3与标签b4之间的标签关联概率为0.856，标签b5与标签b6之间的标签关联概率为0.717。假设关联概率阈值为0.8，由于标签b1与标签b2之间的标签关联概率0.937、以及标签b3与标签b4之间的标签关联概率0.856均大于0.8，则可以将标签b2和标签b4作为上述第一关联标签。

由上可知，候选标签集合中可以包括上述第一候选视频标签、第二候选视频标签和第三候选视频标签。可以将候选标签集合中的第一候选视频标签、第二候选视频标签和第三候选视频标签统称为目标视频数据的候选视频标签。服务器可以通过候选标签集合中的候选视频标签对应的生成概率或者互信息值，获取到候选标签集合中的每个候选视频标签与目标视频数据之间的标签可信度，进而服务器可以通过每个候选视频标签与目标视频数据之间的标签可信度，从候选标签集合中，获取到目标视频数据的目标视频标签。

具体的，假设候选标签集合中包括候选视频标签b_l，l为小于或等于候选标签集合中候选视频标签的标签总数量的正整数。若候选视频标签b_l属于第一候选视频标签，而不属于第二候选视频标签，则可以根据候选视频标签b_l与所对应的已有视频词语集合之间的互信息，来获取候选视频标签b_l与目标视频数据之间的标签可信度。具体为，服务器可以从互信息索引表中获取到候选视频标签b_l与所对应的已有视频词语集合之间的互信息值，并获取到候选视频标签b_l所对应的已有视频词语集合中的词语字数，还可以获取到可信度调节参数。举个例子，若候选视频标签b_l所对应的已有视频词语集合为“网购购物节促销”，则该已有视频词语集合中的词语字数就为7；若候选视频标签b_l所对应的已有视频词语集合为“足球”，则该已有视频词语集合中的词语字数就为2。

服务器可以将可信度调节参数、候选视频标签b_l所对应的已有视频词语集合中的词语字数、以及候选视频标签b_l与所对应的已有视频词语集合之间的互信息值之间的乘积，作为候选视频标签b_l与目标视频数据之间的标签可信度。由此可知，候选视频标签b_l所对应的已有视频词语集合中的词语字数越多，候选视频标签b_l与目标视频数据之间的标签可信度也就越高。

其中，上述可信度调节参数可以为自行设置的值域在某个合理范围内的参数，由于候选视频标签b_l所对应的已有视频词语集合中的词语字数可能会比较多，导致候选视频标签b_l与目标视频数据之间的标签可信度过大，所以可以通过可信度调节参数可以将候选视频标签b_l与目标视频数据之间的标签可信度调节到一个正常的范围，例如调节到小于10等。

若候选视频标签b_l属于第二候选视频标签，而不属于第一候选视频标签，那么候选视频标签b_l与目标视频数据之间的标签可信度，就可以为上述所获取到的候选视频标签b_l对应的生成概率。

若候选视频标签b_l既属于第一候选视频标签，也属于第二候选视频标签，则服务器可以获取第一候选视频标签对应的第一标签配置权重，并获取第二候选视频标签对应的第二标签配置权重。

服务器可以通过第一标签配置权重对候选视频标签b_l只属于第一候选视频标签时的标签可信度进行加权，得到一个加权值，服务器还可以通过第二标签配置权重对候选视频标签b_l对应的生成概率进行加权，得到另一个加权值。进而服务器可以将该两个加权值进行求和，即可得到候选视频标签b_l与目标视频数据之间的标签可信度。

此外，假设候选标签集合中还包括候选视频标签b_j，j为小于或等于候选标签集合中候选视频标签的标签总数量的正整数。若候选视频标签b_j为上述候选视频标签b_l的第一关联标签，则服务器可以将候选视频标签b_j与候选视频标签b_l之间的标签关联度(可以称之为第一标签关联度)、与候选视频标签b_l只属于第一候选视频标签时的标签可信度之间的乘积，作为候选视频标签b_j与目标视频数据之间的标签可信度。若候选视频标签b_j为上述候选视频标签b_l的第二关联标签，则服务器可以将候选视频标签b_j与候选视频标签b_l之间的标签关联度(可以称之为第二标签关联度)、与候选视频标签b_l对应的生成概率之间的乘积，作为候选视频标签b_j与目标视频数据之间的标签可信度。

其中，候选视频标签b_j与候选视频标签b_l之间的标签关联度(为第一标签关联度或者第二标签关联度)，就为候选视频标签b_j与候选视频标签b_l之间的标签关联概率。上述情况下，需要候选标签集合中只存在一个候选视频标签b_j。若是候选标签集合中存在多个候选视频标签b_j，则计算候选视频标签b_j的标签可信度的过程，可以参见下述图8中的描述。

通过上述过程，即可得到候选标签集合中的每个候选视频标签的标签可信度。接着，服务器还可以获取到每个候选视频标签的模型可信度，服务器可以通过每个候选视频标签分别对应的标签可信度和模型可信度，得到每个候选视频标签最终对应的筛选标签可信度，进而服务器通过每个候选视频标签的筛选标签可信度，即可从候选标签集合中，获取目标视频数据的目标视频标签。

具体为，服务器可以将候选标签集合中的每个候选视频标签和目标视频数据的视频特征向量，输入可信度确定模型。其中，可信度确定模型是通过大量已有标签视频数据的视频特征向量和该已有标签视频数据的视频标签训练得到。通过已有标签视频数据的视频特征向量和该已有标签视频数据的视频标签训练得到的可信度确定模型，可以学习到哪种视频特征向量与哪种视频标签越相关。视频特征向量与视频标签越相关，那么可信度确定模型得到的该视频特征向量与对应的视频标签之间的模型可信度也就越高。其中，可信度确定模型也可以自行得到视频数据的视频特征向量，因此，服务器也可以将目标视频数据的视频图像信息、视频音频信息和视频文本信息输入可信度确定模型，由可信度确定模型根据目标视频数据的视频图像信息、视频音频信息和视频文本信息，来得到目标视频数据的视频特征向量。接着，可信度确定模型可以根据获取到的目标视频数据的视频特征向量，对应输出目标视频数据分别与每个候选视频标签之间的模型可信度。

服务器可以获取到针对标签可信度的第二可信度配置权重，并获取到针对模型可信度的第一可信度配置权重。其中，第一可信度配置权重和第二可信度配置权重可以是自行设定的在合理范围内的参数，例如第一可信配置权重可以是0.7，第二可信度配置权重可以是0.3。服务器可以通过第一可信度配置权重对每个候选视频标签的模型可信度进行加权，得到每个候选视频标签分别对应的加权值，还可以通过第二可信度配置权重对每个候选视频标签的标签可信度进行加权，得到每个候选视频标签分别对应的另一个加权值。服务器可以将每个候选视频标签分别对应的该两个加权值进行求和，即可每个候选视频标签分别对应的筛选标签可信度。举个例子，若候选视频标签b的标签可信度为x1、模型可信度为x2，并且，第一可信度配置权重为y1，第二可信度配置权重为y2，那么，候选视频标签b的筛选标签可信度就为x1*y2+x2*y1。

通过上述过程，服务器即可得到每个候选视频标签的筛选标签可信度，服务器可以将候选标签集合中筛选标签可信度大于或者等于筛选可信度阈值的候选视频标签，作为目标视频数据的目标视频标签。其中，筛选可信度阈值可以根据实际应用场景进行设置，对此不作限制。此处，服务器获取到的目标视频标签，即为最终为目标视频数据生成的视频标签。

服务器还可以将上述所得到的目标视频标签发送给客户端，使得客户端可以对目标视频数据和目标视频标签进行关联输出显示，以呈现给用户查看。

请参见图7，图7是本申请提供的一种模型可信度确定方法的流程示意图。图7中的网络结构为可信度确定模型的网络结构。S401：首先，服务器可以将目标视频数据的视频帧序列输入可信度确定模型，该视频帧序列也就是上述目标视频数据的多个图像帧分别对应的像素序列。S402：可信度确定模型可以构建视频帧表示，其中，构建视频帧表示也就是得到每个图像帧分别对应的图像特征向量，该图像特征向量即为图像帧的一种向量表示。其中，可信度确定模型可以通过inception-resnet2网络(一种用于进行特征提取的卷积网络)来得到每个图像帧的图像特征向量。S403：服务器可以对所得到的多个图像特征向量进行多帧特征融合，也就是将多个图像特征向量进行融合，得到一个图像融合特征向量。

接着，S404：服务器可以将目标视频数据的音频帧序列输入可信度确定模型，该音频帧序列也就是上述目标视频数据的多个音频帧分别对应的能量值序列。S405：可信度确定模型可以构建音频帧表示，其中，构建音频帧表示也就是得到每个音频帧分别对应的音频特征向量，该音频特征向量即为音频帧的一种向量表示。其中，可信度确定模型可以通过Vggish网络(一种音频特征提取网络)来得到每个音频帧的音频特征向量。S406：服务器可以对所得到的多个音频特征向量进行多帧特征融合，也就是将多个音频特征向量进行融合，得到一个音频融合特征向量。

接着，S407：服务器可以通过目标视频数据的视频标题信息、视频描述信息和字幕关键词，得到目标视频数据的视频文本信息。S408：服务器可以将目标视频数据的视频文本信息输入到可信度确定模型，可信度确定模型可以通过自注意力机制网络(一种自然语言处理网络)，来构建目标视频数据的视频文本信息的文本表示。S409：可信度确定模型通过构建目标视频数据的视频文本信息的文本表示，即可得到该视频文本信息对应的文本特征向量。该文本特征向量即为可信度确定模型所得到的文本特征。

接着，S410：可信度确定模型可以对所获取到的目标视频数据的音频融合特征向量、图像融合特征向量以及文本特征向量进行向量拼接，即可得到目标视频数据的视频特征向量。其中，目标视频数据的视频特征向量即为目标视频数据的视频多模态特征融合表示。

接着，S411：服务器还可以将目标视频数据的所有候选视频标签(即上述候选标签集合中的候选视频标签，此处输入的候选视频标签无重复，候选视频标签具体指此处的标签1，……和标签n)，输入可信度确定模型，可信度确定模型可以通过自注意力机制网络构建每个候选视频标签的文本表示，即将每个候选视频标签表示为机器语言。S412，可信度确定模型通过构建每个候选视频标签的文本表示，可以得到每个候选视频标签的标签表示，该标签表示可以为一个标识或者一个向量。

接着，S413：可信度确定模型可以对每个候选视频标签的标签表示以及目标视频数据的视频特征向量，进行特征交互识别，即识别每个候选视频标签的标签表示分别与目标视频数据的视频特征向量之间的相关度，该相关度即为上述模型可信度。S414：可信度确定模型可以输出每个候选视频标签分别与目标视频数据之间的模型可信度。

请参见图8，图8是本申请提供的一种标签获取方法的场景示意图。如图8所示，标签100e是通过上述互信息索引表所获取到的标签，即标签100e可以为上述第一候选视频标签。标签102e是通过标签生成模型所获取到的，换句话说，标签102e为上述第二候选视频标签。

此外，第一关联标签103e为获取到的标签100e的关联标签。第二关联标签105e为获取到的标签102e的关联标签。

可以将上述标签100e和关联标签103e进行合并，得到标签110e；可以将标签102e和关联标签105e进行合并，得到标签112e。

其中，上述标签110e和标签112e之间可能会存在相同的标签，例如，标签110e和标签112e中都包括标签b1。此种情况下，就需要获取针对标签110e的第一标签配置权重，并获取针对标签112e第二标签配置权重，记针对标签110e的第一标签配合权重为z1，针对标签112e的第二标签配置权重为z2。

若标签b1只存在于标签110e中的标签100e中，则标签b1的标签可信度就为通过标签b1对应的互信息值计算得到的标签可信度。若标签b1只存在于标签110e中的第一关联标签103e中，并且为标签b2的关联标签时，则标签b1的标签可信度，就为标签b1与标签b2之间的第一标签关联度乘以标签b2只属于标签100e时的标签b2的标签可信度，所得到的乘积值。

若标签b1只存在于标签112e中的标签102e中，则标签b1的标签可信度就为标签b1的生成概率。若标签b1只存在于标签112e中的第二关联标签105e中，并且为标签b2的关联标签时，则标签b1的标签可信度，就为标签b1与标签b2之间的第二标签关联度乘以标签b2的生成概率，所得到的乘积值。

若标签b1同时存在于标签110e和标签112e中时，标签b1的标签可信度就为上述标签b1单独存在于标签110e中时的标签可信度乘以上述z1，再加上标签b1单独存在于标签112e中时的标签可信度乘以上述z2。

通过上述过程，即可得到标签110e、标签111e和标签112e中的每个标签的标签可信度，得到融合标签106e。融合标签106e包括标签110e、标签111e和标签112e中的每个标签，并且融合标签106e中的标签不重复，融合标签106e中的每个标签分别对应于一个标签可信度。融合标签106e相当于上述候选标签集合。可以理解的是，上述候选标签集合中虽然记录有重复的候选视频标签，那是由于重复的候选视频标签是因为获取方法不同所造成，有重复的候选视频标签时，其标签可信度的计算方式也不同，但是重复的候选视频标签对应于同一个标签可信度，因此重复的候选视频标签实际上为一个候选视频标签，只是需要通过重复的候选视频标签分别对应的获取方式，来计算得到其共同对应的标签可信度，这相当于是对重复的候选视频标签进行融合的一个过程。

服务器可以将融合标签106e中的每个标签输入可信度确定模型107e，通过该可信度确定模型得到融合标签106e中的每个标签分别与目标视频数据之间的模型可信度，即得到模型可信度108e。接着，服务器即可根据融合标签106e中的每个标签分别对应的模型可信度以及标签可信度，得到融合标签106e中的每个标签分别对应的筛选标签可信度。进而，服务器可以将融合标签106e中，筛选标签可信度大于或者等于筛选可信度阈值的标签，作为目标视频标签109e。

请参见图9a，图9a是本申请提供的一种终端设备的页面示意图。终端设备可以响应用户针对终端页面100f中的控件104f的点击操作，获取用户向终端设备所导入的视频，显示到终端页面101f。如终端页面101f所示，终端设备已经获取到用户所导入的视频。终端设备可以响应用户针对“自动为视频添加标签”控件105f的选中操作已经针对“确认上传”控件106f的点击操作，显示到终端页面102f。在此过程中，由于用户选中了控件105f，因此，表明用户想要系统自动为所上传的视频添加标签，那么，终端设备可以将用户所上传的视频作为上述目标视频数据，并将该目标视频数据发送给服务器。

服务器在获取到终端设备发送的目标视频数据之后，可以采用上述图3的实施例中所描述的方法，为目标视频数据生成对应的目标视频标签。服务器在获取到目标视频数据的目标视频标签之后，可以将所获取到的目标视频标签发送给终端设备。终端设备在获取到目标视频标签之后，就可以从终端页面102f跳转显示到终端页面103f。在终端页面103f中，终端设备可以对用户所上传的视频以及获取到的目标视频标签进行关联显示。如终端页面103f所示，终端设备获取到的目标视频标签107f包括标签“搞笑”、标签“好物分享”、标签“旅行”以及标签“美食”。

请参见图9b，图9b是本申请提供的一种终端设备的页面示意图。如图9b所示，终端页面100g中显示有多个视频数据，该多个视频数据具体包括视频数据101g、视频数据102g、视频数据103g和视频数据104g。其中，在终端页面100g中的每个视频数据下方，均显示有其对应的视频标签，每个视频数据对应的视频标签均可以是通过上述图3对应的实施例中所描述的方法获取到的。如终端页面100g所示，视频数据101g的下方显示有其对应的视频标签“搞笑”、视频标签“好物分享”、视频标签“旅行”和视频标签“美食”。视频数据102g的下方显示有其对应的视频标签“运动”、视频标签“篮球”和视频标签“比赛”。视频数据103g的下方显示有其对应的视频标签“服饰”、视频标签“穿搭”、视频标签“探店”和视频标签“美妆”。视频数据104g的下方显示有其对应的视频标签“吃播”、视频标签“美食”和视频标签“大胃王”。

请参见图10，图10是本申请提供的一种标签获取方法的流程示意图。如图10所示，该方法包括：步骤S501：服务器可以获取待识别标签视频，该待识别标签视频也就是上述的目标视频数据。步骤S502：服务器可以对待识别视频进行视频分类识别，即识别出目标视频数据的视频类型。步骤S503：服务器可以通过上述互信息索引表来召回(即获取)到目标视频数据的候选视频标签。步骤S504：服务器可以通过标签生成模型(也就是此处的生成模型)来召回目标视频数据的候选视频标签。步骤S505：服务器可以对上述步骤S503和步骤S504中获取到的候选视频标签进行关联标签召回，也就是获取上述步骤S503和步骤S504中获取到的候选视频标签的关联标签(可以包括上述第一关联标签和第二关联标签)，可以将该关联标签也作为目标视频数据的候选视频标签。

接着，步骤S506：服务器可以对上述步骤S503、步骤S504和步骤S505中所获取到的候选视频标签，进行多路视频标签标签候选融合，也就是计算每个候选视频标签分别对应的标签可信度，由于可能会有重复的候选视频标签，因此对重复的候选视频标签计算得到一个共同的标签可信度的过程，可以称之为标签融合过程，可以理解为是为对候选视频标签进行去重。步骤S507：可以通过可信度确定模型得到上述每个候选视频标签分别的模型可信度。可以通过每个候选视频标签分别对应的模型可信度以及标签可信度，计算得到每个候选视频标签分别对应的筛选标签可信度。通过筛选标签可信度对每个候选视频标签进行排序，也就是进行视频-标签相关度排序。步骤S508：可以将进行视频标签相关度排序后，处于前s个的候选视频标签作为目标视频数据的目标视频标签，该目标视频标签也就是最终所得到的针对目标视频数据的视频标签结果。其中，s的具体数值可以根据实际应用场景进行设置。

请参见图11，图11是本申请提供的一种标签数据处理装置的结构示意图。如图11所示，该标签数据处理装置2可以包括：视频获取模块21、索引表获取模块22、候选视频标签获取模块23和目标标签确定模块24；

视频获取模块21，用于获取目标视频数据，确定目标视频数据的目标视频类型；

索引表获取模块22，用于获取互信息索引表；互信息索引表是基于至少两个已有标签视频数据的已有视频词语集合与至少两个已有标签视频数据的视频标签之间的互信息所创建的；

候选标签获取模块23，用于获取目标视频数据的目标视频词语集合，根据目标视频词语集合和目标视频类型，在互信息索引表中获取目标视频数据的第一候选视频标签；第一候选视频标签，为具有目标视频类型的已有标签视频数据的视频标签；

目标标签确定模块24，用于将第一候选视频标签添加到候选标签集合，根据第一候选视频标签与所对应的已有视频词语集合之间的互信息，从候选标签集合中，确定目标视频数据的目标视频标签。

其中，视频获取模块21、索引表获取模块22、候选标签获取模块23和目标标签确定模块24的具体功能实现方式请参见图3对应的实施例中的步骤S101-步骤S104，这里不再进行赘述。

可以理解的是，本申请实施例中的标签数据处理装置2可执行前文图3所对应实施例中对标签数据处理方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

请参见图12，图12是本申请提供的一种标签数据处理装置的结构示意图。如图12所示，该标签数据处理装置1可以包括：视频获取模块101、索引表获取模块102、候选标签获取模块103和目标标签确定模块104；

其中，视频获取模块101具有与上述图11中的视频获取模块21同样的功能，索引表获取模块102具有与上述图11中的索引表获取模块22同样的功能，候选标签获取模块103具有与上述图11中的候选标签获取模块23同样的功能，目标标签确定模块104具有与上述图11中的目标标签确定模块24同样的功能。

其中，候选标签获取模块103，包括：信息获取单元1031、分词单元1032、词语确定单元1033和词语组合单元1034；

信息获取单元1031，用于获取目标视频数据的视频标题信息、视频描述信息和视频字幕信息；

分词单元1032，用于对视频标题信息、视频描述信息和视频字幕信息分别进行分词，得到视频标题信息中的标题词语、视频描述信息中的描述词语和视频字幕信息中的字幕词语；

词语确定单元1033，用于将标题词语、描述词语和字幕词语，确定为目标视频数据的目标视频词语；

词语组合单元1034，用于根据组合单词数量，对目标视频数据的目标视频词语进行组合，得到目标视频词语集合；一个目标视频词语集合中的目标视频词语的词语数量不大于组合单词数量。

其中，信息获取单元1031、分词单元1032、词语确定单元1033和词语组合单元1034的具体功能实现方式请参见图3对应的实施例中的步骤S103，这里不再进行赘述。

候选标签获取模块103，包括：目标词语确定单元1035、目标关系确定单元1036和候选标签确定单元1037；

目标词语确定单元1035，用于将互信息索引表中，与目标视频词语集合相同的已有视频词语集合，确定为目标词语集合；

目标关系确定单元1036，用于将互信息索引表中，携带有目标视频类型信息，且包括目标词语集合的映射关系，确定为目标映射关系；

候选标签确定单元1037，用于将目标映射关系所包括的视频标签，确定为第一候选视频标签。

其中，目标词语确定单元1035、目标关系确定单元1036和候选标签确定单元1037的具体功能实现方式请参见图3对应的实施例中的步骤S103，这里不再进行赘述。

其中，上述标签数据处理装置1还包括：词语组合模块105、关系建立模块106和索引表生成模块107；

词语组合模块105，用于根据组合单词数量，分别对每个已有标签视频数据的已有视频词语进行词语组合，得到每个已有标签视频数据分别对应的已有视频词语集合；一个已有视频词语集合中的已有视频词语的词语数量不大于组合单词数量；

关系建立模块106，用于在每个已有视频词语集合与所属的已有标签视频数据的视频标签之间，建立映射关系；

索引表生成模块107，用于根据每个已有视频词语集合与所对应的视频标签之间的映射关系，生成互信息索引表。

其中，词语组合模块105、关系建立模块106和索引表生成模块107的具体功能实现方式请参见图3对应的实施例中的步骤S102，这里不再进行赘述。

其中，索引表生成模块107，包括：互信息值获取单元1071、保留关系确定单元1072、信息添加单元1073和索引表生成单元1074；

互信息值获取单元1071，用于根据每个映射关系所包含的已有视频词语集合和视频标签共同所属的已有标签视频数据的视频数量，获取每个映射关系所包含的已有视频词语集合和视频标签之间的互信息值；

保留关系确定单元1072，用于将所属的互信息值大于或等于互信息阈值的映射关系，确定为保留映射关系；

信息添加单元1073，用于根据保留映射关系包含的视频标签所属的已有标签视频数据的视频类型，为保留映射关系添加视频类型信息；

索引表生成单元1074，用于根据保留映射关系和保留映射关系携带的视频类型信息，生成互信息索引表。

其中，互信息值获取单元1071、保留关系确定单元1072、信息添加单元1073和索引表生成单元1074的具体功能实现方式请参见图3对应的实施例中的步骤S102，这里不再进行赘述。

其中，候选标签集合还包括第二候选视频标签；

上述标签数据处理装置1还包括：向量获取模块108、向量输入模块109、标签生成模块110和第一候选标签确定模块111；

向量获取模块108，用于获取目标视频数据的视频特征向量；

向量输入模块109，用于将目标视频数据的视频特征向量，输入标签生成模型；标签生成模型，是基于至少两个已有标签视频数据的视频特征向量和至少两个已有标签视频数据的视频标签训练得到；

标签生成模块110，用于基于标签生成模型和目标视频数据的视频特征向量，生成目标视频数据的至少两个视频生成标签，获取每个视频生成标签的生成概率；

第一候选标签确定模块111，用于将至少两个视频生成标签中，生成概率大于或等于生成概率阈值的视频生成标签，确定为第二候选视频标签。

其中，向量获取模块108、向量输入模块109、标签生成模块110和第一候选标签确定模块111的具体功能实现方式请参见图3对应的实施例中的步骤S104，这里不再进行赘述。

其中，候选标签集合中还包括第三候选视频标签；

上述标签数据处理装置1还包括：关联标签获取模块112和第二候选标签确定模块113；

关联标签获取模块112，用于获取第一候选视频标签的第一关联标签，获取第二候选视频标签的第二关联标签；第一关联标签，是基于第一候选视频标签与第一候选视频数据的视频标签在至少两个已有标签视频数据的视频标签中的共现次数所确定的；第一候选视频数据为包含第一候选视频标签的已有标签视频数据；第二关联标签，是基于第二候选视频标签与第二候选视频数据的视频标签在至少两个已有标签视频数据的视频标签中的共现次数所确定的；第二候选视频数据为包含第二候选视频标签的已有标签视频数据；

第二候选标签确定模块113，用于将第一关联标签和第二关联标签，确定为第三候选视频标签。

其中，关联标签获取模块112和第二候选标签确定模块113的具体功能实现方式请参见图3对应的实施例中的步骤S104，这里不再进行赘述。

其中，目标标签确定模块104，包括：集合标签确定单元1041、可信度获取单元1042和目标标签获取单元1043；

集合标签确定单元1041，用于将候选标签集合中的第一候选视频标签、第二候选视频标签以及第三候选视频标签，确定为候选视频标签；

可信度获取单元1042，用于根据第一候选视频标签与所对应的已有视频词语集合之间的互信息和第二候选视频标签对应的生成概率，获取每个候选视频标签与目标视频数据之间的标签可信度；

目标标签获取单元1043，用于根据每个候选视频标签与目标视频数据之间的标签可信度，从候选标签集合中，确定目标视频标签。

其中，集合标签确定单元1041、可信度获取单元1042和目标标签获取单元1043的具体功能实现方式请参见图3对应的实施例中的步骤S104，这里不再进行赘述。

可信度获取单元1042，包括：第一可信度确定子单元10421、第二可信度确定子单元10422、标签权重获取子单元10423和第三可信度确定子单元10424；

第一可信度确定子单元10421，用于若候选视频标签b_l属于第一候选视频标签，且不属于第二候选视频标签，则根据候选视频标签b_l与所对应的已有视频词语集合之间的互信息，确定候选视频标签b_l与目标视频数据之间的标签可信度；

第二可信度确定子单元10422，用于若候选视频标签b_l属于第二候选视频标签，且不属于第一候选视频标签，则将候选视频标签b_l对应的生成概率，确定为候选视频标签b_l与目标视频数据之间的标签可信度；

标签权重获取子单元10423，用于若候选视频标签b_l既属于第一候选视频标签，且属于第二候选视频标签，则获取第一候选视频标签对应的第一标签配置权重，获取第二候选视频标签对应的第二标签配置权重；

第三可信度确定子单元10424，用于根据第一标签配置权重、第二标签配置权重、候选视频标签b_l与所对应的已有视频词语集合之间的互信息、以及候选视频标签b_l对应的生成概率，确定候选视频标签b_l与目标视频数据之间的标签可信度。

其中，第一可信度确定子单元10421、第二可信度确定子单元10422、标签权重获取子单元10423和第三可信度确定子单元10424的具体功能实现方式请参见图3对应的实施例中的步骤S104，这里不再进行赘述。

第一可信度确定子单元10421，包括：互信息值获取子单元104211、字数获取子单元104212和可信度计算子单元104213；

互信息值获取子单元104211，用于从互信息索引表中，获取候选视频标签b_l与所对应的已有视频词语集合之间的互信息值；

字数获取子单元104212，用于获取候选视频标签b_l所对应的已有视频词语集合中的词语字数；

可信度计算子单元104213，用于根据可信度调整参数、候选视频标签b_l对应的互信息值以及词语字数，确定候选视频标签b_l的标签可信度。

其中，互信息值获取子单元104211、字数获取子单元104212和可信度计算子单元104213的具体功能实现方式请参见图3对应的实施例中的步骤S104，这里不再进行赘述。

上述标签数据处理装置1还包括：第一关联度获取模块114、第一可信度确定模块115、第二关联度获取模块116和第二可信度确定模块117；

第一关联度获取模块114，用于若候选视频标签b_j为候选视频标签b_l的第一关联标签，则获取候选视频标签b_j与候选视频标签b_l之间的第一标签关联度；第一标签关联度，是基于候选视频标签b_j和候选视频标签b_l在至少两个已有标签视频数据的视频标签中的共现次数所确定的；

第一可信度确定模块115，用于根据第一标签关联度、以及候选视频标签b_l与所对应的已有视频词语集合之间的互信息，确定候选视频标签b_j与目标视频数据之间的标签可信度；

第二关联度获取模块116，用于若候选视频标签b_j为候选视频标签b_l的第二关联标签，则获取候选视频标签b_j与候选视频标签b_l之间的第二标签关联度；第二标签关联度，是基于候选视频标签b_j和候选视频标签b_l在至少两个已有标签视频数据的视频标签中的共现次数所确定的；

第二可信度确定模块117，用于根据第二标签关联度、以及候选视频标签b_l对应的生成概率，确定候选视频标签b_j与目标视频数据之间的标签可信度。

其中，第一关联度获取模块114、第一可信度确定模块115、第二关联度获取模块116和第二可信度确定模块117的具体功能实现方式请参见图3对应的实施例中的步骤S104，这里不再进行赘述。

其中，目标标签获取单元1043，包括：可信度模型输入子单元10431、模型可信度输出子单元10432、筛选可信度确定子单元10433和目标标签确定子单元10434；

可信度模型输入子单元10431，用于将每个候选视频标签和目标视频数据的视频特征向量，输入可信度确定模型；可信度确定模型，是通过至少两个已有标签视频数据的视频特征向量以及至少两个已有标签视频数据的视频标签训练得到；

模型可信度输出子单元10432，用于基于可信度确定模型和目标视频数据的视频特征向量，输出每个候选视频标签分别与目标视频数据之间的模型可信度；

筛选可信度确定子单元10433，用于基于每个候选视频标签分别与目标视频数据之间的模型可信度、以及每个候选视频标签分别与目标视频数据之间的标签可信度，确定每个候选视频标签分别与目标视频数据之间的筛选标签可信度；

目标标签确定子单元10434，用于将候选标签集合中，与目标视频数据之间的筛选标签可信度大于或等于筛选可信度阈值的候选视频标签，确定为目标视频标签。

其中，可信度模型输入子单元10431、模型可信度输出子单元10432、筛选可信度确定子单元10433和目标标签确定子单元10434的具体功能实现方式请参见图3对应的实施例中的步骤S104，这里不再进行赘述。

其中，筛选可信度确定子单元10433，包括：可信度权重获取子单元104331和筛选可信度计算子单元104332；

可信度权重获取子单元104331，用于获取针对模型可信度的第一可信度配置权重，获取针对标签可信度的第二可信度配置权重；

筛选可信度计算子单元104332，用于根据第一可信度配置权重、第二可信度配置权重、每个候选视频标签分别与目标视频数据之间的模型可信度、以及每个候选视频标签分别与目标视频数据之间的标签可信度，确定每个候选视频标签分别与目标视频数据之间的筛选标签可信度。

其中，可信度权重获取子单元104331和筛选可信度计算子单元104332的具体功能实现方式请参见图3对应的实施例中的步骤S104，这里不再进行赘述。

其中，视频获取模块101，包括：文本信息获取单元1011、分类模型输入单元1012和目标类型输出单元1013；

文本信息获取单元1011，用于获取目标视频数据的视频图像信息和视频音频信息，获取目标视频数据的视频文本信息；

分类模型输入单元1012，用于将视频图像信息、视频音频信息以及视频文本信息，输入视频分类模型；视频分类模型，是通过至少两个已有标签视频数据以及至少两个已有标签视频数据对应的视频类型训练得到；

目标类型输出单元1013，用于基于视频分类模型，输出目标视频数据的目标视频类型。

其中，文本信息获取单元1011、分类模型输入单元1012和目标类型输出单元1013的具体功能实现方式请参见图3对应的实施例中的步骤S101，这里不再进行赘述。

其中，文本信息获取单元1011，包括：视频信息获取子单元10111、信息分词子单元10112和拼接子单元10113；

视频信息获取子单元10111，用于获取目标视频数据的视频标题信息、视频描述信息和视频字幕信息；

信息分词子单元10112，用于对视频字幕信息进行分词，得到视频字幕信息中的字幕关键词；

拼接子单元10113，用于对视频标题信息、视频描述信息和字幕关键词进行拼接，得到目标视频数据的视频文本信息。

其中，视频信息获取子单元10111、信息分词子单元10112和拼接子单元10113的具体功能实现方式请参见图3对应的实施例中的步骤S101，这里不再进行赘述。

目标类型输出单元1013，包括：图像向量融合子单元10131、音频向量融合子单元10132、文本向量生成子单元10133、向量拼接子单元10134和目标类型输出子单元10135；

图像向量融合子单元10131，用于基于视频分类模型，生成至少两个图像帧中的每个图像帧的图像特征向量，对每个图像帧的图像特征向量进行特征向量融合，得到图像融合特征向量；

音频向量融合子单元10132，用于基于视频分类模型，生成至少两个音频帧中的每个音频帧的音频特征向量，对每个音频帧的音频特征向量进行特征向量融合，得到音频融合特征向量；

文本向量生成子单元10133，用于基于视频分类模型，生成视频文本信息的文本特征向量；

向量拼接子单元10134，用于对图像融合特征向量、音频融合特征向量和文本特征向量进行向量拼接，得到目标视频数据的视频特征向量；

目标类型输出子单元10135，用于根据目标视频数据的视频特征向量，在视频分类模型中输出目标视频数据的目标视频类型。

其中，图像向量融合子单元10131、音频向量融合子单元10132、文本向量生成子单元10133、向量拼接子单元10134和目标类型输出子单元10135的具体功能实现方式请参见图3对应的实施例中的步骤S101，这里不再进行赘述。

其中，视频获取模块101，用于：

获取客户端发送的目标视频数据；

上述标签数据处理装置1还用于：

本申请可以获取目标视频数据，确定目标视频数据的目标视频类型；获取互信息索引表；互信息索引表是基于至少两个已有标签视频数据的已有视频词语集合与至少两个已有标签视频数据的视频标签之间的互信息所创建的；获取目标视频数据的目标视频词语集合，根据目标视频词语集合和目标视频类型，在互信息索引表中获取目标视频数据的第一候选视频标签；第一候选视频标签，为具有目标视频类型的已有标签视频数据的视频标签；将第一候选视频标签添加到候选标签集合，根据第一候选视频标签与所对应的已有视频词语集合之间的互信息，从候选标签集合中，确定目标视频数据的目标视频标签。由此可见，上述装置由于可以通过已有标签视频数据所建立的互信息索引表，来得到针对目标视频数据的第一候选视频标签，进而可以通过该第一候选视频标签来得到目标视频数据的目标视频标签，因此，提高了针对目标视频标签的获取效率。并且，第一候选视频标签还可以有多个以及多种，因此，还丰富了针对目标视频标签的标签种类。

请参见图13，图13是本申请提供的一种计算机设备的结构示意图。如图13所示，计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图13所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图13所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现前文图3对应实施例中对标签数据处理方法的描述。应当理解，本申请中所描述的计算机设备1000也可执行前文图11所对应实施例中对标签数据处理装置2的描述，还可执行前文图12所对应实施例中对标签数据处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有前文提及的标签数据处理装置1和标签数据处理装置2所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图3对应实施例中对标签数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖范围。

Claims

1.一种标签数据处理方法，其特征在于，包括：

获取目标视频数据，确定所述目标视频数据的目标视频类型；

获取互信息索引表；所述互信息索引表是基于至少两个已有标签视频数据的已有视频词语集合与所述至少两个已有标签视频数据的视频标签之间的互信息所创建的；

获取所述目标视频数据的目标视频词语集合，根据所述目标视频词语集合和所述目标视频类型，在互信息索引表中获取所述目标视频数据的第一候选视频标签；所述第一候选视频标签，为具有所述目标视频类型的已有标签视频数据的视频标签；

将所述第一候选视频标签添加到候选标签集合，根据所述第一候选视频标签与所对应的已有视频词语集合之间的互信息，从所述候选标签集合中，确定所述目标视频数据的目标视频标签。

2.根据权利要求1所述的方法，其特征在于，所述获取所述目标视频数据的目标视频词语集合，包括：

获取所述目标视频数据的视频标题信息、视频描述信息和视频字幕信息；

对所述视频标题信息、所述视频描述信息和所述视频字幕信息分别进行分词，得到所述视频标题信息中的标题词语、所述视频描述信息中的描述词语和所述视频字幕信息中的字幕词语；

将所述标题词语、所述描述词语和所述字幕词语，确定为所述目标视频数据的目标视频词语；

根据组合单词数量，对所述目标视频数据的目标视频词语进行组合，得到所述目标视频词语集合；一个目标视频词语集合中的目标视频词语的词语数量不大于所述组合单词数量。

3.根据权利要求1所述的方法，其特征在于，所述互信息索引表包括所述至少两个已有标签视频数据的已有视频词语集合与所述至少两个已有标签视频数据的视频标签之间的映射关系，该映射关系还携带有所包含的视频标签所属的已有标签视频数据的视频类型信息；所述视频类型信息包括指向所述目标视频类型的目标视频类型信息；

所述根据所述目标视频词语集合和所述目标视频类型，在互信息索引表中获取所述目标视频数据的第一候选视频标签，包括：

将所述互信息索引表中，与所述目标视频词语集合相同的已有视频词语集合，确定为目标词语集合；

将所述互信息索引表中，携带有所述目标视频类型信息，且包括所述目标词语集合的映射关系，确定为目标映射关系；

将所述目标映射关系所包括的视频标签，确定为所述第一候选视频标签。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

根据组合单词数量，分别对每个已有标签视频数据的已有视频词语进行词语组合，得到所述每个已有标签视频数据分别对应的已有视频词语集合；一个已有视频词语集合中的已有视频词语的词语数量不大于所述组合单词数量；

在每个已有视频词语集合与所属的已有标签视频数据的视频标签之间，建立映射关系；

根据所述每个已有视频词语集合与所对应的视频标签之间的映射关系，生成所述互信息索引表。

5.根据权利要求4所述的方法，其特征在于，所述根据所述每个已有视频词语集合与所对应的视频标签之间的映射关系，生成所述互信息索引表，包括：

根据每个映射关系所包含的已有视频词语集合和视频标签共同所属的已有标签视频数据的视频数量，获取所述每个映射关系所包含的已有视频词语集合和视频标签之间的互信息值；

将所属的互信息值大于或等于互信息阈值的映射关系，确定为保留映射关系；

根据所述保留映射关系包含的视频标签所属的已有标签视频数据的视频类型，为所述保留映射关系添加所述视频类型信息；

根据所述保留映射关系和所述保留映射关系携带的所述视频类型信息，生成所述互信息索引表。

6.根据权利要求1所述的方法，其特征在于，所述候选标签集合还包括第二候选视频标签；

所述方法还包括：

获取所述目标视频数据的视频特征向量；

将所述目标视频数据的视频特征向量，输入标签生成模型；所述标签生成模型，是基于所述至少两个已有标签视频数据的视频特征向量和所述至少两个已有标签视频数据的视频标签训练得到；

基于所述标签生成模型和所述目标视频数据的视频特征向量，生成所述目标视频数据的至少两个视频生成标签，获取每个视频生成标签的生成概率；

将所述至少两个视频生成标签中，生成概率大于或等于生成概率阈值的视频生成标签，确定为所述第二候选视频标签。

7.根据权利要求6所述的方法，其特征在于，所述候选标签集合中还包括第三候选视频标签；

所述方法还包括：

获取所述第一候选视频标签的第一关联标签，获取所述第二候选视频标签的第二关联标签；所述第一关联标签，是基于所述第一候选视频标签与第一候选视频数据的视频标签在所述至少两个已有标签视频数据的视频标签中的共现次数所确定的；所述第一候选视频数据为包含所述第一候选视频标签的已有标签视频数据；所述第二关联标签，是基于所述第二候选视频标签与第二候选视频数据的视频标签在所述至少两个已有标签视频数据的视频标签中的共现次数所确定的；所述第二候选视频数据为包含所述第二候选视频标签的已有标签视频数据；

将所述第一关联标签和所述第二关联标签，确定为所述第三候选视频标签。

8.根据权利要求7所述的方法，其特征在于，所述根据所述第一候选视频标签与所对应的已有视频词语集合之间的互信息，从所述候选标签集合中，确定所述目标视频数据的目标视频标签，包括：

将所述候选标签集合中的所述第一候选视频标签、所述第二候选视频标签以及所述第三候选视频标签，确定为候选视频标签；

根据所述第一候选视频标签与所对应的已有视频词语集合之间的互信息和所述第二候选视频标签对应的生成概率，获取每个候选视频标签与所述目标视频数据之间的标签可信度；

根据所述每个候选视频标签与所述目标视频数据之间的标签可信度，从所述候选标签集合中，确定所述目标视频标签。

9.根据权利要求8所述的方法，其特征在于，所述候选标签集合中包括候选视频标签b_l，l为小于或等于所述候选标签集合中候选视频标签的标签总数量的正整数；

所述根据所述第一候选视频标签与所对应的已有视频词语集合之间的互信息和所述第二候选视频标签对应的生成概率，获取每个候选视频标签与所述目标视频数据之间的标签可信度，包括：

若所述候选视频标签b_l属于所述第一候选视频标签，且不属于所述第二候选视频标签，则根据所述候选视频标签b_l与所对应的已有视频词语集合之间的互信息，确定所述候选视频标签b_l与所述目标视频数据之间的标签可信度；

若所述候选视频标签b_l属于所述第二候选视频标签，且不属于所述第一候选视频标签，则将所述候选视频标签b_l对应的生成概率，确定为所述候选视频标签b_l与所述目标视频数据之间的标签可信度；

若所述候选视频标签b_l既属于所述第一候选视频标签，且属于所述第二候选视频标签，则获取所述第一候选视频标签对应的第一标签配置权重，获取所述第二候选视频标签对应的第二标签配置权重；

根据所述第一标签配置权重、所述第二标签配置权重、所述候选视频标签b_l与所对应的已有视频词语集合之间的互信息、以及所述候选视频标签b_l对应的生成概率，确定所述候选视频标签b_l与所述目标视频数据之间的标签可信度。

10.根据权利要求9所述的方法，其特征在于，所述互信息索引表中还包括所述候选视频标签b_l与所对应的已有视频词语集合之间的互信息值；所述候选视频标签b_l与所对应的已有视频词语之间的互信息值，是根据所述候选视频标签b_l与所对应的已有视频词语共同所属的已有标签视频数据的视频数量，所确定的；

所述根据所述候选视频标签b_l与所对应的已有视频词语集合之间的互信息，确定所述候选视频标签b_l与所述目标视频数据之间的标签可信度，包括：

从所述互信息索引表中，获取所述候选视频标签b_l与所对应的已有视频词语集合之间的互信息值；

获取所述候选视频标签b_l所对应的已有视频词语集合中的词语字数；

根据可信度调整参数、所述候选视频标签b_l对应的互信息值以及所述词语字数，确定所述候选视频标签b_l的标签可信度。

11.根据权利要求9所述的方法，其特征在于，所述候选标签集合中还包括候选视频标签b_j，j为小于或等于所述候选标签集合中候选视频标签的标签总数量的正整数；

所述方法还包括：

若所述候选视频标签b_j为所述候选视频标签b_l的第一关联标签，则获取所述候选视频标签b_j与所述候选视频标签b_l之间的第一标签关联度；所述第一标签关联度，是基于所述候选视频标签b_j和所述候选视频标签b_l在所述至少两个已有标签视频数据的视频标签中的共现次数所确定的；

根据所述第一标签关联度、以及所述候选视频标签b_l与所对应的已有视频词语集合之间的互信息，确定所述候选视频标签b_j与所述目标视频数据之间的标签可信度；

若所述候选视频标签b_j为所述候选视频标签b_l的第二关联标签，则获取所述候选视频标签b_j与所述候选视频标签b_l之间的第二标签关联度；所述第二标签关联度，是基于所述候选视频标签b_j和所述候选视频标签b_l在所述至少两个已有标签视频数据的视频标签中的共现次数所确定的；

根据所述第二标签关联度、以及所述候选视频标签b_l对应的生成概率，确定所述候选视频标签b_j与所述目标视频数据之间的标签可信度。

12.根据权利要求8所述的方法，其特征在于，所述根据所述每个候选视频标签与所述目标视频数据之间的标签可信度，从所述候选标签集合中，确定所述目标视频标签，包括：

将所述每个候选视频标签和所述目标视频数据的视频特征向量，输入可信度确定模型；所述可信度确定模型，是通过所述至少两个已有标签视频数据的视频特征向量以及所述至少两个已有标签视频数据的视频标签训练得到；

基于所述可信度确定模型和所述目标视频数据的视频特征向量，输出所述每个候选视频标签分别与所述目标视频数据之间的模型可信度；

基于所述每个候选视频标签分别与所述目标视频数据之间的模型可信度、以及所述每个候选视频标签分别与所述目标视频数据之间的标签可信度，确定所述每个候选视频标签分别与所述目标视频数据之间的筛选标签可信度；

将所述候选标签集合中，与所述目标视频数据之间的筛选标签可信度大于或等于筛选可信度阈值的候选视频标签，确定为所述目标视频标签。

13.根据权利要求12所述的方法，其特征在于，所述基于所述每个候选视频标签分别与所述目标视频数据之间的模型可信度、以及所述每个候选视频标签分别与所述目标视频数据之间的标签可信度，确定所述每个候选视频标签分别与所述目标视频数据之间的筛选标签可信度，包括：

获取针对模型可信度的第一可信度配置权重，获取针对标签可信度的第二可信度配置权重；

根据所述第一可信度配置权重、所述第二可信度配置权重、所述每个候选视频标签分别与所述目标视频数据之间的模型可信度、以及所述每个候选视频标签分别与所述目标视频数据之间的标签可信度，确定所述每个候选视频标签分别与所述目标视频数据之间的筛选标签可信度。

14.根据权利要求1所述的方法，其特征在于，所述获取目标视频数据，确定所述目标视频数据的目标视频类型，包括：

获取所述目标视频数据的视频图像信息和视频音频信息，获取所述目标视频数据的视频文本信息；

将所述视频图像信息、所述视频音频信息以及所述视频文本信息，输入视频分类模型；所述视频分类模型，是通过所述至少两个已有标签视频数据以及所述至少两个已有标签视频数据对应的视频类型训练得到；

基于所述视频分类模型，输出所述目标视频数据的所述目标视频类型。

15.根据权利要求14所述的方法，其特征在于，所述视频图像信息包括所述目标视频数据的至少两个图像帧；所述视频音频信息包括所述目标视频数据的音频数据的至少两个音频帧；

所述基于所述视频分类模型，输出所述目标视频数据的所述目标视频类型，包括：

基于所述视频分类模型，生成所述至少两个图像帧中的每个图像帧的图像特征向量，对所述每个图像帧的图像特征向量进行特征向量融合，得到图像融合特征向量；

基于所述视频分类模型，生成所述至少两个音频帧中的每个音频帧的音频特征向量，对所述每个音频帧的音频特征向量进行特征向量融合，得到音频融合特征向量；

基于所述视频分类模型，生成所述视频文本信息的文本特征向量；

对所述图像融合特征向量、所述音频融合特征向量和所述文本特征向量进行向量拼接，得到所述目标视频数据的视频特征向量；

根据所述目标视频数据的视频特征向量，在所述视频分类模型中输出所述目标视频数据的所述目标视频类型。