CN110781347B

CN110781347B - 一种视频处理方法、装置、设备以及可读存储介质

Info

Publication number: CN110781347B
Application number: CN201911012723.2A
Authority: CN
Inventors: 李伟康; 陈小帅; 刘德伟
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2023-03-07
Anticipated expiration: 2039-10-23
Also published as: CN110781347A

Abstract

本申请实施例公开了一种视频数据处理方法、装置、设备以及可读存储介质，本申请属于计算机技术领域，方法包括：获取目标视频的关键帧数据，生成所述关键帧数据对应的视频图像特征；获取与所述目标视频相关联的文本数据，生成所述文本数据对应的视频文本特征；将所述视频图像特征与所述视频文本特征进行特征融合，生成视频表示特征；获取与所述目标视频对应的候选标签集中候选标签的标签表示特征，将所述视频表示特征与所述标签表示特征进行匹配，根据匹配结果在所述候选标签集中确定用于表征所述目标视频的目标标签。采用本申请，可以提高视频标签检索能力，提高构建视频标签的效率与质量。

Description

一种视频处理方法、装置、设备以及可读存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频处理方法、装置、设备以及可读存储介质。

背景技术

随着多媒体技术的发展，视频已成为人们日常生活中获取信息与享受娱乐的主要载体。不同的多媒体软件的爆炸式增长使海量视频出现在人们的视野中，如何进行个性化推荐，使视频响应用户的需求、更贴近于用户的喜好，显得十分有必要。

在现有技术中，视频推荐可以通过视频标签使用户快速获取到想看的视频内容，视频软件平台也可以通过视频标签建立视频间的关联，从而推荐相关联的视频给用户，使用户观看到更多更丰富的内容。

但现有技术在构建视频标签时主要通过人工进行标注，通过人工标注的方法会消耗掉大量的人力与时间，效率低下。

发明内容

本申请实施例提供一种视频数据处理方法、装置、设备以及可读存储介质，可以提高视频标签检索能力，提高构建视频标签的效率与质量。

本申请实施例一方面提供了一种视频数据处理方法，包括：

获取目标视频的关键帧数据，生成所述关键帧数据对应的视频图像特征；

获取与所述目标视频相关联的文本数据，生成所述文本数据对应的视频文本特征；

将所述视频图像特征与所述视频文本特征进行特征融合，生成视频表示特征；

获取与所述目标视频对应的候选标签集中候选标签的标签表示特征，将所述视频表示特征与所述标签表示特征进行匹配，根据匹配结果在所述候选标签集中确定用于表征所述目标视频的目标标签。

其中，所述获取目标视频的关键帧数据，生成所述关键帧数据对应的视频图像特征，包括：

基于所述目标视频中的每个视频帧对应的图像参数，从所述目标视频中获取N个关键视频帧；所述N为正整数且小于所述目标视频的总帧数；

基于所述关键视频帧对应的帧时间戳，生成关键视频帧序列；

将所述关键视频帧序列输入循环神经网络模型，通过所述循环神经网络模型输出所述关键视频帧序列对应的向量数据，将所述向量数据确定为所述视频图像特征。

其中，所述与所述目标视频相关联的文本数据包括：视频标题数据、视频描述数据以及视频字幕文件；

所述获取与所述视频相关联的文本数据，生成所述文本数据对应的视频文本特征，包括：

获取所述目标视频的视频标题数据与视频描述数据；

从所述视频字幕文件中获取所述目标视频的视频字幕数据；

对所述视频标题数据、所述视频描述数据以及所述视频字幕数据分别进行分词处理，得到多个文本分词；所述多个文本分词包括标题分词、描述分词以及字幕分词；

获取每个文本分词分别对应的第一词向量，将所述第一词向量输入语言处理模型；

基于所述语言处理模型输出所述视频标题数据对应的标题表示特征、所述视频描述数据对应的描述表示特征以及所述视频字幕数据对应的字幕表示特征；

将所述标题表示特征、所述描述表示特征以及所述字幕表示特征进行特征融合，生成所述目标视频的视频文本特征。

其中，所述将所述视频图像特征与所述视频文本特征进行特征融合，生成视频表示特征，包括：

基于所述视频图像特征与所述视频文本特征，对所述视频图像特征进行注意力处理，生成第一特征向量；所述第一特征向量的特征维度与所述视频图像特征的特征维度一致；

基于所述视频文本特征与所述视频图像特征，对所述视频文本特征进行注意力处理，生成第二特征向量；所述第二特征向量的特征维度与所述视频文本特征的特征维度一致；

将所述第一特征向量与所述第二特征向量进行拼接融合，得到所述视频表示特征。

其中，还包括：

获取所述目标视频对应的相似视频；

基于所述相似视频的视频标签，确定出所述目标视频的所述候选标签集；

将所述候选标签集中的候选标签进行分词处理，得到所述候选标签对应的标签分词；

根据每个标签分词对应的第二词向量，确定所述候选标签对应的标签表示特征。

其中，还包括：

获取标签库；

基于所述标签库中的标签，确定出所述目标视频的所述候选标签集；

其中，所述获取与所述目标视频对应的候选标签集中候选标签的标签表示特征，将所述视频表示特征与所述标签表示特征进行匹配，根据匹配结果在所述候选标签集中确定用于表征所述目标视频的目标标签，包括：

将所述视频表示特征与所述标签表示特征输入匹配模型，通过所述匹配模型输出所述视频表示特征与所述标签表示特征之间的匹配结果；所述匹配结果包括所述视频表示特征与所述标签表示特征之间的相似度；

将所述相似度大于或等于目标阈值的标签表示特征所对应的标签分词确定为所述目标视频的目标标签。

本申请实施例一方面提供了一种视频数据处理装置，包括：

第一生成模块，用于获取目标视频的关键帧数据，生成所述关键帧数据对应的视频图像特征；

第二生成模块，用于获取与所述目标视频相关联的文本数据，生成所述文本数据对应的视频文本特征；

融合模块，用于将所述视频图像特征与所述视频文本特征进行特征融合，生成视频表示特征；

匹配模块，用于获取与所述目标视频对应的候选标签集中候选标签的标签表示特征，将所述视频表示特征与所述标签表示特征进行匹配，根据匹配结果在所述候选标签集中确定用于表征所述目标视频的目标标签。

其中，所述第一生成模块，包括：

第一获取单元，用于基于所述目标视频中的每个视频帧对应的图像参数，从所述目标视频中获取N个关键视频帧；所述N为正整数且小于所述目标视频的总帧数；

生成单元，用于基于所述关键视频帧对应的帧时间戳，生成关键视频帧序列；

第一输出单元，用于将所述关键视频帧序列输入循环神经网络模型，通过所述循环神经网络模型输出所述关键视频帧序列对应的向量数据，将所述向量数据确定为所述视频图像特征。

所述第二生成模块，包括：

第二获取单元，用于获取所述目标视频的视频标题数据与视频描述数据；

所述第二获取单元，还用于从所述视频字幕文件中获取所述目标视频的视频字幕数据；

第一分词单元，用于对所述视频标题数据、所述视频描述数据以及所述视频字幕数据分别进行分词处理，得到多个文本分词；所述多个文本分词包括标题分词、描述分词以及字幕分词；

第一输入单元，用于获取每个文本分词分别对应的第一词向量，将所述第一词向量输入语言处理模型；

第二输出单元，用于基于所述语言处理模型输出所述视频标题数据对应的标题表示特征、所述视频描述数据对应的描述表示特征以及所述视频字幕数据对应的字幕表示特征；

第一融合单元，用于将所述标题表示特征、所述描述表示特征以及所述字幕表示特征进行特征融合，生成所述目标视频的视频文本特征。

其中，所述融合模块，包括：

处理单元，用于基于所述视频图像特征与所述视频文本特征，对所述视频图像特征进行注意力处理，生成第一特征向量；所述第一特征向量的特征维度与所述视频图像特征的特征维度一致；

所述处理单元，还用于基于所述视频文本特征与所述视频图像特征，对所述视频文本特征进行注意力处理，生成第二特征向量；所述第二特征向量的特征维度与所述视频文本特征的特征维度一致；

第二融合单元，用于将所述第一特征向量与所述第二特征向量进行拼接融合，得到所述视频表示特征。

其中，所述匹配模块包括：

第三输出单元，用于将所述视频表示特征与所述标签表示特征输入匹配模型，通过所述匹配模型输出所述视频表示特征与所述标签表示特征之间的匹配结果；所述匹配结果包括所述视频表示特征与所述标签表示特征之间的相似度；

第一确定单元，用于将所述相似度大于或等于目标阈值的标签表示特征所对应的标签分词确定为所述目标视频的目标标签。

其中，还包括：

第一获取模块，用于获取所述目标视频对应的相似视频；

第一确定模块，用于基于所述相似视频的视频标签，确定出所述目标视频的所述候选标签集；

第一分词模块，用于将所述标签候选集中的候选标签进行分词处理，得到所述候选标签对应的标签分词；

所述第一确定模块，还用于根据每个标签分词对应的第二词向量，确定所述候选标签对应的标签表示特征。

其中，还包括：

第二获取模块，用于获取标签库；

第二确定模块，用于基于所述标签库中的标签，确定出所述目标视频的所述候选标签集；

第二分词模块，用于将所述候选标签集中的候选标签进行分词处理，得到所述候选标签对应的标签分词；

所述第二确定模块，还用于根据每个标签分词对应的第二词向量，确定所述候选标签对应的标签表示特征。

本申请实施例一方面提供了一种计算机设备，包括：处理器和存储器；

所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所诉处理器执行如本申请实施例中的方法。

本申请实施例一方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如本申请实施例中的方法。

本申请实施例通过获取视频的关键帧数据，生成关键帧数据对应的视频图像特征，再获取视频的文本数据，生成文本数据对应的视频文本特征，将上述视频图像特征与该视频文本特征进行特征融合，可以生成用于表征该视频的视频表示特征，再将该视频表示特征与视频的标签表示特征进行匹配，得到匹配结果，从匹配结果中选取匹配率较高的标签，即可得到视频的目标标签。从视频的图像、文本等多个维度特征来生成视频的目标标签，避免了人工手动标注，可以提高视频标签的检索能力，提高构建视频标签的效率与质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构图；

图2是本申请实施例提供的一种场景示意图；

图3是本申请实施例提供的一种视频数据处理方法的流程示意图；

图4是本申请实施例提供的一种确定标签表示特征的流程示意图；

图5是本申请实施例提供的另一种确定标签表示特征的流程示意图；

图6是本申请实施例提供的一种视频数据处理方法的架构图；

图7是本申请实施例提供的另一种场景示意图；

图8是本申请实施例提供的一种视频数据处理装置的结构示意图；

图9是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参见图1，是本申请实施例提供的一种网络架构图。如图1所示，该网络架构可以包括业务服务器2000和用户终端集群，所述用户终端集群可以包括多个用户终端，如图1所示，具体可以包括用户终端100a、用户终端100b、用户终端100c、…、用户终端100n。

如图1所示，用户终端100a、用户终端100b、用户终端100c、…、用户终端100n可以分别于所述业务服务器2000进行网络连接，以便于每个用户终端可以通过该网络连接与业务服务器2000进行数据交互。

如图1所示，该用户终端集群中的每个用户终端均可以集成安装有目标应用，当该目标应用运行于各用户终端中时，可以分别与上述图1所示的业务服务器2000之间进行数据交互。其中，该目标应用可以包括具有显示和播放视频、音频、图像、文字等数据信息功能的应用。

本申请实施例可以在图1所示的多个用户终端中选择一个用户终端作为目标用户终端，该目标用户终端可以包括：智能手机、平板电脑、桌上型电脑等携带显示和播放数据信息功能的智能终端。例如，本申请实施例可以将图1所示的用户终端100a作为该目标用户终端，该目标用户终端中可以集成有上述目标应用，此时，该目标用户终端可以通过该目标应用对应的业务数据平台与业务服务器2000之间实现数据交互。

请一并参见图2，是本申请实施例提供的一种场景示意图。目标用户在访问该目标应用之后，该目标用户可以在该目标应用中发表目标视频内容，并填写该目标视频的视频标题、视频描述等字段内容，以使该目标视频具备包含该视频标题、视频描述以及视频字幕等文本数据，其中，该目标用户选择目标视频内容的方式可以选择在目标用户终端100a中的本地文件中已保存或已拍摄好的视频内容，也可以在该目标应用中选择拍摄按钮进行即时拍摄并发表，具体选择并发表目标视频内容的方式，本申请实施例不做限制。

进一步地，用户终端100a在响应目标用户针对目标应用的触发操作时，业务服务器2000可以获取到该目标视频的关键帧数据，并基于该关键帧数据生成该关键帧数据所对应的视频图像特征；业务服务器2000也可以获取到与该目标视频相关联的文本数据，其中，这里的文本数据可以包括该目标视频的视频标题、视频描述以及视频字幕等字段内容，业务服务器根据该文本数据，生成该目标视频的视频文本特征；后续，业务服务器将上述视频图像特征与该视频文本特征进行特征融合，生成视频表示特征，可以看出，该视频表示特征是基于该目标视频的图像与文本所生成的，该视频表示特征可以用于表征该目标视频。后续，业务服务器2000可以获取到该目标视频的候选标签所对应的标签表示特征，业务服务器2000将该标签表示特征与该视频表示特征进行计算匹配，计算出该标签表示特征与该视频表示特征之间的相似度，选择相似度更高的候选标签作为该目标视频的目标标签。以上述对目标视频构建目标标签的方式，业务服务器2000可以对不同的视频构建视频所对应的视频标签，并将视频与视频所对应的视频标签存储到数据库中。

其中，该标签表示特征可以由业务服务器2000通过标签库中的标签来确定，该标签库用于存储多个标签。如，业务服务器2000获取到该标签库，通过将该标签库中的多个标签与该目标视频的文本数据(如，视频标题数据)进行匹配，确定出该目标视频的候选标签集，将该候选标签集中的候选标签进行分词处理，得到该候选标签对应的标签分词，业务服务器2000再根据每个标签分词对应的词向量，确定该候选标签对应的标签表示特征。

请参见图3，是本申请实施例提供的一种视频数据处理方法的流程示意图。如图3所示，该数据处理方法可以包括：

步骤S101，获取目标视频的关键帧数据，生成所述关键帧数据对应的视频图像特征。

本申请实施例中，目标视频为用户发表的视频内容，关键帧数据为该目标视频的关键视频帧。业务服务器可以将目标视频中的每个视频帧进行参数标注，以使得每个视频帧具有对应的图像参数，这里的图像参数即为对每个视频帧进行参数标注后视频帧所对应的参数，对视频帧进行参数标注时，可以基于每个视频帧中图像的对比度来确定标注的参数，也可以基于视频帧中是否包含人脸来确定标注的参数。如，目标视频的视频帧为{q₁，q₂，q₃}，视频帧q₁中不包含人脸，将视频帧q₁标注为0，视频帧q₂中不包含人脸，将视频帧q₂标注为0，视频帧q₃中包含人脸，则视频帧q₃为重要视频帧，将视频帧q₃标注为1，这里的0与1即为图像参数，视频帧q1对应的图像参数为0、视频帧q₂对应的图像参数为0以及视频帧q₃对应的图像参数为1，图像参数用于表征视频帧是否为重要视频帧(即关键视频帧)，如，图像参数为0的视频帧q₁与q₂不是重要视频帧，图像参数为1的视频帧q₃是重要视频帧。业务服务器根据该目标视频中每个视频帧所对应的图像参数，可以获取到该视频的多个关键视频帧(即重要视频帧)，这里的关键视频帧用于表征视频的图像特征，且该关键视频帧的数量是小于该目标视频总帧数的正整数；业务服务器根据该关键视频帧的帧时间戳，可以生成关键视频帧序列，也就是将该关键视频帧按时间顺序生成了有序序列，业务服务器将该关键视频帧序列输入循环神经网络模型中，通过该循环神经网络模型输出该关键视频帧序列对应的向量数据，该向量数据即为所述视频图像特征。

可以理解的是，业务服务器获取到用户上传的目标视频，将该目标视频输入到序列标注模型，业务服务器可以通过该序列标注模型抽取并得到该目标视频的关键视频帧，其中，抽取关键帧的方式可以为该序列标注模型将该目标视频中的每个视频帧进行参数标注，如，对每个视频帧进行或0或1标注，以使得该目标视频中的每个视频帧拥有或0或1的图像参数，其中，0表征该视频帧为普通视频帧，1表征该视频帧为关键视频帧，输出图像参数为1的关键视频帧，得到该目标视频的关键视频帧序列，该关键视频帧序列是按时间排序的有序序列；将该关键视频帧序列输入循环神经网络模型中，如，残差网络(Residual NeuralNetwork，ResNet)模型，在ResNet模型中，可得到该关键视频帧序列中的每个关键视频帧所对应的关键视频帧向量，以此得到关键视频帧向量序列，其中，由于该关键视频帧向量序列由上述关键视频帧序列生成得到，该关键视频帧向量序列中的关键视频帧向量与该关键视频帧一一对应，则该关键视频帧向量序列为有序序列且顺序与关键视频帧序列的顺序一致。将该关键视频帧向量序列中的关键视频帧向量依次进行运算，可得到向量数据，将该向量数据确定为该目标视频的视频图像特征，如，该关键视频帧向量序列为{a，b，c，…，n}，其中，a、b、c、…、n为关键视频帧向量且关键视频帧向量a在该关键视频帧向量序列的第一位，关键视频帧向量n在该关键视频帧向量序列的最后一位，ResNet模型可以对{a，b，c，…，n}这一向量序列进行循环运算，得到最终结果z并输出，业务服务器将该最终结果z确定为该目标视频的视频图像特征。

可选的，可以对该序列标注模型进行训练，以使得该序列标注模型具备输入一个视频到该序列标注模型中即可输出该视频的关键视频帧序列的能力，该训练过程可以为获取视频集，该视频集中包括多个视频，将该视频集中的每个视频进行人工标注，以使得每个视频中的每个视频帧具有或0或1的图像参数，得到包括图像参数的视频集，通过在该包括图像参数的视频集上训练视频帧序列标注。

具体获取目标视频的关键视频帧的方式不限于上述方式，本申请不做限制。

步骤S102，获取与所述目标视频相关联的文本数据，生成所述文本数据对应的视频文本特征。

本申请中，该文本数据可以包括目标视频的视频标题数据、视频描述数据以及视频字幕数据，其中，该视频标题数据与视频描述数据为用户上传视频时所填写添加的字段内容，该视频字幕数据可以通过文本识别(Optical Character Recognition，OCR)模型提取出来，也可以通过业务服务器调取该视频的视频字幕文件，通过该视频字幕文件提取出该视频字幕数据。业务服务器将该视频标题数据进行分词处理，得到该视频标题数据对应的多个标题分词，再查询每个标题分词对应的标题词向量，以得到标题词向量序列，业务服务器将该标题词向量序列输入到语言处理模型(如，Transformer模型)中，基于该语言处理模型可以输出该视频标题数据所对应的标题表示特征；将该视频描述数据与视频字幕数据采用上述视频标题数据相同的分词处理方式，得到视频描述数据对应的多个描述分词与视频字母数据对应的多个字幕分词，查询每个描述分词对应的描述词向量，以得到描述词向量序列，查询每个字幕分词对应的字幕词向量，以得到字幕词向量序列，将该字幕词向量与字幕词向量序列输入上述语言处理模型中，基于该语言处理模型可以输出该视频描述数据的描述表示特征、该视频字幕数据的字幕表示特征。这里的标题词向量、描述词向量以及字幕词向量即为第一词向量。将上述标题表示特征、描述表示特征以及字幕表示特征进行特征融合，生成该目标视频的视频文本特征。其中，具体特征融合的方式可以为直接拼接的方式，也可以为数据标准化(即相同维度取max/min)的方式，对具体特征融合的方式，本申请不做限制。

步骤S103，将所述视频图像特征与所述视频文本特征进行特征融合，生成视频表示特征。

本申请中，该视频表示特征可以为该视频的多模态表示，多模态表示也就是多种类型特征的组合表示，通过将视频图像特征与视频文本特征进行特征融合来构建目标视频的多模态表示。具体的，业务服务器基于该视频图像特征与该视频文本特征，对该视频图像特征进行注意力处理，生成与该视频图像特征的特征维度一致的第一特征向量，再基于该视频图像特征与该视频文本特征，对该视频文本特征进行注意力处理，生成与该视频文本特征的特征维度一致的第二特征向量，再将该第一特征向量与该第二特征向量进行拼接，将拼接后得到的结果，作为该目标视频的视频表示特征。

可以理解的是，业务服务器基于目标视频的视频图像特征与视频文本特征，通过双向注意力(Attention)操作来构建目标视频的多模态表示。具体为，通过该视频文本特征对视频图像特征做Attention，得到该视频图像特征对应的第一特征向量，通过视频图像特征对视频文本特征做Attention，得到该视频文本特征对应的第二特征向量，其中，该第一特征向量的特征维度与该视频图像特征的特征维度一致，该第二特征向量的特征维度与该视频文本特征的特征维度一致。将该第一特征向量与该第二特征向量进行拼接，将拼接后得到的向量结果，作为该目标视频的多模态表示(即视频表示特征)。

步骤S104，获取与所述目标视频对应的候选标签集中候选标签的标签表示特征，将所述视频表示特征与所述标签表示特征进行匹配，根据匹配结果在所述候选标签集中确定用于表征所述目标视频的目标标签。

本申请中，业务服务器可以获取到该目标视频的候选标签所对应的标签表示特征，将该标签表示特征与上述视频表示特征输入匹配模型，通过该匹配模型可以输出该视频表示特征与该标签表示特征之间的匹配结果，该匹配结果可以为该视频表示特征与该标签表示特征之间的相似度，业务服务器将该相似度大于或等于目标阈值的标签表示特征所对应的标签确定为该目标视频的目标标签。其中，这里的目标阈值为人为规定或服务器随机生成的数值，该数值可以是百分比、分数、小数等数值呈现方式，如，该目标阈值可以为0.9，若通过上述匹配模型输出的该视频表示特征与标签表示特征之间的匹配结果(即相似度)为0.92，则将该相似度为0.92的标签表示特征所对应的候选标签确定为该目标视频的目标标签。

本申请中，该标签表示特征为用于表征目标视频的向量数据，该向量数据的长度与上述视频表示特征的长度是一致的。其中，可根据目标视频的文本数据与数据库中其他视频的视频标签来确定该标签表示特征，也可以根据目标视频的文本数据与标签库中的标签来确定该标签表示特征，有关于确定标签表示特征的具体实施方式，可以参考后续图4所对应实施例的描述或后续图5所对应实施例的描述。

上述可知，通过获取视频的关键帧数据，生成关键帧数据对应的视频图像特征，再获取视频的文本数据，生成文本数据对应的视频文本特征，将上述视频图像特征与该视频文本特征进行特征融合，可以生成用于表征该视频的视频表示特征，再将该视频表示特征与视频的标签表示特征进行匹配，得到匹配结果，从匹配结果中选取匹配率较高的标签，即可得到视频的目标标签。从视频的图像、文本等多个维度特征来生成视频的目标标签，避免了人工手动标注，可以提高视频标签的检索能力，提高构建视频标签的效率与质量。

进一步地，请参见图4，是本申请实施例提供的一种确定标签表示特征的流程示意图。如图4所示，确定标签表示特征的流程可以包括：

步骤S201，获取所述目标视频对应的相似视频。

本申请中，这里的相似视频可以为视频标签与该目标视频文本数据相关性较高的视频。本申请中，可以从数据库的视频集合中获取到多个视频的视频标签，再将这些视频标签与该目标视频的文本数据进行匹配，生成相似度，将该相似度大于或等于视频目标阈值的视频确定为该目标视频的相似视频。其中，这里的阈值为人为规定或服务器随机生成的数值，该数值可以是百分比、分数、小数等数值呈现方式，如，该阈值可以为0.7，若通过匹配所得到的文本数据与视频标签的相似度为0.72，则将该相似度为0.72的视频标签所对应的视频确定该目标视频的相似视频。这里的视频目标阈值与上述图3所对应实施例中步骤S104中的目标阈值可以为同一数值，也可以为不同的数值，对视频目标阈值的取值，本申请不做限制。

可以理解为，在本申请实施例中，从数据库中的视频集合中获取到多个视频的视频标签，基于该目标视频的文本数据与该多个视频的视频标签，可以通过相似视频检索(即，对该目标视频的文本数据与该多个视频的视频标签进行匹配)，确定该目标视频的相似视频。具体相似视频检索的方式可以为，通过经典检索算法(如，BM25算法)对标题进行检索，对相似视频检索的具体实施方式，本申请不做限制。

步骤S202，基于所述相似视频的视频标签，确定出所述目标视频的所述候选标签集。

本申请中，获取上述相似视频的视频标签集，该视频标签集中包括所有相似视频的所有视频标签，将该视频标签集确定为该目标视频的候选标签集，将候选标签集中的视频标签确定为该目标视频的候选标签。

步骤S203，将所述标签候选集中的候选标签进行分词处理，得到所述候选标签对应的标签分词。

步骤S204，根据每个标签分词对应的第二词向量，确定所述候选标签对应的标签表示特征。

本申请中，可以查询每个标签分词对应的标签词向量(即第二词向量)，已得到标签词向量序列，将该标签词向量序列输入到语言处理模型。这里的语言处理模型与上述图3所对应实施例中的语言处理模型一致。基于该语言处理模型可以输出该候选标签对应的标签表示特征。

请参见图5，是本申请实施例提供的另一种确定标签表示特征的流程示意图。如图5所示，确定标签表示特征的流程可以包括：

步骤S301，获取标签库；

本申请中，该标签库用于存储标签，该标签库中的标签与上述图3所对应实施例中的数据库中视频集的视频标签不同，业务服务器可以直接获取到该标签库，从而获取到该标签库中的标签。

步骤302，基于所述标签库中的标签，确定出所述目标视频的所述候选标签集；

本申请中，可以将该目标视频的文本数据(如，视频标题数据)与该标签库中的标签进行匹配，将匹配率(即与文本数据的相似度)大于阈值的标签，确定为该目标视频的候选标签。其中，这里的阈值为人为规定或服务器随机生成的数值，该数值可以是百分比、分数、小数等数值呈现方式，如，该阈值可以为0.6，若通过匹配所得到的文本数据与标签的相似度为0.65，则将该相似度为0.65的标签确定为该目标视频的候选标签。这里的阈值与上述图3所对应实施例中步骤S104中的目标阈值可以为同一数值，也可以为不同的数值，对阈值的取值，本申请不做限制。

可以理解的是，从标签库中获取到的标签为标签X₁，标签X₂，标签X₃，将该目标视频的视频标题数据与标签X₁，标签X₂，标签X₃通过点互信息(Pointwise Mutual Information，PMI)算法分别进行计算匹配，得到该视频标题数据与标签X₁的相似度为0.5、该视频标题数据与标签X₂的相似度为0.7以及该视频标题数据与标签X₃的相似度为0.3，阈值为0.6，可以看出，标签X₂与该视频标题数据的相似度大于该阈值0.6，则将标签X₂确定为目标视频的候选标签。

步骤S303，将所述候选标签集中的候选标签进行分词处理，得到所述候选标签对应的标签分词；

步骤S304，根据每个标签分词对应的第二词向量，确定所述候选标签对应的标签表示特征。

本申请中，步骤S303-步骤S304的具体实施方式可以参见上述图4所对应实施例中的步骤S203-步骤S204，在此不再进行赘述。

请参见图6，是本申请实施例提供的一种视频数据处理方法的架构图。如图6所示，业务服务器获取到用户上传的目标视频，可以将该目标视频输入到序列标注模型，在该序列标注模型中可以抽取出该目标视频的关键视频帧，该关键视频帧与该目标视频的主题所相关，该关键视频帧用于表征该目标视频。根据该关键视频帧，得到关键视频帧序列，业务服务器将该关键视频帧序列输入循环神经网络模型(如，ResNet模型)，通过如ResNet的循环神经网络模型，可得到该关键视频帧序列对应的关键视频帧向量序列，该关键视频帧向量序列中包括多个关键视频帧对应的多个关键视频帧向量，在ResNet模型中对该关键视频帧向量序列进行循环运算，可以生成该目标视频对应的视频图像特征。其中，生成视频图像特征的具体实施方式可以参见上述图3所对应实施例中的步骤S101，在此不再进行赘述。

进一步地，业务服务器可以获取到该目标视频的视频标题数据、视频描述数据以及视频字幕数据，通过对该视频标题数据、视频描述数据以及视频字幕数据进行分词处理，可以得到视频标题数据对应的标题分词、视频描述数据对应的描述分词以及视频字幕数据对应的字幕分词，再查询该标题分词对应的标题词向量、描述分词对应的词向量以及字幕分词对应的字幕词向量，基于该标题词向量、描述词向量以及字幕词向量，可以生成该目标视频对应的视频文本特征，其中，生成该视频文本特征的具体实施方式可以参见上述图3所对应实施例中的步骤S102，在此不再进行赘述。

进一步地，业务服务器可以将上述视频图像特征与视频文本特征进行多模态特征融合，可以得到该目标视频的多模态表示(即视频表示特征)。其中，特征融合的具体实施方式可以参见上述图3所对应实施例中的步骤S103，在此不再进行赘述。

进一步地，业务服务器可以基于该目标视频的视频标题等文本数据与数据库中视频集的视频所对应的视频标签，确定该目标视频的标签表示特征，也可以基于该目标视频的视频标题等文本数据以及标签库中的标签确定该目标视频的标签表示特征。其中，确定该标签表示特征的具体实施方式可以参见上述图4所对应实施例中的步骤S201-步骤S204，也可以参见上述图5所对应实施例中的步骤S301-步骤S304，在此不再进行赘述。

进一步地，业务服务器通过对上述视频表示特征与标签表示特征进行相关性匹配，可以得到该目标视频的目标标签。其中，进行相关性匹配，得到目标标签的具体实施方式可以参见上述图3所对应实施例中的步骤S104，在此不再进行赘述。

请参见图7，是本申请实施例提供的另一种场景示意图。如图7所示，显示界面1000a可以为目标应用的显示界面，拍摄界面1000c为用户A想要上传视频时选择即时拍摄的拍摄界面，在拍摄界面1000c中，用户A可以进行视频拍摄。用户A可以在显示界面1000a浏览观看视频，如，用户A在显示界面1000上可以播放观看视频20a，用户A在显示界面1000a上可以执行触发操作，例如，用户A点击按钮M，选择拍摄视频或者从相册中选择本地文件中的视频。以下以用户A选择拍摄视频为例，用户A在拍摄界面1000c中可以进行拍摄视频并上传，如，拍摄视频20c为用户A拍摄的目标视频，该拍摄视频20c中包含视频字幕的文本内容。

用户A在将拍摄视频20c上传时，可以填写该拍摄视频20c的视频标题、视频描述等字段内容，用户A将拍摄视频20c上传后，业务服务器可以基于拍摄视频20c中每个视频帧所对应的图像参数，从拍摄视频20c中获取到该拍摄视频20c的多个关键视频帧，这里的关键视频帧与视频主题相关，可以用于表征视频，且业务服务器获取到的关键视频帧的数量为小于该拍摄视频20c总帧数的正整数；业务服务器再基于该关键视频帧的帧时间戳，生成关键视频帧序列，业务服务器将该关键视频帧序列依次输入到循环神经网络模型中，通过该循环神经网络模型生成该关键视频帧序列对应的向量数据，业务服务器将该向量数据确定为该拍摄视频20c的视频图像特征。

进一步地，业务服务器可以获取到拍摄视频20c的视频标题、视频描述以及视频字幕等文本内容，业务服务器将该视频标题、该视频描述以及该视频字幕分别进行分词处理，得到视频标题对应的多个标题分词、视频描述对应的多个描述分词以及视频字幕对应的字幕分词，业务服务器再获取到每个标题分词、描述分词以及字幕分词所对应的词向量并将该词向量输入到语言处理模型中，基于该语言处理模型输出该视频标题对应的标题表示特征、该视频描述对应的描述表示特征以及该视频字幕对应的字幕表示特征，业务服务器将该标题表示特征、描述表示特征以及该字幕表示特征进行特征融合，生成该拍摄视频20c对应的视频文本特征。

进一步地，业务服务器可以将上述视频图像特征与视频文本特征进行特征融合来构建该拍摄视频20c的多模态表示(即视频表示特征)。业务服务器基于上述视频图像特征与视频文本特征，对该视频图像特征进行注意力处理，生成第一特征向量，业务服务器基于上述视频图像特征与视频文本特征，对该视频文本特征进行注意力处理，生成第二特征向量，其中，该第一特征向量的特征维度与该视频图像特征的特征维度一致，该第二特征向量的特征维度与该视频文本特征的特征维度一致；后续，业务服务器将该第一特征向量与该第二特征向量进行拼接，得到该拍摄视频20c的视频表示特征。

进一步地，业务服务器可以获取到该拍摄视频20c对应的标签表示特征，将该视频表示特征与该标签表示特征进行匹配，根据匹配结果确定出该拍摄视频20c的目标标签，并将该拍摄视频20c与其对应的目标标签存储到数据库中。其中，该标签表示特征是业务服务器基于该目标视频所构建的，构建该标签表示特征的具体实施方式可以参见上述图4所对应实施例中的步骤S201-步骤S204或上述图5所对应实施例中的步骤S301-步骤S304，在此不再进行赘述。

可选的，业务服务器可以根据该拍摄视频的目标标签，查询数据库中的视频集的视频标签，通过将该目标标签与该视频标签进行匹配，来得到该拍摄视频的相关视频，该相关视频可以包括与该拍摄视频20c为相同类型的视频(如，拍摄视频20c与相关视频中的标签中都含有喜剧或忧郁或恐怖等表征视频类型的相同字段)、也可以包括与该拍摄视频20c中的角色内容相关联的视频(如，拍摄视频20c与相关视频中的标签中都含有用于表征人物或动物的相同字段)，相关视频具体包括的视频内容，在本申请实施例中不做限制。如图7所示，业务服务器经匹配得到该拍摄视频20c的相关视频为视频20d，业务服务器可以主动向该用户A推荐视频20d，并将视频20d显示在显示界面1000a上，以使用户A观看到视频20d。

可选的，业务服务器可以基于视频的是视频标签进行视频聚类，如，视频a与视频b都具有相同的视频标签(如，搞笑)，则将视频a与视频b归为一类，即视频a与视频b互为对方的相关视频；如，视频c具有视频标签忧郁、视频d具有视频标签悲伤，则将视频c与视频d归为一类，即视频c与视频d互为对方的相关视频。当用户在浏览并播放自己所感兴趣的视频内容时，业务服务器可以根据用户整播放的视频内容的标签给用户推荐相关视频。

如图7所示，用户A在显示界面1000a播放观看视频20a，基于该视频20a，业务服务器可以从数据库中获取该视频20a的视频标签，进而通过该视频标签获取到视频20b，该视频20b与视频20a都具有“舞蹈”这个视频标签，业务服务器可以将该视频20b显示在显示界面1000a上，使用户A可以在显示界面1000a上观看该视频20b。

可选的，用户A也可以在显示界面1000a上输入字段内容搜索视频，基于数据库中视频集的视频标签与用户A输入的字段内容，可以精准的获取相关视频推荐给用户A，以使用户A观看到用户想要搜索到的视频。

请参见图8，是本申请实施例提供的一种视频数据处理装置的结构示意图。如图7所示，数据处理装置1可以包括：第一生成模块11、第二生成模块12、融合模块13以及匹配模块14。

第一生成模块11，用于获取目标视频的关键帧数据，生成所述关键帧数据对应的视频图像特征；

第二生成模块12，用于获取与所述目标视频相关联的文本数据，生成所述文本数据对应的视频文本特征；

融合模块13，用于将所述视频图像特征与所述视频文本特征进行特征融合，生成视频表示特征；

匹配模块14，用于获取与所述目标视频对应的候选标签集中候选标签的标签表示特征，将所述视频表示特征与所述标签表示特征进行匹配，根据匹配结果在所述候选标签集中确定用于表征所述目标视频的目标标签。

其中，第一生成模块11、第二生成模块12、融合模块13以及匹配模块14的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101-步骤S104，在此不再进行赘述。

请参见图8，第一生成模块11可以包括：第一获取单元111、生成单元112以及第一输出单元113。

第一获取单元111，用于基于所述目标视频中的每个视频帧对应的图像参数，从所述目标视频中获取N个关键视频帧；所述N为正整数且小于所述目标视频的总帧数；

生成单元112，用于基于所述关键视频帧对应的帧时间戳，生成关键视频帧序列；

第一输出单元113，用于将所述关键视频帧序列输入循环神经网络模型，通过所述循环神经网络模型输出所述关键视频帧序列对应的向量数据，将所述向量数据确定为所述视频图像特征。

其中，第一获取单元111、生成单元112以及第一输出单元113的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101，在此不再进行赘述。

请参见图8，第二生成模块12可以包括：第二获取单元121、第一分词单元122、第一输入单元123、第二输出单元124以及第一融合单元125。

第二获取单元121，用于获取所述目标视频的视频标题数据与视频描述数据；

所述第二获取单元121，还用于从所述视频字幕文件中获取所述目标视频的视频字幕数据；

第一分词单元122，用于对所述视频标题数据、所述视频描述数据以及所述视频字幕数据分别进行分词处理，得到多个文本分词；所述多个文本分词包括标题分词、描述分词以及字幕分词；

第一输入单元123，用于获取每个文本分词分别对应的第一词向量，将所述第一词向量输入语言处理模型；

第二输出单元124，用于基于所述语言处理模型输出所述视频标题数据对应的标题表示特征、所述视频描述数据对应的描述表示特征以及所述视频字幕数据对应的字幕表示特征；

第一融合单元125，用于将所述标题表示特征、所述描述表示特征以及所述字幕表示特征进行特征融合，生成所述目标视频的视频文本特征。

其中，第二获取单元121、第一分词单元122、第一输入单元123、第二输出单元124以及第一融合单元125的具体功能实现方式可以参见上述图3所对应实施例中的步骤S102，在此不再进行赘述。

请参见图8，融合模块13可以包括：处理单元131与第二融合单元132。

处理单元131，用于基于所述视频图像特征与所述视频文本特征，对所述视频图像特征进行注意力处理，生成第一特征向量；所述第一特征向量的特征维度与所述视频图像特征的特征维度一致；

所述处理单元131，还用于基于所述视频文本特征与所述视频图像特征，对所述视频文本特征进行注意力处理，生成第二特征向量；所述第二特征向量的特征维度与所述视频文本特征的特征维度一致；

第二融合单元132，用于将所述第一特征向量与所述第二特征向量进行拼接融合，得到所述视频表示特征。

其中，处理单元131与第二融合单元132的具体功能实现方式可以参见上述图3所对应实施例中的步骤S103，在此不再进行赘述。

请参见图8，匹配模块14可以包括：第三输出单元141与确定单元142。

第三输出单元141，用于将所述视频表示特征与所述标签表示特征输入匹配模型，通过所述匹配模型输出所述视频表示特征与所述标签表示特征之间的匹配结果；所述匹配结果包括所述视频表示特征与所述标签表示特征之间的第二相似度；

确定单元142，用于将所述相似度大于或等于目标阈值的标签表示特征所对应的标签分词确定为所述目标视频的目标标签。

其中，第三输出单元141与确定单元142的具体功能实现方式可以参见上述图3所对应实施例中的步骤S104，在此不再进行赘述。

请参见图8，视频数据处理装置1可以包括第一生成模块11、第二生成模块12、融合模块13以及匹配模块14，还可以包括：第一获取模块15、第一确定模块16以及第一分词模块。。

第一获取模块15，用于获取所述目标视频对应的相似视频；

第一确定模块16，用于基于所述相似视频的视频标签，确定出所述目标视频的所述候选标签集；

第一分词模块17，用于将所述候选集中的候选标签进行分词处理，得到所述候选标签对应的标签分词；

所述第一确定模块16，还用于根据每个标签分词对应的第二词向量，确定所述候选标签对应的标签表示特征。

其中，第一获取模块15、第一确定模块16以及第一分词模块17的具体功能实现方式可参见上述图4所对应实施例中的步骤S201-步骤S204，在此不再进行赘述。

请参见图8，视频数据处理装置1可以包括第一生成模块11、第二生成模块12、融合模块13、匹配模块14、第一获取模块15、第一确定模块16以及第一分词模块，还可以包括：第二获取模块18、第二确定模块19以及第二分词模块20。

第二获取模块18，用于获取标签库；

第二确定模块19，用于基于所述标签库中的标签，确定出所述目标视频的所述候选标签集；

第二分词模块20，用于将所述候选标签集中的候选标签进行分词处理，得到所述候选标签对应的标签分词；

所述第二确定模块19，还用于根据每个标签分词对应的第二词向量，确定所述候选标签对应的标签表示特征。

其中，第二获取模块18、第二确定模块19以及第二分词模块20的具体功能实现方式可以参见上述图5所对应实施例中的步骤S301-步骤S304，在此不再进行赘述。

本申请实施例通过通过获取视频的关键帧数据，生成关键帧数据对应的视频图像特征，再获取视频的文本数据，生成文本数据对应的视频文本特征，将上述视频图像特征与该视频文本特征进行特征融合，可以生成用于表征该视频的视频表示特征，再将该视频表示特征与视频的标签表示特征进行匹配，得到匹配结果，从匹配结果中选取匹配率较高的标签，即可得到视频的目标标签。从视频的图像、文本等多个维度特征来生成视频的目标标签，避免了人工手动标注，可以提高视频标签的检索能力，提高构建视频标签的效率与质量。

进一步地，请参见图9，是本申请实施例提供的一种计算机设备的结构示意图。如图9所示，上述图8所对应实施例中的装置1可以应用于所述计算机设备1000，所述计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，所述计算机设备1000还包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图9所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

在一个实施例中，所述处理器1001在执行所述获取目标视频的关键帧数据，生成所述关键帧数据对应的视频图像特征时，具体执行以下步骤：

在一个实施例中，所述与所述目标视频相关联的文本数据包括：视频标题数据、视频描述数据以及视频字幕文件；

所述处理器1001在执行所述获取与所述视频相关联的文本数据，生成所述文本数据对应的视频文本特征时，具体执行以下步骤：

获取所述目标视频的视频标题数据与视频描述数据；

从所述视频字幕文件中获取所述目标视频的视频字幕数据；

在一个实施例中，所述处理器1001在执行所述将所述视频图像特征与所述视频文本特征进行特征融合，生成视频表示特征时，具体执行以下步骤：

在一个实施例中，所述处理器1001还执行以下步骤：

获取所述目标视频对应的相似视频；

在一个实施例中，所述处理器1001还执行以下步骤：

获取标签库；

在一个实施例中，所述处理器1001在执行所述获取与所述目标视频对应的候选标签集中候选标签的标签表示特征，将所述视频表示特征与所述标签表示特征进行匹配，根据匹配结果在所述候选标签集中确定用于表征所述目标视频的目标标签时，具体执行以下步骤：

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且所述计算机可读存储介质中存储有前文提及的数据处理的计算机设备1000所执行的计算机程序，且所述计算机程序包括程序指令，当所述处理器执行所述程序指令时，能够执行前文图3到图6所对应实施例中对所述数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种视频数据处理方法，其特征在于，包括：

获取所述目标视频的视频标题数据与视频描述数据；

从视频字幕文件中获取所述目标视频的视频字幕数据；

将所述标题表示特征、所述描述表示特征以及所述字幕表示特征进行特征融合，生成所述目标视频的视频文本特征；

2.根据权利要求1所述的方法，其特征在于，所述获取目标视频的关键帧数据，生成所述关键帧数据对应的视频图像特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述视频图像特征与所述视频文本特征进行特征融合，生成视频表示特征，包括：

4.根据权利要求1所述的方法，其特征在于，还包括：

获取所述目标视频对应的相似视频；

5.根据权利要求1所述的方法，其特征在于，还包括：

获取标签库；

6.根据权利要求1所述的方法，其特征在于，所述获取与所述目标视频对应的候选标签集中候选标签的标签表示特征，将所述视频表示特征与所述标签表示特征进行匹配，根据匹配结果在所述候选标签集中确定用于表征所述目标视频的目标标签，包括：

将所述相似度大于或等于目标阈值的标签表示特征所对应的候选标签确定为所述目标视频的目标标签。

7.一种视频数据处理装置，其特征在于，包括：

匹配模块，用于获取与所述目标视频对应的候选标签集中候选标签的标签表示特征，将所述视频表示特征与所述标签表示特征进行匹配，根据匹配结果在所述候选标签集中确定用于表征所述目标视频的目标标签；

所述第二生成模块，包括：

8.一种计算机设备，其特征在于，包括：处理器和存储器；

所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1至6中任一项所述的方法。