CN113395584B

CN113395584B - 一种视频数据处理方法、装置、设备以及介质

Info

Publication number: CN113395584B
Application number: CN202011077111.4A
Authority: CN
Inventors: 蔡聪怀; 张琳琳
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2024-03-22
Anticipated expiration: 2040-10-10
Also published as: CN113395584A

Abstract

本申请实施例提供了一种视频数据处理方法、装置、设备以及介质，该方法涉及人工智能领域，方法包括：从目标视频序列中获取K个关键视频帧；获取与K个关键视频帧相关联的关键视频向量，在目标视频序列相关联的第一向量检索库中，查找与关键视频向量相匹配的第一目标向量，得到第一向量查找结果；若第一向量查找结果指示未查找到第一目标向量，则在目标视频序列相关联的第二向量检索库中，查找与关键视频向量相匹配的第二目标向量，得到第二向量查找结果；若第二向量查找结果指示在第二向量检索库中查找到第二目标向量，则将第二目标向量所对应的视频名称作为目标视频序列的目标视频名称。采用本申请，可以提高视频名称识别的准确性。

Description

一种视频数据处理方法、装置、设备以及介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频数据处理方法、装置、设备以及介质。

背景技术

随着人工智能(Artificial Intelligence，AI)的发展，深度学习(DeepLearning，DL)被广泛应用在图像、视频、文本等领域。比如，当使用AI领域的深度学习技术训练好深度网络模型时，可以通过深度网络模型对当前获取到的视频数据的视频名称进行识别。然而在采用该深度网络模型进行视频名称的识别的过程中，可以得到基于帧粒度的特征向量，这意味着根据现有的视频名称的识别方式，往往会忽略整个视频数据中的图像帧之间的关联性，基于此，当这个视频数据所对应的视频源存在缺失的情况下，将难以确保剧名识别的准确性。

发明内容

本申请实施例提供一种视频数据处理方法、装置、设备以及介质，可以提高视频名称识别的准确性。

本申请实施例一方面提供了一种视频数据处理方法，包括：

从目标视频序列中获取K个关键视频帧；K个关键视频帧为对目标视频序列进行均匀抽帧处理后所得到的；K为正整数；

获取与K个关键视频帧相关联的关键视频向量，在目标视频序列相关联的第一向量检索库中，查找与关键视频向量相匹配的第一目标向量，得到第一向量查找结果；关键视频向量是由目标视频序列对应的目标网络模型对K个关键视频帧进行特征提取后所得到的；

若第一向量查找结果指示在第一向量检索库中未查找到第一目标向量，则在目标视频序列相关联的第二向量检索库中，查找与关键视频向量相匹配的第二目标向量，得到第二向量查找结果；

若第二向量查找结果指示在第二向量检索库中查找到第二目标向量，则将第二目标向量所对应的视频名称作为目标视频序列的目标视频名称。

本申请实施例一方面提供了一种视频数据处理装置，包括：

关键帧获取模块，用于从目标视频序列中获取K个关键视频帧；K个关键视频帧为对目标视频序列进行均匀抽帧处理后所得到的；K为正整数；

第一确定模块，用于获取与K个关键视频帧相关联的关键视频向量，在目标视频序列相关联的第一向量检索库中，查找与关键视频向量相匹配的第一目标向量，得到第一向量查找结果；关键视频向量是由目标视频序列对应的目标网络模型对K个关键视频帧进行特征提取后所得到的；

第二确定模块，用于若第一向量查找结果指示在第一向量检索库中未查找到第一目标向量，则在目标视频序列相关联的第二向量检索库中，查找与关键视频向量相匹配的第二目标向量，得到第二向量查找结果；

第二名称确定模块，用于若第二向量查找结果指示在第二向量检索库中查找到第二目标向量，则将第二目标向量所对应的视频名称作为目标视频序列的目标视频名称。

其中，目标网络模型包括具有局部图像特征提取功能的第一网络模型；

第一确定模块包括：

图像特征提取单元，用于将K个关键视频帧输入第一网络模型，通过第一网络模型的局部图像特征提取功能，提取K个关键视频帧的局部图像特征，将提取到的每个关键视频帧的局部图像特征作为特征提取向量；

视频向量确定单元，用于将K个特征提取向量所构成的向量序列作为目标视频序列对应的关键视频向量；

第一距离确定单元，用于获取与目标视频序列相关联的第一向量检索库，在第一向量检索库中所包含的M个第一样本视频向量中，确定关键视频向量与M个第一样本视频向量中的每个第一样本视频向量之间的第一向量距离；M为正整数；

第一查找确定单元，用于在M个第一向量距离中，将获取到的最小第一向量距离作为第一目标向量距离，若第一目标向量距离满足第一相似距离条件，则将第一目标向量距离所关联的第一样本视频向量，作为查找到的与关键视频向量相匹配的第一目标向量，基于查找到的第一目标向量得到第一类型查找结果；

第二查找确定单元，用于若第一目标向量距离不满足第一相似距离条件，则确定在第一向量检索库中未查找到与关键视频向量相匹配的第一目标向量，基于未查找到第一目标向量得到第二类型查找结果；

第一结果确定单元，用于将第一类型查找结果或者第二类型查找结果作为第一向量查找结果。

其中，一个第一样本视频向量对应一个完整样本视频序列；

装置还包括：

第一名称确定模块，用于若第一向量查找结果指示在第一向量检索库中查找到第一目标向量，则将第一目标向量所对应的完整样本视频序列的视频名称作为目标视频序列的目标视频名称。

其中，第一向量检索库所属的检索数据库中包括第二向量检索库；第二向量检索库中包括与片段样本视频序列相关联的N1个第二样本视频向量；N1为正整数；

第二确定模块包括：

检索库获取单元，用于若第一向量查找结果指示在第一向量检索库中未查找到第一目标向量，则从检索数据库中获取第二向量检索库；

第二距离确定单元，用于确定关键视频向量分别与N1个第二样本视频向量中的每个第二样本视频向量之间的第二向量距离，在N1个第二向量距离中，将获取到的最小第二向量距离作为第二目标向量距离；

第三查找确定单元，用于若第二目标向量距离满足第二相似距离条件，则将第二目标向量距离所关联的第二样本视频向量，作为查找到的与关键视频向量相匹配的第二目标向量，基于查找到的第二目标向量得到第三类型查找结果；

第四查找确定单元，用于若第二目标向量距离不满足第二相似距离条件，则确定在第二向量检索库中未查找到与关键视频向量相匹配的第二目标向量，基于未查找到第二目标向量得到第四类型查找结果；

第二结果确定单元，用于将第三类型查找结果或者第四类型查找结果作为第二向量查找结果。

其中，第二向量检索库中包括与片段样本视频序列相关联的N2个场景样本视频向量；目标网络模型包括具有场景特征提取功能的第二网络模型；N2为正整数；

第二确定模块还包括：

场景特征提取单元，用于在第二目标向量距离不满足第二相似距离条件时，将K个关键视频帧输入第二网络模型，通过第二网络模型的场景特征提取功能，提取K个关键视频帧的场景特征，将提取到的K个关键视频帧的场景特征所构成的特征序列，作为与K个关键视频帧相关联的关键场景向量；

场景距离确定单元，用于确定关键场景向量分别与N2个场景样本视频向量之间的场景相似距离，在N2个场景相似距离中，将获取到的最小场景相似距离所对应的场景样本视频向量作为目标场景向量，用目标场景向量更新第二目标向量；

第一更新单元，用于若更新后的第二目标向量满足第二相似距离条件，则基于更新后的第二目标向量更新第二向量查找结果。

其中，第二向量检索库中包括与片段样本视频序列相关联的N3个对象样本视频向量；目标网络模型包括具有对象特征提取功能的第三网络模型；N3为正整数；

第二确定模块还包括：

区域确定单元，用于在更新后的第二目标向量不满足第二相似距离条件时，将K个关键视频帧输入至第三网络模型对应的目标检测模型，通过目标检测模型的目标检测功能，对K个关键视频帧进行对象检测，在每个关键视频帧中确定目标对象所属的定位区域，基于在K个关键视频帧中所确定出的定位区域，确定与K个关键视频帧相关联的对象检测区域；

对象特征提取单元，用于将对象检测区域输入第三网络模型，通过第三网络模型的对象特征提取功能，提取K个关键视频帧的对象特征，将检测到的K个关键视频帧的对象特征所构成的特征序列，作为与K个关键视频帧相关联的关键对象向量；

对象距离确定单元，用于确定关键对象向量分别与N3个对象样本视频向量之间的对象相似距离，在N3个对象相似距离中，将获取到的最小对象相似距离所对应的对象样本视频向量作为目标对象向量，用目标对象向量更新第二目标向量；

第二更新单元，用于若更新后的第二目标向量满足第二相似距离条件，则基于更新后的第二目标向量更新第二向量查找结果。

其中，装置还包括：

模型获取模块，用于获取用于训练初始网络模型的片段样本视频序列，将片段样本视频序列的样本视频名称作为样本标签信息；

样本帧获取模块，用于将片段样本视频序列均匀划分为L个样本分段，对L个样本分段中的每一个样本分段进行遍历抽帧处理，得到与L个样本分段相关联的P个训练样本序列；每个训练样本序列中均包括L个样本视频帧；L为正整数；P是由均匀划分所得到的每个样本分段中的图像帧的数量所确定的；

模型确定模块，用于通过初始网络模型获取P个训练样本序列的样本视频向量，基于P个训练样本序列的样本视频向量和样本标签信息，对初始网络模型进行训练，将训练后的初始网络模型确定为目标网络模型。

本申请实施例一方面提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行本申请实施例中一方面中方法的步骤。

本申请实施例一方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时，执行如本申请实施例中一方面中方法的步骤。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述一方面的各种可选方式中提供的方法。

在本申请实施例中，计算机设备可以从目标视频序列中获取K个关键视频帧。其中，K个关键视频帧为对目标视频序列进行均匀抽帧处理后所得到的；其中，这里的K可以为正整数。进一步的，计算机设备可以通过目标网络模型获取与K个关键视频帧相关联的关键视频向量，进而可以在目标视频序列相关联的第一向量检索库(例如，长视频检索库)中，查找与关键视频向量相匹配的第一目标向量，得到第一向量查找结果。其中，可以理解的是，这里的目标网络模型可以为一种多领域模型，比如，这里的目标网络模型具体可以包含多个网络模型，一个网络模型可以用于在一个领域中进行特征提取。所以，这里的关键视频向量可以是由目标网络模型内的多个网络模型中的一个或者多个分别对K个关键视频帧进行特征提取后所得到的，这里将不对其进行限定。进一步的，当第一向量查找结果指示在第一向量检索库中未查找到第一目标向量时，可以在目标视频序列相关联的第二向量检索库(例如，短视频检索库)中，进一步查找与该关键视频向量相匹配的第二目标向量，以得到第二向量查找结果。进一步的，若第二向量查找结果指示在第二向量检索库中查找到第二目标向量，则可以将第二目标向量所对应的视频名称作为目标视频序列的目标视频名称。由此可见，本申请实施例在从目标视频序列(即当前获取到的视频片段)中获取到K个关键视频帧时，可以通过上述包含多个网络模型的目标网络模型，获取与K个关键视频帧相关联的关键视频向量，进而可以在第一向量检索库(即上述长视频检索库)中未查找到与该关键视频向量相匹配的第一目标向量时，即计算机设备可以在长视频检索库中存在长视频片源缺失的情况下，进一步在第二向量检索库(即上述短视频检索库)中查找与关键视频向量相匹配的第二目标向量时，快速将查找到的短视频的第二目标向量所对应的视频名称作为目标视频序列的目标视频名称。显然，计算机设备在对目标视频序列的视频名称进行识别的过程中，是基于整个视频序列所对应的关键视频向量进行向量的相似比对，从而可以从不同的特征角度获取到用于充分表示该目标视频序列的特征表征，进而可以提高视频名称识别的准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构的结构示意图；

图2是本申请实施例提供的一种识别目标视频名称的场景示意图；

图3是本申请实施例提供的一种视频数据处理方法的流程示意图；

图4是本申请实施例提供的一种特征抽取的流程示意图；

图5是本申请实施例提供的一种聚合相似视频的场景示意图；

图6是本申请实施例提供的一种视频数据处理方法的流程示意图；

图7是本申请实施例提供的一种随机抽取视频帧的场景示意图；

图8是本申请实施例提供的一种第一网络模型的结构示意图；

图9是本申请实施例提供的一种第二网络模型的结构示意图；

图10是本申请实施例提供的一种第三网络模型的结构示意图；

图11a是本申请实施例提供的一种特征检索的流程示意图；

图11b是本申请实施例提供的一种融合特征检索的流程示意图；

图12是本申请实施例提供的一种视频数据处理装置的结构示意图；

图13是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，人工智能(Artificial Intelligence,简称AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等方向。

其中，计算机视觉(Computer Vision,简称CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

具体的，请参见图1，图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示，该网络架构可以包括业务服务器2000和用户终端集群。其中，用户终端集群具体可以包括一个或者多个用户终端，这里将不对用户终端集群中的用户终端的数量进行限制。如图1所示，多个用户终端具体可以包括用户终端3000a、用户终端3000b、用户终端3000c、…、用户终端3000n。其中，用户终端3000a、用户终端3000b、用户终端3000c、…、用户终端3000n可以分别与业务服务器2000通过有线或无线通信方式进行直接或间接地网络连接，以便于每个用户终端可以通过该网络连接与业务服务器2000之间进行数据交互。

应当理解，如图1所述的用户终端集群中的每个用户终端均可以集成安装有目标应用，当该目标应用运行于各用户终端中时，可以分别与上述图1所示的业务服务器2000之间进行数据交互。其中，该目标应用可以理解为一种能够加载并显示视频数据的应用，例如，这里的目标应用具体可以包括：车载应用、智能家居应用、娱乐应用(例如，游戏客户端)、多媒体应用(例如，视频客户端)、社交应用以及资讯类应用(例如，新闻客户端)等。其中，为便于理解，本申请实施例可以在图1所示的多个用户终端中选择一个用户终端作为目标用户终端，该目标用户终端可以包括：智能手机、平板电脑、笔记本电脑、智能电视等具有多媒体数据加载功能的智能终端。例如，本申请实施例可以将图1所示的用户终端3000a作为目标用户终端。

其中，本申请实施例可以用于对目标视频序列的目标视频名称进行识别，比如，业务服务器2000可以通过相应的视频数据处理方法对目标用户终端(例如，目标用户所使用的智能终端)所采集到的目标视频序列(例如，视频序列A)进行名称识别。其中，视频名称识别的过程主要是将该视频序列A的视频向量(即关键视频向量)与检索数据库中的样本视频序列的视频向量(即样本视频向量)进行向量相似计算的过程，进而可以根据向量相似计算的结果，在检索数据库中快速获取到与该关键视频向量具有最大向量相似度的样本视频向量，从而可以将与该关键视频向量具有最大向量相似度的样本视频向量所对应的样本视频序列(例如，视频序列B)的视频名称，作为当前获取到的这个视频序列A的目标视频名称。

应当理解，上述网络框架适用于人工智能领域(即AI领域)，该AI领域所对应的业务场景可以为视频分类场景、视频推荐场景等，这里将不对具体的业务场景进行一一列举。

其中，这里的视频分类场景主要是指计算机设备在通过上述视频数据处理方法，确定出某个视频序列的视频名称(例如，上述视频序列A的目标视频名称)时，可以将具有该目标视频名称的视频序列A添加到相应的分类数据库，比如，若该视频序列A的目标视频名称为电影类中的AAAA，则可以将该视频序列A添加到这个电影所对应的分类数据库。可选的，又比如，若该视频序列A的目标视频名称为综艺类中的BBBB，则可以将该视频序列A添加到综艺所对应的另一分类数据库。

其中，这里的视频推荐场景主要是指计算机设备在通过上述视频数据处理方法，确定出某个视频序列的视频名称(例如，上述视频序列A的目标视频名称)时，可以将具有该目标视频名称的视频序列A添加到具有同一视频名称的片段数据库，进而可以在上述目标用户观看完该视频序列A的过程中，智能为该目标用户推荐与该视频序列A具有相同视频名称的其他视频序列。比如，片段数据库中可以包括电影名为“我不是药神”的一个或者多个视频序列，这里的多个视频序列具体可以包括：视频序列B，视频序列C，…视频序列E等。基于此，当计算机设备确定出上述视频序列A属于这个电影名为“我不是药神”的视频片段时，可以将其添加到“我不是药神”所对应的多个视频序列所在的片段数据库。在这片段数据库中的所有视频序列具有相同的视频名称，这里的视频名称具体可以包括：上述视频序列所属的电影、电视剧、综艺、动漫等剧名。

为便于理解，这里以该目标用户(例如，用户1)通过上述目标应用(例如，视频客户端)观看的视频片段为“我不是药神”为例，当这个用户1在观看完上述视频序列A之后，计算机设备可以将由该片段数据库中的多个视频序列所构成的视频推荐列表发送给该目标用户，以向该目标用户推荐与该视频序列A具有相同视频名称的一个或者多个视频序列。

应当理解，上述目标应用所运行的用户终端，可以在未检测到在该目标应用中所播放的“我不是药神”的某个视频片段(例如，上述视频序列A所对应的视频片段)的视频名称的情况下，在单位采集时长内对该视频片段中所播放的视频数据的视频序列进行智能采集，以将采集到的视频序列(例如，上述视频序列A)上传给上述业务服务器2000，以使业务服务器2000可以对获取到的这个视频序列A的视频名称进行智能识别。

可选的，这里的视频序列A还可以为目标用户通过人机交互的方式所录制并上传的视频序列。比如，目标用户可以通过触发上述目标应用的录屏控件，触发该目标应用的录屏功能，进而可以在上述单位采集时长内针对性的录屏采集到自己所需要的视频序列，并可以将在该单位采集时长所采集到的视频序列统称为上述目标视频序列，以将该目标视频序列上传给上述业务服务器2000。

其中，可以理解的是，本申请实施例提供的视频数据处理方法可以涉及人工智能领域中的计算机视觉方向。本申请实施例可以从给定目标视频序列中快速获取关键视频帧，进而可以通过目标网络模型提取与这些关键视频帧相关联的关键视频向量，并可以在检索数据库中查询与关键视频向量具有匹配关系的目标特征向量。其中，可以理解的是，这里的目标特征向量具体可以为第一向量检索库中的第一目标向量或者第二向量检索库中的第二目标向量。其中，第一向量检索库中的第一目标向量所对应的样本视频序列可以为完整视频源对应的完整样本视频序列，第二向量检索库中的第二目标向量所对应的样本视频序列可以为片段视频源所对应的片段样本视频序列。可以理解的是，本申请实施例可以将完整视频源对应的完整样本视频序列的视频名称和片段视频源所对应的片段样本视频序列的视频名称统称为样本视频名称。

其中，可以理解的是，本申请实施例在检索数据库(即上述第一向量检索库和第二向量检索库)中查询与关键视频向量具有匹配关系的目标特征向量时，可以预先在与目标视频序列相关联的第一向量检索库中查找与关键视频向量相匹配的第一目标向量，进而可以在第一向量检索库中不存在与关键视频向量相匹配的第一目标向量时，进一步在与目标视频序列相关联的第二向量检索库中查找与关键视频向量相匹配的第二目标向量，从而可以将在第二向量检索库中查找到的第二目标向量称为目标特征向量。可选的，在与目标视频序列相关联的第一向量检索库中存在与关键视频向量相匹配的第一目标向量时，可以将在第一向量检索库中查找到的第一目标向量称为目标特征向量。

为便于理解，进一步的，请参见图2，图2是本申请实施例提供的一种识别目标视频名称的场景示意图。其中，可以理解的是，本申请实施例可以应用于上述多个业务场景中的任意一个业务场景，为便于理解，本申请实施例以该业务场景为视频推荐场景为例，以阐述识别目标视频名称的具体过程。如图2所示的服务器可以为上述图1所对应实施例中的业务服务器2000，如图2所示的视频终端可以为上述图1所对应实施例中的任意一个用户终端，为便于理解，本申请实施例以上述图1所示的用户终端3000a作为该视频终端为例，以阐述图2所示的服务器与该视频终端进行数据交互的具体过程。

可以理解的是，如图2所示的检索数据库中可以包括多个向量检索数据库，多个向量检索数据库可以包括图2所示第一向量检索库和第二向量检索库。其中，第一向量检索库中具体可以包括多个数据库，多个数据库具体可以包含图2所示的数据库30a、30b、…、30n。这意味着该第一向量检索库可以用于存储完整样本视频序列(即完整视频源)对应的样本视频向量，比如，数据库30a可以用于存储完整视频源A对应的样本视频向量，数据库30b可以用于存储完整视频源B对应的样本视频向量，…，数据库30n可以用于存储完整视频源N对应的样本视频向量。其中，第二向量检索库中具体可以包括多个数据库，多个数据库具体可以包含图2所示的数据库40a、40b、…、40m。这意味着该第二向量检索库可以用于存储片段样本视频序列(即片段视频源)对应的样本视频向量，比如，数据库40a可以用于存储片段视频源A对应的样本视频向量，数据库40b可以用于存储片段视频源B对应的样本视频向量，…，数据库40m可以用于存储片段视频源M对应的样本视频向量。

为便于理解，本申请实施例以图2所示的视频终端上获取的视频片段对应的视频序列为视频序列X为例，以阐述识别该视频序列X的目标视频名称的具体过程。如图2所示，对于当前正在与该视频终端进行数据交互的目标用户而言，服务器可以从图2所示视频序列X中获取关键视频帧，进而可以在对关键视频帧进行特征提取之后得到关键视频向量，以便于可以基于关键视频向量在第一向量检索库中查找目标特征向量(即第一目标向量)，进而在第一向量检索库中未查找到第一目标向量时，可以基于关键视频向量在第二向量检索库中查找目标特征向量(即第二目标向量)，并将在第一向量检索库中查找到的第一目标向量或在第二向量检索库中查找到的第二目标向量所对应的视频名称作为视频序列X的目标视频名称。

其中，可以理解的是，如图2所示的服务器在获取到该目标用户对应的视频序列X时，可以进一步对序列X进行均匀抽帧处理，进而可以得到该视频序列X对应的K个关键视频帧，这里的K个关键视频帧具体可以包括：视频帧100a，视频帧100b，…，视频帧100k。这里的K可以为正整数。进一步的，该服务器还可以将该K个关键视频帧输入至图2所示的目标网络模型，以使该目标网络模型(该目标网络模型可以为当前已经训练好的网络模型)能够通过该K个关键视频帧，对目标用户对应的视频序列X进行特征提取，以得到图2所示的关键视频帧对应的关键视频向量。

进一步的，服务器可以通过该关键视频向量在图2所示的第一向量检索库中，查找与该关键视频向量相匹配的第一目标向量，在检测到该第一向量检索库中存在第一目标向量时，将该第一目标向量所对应的视频名称作为该视频序列X的目标视频名称。可选的，在第一向量检索库中未查找到该第一目标向量时，服务器可以通过该关键视频向量在图2所示的第二向量检索库中，查找与该关键视频向量相匹配的第二目标向量，在检测到该第二向量检索库中存在第二目标向量时，将该第二目标向量所对应的视频名称作为该视频序列X的目标视频名称。

其中，可以理解的是，图2所示的服务器在查找到视频序列X对应的目标视频名称之后，可以将与该视频序列X具有相同视频名称的视频序列构成视频推荐列表，进一步将视频推荐列表发送给图2所示目标用户，以使该目标用户在观看完上述视频序列X之后，可以继续观看视频推荐列表中的一个或多个视频序列。这里的视频推荐列表中的一个或多个视频序列可以为完整样本视频序列中的完整视频源，也可以为片段样本视频序列中的片段视频源。

为便于理解，本申请实施例可以将视频训练之前的网络模型统称为初始网络模型，并可以将视频训练之后的网络模型统称为目标网络模型。在对该初始网络模型进行训练的过程中，计算机设备可以根据片段样本视频序列得到训练样本序列，并可以将片段样本视频序列所对应的样本视频名称作为样本标签信息，进而可以基于该训练样本序列和样本标签信息对初始网络模型进行训练，以使训练后的初始网络模型(即目标网络模型)在模型应用的过程中，能够具备对不同领域类型的特征进行提取的能力。

可以理解的是，这里的目标网络模型可以等效为一种多领域专家模型(也可以称之为一种多视觉任务模型)，该多领域专家模型可以包括但不限于：具有局部图像特征提取功能的第一网络模型(例如，图像识别专家模型)、具备场景特征提取功能的第二网络模型(例如，场景识别专家模型)以及具备对象特征提取功能的第三网络模型(例如，对象识别专家模型)。

其中，可以理解的是，计算机设备在得到目标网络模型时，可以通过目标网络模型对完整样本视频序列中的每个图像帧进行特征提取，进而可以将特征提取后所得到的向量进行整合，以得到用于表征该完整样本视频序列的样本视频向量，此时，计算机设备可以将该用于表征该完整样本视频序列的样本视频向量(例如，样本视频向量X1)添加到完整视频源所对应的向量检索库，进而可以将添加有该样本视频向量X1的向量检索库统称为第一向量检索库，以便于后续可以在该第一向量检索库中进行向量相似计算。

同理，可以理解的是，计算机设备在得到目标网络模型时，可以通过目标网络模型对片段样本视频序列中的每个图像帧进行特征提取，进而可以将特征提取后所得到的向量进行整合，以得到用于表征该片段样本视频序列的样本视频向量(例如，样本视频向量X2)，此时，计算机设备可以将该用于表征该片段样本视频序列的样本视频向量(例如，样本视频向量X2)添加到片段视频源所对应的向量检索库，进而可以将添加有该样本视频向量X2的向量检索库统称为第二向量检索库，以便于后续可以在该第二向量检索库中进行向量相似计算。

应当理解，本申请实施例可以从目标视频序列中获取K个关键视频帧，通过目标网络模型对K个关键视频帧进行特征提取，得到与K个关键视频帧相关联的关键视频向量，通过引入第一向量检索库和第二向量检索库，计算机设备可以预先在第一向量检索库(即长视频检索库)中查找与该关键视频向量相匹配的第一目标向量，在第一向量检索库中未查找到第一目标向量时，即在长视频检索库中存在完整视频源缺失的情况下，进一步在第二向量检索库(即短视频检索库)中查找与关键视频向量相匹配的第二目标向量，在第二向量检索库中查找到第二目标向量时，快速将查找到的片段视频源的第二目标向量所对应的视频名称作为目标视频序列的目标视频名称，可以提高视频名称识别的准确性。

其中，服务器获取关键视频帧、确定第一向量查找结果、确定第二向量查找结果、以及确定目标视频名称的具体过程可以参见如下图3至图11b所对应的实施例。

进一步的，请参见图3，图3是本申请实施例提供的一种视频数据处理方法的流程示意图。如图3所示，该方法可以由计算机设备执行，该计算设备可以为上述图2所对应实施例中的视频终端，该计算机设备也可以为上述图2所对应实施例中的服务器。换言之，本申请实施例所涉及的方法可以由视频终端执行，也可以由服务器执行，还可以由视频终端和服务器共同执行。为便于理解，本实施例以该方法由服务器(比如，上述图2所对应实施例中的服务器)执行为例进行说明，以阐述服务器获取与目标视频序列相匹配的目标视频名称的具体过程。其中，该方法至少可以包括以下步骤S101-步骤S104：

步骤S101，从目标视频序列中获取K个关键视频帧；

其中，K个关键视频帧可以为对目标视频序列进行均匀抽帧处理后所得到的；这里的K可以为正整数。

其中，可以理解的是，计算机设备在获取到目标视频序列之后，可以从该目标视频序列中均匀抽取K个视频帧作为关键视频帧。具体的，假设获取到的目标视频序列为{a1，b1，…，z1，a2，b2，…，z2，…，ak，bk，…，zk}，将其均匀分段处理为K段，则分段处理后的目标视频序列可以表示为{{a1，b1，…，z1}，{a2，b2，…，z2}，…，{aK，bK，…，zK}}，可以从每一个分段中抽取最后一帧作为关键视频帧，则此时关键视频帧可以表示为{z1，z2，…，zK}。应当理解，从每一个分段中抽取视频帧的位置不限于上述位置，还可以从每一个分段中抽取第一帧作为关键视频帧，本申请不对在每一个分段中抽取视频帧的位置进行限制。

其中，可以理解的是，这里的K的取值可以为大于或者等于2的正整数，这意味着在对本申请实施例中的目标视频序列进行均匀抽帧处理时，可以将该目标视频序列均匀分为2个或2个以上的分段，在每个分段所组成的视频帧中抽取指定位置的视频帧作为关键视频帧，以实现均匀抽帧的操作，例如，可以抽取该每一个分段的视频帧中的最后一帧作为关键视频帧。可选的，这里的K的取值还可以为1，这意味着在对本申请实施例中的目标视频序列进行均匀抽帧处理时，可以将该目标视频序列看成一个整体，以在该整体所组成的视频帧中抽取一个视频帧作为关键视频帧，例如，可以抽取该整体视频帧中的最后一帧作为关键视频帧。

应当理解，该关键视频帧的数量小于该目标视频序列的总帧数，当该关键视频帧的数量等于该目标视频序列的总帧数时，相当于在对目标视频序列进行均匀分段处理时，每一个分段仅包含一个视频帧，此时可以从每一个分段中抽取这一个视频帧作为关键视频帧。例如，目标视频序列可以表示为{a，b，...，z}，对目标视频序列进行分段处理后，每一个分段可以表示为{{a}，{b}，…，{z}}，因此，在每个分段所组成的视频中抽取指定位置的视频帧即为抽取每个分段中的唯一一帧，关键视频帧可以表示为{a，b，...，z}。

步骤S102，获取与K个关键视频帧相关联的关键视频向量，在目标视频序列相关联的第一向量检索库中，查找与关键视频向量相匹配的第一目标向量，得到第一向量查找结果；

具体的，计算机设备可以将K个关键视频帧输入第一网络模型，通过第一网络模型的局部图像特征提取功能，提取K个关键视频帧的局部图像特征，将提取到的每个关键视频帧的局部图像特征作为特征提取向量；进一步的，计算机设备可以将K个特征提取向量所构成的向量序列作为目标视频序列对应的关键视频向量；进一步的，计算机设备可以获取与目标视频序列相关联的第一向量检索库，在第一向量检索库中所包含的M个第一样本视频向量中，确定关键视频向量与M个第一样本视频向量中的每个第一样本视频向量之间的第一向量距离；M为正整数；进一步的，计算机设备可以在M个第一向量距离中，将获取到的最小第一向量距离作为第一目标向量距离，若第一目标向量距离满足第一相似距离条件，则将第一目标向量距离所关联的第一样本视频向量，作为查找到的与关键视频向量相匹配的第一目标向量，基于查找到的第一目标向量得到第一类型查找结果；进一步的，若第一目标向量距离不满足第一相似距离条件，则可以确定在第一向量检索库中未查找到与关键视频向量相匹配的第一目标向量，计算机设备基于未查找到第一目标向量得到第二类型查找结果；进一步的，计算机设备可以将第一类型查找结果或者第二类型查找结果作为第一向量查找结果。

其中，可以理解的是，特征向量之间的相似度可以衡量向量之间的差异，而两个特征向量之间相似度可以通过不同的距离函数得到，因此，对于关键视频向量与第一样本视频向量之间的第一向量距离，可以使用相应的距离函数的计算结果作为第一向量距离的计算结果，例如，第一向量距离可以使用欧式距离的计算方法，还可以使用余弦相似度的计算方法，本申请对第一向量距离具体使用的计算方法不做限制。应当理解，对于两个向量之间的向量距离与相似度而言，通过上述距离函数计算出的两个向量之间的向量距离越小，则表示这两个向量之间相似度越大，所以，对于第一目标相似距离所关联的第一样本视频向量，关键视频向量与M个第一样本视频向量中的这个第一样本视频向量之间具有最大相似度。

其中，目标网络模型可以包括具有局部图像特征提取功能的第一网络模型。可以理解的是，第一网络模型可以为TSN(Temporal Segment Network，时间段网络)网络模型，本申请实施例不对第一网络模型的具体类型进行限定。

可选的，一个第一样本视频向量对应一个完整样本视频序列。可以理解的是，若第一向量查找结果指示在第一向量检索库中查找到第一目标向量，则可以将第一目标向量所对应的完整样本视频序列的视频名称作为目标视频序列的目标视频名称，其中，该第一目标向量是由该完整样本视频序列对应的第一样本视频向量所确定的。

步骤S103，若第一向量查找结果指示在第一向量检索库中未查找到第一目标向量，则在目标视频序列相关联的第二向量检索库中，查找与关键视频向量相匹配的第二目标向量，得到第二向量查找结果；

具体的，若第一向量查找结果指示在第一向量检索库中未查找到第一目标向量，则计算机设备可以从检索数据库中获取第二向量检索库；进一步的，计算机设备确定关键视频向量分别与N1个第二样本视频向量中的每个第二样本视频向量之间的第二向量距离，可以在N1个第二向量距离中，将获取到的最小第二向量距离作为第二目标向量距离；进一步的，若第二目标向量距离满足第二相似距离条件，则可以将第二目标向量距离所关联的第二样本视频向量，作为查找到的与关键视频向量相匹配的第二目标向量，计算机设备基于查找到的第二目标向量得到第三类型查找结果；进一步的，若第二目标向量距离不满足第二相似距离条件，则可以确定在第二向量检索库中未查找到与关键视频向量相匹配的第二目标向量，计算机设备基于未查找到第二目标向量得到第四类型查找结果；进一步的，计算机设备可以将第三类型查找结果或者第四类型查找结果作为第二向量查找结果。其中，第一向量检索库所属的检索数据库中包括第二向量检索库；第二向量检索库中包括与片段样本视频序列相关联的N1个第二样本视频向量；这里的N1可以为正整数。其中，一个第二样本视频向量对应一个片段样本视频序列。

可选的，在第二目标向量距离不满足第二相似距离条件时，可以将K个关键视频帧输入第二网络模型，通过第二网络模型的场景特征提取功能，提取K个关键视频帧的场景特征，将提取到的K个关键视频帧的场景特征所构成的特征序列，作为与K个关键视频帧相关联的关键场景向量；进一步的，确定关键场景向量分别与N2个场景样本视频向量之间的场景相似距离，可以在N2个场景相似距离中，将获取到的最小场景相似距离所对应的场景样本视频向量作为目标场景向量，用目标场景向量更新第二目标向量；进一步的，若更新后的第二目标向量满足第二相似距离条件，则可以基于更新后的第二目标向量更新第二向量查找结果。

其中，第二向量检索库中包括与片段样本视频序列相关联的N2个场景样本视频向量；目标网络模型可以包括具有场景特征提取功能的第二网络模型；这里的N2可以为正整数。可以理解的是，第二网络模型可以为ResNet(Residual Network，残差网络)网络模型，本申请实施例不对第二网络模型的具体类型进行限定。可选的，这里可以使用18层的ResNet18网络模型，其中，ResNet18网络模型的模型较小，且收敛速度快，因此提取特征的速度快。

可选的，在更新后的第二目标向量不满足第二相似距离条件时，可以将K个关键视频帧输入至第三网络模型对应的目标检测模型，通过目标检测模型的目标检测功能，对K个关键视频帧进行对象检测，在每个关键视频帧中确定目标对象所属的定位区域，基于在K个关键视频帧中所确定出的定位区域，确定与K个关键视频帧相关联的对象检测区域；进一步的，可以将对象检测区域输入第三网络模型，通过第三网络模型的对象特征提取功能，提取K个关键视频帧的对象特征，将检测到的K个关键视频帧的对象特征所构成的特征序列，作为与K个关键视频帧相关联的关键对象向量；进一步的，确定关键对象向量分别与N3个对象样本视频向量之间的对象相似距离，可以在N3个对象相似距离中，将获取到的最小对象相似距离所对应的对象样本视频向量作为目标对象向量，用目标对象向量更新第二目标向量；进一步的，若更新后的第二目标向量满足第二相似距离条件，则可以基于更新后的第二目标向量更新第二向量查找结果。

其中，第二向量检索库中包括与片段样本视频序列相关联的N3个对象样本视频向量；目标网络模型可以包括具有对象特征提取功能的第三网络模型；这里的N3可以为正整数。可以理解的是，第三网络模型可以为OSNet(Omni-Scale Network，全尺度网络)网络模型，本申请实施例不对第三网络模型的具体类型进行限定。

其中，在通过第三网络模型对关键视频帧对应的对象检测区域进行对象特征提取之前，可以通过目标检测模型提取关键视频帧对应的对象检测区域。可以理解的是，目标检测模型可以为YoloV3(You Only Look Once V3，YOLO为一种物体检测算法，YoloV3为该算法的第三个版本)网络模型，本申请实施例不对目标检测模型的具体类型进行限定。

其中，可以理解的是，关键视频向量与第二样本视频向量之间的第二向量距离、关键场景向量与场景样本视频向量之间的场景相似距离、关键对象向量与对象样本视频向量之间的对象相似距离，可以与上述第一向量距离使用相同的计算方法，本申请对第二向量距离、场景相似距离和对象相似距离具体使用的计算方法不做限制。

其中，第二向量检索库中与片段样本视频序列相关联的第二样本视频向量有N1个，第二向量检索库中与片段样本视频序列相关联的场景样本视频向量有N2个，第二向量检索库中与片段样本视频序列相关联的对象样本视频向量有N3个。可以理解的是，第二样本视频向量可以由第一网络模型对片段样本视频序列进行图像特征提取所得到，场景样本视频向量可以由第二网络模型对片段样本视频序列进行场景特征提取所得到，对象样本视频向量可以由第三网络模型对片段样本视频序列进行对象特征提取所得到，因此，参数N1，N2和N3的取值可以是相同的，也可以是不同的，这取决于目标网络模型和片段样本视频序列的性质。

可选的，本申请实施例可以通过目标网络模型中的第一网络模型提取与关键视频帧相关联的关键视频向量，通过目标网络模型中的第二网络模型提取与关键视频帧相关联的关键场景向量，通过目标网络模型中的第三网络模型提取与关键视频帧相关联的关键对象向量，在将关键视频向量、关键场景向量与关键对象向量进行融合之后，可以将融合后的融合视频向量作为关键视频向量，进而通过融合后的关键视频向量在第二向量检索库中查找与关键视频向量相匹配的第二目标向量。

其中，计算机设备在第一向量检索库中未查找到第一目标向量时，可以通过特征融合后的关键视频向量在第二向量检索库中查找与关键视频向量相匹配的第二目标向量，得到第二向量查找结果。计算机设备在第二向量检索库中查找第二目标向量的具体过程可以描述为：确定关键视频向量分别与第二向量检索库中的N个融合样本视频向量中的每个融合样本视频向量之间的第二向量距离，在N个第二向量距离中，可以将获取到的最小第二向量距离作为第二目标向量距离；这里的N可以为正整数；进一步的，若第二目标向量距离满足第二相似距离条件，则可以将第二目标向量距离所关联的融合样本视频向量，作为查找到的与关键视频向量相匹配的第二目标向量，基于查找到的第二目标向量得到第三类型查找结果；进一步的，若第二目标向量距离不满足第二相似距离条件，则可以确定在第二向量检索库中未查找到与关键视频向量相匹配的融合样本视频向量，基于未查找到第二目标向量得到第四类型查找结果；进一步的，可以将第三类型查找结果或者第四类型查找结果作为第二向量查找结果。这里的融合样本视频向量可以是由上述第二样本视频向量、场景样本视频向量和对象样本视频向量进行特征融合后得到的。

其中，可以理解的是，在第一向量检索库中查找第一目标向量时，第一相似距离条件用于确定是否将第一向量检索库中的某个样本视频向量确定为第一目标向量，同理，在第二向量检索库中查找第二目标向量时，第二相似距离条件用于确定是否将第二向量检索库中的某个样本视频向量确定为第二目标向量。这里的第一相似距离条件和第二相似距离条件可以是相同的，也可以是不同的，本申请实施例对第一相似距离条件和第二相似距离条件的具体取值不做限制。这里的第一目标向量对应的样本视频向量可以为第一向量检索库中第一样本视频向量，这里的第二目标向量对应的样本视频向量可以为第二向量检索库中的第二样本视频向量、场景样本视频向量、对象样本视频向量以及融合样本视频向量中的任意一种。

为便于理解，请参见图4，图4是本申请实施例提供的一种特征抽取的流程示意图。如图4所示，第一网络模型可以称为图像识别“专家”，第二网络模型可以称为场景识别“专家”，第三网络模型可以称为对象识别“专家”，此外，目标检测模型可以称为目标检测“专家”。图4所示的短视频对应的视频序列即为上述目标视频序列，则在第二向量检索库中，基于多领域“专家”给出短视频所属的剧名(短视频所属的剧名即为短视频的目标视频名称)的具体过程可以描述为：对短视频对应的视频序列进行均匀抽帧可以得到k个关键视频帧，通过图像识别“专家”对k个关键视频帧进行特征提取后，得到k个向量序列作为关键视频向量，并将关键视频向量与第二向量检索库中的第二样本视频向量进行匹配，得到与关键视频向量相匹配的第二目标向量；若不存在与该关键视频向量相匹配的第二样本视频向量，则通过场景识别“专家”对k个关键视频帧进行特征提取后，得到k个向量序列作为关键场景向量，并将关键场景向量与第二向量检索库中的场景样本视频向量进行匹配，得到与关键场景向量相匹配的第二目标向量；若不存在与该关键场景向量相匹配的场景样本视频向量，则通过目标检测“专家”识别k个关键视频帧对应的对象检测区域，并通过对象识别“专家”对对象检测区域进行特征提取后，得到k个向量序列作为关键对象向量，并将关键对象向量与第二向量检索库中的对象样本视频向量进行匹配，得到与关键对象向量相匹配的第二目标向量。应当理解，若存在与该关键视频向量相匹配的第二样本视频向量，则可以将第二样本视频向量的视频名称作为该短视频所属的剧名；若存在与该关键场景向量相匹配的场景样本视频向量，则可以将场景样本视频向量的视频名称作为该短视频所属的剧名；若存在与该关键对象向量相匹配的对象样本视频向量，则可以将该对象样本视频向量的视频名称作为该短视频所属的剧名。

其中，可以理解的是，关键视频向量与第二样本视频向量的匹配、关键场景向量与场景样本视频向量的匹配以及关键对象向量与对象样本视频向量的匹配，取决于第二相似距离条件。通过第二相似距离条件可以得到相似度阈值，向量检索库中不同剧名对应不同的视频向量(即第二样本视频向量、场景样本视频向量和对象样本视频向量)，通过该视频向量与短视频对应的视频向量(即关键视频向量)之间的向量距离，可以得到短视频与不同剧名对应的视频源之间的相似度。为便于理解，以第二相似距离条件对应的相似度阈值为0.8为例，说明识别上述短视频所属的剧名的过程。

其中，可以理解的是，如图4所示，在关键视频向量与第二样本视频向量进行相似度计算之后，短视频与不同剧名对应的视频源之间的相似度可以为：{剧名1：x1，剧名2：x2，…，剧名k：xk，…，剧名n：xn}，这里的x1表示短视频与剧名1对应的视频源之间的相似度，这里的x2表示短视频与剧名2对应的视频源之间的相似度，…，这里的xn表示短视频与剧名n对应的视频源之间的相似度。假设这里的剧名和相似度具体为：{唐人街探案：0.03，飞驰人生：0.12，…，我不是药神：0.78，…，复仇者联盟：0.01}，相似度最大的为“我不是药神”：0.78，而0.78小于相似度阈值对应的0.8，所以不存在满足第二相似距离条件的第二样本视频向量。

进一步的，若不存在满足第二相似距离条件的第二样本视频向量，在关键场景向量与场景样本视频向量进行相似度计算之后，短视频与不同剧名对应的视频源之间的相似度可以为：{剧名1：y1，剧名2：y2，…，剧名k：yk，…，剧名n：yn}，这里的y1表示短视频与剧名1对应的视频源之间的相似度，这里的y2表示短视频与剧名2对应的视频源之间的相似度，…，这里的yn表示短视频与剧名n对应的视频源之间的相似度。假设这里的剧名和相似度具体为：{唐人街探案：0.03，飞驰人生：0.12，…，我不是药神：0.38，…，复仇者联盟：0.01}，相似度最大的为“我不是药神”：0.38，而0.38小于相似度阈值对应的0.8，所以不存在满足第二相似距离条件的场景样本视频向量。

进一步的，若不存在满足第二相似距离条件的场景样本视频向量，在关键对象向量与对象样本视频向量进行相似度计算之后，短视频与不同剧名对应的视频源之间的相似度可以为：{剧名1：z1，剧名2：z2，…，剧名k：zk，…，剧名n：zn}，这里的z1表示短视频与剧名1对应的视频源之间的相似度，这里的z2表示短视频与剧名2对应的视频源之间的相似度，…，这里的zn表示短视频与剧名n对应的视频源之间的相似度。假设这里的剧名和相似度具体为：{唐人街探案：0.03，飞驰人生：0.12，…，我不是药神：0.88，…，复仇者联盟：0.01}，相似度最大的为“我不是药神”：0.88，0.88大于相似度阈值对应的0.8，因此，可以将“我不是药神”作为图4所示的短视频所属的剧名。

可选的，若第二向量查找结果指示在第二向量检索库中未查找到第二目标向量，可以基于其他的网络模型，对目标视频序列对应的关键视频帧进行特征提取，以继续在第二向量检索库中查找满足第二相似距离条件的第二目标向量，若仍无法在第二向量检索库中查找到第二目标向量，则表示片段样本视频序列中不存在与目标视频序列具有相同视频名称的视频序列。在第二向量检索库中查找第二目标向量之前，还包括在第一向量检索库中查找第一目标向量，因此，在第二向量检索库中未查找到第二目标向量时，还可以表示在完整样本视频序列中也不存在与目标视频序列具有相同视频名称的视频序列。

步骤S104，若第二向量查找结果指示在第二向量检索库中查找到第二目标向量，则将第二目标向量所对应的视频名称作为目标视频序列的目标视频名称。

其中，为便于理解，请参见图5，图5是本申请实施例提供的一种聚合相似视频的场景示意图，图5所示视频终端可以为上述图2所对应实施例中的视频终端，视频播放界面中正在播放的视频片段对应的视频序列可以为视频序列A，该视频序列A可以为上述图2所对应实施例中的视频序列X。如图5所示，视频终端对应的目标用户在点击业务控件之后，可以在视频终端本地通过本申请的方法识别视频序列A对应的目标视频名称，并将该目标视频名称发送给服务器。可选的，视频终端可以直接将视频序列A发送给服务器，以使服务器在接收到视频序列A之后，在服务器端通过本申请的方法识别视频序列A对应的目标视频名称。

进一步的，如图5所示的服务器在获取到视频序列A对应的目标视频名称之后，可以将与该视频序列A具有相同视频名称的视频序列构成视频推荐列表，进一步将该视频推荐列表发送给图5所示的视频终端，在视频终端上可以弹出一个独立于原有视频播放界面的子界面，即图5所示的合辑界面。这里的合辑界面中可以显示视频推荐列表中的一个或多个视频序列，多个视频序列具体可以包含：视频序列B(未在图上标出)，视频序列C(未在图上标出)，…，视频序列J(未在图上标出)。其中，可以理解的是，目标用户在选择合辑界面中的某个视频序列之后，视频播放界面中的视频序列A的视频片段可以被替换为该视频序列的视频片段，例如，在合辑界面中选择视频序列B，则可以在视频播放界面中播放视频序列B的视频片段来替代视频序列A的视频片段，同理，在合辑界面中选择视频序列C，则可以在视频播放界面中播放视频序列C的视频片段来替代视频序列A的视频片段。

可以理解的是，通过实验可知多阶段的特征提取可以有效提高视频名称识别的精确率和召回率，本申请实施例的实验效果如下：

表1

如表1所示，表1显示了采用图像模型，图像模型+场景模型和图像模型+场景模型+对象模型时，本申请实施例的方法对应的精确率和召回率，图像模型可以为上述TSN网络模型，场景模型可以为上述ResNet网络模型，对象模型可以为上述OSNet网络模型(其中，在采用OSNet网络模型前，还可以包括采用YoloV3网络模型进行目标检测)。其中，视频名称Z对应的精确率指：预测为视频名称Z的目标视频序列中预测正确的目标视频序列占的比例，视频名称Z对应的召回率指：视频名称为Z的目标视频序列中预测正确的目标视频序列占的比例。为便于理解，假设在进行实验时共有100个目标视频序列，视频名称为Z的目标视频序列实际有10个，其中，在对100个目标视频序列进行名称识别时，预测为视频名称Z的9个目标视频序列中有8个实际为视频名称Z，则视频名称Z对应的准确率为：(预测为视频名称Z的目标视频序列中预测正确的8个目标视频序列/预测为视频名称Z的9个目标视频序列)＝8/9，视频名称Z对应的召回率为：(视频名称为Z的目标视频序列中预测正确的8个目标视频序列/视频名称为Z的10个目标视频序列)＝8/10。

其中，通过不同视频名称的预测情况可以得到表1所示的精确率和召回率，通过多个视频名称对应的精确率和召回率得到表1所示的精确率和召回率的方式可以为求平均值的方式，例如，视频名称1对应的精确率为x1，视频名称2对应的精确率为x2，…，视频名称n对应的精确率为xn，则该方法的精确率可以表示为多个精确率的均值，即(x1+x2+…+xn)/n，同理，视频名称1对应的召回率为y1，视频名称2对应的召回率为y2，…，视频名称n对应的召回率为yn，则该方法的召回率可以表示为多个召回率的均值，即(y1+y2+…+yn)/n。

在本申请实施例中，计算机设备在从目标视频序列(即当前获取到的视频片段)中获取到K个关键视频帧时，可以通过包含多个网络模型的目标网络模型，获取与K个关键视频帧相关联的关键视频向量，进而可以在第一向量检索库(即长视频检索库)中未查找到与该关键视频向量相匹配的第一目标向量时，即计算机设备可以在长视频检索库中存在长视频片源缺失的情况下，进一步在第二向量检索库(即短视频检索库)中查找与关键视频向量相匹配的第二目标向量时，快速将查找到的短视频的第二目标向量所对应的视频名称作为目标视频序列的目标视频名称。显然，计算机设备在对目标视频序列的视频名称进行识别的过程中，是基于整个视频序列所对应的关键视频向量进行向量的相似比对，从而可以从不同的特征角度获取到用于充分表示该目标视频序列的特征表征，进而可以提高视频名称识别的准确度。

进一步的，请参见图6，图6是本申请实施例提供的一种视频数据处理方法的流程示意图。如图6所示，该方法可以由计算机设备执行，该计算设备可以为上述图2所对应实施例中的视频终端，该计算机设备也可以为上述图2所对应实施例中的服务器。换言之，本申请实施例所涉及的方法可以由视频终端执行，也可以由服务器执行，还可以由视频终端和服务器共同执行。为便于理解，本实施例以该方法由服务器(比如，上述图2所对应实施例中的服务器)执行为例进行说明，以阐述服务器获取与目标视频序列相匹配的目标视频名称的具体过程。其中，该方法可以包括：

步骤S201，获取用于训练初始网络模型的片段样本视频序列，将片段样本视频序列的样本视频名称作为样本标签信息；

步骤S202，将片段样本视频序列均匀划分为L个样本分段，对L个样本分段中的每一个样本分段进行遍历抽帧处理，得到与L个样本分段相关联的P个训练样本序列；

其中，每个训练样本序列中均包括L个样本视频帧；这里的L可以为正整数；这里的P是由均匀划分所得到的每个样本分段中的图像帧的数量所确定的。

其中，可以理解的是，片段样本视频序列可以包含n个视频帧，这里的n个视频帧可以包括：视频帧10a，视频帧10b，视频帧10c，…，视频帧10n，n可以为大于1的正整数。为便于理解，请参见图7，图7是本申请实施例提供的一种随机抽取视频帧的场景示意图，如图7所示，片段样本视频序列可以包含6个视频帧，这里的6个视频帧具体可以包括：视频帧10a，视频帧10b，视频帧10c，视频帧10d，视频帧10e，视频帧10f。其中，在基于片段样本视频序列对初始网络模型进行训练时，可以通过样本帧算法对该片段样本视频序列进行抽帧处理，以得到与该片段样本视频序列相关联的L个样本视频帧，L可以为大于1且小于6的正整数。

其中，可以理解的是，样本帧算法可以对片段样本视频序列中的视频帧进行分段处理，以在每个样本分段中随机抽取一帧作为样本视频帧，从而可以得到与片段样本视频序列相关联的L个样本视频帧，这L个样本视频帧中的每个样本视频帧均为从相应的样本分段中所抽取出的视频帧。其中，可以从图7所示的3个样本分段中的每一个样本分段中随机抽取一个视频帧作为样本视频帧，这3个样本分段具体可以包含图7所示的样本分段20a，样本分段20b，样本分段20c，其中，每一个样本分段中包含两个视频帧，样本分段20a中可以包含视频帧10a，视频帧10b；样本分段20b中可以包含视频帧10c，视频帧10d；样本分段20c中可以包含视频帧10e，视频帧10f。如图7所示，可以将样本分段20a中随机抽取的视频帧10a称之为样本分段20a对应的样本视频帧，同理，可以将样本分段20b中随机抽取的视频帧10c称之为样本分段20b对应的样本视频帧，同理，可以将样本分段20c中随机抽取的视频帧10e称之为样本分段20c对应的样本视频帧，进而可以将视频帧10a，视频帧10c，视频帧10e合起来称为训练样本序列1。还可以将样本分段20a中随机抽取的视频帧10a称之为样本分段20a对应的样本视频帧，同理，可以将样本分段20b中随机抽取的视频帧10d称之为样本分段20b对应的样本视频帧，同理，可以将样本分段20c中随机抽取的视频帧10f称之为样本分段20c对应的样本视频帧，进而可以将视频帧10a，视频帧10d，视频帧10f合起来称为训练样本序列2。

可以理解的是，P个训练样本序列可以包括上述训练样本序列1和训练样本序列2，还可以包括其他遍历抽帧处理的情况，如图7中的样本视频序列对应的P个训练样本序列具体可以包括8种遍历抽帧处理的情况。应当理解，P个训练样本序列中的每个训练样本序列可以是对样本分段20a，样本分段20b和样本分段20c进行遍历抽帧处理所得到的，其中，对于每一个样本分段，可以随机从每一个样本分段中抽取一个视频帧。

步骤S203，通过初始网络模型获取P个训练样本序列的样本视频向量，基于P个训练样本序列的样本视频向量和样本标签信息，对初始网络模型进行训练，将训练后的初始网络模型确定为目标网络模型。

其中，可以理解的是，在基于P个训练样本序列和样本标签信息对初始网络模型进行训练的过程中，将每一个训练样本序列和样本标签信息对应的训练结果作为中间模型训练结果，并在检测到每一轮模型训练中的该中间模型训练结果满足收敛条件时，停止模型训练，并将该中间模型训练结果作为模型训练结果，得到训练后的初始网络模型，并将训练后的初始网络模型确定为目标网络模型。这里的初始网络模型可以包括但不限于：第一初始模型、第二初始模型和第三初始模型，这里的目标网络模型包括但不限于：第一网络模型、第二网络模型和第三网络模型，第一网络模型可以由训练后的第一初始模型所确定、第二网络模型可以由训练后的第二初始模型所确定，第三网络模型可以由训练后的第三初始模型所确定。

其中，可以理解的是，计算机设备可以将片段样本视频序列对应的P个训练样本序列输入第一初始模型，以通过第一初始模型对训练样本序列进行特征提取，得到第二样本视频向量，进而可以基于该第二样本视频向量和训练样本序列对应的样本标签信息，对第一初始模型进行训练后，得到第一网络模型。具体的，请参见图8，图8是本申请实施例提供的一种第一网络模型的结构示意图，第一初始模型可以为在ImageNet数据集(ImageNet是一个用于软件研究的大型可视化数据库)上预训练的TSN网络模型，训练后的TSN网络模型可以为上述第一网络模型，本申请实施例不对第一初始模型的具体类型进行限定。图8所示为TSN网络模型的结构示意图，图8所示的视频帧2可以为上述图7所对应实施例中的样本视频帧10a，根据视频帧2可以得到视频帧2对应的光流特征图a和光流特征图b。

其中，将视频帧2输入第一子网络，通过第一子网络进行卷积处理后可以得到第一网络结果，将视频帧2对应的光流特征图a和光流特征图b输入第二子网络，通过第二子网络进行卷积处理后可以得到第二网络结果，进而第一初始网络可以通过第一共识函数将样本视频帧的第一网络结果进行融合，并通过第二共识函数将样本视频帧对应的光流特征图的第二网络结果进行融合，其中，图8所示的样本视频帧具体可以包括：视频帧2、视频帧6和视频帧7，这里的第一子网络可以为Spatial ConvNet，这里的第二子网络可以为TemporalConvNet，第一子网络与第二子网络的数量与样本视频帧的数量保持一致。进一步的，第一初始模型可以根据第一共识函数的融合结果和第二共识函数的融合结果得到共识函数结果，其中，这里的第一共识函数和第二共识函数可以为加权平均的方式，这里的共识函数结果即为上述样本视频序列对应的样本视频向量(即第二样本视频向量)。

其中，可以理解的是，对样本视频序列进行遍历抽帧处理，可以在每一轮模型训练时，随机从每个分段中抽取一帧输入到模型，以进行参数训练，该训练方式可以使采样的帧来自整个视频的均匀片段中，保证了模型训练时学习的特征具有视频全局性；由于采样的帧具有稀疏性的优势，该稀疏采样的方式不仅能去掉冗余信息对于模型的干扰，还能保证模型在百万级视频训练集上更快的收敛；该训练方式也具有很好的鲁棒性，在每一轮训练中，都从均匀段中随机的采样一帧，对于同一个视频，这种方式相当于做了数据增强操作，降低了模型过拟合的风险。

同理，可以理解的是，计算机设备可以将片段样本视频序列对应的P个训练样本序列输入第二初始模型，以通过第二初始模型对训练样本序列进行特征提取，得到场景样本视频向量，进而可以基于该场景样本视频向量和训练样本序列对应的样本标签信息，对第二初始模型进行训练后，得到第二网络模型。具体的，请参见图9，图9是本申请实施例提供的一种第二网络模型的结构示意图，第二初始模型可以为在Places365数据集(Places365是一个用于对场景进行分类的数据集)上预训练的ResNet网络模型，训练后的ResNet网络模型可以为上述第二网络模型，本申请实施例不对第二初始模型的具体类型进行限定。图9所示为ResNet网络模型的残差结构，如图所示x为样本视频序列对应的样本图像特征，通过残差网络对样本图像特征进行处理之后，可以得到残差特征F(x)，将残差特征与样本图像特征融合之后，可以得到该残差网络的网络层输出结果H(x)＝F(x)+x，网络层输出结果即为上述样本视频序列对应的样本视频向量(即场景样本视频向量)。其中，该残差网络可以包括第一网络层和第二网络层，样本图像特征可以为该残差网络的上一级残差网络输出的样本视频向量。

同理，可以理解的是，计算机设备可以将片段样本视频序列对应的P个训练样本序列输入第三初始模型，以通过第三初始模型对训练样本序列进行特征提取，得到对象样本视频向量，进而可以基于该对象样本视频向量和训练样本序列对应的样本标签信息，对第三初始模型进行训练后，得到第三网络模型。具体的，请参见图10，图10是本申请实施例提供的一种第三网络模型的结构示意图，第三初始模型可以为上述图3所对应实施例中的OSNet网络模型，本申请实施例不对第三初始模型的具体类型进行限定。图10所示为OSNet网络模型的结构示意图，该网络模型的网络结构主要包括多尺度的卷积结构，可以对样本视频帧中的对象检测区域进行多尺度缩放，并生成不同尺度上的对象样本向量，通过图10所示的池化层，可以将不同尺度上的对象样本向量进行融合后，得到多尺度结果，该多尺度结果即为上述样本视频序列对应的样本视频向量(即对象样本视频向量)。

其中，可以理解的是，在得到第一网络模型时，通过第一网络模型对完整样本视频序列进行局部图像特征提取，可以得到第一样本视频向量，例如，完整样本视频序列W对应的第一样本视频向量可以表示为f(W)，进而可以第一样本视频向量f(W)作为样本视频向量，添加到完整样本视频序列W对应的第一向量检索库中。

其中，可以理解的是，在得到第一网络模型、第二网络模型和第三网络模型时，通过第一网络模型对片段样本视频序列进行局部图像特征提取，可以得到第二样本视频向量，通过第二网络模型对片段样本视频序列进行场景特征提取，可以得到场景样本视频向量，通过第三网络模型对片段样本视频序列进行对象特征提取，可以得到对象样本视频向量，例如，片段样本视频序列W对应的第二样本视频向量可以表示为h(W)，片段样本视频序列W对应的场景样本视频向量可以表示为c(W)，片段样本视频序列W对应的对象样本视频向量可以表示为d(W)，进而可以将第二样本视频向量h(W)、场景样本视频向量c(W)和对象样本视频向量d(W)作为样本视频向量，添加到片段样本视频序列W对应的第二向量检索库中。

其中，可以理解的是，片段样本视频序列对应的第二向量检索库中还包括：融合样本视频向量，这里的融合样本视频向量可以是由片段样本视频序列对应的第二样本视频向量、场景样本视频向量和对象样本视频向量进行特征融合后得到的。

步骤S204，从目标视频序列中获取K个关键视频帧；

步骤S205，获取与K个关键视频帧相关联的关键视频向量，在目标视频序列相关联的第一向量检索库中，查找与关键视频向量相匹配的第一目标向量，得到第一向量查找结果；

步骤S206，若第一向量查找结果指示在第一向量检索库中未查找到第一目标向量，则在目标视频序列相关联的第二向量检索库中，查找与关键视频向量相匹配的第二目标向量，得到第二向量查找结果；

其中，可以理解的是，第一向量检索库中未查找到与关键视频向量相匹配的第一目标向量，表示在长视频检索库中未查找到关键视频向量对应的完整视频源(即完整样本视频序列)，因此，可以在第二向量检索库中查找与关键视频向量相匹配的第二目标向量，表示在短视频检索库中查找关键视频向量对应的片段视频源(即片段样本视频序列)。

为便于理解，请参见图11a，图11a是本申请实施例提供的一种特征检索的流程示意图。如图11a所示，通过第一网络模型对目标视频序列对应的关键视频帧进行图像特征提取，可以得到关键视频向量，并基于该关键视频向量在检索库8a中，查找与关键视频向量相匹配的第二样本视频向量作为第二目标向量；若无法查找到满足第二相似距离条件的第二样本视频向量，则通过第二网络模型对目标视频序列对应的关键视频帧进行场景特征提取，可以得到关键场景向量，并基于该关键场景向量在检索库8b中，查找与关键场景向量相匹配的场景样本视频向量作为第二目标向量；若无法查找到满足第二相似距离条件的第二样本视频向量，则通过第三网络模型(其中，还包括目标检测模型)对目标视频序列对应的关键视频帧进行对象特征提取，可以得到关键对象向量，并基于该关键对象向量在检索库8c中，查找与关键对象向量相匹配的对象样本视频向量作为第二目标向量。可以理解的是，对于片段样本视频序列而言，采样多阶段检索的策略，可以从不同特征角度以弥补所缺失的特征信息。这里的检索库8a、8b和8c可以统称为第二向量检索库。

应当理解，以多阶段的方式获取目标视频序列的目标视频名称时，该目标视频名称可以为第二样本视频向量对应的视频名称，或者场景样本视频向量对应的视频名称，或者对象样本视频向量对应的视频名称。若在检索库8a中查找到第二目标向量，则可以将第二样本视频向量对应的视频名称作为该目标视频序列的目标视频名称。若在检索库8b中查找到第二目标向量，则可以将场景样本视频向量对应的视频名称作为该目标视频序列的目标视频名称。若在检索库8c中查找到第二目标向量，则可以将对象样本视频向量对应的视频名称作为该目标视频序列的目标视频名称。

可选的，为便于理解，请参见图11b，图11b是本申请实施例提供的一种融合特征检索的流程示意图。如图11b所示，通过第一网络模型对目标视频序列对应的关键视频帧进行图像特征提取，可以得到关键视频向量；通过第二网络模型对目标视频序列对应的关键视频帧进行场景特征提取，可以得到关键场景向量；通过第三网络模型(其中，还包括目标检测模型)对目标视频序列对应的关键视频帧进行对象特征提取，可以得到关键对象向量。计算机设备可以将关键视频向量、关键场景向量和关键对象向量进行特征融合之后，得到的融合向量作为关键视频向量，并基于特征融合后的关键视频向量在第二向量检索库中，查找与关键视频向量相匹配的融合样本视频向量作为第二目标向量，进而可以将该融合样本视频向量对应的视频名称作为目标视频序列的目标视频名称。可以理解的是，特征融合可以在特征层面将多阶段提取的特征进行融合，进而可以仅通过一次检索即可在第二向量检索库中查找到第二目标向量。

应当理解，本申请实施例可以将片段样本视频序列对应的第二样本视频向量、场景样本视频向量和对象样本视频向量进行特征融合，以得到融合样本视频向量。其中，融合样本视频向量可以由第二样本视频向量、场景样本视频向量和对象样本视频向量进行拼接所得到，例如，假设第二样本视频向量、场景样本视频向量和对象样本视频向量均为128维的特征向量，则融合样本视频向量可以为384维的特征向量。可选的，融合样本视频向量还可以由第二样本视频向量、场景样本视频向量和对象样本视频向量进行加权平均所得到，通过为不同的特征信息设置不同的权重，可以在特征融合的过程中选择突出或抑制哪些特征。本申请实施例对特征融合的具体方式不做限制。特征融合的方式可以同时考虑多种特征信息，实现特征之间的互补，降低单一特征固有的缺陷。

步骤S207，若第二向量查找结果指示在第二向量检索库中查找到第二目标向量，则将第二目标向量所对应的视频名称作为目标视频序列的目标视频名称。

其中，步骤S204-步骤S207的具体实现方式可以参见上述图3所对应实施例中对步骤S101-步骤S104的描述，这里将不对其进行赘述。

由此可见，在对当前获取到的目标视频序列的视频名称进行识别的过程中，可以通过多个领域模型(即目标网络模型)提取得到关键视频向量，进而可以在长视频检索库(即第一向量检索库)中没有找到与这个关键视频向量相匹配的完整视频源的情况下，能够进一步在用户上传的短视频检索库(即第二向量检索库)中查找与这个关键视频向量相匹配的片段视频源，进而可以确保视频名称识别的准确性。其中，需要注意的是，这里的目标网络模型具体可以包含图像识别“专家”(即第一网络模型)、场景识别“专家”(即第二网络模型)以及对象识别“专家”(即第三网络模型)。考虑到这几个网络模型在用于获取关键视频向量时所采用的特征提取方式，可以是按照多阶段的层层递进的方式，还可以是按照并行提取之后进行融合的方式。

进一步的，请参见图12，图12是本申请实施例提供的一种视频数据处理装置的结构示意图。视频数据处理装置1可以应用于上述业务服务器，也可以应用于上述用户终端。其中，该视频数据处理装置1可以包括：关键帧获取模块10，第一确定模块20，第二确定模块30，第二名称确定模块40；进一步的，视频数据处理装置1还可以包括：第一名称确定模块50，模型获取模块60，样本帧获取模块70，模型训练模块80；

关键帧获取模块10，用于从目标视频序列中获取K个关键视频帧；K个关键视频帧为对目标视频序列进行均匀抽帧处理后所得到的；K为正整数；

第一确定模块20，用于获取与K个关键视频帧相关联的关键视频向量，在目标视频序列相关联的第一向量检索库中，查找与关键视频向量相匹配的第一目标向量，得到第一向量查找结果；关键视频向量是由目标视频序列对应的目标网络模型对K个关键视频帧进行特征提取后所得到的；

第一确定模块20包括：图像特征提取单元201，视频向量确定单元202，第一距离确定单元203，第一查找确定单元204，第二查找确定单元205，第一结果确定单元206；

图像特征提取单元201，用于将K个关键视频帧输入第一网络模型，通过第一网络模型的局部图像特征提取功能，提取K个关键视频帧的局部图像特征，将提取到的每个关键视频帧的局部图像特征作为特征提取向量；

视频向量确定单元202，用于将K个特征提取向量所构成的向量序列作为目标视频序列对应的关键视频向量；

第一距离确定单元203，用于获取与目标视频序列相关联的第一向量检索库，在第一向量检索库中所包含的M个第一样本视频向量中，确定关键视频向量与M个第一样本视频向量中的每个第一样本视频向量之间的第一向量距离；M为正整数；

第一查找确定单元204，用于在M个第一向量距离中，将获取到的最小第一向量距离作为第一目标向量距离，若第一目标向量距离满足第一相似距离条件，则将第一目标向量距离所关联的第一样本视频向量，作为查找到的与关键视频向量相匹配的第一目标向量，基于查找到的第一目标向量得到第一类型查找结果；

第二查找确定单元205，用于若第一目标向量距离不满足第一相似距离条件，则确定在第一向量检索库中未查找到与关键视频向量相匹配的第一目标向量，基于未查找到第一目标向量得到第二类型查找结果；

第一结果确定单元206，用于将第一类型查找结果或者第二类型查找结果作为第一向量查找结果。

其中，图像特征提取单元201，视频向量确定单元202，第一距离确定单元203，第一查找确定单元204，第二查找确定单元205以及第一结果确定单元206的具体实现方式，可以参见上述图3所对应实施例中对步骤S102的描述，这里将不再进行赘述。

第二确定模块30，用于若第一向量查找结果指示在第一向量检索库中未查找到第一目标向量，则在目标视频序列相关联的第二向量检索库中，查找与关键视频向量相匹配的第二目标向量，得到第二向量查找结果；

第二确定模块30包括：检索库获取单元301，第二距离确定单元302，第三查找确定单元303，第四查找确定单元304，第二结果确定单元305；可选的，第二确定模块30可以进一步包括：场景特征提取单元306，场景距离确定单元307，第一更新单元308，区域确定单元309，对象特征提取单元310，对象距离确定单元311，第二更新单元312；

检索库获取单元301，用于若第一向量查找结果指示在第一向量检索库中未查找到第一目标向量，则从检索数据库中获取第二向量检索库；

第二距离确定单元302，用于确定关键视频向量分别与N1个第二样本视频向量中的每个第二样本视频向量之间的第二向量距离，在N1个第二向量距离中，将获取到的最小第二向量距离作为第二目标向量距离；

第三查找确定单元303，用于若第二目标向量距离满足第二相似距离条件，则将第二目标向量距离所关联的第二样本视频向量，作为查找到的与关键视频向量相匹配的第二目标向量，基于查找到的第二目标向量得到第三类型查找结果；

第四查找确定单元304，用于若第二目标向量距离不满足第二相似距离条件，则确定在第二向量检索库中未查找到与关键视频向量相匹配的第二目标向量，基于未查找到第二目标向量得到第四类型查找结果；

第二结果确定单元305，用于将第三类型查找结果或者第四类型查找结果作为第二向量查找结果。

可选的，其中，第二向量检索库中包括与片段样本视频序列相关联的N2个场景样本视频向量；目标网络模型包括具有场景特征提取功能的第二网络模型；N2为正整数；

场景特征提取单元306，用于在第二目标向量距离不满足第二相似距离条件时，将K个关键视频帧输入第二网络模型，通过第二网络模型的场景特征提取功能，提取K个关键视频帧的场景特征，将提取到的K个关键视频帧的场景特征所构成的特征序列，作为与K个关键视频帧相关联的关键场景向量；

场景距离确定单元307，用于确定关键场景向量分别与N2个场景样本视频向量之间的场景相似距离，在N2个场景相似距离中，将获取到的最小场景相似距离所对应的场景样本视频向量作为目标场景向量，用目标场景向量更新第二目标向量；

第一更新单元308，用于若更新后的第二目标向量满足第二相似距离条件，则基于更新后的第二目标向量更新第二向量查找结果。

可选的，其中，第二向量检索库中包括与片段样本视频序列相关联的N3个对象样本视频向量；目标网络模型包括具有对象特征提取功能的第三网络模型；N3为正整数；

区域确定单元309，用于在更新后的第二目标向量不满足第二相似距离条件时，将K个关键视频帧输入至第三网络模型对应的目标检测模型，通过目标检测模型的目标检测功能，对K个关键视频帧进行对象检测，在每个关键视频帧中确定目标对象所属的定位区域，基于在K个关键视频帧中所确定出的定位区域，确定与K个关键视频帧相关联的对象检测区域；

对象特征提取单元310，用于将对象检测区域输入第三网络模型，通过第三网络模型的对象特征提取功能，提取K个关键视频帧的对象特征，将检测到的K个关键视频帧的对象特征所构成的特征序列，作为与K个关键视频帧相关联的关键对象向量；

对象距离确定单元311，用于确定关键对象向量分别与N3个对象样本视频向量之间的对象相似距离，在N3个对象相似距离中，将获取到的最小对象相似距离所对应的对象样本视频向量作为目标对象向量，用目标对象向量更新第二目标向量；

第二更新单元312，用于若更新后的第二目标向量满足第二相似距离条件，则基于更新后的第二目标向量更新第二向量查找结果。

其中，检索库获取单元301，第二距离确定单元302，第三查找确定单元303，第四查找确定单元304以及第二结果确定单元305的具体实现方式，可以参见上述图3所对应实施例中中对步骤S103的描述，这里将不再进行赘述。可选的，场景特征提取单元306，场景距离确定单元307，第一更新单元308，区域确定单元309，对象特征提取单元310，对象距离确定单元311以及第二更新单元312的具体实现方式，可以参见上述图3所对应实施例中对步骤S103的描述，这里将不再进行赘述。

第二名称确定模块40，用于若第二向量查找结果指示在第二向量检索库中查找到第二目标向量，则将第二目标向量所对应的视频名称作为目标视频序列的目标视频名称。

可选的，其中，一个第一样本视频向量对应一个完整样本视频序列；

第一名称确定模块50，用于若第一向量查找结果指示在第一向量检索库中查找到第一目标向量，则将第一目标向量所对应的完整样本视频序列的视频名称作为目标视频序列的目标视频名称。

可选的，模型获取模块60，用于获取用于训练初始网络模型的片段样本视频序列，将片段样本视频序列的样本视频名称作为样本标签信息；

样本帧获取模块70，用于将片段样本视频序列均匀划分为L个样本分段，对L个样本分段中的每一个样本分段进行遍历抽帧处理，得到与L个样本分段相关联的P个训练样本序列；每个训练样本序列中均包括L个样本视频帧；L为正整数；P是由均匀划分所得到的每个样本分段中的图像帧的数量所确定的；

模型确定模块80，用于通过初始网络模型获取P个训练样本序列的样本视频向量，基于P个训练样本序列的样本视频向量和样本标签信息，对初始网络模型进行训练，将训练后的初始网络模型确定为目标网络模型。

其中，关键帧获取模块10，第一确定模块20，第二确定模块30、第二名称确定模块40以及第一名称确定模块50的具体实现方式，可以参见上述图3所对应实施例中对步骤S101-步骤S104的描述，这里将不再进行赘述。可选的，模型获取模块60，样本帧获取模块70以及模型确定模块80的具体实现方式，可以参见上述图6所对应实施例中对步骤S201-步骤S203的描述，这里将不再进行赘述

请参见图13，图13是本申请实施例提供的一种计算机设备的结构示意图。如图13所示，该计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。可选的，网络接口1004可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器1005还可以是至少一个位于远离前述处理器1001的存储装置。如图13所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在如图13所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图3或图6所对应实施例中对数据处理方法的描述，也可执行前文图12所对应实施例中对数据处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有前文提及的数据处理装置1所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图3或图6所对应实施例中对数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

此外，需要说明的是：本申请实施例还提供了一中计算机程序产品或计算机程序，该计算机程序产品或者计算机程序可以包括计算机指令，该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器可以执行该计算机指令，使得该计算机设备执行前文图3或图6所对应实施例中对数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储存储器(Read-Only Memory，ROM)或随机存储存储器(Random Access Memory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种视频数据处理方法，其特征在于，包括：

从目标视频序列中获取K个关键视频帧；所述K个关键视频帧为对所述目标视频序列进行均匀抽帧处理后所得到的；所述K为正整数；

获取所述K个关键视频帧分别对应的特征提取向量，将K个特征提取向量所构成的向量序列作为所述目标视频序列对应的关键视频向量，在所述目标视频序列相关联的第一向量检索库中，查找与所述关键视频向量相匹配的第一目标向量，得到第一向量查找结果；所述关键视频向量是由所述目标视频序列对应的目标网络模型对所述K个关键视频帧进行特征提取后所得到的；所述第一向量检索库为长视频检索库；

若所述第一向量查找结果指示在所述第一向量检索库中未查找到所述第一目标向量，则在所述目标视频序列相关联的第二向量检索库中，查找与所述关键视频向量相匹配的第二目标向量，得到第二向量查找结果；所述第二向量检索库为短视频检索库；

若所述第二向量查找结果指示在所述第二向量检索库中查找到所述第二目标向量，则将所述第二目标向量所对应的视频名称作为所述目标视频序列的目标视频名称。

2.根据权利要求1所述的方法，其特征在于，所述目标网络模型包括具有局部图像特征提取功能的第一网络模型；

所述获取所述K个关键视频帧分别对应的特征提取向量，将K个特征提取向量所构成的向量序列作为所述目标视频序列对应的关键视频向量，在所述目标视频序列相关联的第一向量检索库中，查找与所述关键视频向量相匹配的第一目标向量，得到第一向量查找结果，包括：

将所述K个关键视频帧输入所述第一网络模型，通过所述第一网络模型的局部图像特征提取功能，提取所述K个关键视频帧的局部图像特征，将提取到的每个关键视频帧的局部图像特征作为特征提取向量；

将K个特征提取向量所构成的向量序列作为所述目标视频序列对应的关键视频向量；

获取与所述目标视频序列相关联的第一向量检索库，在所述第一向量检索库中所包含的M个第一样本视频向量中，确定所述关键视频向量与所述M个第一样本视频向量中的每个第一样本视频向量之间的第一向量距离；所述M为正整数；

在M个第一向量距离中，将获取到的最小第一向量距离作为第一目标向量距离，若所述第一目标向量距离满足第一相似距离条件，则将所述第一目标向量距离所关联的第一样本视频向量，作为查找到的与所述关键视频向量相匹配的第一目标向量，基于查找到的第一目标向量得到第一类型查找结果；

若所述第一目标向量距离不满足所述第一相似距离条件，则确定在所述第一向量检索库中未查找到与所述关键视频向量相匹配的第一目标向量，基于未查找到所述第一目标向量得到第二类型查找结果；

将所述第一类型查找结果或者所述第二类型查找结果作为第一向量查找结果。

3.根据权利要求2所述的方法，其特征在于，一个第一样本视频向量对应一个完整样本视频序列；

所述方法还包括：

若所述第一向量查找结果指示在所述第一向量检索库中查找到所述第一目标向量，则将所述第一目标向量所对应的所述完整样本视频序列的视频名称作为所述目标视频序列的目标视频名称。

4.根据权利要求2所述的方法，其特征在于，所述第一向量检索库所属的检索数据库中包括第二向量检索库；所述第二向量检索库中包括与片段样本视频序列相关联的N1个第二样本视频向量；所述N1为正整数；

所述若所述第一向量查找结果指示在所述第一向量检索库中未查找到所述第一目标向量，则在所述目标视频序列相关联的第二向量检索库中，查找与所述关键视频向量相匹配的第二目标向量，得到第二向量查找结果，包括：

若所述第一向量查找结果指示在所述第一向量检索库中未查找到所述第一目标向量，则从所述检索数据库中获取所述第二向量检索库；

确定所述关键视频向量分别与所述N1个第二样本视频向量中的每个第二样本视频向量之间的第二向量距离，在N1个第二向量距离中，将获取到的最小第二向量距离作为第二目标向量距离；

若所述第二目标向量距离满足第二相似距离条件，则将所述第二目标向量距离所关联的第二样本视频向量，作为查找到的与所述关键视频向量相匹配的第二目标向量，基于查找到的第二目标向量得到第三类型查找结果；

若所述第二目标向量距离不满足所述第二相似距离条件，则确定在所述第二向量检索库中未查找到与所述关键视频向量相匹配的第二目标向量，基于未查找到所述第二目标向量得到第四类型查找结果；

将所述第三类型查找结果或者所述第四类型查找结果作为第二向量查找结果。

5.根据权利要求4所述的方法，其特征在于，所述第二向量检索库中包括与所述片段样本视频序列相关联的N2个场景样本视频向量；所述目标网络模型包括具有场景特征提取功能的第二网络模型；所述N2为正整数；

所述方法还包括：

在所述第二目标向量距离不满足所述第二相似距离条件时，将所述K个关键视频帧输入所述第二网络模型，通过所述第二网络模型的场景特征提取功能，提取所述K个关键视频帧的场景特征，将提取到的所述K个关键视频帧的场景特征所构成的特征序列，作为与所述K个关键视频帧相关联的关键场景向量；

确定所述关键场景向量分别与所述N2个场景样本视频向量之间的场景相似距离，在N2个场景相似距离中，将获取到的最小场景相似距离所对应的场景样本视频向量作为目标场景向量，用所述目标场景向量更新所述第二目标向量；

若更新后的第二目标向量满足所述第二相似距离条件，则基于所述更新后的第二目标向量更新所述第二向量查找结果。

6.根据权利要求5所述的方法，其特征在于，所述第二向量检索库中包括与所述片段样本视频序列相关联的N3个对象样本视频向量；所述目标网络模型包括具有对象特征提取功能的第三网络模型；所述N3为正整数；

所述方法还包括：

在所述更新后的第二目标向量不满足所述第二相似距离条件时，将所述K个关键视频帧输入至所述第三网络模型对应的目标检测模型，通过所述目标检测模型的目标检测功能，对所述K个关键视频帧进行对象检测，在每个关键视频帧中确定目标对象所属的定位区域，基于在所述K个关键视频帧中所确定出的定位区域，确定与所述K个关键视频帧相关联的对象检测区域；

将所述对象检测区域输入所述第三网络模型，通过所述第三网络模型的对象特征提取功能，提取所述K个关键视频帧的对象特征，将检测到的所述K个关键视频帧的对象特征所构成的特征序列，作为与所述K个关键视频帧相关联的关键对象向量；

确定所述关键对象向量分别与所述N3个对象样本视频向量之间的对象相似距离，在N3个对象相似距离中，将获取到的最小对象相似距离所对应的对象样本视频向量作为目标对象向量，用所述目标对象向量更新所述第二目标向量；

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取用于训练初始网络模型的片段样本视频序列，将所述片段样本视频序列的样本视频名称作为样本标签信息；

将所述片段样本视频序列均匀划分为L个样本分段，对所述L个样本分段中的每一个样本分段进行遍历抽帧处理，得到与所述L个样本分段相关联的P个训练样本序列；每个训练样本序列中均包括L个样本视频帧；所述L为正整数；所述P是由均匀划分所得到的每个样本分段中的图像帧的数量所确定的；

通过所述初始网络模型获取所述P个训练样本序列的样本视频向量，基于所述P个训练样本序列的样本视频向量和所述样本标签信息，对所述初始网络模型进行训练，将训练后的初始网络模型确定为所述目标网络模型。

8.一种视频数据处理装置，其特征在于，包括：

关键帧获取模块，用于从目标视频序列中获取K个关键视频帧；所述K个关键视频帧为对所述目标视频序列进行均匀抽帧处理后所得到的；所述K为正整数；

第一确定模块，用于获取所述K个关键视频帧分别对应的特征提取向量，将K个特征提取向量所构成的向量序列作为所述目标视频序列对应的关键视频向量，在所述目标视频序列相关联的第一向量检索库中，查找与所述关键视频向量相匹配的第一目标向量，得到第一向量查找结果；所述关键视频向量是由所述目标视频序列对应的目标网络模型对所述K个关键视频帧进行特征提取后所得到的；所述第一向量检索库为长视频检索库；

第二确定模块，用于若所述第一向量查找结果指示在所述第一向量检索库中未查找到所述第一目标向量，则在所述目标视频序列相关联的第二向量检索库中，查找与所述关键视频向量相匹配的第二目标向量，得到第二向量查找结果；所述第二向量检索库为短视频检索库；

第二名称确定模块，用于若所述第二向量查找结果指示在所述第二向量检索库中查找到所述第二目标向量，则将所述第二目标向量所对应的视频名称作为所述目标视频序列的目标视频名称。

9.一种计算机设备，其特征在于，包括：处理器、存储器和网络接口；

所述处理器分别与存储器和网络接口相连，其中，网络接口用于提供数据通信功能，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，执行权利要求1-7任一项所述的方法。