CN113779303B

CN113779303B - 视频集合的索引方法、装置和存储介质及电子设备

Info

Publication number: CN113779303B
Application number: CN202111336533.3A
Authority: CN
Inventors: 余自强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2022-02-25
Anticipated expiration: 2041-11-12
Also published as: CN113779303A

Abstract

本发明公开了一种视频集合的索引方法、装置和存储介质及电子设备。其中，该方法包括：从目标视频片段中获取包含索引信息的视频关键帧，其中，索引信息为对视频进行索引时作为索引依据的参考信息；提取视频关键帧的图像特征和索引特征，其中，图像特征为用于表示视频关键帧的图像内容的特征，索引特征为用于表示索引信息在视频关键帧中的特征；基于图像特征以及索引特征，获取目标视频片段匹配的目标视频集合，其中，目标视频集合中包括一个或者多个视频。本发明解决了视频集合的索引效率较低的技术问题。

Description

视频集合的索引方法、装置和存储介质及电子设备

技术领域

本发明涉及计算机领域，具体而言，涉及一种视频集合的索引方法、装置和存储介质及电子设备。

背景技术

近年来短视频作为当今大众日常使用的一种娱乐方式发展较为广泛，而不管是电视剧或是电影的花絮，还是来自长视频的剪辑片段，在用户想要观看视频对应完整的视频集合时，往往需要依赖用户通过视频标题、评论或台词寻找，进而导致视频集合的索引效率较低的问题出现。因此，存在视频集合的索引效率较低的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种视频集合的索引方法、装置和存储介质及电子设备，以至少解决视频集合的索引效率较低的技术问题。

根据本发明实施例的一个方面，提供了一种视频集合的索引方法，包括：从目标视频片段中获取包含索引信息的视频关键帧，其中，上述索引信息为对视频进行索引时作为索引依据的参考信息；提取上述视频关键帧的图像特征和索引特征，其中，上述图像特征为用于表示上述视频关键帧的图像内容的特征，上述索引特征为用于表示上述索引信息在上述视频关键帧中的特征；基于上述图像特征以及上述索引特征，获取上述目标视频片段匹配的目标视频集合，其中，上述目标视频集合中包括一个或者多个视频。

根据本发明实施例的另一方面，还提供了一种视频集合的索引装置，包括：第一获取单元，用于从目标视频片段中获取包含索引信息的视频关键帧，其中，上述索引信息为对视频进行索引时作为索引依据的参考信息；第一提取单元，用于提取上述视频关键帧的图像特征和索引特征，其中，上述图像特征为用于表示上述视频关键帧的图像内容的特征，上述索引特征为用于表示上述索引信息在上述视频关键帧中的特征；第二获取单元，用于基于上述图像特征以及上述索引特征，获取上述目标视频片段匹配的目标视频集合，其中，上述目标视频集合中包括一个或者多个视频。

作为一种可选的方案，上述第二获取单元，包括：第一获取模块，用于基于上述索引特征，从索引视频库中获取至少一个候选视频，其中，上述索引视频库中包括多个待索引的视频；第二获取模块，用于基于上述图像特征，从上述至少一个候选视频中获取目标视频，其中，上述目标视频对应的图像内容的特征与上述图像特征之间的特征相似度达到第一阈值，上述目标视频集合包括上述目标视频；第三获取模块，用于获取上述目标视频所在的上述目标视频集合。

作为一种可选的方案，上述第二获取单元，包括：第一处理模块，用于对上述图像特征以及上述索引特征进行拼接处理，得到目标索引特征；第四获取模块，用于基于上述目标索引特征从索引视频库中获取目标视频，其中，上述索引视频库中包括多个待索引的视频，上述目标视频对应的目标特征与上述目标索引特征之间的特征相似度达到第二阈值；第五获取模块，用于获取上述目标视频所在的上述目标视频集合。

作为一种可选的方案，上述第一获取单元，包括：第六获取模块，用于获取上述目标视频片段对应的N个视频帧，其中，N为自然数；第二处理模块，用于基于上述N个视频帧中相邻的每个视频帧之间的差异信息，对上述N个视频帧进行分割处理，得到M个视频子片段，其中，M为自然数；识别模块，用于对上述M个视频子片段中的每个视频子片段进行索引信息识别，获取P个上述视频关键帧，其中，P为小于等于M的自然数。

作为一种可选的方案，上述识别模块，包括：识别子模块，用于对上述M个视频子片段中的每个视频子片段进行索引信息识别，确定上述每个视频子片段中包含上述索引信息的视频帧；确定子模块，用于在一个上述视频子片段包含至少两个包含上述索引信息的视频帧的情况下，按照包含的上述索引信息的优先级、从上述至少两个包含上述索引信息的视频帧中确定上述视频关键帧。

作为一种可选的方案，包括：第三获取单元，用于在上述提取上述视频关键帧的图像特征和索引特征之后，获取上述目标视频片段在当前时刻播放的第一视频帧；第二提取单元，用于在上述提取上述视频关键帧的图像特征和索引特征之后，提取上述第一视频帧的局部图像特征，其中，上述局部图像特征为用于表示图像上关键点的局部描述信息的特征；确定单元，用于在上述提取上述视频关键帧的图像特征和索引特征之后，基于上述第一视频帧的局部图像特征，从上述目标视频片段匹配的目标视频中确定出第二视频帧，其中，上述第二视频帧的局部图像特征与上述第一视频帧的局部图像特征之间的特征相似度达到第三阈值，上述目标视频集合包括上述目标视频；第四获取单元，用于在上述提取上述视频关键帧的图像特征和索引特征之后，获取上述第二视频帧在上述目标视频上的播放进度。

作为一种可选的方案，包括：第一显示单元，用于在上述获取上述第二视频帧在上述目标视频上的播放进度之后，响应于对上述目标视频片段执行的视频播放指令，按照上述播放进度播放上述目标视频，并显示上述目标视频集合中的每个视频对应的选集播放按钮，其中，上述选集播放按钮用于触发播放上述目标视频集合中的任一视频的播放指令。

作为一种可选的方案，上述索引特征包括人脸信息特征，上述第一提取单元，包括：第一提取模块，用于提取每个上述视频关键帧中包含的初始人脸信息；第一转换模块，用于在上述初始人脸信息为单一人脸信息的情况下，将上述初始人脸信息转换为第一连续向量，其中，上述索引特征包括上述第一连续向量；第二转换模块，用于在上述初始人脸信息为多数人脸信息的情况下，对上述初始人脸信息中的每一人脸信息进行转换，得到多个第二连续向量；对上述多个第二连续向量进行加和求平均处理，得到第三连续向量，其中，上述索引特征包括上述第三连续向量。

作为一种可选的方案，上述第一提取单元，包括：第二提取模块，用于提取上述视频关键帧的图像底层特征，其中，上述图像底层特征为用于表示上述视频关键帧的图像底层内容的特征；第三提取模块，用于提取上述视频关键帧的图像中层特征，其中，上述图像中层特征为用于表示上述视频关键帧中具有抽象能力的图像内容的特征；第四提取模块，用于提取上述视频关键帧的图像语义特征，其中，上述图像语义特征为用于表示上述视频关键帧中具有抽象能力的图像语义内容的特征；第三处理模块，用于对上述图像底层特征、上述图像中层特征以及上述图像语义特征进行聚合处理，得到上述图像特征。

作为一种可选的方案，上述第一提取单元，还包括：输入模块，用于将上述视频关键帧输入图像分类模型，其中，上述图像分类模型为利用多个样本图像数据进行训练后得到的用于分类图像的神经网络模型，上述多个样本图像数据中至少包括一组正样本图像数据以及一组负样本图像数据，上述正样本图像数据为同一视频片段的多个视频帧所对应的图像数据，上述负样本图像数据为不同视频片段的多个视频帧所对应的图像数据；第五提取模块，用于利用上述图像分类模型的第一网络层提取上述视频关键帧的上述图像底层特征；第六提取模块，用于利用上述图像分类模型的第二网络层提取上述视频关键帧的上述图像中层特征；第七提取模块，用于利用上述图像分类模型的第三网络层提取上述视频关键帧的上述图像语义特征；第八提取模块，用于利用上述图像分类模型的第四网络层对上述图像底层特征、上述图像中层特征以及上述图像语义特征进行聚合处理，得到上述图像特征。

根据本发明实施例的另一方面，还提供了另一种视频索引装置，包括：第二显示单元，用于显示视频播放界面以及跳转控件；第三显示单元，用于在所述视频播放界面内播放有目标视频片段、且获取到对所述跳转控件触发的第一跳转操作的情况下，显示所述目标视频片段匹配的目标视频；或，在所述视频播放界面内播放有所述目标视频片段、且获取到对所述跳转控件触发的第二跳转操作的情况下，显示所述目标视频片段匹配的目标视频集合，其中，所述目标视频集合包括所述目标视频。

根据本申请实施例的又一个方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如以上视频集合的索引方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的视频集合的索引方法。

在本发明实施例中，从目标视频片段中获取包含索引信息的视频关键帧；提取上述视频关键帧的图像特征和索引特征；基于上述图像特征以及上述索引特征，获取上述目标视频片段匹配的目标视频集合，通过将包含索引信息的视频帧作为用于索引的关键视频帧，减少了视频集合的索引过程中索引工作量，进而提高视频集合的索引效率；此外，采用结合视频关键帧的图像特征和索引特征的方式，由于索引特征可提炼视频帧的关键索引信息，而图像特征可保留视频帧的原始图像信息，进而达到了在保证一定的索引准确性的基础上降低视频集合的索引工作量的目的，从而实现了提高视频集合的索引效率的技术效果，进而解决了[关键词]的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的视频集合的索引方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的视频集合的索引方法的流程的示意图；

图3是根据本发明实施例的一种可选的视频集合的索引方法的示意图；

图4是根据本发明实施例的另一种可选的视频集合的索引方法的示意图；

图5是根据本发明实施例的另一种可选的视频集合的索引方法的示意图；

图6是根据本发明实施例的另一种可选的视频集合的索引方法的示意图；

图7是根据本发明实施例的另一种可选的视频集合的索引方法的示意图；

图8是根据本发明实施例的另一种可选的视频集合的索引方法的示意图；

图9是根据本发明实施例的另一种可选的视频集合的索引方法的示意图；

图10是根据本发明实施例的另一种可选的视频集合的索引方法的示意图；

图11是根据本发明实施例的一种可选的视频索引方法的流程的示意图；

图12是根据本发明实施例的另一种可选的视频集合的索引方法的示意图；

图13是根据本发明实施例的另一种可选的视频集合的索引方法的示意图；

图14是根据本发明实施例的一种可选的视频集合的索引装置的示意图；

图15是根据本发明实施例的一种可选的视频索引装置的示意图；

图16是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，为方便理解本发明实施例，下面对本发明中所涉及的部分术语或名词进行解释说明：

帧：视频内容由一系列帧组成。通常表示为FPS（每秒帧数），每帧是静止图像，当按顺序播放时，创建运动图像。因此，使用30的FPS创建的内容意味着有30个“静止图像”将播放每秒视频。

关键帧：指角色或者物体运动或变化中的关键动作所处的那一帧。

卷积神经网络(Convolutional Neural Networks，简称CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，人工神经元可以响应周围单元。卷积神经网络包括卷积层和池化层。

Embedding：是一个将离散变量转为连续向量表示的一个方式。在神经网络中，embedding是非常有用的，因为它不光可以减少离散变量的空间维数，同时还可以有意义的表示该变量。

特征向量：本文指由n个数字所组成的向量表示的图像特征。

ImageNet：是一个用于视觉对象识别软件研究的大型可视化数据库，ImageNet整个数据集包含21841类，1400万张图片，其中常用的子集包含1000类，120万张图片。

Tencent ml-images：为开源的业内最大规模的多标签图像数据集，其中包含了1800万图像和11000种常见物体类别。

召回：从数量级很大的向量数据中粗筛出比较相似的一些向量。

根据本发明实施例的一个方面，提供了一种视频集合的索引方法，可选地，作为一种可选的实施方式，上述视频集合的索引方法可以但不限于应用于如图1所示的环境中。其中，可以但不限于包括用户设备102、网络110及服务器112，其中，该用户设备102上可以但不限于包括显示器108、处理器106及存储器104。

具体过程可如下步骤：

步骤S102，用户设备102获取对目标视频片段1022触发的索引指令，如在目标视频片段1022播放过程中，在虚拟按钮“调整全集”上触发该索引指令，以请求获取目标视频片段1022匹配的视频集合，例如目标视频片段1022为电视剧A的片段，进而该索引指令用于请求获取电视剧A的全集内容；

步骤S104-S106，用户设备102通过网络110将索引指令发送给服务器112；

步骤S108，服务器112通过数据库114查找目标视频片段匹配的目标视频，并通过处理引擎116将与目标视频同属于一个视频集合的视频进行整合处理，从而获取目标视频集合；

步骤S110-S112，服务器112通过网络110将目标视频集合发送给用户设备102，用户设备102中的处理器106将目标视频集合显示在显示器108中，并将目标视频集合存储在存储器104中。

除图1示出的示例之外，上述步骤可以由用户设备102独立完成，即由用户设备102执行目标视频的获取、目标视频集合的获取等步骤，从而减轻服务器的处理压力。该用户设备102包括但不限于手持设备（如手机）、笔记本电脑、台式电脑、车载设备等，本发明并不限制用户设备102的具体实现方式。

可选地，作为一种可选的实施方式，如图2所示，视频集合的索引方法包括：

S202，从目标视频片段中获取包含索引信息的视频关键帧，其中，索引信息为对视频进行索引时作为索引依据的参考信息；

S204，提取视频关键帧的图像特征和索引特征，其中，图像特征为用于表示视频关键帧的图像内容的特征，索引特征为用于表示索引信息在视频关键帧中的特征；

S206，基于图像特征以及索引特征，获取目标视频片段匹配的目标视频集合，其中，目标视频集合中包括一个或者多个视频。

可选地，在本实施例中，上述视频集合的索引方法可以但不限于应用在短视频的全集内容的索引场景，例如短视频为电视剧A的第三集的部分片段，进而在目标客户端播放该短视频的过程中，可在目标客户端上提供全集内容的索引功能，且在该索引功能触发时，获取该短视频（目标视频片段）中包含索引信息的视频关键帧，再利用对该视频关键帧的图像特征和索引特征进行提取的方式，为全集内容的索引提供索引依据；基于图像特征以及索引特征，从视频索引库中进行索引，匹配出符合索引条件的一个或多个视频（如电视剧A的第三集内容），并进一步获取该一个或多个视频所在的目标视频集合（电视剧A的全集内容）。基于此，用户可在观看该短视频时，可利用目标视频集合对短视频的完整内容进行观看。

可选地，在本实施例中，目标视频片段可以但不限于为一个完整视频的部分视频片段，如电视剧A的某一集在一个时间段内的截取片段、比赛B的全场集锦等；目标视频片段也可以但不限于为一个视频的关联视频片段，如电影C的恶搞视频、动画片D的讲解视频等。

可选地，在本实施例中，索引信息可以但不限于用于对视频进行针对性索引，该索引信息可以为目标视频片段中的视频帧的属性特征，该视频帧的属性特征可以包括视频帧中显示的视觉对象、音频信息或者其他与视频帧相关的属性，假设索引信息为身份信息（如人脸识别信息、音频识别信息等），则从目标视频片段中获取包含身份信息的视频关键帧，如将可识别出参演对象的视频帧确定为视频关键帧，其中，参演对象可以但不限于包括演员、动物、植物、虚拟对象等；进一步举例说明，可选的在某一帧视频中识别出演员A的人脸信息后，可将该一帧视频确定为视频关键帧，并在后续步骤中基于演员A所参演的影视作品进行更深层次的索引；再例如，可选的在某一帧视频中识别出演员B的音频信息后，可将该一帧视频确定为视频关键帧，并在后续步骤中基于演员B所参演的影视作品进行更深层次的索引。或，结合听觉（人脸信息）与视觉（音频信息）共同确定身份信息，进而提高了视频关键帧的获取准确性。经过研究发现，由于在视频场景下人脸识别信息独特性强、受观众关注度高并且对人脸信息的识别准确度高，因此在一些实施例中，可以将人脸识别信息用作索引信息，并且从目标视频片段中获取包含人脸信息的视频关键帧，从而提高了视频跳转到全集的准确性以及改善了用户体验。

可选地，在本实施例中，索引信息还可以但不限于为类型信息（logo、水印、视觉对象的装束、特殊内容等），则从目标视频片段中获取包含类型信息的视频关键帧，如将可识别出目标视频片段为何种视频类型的视频帧确定为视频关键帧，其中，视频类型可以但不限于包括动画类型、电视剧类型、电影类型、喜剧类型、综艺类型、录像类型、比赛类型等。进一步举例说明，一些视频片段往往会有尊重原创的考虑，进而在播放过程中会显示原作的logo、水印等，进而可将带有logo、水印等关键元素的视频帧作为视频关键帧。再者，可选的不同类型的视频中是视觉对象的装束往往会存在较大区别，如古装类型中视觉对象的装束即为古装、现代类型中视觉对象的装束即为现代装束、比赛类型中视觉对象的装束多为比赛专用服装。此外，视频中还往往包含着一些特殊内容以凸显出不同的视频类型，如动画类型中很多画面都较为抽象，进而即可将带有抽象画面的视频作为视频关键帧。

可选地，在本实施例中，索引信息还可以但不限于为关键字段、关键文字、关键音频等，在一些视频片段中往往会带有台词或解说台本等文字说明，进而可在该文字说明中提取关键文字（如剧名、演员名、视频类型等），并将上述关键文字所在的视频帧确定为关键视频帧；而对于一些没有有台词或解说台本等文字说明的视频片段，也可利用音频识别技术，以识别视频片段中的音频，得到该音频所对应的文字，同理提取该音频所对应的文字中的关键文字，再将上述关键文字所在的视频帧确定为关键视频帧。此外，也可以但不限于结合在文字说明中提取关键文字以及音频识别技术，以更好地完成对索引信息的提取，进而提高了关键视频帧的获取准确性。

可选地，在本实施例中，图像特征可以但不限用于表示视频关键帧的原始图像的图像信息，例如图像颜色特征（一种全局特征，描述了图像或图像区域所对应的景物的表面性质，一般是基于像素点的特征）、图像纹理特征（一种全局特征，描述了图像或图像区域所对应的景物的表面性质，且由于纹理只是一种物体表面的特征，并不能完全反映出物体的本质属性，所以仅仅利用纹理特征往往是无法获得高层次图像内容，且需要在包含多个像素点的区域中进行统计计算）、图像形状特征（各种机遇形状特征的检索方法都可以比较有效地利用图像中感兴趣的目标来进行检索）、图像空间关系特征（所谓空间关系，是指图像中分割出的多个目标之间的相互的空间位置或相对方向关系，这些关系也可分为连接/邻接关系、交叠/重叠关系和包含/包容关系等）等。

可选地，在本实施例中，基于图像特征以及索引特征，获取目标视频片段匹配的目标视频集合的过程中，可以但不限于包括先基于图像特征以及索引特征，获取目标视频片段匹配的目标视频，其中，目标视频包括目标视频片段或目标视频与目标视频片段相匹配；再获取目标视频所在的目标视频集合。此外，在目标视频集合只包括一个视频（如目标视频）的情况下，可直接输出目标视频。

可选地，在本实施例中，基于图像特征以及索引特征，获取目标视频片段匹配的目标视频集合的方式可以但不限于在向量检索在数据规模较小的情况下，将查询向量和检索库中的所有视频帧向量按欧式距离或余弦距离等方式进行相似度计算。但由于长视频对应的视频帧较多，而在海量视频中进行线性相似度计算难以满足性能要求。因此可采取牺牲掉一小部分精度，将其分割成很多小的子空间，在子空间中进行遍历，来完成在很短的时间内找到近似的Top K个最近邻，也就是近似最近邻搜索技术(Approximate NearestNeighbor，简称ANN)，即在给定的向量集合中查找出与目标向量距离最近的Top K个向量。通过缩减了遍历的空间大小范围，使得ANN技术能够处理大规模数据下的检索请求；

此外，还可以但不限于采用开源的大规模检索工具FAISS下的矢量量化方法，其中矢量量化的代表算法PQ的核心思想是聚类，假设对N个训练样本，PQ将整个向量划分为M段，每一段子向量通过K-Means聚类量化成一个指定位数的数，通过这种方式样本的高维向量得以以很短的编码表示。通过检索召回出相似的特征向量后，得到其对应时间点和来源视频ID。

需要说明的是，从目标视频片段中获取包含索引信息的视频关键帧；提取视频关键帧的图像特征和索引特征；基于图像特征以及索引特征，获取目标视频片段匹配的目标视频集合，通过将包含索引信息的视频帧作为用于索引的关键视频帧，减少了视频集合的索引过程中索引工作量，进而提高视频集合的索引效率；此外，采用结合视频关键帧的图像特征和索引特征的方式，由于索引特征可提炼视频帧的关键索引信息，而图像特征可保留视频帧的原始图像信息，进而兼顾了视频集合的索引效率以及准确性。

进一步举例说明，可选的例如如图3所示，响应于对目标视频片段302的跳转全集指令，从目标视频片段302中获取包含索引信息的视频关键帧，提取视频关键帧的图像特征和索引特征，其中，图像特征为用于表示视频关键帧的图像内容的特征，索引特征为用于表示索引信息在视频关键帧中的特征，具体如图3中的（a）所示；进一步如图3中的（b）所示，基于图像特征以及索引特征，获取目标视频片段302匹配的目标视频集合306（如电视剧A），其中，目标视频集合306中包括目标视频304（如电视剧A的第7集内容）在内的一个或者多个视频。

通过本申请提供的实施例，从目标视频片段中获取包含索引信息的视频关键帧；提取视频关键帧的图像特征和索引特征；基于图像特征以及索引特征，获取目标视频片段匹配的目标视频集合，通过将包含索引信息的视频帧作为用于索引的关键视频帧，减少了视频集合的索引过程中索引工作量，进而提高视频集合的索引效率；此外，采用结合视频关键帧的图像特征和索引特征的方式，由于索引特征可提炼视频帧的关键索引信息，而图像特征可保留视频帧的原始图像信息，进而达到了在保证一定的索引准确性的基础上降低视频集合的索引工作量的目的，从而实现了提高视频集合的索引效率的技术效果。

作为一种可选的方案，基于图像特征以及索引特征，获取目标视频片段匹配的目标视频集合，包括：

S1，基于索引特征，从索引视频库中获取至少一个候选视频，其中，索引视频库中包括多个待索引的视频；

S2，基于图像特征，从至少一个候选视频中获取目标视频，其中，目标视频对应的图像内容的特征与图像特征之间的特征相似度达到第一阈值，目标视频集合包括目标视频；

S3，获取目标视频所在的目标视频集合。

可选地，在本实施例中，索引视频库中可以但不限于包括多个索引子视频库，且每个索引子视频库对应一个索引标识；基于此，可以但不限于确定索引特征对应的索引标识，再利用该索引标识确定一个索引子视频库，以此缩小视频集合的索引范围，降低索引工作量；并且还可基于索引特征进一步在已确定好的索引子视频库再确定至少一个候选视频；或，还可以但不限于利用索引特征直接在索引视频库中确定出至少一个候选视频。

需要说明的是，索引特征的作用可理解为缩小视频集合的索引范围，以降低索引工作量；而图像特征的作用可理解为在已缩小索引范围的候选视频中确定出符合索引要求的目标视频。

进一步举例说明，可选的例如图4所示，基于索引特征402，从索引视频库404中获取至少一个候选视频（如视频1、视频2），其中，索引视频库404中包括多个待索引的视频；基于图像特征406，从视频1、视频2中获取目标视频408（如视频1），其中，目标视频408对应的图像内容的特征与图像特征406之间的特征相似度达到第一阈值；获取目标视频408所在的目标视频集合410（如视频1、视频n等）。

通过本申请提供的实施例，基于索引特征，从索引视频库中获取至少一个候选视频，其中，索引视频库中包括多个待索引的视频；基于图像特征，从至少一个候选视频中获取目标视频，其中，目标视频对应的图像内容的特征与图像特征之间的特征相似度达到第一阈值，目标视频集合包括目标视频；获取目标视频所在的目标视频集合，实现了兼顾目标视频集合的索引效率以及准确性的效果。

S1，对图像特征以及索引特征进行拼接处理，得到目标索引特征；

S2，基于目标索引特征从索引视频库中获取目标视频，其中，索引视频库中包括多个待索引的视频，目标视频对应的目标特征与目标索引特征之间的特征相似度达到第二阈值；

S3，获取目标视频所在的目标视频集合。

可选的，在本实施例中，对关键帧提取特征向量表示，向量由 QUOTE

维人脸特征向量与 QUOTE

维图像卷积特征向量拼接而成，共 QUOTE

+ QUOTE

维，全集视频在入库时通过相同的特征提取方式将特征向量存入向量（视频）索引库中。

需要说明的是，为提高目标视频集合的索引准确性，采用对图像特征以及索引特征进行拼接处理的方式，利用更细化的目标索引特征对目标视频集合进行索引。

进一步举例说明，可选的例如图5所示，对图像特征504以及索引特征502进行拼接处理，得到目标索引特征506；基于目标索引特征506从索引视频库508中获取目标视频510，其中，索引视频库508中包括多个待索引的视频，目标视频510对应的目标特征与目标索引特征506之间的特征相似度达到第二阈值；获取目标视频510所在的目标视频集合512。

通过本申请提供的实施例，对图像特征以及索引特征进行拼接处理，得到目标索引特征；基于目标索引特征从索引视频库中获取目标视频，其中，索引视频库中包括多个待索引的视频，目标视频对应的目标特征与目标索引特征之间的特征相似度达到第二阈值；获取目标视频所在的目标视频集合，实现了提高目标视频集合的索引效率的效果。

作为一种可选的方案，从目标视频片段中获取包含索引信息的视频关键帧，包括：

S1，获取目标视频片段对应的N个视频帧，其中，N为自然数；

S2，基于N个视频帧中相邻的每个视频帧之间的差异信息，对N个视频帧进行分割处理，得到M个视频子片段，其中，M为自然数；

S3，对M个视频子片段中的每个视频子片段进行索引信息识别，获取P个视频关键帧，其中，P为小于等于M的自然数。

可选地，在本实施例中，视频播放过程中，一般都是由多个镜头片段剪辑而成，视频内容在镜头切换的时候，视频帧之间会出现明显的内容差别，因此可以但不限于采用帧间二次差分法得到相邻帧之间的差异，通过判断是否大于一定阈值决定是否进行镜头分割。此外，也可以但不限于按等距离时间进行分割片段。

作为一种可选的方案，对M个视频子片段中的每个视频子片段进行索引信息识别，获取P个视频关键帧，包括：

S1，对M个视频子片段中的每个视频子片段进行索引信息识别，确定每个视频子片段中包含索引信息的视频帧；

S2，在一个视频子片段包含至少两个包含索引信息的视频帧的情况下，按照包含的索引信息的优先级、从至少两个包含索引信息的视频帧中确定视频关键帧。

可选地，在本实施例中，对切分后的各个镜头片段进行索引信息识别，按优先级的顺序确定各个片段内的唯一关键帧，例如索引信息越清晰则表示优先级越高，其中，清晰帧的判断可通过计算图像的锐度（sharpness）来衡量，锐度可通过Laplacian算子对图像进行快速卷积计算，统计整个图像的标准差代表锐度。

此外，在本实施例中，按优先级的顺序确定各个片段内的唯一关键帧，还可以但不限于利用索引信息的信息准确度进行判断，例如图6所示，假设索引信息为人脸信息，则可以但不限于按优先级存在单个人脸视频帧602>多个人脸视频帧604>无人脸视频帧606的清晰帧顺序确定各个片段内的唯一关键帧。

作为一种可选的方案，在提取视频关键帧的图像特征和索引特征之后，包括：

S1，获取目标视频片段在当前时刻播放的第一视频帧；

S2，提取第一视频帧的局部图像特征，其中，局部图像特征为用于表示图像上关键点的局部描述信息的特征；

S3，基于第一视频帧的局部图像特征，从目标视频片段匹配的目标视频中确定出第二视频帧，其中，第二视频帧的局部图像特征与第一视频帧的局部图像特征之间的特征相似度达到第三阈值，目标视频集合包括目标视频；

S4，获取第二视频帧在目标视频上的播放进度。

可选地，在本实施例中，召回出的向量可进一步通过特征算子过滤和排序，避免相似但非对应全集视频内容帧出现。传统的特殊算子一般有SIFT算子、ORB算子等，SIFT特征提取是在不同的尺度空间上查找关键点(特征点)，并计算出关键点的方向。SIFT所查找到的关键点是一些十分突出、不会因光照、仿射变换和噪音等因素而变化的点，如角点、边缘点、暗区的亮点及亮区的暗点等，对于视频内容帧间变化具有较好的鲁棒，因此可以从图片帧中提取SIFT特征，对相似图片的SIFT特征进行匹配并按照一定条件删选就能得到两幅图片的匹配点个数，匹配点个数越多，对应的相似度比对越高，相似度小于一定阈值的帧则直接过滤，相似度达到一定阈值则去最大的确定为全集内容帧，如图7所示，获取相似度比对结果702、相似度比对结果704、相似度比对结果706，其中，相似度比对结果702对应的相似度最高，进而将相似度比对结果702对应的视频帧集合作为确定的全集内容帧。

需要说明的是，获取目标视频片段在当前时刻播放的第一视频帧；提取第一视频帧的局部图像特征，其中，局部图像特征为用于表示图像上关键点的局部描述信息的特征；基于第一视频帧的局部图像特征，从目标视频片段匹配的目标视频中确定出第二视频帧，其中，第二视频帧的局部图像特征与第一视频帧的局部图像特征之间的特征相似度达到第三阈值，目标视频集合包括目标视频；获取第二视频帧在目标视频上的播放进度。

进一步举例说明，可选的例如图3中的（a）所示，获取目标视频片段302在当前时刻（如“00:00:30”）播放的第一视频帧；提取第一视频帧的局部图像特征，其中，局部图像特征为用于表示图像上关键点的局部描述信息的特征；基于第一视频帧的局部图像特征，从目标视频片段302匹配的目标视频304中确定出第二视频帧，其中，第二视频帧304的局部图像特征与第一视频帧的局部图像特征之间的特征相似度达到第三阈值，目标视频集合306包括目标视频304；获取第二视频帧在目标视频304上的播放进度（如“00:30:10”）。

通过本申请提供的实施例，获取目标视频片段在当前时刻播放的第一视频帧；提取第一视频帧的局部图像特征，其中，局部图像特征为用于表示图像上关键点的局部描述信息的特征；基于第一视频帧的局部图像特征，从目标视频片段匹配的目标视频中确定出第二视频帧，其中，第二视频帧的局部图像特征与第一视频帧的局部图像特征之间的特征相似度达到第三阈值，目标视频集合包括目标视频；获取第二视频帧在目标视频上的播放进度，达到了提高待播放视频的定位效率的目的，实现了提高视频播放效率的效果。

作为一种可选的方案，在获取第二视频帧在目标视频上的播放进度之后，包括：

响应于对目标视频片段执行的视频播放指令，按照播放进度播放目标视频，并显示目标视频集合中的每个视频对应的选集播放按钮，其中，选集播放按钮用于触发播放目标视频集合中的任一视频的播放指令。

需要说明的是，响应于对目标视频片段执行的视频播放指令，按照播放进度播放目标视频，并显示目标视频集合中的每个视频对应的选集播放按钮。

进一步举例说明，可选的基于图3所示场景，继续例如图8所示，获取图8中的（a）所示的虚拟按钮“跳转全集”以触发视频播放指令，进一步响应于对目标视频片段302执行的视频播放指令，按照播放进度播放目标视频304，并显示目标视频集合306中的每个视频对应的选集播放按钮，如图8中的（b）所示；再假设获取到选集播放按钮“5”上触发的播放操作，则如图8中的（c）所示，播放视频802（如电视剧A的第5集内容）。

通过本申请提供的实施例，响应于对目标视频片段执行的视频播放指令，按照播放进度播放目标视频，并显示目标视频集合中的每个视频对应的选集播放按钮，实现了提高视频的播放全面度的效果。

作为一种可选的方案，索引特征包括人脸信息特征，提取视频关键帧的图像特征和索引特征，包括：

S1，提取每个视频关键帧中包含的初始人脸信息；

S2，在初始人脸信息为单一人脸信息的情况下，将初始人脸信息转换为第一连续向量，其中，索引特征包括第一连续向量；

S3，在初始人脸信息为多数人脸信息的情况下，对初始人脸信息中的每一人脸信息进行转换，得到多个第二连续向量；对多个第二连续向量进行加和求平均处理，得到第三连续向量，其中，索引特征包括第三连续向量。

可选地，在本实施例中，视频帧中单个人脸信息直接表示为 QUOTE

，多个人脸信息则将所有向量加和求平均得到新的 QUOTE

维向量=QUOTE

，无人脸信息则 QUOTE

维向量每一位都为0。

需要说明的是，当前人脸在13000张人脸的LFW数据集上轻松达到99.9%的比对准确率，故可以作为特征向量高准确率的召回存在对应演员的视频全集视频帧，人脸信息特征只表示图像中存在的演员信息，可以将检索范围从全局缩减为演员所参演的视频中；

可选地，在本实施例中，索引特征的提取可以但不限于采用人脸提取模型，如采取基于神经网络的相关模型，本文对演员人脸数据集基于retinaface+arcface resnet101模型进行训练，得到高精度 QUOTE

维人脸embedding向量 QUOTE

。

作为一种可选的方案，提取视频关键帧的图像特征和索引特征，包括：

S1，提取视频关键帧的图像底层特征，其中，图像底层特征为用于表示视频关键帧的图像底层内容的特征；

S2，提取视频关键帧的图像中层特征，其中，图像中层特征为用于表示视频关键帧中具有抽象能力的图像内容的特征；

S3，提取视频关键帧的图像语义特征，其中，图像语义特征为用于表示视频关键帧中具有抽象能力的图像语义内容的特征；

S4，对图像底层特征、图像中层特征以及图像语义特征进行聚合处理，得到图像特征。

需要说明的是，底层特征例如边、角等细节，中间感受野的卷积层表示一定抽象能力的中层特征，最后为具有较强抽象能力的语义特征。通过不同层级的特征，并将不同层级的特征进行聚合，使得特征向量保留了更多输入图像的特征和目标的空间信息，对图像的理解能力更加丰富。

通过本申请提供的实施例，提取视频关键帧的图像底层特征，其中，图像底层特征为用于表示视频关键帧的图像底层内容的特征；提取视频关键帧的图像中层特征，其中，图像中层特征为用于表示视频关键帧中具有抽象能力的图像内容的特征；提取视频关键帧的图像语义特征，其中，图像语义特征为用于表示视频关键帧中具有抽象能力的图像语义内容的特征；对图像底层特征、图像中层特征以及图像语义特征进行聚合处理，得到图像特征，实现了提高视频集合的索引准确性的效果。

作为一种可选的方案，提取视频关键帧的图像特征和索引特征，还包括：

S1，将视频关键帧输入图像分类模型，其中，图像分类模型为利用多个样本图像数据进行训练后得到的用于分类图像的神经网络模型，多个样本图像数据中至少包括一组正样本图像数据以及一组负样本图像数据，正样本图像数据为同一视频片段的多个视频帧所对应的图像数据，负样本图像数据为不同视频片段的多个视频帧所对应的图像数据；

S2，利用图像分类模型的第一网络层提取视频关键帧的图像底层特征；

S3，利用图像分类模型的第二网络层提取视频关键帧的图像中层特征；

S4，利用图像分类模型的第三网络层提取视频关键帧的图像语义特征；

S5，利用图像分类模型的第四网络层对图像底层特征、图像中层特征以及图像语义特征进行聚合处理，得到图像特征。

可选地，在本实施例中，通过深度卷积神经网络提取的图像向量特征，表示具体某一视频帧对应的图像风格、细节等内容。通过计算图像特征向量的相似度距离（余弦距离或L2距离），可衡量图像之间的相似性，进而确定对应的视频相似帧。

可选地，在本实施例中，通过可视化预训练的图像分类模型不同网络层的特征发现在CNN网络的前半部分为图像的底层特征例如边、角等细节，中间感受野的卷积层表示一定抽象能力的中层特征，网络的最后为具有较强抽象能力的语义特征。因此可将不同层级的特征进行聚合，使得特征向量保留了更多输入图像的特征和目标的空间信息，对图像的理解能力更加丰富。

可选地，在本实施例中，模型可以但不限于包括ImageNet、Places365、Open-Images、ML-Images数据集上的各种模型，以及多标签分类数据集ML-Images以及业内目前同类深度学习模型中精度最高的深度残差网络ResNet 101模型等。此外由于剧集相关视频画面与大规模图像分类数据集ML-Images图片差异较大，模型可以但不限于采用分类器模型，分类模型损失函数与相似度距离度量没有关系。因此为进一步优化模型，对卷积网络模型进行再次训练，使得视频帧同一片段内视频帧的向量距离近，不同片段视频帧向量距离远。

可选地，在本实施例中，训练时每个片段K帧，对于任一帧，同一片段距离最大的帧做正例（positive），不同片段距离最小的帧做负例（negtive），通过构建三元组并优化三元组损失（Triplet Loss）以训练图像分类模型，使得通过该模型提取的特征向量召回率更高，结果相似性更强。进一步举例说明，可选的例如图9所示，使用相同视频片段902的视频帧902-1以及视频帧902-2作为样本输入至待训练的卷积神经网络904，以输出各自对应的特征图904-1以及特征图904-2，再将特征图904-1以及特征图904-2分别输入FC全连接层906-1以及FC全连接层906-2，进而根据得到的对比损失908以完善卷积神经网络904。

此外，在本实施例中，对训练好的卷积神经网络模型提取不同层级的特征进行聚合，目前效果较好的聚合方法有Crow方法和R-MAC方法等，Crow的主要思想是在空间和维度上对特征图进行加权求和，而RMAC的主要思想是在多个大小下找到重要特征并进行聚合。例如图10所示，可采用R-MAC的聚合方法，使用CNN卷积层1004以及局部特征聚合1006对视频帧1002的图片内容进行特征提取以及聚合，可得到最终的 QUOTE

维图片特征向量1008，例如设置为512维向量。

可选地，作为一种可选的实施方式，如图11所示，视频索引方法包括：

S1102，显示视频播放界面以及跳转控件；

S1104，在视频播放界面内播放有目标视频片段、且获取到对跳转控件触发的第一跳转操作的情况下，显示目标视频片段匹配的目标视频；或，在视频播放界面内播放有目标视频片段、且获取到对跳转控件触发的第二跳转操作的情况下，显示目标视频片段匹配的目标视频集合，其中，目标视频集合包括目标视频。

可选的，在本实施例中，上述视频索引方法可以但不限于应用在待索引视频的播放场景中，具体的如索引当前播放的短视频（目标视频片段）所关联的视频（目标视频）或视频集合（目标视频集合）；

进一步举例说明，假设当前播放在视频播放界面中的为即将上映的电影介绍的短视频，且在该短视频中分别简述介绍了5个即将上映的电影，进而利用对跳转控件触发对应的跳转操作的方式，可索引到与该短视频关联的电影（5个即将上映的电影）或其他版本的电影短视频（其他版本对该5个即将上映的电影的介绍），并显示在视频播放界面，或显示在视频播放界面外的其他界面。

进一步举例说明，假设当前播放在视频播放界面中的为解说电影A的短视频，进而利用对跳转控件触发对应的跳转操作的方式，可索引到与该短视频关联的电影A或其他版本的电影短视频（其他版本对该电影A的介绍），并显示在视频播放界面，或显示在视频播放界面外的其他界面。

进一步举例说明，假设当前播放在视频播放界面中的为解说电视剧A第一集的短视频，进而利用对跳转控件触发对应的跳转操作的方式，可索引到与该短视频关联的电视剧A第一集的完整视频、或电视剧A的全集视频资源或其他版本的电视剧短视频（其他版本对该电视剧A第一集或电视剧A的介绍），并显示在视频播放界面，或显示在视频播放界面外的其他界面。

可选的，在本实施例中，可以但不限于先显示目标视频片段匹配的目标视频集合，再在获取到目标视频集合中的某一视频上触发的播放操作的情况下，再播放对应的视频，如获取到目标视频上触发的播放操作，进而显示目标视频。

可选的，在本实施例中，视频播放界面可以但不限于理解为某视频客户端所自带的播放界面，也可以但不限于理解用户本地自带的播放界面。再者，在该视频播放界面中，可以但不限于带有以下至少之一的功能：视频管理功能（快进、暂停、切换、声音调控等）、界面管理功能（关闭界面、最小化界面等）、其他功能（播放当前播放的视频片段所对应的完整视频等），且每一功能可以但不限于通过一个或多个按钮进行触发。

可选的，在本实施例中，跳转控件可以触发目标视频片段所对应的完整视频（目标视频）的播放，跳转控件还可以触发目标视频片段所对应的完整视频（目标视频）所在的视频合集（目标视频集合）的显示，而在该视频合集（目标视频集合）的显示过程中，还可进一步触发该合集中其他视频的播放功能。但跳转控件还可以但不限于理解为多个控件，如第一跳转控件用于触发完整视频（目标视频）的播放（第一跳转操作），第二跳转控件用于触发目标视频片段所对应的完整视频（目标视频）所在的视频合集（目标视频集合）的显示（第二跳转操作），第三跳转控件用于触发该合集中其他视频的播放功能（第三跳转操作），也可同一跳转控件执行三类不同的跳转操作（第一跳转操作、第二跳转操作、第三跳转操作），在此不做多余限定。

此外，在本实施例中跳转控件还可进行更多维度的跳转触发，如跳转到与目标视频片段关联的其他视频片段，例如目标视频片段为对电影A的第一解说视频，进而可跳转到其他对电影A的第二解说视频（第二解说视频不同于第一解说视频），或跳转到所有对电影A的解说的视频集合，或调整到对电影A类似的电影B的解说视频等，进一步由用户进行选择播放哪一解说视频。

或，可选的跳转控件还可在触发跳转操作前，为用户提供更多元化的可选项，例如用户可在跳转信息界面上填写或挑选要跳转的条件，如仍以目标视频片段为电影A的解说视频为例说明，那么用户可在跳转前选择是跳转到电影A的解说视频、或是跳转到电影A的完整视频、又或是跳转到电影A中某一演员所参演的其他影视作品的视频等等。

进一步举例说明，可选的例如图3所示，显示视频播放界面（播放目标视频片段302的界面）以及跳转控件（跳转全集），如图3中的（a）所示；进一步如图3中的（b）所示，在视频播放界面内播放有目标视频片段302、且获取到对跳转控件触发的跳转操作的情况下，显示视频集合界面（显示有目标视频集合306中的各个视频所对应的视频标识的界面）；再者，假设在获取到对一个或者多个视频标识中的任一视频标识触发的播放操作的情况下，则在视频播放界面内播放任一视频标识对应的视频。

需要说明的是，显示视频播放界面以及跳转控件；在视频播放界面内播放有目标视频片段、且获取到对跳转控件触发的第一跳转操作的情况下，显示目标视频片段匹配的目标视频；或，在视频播放界面内播放有目标视频片段、且获取到对跳转控件触发的第二跳转操作的情况下，显示目标视频片段匹配的目标视频集合，其中，目标视频集合包括目标视频。其中，关于在显示目标视频片段匹配的目标视频之前，如何索引到目标视频，或在显示目标视频片段匹配的目标视频集合之前，如何索引到目标视频集合，可参考上述视频集合的索引方法中所示示例，例如：

在视频播放界面内播放有目标视频片段、且获取到对跳转控件触发的第一跳转操作的情况下，从目标视频片段中获取包含索引信息的视频关键帧，其中，所述索引信息为对视频进行索引时作为索引依据的参考信息；提取所述视频关键帧的图像特征和索引特征，其中，所述图像特征为用于表示所述视频关键帧的图像内容的特征，所述索引特征为用于表示所述索引信息在所述视频关键帧中的特征；基于所述图像特征以及所述索引特征，获取所述目标视频片段匹配的目标视频或目标视频集合，其中，所述目标视频集合中包括一个或者多个视频，一个或者多个视频包括目标视频。

在一些实施例中，目标视频片段可以是特定视频的部分视频片段。当在视频播放界面内播放该特定视频时，获取到对跳转控件触发的第一跳转操作/第二跳转操作，可以将在获取到对跳转控件触发的第一跳转操作/第二跳转操作时正在播放特定视频的视频片段作为目标视频片段。可选地，可以从触发第一跳转操作/第二跳转操作的播放时间点开始往前选取第一预定时间段的视频片段作为目标视频片段。可选地，可以从触发第一跳转操作/第二跳转操作的播放时间点开始往后选取第二预定时间段的视频片段作为目标视频片段。可选地，可以从触发第一跳转操作/第二跳转操作的播放时间点为中心往前以及往后选取第三预定时间段的视频片段作为目标视频片段。

进一步举例说明，当在视频播放界面内正播放目标短视频，且当前显示的画面为该目标短视频在播放时间为第15秒的视频画面时，可以但不限于将该第15秒的视频画面作为目标视频片段，也可以但不限于将包含该第15秒的视频画面的多帧视频画面作为目标视频片段（从触发第一跳转操作/第二跳转操作的播放时间点为中心往前以及往后选取第三预定时间段的视频片段作为目标视频片段）。此外，还可以但不限于采用目标短视频的播放时间在第15秒之前的视频片段（如播放时间为10-15秒的播放画面）作为目标视频片段；或，还可以但不限于采用目标短视频的播放时间在第15秒之后的视频片段（如播放时间为15-20秒的播放画面）作为目标视频片段。

此外，在本实施例中对于如何具体的实现目标视频或目标视频集合的索引，或索引过程中所能涉及到的相关技术，可参考上述视频集合的索引方法中所示示例，在此不做阐述。

通过本申请提供的实施例，显示视频播放界面以及跳转控件；在视频播放界面内播放有目标视频片段、且获取到对跳转控件触发的第一跳转操作的情况下，显示目标视频片段匹配的目标视频；或，在视频播放界面内播放有目标视频片段、且获取到对跳转控件触发的第二跳转操作的情况下，显示目标视频片段匹配的目标视频集合，其中，目标视频集合包括目标视频，利用多维度的视频索引方式，达到了为用户提供更多元化的视频播放方式的目的，实现了提高用户体验的效果。

作为一种可选的方案，为方便理解，以剧搜剧的具体实施例为例说明，本申请采用基于神经网络下的以剧搜剧的方式，通过人脸特征和视频帧卷积特征，可以精确的返回短视频所对应的长视频内容，方便用户随时从短视频的花絮中跳转到全集视频中进一步观看，优化了用户的观剧体验，提升了视频平台的观看时长；

可选的，在本实施例中，将输出结果与实际结果之间的误差在神经网络中进行反向传播，获得神经网络中每个网络参数的误差梯度，从而根据误差梯度对各个网络参数进行更新优化。通过迭代训练，不断优化神经网络的特征提取以及特征相似度判断的能力。

图12示意性地示出了本申请一些实施例中基于对比学习优化特征提取的原理示意图。如图12中所示，各个样本片段，如Video 1、Video 2……Video N均包括有对应图像样本和索引样本。其中，图像样本通过神经网络R（2+1）D进行特征提取后得到图像特征 QUOTE

，索引样本通过神经网络ResNet18进行特征提取后得到索引特征 QUOTE

。

本申请实施例将对应于同一样本片段的模态特征作为正样本，并将对应于不同样本片段的模态特征作为负样本。例如，给定一对样本片段 QUOTE

，则对于图像样本v，其正样本定义为与之对应的索引样本a。同样的，对于索引样本a，其正样本为与之对应的图像样本v。正样本定义为对应于同一样本片段的不同模态的输入数据，相应的负样本可以定义为来自不同样本片段的输入数据。例如，给定一对样本片段 QUOTE

和另一对样本片段 QUOTE

，则对于索引样本a或图像样本v来说， QUOTE

和 QUOTE

就是他们的负样本，反之亦然。

通过对比损失函数对正样本以及负样本的特征相似度进行误差计算以得到模态特征的对比误差信息。

需要说明的是，系统将待检索视频划分为N个片段(可按等距离时间或者镜头分割等方式)，每个片段优先采集包含人脸信息的最多1个关键帧，整个视频可得到最多N帧。对视频帧提取局部卷积特征和人脸特征并进行拼接得到视频帧对应的特征向量，利用向量在全集视频对应的帧向量索引中进行相似度召回最相似的视频帧，并进一步得到所对应的视频ID。最后通过传统的特征算子过滤非相同全集视频内容的视频ID，最终得到全集视频链接和短视频在全集视频中的时间点。

进一步举例说明，可选地例如图13所示，具体步骤如下：步骤S1302，提取关键视频帧；步骤S1304，提取局部卷积聚合特征；步骤S1306，提取人脸特征向量；步骤S1308，拼接特征生成视频特征向量；步骤S1310，利用视频特征向量在视频索引库进行索引；步骤S1312，召回相似视频帧；步骤S1314，特征算子过滤；步骤S1316，提取全集视频帧时间点；步骤S1318，生成跳转链接。

通过本申请提供的实施例，采用视频搜视频的方式，对视频进行相同的关键帧提取，避免了因为视频关键帧截帧的不同导致的误差。此外，由于当前人脸识别技术对于人脸识别准确度较高，因此在基于卷积特征的基础上，采用视频中的演员人脸信息作为特征，有效筛选存在对应演员的视频帧。而卷积特征通过多标签数据集和预训练模型拟合视频内容，可提高卷积特征的召回准确度。最后利用传统的SIFT算子进一步对比视频内容，进一步精确确认视频相同帧所在的位置。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述视频集合的索引方法的视频集合的索引装置。如图14所示，该装置包括：

第一获取单元1402，用于从目标视频片段中获取包含索引信息的视频关键帧，其中，索引信息为对视频进行索引时作为索引依据的参考信息；

第一提取单元1404，用于提取视频关键帧的图像特征和索引特征，其中，图像特征为用于表示视频关键帧的图像内容的特征，索引特征为用于表示索引信息在视频关键帧中的特征；

第二获取单元1406，用于基于图像特征以及索引特征，获取目标视频片段匹配的目标视频集合，其中，目标视频集合中包括一个或者多个视频。

可选地，在本实施例中，上述视频集合的索引装置可以但不限于应用在短视频的全集内容的索引场景，例如短视频为电视剧A的第三集的部分片段，进而在目标客户端播放该短视频的过程中，可在目标客户端上提供全集内容的索引功能，且在该索引功能触发时，获取该短视频（目标视频片段）中包含索引信息的视频关键帧，再利用对该视频关键帧的图像特征和索引特征进行提取的方式，为全集内容的索引提供索引依据；基于图像特征以及索引特征，从视频索引库中进行索引，匹配出符合索引条件的一个或多个视频（如电视剧A的第三集内容），并进一步获取该一个或多个视频所在的目标视频集合（电视剧A的全集内容）。基于此，用户可在观看该短视频时，可利用目标视频集合对短视频的完整内容进行观看。

可选地，在本实施例中，图像特征可以但不限用于表示视频关键帧的原始图像的图像信息，例如图像颜色特征（一种全局特征，描述了图像或图像区域所对应的景物的表面性质，一般是基于像素点的特征）、图像纹理特征（一种全局特征，描述了图像或图像区域所对应的景物的表面性质，且由于纹理只是一种物体表面的特征，并不能完全反映出物体的本质属性，所以仅仅利用纹理特征往往是无法获得高层次图像内容，且需要在包含多个像素点的区域中进行统计计算）、图像形状特征（各种机遇形状特征的检索装置都可以比较有效地利用图像中感兴趣的目标来进行检索）、图像空间关系特征（所谓空间关系，是指图像中分割出的多个目标之间的相互的空间位置或相对方向关系，这些关系也可分为连接/邻接关系、交叠/重叠关系和包含/包容关系等）等。

此外，还可以但不限于采用开源的大规模检索工具FAISS下的矢量量化装置，其中矢量量化的代表算法PQ的核心思想是聚类，假设对N个训练样本，PQ将整个向量划分为M段，每一段子向量通过K-Means聚类量化成一个指定位数的数，通过这种方式样本的高维向量得以以很短的编码表示。通过检索召回出相似的特征向量后，得到其对应时间点和来源视频ID。

具体实施例可以参考上述视频集合的索引方法中所示示例，本示例中在此不再赘述。

作为一种可选的方案，第二获取单元1406，包括：

第一获取模块，用于基于索引特征，从索引视频库中获取至少一个候选视频，其中，索引视频库中包括多个待索引的视频；

第二获取模块，用于基于图像特征，从至少一个候选视频中获取目标视频，其中，目标视频对应的图像内容的特征与图像特征之间的特征相似度达到第一阈值，目标视频集合包括目标视频；

第三获取模块，用于获取目标视频所在的目标视频集合。

作为一种可选的方案，第二获取单元1406，包括：

第一处理模块，用于对图像特征以及索引特征进行拼接处理，得到目标索引特征；

第四获取模块，用于基于目标索引特征从索引视频库中获取目标视频，其中，索引视频库中包括多个待索引的视频，目标视频对应的目标特征与目标索引特征之间的特征相似度达到第二阈值；

第五获取模块，用于获取目标视频所在的目标视频集合。

作为一种可选的方案，第一获取单元1402，包括：

第六获取模块，用于获取目标视频片段对应的N个视频帧，其中，N为自然数；

第二处理模块，用于基于N个视频帧中相邻的每个视频帧之间的差异信息，对N个视频帧进行分割处理，得到M个视频子片段，其中，M为自然数；

识别模块，用于对M个视频子片段中的每个视频子片段进行索引信息识别，获取P个视频关键帧，其中，P为小于等于M的自然数。

作为一种可选的方案，识别模块，包括：

识别子模块，用于对M个视频子片段中的每个视频子片段进行索引信息识别，确定每个视频子片段中包含索引信息的视频帧；

确定子模块，用于在一个视频子片段包含至少两个包含索引信息的视频帧的情况下，按照包含的索引信息的优先级、从至少两个包含索引信息的视频帧中确定视频关键帧。

作为一种可选的方案，包括：

第三获取单元，用于在提取视频关键帧的图像特征和索引特征之后，获取目标视频片段在当前时刻播放的第一视频帧；

第二提取单元，用于在提取视频关键帧的图像特征和索引特征之后，提取第一视频帧的局部图像特征，其中，局部图像特征为用于表示图像上关键点的局部描述信息的特征；

确定单元，用于在提取视频关键帧的图像特征和索引特征之后，基于第一视频帧的局部图像特征，从目标视频片段匹配的目标视频中确定出第二视频帧，其中，第二视频帧的局部图像特征与第一视频帧的局部图像特征之间的特征相似度达到第三阈值，目标视频集合包括目标视频；

第四获取单元，用于在提取视频关键帧的图像特征和索引特征之后，获取第二视频帧在目标视频上的播放进度。

作为一种可选的方案，包括：

第一显示单元，用于在获取第二视频帧在目标视频上的播放进度之后，响应于对目标视频片段执行的视频播放指令，按照播放进度播放目标视频，并显示目标视频集合中的每个视频对应的选集播放按钮，其中，选集播放按钮用于触发播放目标视频集合中的任一视频的播放指令。

作为一种可选的方案，索引特征包括人脸信息特征，第一提取单元1404，包括：

第一提取模块，用于提取每个视频关键帧中包含的初始人脸信息；

第一转换模块，用于在初始人脸信息为单一人脸信息的情况下，将初始人脸信息转换为第一连续向量，其中，索引特征包括第一连续向量；

第二转换模块，用于在初始人脸信息为多数人脸信息的情况下，对初始人脸信息中的每一人脸信息进行转换，得到多个第二连续向量；对多个第二连续向量进行加和求平均处理，得到第三连续向量，其中，索引特征包括第三连续向量。

作为一种可选的方案，第一提取单元1404，包括：

第二提取模块，用于提取视频关键帧的图像底层特征，其中，图像底层特征为用于表示视频关键帧的图像底层内容的特征；

第三提取模块，用于提取视频关键帧的图像中层特征，其中，图像中层特征为用于表示视频关键帧中具有抽象能力的图像内容的特征；

第四提取模块，用于提取视频关键帧的图像语义特征，其中，图像语义特征为用于表示视频关键帧中具有抽象能力的图像语义内容的特征；

第三处理模块，用于对图像底层特征、图像中层特征以及图像语义特征进行聚合处理，得到图像特征。

作为一种可选的方案，第一提取单元1404，还包括：

输入模块，用于将视频关键帧输入图像分类模型，其中，图像分类模型为利用多个样本图像数据进行训练后得到的用于分类图像的神经网络模型，多个样本图像数据中至少包括一组正样本图像数据以及一组负样本图像数据，正样本图像数据为同一视频片段的多个视频帧所对应的图像数据，负样本图像数据为不同视频片段的多个视频帧所对应的图像数据；

第五提取模块，用于利用图像分类模型的第一网络层提取视频关键帧的图像底层特征；

第六提取模块，用于利用图像分类模型的第二网络层提取视频关键帧的图像中层特征；

第七提取模块，用于利用图像分类模型的第三网络层提取视频关键帧的图像语义特征；

第八提取模块，用于利用图像分类模型的第四网络层对图像底层特征、图像中层特征以及图像语义特征进行聚合处理，得到图像特征。

根据本发明实施例的另一个方面，还提供了一种用于实施上述视频索引方法的视频索引装置。如图15所示，该装置包括：

第二显示单元1502，用于显示视频播放界面以及跳转控件；

第三显示单元1504，用于在视频播放界面内播放有目标视频片段、且获取到对跳转控件触发的第一跳转操作的情况下，显示目标视频片段匹配的目标视频；或，在视频播放界面内播放有目标视频片段、且获取到对跳转控件触发的第二跳转操作的情况下，显示目标视频片段匹配的目标视频集合，其中，目标视频集合包括目标视频。

需要说明的是，显示视频播放界面以及跳转控件；在视频播放界面内播放有目标视频片段、且获取到对跳转控件触发的第一跳转操作的情况下，显示目标视频片段匹配的目标视频；或，在视频播放界面内播放有目标视频片段、且获取到对跳转控件触发的第二跳转操作的情况下，显示目标视频片段匹配的目标视频集合，其中，目标视频集合包括目标视频。其中，关于在显示目标视频片段匹配的目标视频之前，如何索引到目标视频，或在显示目标视频片段匹配的目标视频集合之前，如何索引到目标视频集合，可参考上述视频集合的索引方法中所示示例，在此不再赘述。

通过本申请提供的实施例，显示视频播放界面以及跳转控件；在视频播放界面内播放有目标视频片段、且获取到对跳转控件触发的第一跳转操作的情况下，显示目标视频片段匹配的目标视频；或，在视频播放界面内播放有目标视频片段、且获取到对跳转控件触发的第二跳转操作的情况下，显示目标视频片段匹配的目标视频集合，其中，目标视频集合包括目标视频，达到了为用户提供更多元化的视频播放模式的目的，实现了提高用户体验的效果。

根据本发明实施例的又一个方面，还提供了一种用于实施上述视频集合的索引方法的电子设备，如图16所示，该电子设备包括存储器1602和处理器1604，该存储器1602中存储有计算机程序，该处理器1604被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，从目标视频片段中获取包含索引信息的视频关键帧，其中，索引信息为对视频进行索引时作为索引依据的参考信息；

S2，提取视频关键帧的图像特征和索引特征，其中，图像特征为用于表示视频关键帧的图像内容的特征，索引特征为用于表示索引信息在视频关键帧中的特征；

S3，基于图像特征以及索引特征，获取目标视频片段匹配的目标视频集合，其中，目标视频集合中包括一个或者多个视频。或，

S1，显示视频播放界面以及跳转控件；

S2，在视频播放界面内播放有目标视频片段、且获取到对跳转控件触发的第一跳转操作的情况下，显示目标视频片段匹配的目标视频；或，在视频播放界面内播放有目标视频片段、且获取到对跳转控件触发的第二跳转操作的情况下，显示目标视频片段匹配的目标视频集合，其中，目标视频集合包括目标视频。

可选地，本领域普通技术人员可以理解，图16所示的结构仅为示意，电子设备也可以是智能手机（如Android手机、iOS手机等）、平板电脑、掌上电脑以及移动互联网设备（Mobile Internet Devices，MID）、PAD等终端设备。图16其并不对上述电子设备的结构造成限定。例如，电子设备还可包括比图16中所示更多或者更少的组件（如网络接口等），或者具有与图16所示不同的配置。

其中，存储器1602可用于存储软件程序以及模块，如本发明实施例中的视频集合的索引方法和装置对应的程序指令/模块，处理器1604通过运行存储在存储器1602内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视频集合的索引方法。存储器1602可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1602可进一步包括相对于处理器1604远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1602具体可以但不限于用于存储索引信息、视频关键帧以及目标视频集合等信息。作为一种示例，如图16所示，上述存储器1602中可以但不限于包括上述视频集合的索引装置中的第一获取单元1402、第一提取单元1404及第二获取单元1406，或未显示在图16中的第二显示单元1502以及第三显示单元1504。此外，还可以包括但不限于上述视频集合的索引装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1606用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1606包括一个网络适配器（Network Interface Controller，NIC），其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1606为射频（Radio Frequency，RF）模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器1608，用于显示上述索引信息、视频关键帧以及目标视频集合等信息；和连接总线1610，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点（Peer To Peer，简称P2P）网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序/指令，该计算机程序/指令包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理器执行时，执行本申请实施例提供的各种功能。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，电子设备的计算机系统仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

计算机系统包括中央处理器（Central Processing Unit，CPU），其可以根据存储在只读存储器（Read-Only Memory，ROM）中的程序或者从存储部分加载到随机访问存储器（Random Access Memory，RAM）中的程序而执行各种适当的动作和处理。在随机访问存储器中，还存储有系统操作所需的各种程序和数据。中央处理器、在只读存储器以及随机访问存储器通过总线彼此相连。输入/输出接口（Input /Output接口，即I/O接口）也连接至总线。

以下部件连接至输入/输出接口：包括键盘、鼠标等的输入部分；包括诸如阴极射线管（Cathode Ray Tube，CRT）、液晶显示器（Liquid Crystal Display，LCD）等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至输入/输出接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理器执行时，执行本申请的系统中限定的各种功能。

根据本申请的一个方面，提供了一种计算机可读存储介质，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，显示视频播放界面以及跳转控件；

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（Read-Only Memory，ROM）、随机存取器（Random Access Memory，RAM）、磁盘或光盘等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备（可为个人计算机、服务器或者网络设备等）执行本发明各个实施例方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频集合的索引方法，其特征在于，包括：

从目标视频片段中获取包含索引信息的视频关键帧，其中，所述索引信息为对视频进行索引时作为索引依据的参考信息，所述索引信息至少包括类型信息，所述类型信息用于识别所述目标视频片段的视频帧所属的视频类型；

提取所述视频关键帧的图像特征和索引特征，其中，所述图像特征为用于表示所述视频关键帧的图像内容的特征，所述索引特征为用于表示所述索引信息在所述视频关键帧中的特征；

基于所述图像特征以及所述索引特征，获取所述目标视频片段匹配的目标视频集合，其中，所述目标视频集合中包括一个或者多个视频，所述目标视频集合中包括所述目标视频片段匹配的目标视频；所述目标视频片段为一个完整视频的部分视频片段，所述目标视频为所述目标视频集合中的完整视频，所述索引特征用于缩小所述目标视频集合的索引范围，所述图像特征用于在已缩小索引范围的候选视频中确定出符合索引要求的所述目标视频；

所述基于所述图像特征以及所述索引特征，获取所述目标视频片段匹配的目标视频集合，包括：在向量检索的数据规模小于目标阈值的情况下，将索引检索库分割成多个子空间；将基于所述图像特征以及所述索引特征得到的查询向量和所述多个子空间中的每个子空间内的所有视频帧向量按欧式距离或余弦距离分别进行相似度计算，得到目标视频帧向量，其中，所述目标视频帧向量为所述目标视频的视频帧向量；

所述基于所述图像特征以及所述索引特征，获取所述目标视频片段匹配的目标视频集合，还包括：提取所述视频关键帧在不同层级的图像特征，并将所述不同层级的图像特征进行聚合，得到聚合后的图像特征，其中，所述聚合后的图像特征用于保留所述视频关键帧的图像内容的特征和空间信息；

按照所述目标视频片段的播放进度播放所述目标视频。

2.根据权利要求1所述的方法，其特征在于，所述基于所述图像特征以及所述索引特征，获取所述目标视频片段匹配的目标视频集合，包括：

基于所述索引特征，从索引视频库中获取至少一个候选视频，其中，所述索引视频库中包括多个待索引的视频；

基于所述图像特征，从所述至少一个候选视频中获取所述目标视频，其中，所述目标视频对应的图像内容的特征与所述图像特征之间的特征相似度达到第一阈值，所述目标视频集合包括所述目标视频；

获取所述目标视频所在的所述目标视频集合。

3.根据权利要求1所述的方法，其特征在于，所述基于所述图像特征以及所述索引特征，获取所述目标视频片段匹配的目标视频集合，包括：

对所述图像特征以及所述索引特征进行拼接处理，得到目标索引特征；

基于所述目标索引特征从索引视频库中获取所述目标视频，其中，所述索引视频库中包括多个待索引的视频，所述目标视频对应的目标特征与所述目标索引特征之间的特征相似度达到第二阈值；

获取所述目标视频所在的所述目标视频集合。

4.根据权利要求1所述的方法，其特征在于，所述从目标视频片段中获取包含索引信息的视频关键帧，包括：

获取所述目标视频片段对应的N个视频帧，其中，N为自然数；

基于所述N个视频帧中相邻的每个视频帧之间的差异信息，对所述N个视频帧进行分割处理，得到M个视频子片段，其中，M为自然数；

对所述M个视频子片段中的每个视频子片段进行索引信息识别，获取P个所述视频关键帧，其中，P为小于等于M的自然数。

5.根据权利要求4所述的方法，其特征在于，所述对所述M个视频子片段中的每个视频子片段进行索引信息识别，获取P个所述视频关键帧，包括：

对所述M个视频子片段中的每个视频子片段进行索引信息识别，确定所述每个视频子片段中包含所述索引信息的视频帧；

在一个所述视频子片段包含至少两个包含所述索引信息的视频帧的情况下，按照包含的所述索引信息的优先级、从所述至少两个包含所述索引信息的视频帧中确定所述视频关键帧。

6.根据权利要求1所述的方法，其特征在于，在所述提取所述视频关键帧的图像特征和索引特征之后，包括：

获取所述目标视频片段在当前时刻播放的第一视频帧；

提取所述第一视频帧的局部图像特征，其中，所述局部图像特征为用于表示图像上关键点的局部描述信息的特征；

基于所述第一视频帧的局部图像特征，从所述目标视频片段匹配的所述目标视频中确定出第二视频帧，其中，所述第二视频帧的局部图像特征与所述第一视频帧的局部图像特征之间的特征相似度达到第三阈值；

获取所述第二视频帧在所述目标视频上的播放进度。

7.根据权利要求6所述的方法，其特征在于，在所述获取所述第二视频帧在所述目标视频上的播放进度之后，包括：

响应于对所述目标视频片段执行的视频播放指令，按照所述播放进度播放所述目标视频，并显示所述目标视频集合中的每个视频对应的选集播放按钮，其中，所述选集播放按钮用于触发播放所述目标视频集合中的任一视频的播放指令。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述索引特征包括人脸信息特征，所述提取所述视频关键帧的图像特征和索引特征，包括：

提取每个所述视频关键帧中包含的初始人脸信息；

在所述初始人脸信息为单一人脸信息的情况下，将所述初始人脸信息转换为第一连续向量，其中，所述索引特征包括所述第一连续向量；

在所述初始人脸信息为多数人脸信息的情况下，对所述初始人脸信息中的每一人脸信息进行转换，得到多个第二连续向量；对所述多个第二连续向量进行加和求平均处理，得到第三连续向量，其中，所述索引特征包括所述第三连续向量。

9.根据权利要求1至7中任一项所述的方法，其特征在于，所述提取所述视频关键帧的图像特征和索引特征，包括：

提取所述视频关键帧的图像底层特征，其中，所述图像底层特征为用于表示所述视频关键帧的图像底层内容的特征；

提取所述视频关键帧的图像中层特征，其中，所述图像中层特征为用于表示所述视频关键帧中具有抽象能力的图像内容的特征；

提取所述视频关键帧的图像语义特征，其中，所述图像语义特征为用于表示所述视频关键帧中具有抽象能力的图像语义内容的特征；

对所述图像底层特征、所述图像中层特征以及所述图像语义特征进行聚合处理，得到所述图像特征。

10.根据权利要求9所述的方法，其特征在于，所述提取所述视频关键帧的图像特征和索引特征，还包括：

将所述视频关键帧输入图像分类模型，其中，所述图像分类模型为利用多个样本图像数据进行训练后得到的用于分类图像的神经网络模型，所述多个样本图像数据中至少包括一组正样本图像数据以及一组负样本图像数据，所述正样本图像数据为同一视频片段的多个视频帧所对应的图像数据，所述负样本图像数据为不同视频片段的多个视频帧所对应的图像数据；

利用所述图像分类模型的第一网络层提取所述视频关键帧的所述图像底层特征；

利用所述图像分类模型的第二网络层提取所述视频关键帧的所述图像中层特征；

利用所述图像分类模型的第三网络层提取所述视频关键帧的所述图像语义特征；

利用所述图像分类模型的第四网络层对所述图像底层特征、所述图像中层特征以及所述图像语义特征进行聚合处理，得到所述图像特征。

11.一种视频索引方法，其特征在于，包括：

显示视频播放界面以及跳转控件；

在所述视频播放界面内播放有目标视频片段、且获取到对所述跳转控件触发的第一跳转操作的情况下，从目标视频片段中获取包含索引信息的视频关键帧，其中，所述索引信息为对视频进行索引时作为索引依据的参考信息，所述索引信息至少包括类型信息，所述类型信息用于识别所述目标视频片段的视频帧所属的视频类型；提取所述视频关键帧的图像特征和索引特征，其中，所述图像特征为用于表示所述视频关键帧的图像内容的特征，所述索引特征为用于表示所述索引信息在所述视频关键帧中的特征；基于所述图像特征以及所述索引特征，获取所述目标视频片段匹配的目标视频集合，其中，所述目标视频集合中包括一个或者多个视频，所述目标视频集合中包括所述目标视频片段匹配的目标视频；所述目标视频片段为一个完整视频的部分视频片段，所述目标视频为所述目标视频集合中的完整视频，所述索引特征用于缩小所述目标视频集合的索引范围，所述图像特征用于在已缩小索引范围的候选视频中确定出符合索引要求的所述目标视频；显示所述目标视频片段匹配的目标视频；所述目标视频片段为一个完整视频的部分视频片段，所述目标视频为完整视频；

按照所述目标视频片段的播放进度播放所述目标视频。

12.一种视频集合的索引装置，其特征在于，包括：

第一获取单元，用于从目标视频片段中获取包含索引信息的视频关键帧，其中，所述索引信息为对视频进行索引时作为索引依据的参考信息，所述索引信息至少包括类型信息，所述类型信息用于识别所述目标视频片段的视频帧所属的视频类型；

第一提取单元，用于提取所述视频关键帧的图像特征和索引特征，其中，所述图像特征为用于表示所述视频关键帧的图像内容的特征，所述索引特征为用于表示所述索引信息在所述视频关键帧中的特征；

第二获取单元，用于基于所述图像特征以及所述索引特征，获取所述目标视频片段匹配的目标视频集合，其中，所述目标视频集合中包括一个或者多个视频，所述目标视频集合中包括所述目标视频片段匹配的目标视频；所述目标视频片段为一个完整视频的部分视频片段，所述目标视频为所述目标视频集合中的完整视频，所述索引特征用于缩小所述目标视频集合的索引范围，所述图像特征用于在已缩小索引范围的候选视频中确定出符合索引要求的所述目标视频；

所述第二获取单元，还用于在向量检索的数据规模小于目标阈值的情况下，将索引检索库分割成多个子空间；将基于所述图像特征以及所述索引特征得到的查询向量和所述多个子空间中的每个子空间内的所有视频帧向量按欧式距离或余弦距离分别进行相似度计算，得到目标视频帧向量，其中，所述目标视频帧向量为所述目标视频的视频帧向量；

所述第二获取单元，还用于提取所述视频关键帧在不同层级的图像特征，并将所述不同层级的图像特征进行聚合，得到聚合后的图像特征，其中，所述聚合后的图像特征用于保留所述视频关键帧的图像内容的特征和空间信息；

所述装置，还用于按照所述目标视频片段的播放进度播放所述目标视频。

13.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至11任一项中所述的方法。

14.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至11任一项中所述的方法。