CN115062186A

CN115062186A - 一种视频内容检索方法、装置、设备以及存储介质

Info

Publication number: CN115062186A
Application number: CN202210935438.3A
Authority: CN
Inventors: 白世杰; 王楚涵
Original assignee: Beijing Yuanjian Information Technology Co Ltd
Current assignee: Beijing Yuanjian Information Technology Co Ltd
Priority date: 2022-08-05
Filing date: 2022-08-05
Publication date: 2022-09-16
Anticipated expiration: 2042-08-05
Also published as: CN115062186B

Abstract

本公开提供了一种视频内容检索方法、装置、设备以及存储介质，该方法包括：获取目标视频文件中各个帧视频图像的特征向量；基于目标视频文件的特征向量，对目标视频文件进行归类，得到多个视频帧集合；对每个视频帧集合中所有帧视频图像的特征向量进行计算，得到第一平均特征向量；根据第一平均特征向量进行求交集计算，确定目标视频文件对应的有害特征向量集合；根据有害特征向量集合和各个视频帧集合中任一帧视频图像的特征向量之间的相似度，从多个视频帧集合中筛选出候选有害视频帧集合；从候选有害视频帧集合中各个帧视频图像中，确定出存在有害内容的目标帧视频图像。这样，既保证视频内容检索的准确性，又实现了快速定位有害内容。

Description

一种视频内容检索方法、装置、设备以及存储介质

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种视频内容检索方法、装置、设备以及存储介质。

背景技术

随着互联网技术的发展，视频已成为人们日常生活中学习、办公、娱乐等不可缺少的部分，且视频的传播速度很快，所以需要对视频进行严格的把控，以免有害视频的快速传播。然而，如果大量视频中存在少量的违规信息，监管方较难发现，且耗费大量人力，检出难度大，且一旦如有疏漏，造成的社会危害也会很大。

发明内容

本公开实施例至少提供一种视频内容检索方法、装置、设备以及存储介质。这样，既保证视频内容检索的准确性，又实现了快速定位有害内容。

本公开实施例提供了一种视频内容检索方法，所述方法包括：

获取目标视频文件中各个帧视频图像的特征向量；

基于所述目标视频文件中各个帧视频图像的特征向量，对所述目标视频文件的各个帧视频图像进行归类，得到多个视频帧集合；其中，所述视频帧集合中的任意相邻两帧视频图像分别对应的特征向量之间的相似度小于预设阈值；

对每个所述视频帧集合中所有帧视频图像的特征向量进行特征向量平均值计算，得到每个所述视频帧集合对应的第一平均特征向量；

将所述目标视频文件中每两个所述视频帧集合分别对应的所述第一平均特征向量进行求交集计算，确定所述目标视频文件对应的有害特征向量集合；

根据所述目标视频文件对应的所述有害特征向量集合和各个所述视频帧集合中任一帧视频图像的特征向量之间的相似度，从多个所述视频帧集合中筛选出候选有害视频帧集合；

基于所述候选有害视频帧集合中各个帧视频图像的特征向量和所述有害特征向量集合，确定存在有害内容的目标帧视频图像。

一种可选的实施方式中，根据以下步骤对所述目标视频文件的任一帧视频图像进行归类包括：

计算所述目标视频文件中所述帧视频图像之前的任意相邻两帧视频图像对应的特征向量之间的第一内容距离；所述第一内容距离用于表征所述帧视频图像之前的任意相邻两帧视频图像之间的相似度；

计算所述帧视频图像与前一帧视频图像分别对应的特征向量之间的第二内容距离；所述第二内容距离用于表征所述帧视频图像与前一帧视频图像分别对应的特征向量之间的相似度；

计算第二平均特征向量和所述第二内容距离的内容距离差值；所述第二平均特征向量为所述目标视频文件中所述帧视频图像之前的所有任意相邻两帧视频图像对应的第一内容距离的平均值；

检测所述内容距离差值和预设阈值的大小；

若所述内容距离差值大于预设阈值，则将所述帧视频图像归类到第一目标视频帧集合；所述第一目标视频帧集合为所述帧视频图像之前的多帧视频图像归类成的视频帧集合；

若所述内容距离差值小于预设阈值，则将所述帧视频图像归类到第二目标视频帧集合；所述第二目标视频帧集合是以所述帧视频图像作为第一帧视频图像进行归类的视频帧集合。

一种可选的实施方式中，所述将所述目标视频文件中每两个所述视频帧集合分别对应的第一平均特征向量进行求交集计算，确定所述目标视频文件对应的有害特征向量集合，包括：

将任意两个所述视频帧集合分别对应的所述第一平均特征向量进行求交集计算，得到一个交集结果；

对所述目标视频文件对应的多个交集结果进行求并集计算，得到所述有害特征向量集合。

一种可选的实施方式中，所述根据所述目标视频文件对应的所述有害特征向量集合和各个所述视频帧集合中任一帧视频图像的特征向量之间的相似度，从多个所述视频帧集合中筛选出候选有害视频帧集合，包括：

计算所述有害特征向量集合和各个所述视频帧集合中任一帧视频图像对应的特征向量的第一编辑距离；所述第一编辑距离用于表征所述有害特征向量集合和各个所述视频帧集合中任一帧视频图像之间的相似度；

根据各个所述视频帧集合对应的所述第一编辑距离，对各个所述视频帧集合进行排序；

根据各个所述视频帧集合的排序顺序，从多个所述视频帧集合中筛选出所述候选有害视频帧集合。

一种可选的实施方式中，所述基于所述候选有害视频帧集合中各个帧视频图像的特征向量和所述有害特征向量集合，确定存在有害内容的目标帧视频图像，包括：

计算所述候选有害视频帧集合中各个帧视频图像的特征向量和所述有害特征向量集合的第二编辑距离；所述第二编辑距离用于表征所述候选有害视频帧集合中各个帧视频图像和所述有害特征向量集合之间的相似度；

根据所述候选有害视频帧集合中各个帧视频图像对应的所述第二编辑距离，对所述候选有害视频帧集合中各个帧视频图像进行排序；

根据所述候选有害视频帧集合中各个帧视频图像的排序顺序，从所述候选有害视频帧集合中各个帧视频图像中确定出存在有害内容的目标帧视频图像。

本公开实施例还提供一种视频内容检索装置，所述装置包括：

获取模块，获取目标视频文件中各个帧视频图像的特征向量；

归类模块，用于基于所述目标视频文件中各个帧视频图像的特征向量，对所述目标视频文件的各个帧视频图像进行归类，得到多个视频帧集合；其中，所述视频帧集合中的任意相邻两帧视频图像分别对应的特征向量之间的相似度小于预设阈值；

第一计算模块，用于对每个所述视频帧集合中所有帧视频图像的特征向量进行特征向量平均值计算，得到每个所述视频帧集合对应的第一平均特征向量；

第二计算模块，用于将所述目标视频文件中每两个所述视频帧集合分别对应的所述第一平均特征向量进行求交集计算，确定所述目标视频文件对应的有害特征向量集合；

筛选模块，用于根据所述目标视频文件对应的所述有害特征向量集合和各个所述视频帧集合中任一帧视频图像的特征向量之间的相似度，从多个所述视频帧集合中筛选出候选有害视频帧集合；

确定模块，用于基于所述候选有害视频帧集合中各个帧视频图像的特征向量和所述有害特征向量集合，确定存在有害内容的目标帧视频图像。

一种可选的实施方式中，所述归类模块，用于根据以下步骤对所述目标视频文件的任一帧视频图像进行归类包括：

计算第二平均特征向量和所述第二内容距离的内容距离差值；所述第二平均特征向量所述目标视频文件中所述帧视频图像之前的所有任意相邻两帧视频图像对应的第一内容距离的平均值；

检测所述内容距离差值和预设阈值的大小；

一种可选的实施方式中，所述第二计算模块，具体用于：

一种可选的实施方式中，所述筛选模块，具体用于：

一种可选的实施方式中，所述确定模块，具体用于：

本公开实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述实施方式中的步骤。

本公开实施例还提供一种计算机存储介质，该计算机存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述实施方式中的步骤。

本公开实施例提供的一种视频内容检索方法、装置、设备及存储介质，采用获取目标视频文件中各个帧视频图像的特征向量；基于所述目标视频文件中各个帧视频图像的特征向量，对所述目标视频文件的各个帧视频图像进行归类，得到多个视频帧集合；其中，所述视频帧集合中的任意相邻两帧视频图像分别对应的特征向量之间的相似度小于预设阈值；对每个所述视频帧集合中所有帧视频图像的特征向量进行特征向量平均值计算，得到每个所述视频帧集合对应的第一平均特征向量；将所述目标视频文件中每两个所述视频帧集合分别对应的所述第一平均特征向量进行求交集计算，确定所述目标视频文件对应的有害特征向量集合；根据所述目标视频文件对应的所述有害特征向量集合和各个所述视频帧集合中任一帧视频图像的特征向量之间的相似度，从多个所述视频帧集合中筛选出候选有害视频帧集合；基于所述候选有害视频帧集合中各个帧视频图像的特征向量和所述有害特征向量集合，确定存在有害内容的目标帧视频图像，与现有技术中的如果大量视频中存在少量的违规信息，监管方较难发现，且耗费大量人力，检出难度大相比，其既保证视频内容检索的准确性，又实现了快速定位有害内容。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种视频内容检索方法的流程图；

图2示出了本公开实施例提供的一种视频内容检索方法中对所述目标视频文件的任一帧视频图像进行归类的具体方法流程图；

图3示出了本公开实施例所提供的一种视频内容检索方法中确定所述目标视频文件对应的有害特征向量集合的具体方法的流程图；

图4示出了本公开实施例所提供的一种视频内容检索装置的示意图；

图5示出了本公开实施例所提供的一种电子设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

经研究发现，如果大量视频中存在少量的违规信息，监管方较难发现，且耗费大量人力，检出难度大，且一旦如有疏漏，造成的社会危害也会很大。一般采用针对有害目标进行训练学习的方法，将有害目标进行建模，提取特征，训练识别器，将训练好的识别器，对海量视频帧进行一帧一帧的逐帧识别，这种方法不仅效率低下，误识别率高，存在的更严重的问题是针对隐藏的少量未知有害信息无法进行识别，因为未知有害信息的特征，并没有被识别器进行训练学习，识别器只能识别已知的，事先定义好的有害信息内容，因此现有的技术无法识别未知隐藏的少量有害信息，这会导致有害在社会面快速广泛传播，对社会稳定造成极大影响。

基于上述研究，本公开提供了一种视频内容检索方法、装置、设备及存储介质，采用获取目标视频文件中各个帧视频图像的特征向量；基于所述目标视频文件中各个帧视频图像的特征向量，对所述目标视频文件的各个帧视频图像进行归类，得到多个视频帧集合；其中，所述视频帧集合中的任意相邻两帧视频图像分别对应的特征向量之间的相似度小于预设阈值；对每个所述视频帧集合中所有帧视频图像的特征向量进行特征向量平均值计算，得到每个所述视频帧集合对应的第一平均特征向量；将所述目标视频文件中每两个所述视频帧集合分别对应的所述第一平均特征向量进行求交集计算，确定所述目标视频文件对应的有害特征向量集合；根据所述目标视频文件对应的所述有害特征向量集合和各个所述视频帧集合中任一帧视频图像的特征向量之间的相似度，从多个所述视频帧集合中筛选出候选有害视频帧集合；基于所述候选有害视频帧集合中各个帧视频图像的特征向量和所述有害特征向量集合，确定存在有害内容的目标帧视频图像。既保证视频内容检索的准确性，又实现了快速定位有害内容。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种视频内容检索方法进行详细介绍，本公开实施例所提供的视频内容检索方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备（User Equipment，UE）、移动设备、用户终端、终端等。在一些可能的实现方式中，该视频内容检索方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

参见图1所示，为本公开实施例提供的一种视频内容检索方法的流程图，所述方法包括步骤S101~S106，其中：

S101：获取目标视频文件中各个帧视频图像的特征向量。

这里，识别目标视频文件中各个帧视频图像中目标检测结果的特征信息，将目标视频文件中各个帧视频图像的特征信息进行向量化处理，得到目标视频文件中各个帧视频图像的特征向量。

其中，各个帧视频图像的特征向量用于表征各个帧视频图像中所有目标检测结果的特征信息。

其中，所述目标视频文件包括大量多帧视频图像且存在少量有害特征向量。

在获取目标视频文件中各个帧视频图像的特征向量时，针对目标视频文件的第x帧视频图像

，

，其中，w为视频帧的宽，h为视频帧的高，c为视频帧的通道数，设目标视频文件V总共有m帧，则

，利用目标检测器，提取目标视频文件中各个帧视频图像的特征向量，其中，只利用目标检测器提取目标特征与数量的能力，不使用目标检测器的提取特征向量在各帧视频图像的位置检测功能，即：

其中，

代表目标视频文件的检测结果合集，

代表目标视频文件的特征向量，

代表目标检测器对视频图像帧

检测出的特征向量数量，

代表检测出的物体在图像中的位置信息，符号“/”代表去除，即本发明中不使用目标检测器的位置检测功能。

其中，目标检测器可以根据实际需要进行选择，这里不做具体地限定，优先选目标检测器以视觉转换器（Vision Transformer，VIT）为主干，以卷积CONV模块为分类头的目标检测器，其中卷积CONV模块为激活函数Relu、最大池化函数max pooling以及卷积函数convolution为组合的多层卷积神经网络，即

，其中，a代表a层卷积模块的层数，本实施例取a=3。

S102：基于所述目标视频文件中各个帧视频图像的特征向量，对所述目标视频文件的各个帧视频图像进行归类，得到多个视频帧集合。

这里，由于目标视频文件中的各个帧视频图像之间的相似度不相同，所以在对视频内容进行检索之前需要对目标视频文件中的各个帧视频图像根据相似度的不同对各个帧视频图像进行归类，可以得到多个视频帧集合，以便后续根据不同的视频帧合集来快速定位有内容。

其中，所述视频帧集合中的任意相邻两帧视频图像分别对应的特征向量之间的相似度小于预设阈值。

其中，预设阈值可以根据实际需要进行设置，在这里不做具体的限定，优选为0.5。

进一步的，请参见图2所示，为本公开实施例提供的一种视频内容检索方法中对所述目标视频文件的任一帧视频图像进行归类的具体方法流程图，所述方法包括步骤S201~S206，其中：

S201：计算所述目标视频文件中所述帧视频图像之前的任意相邻两帧视频图像对应的特征向量之间的第一内容距离。

这里，针对目标视频文件的任一帧视频图像进行归类，首先，计算所述帧视频图像之前任意相邻两帧视频图像对应的特征向量之间的第一内容距离，即第一目标视频帧集合中的第一帧视频图像到所述帧视频图像之间所有任意相邻两帧视频图像的特征向量之间的相似度。

其中，第一目标视频帧集合中为已经归类完成的视频帧集合，第一帧视频图像为第一目标视频帧集合中的第一帧视频图像。

其中，所述第一内容距离用于表征所述帧视频图像之前的任意相邻两帧视频图像之间的相似度。

进一步的，一种可选择的实施方式中，通过以下公式计算所述目标视频文件中所述帧视频图像之前的任意相邻两帧视频图像对应的特征向量之间的第一内容距离：

其中，L为所述帧视频图像之前的任意相邻两帧视频图像对应的特征向量之间的第一内容距离，k为目标检测器的第k个检测结果，

为

帧视频图像的目标检测结果个数，

为

帧视频图像的目标检测结果个数，

为

帧视频图像的第k个目标检测结果的特征向量，

为

帧视频图像的第k个目标检测结果的特征向量，j为相邻两帧视频图像的目标检测结果中共有的目标类别数量。

S202：计算所述帧视频图像与前一帧视频图像分别对应的特征向量之间的第二内容距离。

这里，计算所述第二内容距离的公式与计算第一内容距离的公式相同，在此不再赘述。

其中，所述第二内容距离用于表征所述帧视频图像与前一帧视频图像分别对应的特征向量之间的相似度。

S203：计算第二平均特征向量和所述第二内容距离的内容距离差值。

这里，一种可选的实施方式中，通过以下公式计算第二平均特征向量和所述第二内容距离的内容距离差值：

其中，

为预设阈值，

为第

帧视频图像到

帧视频图像的第二平均特征向量，

为第

所述帧视频图像与第

帧视频图像分别对应的特征向量之间的第二内容距离。

根据以上公式可以得到第一目标视频帧集合

。

另一种可选的实施方式中，通过以下公式计算第二平均特征向量和所述第二内容距离的内容距离差值：

其中，

为预设阈值，

为第

帧视频图像到

帧视频图像的第二平均特征向量，

为第

所述帧视频图像与第

帧视频图像分别对应的特征向量之间的第二内容距离。根据以上公式可以得到第二目标视频帧集合

。

直到遍历完目标视频文件的所有帧，得到所有视频帧集合

，其中，c是视频帧集合的个数。

其中，所述第二平均特征向量为所述目标视频文件中所述帧视频图像之前的所有任意相邻两帧视频图像对应的第一内容距离的平均值。

S204：检测所述内容距离差值和预设阈值的大小。

S205：若所述内容距离差值大于预设阈值，则将所述帧视频图像归类到第一目标视频帧集合。

其中，所述第一目标视频帧集合为所述帧视频图像之前的多帧视频图像归类成的视频帧集合。

S206：若所述内容距离差值小于预设阈值，则将所述帧视频图像归类到第二目标视频帧集合。

其中，所述第二目标视频帧集合是以所述帧视频图像作为第一帧视频图像进行归类的视频帧集合。

S103：对每个所述视频帧集合中所有帧视频图像的特征向量进行特征向量平均值计算，得到每个所述视频帧集合对应的第一平均特征向量。

这里，对每个所述视频帧集合中所有帧视频图像的特征向量进行特征向量平均值计算时，是针对每个所述视频帧集合中所有帧视频图像的特征向量进行的，即每个所述视频帧集合均会对应有一个平均值（即第一平均特征向量）。

进一步的，一种可选择的实施方式中，根据以下公式计算每个所述视频帧集合对应的第一平均特征向量：

其中，

为每个所述视频帧集合对应的第一平均特征向量，

为第

帧视频图像的第z个目标检测结果的特征向量。

S104：将所述目标视频文件中每两个所述视频帧集合分别对应的所述第一平均特征向量进行求交集计算，确定所述目标视频文件对应的有害特征向量集合。

这里，将所述目标视频文件中每两个所述视频帧集合分别对应的所述第一平均特征向量进行求交集计算时，是针对目标视频文件中所有的视频帧集合进行的，具体是将所有的视频帧集合中每两组进行组合进行求交集计算，根据求交集计算的结果，确定目标视频文件对应的有害特征向量集合。

进一步的，请参阅图3，图3为本公开实施例所提供的一种视频内容检索方法中确定所述目标视频文件对应的有害特征向量集合的具体方法的流程图。一种可选的实施方式中，所述将所述目标视频文件中每两个所述视频帧集合分别对应的第一平均特征向量进行求交集计算，确定所述目标视频文件对应的有害特征向量集合，包括：

S301：将任意两个所述视频帧集合分别对应的所述第一平均特征向量进行求交集计算，得到一个交集结果。

S302：对所述目标视频文件对应的多个交集结果进行求并集计算，得到所述有害特征向量集合。

这里，由于之前已经根据任意相邻两帧视频图像之间的相似度进行归类处理，所以每个视频帧集合之间的相似度是很低的，可以忽略不计，因此，在进行任意两个所述视频帧集合分别对应的所述第一平均特征向量进行求交集计算时，若两个所述视频帧集合不存在有害内容，则该两个视频帧集合对应的交集结果是空集；若两个所述视频帧集合均存在有害内容，则该两个视频帧集合对应的交集结果是有害特征值；对所述目标视频文件对应的多个交集结果进行求并集计算，即可得到有害特征向量集合。

其中，交集结果可以是空集，也可以是有害特征值。

进一步的，一种可选的实施方式中，根据以下公式计算所述目标视频文件对应的有害特征向量集合：

其中，

为所述目标视频文件对应的有害特征向量集合，

为第r个视频帧集合的第一平均特征向量，

第t个视频帧集合的第一平均特征向量。

S105：根据所述目标视频文件对应的所述有害特征向量集合和各个所述视频帧集合中任一帧视频图像的特征向量之间的相似度，从多个所述视频帧集合中筛选出候选有害视频帧集合。

这里，各个所述视频帧集合中任一帧视频图像为各个视频帧集合中任意选取的一帧视频图像，可以是各个视频帧集合中的第一帧视频图像或第N帧视频图像，其中N为常数。

进一步的，一种可选的实施方式中，所述根据所述目标视频文件对应的所述有害特征向量集合和各个所述视频帧集合中任一帧视频图像的特征向量之间的相似度，从多个所述视频帧集合中筛选出候选有害视频帧集合，包括：

这里，由于各个所述视频帧集合中任一帧视频图像对应的特征向量表征识别出来的各个目标检测结果的特征信息，首先，计算各个所述视频帧集合中任一帧视频图像对应的特征向量的平均值，根据各个所述视频帧集合中任一帧视频图像对应的特征向量的平均值和所述有害特征向量集合，计算第一编辑距离，将各个所述视频帧集合对应的所述第一编辑距离按照从小到大进行排序，然后选取排序靠前的第一预设数量的视频帧集合作为所述候选有害视频帧集合。

其中，第一预设数量可以根据实际需要进行设置，在这里不做具体的限定，优选为5。

其中，第一编辑距离的值越小，则表征有害特征向量集合与该视频帧集合中任一帧视频图像之间的相似度越大；第一编辑距离的值越大，则表征有害特征向量集合与该视频帧集合中任一帧视频图像之间的相似度越小。

这样，先选取各个视频帧集合中的任一帧视频图像跟有害特征向量合集进行相似度的计算，选取相似度最近的预设数量的视频帧集合作为候选有害视频帧集合，可以粗略并快速的实现有害内容的定位。

S106：基于所述候选有害视频帧集合中各个帧视频图像的特征向量和所述有害特征向量集合，确定存在有害内容的目标帧视频图像。

这里，在确定了候选有害视频帧集合后，针对候选有害视频帧集合中的所有帧视频图像，计算各个帧视频图像的特征向量和所述有害特征向量集合，确定存在有害内容的目标帧视频图像，实现有害内容的精准定位。

进一步的，一种可选的实施方式中，所述基于所述候选有害视频帧集合中各个帧视频图像的特征向量和所述有害特征向量集合，确定存在有害特征向量的目标帧视频图像，包括：

这里，计算所述候选有害视频帧集合中各个帧视频图像的特征向量和所述有害特征向量集合的第二编辑距离，将各个帧视频图像对应的所述第二编辑距离按照从小到大进行排序，然后选取排序靠前的第二预设数量的视频图像作为存在有害特征向量的目标帧视频图像。

其中，第二预设数量可以根据实际需要进行设置，在这里不做具体的限定。

其中，所述第二编辑距离的值越小，则表征有害特征向量集合与该帧视频图像之间的相似度越大；第一编辑距离的值越大，则表征有害特征向量集合与该帧视频图像之间的相似度越小。

这样，在确定了候选有害视频帧集合的基础上，对候选有害视频帧集合中的所有帧视频图像中确定出存在有害内容的视频图像，实现精准和快速的定位有害内容。

本实施例公开的视频内容检索方法，采用获取目标视频文件中各个帧视频图像的特征向量；基于所述目标视频文件中各个帧视频图像的特征向量，对所述目标视频文件的各个帧视频图像进行归类，得到多个视频帧集合；其中，所述视频帧集合中的任意相邻两帧视频图像分别对应的特征向量之间的相似度小于预设阈值；对每个所述视频帧集合中所有帧视频图像的特征向量进行特征向量平均值计算，得到每个所述视频帧集合对应的第一平均特征向量；将所述目标视频文件中每两个所述视频帧集合分别对应的所述第一平均特征向量进行求交集计算，确定所述目标视频文件对应的有害特征向量集合；根据所述目标视频文件对应的所述有害特征向量集合和各个所述视频帧集合中任一帧视频图像的特征向量之间的相似度，从多个所述视频帧集合中筛选出候选有害视频帧集合；基于所述候选有害视频帧集合中各个帧视频图像的特征向量和所述有害特征向量集合，确定存在有害内容的目标帧视频图像。既保证视频内容检索的准确性，又实现了快速定位有害内容。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与视频内容检索方法对应的视频内容检索装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述视频内容检索方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

请参阅图4，图4为本公开实施例提供的一种视频内容检索装置的示意图。如图4中所示，本公开实施例提供的视频内容检索装置400，包括：

获取模块410，获取目标视频文件中各个帧视频图像的特征向量；

归类模块420，用于基于所述目标视频文件中各个帧视频图像的特征向量，对所述目标视频文件的各个帧视频图像进行归类，得到多个视频帧集合；其中，所述视频帧集合中的任意相邻两帧视频图像分别对应的特征向量之间的相似度小于预设阈值；

第一计算模块430，用于对每个所述视频帧集合中所有帧视频图像的特征向量进行特征向量平均值计算，得到每个所述视频帧集合对应的第一平均特征向量；

第二计算模块440，用于将所述目标视频文件中每两个所述视频帧集合分别对应的所述第一平均特征向量进行求交集计算，确定所述目标视频文件对应的有害特征向量集合；

筛选模块450，用于根据所述目标视频文件对应的所述有害特征向量集合和各个所述视频帧集合中任一帧视频图像的特征向量之间的相似度，从多个所述视频帧集合中筛选出候选有害视频帧集合；

确定模块460，用于基于所述候选有害视频帧集合中各个帧视频图像的特征向量和所述有害特征向量集合，确定存在有害内容的目标帧视频图像。

一种可选的实施方式中，所述归类模块420，用于根据以下步骤对所述目标视频文件的任一帧视频图像进行归类包括：

检测所述内容距离差值和预设阈值的大小；

一种可选的实施方式中，所述第二计算模块440，具体用于：

一种可选的实施方式中，所述筛选模块450，具体用于：

一种可选的实施方式中，所述确定模块460，具体用于：

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

本公开实施例公开的视频内容检索装置，通过获取模块，获取目标视频文件中各个帧视频图像的特征向量；归类模块，用于基于所述目标视频文件中各个帧视频图像的特征向量，对所述目标视频文件的各个帧视频图像进行归类，得到多个视频帧集合；其中，所述视频帧集合中的任意相邻两帧视频图像分别对应的特征向量之间的相似度小于预设阈值；第一计算模块，用于对每个所述视频帧集合中所有帧视频图像的特征向量进行特征向量平均值计算，得到每个所述视频帧集合对应的第一平均特征向量；第二计算模块，用于将所述目标视频文件中每两个所述视频帧集合分别对应的所述第一平均特征向量进行求交集计算，确定所述目标视频文件对应的有害特征向量集合；筛选模块，用于根据所述目标视频文件对应的所述有害特征向量集合和各个所述视频帧集合中任一帧视频图像的特征向量之间的相似度，从多个所述视频帧集合中筛选出候选有害视频帧集合；确定模块，用于基于所述候选有害视频帧集合中各个帧视频图像的特征向量和所述有害特征向量集合，确定存在有害内容的目标帧视频图像。这样，既保证视频内容检索的准确性，又实现了快速定位有害内容。

基于同一技术构思，本申请实施例还提供了一种电子设备。本公开实施例还提供了一种电子设备500，如图5所示，为本公开实施例提供的电子设备500结构示意图，包括：

处理器510、存储器520、和总线530；存储器520用于存储执行指令，包括内存521和外部存储器522；这里的内存521也称内存储器，用于暂时存放处理器510中的运算数据，以及与硬盘等外部存储器522交换的数据，处理器510通过内存521与外部存储器522进行数据交换，当所述电子设备500运行时，所述处理器510与所述存储器520之间通过总线530通信，使得所述处理器510可以执行上述方法实施例中所示的视频内容检索方法的步骤。

本公开实施例还提供一种计算机存储介质，该计算机存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的视频内容检索方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的视频内容检索方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包（Software Development Kit，SDK）等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备、存储介质和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的设备、存储介质、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种视频内容检索方法，其特征在于，所述方法包括：

获取目标视频文件中各个帧视频图像的特征向量；

2.根据权利要求1所述的方法，其特征在于，根据以下步骤对所述目标视频文件的任一帧视频图像进行归类包括：

检测所述内容距离差值和预设阈值的大小；

3.根据权利要求1所述的方法，其特征在于，所述将所述目标视频文件中每两个所述视频帧集合分别对应的第一平均特征向量进行求交集计算，确定所述目标视频文件对应的有害特征向量集合，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述目标视频文件对应的所述有害特征向量集合和各个所述视频帧集合中任一帧视频图像的特征向量之间的相似度，从多个所述视频帧集合中筛选出候选有害视频帧集合，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述候选有害视频帧集合中各个帧视频图像的特征向量和所述有害特征向量集合，确定存在有害内容的目标帧视频图像，包括：

6.一种视频内容检索装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述归类模块，用于根据以下步骤对所述目标视频文件的任一帧视频图像进行归类包括：

检测所述内容距离差值和预设阈值的大小；

8.根据权利要求6所述的装置，其特征在于，所述第二计算模块，具体用于：

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至5任一项所述的视频内容检索方法的步骤。

10.一种计算机存储介质，其特征在于，该计算机存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至5任一项所述的视频内容检索方法的步骤。