CN110147469B

CN110147469B - 一种数据处理方法、设备及存储介质

Info

Publication number: CN110147469B
Application number: CN201910398875.4A
Authority: CN
Inventors: 董治; 李深远; 吕孟叶
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2019-05-14
Filing date: 2019-05-14
Publication date: 2023-08-08
Anticipated expiration: 2039-05-14
Also published as: CN110147469A

Abstract

本发明实施例公开一种数据处理方法、设备及存储介质，其中方法包括如下步骤：获取目标视频的每一帧，并获取所述每一帧的色彩直方图数据；根据所述色彩直方图数据获取所述目标视频中至少一个视频场景分段；根据所述至少一个视频场景分段确定所述目标视频的目标关键帧；将所述目标视频中的至少一个目标关键帧与视频备选库中备选视频的关键帧进行匹配，生成所述视频备选库中备选视频与所述目标视频的相似度信息；若所述相似度信息大于相似度阈值，则将所述视频备选库中的备选视频确定为与所述目标视频相同的视频。采用本发明，可以节省资源库的存储空间，提高视频文件查找的效率。

Description

一种数据处理方法、设备及存储介质

技术领域

本发明涉及电子技术领域，尤其涉及一种数据处理方法、设备及存储介质。

背景技术

随着电子科技的不断的开发和完善，以及移动应用以及智能设备爆发，多媒体文件的数量大量的增长，对多媒体文件的管理是一个需要解决的问题，尤其对于音乐网站，在音乐视频库中存储有大量的视频文件，同时还会有新的视频文件要存储至视频库，一般情况是将视频文件直接进行存储，但是将视频文件无差别的存入视频库，会导致相同视频文件重复多次的进行存储，不仅浪费了大量的存储空间，同时视频文件的重复存储也加大了在视频库查找视频文件的工作量，降低了视频查找的效率。

发明内容

本发明实施例提供一种数据处理方法、设备及存储介质，可以节省资源库的存储空间，提高视频文件查找的效率。

本发明实施例一方面提供了一种数据处理方法，可包括：

获取目标视频的每一帧，并获取所述每一帧的色彩直方图数据；

根据所述色彩直方图数据获取所述目标视频中至少一个视频场景分段；

根据所述至少一个视频场景分段确定所述目标视频的目标关键帧；

将所述目标视频中的至少一个目标关键帧与视频备选库中备选视频的关键帧进行匹配，生成所述视频备选库中备选视频与所述目标视频的相似度信息；

若所述相似度信息大于相似度阈值，则将所述视频备选库中的备选视频确定为与所述目标视频相同的视频。

其中，所述根据所述至少一个视频场景分段确定所述目标视频的目标关键帧，包括：

将每个视频场景分段的首位帧分别确定为每个视频场景分段的候选关键帧；

将所述候选关键帧所在的视频场景分段的时长在所述目标视频中所占比例，确定为所述候选关键帧的权重信息，将所述权重信息满足第一规则信息的所述候选关键帧确定为目标关键帧。

其中，所述根据所述色彩直方图数据获取所述目标视频中至少一个视频场景分段，包括：

获取所述目标视频中目标帧的色彩直方图数据，获取所述目标帧的上一帧所属的候选视频场景分段中所有帧的色彩直方图数据的直方图均值，将所述目标帧的色彩直方图数据与所述直方图均值进行对比；

若所述目标帧的色彩直方图数据与所述直方图均值之差小于均值阈值，则将所述目标帧划分至所述上一帧所属的所述候选视频场景分段；

若所述目标帧的色彩直方图数据与所述直方图均值之差大于或者等于均值阈值，则将与所述目标帧相邻且时间戳大于所述目标帧的时间戳的至少一个连续帧，确定为验证帧，获取每个验证帧的色彩直方图数据；

若所述验证帧的色彩直方图数据分别与所述直方图均值之差均大于或者等于均值阈值，则将所述目标帧以及所述候选视频场景分段中的所有帧确定为视频场景分段；

当目标视频中的所有帧均确定为目标帧时，获得所述目标视频中的所有视频场景分段。

其中，所述将所述目标视频中的至少一个目标关键帧与视频备选库中备选视频的关键帧进行匹配，生成所述视频备选库中的备选视频与所述目标视频的相似度信息，包括:

获取所述视频备选库中备选视频与目标视频的时长差，将所述时长差小于时长阈值的备选视频确定为第一备选视频集合；

将所述目标视频中的目标关键帧与第一备选视频集合中备选视频的关键帧进行匹配，生成所述第一备选视频集合中备选视频与所述目标视频的相似度信息。

其中，所述将所述目标视频中的目标关键帧与第一备选视频集合中备选视频的关键帧进行匹配，生成所述第一备选视频集合中备选视频与所述目标视频的相似度信息，包括：

将所述第一备选视频集合中备选视频的关键帧确定为备选关键帧，按照第二规则信息获取所述目标视频中待处理目标关键帧的第一特征信息，从所述第一备选视频集合中获取符合所述第二规则信息的备选关键帧的第二特征信息；

采用目标网络模型，将所述第一特征信息和所述第二特征信息进行匹配，生成所述备选关键帧对应的准确率信息；

根据所述准确率信息和所述备选关键帧的权重信息，获取所述关键帧的匹配度信息，所述备选关键帧的权重信息为所述备选关键帧对应的视频场景分段的时长在备选视频中所占的比例；

将所述准确率信息小于准确率阈值或者匹配度信息小于匹配度阈值的备选关键帧所对应的备选视频以及不符合所述第二规则信息的备选关键帧对应的备选视频从所述第一备选视频集合删除，生成第二备选视频集合；

根据所述第二备选视频集合中备选视频的所有备选关键帧的匹配度信息，确定所述第二备选视频集合中备选视频的相似度信息。

其中，所述采用目标网络模型，将所述第一特征信息和所述第二特征信息进行匹配，生成所述备选关键帧对应的准确率信息，包括：

当所述待处理目标关键帧的权重信息大于权重阈值时，将所述待处理目标关键帧的特征向量距离信息添加至第一特征信息生成第三特征信息，将所述备选关键帧的特征向量距离信息添加至第二特征信息生成第四特征信息；

采用目标网络模型，将所述第三特征信息和所述第四特征信息进行匹配，生成所述备选关键帧对应的准确率信息。

其中，所述根据所述第二备选视频集合中备选视频的所有备选关键帧的匹配度信息确定所述第二备选视频集合中备选视频的相似度信息，包括：

根据所述第二备选视频集合中备选视频的所有备选关键帧的匹配度信息之和，确定所述第二备选视频集合中备选视频的相似度信息；

根据所述第二备选视频集合中备选视频的总权重、目标视频的总权重和所述第二备选视频集合中备选视频的相似度信息，对所述第二备选视频集合中备选视频的相似度信息进行修正，获取所述第二备选视频集合中备选视频的修正后的相似度信息。

本发明实施例一方面提供了一种数据处理设备，可包括：

直方图获取模块，用于获取目标视频的每一帧，并获取所述每一帧的色彩直方图数据；

视频场景获取模块，用于根据所述色彩直方图数据获取所述目标视频中至少一个视频场景分段；

关键帧获取模块，用于根据所述至少一个视频场景分段确定所述目标视频的目标关键帧；

匹配模块，用于将所述目标视频中的至少一个目标关键帧与视频备选库中备选视频的关键帧进行匹配，生成所述视频备选库中备选视频与所述目标视频的相似度信息；

选择模块，用于若所述相似度信息大于相似度阈值，则将所述视频备选库中的备选视频确定为与所述目标视频相同的视频。

其中，所述关键帧获取模块具体用于：

将每个视频场景分段的首位帧分别确定为每个视频场景分段的候选关键帧；将所述候选关键帧所在的视频场景分段的时长在所述目标视频中所占比例，确定为所述候选关键帧的权重信息，将所述权重信息满足第一规则信息的所述候选关键帧确定为目标关键帧。

其中，所述视频场景获取模块具体用于：

其中，所述匹配模块包括:

备选视频集合获取单元，用于获取所述视频备选库中备选视频与目标视频的时长差，将所述时长差小于时长阈值的备选视频确定为第一备选视频集合；

匹配单元，用于将所述目标视频中的目标关键帧与第一备选视频集合中备选视频的关键帧进行匹配，生成所述第一备选视频集合中备选视频与所述目标视频的相似度信息。

其中，所述匹配单元包括：

特征信息获取子单元，用于将所述第一备选视频集合中备选视频的关键帧确定为备选关键帧，按照第二规则信息获取所述目标视频中待处理目标关键帧的第一特征信息，从所述第一备选视频集合中获取符合所述第二规则信息的备选关键帧的第二特征信息；

准确率信息获取子单元，用于采用目标网络模型，将所述第一特征信息和所述第二特征信息进行匹配，生成所述备选关键帧对应的准确率信息；

备选视频集合获取子单元，用于根据所述准确率信息和所述备选关键帧的权重信息，获取所述关键帧的匹配度信息，所述备选关键帧的权重信息为所述备选关键帧对应的视频场景分段的时长在备选视频中所占的比例；将所述准确率信息小于准确率阈值或者匹配度信息小于匹配度阈值的备选关键帧所对应的备选视频以及不符合所述第二规则信息的备选关键帧对应的备选视频从所述第一备选视频集合删除，生成第二备选视频集合；

相似度信息获取子单元，用于根据所述第二备选视频集合中备选视频的所有备选关键帧的匹配度信息，确定所述第二备选视频集合中备选视频的相似度信息。

其中，所述准确率信息获取子单元具体用于：

其中，所述相似度信息获取子单元具体用于：

本发明实施例一方面提供了一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

本发明实施例一方面提供了一种数据处理设备，包括处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行以下步骤：

在本发明实施例中，通过获取目标视频的每一帧，并获取所述每一帧的色彩直方图数据；根据所述色彩直方图数据获取所述目标视频中至少一个视频场景分段；根据所述至少一个视频场景分段确定所述目标视频的目标关键帧；将所述目标视频中的至少一个目标关键帧与视频备选库中备选视频的关键帧进行匹配，生成所述视频备选库中备选视频与所述目标视频的相似度信息；若所述相似度信息大于相似度阈值，则将所述视频备选库中的备选视频确定为与所述目标视频相同的视频。通过目标视频中的目标关键帧与视频备选库中备选视频的关键帧生成备选视频与目标视频的相似度信息，可以确定视频备选库中是否存在与目标视频相同的视频，避免了对相同的视频进行存储，节省了资源库的存储空间，同时通过目标视频中的目标关键帧与备选视频的关键帧进行对比，避免了在查找视频文件时对视频文件进行逐帧对比，减少了处理过程中的工作量，提高了视频文件查找的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种数据处理方法的流程示意图；

图2是本发明实施例提供的另一种数据处理方法的流程示意图；

图3是本发明实施例提供的一种确定目标关键帧的举例示意图；

图4是本发明实施例提供的一种特征信息匹配的举例示意图；

图5是本发明实施例提供的一种数据处理设备的结构示意图；

图6是本发明实施例提供的一种匹配模块的结构示意图；

图7是本发明实施例提供的一种匹配单元的结构示意图；

图8是本发明实施例提供的另一种数据处理设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的数据处理方法可以应用于在视频库中查找重复的视频文件，具体的，数据处理设备获取目标视频的每一帧，并获取所述每一帧的色彩直方图数据；根据所述色彩直方图数据获取所述目标视频中至少一个视频场景分段；根据所述至少一个视频场景分段确定所述目标视频的目标关键帧；将所述目标视频中的至少一个目标关键帧与视频备选库中备选视频的关键帧进行匹配，生成所述视频备选库中备选视频与所述目标视频的相似度信息；若所述相似度信息大于相似度阈值，则将所述视频备选库中的备选视频确定为与所述目标视频相同的视频。通过目标视频中的目标关键帧与视频备选库中备选视频的关键帧生成备选视频与目标视频的相似度信息，可以确定视频备选库中是否存在与目标视频相同的视频，避免了对相同的视频进行存储，节省了资源库的存储空间，同时通过目标视频中的目标关键帧与备选视频的关键帧进行对比，避免了在查找视频文件时对视频文件进行逐帧对比，减少了处理过程中的工作量，提高了视频文件查找的效率。

本发明实施例涉及的数据处理设备可以包括：平板电脑、智能手机、个人电脑(PC)、笔记本电脑、掌上电脑以及移动互联网设备(MID)等具备文件检索的终端设备。

请参见图1，为本发明实施例提供了一种数据处理方法的流程示意图。如图1所示，本发明实施例的所述方法可以包括以下步骤S101-步骤S105。

S101，获取目标视频的每一帧，并获取所述每一帧的色彩直方图数据；

具体的，数据处理设备获取目标视频的每一帧，并获取所述每一帧的色彩直方图数据，可以理解的是，所述目标视频是包括多种格式的视频文件，所述色彩直方图数据是图片中的颜色的特征信息，所述色彩直方图数据对应的是不同色彩在整幅图像中所占的比例，目标视频包括多帧视频，数据处理设备获取目标视频的每一帧，每一帧对应一张图片，进一步获取所述每一帧的色彩直方图数据，下面以一帧视频进行说明，获取目标视频的一帧视频，即获取所述一帧视频对应的图片，图片采用色调饱和度明度(Hue SaturationValue，HSV)模型，将三个通道的元素bins依据人眼的敏感度分别设置为16:4:4，将图片中央75％的椭圆区域和其余部分分别计算色彩直方图数据，根据加权系数加权后，将两个色彩直方图数据进行合并，得到所述一帧视频的色彩直方图数据。

S102，根据所述色彩直方图数据获取所述目标视频中至少一个视频场景分段；

具体的，数据处理设备根据所述色彩直方图数据获取目标视频中至少一个视频场景分段，可以理解的是，所述色彩直方图数据对应的是不同色彩在整幅图像中所占的比例，即各种不同颜色的像素所占比例，每一帧图片可以根据不同颜色的像素数量生成固定维数的向量，数据处理设备根据目标视频中每一帧对应的色彩直方图数据确定目标视频中的视频场景分段，所述目标视频中包括至少一个视频场景分段。

S103，根据所述至少一个视频场景分段确定所述目标视频的目标关键帧；

具体的，数据处理设备根据所述至少一个视频场景分段确定所述目标视频的目标关键帧，可以理解的是，所述目标视频中包括至少一个视频场景分段，所述视频场景分段是视频中的一段时长的部分视频或者整个视频文件，所述视频场景分段中每帧之间的差别较小，所述目标关键帧是视频场景分段中的一帧视频，具体可以是视频场景分段中的第一帧，目标视频中可以包括多个目标关键帧，一个目标关键帧对应一个视频场景分段，每个目标关键帧分别对应所述目标视频中不同的视频场景分段。

S104，将所述目标视频中的至少一个目标关键帧与视频备选库中备选视频的关键帧进行匹配，生成所述视频备选库中备选视频与所述目标视频的相似度信息；

具体的，数据处理设备将所述目标视频中的至少一个目标关键帧与视频备选库中备选视频的关键帧进行匹配，生成所述视频备选库中备选视频与所述目标视频的相似度信息，可以理解的是，所述视频备选库用于存储备选视频，所述备选视频包括多种格式的视频文件，所述备选视频中也可以包括与所述目标视频相同的视频文件，所述视频备选库中的备选视频携带有备选视频对应的关键帧，所述备选视频的关键帧是预先获取的，数据处理设备将所述目标视频中的目标关键帧与备选视频的关键帧进行匹配，根据匹配结果生成所述备选视频与所述目标视频的相似度信息，所述相似度信息是所述备选视频与目标视频是同一个视频的概率，例如，所述备选视频与目标视频的相似度信息是0.99，则所述备选视频与目标视频是同一个视频的概率时0.99。

S105，若所述相似度信息大于相似度阈值，则将所述视频备选库中的备选视频确定为与所述目标视频相同的视频。

具体的，若所述相似度信息大于相似度阈值，数据处理设备则将所述视频备选库中的备选视频确定为与所述目标视频相同的视频，可以理解的是，所述相似度阈值是预先设置的一个相似度信息的标准，所述相似度阈值可以根据进行修改，若所述视频备选库中的备选视频与目标视频的相似度信息大于相似度阈值，则将所述备选视频确定为与所述目标视频相同的视频，例如，所述相似度阈值设置为0.98，所述备选视频与目标视频的相似度信息是0.99，则将所述备选视频确定为与所述目标视频相同的视频。

请参见图2，为本发明实施例提供了一种数据处理方法的流程示意图。如图2所示，本发明实施例的所述方法可以包括以下步骤S201-步骤S206。

S201，获取目标视频的每一帧，并获取所述每一帧的色彩直方图数据；

具体的，数据处理设备获取目标视频的每一帧，并获取所述每一帧的色彩直方图数据，可以理解的是，所述色彩直方图数据是图片中的颜色的特征信息，所述色彩直方图数据对应的是不同色彩在整幅图像中所占的比例，目标视频包括多帧视频，数据处理设备获取目标视频的每一帧，每一帧对应一张图片，进一步获取所述每一帧的色彩直方图数据，下面以一帧视频进行说明，获取目标视频的一帧视频，即获取所述一帧视频对应的图片，图片采用HSV模型，将三个通道的元素bins依据人眼的敏感度分别设置为16:4:4，将图片中央75％的椭圆区域和其余部分分别计算色彩直方图数据，根据加权系数加权后，将两个色彩直方图数据进行合并，得到所述一帧视频的色彩直方图数据。

S202，根据所述色彩直方图数据获取所述目标视频中至少一个视频场景分段；

具体的，数据处理设备根据所述色彩直方图数据获取所述目标视频中至少一个视频场景分段，可以理解的是，所述色彩直方图数据对应的是不同色彩在整幅图像中所占的比例，即各种不同颜色的像素所占比例，每一帧图片可以根据不同颜色的像素数量生成固定维数的向量，数据处理设备根据目标视频中每一帧对应的色彩直方图数据确定目标视频中的视频场景分段，所述目标视频中包括至少一个视频场景分段。

S202具体的实现方法包括如下步骤S11-S15：

S11，获取目标视频中目标帧的色彩直方图数据，获取所述目标帧的上一帧所属的候选视频场景分段中所有帧的色彩直方图数据的直方图均值，将所述目标帧的色彩直方图数据与所述直方图均值进行对比；

具体的，所述目标帧是目标视频中的任意一帧，获取所述目标帧的色彩直方图数据，并获取所述目标帧的上一帧所属的候选视频场景分段中所有帧的色彩直方图数据的直方图均值，所述直方图均值是候选视频场景分段中所有帧的色彩直方图数据的平均值，直方图均值具体可以是候选视频场景分段中所有帧的色彩直方图数据对应的向量的平均值，将所述目标帧的色彩直方图数据与所述直方图均值进行对比，对比采取的方法是计算色彩直方图数据对应的向量与直方图均值对应的向量的距离，需要说明的是，所述目标帧的获取，一般情况是从第一帧开始，依次进行检测，获取目标帧的色彩直方图数据，并将所述目标帧对应的色彩直方图数据与直方图均值进行对比，若所述目标帧是目标文件的第一帧，获取目标帧的色彩直方图数据，将第二帧作为目标帧，获取第二帧的色彩直方图数据，将所述第二帧对应的色彩直方图数据与第一帧对应的色彩直方图数据进行对比。

S12，若所述目标帧的色彩直方图数据与所述直方图均值之差小于均值阈值，则将所述目标帧划分至所述上一帧所属的所述候选视频场景分段；

具体的，所述均值阈值是预先设定的，若所述目标帧的色彩直方图数据与所述直方图均值之差小于均值阈值，即色彩直方图数据对应的向量与直方图均值对应的向量的距离小于均值阈值，则将所述目标帧划分至所述上一帧所属的候选视频场景分段，若所述目标帧是目标文件的第一帧，则直接将所述目标帧划分至候选视频场景分段中。

S13，若所述目标帧的色彩直方图数据与所述直方图均值之差大于或者等于均值阈值，则将与所述目标帧相邻且时间戳大于所述目标帧的时间戳的至少一个连续帧，确定为验证帧，获取每个验证帧的色彩直方图数据；

具体的，若所述目标帧的色彩直方图数据与所述直方图均值之差大于或者等于均值阈值，即色彩直方图数据对应的向量与直方图均值对应的向量的距离大于或者等于均值阈值，则将与所述目标帧相邻且时间戳大于所述目标帧的时间戳的至少一个连续帧，确定为验证帧，获取每个验证帧的色彩直方图数据，所述时间戳是帧所在目标视频的播放时间点，所述验证帧是目标帧之后且与目标帧相邻的至少一帧，例如，验证帧的帧数预设为3帧，若目标帧是第四帧，则验证帧为第五帧、第六帧和第七帧。

S14，若所述验证帧的色彩直方图数据分别与所述直方图均值之差均大于或者等于均值阈值，则将所述目标帧以及所述候选视频场景分段中的所有帧确定为视频场景分段；

具体的，若所述验证帧的色彩直方图数据分别与所述直方图均值之差均大于或者等于均值阈值，则将所述目标帧以及所述候选视频场景分段中的所有帧确定为视频场景分段，所述候选视频场景分段为视频场景分段中的部分帧所组成，所述验证帧的色彩直方图数据分别与所述直方图均值之差均大于或者等于均值阈值，可以理解的是，验证帧不属于目标帧所属的候选视频场景分段，则可以将所述目标帧以及所述候选视频场景分段中的所有帧确定为视频场景分段，增加验证帧与目标帧的直方图均值进行对比，当连续数个帧均超过均值阈值才确认产生了镜头切换，提高了容错性，避免了视频场景片段的误判。

S15，当目标视频中的所有帧均确定为目标帧时，获得所述目标视频中的所有视频场景分段。

具体的，当目标视频中的所有帧均确定为目标帧时，获得所述目标视频中的所有视频场景分段，可以理解的是，当目标视频中的所有帧均确定为目标帧时，即对目标视频中所有的帧均进行了检测，确定了目标视频中每一帧所属的视频场景片段，且确定每一帧所属的视频场景片段的过程都是相同的，从而可以获得所述目标视频中的所有视频场景分段。

S203，将每个视频场景分段的首位帧分别确定为每个视频场景分段的候选关键帧；将所述候选关键帧所在的视频场景分段的时长在所述目标视频中所占比例，确定为所述候选关键帧的权重信息，将所述权重信息满足第一规则信息的所述候选关键帧确定为目标关键帧；

具体的，数据处理设备将每个视频场景分段的首位帧分别确定为每个视频场景分段的候选关键帧；将所述候选关键帧所在的视频场景分段的时长在所述目标视频中所占比例，确定为所述候选关键帧的权重信息，将所述权重信息满足第一规则信息的所述候选关键帧确定为目标关键帧，可以理解的是，所述候选关键帧是视频场景分段中的一帧，具体可以为视频场景分段的首位帧，所述权重信息是所述候选关键帧所在的视频场景分段的时长在所述目标视频中所占比例，所述目标关键帧是权重信息满足第一规则信息的候选关键帧，所述第一规则信息是预设的条件，具体可以为目标关键帧的权重信息之和大于预设的阈值，请一并参见图3，为本发明实施例提供了一种确定目标关键帧的举例示意图。如图3所示，目标视频生成多个视频场景片段，包括视频场景片段1、视频场景片段2、视频场景片段3以及视频场景片段n的n个视频场景片段，每个视频场景片段中包括至少一帧，将n个视频场景片段中每个视频场景片段的首位帧确定为候选关键帧，即将视频场景片段1的首位帧确定为候选关键帧1，将视频场景片段2的首位帧确定为候选关键帧2，将视频场景片段3的首位帧确定为候选关键帧3，将视频场景片段n的首位帧确定为候选关键n，将候选关键帧的权重信息的按照从大到小进行排列，当候选关键帧的权重信息之和大于阈值80％时，将权重信息之和大于阈值的候选关键帧确定为目标关键帧。

S204，获取所述视频备选库中备选视频与目标视频的时长差，将所述时长差小于时长阈值的备选视频确定为第一备选视频集合；

具体的，数据处理设备获取所述视频备选库中备选视频与目标视频的时长差，将所述时长差小于时长阈值的备选视频确定为第一备选视频集合，可以理解的是，数据处理设备获取所述目标视频和视频备选库中备选视频的时长，计算视频备选库中备选视频与目标视频的时长差，将所述时长差小于时长阈值的备选视频确定为第一备选视频集合，所述时长阈值是预先设定的，通过视频时长的筛选，可以大幅减少视频检索的时间，提高检索效率。

S205，将所述目标视频中的目标关键帧与第一备选视频集合中备选视频的关键帧进行匹配，生成所述第一备选视频集合中备选视频与所述目标视频的相似度信息；

具体的，数据处理设备将所述目标视频中的目标关键帧与第一备选视频集合中备选视频的关键帧进行匹配，生成所述第一备选视频集合中备选视频与所述目标视频的相似度信息，可以理解的是，数据处理设备从所述目标关键帧和第一备选视频集合中备选视频的关键帧中提取帧所对应的特征向量，采用训练好的网络模型对特征向量进行匹配，生成所述第一备选视频集合中备选视频与所述目标视频的相似度信息。

S205具体的实现方法包括如下步骤S21-S24：

S21，将所述第一备选视频集合中备选视频的关键帧确定为备选关键帧，按照第二规则信息获取所述目标视频中待处理目标关键帧的第一特征信息，从所述第一备选视频集合中获取符合所述第二规则信息的备选关键帧的第二特征信息；

具体的，数据处理设备将所述第一备选视频集合中备选视频的关键帧确定为备选关键帧，所述待处理目标关键帧是与备选关键帧进行匹配的目标关键帧，所述第二规则信息是选择待处理目标关键帧和备选关键帧的预设条件，包括权重信息、权重差阈值、时序信息、时序差阈值、时间信息和时间差阈值，所述权重差阈值是两个权重信息之间差值的阈值，所述时序信息是关键帧按照权重信息的大小进行排列生成的排序顺序，所述时序差阈值是两个时序信息之间差值的阈值，所述时间信息是关键帧在视频中的播放时间，所述时间差阈值是两个时间信息之间差值的阈值，按照第二规则信息获取所述目标视频中待处理目标关键帧的第一特征信息可以是按照权重信息的降序顺序依次选择权重信息最大的目标关键帧作为待处理目标关键帧，或者是按照时序信息和时间信息排序获取目标关键帧作为待处理目标关键帧，并获取所述待处理目标关键帧的第一特征信息，从所述第一备选视频集合中获取符合所述第二规则信息的备选关键帧，其中，所述第一备选视频集合中符合所述第二规则信息的备选关键帧具体可以是与所述待处理目标关键帧之间的权重差小于权重差阈值的备选关键帧，获取所述第一备选视频集合中备选关键帧的第二特征信息，需要说明的是，所述备选关键帧的获取还可以根据时序差阈值和时间差阈值进行获取，这里不做限定。

S22，采用目标网络模型，将所述第一特征信息和所述第二特征信息进行匹配，生成所述备选关键帧对应的准确率信息；

具体的，数据处理设备采用目标网络模型，将所述第一特征信息和所述第二特征信息进行匹配，生成所述备选关键帧对应的准确率信息，可以理解的是，所述目标网络模型可以是神经网络模型，具体可以是卷积神经网络VGG16和孪生神经网络Siamese，请一并参见图4，为本发明实施例提供了一种特征信息匹配的举例示意图。如图4所示，选取神经网络VGG16中FC2层特征作为特征向量，即获取目标视频中待处理目标关键帧在神经网络VGG16中FC2层特征作为第一特征向量，获取第一备选视频集合中备选视频的备选关键帧在神经网络VGG16中FC2层特征作为第二特征向量，第一特征向量和第二特征向量在训练后的神经网络Siamese中经过特征拼接和3层全连接，最后输出备选关键帧对应的准确率信息，神经网络Siamese的训练是将第一训练图片的第一特征向量和第二训练图片的第二特征向量作为输入，经过特征拼接生成拼接后的特征向量，根据拼接后的特征向量生成神经网络Siamese模型的参数，所述目标网络模型包括通过不同的数据集进行训练的目标网络模型，例如，可以包括添加logo和字幕的相同视频进行训练，生成目标网络模型，可以提高视频识别的容错性。

具体的，当所述待处理目标关键帧的权重信息大于权重阈值时，将所述待处理目标关键帧的特征向量距离信息添加至第一特征信息生成第三特征信息，将所述备选关键帧的特征向量距离信息添加至第二特征信息生成第四特征信息；采用目标网络模型，将所述第三特征信息和所述第四特征信息进行匹配，生成所述备选关键帧对应的准确率信息；

可以理解的是，所述权重阈值是预设的权重信息，当所述待处理目标关键帧的权重信息大于权重阈值时，在匹配信息中添加特征向量距离信息，所述特征向量距离信息是关键帧中特征向量的距离信息，可以通过特征提取的方式获取，具体可以是SIFT特征提取方法或SURF特征提取方法，避免出现权重较高(超过80％)时，待处理目标关键帧匹配准确率降低的情况，即将所述待处理目标关键帧的特征向量距离信息添加至第一特征信息生成第三特征信息，将所述备选关键帧的特征向量距离信息添加至第二特征信息生成第四特征信息，采用目标网络模型，将所述第三特征信息和所述第四特征信息进行匹配，生成所述备选关键帧对应的准确率信息。

S23，根据所述准确率信息和所述备选关键帧的权重信息，获取所述关键帧的匹配度信息，所述备选关键帧的权重信息为所述备选关键帧对应的视频场景分段的时长在备选视频中所占的比例；将所述准确率信息小于准确率阈值或者匹配度信息小于匹配度阈值的备选关键帧所对应的备选视频以及不符合所述第二规则信息的备选关键帧对应的备选视频从所述第一备选视频集合删除，生成第二备选视频集合；

具体的，获取所述准确率信息和所述备选关键帧的权重信息的乘积，将所述乘积确定为所述关键帧的匹配度信息，所述备选关键帧的权重信息为所述备选关键帧对应的视频场景分段的时长在备选视频中所占的比例；将所述准确率信息小于准确率阈值或者匹配度信息小于匹配度阈值的备选关键帧所对应的备选视频以及不符合所述第二规则信息的备选关键帧对应的备选视频从所述第一备选视频集合删除，生成第二备选视频集合，所述准确率阈值和匹配度阈值均为预先设置，具体的，根据获取所述备选关键帧的第二规则信息，将不符合所述第二规则信息的备选关键帧对应的备选视频从所述第一备选视频集合删除，例如，若所述备选关键帧的是通过权重差阈值进行获取，则将所述第一备选视频集合中与所述待处理目标关键帧之间的权重差大于或等于权重差阈值的备选关键帧进行删除，所述第二规则信息可以是时序差阈值或者时间差阈值，这里不做限定，通过生成第二备选视频集合，进一步缩小的视频检索的范围，提高了检索的效率，需要说明的是，生成所述第二备选视频集合之后，可以采取重复执行上述S21-S23的步骤进一步缩小视频检索的范围。

S24，根据所述第二备选视频集合中备选视频的所有备选关键帧的匹配度信息，确定所述第二备选视频集合中备选视频的相似度信息；

具体的，数据处理设备根据所述第二备选视频集合中备选视频的所有备选关键帧的匹配度信息，确定所述第二备选视频集合中备选视频的相似度信息，可以理解的是，获取所述第二备选视频集合中备选视频的所有备选关键帧的匹配度信息，计算第二备选视频集合中每个备选视频的所有备选关键帧的匹配度信息之和，将所述匹配度信息之和确定为所述第二备选视频集合中备选视频的相似度信息；

具体的，根据所述第二备选视频集合中备选视频的所有备选关键帧的匹配度信息之和，确定所述第二备选视频集合中备选视频的相似度信息；根据所述第二备选视频集合中备选视频的总权重、目标视频的总权重和所述第二备选视频集合中备选视频的相似度信息，对所述第二备选视频集合中备选视频的相似度信息进行修正，获取所述第二备选视频集合中备选视频的修正后的相似度信息；

可以理解的是，所述第二备选视频集合中备选视频的总权重是备选视频中的所有备选关键帧的权重信息之和，所述目标视频的总权重是目标视频的所有目标关键帧的权重信息之和，根据所述第二备选视频集合中备选视频的总权重、目标视频的总权重和所述第二备选视频集合中备选视频的相似度信息，对所述第二备选视频集合中备选视频的相似度信息进行修正，获取所述第二备选视频集合中备选视频的修正后的相似度信息，具体可以根据如下计算公式获取修正后的相似度信息：修正后的相似度信息＝相似度信息+(1-(备选视频的总权重+目标视频的总权重)/2)。

S206，若所述相似度信息大于相似度阈值，则将所述视频备选库中的备选视频确定为与所述目标视频相同的视频。

其中，本发明实施例的步骤S206参见图1所示实施例的步骤S103的具体描述，在此不进行赘述。

在本发明实施例中，通过获取目标视频的至少一个目标关键帧；每个目标关键帧分别表征所述目标视频中不同的视频场景；将所述目标视频中的至少一个目标关键帧与视频备选库中备选视频的关键帧进行匹配，生成所述视频备选库中备选视频与所述目标视频的相似度信息；若所述相似度信息大于相似度阈值，则将所述视频备选库中的备选视频确定为与所述目标视频相同的视频。通过目标视频中的目标关键帧与视频备选库中备选视频的关键帧生成备选视频与目标视频的相似度信息，可以确定视频备选库中是否存在与目标视频相同的视频，避免了对相同的视频进行存储，节省了资源库的存储空间，同时通过目标视频中的目标关键帧与备选视频的关键帧进行对比，避免了在查找视频文件时对视频文件进行逐帧对比，减少了处理过程中的工作量，提高了视频文件查找的效率。

请参见图5，为本发明实施例提供了一种数据处理设备的结构示意图。如图5所示，本发明实施例的所述数据处理设备1可以包括：直方图获取模块11、视频场景获取模块12、关键帧获取模块13、匹配模块14、选择模块15。

直方图获取模块11，用于获取目标视频的每一帧，并获取所述每一帧的色彩直方图数据；

视频场景获取模块12，用于根据所述色彩直方图数据获取所述目标视频中至少一个视频场景分段；

关键帧获取模块13，用于根据所述至少一个视频场景分段确定所述目标视频的目标关键帧；

匹配模块14，用于将所述目标视频中的至少一个目标关键帧与视频备选库中备选视频的关键帧进行匹配，生成所述视频备选库中备选视频与所述目标视频的相似度信息；

请一并参见图6，为本发明实施例提供了一种匹配模块14的结构示意图。如图6所示，本发明实施例的所述匹配模块14可以包括：备选视频集合获取单元141、匹配单元142。

备选视频集合获取单元141，用于获取所述视频备选库中备选视频与目标视频的时长差，将所述时长差小于时长阈值的备选视频确定为第一备选视频集合；

匹配单元142，用于将所述目标视频中的目标关键帧与第一备选视频集合中备选视频的关键帧进行匹配，生成所述第一备选视频集合中备选视频与所述目标视频的相似度信息。

请一并参见图7，为本发明实施例提供了一种匹配单元142的结构示意图。如图7所示，本发明实施例的所述匹配单元142可以包括：特征信息获取子单元1421、准确率信息获取子单元1422、备选视频集合获取子单元1423、相似度信息获取子单元1424。

特征信息获取子单元1421，用于将所述第一备选视频集合中备选视频的关键帧确定为备选关键帧，按照第二规则信息获取所述目标视频中待处理目标关键帧的第一特征信息，从所述第一备选视频集合中获取符合所述第二规则信息的备选关键帧的第二特征信息；

准确率信息获取子单元1422，用于采用目标网络模型，将所述第一特征信息和所述第二特征信息进行匹配，生成所述备选关键帧对应的准确率信息；

备选视频集合获取子单元1423，用于根据所述准确率信息和所述备选关键帧的权重信息，获取所述关键帧的匹配度信息，所述备选关键帧的权重信息为所述备选关键帧对应的视频场景分段的时长在备选视频中所占的比例；将所述准确率信息小于准确率阈值或者匹配度信息小于匹配度阈值的备选关键帧所对应的备选视频以及不符合所述第二规则信息的备选关键帧对应的备选视频从所述第一备选视频集合删除，生成第二备选视频集合；

相似度信息获取子单元1424，用于根据所述第二备选视频集合中备选视频的所有备选关键帧的匹配度信息，确定所述第二备选视频集合中备选视频的相似度信息。

选择模块15，用于若所述相似度信息大于相似度阈值，则将所述视频备选库中的备选视频确定为与所述目标视频相同的视频。

本发明实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图1-图4所示实施例的方法步骤，具体执行过程可以参见图1-图4所示实施例的具体说明，在此不进行赘述。

请参见图8，为本发明实施例提供了一种数据处理设备的结构示意图。如图8所示，所述数据处理设备1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图8所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据处理应用程序。

在图8所示的设备1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储的数据处理应用程序，并具体执行以下操作：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

根据所述色彩直方图数据获取所述目标视频中至少一个视频场景分段，包括：获取所述目标视频中目标帧的色彩直方图数据，获取所述目标帧的上一帧所属的候选视频场景分段中所有帧的色彩直方图数据的直方图均值，将所述目标帧的色彩直方图数据与所述直方图均值进行对比，若所述目标帧的色彩直方图数据与所述直方图均值之差小于均值阈值，则将所述目标帧划分至所述上一帧所属的所述候选视频场景分段，若所述目标帧的色彩直方图数据与所述直方图均值之差大于或者等于均值阈值，则将与所述目标帧相邻且时间戳大于所述目标帧的时间戳的至少一个连续帧，确定为验证帧，获取每个验证帧的色彩直方图数据，若所述验证帧的色彩直方图数据分别与所述直方图均值之差均大于或者等于均值阈值，则将所述目标帧以及所述候选视频场景分段中的所有帧确定为视频场景分段，当目标视频中的所有帧均确定为目标帧时，获得所述目标视频中的所有视频场景分段；

2.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个视频场景分段确定所述目标视频的目标关键帧，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述目标视频中的至少一个目标关键帧与视频备选库中备选视频的关键帧进行匹配，生成所述视频备选库中的备选视频与所述目标视频的相似度信息，包括:

4.根据权利要求3所述的方法，其特征在于，所述将所述目标视频中的目标关键帧与第一备选视频集合中备选视频的关键帧进行匹配，生成所述第一备选视频集合中备选视频与所述目标视频的相似度信息，包括：

5.根据权利要求4所述的方法，其特征在于，所述采用目标网络模型，将所述第一特征信息和所述第二特征信息进行匹配，生成所述备选关键帧对应的准确率信息，包括：

6.根据权利要求4所述的方法，其特征在于，所述根据所述第二备选视频集合中备选视频的所有备选关键帧的匹配度信息确定所述第二备选视频集合中备选视频的相似度信息，包括：

7.一种数据处理设备，其特征在于，包括：

视频场景获取模块，用于根据所述色彩直方图数据获取所述目标视频中至少一个视频场景分段，其中，所述视频场景获取模块还用于，获取所述目标视频中目标帧的色彩直方图数据，获取所述目标帧的上一帧所属的候选视频场景分段中所有帧的色彩直方图数据的直方图均值，将所述目标帧的色彩直方图数据与所述直方图均值进行对比，若所述目标帧的色彩直方图数据与所述直方图均值之差小于均值阈值，则将所述目标帧划分至所述上一帧所属的所述候选视频场景分段，若所述目标帧的色彩直方图数据与所述直方图均值之差大于或者等于均值阈值，则将与所述目标帧相邻且时间戳大于所述目标帧的时间戳的至少一个连续帧，确定为验证帧，获取每个验证帧的色彩直方图数据，若所述验证帧的色彩直方图数据分别与所述直方图均值之差均大于或者等于均值阈值，则将所述目标帧以及所述候选视频场景分段中的所有帧确定为视频场景分段，当目标视频中的所有帧均确定为目标帧时，获得所述目标视频中的所有视频场景分段；

8.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1-6任意一项的方法步骤。

9.一种数据处理设备，其特征在于，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行以下步骤：

根据所述色彩直方图数据获取所述目标视频中至少一个视频场景分段，还包括：获取所述目标视频中目标帧的色彩直方图数据，获取所述目标帧的上一帧所属的候选视频场景分段中所有帧的色彩直方图数据的直方图均值，将所述目标帧的色彩直方图数据与所述直方图均值进行对比，若所述目标帧的色彩直方图数据与所述直方图均值之差小于均值阈值，则将所述目标帧划分至所述上一帧所属的所述候选视频场景分段，若所述目标帧的色彩直方图数据与所述直方图均值之差大于或者等于均值阈值，则将与所述目标帧相邻且时间戳大于所述目标帧的时间戳的至少一个连续帧，确定为验证帧，获取每个验证帧的色彩直方图数据，若所述验证帧的色彩直方图数据分别与所述直方图均值之差均大于或者等于均值阈值，则将所述目标帧以及所述候选视频场景分段中的所有帧确定为视频场景分段，当目标视频中的所有帧均确定为目标帧时，获得所述目标视频中的所有视频场景分段；