CN110278449A

CN110278449A - 一种视频检测方法、装置、设备及介质

Info

Publication number: CN110278449A
Application number: CN201910561856.9A
Authority: CN
Inventors: 赵世杰; 李峰; 左小祥
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2019-09-24
Anticipated expiration: 2039-06-26
Also published as: CN110278449B

Abstract

本申请公开了一种视频检测方法，包括：获取待检测的目标视频；对所述目标视频中各关键帧进行特征提取，生成目标视频指纹，所述目标视频指纹包括所述目标视频中各关键帧的图像特征；根据所述目标视频指纹和参考视频库中参考视频对应的参考视频指纹，确定所述目标视频中每个关键帧到所述参考视频的距离；参考视频指纹包括所述参考视频中各关键帧的图像特征；根据所述目标视频中每个关键帧到所述参考视频的距离，确定所述目标视频与所述参考视频的相似度。由于保留了所有关键帧的局部空间特征和局部帧排列时序信息，因此对于空间上的重复性检查更为精准，而且支持长短视频互检，以及相似视频时间位置定位。本申请还公开了对应的装置、设备及介质。

Description

一种视频检测方法、装置、设备及介质

技术领域

本申请涉及视频检测技术领域，尤其涉及一种视频检测方法、装置、设备及计算机存储介质。

背景技术

如今视频平台都需要通过视频检测技术实现对视频资源的有效管理，例如，通过视频检测技术衡量两个视频之间的相似性，从而实现视频去重、盗版检测等视频管理业务。

目前常用的视频检测技术是通过比对两个视频的视频指纹的距离来衡量两个视频是否相似；而视频指纹具体是通过对视频的关键帧进行特征提取得到关键帧特征，然后通过降维算法对特征进行降维，最后对视频所有的关键帧特征进行聚合或者求平均得到固定长度的视频指纹。

在上述常用的视频检测技术中，具体是先获得视频的局部图像特征，然后基于局部图像特征聚合或者求平均得到全局视频特征，在得到全局视频特征的过程中就会损失局部的图像特征，这就导致视频指纹对视频图像特征描述力较差，最终导致基于这种视频指纹进行视频检索的有效性不高，影响视频管理业务的进展。

发明内容

本申请实施例提供了一种视频检测方法，其将视频中各关键帧的图像特征作为视频指纹，该视频指纹保留了更全面的视频帧特征，因而为后续视频检索提供更全面的数据，进而基于帧间距进行视频相似性比对，能够进行有效视频对比，提高比对精准性，如此能够促进视频管理业务的发展。本申请实施例还提供了对应的装置、设备、介质以及计算机程序产品。

本申请第一方面提供了一种视频检测方法，所述方法包括：

获取待检测的目标视频；

对所述目标视频中各关键帧进行特征提取，生成目标视频指纹，所述目标视频指纹包括所述目标视频中各关键帧的图像特征；

根据所述目标视频指纹和参考视频库中参考视频对应的参考视频指纹，确定所述目标视频中每个关键帧到所述参考视频的距离；其中，所述参考视频指纹包括所述参考视频中各关键帧的图像特征；

根据所述目标视频中每个关键帧到所述参考视频的距离，确定所述目标视频与所述参考视频的相似度。

本申请第二方面提供一种视频检测装置，所述装置包括：

获取模块，用于获取待检测的目标视频；

目标视频指纹生成模块，用于对所述目标视频中各关键帧进行特征提取，生成目标视频指纹，所述目标视频指纹包括所述目标视频中各关键帧的图像特征；

第一确定模块，用于根据所述目标视频指纹和参考视频库中参考视频对应的参考视频指纹，确定所述目标视频中每个关键帧到所述参考视频的距离；其中，所述参考视频指纹包括所述参考视频中各关键帧的图像特征；

第二确定模块，用于根据所述目标视频中每个关键帧帧到所述参考视频的距离，确定所述目标视频与所述参考视频的相似度。

本申请第三方面提供一种设备，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行本申请第一方面所述的视频检测方法。

本申请第四方面提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述第一方面所述的视频检测方法。

本申请第五方面提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行上述第一方面所述的视频检测方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中提供了一种视频检测方法，其通过获取待检测的目标视频，对目标视频中各关键帧进行特征提取，将提取得到的各关键帧的图像特征直接作为目标视频指纹，而不进行取平均值以及聚合处理，如此可以保留所有关键帧上的局部信息，接着基于目标视频指纹和参考视频库中参考视频对应的参考视频指纹，可以确定目标视频中各关键帧到参考视频的距离，基于此可以确定目标视频与参考视频的相似度，如此通过视频帧间距离实现了视频检索。由于保留了所有关键帧的局部空间特征和局部帧排列时序信息，因此，该方法对于空间上的重复性检查更为精准，而且支持长短视频互检，以及相似视频时间位置定位，视频检索的有效性较高，促进了视频管理业务的进展。

附图说明

图1为本申请实施例中视频检测方法的场景架构图；

图2为本申请实施例中视频检测方法的流程图；

图3为本申请实施例中视频检测方法的应用场景图；

图4为本申请实施例中视频检测方法的流程图；

图5为本申请实施例中确定目标视频至参考视频距离的示意图；

图6为本申请实施例中视频检测装置的一个结构示意图；

图7为本申请实施例中视频检测装置的一个结构示意图；

图8为本申请实施例中视频检测装置的一个结构示意图；

图9为本申请实施例中视频检测装置的一个结构示意图；

图10为本申请实施例中视频检测装置的一个结构示意图；

图11为本申请实施例中服务器的一个结构示意图；

图12为本申请实施例中终端的一个结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

针对目前常用的视频检测技术基于局部图像特征聚合或者求平均得到全局视频特征作为视频指纹，导致视频指纹对视频图像特征描述力较差，视频检索有效性不高，影响视频管理业务进展的问题，本申请提供了一种将视频中各关键帧的图像特征作为视频指纹，根据目标视频指纹和参考视频指纹确定目标视频中关键帧至参考视频的距离，并基于该距离确定目标视频与参考视频的相似度，从而实现视频检索的方法。

该方法采用视频中各关键帧的图像特征作为视频指纹，因而保留了所有关键帧的局部信息，即保留了所有关键帧的局部空间特征和局部帧排列时序信息，因此，该方法对于空间上的重复性检查更为精准，而且支持长短视频互检，以及相似视频时间位置定位，视频检索的有效性较高，促进了视频管理业务的进展。

可以理解，本申请提供的上述视频检测方法可以应用任意具有图像处理能力的处理设备。该处理设备可以是任意包括中央处理器(Central Processing Unit，CPU)和/或图形处理器(Graphics Processing Unit，GPU)的终端或服务器，处理设备在执行本申请提供的视频检测方法时，可以是独立执行，也可以通过集群协作的方式执行。

需要说明的是，该方法可以以计算机程序的形式存储于处理设备中，处理设备通过执行该计算机程序实现本申请提供的视频检测方法。其中，计算机程序可以是独立的，也可以是集成于其他计算机程序之上的插件、功能模块和小程序等等。

在实际应用时，本申请提供的视频检测方法可以但不限于应用于如图1所示的应用环境中。

如图1所示，服务器102与数据库104连接，数据库104中存储有参考视频，服务器102获取待检测的目标视频，通过对目标视频中各关键特征进行特征提取，生成目标视频指纹，基于该目标视频指纹和数据库104中各参考视频的参考视频指纹，确定目标视频中每个关键帧到所述参考视频的距离，然后基于每个关键帧到参考视频的距离确定目标视频到参考视频的距离，从而确定目标视频与参考视频的相似度，实现视频检测。

其中，图1是以数据库104独立于所述服务器102存在进行说明的，在其他可能的实现方式中，数据库104也可以位于服务器102中。

为了使得本申请的技术方案更加清楚、易于理解，下面将从服务器的角度，对本申请实施例提供的视频检测方法的各个步骤进行详细说明。

参见图2所示的视频检测方法的流程图，该方法包括：

S201：获取待检测的目标视频。

目标视频具体可以是终端上传至服务器的视频，服务器接收该视频，以便对视频进行检测。在实际应用时，基于应用场景不同，服务器所检测的内容是不同的。例如，在视频去重检查场景中，服务器检测用户上传的视频是否与已有视频重复。又例如，在视频拷贝检查场景中，服务器检测用户上传的视频是否为盗版视频。

此外，用户上传的视频为短视频，如影视剧的片段视频时，服务器还可以检测该视频对应的长视频，并进一步确定上述短视频在其对应的长视频中的时间点，当然，用户上传的视频为长视频时，服务器还可以检测与该视频对应的短视频。

S202：对所述目标视频中各关键帧进行特征提取，生成目标视频指纹。

在本实施例中，服务器将从视频各关键帧中提取的图像特征直接作为该视频的视频指纹，因此，目标视频指纹包括目标视频中各关键帧的图像特征。

在具体实现时，服务器针对目标视频抽取关键帧，获得所述目标视频的关键帧序列，针对目标视频的关键帧序列中每个关键帧，通过图像特征提取模型提取图像特征，基于目标视频中每个关键帧的图像特征可以生成图像特征集合，服务器可以将该图像特征集合作为目标视频指纹。

考虑到后续视频检测的计算量和复杂度，服务器还可以利用降维算法对图像特征提取模型提取的图像特征进行降维处理，将处理后的特征作为关键帧的图像特征。然后基于目标视频中每个关键帧经降维处理的图像特征，生成图像特征集合，并将该集合作为目标视频指纹。

S203：根据所述目标视频指纹和参考视频库中参考视频对应的参考视频指纹，确定所述目标视频中每个关键帧到所述参考视频的距离。

其中，参考视频是指作为参考基准与目标视频进行比对的视频。服务器维护有参考视频库，针对用户上传的视频，服务器对该视频进行检测，若检测通过，则将该视频添加至参考视频库，该视频即形成参考视频，可以作为后续上传视频的参考基准。

针对参考视频库中的参考视频，服务器可以抽取关键帧，获得参考视频的关键帧序列，针对参考视频的关键帧序列中的每个关键帧，通过图像特征提取模型提取图像特征，基于参考视频中每个关键帧的图像特征可以生成图像特征集合，该图像特征集合即为参考视频指纹。参考视频指纹的生成方式与目标视频指纹相同，具体可以参见上文相关内容描述。

在具体实现时，服务器可以基于目标视频中关键帧与参考视频中关键帧的距离确定目标视频中关键帧的相似帧，基于该相似帧确定目标视频的关键帧到参考视频的距离。为了便于理解，下面以目标视频中第i关键帧进行示例性说明，其中，i取值为目标视频中各关键帧的帧编号。

针对目标视频中第i关键帧，服务器首先根据目标视频指纹和所述参考视频库中每个参考视频的参考视频指纹，确定与所述目标视频中第i关键帧距离最近的第一预设数量个关键帧，生成所述目标视频中第i关键帧的相似帧集合。其中，第一预设数量可以根据实际需求而设置，作为本申请的一个示例，其可以设置为1000。

接着，针对每个参考视频，服务器根据目标视频中第i关键帧的相似帧集合，确定所述参考视频中第j关键帧与所述目标视频中第i关键帧的距离，其中，j取值为所述参考视频中各关键帧的帧编号。

其中，根据相似帧集合确定参考视频中第j关键帧与目标视频中第i关键帧的距离可以分为如下两种情况：一种情况为，参考视频中第j关键帧存在于目标视频中第i关键帧的相似帧集合，此时，服务器可以根据参考视频中第j关键帧与目标视频中第i关键帧的图像特征确定两帧的距离，另一种情况为，参考视频中第j关键帧不存在于目标视频中第i关键帧的相似帧集合，此时，服务器可以根据目标视频中第i关键帧的相似帧集合中相似帧与目标视频中第i关键帧的距离确定参考距离，将参考距离作为参考视频中第j关键帧与所述目标视频中第i关键帧的距离。

考虑到相似帧集合中一些相似帧距离目标视频第i关键帧较远，服务器还可以基于相似帧集合中距离第i关键帧最近的前k帧确定参考距离。具体地，服务器可以计算相似帧集合中距离第i关键帧最近的前k帧与第i关键帧的距离的平均值，将所述平均值作为参考距离。当然，服务器也可以确定相似帧集合中距离第i关键帧最近的前k帧与第i关键帧的距离的中位数，将该中位数作为参考距离。其中，k为正整数，作为本申请的一个示例，k可以设置为100。

针对视频中某一指定帧到另一视频的距离，可以通过基于该另一视频所有关键帧到上述指定帧距离的最小值进行表征。基于此，针对每个参考视频，服务器可以从参考视频中选择与目标视频中第i个关键帧的最小距离作为目标视频中第i关键帧与参考视频的距离。

通过以上方式，仅需返回相似帧集合中固定数量的相似帧及其与目标视频中关键帧的距离，其余帧与目标视频中关键帧的距离采用参考距离进行表征，如此，可以快速获取视频之间的距离，加快视频搜索速度。

需要说明的是，在对目标视频和参考视频进行比对时，服务器也可以采用逐个视频逐帧比对的方式，如此，可以获得较为准确的检索结果。具体地，针对目标视频中第i关键帧，根据目标视频指纹和参考视频库中每个参考视频的参考视频指纹，确定目标视频中第i关键帧与参考视频库中每个参考视频的每个关键帧之间的距离，针对参考视频库中每个参考视频，从参考视频中选择与目标视频中第i关键帧的最小距离作为目标视频中第i关键帧与参考视频的距离。

S204：根据所述目标视频中每个关键帧到所述参考视频的距离，确定所述目标视频与所述参考视频的相似度。

可以理解，视频之间的相似度可以通过视频之间的距离进行表征，视频之间的距离越小，则表征视频越相似，反之，则表征视频差别越大，基于此，服务器可以确定目标视频与参考视频的距离，从而确定目标视频与参考视频的相似度。

在本实施例中，服务器可以针对所述参考视频库中每个参考视频，确定所述目标视频中每个关键帧到所述参考视频的距离之和，作为所述目标视频与所述参考视频的距离。

由上可知，本申请实施例提供了一种视频检测方法，其通过获取待检测的目标视频，对目标视频中各关键帧进行特征提取，将提取得到的各关键帧的图像特征直接作为目标视频指纹，而不进行取平均值以及聚合处理，如此可以保留所有关键帧上的局部信息，接着基于目标视频指纹和参考视频库中参考视频对应的参考视频指纹，可以确定目标视频中各关键帧到参考视频的距离，基于此可以确定目标视频与参考视频的相似度，如此通过视频帧间距离实现了视频检索。由于保留了所有关键帧的局部空间特征和局部帧排列时序信息，因此，该方法对于空间上的重复性检查更为精准，而且支持长短视频互检，以及相似视频时间位置定位，视频检索的有效性较高，促进了视频管理业务的进展。

可以理解，本申请提供的视频检测方法可以应用于许多场景，例如相似视频检索场景、视频去重场景或者相似视频时间定位场景等等，接下来，对上述场景进行详细说明。

在一种场景下，用户想要以视频搜视频，则用户通过客户端上传目标视频，期望从服务器中搜索到与目标视频相似的其他视频，在此场景下，利用本申请提供的方法，服务器可以基于目标视频与参考视频的距离，从参考视频库中选择与目标视频的相似度最大的参考视频作为目标视频的相似视频，将该目标视频的相似视频作为检索结果，输出该检索结果。

例如，用户浏览过某电影的删减版，将其作为目标视频上传至客户端，客户端与服务器通信后，服务器从参考视频库中选择与该视频相似度最大的视频例如该电影的完整版，将其作为该目标视频的相似视频，最后，服务器将该电源的完整版视频作为检索结果，输出该检索结果，如此，用户就能够实现以视频搜视频，快速浏览到自己想看的视频。

在该场景中，服务器也可以预先标记目标视频的相似视频，如此，用户在以视频搜视频时，能够根据上述标记快速确定用户指定的目标视频对应的相似视频，提高了响应效率。

其中，服务器标记目标视频可以通过如下方式实现：接收新上传的视频，将该新上传的视频作为目标视频，利用本申请提供的方法，服务器对目标视频中各关键帧进行特征提取生成目标视频指纹，对参考视频中各关键帧进行特征提取生成参考视频指纹，基于目标视频指纹和参考视频指纹可以确定出目标视频各关键帧到参考视频的距离，基于各关键帧到参考视频的距离可以确定目标视频与参考视频的相似度，其中，相似度最大的参考视频可以标记为目标视频的相似视频。

在一种场景下，视频运营平台为了有效管理视频，需要对判断新添加的视频与平台上已有视频资源是否重复，如果重复则需要进行去重处理，从而避免资源冗余占用过多存储空间，也能够很好地提高检索效率。视频运营平台考虑到参考视频库的存储容量以及用户的检索体验，也可以采用本申请的的本申请的视频检测方法进行相似视频去重。

将新上传的视频作为目标视频，将视频运营平台中的视频数据库作为参考视频库，则服务器基于目标视频指纹和参考视频指纹确定目标视频与参考视频库中每一个参考视频的距离，基于该距离可以确定目标视频与参考视频的相似度，当参考视频库中存在参考视频与目标视频的相似度超过预设相似度阈值时，对所述参考视频库和所述目标视频进行去重。

在去重时，服务器可以将参考视频库中与目标视频对应的参考视频删除，进而将目标视频添加至参考视频库，以目标视频代替参考视频；服务器也可以拒绝添加目标视频至参考视频库，保留原有的参考视频。

在一种场景下，用户浏览某个视频片段时，想要获知该视频片段的来源，即该视频片段对应的完整视频，在有些情况下，用户还想要获知该视频片段对应于上述完整视频的时间位置，基于此，用户可以将该视频片段作为目标视频，通过客户端请求搜索该目标视频对应的完整视频，服务器响应于客户端的搜索请求，从所述参考视频库中选择与所述目标视频的相似度最大的参考视频，作为所述目标视频的相似视频，该相似视频具体为目标视频对应的完整视频，接着服务器根据所述目标视频中每个关键帧与所述目标视频的相似视频中每个关键帧的距离，确定目标视频与相似视频在具体时间上的相似度，基于该相似度从所述目标视频的相似视频中定位出所述目标视频的相似片段。

为了使得本申请的技术方案更加清楚、易于理解，下面将结合视频平台这一具体场景对本申请的视频检测方法进行介绍。参见图3所示的视频检测方法的应用场景示意图，该场景中包括终端10、服务器20和参考视频库30，视频平台方维护上述服务器20和参考视频库30，参考视频库30存储有参考视频，用户通过终端10向视频平台对应的服务器20发送投稿视频投稿请求，该视频投稿请求中携带有目标视频，服务器20接收到目标视频，从参考视频库30中获取参考视频，根据目标视频指纹和参考视频指纹对该目标视频进行检测，若检测通过，则将该目标视频添加至参考视频库30。

服务器20对目标视频进行检测的过程具体可以参见图4，其包括如下步骤：

step1：针对目标视频进行关键帧抽取，得到目标视频的关键帧序列。

其中，关键帧是指角色或者物体运动或变化中的关键动作所处的那一帧。服务器20在对视频解码时，可以获得i帧，i帧又称帧内编码帧，是一种自带全部信息的独立帧，无需参考其他图像便可独立进行解码，基于此，服务器20可以将视频解码所获得的i帧确定为关键帧，形成目标视频的关键帧序列。

Step2：对关键帧序列中的每一帧图像，利用特征提取模型提取图像特征，然后对提取到的图像特征进行降维处理，基于处理后的图像特征生成图像特征集合，作为目标视频指纹。

特征提取模型包括卷积神经网络模型。在本实施例中，服务器采用ResNet101网络结构提取图像特征，该网络结构的全连接(Full Connect，FC)层输出2048维的特征。

为了节省存储空间，服务器20还采用主成分分析法(Principal ComponentAnalysis，PCA)对ResNet101输出的特征进行降维处理，根据降维处理后的特征生成图像特征集合，该图像特征集合作为目标视频指纹。需要说明的是，通过PCA算法进行降维处理不仅实现了大幅减少存储空间，而且对视频指纹的精度影响也较小。

step3：针对目标视频和参考视频库中的参考视频，基于目标视频指纹和参考视频指纹进行帧间累积距离查找。

其中，参考视频指纹的生成可以参照step1、step2。在完成step2之后，可以得到视频指纹库，在该视频指纹库中，每一个视频均可由其关键帧的图像特征序列进行表征。针对待检测的目标视频，其对应的视频指纹F＝(N*M)，其中，N代表目标视频的关键帧数量，M表示关键帧对应的图像特征向量的维数。例如，目标视频共30个关键帧，每个关键帧的图像特征向量维数为128，则其对应的视频指纹表示为F＝(30*128)。

如图5所示，针对目标视频的视频指纹F，首先针对每一关键帧f_i在视频指纹库中查找，本实施例中采用脸书相似性搜索类库(Facebook AI Similarity Search，Faiss)进行单个特征查找，返回f_i在视频指纹库中距离最近的1000帧(即图5所示的p_1、p_2…p_1000)，以及这1000帧与该f_i的距离，然后选取这1000帧中距离f_i最远的100帧，对这100帧至f_i的距离取平均值，得到参考距离delta，服务器20将剩余没有返回的距离值均设置为delta，也即对上述1000帧以外的帧将其距离设置为delta，如此可以获得目标视频中每一关键帧至参考视频的距离，如图5所示，P_i1、P_i2…P_is表征第i关键帧至参考视频1、2……s的距离。

针对视频库中每个参考视频，从参考视频中选择与所述目标视频中第i关键帧的最小距离作为所述目标视频中第i关键帧与所述参考视频的距离，接着，通过对目标视频中每一关键帧至参考视频的距离进行累计，可以确定目标视频至参考视频的距离(即图5中P_1、P_2…P_s所示)，从而确定目标视频与参考视频的相似度，实现视频检测。若检测相似度均未超出预设相似度阈值，则表明参考视频库中并不存在与目标视频重复的参考视频，可以对其进行去重处理。

进一步地，该方案还支持继续分析帧与帧之间的相似距离，其在step3中已输出，基于帧与帧之间的相似距离，可以确定目标视频和其相似视频在具体时间上的相似度，从而获得目标视频在相似视频中具体的相似部分。

以上为本申请实施例提供的视频检测方法的一些具体实现方式，基于此，本申请还提供了对应的装置，下面将从功能模块化的角度，对本申请实施例提供的上述装置进行介绍。

参见图6所示的视频检测装置的结构示意图，该装置600包括：

获取模块610，用于获取待检测的目标视频；

目标视频指纹生成模块620，用于对所述目标视频中各关键帧进行特征提取，生成目标视频指纹，所述目标视频指纹包括所述目标视频中各关键帧的图像特征；

第一确定模块630，用于根据所述目标视频指纹和参考视频库中参考视频对应的参考视频指纹，确定所述目标视频中每个关键帧到所述参考视频的距离；其中，所述参考视频指纹包括所述参考视频中各关键帧的图像特征；

第二确定模块640，用于根据所述目标视频中每个关键帧帧到所述参考视频的距离，确定所述目标视频与所述参考视频的相似度。

可选的，所述第一确定模块630，具体用于：

针对所述目标视频中第i关键帧，根据所述目标视频指纹和所述参考视频库中每个参考视频的参考视频指纹，确定与所述目标视频中第i关键帧距离最近的第一预设数量个关键帧，生成所述目标视频中第i关键帧的相似帧集合；所述i取值为所述目标视频中各关键帧的帧编号；

针对每个参考视频，根据所述目标视频中第i关键帧的相似帧集合，确定所述参考视频中第j关键帧与所述目标视频中第i关键帧的距离；所述j取值为所述参考视频中各关键帧的帧编号；

针对每个参考视频，从所述参考视频中选择与所述目标视频中第i关键帧的最小距离作为所述目标视频中第i关键帧与所述参考视频的距离。

可选的，所述第一确定模块630在确定所述参考视频中第j关键帧与所述目标视频中第i关键帧的距离时，具体用于：

针对每个参考视频，当所述参考视频中第j关键帧存在于所述目标视频中第i关键帧的相似帧集合，根据所述参考视频中第j关键帧与所述目标视频中第i关键帧的图像特征确定两帧的距离；

针对每个参考视频，当所述参考视频中第j关键帧不存在于所述目标视频中第i关键帧的相似帧集合，将参考距离作为所述参考视频中第j关键帧与所述目标视频中第i关键帧的距离，所述参考距离是根据所述目标视频中第i关键帧的相似帧集合中相似帧与所述目标视频中第i帧的距离确定所得的。

可选的，所述第一确定模块630具体用于：

针对所述目标视频中第i关键帧，根据所述目标视频指纹和所述参考视频库中每个参考视频的参考视频指纹，确定所述目标视频中第i关键帧与所述参考视频库中每个参考视频的每个关键帧之间的距离；

针对所述参考视频库中每个参考视频，从所述参考视频中选择与所述目标视频中第i关键帧的最小距离作为所述目标视频中第i关键帧与所述参考视频的距离。

可选的，所述第二确定模块640，具体用于：

确定所述目标视频中每个关键帧到所述参考视频的距离的和值，根据所述和值确定所述目标视频与所述参考视频的相似度。

可选的，参见图7，图7为本申请实施例提供的视频检测装置的结构示意图，在图6所示结构的基础上，所述目标视频指纹生成模块620包括：

抽取子模块621，用于针对所述目标视频抽取关键帧，获得所述目标视频的关键帧序列；

提取子模块622，用于针对所述目标视频的关键帧序列中每个关键帧，通过图像特征提取模型提取图像特征得到每个关键帧的图像特征；

视频指纹生成子模块623，用于根据所述目标视频中每个关键帧的图像特征生成图像特征集合，将所述图像特征集合作为目标视频指纹。

可选的，参见图8，图8为本申请实施例提供的视频检测装置的结构示意图，在图6所示结构的基础上，所述装置600还包括：

检索模块650，用于从所述参考视频库中选择与所述目标视频的相似度最大的参考视频，作为所述目标视频的相似视频，将所述目标视频的相似视频作为检索结果，输出所述检索结果。

可选的，参见图9，图9为本申请实施例提供的视频检测装置的结构示意图，在图6所示结构的基础上，所述装置600还包括：

去重模块660，用于当所述参考视频库中与所述目标视频的最大相似度超过预设相似度阈值时，对所述参考视频库和所述目标视频进行去重。

可选的，参见图10，图10为本申请实施例提供的视频检测装置的结构示意图，在图6所示结构的基础上，所述装置600还包括：

定位模块670，用于从所述参考视频库中选择与所述目标视频的相似度最大的参考视频，作为所述目标视频的相似视频，根据所述目标视频中每个关键帧与所述目标视频的相似视频中每个关键帧的距离，从所述目标视频的相似视频中定位出所述目标视频的相似片段。

本申请实施例还提供了一种设备，下面将从硬件实体化的角度对本申请实施例提供的设备进行介绍。

图11是本申请实施例提供的一种设备的结构示意图，该设备具体可以是服务器，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1122(例如，一个或一个以上处理器)和存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1122可以设置为与存储介质1130通信，在服务器1100上执行存储介质1130中的一系列指令操作。

服务器1100还可以包括一个或一个以上电源1126，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1158，和/或，一个或一个以上操作系统1141，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图11所示的服务器结构。

其中，CPU 1122用于执行如下步骤：

获取待检测的目标视频；

可选的，所述CPU 1122还用于执行本申请实施例提供的视频检测方法的任意一种实现方式的步骤。

本申请实施例还提供了另一种设备，该设备具体可以是终端，如图12所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(英文全称：PersonalDigital Assistant，英文缩写：PDA)、销售终端(英文全称：Point of Sales，英文缩写：POS)、车载电脑等任意终端设备，以终端为手机为例：

图12示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图12，手机包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路1210、存储器1220、输入单元1230、显示单元1240、传感器1250、音频电路1260、无线保真(英文全称：wirelessfidelity，英文缩写：WiFi)模块1270、处理器1280、以及电源1290等部件。本领域技术人员可以理解，图12中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图12对手机的各个构成部件进行具体的介绍：

RF电路1210可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1280处理；另外，将设计上行的数据发送给基站。通常，RF电路1210包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(英文全称：LowNoise Amplifier，英文缩写：LNA)、双工器等。此外，RF电路1210还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(英文全称：Global System of Mobile communication，英文缩写：GSM)、通用分组无线服务(英文全称：General Packet Radio Service，GPRS)、码分多址(英文全称：CodeDivision Multiple Access，英文缩写：CDMA)、宽带码分多址(英文全称：Wideband CodeDivision Multiple Access,英文缩写：WCDMA)、长期演进(英文全称：Long TermEvolution，英文缩写：LTE)、电子邮件、短消息服务(英文全称：Short Messaging Service，SMS)等。

存储器1220可用于存储软件程序以及模块，处理器1280通过运行存储在存储器1220的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1220可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1220可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1230可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1230可包括触控面板1231以及其他输入设备1232。触控面板1231，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1231上或在触控面板1231附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1231可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1280，并能接收处理器1280发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1231。除了触控面板1231，输入单元1230还可以包括其他输入设备1232。具体地，其他输入设备1232可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1240可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1240可包括显示面板1241，可选的，可以采用液晶显示器(英文全称：Liquid Crystal Display，英文缩写：LCD)、有机发光二极管(英文全称：Organic Light-Emitting Diode，英文缩写：OLED)等形式来配置显示面板1241。进一步的，触控面板1231可覆盖显示面板1241，当触控面板1231检测到在其上或附近的触摸操作后，传送给处理器1280以确定触摸事件的类型，随后处理器1280根据触摸事件的类型在显示面板1241上提供相应的视觉输出。虽然在图12中，触控面板1231与显示面板1241是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1231与显示面板1241集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1250，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1241的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1241和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1260、扬声器1261，传声器1262可提供用户与手机之间的音频接口。音频电路1260可将接收到的音频数据转换后的电信号，传输到扬声器1261，由扬声器1261转换为声音信号输出；另一方面，传声器1262将收集的声音信号转换为电信号，由音频电路1260接收后转换为音频数据，再将音频数据输出处理器1280处理后，经RF电路1210以发送给比如另一手机，或者将音频数据输出至存储器1220以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1270可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图12示出了WiFi模块1270，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1280是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1220内的软件程序和/或模块，以及调用存储在存储器1220内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1280可包括一个或多个处理单元；优选的，处理器1280可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1280中。

手机还包括给各个部件供电的电源1290(比如电池)，优选的，电源可以通过电源管理系统与处理器1280逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端所包括的处理器1280还具有以下功能：

获取待检测的目标视频；

可选的，所述处理器1280还用于执行本申请实施例提供的视频检测方法的任意一种实现方式的步骤。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行前述各个实施例所述的一种视频检测方法中的任意一种实施方式。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例所述的一种视频检测方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频检测方法，其特征在于，包括：

获取待检测的目标视频；

2.根据权利要求1所述方法，其特征在于，所述根据所述目标视频指纹和参考视频库中参考视频对应的参考视频指纹，确定所述目标视频中每个关键帧到所述参考视频的距离，包括：

3.根据权利要求2所述方法，其特征在于，所述针对每个参考视频，根据所述目标视频中第i关键帧的相似帧集合，确定所述参考视频中第j关键帧与所述目标视频中第i关键帧的距离，包括：

针对每个参考视频，当所述参考视频中第j关键帧不存在于所述目标视频中第i关键帧的相似帧集合，将参考距离作为所述参考视频中第j关键帧与所述目标视频中第i关键帧的距离，所述参考距离为根据所述目标视频中第i关键帧的相似帧集合中相似帧与所述目标视频中第i帧的距离确定。

4.根据权利要求1所述方法，其特征在于，所述根据所述目标视频指纹和参考视频库中各参考视频各自对应的参考视频指纹，确定所述目标视频指纹中每个关键帧到所述参考视频库中各参考视频的距离，包括：

5.根据权利要求1至4中任一项所述方法，其特征在于，所述根据所述目标视频中每个关键帧到所述参考视频的距离，确定所述目标视频与所述参考视频的相似度，包括：

确定所述目标视频中每个关键帧到所述参考视频的距离之和，作为所述目标视频与所述参考视频的相似度。

6.根据权利要求1至4中任一项所述方法，其特征在于，所述对所述目标视频中的关键帧进行特征提取，生成目标视频指纹，包括：

针对所述目标视频抽取关键帧，获得所述目标视频的关键帧序列；

针对所述目标视频的关键帧序列中每个关键帧，通过图像特征提取模型提取图像特征得到每个关键帧的图像特征；

根据所述目标视频中每个关键帧的图像特征生成图像特征集合，将所述图像特征集合作为目标视频指纹。

7.根据权利要求1至4中任一项所述方法，其特征在于，所述参考视频库中包括多个参考视频；则所述方法还包括：

从所述参考视频库中选择与所述目标视频的相似度最大的参考视频，作为所述目标视频的相似视频；

将所述目标视频的相似视频作为检索结果，输出所述检索结果。

8.根据权利要求1至4中任一项所述方法，其特征在于，所述参考视频库中包括至少一个参考视频；则所述方法还包括：

当所述参考视频库中与所述目标视频的最大相似度超过预设相似度阈值时，对所述参考视频库和所述目标视频进行去重。

9.根据权利要求1至4中任一项所述方法，其特征在于，所述参考视频库中包括至少一个参考视频；则所述方法还包括：

根据所述目标视频中每个关键帧与所述目标视频的相似视频中每个关键帧的距离，从所述目标视频的相似视频中定位出所述目标视频的相似片段。

10.一种视频检测装置，其特征在于，包括：

获取模块，用于获取待检测的目标视频；

11.根据权利要求10所述装置，其特征在于，所述第一确定模块，具体用于：

12.根据权利要求11所述装置，其特征在于，所述第一确定模块，具体用于：

13.根据权利要求10所述装置，其特征在于，所述第二确定模块，具体用于：确定所述目标视频中每个关键帧到所述参考视频的距离的和值，根据所述和值确定所述目标视频与所述参考视频的相似度。

14.一种设备，其特征在于，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行权利要求1至9任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1至9任一项所述的方法。