CN110796088A

CN110796088A - 视频相似性判定方法及装置

Info

Publication number: CN110796088A
Application number: CN201911042939.3A
Authority: CN
Inventors: 赵君豪; 钟松辉; 姜涛; 姜东�
Original assignee: Xingyin Information Technology Shanghai Co ltd
Current assignee: Xingyin Information Technology Shanghai Co ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-02-14
Anticipated expiration: 2039-10-30
Also published as: CN110796088B

Abstract

本发明提供了一种视频相似性判定方法及装置，该方案提取待处理视频中场景切换关键帧，并提取该关键帧的深度学习特征；依据待处理视频的深度学习特征及预先得到的聚类类别得到该待处理视频的类别组合。从历史视频中初步查找出与待处理视频的类别组合相匹配的候选视频集合；然后，再确定候选视频中是否存在与待处理视频相似的视频。该方案仅需提取视频中关键帧深度学习特征，不需要提取视频每一帧深度学习特征。任意一个视频文件中关键帧数量远远低于视频中全部帧数量，因此提高了检测效率。此外，使用视频关键帧的类别组合筛选候选视频可以显著的减少计算时间，而不需要针对每个历史视频精确计算其与待处理视频之间深度学习特征的相似度。

Description

视频相似性判定方法及装置

技术领域

本发明属于计算机技术领域，尤其涉及视频相似性判定方法及装置。

背景技术

随着视频平台的日益增多，使用视频平台的用户也越来越多，用户不仅可以在视频平台上观看其他人上传的视频，还可以向视频平台发送视频，例如自己拍摄的视频。但是，有些用户可能直接搬运本视频平台内其他用户的视频，或者，多个本视频平台的用户搬运其他视频平台的同一视频，这些行为都会导致视频平台内存储的视频出现重复视频。大量重复视频占用了视频平台中的有限存储空间，而且，使得视频平台向用户推荐相同的视频，降低用户体验。

目前，已有的视频相似性检测方案是利用传统的图像处理方法提取视频中每一帧图像深度学习特征，然后，使用词袋模型来表征视频并进行倒排索引，最后利用词频逆文档频率指数来进行相似度判定。这种方案效率低、准确率低。

发明内容

有鉴于此，本发明的目的在于提供一种视频相似性判定方法，以解决现有的视频相似性检测方案存在的检测效率低、准确率低的技术问题。其具体的技术方案如下：

第一方面，本发明提供了一种视频相似性判定方法，包括：

提取待处理视频中所有场景切换关键帧，提取每个场景切换关键帧的深度学习特征，该深度学习特征能够表征该场景切换关键帧的高维度信息；

针对所述待处理视频中的每个场景切换关键帧，基于该场景切换关键帧的深度学习特征及预先得到的聚类类别，获得该待处理视频中每一个场景切换关键帧所属的类别结果，并得到所述待处理视频对应的类别组合，所述聚类类别通过预先对历史视频的场景切换关键帧进行聚类得，所述待处理视频对应的类别组合由该处理视频的所有场景切换关键帧所属的类别结果组成；

比较各个所述历史视频及所述待处理视频对应的类别组合，获得与该待处理视频的类别组合相匹配的候选视频集合，其中，历史视频的类别组合由该历史视频的场景切换关键帧所属的类别结果得到；

依据所述待处理视频中的每个场景切换关键帧的深度学习特征及所述候选视频集合中每个场景切换关键帧的深度学习特征，确定所述候选视频集合中是否存在与所述待处理视频相似的相似视频。

可选地，所述聚类类别的获取过程包括：

对于任一历史视频，提取所述历史视频中的所有场景切换关键帧；

提取每个场景切换关键帧的深度学习特征，该深度学习特征能够表征该场景切换关键帧的高维度信息；

基于所述历史视频的场景切换关键帧的深度学习特征，对所述所有历史视频的场景切换关键帧进行聚类得到多个所述聚类类别；

针对每个历史视频，确定该历史视频所包含的全部场景切换关键帧所属的聚类类别，并得到该历史视频的场景切换关键帧的类别结果组成的类别组合；

建立每个历史视频的类别组合与该历史视频的标识之间的倒排索引。

可选地，所述针对所述待处理视频中的每个关键帧，基于该关键帧的深度学习特征及预先得到的聚类类别，获得该待处理视频中每一个场景切换关键帧所属的类别结果，并得到所述待处理视频对应的类别组合，包括：

针对所述待处理视频中的每个场景切换关键帧，计算该场景切换关键帧的深度学习特征与各个所述聚类类别的聚类中心之间的特征距离；

依据所述特征距离确定出该场景切换关键帧所属的类别结果；

按照所述待处理视频中各个场景切换关键帧的时序，排列各个场景切换关键帧所属的类别结果，得到该待处理视频的类别组合。

可选地，所述比较各个所述历史视频及所述待处理视频对应的类别组合，获得与该待处理视频的类别组合相匹配的候选视频集合，包括：

从所述历史视频对应的倒排索引中检索类别组合与所述待处理视频的类别组合相匹配的历史视频，确定为所述候选视频。

可选地，从所述历史视频对应的倒排索引中检索类别组合与所述待处理视频的类别组合相匹配的历史视频，确定为所述候选视频，包括：

从所述历史视频对应的倒排索引中检索类别组合与所述待处理视频的类别组合完全相同的历史视频，确定为所述候选视频；

或者，

从所述历史视频对应的倒排索引中检索类别组合与所述待处理视频的类别组合部分相同的历史视频，确定为所述候选视频；

或者，

依据场景切换关键帧对应的类别频率，从所述历史视频对应的倒排索引中检索与所述待处理视频相匹配的候选视频。

可选地，所述依据所述待处理视频中的每个场景切换关键帧的深度学习特征及所述候选视频集合中每个视频的场景切换关键帧的深度学习特征，确定所述候选视频集合中是否存在与所述待处理视频相似的相似视频，包括：

对于任一个候选视频，计算该候选视频中的每一个场景切换关键帧的深度学习特征与所述待处理视频中对应的场景切换关键帧的深度学习特征之间的距离；

计算该候选视频与所述待处理视频的所有场景切换关键帧之间的距离平均值；

若所述距离平均值小于或等于预设距离阈值，则确定该候选视频与所述待处理视频相似；

若所述距离平均值大于所述预设距离阈值，则确定该候选视频与所述待处理视频不相似。

可选地，所述方法还包括：

当确定所述历史视频中不存在与所述待处理视频相似的相似视频后，将所述待处理视频的场景切换关键帧所属的类别结果、及该待处理视频对应的类别组合与所述待处理视频的视频标识添加到所述倒排索引中。

可选地，所述方法还包括：

当确定所述历史视频中不存在与所述待处理视频相似的相似视频后，将所述待处理视频保存至视频库中。

第二方面，本发明还提供了一种视频相似性检测装置，包括：

关键帧提取模块，用于提取待处理视频中的所有场景切换关键帧；

深度学习特征提取模块，用于提取每个场景切换关键帧的深度学习特征，该深度学习特征能够表征该场景切换关键帧的高维度信息；

类别获取模块，用于针对所述待处理视频中的每个场景切换关键帧，基于该场景切换关键帧的深度学习特征及预先得到的聚类类别，获得该待处理视频中每一个场景切换关键帧所属的类别结果，并得到所述待处理视频对应的类别组合，所述聚类类别通过预先对历史视频的场景切换关键帧进行聚类得，所述待处理视频对应的类别组合由该处理视频的所有场景切换关键帧所属的类别结果组成；

查找模块，比较各个所述历史视频及所述待处理视频对应的类别组合，获得与该待处理视频的类别组合相匹配的候选视频集合；

确定模块，用于依据所述待处理视频中的每个场景切换关键帧的深度学习特征及所述候选视频集合中每个视频的场景切换关键帧的深度学习特征，确定所述候选视频集合中是否存在与所述待处理视频相似的相似视频。

可选地，所述类别获取模块包括：

第一距离获取子模块，用于针对所述待处理视频中的每个场景切换关键帧，计算该场景切换关键帧的深度学习特征与各个所述聚类类别的聚类中心之间的特征距离；

关键帧类别确定子模块，用于依据所述特征距离确定出该场景切换关键帧所属的类别结果；

类别组合确定子模块，用于按照所述待处理视频中各个场景切换关键帧的时序，排列各个场景切换关键帧所属的类别结果，得到该待处理视频的类别组合。

本发明提供的视频相似性判定方法，获取待处理视频中场景切换关键帧，并提取该场景切换关键帧的深度学习特征；依据待处理视频的深度学习特征及预先得到的聚类类别得到该待处理视频的类别组合。从历史视频中初步查找出类别组合与待处理视频的类别组合相匹配的候选视频；然后，再计算待处理视频中每个场景切换关键帧的深度学习特征与候选视频中对应关键帧的深度学习特征之间的距离，以确定候选视频中是否存在与待处理视频相似的视频。该方案仅需提取视频中场景切换关键帧的深度学习特征，不需要提取视频每一帧的深度学习特征。任意一个视频文件中场景切换关键帧数量远远低于视频中全部帧数量，因此提高了检测效率。而且，该方案能够提取维度更高的深度学习特征，特征的维度越高所表征的含义更准确，因此提高了检测结果的准确率。此外，使用类别组合筛选候选视频可以显著的减少计算时间，因为不需要针对每个历史视频精确计算其与待处理视频之间深度学习特征的相似度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种视频相似性判定方法的流程图；

图2是本发明实施例提供的获取待处理视频的类别组合过程的流程图；

图3是本发明实施例提供的确定相似视频过程的流程图；

图4是本发明实施例提供的获取历史视频的聚类类别过程的流程图；

图5是本发明实施例提供的一种视频相似性检测装置的框图；

图6本发明实施例提供的另一种视频相似性检测装置的框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，示出了本发明实施例提供的一种视频相似性判定方法的流程图，该方法应用于服务端，该方法用于检测出相似视频，避免服务端存储大量的重复视频，影响用户体验。如图1所示，该方法可以包括以下步骤：

S110，提取待处理视频中的所有关键帧，以及提取每个关键帧的深度学习特征；其中，该深度学习特征能够表征该关键帧的高维度信息。

需要说明的是，本文中的关键帧即前述的场景切换关键帧。

以视频平台为例，待处理视频可以是用户上传至服务端的新视频，通常服务端会对用户上传的视频审核通过后才会在视频平台上发布，发布后其他用户才能看到该视频。其中，审核过程包括本方案的相似性检查。

在本发明的另一个实施例中，该待处理视频还可以是已经存储到视频库中的视频，此种应用场景下可以对视频库中的视频进行相似性检测以便下一步去除重复的视频。

视频是由一系列静态图像帧组成，当按顺序播放时创建运动图像，其中，关键帧是视频中图像的完整帧。

可以利用目前已经成熟的工具提取视频中的关键帧，例如，ffmpeg视频编码工具。

提取出视频中场景切换关键帧之后，可以利用特征提取网络提取各个关键帧的特征，即深度学习特征。

例如，可以利用深度学习网络提取关键帧的深度学习特征，例如，深度学习网络可以是卷积神经网络，例如，Inception v4网络架构。由于卷积神经网络可以学习得到图像中的高维语义特征，所以能够更准确地表征关键帧的含义。

S120，针对待处理视频中的每个关键帧，基于该关键帧的深度学习特征及预先得到的聚类类别，获得该待处理视频的类别组合。

其中，预先对历史视频的关键帧进行聚类得到多个聚类类别，每个聚类类别都包含多个关键帧，且每个聚类类别具有相应的类别标识。

例如，100个历史视频总共具有1000个关键帧，对这1000个关键帧进行聚类得到10个聚类簇，每个聚类簇是一个聚类类别。类别标识可以直接使用数字、字母等，只要能够区分不同的聚类类别即可，本发明对此并不限制。

在本发明的一个实施例中，如图2所示，获取待处理视频的类别组合的过程可以包括以下步骤：

S121，针对待处理视频中的每个关键帧，计算该关键帧的深度学习特征与各个聚类类别的聚类中心之间的距离(或称为特征距离)。

例如，待处理视频包括3个关键帧，分别是关键帧a、关键帧b和关键帧c，分别计算关键帧a、b、c与已经获得的10个聚类类别(类别标识分别是1-10)的聚类中心之间的距离。即，每个关键帧分别与这10个聚类中心之间的距离。

其中，该距离可以是欧式距离，当然也可以是其它距离本申请对此并不限定。

S122，依据距离确定出该关键帧所属的聚类类别。

其中，确定出每个关键帧与各个聚类中心之间的距离中的最小值，最小值对应的聚类类别即该关键帧所属的类别。

例如，关键帧a与聚类类别5之间的距离最小，则表明关键帧a属于聚类类别5。

S123，按照待处理视频中各个关键帧的时序，排列各个关键帧所属类别结果，得到该待处理视频的类别组合。

例如，待处理视频中关键帧的时序为a→b→c，其中，关键帧a属于聚类类别5、关键帧b属于聚类类别3、关键帧c属于聚类类别6，则该待处理视频对应的类别组合为536。

S130，从历史视频中检索出与该待处理视频的类别组合相匹配的候选视频。

获得待处理视频的类别组合后，从历史视频中检索类别组合与该待处理视频的类别组合相匹配的候选视频。

与待处理视频相似，每个历史视频也具有一个类别组合，比较历史视频的类别组合与待处理视频的类别组合，初步找出与待处理视频相似的候选视频。

在本发明的一个实施例中，获得各个历史视频的类别组合后，构建类别组合与历史视频的视频标识之间的倒排索引，这样，通过搜索该倒排索引中的类别组合获得与待处理视频的类别组合相匹配的历史视频。

在本发明的一个实施例中，匹配过程可以是类别组合完全匹配、类别组合部分匹配、或者，依据关键帧类别频率进行类别组合匹配，或者，综合匹配等。

例如，对于完全匹配，只有当两个视频的类别组合完全相同才认为这两个类别组合相匹配。而对于部分匹配，只有当两个视频的类别组合部分相同就认为这两个类别组合相匹配，例如，一个类别组合是5236，另一个类别组合是5231，此时认为这两个类别组合相匹配。

对于依据关键帧类别频率进行类别组合匹配的方式，其中，该关键帧类别频率与词频-逆文档频率的含义相同，用于表征视频中某个关键帧所属聚类类别对于一个视频的重要程度。例如，某个视频中的关键帧图像特征所属的聚类类别极具辨识度，则该关键帧图像特征所属的聚类类别可以看做一个可区分此视频与其它视频的关键特征，即直接利用该关键帧图像特征所属的聚类类别来识别相似视频。

可以利用类别组合的完全匹配或部分匹配等匹配方式进行多维度比较，从而识别出一个视频包含于另一个视频的情况，提高了检测精确度。

候选视频是与该待处理视频可能相似的视频，然后，再利用S140精确判断候选视频中是否存在相似视频。

S140，依据待处理视频中的每个关键帧的深度学习特征及候选视频集合中对应关键帧的深度学习特征，确定所述候选视频集合中是否存在与所述待处理视频相似的相似视频。

在本发明的一个实施例中，如图3所示，确定相似视频的过程可以包括以下步骤：

S141，对于任一个候选视频，计算该候选视频中的每一个关键帧的深度学习特征与所述待处理视频中对应关键帧的深度学习特征之间的距离。

基于深度学习特征计算待处理视频中的各个关键帧与任意一个候选视频的相对应的关键帧之间的距离。其中，该距离可以是欧式距离，或者其它类型的距离。

例如，待处理视频包括关键帧a、b、c，初步搜索到与待处理视频相似的3个候选视频，候选视频1包括关键帧d、e、f，候选视频2包括关键帧g、h、i，候选视频3包括关键帧j、k、l、m。则需要计算关键帧a与d之间的距离，a与g之间的距离，a与j之间的距离；计算关键帧b分别与e、h、k之间的距离；计算关键帧c分别与f、i、l之间的距离。

S142，计算该候选视频与所述待处理视频的所有关键帧之间的距离平均值。

计算得到待处理视频与各个候选视频中相应关键帧之间的距离后，计算该待处理视频与同一候选视频的距离平均值。

例如，计算待处理视频与候选视频1中各个关键帧之间的距离平均值，即计算a与d的距离、b与e的距离，以及，c与f的距离，这三个距离的平均值。

S143，若距离平均值小于或等于预设距离阈值，则确定该候选视频与待处理视频相似。

如果待处理视频与该候选视频的距离平均值小于或预设距离阈值，则确定该候选视频与该待处理视频相似。

其中，预设距离阈值可以根据实际需求自行设定；如果预设距离阈值太小则可能会漏掉很多相似视频，如果预设距离阈值太大则可能将很多不相似的视频判定为相似视频。

S144，若距离平均值大于预设距离阈值，则确定该候选视频与待处理视频不相似。

如果待处理视频与该候选视频的距离平均值大于预设距离阈值，则确定该候选视频与该待处理视频不相似。

可选地，在本发明的其它实施例中，可以设置两个预设距离阈值，例如，第一预设距离阈值和第二预设距离阈值，其中，第一预设距离阈值大于第二预设距离阈值。利用第一预设距离阈值先筛选出比较相似的视频集合，然后，再利用第二预设距离阈值从所述视频集合中筛选出最相似的视频。

可选地，在本发明的其它实施例中，当确定出历史视频中不存在与该待处理视频相似的相似视频后，将该待处理视频存储到视频库中。

本实施例提供的视频相似性判定方法，提取待处理视频中的关键帧，并提取该关键帧的深度学习特征；然后，依据待处理视频的深度学习特征及预先得到的聚类类别得到该待处理视频的类别组合。从历史视频中初步查找出类别组合与待处理视频的类别组合相匹配的候选视频；然后，再依据待处理视频中每个关键帧的深度学习特征与候选视频中相对应的关键帧的深度学习特征确定相似视频中是否存在与待处理视频相似的视频。该方案仅需提取视频中关键帧深度学习特征，不需要提取每一个视频帧深度学习特征，关键帧的数量远远低于视频帧的数量，因此提高了检测效率。而且，该方案能够提取维度更高的深度学习特征，特征的维度越高所表征的含义更准确，因此提高了检测结果的准确率。此外，使用类别匹配结果筛选候选视频可以显著的减少计算时间，而不需要针对每个历史视频精确计算其与待处理视频之间深度学习特征的相似度。

请参见图4，示出了本发明实施例提供的获取历史视频的类别过程的流程图，该过程可以线下进行，例如，可以在前端读取历史视频不频繁的时间段执行该过程。

如图4所示，该过程可以包括以下步骤：

S210，对于任一历史视频，提取该历史视频中的所有关键帧。

S220，提取每个关键帧的深度学习特征，该深度学习特征能够表征该关键帧的高维度信息。

利用深度学习网络提取关键帧的深度学习特征，此过程与S110中的深度学习特征提取过程相同，此处不再赘述。

S230，基于所有历史视频中的所有关键帧的深度学习特征，对所述关键帧进行聚类得到多个所述聚类类别。

例如，共有100个历史视频，每个历史视频具有10个关键帧，这100个历史视频共具有1000个关键帧，提取每个关键帧的深度学习特征。

利用聚类算法对所有关键帧进行聚类得到不同的聚类簇，并为每个聚类簇标记标识。每个聚类簇是一个聚类类别，聚类簇的标识就是类别标识。

例如，聚类算法可以采用K-means算法，或者，DBSCAN聚类算法等。

S240，针对每个历史视频，确定该历史视频所包含的全部关键帧所属的聚类类别，并得到该历史视频的类别组合。

确定历史视频的类别组合的过程与确定待处理视频的类别组合的过程相似，例如，历史视频中关键帧按时间顺序依次为：a→b→c，且关键帧a属于聚类类别5、关键帧b属于聚类类别3、关键帧c属于聚类类别6，则该历史视频对应的类别组合为536。

S250，建立每个历史视频的类别组合与该历史视频的标识之间的倒排索引。

倒排索引中具体存储的是每个视频所对应的关键帧所属聚类类别的类别组合标识序列。

倒排索引中的每一项都包括一个类别标识序列和具有该类别的视频标识。

后续可以直接按照类别组合对应的类别标识序列从倒排索引中搜索与待处理视频的类别组合相匹配的历史视频，进一步再从历史视频中确定出与待处理视频相似的相似视频。

当确定历史视频中不存在与该待处理视频相似的相似视频后，将该待处理视频的类别组合对应的标识及视频标识更新到倒排索引中，以便利用最全的历史视频对下一个新的视频进行相似性检测。

本实施例提供的获取历史视频的聚类类别的过程，先从历史视频中提取深度学习特征，再依据深度学习特征进行聚类，得到的各个聚类簇就是聚类类别。利用聚类算法对视频中的深度学习特征进行聚类后，能够加快搜索速度。而且，视频所属的类别组合表征视频的时序性特征，能够显著缩小搜索范围。

相应于上述的视频相似性判定方法实施例，本发明还提供了相应的装置实施例。

请参见图5，示出了本发明实施例提供的一种视频相似性检测装置的框图，该装置应用于服务器中，如图5所示，该装置包括：关键帧提取模块110、深度学习特征提取模块120、类别获取模块130、查找模块140和确定模块150。

关键帧提取模块110，用于提取待处理视频中的所有关键帧。

需要说明的是，本文中的关键帧即场景切换关键帧。可以利用目前已经成熟的工具提取视频中的关键帧，例如，ffmpeg视频编码工具。

深度学习特征提取模块120，用于提取每个关键帧的深度学习特征。

该深度学习特征能够表征该关键帧的高维度信息。

提取出视频中的关键帧之后，可以利用特征提取网络提取各个关键帧深度学习特征，即深度学习特征。

类别获取模块130，用于针对待处理视频中的每个关键帧，基于该关键帧的深度学习特征及预先得到的聚类类别，获得该待处理视频的类别组合。

所述聚类类别是预先对历史视频关键帧进行聚类得到。

预先对历史视频中的关键帧进行聚类得到多个聚类类别，每个聚类类别都包含多个关键帧，每个关键帧对应一个聚类类别，且每个聚类类别具有相应的类别标识。

在本发明的一个实施例中，还包括历史视频类别获取模块，该模块用于预先获得历史视频的聚类类别，该历史视频类别获取模块包括：第一提取子模块、第二提取子模块、聚类子模块、类别确定子模块和索引建立子模块。

第一提取子模块，用于对于任一历史视频，提取所述历史视频中的所有关键帧；

第二提取子模块，用于提取每个所述关键帧的深度学习特征，该深度学习特征能够表征该关键帧的高维度信息；

聚类子模块，用于基于所有历史视频中的关键帧的深度学习特征，对所有历史视频的关键帧进行聚类得到多个聚类类别；

类别确定子模块，用于针对每个历史视频，确定该历史视频所包含的全部关键帧所属的聚类类别，并得到该历史视频的类别组合；

索引建立子模块，用于建立每个历史视频的类别组合与该历史视频的标识之间的倒排索引。

在本发明的一个实施例中，所述类别获取模块130包括：距离获取子模块、关键帧类别确定子模块和视频类别确定子模块；

第一距离获取子模块，用于针对所述待处理视频中的每个关键帧，计算该关键帧的深度学习特征与各个聚类中心之间的距离；

关键帧类别确定子模块，用于依据所述距离确定出该关键帧所属的聚类类别；

视频类别确定子模块，用于按照所述待处理视频中各个关键帧的时序，排列各个关键帧所属聚类类别，得到该待处理视频的类别组合。

查找模块140，用于从历史视频中查找出与该待处理视频的类别组合相匹配的候选视频。

在本发明的一个实施例中，该查找模块具体用于：从所述历史视频对应的倒排索引中搜索类别标识与所述待处理视频的类别标识相匹配的历史视频，确定为所述候选视频。

在一种可能的实现方式中，从所述历史视频对应的倒排索引中搜索类别标识与所述待处理视频的类别标识完全相同的历史视频，确定为所述候选视频。

在另一种可能的实现方式中，从所述历史视频对应的倒排索引中搜索类别组合与所述待处理视频的类别组合部分相同的历史视频，确定为所述候选视频。

在又一种可能的实现方式中，依据关键帧类别频率，从所述历史视频对应的倒排索引中搜索与所述待处理视频相匹配的候选视频。

确定模块150，用于依据待处理视频中的每个关键帧的深度学习特征及候选视频中对应关键帧的深度学习特征，确定出是否存在与待处理视频相似的相似视频。

在本发明的一个实施例中，该确定模块150包括：

第二距离获取子模块，用于对于任一个候选视频，计算该候选视频中的每一个关键帧的深度学习特征与所述待处理视频中对应关键帧的深度学习特征之间的距离；

第三距离获取子模块，用于计算该候选视频与所述待处理视频的所有关键帧之间的距离平均值；若所述距离平均值小于或等于预设距离阈值，则确定该候选视频与所述待处理视频相似；若所述距离平均值大于所述预设距离阈值，则确定该候选视频与所述待处理视频不相似。

本实施例提供的相似视频相似性检测装置，该装置仅需提取视频中关键帧深度学习特征，不需要提取每一个视频帧深度学习特征，关键帧的数量远远低于视频帧的数量，因此提高了检测效率。而且，该方案能够提取维度更高的深度学习特征，特征的维度越高所表征的含义更准确，因此提高了检测结果的准确率。此外，使用类别匹配结果筛选候选视频可以显著的减少计算时间，而不需要针对每个历史视频精确计算其与待处理视频之间深度学习特征的相似度。

请参见图6，示出了本发明实施例提供的另一种视频相似性检测装置的框图，该装置在图5所示实施例的基础上还包括：索引更新模块210和视频上传模块220。

索引更新模块210，用于当确定历史视频中不存在与待处理视频相似的相似视频后，将待处理视频的关键帧的所属的聚类类别及类别组合与待处理视频的视频标识添加到倒排索引中。

视频上传模块220，用于当确定历史视频中不存在与待处理视频相似的相似视频后，将待处理视频保存至视频库中。

本实施例提供的视频相似性检测装置，当确定历史视频中不存在与当前视频相似的视频后，确定该当前视频不是重复视频，然后，将该当前视频的关键帧的深度学习特征，类别组合对应的类别标识及视频标识添加到倒排索引中；以便进行下一次相似性检测。同时，将该视频保存至视频库中。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请各实施例中的装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频相似性判定方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述聚类类别的获取过程包括：

3.根据权利要求1所述的方法，其特征在于，所述针对所述待处理视频中的每个关键帧，基于该关键帧的深度学习特征及预先得到的聚类类别，获得该待处理视频中每一个场景切换关键帧所属的类别结果，并得到所述待处理视频对应的类别组合，包括：

4.根据权利要求2所述的方法，其特征在于，所述比较各个所述历史视频及所述待处理视频对应的类别组合，获得与该待处理视频的类别组合相匹配的候选视频集合，包括：

5.根据权利要求4所述的方法，其特征在于，从所述历史视频对应的倒排索引中检索类别组合与所述待处理视频的类别组合相匹配的历史视频，确定为所述候选视频，包括：

或者，

6.根据权利要求1所述的方法，其特征在于，所述依据所述待处理视频中的每个场景切换关键帧的深度学习特征及所述候选视频集合中每个视频的场景切换关键帧的深度学习特征，确定所述候选视频集合中是否存在与所述待处理视频相似的相似视频，包括：

7.根据权利要求2所述的方法，其特征在于，所述方法还包括：

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

9.一种视频相似性检测装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，所述类别获取模块包括：