CN106484837B

CN106484837B - 相似视频文件的检测方法和装置

Info

Publication number: CN106484837B
Application number: CN201610873855.4A
Authority: CN
Inventors: 胡丹; 万明月; 冯少伟
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2016-09-30
Filing date: 2016-09-30
Publication date: 2020-08-04
Anticipated expiration: 2036-09-30
Also published as: CN106484837A

Abstract

本发明公开了一种相似视频文件的检测方法和装置。该方法包括：获取第一视频文件的第一关键帧与第二视频文件的第二关键帧中指纹相同的关键帧的数量，该数量与第二关键帧的数量的比值记为第一比值；获取第一视频文件的第一音频指纹序列和第二视频文件的第二音频指纹序列中相同的音频指纹序列，将该音频指纹序列中音频指纹序号的范围与第二音频指纹序列中的音频指纹的数量的比值为第二比值，将该音频指纹序列中的音频指纹的数量与该音频指纹序列中音频指纹序号的范围的比值为第三比值；根据第一比值、第二比值和第三比值中的至少一个判断第一视频文件与第二视频文件是否相似。本发明解决了相关技术中对相似视频文件的检测准确度较低的技术问题。

Description

相似视频文件的检测方法和装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种相似视频文件的检测方法和装置。

背景技术

目前，视频相似度检测被广泛应用于盗版视频监控领域，相关技术中的视频相似度检测方法主要是基于视频关键帧指纹匹配，如图1所示，相关技术中的视频相似度检测方法主要分为以下两步：

1)分别获取视频a和视频b的关键帧指纹特征：分别提取正版视频(假设为视频a)与疑似盗版视频(假设为视频b)的关键帧，并计算关键帧的颜色分布直方图，然后将直方图转化成固定长度的0/1序列，即单帧关键帧的指纹特征。

2)将两个视频关键帧的指纹序列进行比对，计算两个指纹序列中重叠的指纹个数，得到视频a和视频b之间的相似度。

上述视频相似度检测方法对视频相似度的检测准确度较低，存在以下缺陷：

1、即使相同的视频在不同编码格式下，提取到的关键帧也不完全相同，仅靠关键帧指纹并不能准确计算视频的相似度。

2、直方图只是图像中颜色的全局分布的描述，无法描述颜色的局部分布和色彩所处的位置。因此，内容不同的图像其直方图也很有可能相同，导致不同内容的关键帧的指纹相同。

3、相比于正版视频，受录制条件等因素影响，盗版视频可能会存在额外的黑色边，表现为：画面缩小，视频上下左右都有几厘米宽的黑边。关键指纹因此而改变，相同的视频也无法识别出来。

4、盗版视频中可能插播了广告，受此影响，关键帧指纹匹配算法准确率会进一步下降。

受上面几点因素的影响，相关技术中的视频相似度检测方法并不能准确计算两视频的相似度，极有可能产生错判。因此，相关技术方案并不能作为一种可信赖的方案应用于全自动化盗版视频监控。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种相似视频文件的检测方法和装置，以至少解决相关技术中对相似视频文件的检测准确度较低的技术问题。

根据本发明实施例的一个方面，提供了一种相似视频文件的检测方法，包括：根据第一视频文件的第一关键帧的第一关键帧指纹集与第二视频文件的第二关键帧的第二关键帧指纹集，获取第一关键帧与第二关键帧中指纹相同的关键帧的数量，其中，将指纹相同的关键帧的数量与第二关键帧的数量的比值记为第一比值；获取第一视频文件的第一音频指纹序列和第二视频文件的第二音频指纹序列中相同的音频指纹序列，记为第三音频指纹序列，其中，将第三音频指纹序列中音频指纹序号的范围与第二音频指纹序列中的音频指纹的数量的比值记为第二比值，将第三音频指纹序列中的音频指纹的数量与第三音频指纹序列中音频指纹序号的范围的比值记为第三比值；根据第一比值、第二比值和第三比值中的至少一个判断第一视频文件与第二视频文件是否为相似视频文件。

根据本发明实施例的另一方面，还提供了一种相似视频文件的检测装置，包括：第一获取单元，用于根据第一视频文件的第一关键帧的第一关键帧指纹集与第二视频文件的第二关键帧的第二关键帧指纹集，获取第一关键帧与第二关键帧中指纹相同的关键帧的数量，其中，将指纹相同的关键帧的数量与第二关键帧的数量的比值记为第一比值；第二获取单元，用于获取第一视频文件的第一音频指纹序列和第二视频文件的第二音频指纹序列中相同的音频指纹序列，记为第三音频指纹序列，其中，将第三音频指纹序列中音频指纹序号的范围与第二音频指纹序列中的音频指纹的数量的比值记为第二比值，将第三音频指纹序列中的音频指纹的数量与第三音频指纹序列中音频指纹序号的范围的比值记为第三比值；判断单元，用于根据第一比值、第二比值和第三比值中的至少一个判断第一视频文件与第二视频文件是否为相似视频文件。

在本发明实施例中，通过获取第一视频文件的第一关键帧与第二视频文件的第二关键帧中指纹相同的关键帧的数量，并将该数量与第二关键帧的数量的比值记为第一比值；获取第一视频文件的第一音频指纹序列和第二视频文件的第二音频指纹序列中相同的音频指纹序列，将该音频指纹序列中音频指纹序号的范围与第二音频指纹序列中的音频指纹的数量的比值为第二比值，将该音频指纹序列中的音频指纹的数量与该音频指纹序列中音频指纹序号的范围的比值为第三比值；根据第一比值、第二比值和第三比值中的至少一个判断第一视频文件与第二视频文件是否相似，达到了综合关键帧指纹和音频指纹检测视频相似度的目的，从而实现了提高视频相似度检测结果的准确度的技术效果，进而解决了相关技术中对相似视频文件的检测准确度较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据相关技术的视频相似度检测方法的示意图；

图2是根据本发明实施例的相似视频文件的检测方法的硬件环境的示意图；

图3是根据本发明实施例的一种可选的相似视频文件的检测方法的流程图；

图4a是根据本发明实施例的正版视频中的关键帧图像的示意图；

图4b是根据本发明实施例的盗版视频中的关键帧图像的示意图；

图5a是根据本发明实施例的均值图的示意图；

图5b是根据本发明实施例的灰度图的示意图；

图5c是根据本发明实施例的二值图的示意图；

图5d是根据本发明实施例的边缘图的示意图；

图5e是根据本发明实施例的确定的黑边位置的示意图；

图6是根据本发明实施例的裁剪后的关键帧的示意图；

图7是根据本发明实施例的音频波形的示意图；

图8是根据本发明实施例的声谱图的示意图；

图9是根据本发明实施例的音符图的示意图；

图10是根据本发明实施例的不同的区域掩膜的示意图；

图11是根据本发明实施例的盗版视频监控流程的示意图；

图12是根据本发明实施例的一种可选的相似视频文件的检测装置的示意图；

图13是根据本发明实施例的另一种可选的相似视频文件的检测装置的示意图；

图14是根据本发明实施例的另一种可选的相似视频文件的检测装置的示意图；

图15是根据本发明实施例的另一种可选的相似视频文件的检测装置的示意图；

图16是根据本发明实施例的另一种可选的相似视频文件的检测装置的示意图；

图17是根据本发明实施例的另一种可选的相似视频文件的检测装置的示意图；

图18是根据本发明实施例的另一种可选的相似视频文件的检测装置的示意图；以及

图19是根据本发明实施例的一种终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种相似视频文件的检测方法的方法实施例。

可选地，在本实施例中，上述相似视频文件的检测方法可以应用于如图2所示的由服务器102和终端104所构成的硬件环境中。如图2所示，服务器102通过网络与终端104进行连接，上述网络包括但不限于：广域网、城域网或局域网，终端104并不限定于PC、手机、平板电脑等。本发明实施例的相似视频文件的检测方法可以由服务器102来执行，也可以由终端104来执行，还可以是由服务器102和终端104共同执行。其中，终端104执行本发明实施例的相似视频文件的检测方法也可以是由安装在其上的客户端来执行。

图3是根据本发明实施例的一种可选的相似视频文件的检测方法的流程图，如图3所示，该方法可以包括以下步骤：

步骤S202，根据第一视频文件的第一关键帧的第一关键帧指纹集与第二视频文件的第二关键帧的第二关键帧指纹集，获取第一关键帧与第二关键帧中指纹相同的关键帧的数量，其中，将指纹相同的关键帧的数量与第二关键帧的数量的比值记为第一比值；

步骤S204，获取第一视频文件的第一音频指纹序列和第二视频文件的第二音频指纹序列中相同的音频指纹序列，记为第三音频指纹序列，其中，将第三音频指纹序列中音频指纹序号的范围与第二音频指纹序列中的音频指纹的数量的比值记为第二比值，将第三音频指纹序列中的音频指纹的数量与第三音频指纹序列中音频指纹序号的范围的比值记为第三比值；

步骤S206，根据第一比值、第二比值和第三比值中的至少一个判断第一视频文件与第二视频文件是否为相似视频文件。

通过上述步骤S202至步骤S206，通过获取第一视频文件的第一关键帧与第二视频文件的第二关键帧中指纹相同的关键帧的数量，并将该数量与第二关键帧的数量的比值记为第一比值；获取第一视频文件的第一音频指纹序列和第二视频文件的第二音频指纹序列中相同的音频指纹序列，将该音频指纹序列中音频指纹序号的范围与第二音频指纹序列中的音频指纹的数量的比值为第二比值，将该音频指纹序列中的音频指纹的数量与该音频指纹序列中音频指纹序号的范围的比值为第三比值；根据第一比值、第二比值和第三比值中的至少一个判断第一视频文件与第二视频文件是否相似，达到了综合关键帧指纹和音频指纹检测视频相似度的目的，进而解决了相关技术中对相似视频文件的检测准确度较低的技术问题，实现了提高视频相似度检测结果的准确度的技术效果。

在步骤S202提供的技术方案中，第一视频文件和第二视频文件可以是任意两个视频文件，本发明实施例对第一视频文件和第二视频文件的时长、分辨率、编码格式等均不做具体限定。第一视频文件与第二视频文件可以相同，也可以不同。第一关键帧可以是第一视频文件中的任意一个或者多个关键帧，第二关键帧可以是第二视频文件中的任意一个或者多个关键帧。需要说明的是，从第一视频文件中提取第一关键帧与从第二视频文件中提取第二关键帧的方法可以相同，可选地，可以使用开源程序ffmpeg对第一视频文件和第二视频文件进行解码，从第一视频文件中提取出的第一关键帧，从第二视频文件中提取第二关键帧。还需要说明的是，关键帧是视频文件中比较具有代表性的图像，关键帧中可以包含有一个视频文件的主要信息，相同内容的视频文件的关键帧多数是相同的。

第一关键帧中每个关键帧均具有一个指纹，第一关键帧中每个关键帧的指纹可以组成第一关键帧指纹集，第二关键帧中每个关键帧也均具有一个指纹，第二关键帧中每个关键帧的指纹可以组成第二关键帧指纹集。需要说明的是，第一关键帧指纹集和第二关键帧指纹集的获取方法可以相同，第一关键帧指纹集的获取方法可以为：分别获取第一关键帧中每个关键帧的指纹，将第一关键帧中的每个关键帧的指纹组成第一关键帧指纹集。第二关键帧指纹集的获取方法可以为：分别获取第二关键帧中每个关键帧的指纹，将第二关键帧中的每个关键帧的指纹组成第二关键帧指纹集，此处需要说明的是，第一关键帧中每个关键帧的指纹的获取方法和第二关键帧中每个关键帧的指纹的获取方法可以相同。下面将结合一种可选的实施例具体介绍第一关键帧指纹集和第二关键帧指纹集的详细获取过程：

作为一种可选地实施例，在步骤S202获取第一关键帧与第二关键帧中指纹相同的关键帧的数量之前，该实施例还可以包括以下步骤S2012至步骤S2016：

步骤S2012，确定用于裁剪的黑边位置，其中，黑边位置用于指示关键帧中需要保留的目标区域。

需要说明的是，由于视频的来源、编码格式等因素的不同，可能会出现不同宽带的黑边，例如图4a和图4b所示，图4a为正版视频中的关键帧图像，图4b为盗版视频中的关键帧图像，对比图4a和图4b可以发现，盗版视频中的关键帧相对于正版视频中的关键帧左右两边有黑边。为了避免不同来源的视频的黑边可能不同而降低视频相似度检测准确度的问题，该实施例可以在获取关键帧的指纹之前对关键帧进行预处理，以去除黑边。

在步骤S2012提供的技术方案中，关键帧图像中可以包括目标区域和黑边区域，其中，目标区域与黑边区域可以用黑边位置进行区分界定，目标区域可以为包含有具体内容信息的视频帧图像，而黑边区域则与视频帧图像中的具体内容信息无关，黑边区域对视频帧图像中的具体内容信息无影响。可选地，该实施例可以通过以下步骤确定黑边位置，以实现根据该黑边位置对关键帧图像进行裁剪，以保留关键帧图像中需要保留的目标区域：

步骤S1，将前15帧关键帧对应像素点累加取平均值，得到均值图，如图5a所示，然后将均值图转换成灰度图，如图5b所示。

步骤S2，灰度图中黑边的像素值一般都是0，考虑噪声干扰，可以设置阈值，例如5，对均值图进行二值化，得到二值图，如图5c所示。

步骤S3，用canny算法提取二值图中的边缘，得到边缘图，如图5d所示。

步骤S4，用霍夫变换检测边缘图中的直线。

步骤S5，根据位置、角度等筛选出满足条件的直线，作为黑边的边缘，从而确定了黑边的位置，如图5e所示。

需要说明的是，上述步骤只是本发明的一种可选实施例，本发明还可以通过其他方法或者算法确定关键帧中的黑边位置，此处不再一一举例说明。

步骤S2014，根据黑边位置对第一关键帧和第二关键帧中的每个关键帧进行裁剪，使得第一关键帧和第二关键帧中的每个关键帧仅保留目标区域中的图像信息。

在步骤S2014提供的技术方案中，在利用步骤S2012确定黑边位置之后，该实施例可以根据确定的黑边位置对第一关键帧和第二关键帧中的每个关键帧进行裁剪，每提取到一帧关键帧，就对该帧关键帧进行裁剪，去除黑边。需要说明的是，该实施例根据黑边位置对第一关键帧和第二关键帧中的每个关键帧进行裁剪时保留目标区域的图像信息。例如，根据确定的黑边位置对图4a和图4b中所示的关键帧裁剪后得到的关键帧如图6所示，在图6所示的关键帧中没有黑边，只保留了目标区域中的图像信息。

步骤S2016，获取进行裁剪之后的第一关键帧的第一关键帧指纹集，和进行裁剪之后的第二关键帧的第二关键帧指纹集。

在步骤S2016提供的技术方案中，对第一关键帧中的每个关键帧裁剪之后可以获取裁剪之后的第一关键帧中每个关键帧的指纹，并将这些指纹组成第一关键帧指纹集；对第二关键帧中的每个关键帧裁剪之后可以获取裁剪之后的第二关键帧中每个关键帧的指纹，并将这些指纹组成第二关键帧指纹集。该实施例通过对关键帧去除黑边，获取去除黑边之后的关键帧的指纹组成指纹集，利用得到的指纹集检测视频相似度，能够达到提高视频相似度的检测准确度的效果。

需要说明的是，考虑到直方图只是颜色的全局分布的描述，内容不同的图像其直方图也很有可能相同，导致不同内容的关键帧的指纹相同。针对此问题，本发明实施例可以采用一种pHash算法来替代直方图计算关键帧的指纹。此处，本发明实施例优选地采用pHash中的径向投影哈希方法(radial hash projections method)，可以保留图像中的几何特征，且对图像旋转有一定的鲁棒性，具体过程参见以下可选实施例中的详细描述。

作为一种可选的实施例，步骤S2016获取进行裁剪之后的第一关键帧的第一关键帧指纹集，和进行裁剪之后的第二关键帧的第二关键帧指纹集可以包括：

步骤S20162，对第一关键帧和第二关键帧中的每个关键帧执行以下步骤S6至步骤S8，得到每个关键帧的指纹，其中，每个关键帧在执行以下步骤时被记为当前关键帧：

步骤S6，将当前关键帧的图像转为灰度图。

步骤S7，过灰度图的图像中心取N条直线，计算每条直线上的像素点的方差，得到1*N的一维特征向量，其中，N为大于1的自然数，N可以根据实际需求进行设定，例如N为180，180个方差构成一个1*180的一维特征向量。

步骤S8，对1*N的一维特征向量进行离散余弦变换DCT，得到当前关键帧的指纹，其中，每个关键帧的指纹40字节。

可选地，通过以下公式对1*N的一维特征向量进行离散余弦变换：

其中，f(i)为1*N的一维特征向量，u为1*N的一维特征向量的频率，F(u)用于指示当前关键帧的指纹。

在利用上述步骤S6至步骤S8获取到第一关键帧和第二关键帧中的每个关键帧的指纹之后，可以将第一关键帧中的每个关键帧的指纹组成第一关键帧指纹集，并将第二关键帧中的每个关键帧的指纹组成第二关键帧指纹集。

在获取到第一关键帧指纹集和第二关键帧指纹集之后，本发明实施例可以比对第一关键帧指纹集中的指纹和第二关键帧指纹集中的对应指纹，来判断第一关键帧中的关键帧与第二关键帧中的关键帧是否相同，如果判断出相同，则将第一关键帧和第二关键帧中指纹相同的关键帧的数量加1，其中，该数量的初始值为0。获取第一关键帧和第二关键帧中指纹相同的关键帧的数量的具体过程可以参见以下可选实施例的详细描述。

作为一种可选的实施例，步骤S202获取第一关键帧与第二关键帧中指纹相同的关键帧的数量可以包括：步骤S2022，通过以下公式判断第一关键帧的指纹是否与第二关键帧的指纹相同：

其中，X用于指示第一关键帧的指纹，Y用于指示第二关键帧的指纹。

需要说明的是，上述公式ρ_X,Y为第一关键帧的指纹与第二关键帧的指纹之间的皮尔逊相关系数，当峰值大于设定的第七阈值，例如0.8，则可以确定第一关键帧的指纹和第二关键帧的指纹是相同的，进而确定第一关键帧与第二关键帧是相同的。

利用上述可选实施例判断出第一关键帧的指纹与第二关键帧的指纹相同时，可以将第一关键帧与第二关键帧中指纹相同的关键帧的数量加1，通过遍历第一关键帧和第二关键帧中的所有关键帧，可以获取到第一关键帧与第二关键帧中指纹相同的关键帧的数量。

在获取到第一关键帧与第二关键帧中指纹相同的关键帧的数量之后，本发明实施例可以计算第一关键帧与第二关键帧中指纹相同的关键帧的数量与第二关键帧的数量的比值，将该比值记为第一比值，该第一比值可以用于指示第一视频文件与第二视频文件之间的视频相似度，通过分析第一比值可以判断第一视频文件和第二视频文件是否为相似视频文件。本发明实施例采用一种更具鲁棒性的关键帧指纹计算方法，替代直方图方法，利用关键帧指纹检测视频相似度，能够达到提高视频相似度检测结果的准确度的效果。

例如，对于疑似盗版视频中的每一个关键帧，遍历正版视频的所有关键帧，直到找到相同的关键帧。正版视频的所有关键帧以在疑似盗版视频中出现的顺序编号。所有匹配到的关键帧的序号构成一个序列，从相匹配上的关键帧中剔除乱序的关键帧(误匹配)。假设剩余的匹配到的关键帧数量为b，疑似盗版视频中关键帧总数量为a，则关键帧相似度，也即第一比值videoSP＝b/a。

可选地，为了加快计算速度，本发明实施例可做如下改进：对于疑似盗版视频的每个关键帧，从正版视频中查找相同的关键帧时，可以从上一个匹配的关键帧开始往两边查找，在正负预定数量(例如10)个关键帧范围内查找，选取最匹配的关键帧。

在步骤S204提供的技术方案中，本发明实施例在从第一视频文件中提取第一关键帧的同时还可以从第一视频文件中提取第一音频，同理，在从第二视频文件中提取第二关键帧的同时还可以从第二视频文件中提取第二音频。此处需要说明的是，从第一视频文件中提取第一音频与从第二视频文件中提取第二音频的方法可以相同，可选地，可以使用开源程序ffmpeg对第一视频文件和第二视频文件进行解码，从第一视频文件中提取出的第一音频，从第二视频文件中提取第二音频。

第一音频可以是第一视频文件中的任意一个或者多个音频，第二音频可以是第二视频文件中的任意一个或者多个音频。第一音频中的每个音频均具有一个指纹，将这些指纹按照预定顺序可以组成第一音频指纹序列。第二音频中的每个音频也均具有一个指纹，将这些指纹按照预定顺序可以组成第二音频指纹序列。需要说明的是，第一音频指纹序列的获取方法和第二音频指纹序列的获取方法可以相同，下面将结合一种可选的实施例具体介绍第一音频指纹序列和第二音频指纹序列的详细获取过程：

作为一种可选的实施例，在步骤S204获取第一视频文件的第一音频指纹序列和第二视频文件的第二音频指纹序列中相同的音频指纹序列之前，该实施例还可以包括以下步骤：

步骤S2032，将第一视频文件的第一音频划分成部分重叠的多个第一音频段，将第二视频文件的第二音频划分成部分重叠的多个第二音频段；

步骤S2034，对多个第一音频段和多个第二音频段中的每个音频段执行以下步骤S9至步骤S11，得到每个音频段的音频指纹，其中，每个音频段在执行以下步骤时被记为当前音频段：

步骤S9，在当前音频段上做短时傅里叶变换，得到声谱图；

步骤S10，将声谱图中预定频带范围内的频谱能量量化成1*M的特征向量，得到音符图，其中，M为大于1的自然数，预定频带范围和M取值可以根据实际需求设定或者调整；

步骤S11，对音符图进行滤波，得到当前音频段的音频指纹。

在获取到每个音频段的音频指纹之后，可以将多个第一音频段中的每个音频段的音频指纹组成第一音频指纹序列，并将多个第二音频段中的每个音频段的音频指纹组成第二音频指纹序列。

针对上述可选实施例详细说明以下内容：

音频指纹可以看做一段音频的哈希值，相同的音频有相同的指纹，不同的音频有不同的指纹。但是和哈希值不同，视频文件的音频的指纹并不是一个单独的数字或者字符串，而是一个附属有时间属性的数字序列。上述可选实施例采用chromaprint算法作为音频指纹计算方法，参见以下详细介绍。

常见的音频波形图如图7所示，但是这种音频波形图并不能很好地描述特定频率的强度随着时间的变化，因此，该实施例将音频波形图转换为声谱图，如图8所示，该声谱图中可以描述特定频率的强度随着时间的变化。

在上述步骤提供的技术方案中，该实施例可以将第一视频文件的第一音频划分成部分重叠的多个第一音频段，将第二视频文件的第二音频划分成部分重叠的多个第二音频段，例如，第一音频段和第二音频段可以以0.3S为一段。针对多个第一音频段和多个第二音频段中的每个音频段进行短时傅里叶变换(STFT)，就能得到类似于图8中所示的声谱图，以表示各音频段内的能量随时间的变化。进一步地，chromaprint算法可以将预定频带范围(例如200-2000Hz)内的频谱能量量化成M音符类(例如12音符类)来处理，每个音符类对应一个音域。由此可以得到“Chroma特征”，其本质上就是一个1*M的一维特征向量，体现了音频的旋律信息，如图9所示的音符图，该音符图展示了chroma特征随时间的变化。进一步地，该实施例可以用一个16×12像素的滑动窗口从左到右来滑过整个图片，每次只滑动一个像素，这样就得到了许多子图。在这之前可以通过AdaBoost方法从大量样本中学习到16个滤波器。针对每一个子图应用预先学习到的16个滤波器来捕获滑过的音符随时间的强度的变化。滤波器就是计算子图的灰度图的特定区域的和，然后比较两个和。如图10所示，有6种不同的区域，通过使用图10所示的这种类似于掩码的图片，把它置于子图任何一个位置，然后计算黑色和白色区域的和，再同另一个和相减，结果是一个单精度实数。每个过滤器都有3个系数，最终结果会是一个0到3之间的整型数。每个过滤器的系数都是通过机器学习算法在音频文件的训练集上训练得到的。共有16个过滤器，每个过滤器都可以把结果编码为2位，把这些结果按固定顺序组合在一起，就能得到一个32位的整型数字，即单个的音频指纹。对所有滑动窗口滑过的子图都应用上述办法，就得到了整个音频的指纹序列。

在获取到第一音频指纹序列和第二音频指纹序列之后，该实施例可以比对第一音频指纹序列和第二音频指纹序列，以获取第一音频指纹序列和第二音频指纹序列中相同的音频指纹序列。需要说明的是，获取第一音频指纹序列和第二音频指纹序列中相同的音频指纹序列的具体过程可以参见以下可选实施例：

作为一种可选的实施例，步骤S204获取第一视频文件的第一音频指纹序列和第二视频文件的第二音频指纹序列中相同的音频指纹序列可以包括：步骤S2042，通过以下步骤S12至步骤S14查找第一音频指纹序列和第二音频指纹序列中相同的音频指纹，其中，第一音频指纹序列中的音频指纹在执行以下步骤S12至步骤S14时被记为第一音频指纹，第二音频指纹序列中的音频指纹在执行以下步骤S12至步骤S14时被记为第二音频指纹：

步骤S12，按位依次比较第一数值和第二数值，其中，第一数值用于表示第一音频指纹，第二数值用于表示第二音频指纹，第一数值和第二数值均由P位数字表示，此处P可以为32，第一数值和第二数值均可以为32位数字；

步骤S13，判断第一数值和第二数值中不相等的位的数量是否小于第八阈值，此处不限定第八阈值的取值，例如，第八阈值可以为2；

步骤S14，若小于第八阈值，则判断第一音频指纹与第二音频指纹相同。

针对上述可选实施例，需要说明以下内容：

考虑到噪声、分割音频时很难对齐等因素，音频指纹序列不会完全相等。但是，可以肯定的是，对于两个一样的音频，相同的指纹是分布在整个指纹序列上的。因此，该实施例可以采用“最长公共子序列”的方法来找出两个指纹序列的相同的部分。

需要注意的是，因为音频存在噪声、音频段未对齐，所以我们不能通过直接比较两个32位的数字来判断元指纹是否相等。此处该实施例是通过计算汉明距离来比较两个32位的元指纹是否相等的，通过多次实验发现，当2个32位数字的不相等位数(误汉明距离)小于等于2时，可以认为两个元指纹是相等的，即它们代表的音频段是相等的。

在利用上述可选实施例获取到第一音频指纹序列和第二音频指纹序列中相同的音频指纹序列后，本发明实施例可以将这些相同的音频指纹序列按照在第二音频指纹序列中的序号组成第三音频指纹序列。在获取到第三音频指纹序列以及明确第三音频指纹序列中每个音频指纹的序号之后，本发明实施例可以计算第二比值和第三比值，其中，第二比值为第三音频指纹序列中音频指纹序号的范围与第二音频指纹序列中的音频指纹的数量的比值，第三比值为第三音频指纹序列中的音频指纹的数量与第三音频指纹序列中音频指纹序号的范围的比值。此处需要说明的是，第三音频指纹序列中的音频指纹序号的范围可以理解为最大序号与最小序号的差值。

例如，假设相同的音频指纹构成了指纹序列c，为了便于后续操作，可以将指纹序列c中的指纹序列标上序号：假设疑似盗版视频中的音频指纹序列为a，用指纹序列c中的指纹在a中的位置作为该指纹在指纹序列c中的序号。假设计算得到的指纹序列c中指纹序号的范围range、指纹的个数number_c，指纹序列a的指纹个数number_all，则可以求得：

相同音频指纹所占的比例，也即第二比值audioSPe＝range/number_all；

视频中存在相同音频指纹的可能性，也即第三比值audioSPr＝number_c/range。

在步骤S206提供的技术方案中，在计算得到第一比值、第二比值以及第三比值之后，本发明实施例可以根据第一比值、第二比值以及第三比值中的至少一个来判断第一视频文件与第二视频文件是否为相似视频文件。本发明实施例根据第一比值、第二比值以及第三比值中的至少一个检测视频相似度，能够实现综合关键帧指纹和音频指纹来计算视频相似度，进而达到提高视频相似度检测的准确度的效果。

作为一种可选的实施例，步骤S206根据第一比值、第二比值和第三比值中的至少一个判断第一视频文件与第二视频文件是否为相似视频文件可以包括：步骤S2062，判断是否满足以下条件之一，若满足，则判断出第一视频文件与第二视频文件为相似视频文件：第一比值大于等于第一阈值；第三比值大于等于第二阈值、且第二比值大于等于第三阈值；第一比值大于等于第四阈值、且第三比值大于等于第五阈值、且第二比值大于等于第六阈值。

此处需要说明的是，上述各个阈值可以根据实际需求设定或者调整，该实施例中不做具体限定。上述可选实施例中所列举的条件，只要检测到满足任意一个即可以判断出第一视频文件与第二视频文件为相似视频文件。

例如，在实际应用决策场景中，可以综合关键帧相似度、音频相似度得出两视频是否相同，其中，此处的关键帧相似度即为第一比值videoSP＝b/a，音频相似度包括：相同音频指纹所占的比例，也即第二比值audioSPe＝range/number_all；视频中存在相同音频指纹的可能性，也即第三比值audioSPr＝number_c/range。当关键帧相似度、音频相似度满足以下任一条件时，认为这两个视频是相同的：

videoSP>＝0.8

audioSPr>＝0.8且audioSPe>＝0.6

videoSP>＝0.5且audioSPr>＝0.6且audioSPe>＝0.4

其中，audioSPe指明了视频中有多少内容是相同的。

本方案提出了一种综合图像指纹和音频指纹来计算视频内容相似度的方法。图像方面，将视频中的全部关键帧图像转换为关键帧指纹(radial hash值)集，计算相同指纹个数占总指纹数量的比例作为相似度；声音部分，将完整音频切成部分重叠的小段，然后用短时傅里叶变换将其变换为频谱图，经过适当转换并滤波后得到单个音频指纹，通过计算两个视频的音频指纹序列中相同指纹的个数占总指纹数的比例、相同指纹序号所覆盖的范围这两个值来得到视频的相似度；最后，综合图像和声音的结果来判断视频是否相同。图像指纹与音频指纹两者相辅相成，提高了准确率。与此同时，本方案对关键帧预处理、去黑边，解决了不同来源视频的黑边可能不同而降低准确率的问题。本方案准确率高，且对视频的时长、分辨率、格式等均无要求，是一种可信赖的相似视频检测方法。另外，需要说明的是，本方案中关键帧相似度计算方面，除pHash方法外，也可采用其他的特征(shift等)进行比较；音频指纹计算，除chromaprint算法外，也可采用echoprint或landmark算法。

本方案可应用于全自动化盗版视频监控工作，极大地提高了盗版视频的检测效率，为政府和企业减少人力资源成本。本方案应用于盗版视频监控的流程如图11所示，使用者只需要给定两个视频(对时长、分辨率、编码格式等均无特殊要求)，本方案将自动计算并输出两个视频的相似度，包括两视频是否相同，相同的部分有多少。具体地，如图11所示，盗版视频检测系统可以包括：关键帧/音频提取模块，主要用于从视频中提取关键帧和音频；指纹提取模块，可以包括关键帧指纹提取模块和音频指纹提取模块，其中，关键帧指纹提取模块主要用于提取关键帧指纹，音频指纹提取模块主要用于提取音频指纹；相似度计算模块，可以包括关键帧相似度计算模块和音频相似度计算模块，其中，关键帧相似度计算模块主要用于计算关键帧的相似度，音频相似度计算模块主要用于计算音频的相似度；决策模块，用于综合关键帧相似度和音频相似度检测两视频的相似度，包括是否相同，相同的部分有多少。

需要说明的是，本方案除了可以应用于盗版视频监控，还可以应用于其他视频检测领域，此处不再一一举例说明。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述相似视频文件的检测方法的相似视频文件的检测装置。图12是根据本发明实施例的一种可选的相似视频文件的检测装置的示意图，如图12所示，该装置可以包括：

第一获取单元22，用于根据第一视频文件的第一关键帧的第一关键帧指纹集与第二视频文件的第二关键帧的第二关键帧指纹集，获取第一关键帧与第二关键帧中指纹相同的关键帧的数量，其中，将指纹相同的关键帧的数量与第二关键帧的数量的比值记为第一比值；第二获取单元24，用于获取第一视频文件的第一音频指纹序列和第二视频文件的第二音频指纹序列中相同的音频指纹序列，记为第三音频指纹序列，其中，将第三音频指纹序列中音频指纹序号的范围与第二音频指纹序列中的音频指纹的数量的比值记为第二比值，将第三音频指纹序列中的音频指纹的数量与第三音频指纹序列中音频指纹序号的范围的比值记为第三比值；判断单元26，用于根据第一比值、第二比值和第三比值中的至少一个判断第一视频文件与第二视频文件是否为相似视频文件。

需要说明的是，该实施例中的第一获取单元22可以用于执行本申请实施例1中的步骤S202，该实施例中的第二获取单元24可以用于执行本申请实施例1中的步骤S204，该实施例中的判断单元26可以用于执行本申请实施例1中的步骤S206。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图2所示的硬件环境中，可以通过软件实现，也可以通过硬件实现。

作为一种可选的实施例，如图13所示，判断单元26可以包括：第一判断模块262，用于判断是否满足以下条件之一，若满足，则判断出第一视频文件与第二视频文件为相似视频文件：第一比值大于等于第一阈值；第三比值大于等于第二阈值、且第二比值大于等于第三阈值；第一比值大于等于第四阈值、且第三比值大于等于第五阈值、且第二比值大于等于第六阈值。

需要说明的是，该实施例中的第一判断模块262可以用于执行本申请实施例1中的步骤S2062。

作为一种可选的实施例，如图14所示，该实施例的相似视频文件的检测装置还可以包括：确定单元212，用于在获取第一关键帧与第二关键帧中指纹相同的关键帧的数量之前，确定用于裁剪的黑边位置，其中，黑边位置用于指示关键帧中需要保留的目标区域；裁剪单元214，用于根据黑边位置对第一关键帧和第二关键帧中的每个关键帧进行裁剪，使得第一关键帧和第二关键帧中的每个关键帧仅保留目标区域中的图像信息；第三获取单元216，用于获取进行裁剪之后的第一关键帧的第一关键帧指纹集，和进行裁剪之后的第二关键帧的第二关键帧指纹集。

需要说明的是，该实施例中的确定单元212可以用于执行本申请实施例1中的步骤S2012，该实施例中的裁剪单元214可以用于执行本申请实施例1中的步骤S2014，该实施例中的第三获取单元216可以用于执行本申请实施例1中的步骤S2016。

作为一种可选的实施例，如图15所示，第三获取单元216可以包括：第一执行模块2162，用于对第一关键帧和第二关键帧中的每个关键帧执行以下步骤，得到每个关键帧的指纹，其中，每个关键帧在执行以下步骤时被记为当前关键帧，将第一关键帧中的每个关键帧的指纹组成第一关键帧指纹集，并将第二关键帧中的每个关键帧的指纹组成第二关键帧指纹集：将当前关键帧的图像转为灰度图；过灰度图的图像中心取N条直线，计算每条直线上的像素点的方差，得到1*N的一维特征向量，其中，N为大于1的自然数；对1*N的一维特征向量进行离散余弦变换，得到当前关键帧的指纹。

需要说明的是，该实施例中的第一执行模块2162可以用于执行本申请实施例1中的步骤S20162。

作为一种可选的实施例，通过以下公式对1*N的一维特征向量进行离散余弦变换：

作为一种可选的实施例，如图16所示，该实施例的相似视频文件的检测装置还可以包括：划分单元232，用于在获取第一视频文件的第一音频指纹序列和第二视频文件的第二音频指纹序列中相同的音频指纹序列之前，将第一视频文件的第一音频划分成部分重叠的多个第一音频段，将第二视频文件的第二音频划分成部分重叠的多个第二音频段；执行单元234，用于对多个第一音频段和多个第二音频段中的每个音频段执行以下步骤，得到每个音频段的音频指纹，其中，每个音频段在执行以下步骤时被记为当前音频段，将多个第一音频段中的每个音频段的音频指纹组成第一音频指纹序列，并将多个第二音频段中的每个音频段的音频指纹组成第二音频指纹序列：在当前音频段上做短时傅里叶变换，得到声谱图；将声谱图中预定频带范围内的频谱能量量化成1*M的特征向量，得到音符图，其中，M为大于1的自然数；对音符图进行滤波，得到当前音频段的音频指纹。

需要说明的是，该实施例中的划分单元232可以用于执行本申请实施例1中的步骤S2032，该实施例中的执行单元234可以用于执行本申请实施例1中的步骤S2034。

作为一种可选的实施例，如图17所示，第一获取单元22可以包括：第二判断模块222，用于通过以下公式判断第一关键帧的指纹是否与第二关键帧的指纹相同：

其中，X用于指示第一关键帧的指纹，Y用于指示第二关键帧的指纹，ρ_X,Y为第一关键帧的指纹与第二关键帧的指纹之间的皮尔逊相关系数，在ρ_X,Y大于第七阈值时，判断出第一关键帧的指纹与第二关键帧的指纹相同。

需要说明的是，该实施例中的第二判断模块222可以用于执行本申请实施例1中的步骤S2022。

作为一种可选的实施例，如图18所示，第二获取单元24可以包括：第二执行模块242，用于通过以下步骤查找第一音频指纹序列和第二音频指纹序列中相同的音频指纹，并将查找到的所有相同的音频指纹按照在第二音频指纹序列中的序号组成第三音频指纹序列，其中，第一音频指纹序列中的音频指纹在执行以下步骤时被记为第一音频指纹，第二音频指纹序列中的音频指纹在执行以下步骤时被记为第二音频指纹：按位依次比较第一数值和第二数值，其中，第一数值用于表示第一音频指纹，第二数值用于表示第二音频指纹，第一数值和第二数值均由P位数字表示；判断第一数值和第二数值中不相等的位的数量是否小于第八阈值；若小于第八阈值，则判断第一音频指纹与第二音频指纹相同。

需要说明的是，该实施例中的第二执行模块242可以用于执行本申请实施例1中的步骤S2042。

通过上述模块，可以达到综合关键帧指纹和音频指纹检测视频相似度的目的，进而解决相关技术中对相似视频文件的检测准确度较低的技术问题，实现提高视频相似度检测结果的准确度的技术效果。

实施例3

根据本发明实施例，还提供了一种用于实施上述相似视频文件的检测方法的服务器或终端。

图19是根据本发明实施例的一种终端的结构框图，如图19所示，该终端可以包括：一个或多个(图中仅示出一个)处理器201、存储器203、以及传输装置205(如上述实施例中的发送装置)，如图19所示，该终端还可以包括输入输出设备207。

其中，存储器203可用于存储软件程序以及模块，如本发明实施例中的相似视频文件的检测方法和装置对应的程序指令/模块，处理器201通过运行存储在存储器203内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的相似视频文件的检测方法。存储器203可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器203可进一步包括相对于处理器201远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置205用于经由一个网络接收或者发送数据，还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置205包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置205为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器203用于存储应用程序。

处理器201可以通过传输装置205调用存储器203存储的应用程序，以执行下述步骤：根据第一视频文件的第一关键帧的第一关键帧指纹集与第二视频文件的第二关键帧的第二关键帧指纹集，获取第一关键帧与第二关键帧中指纹相同的关键帧的数量，其中，将指纹相同的关键帧的数量与第二关键帧的数量的比值记为第一比值；获取第一视频文件的第一音频指纹序列和第二视频文件的第二音频指纹序列中相同的音频指纹序列，记为第三音频指纹序列，其中，将第三音频指纹序列中音频指纹序号的范围与第二音频指纹序列中的音频指纹的数量的比值记为第二比值，将第三音频指纹序列中的音频指纹的数量与第三音频指纹序列中音频指纹序号的范围的比值记为第三比值；根据第一比值、第二比值和第三比值中的至少一个判断第一视频文件与第二视频文件是否为相似视频文件。

处理器201还用于执行下述步骤：判断是否满足以下条件之一，若满足，则判断出第一视频文件与第二视频文件为相似视频文件：第一比值大于等于第一阈值；第三比值大于等于第二阈值、且第二比值大于等于第三阈值；第一比值大于等于第四阈值、且第三比值大于等于第五阈值、且第二比值大于等于第六阈值。

处理器201还用于执行下述步骤：在获取第一关键帧与第二关键帧中指纹相同的关键帧的数量之前，确定用于裁剪的黑边位置，其中，黑边位置用于指示关键帧中需要保留的目标区域；根据黑边位置对第一关键帧和第二关键帧中的每个关键帧进行裁剪，使得第一关键帧和第二关键帧中的每个关键帧仅保留目标区域中的图像信息；获取进行裁剪之后的第一关键帧的第一关键帧指纹集，和进行裁剪之后的第二关键帧的第二关键帧指纹集。

处理器201还用于执行下述步骤：对第一关键帧和第二关键帧中的每个关键帧执行以下步骤，得到每个关键帧的指纹，其中，每个关键帧在执行以下步骤时被记为当前关键帧，将第一关键帧中的每个关键帧的指纹组成第一关键帧指纹集，并将第二关键帧中的每个关键帧的指纹组成第二关键帧指纹集：将当前关键帧的图像转为灰度图；过灰度图的图像中心取N条直线，计算每条直线上的像素点的方差，得到1*N的一维特征向量，其中，N为大于1的自然数；对1*N的一维特征向量进行离散余弦变换，得到当前关键帧的指纹。

处理器201还用于执行下述步骤：通过以下公式对1*N的一维特征向量进行离散余弦变换：

处理器201还用于执行下述步骤：在获取第一视频文件的第一音频指纹序列和第二视频文件的第二音频指纹序列中相同的音频指纹序列之前，将第一视频文件的第一音频划分成部分重叠的多个第一音频段，将第二视频文件的第二音频划分成部分重叠的多个第二音频段；对多个第一音频段和多个第二音频段中的每个音频段执行以下步骤，得到每个音频段的音频指纹，其中，每个音频段在执行以下步骤时被记为当前音频段，将多个第一音频段中的每个音频段的音频指纹组成第一音频指纹序列，并将多个第二音频段中的每个音频段的音频指纹组成第二音频指纹序列：在当前音频段上做短时傅里叶变换，得到声谱图；将声谱图中预定频带范围内的频谱能量量化成1*M的特征向量，得到音符图，其中，M为大于1的自然数；对音符图进行滤波，得到当前音频段的音频指纹。

处理器201还用于执行下述步骤：通过以下公式判断第一关键帧的指纹是否与第二关键帧的指纹相同：

处理器201还用于执行下述步骤：通过以下步骤查找第一音频指纹序列和第二音频指纹序列中相同的音频指纹，并将查找到的所有相同的音频指纹按照在第二音频指纹序列中的序号组成第三音频指纹序列，其中，第一音频指纹序列中的音频指纹在执行以下步骤时被记为第一音频指纹，第二音频指纹序列中的音频指纹在执行以下步骤时被记为第二音频指纹：按位依次比较第一数值和第二数值，其中，第一数值用于表示第一音频指纹，第二数值用于表示第二音频指纹，第一数值和第二数值均由P位数字表示；判断第一数值和第二数值中不相等的位的数量是否小于第八阈值；若小于第八阈值，则判断第一音频指纹与第二音频指纹相同。

采用本发明实施例，提供了一种相似视频文件的检测方案。通过获取第一视频文件的第一关键帧与第二视频文件的第二关键帧中指纹相同的关键帧的数量，并将该数量与第二关键帧的数量的比值记为第一比值；获取第一视频文件的第一音频指纹序列和第二视频文件的第二音频指纹序列中相同的音频指纹序列，将该音频指纹序列中音频指纹序号的范围与第二音频指纹序列中的音频指纹的数量的比值为第二比值，将该音频指纹序列中的音频指纹的数量与该音频指纹序列中音频指纹序号的范围的比值为第三比值；根据第一比值、第二比值和第三比值中的至少一个判断第一视频文件与第二视频文件是否相似，达到了综合关键帧指纹和音频指纹检测视频相似度的目的，进而解决了相关技术中对相似视频文件的检测准确度较低的技术问题，实现了提高视频相似度检测结果的准确度的技术效果。

可选地，本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图19所示的结构仅为示意，终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices，MID)、PAD等终端设备。图19其并不对上述电子装置的结构造成限定。例如，终端还可包括比图19中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图19所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例4

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行相似视频文件的检测方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

S1，根据第一视频文件的第一关键帧的第一关键帧指纹集与第二视频文件的第二关键帧的第二关键帧指纹集，获取第一关键帧与第二关键帧中指纹相同的关键帧的数量，其中，将指纹相同的关键帧的数量与第二关键帧的数量的比值记为第一比值；

S2，获取第一视频文件的第一音频指纹序列和第二视频文件的第二音频指纹序列中相同的音频指纹序列，记为第三音频指纹序列，其中，将第三音频指纹序列中音频指纹序号的范围与第二音频指纹序列中的音频指纹的数量的比值记为第二比值，将第三音频指纹序列中的音频指纹的数量与第三音频指纹序列中音频指纹序号的范围的比值记为第三比值；

S3，根据第一比值、第二比值和第三比值中的至少一个判断第一视频文件与第二视频文件是否为相似视频文件。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：判断是否满足以下条件之一，若满足，则判断出第一视频文件与第二视频文件为相似视频文件：第一比值大于等于第一阈值；第三比值大于等于第二阈值、且第二比值大于等于第三阈值；第一比值大于等于第四阈值、且第三比值大于等于第五阈值、且第二比值大于等于第六阈值。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：在获取第一关键帧与第二关键帧中指纹相同的关键帧的数量之前，确定用于裁剪的黑边位置，其中，黑边位置用于指示关键帧中需要保留的目标区域；根据黑边位置对第一关键帧和第二关键帧中的每个关键帧进行裁剪，使得第一关键帧和第二关键帧中的每个关键帧仅保留目标区域中的图像信息；获取进行裁剪之后的第一关键帧的第一关键帧指纹集，和进行裁剪之后的第二关键帧的第二关键帧指纹集。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：对第一关键帧和第二关键帧中的每个关键帧执行以下步骤，得到每个关键帧的指纹，其中，每个关键帧在执行以下步骤时被记为当前关键帧，将第一关键帧中的每个关键帧的指纹组成第一关键帧指纹集，并将第二关键帧中的每个关键帧的指纹组成第二关键帧指纹集：将当前关键帧的图像转为灰度图；过灰度图的图像中心取N条直线，计算每条直线上的像素点的方差，得到1*N的一维特征向量，其中，N为大于1的自然数；对1*N的一维特征向量进行离散余弦变换，得到当前关键帧的指纹。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：通过以下公式对1*N的一维特征向量进行离散余弦变换：

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：在获取第一视频文件的第一音频指纹序列和第二视频文件的第二音频指纹序列中相同的音频指纹序列之前，将第一视频文件的第一音频划分成部分重叠的多个第一音频段，将第二视频文件的第二音频划分成部分重叠的多个第二音频段；对多个第一音频段和多个第二音频段中的每个音频段执行以下步骤，得到每个音频段的音频指纹，其中，每个音频段在执行以下步骤时被记为当前音频段，将多个第一音频段中的每个音频段的音频指纹组成第一音频指纹序列，并将多个第二音频段中的每个音频段的音频指纹组成第二音频指纹序列：在当前音频段上做短时傅里叶变换，得到声谱图；将声谱图中预定频带范围内的频谱能量量化成1*M的特征向量，得到音符图，其中，M为大于1的自然数；对音符图进行滤波，得到当前音频段的音频指纹。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：通过以下公式判断第一关键帧的指纹是否与第二关键帧的指纹相同：

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：通过以下步骤查找第一音频指纹序列和第二音频指纹序列中相同的音频指纹，并将查找到的所有相同的音频指纹按照在第二音频指纹序列中的序号组成第三音频指纹序列，其中，第一音频指纹序列中的音频指纹在执行以下步骤时被记为第一音频指纹，第二音频指纹序列中的音频指纹在执行以下步骤时被记为第二音频指纹：按位依次比较第一数值和第二数值，其中，第一数值用于表示第一音频指纹，第二数值用于表示第二音频指纹，第一数值和第二数值均由P位数字表示；判断第一数值和第二数值中不相等的位的数量是否小于第八阈值；若小于第八阈值，则判断第一音频指纹与第二音频指纹相同。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种相似视频文件的检测方法，其特征在于，包括：

根据第一视频文件的第一关键帧的第一关键帧指纹集与第二视频文件的第二关键帧的第二关键帧指纹集，获取所述第一关键帧与所述第二关键帧中指纹相同的关键帧的数量，其中，将所述指纹相同的关键帧的数量与所述第二关键帧的数量的比值记为第一比值；

将所述第一视频文件的第一音频划分成部分重叠的多个第一音频段，将所述第二视频文件的第二音频划分成部分重叠的多个第二音频段；

对所述多个第一音频段和所述多个第二音频段中的每个音频段执行以下步骤，得到每个音频段的音频指纹，其中，每个音频段在执行以下步骤时被记为当前音频段，将所述多个第一音频段中的每个音频段的音频指纹组成所述第一音频指纹序列，并将所述多个第二音频段中的每个音频段的音频指纹组成所述第二音频指纹序列：在所述当前音频段上做短时傅里叶变换，得到声谱图；将所述声谱图中预定频带范围内的频谱能量量化成1*M的特征向量，得到音符图，其中，M为大于1的自然数；对所述音符图进行滤波，得到所述当前音频段的音频指纹；

获取所述第一视频文件的第一音频指纹序列和所述第二视频文件的第二音频指纹序列中相同的音频指纹序列，记为第三音频指纹序列，其中，将所述第三音频指纹序列中音频指纹序号的范围与所述第二音频指纹序列中的音频指纹的数量的比值记为第二比值，将所述第三音频指纹序列中的音频指纹的数量与所述第三音频指纹序列中音频指纹序号的范围的比值记为第三比值；

根据所述第一比值、所述第二比值和所述第三比值中的至少一个判断所述第一视频文件与所述第二视频文件是否为相似视频文件。

2.根据权利要求1所述的方法，其特征在于，根据所述第一比值、所述第二比值和所述第三比值中的至少一个判断所述第一视频文件与所述第二视频文件是否为相似视频文件包括：

判断是否满足以下条件之一，若满足，则判断出所述第一视频文件与所述第二视频文件为相似视频文件：

所述第一比值大于等于第一阈值；

所述第三比值大于等于第二阈值、且所述第二比值大于等于第三阈值；

所述第一比值大于等于第四阈值、且所述第三比值大于等于第五阈值、且所述第二比值大于等于第六阈值。

3.根据权利要求1所述的方法，其特征在于，在获取所述第一关键帧与所述第二关键帧中指纹相同的关键帧的数量之前，还包括：

确定用于裁剪的黑边位置，其中，所述黑边位置用于指示关键帧中需要保留的目标区域；

根据所述黑边位置对所述第一关键帧和所述第二关键帧中的每个关键帧进行裁剪，使得所述第一关键帧和所述第二关键帧中的每个关键帧仅保留所述目标区域中的图像信息；

获取进行所述裁剪之后的所述第一关键帧的所述第一关键帧指纹集，和进行所述裁剪之后的所述第二关键帧的所述第二关键帧指纹集。

4.根据权利要求3所述的方法，其特征在于，获取进行所述裁剪之后的所述第一关键帧的所述第一关键帧指纹集，和进行所述裁剪之后的所述第二关键帧的所述第二关键帧指纹集包括：

对所述第一关键帧和所述第二关键帧中的每个关键帧执行以下步骤，得到每个关键帧的指纹，其中，每个关键帧在执行以下步骤时被记为当前关键帧，将所述第一关键帧中的每个关键帧的指纹组成所述第一关键帧指纹集，并将所述第二关键帧中的每个关键帧的指纹组成所述第二关键帧指纹集：

将所述当前关键帧的图像转为灰度图；

过所述灰度图的图像中心取N条直线，计算每条直线上的像素点的方差，得到1*N的一维特征向量，其中，N为大于1的自然数；

对所述1*N的一维特征向量进行离散余弦变换，得到所述当前关键帧的指纹。

5.根据权利要求4所述的方法，其特征在于，通过以下公式对所述1*N的一维特征向量进行离散余弦变换：

其中，f(i)为所述1*N的一维特征向量，u为1*N的一维特征向量的频率，所述F(u)用于指示所述当前关键帧的指纹。

6.根据权利要求1所述的方法，其特征在于，获取所述第一关键帧与所述第二关键帧中指纹相同的关键帧的数量包括：

通过以下公式判断所述第一关键帧的指纹是否与所述第二关键帧的指纹相同：

其中，X用于指示所述第一关键帧的指纹，Y用于指示所述第二关键帧的指纹，ρ_X,Y为所述第一关键帧的指纹与所述第二关键帧的指纹之间的皮尔逊相关系数，在ρ_X,Y大于第七阈值时，判断出所述第一关键帧的指纹与所述第二关键帧的指纹相同。

7.根据权利要求1所述的方法，其特征在于，获取所述第一视频文件的第一音频指纹序列和所述第二视频文件的第二音频指纹序列中相同的音频指纹序列包括：

通过以下步骤查找所述第一音频指纹序列和所述第二音频指纹序列中相同的音频指纹，并将查找到的所有相同的音频指纹按照在所述第二音频指纹序列中的序号组成所述第三音频指纹序列，其中，所述第一音频指纹序列中的音频指纹在执行以下步骤时被记为第一音频指纹，所述第二音频指纹序列中的音频指纹在执行以下步骤时被记为第二音频指纹：

按位依次比较第一数值和第二数值，其中，所述第一数值用于表示所述第一音频指纹，所述第二数值用于表示所述第二音频指纹，所述第一数值和所述第二数值均由P位数字表示；

判断所述第一数值和所述第二数值中不相等的位的数量是否小于第八阈值；

若小于所述第八阈值，则判断所述第一音频指纹与第二音频指纹相同。

8.一种相似视频文件的检测装置，其特征在于，包括：

第一获取单元，用于根据第一视频文件的第一关键帧的第一关键帧指纹集与第二视频文件的第二关键帧的第二关键帧指纹集，获取所述第一关键帧与所述第二关键帧中指纹相同的关键帧的数量，其中，将所述指纹相同的关键帧的数量与所述第二关键帧的数量的比值记为第一比值；

第二获取单元，用于获取所述第一视频文件的第一音频指纹序列和所述第二视频文件的第二音频指纹序列中相同的音频指纹序列，记为第三音频指纹序列，其中，将所述第三音频指纹序列中音频指纹序号的范围与所述第二音频指纹序列中的音频指纹的数量的比值记为第二比值，将所述第三音频指纹序列中的音频指纹的数量与所述第三音频指纹序列中音频指纹序号的范围的比值记为第三比值；

判断单元，用于根据所述第一比值、所述第二比值和所述第三比值中的至少一个判断所述第一视频文件与所述第二视频文件是否为相似视频文件；

划分单元，用于在获取所述第一视频文件的第一音频指纹序列和所述第二视频文件的第二音频指纹序列中相同的音频指纹序列之前，将所述第一视频文件的第一音频划分成部分重叠的多个第一音频段，将所述第二视频文件的第二音频划分成部分重叠的多个第二音频段；

执行单元，用于对所述多个第一音频段和所述多个第二音频段中的每个音频段执行以下步骤，得到每个音频段的音频指纹，其中，每个音频段在执行以下步骤时被记为当前音频段，将所述多个第一音频段中的每个音频段的音频指纹组成所述第一音频指纹序列，并将所述多个第二音频段中的每个音频段的音频指纹组成所述第二音频指纹序列：

在所述当前音频段上做短时傅里叶变换，得到声谱图；

将所述声谱图中预定频带范围内的频谱能量量化成1*M的特征向量，得到音符图，其中，M为大于1的自然数；

对所述音符图进行滤波，得到所述当前音频段的音频指纹。

9.根据权利要求8所述的装置，其特征在于，所述判断单元包括：

第一判断模块，用于判断是否满足以下条件之一，若满足，则判断出所述第一视频文件与所述第二视频文件为相似视频文件：

所述第一比值大于等于第一阈值；

10.根据权利要求8所述的装置，其特征在于，所述装置还包括：

确定单元，用于在获取所述第一关键帧与所述第二关键帧中指纹相同的关键帧的数量之前，确定用于裁剪的黑边位置，其中，所述黑边位置用于指示关键帧中需要保留的目标区域；

裁剪单元，用于根据所述黑边位置对所述第一关键帧和所述第二关键帧中的每个关键帧进行裁剪，使得所述第一关键帧和所述第二关键帧中的每个关键帧仅保留所述目标区域中的图像信息；

第三获取单元，用于获取进行所述裁剪之后的所述第一关键帧的所述第一关键帧指纹集，和进行所述裁剪之后的所述第二关键帧的所述第二关键帧指纹集。

11.根据权利要求10所述的装置，其特征在于，所述第三获取单元包括：

第一执行模块，用于对所述第一关键帧和所述第二关键帧中的每个关键帧执行以下步骤，得到每个关键帧的指纹，其中，每个关键帧在执行以下步骤时被记为当前关键帧，将所述第一关键帧中的每个关键帧的指纹组成所述第一关键帧指纹集，并将所述第二关键帧中的每个关键帧的指纹组成所述第二关键帧指纹集：

将所述当前关键帧的图像转为灰度图；

12.根据权利要求11所述的装置，其特征在于，通过以下公式对所述1*N的一维特征向量进行离散余弦变换：

13.根据权利要求8所述的装置，其特征在于，所述第一获取单元包括：

第二判断模块，用于通过以下公式判断所述第一关键帧的指纹是否与所述第二关键帧的指纹相同：

14.根据权利要求8所述的装置，其特征在于，所述第二获取单元包括：

第二执行模块，用于通过以下步骤查找所述第一音频指纹序列和所述第二音频指纹序列中相同的音频指纹，并将查找到的所有相同的音频指纹按照在所述第二音频指纹序列中的序号组成所述第三音频指纹序列，其中，所述第一音频指纹序列中的音频指纹在执行以下步骤时被记为第一音频指纹，所述第二音频指纹序列中的音频指纹在执行以下步骤时被记为第二音频指纹：

15.一种计算机可读的存储介质，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至7任一项中所述的方法。

16.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。