CN107750015A

CN107750015A - 视频版权的检测方法、装置、存储介质及设备

Info

Publication number: CN107750015A
Application number: CN201711062624.6A
Authority: CN
Inventors: 徐敘遠
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2017-11-02
Filing date: 2017-11-02
Publication date: 2018-03-02
Anticipated expiration: 2037-11-02
Also published as: CN107750015B

Abstract

本发明公开了一种视频版权的检测方法、装置、存储介质及设备，属于互联网技术领域。方法包括：对于待检测视频中的每一个视频帧，对该视频帧进行特征提取，得到该视频帧的目标特征；根据该视频帧的目标特征和预先得到的至少一个第一聚类中心，计算该视频帧的局部特征，至少一个第一聚类中心是通过对具有版权的视频的目标特征进行聚类得到的；获取目标特征的第一特征值以及局部特征的第二特征值，得到该视频帧的视频指纹；基于每一个视频帧的视频指纹，对待检测视频进行版权检测。本发明提取到的视频指纹中携带了在待检测视频中提取的原始特征以及计算出的局部特征，因此具有较强的抗噪能力，所以在基于得到的视频指纹进行版权检测时，精准度更高。

Description

视频版权的检测方法、装置、存储介质及设备

技术领域

本发明涉及互联网技术领域，特别涉及一种视频版权的检测方法、装置、存储介质及设备。

背景技术

网络技术的快速发展在给人们带来极大便利的同时，也使得盗版问题日益严重。由于盗版行为严重损害了版权方的合法权益，因此如何对数字产品进行版权保护成为了时下亟待解决的一个问题。以视频为例，目前主要应用视频指纹来辅助实现视频版权的保护。其中，视频指纹本质上为一个对视频进行唯一标识的数字序列，这个数字序列一般是利用相关算法对在视频中提取到的特征进行处理后得到的。

在进行视频版权的保护时，可以采取主动对视频版权进行检测的方式。而在进行视频版权的检测时通常还需基于下述两种方式来获取视频指纹。第一种方式为获取基于颜色空间的视频指纹，即提取视频帧的颜色直方图特征，并将颜色直方图特征作为视频指纹。第二种方式为获取基于二维离散余弦变换的视频指纹，参见图1，首先将视频在时域上进行帧率变换，即将视频转变为较低的帧率(比如帧率F＝4)；然后在对视频帧进行缩放后，再将其转换成黑白图片。之后，将得到的黑白图片在时域上分割成为多个分片(比如J张图片组成一个分片)；接下来，将每一个分片包含的多张连续图片进行时域上的信息合并，得到一张合并图片。最终，对得到的多张合并图片进行二维离散余弦变换，进而基于得到的变换结果生成视频指纹。而无论针对上述哪一种方式，在获取到视频指纹后，还需将获取到的视频指纹与指纹库中存储的视频指纹进行匹配；若未能够匹配到指纹库中的指纹，则确定待检测视频未侵占版权方的版权。

在实现本发明的过程中，发明人发现相关技术至少存在以下问题：

基于颜色特征信息的视频指纹以及基于二维离散余弦变换的视频指纹均存在抗噪性能较差的缺陷，进而在基于得到的视频指纹进行版权检测时，均会存在视频版权的检测精准度较差的问题。

发明内容

本发明实施例提供了一种视频版权的检测方法、装置、存储介质及设备，解决了相关技术在进行视频版权检测时检测精准度较差的问题。所述技术方案如下：

第一方面，提供了一种视频版权的检测方法，所述方法包括：

对于待检测视频中的每一个视频帧，对所述视频帧进行特征提取，得到所述视频帧的目标特征；

根据所述视频帧的目标特征和预先得到的至少一个第一聚类中心，计算所述视频帧的局部特征，所述至少一个第一聚类中心是通过对具有版权的视频的目标特征进行聚类得到的；

获取所述目标特征的第一特征值以及获取所述局部特征的第二特征值，得到所述视频帧的视频指纹；

基于所述每一个视频帧的视频指纹，对所述待检测视频进行版权检测。

第二方面，提供了一种视频版权的检测装置，所述装置包括：

提取模块，用于对于待检测视频中的每一个视频帧，对所述视频帧进行特征提取，得到所述视频帧的目标特征；

计算模块，用于根据所述视频帧的目标特征和预先得到的至少一个第一聚类中心，计算所述视频帧的局部特征，所述至少一个第一聚类中心是通过对具有版权的视频的目标特征进行聚类得到的；

生成模块，用于获取所述目标特征的第一特征值以及获取所述局部特征的第二特征值，根据所述第一特征值和所述第二特征值生成得到所述视频帧的视频指纹；

检测模块，用于基于所述每一个视频帧的视频指纹，对所述待检测视频进行版权检测。

第三方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述第一方面所述的视频版权的检测方法。

第四方面，提供了一种用于视频版权检测的设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述第一方面所述的视频版权的检测方法。

本发明实施例提供的技术方案带来的有益效果是：

在进行视频指纹提取时，得到的视频指纹除了对在待检测视频中提取到的原始特征进行描述外，还描述了基于提取到的原始特征以及至少一个第一聚类中心得到的局部特征，进而根据携带了原始特征以及局部特征的视频指纹进行视频版权的检测，由于采取原始特征以及局部特征相结合的视频指纹生成方式，而局部特征具有较强的抗干扰能力，因此得到的视频指纹具有较强的抗噪能力，所以在基于得到的视频指纹进行版权检测时，精准度更高。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明背景技术提供的一种视频指纹的生成方法流程图；

图2A是本发明实施例提供的一种视频版权的检测方法所涉及的实施场景的架构图；

图2B是本发明实施例提供的一种视频版权的检测方法流程图；

图3是本发明实施例提供的一种视频版权的检测方法流程图；

图4是本发明实施例提供的一种聚类中心与残差特征的对应关系示意图；

图5是本发明实施例提供的一种视频版权的检测方法流程图；

图6是本发明实施例提供的一种视频版权的检测方法流程图；

图7是本发明实施例提供的一种视频版权的检测方法流程图；

图8是本发明实施例提供的一种视频版权的检测装置的结构示意图；

图9是本发明实施例提供的一种用于视频版权检测的设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在对本发明实施例进行详细地解释说明之前，先对本发明实施例所涉及的一些名词进行解释说明。

BoW(Bag of Words，词袋)：最初被用于自然语言处理和信息检索领域。比如，在文本分类中，BoW将文本表示成特征矢量。其中，BoW的基本思想是假定对于一个文本，忽略掉该文本的词序和语法等要素，而仅仅将其看做是若干个词汇的集合。

下面结合一个简单示例对上述BoW的功能作用进行描述。首先给出如下两个文本：John likes to watch movies.Mary likes too.

John also likes to watch football games.

接下来，基于上述两个文本中出现的单词，构建如下的词典(dictionary)：

{"John"：1，"likes"：2，"to"：3，"watch"：4，"movies"：5，"also"：6，"football"：7，"games"：8，"Mary"：9，"too"：10}

其中，上述词典中一共包含10个单词，且每个单词均具有唯一索引，在此基础上，上述两个文本可以通过一个10维的向量来表示。其中，第一个文本可以表示为向量[1,2,1,1,1,0,0,0,1,1]，第二个文本可以表示为向量[1,1,1,1,0,1,1,1,0,0]。由此可知，得到的两个向量与上述两个文本中单词出现的顺序没有关系，而仅与词典中每个单词在文本中出现的频率有关。

近年来，在图像处理领域也引入了BoW，目前BoW已经广泛地应用在图像检索中。在实际应用中，首先对在训练样本图像中提取到的原始特征进行聚类。其中，在本发明实施例中原始特征指代SIFT(Scale-invariant feature transform，尺度不变特征变换)特征或HOG(Histogram of Oriented Gradient，方向梯度直方图)特征等。之后，用聚类出的每一个类别的聚类中心来代表BoW中的一个视觉词，进而得到一个视觉词序列。这样，在待检测图像中进行特征提取后，通过将其映射到生成的视觉词序列，便可得到该待检测图像的码本矢量，实现每一张图像仅通过一个码本矢量便可描述，进而可以大幅地提高后续执行相关计算操作处理的效率。

倒排索引(inverted index)：倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引方式的数据存储结构中的每一项均包括一个属性值和具有该属性值的各记录的信息。由于不是由记录来确定属性值，而是由属性值来确定记录，因而称为倒排索引。其中，针对倒排索引的数据存储结构来说，上述一个属性值通常也称之为单词，而该属性值的各记录的信息通常也称之为该单词的倒排列表。一个单词与其对应的倒排列表组成一个倒排项。

视频指纹：本质上为一个对视频进行唯一标识的数字序列，这个数字序列一般是利用相关算法对在视频中提取到的特征进行处理后得到的。在一个示例性地实施例中，视频指纹可为一个由0和1组成的数字序列。

下面对本发明实施例所涉及的实施场景以及整体构思进行了一下简单的解释说明。

本发明实施例提供的视频版权检测方案利用基于内容的版权检测来对视频的版权进行保护。其中，基于内容进行版权检测时：给定一个待检测视频和一个视频指纹库，其中这个视频指纹库中存储了版权方具有版权的视频的视频指纹。通过将待检测视频的视频指纹与视频指纹库中存储的视频指纹进行匹配，便可以确定出待检测视频是否为版权方具有版权的视频中某一视频的拷贝。

参见图2A，其示出了本发明实施例提供的一种视频版权的检测方法所涉及的实施场景的架构图。如图2A所示，在该实施场景中包括服务器21和终端22。其中，服务器21用于对待检测视频进行视频版权的检测。换一种表达方式，本发明实施例所提出的视频版权检测方案的执行主体为服务器21。而服务器21在完成对待检测视频的视频版权检测后，可将得到的相关检测信息，比如待检测视频与版权方具有版权的某一视频的匹配时长、匹配百分比、以及二者的版权匹配情况输出给图2A所示的终端22，其中该终端22可为专业人员的终端，以进一步地由专业人员依据服务器21输出的相关检测信息，来对待检测视频进行下一步地是否侵占版权的分析，本发明实施例对此不进行具体限定。

此外，本发明实施例在进行视频版权的检测时，除了在视频帧中提取诸如SIFT特征或HOG特征等原始特征之外，还可以融入BoW的特性，即利用BoW技术将原始特征进行抽像化，并基于得到的抽像化特征与原始特征之间的残差特征，生成局部特征；最后将抽像化特征和局部特征相结合，进而生成视频指纹。在一个示例性地实施方式中，可将抽象化特征的哈希特征值以及局部特征的哈希特征值作为所述视频指纹。

需要说明的第一点是，在本发明实施例之所以引入局部特征，是因为利用BoW技术得到的抽象化特征过于抽象，其仅能良好地对一类物体进行描述，但是却不能细化到具体的场景上。比如，抽象化特征可以对一辆车进行良好描述，但是却不能描述这辆车在图像中的不同位置或角度等。而局部特征恰好可以解决这一问题，局部特征对于局部的细节信息具有良好的描述能力。此外，局部特征还具备良好的抗干扰能力，这样基于抽象化特征以及局部特征生成的视频指纹也具备良好的抗噪能力。

其中，在得到待检测视频的视频指纹后，接下来与视频指纹库中存储的视频指纹进行匹配。需要说明的第二点是，本发明实施例的视频指纹库可以采取倒排索引的数据结构来实现对视频指纹的存储。而在得到版权的匹配结果后，便可据此推断出待检测视频是否侵占版权。更为详细地方案描述还请参见下述实施例。

图2B是本发明实施例提供的一种视频版权的检测方法的流程图，其中该视频版权的检测方法的执行主体为图2A所示的服务器。参见图2B，本发明实施例提供的方法流程包括：

201、对每一个具有版权的视频中的关键帧进行特征提取，得到N个目标特征，并对N个目标特征进行聚类，得到C个第一聚类中心。

其中，本步骤的特征提取对象可以针对版权方的具有版权的所有视频。在本发明实施例中，版权方可为视频的出版方、发行方或者原创用户。具有版权的所有视频可以形成一个大规模的视频数据库。这个视频数据库存储在一或多台服务器上。

在本发明实施例中，由于在解码时通过关键帧(也称之为I帧)即可重构完整图像，不需要参考其他画面生成，且关键帧描述了图像背景和运动主体的详情，因此基于降低计算量的考量，可仅针对视频中的关键帧进行特征提取。当然，在进行特征提取时，针对的对象也可为具有版权的视频中的每一帧，而不仅仅是关键帧。换句话说，在基于提取到的目标特征进行第一聚类中心的划分时，这些提取到的目标特征既可以仅来自于具有版权的视频中的关键帧，也可来自于具有版权的视频中的全部视频帧，本发明实施例对此不进行具体限定。

此外，在进行特征提取时，可以在关键帧中提取SIFT特征或者HOG特征等，即目标特征可为SIFT特征或者HOG特征等，本发明实施例对提取的特征类型同样不进行具体限定。本发明实施例仅以提取SIFT特征为例进行说明。

在对每一个具有版权的视频中的关键帧进行SIFT特征提取，得到N个SIFT特征后，本发明实施例会采取聚类算法对N个SIFT特征进行聚类，得到至少一个第一聚类中心。其中，在本发明实施例中采用符号C对得到的第一聚类中心的数目进行指代，即聚类完成后得到C个第一聚类中心。

在本发明实施例中，在对N个SIFT特征进行聚类时，可采取K-means算法实现。其中，K-means算法的基本聚类思路为：初始随机给定C个聚类中心，然后按照最邻近原则将N个SIFT特征分到各个簇，之后按平均法重新计算各个聚类的聚类中心(这个点可以不是样本点)，从而确定新的聚类中心。重复执行迭代过程，直至聚类中心的移动距离小于某个给定值或者聚类次数达到要求为止。换句话说，K-means算法主要分为下述四个步骤：

第一步、为待聚类的N个SIFT特征随机寻找聚类中心。

第二步、计算每个SIFT特征到聚类中心的距离，然后将每个SIFT特征聚类到距离最近的聚类中。

第三步、计算每个聚类中所有SIFT特征的平均值，并将这个平均值作为新的聚类中心。

第四步、反复执行上述第二步以及第三步，直至聚类中心不再进行大范围移动或者聚类次数达到要求为止。

202、对C个第一聚类中心中的每一个第一聚类中心进行顺序编码，得到用于对每一个第一聚类中心进行标识的哈希编码。

其中，一个哈希编码Ci作为用于描述一个第一聚类中心的标签。其中，哈希编码Ci为低维度，以降低后续的计算量。假设得到5个第一聚类中心，则在对这5个第一聚类中心进行顺序编码时，可顺序编码为C_i1、C_i2、C_i3、C_i4、C_i5。

综上所述，通过上述步骤201和步骤202服务器完成了在视频指纹提取之前的预训练过程。接下来对视频指纹的提取过程进行详细地解释说明。

203、对于待检测视频中的每一个视频帧，对该视频帧进行特征提取，得到该视频帧的目标特征，该目标特征中包括N_t个特征。

在本发明实施例中，在对待检测视频进行特征提取之前，还包括对待检测视频进行帧率变换的步骤。在通过帧率变换后待检测视频的帧率为K帧/秒，即一秒钟播放K帧。其中，K的大小可为3或4等数值，本发明实施例对K值的大小不进行具体限定。

以提取SIFT特征为例，提取到N_t个特征，即对应得到N_t个128维的SIFT特征向量。其中，对于一个视频帧来说，N_t的数值大小取决于该视频帧中特征的明显性。在本发明实施例中，特征的明显性用于指代该视频帧的视觉显著性。举一个简单例子来说，对于一个全黑的图像来说其特征明显性要显著低于一个具有丰富线条细节的图像。

需要说明的是，服务器在对待检测视频进行特征提取得到N_t个SIFT特征后，还会基于上述步骤201得到的C个第一聚类中心对N_t个SIFT特征进行映射，使得N_t个SIFT特征中的每一个SIFT特征均可用P个第一聚类中心的哈希编码进行表征，且服务器还可利用C个第一聚类中心与原始特征，来计算用于进行局部细节描述局部特征，具体描述请参见下述步骤204和步骤205。

204、根据该视频帧的目标特征和C个第一聚类中心，计算该视频帧的局部特征。

对于N_t个SIFT特征中的每一个SIFT特征，首先，还需在C个第一聚类中心中，确定与该特征距离最近的P个第一聚类中心，其中，距离最近的P个第一聚类中心按照下述方式确定：计算该SIFT特征与C个第一聚类中心中每一个第一聚类中心的距离；接下来，对得到的距离进行由小到大的排序，并将排位在前P个的第一聚类中心确定为与该SIFT特征距离最近的P个第一聚类中心。当然也可按照由大到小的顺序进行排序，并将排在未位的P个第一聚类中心确定为需求的距离最近的P个第一聚类中心，本发明实施例对此不进行具体限定。

之后，获取该SIFT特征与P个第一聚类中心之间的距离，得到P个残差特征，该P个残差特征即为该SIFT特征对应的局部特征。

在本发明实施例中，在得到P个第一聚类中心后，可以通过下述公式来计算得到P个残差特征。

其中，为128维的SIFT特征(即原始特征)，为聚类中心(即抽象化特恒)，为残差特征。

由上述公式可知，P个残差特征即为原始特征与P个第一聚类中心之间的距离。其中，之所以将称之为抽象化特征，是因为在完成N个SIFT特征的聚类得到C个第一聚类中心后，利用了BoW的特性，一个聚类中心即为一个视觉词语，对于N_t个SIFT特征中的每一个SIFT特征来说，通过映射P个第一聚类中心，进而利用这P个第一聚类中心便可来描述这个SIFT特征。通过这种描述，我们可以得到这个SIFT特征的抽像化特征。而由于抽象化特征并不能很好地描述局部的细节信息，因此本发明实施例引入了残差特征其中，残差特征能够更细节地描述一些细微差别。

205、获取该视频帧的目标特征的第一特征值以及局部特征的第二特征值，根据第一特征值和第二特征值生成该视频帧的视频指纹。

继续以N_t个SIFT特征中的一个SIFT特征为例，由于该SIFT特征映射到P个第一聚类中心，因此在本发明实施例中基于该P个第一聚类中心的哈希编码生成一个SIFT特征的特征值。

即，在本发明实施例中，一个SIFT特征通过映射到P个第一聚类中心，并以P个第一聚类中心的哈希编码作为特征值，使得通过P个第一聚类中心的哈希编码来表征一个SIFT特征。另外，需要说明的第一点是，通过利用距离最近的P个聚类中心来表征一个SIFT特征，可以有效地中和在依据K-means算法进行聚类时所产生的误差，进而可显著提高视频版权检测的召回率。

需要说明的第二点是，在对待检测视频进行SIFT特征提取时，提取到的SIFT特征一般为128维的高维度特征向量，而通过对提取到的SIFT特征用P个第一聚类中心的哈希编码来表征，可实现将一个特征从高维度降低到低维度，可大大降低后续的计算量，进而提高视频版权检测的效率，这也正是聚类的意义所在。

在本发明实施例中，在得到一个SIFT特征对应的P个残差特征后，还需对得到的P个残差特征进行哈希编码，进而获取由这个P个残差特征组成的局部特征的特征值。

其中，为了实现对得到的P个残差特征进行哈希编码，也会对残差特征进行预训练，预先收集一定量的残差特征并对残差特征量按照步骤201类似的方式进行聚类(比如也采取K-means聚类方法)，参见图3，详细地聚类方式如下：

205a、在对每一个具有版权的视频中的关键帧进行特征提取，得到N个目标特征后，按照步骤204类似的方式计算N个目标特征中每一个特征对应的P个残差特征。

205b、对得到的N*P个残差特征进行聚类，得到至少一个第二聚类中心。

其中，在本发明实施例中采用符号CR对得到的第二聚类中心的数目进行指代，即聚类完成后得到CR个第二聚类中心。

205c、对CR个第二聚类中心中每一个第二聚类中心进行顺序编码，得到用于对每一个第二聚类中心进行标识的哈希编码。

其中，一个哈希编码CRi作为用于描述一个第二聚类中心的标签。由于哈希编码CRi为低维度，以降低后续的计算量。假设得到5个第二聚类中心，则在对这5个第二聚类中心进行顺序编码时，可顺序编码为CR_i1、CR_i2、CR_i3、CR_i4、CR_i5。

继续以N_t个SIFT特征中的一个SIFT特征为例，对于该SIFT特征对应的P个残差特征中的每一个残差特征，首先在预先得到的CR个第二聚类中心中，确定与该残差特征距离最近的Q个第二聚类中心；其中，距离最近的Q个第二聚类中心按照下述方式确定：计算该残差特征与CR个第二聚类中心中每一个第二聚类中心的距离；对得到的距离进行由小到大的排序，并将排位在前Q个的第二聚类中心确定为与该残差特征距离最近的Q个第二聚类中心。

之后，获取Q个第二聚类中心的哈希编码，得到该残差特征的特征值。由于残差特征有P个，因此一个SIFT特征对应的局部特征的特征值中是包括Q*P个哈希编码的。

综上所述，对于待检测视频的一个视频帧来说，N_t*P个哈希编码Ci即构成该视频帧的SIFT特征的第一特征值。N_t*P*Q个残差特征的哈希编码CRi即构成该视频帧的局部特征的第二特征值。下面以图4为例，对SIFT特征、哈希编码Ci、残差特征以及哈希编码CRi之间的对应关系进行解释说明。

在图4中，对于一个SIFT特征来说，可以映射到C个第一聚类中心中的P个第一聚类中心，其哈希编码分别为C_i1、C_i2、C_i3、…、C_ip，总数量为P个。在经过残差特征计算后得到P个残差特征，分别以r₁至r_p对P个残差特征进行指代；而对于每一个残差特征来说，可以映射到CR个第二聚类中心中的Q个第二聚类中心，其哈希编码分别为CR_i1、CR_i2、CR_i3、…、CR_iQ。换句话说，一个哈希编码Ci对应Q个哈希编码CRi。

需要说明的第一点是，上述步骤204和步骤205均以一个SIFT特征为例进行说明，对于在一个视频帧中提取到的N_t个SIFT特征来说，服务器均可按照上述步骤204和步骤205来进行SIFT特征的特征值计算以及局部特征的特征值计算。

需要说明的第二点是，针对待检测的每一个视频帧来说，本发明实施例在对提取到的视频指纹进行记录时，还会记录该视频帧在待检测视频中的出现时间点。以图4中的哈希编码C_i1为例，由于C_i1对应Q个哈希编码，分别为CR_i1、CR_i2、CR_i3、…、CR_iQ，因此会按照下述方式进行记录：(C_i1，CR_i1，t)、(C_i1，CR_i2，t)、……、(C_i1，CR_iQ，t)。其中，时间t即为对应视频帧在待检测视频中的出现时间点。

需要说明的第三点是，，对于一个视频帧来说，如前文所述包括N_t*P个哈希编码Ci，以及N_t*P*Q个残差特征的哈希编码CRi，本发明实施例在对这些哈希编码进行保存时，既可选择利用多个低维度的向量进行存储，也可以选择利用一个高维度的向量进行存储，本发明实施例对此不进行具体限定。

在得到待检测视频中每一个视频帧的视频指纹后，服务器便可基于预先生成的视频指纹库来完成视频指纹的匹配，进而实现对待检测视频的版权的检测。

206、基于待检测视频中每一个视频帧的视频指纹，对该待检测视频进行版权检测。

在本发明实施例中，参见图5，在对上述待检测视频进行版权检测时，具体可分为下述几个步骤：

206a、基于每一个视频帧的视频指纹和预先生成的视频指纹库，在具有版权的视频中筛选出至少一个候选视频。

其中，预先生成的视频指纹库中存储了具有版权的全部视频的视频指纹。

需要说明的第一点是，针对具有版权的各个视频来说，在获取视频指纹时，同样按照与上述步骤203至步骤205类似的方式进行提取，即本发明实施例还需保证待检测视频的视频指纹提取过程与具有版权的各个视频的视频指纹提取过程一致，这样保证在相同的条件下进行视频指纹的提取，方可使得后续指纹匹配过程有意义，结果也才更精准。比如，与前文对待检测视频的描述类似，在对具有版权的各个视频进行特征提取之前也同样需要进行一下帧率的变换，在生成视频指纹时也同样需要引入残差特征，同样需依据C个第一聚类中心以及CR个第二聚类中心，来计算SIFT特征的特征值以及残差特征的特征值。

需要说明的第二点是，视频指纹库中的视频指纹也是按照上述类似的方式对SIFT特征的特征值以及残差特征的特征值进行记录，唯一一点不同的时，还额外记录了视频的视频标识信息。比如，按照(C_j，CR_j，videoID_j，t_j)的方式进行视频指纹的记录。其中，videoID_j便指代视频标识信息。

在另一个示例性的实施方式中，本发明实施例中具体是按照倒排索引的数据结构，对视频指纹库中包含的视频指纹进行存储的。其中，以一个视频帧为例，在视频指纹库的一个倒排项中，具体是以该视频帧的视频指纹作为单词，以该视频帧在目标视频中出现的时间点以及目标视频的视频标识信息作为倒排列表。其中，目标视频指代在具有版权的全部视频中包括该视频帧的那些视频。

下面以一个具体的例子对上述倒排索引的数据结构进行解释说明。

以[C_m1，CR_m1]：{[t_j，videoID_k]，[t_k，videoID_x]，…}，[C_m2，CR_m3]：{[t_j+n，videoID_k+h]，[t_k，videoID_x]，…}为例，其中，上述所示为两个倒排项。[C_m1，CR_m1]以及[C_m2，CR_m3]为单词，{[t_j，videoID_k]，[t_k，videoID_x]，…}构成了[C_m1，CR_m1]的倒排列表。目标视频即指代视频标识信息为videoID_k以及videoID_x等的视频。在videoID_k这个视频中，在t_j时刻出现了[C_m1，CR_m1]对应的视频帧；在videoID_x这个视频中，在t_k时刻出现了[C_m2，CR_m3]对应的视频帧。

在另一个示例性的实施方式中，本发明实施例在具有版权的全部视频中筛选至少一个候选视频时，可采取下述方式实现：

(1)、对于待检测视频中的每一个视频帧，在视频指纹库中查找与该视频帧具有相同视频指纹的目标视频帧。

针对该步骤，具有相同视频指纹的含义可为二者的SIFT特征的特征值以及残差特征的特征值均相等，本发明实施例对此不进行具体限定。

(2)、按照视频标识信息，对基于每一个视频帧查找到的目标视频帧中的各个视频帧进行归类，以使具有相同视频标识信息的视频帧规为一类。

其中，基于每一个视频帧查找到的目标视频帧，覆盖了与待检测视频中的所有视频帧具有相同视频指纹的视频帧。

针对该步骤，本发明实施例还可按照视频标识信息或者在对应视频中的出现时间点对目标视频帧进行分类聚合。以按照视频标识信息进行分类聚合为例，假设目标视频帧的相关信息为[t_j，videoID_k]、[t_k，videoID_x]、[t_a，videoID_k]、[t_c，videoID_y]、[t_h，videoID_y]、[t_l，videoID_x]、[t_k，videoID_x]、[t_a+n，videoID_k]、[t_h，videoID_k]，则可聚合为下述三类：

[t_j，videoID_k]、[t_a，videoID_k]、[t_a+n，videoID_k]、[t_h，videoID_k]；

[t_c，videoID_y]、[t_h，videoID_y]；

[t_k，videoID_x]、[t_l，videoID_x]、[t_k，videoID_x]。

(3)、若一个归类包含的视频帧的数量大于第一预设阈值，则将归类的视频标识信息所指示的视频确定为候选视频。

其中，第一预设阈值的大小可事先通过多次试验进行数值设定或者事先按照经验值进行数值设定，本发明实施例对此不进行具体限定。无论采取上述哪一种方式，第一预设阈值的取值以能够在海量的具有版权的视频中快速精准地进行相似视频的查找为基本条件。

在本发明实施例中，若聚合出来的一个类中包含的视频帧的数量大于第一预设阈值，则表明这一归类的视频标识信息所指示的视频同待检测视频相似的可能性较高，因此将这一归类的视频标识信息所指示的视频作为候选视频。

举一个简单的例子来说，假设第一预设阈值的大小为3，则前文所述的第一个分类[t_j，videoID_k]、[t_a，videoID_k]、[t_a+n，videoID_k]、[t_h，videoID_k]所对应的视频videoID_k便为候选视频。

而如果聚合出来的一个类中包含的视频帧的数量小于第一预设阈值，则表明这一归类的视频标识信息所指示的视频同待检测视频相似的可能性较低，直接将其过滤掉。

206b、对于至少一个候选视频中的每一个候选视频，获取该候选视频与待检测视频之间的第一时间匹配信息。

对于一个候选视频来说，第一时间匹配信息中记录了在待检测视频中与候选视频具有相同视频指纹的时间点。

继续以上述第一分类[t_j，videoID_k]、[t_a，videoID_k]、[t_a+n，videoID_k]、[t_h，videoID_k]为例，针对视频videoID_k来说，分别在时间点t_j、t_a、t_a+n以及t_h与待检测视频具有相同的视频指纹，同理，针对待检测视频来说，对应地也有与t_j、t_a、t_a+n以及t_h相匹配的时间点，分别以时间点t_s、t_x、t_y以及t_z进行指代，则这些时间点t_s、t_x、t_y以及t_z在本发明实施例中便称之为第一时间匹配信息。

206c、根据每一个候选视频的第一时间匹配信息，在待检测视频中确定与每一个候选视频匹配的匹配时长。

其中，对于一个候选视频来说，在根据第一时间匹配信息，在待检测视频中确定与候选视频匹配的匹配时长时，可采取下述方式实现：

第一步、对于第一时间匹配信息中包括的任意两个连续的时间点，若两个连续的时间点之间的时间差值小于第二预设阈值且大于第三预设阈值，则将两个连续的时间点所界定的时间段确定为匹配时间段。

其中，任意两个连续的时间点，指代在时间上任一左右相互邻近的两个时间点。继续以时间点t_j、t_a、t_a+n以及t_h，且t_j、t_a、t_a+n以及t_h按照时间顺序依次排列为例，则t_j以及t_a、t_a以及t_a+n、t_a+n以及t_h均为在时间上相互邻近的时间点。其中，第二预设阈值以及第三预设阈值可事先通过多次试验进行数值大小设定或者事先按照经验值进行数值大小设定，本发明实施例对此不进行具体限定。

举例来说，若第二预设阈值为6s，第三预设阈值为2s，则若t_j和t_a之间的时间差为4s，小于第二预设阈值规定的6秒，且大于第三预设阈值规定的2s，则将t_j和t_a之间的这一时长为4s的时间段确定为匹配时间段。

第二步、对得到的至少一个匹配时间段进行总时长统计，将得到的统计时长确定为匹配时长。

针对每一个候选视频来说，将与该候选视频对应的至少一个匹配时间段进行时长的求和运算，即可得到在待检测视频中与该候选视频匹配的匹配时长。

继续以时间点t_j、t_a、t_a+n以及t_h为例，若t_j和t_a之间的时间段T1以及t_a+n以及t_h之间的时间段T2为匹配时间段，则T1+T2便为待检测视频与候选视频videoID_k相匹配的匹配时长。

206d、基于得到的各个匹配时长对待检测视频进行版权检测。

在一个示例性的实施方式中，在基于待检测视频与每一个候选视频的匹配时长对待检测视频进行版权检测时，包括但不限于采取下述三种方式：

第一种方式、若待检测视频与一个候选视频之间的匹配时长小于第四预设阈值，则确定待检测视频并非这个候选视频的拷贝。

在一个示例性的实施方式中，可仅通过匹配时长来最终执行版权检测。其中，第四预设阈值的大小可由版权方实现设置，比如可为1分钟或2分钟等，本发明实施例对此不进行具体限定。

而若二者之间的匹配时长大于第四预设阈值，则确定待检测视频来自对这个候选视频的拷贝，在这种情况下，待检测视频存在侵占版权的可能性很大。

第二种方式、基于待检测视频与一个候选视频之间的匹配时长以及待检测视频的总时长，计算待检测视频与该候选视频之间的匹配百分比，若得到的匹配百分比小于第五预设阈值，则确定待检测视频并非这个候选视频的拷贝。

在一个示例性的实施方式中，还可仅通过匹配百分比来最终执行版权检测。其中，第五预设阈值的大小可由版权方实现设置，比如可为80％或90％等，本发明实施例对此不进行具体限定。

假设待检测视频的总时长为10分钟，匹配时长为9分钟，第五预设阈值为80％，则由于匹配百分比已经达到了90％，远远超出了设定的阈值大小80％，则确定待检测视频来自对这个候选视频的拷贝，即待检测视频存在侵占版权的可能性很大。

第三种方式、若待检测视频与一个候选视频之间匹配时长小于第四预设阈值且匹配百分比小于第五预设阈值，则确定待检测视频并非这个候选视频的拷贝。在一个示例性的实施方式中，还可通过匹配百分比以及匹配时长的双重检测方式来最终执行对待检测视频的版权检测。

在另一个示例性的实施方式中，为了使得最终进行版权检测时结果更加准确，本发明实施例还包括确定时间点筛选条件的步骤，以根据确定的时间点筛选条件在第一时间匹配信息中剔除掉一些无效点，进而基于剩余的时间匹配信息实现匹配时长的计算，即如图6所示，上述步骤206c还可被下述步骤206e至步骤206g替代。

206e、对于至少一个候选视频中的每一个候选视频，获取该候选视频与待检测视频之间的第二时间匹配信息。

其中，第二时间匹配信息记录了在候选视频中与待检测视频具有相同视频指纹的时间点。继续以上述步骤202b所示的例子为例，则第二时间匹配信息即为时间点t_j、t_a、t_a+n以及t_h。

206f、根据第一时间匹配信息以及第二时间匹配信息，生成时间点筛选条件。

首先，将第一时间匹配信息以及第二时间匹配信息，按照之间的相互对应关系，组合成一个个匹配的时间点对。

以继续步骤上述步骤206b所示的例子为例，则在待检测视频中出现的时间点t_s、t_x、t_y以及t_z，依次与视频videoID_k中出现的时间点t_j、t_a、t_a+n以及t_h匹配。即(t_s，t_j)为一对匹配的时间点，(t_x，t_a)为一对匹配的时间点，(t_y，t_a+n)为一对匹配的时间点，(t_z，t_h)为一对匹配的时间点。

接下来，采用最小平方法，通过得到的一个个匹配的时间点对来估算时间带你筛选条件。具体地，构造ax+by＝c的时间点映射关系，其中(x，y)的取值为上述一个个匹配的时间点对。在本发明实施例中，最小平方法的最终目的是通过一个个匹配的时间点对来研究两个变量x和y的依赖关系，即求解实数a、b以及c的具体取值，换句话说，即通过最小平方法来在XY直角坐标系中找出一条与上述一个个匹配的时间点对最佳匹配的直线ax+by＝c。在本发明实施例中，即以这条直线ax+by＝c为时间点筛选条件，

此外，在得到这条直线ax+by＝c后，也可明确待检测视频相对于候选视频是否在时域上执行了缩放操作。若a/b＝1，且c＝0，则表明待检测视频相对于候选视频来说，未在时域上进行缩放。比如候选视频的总时长为3分钟，待检测视频的总时长也为3分钟。对于除了上述情形之外的其他情形来讲，则表明待检测视频相对于候选视频来说在时域上进行了缩放。比如候选视频的总时长为3分钟，待检测视频的总时长扩充为6分钟。

206g、按照该时间点筛选条件，在第一时间匹配信息中筛选出用于进行匹配时长的目标时间匹配信息，并根据得到的目标时间匹配信息计算待检测视频与该候选视频的匹配时长。

对于一个个匹配的时间点对来说，若一个时间点对与直线ax+by＝c之间的距离较远，则将这个时间点对剔除掉，重复执行这个步骤直至遍历全部的时间点对，最终剩余的时间点对便组成了目标时间匹配信息。

以上述直线为x＝y为例，若一个时间点对为(1，10000)，则由于这个时间点对与直线x＝y距离过远，因此认为这个时间点对是一个无效的匹配，所以将其剔除掉。

需要说明的是，之所以会出现上述无效的匹配，是由于有一些场景在会在视频中重复出现。继续以上述直线为x＝y为例，若一个宫殿在候选视频中的第1s以及第300s中均出现，而待检测视频的时长为1～5s，那么在进行时间点的配对时，很可能会出现(1，1)、(1，300)这样两个匹配的时间对，但是通过估算出的上述直线方程x＝y可知，(1，300)这一匹配的时间对明显不符合预期，与待检测视频的版权检测过程无关，所以将其剔除到。

其中，在根据目标时间匹配信息中包含的一个个匹配的时间点来计算匹配时长时，具体实施方式与步骤206c中所示的方式一致，此处不再赘述。

需要说明的是，在完成对待检测视频的上述版权检测后，可上述匹配时长、匹配百分比、以及得到的版权匹配情况进行输出，以进一步地由专业人员依据输出结果对待检测视频进行进一步地的是否侵占版权的分析，本发明实施例对此不进行具体限定。

本发明实施例提供的视频版权检测机制，能够为包括出版方、发行方、原创用户等在内的版权方提供原创保护，能够快速分析出待检测视频与版权方具有版权的视频的匹配情况，不但可以支持专业人员进行后续的侵权与否分析，而且由于提供了完整的版权保护机制，因此也可鼓励广大用户为版权方提供视频。其中，视频的类型包括但不限于电影、电视剧、综艺、个人才艺展示等等。

综上所述，本发明实施例介绍了对一个输入的待检测视频进行版权检测的详细实现过程，以SIFT特征为例，下面再结合图7对上述进行版权检测的整体流程进行简单梳理。其中，本发明实施例提供的版权检测流程总共可归纳为三个部分，分别为预训练过程、视频指纹的提取过程以及视频指纹的匹配过程，进一步地，预训练过程包括下述步骤a)和步骤b)，视频指纹提取过程包括下述步骤c)至步骤i)，版权检测流程包括下述步骤j)至步骤l)，具体如下：

a)、收集具有版权的视频，并对视频中的关键帧进行特征提取，得到N个目标特征，对N个目标特征进行聚类，得到C个第一聚类中心。

b)、对C个第一聚类中心进行顺序哈希编码，生成用于描述C个第一聚类中心的标签。

c)、输入待检测视频，将待检测视频的帧率变化为K帧/秒。

d)、对待检测视频进行SIFT特征提取，并基于C个第一聚类中心以及提取到的SIFT特征，计算残差特征。

e)、通过预训练收集残差特征，并对收集到的残差特征进行聚类，得到CR个第二聚类中心。

f)、对CR个第二聚类中心进行顺序哈希编码，生成用于描述CR个第二聚类中心的标签。

g)、基于第一聚类中心的哈希编码获取SIFT特征的特征值。

h)、基于第二聚类中心的哈希编码获取残差特征的特征值。

i)、SIFT特征的特征值以及残差特征的特征值构成待检测视频的视频指纹。

j)、将待检测视频的视频指纹输入视频指纹库。

k)、进行视频指纹匹配，以在具有版权的海量视频中寻找候选视频。

l)、对候选视频进行时域匹配分析，基于得到时域匹配结果确定待检测视频的版权匹配情况。

m)、输出待检测视频的版权匹配情况。

需要说明的是，上述提及的整体检测流程除了可用于视频版权的检测场景下以外，还可以应用在其他场景下，下面列举两个场景进行举例说明。

场景一、针对对视频的重复检测，比如视频服务器在进行视频的存储之前，为了避免存储的视频中出现大量的重复性数据，进而造成数据冗余以及存储空间的浪费，可以通过上述提及的方法来判断是否已经存储过相似的视频，进而保证视频服务器的服务质量。

情形二、应用在视频的推荐场景。比如，视频服务器在向用户进行视频推荐时，为了避免向用户重复推荐相似的视频，可以采取上述的检测流程来进行一下检测，进而提升视频推荐质量，确保推荐精度。

本发明实施例提供的方法，在进行视频指纹提取时，得到的视频指纹除了对在待检测视频中提取到的原始特征进行描述外，还描述了基于提取到的原始特征以及至少一个第一聚类中心得到的局部特征，进而根据携带了原始特征以及局部特征的视频指纹进行视频版权的检测，由于采取原始特征以及局部特征相结合的视频指纹生成方式，而局部特征具有较强的抗干扰能力，因此得到的视频指纹具有较强的抗噪能力，所以在基于得到的视频指纹进行版权检测时，精准度更高。

进一步地，本发明实施例融入了BoW的特性，将具有版权的视频的特征进行了抽象化，得到抽象化特征，即至少一个第一聚类中心，并利用在待检测视频的视频帧中提取到的原始特征以及抽象化特征来生成局部特征，而局部特征的出现不但弥补了BoW在细节描述方面的不足，而且基于局部特征以及原始特征进行视频指纹的生成，可在有效提升视频召回率的前提下，大幅度地提升版权检测的精确度。

另外，视频指纹库采取倒排索引的数据存储结构，也有效地提升了视频版权检测的速度。

图8是本发明实施例提供的一种视频版权的检测装置的结构示意图。参见图8，该装置包括：

提取模块801，用于对于待检测视频中的每一个视频帧，对所述视频帧进行特征提取，得到所述视频帧的目标特征；

计算模块802，用于根据所述视频帧的目标特征和预先得到的至少一个第一聚类中心，计算所述视频帧的局部特征，所述至少一个第一聚类中心是通过对具有版权的视频的目标特征进行聚类得到的；

生成模块803，用于获取所述目标特征的第一特征值以及获取所述局部特征的第二特征值，根据所述第一特征值和所述第二特征值生成得到所述视频帧的视频指纹；

检测模块804，用于基于所述每一个视频帧的视频指纹，对所述待检测视频进行版权检测。

在另一个实施例中，所述目标特征中包括N_t个特征，计算模块802，用于对于所述N_t个特征中的每一个特征，计算所述特征与所述至少一个第一聚类中心中每一个第一聚类中心的距离；对得到的距离进行由小到大的排序，获取前P个第一聚类中心与所述特征之间的距离，得到P个残差特征；将得到的N_t*P个残差特征作为所述视频帧的局部特征。

在另一个实施例中，所述目标特征中包括N_t个特征，生成模块803，用于对于所述N_t个特征中的每一个特征，计算所述特征与所述至少一个第一聚类中心中每一个第一聚类中心的距离；对得到的距离进行由小到大的排序，确定前P个第一聚类中心，并获取所述P个第一聚类中心的哈希编码；将得到的N_t*P个哈希编码作为所述视频帧的目标特征的第一特征值。

在另一个实施例中，该装置还包括：

训练模块，用于对每一个具有版权的视频进行特征提取，得到N个目标特征；对所述N个目标特征进行聚类，得到所述至少一个第一聚类中心；对所述至少一个第一聚类中心中的每一个第一聚类中心进行顺序编码，得到用于对所述每一个第一聚类中心进行标识的哈希编码。

在另一个实施例中，所述目标特征中包括N_t个特征，生成模块803，用于对于一个所述特征对应的P个残差特征中的每一个残差特征，计算所述残差特征与预先得到的至少一个第二聚类中心中每一个第二聚类中心的距离，所述第二聚类中心是通过对具有版权的视频的局部特征进行聚类得到的；对得到的距离进行由小到大的排序，确定前Q个第二聚类中心，并获取所述Q个第二聚类中心的哈希编码；将得到的N_t*P*Q个哈希编码作为所述视频帧的局部特征的第二特征值。

在另一个实施例中，训练模块，还用于对每一个具有版权的视频进行特征提取，得到N个目标特征；计算所述N个目标特征中每一个特征对应的P个残差特征；对得到的N*P个残差特征进行聚类，得到所述至少一个第二聚类中心；对所述至少一个第二聚类中心中每一个第二聚类中心进行顺序编码，得到用于对所述每一个第二聚类中心进行标识的哈希编码。

在另一个实施例中，检测模块804，用于基于所述每一个视频帧的视频指纹和预先生成的视频指纹库，在所述具有版权的视频中筛选出至少一个候选视频，所述视频指纹库中存储了所述具有版权的视频的视频指纹；对于所述至少一个候选视频中的每一个候选视频，获取所述候选视频与所述待检测视频之间的第一时间匹配信息，所述第一时间匹配信息记录了在所述待检测视频中与所述候选视频具有相同视频指纹的时间点；根据所述第一时间匹配信息，在所述待检测视频中确定与所述候选视频匹配的匹配时长；基于所述匹配时长，对所述待检测视频进行版权检测。

在另一个实施例中，检测模块804，用于对于所述每一个视频帧，在所述视频指纹库中查找与所述视频帧具有相同视频指纹的目标视频帧；按照视频标识信息，对基于所述每一个视频帧查找到的目标视频帧中的各个视频帧进行归类，以使具有相同视频标识信息的视频帧规为一类；若一个归类包含的视频帧的数量大于第一预设阈值，则将所述归类的视频标识信息所指示的视频确定为所述候选视频。

在另一个实施例中，检测模块804，用于对于所述第一时间匹配信息中包括的任意两个连续的时间点，若所述两个连续的时间点之间的时间差值小于第二预设阈值且大于第三预设阈值，则将所述两个连续的时间点所界定的时间段确定为匹配时间段；对得到的至少一个匹配时间段进行总时长统计，将得到的统计时长确定为所述匹配时长。

在另一个实施例中，检测模块804，用于对于所述至少一个候选视频中的每一个候选视频，获取所述候选视频与所述待检测视频之间的第二时间匹配信息，所述第二时间匹配信息记录了在所述候选视频中与所述待检测视频具有相同视频指纹的时间点；根据所述第一时间匹配信息以及所述第二时间匹配信息，生成时间点筛选条件；按照所述时间点筛选条件，在所述第一时间匹配信息中筛选出用于进行所述匹配时长的目标时间匹配信息；根据所述目标时间匹配信息计算所述匹配时长。

在另一个实施例中，该装置还包括：

存储模块，用于按照倒排索引的数据结构，对所述具有版权的视频的视频指纹进行存储，得到所述视频指纹库；

其中，在所述视频指纹库的一个倒排项中，以视频指纹作为单词，以具有所述视频指纹的视频帧在目标视频中出现的时间点以及所述目标视频的视频标识信息作为倒排列表。

在另一个实施例中，检测模块804，用于若所述匹配时长小于第四预设阈值，则确定所述待检测视频非所述候选视频的拷贝；或，基于所述匹配时长以及所述待检测视频的总时长，计算待检测视频与所述候选视频之间的匹配百分比，若所述匹配百分比小于第五预设阈值，则确定所述待检测视频非所述候选视频的拷贝；或，若所述匹配时长小于第四预设阈值且所述匹配百分比小于第五预设阈值，则确定所述待检测视频非所述候选视频的拷贝。

本发明实施例提供的装置，在进行视频指纹提取时，得到的视频指纹除了对在待检测视频中提取到的原始特征进行描述外，还描述了基于提取到的原始特征以及至少一个第一聚类中心得到的局部特征，进而根据携带了原始特征以及局部特征的视频指纹进行视频版权的检测，由于采取原始特征以及局部特征相结合的视频指纹生成方式，而局部特征具有较强的抗干扰能力，因此得到的视频指纹具有较强的抗噪能力，所以在基于得到的视频指纹进行版权检测时，精准度更高。

进一步地，本发明实施例融入了BoW的特性，将具有版权的视频的特征进行了抽象化，得到抽象化特征，即至少一个第一聚类中心，并利用在待检测视频的视频帧中提取到的原始特征以及抽象化特征来生成局部特征，而局部特征的出现不但弥补了BoW在描述细节方面的不足，而且基于局部特征以及原始特征进行视频指纹的生成，在有效提升视频召回率的前提下，可以大幅度地提升版权检测的准确度。

需要说明的是：上述实施例提供的视频版权的检测装置在检测视频版权时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频版权的检测装置与视频版权的检测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图9是根据一示例性实施例示出的一种用于视频版权检测的设备，该设备具体可为一个服务器，该服务器可以用于实施上述任一示例性实施例示出的视频版权的检测方法。具体来讲：参见图9，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Unit，CPU)922(例如，一个或一个以上处理器)和存储器932，一个或一个以上存储应用程序942或数据944的存储介质930(例如一个或一个以上海量存储设备)。其中，存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出)。

服务器900还可以包括一个或一个以上电源928，一个或一个以上有线或无线网络接口950，一个或一个以上输入输出接口958，和/或，一个或一个以上操作系统941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。所述存储器932中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述实施例所述的视频版权的检测方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频版权的检测方法，其特征在于，所述方法包括：

获取所述目标特征的第一特征值以及获取所述局部特征的第二特征值，根据所述第一特征值和所述第二特征值生成所述视频帧的视频指纹；

2.根据权利要求1所述的方法，其特征在于，所述目标特征中包括N_t个特征，根据所述视频帧的目标特征和预先得到的至少一个聚类中心，计算所述视频帧的局部特征，包括：

对于所述N_t个特征中的每一个特征，计算所述特征与所述至少一个第一聚类中心中每一个第一聚类中心的距离；

对得到的距离进行由小到大的排序，获取前P个第一聚类中心与所述特征之间的距离，得到P个残差特征；

将得到的N_t*P个残差特征作为所述视频帧的局部特征。

3.根据权利要求1所述的方法，其特征在于，所述目标特征中包括N_t个特征，所述获取所述目标特征的第一特征值，包括：

对得到的距离进行由小到大的排序，确定前P个第一聚类中心，并获取所述P个第一聚类中心的哈希编码；

将得到的N_t*P个哈希编码作为所述视频帧的目标特征的第一特征值。

4.根据权利要求1至3中任一权利要求所述的方法，其特征在于，所述方法还包括：

对每一个具有版权的视频进行特征提取，得到N个目标特征；

对所述N个目标特征进行聚类，得到所述至少一个第一聚类中心；

对所述至少一个第一聚类中心中的每一个第一聚类中心进行顺序编码，得到用于对所述每一个第一聚类中心进行标识的哈希编码。

5.根据权利要求2所述的方法，其特征在于，所述目标特征中包括N_t个特征，所述获取所述局部特征的第二特征值，包括：

对于一个所述特征对应的P个残差特征中的每一个残差特征，计算所述残差特征与预先得到的至少一个第二聚类中心中每一个第二聚类中心的距离，所述第二聚类中心是通过对具有版权的视频的局部特征进行聚类得到的；

对得到的距离进行由小到大的排序，确定前Q个第二聚类中心，并获取所述Q个第二聚类中心的哈希编码；

将得到的N_t*P*Q个哈希编码作为所述视频帧的局部特征的第二特征值。

6.根据权利要求1、2或5中任一权利要求所述的方法，其特征在于，所述方法还包括：

对每一个具有版权的视频进行特征提取，得到N个目标特征；

计算所述N个目标特征中每一个特征对应的P个残差特征；

对得到的N*P个残差特征进行聚类，得到所述至少一个第二聚类中心；

对所述至少一个第二聚类中心中每一个第二聚类中心进行顺序编码，得到用于对所述每一个第二聚类中心进行标识的哈希编码。

7.根据权利要求1所述的方法，其特征在于，所述基于所述每一个视频帧的视频指纹，对所述待检测视频进行版权检测，包括：

基于所述每一个视频帧的视频指纹和预先生成的视频指纹库，在所述具有版权的视频中筛选出至少一个候选视频，所述视频指纹库中存储了所述具有版权的视频的视频指纹；

对于所述至少一个候选视频中的每一个候选视频，获取所述候选视频与所述待检测视频之间的第一时间匹配信息，所述第一时间匹配信息记录了在所述待检测视频中与所述候选视频具有相同视频指纹的时间点；

根据所述第一时间匹配信息，在所述待检测视频中确定与所述候选视频匹配的匹配时长；

基于所述匹配时长，对所述待检测视频进行版权检测。

8.根据权利要求7所述的方法，其特征在于，所述基于所述每一个视频帧的视频指纹和预先生成的视频指纹库，在所述具有版权的视频中筛选出至少一个候选视频，包括：

对于所述每一个视频帧，在所述视频指纹库中查找与所述视频帧具有相同视频指纹的目标视频帧；

按照视频标识信息，对基于所述每一个视频帧查找到的目标视频帧中的各个视频帧进行归类，以使具有相同视频标识信息的视频帧规为一类；

若一个归类包含的视频帧的数量大于第一预设阈值，则将所述归类的视频标识信息所指示的视频确定为所述候选视频。

9.根据权利要求7所述的方法，其特征在于，所述根据所述第一时间匹配信息，在所述待检测视频中确定与所述候选视频匹配的匹配时长，包括：

对于所述第一时间匹配信息中包括的任意两个连续的时间点，若所述两个连续的时间点之间的时间差值小于第二预设阈值且大于第三预设阈值，则将所述两个连续的时间点所界定的时间段确定为匹配时间段；

对得到的至少一个匹配时间段进行总时长统计，将得到的统计时长确定为所述匹配时长。

10.根据权利要求7所述的方法，其特征在于，所述根据所述第一时间匹配信息，在所述待检测视频中确定与所述候选视频匹配的匹配时长，包括：

对于所述至少一个候选视频中的每一个候选视频，获取所述候选视频与所述待检测视频之间的第二时间匹配信息，所述第二时间匹配信息记录了在所述候选视频中与所述待检测视频具有相同视频指纹的时间点；

根据所述第一时间匹配信息以及所述第二时间匹配信息，生成时间点筛选条件；

按照所述时间点筛选条件，在所述第一时间匹配信息中筛选出用于进行所述匹配时长的目标时间匹配信息；

根据所述目标时间匹配信息计算所述匹配时长。

11.根据权利要求7至10中任一权利要求所述的方法，其特征在于，所述方法还包括：

按照倒排索引的数据结构，对所述具有版权的视频的视频指纹进行存储，得到所述视频指纹库；

12.根据权利要求7至10中任一权利要求所述的方法，其特征在于，所述基于所述匹配时长，对所述待检测视频进行版权检测，包括：

若所述匹配时长小于第四预设阈值，则确定所述待检测视频非所述候选视频的拷贝；或，

基于所述匹配时长以及所述待检测视频的总时长，计算待检测视频与所述候选视频之间的匹配百分比，若所述匹配百分比小于第五预设阈值，则确定所述待检测视频非所述候选视频的拷贝；或，

若所述匹配时长小于第四预设阈值且所述匹配百分比小于第五预设阈值，则确定所述待检测视频非所述候选视频的拷贝。

13.一种视频版权的检测装置，其特征在于，所述装置包括：

生成模块，用于获取所述目标特征的第一特征值以及获取所述局部特征的第二特征值，根据所述第一特征值和所述第二特征值生成所述视频帧的视频指纹；

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至12中任一权利要求所述的视频版权的检测方法。

15.一种用于视频版权检测的设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至12中任一权利要求所述的视频版权的检测方法。