CN101833650A

CN101833650A - 一种基于内容的视频复制检测方法

Info

Publication number: CN101833650A
Application number: CN200910119540A
Authority: CN
Inventors: 梁颖宇; 张钹; 李建民; 孙富春; 贾银高
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2009-03-13
Filing date: 2009-03-13
Publication date: 2010-09-15

Abstract

一种视频检测系统及方法，根据用户输入的查询视频，快速、准确地检查输入是否复制了视频数据集里某个视频的片段，并在存在复制片段的情况下输出其起止位置。该方法包括特征提取、特征匹配和融合判断三个步骤。首先提取视频帧的SURF特征，该特征在提取过程中使用积分图的优化方案，提取速度快。不同于传统的直接对各个特征点的特征向量进行匹配的方法，在特征匹配步骤采用双层匹配的方法：首先对每一关键帧中的特征向量使用bag-of-words方法，得到此关键帧的词频直方图，然后对各个关键帧的词频直方图进行索引，用于查找相匹配的关键帧对；最后对于关键帧对中的特征点进行匹配。在融合判断步骤，建立概率图模型进行PSE，利用强有力的推理方法对复制片段的存在和位置进行推导，充分利用视频的时间一致性和空间一致性，避免了传统融合方法的弊端。

Description

一种基于内容的视频复制检测方法

技术领域

本发明涉及信息处理领域，特别是涉及多媒体处理系统，更具体而言，涉及判断视频数据集中是否包含有某个视频片段的复制，并在包含有的情况时确定复制片段的位置。

背景技术

复制视频是指对源视频进行各种处理之后得到的视频，相关的处理包括视频格式变换，颜色变换，画面几何变换，插入字幕，帧丢失，画面噪声等等。将视频V视为一个帧序列{V_i，1≤i≤N}，视频复制检测的形式定义如下：给定一个视频集合{R^j}，和一个查询视频Q＝{Q_i，1≤i≤N}，视频复制检测的任务为对于{R^j}中的每个视频

找出可能存在的1≤u＜v≤N和1≤x＜y≤M^j，满足{Q_i，u≤i≤v}是的一份复制。

视频复制检测有两种途径，分别是基于关键字的视频复制检测，以及基于内容的视频复制检测。基于关键字的视频复制检测是指利用视频的标题、标注等附加的文字信息判断是否为复制视频的方法，这种方法具有非常大的局限性，现实意义不大。基于内容的视频复制检测(Content-Based Video Copy Detection)是指利用视频本身的信息判断是否为复制视频的方法，适应性强，准确度高，为视频的版权保护、视频监控、冗余视频检测等提供了有效的技术手段。

视频复制检测系统需要指定一个视频数据集，这个数据集由多个视频组成；系统输入为一个查询视频；系统通过比对查询视频的特征和数据集里各个视频的特征，判断前者是否包含后者某个片段的复制，如果有则确定复制片段的在查询视频和数据集视频中的位置；系统输出包括判断和复制片段位置。

基于内容的视频复制检测系统分为三步：特征提取、特征匹配和融合判断。首先，选取视频中的一些帧作为关键帧，在关键帧图像上提取特征，以这些特征作为视频的描述。在图像处理中有许多种特征，它们分为两大类：全局特征和局部特征。提取全局特征时将整个图像映射为一个向量，其描述能力不强，降低了视频复制检测的精确度。提取局部特征时，检测图像中的特征点，然后将每个特征点附近的局部图像映射为一个向量，作为这个点的特征，所有特征点的向量组成了这幅图像的特征。局部特征描述能力强，能表达丰富的视频内容信息，并且经过各种处理后的图像和原来图像有相近的局部特征，使得能准确找到具有复制关系的视频片段，在视频复制检测中有关键作用。

第二步将查询视频和数据集里视频的特征进行匹配。具体来说，在使用局部特征时，对于查询视频的每个特征向量，在数据集里视频的特征向量中找出与其相似的一个或多个特征向量，得到特征点对。视频数据库的特征数量巨大，比如10个小时的视频数据，如果每秒钟提取一幅关键帧，每幅关键帧上有100个特征点，则总共有3600000个特征向量。因此需要使用索引结构来进行匹配，常用的包括哈希表(hash tables)，kd-树等。即便使用了索引结构，匹配这一步仍然占用了整个过程的大部分时间，因此有必要设计新的匹配方法，提高系统的速度，改进检测效率。

第三步根据匹配结果判断查询视频中是否复制了数据集里某个视频的片段。具体来说，需要对第二步的匹配结果进行融合得到查询视频和数据集里视频的特征向量集合的相似程度，然后以相似程度为依据进行判断。常用的融合方法由特征点对估计出变换处理的参数，将属于同一个变化处理的所有特征点对的相似分数(由特征点对中两个特征向量的距离计算)相加，取各个处理中相似分数最高者为最终的相似分数，如果超过阈值则视为含有复制片段。这种融合方法没有充分考虑视频特征向量序列的时间一致性，融合效果不佳，需要设计更有效的方法，改进系统的性能。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于内容的视频复制检测方法及系统，根据本发明的视频检测系统根据用户输入的查询视频，快速、准确地检查输入是否复制了视频数据集里某个视频的片段，并在存在复制片段的情况下输出其起止位置。本发明针对快速、准确的要求，提出一个既考虑运行速度又考虑检测性能的系统。本系统提取视频帧的加速鲁棒特征(Speeded Up Robust Feature，简称SURF)，这种特征已被证实为既具有良好的分辨性又具有良好的鲁棒性，而且在提取过程中使用了积分图的优化方案，提取速度快。不同于传统的直接对各个特征点的特征向量进行匹配的方法，在本系统的特征匹配步骤，采用了双层匹配的方法：首先对每一关键帧中的特征向量使用bag-of-words方法，得到此关键帧的词频直方图，然后对各个关键帧的词频直方图进行索引，用于查找相匹配的关键帧对；最后对于关键帧对中的特征点进行匹配。在融合判断步骤，本系统建立了概率图模型，进行概率化片段估计(Probabilistic Segment Estimate简称PSE)，利用强有力的推理方法对复制片段的存在和位置进行推导，充分利用了视频的时间一致性和空间一致性，避免了传统的融合方法的弊端。

该方法的具体步骤如下：

1.首先提取查询视频和数据集里视频的SURF特征；

2.利用k-means方法对数据集里所有视频的SURF特征进行聚类，得到V＝256个基向量，组成bag-of-words方法中的词表(vocabulary)；

3.根据bag-of-words方法，将每个关键帧的所有特征向量投射到基向量上，得到基向量上的词频直方图；

4.对数据集里视频的各个关键帧的词频直方图建立近似最近邻(Approximate Nearest Neighbor，简称ANN)索引，在索引中找到查询视频中每个关键帧词频直方图的相似者；

5.对查询视频中的每个关键帧，将其中的特征向量和相似关键帧中的进行匹配，得到特征点对；

6.对查询视频中的每个关键帧，根据其特征点对估计变换处理的参数；

7.利用估计到的参数序列，根据概率图模型，推导复制片段是否存在以及其位置。

虽然在下文中将结合一些示例性实施及使用方法来描述本发明，但本领域技术人员应当理解，为并不旨在将本发明限制于这些实施例。反之，旨在覆盖包含在所附的权利要求书所定义的本发明的精神与范围内的所有替代品、修正及等效物。

本发明的其他优点、目标，和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书，权利要求书，以及附图中所特别指出的结构来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1示出了根据本发明的概率图模型；

图2示出了根据本发明的视频检测系统的基本流程架构；以及

图3是根据本发明的视频检测系统流程架构。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的详细描述。需要注意的是，根据本发明的视频复制检测系统及方法的实施方式仅仅作为例子，但本发明不限于该具体实施方式。

所述方法是在视频检测系统中依次按以下步骤实现的：

步骤(1).提取查询视频Q和数据集里视频R的SURF特征。对于查询视频，每Pq帧选取一关键帧；对于数据集里视频，每Pd帧选取一帧为关键帧。在关键帧上提取SURF点即特征点处的特征向量。

所谓SURF(Speeded Up Robust Feature，简称SURF)，是由Herbert Bay在2006年提出的一种图像描述子，可以用于物体识别和三维重建，具有较好的鲁棒性和较快的提取速度。

步骤(2).利用k-means方法对数据集里所有视频的SURF特征进行聚类，得到V＝256个基向量，组成bag-of-words方法中的词表(vocabulary)。对于查询视频或数据集里视频的每个关键帧，用以下方法求出此关键帧的词频直方图：初始化词频直方图为V维零向量；对关键帧中每个SURF点，求出与其最相似的基向量(使用欧式距离(Euclidean distance)衡量)，在直方图中与此基向量对应的位置上加1；将直方图各个位置除以SURF点个数，标准化为频率直方图。

所谓k-means方法，是一种把n个物体分成k个划分的聚类方法，并且用每个划分的中心作为这个划分的代表，其目标是最小化各个划分内方差的和。

所谓bag-of-words模型，是自然语言处理和信息检索中的一种常用方法，是指把文档表示成词的集合，而忽略词的关系，比如词序和语法。这种方法也被扩展到计算机视觉领域，即把图像作为文档，把抽取的特征作为词。

步骤(3).对数据集里视频的关键帧词频直方图进行索引，使用的索引结构为ANN(Approximate Nearest Neighbor)。此种索引结构使用了kd-tree作为内部数据结构，其时间复杂性按特征点数的对数增长，索引本身与索引的数据相比占用空间很少，因此适用于本方法。对于查询视频的每个关键帧词频直方图，在索引中找到与其最相似的词频直方图，对应的关键帧即为其相似关键帧。记查询视频的关键帧集合为{QKF_i，1≤i≤NQKF}。对于每个QKF_i，按照以下方法得到其特征点对集合PS_i：对于QKF_i中每个特征向量

在QKF_i的相似关键帧中找到与之距离最小的特征向量(使用欧式距离Euclidean distance衡量)

这两个特征点组成一个特征点对所有的特征点对组成其中NDP_i是PS_i中特征点对数目。记PS＝{PS_i，1≤i≤NQKF}，称为查询视频的特征点对序列。

步骤(4).对查询视频的每个PS_i，根据其特征点对估计变换处理的参数。每个特征点都有其在视频中的时空位置(x，y，t)。假定特征点rd经过复制之后得到qd，则这两个特征点满足复制时的变换公式：

\{\begin{matrix} qd . x = xs \times rd . x + xf \\ qd . y = ys \times rd . y + yf \\ qd . t = ts \times rd . t + tf \end{matrix}

其中vs＝(xs，ys，ts)为伸缩系数，vf＝(xf，yf，tf)为偏移系数，两者合称为复制时的变换参数。

对于查询视频特征点对序列PS中的每个PS_i，按以下方法估计变换参数，得到的估计结果记为obv_i。

1)如果将PS_i为空，则obv_i＝∞；否则将vs各个分量离散化，枚举可能的值；

2)对于每个vs，PS_i中每个特征点对

可以计算得到一个vf＝(xf，yf，tf)，同时可以根据和

的距离计算得到

的相似分数

3)将所有

的vf以为权重加权平均得到

{PS}_{i} . vf = (Σ_{j = 1}^{{NDP}_{i}} {dp}_{i}^{j} . vf \times {dp}_{i}^{j} . score) / (Σ_{j = 1}^{{NDP}_{i}} {dp}_{i}^{j} . score);

4)将距离PS_i.vf较远的删除，重新计算加权平均，如此重复3次，得到此vs下的PS_i.vf，将所有未删除的特征点对的相似分数相加得到此vs的可信度PS_i.vs.score；

5)选取可信度最大的vs，此时的vs和PS_i.vf即为最终的obv_i，

此时的可信度即为obv_i.score。

步骤(5).利用估计到的参数序列{obv_i，1≤i≤NQKF}，根据概率图模型，推导复制片段是否存在以及其位置。假定复制片段为{QKF_i，1≤u≤i＜v≤NQKF+1}，简记为[u，v)，其中u＝v时表示复制片段不存在。在这一步中，根据概率图模型计算后验概率p(u，v |obv_i，1≤i≤NQKF)，选取后验概率最大的[u，v)作为最终结果。

概率图模型如图1所示。其中中间层f_i表示第i个关键帧的真实变换参数(当不是复制片段中的帧时，f_i＝∞)，作为推理的中间桥梁。此概率图模型的局部函数定义如下。将变换参数空间离散化为N_p个单元，则

如果f_i≠∞，则

p ({obv}_{i} | f_{i}) = \{\begin{matrix} 1 - P_{d} & {obv}_{i} = \infty \\ 0 & {obv}_{i} . vs &NotEqual; f_{i} . vs \\ P_{d} P_{t} \underset{s}{&Integral;} f (u) du + P_{d} (1 - P_{t}) / N_{p} & otherwise \end{matrix}

其中P_d表示在ANN中搜索时，为复制片段的关键帧找到对应相似帧的概率，P_t是返回的相似帧是正确的相似帧的概率；s是(obv_i-f_i)所在的单元，而

f (u) = \frac{1}{{(2 π)}^{3 / 2} σ_{x} σ_{y} σ_{t}} \exp {- \frac{{(u . xf)}^{2}}{2 {σ_{x}}^{2}} - \frac{{(u . yf)}^{2}}{2 {σ_{y}}^{2}} - \frac{{(u . tf)}^{2}}{2 {σ_{t}}^{2}}}

为正态分布。

如果f_i＝∞，则

p ({obv}_{i} | f_{i}) = \{\begin{matrix} P_{nd} & {obv}_{i} = \infty \\ (1 - P_{nd}) / N_{p} & {obv}_{i} &NotEqual; \infty \end{matrix}

其中P_nd表示在ANN中搜索时为非复制片段中的关键帧找到0个对应帧的概率。

根据这里的局部函数的定义，可以利用概率图模型中的cluster tree算法计算p(u，v|obv_i，1≤i≤NQKF)。

记p_i＝p(f_i|u，v，f_i-1)p(obv_i|f_i)∝p(f_i|u，v，f_i-1，obv_i)

λ (u, v, f_{i - 1}) = \underset{f_{i}}{Σ} p_{i} \underset{f_{i + 1}}{Σ} p_{i + 1} \cdot \cdot \cdot \underset{f_{NQKF}}{Σ} p_{NQKF}

则有

p (u, v | {obv}_{i}, 1 \leq i \leq NQKF)

&Proportional; p (u, v | {obv}_{i}, 1 \leq i \leq NQKF)

&Proportional; \underset{f_{1}}{Σ} \underset{f_{2}}{Σ} \cdot \cdot \cdot \underset{f_{NQKF}}{Σ} p (u, v) Π_{i = 1}^{NQKF} p_{i}

= p (u, v) \underset{f_{1}}{Σ} p_{1} \underset{f_{2}}{Σ} p_{2} \cdot \cdot \cdot \underset{f_{NQKF}}{Σ} p_{NQKF}

依次计算λ(u，v，f_i-1)(i＝NQKF，NQKF-1，…，1)，则最终有[u，v)

＝argmaxu_，vp(u，v|obv_i，1≤i≤NQKF)

＝argmax_u，vp(u，v)λ(u，v，f₀)

本发明中的双层匹配方法充分利用了同一关键帧中的变换一致性，避免了逐个特征点进行匹配的高时间空间复杂性，提高了系统的速度，达到实时监控的要求。而基于概率图模型的概率化片段估计(Probabilistic Segment Estimate，简称PSE)方法充分利用了视频复制中时间和空间一致性，直接推导复制片段的开始和结束位置。此概率图模型表达了时空一致性，描述了复制片段位置和特征点对序列的关系；通过强有力、高效率的cluster tree方法求出最大后验概率解。整个系统检测精确度高，算法运行速度快，占用空间少，在测试数据上取得了很好的结果，表现出比国际上现有算法更好的性能。这说明本发明具有较好的推广性和适应性，能为视频监控、版权保护等提供有效的技术手段，具有很好的应用前景。

为了进一步验证本发明的有效性、可靠性和应用性，我们设计和测试了相关的验证实验。

从数据源上，我们使用了CIVR’07(Conference on Image and Video Retrieval2007)提供的MUSCLE-VCD-2007。这个数据库包括100小时分辨率为252×288的视频，是专门为评估视频检测系统的性能而设计。作为对比，实验实现了现在常用的投票方法STSR、新提出的基于Hidden Markov模型方法PFF。在验证实验中使用信息检索中常用的精度(Precision)、召回率(Recall)和两者的调和平均F1进行性能的评价。

首先，测试在指定的特征点对序列下系统的性能。为了观察系统在不同难度下的表现，我们测试了复制片段关键帧查找相似帧的召回率为10、20、40、80的情况。表1、2、3列出了对比结果。

表格1在不同难度下各种检测方法的结果对比(Precision)

Precision STSR PFF PSE

10 0.827014 0.995704 0.993712

20 0.83104 0.996658 0.993522

40 0.833524 0.996804 0.997432

80 0.83865 0.99946 0.99983

表格2在不同难度下各种检测方法的结果对比(Recall)

Recall STSR PFF PSE

10 0.937833 0.7725 0.921833

20 0.9665 0.795333 0.945833

40 0.973833 0.831667 0.971167

80 0.9815 0.924667 0.980333

表格3在不同难度下各种检测方法的结果对比(F1)

F1 STSR PFF PSE

10 0.8789 0.87 0.9564

20 0.8937 0.8847 0.9691

40 0.8982 0.9068 0.9841

80 0.9045 0.9606 0.99

其次，测试了整个系统在实际应用中的性能。表4列出了对比结果。

表格4在实际应用中各种检测方法的结果对比

	STSR	PFF	PSE
	STSR	PFF	PSE	Precision	0.8222	0.9956	0.9867
Recall	0.9132	0.7553	0.9052	Precision	0.8222	0.9956	0.9867

	STSR	PFF	PSE
	STSR	PFF	PSE	F1	0.8653	0.8590	0.9442

可见投票方法召回率高但精度低，基于Hidden Markov模型方法精度高但召回率低，而本发明使用的PSE方法具有高精度和高召回率，因此最终的性能衡量指标F1有8％左右的提高。

现在参见图2，描述了本发明的视频检测系统的基本流程架构：

1.特征提取。选取视频中的一些帧作为关键帧，在关键帧图像上提取特征，以这些特征作为视频的描述。提取的特征为全局特征或局部特征。

2.特征匹配。将查询视频和数据集里视频的特征进行匹配。具体来说，在使用局部特征时，对于查询视频的每个特征向量，在数据集里视频的特征向量中找出与其相似的一个或多个特征向量，得到特征点对。

3.融合判断。根据匹配结果判断查询视频中是否复制了视频数据集里某个视频的片段。具体来说，需要对第二步的匹配结果进行融合得到查询视频和数据集里视频的特征向量集合的相似程度，然后以相似程度为依据进行判断，并确定复制片段的位置。

现在参见图3，描述了本发明的视频检测系统的详细流程。

1.提取查询视频Q和数据集里视频R的SURF特征。对于查询视频Q，每Pq帧选取一关键帧；对于视频R，每Pd帧选取一帧为关键帧。在关键帧上提取SURF点即特征点处的特征向量。

2.利用k-means方法对数据集里所有视频的SURF特征进行聚类，得到V＝256个基向量，组成bag-of-words方法中的词表(vocabulary)。对于查询视频或数据集里视频的每个关键帧，用以下方法求出此关键帧的词频直方图：初始化词频直方图为V维零向量；对关键帧中每个SURF点，求出与其最相似的基向量(使用欧式距离Euclidean distance衡量)，在直方图中与此基向量对应的位置上加1；将直方图各个位置除以SURF点个数，标准化为频率直方图。

3.对数据集里视频的关键帧词频直方图进行索引，使用的索引结构为ANN(Approximate Nearest Neighbor)。此种索引结构使用了kd-tree作为内部数据结构，其时间复杂性按特征点数的对数增长，索引本身与索引的数据相比占用空间很少，因此适用于本方法。对于查询视频的每个关键帧词频直方图，在索引中找到与其最相似的词频直方图，对应的关键帧即为其相似关键帧。

4.记查询视频的关键帧集合为{QKF_i，1≤i≤NQKF}。对于每个QKF_i，按照以下方法得到其特征点对集合PS_i：对于QKF_i中每个特征向量在QKF_i的相似关键帧中找到与之距离最小的特征向量(使用欧式距离Euclidean distance衡量)

这两个特征点组成一个特征点对

所有的特征点对组成

其中NDP_i是PS_i中特征点对数目。记PS＝{PS_i，1≤i≤NQKF}，称为查询视频的特征点对序列。

5.对查询视频的每个PS_i，根据其特征点对估计变换处理的参数。

如果将PS_i为空，则obv_i＝∞；否则将vs各个分量离散化，枚举可能的值；

对于每个vs，PS_i中每个特征点对

可以计算得到一个vf＝(xf，yf，tf)，同时可以根据

和

的距离计算得到

的相似分数

将所有

的vf以

为权重加权平均得到

{PS}_{i} . vf = (Σ_{j = 1}^{{NDP}_{i}} {dp}_{i}^{j} . vf \times {dp}_{i}^{j} . score) / (Σ_{j = 1}^{{NDP}_{i}} {dp}_{i}^{j} . score);

将距离PS_i.vf较远的

删除，重新计算加权平均，如此重复3次，得到此vs下的PS_i.vf，将所有未删除的特征点对的相似分数相加得到此vs的可信度PS_i.vs.score；

选取可信度最大的vs，此时的vs和PS_i.vf即为最终的obv_i，此时的可信度即为obv_i.score。

6.利用估计到的参数序列{obv_i，1≤i≤NQKF}，根据概率图模型，推导复制片段是否存在以及其位置。假定复制片段为{QKF_i，1≤u≤i＜v≤NQKF+1}，简记为[u，v)，其中u＝v时表示复制片段不存在。在这一步中，根据概率图模型计算后验概率p(u，v|obv_i，1≤i≤NQKF)，选取后验概率最大的[u，v)作为最终结果。

根据概率图模型中局部函数的定义，可以利用cluster tree算法计算p(u，v|obv_i，1≤i≤NQKF)。

记p_i＝p(f_i|u，v，f_i-1)p(obv_i|f_i)∝p(f_i|u，v，f_i-1，obv_i)

λ (u, v, f_{i - 1}) = \underset{f_{i}}{Σ} p_{i} \underset{f_{i + 1}}{Σ} p_{i + 1} \cdot \cdot \cdot \underset{f_{NQKF}}{Σ} p_{NQKF}

则有

p (u, v | {obv}_{i}, 1 \leq i \leq NQKF)

&Proportional; p (u, v | {obv}_{i}, 1 \leq i \leq NQKF)

&Proportional; \underset{f_{1}}{Σ} \underset{f_{2}}{Σ} \cdot \cdot \cdot \underset{f_{NQKF}}{Σ} p (u, v) Π_{i = 1}^{NQKF} p_{i}

= p (u, v) \underset{f_{1}}{Σ} p_{1} \underset{f_{2}}{Σ} p_{2} \cdot \cdot \cdot \underset{f_{NQKF}}{Σ} p_{NQKF}

＝argmax_u，vp(u，v|obv_i，1≤i≤NQKF)

＝argmax_u，vp(u，v)λ(u，v，f₀)

按照以上步骤，就可以构建一个有效的计算机自动执行的视频复制检测系统，在系统中充分利用视频复制的时间和空间一致性，快速、准确地确定复制片段的存在和位置，从而改进视频检测系统的检测结果，提高系统的检测性能。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于内容的视频复制检测方法，根据用户输入的查询视频，检查输入是否复制了视频数据集里某个视频的片段，并在存在复制片段的情况下输出其起止位置，其特征包括：

特征提取步骤，选取视频中的一些帧作为关键帧，在关键帧图像上提取特征，以这些特征作为视频的描述；

特征匹配步骤，采用关键帧对匹配和特征点匹配的双层匹配，将查询视频和数据集里视频的特征进行匹配；

融合判断步骤，对上述特征匹配步骤的匹配结果进行融合，对复制片段的存在和位置进行推导，从而根据匹配结果判断查询视频中是否复制了数据集里某个视频的片段。

2.根据权利要求1所述的视频复制检测方法，其中所述提取的特征为全局特征或局部特征。

3.根据权利要求1所述的视频复制检测方法，其中所述特征提取步骤包括：

提取查询视频和数据集里视频的加速鲁棒特征(Speeded Up Robust Feature，简称SURF)。

4.根据权利要求2所述的视频复制检测方法，在使用局部特征时，对于查询视频的每个特征向量，在数据集里视频的特征向量中找出与其相似的一个或多个特征向量，得到特征点对。

5.根据权利要求1所述的视频复制检测方法，其中所述关键帧对匹配包括：

对每一关键帧中的特征向量使用bag-of-words方法，得到此关键帧的词频直方图，然后对各个关键帧的词频直方图进行索引，用于查找相匹配的关键帧对。

6.根据权利要求5所述的视频复制检测方法，其中所述特征点匹配具体包括：

对于所述相匹配的关键帧对中的特征点进行匹配。

7.根据权利要求5所述的视频复制检测方法，其中所述关键帧对匹配具体包括：

利用k-means方法对数据集里所有视频的SURF特征进行聚类，得到V＝256个基向量，组成bag-of-words方法中的词表(vocabulary)；

根据bag-of-words方法，将每个关键帧的所有特征向量投射到基向量上，得到基向量上的词频直方图；

对数据集里视频的各个关键帧的词频直方图建立近似最近邻(Approximate NearestNeighbor，简称ANN)索引，在索引中找到查询视频中每个关键帧词频直方图的相似者。

8.根据权利要求6所述的视频复制检测方法，其中所述特征点匹配具体包括：

对查询视频中的每个关键帧，将其中的特征向量和相似关键帧中的进行匹配，得到特征点对；

对查询视频中的每个关键帧，根据其特征点对来估计变换处理的参数，以获得估计到的参数序列。

9.根据权利要求1所述的视频复制检测方法，其中所述融合判断步骤进一步包括：

对上述特征匹配步骤的匹配结果进行融合，得到查询视频和数据集里视频的特征向量集合的相似程度，然后以相似程度为依据进行判断，并确定复制片段的位置。

10.根据权利要求8所述的视频复制检测方法，其中所述融合判断步骤进一步包括：

建立概率图模型进行概率化片段估计(Probabilistic Segment Estimate，简称PSE)；

利用估计到的参数序列，根据所建立的概率图模型，推导复制片段是否存在以及其位置。