CN112182287B

CN112182287B - 一种基于时空视觉词组和分层匹配的视频拷贝检测方法

Info

Publication number: CN112182287B
Application number: CN202010945969.1A
Authority: CN
Inventors: 周志立; 王美民; 陈京诚; 孙星明
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Jiangsu Yuchi blockchain Technology Research Institute Co., Ltd
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2021-06-08
Anticipated expiration: 2040-09-10
Also published as: CN112182287A

Abstract

本发明公开了一种基于时空视觉词组和分层匹配的视频拷贝检测方法，包括以下步骤：1)视频帧采样；2)SURF特征提取；3)空间视觉词生成；4)时间视觉词生成；5)时空视觉词组生成；6)多级倒排索引结构构建；7)特征分层匹配与特征相似度融合计算；通过以上步骤得到查询视频和库视频之间的相似度，从而判定库视频是否为查询视频的拷贝版本。本发明首先生成时空视觉词组，然后将生成的时空视觉词组构建多级倒排索引以便于特征匹配，在线检测阶段使用了特征分层匹配与相似度融合计算策略，本发明的视频拷贝检测方法，在保证拷贝检测效率的同时，大大提高了检测的准确度。

Description

一种基于时空视觉词组和分层匹配的视频拷贝检测方法

技术领域

本发明属于信息安全领域。

背景技术

由于互联网技术和视频处理技术，尤其是目前新兴的基于人工智能的视频处理技术的发展，视频拷贝成本越来越低。为了防止视频内容被未经授权地非法使用和隐私侵犯，检测具有版权视频的非法拷贝版本已成为迫切的问题。因此，视频拷贝检测技术在信息安全领域起着非常重要的作用。

实际上，无论对原视频使用何种拷贝攻击方式，拷贝后的视频仍会保留有与原视频相同内容。通过设计合适的特征提取算法，可以提取视频内容的独一无二紧凑特征，并进行特征匹配，从而可以实现拷贝检测。在图像检索领域，通常使用传统词袋模型来描述图像，然后建立倒排索引结构实现快速检索。传统词袋模型通常从图像中提取一组局部特征，将高维特征向量量化为紧凑的视觉词，来描述图像内容。词袋模型能大大压缩图像局部特征向量，从而以更加紧凑的方式描述图像。倒排索引主要应用于多媒体搜索领域，可以实现对大规模数据的快速检索。类似于文本检索中基于关键词的倒排索引结构，图像检索方法通常将视觉词作为索引，建立倒排索引结构，可以在大规模图像数据库中进行快速检索。

类似于图像检索，现有的视频拷贝检测研究大多数都是基于传统的词袋模型，将视频帧看作图像，提取视觉词来描述视频内容。现有的视频拷贝检测方法仍然有以下几个技术难题：

1)对于一个视频片段，传统的词袋模型的视觉词只考虑其空间域特征而忽视了时间域特征，因此现有的视频拷贝检测方法检测精度不高。

2)现有的视频拷贝检测方法，对于视频的空间域特征和时间域特征单独进行处理，并没有建立统一的倒排索引结构，这导致占用内存空间大，检测效率不够理想，不适合在大规模数据集上应用。

3)现有的视频拷贝检测方法，对于视频之间特征匹配和相似度度量方式比较单一，没有充分考虑到空间域与时间域不同特征之间匹配结果和相似度计算，因而在视频相似度准确度量方面需要进一步提高。

发明内容

发明目的：为解决背景技术中存在的问题，本发明提供过了一种基于时空视觉词组和分层匹配的视频拷贝检测方法。

技术方案：本发明提供过一种基于时空视觉词组和分层匹配的视频拷贝检测方法，具体包括如下步骤：

步骤1：以d帧为采样间隔，对视频库中的每个视频进行均匀采样，得到采样帧；

步骤2：在每一个采样帧中提取若干个SURF特征；

步骤3：通过K-means聚类算法，将每个SURF特征量化到相应的视觉词，从而得到第n个SURF特征f_n的空间视觉词w_S(f_n)，n＝1,2,3…,N；N为SURF特征的总个数；

步骤4：针对视频库中的每一个视频的第k个采样帧，k＝1,2,…L-1,当

时，检测该视频中的第k～第

个采样帧中相同的SURF特征，并将相同的SURF特征作为一组SURF特征组，当

时，则检测第k～L个采样帧中相同的SURF特征；并将相同的SURF特征作为一组SURF特征组；对每一组SURF特征组中的SURF特征轨迹进行量化编码，从而的得到该组中SURF特征对应的时间视觉词；其中

L为该视频中采样帧的总个数，所述相同的SURF特征为具有相同空间视觉词的SURF特征；

步骤5：将步骤4的每一组中的SURF特征对应的空间视觉词和时间视觉词的集合作为该SURF特征的时空视觉词组；

步骤6：根据视频库中所有的时空视觉词组，构建多级倒排索引结构；

步骤7：提取被查询视频的时空视觉词组，并基于多级倒排索引结构在视频库中查找与该被查询图像相互匹配的库视频，并计算被查询视频和每一个与被查询视频相互匹配的库视频之间的相似度。

进一步的，所述步骤4中相同特征的检测具体为：以第k个采样帧中第i个SURF特征f_i的位置p(f_i)为中心，7.5×σ(f_i)为半径，当

时，在第

采样帧中均设置寻找区域，当

时，在第k+1～L个采样帧中均设置寻找区域，其中σ(f_i)为f_i的尺度，i＝1,2,…,I，I为第k个采样帧中SURF特征的总个数，判断每一个区域内是否均存在与f_i的空间视觉词w_S(f_i)相同的SURF特征，若否，则停止对第i个SURF特征进行时间视觉词的提取，并继续检测第k个采样帧中的下一个SURF特征；否则，若某一个区域内存在多个与w_S(f_i)相同的SURF特征，则计算这些多个SURF特征中每个SURF特征的主方向与f_i的主方向的差值，以及每个SURF特征的尺度与f_i的尺度的差值，并计算两个差值之和，选择差值之和最小的SURF特征作为该区域中与特征f_i相同的特征。

进一步的，所述步骤4中对每一组SURF特征组中的SURF特征的进行轨迹进行量化编码具体为：

步骤4.1：基于第k～第

个或第k～L个采样帧，针对任意一组SURF特征组中相同的SURF特征f_m，根据该f_m在第k个采样帧中的位置p(f_m)＝(x_m,y_m)和在i`个采样帧中的位置

得到它们在横向和纵向上的差值Δx_l'，Δy_l'；当

时，

当

时，l'＝k+1，k+2,…,L；其中(x_m,y_m)为f_m在第k个采样帧中的坐标，

为f_m在第i`个采样帧中的坐标；

其中，abs(*)表示取绝对值；

步骤4.2：对差值Δx_l'和Δy_l'进行量化得到量化后的值q(Δx_l')和q(Δy_l')

其中，

表示向上取整，s₁和s₂为量化参数，h为第k个采样帧的高度，1≤q(Δx_l')≤s₁，1≤q(Δy_l')≤s₂；

步骤4.3：特征f_m在第l'采样帧中的时间视觉词为：

若

则该组中SURF特征f_m的时间视觉词为

若

则该组中SURF特征f_m的时间视觉词为

进一步的，所述步骤6具体为：该索引结构共有

层，第1层为所有的空间视觉词，第

层依次设置SURF特征f_m在第

或第k+1～L采样帧中的时间视觉词，第

层为第

层中每个时间视觉词对应的视屏ID。

进一步的，所述步骤7为：

步骤7.1：查询倒排索引的第1层，在视频库中查找与被查询视频Q存在相同空间视觉词的库视频，记录这些库视频的个数为R，计算被查询视频Q与R个库视频中的第r个库视频的相似度sim₁(Q,r)，r＝1,2，…，R；

sim₁(Q,r)＝NC(w_S)/max[NQ(w_S),Nr(w_S)]

其中NC(w_S)表示被查询视频Q与第r个库视频之间相同的空间视觉词的总个数，NQ(w_S)表示所有相同的空间视觉词在被查询视频Q中出现的总次数，Nr(w_S)表示所有相同的空间视觉词在第r个库视频中出现的总次数；

步骤7.2：查询倒排索引的第d层,

判断被查询视频Q与第r个库视频之间是否存在相同的时间视觉词，若是，则计算被查询视频Q与第r个库视频在第d层的相似度sim_d(Q,r)为：

其中，yd表示第d层，

为第d层倒排索引结构中的时间视觉词，

为第1层空间视觉词与第2层～d层中的时间视觉词组成的时空视觉词组，

表示在第1～d层中，被查询视频Q与第r个库视频之间相同的时空视词组的总个数，

为所有相同的时空视词组在被查询视频Q中出现的总次数，

为所有相同的时空视词组在第r个库视频中出现的总次数；

若否，则停止计算被查询视频Q与第r个库视频的相似度，对下一个库视频进行计算；

步骤7.3：若在第

层倒排索引层中，被查询视频Q与第r个库视频之间仍然有相同的时间视觉词，则计算被查询视频Q与第r个库视频的最终相似度Sim(Q,r)为：

其中ω₁，ω₂，

均为系数，

表示被查询视频Q与第r个库视频在第

层的相似度。

有益效果：

(1)本发明设计的一种基于时空视觉词组和分层匹配的视频拷贝检测方法。不同于现有的图像和视频检索方法，该方法不仅利用传统词袋模型提取视频帧的空间视觉词，并且考虑视频帧之间相同特征的运动轨迹，从而提取时间视觉词。通过联合空间视觉词和时间视觉词构造时空视觉词组，从而能更加准确地表达视频内容。

(2)本发明设计的一种基于时空视觉词组和分层匹配的视频拷贝检测方法，根据生成的时空视觉词组，构建多级倒排索引，能同时支持粗粒度和细粒度的特征分层匹配，从而大大提高特征匹配的精确度，并保证较高的匹配效率。

(3)本发明设计的一种基于时空视觉词组和分层匹配的视频拷贝检测方法，充分考虑到粗粒度和细粒度的多层次特征匹配和这些特征匹配结果的相似度度量，并对特征相似度融合计算得到最终视频相似度，能更加准确度量视频之间的相似度。

附图说明

图1为本发明的总体框架示意图；

图2为本发明的时间视觉词生成示意图；

图3为本发明的多级倒排索引结构示意图。

具体实施方式

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

如图1所示，本实施例提供了一种基于时空视觉词组和分层匹配的视频拷贝检测方法，具体为：

步骤1：对视频库中的每个视频以间隔d帧进行均匀采样，得到采样后的视频帧。以下步骤均针对采样视频帧进行处理。为了平衡检测精确度和存储空间占用，在本发明中，设置采样间隔d＝2。

步骤2：对每个采样帧当作图像，从中提取上百个SURF特征。其中，每个SURF特征f_n包含1个64维度特征向量v(f_n)和3个特征值：位置p(f_n)、方向θ(f_n)以及尺度σ(f_n)。

步骤3：对上述提取的SURF特征，使用K-means聚类算法进行聚类，聚类中心数目设定为K，则得到K个聚类中心。将这K个聚类中心看作空间视觉词，这些视觉词的集合称作空间视觉词典

其中w_S(I)表示第I个聚类中心的空间视觉词。每个SURF特征都可以使用与其距离最近的空间视觉词来量化表示。最终，将库视频每个SURF特征量化到相应的视觉词，从而得到空间视觉词w_S(f_n)。由于较大的聚类中心数目K将导致K-means聚类时庞大的计算消耗，而较小的K会导致视觉词生成时的量化损失过大。考虑以上因素，本发明将K设为200000。该设置可以在聚类计算量和量化损失之间较好的平衡。

步骤4：针对当前视频帧及之后的若干个相邻帧，检测相同SURF特征的运动轨迹，并进行量化编码，从而得到时间视觉词，具体为：针对视频库中的每一个视频的第k帧采样帧，k＝1,2,…L-1,当

时，检测该视频中的第k～第

时，则检测第k～L个采样帧中相同的SURF特征；并将相同的SURF特征作为一组SURF特征组；对每一组SURF特征组中的SURF特征进行轨迹进行量化编码，从而的得到该组中SURF特征对应的时间视觉词；其中

L为该视频中采样帧的总个数，所述相同的SURF特征为具有相同视觉词的SURF特征；本实施例中

步骤8：在线检测阶段，提取被查询视频的时空视觉词组，并基于多级倒排索引结构在视频库中查找与该被查询图像相互匹配的库视频，并计算被查询视频和每一个与被查询视频相互匹配的库视频之间的相似度。

优选的，所述步骤4中对每一个SURF特征组中的SURF特征的进行轨迹进行量化编码具体为：将一个任意给定的采样帧作为当前帧，针对当前帧中SURF征点f_i，遍历当前帧之后的

个相邻帧寻找与f_i相同的SURF特征。具体做法为：对于当前帧的SURF特征f_i(其空间视觉词和所在位置分别表示为w(f_i)和p(f_i))，在其后

个相邻帧的每帧中，以p(f_n)为中心和7.5×σ(f_i)为半径的区域内查找是否有空间视觉词同为w(f_i)的SURF特征，其中σ(f_i)为f_i的尺度，这样的SURF特征可以看作相同的SURF特征。如果没有这样的特征，将跳过时间视觉词提取步骤，对当前帧中下一个SURF征点进行提取；如果有一个区域内有多个这样特征，则计算这些多个SURF特征中每个SURF特征的主方向与f_i的主方向的差值，以及每个SURF特征的尺度与f_i的尺度的差值，并计算两个差值之和，选择差值之和最小的SURF特征作为与该区域中与特征f_i相同的特征，只保留差值和最小的SURF特征。最后，统计保留下来的SURF特征在

个相邻帧的位置，表示为{p¹(f_i),p²(f_i)}。

优选的，如图2所示，所述步骤4中对每一个SURF特征组中的SURF特征的进行轨迹进行量化编码具体为：

步骤4-1：基于第k～第

个或第k～L个采样帧，针对任意一组SURF特征组中相同的SURF特征f_m，据该f_m在第k个采样帧中的位置p(f_m)＝(x_m,y_m)和在第i`个采样帧中的位置

计算出它们之间的运动位移信息。然后通过对位移信息进行量化编码，可以得到时间视觉词，如图2所示，计算它们在横向和纵向上的差值Δx_l'，Δy_l'；当

时，

当

时，l'＝k+1，k+2,…,L，其中(x_m,y_m)为f_m在第k个采样帧中的坐标，

为f_m在第i`个采样帧中的坐标；

其中，abs(*)表示取绝对值；由于视频帧内SURF特征的位置的横坐标和纵坐标分别不超过视频帧的宽度和高度，那么0≤Δx≤w和0≤Δy≤h，w和h分别是视频帧的宽度和高度。

步骤4-2：对差值Δx_l'和Δy_l'进行量化得到量化后的值q(Δx_l')和q(Δy_l')

其中，

表示向上取整；s₁和s₂是量化参数，它的值越大，量化精度越高；由于0≤Δx_l≤w和0≤Δy_l≤h，那么1≤q(Δx_l')≤s₁，1≤q(Δy_l')≤s₂本实施例中s₁＝10，s₂＝3。

步骤4-2：针对SURF特征f_m在当前帧和每个相邻采样帧位置，参考以上步骤，计算他们的横坐标和纵坐标差值并量化，得到一系列量化值对，表示为

或者

不同于空间视觉词生成方式，我们直接将不同的量化值对串联起来生成若干个时间视觉词。

具体来说，根据生成的量化值对，将第l'个量化值对串联起来，可以得到第l'采样帧中的时间视觉词为，表示为：

则若

该组中SURF特征f_m的时间视觉词为

若

该组中SURF特征f_m的时间视觉词为

此外由于1≤q(Δx_l')≤s₁，1≤q(Δy_l')≤s₂，s₁＝10，s₂＝3，那么每个视觉词的取值范围为[1,30]。

优选的，步骤5为，结合SURF特征f_m将其空间视觉词w_S(f_m)与时间视觉词组和，得到时空视觉词组

或者组

优选的，步骤6为该索引结构共有

层，第1层为所有的空间视觉词，第

层依次设置SURF特征f_m对应第

或第k+1～L采样帧中的时间视觉词，第

2层为第

层中每个时间视觉词对应的视屏ID；具体的如图3所示，本实施例中l＝2，则该索引结构总共有4层，第1层为空间视觉词w_S，当1<k≤L-2时，第k帧采样帧与与其向后相邻的

个采样帧组成的相同SURF特征组，第2层为该组特征组中SURF特征在第k+1采样帧中的时间视觉词

第3层为该组特征组中SURF特征在第k+2采样帧中时间视觉词

当L-2<k≤L-1时，第k采样帧与第L采样帧组成的相同SURF特征组,该组中的SURF特征的在第L采样帧中时间视觉词

只放在第2层；第4层是时空视觉词组为

的特征所在视频ID。

优选的，在线检测阶段，对给定的查询视频提取时空视觉词组，然后对多级倒排索引中的第1层到第

层每层的视觉词进行分层匹配，计算分层匹配相似度，最后使用相似度融合计算的方式得到最终相似度；具体做法如下：

步骤7-1：查询倒排索引的第一层，在视频库中查找与被查询视频Q存在相同空间视觉词的库视频，记录这些库视频的个数为R个，计算被查询视频Q与R个库视频中的第r个库视频的相似度sim₁(Q,r)，r＝1,2，…，R；

sim₁(Q,r)＝NC(w_S)/max[NQ(w_S),Nr(w_S)]

步骤7-2：查询倒排索引的第d层,

统计被查询视频Q与R个库视频中的第r个库视频是否存在相同的时间视觉词，若是，则基于第d层，被查询视频Q与第r个库视频的相似度sim_d(Q,r)为：

其中，yd表示第d层，

为第d层倒排索引结构中的时间视觉词，

为第一层空间视觉词与第2层～d层中的时间视觉词组成的时空视觉词组，

为所有相同的时空视词组在被查询视频Q中出现的总次数，

为所有相同的时空视词组在第r个库视频中出现的总次数。

步骤7-3：若在第

层倒排索引层中，被查询视频Q与第r个库视频之间仍然有相同的时间视觉词，则与第r个库视频为候选库视频，则计算被查询视频Q与第r个库视频的最终相似度Sim(Q,r)为：

其中ω₁，ω₂，ω_l+1均为系数，sim_l+1(Q,r)表示基于第

层倒排索，被查询视频Q与第r个库视频之间的相似度。本实施例中

则Sim(Q,r):

Sim(Q,r)＝∑(ω₁×sim₁(Q,r)+ω₂×sim₂(Q,r)+ω₃×sim₂(Q,r))

其中，ω₁＝0.8，ω₂＝0.1，ω₃＝0.1。

步骤7-4：将查询视频与所有候选库视频之间的相似度进行降序排序，作为拷贝检测结果。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于时空视觉词组和分层匹配的视频拷贝检测方法，其特征在于，具体包括如下步骤：

步骤2：在每一个采样帧中提取若干个SURF特征；

步骤3：通过K-means聚类算法，将每个SURF特征量化到相应的视觉词，从而得到第n个SURF特征f_n的空间视觉词w_S(f_n)，n＝1，2，3...，N；N为SURF特征的总个数；

步骤4：针对视频库中的每一个视频的第k个采样帧，k＝1，2，…L-1，当

时，检测该视频中的第k～第

时，则检测第k～L个采样帧中相同的SURF特征；并将相同的SURF特征作为一组SURF特征组；对每一组SURF特征组中的SURF特征轨迹进行量化编码，从而得到该组中SURF特征对应的时间视觉词；其中

2.根据权利要求1所述的一种基于时空视觉词组和分层匹配的视频拷贝检测方法，其特征在于，所述步骤4中相同特征的检测具体为：以第k个采样帧中第i个SURF特征f_i的位置p(f_i)为中心，7.5×σ(f_i)为半径，当

时，在第

采样帧中均设置寻找区域，当

时，在第k+1～L个采样帧中均设置寻找区域，其中σ(f_i)为f_i的尺度，i＝1，2，...，I，I为第k个采样帧中SURF特征的总个数，判断每一个区域内是否均存在与f_i的空间视觉词w_S(f_i)相同的SURF特征，若否，则停止对第i个SURF特征进行时间视觉词的提取，并继续检测第k个采样帧中的下一个SURF特征；否则，若某一个区域内存在多个与w_S(f_i)相同的SURF特征，则计算这些多个SURF特征中每个SURF特征的主方向与f_i的主方向的差值，以及每个SURF特征的尺度与f_i的尺度的差值，并计算两个差值之和，选择差值之和最小的SURF特征作为该区域中与特征f_i相同的特征。

3.根据权利要求1所述的一种基于时空视觉词组和分层匹配的视频拷贝检测方法，其特征在于，所述步骤4中对每一组SURF特征组中的SURF特征的进行轨迹进行量化编码具体为：

步骤4.1：基于第k～第