CN104239420A

CN104239420A - 一种基于视频指纹的视频相似度匹配方法

Info

Publication number: CN104239420A
Application number: CN201410414054.2A
Authority: CN
Inventors: 张军; 程东岳
Original assignee: BEIJING CKLEADER SOFTWARE TECHNOLOGY Co Ltd
Current assignee: BEIJING CKLEADER SOFTWARE TECHNOLOGY Co Ltd
Priority date: 2014-10-20
Filing date: 2014-10-20
Publication date: 2014-12-24
Anticipated expiration: 2034-10-20
Also published as: CN104239420B

Abstract

本发明公开了一种基于视频指纹的视频相似度匹配方法：基于已知的视频拷贝和攻击算法构建包含基准视频和拷贝与攻击视频的数据库；镜头分割库中的视频，对分割后的每个镜头内的视频进行层次均值聚类算法，生成关键帧；对每个关键帧构建三层空间金字塔，分块抽取DCT特征，利用特征带符号平方根表示关键帧；基于判别二值编码算法，学习关键帧二值表示，每个关键帧被表示为固定长度的二值编码，将该编码按镜头组织为视频指纹；输入视频抽取视频指纹后，基于快速分层匹配算法计算输入视频与库中视频的相似度以排序返回相似视频。该方法具有良好的鲁棒性，快速有效的检索海量视频以获得准确的匹配结果，为多媒体版权的追踪保护提供了有效帮助。

Description

一种基于视频指纹的视频相似度匹配方法

技术领域

本发明属于多媒体应用领域，特别的涉及一种基于视频指纹的视频相似度匹配方法。

背景技术

目前在互联网上，视频文件每天都会被拷贝并共享，共享的站点，方式和人数都在急剧增长，其中就可能存在着大量的复制品和转换、篡改过的视频片段，这对于视频文件的拷贝检测和版权管理保护带来了极大的安全隐患，现有技术中的一个解决途径是“水印”技术，水印技术依赖于插入明显的标签到视频流，利用标签提供视频的来源指示，然而，标签可以被清除或规避，也容易在视频格式转换或传输时被损坏或扭曲，这些都使得无法利用“水印”技术对视频的所有者进行追踪。视频指纹技术是一个新兴的软件识别、提取和压缩视频的技术，能够产生唯一的“指纹”来代表一个视频文件，能够识别任何内容，不管文件之前是否被更改过，然而现有的视频数量太过庞大，用户上传视频的网站大量涌现，视频指纹识别技术面临着巨大的挑战。现有技术中的视频指纹算法中，通过计算来得到关键帧的算法，依赖于大量的像素压缩和帧处理，复杂度较高，基于关键帧的视频匹配则需要通过给定的算法对比大量的基准视频，庞大的计算量也严重影响了匹配的速度，无法满足用户即时获取结果的需求。

有鉴于此，本发明提出了一种基于视频指纹技术的视频相似度匹配方法，能够有效的提取唯一表示视频的关键帧，通过学习建立训练样本集合，利用二值编码技术对关键帧进行编码表示，对输入视频进行层次化的匹配，极大的提高了检索效率，获得客观的，准确的视频相似度排序。

发明内容

本发明提供了一种基于视频指纹的视频相似度匹配方法，包括：

一种基于视频指纹的视频相似度匹配方法，其特征在于：

（1）基于已知的视频拷贝和攻击算法，构建一个包含基准视频，拷贝和攻击视频的数据库；

（2）对数据库中的视频进行关键帧提取；

（3）将数据库中视频的关键帧用特征来表示；

（4）对输入视频进行关键帧提取；

（5）将输入视频的关键帧用特征来表示；

（6）对数据库中的基准视频进行K均值聚类生成基准训练样本，加入对应的拷贝样本和攻击样本，生成训练集合；

（7）利用判别二值编码技术在训练集合上学习判别二值投影，保留前P个投影；

（8）利用该P个投影对数据库中的视频和输入视频的特征表示进行二值编码，表示为固定长度为P的0/1序列；

（9）对输入视频进行快速分层匹配，获得输入视频的镜头相似度排序；

（10）利用输入视频的镜头相似度排序，获得输入视频的视频相似度排序。

优选的，其中步骤（2）所述的关键帧提取具体为：

（2.1）对数据库中的视频经过镜头分割，视频被分为M’个镜头，其中M’为大于1的自然数，在每个镜头中独立进行关键帧提取。

优选的，步骤（2.1）所述的在每个镜头中独立进行关键帧提取的步骤具体为：

（2.1.1）对镜头内的每个视频帧抽取H空间颜色直方图特征h，经过特征抽取，镜头内的视频帧被表示为特征集合，其中n为镜头内帧的数目；

（2.1.2）对视频帧的集合进行层次K均值聚类，其中K为大于1的自然数，将视频帧集合聚类为一个K叉树，将最终输出的聚类树中保留的N个叶子节点表示为；

（2.1.3）对于C中每个子类，计算聚类中心，将聚类中心的最近邻样本推荐为关键帧，通过步骤（2.1.1）至（2.1.3）, 每个视频镜头被表示为N个关键帧的集合，其中N的取值对于不同的镜头，相同或不同。

优选的，其中步骤（2.1.2）所述的对视频帧的集合进行层次K均值聚类，将视频帧集合聚类为一个K叉树，最终输出聚类树的步骤具体为：

（2.1.2.1）输入特征集合，每层聚类中心数为K，叶子节点最小样本数num，其中num为大于1的自然数，最大聚类层数Lmax，其中Lmax为大于1的自然数；

（2.1.2.2）初始化L=1；

（2.1.2.3）用K均值聚类算法将F聚为K类，每个类别构成一个叶子节点，L=L+1；

（2.1.2.4）判断L<Lmax是否成立，如果不成立，跳至步骤（2.1.2.6）；

（2.1.2.5）如果成立，对L层中的所有节点，如果存在样本数大于等于num的节点，则继续用K均值聚类算法将该节点聚为K类，L=L+1，返回步骤（2.1.2.4），如果不存在样本数大于num的节点，进入步骤（2.1.2.6）；

（2.1.2.6）输出K叉数；

（2.1.2.7）对K叉树进行树剪枝，剪除少于25个样本的聚类叶子节点；

（2.1.2.8）最终输出聚类结果K叉树。

优选的，其中步骤（3）所述的特征表示，具体为：

（3.1）将关键帧转换到YUV空间，对Y空间构建三层空间金字塔，第一层金字塔将图像分为1*1的网格，第二层金字塔将图像分为2*2的网格，第三层金字塔将图像分为4*4的网格；

（3.2）对每个金字塔网格进行DCT变换，保留左上角6*6块中的36维特征，每个关键帧用21个网格的DCT特征串联起来表示，维度为21*36=756维；

（3.3）对特征的每一维特征取带符号平方根。

优选的，其中步骤（4）所述的关键帧提取，具体为：

（4.1）对输入视频经过镜头分割，视频被分为M个镜头，其中M为大于1的自然数，在每个镜头中独立进行关键帧提取。

优选的，其中步骤（4.1）所述的在每个镜头中独立进行关键帧提取的步骤，具体为：

（4.1.1）对镜头内的每个视频帧抽取H空间颜色直方图特征h，经过特征抽取，镜头内的视频帧被表示为特征集合，其中n为镜头内帧的数目；

（4.1.2）对视频帧的集合进行层次K均值聚类，其中K为大于1的自然数，将视频帧集合聚类为一个K叉树，将最终输出的聚类树中保留的N个叶子节点表示为；

（4.1.3）对于C中每个子类，计算聚类中心，将聚类中心的最近邻样本推荐为关键帧，通过步骤（4.1.1）至（4.1.3）, 每个视频镜头被表示为N个关键帧的集合，其中N的取值对于不同的镜头，相同或不同。

优选的，其中步骤（4.1.2）所述的对视频帧的集合进行层次K均值聚类，将视频帧集合聚类为一个K叉树，最终输出聚类树的步骤，具体为：

（4.1.2.1）输入特征集合，每层聚类中心数为K，叶子节点最小样本数num，其中num为大于1的自然数，最大聚类层数Lmax，其中Lmax为大于1的自然数；

（4.1.2.2）初始化L=1；

（4.1.2.3）用K均值聚类算法将F聚为K类，每个类别构成一个叶子节点，L=L+1；

（4.1.2.4）判断L<Lmax是否成立，如果不成立，跳至步骤（4.1.2.6）；

（4.1.2.5）如果成立，对L层中的所有节点，如果存在样本数大于等于num的节点，则继续用K均值聚类算法将该节点聚为K类，L=L+1，返回步骤（4.1.2.4），如果不存在样本数大于num的节点，进入步骤（4.1.2.6）；

（4.1.2.6）输出K叉数；

（4.1.2.7）对K叉树进行树剪枝，剪除少于25个样本的聚类叶子节点；

（4.1.2.8）最终输出聚类结果K叉树。

优选的，步骤（5）所述的特征表示，具体为：

（5.1）将关键帧转换到YUV空间，对Y空间构建三层空间金字塔，第一层金字塔将图像分为1*1的网格，第二层金字塔将图像分为2*2的网格，第三层金字塔将图像分为4*4的网格；

（5.2）对每个金字塔网格进行DCT变换，保留左上角6*6块中的36维特征，每个关键帧用21个网格的DCT特征串联起来表示，维度为21*36=756维；

（5.3）对特征的每一维特征取带符号平方根。

优选的，其中步骤（6）具体为：

（6.1）对数据库中的基准视频的关键帧进行K均值聚类，聚类中心数为5000，选择聚类中心的最近邻作为基准训练样本；

（6.2）对于第i个基准训练样本，加入定义的拷贝条件和攻击条件下的对应样本，即找到和第i个基准视频训练样本的视频信息对应的处于拷贝条件下的拷贝样本和处于攻击条件下的攻击样本；

（6.3）将这三类样本集合起来，构成训练类别,最终的训练集合。

优选的，其中步骤（8）中的P取值为512。

优选的，其中步骤（9）具体为：

（9.1）定义帧相似度函数，计算两个关键帧之间的相似度：，其中为关键帧的第i位的二值编码，为关键帧的第i位二值编码；

（9.2）对于输入镜头M，设有N个关键帧，对每个关键帧，基于相似度函数快速匹配50个近邻关键帧，其中，对于，设所有关键帧的近邻帧所在的镜头集合为,中镜头个数为Q, 表示第i个镜头，定义表示镜头间的相似度，表示所在的镜头，对于镜头，其包含存在于中的一个或多个近邻关键帧，对这一个或多个近邻关键帧，利用（9.1）中定义的帧相似度函数计算每个近邻关键帧和对应的关键帧之间的帧相似度函数值并全部累加得到；

（9.3）对中的所有Q个镜头和输入镜头M之间的相似度进行排序，保留前50个相似度最大的镜头；

（9.4）输出输入视频的镜头相似度排序。

优选的，其中步骤（10）具体为：

（10.1）对于输入视频W，设具有E个镜头，对每个镜头，基于镜头相似度投票得到50个相似镜头，，对于，所有镜头的相似镜头所在的视频集合为，包含有V个视频，定义表示视频之间的相似度，表示镜头所在的视频，对于视频，其包含存在于中的一个或多个相似镜头，将根据计算排序得出的这一个或多个相似镜头和其对应的输入镜头之间的镜头相似度全部累加得到；

（10.2）对中的所有视频和输入视频之间的相似度进行排序；

（10.3）输出视频相似度排序结果。

优选的，其中拷贝手段为转码、分辨率转换以及裁剪中的一个或多个。

优选的，其中攻击手段为几何攻击、非几何攻击以及针对图像序列的攻击中的一个或多个。

优选的，其中几何攻击手段为缩放、裁剪、水平位移、垂直位移以及信封模式裁剪中的一个或多个。

优选的，其中非几何攻击手段为信号增强、低通滤波、抗混叠的矩形滤波、数字视频降噪滤波以及加噪中的一个或多个。

优选的，其中针对图像序列的攻击为帧交换、压缩、转码、摄像捕捉后低码率压缩、重采样和重量化、D/A和A/D转换、格式转换、覆盖以及共谋攻击中的一个或多个。

优选的，其中攻击手段为对帧片段进行模糊、旋转、裁剪、加速、减速以及插入元素中的一个或多个。

附图说明

图1为基于视频指纹的视频相似度匹配方法流程图；

图2为图像3层空间金字塔；

图3为视频帧集合层次K均值聚类方法流程图；

图4为镜头相似度投票方法流程图；

图5为视频相似度投票方法流程图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明做出进一步地详细描述。

图1为本发明所采用的基于视频指纹的视频相似度匹配方法流程图。如图1所示，该方法包括：

步骤1：基于已知的视频拷贝和攻击算法，构建一个包含基准视频，拷贝和攻击视频的数据库，可以支持转码、分辨率转换、裁剪的视频拷贝，支持各种几何攻击，如：尺寸变化、缩放、裁剪、信号增强、信封模式裁剪；支持各种非几何攻击，如：信号增强、低通滤波、抗混叠的矩形滤波、数字视频降噪滤波、加噪；支持针对图像序列的攻击，如：帧交换、压缩、转码、摄像捕捉后低码率压缩、重采样和重量化、多种D-A/A-D转换、格式转换、覆盖、共谋攻击；支持对帧片段进行模糊、旋转、裁剪、加速、减速、插入元素。

步骤2：对数据库中的视频进行如下处理：

（1）经过镜头分割，视频被分为M’个镜头，其中M’为大于1的自然数，在每个镜头中独立进行关键帧提取，所述关键帧提取的步骤具体为：

（1.1）对镜头内的每个视频帧抽取H空间颜色直方图特征h,经过特征抽取，镜头内的视频帧被表示为特征集合，其中n为镜头内帧的数目。

（1.2）对视频帧的集合进行层次K均值聚类，其中K为大于1的自然数，将视频帧集合聚类为一个K叉树，将最终输出的聚类树中保留的N个叶子节点表示为，其中，参见图3描述了具体的层次K均值聚类方法：

300：输入特征集合，每层聚类中心数为K，叶子节点最小样本数num，其中num为大于1的自然数，最大聚类层Lmax，其中Lmax为大于1的自然数；

301：初始化L=1；

302：用K均值聚类算法将F聚为K类，每个类别构成一个叶子节点，L=L+1;

303：判断L<Lmax是否成立，如果不成立，跳至步骤305；

304：如果成立，对L层中的所有节点，如果存在样本数大于等于num的节点，则继续用K均值聚类算法将该节点聚为K类，L=L+1，返回步骤303，如果不存在样本数大于num的节点，进入步骤305; 305：输出K叉数；

306：对K叉树进行剪枝，少于25个样本的聚类叶子节点将被剪除；

307：输出聚类结果K叉树。

（1.3）关键帧自动推荐：对于C中每个子类，计算聚类中心，将聚类中心的最近邻样本推荐为关键帧。

通过步骤（1.1）-（1.3），每个视频镜头被紧凑的表示为N个关键帧的集合，其中N的取值对于不同的镜头，可以相同或不同。

（2）将关键帧转换到YUV空间，对Y空间构建如图2所示的三层空间金字塔。第一层金字塔将图像分为1*1的网格，第二层金字塔将图像分为2*2的网格，第三层金字塔将图像分为4*4的网格；对每个金字塔网格进行DCT变换，保留左上角6*6块的36维特征，每个关键帧用21个网格的DCT特征串联起来表示，维度为21*36=756维，对特征的每一维特征取带符号平方根。

步骤3：对输入视频进行如下处理：

（1）经过镜头分割，输入视频被分为M个镜头，其中M为大于1的自然数，在每个镜头中独立进行关键帧提取，所述关键帧提取的步骤具体为：

301：初始化L=1；

303：判断L<Lmax是否成立，如果不成立，跳至步骤305；

304：如果成立，对L层中的所有节点，如果存在样本数大于等于num的节点，则继续用K均值聚类算法将该节点聚为K类，L=L+1，返回步骤303，如果不存在样本数大于num的节点，进入步骤305;

305：输出K叉数；

307：输出聚类结果K叉树。

通过步骤（1.1）-（1.3），每个输入视频镜头被紧凑的表示为N个关键帧的集合，其中N的取值对于不同的镜头，可以相同或不同。

（2）将关键帧转换到YUV空间，对Y空间构建如图2所示的三层空间金字塔。第一层金字塔将图像分为1*1的网格，第二层金字塔将图像分为2*2的网格，第三层金字塔将图像分为4*4的网格；对每个金字塔网格进行DCT变换，保留左上角6*6块的36维特征，每个关键帧用21个网格的DCT特征串联起来表示，维度为21*36=756维，对特征的每一维特征取带符号平方根。步骤4：对数据库中的基准视频的关键帧进行K均值聚类，聚类中心数为5000，选择聚类中心的最近邻作为基准训练样本，对于第i个基准训练样本，加入表1定义的各个拷贝条件和攻击条件下的对应样本，即找到和第i个基准视频训练样本的视频信息对应的处于拷贝条件下的拷贝样本和处于攻击条件下的攻击样本，将这三类样本集合起来，构成训练类别,最终的训练集合；利用判别二值编码技术在训练集合上学习判别二值投影，保留前512个投影。

步骤5：利用该512个投影对数据库中的视频帧和输入视频帧的特征带符号平方根值进行二值编码，表示为固定长度为512的0/1序列，所占存储空间为64字节。其中，步骤3可以在步骤5之前的任意位置。

步骤6：视频匹配：对输入视频进行分层快速匹配。

（6.1）定义帧相似度函数，计算两个关键帧之间的相似度：，其中为关键帧的第i位的二值编码，为关键帧的第i位二值编码；

(6.2) 对于输入镜头M，假设有N个关键帧，对每个关键帧，基于相似度函数快速匹配50个近邻关键帧，其中;

(6.3)进行镜头相似度投票：对于，设所有关键帧的近邻帧所在的镜头的集合为,中镜头个数为Q, 表示第i个镜头，对M与的相似度进行投票，其中定义镜头间的相似度，表示所在的镜头，投票方法如下：

输入镜头M，中所有关键帧的近邻帧所在镜头的集合；

对于镜头，其包含存在于中的一个或多个帧，对该一个或多个帧，分别计算这一个或多个帧和其对应的关键帧之间的帧相似度函数值并全部累加得到；

对中的所有Q个镜头和输入镜头M之间的相似度进行排序，保留前50个相似度最大的镜头；

（6.4）进行视频相似度投票：对于输入视频W，设具有E个镜头，对每个镜头，基于镜头相似度投票得到上述50个相似镜头，，，对于，设所有镜头的相似镜头所在的视频集合为，包含有V个视频，对于视频，对W与之间的相似度进行投票，其中定义视频之间的相似度，表示镜头所在的视频，投票方法如下：

输入视频W，设中所有相似镜头所在的视频集合为；

对视频，其包含存在于中的一个或多个镜头，对该一个或多个镜头，分别计算这一个或多个镜头和其对应的输入镜头之间的镜头相似度并全部累加得到，对中的所有视频和输入视频之间的相似度进行排序；

（6.5）输出视频相似度排序结果。

显然，本领域的技术人员可以对本发明进行各种改动和变形而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变形属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变形在内。

Claims

1.一种基于视频指纹的视频相似度匹配方法，其特征在于：

（2）对数据库中的视频进行关键帧提取；

（3）将数据库中视频的关键帧用特征来表示；

（4）对输入视频进行关键帧提取；

（5）将输入视频的关键帧用特征来表示；

2.如权利要求1所述的相似度匹配方法，其中步骤（2）所述的关键帧提取具体为：

3.如权利要求2所述的相似度匹配方法，步骤（2.1）所述的在每个镜头中独立进行关键帧提取的步骤具体为：

4.如权利要求3所述的相似度匹配方法，其中步骤（2.1.2）所述的对视频帧的集合进行层次K均值聚类，将视频帧集合聚类为一个K叉树，最终输出聚类树的步骤具体为：

（2.1.2.2）初始化L=1；

（2.1.2.6）输出K叉数；

（2.1.2.8）最终输出聚类结果K叉树。

5.如权利要求4所述的相似度匹配方法，其中步骤（3）所述的特征表示，具体为：

（3.3）对特征的每一维特征取带符号平方根。

6.如权利要求1所述的相似度匹配方法，其中在步骤（4）所述的关键帧提取具体为：

7.如权利要求6所述的相似度匹配方法，其中步骤（4.1）所述的在每个镜头中独立进行关键帧提取的步骤具体为：

8.如权利要求7所述的相似度匹配方法，其中步骤（4.1.2）所述的对视频帧的集合进行层次K均值聚类，将视频帧集合聚类为一个K叉树，最终输出聚类树的步骤具体为：

（4.1.2.2）初始化L=1；

（4.1.2.4）判断L<Lmax是否成立，如果不成立，跳至步骤（4.1.2.6）；（4.1.2.5）如果成立，对L层中的所有节点，如果存在样本数大于等于num的节点，则继续用K均值聚类算法将该节点聚为K类，L=L+1，返回步骤（4.1.2.4），如果不存在样本数大于num的节点，进入步骤（4.1.2.6）；

（4.1.2.6）输出K叉数；

（4.1.2.8）最终输出聚类结果K叉树。

9.如权利要求8所述的相似度匹配方法，步骤（5）所述的特征表示，具体为：

（5.3）对特征的每一维特征取带符号平方根。

10.如权利要求9所述的相似度匹配方法，其中步骤（6）具体为：

11.如权利要求1所述的相似度匹配方法，其中步骤（8）中的P取值为512。

12.如权利要求10所述的相似度匹配方法，其中步骤（9）具体为：

（9.2）对于输入镜头M，设有N个关键帧，对每个关键帧，基于相似度函数快速匹配50个近邻关键帧，其中，对于，设所有关键帧的近邻帧所在的镜头集合为,中镜头个数为Q，表示第i个镜头，定义表示镜头间的相似度，表示所在的镜头，对于镜头，其包含存在于中的一个或多个近邻关键帧，对这一个或多个近邻关键帧，利用（9.1）中定义的帧相似度函数计算每个近邻关键帧和对应的关键帧之间的帧相似度函数值并全部累加得到；

（9.4）输出输入视频的镜头相似度排序。

13.如权利要求12所述的相似度匹配算法，其中步骤（10）具体为：

（10.2）对中的所有视频和输入视频之间的相似度进行排序；

（10.3）输出视频相似度排序结果。

14.如权利要求1所述的相似度匹配方法，其中拷贝手段为转码、分辨率转换以及裁剪中的一个或多个。

15.如权利要求1所述的相似度匹配方法，其中攻击手段为几何攻击、非几何攻击以及针对图像序列的攻击中的一个或多个。

16.如权利要求15所述的相似度匹配方法，其中几何攻击手段为缩放、裁剪、水平位移、垂直位移以及信封模式裁剪中的一个或多个。

17.如权利要求15所述的相似度匹配方法，其中非几何攻击手段为信号增强、低通滤波、抗混叠的矩形滤波、数字视频降噪滤波以及加噪中的一个或多个。

18.如权利要求15所述的相似度匹配方法，其中针对图像序列的攻击为帧交换、压缩、转码、摄像捕捉后低码率压缩、重采样和重量化、D/A和A/D转换、格式转换、覆盖以及共谋攻击中的一个或多个。

19.如权利要求1所述的相似度匹配方法，其中攻击手段为对帧片段进行模糊、旋转、裁剪、加速、减速以及插入元素中的一个或多个。