CN106156284B

CN106156284B - 基于随机多视角哈希的大规模近重复视频检索方法

Info

Publication number: CN106156284B
Application number: CN201610483148.4A
Authority: CN
Inventors: 汪萌; 郝艳宾; 洪日昌; 蒋建国
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2016-06-24
Filing date: 2016-06-24
Publication date: 2019-03-08
Anticipated expiration: 2036-06-24
Also published as: CN106156284A

Abstract

本发明公开了一种基于随机多视角哈希的大规模近重复视频检索方法，本发明首先通过时间间隔采样的方法提取视频关键帧，并提取关键帧的颜色直方图HSV和局部二值模式LBP特征；然后，通过线性映射和sigmoid函数将HSV和LBP特征映射到准哈希空间，并通过阈值化处理生成的准哈希码来获得最终代表视频的哈希码；最后，通过计算测试视频哈希码序列与其他视频哈希码序列的汉明距离，并根据汉明距离的大小来检索测试视频的近重复视频。本发明能够利用视频多视角的特征信息，并通过哈希映射来提高检索效率和准确性，从而实现大规模的近重复视频的快速检索。

Description

基于随机多视角哈希的大规模近重复视频检索方法

技术领域

本发明属于视频检索和机器学习领域，具体的说是一种基于随机多视角哈希的大规模近重复视频检索方法。

背景技术

在互联网高度发达的21世纪，大量的视频相关的应用和服务不断的涌现在互联网上，如视频分享、视频推荐和视频广播等，互联网上充斥着海量的视频数据并呈现高速增长的趋势。丰富的视频内容越来越吸引着网络用户去编辑、上传、下载和搜索各种各样的视频。据comScore公司报道，仅2014年8月电脑用户就浏览了近3000亿段视频，平均每个用户浏览202段，合计952分钟。研究表明，在量如此巨大的视频中存在着大量的潜在的内容近重复的视频。因此，对于例如版权保护、视频推荐和冗余去除等现实的问题，如何检索和去除这些近重复视频正吸引着大量的研究。

由于视频内容的丰富和复杂的特性，大多数的近重复视频检索方法采用如下三个步骤：首先，通过时间间隔采样或片段边界提取的方法来提取视频的关键帧；其次，提取关键帧的低级别特征信息；最后，通过关键帧的特征信息来计算视频的差异，实现视频检索的功能。目前，一些采用完全比较每对视频之间所有关键帧之间的差异，然后计算其相似关键帧对的比例来决定是否为近重复视频的方法取得了较好的检索效果，但是其检索速度远不能满足工程上的要求。而一些通过生成视频内容标签的算法速度上较快，但是效果仍有待进步。还有一些采用如树、哈希等检索结构的算法，虽然有克服上面两种方法的缺陷，但是在检索准确性和可扩展性上仍有限制，并且大多数都只能利用关键帧的单一特征信息，如全局特征或者局部特征。因此，目前的方法在工程应用上还有很大的进步空间。

发明内容

本发明为解决上述现有技术中存在的不足之处，提出一种基于随机多视角哈希的大规模近重复视频检索方法，以期能利用视频多视角的特征信息，并通过哈希映射来提高检索效率和准确性，从而实现大规模的近重复视频的快速检索。

本发明为解决技术问题采用如下技术方案：

本发明一种基于随机多视角哈希的大规模近重复视频检索方法的特点是按如下步骤进行：

步骤一、训练阶段：

步骤1、对数据集中的V段视频采用时间间隔采样的方法提取关键帧，从而获得n帧关键帧；

步骤2、提取n帧关键帧的HSV颜色直方图特征矩阵和LBP局部二值模式特征矩阵表示所述HSV颜色直方图特征矩阵X⁽¹⁾中第i行第j列元素；表示所述LBP局部二值模式特征矩阵X⁽²⁾中第i行第j列元素；所述HSV颜色直方图特征矩阵X⁽¹⁾的大小为n×d₁，其中，d₁为所述HSV颜色直方图特征的量化级数；所述LBP局部二值模式特征矩阵X⁽²⁾的大小为n×d₂，其中，d₂为所述LBP局部二值模式特征的维度；所述HSV颜色直方图特征矩阵X⁽¹⁾中第i行行向量表示第i帧关键帧所对应的特征向量；所述LBP局部二值模式特征矩阵X⁽²⁾中第i行行向量表示第i帧关键帧所对应的特征向量；令X^(g)表示任一特征矩阵，其中，g＝1表示HSV颜色直方图特征矩阵；g＝2表示LBP局部二值模式特征矩阵；

步骤3、生成所述n帧关键帧中任一关键帧所对应的s位哈希码；

步骤3.1、利用式(1)对第i帧关键帧所对应的特征向量进行线性映射，得到第i行特征向量的第l个线性映射值

式(1)中，为线性映射的第j行第l列结合系数，b_l为第l个偏置参数；

步骤3.2、利用sigmoid函数对所述第i行特征向量的第l个线性映射值进行处理，得到sigmoid函数映射值z_il；从而将线性映射值所在的实数空间映射为sigmoid函数映射值所在的准哈希空间；

步骤3.3、对所述sigmoid函数映射值z_il进行阈值化处理，判断z_il＞0.5是否成立，若成立，则令h_il为1，否则令h_il为0；从而获得第i帧关键帧的哈希码序列h_i＝[h_i1,h_i2,…,h_il,…,h_is]；h_il表示第i帧关键帧的第l位哈希码；

步骤4、在所述HSV颜色直方图特征矩阵和所述LBP局部二值模式特征矩阵中，利用高斯模型分别计算在给定第i帧关键帧时，第j帧关键帧与所述第i帧关键帧的相似程度的条件概率且令从而获得n帧关键帧之间的条件概率矩阵为

步骤5、判断第i帧关键帧与第j帧关键帧是否属于同一视频，若属于，则令第i帧关键帧与第j帧关键帧的所属关系否则令从而获得n帧关键帧之间的所属关系矩阵

判断第i帧关键帧与第j帧关键帧在数据集真值表中是否为近重复视频，若是，则令第i帧关键帧与第j帧关键帧的监督关系否则，令从而获得n帧关键帧之间的监督关系矩阵

步骤6、利用式(2)计算得到n帧关键帧之间相似程度的概率矩阵P，并进行归一化处理，得到归一化后的概率矩阵

式(2)中，表示条件概率矩阵系数；β表示所属关系矩阵系数；γ表示监督关系矩阵系数；且系数β、γ均大于0且小于1，系数β、γ之和为1；

步骤7、在所述准哈希空间中，利用方差为1的高斯模型计算n帧关键帧之间的条件概率矩阵Q；

步骤8、利用复合的Kullback-Leibler(KL)散度计算概率矩阵和条件概率矩阵Q之间的差异S_KL；

步骤9、利用式(3)优化目标方程O：

式(3)中、μ为所设定的正则项系数；

步骤10、采用标准的梯度下降算法优化第j行第l列结合系数以及第l个偏置参数b_l；

步骤11、利用优化后的第j行第l列结合系数以及第l个偏置参数b_l，并按照步骤1至步骤3对所述数据集中的所有视频进行处理，得到所有视频的关键帧的s位哈希码序列；

步骤12、利用式(4)计算获得所有视频中任一视频的s位哈希码序列中第e位哈希码

式(4)中，Ind表示任一视频的关键帧集合，|Ind|表示任一视频的关键帧集合Ind的势；h_ye表示任一视频中第y帧关键帧的第e位哈希码；

步骤二、检索阶段：

步骤13、在所有视频中选定一个待检索视频，并利用汉明距离来衡量所述待检索视频与所有其他视频的s位哈希码序列之间的差异，从而根据待检索视频与其他视频之间的差异大小来判断是否为近重复视频。

与已有技术相比，本发明有益效果体现在：

1，本发明提出了一种新的基于多视角的哈希方法，采用了基于随机多视角的哈希方法来表示视频，利用了视频全局的HSV颜色直方图内容信息和局部的LBP局部二值模式内容信息，并结合了视频的关键帧之间的所属关系信息和监督关系信息，最后通过快速的汉明距离来检索近重复的视频，从而达到了实时检索效果，实验表明多特征信息能够更准确的表达一段视频的内容。

2，本发明设计的哈希方法是一种随机的多视角的哈希方法，该方法不仅利用了视频的多特征信息，还利用了视频关键帧的所属关系信息和监督关系信息来构建视频关键帧的概率空间模型。本发明的哈希函数为线性映射和sigmoid函数相结合的混合函数，该设计的函数优于传统的线性函数，能够将生成的准哈希码非线性的接近于0或1，准哈希码代替哈希码的方法能够很好的避免了优化过程中的非确定性多项式(NP-hard)问题。最后通过一个新颖的复合Kullback-Leibler(KL)散度来衡量准哈希空间和原始空间的概率模型的差异，从而得到了更准确可靠的哈希映射函数。

3，本发明的优化算法采用简单有效的标准梯度下降算法，训练过程简单明了，训练出的哈希函数可以直接应用于新的视频，很好的解决了可扩展性问题。检索过程采用快速的汉明距离度量，检索速度可以达到实时检索级别，可获得良好的用户体验。

具体实施方式

本实施例中的方法，是首先通过时间间隔采样的方法提取视频关键帧，并提取关键帧的颜色直方图HSV特征和局部二值模式LBP特征；然后，通过线性映射和sigmoid函数将颜色直方图HSV特征和局部二值模式LBP特征映射到准哈希空间，并通过阈值化处理生成的准哈希码来获得最终代表视频的哈希码；最后，分别在特征空间和准哈希空间计算关键帧间的高斯条件概率，通过一种复合的Kullback-Leibler(KL)散度来衡量两个条件概率模型的一致性，并采用标准的梯度下降法来优化哈希函数的结合系数和偏置参数。哈希函数的参数训练完毕后，每个视频将会由一串二进制的哈希码表示，快速的汉明距离度量可以用来计算视频之间的差异性。具体的说，近重复视频检索是按如下步骤进行：

步骤一、训练阶段：

训练过程可以随机选取V段视频作为训练数据，如在数据集分类明确的视频中选取240段视频，在未分类的视频中选取120段视频，共计选取V＝360段视频；关键帧提取的时间间隔可以选择1秒，即每秒提取一帧作为关键帧；

步骤2、提取n帧关键帧的HSV颜色直方图特征矩阵和LBP局部二值模式特征矩阵表示HSV颜色直方图特征矩阵X⁽¹⁾中第i行第j列元素；表示LBP局部二值模式特征矩阵X⁽²⁾中第i行第j列元素；HSV颜色直方图特征矩阵X⁽¹⁾的大小为n×d₁，其中，d₁为HSV颜色直方图特征的量化级数；LBP局部二值模式特征矩阵X⁽²⁾的大小为n×d₂，其中，d₂为LBP局部二值模式特征的维度；HSV颜色直方图特征矩阵X⁽¹⁾中第i行行向量表示第i帧关键帧所对应的特征向量；LBP局部二值模式特征矩阵X⁽²⁾中第i行行向量表示第i帧关键帧所对应的特征向量；令X^(g)表示任一特征矩阵，其中，g＝1表示HSV颜色直方图特征矩阵；g＝2表示LBP局部二值模式特征矩阵；

提取HSV颜色直方图特征可以采用非均匀量化的方法，例如，H(色调)、S(饱和度)、V(明度)三个分量的量化级数分别选择18、3、3，共162级，即d₁＝162；LBP算子的窗口大小可以采用原始的3×3，因此像素位置关系共有256种，也即d₂＝256；

步骤3、生成n帧关键帧中任一关键帧所对应的s位哈希码；

该步骤包含的三个子步骤也是设计了本算法的哈希函数，该哈希函数由步骤3.1中的线性映射、步骤3.2中的sigmoid函数和步骤3.3中的阈值化处理组合而成；

步骤3.2、利用sigmoid函数对第i行特征向量的第l个线性映射值进行处理，得到sigmoid函数映射值z_il；从而将线性映射值所在的实数空间映射为sigmoid函数映射值所在的准哈希空间；

步骤3.3、对sigmoid函数映射值z_il进行阈值化处理，判断z_il＞0.5是否成立，若成立，则令h_il为1，否则令h_il为0；从而获得第i帧关键帧的哈希码序列h_i＝[h_i1,h_i2,…,h_il,…,h_is]；h_il表示第i帧关键帧的第l位哈希码；

此处的哈希码也是0/1二进制码，这样在计算机存储中可以大大减少存储空间的大小；

步骤4、在HSV颜色直方图特征矩阵和LBP局部二值模式特征矩阵中，利用高斯模型分别计算在给定第i帧关键帧时，第j帧关键帧与第i帧关键帧的相似程度的条件概率且令从而获得n帧关键帧之间的条件概率矩阵为

此处的高斯模型可以参考《Stochastic Neighbor Embedding》文章中的高维空间条件概率求解公式去求解，如该模型的方差可以通过二分查找法去搜索能够使得条件概率分布的信息熵接近或者等于最大信息熵的值；

对概率矩阵P进行归一化处理可以使得概率矩阵P的行向量满足KL散度计算的要求；公式(2)中的系数β、γ可以人为设定，本发明提供的参考值为：α₁＝0.4、α₂＝0.3、β＝0.01、γ＝0.29；

步骤7、在准哈希空间中，利用方差为1的高斯模型计算n帧关键帧之间的条件概率矩阵Q；

准哈希空间为关键帧的HSV颜色直方图特征和LBP局部二值模式特征所在的空间通过线性映射和sigmoid函数处理后生成的空间，为了使得步骤8中的优化目标函数平滑可导，方便求解运算，这里采用了准哈希空间来代替真正的哈希空间，最后可以通过步骤3.3的阈值化处理将生成的准哈希码变换成真正的哈希码；准哈希空间中的n帧关键帧之间的条件概率矩阵Q的计算可以参考文章《Visualizing Datausing t-SNE》中第二章第二个公式；

复合的Kullback-Leibler(KL)散度可以参考文章《Information retrievalperspective to nonlinear dimensionalityreduction fordatavisualization》中的公式4；

步骤9、利用式(3)优化目标方程O：

式(3)中、μ为所设定的正则项系数；μ的参考值为0.01；

标准梯度下降算法中的各个参数设定可以参考表1；

参数	数值
		总循环次数	1200
学习速率	0.05
		运动项(循环次数小于等于250)	0.5
运动项(循环次数大于250)	0.75

表1本发明采用的标准梯度下降算法的各参数选择

步骤11、利用优化后的第j行第l列结合系数以及第l个偏置参数b_l，并按照步骤1至步骤3对数据集中的所有视频进行处理，得到所有视频的关键帧的s位哈希码序列；

步骤二、检索阶段：

步骤13、在所有视频中选定一个待检索视频，并利用汉明距离来衡量待检索视频与所有其他视频的s位哈希码序列之间的差异，从而根据待检索视频与其他视频之间的差异大小来判断是否为近重复视频。

汉明距离度量通过简单的异或操作能够快速的计算哈希码序列间的距离；最后检索结果可以按照距离的从小到大排列呈现给用户；表2给出了本发明在两个常用的近重复视频检索公共数据集上的检索准确率，结果表明本发明能够达到很好的检索效果。

数据集	平均准确率(MAP)
		CC_WEB_VIDEO	97.1％
UQ_VIDEO	88.8％

表2本发明在CC_WEB_VIDEO和UQ_VIDEO数据集上检索的平均准确率。

Claims

1.一种基于随机多视角哈希的大规模近重复视频检索方法，其特征是按如下步骤进行：

步骤一、训练阶段：

步骤9、利用式(3)优化目标方程O：

式(3)中、μ为所设定的正则项系数；

步骤二、检索阶段：