CN108763295A

CN108763295A - 一种基于深度学习的视频近似拷贝检索算法

Info

Publication number: CN108763295A
Application number: CN201810347069.XA
Authority: CN
Inventors: 金城; 徐超; 吴渊; 张玥杰; 薛向阳
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2018-04-18
Filing date: 2018-04-18
Publication date: 2018-11-06
Anticipated expiration: 2038-04-18
Also published as: CN108763295B

Abstract

本发明属于图像与视频处理技术领域，具体为一种基于深度学习的视频近似拷贝检索算法。本发明算法分为两个阶段：离线构建索引阶段和在线检索阶段。在离线构建索引阶段，使用深度卷积神经网络提取采样帧的特征值，然后采用k‑d树为视频库内的所有视频采样帧集建立索引；在在线检索阶段，采用同样的方法提取查询视频的采样帧的特征值，并用近似最近邻搜索的方法在索引库中找出与其相似的候选视频，最后计算出所有候选视频与查询视频的相似度，并将相似度由高到低排序后给出近似拷贝检索的结果。本发明可大幅加速整个检索过程，同时可得到候选视频与查询视频的相似可能性以供后续步骤使用，进一步提高了检索速度。

Description

一种基于深度学习的视频近似拷贝检索算法

技术领域

本发明属于图像与视频处理技术领域，具体涉及一种视频近似拷贝检索算法。

背景技术

随着社交网站和媒体的巨大成功，视频数量的快速增加，相似甚至相同的视频经常会被不同用户重复上传。本发明使用的视频近似拷贝检测技术可以被认为是传统的基于内容的视频近似检索(视频应当具有相似的视觉内容，但不用考虑语义)和基于语义的视频检索(视频应当具有相同的语义，但不用考虑视觉内容)之间的桥梁，能有效的去除重复视频，进而节约存储空间并加快检索速度，有着广阔的应用前景。

现有的视频近似拷贝检索算法大都可分为三个主要步骤：提取视频库内采样帧的特征值、为所有视频采样帧建立索引和在线检索。

特征提取部分可以通过计算视频序列的特征值完成，也可以只计算选定的关键帧的特征值。其中特征可以是代表了整个关键帧内容的全局特征或仅代表关键帧中兴趣点的局部特征。检索部分，通过传统的最近邻搜索、二分图匹配算法、树结构、以及近似最近邻居搜索算法等得到与查询视频相似的视频。在应用这些算法进行视频近似拷贝检测时，如何满足大规模视频近似拷贝检测的实时性要求是一个非常有挑战性的问题。

发明内容

本发明的目的在于提供一种基于深度学习的视频近似拷贝检索算法，应用于相似视频的近似拷贝检测系统，以解决相似视频重复上传的问题。

本发明提出的基于深度学习的视频近似拷贝检索算法，分为两个阶段：离线构建索引阶段和在线检索阶段。

在离线构建索引阶段，使用深度卷积神经网络提取采样帧的特征值，然后采用k-d树为视频库内的所有视频采样帧集建立索引；

在在线检索阶段，采用同样的方法提取查询视频的采样帧的特征值，并用近似最近邻搜索的方法在索引库中找出与其相似的候选视频，最后计算出所有候选视频与查询视频的相似度，并将相似度由高到低排序后给出近似拷贝检索的结果。算法流程框架如图1所示。

一、离线构建索引阶段，具体步骤为：

(1)按照每秒一帧的固定采样频率，将视频库中的所有视频采样为若干采样帧，得到视频帧集；

(2)提取所有采样帧的特征值

采用标准的AlexNet[1]模型，在网络的F7和F8之间加入一个隐藏层H，以隐藏层的状态作为帧特帧值。这个隐藏层H是全连接层，它的神经活动受到下一层F8的调控，而F8编码了语义信息并实现了图像分类。关于标准的AlexNet模型具体见参考文选[1]。

网络在目标领域的数据集上通过反向传播来进行微调，网络的初始权值设定为从ImageNet数据库训练得到的权值，隐藏层H和最终层F8的权值被随机初始化。隐藏层H的初始权重表现得很像局部敏感哈希(LSH)，而LSH也是使用随机映射来构建哈希位的。而后随着微调过程的进行，这些随机值逐渐从LSH的形式变为更加适应监督深度学习数据的形式；

(3)构建特征值索引

选择使用k-d树[2]为所有视频帧特征向量建立索引，其中索引号即为视频帧号，每一个节点都是一个K维的视频帧的特征值向量，关于k-d树，见参考文选[2]；假设帧x_i的特征向量为：

构建视频起始帧号表如下F：设视频库中m个视频的帧数分别为n₀,n₁,…n_m-1,构造线性表F(0，n₀,n₀+n₁,…,n₀+n₁+…+n_m-1)，线性表的每个元素的索引值即为对应视频编号，元素值即为对应视频的起始帧的编号。

二、在线检索阶段，具体步骤为：

(1)采用与离线阶段相同的方式对给定的查询视频S_x进行采样生成采样帧；

(2)采用与离线阶段相同的方式对步骤(1)得到的采样帧提取特征值；

(3)利用索引对步骤(2)得到的特征值进行3-NN(近似最近邻[3])搜索，生成候选视频。具体步骤如下：

第一步：利用所建立的k-d树对查询视频的每一帧特征执行一次3-NN搜索，从视频库中找出视频帧，并记录这三个视频帧所属的视频编号，具体方式如下：

设查询视频有n个采样帧，对每一帧进行3-NN搜索，得到与其距离最近的三个视频帧号，记为I1、I2、I3，再通过离线索引阶段构建的视频起始帧号表F表来查找得到这些视频帧号所属的视频编号，具体查找过程为：

遍历F表，找到一个i满足F[i]≤I1≤F[i+1]，i∈[0,m-1](m为视频库中的视频总数),则该i即为视频帧号I1所对应的视频编号，同理，可得I2和I3对应的视频编号。

经过上述方式的查找，最终得到一个由3n个视频编号构成的集合V。然后通过下式(1)：

其中,

求得视频库中的所有视频编号在集合V中出现的次数，这里，P_i表示视频编号i在集合V中出现的次数，i∈[0,m-1]。

第二步：从视频库中，取出置信度大于阈值t(这里t可取经验值为0.6)的视频作为候选视频。

定义候选视频的置信度如下：

其中，n为查询视频S_x的采样帧数，P_i为视频编号i在集合V中出现的次数。

依次计算查询视频与各候选视频的相似度，并将相似度排序，作为结果。

本发明中，所述依次计算查询视频与各候选视频的相似度并将相似度排序，具体流程如下：

第1步：假设查询视频S_x的采样帧为x₁,x₂,…x_m，候选视频S_y的采样帧为y₁,y₂,…y_n。遍历所有候选视频，并根据公式(4)逐对计算查询视频S_X与候选视频S_Y之间的相似度：

其中，d＝|n-m|为查询视频与候选视频的视频帧数之差，α为用以调节结果的分布离散程度的超参数，采样帧x_i与y_j之间的距离D为：

其中，和分别为采样帧x_i和y_j的特征向量，K为特征向量的维数。

第2步：将所有得到的WS值从大到小排序，并选取其中WS值大于给定阈值T＝0.2的候选视频编号作为最终的近似拷贝检索结果。

本发明提出的视频近似拷贝检测算法，其基础是利用Alexnet进行视频帧特征提取以及使用k-d树为视频帧建立索引。在特征提取阶段，通过向典型Alexnet模型中添加一个新的隐藏层，使得算法能够简单而高效地学习视频帧特征，这种视频帧特征介于底层特征与高层语义特征之间，具有较小的体积并能充分地代表视频信息。在索引阶段，基于k-d树进行的近似最近邻搜索能够快速找出与输入视频可能相似的候选视频，直接剔除大量不相关视频，从而大幅加速整个检索过程，同时得到了候选视频与查询视频的相似可能性(置信度)以供后续步骤使用，进一步提高了检索速度。实验结果表明，算法对于一些常见的视频近似拷贝情况有较强的处理能力。

附图说明

图1为本发明算法流程图示。

具体实施方式

实验选取TRECVID中的IACC.1.tv10.training中的1000部公开的网络视频作为离线视频库，每个视频的长度在3.6～4.1分钟之间。之后，从中随机选取100部视频，对它们进行亮度改变、加入字幕、裁切、缩放、旋转(90度和180度)、加入水印、抽帧以及翻转操作，加上原始的100部视频，以此作为十组查询视频。

将十组查询视频输入系统进行视频近似拷贝检索，视频相似度计算中的超参数α取值0.1，在0～2.0之间选取12组不同的置信度阈值T进行实验，得出候选视频后分别计算它们与查询视频的相似度，并选取其中相似度最高的视频作为结果输出。

本次实验在相同的数据集上和基线方法的实验对比结果如表1所示，从表中可以看出，本算法能够有效完成视频近似拷贝检索任务，且综合表现优于传统基线方法。

表1对比实验各方面准确率参照表

参考文献：

[1]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification withdeep convolutional neural networks[C]//International Conference on NeuralInformation Processing Systems.Curran Associates Inc.2012:1097-1105.

[2]Bentley J L.Multidimensional Binary Search Trees Used forAssociative Searching[J].Communications of the Acm,1975,18(9):509-517.

[3]Hastie T,Tibshirani R.Discriminant Adaptive Nearest NeighborClassification[M].IEEE Computer Society,1996.。

Claims

1.一种基于深度学习的视频近似拷贝检索算法，其特征在于，分为两个阶段：离线构建索引阶段和在线检索阶段；

在在线检索阶段，采用同样的方法提取查询视频的采样帧的特征值，并用近似最近邻搜索的方法在索引库中找出与其相似的候选视频，最后计算出所有候选视频与查询视频的相似度，并将相似度由高到低排序后给出近似拷贝检索的结果。

2.根据权利要求1所述的视频近似拷贝检索算法，其特征在于，所述离线构建索引阶段的具体步骤为：

(2)提取所有采样帧的特征值

采用标准的AlexNet模型，在网络的F7和F8之间加入一个隐藏层H，以隐藏层的状态作为帧特帧值；该隐藏层H是全连接层，它的神经活动受到下一层F8的调控，而F8编码语义信息并实现图像分类；

网络在目标领域的数据集上通过反向传播来进行微调，网络的初始权值设定为从ImageNet数据库训练得到的权值，隐藏层H和最终层F8的权值被随机初始化；隐藏层H的初始权重表现为如局部敏感哈希(LSH)，而LSH也使用随机映射来构建哈希位；随着微调过程的进行，这些随机值逐渐从LSH的形式变为更加适应监督深度学习数据的形式；

(3)构建特征值索引

使用k-d树为所有视频帧特征向量建立索引，其中索引号即为视频帧号，每一个节点都是一个K维的视频帧的特征值向量，假设帧x_i的特征向量为：

3.根据权利要求2所述的视频近似拷贝检索算法，其特征在于，所述在线检索阶段的具体步骤为：

(3)利用索引对步骤(2)得到的特征值进行3-NN搜索，生成候选视频；具体步骤如下：

遍历F表，找到一个i满足F[i]≤I1≤F[i+1]，i∈[0,m-1](m为视频库中的视频总数),则该i即为视频帧号I1所对应的视频编号，同理，可得I2和I3对应的视频编号；

经过上述方式的查找，最终得到一个由3n个视频编号构成的集合V；然后通过下式(1)：

其中,

求得视频库中的所有视频编号在集合V中出现的次数，这里，P_i表示视频编号i在集合V中出现的次数，i∈[0,m-1]；

第二步：从视频库中，取出置信度大于阈值t的视频作为候选视频；

候选视频的置信度定义如下：

其中，n为查询视频S_x的采样帧数，P_i为视频编号i在集合V中出现的次数；

4.根据权利要求3所述的视频近似拷贝检索算法，其特征在于，所述依次计算查询视频与各候选视频的相似度并将相似度排序，具体流程如下：

第1步：假设查询视频S_x的采样帧为x₁,x₂,…x_m，候选视频S_y的采样帧为y₁,y₂,…y_n；遍历所有候选视频，并根据公式(4)逐对计算查询视频S_X与候选视频S_Y之间的相似度：

其中，和分别为采样帧x_i和y_j的特征向量，K为特征向量的维数；