CN108763295A - 一种基于深度学习的视频近似拷贝检索算法 - Google Patents
一种基于深度学习的视频近似拷贝检索算法 Download PDFInfo
- Publication number
- CN108763295A CN108763295A CN201810347069.XA CN201810347069A CN108763295A CN 108763295 A CN108763295 A CN 108763295A CN 201810347069 A CN201810347069 A CN 201810347069A CN 108763295 A CN108763295 A CN 108763295A
- Authority
- CN
- China
- Prior art keywords
- video
- frame
- candidate
- similarity
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明属于图像与视频处理技术领域,具体为一种基于深度学习的视频近似拷贝检索算法。本发明算法分为两个阶段:离线构建索引阶段和在线检索阶段。在离线构建索引阶段,使用深度卷积神经网络提取采样帧的特征值,然后采用k‑d树为视频库内的所有视频采样帧集建立索引;在在线检索阶段,采用同样的方法提取查询视频的采样帧的特征值,并用近似最近邻搜索的方法在索引库中找出与其相似的候选视频,最后计算出所有候选视频与查询视频的相似度,并将相似度由高到低排序后给出近似拷贝检索的结果。本发明可大幅加速整个检索过程,同时可得到候选视频与查询视频的相似可能性以供后续步骤使用,进一步提高了检索速度。
Description
技术领域
本发明属于图像与视频处理技术领域,具体涉及一种视频近似拷贝检索算法。
背景技术
随着社交网站和媒体的巨大成功,视频数量的快速增加,相似甚至相同的视频经常会被不同用户重复上传。本发明使用的视频近似拷贝检测技术可以被认为是传统的基于内容的视频近似检索(视频应当具有相似的视觉内容,但不用考虑语义)和基于语义的视频检索(视频应当具有相同的语义,但不用考虑视觉内容)之间的桥梁,能有效的去除重复视频,进而节约存储空间并加快检索速度,有着广阔的应用前景。
现有的视频近似拷贝检索算法大都可分为三个主要步骤:提取视频库内采样帧的特征值、为所有视频采样帧建立索引和在线检索。
特征提取部分可以通过计算视频序列的特征值完成,也可以只计算选定的关键帧的特征值。其中特征可以是代表了整个关键帧内容的全局特征或仅代表关键帧中兴趣点的局部特征。检索部分,通过传统的最近邻搜索、二分图匹配算法、树结构、以及近似最近邻居搜索算法等得到与查询视频相似的视频。在应用这些算法进行视频近似拷贝检测时,如何满足大规模视频近似拷贝检测的实时性要求是一个非常有挑战性的问题。
发明内容
本发明的目的在于提供一种基于深度学习的视频近似拷贝检索算法,应用于相似视频的近似拷贝检测系统,以解决相似视频重复上传的问题。
本发明提出的基于深度学习的视频近似拷贝检索算法,分为两个阶段:离线构建索引阶段和在线检索阶段。
在离线构建索引阶段,使用深度卷积神经网络提取采样帧的特征值,然后采用k-d树为视频库内的所有视频采样帧集建立索引;
在在线检索阶段,采用同样的方法提取查询视频的采样帧的特征值,并用近似最近邻搜索的方法在索引库中找出与其相似的候选视频,最后计算出所有候选视频与查询视频的相似度,并将相似度由高到低排序后给出近似拷贝检索的结果。算法流程框架如图1所示。
一、离线构建索引阶段,具体步骤为:
(1)按照每秒一帧的固定采样频率,将视频库中的所有视频采样为若干采样帧,得到视频帧集;
(2)提取所有采样帧的特征值
采用标准的AlexNet[1]模型,在网络的F7和F8之间加入一个隐藏层H,以隐藏层的状态作为帧特帧值。这个隐藏层H是全连接层,它的神经活动受到下一层F8的调控,而F8编码了语义信息并实现了图像分类。关于标准的AlexNet模型具体见参考文选[1]。
网络在目标领域的数据集上通过反向传播来进行微调,网络的初始权值设定为从ImageNet数据库训练得到的权值,隐藏层H和最终层F8的权值被随机初始化。隐藏层H的初始权重表现得很像局部敏感哈希(LSH),而LSH也是使用随机映射来构建哈希位的。而后随着微调过程的进行,这些随机值逐渐从LSH的形式变为更加适应监督深度学习数据的形式;
(3)构建特征值索引
选择使用k-d树[2]为所有视频帧特征向量建立索引,其中索引号即为视频帧号,每一个节点都是一个K维的视频帧的特征值向量,关于k-d树,见参考文选[2];假设帧xi的特征向量为:
构建视频起始帧号表如下F:设视频库中m个视频的帧数分别为n0,n1,…nm-1,构造线性表F(0,n0,n0+n1,…,n0+n1+…+nm-1),线性表的每个元素的索引值即为对应视频编号,元素值即为对应视频的起始帧的编号。
二、在线检索阶段,具体步骤为:
(1)采用与离线阶段相同的方式对给定的查询视频Sx进行采样生成采样帧;
(2)采用与离线阶段相同的方式对步骤(1)得到的采样帧提取特征值;
(3)利用索引对步骤(2)得到的特征值进行3-NN(近似最近邻[3])搜索,生成候选视频。具体步骤如下:
第一步:利用所建立的k-d树对查询视频的每一帧特征执行一次3-NN搜索,从视频库中找出视频帧,并记录这三个视频帧所属的视频编号,具体方式如下:
设查询视频有n个采样帧,对每一帧进行3-NN搜索,得到与其距离最近的三个视频帧号,记为I1、I2、I3,再通过离线索引阶段构建的视频起始帧号表F表来查找得到这些视频帧号所属的视频编号,具体查找过程为:
遍历F表,找到一个i满足F[i]≤I1≤F[i+1],i∈[0,m-1](m为视频库中的视频总数),则该i即为视频帧号I1所对应的视频编号,同理,可得I2和I3对应的视频编号。
经过上述方式的查找,最终得到一个由3n个视频编号构成的集合V。然后通过下式(1):
其中,
求得视频库中的所有视频编号在集合V中出现的次数,这里,Pi表示视频编号i在集合V中出现的次数,i∈[0,m-1]。
第二步:从视频库中,取出置信度大于阈值t(这里t可取经验值为0.6)的视频作为候选视频。
定义候选视频的置信度如下:
其中,n为查询视频Sx的采样帧数,Pi为视频编号i在集合V中出现的次数。
依次计算查询视频与各候选视频的相似度,并将相似度排序,作为结果。
本发明中,所述依次计算查询视频与各候选视频的相似度并将相似度排序,具体流程如下:
第1步:假设查询视频Sx的采样帧为x1,x2,…xm,候选视频Sy的采样帧为y1,y2,…yn。遍历所有候选视频,并根据公式(4)逐对计算查询视频SX与候选视频SY之间的相似度:
其中,d=|n-m|为查询视频与候选视频的视频帧数之差,α为用以调节结果的分布离散程度的超参数,采样帧xi与yj之间的距离D为:
其中,和分别为采样帧xi和yj的特征向量,K为特征向量的维数。
第2步:将所有得到的WS值从大到小排序,并选取其中WS值大于给定阈值T=0.2的候选视频编号作为最终的近似拷贝检索结果。
本发明提出的视频近似拷贝检测算法,其基础是利用Alexnet进行视频帧特征提取以及使用k-d树为视频帧建立索引。在特征提取阶段,通过向典型Alexnet模型中添加一个新的隐藏层,使得算法能够简单而高效地学习视频帧特征,这种视频帧特征介于底层特征与高层语义特征之间,具有较小的体积并能充分地代表视频信息。在索引阶段,基于k-d树进行的近似最近邻搜索能够快速找出与输入视频可能相似的候选视频,直接剔除大量不相关视频,从而大幅加速整个检索过程,同时得到了候选视频与查询视频的相似可能性(置信度)以供后续步骤使用,进一步提高了检索速度。实验结果表明,算法对于一些常见的视频近似拷贝情况有较强的处理能力。
附图说明
图1为本发明算法流程图示。
具体实施方式
实验选取TRECVID中的IACC.1.tv10.training中的1000部公开的网络视频作为离线视频库,每个视频的长度在3.6~4.1分钟之间。之后,从中随机选取100部视频,对它们进行亮度改变、加入字幕、裁切、缩放、旋转(90度和180度)、加入水印、抽帧以及翻转操作,加上原始的100部视频,以此作为十组查询视频。
将十组查询视频输入系统进行视频近似拷贝检索,视频相似度计算中的超参数α取值0.1,在0~2.0之间选取12组不同的置信度阈值T进行实验,得出候选视频后分别计算它们与查询视频的相似度,并选取其中相似度最高的视频作为结果输出。
本次实验在相同的数据集上和基线方法的实验对比结果如表1所示,从表中可以看出,本算法能够有效完成视频近似拷贝检索任务,且综合表现优于传统基线方法。
表1对比实验各方面准确率参照表
参考文献:
[1]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification withdeep convolutional neural networks[C]//International Conference on NeuralInformation Processing Systems.Curran Associates Inc.2012:1097-1105.
[2]Bentley J L.Multidimensional Binary Search Trees Used forAssociative Searching[J].Communications of the Acm,1975,18(9):509-517.
[3]Hastie T,Tibshirani R.Discriminant Adaptive Nearest NeighborClassification[M].IEEE Computer Society,1996.。
Claims (4)
1.一种基于深度学习的视频近似拷贝检索算法,其特征在于,分为两个阶段:离线构建索引阶段和在线检索阶段;
在离线构建索引阶段,使用深度卷积神经网络提取采样帧的特征值,然后采用k-d树为视频库内的所有视频采样帧集建立索引;
在在线检索阶段,采用同样的方法提取查询视频的采样帧的特征值,并用近似最近邻搜索的方法在索引库中找出与其相似的候选视频,最后计算出所有候选视频与查询视频的相似度,并将相似度由高到低排序后给出近似拷贝检索的结果。
2.根据权利要求1所述的视频近似拷贝检索算法,其特征在于,所述离线构建索引阶段的具体步骤为:
(1)按照每秒一帧的固定采样频率,将视频库中的所有视频采样为若干采样帧,得到视频帧集;
(2)提取所有采样帧的特征值
采用标准的AlexNet模型,在网络的F7和F8之间加入一个隐藏层H,以隐藏层的状态作为帧特帧值;该隐藏层H是全连接层,它的神经活动受到下一层F8的调控,而F8编码语义信息并实现图像分类;
网络在目标领域的数据集上通过反向传播来进行微调,网络的初始权值设定为从ImageNet数据库训练得到的权值,隐藏层H和最终层F8的权值被随机初始化;隐藏层H的初始权重表现为如局部敏感哈希(LSH),而LSH也使用随机映射来构建哈希位;随着微调过程的进行,这些随机值逐渐从LSH的形式变为更加适应监督深度学习数据的形式;
(3)构建特征值索引
使用k-d树为所有视频帧特征向量建立索引,其中索引号即为视频帧号,每一个节点都是一个K维的视频帧的特征值向量,假设帧xi的特征向量为:
构建视频起始帧号表如下F:设视频库中m个视频的帧数分别为n0,n1,…nm-1,构造线性表F(0,n0,n0+n1,…,n0+n1+…+nm-1),线性表的每个元素的索引值即为对应视频编号,元素值即为对应视频的起始帧的编号。
3.根据权利要求2所述的视频近似拷贝检索算法,其特征在于,所述在线检索阶段的具体步骤为:
(1)采用与离线阶段相同的方式对给定的查询视频Sx进行采样生成采样帧;
(2)采用与离线阶段相同的方式对步骤(1)得到的采样帧提取特征值;
(3)利用索引对步骤(2)得到的特征值进行3-NN搜索,生成候选视频;具体步骤如下:
第一步:利用所建立的k-d树对查询视频的每一帧特征执行一次3-NN搜索,从视频库中找出视频帧,并记录这三个视频帧所属的视频编号,具体方式如下:
设查询视频有n个采样帧,对每一帧进行3-NN搜索,得到与其距离最近的三个视频帧号,记为I1、I2、I3,再通过离线索引阶段构建的视频起始帧号表F表来查找得到这些视频帧号所属的视频编号,具体查找过程为:
遍历F表,找到一个i满足F[i]≤I1≤F[i+1],i∈[0,m-1](m为视频库中的视频总数),则该i即为视频帧号I1所对应的视频编号,同理,可得I2和I3对应的视频编号;
经过上述方式的查找,最终得到一个由3n个视频编号构成的集合V;然后通过下式(1):
其中,
求得视频库中的所有视频编号在集合V中出现的次数,这里,Pi表示视频编号i在集合V中出现的次数,i∈[0,m-1];
第二步:从视频库中,取出置信度大于阈值t的视频作为候选视频;
候选视频的置信度定义如下:
其中,n为查询视频Sx的采样帧数,Pi为视频编号i在集合V中出现的次数;
依次计算查询视频与各候选视频的相似度,并将相似度排序,作为结果。
4.根据权利要求3所述的视频近似拷贝检索算法,其特征在于,所述依次计算查询视频与各候选视频的相似度并将相似度排序,具体流程如下:
第1步:假设查询视频Sx的采样帧为x1,x2,…xm,候选视频Sy的采样帧为y1,y2,…yn;遍历所有候选视频,并根据公式(4)逐对计算查询视频SX与候选视频SY之间的相似度:
其中,d=|n-m|为查询视频与候选视频的视频帧数之差,α为用以调节结果的分布离散程度的超参数,采样帧xi与yj之间的距离D为:
其中,和分别为采样帧xi和yj的特征向量,K为特征向量的维数;
第2步:将所有得到的WS值从大到小排序,并选取其中WS值大于给定阈值T=0.2的候选视频编号作为最终的近似拷贝检索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810347069.XA CN108763295B (zh) | 2018-04-18 | 2018-04-18 | 一种基于深度学习的视频近似拷贝检索算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810347069.XA CN108763295B (zh) | 2018-04-18 | 2018-04-18 | 一种基于深度学习的视频近似拷贝检索算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108763295A true CN108763295A (zh) | 2018-11-06 |
CN108763295B CN108763295B (zh) | 2021-04-30 |
Family
ID=64010998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810347069.XA Active CN108763295B (zh) | 2018-04-18 | 2018-04-18 | 一种基于深度学习的视频近似拷贝检索算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108763295B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046727A (zh) * | 2019-10-31 | 2020-04-21 | 咪咕文化科技有限公司 | 视频特征提取方法及装置、电子设备及存储介质 |
CN111522996A (zh) * | 2020-04-09 | 2020-08-11 | 北京百度网讯科技有限公司 | 视频片段的检索方法和装置 |
CN111753735A (zh) * | 2020-06-24 | 2020-10-09 | 北京奇艺世纪科技有限公司 | 视频片段检测方法、装置、电子设备及存储介质 |
CN113094547A (zh) * | 2021-04-06 | 2021-07-09 | 大连理工大学 | 日语在线视频语料中特定动作视频片断检索方法 |
CN111464881B (zh) * | 2019-01-18 | 2021-08-13 | 复旦大学 | 基于自优化机制的全卷积视频描述生成方法 |
US11954152B2 (en) | 2020-08-14 | 2024-04-09 | Alipay (Hangzhou) Information Technology Co., Ltd. | Video matching methods and apparatuses, and blockchain-based infringement evidence storage methods and apparatuses |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101281520A (zh) * | 2007-04-05 | 2008-10-08 | 中国科学院自动化研究所 | 基于非监督学习和语义匹配特征交互式体育视频检索方法 |
CN101374234A (zh) * | 2008-09-25 | 2009-02-25 | 清华大学 | 一种基于内容的视频拷贝监测方法及装置 |
CN102890700A (zh) * | 2012-07-04 | 2013-01-23 | 北京航空航天大学 | 一种基于体育比赛视频的相似视频片段检索方法 |
CN103617233A (zh) * | 2013-11-26 | 2014-03-05 | 烟台中科网络技术研究所 | 一种基于语义内容多层表示的重复视频检测方法与装置 |
CN106227851A (zh) * | 2016-07-29 | 2016-12-14 | 汤平 | 基于深度卷积神经网络端对端的通过分层深度搜索的图像检索方法 |
-
2018
- 2018-04-18 CN CN201810347069.XA patent/CN108763295B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101281520A (zh) * | 2007-04-05 | 2008-10-08 | 中国科学院自动化研究所 | 基于非监督学习和语义匹配特征交互式体育视频检索方法 |
CN101374234A (zh) * | 2008-09-25 | 2009-02-25 | 清华大学 | 一种基于内容的视频拷贝监测方法及装置 |
CN102890700A (zh) * | 2012-07-04 | 2013-01-23 | 北京航空航天大学 | 一种基于体育比赛视频的相似视频片段检索方法 |
CN103617233A (zh) * | 2013-11-26 | 2014-03-05 | 烟台中科网络技术研究所 | 一种基于语义内容多层表示的重复视频检测方法与装置 |
CN106227851A (zh) * | 2016-07-29 | 2016-12-14 | 汤平 | 基于深度卷积神经网络端对端的通过分层深度搜索的图像检索方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111464881B (zh) * | 2019-01-18 | 2021-08-13 | 复旦大学 | 基于自优化机制的全卷积视频描述生成方法 |
CN111046727A (zh) * | 2019-10-31 | 2020-04-21 | 咪咕文化科技有限公司 | 视频特征提取方法及装置、电子设备及存储介质 |
CN111046727B (zh) * | 2019-10-31 | 2023-10-20 | 咪咕文化科技有限公司 | 视频特征提取方法及装置、电子设备及存储介质 |
CN111522996A (zh) * | 2020-04-09 | 2020-08-11 | 北京百度网讯科技有限公司 | 视频片段的检索方法和装置 |
US11625433B2 (en) | 2020-04-09 | 2023-04-11 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for searching video segment, device, and medium |
CN111522996B (zh) * | 2020-04-09 | 2023-09-08 | 北京百度网讯科技有限公司 | 视频片段的检索方法和装置 |
CN111753735A (zh) * | 2020-06-24 | 2020-10-09 | 北京奇艺世纪科技有限公司 | 视频片段检测方法、装置、电子设备及存储介质 |
CN111753735B (zh) * | 2020-06-24 | 2023-06-06 | 北京奇艺世纪科技有限公司 | 视频片段检测方法、装置、电子设备及存储介质 |
US11954152B2 (en) | 2020-08-14 | 2024-04-09 | Alipay (Hangzhou) Information Technology Co., Ltd. | Video matching methods and apparatuses, and blockchain-based infringement evidence storage methods and apparatuses |
CN113094547A (zh) * | 2021-04-06 | 2021-07-09 | 大连理工大学 | 日语在线视频语料中特定动作视频片断检索方法 |
CN113094547B (zh) * | 2021-04-06 | 2022-01-18 | 大连理工大学 | 日语在线视频语料中特定动作视频片断检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108763295B (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107515895B (zh) | 一种基于目标检测的视觉目标检索方法与系统 | |
CN108763295A (zh) | 一种基于深度学习的视频近似拷贝检索算法 | |
CN108228915B (zh) | 一种基于深度学习的视频检索方法 | |
CN107577990B (zh) | 一种基于gpu加速检索的大规模人脸识别方法 | |
Slaney et al. | Locality-sensitive hashing for finding nearest neighbors [lecture notes] | |
CN105912611B (zh) | 一种基于cnn的快速图像检索方法 | |
CN102254015B (zh) | 基于视觉词组的图像检索方法 | |
US9323841B2 (en) | Method and apparatus for multi-dimensional content search and video identification | |
CN106570141B (zh) | 近似重复图像检测方法 | |
CN106649490B (zh) | 一种基于深度特征的图像检索方法及装置 | |
CN108280187B (zh) | 一种基于卷积神经网络深度特征的分级图像检索方法 | |
CN111126360A (zh) | 基于无监督联合多损失模型的跨域行人重识别方法 | |
CN108427925B (zh) | 一种基于连续拷贝帧序列的拷贝视频检测方法 | |
CN105095435A (zh) | 一种图像高维特征的相似比较方法及装置 | |
CN109783691B (zh) | 一种深度学习和哈希编码的视频检索方法 | |
CN106991373A (zh) | 一种基于深度学习和图论的拷贝视频检测方法 | |
CN112395457B (zh) | 一种应用于视频版权保护的视频待检索定位方法 | |
CN110188225A (zh) | 一种基于排序学习和多元损失的图像检索方法 | |
CN109871749B (zh) | 一种基于深度哈希的行人重识别方法和装置、计算机系统 | |
CN112434553A (zh) | 一种基于深度字典学习的视频鉴别方法及系统 | |
CN109086830B (zh) | 基于样本惩罚的典型关联分析近重复视频检测方法 | |
CN105760875B (zh) | 基于随机森林算法的判别二进制图像特征相似实现方法 | |
CN109918529A (zh) | 一种基于树形聚类矢量量化的图像检索方法 | |
Guo | Research on sports video retrieval algorithm based on semantic feature extraction | |
Sun et al. | Search by detection: Object-level feature for image retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |