CN109783691B - 一种深度学习和哈希编码的视频检索方法 - Google Patents

一种深度学习和哈希编码的视频检索方法 Download PDF

Info

Publication number
CN109783691B
CN109783691B CN201811632349.1A CN201811632349A CN109783691B CN 109783691 B CN109783691 B CN 109783691B CN 201811632349 A CN201811632349 A CN 201811632349A CN 109783691 B CN109783691 B CN 109783691B
Authority
CN
China
Prior art keywords
video
hash
feature
retrieval
shot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811632349.1A
Other languages
English (en)
Other versions
CN109783691A (zh
Inventor
孔彦
伭剑辉
赵玉军
王黎明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yuanjian Information Technology Co Ltd
Original Assignee
Beijing Yuanjian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yuanjian Information Technology Co Ltd filed Critical Beijing Yuanjian Information Technology Co Ltd
Priority to CN201811632349.1A priority Critical patent/CN109783691B/zh
Publication of CN109783691A publication Critical patent/CN109783691A/zh
Application granted granted Critical
Publication of CN109783691B publication Critical patent/CN109783691B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种深度学习和哈希编码的视频检索方法,其特征在于,使用同一种特征进行镜头分割和特征提取;在视频检索中,镜头分割把相同镜头的视频帧作为冗余帧处理以降低计算量并提升检索效率,将镜头特征提取算法得到的特征作为镜头切分的依据以解决同一镜头内不同帧的特征存在差异的问题。本发明所述方法的优越效果是能够实现镜头级别的视频检索并能提高检索的准确率;在视频检索能力方面的视频镜头检索准确率达95%以上,采用了纯二值操作,速度能够提升4倍。

Description

一种深度学习和哈希编码的视频检索方法
技术领域
本发明属于计算机视觉技术领域,尤其涉及一种深度学习和哈希编码的视频检索方法。
背景技术
目前,视频检索包括两种类型,分别是基于文本的视频检索(Text Based VideoRetrieval,RBVR),和基于内容的视频检索(Content Based Video Retrieval,CBVR)。基于文本的视频检索要求用户输入关键词,然后系统返回和输入关键词相关的图像,并按和关键词的相关程度来排序。这种检索方式在目前的互联网应用中较为广泛,但在很多情况下,用户无法用语言精确地描述想要检索的视频内容。
公开号为CN109033121A的专利申请公开了一种基于云存储的视频检索方法,包括以下步骤:将需检索的视频段信息进行截取获得若干个图片样本;图片样本转换为图像模型数据;对转换的图像模型数据进行特征向量的建立;将建立的特征向量与云存储中存储的若干视频段信息对应的原图像模型数据的特征向量进行重合度检测,得到重合度;筛选出重合度大于重合度阀值的视频段;筛选的视频段信息按照重合度系数的大小,依次输出对应的视频段。本发明通过对需检索的视频段进行截取、转换和匹配索引,可筛选出重合度大于重合度阀值的视频段信息。
公开号为CN108986186A的专利申请公开了文字转化视频的方法和系统,输入用自然语言表达的场景表述的文本信息;对视频数据集进行过滤筛选;对过滤后的候选视频片段和输入的场景描述匹配,输出匹配度高的视频片段;利用编码器和解码器,将匹配度高的视频片段进行文本描述;将筛选出的视频片段的文本描述与自然语言表达的场景的文本表述进行相似度的选择和比对,输出内容上符合自然语言表达的场景的输入文本的关键帧集合;在关键帧集合中进行识别和提取对象,生成对象集;依照场景图和对象集最终生成关键帧,生成视频。利用基于自然语言处理的视频检索方法。
因此,基于内容的视频检索,是一种根据视频内容来检索相似视频的方法。区别于基于文本的视频检索,在这种检索方式下,用户输入不是文字,而是一段视频或一副图像。基于内容的视频检索和基于内容的图像检索问题密切相关,两者都要解决图像间特征的提取、相似性的计算、大规模数据场景下快速索引的问题。两个问题的不同之处在于视频内容的冗余程度更大,需要对视频进行镜头级别的分析以降低检索时的计算量。常规的视频检索算法在分割镜头和提取图像帧特征时采用不同的特征提取算法,可能导致同一个镜头不同帧的画面特征存在较大差异。
发明内容
本发明的目的在于提供一种能够克服上述技术问题的深度学习和哈希编码的视频特征提取方法,本发明所述方法的特征在于是基于视频图像的特征提取方法。
本发明所述方法包括以下步骤:
步骤1、将视频文件解码成视频帧。
步骤2、基于深度学习提取视频帧特征,将卷积神经网络CNN的卷积层输出特征作为图像检索的图像特征向量来使用。
步骤2.1、卷积层的输出特征表示为
Figure BDA0001929237990000021
其中C表示特征图的通道数,H表示特征图的高度,W表示特征图的宽度;将单个关键帧的特征f从单一向量转换成局部特征描述子的集合
Figure BDA0001929237990000022
以降低物体位移、镜头角度变化、物体尺度的干扰的影响;f′中的每一个元素为原特征图上坐标为i,j的特征向量,特征向量的数量为H*W个。
步骤3、通过特征哈希方法将浮点特征映射为二值特征,包括以下步骤:
步骤3.1、使用近似最近邻哈希方法将f′中单个局部特征描述子映射到哈希空间;
对于一个f′中的特征向量之一x,定义包含n个子哈希函数的哈希函数H(x),其定义为:
H(x)={q(h1(x)),q(h2(x)),...,q(hn(x))};
上式中hi(x)为子哈希函数,q(x)为量化函数,上述步骤3.1是先通过子哈希函数hi(x)将f′中的特征向量映射到哈希空间。
步骤4、采用多比特哈希编码方法,将哈希空间中的浮点向量量化为二值向量,转换为二值特征描述子能够降低特征存储的空间开销并提升特征比对速度。
步骤4.1、定义哈希函数q′(x,θn),θn表示从输入标量x统计的n个聚类中心,将x划分到n+1个空间中,经过q’量化的x共有n+1种表示;当n为1且θn为0时,q’等价于q;新的编码占用n个比特位,对于n+1个空间中的位置i,所述n个比特位中前n-i个值为0,后i个值为1;例如,对于n为4的情况,共有0、1、2、3、4状态,分别量化为0000,0001,0011,0111,1111;量化能够实现在异或运算规则下,不同状态异或后1的个数等价于十进制差的绝对值,4–1=Popcnt(1111^0001)=Popcnt(1110)=3;所述Popcnt为汇编指令,即返回数字中比特值1的个数。
步骤5、计算每个相邻帧哈希特征的相似性,相似性高的合并为同一镜头;
步骤5.1、一个镜头选中间帧作为代表帧,不同帧的两个哈希特征集合A和B之间计算相似度的方式为Jaccard距离,定义一个阈值s,集合H1和H2中当两个二值特征异或后1的数量大于s认为不相似即表示不在交集中,小于等于s认为相似即表示在交集中,Jaccard距离定义为
Figure BDA0001929237990000031
步骤6、将分割好镜头的视频哈希特征作为视频的特征描述。
本发明所述方法能够提升视频检索中的检索准确性和检索效率,使用同一种特征进行镜头分割和特征提取;在视频检索中,镜头分割把相同镜头的视频帧作为冗余帧处理以降低计算量并提升检索效率,将镜头特征提取算法得到的特征作为镜头切分的依据以解决同一镜头内不同帧的特征存在差异的问题。
本发明所述方法的优越效果是能够实现镜头级别的视频检索并能提高检索的准确率;本发明所述方法在视频检索能力方面的视频镜头检索准确率达95%以上,特征建模时间和视频时长成正比,时间约为视频总时长的1/10。在编码有效性方面:在256个子哈希函数组成的哈希函数下,在私有图像测试集上,相比较于1bit传统编码方法,采用4bit的编码,平均准确率(mAP)从32%提升至80%。同样4bit情况下,新的编码方法相较于直接十进制做差;0,1,2,3,4分别为二进制0000,0001,0010,0011,0100,两两之间通过十进制计算规则相减取绝对值,发明所述方法采用了纯二值操作,因此,速度能够提升4倍。
附图说明
图1是本发明所述方法的流程示意图;
图2是本发明所述方法的特征提取示意图。
具体实施方式
下面结合附图对本发明的实施方式进行详细描述。如图1所示,总流程分为特征入库和视频检索两部分。特征入库是离线过程,目的是从视频库的视频中提取视频的代表特征,存入视频特征库;视频检索是在线过程,从单个输入视频提取视频特征,并在视频特征库中遍历匹配,输出匹配即检索结果。
视频检索和视频入库中的特征提取流程相同,如图2所示,具体步骤如下:
步骤1、从视频库中取视频文件,输入到特征提取程序中;
步骤2、用视频解码库(如FFMPEG)将视频解码成视频帧,当要降低运算量时,允许跳帧;
步骤3、用ImageNet开源数据库预训练的卷积神经网络提取深度学习特征;特征提取位置为卷积神经网络中的卷积层输出,用SqueezeNet中fire9/concat层的输出;特征提取后,按照本发明内容中的步骤2,取局部特征描述子的集合f′,对于SqueezeNet神经网络,其fire9/concat层的输入图像大小为227x227,输出大小为1*512*13*13,则集合f′中包含13*13,共169个长度为512的向量;
步骤4、按照本发明内容中的步骤3、步骤4的特征哈希和量化方法,选择合适的哈希函数h(比如LSH),先将f′中的每一个向量投影到哈希空间,变成哈希浮点向量,再将特征量化为多比特二值特征;
步骤5、计算每个相邻帧哈希特征的相似性,相似性高的合并为同一镜头。一个镜头选中间帧作为代表帧,不同帧的两个哈希特征集合A和B之间计算相似度的方式为Jaccard距离,定义一个阈值s,集合H1和H2中当两个二值特征异或后1的数量大于s认为不相似即表示不在交集中,小于等于s认为相似即表示在交集中,Jaccard距离定义为
Figure BDA0001929237990000041
步骤6、将分割好镜头的视频哈希特征作为视频的特征描述。
在视频比对的过程中,比对按照特征提取流程帧间相似性的计算方法计算镜头间的相似度。对于允许视频镜头乱序的场景,视频级的相似度按照集合的方式,按Jaccard距离计算;对于严格要求镜头顺序的场景,按字符串中关键词扫描的方法进行按序匹配。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明公开的范围内,能够轻易想到的变化或替换,都应涵盖在本发明权利要求的保护范围内。

Claims (3)

1.一种深度学习和哈希编码的视频检索方法,其特征在于,包括以下步骤:
步骤1、将视频文件解码成视频帧;
步骤2、基于深度学习提取视频帧特征,将卷积神经网络CNN的卷积层输出特征作为图像检索的图像特征向量来使用;
步骤3、通过特征哈希方法将浮点特征映射为二值特征;
步骤4、采用多比特哈希编码方法,将哈希空间中的浮点向量量化为二值向量,转换为二值特征描述子能够降低特征存储的空间开销并提升特征比对速度:
步骤4.1、定义哈希函数q′(x,θn),θn表示从输入标量x统计的n个聚类中心,将x划分到n+1个空间中,经过q’量化的x共有n+1种表示;当n为1且θn为0时,q’等价于q;新的编码占用n个比特位,对于n+1个空间中的位置m,所述n个比特位中前n-m个值为0,后m个值为1;对于n为4的情况,共有0、1、2、3、4状态,分别量化为0000,0001,0011,0111,1111;量化能够实现在异或运算规则下,不同状态异或后1的个数等价于十进制差的绝对值,4–1=Popcnt(1111^0001)=Popcnt(1110)=3;所述Popcnt为汇编指令,即返回数字中比特值1的个数;
步骤5、计算每个相邻帧哈希特征的相似性,相似性高的合并为同一镜头:
步骤5.1、一个镜头选中间帧作为代表帧,不同帧的两个哈希特征集合A和B之间计算相似度的方式为Jaccard距离,定义一个阈值s,集合A和B中当两个二值特征异或后1的数量大于s认为不相似即表示不在交集中,小于等于s认为相似即表示在交集中,Jaccard距离定义为
Figure FDA0003411185120000011
步骤6、将分割好镜头的视频哈希特征作为视频的特征描述。
2.根据权利要求1所述的一种深度学习和哈希编码的视频检索方法,其特征在于,所述步骤2包括以下步骤:
步骤2.1、卷积层的输出特征表示为
Figure FDA0003411185120000012
其中C表示特征图的通道数,H表示特征图的高度,W表示特征图的宽度;将单个关键帧的特征f从单一向量转换成局部特征描述子的集合
Figure FDA0003411185120000013
以降低物体位移、镜头角度变化、物体尺度的干扰的影响;f′中的每一个元素为原特征图上坐标为i,j的特征向量,特征向量的数量为H*W个。
3.根据权利要求2所述的一种深度学习和哈希编码的视频检索方法,其特征在于,所述步骤3包括以下步骤:
步骤3.1、使用近似最近邻哈希方法将f′中单个局部特征描述子映射到哈希空间;
对于一个f′中的特征向量之一x,定义包含n个子哈希函数的哈希函数H(x),其定义为:
H(x)={q(h1(x)),q(h2(x)),...,q(hn(x))};
上式中hi(x)为子哈希函数,{q(h1(x)),q(h2(x)),...,q(hn(x))}为量化函数,上述步骤3.1是先通过子哈希函数hi(x)将f′中的特征向量映射到哈希空间。
CN201811632349.1A 2018-12-29 2018-12-29 一种深度学习和哈希编码的视频检索方法 Active CN109783691B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811632349.1A CN109783691B (zh) 2018-12-29 2018-12-29 一种深度学习和哈希编码的视频检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811632349.1A CN109783691B (zh) 2018-12-29 2018-12-29 一种深度学习和哈希编码的视频检索方法

Publications (2)

Publication Number Publication Date
CN109783691A CN109783691A (zh) 2019-05-21
CN109783691B true CN109783691B (zh) 2022-06-21

Family

ID=66497968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811632349.1A Active CN109783691B (zh) 2018-12-29 2018-12-29 一种深度学习和哈希编码的视频检索方法

Country Status (1)

Country Link
CN (1) CN109783691B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110830836B (zh) * 2019-11-18 2020-10-27 电子科技大学 一种视频广告播出监测方法
CN111444390A (zh) * 2020-04-02 2020-07-24 徐州工程学院 一种基于Spark和深度哈希的视频并行检索方法
CN111898581B (zh) * 2020-08-12 2024-05-17 成都佳华物链云科技有限公司 动物检测方法、装置、电子设备及可读存储介质
CN112395457B (zh) * 2020-12-11 2021-06-22 中国搜索信息科技股份有限公司 一种应用于视频版权保护的视频待检索定位方法
CN112929729B (zh) * 2021-01-21 2023-06-30 北京奇艺世纪科技有限公司 弹幕数据调整方法、装置、设备及存储介质
TWI830604B (zh) * 2023-02-21 2024-01-21 中華電信股份有限公司 視頻主題分析系統、方法及其電腦可讀媒介

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107016708A (zh) * 2017-03-24 2017-08-04 杭州电子科技大学 一种基于深度学习的图像哈希编码方法
CN107506401A (zh) * 2017-08-02 2017-12-22 大连理工大学 一种基于图方法的图像检索重排方法
CN108509917A (zh) * 2018-03-30 2018-09-07 北京影谱科技股份有限公司 基于镜头类相关性分析的视频场景分割方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8171030B2 (en) * 2007-06-18 2012-05-01 Zeitera, Llc Method and apparatus for multi-dimensional content search and video identification
CN107229757B (zh) * 2017-06-30 2020-09-29 中国科学院计算技术研究所 基于深度学习和哈希编码的视频检索方法
CN108280233A (zh) * 2018-02-26 2018-07-13 南京邮电大学 一种基于深度学习的视频gis数据检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107016708A (zh) * 2017-03-24 2017-08-04 杭州电子科技大学 一种基于深度学习的图像哈希编码方法
CN107506401A (zh) * 2017-08-02 2017-12-22 大连理工大学 一种基于图方法的图像检索重排方法
CN108509917A (zh) * 2018-03-30 2018-09-07 北京影谱科技股份有限公司 基于镜头类相关性分析的视频场景分割方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于哈希编码的大规模图像检索方法研究;袁勇;《中国优秀硕士学位论文全文数据库信息科技辑》;20180415;I138—3403 *
基于感知哈希的视频去重;胡雪晴;《软件工程与应用》;20180430;第7卷(第2期);111—115 *
自适应多位编码量化的哈希图像检索方法;徐思雨等;《西安交通大学学报》;20170831;第51卷(第8期);19—25 *

Also Published As

Publication number Publication date
CN109783691A (zh) 2019-05-21

Similar Documents

Publication Publication Date Title
CN109783691B (zh) 一种深度学习和哈希编码的视频检索方法
CN105912611B (zh) 一种基于cnn的快速图像检索方法
CN110222218B (zh) 基于多尺度NetVLAD和深度哈希的图像检索方法
Zhou et al. BSIFT: Toward data-independent codebook for large scale image search
CN108427925B (zh) 一种基于连续拷贝帧序列的拷贝视频检测方法
CN104050247A (zh) 实现海量视频快速检索的方法
He et al. Bidirectional discrete matrix factorization hashing for image search
CN109933682B (zh) 一种基于语义与内容信息结合的图像哈希检索方法及系统
CN111104555A (zh) 基于注意力机制的视频哈希检索方法
CN112434553A (zh) 一种基于深度字典学习的视频鉴别方法及系统
CN108763295A (zh) 一种基于深度学习的视频近似拷贝检索算法
Liao et al. IR feature embedded bof indexing method for near-duplicate video retrieval
CN109086830B (zh) 基于样本惩罚的典型关联分析近重复视频检测方法
Sarkar et al. Video fingerprinting: features for duplicate and similar video detection and query-based video retrieval
Ding et al. Joint coding of local and global deep features in videos for visual search
CN111858984A (zh) 一种基于注意力机制哈希检索的图像匹配方法
Wei et al. Transformer-based domain-specific representation for unsupervised domain adaptive vehicle re-identification
Li et al. Structure-adaptive neighborhood preserving hashing for scalable video search
CN114168773A (zh) 一种基于伪标签和重排序的半监督草图图像检索方法
Wu et al. Codebook-free compact descriptor for scalable visual search
El Abyad et al. Deep Video Hashing Using 3DCNN with BERT.
CN114694185B (zh) 一种跨模态目标重识别方法、装置、设备及介质
Mohan et al. Dynamic summarization of videos based on descriptors in space-time video volumes and sparse autoencoder
CN116049450A (zh) 一种基于距离聚类的支持多模态的图文检索方法及装置
Li et al. Key frame extraction from video based on determinant-type of sparse measure and DC programming

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100142 80001-2, floor 7, building 1, No.158, Xisihuan North Road, Haidian District, Beijing

Applicant after: Beijing Yuanjian Information Technology Co., Ltd

Address before: 616150 No. 3, 1-1 Renmin West Road, Xincheng Town, Zhaojue County, Liangshan Yi Autonomous Prefecture, Sichuan Province

Applicant before: Sichuan Yuan Jian Technology Co., Ltd.

GR01 Patent grant
GR01 Patent grant