CN109783691A - 一种深度学习和哈希编码的视频检索方法 - Google Patents
一种深度学习和哈希编码的视频检索方法 Download PDFInfo
- Publication number
- CN109783691A CN109783691A CN201811632349.1A CN201811632349A CN109783691A CN 109783691 A CN109783691 A CN 109783691A CN 201811632349 A CN201811632349 A CN 201811632349A CN 109783691 A CN109783691 A CN 109783691A
- Authority
- CN
- China
- Prior art keywords
- feature
- hash
- video
- frame
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种深度学习和哈希编码的视频检索方法,其特征在于,使用同一种特征进行镜头分割和特征提取;在视频检索中,镜头分割把相同镜头的视频帧作为冗余帧处理以降低计算量并提升检索效率,将镜头特征提取算法得到的特征作为镜头切分的依据以解决同一镜头内不同帧的特征存在差异的问题。本发明所述方法的优越效果是能够实现镜头级别的视频检索并能提高检索的准确率;在视频检索能力方面的视频镜头检索准确率达95%以上,采用了纯二值操作,速度能够提升4倍。
Description
技术领域
本发明属于计算机视觉技术领域,尤其涉及一种深度学习和哈希编码的视频检索方法。
背景技术
目前,视频检索包括两种类型,分别是基于文本的视频检索(Text Based VideoRetrieval,RBVR),和基于内容的视频检索(Content Based Video Retrieval,CBVR)。基于文本的视频检索要求用户输入关键词,然后系统返回和输入关键词相关的图像,并按和关键词的相关程度来排序。这种检索方式在目前的互联网应用中较为广泛,但在很多情况下,用户无法用语言精确地描述想要检索的视频内容。
公开号为CN109033121A的专利申请公开了一种基于云存储的视频检索方法,包括以下步骤:将需检索的视频段信息进行截取获得若干个图片样本;图片样本转换为图像模型数据;对转换的图像模型数据进行特征向量的建立;将建立的特征向量与云存储中存储的若干视频段信息对应的原图像模型数据的特征向量进行重合度检测,得到重合度;筛选出重合度大于重合度阀值的视频段;筛选的视频段信息按照重合度系数的大小,依次输出对应的视频段。本发明通过对需检索的视频段进行截取、转换和匹配索引,可筛选出重合度大于重合度阀值的视频段信息。
公开号为CN108986186A的专利申请公开了文字转化视频的方法和系统,输入用自然语言表达的场景表述的文本信息;对视频数据集进行过滤筛选;对过滤后的候选视频片段和输入的场景描述匹配,输出匹配度高的视频片段;利用编码器和解码器,将匹配度高的视频片段进行文本描述;将筛选出的视频片段的文本描述与自然语言表达的场景的文本表述进行相似度的选择和比对,输出内容上符合自然语言表达的场景的输入文本的关键帧集合;在关键帧集合中进行识别和提取对象,生成对象集;依照场景图和对象集最终生成关键帧,生成视频。利用基于自然语言处理的视频检索方法。
因此,基于内容的视频检索,是一种根据视频内容来检索相似视频的方法。区别于基于文本的视频检索,在这种检索方式下,用户输入不是文字,而是一段视频或一副图像。基于内容的视频检索和基于内容的图像检索问题密切相关,两者都要解决图像间特征的提取、相似性的计算、大规模数据场景下快速索引的问题。两个问题的不同之处在于视频内容的冗余程度更大,需要对视频进行镜头级别的分析以降低检索时的计算量。常规的视频检索算法在分割镜头和提取图像帧特征时采用不同的特征提取算法,可能导致同一个镜头不同帧的画面特征存在较大差异。
发明内容
本发明的目的在于提供一种能够克服上述技术问题的深度学习和哈希编码的视频特征提取方法,本发明所述方法的特征在于是基于视频图像的特征提取方法。
本发明所述方法包括以下步骤:
步骤1、将视频文件解码成视频帧。
步骤2、基于深度学习提取视频帧特征,将卷积神经网络CNN的卷积层输出特征作为图像检索的图像特征向量来使用。
步骤2.1、卷积层的输出特征表示为其中C表示特征图的通道数,H表示特征图的高度,W表示特征图的宽度;将单个关键帧的特征f从单一向量转换成局部特征描述子的集合以降低物体位移、镜头角度变化、物体尺度的干扰的影响;f′中的每一个元素为原特征图上坐标为i,j的特征向量,特征向量的数量为H*W个。
步骤3、通过特征哈希方法将浮点特征映射为二值特征,包括以下步骤:
步骤3.1、使用近似最近邻哈希方法将f′中单个局部特征描述子映射到哈希空间;
对于一个f′中的特征向量之一x,定义包含n个子哈希函数的哈希函数H(x),其定义为:
H(x)={q(h1(x)),q(h2(x)),...,q(hn(x))};
上式中hi(x)为子哈希函数,q(x)为量化函数,上述步骤3.1是先通过子哈希函数hi(x)将f′中的特征向量映射到哈希空间。
步骤4、采用多比特哈希编码方法,将哈希空间中的浮点向量量化为二值向量,转换为二值特征描述子能够降低特征存储的空间开销并提升特征比对速度。
步骤4.1、定义哈希函数q′(x,θn),θn表示从输入标量x统计的n个聚类中心,将x划分到n+1个空间中,经过q’量化的x共有n+1种表示;当n为1且θn为0时,q’等价于q;新的编码占用n个比特位,对于n+1个空间中的位置i,所述n个比特位中前n-i个值为0,后i个值为1;例如,对于n为4的情况,共有0、1、2、3、4状态,分别量化为0000,0001,0011,0111,1111;量化能够实现在异或运算规则下,不同状态异或后1的个数等价于十进制差的绝对值,4–1=Popcnt(1111^0001)=Popcnt(1110)=3;所述Popcnt为汇编指令,即返回数字中比特值1的个数。
步骤5、计算每个相邻帧哈希特征的相似性,相似性高的合并为同一镜头;
步骤5.1、一个镜头选中间帧作为代表帧,不同帧的两个哈希特征集合A和B之间计算相似度的方式为Jaccard距离,定义一个阈值s,集合H1和H2中当两个二值特征异或后1的数量大于s认为不相似即表示不在交集中,小于等于s认为相似即表示在交集中,Jaccard距离定义为
步骤6、将分割好镜头的视频哈希特征作为视频的特征描述。
本发明所述方法能够提升视频检索中的检索准确性和检索效率,使用同一种特征进行镜头分割和特征提取;在视频检索中,镜头分割把相同镜头的视频帧作为冗余帧处理以降低计算量并提升检索效率,将镜头特征提取算法得到的特征作为镜头切分的依据以解决同一镜头内不同帧的特征存在差异的问题。
本发明所述方法的优越效果是能够实现镜头级别的视频检索并能提高检索的准确率;本发明所述方法在视频检索能力方面的视频镜头检索准确率达95%以上,特征建模时间和视频时长成正比,时间约为视频总时长的1/10。在编码有效性方面:在256个子哈希函数组成的哈希函数下,在私有图像测试集上,相比较于1bit传统编码方法,采用4bit的编码,平均准确率(mAP)从32%提升至80%。同样4bit情况下,新的编码方法相较于直接十进制做差;0,1,2,3,4分别为二进制0000,0001,0010,0011,0100,两两之间通过十进制计算规则相减取绝对值,发明所述方法采用了纯二值操作,因此,速度能够提升4倍。
附图说明
图1是本发明所述方法的流程示意图;
图2是本发明所述方法的特征提取示意图。
具体实施方式
下面结合附图对本发明的实施方式进行详细描述。如图1所示,总流程分为特征入库和视频检索两部分。特征入库是离线过程,目的是从视频库的视频中提取视频的代表特征,存入视频特征库;视频检索是在线过程,从单个输入视频提取视频特征,并在视频特征库中遍历匹配,输出匹配即检索结果。
视频检索和视频入库中的特征提取流程相同,如图2所示,具体步骤如下:
步骤1、从视频库中取视频文件,输入到特征提取程序中;
步骤2、用视频解码库(如FFMPEG)将视频解码成视频帧,当要降低运算量时,允许跳帧;
步骤3、用ImageNet开源数据库预训练的卷积神经网络提取深度学习特征;特征提取位置为卷积神经网络中的卷积层输出,用SqueezeNet中fire9/concat层的输出;特征提取后,按照本发明内容中的步骤2,取局部特征描述子的集合f′,对于SqueezeNet神经网络,其fire9/concat层的输入图像大小为227x227,输出大小为1*512*13*13,则集合f′中包含13*13,共169个长度为512的向量;
步骤4、按照本发明内容中的步骤3、步骤4的特征哈希和量化方法,选择合适的哈希函数h(比如LSH),先将f′中的每一个向量投影到哈希空间,变成哈希浮点向量,再将特征量化为多比特二值特征;
步骤5、计算每个相邻帧哈希特征的相似性,相似性高的合并为同一镜头。一个镜头选中间帧作为代表帧,不同帧的两个哈希特征集合A和B之间计算相似度的方式为Jaccard距离,定义一个阈值s,集合H1和H2中当两个二值特征异或后1的数量大于s认为不相似即表示不在交集中,小于等于s认为相似即表示在交集中,Jaccard距离定义为
步骤6、将分割好镜头的视频哈希特征作为视频的特征描述。
在视频比对的过程中,比对按照特征提取流程帧间相似性的计算方法计算镜头间的相似度。对于允许视频镜头乱序的场景,视频级的相似度按照集合的方式,按Jaccard距离计算;对于严格要求镜头顺序的场景,按字符串中关键词扫描的方法进行按序匹配。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明公开的范围内,能够轻易想到的变化或替换,都应涵盖在本发明权利要求的保护范围内。
Claims (5)
1.一种深度学习和哈希编码的视频检索方法,其特征在于,包括以下步骤:
步骤1、将视频文件解码成视频帧;
步骤2、基于深度学习提取视频帧特征,将卷积神经网络CNN的卷积层输出特征作为图像检索的图像特征向量来使用;
步骤3、通过特征哈希方法将浮点特征映射为二值特征;
步骤4、采用多比特哈希编码方法,将哈希空间中的浮点向量量化为二值向量,转换为二值特征描述子能够降低特征存储的空间开销并提升特征比对速度;
步骤5、计算每个相邻帧哈希特征的相似性,相似性高的合并为同一镜头;
步骤6、将分割好镜头的视频哈希特征作为视频的特征描述。
2.根据权利要求1所述的一种深度学习和哈希编码的视频检索方法,其特征在于,所述步骤2包括以下步骤:
步骤2.1、卷积层的输出特征表示为其中C表示特征图的通道数,H表示特征图的高度,W表示特征图的宽度;将单个关键帧的特征f从单一向量转换成局部特征描述子的集合以降低物体位移、镜头角度变化、物体尺度的干扰的影响;f′中的每一个元素为原特征图上坐标为i,j的特征向量,特征向量的数量为H*W个。
3.根据权利要求1所述的一种深度学习和哈希编码的视频检索方法,其特征在于,所述步骤3包括以下步骤:
步骤3.1、使用近似最近邻哈希方法将f′中单个局部特征描述子映射到哈希空间;
对于一个f′中的特征向量之一x,定义包含n个子哈希函数的哈希函数H(x),其定义为:
H(x)={q(h1(x)),q(h2(x)),...,q(hn(x))};
上式中hi(x)为子哈希函数,q(x)为量化函数,上述步骤3.1是先通过子哈希函数hi(x)将f′中的特征向量映射到哈希空间。
4.根据权利要求1所述的一种深度学习和哈希编码的视频检索方法,其特征在于,所述步骤4包括以下步骤:
步骤4.1、定义哈希函数q′(x,θn),θn表示从输入标量x统计的n个聚类中心,将x划分到n+1个空间中,经过q’量化的x共有n+1种表示;当n为1且θn为0时,q’等价于q;新的编码占用n个比特位,对于n+1个空间中的位置i,所述n个比特位中前n-i个值为0,后i个值为1;例如,对于n为4的情况,共有0、1、2、3、4状态,分别量化为0000,0001,0011,0111,1111;量化能够实现在异或运算规则下,不同状态异或后1的个数等价于十进制差的绝对值,4–1=Popcnt(1111^0001)=Popcnt(1110)=3;所述Popcnt为汇编指令,即返回数字中比特值1的个数。
5.根据权利要求1所述的一种深度学习和哈希编码的视频检索方法,其特征在于,所述步骤5包括以下步骤:
步骤5.1、一个镜头选中间帧作为代表帧,不同帧的两个哈希特征集合A和B之间计算相似度的方式为Jaccard距离,定义一个阈值s,集合H1和H2中当两个二值特征异或后1的数量大于s认为不相似即表示不在交集中,小于等于s认为相似即表示在交集中,Jaccard距离定义为
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811632349.1A CN109783691B (zh) | 2018-12-29 | 2018-12-29 | 一种深度学习和哈希编码的视频检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811632349.1A CN109783691B (zh) | 2018-12-29 | 2018-12-29 | 一种深度学习和哈希编码的视频检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109783691A true CN109783691A (zh) | 2019-05-21 |
CN109783691B CN109783691B (zh) | 2022-06-21 |
Family
ID=66497968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811632349.1A Active CN109783691B (zh) | 2018-12-29 | 2018-12-29 | 一种深度学习和哈希编码的视频检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109783691B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110830836A (zh) * | 2019-11-18 | 2020-02-21 | 电子科技大学 | 一种视频广告播出监测方法 |
CN111444390A (zh) * | 2020-04-02 | 2020-07-24 | 徐州工程学院 | 一种基于Spark和深度哈希的视频并行检索方法 |
CN111898581A (zh) * | 2020-08-12 | 2020-11-06 | 成都佳华物链云科技有限公司 | 动物检测方法、装置、电子设备及可读存储介质 |
CN112395457A (zh) * | 2020-12-11 | 2021-02-23 | 中国搜索信息科技股份有限公司 | 一种应用于视频版权保护的视频待检索定位方法 |
CN112929729A (zh) * | 2021-01-21 | 2021-06-08 | 北京奇艺世纪科技有限公司 | 弹幕数据调整方法、装置、设备及存储介质 |
CN113743304A (zh) * | 2021-09-06 | 2021-12-03 | 北京神星科技有限公司 | 一种用于视频监控的运动目标检测和识别方法 |
TWI830604B (zh) * | 2023-02-21 | 2024-01-21 | 中華電信股份有限公司 | 視頻主題分析系統、方法及其電腦可讀媒介 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160275084A1 (en) * | 2007-06-18 | 2016-09-22 | Gracenote, Inc. | Method and Apparatus for Multi-Dimensional Content Search and Video Identification |
CN107016708A (zh) * | 2017-03-24 | 2017-08-04 | 杭州电子科技大学 | 一种基于深度学习的图像哈希编码方法 |
CN107229757A (zh) * | 2017-06-30 | 2017-10-03 | 中国科学院计算技术研究所 | 基于深度学习和哈希编码的视频检索方法 |
CN107506401A (zh) * | 2017-08-02 | 2017-12-22 | 大连理工大学 | 一种基于图方法的图像检索重排方法 |
CN108280233A (zh) * | 2018-02-26 | 2018-07-13 | 南京邮电大学 | 一种基于深度学习的视频gis数据检索方法 |
CN108509917A (zh) * | 2018-03-30 | 2018-09-07 | 北京影谱科技股份有限公司 | 基于镜头类相关性分析的视频场景分割方法和装置 |
-
2018
- 2018-12-29 CN CN201811632349.1A patent/CN109783691B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160275084A1 (en) * | 2007-06-18 | 2016-09-22 | Gracenote, Inc. | Method and Apparatus for Multi-Dimensional Content Search and Video Identification |
CN107016708A (zh) * | 2017-03-24 | 2017-08-04 | 杭州电子科技大学 | 一种基于深度学习的图像哈希编码方法 |
CN107229757A (zh) * | 2017-06-30 | 2017-10-03 | 中国科学院计算技术研究所 | 基于深度学习和哈希编码的视频检索方法 |
CN107506401A (zh) * | 2017-08-02 | 2017-12-22 | 大连理工大学 | 一种基于图方法的图像检索重排方法 |
CN108280233A (zh) * | 2018-02-26 | 2018-07-13 | 南京邮电大学 | 一种基于深度学习的视频gis数据检索方法 |
CN108509917A (zh) * | 2018-03-30 | 2018-09-07 | 北京影谱科技股份有限公司 | 基于镜头类相关性分析的视频场景分割方法和装置 |
Non-Patent Citations (3)
Title |
---|
徐思雨等: "自适应多位编码量化的哈希图像检索方法", 《西安交通大学学报》 * |
胡雪晴: "基于感知哈希的视频去重", 《软件工程与应用》 * |
袁勇: "基于哈希编码的大规模图像检索方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110830836A (zh) * | 2019-11-18 | 2020-02-21 | 电子科技大学 | 一种视频广告播出监测方法 |
CN110830836B (zh) * | 2019-11-18 | 2020-10-27 | 电子科技大学 | 一种视频广告播出监测方法 |
CN111444390A (zh) * | 2020-04-02 | 2020-07-24 | 徐州工程学院 | 一种基于Spark和深度哈希的视频并行检索方法 |
CN111898581A (zh) * | 2020-08-12 | 2020-11-06 | 成都佳华物链云科技有限公司 | 动物检测方法、装置、电子设备及可读存储介质 |
CN111898581B (zh) * | 2020-08-12 | 2024-05-17 | 成都佳华物链云科技有限公司 | 动物检测方法、装置、电子设备及可读存储介质 |
CN112395457A (zh) * | 2020-12-11 | 2021-02-23 | 中国搜索信息科技股份有限公司 | 一种应用于视频版权保护的视频待检索定位方法 |
CN112929729A (zh) * | 2021-01-21 | 2021-06-08 | 北京奇艺世纪科技有限公司 | 弹幕数据调整方法、装置、设备及存储介质 |
CN112929729B (zh) * | 2021-01-21 | 2023-06-30 | 北京奇艺世纪科技有限公司 | 弹幕数据调整方法、装置、设备及存储介质 |
CN113743304A (zh) * | 2021-09-06 | 2021-12-03 | 北京神星科技有限公司 | 一种用于视频监控的运动目标检测和识别方法 |
TWI830604B (zh) * | 2023-02-21 | 2024-01-21 | 中華電信股份有限公司 | 視頻主題分析系統、方法及其電腦可讀媒介 |
Also Published As
Publication number | Publication date |
---|---|
CN109783691B (zh) | 2022-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109783691A (zh) | 一种深度学习和哈希编码的视频检索方法 | |
Zhu et al. | Deformable detr: Deformable transformers for end-to-end object detection | |
Strezoski et al. | Omniart: a large-scale artistic benchmark | |
CN105912611B (zh) | 一种基于cnn的快速图像检索方法 | |
CN113313022B (zh) | 文字识别模型的训练方法和识别图像中文字的方法 | |
CN110222218B (zh) | 基于多尺度NetVLAD和深度哈希的图像检索方法 | |
CN114694185B (zh) | 一种跨模态目标重识别方法、装置、设备及介质 | |
CN114461839B (zh) | 基于多模态预训练的相似图片检索方法、装置及电子设备 | |
Wang et al. | Lightweight convolutional neural network for bitemporal SAR image change detection | |
CN112035689A (zh) | 一种基于视觉转语义网络的零样本图像哈希检索方法 | |
CN114998777A (zh) | 一种针对跨模态视频检索模型的训练方法及装置 | |
CN116452798A (zh) | 基于掩码可分离注意力机制的伪装目标分割方法及系统 | |
Kavitha et al. | Convolutional Neural Networks Based Video Reconstruction and Computation in Digital Twins. | |
Lei et al. | SNLRUX++ for building extraction from high-resolution remote sensing images | |
Jin et al. | Memory-based semantic segmentation for off-road unstructured natural environments | |
Chen et al. | Video summarization with u-shaped transformer | |
CN110188625B (zh) | 一种基于多特征融合的视频精细结构化方法 | |
CN114168773A (zh) | 一种基于伪标签和重排序的半监督草图图像检索方法 | |
Nebili et al. | Augmented convolutional neural network models with relative multi-head attention for target recognition in infrared images | |
CN109918529A (zh) | 一种基于树形聚类矢量量化的图像检索方法 | |
Zhai | Auto-encoder generative adversarial networks | |
Shao et al. | Multi-spectral cloud detection based on a multi-dimensional and multi-grained dense cascade forest | |
Song et al. | 3D self-attention for unsupervised video quantization | |
CN112597329B (zh) | 一种基于改进的语义分割网络的实时图像检索方法 | |
Ma et al. | Capsule-based regression tracking via background inpainting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100142 80001-2, floor 7, building 1, No.158, Xisihuan North Road, Haidian District, Beijing Applicant after: Beijing Yuanjian Information Technology Co., Ltd Address before: 616150 No. 3, 1-1 Renmin West Road, Xincheng Town, Zhaojue County, Liangshan Yi Autonomous Prefecture, Sichuan Province Applicant before: Sichuan Yuan Jian Technology Co., Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |