CN109783691B

CN109783691B - 一种深度学习和哈希编码的视频检索方法

Info

Publication number: CN109783691B
Application number: CN201811632349.1A
Authority: CN
Inventors: 孔彦; 伭剑辉; 赵玉军; 王黎明
Original assignee: Beijing Yuanjian Information Technology Co Ltd
Current assignee: Beijing Yuanjian Information Technology Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2022-06-21
Anticipated expiration: 2038-12-29
Also published as: CN109783691A

Abstract

本发明公开了一种深度学习和哈希编码的视频检索方法，其特征在于，使用同一种特征进行镜头分割和特征提取；在视频检索中，镜头分割把相同镜头的视频帧作为冗余帧处理以降低计算量并提升检索效率，将镜头特征提取算法得到的特征作为镜头切分的依据以解决同一镜头内不同帧的特征存在差异的问题。本发明所述方法的优越效果是能够实现镜头级别的视频检索并能提高检索的准确率；在视频检索能力方面的视频镜头检索准确率达95％以上,采用了纯二值操作，速度能够提升4倍。

Description

一种深度学习和哈希编码的视频检索方法

技术领域

本发明属于计算机视觉技术领域，尤其涉及一种深度学习和哈希编码的视频检索方法。

背景技术

目前，视频检索包括两种类型，分别是基于文本的视频检索(Text Based VideoRetrieval,RBVR)，和基于内容的视频检索(Content Based Video Retrieval,CBVR)。基于文本的视频检索要求用户输入关键词，然后系统返回和输入关键词相关的图像，并按和关键词的相关程度来排序。这种检索方式在目前的互联网应用中较为广泛，但在很多情况下，用户无法用语言精确地描述想要检索的视频内容。

公开号为CN109033121A的专利申请公开了一种基于云存储的视频检索方法，包括以下步骤：将需检索的视频段信息进行截取获得若干个图片样本；图片样本转换为图像模型数据；对转换的图像模型数据进行特征向量的建立；将建立的特征向量与云存储中存储的若干视频段信息对应的原图像模型数据的特征向量进行重合度检测，得到重合度；筛选出重合度大于重合度阀值的视频段；筛选的视频段信息按照重合度系数的大小，依次输出对应的视频段。本发明通过对需检索的视频段进行截取、转换和匹配索引，可筛选出重合度大于重合度阀值的视频段信息。

公开号为CN108986186A的专利申请公开了文字转化视频的方法和系统，输入用自然语言表达的场景表述的文本信息；对视频数据集进行过滤筛选；对过滤后的候选视频片段和输入的场景描述匹配，输出匹配度高的视频片段；利用编码器和解码器，将匹配度高的视频片段进行文本描述；将筛选出的视频片段的文本描述与自然语言表达的场景的文本表述进行相似度的选择和比对，输出内容上符合自然语言表达的场景的输入文本的关键帧集合；在关键帧集合中进行识别和提取对象，生成对象集；依照场景图和对象集最终生成关键帧，生成视频。利用基于自然语言处理的视频检索方法。

因此，基于内容的视频检索，是一种根据视频内容来检索相似视频的方法。区别于基于文本的视频检索，在这种检索方式下，用户输入不是文字，而是一段视频或一副图像。基于内容的视频检索和基于内容的图像检索问题密切相关，两者都要解决图像间特征的提取、相似性的计算、大规模数据场景下快速索引的问题。两个问题的不同之处在于视频内容的冗余程度更大，需要对视频进行镜头级别的分析以降低检索时的计算量。常规的视频检索算法在分割镜头和提取图像帧特征时采用不同的特征提取算法，可能导致同一个镜头不同帧的画面特征存在较大差异。

发明内容

本发明的目的在于提供一种能够克服上述技术问题的深度学习和哈希编码的视频特征提取方法，本发明所述方法的特征在于是基于视频图像的特征提取方法。

本发明所述方法包括以下步骤：

步骤1、将视频文件解码成视频帧。

步骤2、基于深度学习提取视频帧特征，将卷积神经网络CNN的卷积层输出特征作为图像检索的图像特征向量来使用。

步骤2.1、卷积层的输出特征表示为

其中C表示特征图的通道数，H表示特征图的高度，W表示特征图的宽度；将单个关键帧的特征f从单一向量转换成局部特征描述子的集合

以降低物体位移、镜头角度变化、物体尺度的干扰的影响；f′中的每一个元素为原特征图上坐标为i,j的特征向量，特征向量的数量为H*W个。

步骤3、通过特征哈希方法将浮点特征映射为二值特征，包括以下步骤：

步骤3.1、使用近似最近邻哈希方法将f′中单个局部特征描述子映射到哈希空间；

对于一个f′中的特征向量之一x，定义包含n个子哈希函数的哈希函数H(x)，其定义为:

H(x)＝{q(h₁(x))，q(h₂(x))，...，q(h_n(x))}；

上式中h_i(x)为子哈希函数，q(x)为量化函数，上述步骤3.1是先通过子哈希函数h_i(x)将f′中的特征向量映射到哈希空间。

步骤4、采用多比特哈希编码方法，将哈希空间中的浮点向量量化为二值向量,转换为二值特征描述子能够降低特征存储的空间开销并提升特征比对速度。

步骤4.1、定义哈希函数q′(x，θ_n),θ_n表示从输入标量x统计的n个聚类中心，将x划分到n+1个空间中，经过q’量化的x共有n+1种表示；当n为1且θ_n为0时，q’等价于q；新的编码占用n个比特位，对于n+1个空间中的位置i，所述n个比特位中前n-i个值为0，后i个值为1；例如，对于n为4的情况，共有0、1、2、3、4状态，分别量化为0000，0001，0011，0111，1111；量化能够实现在异或运算规则下，不同状态异或后1的个数等价于十进制差的绝对值，4–1＝Popcnt(1111^0001)＝Popcnt(1110)＝3；所述Popcnt为汇编指令，即返回数字中比特值1的个数。

步骤5、计算每个相邻帧哈希特征的相似性，相似性高的合并为同一镜头；

步骤5.1、一个镜头选中间帧作为代表帧，不同帧的两个哈希特征集合A和B之间计算相似度的方式为Jaccard距离，定义一个阈值s，集合H1和H2中当两个二值特征异或后1的数量大于s认为不相似即表示不在交集中，小于等于s认为相似即表示在交集中，Jaccard距离定义为

步骤6、将分割好镜头的视频哈希特征作为视频的特征描述。

本发明所述方法能够提升视频检索中的检索准确性和检索效率，使用同一种特征进行镜头分割和特征提取；在视频检索中，镜头分割把相同镜头的视频帧作为冗余帧处理以降低计算量并提升检索效率，将镜头特征提取算法得到的特征作为镜头切分的依据以解决同一镜头内不同帧的特征存在差异的问题。

本发明所述方法的优越效果是能够实现镜头级别的视频检索并能提高检索的准确率；本发明所述方法在视频检索能力方面的视频镜头检索准确率达95％以上，特征建模时间和视频时长成正比，时间约为视频总时长的1/10。在编码有效性方面：在256个子哈希函数组成的哈希函数下，在私有图像测试集上，相比较于1bit传统编码方法，采用4bit的编码，平均准确率(mAP)从32％提升至80％。同样4bit情况下，新的编码方法相较于直接十进制做差；0,1,2,3,4分别为二进制0000，0001，0010，0011，0100，两两之间通过十进制计算规则相减取绝对值，发明所述方法采用了纯二值操作，因此，速度能够提升4倍。

附图说明

图1是本发明所述方法的流程示意图；

图2是本发明所述方法的特征提取示意图。

具体实施方式

下面结合附图对本发明的实施方式进行详细描述。如图1所示，总流程分为特征入库和视频检索两部分。特征入库是离线过程，目的是从视频库的视频中提取视频的代表特征，存入视频特征库；视频检索是在线过程，从单个输入视频提取视频特征，并在视频特征库中遍历匹配，输出匹配即检索结果。

视频检索和视频入库中的特征提取流程相同，如图2所示，具体步骤如下:

步骤1、从视频库中取视频文件，输入到特征提取程序中；

步骤2、用视频解码库(如FFMPEG)将视频解码成视频帧，当要降低运算量时，允许跳帧；

步骤3、用ImageNet开源数据库预训练的卷积神经网络提取深度学习特征；特征提取位置为卷积神经网络中的卷积层输出，用SqueezeNet中fire9/concat层的输出；特征提取后，按照本发明内容中的步骤2，取局部特征描述子的集合f′，对于SqueezeNet神经网络，其fire9/concat层的输入图像大小为227x227，输出大小为1*512*13*13，则集合f′中包含13*13，共169个长度为512的向量；

步骤4、按照本发明内容中的步骤3、步骤4的特征哈希和量化方法，选择合适的哈希函数h(比如LSH)，先将f′中的每一个向量投影到哈希空间，变成哈希浮点向量，再将特征量化为多比特二值特征；

步骤5、计算每个相邻帧哈希特征的相似性，相似性高的合并为同一镜头。一个镜头选中间帧作为代表帧，不同帧的两个哈希特征集合A和B之间计算相似度的方式为Jaccard距离，定义一个阈值s，集合H1和H2中当两个二值特征异或后1的数量大于s认为不相似即表示不在交集中，小于等于s认为相似即表示在交集中，Jaccard距离定义为

步骤6、将分割好镜头的视频哈希特征作为视频的特征描述。

在视频比对的过程中，比对按照特征提取流程帧间相似性的计算方法计算镜头间的相似度。对于允许视频镜头乱序的场景，视频级的相似度按照集合的方式，按Jaccard距离计算；对于严格要求镜头顺序的场景，按字符串中关键词扫描的方法进行按序匹配。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明公开的范围内，能够轻易想到的变化或替换，都应涵盖在本发明权利要求的保护范围内。

Claims

1.一种深度学习和哈希编码的视频检索方法，其特征在于，包括以下步骤：

步骤1、将视频文件解码成视频帧；

步骤2、基于深度学习提取视频帧特征，将卷积神经网络CNN的卷积层输出特征作为图像检索的图像特征向量来使用；

步骤3、通过特征哈希方法将浮点特征映射为二值特征；

步骤4、采用多比特哈希编码方法，将哈希空间中的浮点向量量化为二值向量,转换为二值特征描述子能够降低特征存储的空间开销并提升特征比对速度：

步骤4.1、定义哈希函数q′(x，θ_n),θ_n表示从输入标量x统计的n个聚类中心，将x划分到n+1个空间中，经过q’量化的x共有n+1种表示；当n为1且θ_n为0时，q’等价于q；新的编码占用n个比特位，对于n+1个空间中的位置m，所述n个比特位中前n-m个值为0，后m个值为1；对于n为4的情况，共有0、1、2、3、4状态，分别量化为0000，0001，0011，0111，1111；量化能够实现在异或运算规则下，不同状态异或后1的个数等价于十进制差的绝对值，4–1＝Popcnt(1111^0001)＝Popcnt(1110)＝3；所述Popcnt为汇编指令，即返回数字中比特值1的个数；

步骤5、计算每个相邻帧哈希特征的相似性，相似性高的合并为同一镜头：

步骤5.1、一个镜头选中间帧作为代表帧，不同帧的两个哈希特征集合A和B之间计算相似度的方式为Jaccard距离，定义一个阈值s，集合A和B中当两个二值特征异或后1的数量大于s认为不相似即表示不在交集中，小于等于s认为相似即表示在交集中，Jaccard距离定义为

步骤6、将分割好镜头的视频哈希特征作为视频的特征描述。

2.根据权利要求1所述的一种深度学习和哈希编码的视频检索方法，其特征在于，所述步骤2包括以下步骤：

步骤2.1、卷积层的输出特征表示为

3.根据权利要求2所述的一种深度学习和哈希编码的视频检索方法，其特征在于，所述步骤3包括以下步骤：

对于一个f′中的特征向量之一x，定义包含n个子哈希函数的哈希函数H(x)，其定义为：

H(x)＝{q(h₁(x))，q(h₂(x))，...，q(h_n(x))}；

上式中h_i(x)为子哈希函数，{q(h₁(x))，q(h₂(x))，...，q(h_n(x))}为量化函数，上述步骤3.1是先通过子哈希函数h_i(x)将f′中的特征向量映射到哈希空间。