CN111104555A

CN111104555A - 基于注意力机制的视频哈希检索方法

Info

Publication number: CN111104555A
Application number: CN201911346339.6A
Authority: CN
Inventors: 聂秀山; 尹义龙; 王迎新
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2020-05-05
Anticipated expiration: 2039-12-24
Also published as: CN111104555B

Abstract

本发明提供了一种注意力机制的视频哈希检索方法，包括以下步骤：（1）视频预处理：对视频帧进行采样，并构建视频对；（2）视频帧特征提取：利用卷积神经网络对每一帧进行特征提取；（3）视频特征学习：利用孪生网络、长短期记忆神经网络（LSTM）和注意力机制对视频进行学习；（4）降维和训练：利用全连接层对视频特征进行降维，得到想要的长度的哈希码，并使用梯度下降算法学习网络参数。（5）检索：利用孪生网络的一路网络得到每个视频的哈希码，计算与其他视频的海明距离并进行排序，得到距离最近的视频。与现有技术相比，本发明实现了同时学习视频的空间信息和时间信息，而且通过采样等技术大大降低了计算代价，也提高了视频检索的准确率。

Description

基于注意力机制的视频哈希检索方法

技术领域

本发明涉及一种视频哈希检索方法，属于视频、多媒体信号处理技术领域。

背景技术

随着网络和移动社交媒体的发展，海量的多媒体信息不断地产生，尤其是图片和视频。著名的图片分享网站Flickr，每分钟有3000张图片被上传上传；视频分享网站YouTube，每分钟上传的视频时长高达100小时。因此，如何对海量的多媒体信息进行检索是一个热点话题。从前我们主要通过关键字对图片和视频进行检索，但这往往会检索出我们不想要的结果。基于这个原因，基于内容的检索被提了出来。哈希方法由于其优点，即检索迅速和节省空间，在近年来成为一个热门的研究方向。哈希方法通过将图片或者视频映射成紧凑且离散的二值码（通常是0和1或者-1和1），即哈希码，在海明空间中通过异或运算来计算样本之间的海明距离，通过海明距离来决定检索的结果。由于哈希码是紧凑的，所以存储空间得以大大减小。而海明距离的计算极为迅速，所以检索的速度也得到了保证。

传统的哈希方法主要是针对图片，是基于内容的检索方法。通过对图片进行特征提取，得到每张图片的特征。然后对特征进行哈希映射。最后将连续的值映射成离散的哈希码。哈希方法分为有数据独立的方法和数据依赖的方法。数据独立的方法是指哈希方法不需要数据进行训练，而数据依赖的方法需要数据对哈希方法进行训练。

而视频与图片有很大的不同。在图片哈希中，我们只考虑空间信息。所以只提取图片的空间信息就足以表示图片的特征。而视频每一帧是一张图片，并且同时有很多帧，这些帧就是一个时间序列。每一帧和图像一样，包含空间信息，而帧所组成的时间序列则具有时序信息。由于视频同时具有每一帧的空间特征及帧之间的时序信息，所以在对视频进行处理时，既要考虑空间信息，又要考虑时序信息。空间信息一般使用卷积神经网络来进行提取，时序信息可利用光流图、相邻帧特征融合或者循环神经网络来进行提取。

发明内容

在一个视频中，每一帧的重要性往往是不同的，已有的视频哈希方法往往将所有视频帧同等考虑，而不去考虑不同视频帧对于视频在重要性上的差异。本发明针对现有视频哈希方法的不足，提出了一种基于注意力机制的视频哈希检索方法，通过利用注意力机制，可以区别不同帧的重要性，不同帧被赋予不同的权重，由此得到的视频特征表示更加准确。相邻视频帧往往有着极大地相似性，所以没有必要在对视频进行处理时，使用所有的视频帧，可以采用采样的方法，从视频中对视频帧进行采样，来降低视频帧的数量，从而减小计算复杂度。同时，本发明利用卷积神经网络和循环神经网络，同时获取空间特征和时序特征，大大提高了视频特征的表示能力。除了利用注意力机制来获得良好的视频表示，本发明还通过设计新的损失函数，提高哈希码的质量，进而提高视频检索的准确性。

与现有视频哈希中损失函数相比，该发明包含一个最大间隔损失、位平衡损失和位不相关损失，因此大大提高了哈希码的表示能力。通过设置最大间隔损失，使得不同类视频之间的距离大，相同类之间的距离小；同时，通过设置一个阈值，可以再一定程度上降低过拟合的风险。通过设置位平衡损失，使得生成的哈希码中的-1和+1（或者是0和1）数量尽可能的相近，这可以提高哈希码的表示能力。通过设置位不相关损失，哈希码的每一维度都是高度不相关的，降低了哈希码中的冗余，使得哈希码中的每一位都是有用的，这对哈希码的表示能力提高很大，并且哈希码越短，位不相关损失越重要，应该越小越好。与现有技术相比，本发明的计算复杂性较低，且检索准确率高。

本发明采用的技术方案为：

一种基于注意力机制的视频哈希检索方法，其特征在于该方法包括以下步骤：

（1）视频预处理：对视频帧进行采样，并构建视频对，视频对包括同一类的视频对即正样本对和不同类的视频对即负样本对，同一类的视频对的标签为1，不同类的视频对标签为0；

（2）视频帧特征提取：将视频采样后的每一帧输入卷积神经网络提取特征；

（3）利用孪生网络、长短期记忆神经网络LSTM和注意力机制对视频进行学习：将视频对中的两个视频分别输入孪生网络的两路神经网络，分别得到两个视频对应的视频特征表示，其中，孪生网络的两路神经网络是参数共享的，且每一路神经网络都是LSTM和注意力机制构成的网络，利用注意力机制，可以区别不同帧的重要性，不同帧被赋予不同的权重；

（4）降维和训练：利用全连接层对视频特征进行降维，得到想要长度的哈希码，并使用梯度下降算法学习网络参数；

（5）检索：当网络训练完成后进行检索时，只利用孪生网络中的一路网络，将一个视频输入到一路网络中，输出该视频对应的值为-1到+1的近似哈希码，然后通过量化得到该视频的哈希码，并通过计算该视频的哈希码与其他视频哈希码之间的海明距离对候选视频进行排序，得到最相近的视频。

优选地，所述步骤（1）的具体实现步骤是：

①对视频帧进行均匀采样，每个视频都均匀地抽取特定数量的视频帧；

②将每一帧都调整为相同大小的帧；

③构建视频对，包括同类的样本对和不同类的样本对，同类视频对和不同类视频对的比例是1:1，构造视频对时，随机选择一个视频，然后从余下的视频中随机选取一个同类的视频，随机选取一个不同类的视频，这样可以构造一个正样本视频对和一个负样本视频对。

优选地，所述步骤（2）的具体实现步骤是：

①对每一帧利用卷积神经网络VGG19进行特征提取，取倒数第二层全连接输出的特征作为每一帧的特征；

②每一个视频用一个矩阵表示。

优选地，所述步骤（3）的具体实现步骤是：

①构建孪生网络；

②将每个视频输入到长短期记忆神经网络LSTM中，得到每一个时间步的输出；

③利用注意力机制计算每一个时间步输出的向量的权重，并对每一个时间步得到的输出进行加权求和，得到视频的整体特征表示，具体实现方法为：LSTM每个时间步都会接收一个视频帧作为输入，并产生一个输出，将每个时间步产生的输出作为注意力机制的输入，通过计算得到每个时间步的权重，再对每个时间步的输出进行加权计算，得到最后的视频表示，计算过程如下：

其中，

为所有LSTM时间步输出的向量拼接成的向量，

为权重矩阵，tanh为双曲正切激活函数，

为r经过softmax函数得到的权重，

为所有LSTM时间步输出的向量组成的矩阵，s为LSTM所有时间步输出对

的加权和，也就是经过注意力机制后的视频表示。

优选地，所述步骤（4）的具体实现步骤是：

①设置三个全连接层，逐步对视频特征进行降维；

②利用梯度下降算法对网络的参数进行优化。

优选地，所述步骤（5）的具体实现步骤是：

①将一个视频输入到孪生网络的一路网络中，然后得到该视频对应的值为-1到+1的近似哈希码；

②然后通过量化将小于0的值量化为-1，其他值量化为+1，这样就得到该视频的哈希码；

③通过计算和其他视频哈希码之间的距离来对候选视频进行排序，得到最相近的视频。

上述方法首先对视频进行预处理，然后利用CNN提取视频中采样的帧的空间特征，再利用LSTM和注意力机制来获取视频的时序特征，最后通过全连接层来得到视频的哈希码。

本发明可以同时学取视频的空间信息和时序信息，并针对不同帧的重要性赋予不同帧不同的权重，大大提高了视频特征的表示能力。同时，采用抽样的方法降低了视频帧的数量，降低了计算代价。

附图说明

图1是本发明的步骤框架示意图。

图2是注意力机制示意图。

图3是在HMDB51数据集上的PR图：(a)哈希码长度为32的PR图，（b）哈希码长度为48的PR图，（c）哈希码长度为64的PR图。

表1是在HMDB51数据集上平均准确率（mean Average Precison,mAP）结果和准确率（precision）结果。

具体实施方式

下面结合附图对本发明加以详细的说明。

本发明的方法按图1所示流程，包括如下具体步骤：

（1）视频预处理

④对视频帧进行均匀采样，每个视频都均匀地抽取特定数量的视频帧；

⑤将每一帧都调整为相同大小的帧，例如将每一帧都调整为224*224大小；

⑥构建视频对，包括同类的样本对和不同类的样本对，同类视频对和不同类视频对的比例是1:1。构造视频对时，随机选择一个视频，然后从余下的视频中随机选取一个同类的视频，随机选取一个不同类的视频，这样可以构造一个正样本视频对和一个负样本视频对。

（2）视频帧特征提取

如图1，利用CNN网络（VGG19）对视频帧进行特征提取，取倒数第二层全连接输出的4096维特征作为每一帧的CNN特征。

（3）视频特征学习

如图1和图2，利用LSTM网络和注意力机制学习视频帧之间的时序信息，得到视频的特征表示。LSTM每个时间步都会产生一个输出。在本发明中，每个时间步代表一个视频帧，每个视频帧对应于LSTM每个时间步的输出。将每个时间步的输出拼接成一个向量，经过计算后可以得到每个时间步的权重，然后计算每个时间步输出的加权和。具体计算过程如下所示：

其中，

为所有LSTM时间步输出的向量拼接成的向量，

为权重矩阵，tanh为双曲正切激活函数，

为r经过softmax函数得到的权重，

的加权和，也就是经过注意力机制后的视频表示，如图2所示。

（4）降维和训练

对上一步得到的输出进行降维，如图1所示。对前面得到的1024维特征进行降维，经过三层全连接层，前两层维度分别为512和256，最后一层全连接层的维度为哈希码的长度。经过三层全连接层降维后，得到哈希码的维度。然后将两个视频得到的哈希码输入到损失函数中，计算损失，并用梯度下降算法优化网络参数。损失函数如下所示：

为间隔分类损失，

为位平衡损失，

为位不相关损失。其中，

为间隔，控制

的大小；

为训练样本经过神经网络得到的输出组成的矩阵；

为训练样本总数；β和γ为超参数，

控制

的大小，具体如下：

为第

对视频对之间的损失，具体如下：

，

和

为第i个视频和第j个视频经过网络得到的输出（第i个视频和第j个视频构成一个视频对），

为哈希码的长度，

为视频对的标签，若两个视频属于同一类，则

；否则，

。

之后计算损失，并利用梯度下降算法对网络参数进行学习。

（5）检索

此时网络已经训练完成。在进行检索时，只利用孪生网络中的一路网络，将一个视频输入到一路网络中，输出该视频对应的值为-1到+1的近似哈希码。然后通过量化将小于0的值量化为-1，其他值量化为+1，这样就得到该视频的哈希码。通过计算和其他视频哈希码之间的海明距离来对候选视频进行排序，得到最相近的视频。

表1

Claims

1.一种基于注意力机制的视频哈希检索方法，其特征在于该方法包括以下步骤：

(1)视频预处理：对视频帧进行采样，并构建视频对，视频对包括同一类的视频对即正样本对和不同类的视频对即负样本对，同一类的视频对的标签为1，不同类的视频对标签为0；

(2)视频帧特征提取：将视频采样后的每一帧输入卷积神经网络VGG19，取倒数第二层全连接输出的特征作为每一帧的特征；

(3)利用孪生网络、长短期记忆神经网络LSTM和注意力机制对视频进行学习：将视频对中的两个视频分别输入孪生网络的两路神经网络，分别得到两个视频对应的视频特征表示，其中，孪生网络的两路神经网络是参数共享的，且每一路神经网络都是LSTM和注意力机制构成的网络，利用注意力机制，可以区别不同帧的重要性，不同帧被赋予不同的权重；

(4)降维和训练：利用全连接层对视频特征进行降维，得到想要长度的哈希码，并使用梯度下降算法学习网络参数；

(5)检索：当网络训练完成后进行检索时，只利用孪生网络中的一路网络，将一个视频输入到一路网络中，输出该视频对应的值为-1到+1的近似哈希码，然后通过量化得到该视频的哈希码，并通过计算该视频的哈希码与其他视频哈希码之间的海明距离对候选视频进行排序，得到最相近的视频。

2.如权利要求1所述的一种基于注意力机制的视频哈希检索方法，其特征在于：所述步骤(1)的具体实现步骤是：

②将每一帧都调整为相同大小的帧；

3.如权利要求1所述的一种基于注意力机制的视频哈希检索方法，其特征在于：所述步骤(2)的具体实现步骤是：

①对每一帧利用卷积神经网络进行特征提取，得到每一帧的特征；

②每一个视频用一个矩阵表示。

4.如权利要求1所述的一种基于注意力机制的视频哈希检索方法，其特征在于：所述步骤(3)的具体实现步骤是：

①构建孪生网络；

h＝[h₁；h₂；...；h_t]，

r＝tanh(W^Th+u)，

α＝softmax(r)，

H＝[h₁，h₂，...，h_t]，

s＝Hα，

其中，h为所有LSTM时间步输出的向量拼接成的向量，W为权重矩阵，tanh为双曲正切激活函数，α为r经过softmax函数得到的权重，H为所有LSTM时间步输出的向量组成的矩阵，s为LSTM所有时间步输出对α的加权和，也就是经过注意力机制后的视频表示。

5.如权利要求1所述的一种基于注意力机制的视频哈希检索方法，其特征在于：所述步骤(4)的具体实现步骤是：

①设置三个全连接层，逐步对视频特征进行降维；

②利用梯度下降算法对网络的参数进行优化。

6.如权利要求1所述的一种基于注意力机制的视频哈希检索方法，其特征在于：所述步骤(5)的具体实现步骤是：