CN115017366A

CN115017366A - 基于多粒度语境化和多结构保存的无监督视频哈希检索方法

Info

Publication number: CN115017366A
Application number: CN202210810931.2A
Authority: CN
Inventors: 郝艳宾; 段敬儒; 何向南; 周鹏远; 王硕
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-07-11
Filing date: 2022-07-11
Publication date: 2022-09-06
Anticipated expiration: 2042-07-11
Also published as: CN115017366B

Abstract

本发明公开了一种多粒度语境化和多结构保存的无监督视频哈希方法，其步骤包括：1、视频数据集的准备及处理；2、构建哈希检索网络；3、网络的训练及测试。本发明能从原始视频数据捕获更多有用信息，去除冗余信息，并将视频数据之间的内在语义结构信息保存到哈希码中，从而能实现低复杂度开销和高检索精度的视频检索。

Description

基于多粒度语境化和多结构保存的无监督视频哈希检索方法

技术领域

本发明涉及深度学习领域，更具体地，涉及一种无监督哈希方法，用于视频数据之间的语义相似性检索。

背景技术

在当下多媒体时代，视频数据越来越丰富，大规模视频检索技术日益重要。哈希是一种产生低维度、紧凑二进制码来传达数据信息的技术，哈希具有低存储、高匹配速度等优点，被广泛用于实时检索、数据检索等。由于视频内容更加丰富和复杂，视频数据量巨大并且快速增长使得人工标成为一种巨大开销，因此无监督的视频哈希技术变得更具挑战性并越来越受到研究关注。无监督哈希技术是需要将高维数据映射到低维的哈希码，这必定会带来信息损失，如何去更好地捕捉高维数据中内在的有用信息，将它保存到低维的哈希码中，是现在技术的共识。

针对现有的无监督哈希技术，存在的问题可以总结如下：

1)基于LSTM的视频哈希技术来对时间关系进行编码的方法，由于循环神经网络必须一帧一帧的处理帧序列，缺乏对整个视频内容的全局感知，或多或少的关注其不重要的内容影响其模型性能。基于Transformer的视频哈希技术克服了基于LSTM的这种循环神经网络的不足，但是由于Transformer网络的框架过于庞大，会极大增加模型的复杂度以及计算的复杂度，不利于节能和进行可持续发展。此外，循环神经网络和Transformer都关注特定的相关性或依赖性，可能在处理复杂视频内容方面能力不足。

2)基于近似视频的相关结构并保存到哈希空间的方法，和基于邻域相似结构的哈希方法，在一定程度上可以探索数据的相关结构信息，然而基于一种或两种类型的结构来完全表达相关结构并非是一件容易的事情。因此，完整的探索结构信息仍然是无监督视频哈希技术的一个难点。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于多粒度语境化和多结构保存的无监督视频哈希检索方法，以期能从原始视频数据捕获更多有用信息，去除冗余信息，并将视频数据之间的内在语义结构信息保存到哈希码中，从而能实现低复杂度开销和高检索精度的视频检索。

本发明为达到上述发明目的，采用如下技术方案：

本发明一个基于多粒度语境化和多结构保存的无监督视频哈希检索方法的特点在于，包括：

步骤1、获取N个不同类别的运动视频，对每个运动视频均抽取F帧，从而得到抽取后的N×F帧运动图像，将N×F帧运动图像通过预训练的网络框架VGG-16进行处理，并得到每一帧对应的C维特征向量，从而得到维度为N×F×C的输入特征

其中

表示第i个运动视频的输入特征，且其维度为F×C；

表示第i个运动视频的第f帧运动图像的输入特征，且其维度为C；

步骤2、构建哈希检索网络，包括：两个全连接层FC、两个MLP模块、三个LMS模块；其中，每个LMS模块均包括：L-RD模块，M-RD模块和S-RD模块；

步骤2.1、所述输入特征V通过第一个全连接层FC(C,D)将维度C降到维度D后，再通过ReLU(·)激活函数，得到维度为N×F×D的特征X₁；

步骤2.2、对特征X₁先做转置变换后输入第一MLP模块中进行处理，得到维度为N×D×F的特征X₂，再同时通过第一个LMS模块中的L-RD模块，M-RD模块和S-RD模块的处理，并将三个模块的输出结果相加后再做转置变换得到维度为N×F×D的特征X₃，再将特征X₁和特征X₃相加后得到特征X₄；

对特征X₄先通过第二MLP模块的处理后输出的结果，再同时通过第二个LMS模块中的L-RD模块，M-RD模块和S-RD模块的处理，并将三个模块的输出结果相加后得到特征X₅；再将特征X₄和特征X₅相加后得到特征X₆；

所述特征X₆同时通过第三个LMS模块中的L-RD模块，M-RD模块和S-RD模块的处理，并将三个模块的输出结果相加后得到维度N×F×D的隐层特征

其中，

表示第i个运动视频的隐层特征，且其维度为F×D；

表示第i个运动视频的第f帧运动图像的隐层特征，且其维度为D；

步骤2.3、所述隐层特征E通过第二个全连接层FC(D,K)将维度D降到维度K，从而得到维度为N×F×K的真值特征

其中，

表示第i个运动视频的真值特征，且其维度为F×K；

表示第i个运动视频的第f帧运动图像的真值特征，且其维度为K；

步骤2.4、通过式(1)得到第i个运动视频的真值特征H_i所对应的维度为K的松弛哈希码

式(1)中，Tanh(·)为激活函数；

步骤2.5、通过式(2)得到松弛哈希码

所对应的维度为K的哈希码b_i：

式(3)中，Sgn(·)为符号函数；

步骤3、对输入特征V通过平均池化后得到维度为N×C的视频平均特征，再通过K-means算法对视频平均特征进行聚类，得到维度为M×C的聚类中心

u_j表示第j个聚类中心；

步骤4、对第i个隐层特征E_i通过平均池化后得到维度为D的特征

通过PCA算法将特征

的维度C降到维度D，并通过式(2)计算聚类损失L_cluster：

式(2)中，

为距离

最近的聚类中心；

步骤5、对第i个输入特征V_i通过平均池化后得到维度为C的特征

并通过式(3)得到维度为N×M的矩阵P：

式(3)中，P_i,j表示P中的第i行第j列的值，σ为带宽参数，

为距离

最近的m个聚类中心，

为距离

最近的第j个聚类中心，

为距离

最近的第c个聚类中心；

步骤10、通过式(4)和式(5)分别得到维度为N×N矩阵A和维度为N×N矩阵A'：

A＝PΛ^-1P^T (4)

式(4)中，Λ表示取矩阵P对角值的对角矩阵，A'_ij表示A'中的第i行第j列的值，A_ij表示A中的第i行第j列的值；

步骤11、设置聚类中心的个数m分别为三个不同的取值，从而得到三个不同的矩阵A'⁽¹⁾，A'⁽²⁾，A'⁽³⁾，并通过式(6)得到维度为N×N矩阵S：

式(6)中，S_ij表示S中的第i行第j列的值；

步骤12、根据松弛哈希码

和哈希码b_i，通过式(7)计算邻域相似损失L_sim：

式(7)中，

为第j个运动视频的松弛哈希码，θ为超参数；

步骤13、根据松弛哈希码

通过式(8)计算四元组损失L_quad：

式(8)中，

为第j个运动视频的松弛哈希码，

为第k个运动视频的松弛哈希码，

为第l个运动视频的松弛哈希码；

的选取同时满足条件S_ij＝1，S_il＝-1，S_ik＝-1，S_lk＝-1，其中，S_ij表示S中的第i行第j列的值，S_il表示S中的第i行第l列的值，S_ik表示S中的第i行第k列的值，S_lk表示S中的第l行第k列的值，α₁，α₂是超参数；

步骤14、通过式(9)得到总体目标函数L_all，并利用梯度下降法对哈希检索网络进行训练，使得总体目标函数L_all的参数不断交替迭代更新，直到总体目标函数L_all收敛或者达到迭代次数为止，从而得到训练好的哈希检索网络；

L_all＝αL_cluster+βL_sim+γL_quad (9)

式(9)中，α，β，γ是超参数；

步骤15、将待查询的运动视频与数据库中的运动视频分别输入训练好的哈希检索网络中进行处理，并得到查询哈希码与数据库哈希码，计算查询哈希码和数据库哈希码之间的汉明距离，再将数据库中的运动视频按照汉明距离进行升序排序，并作为最终的检索结果。

本发明所述的基于多粒度语境化和多结构保存的无监督视频哈希检索方法的特点也在于，任意一个MLP模块是对所输入的三维特征，通过一个全连接层和GELU(·)激活函数，将三维特征的第三维度变为2倍，再输入一个全连接层中，将三维特征的第三维度变为原来的维度。

任意一个L-RD模块是按如下步骤进行处理：

步骤2.2.1、对维度为D₁×D₂的特征，通过一个全连接层FC(D₁,D₁)，得到维度为D₁×D₂的特征X，所述特征X通过一维平均池化函数AvgPool1d(D₁)，将维度变为1×D₂后，再输入一个全连接层FC(D₂,D₂/r)和激活函数ReLU(·)中，得到维度为1×D₂/r的特征Y，所述特征Y再通过一个全连接层FC(D₂/r,D₂)和激活函数Sigmoid(·)，将维度变为1×D₂后，得到的特征再复制扩充为维度为D₁×D₂的特征G，将特征X与特征G做哈达玛积得到维度为D₁×D₂的特征Z，最后所述特征Z再通过一个全连接层FC(D₁,D₁)得到输出。

任意一个M-RD模块是按如下步骤进行处理：

步骤2.2.2、对维度为D₁×D₂的特征，通过一个全连接层FC(D₁,D₁)，得到维度为D₁×D₂的特征X，所述特征X再通过一维平均池化函数AvgPool1d(3)，将维度变为D₁/3×D₂后，再输入一个一维卷积Cov1d(D₂,D₂/r)和激活函数ReLU(·)中，得到维度为D₁/3×D₂/r的特征Y，所述特征Y再通过一个一维卷积Cov1d(D₂/r,D₂)和激活函数Sigmoid(·)，将维度变为D₁/3×D₂后，得到的特征再下采样扩充为维度为D₁×D₂的特征G，将特征X与特征G做哈达玛积得到维度为D₁×D₂的特征Z，最后所述特征Z再通过一个全连接层FC(D₁,D₁)得到输出。

任意一个S-RD模块是按如下步骤进行处理：

步骤2.2.3、对维度为D₁×D₂的特征，通过一个全连接层FC(D₁,D₁)，得到维度为D₁×D₂的特征X，所述特征X通过一个一维卷积Cov1d(D₂,D₂/r)和激活函数ReLU(·)，得到维度为D₁×D₂/r的特征Y，所述特征Y再通过一个一维卷积Cov1d(D₂/r,D₂)和激活函数Sigmoid(·)，得到维度为D₁×D₂的特征G，将特征X与特征G做哈达玛积得到维度为D₁×D₂的特征Z，最后所述特征Z再通过一个全连接层FC(D₁,D₁)得到输出。

与现有技术相比，本发明的有益效果在于：

1、本发明使用无监督技术，在多层感知机的混合器(MLP-Mixer)的基础上设计三种不同粒度的门控模块以及三种互补的结构保存方法，提高了检索精度的同时，降低了计算复杂度，节省了大量的人力、物力资源。

2、本发明设计的哈希检索网络是在多层感知机的混合器(MLP-Mixer)的基础上，融合了三个不同粒度的门控模块L-RD模块，M-RD模块和S-RD模块，使得网络更好地在高维视频数据之间交互，在映射到的低维哈希码中更多地保留原始高维数据的特征信息，可以提升哈希视频检索的检索精度并降低计算复杂度。

3、本发明设计的结构保存方法是采用了聚类损失，邻域相似损失和四元组损失，三个结构保存方法互补，聚类损失减少类内距离，邻域相似损失增加类间距离，四元组损失可以完成较大的类间距和较小的类内距，三个损失函数结合更好地捕捉高维视频数据之间内在的结构联系，将其尽可能完整地保存在汉明空间中，可以更进一步提升哈希视频检索的检索精度。

附图说明

图1为本发明一种视频哈希检索方法的流程图；

图2为本发明一种哈希检索网络的整体模型结构示意图；

图3a为本发明一种哈希检索网络中L-RD模块的模型结构示意图；

图3b为本发明一种哈希检索网络中M-RD模块的模型结构示意图；

图3c为本发明一种哈希检索网络中S-RD模块的模型结构示意图；

图3d为本发明一种哈希检索网络中MLP模块的模型结构示意图。

具体实施方式

本实施例中，一个基于多粒度语境化和多结构保存的无监督视频哈希检索方法，是采用了三个不同大小的数据集来验证方法的有效性，本实施例中仅使用FCVID数据集进行展示，FCVID数据集包含91,223个运动视频数据分为239个类别，其中45,585个视频用于训练，45,600个视频用于测试，对每个视频都均匀采样25帧。如图1所示：整个流程可以具体分为以下几个步骤：

步骤1、获取N个不同类别的运动视频，对每个运动视频均抽取F帧，从而得到抽取后的N×F帧运动图像，这里得到91,223×25帧运动图像，将N×F帧运动图像通过预训练的网络框架VGG-16进行处理，并得到每一帧对应的C维特征向量，每一帧得到4096维特征向量，从而得到维度为N×F×C的输入特征

其中

表示第i个运动视频的输入特征，且其维度为F×C；

步骤2、构建哈希检索网络，如图2所示，包括：两个全连接层FC、两个MLP模块、三个LMS模块；其中，每个LMS模块均包括：L-RD模块，M-RD模块和S-RD模块；各个模块结构如图3a-3d所示，每个模块的结构相同，下面举例说明每个模块处理的具体步骤：

如图3d所示，任意一个MLP模块是对所输入的三维特征，通过一个全连接层和GELU(·)激活函数，将三维特征的第三维度变为2倍，再输入一个全连接层中，将三维特征的第三维度变为原来的维度；

如图3a所示，举例说明L-RD模块是按如下步骤进行处理：

对维度为D₁×D₂的特征，通过一个全连接层FC(D₁,D₁)，得到维度为D₁×D₂的特征X，所述特征X通过一维平均池化函数AvgPool1d(D₁)，将维度变为1×D₂后，再输入一个全连接层FC(D₂,D₂/r)和激活函数ReLU(·)中，得到维度为1×D₂/r的特征Y，所述特征Y再通过一个全连接层FC(D₂/r,D₂)和激活函数Sigmoid(·)，将维度变为1×D₂后，得到的特征再复制扩充为维度为D₁×D₂的特征G，将特征X与特征G做哈达玛积得到维度为D₁×D₂的特征Z，最后所述特征Z再通过一个全连接层FC(D₁,D₁)得到输出；

如图3b所示，举例说明M-RD模块是按如下步骤进行处理：

对维度为D₁×D₂的特征，通过一个全连接层FC(D₁,D₁)，得到维度为D₁×D₂的特征X，所述特征X再通过一维平均池化函数AvgPool1d(3)，将维度变为D₁/3×D₂后，再输入一个一维卷积Cov1d(D₂,D₂/r)和激活函数ReLU(·)中，得到维度为D₁/3×D₂/r的特征Y，所述特征Y再通过一个一维卷积Cov1d(D₂/r,D₂)和激活函数Sigmoid(·)，将维度变为D₁/3×D₂后，得到的特征再下采样扩充为维度为D₁×D₂的特征G，将特征X与特征G做哈达玛积得到维度为D₁×D₂的特征Z，最后所述特征Z再通过一个全连接层FC(D₁,D₁)得到输出；

如图3c所示，举例说明S-RD模块是按如下步骤进行处理：

对维度为D₁×D₂的特征，通过一个全连接层FC(D₁,D₁)，得到维度为D₁×D₂的特征X，所述特征X通过一个一维卷积Cov1d(D₂,D₂/r)和激活函数ReLU(·)，得到维度为D₁×D₂/r的特征Y，所述特征Y再通过一个一维卷积Cov1d(D₂/r,D₂)和激活函数Sigmoid(·)，得到维度为D₁×D₂的特征G，将特征X与特征G做哈达玛积得到维度为D₁×D₂的特征Z，最后所述特征Z再通过一个全连接层FC(D₁,D₁)得到输出；

步骤2.1、输入特征V通过第一个全连接层FC(C,D)将维度C降到维度D后，再通过ReLU(·)激活函数，得到维度为N×F×D的特征X₁，这里为了减少计算量，将4096维度特征降到256维；

特征X₆同时通过第三个LMS模块中的L-RD模块，M-RD模块和S-RD模块的处理，并将三个模块的输出结果相加后得到维度N×F×D的隐层特征

其中，

表示第i个运动视频的隐层特征，且其维度为F×D；

表示第i个运动视频的第f帧运动图像的隐层特征，且其维度为D，各个模块可以使输入特征V很好地融合不同轴向的信息，获得表征能力很好的隐层特征E；

步骤2.3、隐层特征E通过第二个全连接层FC(D,K)将维度D降到维度K，从而得到维度为N×F×K的真值特征

其中，