CN111444390A

CN111444390A - 一种基于Spark和深度哈希的视频并行检索方法

Info

Publication number: CN111444390A
Application number: CN202010254440.5A
Authority: CN
Inventors: 卑璐璐; 赵文婧; 厉丹; 黄凯
Original assignee: Xuzhou University of Technology
Current assignee: Xuzhou University of Technology
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2020-07-24

Abstract

本发明公开了一种基于Spark和深度哈希的视频并行检索方法，先对原始视频数据集进行基于CNN的视频关键帧图像深度特征提取，得到视频摘要图像深度特征集；然后对视频摘要图像深度特征集进行基于分布式哈希的视频关键帧图像特征量化，得到图像分布式编码特征集和编码查找本；最后对待检索图像采用基于Spark的视频并行检索，通过基于Spark的分布式计算结合编码查找本，最终返回检索到的最近似图像所在的视频。本发明能在保证视频检索准确性的前提下，有效提高检索的计算效率，进而提高了视频检索的速度。

Description

一种基于Spark和深度哈希的视频并行检索方法

技术领域

本发明涉及一种视频并行检索方法，具体是一种基于Spark和深度哈希的视频并行检索方法。

背景技术

在大规模视频数据的检索过程中，传统的串行遍历检索模式已经出现瓶颈，也增大了检索系统的负担。分布式平台Hadoop的出现提高了大规模视频检索的速度和效率，但大部分研究主要采用的MapReduce并行模型在磁盘中进行运算，与基于内存的分布式计算引擎Spark模型相比，Spark每个作业中间输出的结果可以存储在内存中，无需读写HDFS(即分布式文件系统)。因此，Spark模型可以更好地适应视频检索过程中的迭代匹配的过程，从而提高检索速度。

在视频图像特征提取方面，基于内容的视频检索最初主要通过对特定场景用主观判断手动提取特征，如：纹理、边缘、形状、颜色特征等单个或多个特征的融合，这种方式很容易导致图像特征提取不完整。卷积神经网络(Convolutional Neural Networks,CNN)的出现提供了一种隐式自动学习的图像特征提取方案；基于CNN的深度特征不仅能够保留更多图像细节信息，在图像特征表示方面也表现出优于传统特征的效果。在近年来基于CNN的视频检索研究中，VGG模型具有较深的网络层数和较好的通用性，但训练的特征数量非常大，且随着网络层数的增多也加入了较多与图像信息无关的噪声特征。因此，需要在深度特征提取环节抑制背景噪声、突出有效判别部分，从而提取更有效的深度特征信息。

为了提高视频检索的准确性，提取的视频关键帧图像特征需要保留更多的图像信息。因此其特征往往包含更高的维度，如基于VGG-16的CNN模型提取的深度特征有4096维，庞大的特征维度也降低了特征存储和检索的效率。为此，采用哈希编码的方式能够对高维特征向量进行编码压缩，从而节省存储空间、提升计算效率。然而，这些研究普遍是在单机的环境下，对于分布式存储的场景仍需要先把所有数据集中在单个节点进行编码模型训练，由此带来了更高的数据计算与存储压力，导致进行大量视频检索时无法保证视频检索的速度。因此，亟需适应视频图像分布式存储环境进行分布式哈希编码模型训练，从而优化哈希模型训练与计算存储的过程，使得在保证视频检索的准确性的前提下，能有效提高视频检索的速度。

发明内容

针对上述现有技术存在的问题，本发明提供一种基于Spark和深度哈希的视频并行检索方法，能在保证视频检索准确性的前提下，有效提高视频检索的速度。

为了实现上述目的，本发明采用的技术方案是：一种基于Spark和深度哈希的视频并行检索方法，具体步骤为：

步骤一、基于CNN的视频关键帧图像深度特征提取：对原始视频数据集进行关键帧提取获得视频摘要数据集；先从视频摘要数据集中划分出训练集，然后基于VGG网络和PWA算法进行加权聚合筛选，筛选过程中利用无监督策略选择部分卷积层滤波器生成概率权值方案，通过聚合对应各语义内容的加权区域表示获取最终的特征表示；筛选出最终特征向量，从而根据最终特征向量构成深度特征提取模型；最后根据深度特征提取模型对视频摘要数据集处理后生成视频摘要图像深度特征集；

步骤二、基于分布式哈希的视频关键帧图像特征量化：根据视频摘要图像深度特征集，先从其中划分出哈希编码模型训练集，并根据哈希编码模型训练集进行哈希乘积量化编码，从而完成分布式哈希编码模型的训练；根据已完成训练的分布式哈希编码模型对视频摘要图像深度特征集处理后生成图像分布式编码特征集；并根据图像分布式编码特征集生成编码查找本；

步骤三、基于Spark的视频并行检索：首先利用深度特征提取模型对输入待检索的图像进行图像特征向量提取；然后利用分布式编码模型将提取的图像特征向量生成图像哈希编码；通过基于Spark的分布式计算结合编码查找本进行并行检索，获得图像分布式编码特征集中最近的聚类中心，再根据线性重排，最终返回检索到的最近似图像所在的视频。

进一步，所述步骤一的具体过程为：

(1)对于原始视频数据集，首先传递到预训练的深度网络VGG-16模型提取深度卷积层特征f，所述深度卷积层特征f由C个通道特征图组成，每个特征图高度为H、宽度为W；并通过N个筛选出来的部分判别检测器加权聚合表示，即为N*C维的矢量表示；

(2)选择基于视频摘要数据集训练出部分判别检测器，选择具有更大差异的特征图通道，因此通过计算每个通道特征的方差进行筛选，C维向量g_i(i＝1,2,...,D)的C通道方差V＝{v₁,v₂,...,v_c,...,v_C}：

(3)对C通道的方差{v₁,v₂,...,v_C}进行排序，选择方差最大的前N个判别式卷积层滤波器作为部分判别检测器；然后，通过无监督策略生成概率权值方案，每个概率权值方案都对应于隐含的固定语义内容，通过选择概率权值方案加权PWA表示，构造具有高度H和宽度W的C×W×H维深度卷积特征f的加权和集：

系数w_n是归一化权重，其数值由部分判别检测器生成的所选概率权值方案的位置(x,y)中的激活值v_n(x,y)确定：

其中α和β分别是功率归一化和功率缩放的参数；

(4)从加权和池化过程获得N个选择的C维区域表示ψ_n(I)，进而通过连接选定的区域表示得到全局N×C维表示向量ψ(I)：

ψ(I)＝[ψ₁,ψ₂,...,ψ_N]

其中根据特征集中C通道的方差值选择部分判别检测器，既提高了性能，又提高了计算效率；

(5)通过后处理对全局表示ψ(I)执行l₂-归一化、主成分分析(PrincipalComponent Analysis,PCA)压缩和白化，并获得最终的图像特征M维表示ψ_PWA(I)：

其中V是大小为M×N的PCA矩阵，M是保留维度的数量，σ₁,σ₂,…,σ_M是相关的奇异值；最终的图像特征M维表示即为最终的特征向量，根据最终特征向量构成深度特征提取模型；最后根据深度特征提取模型对视频摘要数据集处理后生成视频摘要图像深度特征集。

进一步，所述步骤二的具体过程为：

①利用Spark平台中的分布式计算过程将摘要图像深度特征集分布式地存储在数据存储RDD中，并分为多个分区在集群中的不同节点上；

②对于一个p维的摘要图像深度特征集X，数据分布式地存储在m个计算节点上，因此将其划分成m个子集X＝[X₁,…,X_m]；

③对每个子集进行K-Means聚类，每个子集包含n个聚类中心，共需要m×n个分布式矩阵进行存储，编码矩阵用B＝[B₁,B₂,…,B_S]来表示，根据数据分布式的特点，分布式乘积量化编码的目标函数为：

④将已完成训练的分布式哈希编码模型对分布式存储的视频摘要图像深度特征集进行压缩编码表示；首先将分布在m个存储节点上的特征向量集划分成m份，再利用分布式哈希编码模型对每份向量子集进行编码压缩K-Means预测，从而获得每份特征向量的聚类中心，再利用特征向量的聚类中心对其各个子向量进行编码表示；最终获得各个特征向量及其子向量组成的图像分布式编码特征集，并根据图像分布式编码特征集生成编码查找本。

进一步，所述步骤三的具体过程为：

Ⅰ、先计算图像分布式编码特征集中每个聚类中心与其子向量的距离作为检索查找表；

Ⅱ、利用深度特征提取模型对输入待检索的图像进行图像特征向量提取，得出该图像的图像深度特征向量q，然后利用分布式编码模型将提取的图像深度特征向量q生成图像哈希编码；将该图像哈希编码结合编码查找本，计算图像深度特征向量q与图像分布式编码特征集中各个聚类中心x_i'的距离，即为该图像深度特征向量q与其他图像向量之间的非对称距离；

Ⅲ、通过比较图像深度特征向量q与聚类中心的距离找出最近的聚类c，设最近距离为l；

Ⅳ、遍历步骤Ⅰ生成的检索查找表将聚类c中每个子向量与聚类中心的距离与l相加，即获得图像深度特征向量q与该聚类中所有向量的距离，采用线性重排筛选距离排序获得最近似的特征向量，并找到该特征向量对应的视频关键帧图像，最后根据关键帧图像输出相关的完整视频。

与现有技术相比，本发明采用Spark和深度哈希进行视频处理，并采用并行检索的方式，通过基于部分语义加权聚合方法的卷积神经网络对视频关键帧图像进行深度特征提取，保证了深度特征对原有图像的关键信息保留；进而保证了视频检索的准确性；同时通过乘积量化的哈希编码模型实现对图像特征的压缩存储，提高了存储效率；通过基于Spark的分布式检索，从而能在保证视频检索准确性的前提下，有效提高检索的计算效率，进而提高了视频检索的速度。

附图说明

图1是本发明的整体架构示意图；

图2是本发明中基于CNN的视频关键帧图像深度特征提取过程示意图；

图3是本发明中基于分布式哈希的视频关键帧图像特征量化过程示意图；

图4是本发明中基于Spark的视频并行检索过程示意图。

具体实施方式

下面将对本发明作进一步说明。

如图1所示，本发明的具体步骤为：

如图2所示，所述步骤一的具体过程为：

其中α和β分别是功率归一化和功率缩放的参数；

ψ(I)＝[ψ₁,ψ₂,...,ψ_N]

如图3所示，所述步骤二的具体过程为：

②对于一个p维的摘要图像深度特征集X，数据分布式地存储在m个计算节点上，因此将其划分成m个子集X＝[X₁,...,X_m]；

③对每个子集进行K-Means聚类，每个子集包含n个聚类中心，共需要m×n个分布式矩阵进行存储，编码矩阵用B＝[B₁,B₂,...,B_S]来表示，根据数据分布式的特点，分布式乘积量化编码的目标函数为：

如图4所示，所述步骤三的具体过程为：