CN111444390A - 一种基于Spark和深度哈希的视频并行检索方法 - Google Patents
一种基于Spark和深度哈希的视频并行检索方法 Download PDFInfo
- Publication number
- CN111444390A CN111444390A CN202010254440.5A CN202010254440A CN111444390A CN 111444390 A CN111444390 A CN 111444390A CN 202010254440 A CN202010254440 A CN 202010254440A CN 111444390 A CN111444390 A CN 111444390A
- Authority
- CN
- China
- Prior art keywords
- image
- video
- coding
- distributed
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 238000013139 quantization Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 88
- 230000008569 process Effects 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 16
- 238000012216 screening Methods 0.000 claims description 15
- 238000000513 principal component analysis Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000008707 rearrangement Effects 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000013500 data storage Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000003064 k means clustering Methods 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012805 post-processing Methods 0.000 claims description 3
- 230000002087 whitening effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 6
- 238000013527 convolutional neural network Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/71—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于Spark和深度哈希的视频并行检索方法,先对原始视频数据集进行基于CNN的视频关键帧图像深度特征提取,得到视频摘要图像深度特征集;然后对视频摘要图像深度特征集进行基于分布式哈希的视频关键帧图像特征量化,得到图像分布式编码特征集和编码查找本;最后对待检索图像采用基于Spark的视频并行检索,通过基于Spark的分布式计算结合编码查找本,最终返回检索到的最近似图像所在的视频。本发明能在保证视频检索准确性的前提下,有效提高检索的计算效率,进而提高了视频检索的速度。
Description
技术领域
本发明涉及一种视频并行检索方法,具体是一种基于Spark和深度哈希的视频并行检索方法。
背景技术
在大规模视频数据的检索过程中,传统的串行遍历检索模式已经出现瓶颈,也增大了检索系统的负担。分布式平台Hadoop的出现提高了大规模视频检索的速度和效率,但大部分研究主要采用的MapReduce并行模型在磁盘中进行运算,与基于内存的分布式计算引擎Spark模型相比,Spark每个作业中间输出的结果可以存储在内存中,无需读写HDFS(即分布式文件系统)。因此,Spark模型可以更好地适应视频检索过程中的迭代匹配的过程,从而提高检索速度。
在视频图像特征提取方面,基于内容的视频检索最初主要通过对特定场景用主观判断手动提取特征,如:纹理、边缘、形状、颜色特征等单个或多个特征的融合,这种方式很容易导致图像特征提取不完整。卷积神经网络(Convolutional Neural Networks,CNN)的出现提供了一种隐式自动学习的图像特征提取方案;基于CNN的深度特征不仅能够保留更多图像细节信息,在图像特征表示方面也表现出优于传统特征的效果。在近年来基于CNN的视频检索研究中,VGG模型具有较深的网络层数和较好的通用性,但训练的特征数量非常大,且随着网络层数的增多也加入了较多与图像信息无关的噪声特征。因此,需要在深度特征提取环节抑制背景噪声、突出有效判别部分,从而提取更有效的深度特征信息。
为了提高视频检索的准确性,提取的视频关键帧图像特征需要保留更多的图像信息。因此其特征往往包含更高的维度,如基于VGG-16的CNN模型提取的深度特征有4096维,庞大的特征维度也降低了特征存储和检索的效率。为此,采用哈希编码的方式能够对高维特征向量进行编码压缩,从而节省存储空间、提升计算效率。然而,这些研究普遍是在单机的环境下,对于分布式存储的场景仍需要先把所有数据集中在单个节点进行编码模型训练,由此带来了更高的数据计算与存储压力,导致进行大量视频检索时无法保证视频检索的速度。因此,亟需适应视频图像分布式存储环境进行分布式哈希编码模型训练,从而优化哈希模型训练与计算存储的过程,使得在保证视频检索的准确性的前提下,能有效提高视频检索的速度。
发明内容
针对上述现有技术存在的问题,本发明提供一种基于Spark和深度哈希的视频并行检索方法,能在保证视频检索准确性的前提下,有效提高视频检索的速度。
为了实现上述目的,本发明采用的技术方案是:一种基于Spark和深度哈希的视频并行检索方法,具体步骤为:
步骤一、基于CNN的视频关键帧图像深度特征提取:对原始视频数据集进行关键帧提取获得视频摘要数据集;先从视频摘要数据集中划分出训练集,然后基于VGG网络和PWA算法进行加权聚合筛选,筛选过程中利用无监督策略选择部分卷积层滤波器生成概率权值方案,通过聚合对应各语义内容的加权区域表示获取最终的特征表示;筛选出最终特征向量,从而根据最终特征向量构成深度特征提取模型;最后根据深度特征提取模型对视频摘要数据集处理后生成视频摘要图像深度特征集;
步骤二、基于分布式哈希的视频关键帧图像特征量化:根据视频摘要图像深度特征集,先从其中划分出哈希编码模型训练集,并根据哈希编码模型训练集进行哈希乘积量化编码,从而完成分布式哈希编码模型的训练;根据已完成训练的分布式哈希编码模型对视频摘要图像深度特征集处理后生成图像分布式编码特征集;并根据图像分布式编码特征集生成编码查找本;
步骤三、基于Spark的视频并行检索:首先利用深度特征提取模型对输入待检索的图像进行图像特征向量提取;然后利用分布式编码模型将提取的图像特征向量生成图像哈希编码;通过基于Spark的分布式计算结合编码查找本进行并行检索,获得图像分布式编码特征集中最近的聚类中心,再根据线性重排,最终返回检索到的最近似图像所在的视频。
进一步,所述步骤一的具体过程为:
(1)对于原始视频数据集,首先传递到预训练的深度网络VGG-16模型提取深度卷积层特征f,所述深度卷积层特征f由C个通道特征图组成,每个特征图高度为H、宽度为W;并通过N个筛选出来的部分判别检测器加权聚合表示,即为N*C维的矢量表示;
(2)选择基于视频摘要数据集训练出部分判别检测器,选择具有更大差异的特征图通道,因此通过计算每个通道特征的方差进行筛选,C维向量gi(i=1,2,...,D)的C通道方差V={v1,v2,...,vc,...,vC}:
(3)对C通道的方差{v1,v2,...,vC}进行排序,选择方差最大的前N个判别式卷积层滤波器作为部分判别检测器;然后,通过无监督策略生成概率权值方案,每个概率权值方案都对应于隐含的固定语义内容,通过选择概率权值方案加权PWA表示,构造具有高度H和宽度W的C×W×H维深度卷积特征f的加权和集:
系数wn是归一化权重,其数值由部分判别检测器生成的所选概率权值方案的位置(x,y)中的激活值vn(x,y)确定:
其中α和β分别是功率归一化和功率缩放的参数;
(4)从加权和池化过程获得N个选择的C维区域表示ψn(I),进而通过连接选定的区域表示得到全局N×C维表示向量ψ(I):
ψ(I)=[ψ1,ψ2,...,ψN]
其中根据特征集中C通道的方差值选择部分判别检测器,既提高了性能,又提高了计算效率;
(5)通过后处理对全局表示ψ(I)执行l2-归一化、主成分分析(PrincipalComponent Analysis,PCA)压缩和白化,并获得最终的图像特征M维表示ψPWA(I):
其中V是大小为M×N的PCA矩阵,M是保留维度的数量,σ1,σ2,…,σM是相关的奇异值;最终的图像特征M维表示即为最终的特征向量,根据最终特征向量构成深度特征提取模型;最后根据深度特征提取模型对视频摘要数据集处理后生成视频摘要图像深度特征集。
进一步,所述步骤二的具体过程为:
①利用Spark平台中的分布式计算过程将摘要图像深度特征集分布式地存储在数据存储RDD中,并分为多个分区在集群中的不同节点上;
②对于一个p维的摘要图像深度特征集X,数据分布式地存储在m个计算节点上,因此将其划分成m个子集X=[X1,…,Xm];
③对每个子集进行K-Means聚类,每个子集包含n个聚类中心,共需要m×n个分布式矩阵进行存储,编码矩阵用B=[B1,B2,…,BS]来表示,根据数据分布式的特点,分布式乘积量化编码的目标函数为:
④将已完成训练的分布式哈希编码模型对分布式存储的视频摘要图像深度特征集进行压缩编码表示;首先将分布在m个存储节点上的特征向量集划分成m份,再利用分布式哈希编码模型对每份向量子集进行编码压缩K-Means预测,从而获得每份特征向量的聚类中心,再利用特征向量的聚类中心对其各个子向量进行编码表示;最终获得各个特征向量及其子向量组成的图像分布式编码特征集,并根据图像分布式编码特征集生成编码查找本。
进一步,所述步骤三的具体过程为:
Ⅰ、先计算图像分布式编码特征集中每个聚类中心与其子向量的距离作为检索查找表;
Ⅱ、利用深度特征提取模型对输入待检索的图像进行图像特征向量提取,得出该图像的图像深度特征向量q,然后利用分布式编码模型将提取的图像深度特征向量q生成图像哈希编码;将该图像哈希编码结合编码查找本,计算图像深度特征向量q与图像分布式编码特征集中各个聚类中心xi'的距离,即为该图像深度特征向量q与其他图像向量之间的非对称距离;
Ⅲ、通过比较图像深度特征向量q与聚类中心的距离找出最近的聚类c,设最近距离为l;
Ⅳ、遍历步骤Ⅰ生成的检索查找表将聚类c中每个子向量与聚类中心的距离与l相加,即获得图像深度特征向量q与该聚类中所有向量的距离,采用线性重排筛选距离排序获得最近似的特征向量,并找到该特征向量对应的视频关键帧图像,最后根据关键帧图像输出相关的完整视频。
与现有技术相比,本发明采用Spark和深度哈希进行视频处理,并采用并行检索的方式,通过基于部分语义加权聚合方法的卷积神经网络对视频关键帧图像进行深度特征提取,保证了深度特征对原有图像的关键信息保留;进而保证了视频检索的准确性;同时通过乘积量化的哈希编码模型实现对图像特征的压缩存储,提高了存储效率;通过基于Spark的分布式检索,从而能在保证视频检索准确性的前提下,有效提高检索的计算效率,进而提高了视频检索的速度。
附图说明
图1是本发明的整体架构示意图;
图2是本发明中基于CNN的视频关键帧图像深度特征提取过程示意图;
图3是本发明中基于分布式哈希的视频关键帧图像特征量化过程示意图;
图4是本发明中基于Spark的视频并行检索过程示意图。
具体实施方式
下面将对本发明作进一步说明。
如图1所示,本发明的具体步骤为:
步骤一、基于CNN的视频关键帧图像深度特征提取:对原始视频数据集进行关键帧提取获得视频摘要数据集;先从视频摘要数据集中划分出训练集,然后基于VGG网络和PWA算法进行加权聚合筛选,筛选过程中利用无监督策略选择部分卷积层滤波器生成概率权值方案,通过聚合对应各语义内容的加权区域表示获取最终的特征表示;筛选出最终特征向量,从而根据最终特征向量构成深度特征提取模型;最后根据深度特征提取模型对视频摘要数据集处理后生成视频摘要图像深度特征集;
步骤二、基于分布式哈希的视频关键帧图像特征量化:根据视频摘要图像深度特征集,先从其中划分出哈希编码模型训练集,并根据哈希编码模型训练集进行哈希乘积量化编码,从而完成分布式哈希编码模型的训练;根据已完成训练的分布式哈希编码模型对视频摘要图像深度特征集处理后生成图像分布式编码特征集;并根据图像分布式编码特征集生成编码查找本;
步骤三、基于Spark的视频并行检索:首先利用深度特征提取模型对输入待检索的图像进行图像特征向量提取;然后利用分布式编码模型将提取的图像特征向量生成图像哈希编码;通过基于Spark的分布式计算结合编码查找本进行并行检索,获得图像分布式编码特征集中最近的聚类中心,再根据线性重排,最终返回检索到的最近似图像所在的视频。
如图2所示,所述步骤一的具体过程为:
(1)对于原始视频数据集,首先传递到预训练的深度网络VGG-16模型提取深度卷积层特征f,所述深度卷积层特征f由C个通道特征图组成,每个特征图高度为H、宽度为W;并通过N个筛选出来的部分判别检测器加权聚合表示,即为N*C维的矢量表示;
(2)选择基于视频摘要数据集训练出部分判别检测器,选择具有更大差异的特征图通道,因此通过计算每个通道特征的方差进行筛选,C维向量gi(i=1,2,...,D)的C通道方差V={v1,v2,...,vc,...,vC}:
(3)对C通道的方差{v1,v2,...,vC}进行排序,选择方差最大的前N个判别式卷积层滤波器作为部分判别检测器;然后,通过无监督策略生成概率权值方案,每个概率权值方案都对应于隐含的固定语义内容,通过选择概率权值方案加权PWA表示,构造具有高度H和宽度W的C×W×H维深度卷积特征f的加权和集:
系数wn是归一化权重,其数值由部分判别检测器生成的所选概率权值方案的位置(x,y)中的激活值vn(x,y)确定:
其中α和β分别是功率归一化和功率缩放的参数;
(4)从加权和池化过程获得N个选择的C维区域表示ψn(I),进而通过连接选定的区域表示得到全局N×C维表示向量ψ(I):
ψ(I)=[ψ1,ψ2,...,ψN]
其中根据特征集中C通道的方差值选择部分判别检测器,既提高了性能,又提高了计算效率;
(5)通过后处理对全局表示ψ(I)执行l2-归一化、主成分分析(PrincipalComponent Analysis,PCA)压缩和白化,并获得最终的图像特征M维表示ψPWA(I):
其中V是大小为M×N的PCA矩阵,M是保留维度的数量,σ1,σ2,…,σM是相关的奇异值;最终的图像特征M维表示即为最终的特征向量,根据最终特征向量构成深度特征提取模型;最后根据深度特征提取模型对视频摘要数据集处理后生成视频摘要图像深度特征集。
如图3所示,所述步骤二的具体过程为:
①利用Spark平台中的分布式计算过程将摘要图像深度特征集分布式地存储在数据存储RDD中,并分为多个分区在集群中的不同节点上;
②对于一个p维的摘要图像深度特征集X,数据分布式地存储在m个计算节点上,因此将其划分成m个子集X=[X1,...,Xm];
③对每个子集进行K-Means聚类,每个子集包含n个聚类中心,共需要m×n个分布式矩阵进行存储,编码矩阵用B=[B1,B2,...,BS]来表示,根据数据分布式的特点,分布式乘积量化编码的目标函数为:
④将已完成训练的分布式哈希编码模型对分布式存储的视频摘要图像深度特征集进行压缩编码表示;首先将分布在m个存储节点上的特征向量集划分成m份,再利用分布式哈希编码模型对每份向量子集进行编码压缩K-Means预测,从而获得每份特征向量的聚类中心,再利用特征向量的聚类中心对其各个子向量进行编码表示;最终获得各个特征向量及其子向量组成的图像分布式编码特征集,并根据图像分布式编码特征集生成编码查找本。
如图4所示,所述步骤三的具体过程为:
Ⅰ、先计算图像分布式编码特征集中每个聚类中心与其子向量的距离作为检索查找表;
Ⅱ、利用深度特征提取模型对输入待检索的图像进行图像特征向量提取,得出该图像的图像深度特征向量q,然后利用分布式编码模型将提取的图像深度特征向量q生成图像哈希编码;将该图像哈希编码结合编码查找本,计算图像深度特征向量q与图像分布式编码特征集中各个聚类中心xi'的距离,即为该图像深度特征向量q与其他图像向量之间的非对称距离;
Ⅲ、通过比较图像深度特征向量q与聚类中心的距离找出最近的聚类c,设最近距离为l;
Ⅳ、遍历步骤Ⅰ生成的检索查找表将聚类c中每个子向量与聚类中心的距离与l相加,即获得图像深度特征向量q与该聚类中所有向量的距离,采用线性重排筛选距离排序获得最近似的特征向量,并找到该特征向量对应的视频关键帧图像,最后根据关键帧图像输出相关的完整视频。
Claims (4)
1.一种基于Spark和深度哈希的视频并行检索方法,其特征在于,具体步骤为:
步骤一、基于CNN的视频关键帧图像深度特征提取:对原始视频数据集进行关键帧提取获得视频摘要数据集;先从视频摘要数据集中划分出训练集,然后基于VGG网络和PWA算法进行加权聚合筛选,筛选过程中利用无监督策略选择部分卷积层滤波器生成概率权值方案,通过聚合对应各语义内容的加权区域表示获取最终的特征表示;筛选出最终特征向量,从而根据最终特征向量构成深度特征提取模型;最后根据深度特征提取模型对视频摘要数据集处理后生成视频摘要图像深度特征集;
步骤二、基于分布式哈希的视频关键帧图像特征量化:根据视频摘要图像深度特征集,先从其中划分出哈希编码模型训练集,并根据哈希编码模型训练集进行哈希乘积量化编码,从而完成分布式哈希编码模型的训练;根据已完成训练的分布式哈希编码模型对视频摘要图像深度特征集处理后生成图像分布式编码特征集;并根据图像分布式编码特征集生成编码查找本;
步骤三、基于Spark的视频并行检索:首先利用深度特征提取模型对输入待检索的图像进行图像特征向量提取;然后利用分布式编码模型将提取的图像特征向量生成图像哈希编码;通过基于Spark的分布式计算结合编码查找本进行并行检索,获得图像分布式编码特征集中最近的聚类中心,再根据线性重排,最终返回检索到的最近似图像所在的视频。
2.根据权利要求1所述的一种基于Spark和深度哈希的视频并行检索方法,其特征在于,所述步骤一的具体过程为:
(1)对于原始视频数据集,首先传递到预训练的深度网络VGG-16模型提取深度卷积层特征f,所述深度卷积层特征f由C个通道特征图组成,每个特征图高度为H、宽度为W;并通过N个筛选出来的部分判别检测器加权聚合表示,即为N*C维的矢量表示;
(2)选择基于视频摘要数据集训练出部分判别检测器,选择具有更大差异的特征图通道,因此通过计算每个通道特征的方差进行筛选,C维向量gi(i=1,2,...,D)的C通道方差V={v1,v2,...,vc,...,vC}:
(3)对C通道的方差{v1,v2,...,vC}进行排序,选择方差最大的前N个判别式卷积层滤波器作为部分判别检测器;然后,通过无监督策略生成概率权值方案,每个概率权值方案都对应于隐含的固定语义内容,通过选择概率权值方案加权PWA表示,构造具有高度H和宽度W的C×W×H维深度卷积特征f的加权和集:
系数wn是归一化权重,其数值由部分判别检测器生成的所选概率权值方案的位置(x,y)中的激活值vn(x,y)确定:
其中α和β分别是功率归一化和功率缩放的参数;
(4)从加权和池化过程获得N个选择的C维区域表示ψn(I),进而通过连接选定的区域表示得到全局N×C维表示向量ψ(I):
ψ(I)=[ψ1,ψ2,...,ψN]
其中根据特征集中C通道的方差值选择部分判别检测器;
(5)通过后处理对全局表示ψ(I)执行l2-归一化、主成分分析(Principal ComponentAnalysis,PCA)压缩和白化,并获得最终的图像特征M维表示ψPWA(I):
其中V是大小为M×N的PCA矩阵,M是保留维度的数量,σ1,σ2,…,σM是相关的奇异值;最终的图像特征M维表示即为最终的特征向量,根据最终特征向量构成深度特征提取模型;最后根据深度特征提取模型对视频摘要数据集处理后生成视频摘要图像深度特征集。
3.根据权利要求1所述的一种基于Spark和深度哈希的视频并行检索方法,其特征在于,所述步骤二的具体过程为:
①利用Spark平台中的分布式计算过程将摘要图像深度特征集分布式地存储在数据存储RDD中,并分为多个分区在集群中的不同节点上;
②对于一个p维的摘要图像深度特征集X,数据分布式地存储在m个计算节点上,因此将其划分成m个子集X=[X1,…,Xm];
③对每个子集进行K-Means聚类,每个子集包含n个聚类中心,共需要m×n个分布式矩阵进行存储,编码矩阵用B=[B1,B2,…,BS]来表示,根据数据分布式的特点,分布式乘积量化编码的目标函数为:
④将已完成训练的分布式哈希编码模型对分布式存储的视频摘要图像深度特征集进行压缩编码表示;首先将分布在m个存储节点上的特征向量集划分成m份,再利用分布式哈希编码模型对每份向量子集进行编码压缩K-Means预测,从而获得每份特征向量的聚类中心,再利用特征向量的聚类中心对其各个子向量进行编码表示;最终获得各个特征向量及其子向量组成的图像分布式编码特征集,并根据图像分布式编码特征集生成编码查找本。
4.根据权利要求1所述的一种基于Spark和深度哈希的视频并行检索方法,其特征在于,所述步骤三的具体过程为:
Ⅰ、先计算图像分布式编码特征集中每个聚类中心与其子向量的距离作为检索查找表;
Ⅱ、利用深度特征提取模型对输入待检索的图像进行图像特征向量提取,得出该图像的图像深度特征向量q,然后利用分布式编码模型将提取的图像深度特征向量q生成图像哈希编码;将该图像哈希编码结合编码查找本,计算图像深度特征向量q与图像分布式编码特征集中各个聚类中心xi'的距离,即为该图像深度特征向量q与其他图像向量之间的非对称距离;
Ⅲ、通过比较图像深度特征向量q与聚类中心的距离找出最近的聚类c,设最近距离为l;
Ⅳ、遍历步骤Ⅰ生成的检索查找表将聚类c中每个子向量与聚类中心的距离与l相加,即获得图像深度特征向量q与该聚类中所有向量的距离,采用线性重排筛选距离排序获得最近似的特征向量,并找到该特征向量对应的视频关键帧图像,最后根据关键帧图像输出相关的完整视频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010254440.5A CN111444390A (zh) | 2020-04-02 | 2020-04-02 | 一种基于Spark和深度哈希的视频并行检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010254440.5A CN111444390A (zh) | 2020-04-02 | 2020-04-02 | 一种基于Spark和深度哈希的视频并行检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111444390A true CN111444390A (zh) | 2020-07-24 |
Family
ID=71649653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010254440.5A Pending CN111444390A (zh) | 2020-04-02 | 2020-04-02 | 一种基于Spark和深度哈希的视频并行检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111444390A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898546A (zh) * | 2020-07-31 | 2020-11-06 | 深圳市商汤科技有限公司 | 数据处理方法及装置、电子设备和存储介质 |
CN112395457A (zh) * | 2020-12-11 | 2021-02-23 | 中国搜索信息科技股份有限公司 | 一种应用于视频版权保护的视频待检索定位方法 |
CN112988747A (zh) * | 2021-03-12 | 2021-06-18 | 山东英信计算机技术有限公司 | 一种数据检索方法和系统 |
CN118069885A (zh) * | 2024-04-19 | 2024-05-24 | 山东建筑大学 | 一种动态视频内容编码检索方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103336795A (zh) * | 2013-06-09 | 2013-10-02 | 华中科技大学 | 基于多特征的视频索引方法 |
CN104239501A (zh) * | 2014-09-10 | 2014-12-24 | 中国电子科技集团公司第二十八研究所 | 一种基于Spark的海量视频语义标注方法 |
CN109783691A (zh) * | 2018-12-29 | 2019-05-21 | 四川远鉴科技有限公司 | 一种深度学习和哈希编码的视频检索方法 |
CN109815364A (zh) * | 2019-01-18 | 2019-05-28 | 上海极链网络科技有限公司 | 一种海量视频特征提取、存储和检索方法及系统 |
CN109918537A (zh) * | 2019-01-18 | 2019-06-21 | 杭州电子科技大学 | 一种基于HBase的船舶监控视频内容的快速检索方法 |
-
2020
- 2020-04-02 CN CN202010254440.5A patent/CN111444390A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103336795A (zh) * | 2013-06-09 | 2013-10-02 | 华中科技大学 | 基于多特征的视频索引方法 |
CN104239501A (zh) * | 2014-09-10 | 2014-12-24 | 中国电子科技集团公司第二十八研究所 | 一种基于Spark的海量视频语义标注方法 |
CN109783691A (zh) * | 2018-12-29 | 2019-05-21 | 四川远鉴科技有限公司 | 一种深度学习和哈希编码的视频检索方法 |
CN109815364A (zh) * | 2019-01-18 | 2019-05-28 | 上海极链网络科技有限公司 | 一种海量视频特征提取、存储和检索方法及系统 |
CN109918537A (zh) * | 2019-01-18 | 2019-06-21 | 杭州电子科技大学 | 一种基于HBase的船舶监控视频内容的快速检索方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898546A (zh) * | 2020-07-31 | 2020-11-06 | 深圳市商汤科技有限公司 | 数据处理方法及装置、电子设备和存储介质 |
CN111898546B (zh) * | 2020-07-31 | 2022-02-18 | 深圳市商汤科技有限公司 | 数据处理方法及装置、电子设备和存储介质 |
CN112395457A (zh) * | 2020-12-11 | 2021-02-23 | 中国搜索信息科技股份有限公司 | 一种应用于视频版权保护的视频待检索定位方法 |
CN112395457B (zh) * | 2020-12-11 | 2021-06-22 | 中国搜索信息科技股份有限公司 | 一种应用于视频版权保护的视频待检索定位方法 |
CN112988747A (zh) * | 2021-03-12 | 2021-06-18 | 山东英信计算机技术有限公司 | 一种数据检索方法和系统 |
CN118069885A (zh) * | 2024-04-19 | 2024-05-24 | 山东建筑大学 | 一种动态视频内容编码检索方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111198959B (zh) | 一种基于卷积神经网络的两阶段图像检索方法 | |
CN105912611B (zh) | 一种基于cnn的快速图像检索方法 | |
CN107577990B (zh) | 一种基于gpu加速检索的大规模人脸识别方法 | |
CN111444390A (zh) | 一种基于Spark和深度哈希的视频并行检索方法 | |
CN107203787B (zh) | 一种无监督正则化矩阵分解特征选择方法 | |
US9400918B2 (en) | Compact face representation | |
US9043316B1 (en) | Visual content retrieval | |
CN107239565B (zh) | 一种基于显著性区域的图像检索方法 | |
CN109359725B (zh) | 卷积神经网络模型的训练方法、装置、设备及计算机可读存储介质 | |
CN110222218B (zh) | 基于多尺度NetVLAD和深度哈希的图像检索方法 | |
Passalis et al. | Learning neural bag-of-features for large-scale image retrieval | |
CN106033426A (zh) | 一种基于潜在语义最小哈希的图像检索方法 | |
US11886490B2 (en) | Neural network device for retrieving image and operating method thereof | |
CN109960732B (zh) | 一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统 | |
CN109086830B (zh) | 基于样本惩罚的典型关联分析近重复视频检测方法 | |
Niu et al. | Machine learning-based framework for saliency detection in distorted images | |
Jang et al. | Deep clustering and block hashing network for face image retrieval | |
Guan et al. | Deep learning with MCA-based instance selection and bootstrapping for imbalanced data classification | |
CN113220936B (zh) | 基于随机矩阵编码和简化卷积网络的视频智能推荐方法、装置及存储介质 | |
CN105183845A (zh) | 一种结合语义特征的ervq图片索引与检索方法 | |
Sun | Adaptation for multiple cue integration | |
Bibi et al. | Deep features optimization based on a transfer learning, genetic algorithm, and extreme learning machine for robust content-based image retrieval | |
CN115329116A (zh) | 一种基于多层特征融合的图像检索方法 | |
CN114581721A (zh) | 基于二值神经网络的多光谱图像轻量化分类方法 | |
CN110704575B (zh) | 一种动态自适应二元层次词汇树图像检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200724 |