CN112131416A

CN112131416A - 一种基于大数据下的视频图像智能搜索方法及系统

Info

Publication number: CN112131416A
Application number: CN202011064153.4A
Authority: CN
Inventors: 汪金玲
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2020-12-25

Abstract

本发明涉及一种图像搜索技术领域，揭露了一种基于大数据下的视频图像智能搜索方法，包括：获取视频流，从中截取若干帧视频图像，并将所截取的视频图像写入HBase中；利用RDF Schema实现对视频图像的表述；获取待搜索图像，利用多层逐级融合的特征提取模型对待搜索图像中的语义特征进行提取；根据所提取的语义特征以及HBase表中的图像RDFS表述，通过构建多度量搜索树返回图像搜索的HBase表候选集；利用聚合重排序算法对候选集中的图像数据进行排序，将索引值最低的图像数据作为图像搜索结果。本发明还提供了一种基于大数据下的视频图像智能搜索系统。本发明实现了图像的检索。

Description

一种基于大数据下的视频图像智能搜索方法及系统

技术领域

本发明涉及图像检索的技术领域，尤其涉及一种基于大数据下的视频图像智能搜索方法及系统。

背景技术

随着移动设备的日益普及，加之社交平台的广泛传播，图像的种类和数量正在以超凡的速度呈现爆炸式的增长，如何对大规模的图像数据进行有效地检索，己成为一个重要的研究课题。

图像检索有两种查询范式：关键字查询和样例查询。但是，这两种查询范式都有各自的问题，如在关键字查询中，存在用户表达和用户真实意图之间的意图鸿沟问题；在样例查询中，存在从图像中提取的底层视觉特征和图像所传达的高层语义概念之间的语义鸿沟问题。

且图像内容特征难以准确表达，即计算机的模型算法对图像特征的表达与人在视觉上的感知存在差异性，降低了图像搜索的准确率；在近邻搜索算法中，单一度量函数对图像内容特征相似度结果存在偏差，导致图像搜索的准确率有所下降。

鉴于此，如何在大数据背景下进行图像数据的存储，并对图像内容特征进行准确表达，同时对现有搜索算法进行改进，提高图像搜索的准确率，成为本领域技术人员亟待解决的问题。

发明内容

本发明提供一种基于大数据下的视频图像智能搜索方法，通过利用大数据技术完成图像数据的分布式存储，并将非结构化图像数据转化为结构化数据，实现图像数据的标注信息共享，同时提出一种多层逐级融合的特征提取方式进行图像特征的提取，根据所提取的图像内容特征，进行基于重排序的图像搜索。

为实现上述目的，本发明提供的一种基于大数据下的视频图像智能搜索方法，包括：

获取视频流，从中截取若干帧视频图像，并将所截取的视频图像写入HBase中；

利用RDFSchema实现对视频图像的表述；

获取待搜索图像，利用多层逐级融合的特征提取模型对待搜索图像中的语义特征进行提取；

根据所提取的语义特征以及HBase表中的图像RDFS表述，通过构建多度量搜索树返回图像搜索的HBase表候选集；

利用聚合重排序算法对候选集中的图像数据进行排序，将索引值最低的图像数据作为图像搜索结果。

可选地，所述将所截取的视频图像写入HBase中，包括：

1)在客户端输入视频图像的本地存储地址，然后通过JAVA输入流将视频图像数据以流的形式读入，通过HDFS的写入流函数将读入的视频图像流上传到HDFS中；

2)从HDFS中读取一幅视频图像，得到视频图像的帧数；然后创建MapReduce任务，将<图像帧数，视频图像>作为Map任务的输入；

3)在MapReduce任务的Map阶段，根据视频图像的命名规则，从视频图像名称中解析出视频图像的相关属性，如图像名称、图像类型、图像采集时间、图像帧数等属性，并根据这些属性生成RowKey行键；

4)在创建HBase表时，本发明预先创建一些空的Regions，当向HBase写入视频图像数据时，会根据RowKey的散列分布，将图像数据写入到不同的Region中；最后组合“RowKey，图像文件，图像名称，图像类型，图像采集时间，图像帧数”作为一行写入到HBase表中。

可选地，所述利用RDFSchema对视频图像的表述，包括：

对视频图像实例的RDFS进行设计，通过自定义了三个名称空间，用来区分视频图像信息image、图像目标信息object以及目标坐标信息bndbox，其中名称空间image中一共涵盖了10个属性，名称空间object中涵盖了5个属性，名称空间bndbox中涵盖了4个属性；

根据所设计的RDFS，对HBase表中所存储的图像进行表述。

可选地，所述多层逐级融合的特征提取模型为：

所述多层逐级融合的特征提取模型为卷积神经网络和深度编码器神经网络的联合模型，该网络结构由三个卷积块以及一个全连接块组成组成，每个卷积块都有两个卷积层、两个激活层和一个最大池化层，在三个卷积块之后，是一个全连接块，全连接块包括两层全连接层和一个分类输出层；

在卷积块的每一个卷积层后，增加了正则归一化层和Dropout层；

通过对卷积块输入和输出之间的残差进行调整，使每个卷积块的输出等于下一个卷积块的输入，不同的卷积块相当于不同的网络层级，通过逐级地进行特征的卷积操作，使得最后的输出特征为不同空间维度的语义特征的叠加。

可选地，所述利用多层逐级融合的特征提取模型对待搜索图像中的语义特征进行提取，包括：

输入的待搜索图像通过6层的卷积层网络，并进行了非线性激活，正则化以及池化等一系列操作，提取到图片数据集的中高级特征；经过2层全连接层和Softmax输出分类层进行有监督的训练，模型训练收敛之后，将第一层全连接层提取的2048维图像特征作为深度编码器网络的输入，得到图像语义特征的128维向量。

可选地，所述通过构建多度量搜索树返回图像搜索的HBase表候选集，包括：

1)构建基于余弦距离度量的Annoy叠加树，对于所提取的语义特征，每一个返回语义特征与RDFS表述的余弦度量的近似结果C₁，C₂，...，C_n，并将这些结果构成一个集合C；

2)构建基于欧式距离度量的Annoy叠加树，对于所提取的语义特征，每一个返回语义特征与RDFS表述的欧式度量的近似结果D₁，D₂，...，D_n，并将这些结果构成一个集合D；

3)将集合C和集合D作为HBase表候选集；

由于上述每棵搜索树返回的结果都是一个N*K*128维的三维矩阵，N是建立树的数量，K是返回的近似近邻结果，128维是返回索引向量的长度，对N棵树的结果进行聚合的操作，按照出现的次数返回前K个近似近邻的结果；对于第一步得到的K个结果，使用余弦距离构建的叠加树则使用余弦公式计算向量之间的距离进行降序排序，组成第一个度量候选集；对于使用欧式距离构建的叠加树则使用欧式公式计算向量之间的距离进行降序排序，组成第二个度量候选集。

可选地，所述利用聚合重排序算法对候选集中的图像数据进行排序，包括：

衡量余弦距离和欧式距离对于图像特征语义向量的不同度量，返回都存在两个候选池中索引向量K1，并依次从第一个度量候选集选择(K-K1)/2个向量，从第二个度量候选集选择(K-K1)/2个向量，组成K个结果返回，根据返回结果的索引值进行排序，将索引值最低的图像数据作为图像搜索结果。

此外，为实现上述目的，本发明还提供一种基于大数据下的视频图像智能搜索系统，所述系统包括：

视频图像获取装置，用于获取视频流，并从中截取若干帧视频图像，并将所截取的视频图像写入HBase中；

图像处理器，用于利用多层逐级融合的特征提取模型对待搜索图像中的语义特征进行提取；

图像搜索装置，用于根据所提取的语义特征以及HBase表中的图像RDFS表述，通过构建多度量搜索树返回图像搜索的HBase表候选集，并利用聚合重排序算法对候选集中的图像数据进行排序，将索引值最低的图像数据作为图像搜索结果。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有图像搜索程序指令，所述图像搜索程序指令可被一个或者多个处理器执行，以实现如上所述的基于大数据下的视频图像智能搜索的实现方法的步骤。

相对于现有技术，本发明提出一种基于大数据下的视频图像智能搜索方法，该技术具有以下优势：

首先，由于HBase在创建数据表时，默认会在集群中的某一个RegionServer上自动建立一个Region分区，当客户端向HBase表中写数据时，默认都是将数据全部写入到该Region中，直到Region达到一定大小之后，HBase会对该Region进行split操作，将其分割成两个Region，并进行负载均衡。而Region的split操作是非常耗时的，这样可能会导致Region出现无法访问的情况，从而影响系统的写入性能。因此在创建HBase表时，本发明预先创建一些空的Regions，当向HBase写入视频图像数据时，会根据RowKey的散列分布，将图像数据写入到不同的Region中这样将减少大量的I/O操作，同时也可以实现整个集群内数据的负载均衡。

由于图像内容特征难以准确表达，即计算机的模型算法对图像特征的表达与人在视觉上的感知存在差异性，因此本发明提出一种多层逐级融合的特征提取模型，所述多层逐级融合的特征提取模型为卷积神经网络和深度编码器神经网络的联合模型，该网络结构由三个卷积块组成，每个卷积块都有两个卷积层、两个激活层和一个最大池化层，通过改进编码器网络，用无监督学习方法来学习重构输入，通过对卷积块输入和输出之间的残差进行调整，使每个卷积块的输出等于下一个卷积块的输入，不同的卷积块相当于不同的网络层级，通过逐级地进行特征的卷积操作，使得最后的输出特征为不同空间维度的语义特征的叠加，同时本发明在卷积块中增添正则归一化层和Dropout层，通过对语义特征进行归一化处理，相较于传统模型所得的语义特征，本发明所得语义特征的维度更低，能够更快的完成对图像内容的表达。同时由于传统自编码神经网络是包含输入层和输出层，仅有一层隐藏层的神经网络，并使得输出尽可能逼近输入，而对于高维数据向量表示成紧凑编码来说，自编码器单层的拟合能力不足以满足要求，因此本发明通过加深网络的隐藏层层数，对输入特征进行更多层次的特征层次分类，根据特征层次分类结果线性划分不同层次的语义特征，并根据语义特征层次的不同，对相同层次的语义特征进行相同的编码形式，有效区分语义特征的层次，并实现语义特征的编码。

附图说明

图1为本发明一实施例提供的一种基于大数据下的视频图像智能搜索方法的流程示意图；

图2为本发明一实施例提供的一种基于大数据下的视频图像智能搜索系统的结构示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所表述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

通过利用大数据技术完成图像数据的分布式存储，并将非结构化图像数据转化为结构化数据，实现图像数据的标注信息共享，同时提出一种多层逐级融合的特征提取方式进行图像特征的提取，根据所提取的图像内容特征，进行基于重排序的图像搜索。参照图1所示，为本发明一实施例提供的基于大数据下的视频图像智能搜索方法示意图。

在本实施例中，基于大数据下的视频图像智能搜索方法包括：

S1、获取视频流，从中截取若干帧视频图像，并将所截取的视频图像写入HBase中。

首先，本发明利用图像获取装置获取视频流，并从中截取若干帧视频图像；

进一步地，本发明将所截取的视频图像写入HBase中，所述将视频图像写入HBase的流程为：

4)在创建HBase表时，本发明预先创建一些空的Regions，当向HBase写入视频图像数据时，会根据RowKey的散列分布，将图像数据写入到不同的Region中；最后组合“RowKey，图像文件，图像名称，图像类型，图像采集时间，图像帧数”作为一行写入到HBase表中；

同时本发明在进行视频图像数据存储时，通过HBase客户端调用setAutoFlush(false)方法开启异步批量提交，即当向HBase表中写数据时，数据会先写入到客户端缓存，并立即返回写入成功；当客户端缓存达到一定的阈值后，会将客户端缓存中的数据批量的写入到RegionServer中。

S2、利用RDFSchema实现对视频图像的表述。

进一步地，本发明对视频图像实例的RDFS进行设计，通过自定义了三个名称空间，用来区分视频图像信息image、图像目标信息object以及目标坐标信息bndbox，其中名称空间image中一共涵盖了10个属性，名称空间object中涵盖了5个属性，名称空间bndbox中涵盖了4个属性；

根据所设计的RDFS，本发明对HBase表中所存储的图像进行表述。

S3、获取待搜索图像，利用多层逐级融合的特征提取模型对待搜索图像中的语义特征进行提取。

进一步地，本发明获取待搜索图像，利用多层逐级融合的特征提取模型对待搜索图像中的语义特征进行提取；

所述多层逐级融合的特征提取模型为卷积神经网络和深度编码器神经网络的联合模型，该网络结构由三个卷积块以及一个全连接块组成组成，每个卷积块都有两个卷积层、两个激活层和一个最大池化层，在三个卷积块之后，是一个全连接块，全连接块包括两层全连接层和一个分类输出层，通过改进编码器网络，用无监督学习方法来学习重构输入，通过输入和输出之间的残差进行调整，使输出等于输入，通过隐藏层的编码对这样抽象的特征捕获高效语义特征的表示。

在每一个卷积块中，都增加了正则归一化层和Dropout层，这两个层的作用不仅可以避免模型过拟合，而且使训练快速的收敛；通过对卷积块输入和输出之间的残差进行调整，使每个卷积块的输出等于下一个卷积块的输入，不同的卷积块相当于不同的网络层级，通过逐级地进行特征的卷积操作，使得最后的输出特征为不同空间维度的语义特征的叠加；

输入的待搜索图像通过6层的卷积层网络，除此之外，还包括了非线性激活，正则化以及池化等一系列操作，提取到图片数据集的中高级特征，之后经过2层全连接层和Softmax输出分类层进行有监督的训练。模型训练收敛之后，将第一层全连接层提取的2048维图像特征作为深度编码器网络的输入，得到图像语义特征的128维向量；

由于自编码神经网络是包含输入层和输出层，仅有一层隐藏层的神经网络，并使得输出尽可能逼近输入。然而，对于高维数据向量表示成紧凑编码来说，自编码器单层的拟合能力不足以满足要求，因此本发明通过加深网络的层数来拟合特征的紧凑编码。

S4、根据所提取的语义特征以及HBase表中的图像RDFS表述，通过构建多度量搜索树返回图像搜索的HBase表候选集。

进一步地，根据所提取的语义特征以及HBase表中的图像RDFS表述，本发明通过构建多度量搜索树返回图像搜索的HBase表候选集，所述多度量搜索树的构建过程为：

3)将集合C和集合D作为HBase表候选集。

详细地，由于上述每棵搜索树返回的结果都是一个N*K*128维的三维矩阵，N是建立树的数量，K是返回的近似近邻结果，128维是返回索引向量的长度，对N棵树的结果进行聚合的操作，按照出现的次数返回前K个近似近邻的结果；对于第一步得到的K个结果，使用余弦距离构建的叠加树则使用余弦公式计算向量之间的距离进行降序排序，组成第一个度量候选集；对于使用欧式距离构建的叠加树则使用欧式公式计算向量之间的距离进行降序排序，组成第二个度量候选集。

S5、利用聚合重排序算法对候选集中的图像数据进行排序，将索引值最低的图像数据作为图像搜索结果。

进一步地，本发明利用聚合重排序算法对候选集中的图像数据进行排序，将最高排名的图像数据作为图像搜索结果，所述利用聚合重排序算法对候选集中的图像数据进行排序的步骤为：

衡量余弦距离和欧式距离对于图像特征语义向量的不同度量，返回都存在两个候选池中索引向量K1，并依次从第一个度量候选集选择(K-K1)/2个向量，从第二个度量候选集选择(K-K1)/2个向量，组成K个结果返回，根据返回结果的索引值进行排序，，将索引值最低的图像数据作为图像搜索结果。

下面通过一个算法实验来说明本发明的具体实施方式，并对发明的处理方法进行测试。本发明算法的硬件测试环境为：系统是Ubuntu16.04，开源框架是TensorFlow1.6，处理器是英特尔i7-7700K，显卡是NvidiaGTX1080-Ti；对比方法为有监督的离散哈希算法、带核的有监督哈希算法以及迭代量化哈希算法。

在本发明所述算法实验中，数据集为CIFAR-10数据集，由60000个32×32的RGB彩色图片组成，整个数据集有10个类别标记。本实验通过将图像数据输入到算法模型中，将图像搜索的准确率作为方法可行性的评价指标。

根据实验结果，有监督的离散哈希算法的图像搜索准确率为81.31％，迭代量化哈希算法的图像搜索准确率为89.42％，带核的有监督哈希算法的图像搜索准确率为86.14％，本发明所述方法的图像搜索准确率为91.38％，相较于对比算法，本发明所提出的基于大数据下的视频图像智能搜索方法具有更高的图像搜索准确率。

发明还提供一种基于大数据下的视频图像智能搜索系统。参照图2所示，为本发明一实施例提供的基于大数据下的视频图像智能搜索系统的内部结构示意图。

在本实施例中，所述基于大数据下的视频图像智能搜索系统1至少包括视频图像获取装置11、图像处理器12、图像搜索装置13，通信总线14，以及网络接口15。

其中，视频图像获取装置11可以是PC(Personal Computer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。

图像处理器12至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。图像处理器12在一些实施例中可以是基于大数据下的视频图像智能搜索系统1的内部存储单元，例如该基于大数据下的视频图像智能搜索系统1的硬盘。图像处理器12在另一些实施例中也可以是基于大数据下的视频图像智能搜索系统1的外部存储设备，例如基于大数据下的视频图像智能搜索系统1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，图像处理器12还可以既包括基于大数据下的视频图像智能搜索系统1的内部存储单元也包括外部存储设备。图像处理器12不仅可以用于存储安装于视频图像智能搜索系统1的应用软件及各类数据，还可以用于暂时地存储已经输出或者将要输出的数据。

图像搜索装置13在一些实施例中可以是一中央处理器(Central ProcessingUnit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行图像处理器12中存储的程序代码或处理数据，例如图像搜索程序指令等。

通信总线14用于实现这些组件之间的连接通信。

网络接口15可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该系统1与其他电子设备之间建立通信连接。

可选地，该系统1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在基于大数据下的视频图像智能搜索系统1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-15以及基于大数据下的视频图像智能搜索系统1，本领域技术人员可以理解的是，图1示出的结构并不构成对基于大数据下的视频图像智能搜索系统1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，图像处理器12中存储有图像搜索程序指令；图像搜索装置13执行图像处理器12中存储的图像索索程序指令的步骤，与基于大数据下的视频图像智能搜索方法的实现方法相同，在此不作类述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有图像搜索程序指令，所述图像搜索程序指令可被一个或多个处理器执行，以实现如下操作：

利用RDFSchema实现对视频图像的表述；

需要说明的是，上述本发明实施例序号仅仅为了表述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的表述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于大数据下的视频图像智能搜索方法，其特征在于，所述方法包括：

利用RDF Schema实现对视频图像的表述；

2.如权利要求1所述的一种基于大数据下的视频图像智能搜索方法，其特征在于，所述将所截取的视频图像写入HBase中，包括：

3)在MapReduce任务的Map阶段，根据视频图像的命名规则，从视频图像名称中解析出视频图像的相关属性，并根据这些属性生成RowKey行键；

4)在创建HBase表时，本发明预先创建一些空的Regions，当向HBase写入视频图像数据时，根据RowKey的散列分布，将图像数据写入到不同的Region中；最后组合“RowKey，图像文件，图像名称，图像类型，图像采集时间，图像帧数”作为一行写入到HBase表中。

3.如权利要求2所述的一种基于大数据下的视频图像智能搜索方法，其特征在于，所述利用RDF Schema对视频图像的表述，包括：

对视频图像实例的RDFS进行设计，自定义三个名称空间，用来区分视频图像信息image、图像目标信息object以及目标坐标信息bndbox，其中名称空间image中涵盖10个属性，名称空间object中涵盖5个属性，名称空间bndbox中涵盖4个属性；

根据所设计的RDFS，对HBase表中所存储的图像进行表述。

4.如权利要求3所述的一种基于大数据下的视频图像智能搜索方法，其特征在于，所述多层逐级融合的特征提取模型为：

通过对卷积块输入和输出之间的残差进行调整，使每个卷积块的输出等于下一个卷积块的输入，不同的卷积块相当于不同的网络层级；

在卷积块的每一个卷积层后，都增加了正则归一化层和Dropout层。

5.如权利要求4所述的一种基于大数据下的视频图像智能搜索方法，其特征在于，所述利用多层逐级融合的特征提取模型对待搜索图像中的语义特征进行提取，包括：

输入的待搜索图像通过6层的卷积层网络，并进行非线性激活、正则化以及池化等一系列操作，提取到图片数据集的中高级特征；

经过2层全连接层和Softmax输出分类层进行有监督的训练，模型训练收敛之后，将第一层全连接层提取的2048维图像特征作为深度编码器网络的输入，得到图像语义特征的128维向量。

6.如权利要求1所述的一种基于大数据下的视频图像智能搜索方法，其特征在于，所述通过构建多度量搜索树返回图像搜索的HBase表候选集，包括：

3)将集合C和集合D作为HBase表候选集；

7.如权利要求6所述的一种基于大数据下的视频图像智能搜索方法，其特征在于，所述利用聚合重排序算法对候选集中的图像数据进行排序，包括：

8.一种基于大数据下的视频图像智能搜索系统，其特征在于，所述系统包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有图像搜索程序指令，所述图像搜索程序指令可被一个或者多个处理器执行，以实现如权利要求1至7中任一项所述的一种基于大数据下的视频图像智能搜索的实现方法的步骤。