CN105117502A

CN105117502A - 一种基于大数据的检索方法

Info

Publication number: CN105117502A
Application number: CN201510658014.7A
Authority: CN
Inventors: 郭亮; 惠孛
Original assignee: SICHUAN ZHONGKE TENGXIN TECHNOLOGY Co Ltd
Current assignee: SICHUAN ZHONGKE TENGXIN TECHNOLOGY Co Ltd
Priority date: 2015-10-13
Filing date: 2015-10-13
Publication date: 2015-12-02

Abstract

本发明提供了一种基于大数据的检索方法，该方法包括：采用分布式文件来存储图像的索引数据，将所有索引数据写入索引数据文件中，然后将索引数据文件分布存储到分布式文件系统的各个节点；采用MapReduce并行编程模型实现索引数据的检索，将检索空间划分成多个子空间，然后通过任务调度在各子空间进行并行检索，最后汇总形成最终检索结果。本发明提出了一种基于大数据的检索方法，通过分布式系统对图像数据的存储和检索过程进行了优化，提高了检索效率，克服了性能瓶颈。

Description

一种基于大数据的检索方法

技术领域

本发明涉及大数据处理，特别涉及一种基于大数据的检索方法。

背景技术

随着互联网和多媒体技术的蓬勃发展，图像检索逐渐成为用户获取信息的一种重要方式。图像容量一般都较大。在很多领域的应用中会产生大量的图像文件，随着高清化的普及，图像数据量势必会更大。需要对这些应用中产生的海量图像数据进行高效的存储和快速精确的检索。然而，目前的B/S架构的检索系统检索速度慢，并发性较差，且当图像数据和索引文件出现快速爆炸性增长时会造成性能瓶颈。

发明内容

为解决上述现有技术所存在的问题，本发明提出了一种基于大数据的检索方法，包括：

采用分布式文件来存储图像的索引数据，将所有索引数据写入索引数据文件中，然后将索引数据文件分布存储到分布式文件系统的各个节点；

采用MapReduce并行编程模型实现索引数据的检索，将检索空间划分成多个子空间，然后通过任务调度在各子空间进行并行检索，最后汇总形成最终检索结果。

优选地，在图像写入阶段，将图像数据直接写入分布式文件系统，而索引数据采用缓冲机制，当缓冲队列满或计时器时间到达时统一写入索引数据文件，并实现分布式存储；在主节点内存中建立索引数据缓冲区，索引数据记录项以顺序写方式写入，缓冲区中以索引数据记录为单位，索引数据以追加的方式写入缓冲，当缓冲队列满或计时器时间到达时，以缓冲区为单位进行分布式位置分配，将整个缓冲区的索引数据记录通过对缓冲区头结构中的标识信息作散列运算，找到索引数据文件在分布式文件系统中的对应存储节点，并将索引数据文件存储到相应的节点上。

优选地，所述通过任务调度在各子空间进行并行检索，还包括：

指定索引数据的n个数值属性A_i的顺序，其中i∈[1…n]，并将数值属性A_i值域划分为D_i个子域，建立多属性的排序层次树；

第1层为根节点；第2层为属性A₁的所有子域，按照从左到右由小到大排序；第3层对第2层的每一个节点均按属性A₂的子域从左到右由小到大排序；第(n+1)层对第n层的每一个节点按属性A_n的子域从左到右由小到大排序，则第(n+1)层共有B个叶子节点，B值计算公式为

对所有叶子节点按照从左到右的顺序分别进行编号，对任意元组t在属性A₁、A₂、…、A_n上的取值均映射到图中的一个叶子节点，将该叶子节点的编号记作元组的排序值R∈[1…B]，且任何包含属性A₁、A₂、…、A_n的检索条件也具有唯一的排序值R′；

确定元组的排序之后，在每一个数据节点建立一个长度为B的叶节点索引，对本地元组的存在情况进行指示，检查本地所有的元组，若至少存在一个排序值为R∈[1…B]的元组，则将叶节点索引的第R位设置为1，否则设为0；

检索进行时，首先根据检索条件在指定属性上的取值，生成检索条件的排序值R′，检索在数据节点进行时，通过指示叶节点索引来判断该数据节点是否满足检索条件的元组记录，查找指示叶节点的第R′位，若为1，继续在该节点检索；若为0，直接返回空值。

本发明相比现有技术，具有以下优点：

本发明提出了一种基于大数据的检索方法，通过分布式系统对图像数据的存储和检索过程进行了优化，提高了检索效率，克服了性能瓶颈。

附图说明

图1是根据本发明实施例的基于大数据的检索方法的流程图。

具体实施方式

下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明，但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定，并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节，并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。

本发明的一方面提供了一种基于大数据的检索方法，实现海量图像大数据的分布式存储和精确快速检索。图1是根据本发明实施例的基于大数据的检索方法流程图。

针对海量图像数据的存储和检索需求，本发明组建计算机集群，在集群上搭建高效、可靠、可扩展的Hadoop平台，组成Hadoop集群。Hadoop集群采用主从式结构，由一个主节点和多个从节点构成。主节点用于集群中所有的任务调度和任务分配。从节点对主节点分配的任务进行计算和数据存储。从节点周期性地向主节点报告心跳，若主节点在一定的时间期限内未收到从节点的心跳信息，则视该节点为无效节点，然后自动对计算任务进行重新部署和分配。

在此架构之上，数据存储层利用分布式文件数据库的数据管理对海量图像数据进行分布式存储和建立分布式访问索引，数据处理层采用MapReduce编程模型将图像数据进行分块，在Hadoop集群中的节点上进行处理，提取图像特征、进行图像匹配等计算。这些对用户是完全透明的，用户只需在客户端提交检索请求，Web服务器接收用户输入的实例或图像特征，将其提交给Hadoop集群进行计算，然后通过Web服务器返回检索结果。

图像检索系统主要由分布式特征提取、分布式检索和用户接口等部分组成。首先将图像文件存储在HDFS分布式文件系统的图像库中。然后对图像文件进行预处理，将图像数据分割成一个个元素，然后从元素中提取元素特征。对图像进行特征提取后，利用MapReduce计算模型建立特征索引，并将索引文件和图像文件存储在分布式文件数据库上。用户向系统提交查询请求，用户接口对提交的实例或图像特征进行特征提取，与特征索引库中的图像特征进行相似度比较后将匹配结果发送给用户。因此，用户可以根据自己的满意度向系统给出自己的反馈样本信息，将用户知识融入到查询中，系统根据反馈样本再次进行检索，直至满足用户的图像检索需求。

海量图像数据集的大小已经完全超过一台独立物理计算机的存储能力。本发明的解决方案是先将图像上传至HDFS文件系统中，然后对图像进行预处理，再存储到分布式文件数据库中。以HDFS分布式文件系统作为底层数据存储支持，用分布式文件数据库来实现海量图像文件的分布式存储和高并发实时读写。

本发明设计将一个图像的整体信息作为表的一行存储在分布式文件数据库中。将行关键字(RowKey)和列关键字(ColumnKey)作为特征表的索引。将图像ID作为RowKey(即主键)，图像属性保存两列：一列为原图像ID，另一列为图像快照；图像特征属性有三列，分别为颜色特征、纹理特征和尺寸特征。在对图像进行存储时，按照建立时间来对数据进行排序，建立时间用数字表示。也就是说，如果存储的数据进行修改，则旧版本数据和新版本数据都会被存储在分布式文件数据库中，以建立时间来区分它们。查询时如果不提供建立时间，则返回最近版本的数据。

图像的具体存储过程为：

(1)将采集的图像文件上传到HDFS上，在上传时，每个图像文件会生成唯一的图像ID，作为图像标识。

(2)检测图像文件是否被损坏，若被损坏，将该图像的ID标记为无效ID，并将无效ID输出到HDFS文件系统中。通过读取这些文件来获知无法存储的图像文件。若没被损坏，则允许正常上传。

(3)提取HDFS中的图像的特征，包括颜色、纹理、尺寸特征，并为每个图像生成图像快照。

(4)将图像ID、图像快照、颜色特征、纹理特征、尺寸特征索引写入到分布式文件数据库中。

提取图像特征是实现基于内容的图像检索的前提，对于提高图像检索效率有着非常大的影响。从图像中提取图像特征的过程包括：

首先进行图像结构分析：对图像进行分割，通过突变检测和渐变检测分离出元素，此时，可以从元素中提取出图像的位置特征；然后根据预定的规则从分离出的元素里提取能代表元素关键内容的关键像素点，本发明中关键像素点通过计算元素中所有像素的平均值来获取，之后可以从关键像素点的集合中来提取颜色特征、形状特征、纹理特征。上述特征共同构成描述图像内容的特征空间。在提取关键像素点后需要对图像进行聚类，根据相关性关系将时间连续和内容相近的元素重新进行组合。

以下给出相似度计算公式。设图像库中有N个图像，则库中图像可用P_i(i∈{1，2，…N})来表示，C_i，G_i，S_i，M_i分别表示颜色、纹理、形状、位置特征，用户提交的待检索的图像实例用P₀表示，其颜色、纹理、形状、位置特征分别用C₀，G₀，S₀，M₀来表示，待检索图像与第i个图像的相似度用D(P₀，P_i)表示，则相似度计算公式如下：

D(P₀，P_i)＝w₁D_c(C₀，C_i)+w₂D_G(G₀，G_i)+w₃D_S(S₀，S_i)+w₄D_M(M₀，M_i)其中，D_c,D_G,D_S,D_M分别为P₀，P_i两个图像在颜色、纹理、形状、位置上的相似度。w₁，w₂，w₃，w₄为各特征的权重，其值可以进行调整，但要满足w₁+w₂+w₃+w₄＝1。

对图像特征进行相似度计算的工作量是非常大的。本发明利用MapReduce编程模型来进行相似度计算和相似度匹配，从而实现分布式文件数据库中海量图像的分布式检索。

将对大规模图像数据的操作分发给主节点下的各个分节点去完成。在map阶段，MapReduce将图像数据分割成固定大小的分片，然后将每个分片分解成多个键值对<K₁，V₁>，并将其作为map函数的输入，得到中间结果<K₂，V₂>，然后按照K₂继续排序，并key值相同的value放在一起形成一个新列表<K₂，list(V₂)>。输入的<K₂，list(V₂)>对经过reduce函数的处理后得到键值对<K₃，V₃>，将其输出到HDFS上。

在本发明的MapReduce检索函数中，定义map的输入为<图像ID，特征值>，输出为<相似度，图像ID>，reduce端的输出为与用户提取的图像特征值相似度最高的<相似度，图像ID>。

MapReduce检索函数的过程为：

(1)在map端，读取用户检索的图像，判断其是否满足检索条件，若满足则计算其特征值，与分布式文件数据库中的图像进行特征相似度匹配计算，输出中间结果<相似度，图像ID>，将其写入本地存储器；若不满足检索条件，则输出空键值对。

(2)对map端输出的键值对<相似度，图像ID>按照相似度进行分组和排序，然后输入到reduce端。

(3)在reduce端，执行任务的reduce节点收集各个map节点任务的结果，并对匹配结果按照相似度的值由大到小进行排序，然后将最终匹配结果的目标快照输出到HDFS中。用户点击图像快照即可查看目标图像。

对于数据存储，由集群服务器和终端接入到图像检索系统，作为数据存储层，集群中对等的各个服务器节点由系统注册服务统一分配令牌号，通过一致性散列算法计算得到各服务器的数据点存储范围。

系统的数据存储流程可分为以下3步：

(1)终端通过轮询或事件触发方式获取当前实时数据，索引数据

(2)通过用户配置的数据点组态将实时数据上传至集群服务器。

(3)集群服务器的管理节点将实时数据中的数据点名转换为数据点ID，并按照一致性散列算法建立数据点ID与物理服务器的映射，从而将数据发送至指定的服务器节点中。

为保障海量数据写入存储服务器的实时性，对数据上传机制进行如下优化：

(1)将终端进行分组，并按组名建立与物理服务器的映射，终端在向集群管理节点进行存储定位后，直接连至指定的物理服务器，从而尽量减少不必要的数据转发。

(2)终端在数据写入第一个物理服务器的内存缓存后即认为写入成功，由该服务器节点执行后继的冗余备份流程，从而减少了数据发送时的阻塞等待时间，在满足高可用性的前提下提升了系统吞吐量。

为保障数据服务的可用性，需要对历史数据存储进行冗余备份。系统默认的副本数量为1，备份数据与主副本数据存储在不同的物理服务器，存储规则由主副本对应节点所加载的脚本实现。

当记录容量达到缓存页面大小后，或者超过最大缓存时间后，存储归档服务在执行本地数据持久化的同时，将缓存数据发送至指定的备份节点。通过存储数据时附加的管理信息进行数据一致性的快速判定和缺失数据的准确定位。

当出现存储异常导致多个副本间产生差异时，需要数据存储检索机制支持备份同步、差异快速定位。本发明利用基于多版本控制的数据管理：

以固定长度的页面(通常为1kB或4kB)为最小单元进行数据管理，页面类型包括数据记录页、索引信息页和版本信息页。数据记录页记录该数据点在某段时间的实时值、质量码与建立时间，当该页记录过程发生异常时不会切换页面，而是使用累加的版本号和异常发生时的页面记录偏移量进行标识；索引信息页记录了数据记录页的简要信息，如数据记录页的版本变化标识、页面编号和时标索引等；版本信息页记录了各版本号对应的起止时间、所关联的数据记录页起始编号及其页面记录偏移量等信息。各页面间以链表方式进行关联，便于指定时间段存储数据的快速定位。

由主副本对应节点在数据页写入磁盘的同时将其发送至指定的单个或多个备份节点，从而实现多重副本的写入操作。各备份节点对接收到的数据记录页的处理流程与主副本完全相同，并在页面成功写入磁盘后通过特定消息告知主副本对应节点。

同时，在各备份节点定期进行自检操作，通过检测指定数据点所有版本编号的连续性，以及各版本中所有数据记录页编号的连续性，可以快速确认是否存在数据缺失。如果数据是完整的，则在结果文件中记录当前的检测位置，防止已检测的数据内容被重复检测，否则将发起修复操作。

(1)与主副本对应节点进行协商，确定缺失的数据记录页对应的编号范围。

(2)向主副本对应节点请求缺失的数据记录页，在获取到所有页面后追加写入当前归档文件，并修改索引信息页中维护的时标索引信息。

(3)如果存在版本号变化，则对应的版本信息页也将进行同步，以保证所有版本编号的连续性。

当用户在组态中添加节点时，集群管理节点通过一致性散列算法计算得到该新增节点的数据存储范围。随后该新增节点向原主副本对应节点请求存储范围内的所有数据记录页，而获取到数据记录页之后的处理流程与主副本完全相同。

由于查询请求首先到达集群管理节点，需要由集群管理节点在处理查询请求时进行负载均衡，防止某一存储服务器负荷过重，而对应的备份节点却处于空闲状态的现象发生。集群管理节点确定查询目标服务器后，由查询客户端直接向对应的服务器进行本地查询。

进入本地数据查询流程后，通过相互链接的索引信息页中记录的时标索引，可以快速定位到指定时间范围内的数据存储位置。如果页面的版本变化标识被设置，说明该页面中混合存放有正常数据和异常数据，如果不加以区分而直接按时间顺序进行拟合，将产生错误的拟合结果。

通过版本信息页进行时序数据的版本控制，在版本发生变化的区间使用最新版本的数据进行拟合，从而避免正常数据与异常数据混合交错导致错误的查询拟合结果。

来自查询客户端的查询请求首先被提交给集群管理节点，由集群管理节点依据查询时间长度决定是否将查询请求进行分解。如果查询时间跨度过大，则将原始查询请求按时间范围分解为多个子查询请求，并按一致性散列算法指派给多个存储服务器节点。查询客户端获取到应答信息后，与每个存储服务器节点建立直连，分别完成各自的本地数据查询流程。如果不需要进行查询请求分解，则按负载均衡算法在主从备份节点中选择合适的单个存储服务器进行后继查询。

各数据存储服务器在接收到本地查询请求后，将依据版本信息页中的内容判断查询时间范围内是否存在版本更新。如果该时间段内的过程数据属于同一版本，则直接由索引信息页定位到实际存储位置进行数据读取，否则将按各版本更替时间点进行查询范围分割，各分割区间内使用最新版本的数据进行拟合，从而完成本地数据查询流程。

根据上述分布式文件数据库的存储方式，本发明进一步采用分布式文件来存储图像的索引数据，所有索引数据写入文件中，然后将索引数据文件分布存储到各节点，在各节点将索引数据加载到内存中进行处理，极大地减轻了主节点的压力。

在写入阶段，图像数据和索引数据并不是同步写入，而是采用I/O通道分离的方式：图像数据直接写入分布式文件系统，索引数据采用缓冲机制，等缓冲队列满或计时器时间到，再统一写入索引数据文件，并实现分布式存储。

在主节点内存中建立索引数据缓冲区，索引数据记录项以顺序写方式写入缓冲区。缓冲区中以索引数据记录为单位，索引数据缓冲机制为，缓冲区头结构中存在唯一标识此次缓冲的信息。索引数据以追加的方式写入缓冲，当缓冲区中的索引数据记录达到某一阈值或者计时器时间到，存储系统以缓冲区为单位进行分布式位置分配，将整个缓冲区的索引数据记录通过对缓冲区头结构中的标识信息作Hash找到索引数据文件在分布式文件系统中的对应存储节点，并将索引数据文件存储到相应的节点上。索引数据存储单元索引数据缓冲区。

为加快分布式文件系统中的索引数据检索，采用并行程序来检索索引数据。并行检索程序将检索空间划分成多个子空间，然后通过任务调度在各子空间进行并行检索，最后通过汇总形成最终结果。本发明采用Hadoop框架中的分布式文件系统HDFS为小文件索引数据提供大量可扩展的存储空间，并采用MapReduce并行编程模型对小文件索引数据的并行检索进行了实现。通过在多属性上建立分布式局部叶节点索引可以对并行检索进行优化。

考虑在索引数据的数值属性A₁、A₂、…、A_n共n个属性上进行排序，属性值必须是数值型或能转化为数值形式(连续或离散的数值属性值均可以采用区间划分，非数值型属性值转化为数值型)。首先指定属性A_i(i∈[1…n])的顺序，并将数值属性A_i值域划分为D_i个子域，接下来建立多属性的排序层次树：

对所有叶子节点按照从左到右的顺序分别进行编号，对任意元组t在属性A₁、A₂、、A_n上的取值都可以映射到图中的一个叶子节点，将该叶子节点的编号记作元组的排序值R∈[1…B]，且任何包含属性A₁、A₂、…、A_n的检索条件也具有唯一的排序值R′。

确定元组的排序之后，需要在数据节点建立局部叶节点索引，在每一个数据节点建立一个长度为B的叶节点索引，叶节点索引只与本地元组的情况有关，只采用局部指示索引来对本地元组的存在情况进行指示。检查本地所有的元组，若至少存在一个排序值为R∈[1…B]的元组，则将叶节点索引的第R位设置为1，否则设为0。这样仅通过一个长度为B的叶节点就可以实现对本地所有元组在属性A₁、A₂、…、A_n上的指示。

建立叶节点索引后，利用其进行检索必须是输入的检索条件包含建立了叶节点索引的数值属性上的取值。检索进行时，首先根据检索条件在指定属性上的取值，生成检索条件的排序值R′，检索在数据节点进行时，通过指示叶节点索引来判断该数据节点有没有满足检索条件的元组记录，查找指示叶节点的第R′位，若为1，表示该节点可能存在满足条件的元组，继续在该节点检索；若为0，表示该节点不存在满足条件的元组，直接返回空值，不进行该节点的检索任务。通过以上叶节点索引机制，可以有效避免大量返回空集的检索任务，在节约了检索资源的同时，提高了检索效率。

综上所述，本发明提出了一种基于大数据的检索方法，通过分布式系统对图像数据的存储和检索过程进行了优化，提高了检索效率，克服了性能瓶颈。

显然，本领域的技术人员应该理解，上述的本发明的各模块或各步骤可以用通用的计算系统来实现，它们可以集中在单个的计算系统上，或者分布在多个计算系统所组成的网络上，可选地，它们可以用计算系统可执行的程序代码来实现，从而，可以将它们存储在存储系统中由计算系统来执行。这样，本发明不限制于任何特定的硬件和软件结合。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于大数据的检索方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在图像写入阶段，将图像数据直接写入分布式文件系统，而索引数据采用缓冲机制，当缓冲队列满或计时器时间到达时统一写入索引数据文件，并实现分布式存储；在主节点内存中建立索引数据缓冲区，索引数据记录项以顺序写方式写入，缓冲区中以索引数据记录为单位，索引数据以追加的方式写入缓冲，当缓冲队列满或计时器时间到达时，以缓冲区为单位进行分布式位置分配，将整个缓冲区的索引数据记录通过对缓冲区头结构中的标识信息作散列运算，找到索引数据文件在分布式文件系统中的对应存储节点，并将索引数据文件存储到相应的节点上。

3.根据权利要求2所述的方法，其特征在于，所述通过任务调度在各子空间进行并行检索，还包括：