CN105117497A

CN105117497A - 基于Spark云网络的海洋大数据主从索引系统及方法

Info

Publication number: CN105117497A
Application number: CN201510626937.4A
Authority: CN
Inventors: 黄冬梅; 赵丹枫; 孙乐; 郑小罗; 徐慧芳; 许琼琼
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University; Shanghai Ocean University
Priority date: 2015-09-28
Filing date: 2015-09-28
Publication date: 2015-12-02
Anticipated expiration: 2035-09-28
Also published as: CN105117497B

Abstract

本发明涉及一种基于Spark云网络的海洋大数据主从索引系统及方法，尤其适用于具有空间自相关性、强相似性、实时等特点的海洋大数据；将大数据时代物联网、云计算等技术应用于分布式索引领域，以物联网作为海洋信息采集的触角，依托聚类思想设计数据划分策略，并将数据分布式部署和存储到各物理云；结合多层主从索引结构实现多源海洋数据快速一站式调用，满足各类海上预警及应急模型中高性能计算、强实时反馈、高频度查询等需求。采用该种结构的基于Spark云网络的海洋大数据主从索引系统及方法，以物理云存储为基础，保证了多源数据毫秒级查询响应需求，从而聚焦快速实时灾害反演及预警，加快了海洋防灾减灾等的数字化和信息化进程。

Description

基于Spark云网络的海洋大数据主从索引系统及方法

技术领域

本发明涉及数据处理领域，尤其涉及大数据处理，具体是指一种基于Spark云网络的海洋大数据主从索引系统及方法。

背景技术

我国海洋建设主要把握四个目标：管理、共享、决策及服务，然而我国在建设信息化平台的过程中仍存在诸如海洋信息资源整合标准不完善、信息传输渠道不顺畅、数据访问通信差等问题。大数据技术的发展，组织网络的复杂，日益加重了海洋信息的处理压力，主要表现在：1、随着海洋物联网的大规模布局，诸多信息平台针对秒级数据处理及数据访问的压力日益加剧；2、海上应急及预警应用对实时性及精确性也日益增加，数据高频率、高强度的查询难以得到保证；3、传统封闭式链路制约了海洋信息互联，各物理设备之间的访问增加了大量的时间和空间开支。因此，如何实现快速、全面、实时的获取数据成为本领域技术人员迫切解决的技术问题。

发明内容

本发明的目的是克服了上述现有技术的缺点，提供了一种将物联网基于一致性哈希串联起来、通过云计算实现查询请求的分配和平衡、从而提高动态网络布局下平台的查询性能和稳定性的基于Spark云网络的海洋大数据主从索引系统及方法。

为了实现上述目的，本发明的基于Spark云网络的海洋大数据主从索引系统及方法具有如下构成：

该基于Spark云网络的海洋大数据主从索引系统，其主要特点是，所述的系统包括：

数据采集及布局模块，用以采集数据并对采集到的数据进行云布局；

数据动态融合模块，用以基于样本驱动的数据融合机制确定数据的物理布局；

数据自适应划分模块，用以聚类符合用户需求导向及敏感的数据；

数据时态主从索引模块，用以基于Spark云网络服务框架，依托时间维度为延伸载体，响应客户端的查询并进行查询处理。

进一步地，所述的数据采集及布局模块包括数据采集网络；所述的数据采集网路集成包括台站、浮标、船舶、卫星的海洋环境监测数据，并形成一致性哈希访问链路。

本发明还涉及一种基于Spark云网络的海洋大数据主从索引方法，其主要特点是，所述的方法包括以下步骤：

(1)数据采集及布局模块采集数据并对采集到的数据进行云布局；

(2)数据动态融合模块基于样本驱动的数据融合机制确定数据的物理布局；

(3)数据自适应划分模块聚类符合用户需求导向及敏感的数据；

(4)数据时态主从索引模块基于Spark云网络服务框架，依托时间维度为延伸载体，响应客户端的查询并进行查询处理。

进一步地，所述的步骤(1)具体为：

所述的数据采集及布局模块集成包括台站、浮标、船舶、卫星的海洋环境监测数据采集网络，组成一致性哈希访问链路。

进一步地，所述的步骤(2)具体包括以下步骤：

(2.1)数据动态融合模块通过训练采集到的数据以获取数据的特征及内部规律；

(2.2)数据动态融合模块根据采集到的数据的空间自相关性及空间异构型将各类数据存储到各分布式计算平台上。

进一步地，所述的步骤(3)具体为：

所述的数据自适应划分模块以需求为导向和以用户行为为基础，动态分配和划分各计算节点内部数据。

进一步地，所述的，响应客户端的查询并进行查询处理，具体包括以下步骤：

(4.1)数据时态主从索引模块响应客户端的查询；

(4.2)查询接收器通过时态主索引找到所有与待查询数据相关的节点，并建立查询链接；

(4.3)执行并行化的局部索引搜索，并将最终的数据返回到客户端。

采用了该发明中的基于Spark云网络的海洋大数据主从索引系统及方法，该发明中提出的一种基于关键字B⁺-tree和L-RR*的主从复合索引架构，以物联网作为海洋信息采集的触角，初次提出了海洋物理云部署，并基于云架构实现了多源空间数据的快速获取及查询，提供数据的一站式调用服务。通过实证分析及运用，该方法通过挖掘海洋数据布局及特征以准确高效地建立适用于海洋大数据的分布式索引技术，结合Spark云平台保证了系统高性能计算及实时信息查询响应。

附图说明

图1为本发明的海洋大数据分布式索引总层次图。

图2为本发明的海洋大数据主从索引框架。

图3为本发明的海洋物联网云布局示意图。

图4为本发明的动态数据融合策略示意图。

图5为本发明的基于磁盘的LL-R*树局部索引示意图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

本发明的技术任务是按以下方式实现的：一种基于Spark的海洋大数据主从索引策略，包括海洋物理网云布局、数据动态融合、数据自适应划分以及主从索引结构。

所述海洋物联网云布局方法以一致性哈希方式组织形成物理云，并根据一致性网络规则实现各数据中心计算节点的实时互动，以保证访问效率。所述数据动态融合方法以数据为驱动，计算数据源内部区间距离差，以实现数据源的合理划分，并将其分布到各相关节点，形成以用户行为为导向的数据分布特征。所述数据自适应划分方法用于动态调节各计算节点内部数据资源，即解决了节点内部数据块碎片化问题，同时提高了局部关联数据的访问效率。所述主从索引结构，实时反馈用户查询请求，保证实时化、精确化和快速化的系统响应。

由于信息平台的运行环境时刻在变化，海洋物理网数据实时传输，对于给定的索引结构，其快速的查询请求会造成系统查询资源的匮乏，导致查询请求排队延迟，为了解决网络并发访问问题，本发明通过将物联网基于一致性哈希串联起来，通过云计算实现查询请求的分配和平衡，从而提高动态网络布局下平台的查询性能和稳定性。

在图1，是具有五层体系的海洋大数据主从索引结构(ML-Cloud)，其中底层表示为Spark云服务平台，部署于可横向拓展的服务器集群上。第二第三层为整个索引结构的核心，其中第二层为时空传感器数据索引生成器和响应器。其索引框架如图2所示，索引生成器封装了基于MapReduce的批量并行操作符用于准实时建立、更新以及重组索引，当传感数据进入HBase后触发该装置；响应器接受来自客户端的查询请求，当客户端请求数据时，索引响应器首先解析查询参数并定位其空间范围和时间间隔(关键字B+树)，并将相关消息传送至工作节点，交由L-RR*完成剩余数据解析。第三层为分布式缓冲区管理器(Cache)，置入部分L-RR*索引于内存挂起，同时由自适应划分(如图5)所得的高频热点数据也将常驻内存以保证实时数据检索。顶层为数据传输通道和收集器(Tunnel)，由一体化的海洋物联网布局所得，通过一致性哈希原则将其转换成网络互联的物理云(如图3)，传感器采集数据后，进入Tunnel形成若干个实时的先进先出(FIFO)队列，且每一队列接受来自传感网络的数据对象或数据流；当数据聚集到一定规模时(nvQv，nv为队列的数量，Qv为单一队列的数据容量)，可通过数据动态融合策略(如图4)将数据有规律地分布式存储到各个计算节点上。

在图2，海洋大数据主从索引结构由基于HBase的关键字B+树索引组成和基于磁盘的L-RR*树组成，以实现高吞吐量的数据访问和准实时的数据检索。全局索引的叶子结点指向局部L-RR*索引树的根结点，当查询请求响应挂起时，局部索引对象将会被置入内存缓冲区，且所有计算节点和workers都以并行的方式计算各自的中间结果，主从节点收集来自任务追踪器的反馈结果并将最终结果传输到客户端。

在图3，给出了海洋物联网云布局模式，每个监测站点以一致性哈希的网络方式组成新一代的物理云结构。每一个从节点表示为一个计算节点(数据中心)，且为每一节点由两部分内容组成，Node＝concatenate(HashobjID，L-RR*)：(1)计算节点由网络的形式组织，并对每一个节点其进行一致性哈希编码，得到一个固定的HashobjID作为其索引缓冲区(indexbuffer)的标识符，节点间通过网络地址互相对等访问；(2)为每一节点建立对应的局部索引L-RR*，如图5所示，以实现数据的高效管理以及查询响应。每一个计算节点都享有一个独立存储空间，主节点(MasterNode)负责发送及接受查询请求。

在图4，给出了动态数据融合方法(AdaptiveMethodofDataMergingStrategy)示意图；给定m个连续区间I₁，…，I_m，及其各自参考中心值c₁，…，c_m，计算每一区间内部距离差Dist(I_k，c_k)，初始由各相邻区间的参考中心值的距离差决定，其次可通过计算每一区间的属性值出现频次作进一步判断，并逐步合并Diff差值最小的两个相邻区间(I_t，I_t+1)，I_t＝I_t∪I_t+1，最终获取新数据区划I₁，...，I_m′，为了提高数据利用率及查询效率，可将划分后的数据分布式存储到相应的计算节点。执行动态数据融合需满足以下规则：

(1)如若每个数据区间的密度超出磁盘或者单个数据块的空间容量，即N＞S_t/cs_t；

(2)如若每对相邻区间其参考中心值距离差大于特定值，则不可能出现在同一组域内，其中表示为数值属性中相邻值间的平均距离。

在图5，基于数据自适应划分(AdaptiveSpacePartition)的L-RR*树。给定数据自适应划分结果，依次选择时态区间，确定M维属性空间，将数据映射到数据立方体，计算各个单元的数据饱和度θ，并设定饱和度阈值μ，当θ＞μ，则进一步划分目标子空间，迭代计算直至所有数据单元被均匀划分且所有数据块得以最大化使用，其中空间单元c_i饱和度S_i为该单元c_i当前容纳的数据点的数目，cs_i表示空间单元c_i的可存储空间，并使用RR*-Tree索引该空间划分，如图5所示。该方案可进一步加快查询计算节点查询响应能力，提高局部数据搜索效率。

然而数据存储之后其价值通常随着时间变化，数据的价值与数据在存储系统中存储的时间长度和数据访问频率具有高相关性。本方案借由数据自适应划分实现数据的迁移及存储平衡。假设现有若个数据计算节点，记为集合其中Pric_i表示编号为i的数据节点，c_i表示数据节点的可存储空间。在存储系统中，从数据被创建之后，数据每次被访问的时间集为{t₁，t₂，…，t_n}，当前时间是t，数据每次被访问距离当前时刻的时间长度为t﹣t₁，t﹣t₂，…，t﹣t_n，记上述的时间长度依次为T₁，T₂，…，T_n，则对于该数据集D的时间T为：且在T_k﹣T_k-1时间段内数据存取热度为f_k﹣f_k-1，记为数据访问频率F，组合上述因子，计算函数S表示为数据集D的大小，可依次合并相邻且M(D)数值差在0.5以内的数据集区间，完成数据迁移并得到优化后的时态分区，或转移MAX(M(D))的局部数据集到特定物理(云)设备并常态驻于Cache可提高系统访问效率，我们把上述方法称之为数据自适应划分模式。(注：M(D)越大，其数据重要性越高，再次访问的可能性越大)。

在查询处理过程中，并行局部索引搜索模式执行步骤如下：主节点发送查询请求，首先由HashobjID找到对应数据区间<KeyID,CF:Spatial,CF:Timestamp,CF_attr_v_1,CF_attr_v_2,···,CF_attr_v_n>，分别分配至各个worker，转换成工作节点并载入内存缓冲池挂起，遍历时为了保证工作效率，先扫描Cache(根据数据访问频率，仅仅部分的数据被预先抓取到Cache中)后交由TaskTracker传输下一步搜索命令；其次，由L-RR*进一步缩小数据区间且筛选数据，(1)如果该区域的范围正好是查询范围的子域，则直接扫描这个区域。(2)否则当与给定的区域的范围的重叠度大于给定阈值时，则需扫描整个区域并且使用相应的查询条件筛选数据。各工作节点并行执行命令，并计算各自中间结果，最终主节点收集TaskTracker结果并返回至客户端。该方法是一种启发式搜索原则，初始阈值ε为0.75，防止ε设置过小返回父结点重新遍历搜索。通过不断地训练数据集，ε集不断收敛，并由MAX(M(D))决定。

在一种实施方式中，基于Spark云网络的海洋大数据主从索引系统及方法，包括以下几个步骤：

步骤一：对站点数据进行预处理及云布局；

步骤二：利用样本驱动的数据融合机制确定数据物理布局；

步骤三：采用优化后的数据时态分区构建Spark环境下的主从索引结构；

所述数据采集及布局模块以物联网作为海洋信息采集的触角，采用云网络进行物理空间布局，形成了一套从数据生产到组织、存储、查询、分析、服务的完整处理流程。所述物理空间布局是指依托海洋物联网，以采集站点为信息触角，采用哈希方式串联全方位的数据监测中心，形成一体化的数据采集网络布局。

所述数据动态融合模块用于海量多源异构海洋数据的分布式存储和融合，通过对采集样本不断地训练，并根据其内部特征、规则库分布到各物理云上，实现数据资源的一站式协同管理。数据通过传感网络批量传入存储设备，通过数据融合算法计算每一批次数据区间内部距离差为其内部特征衡量标准，定义规则库，例：如若该批次数据内部距离小于训练历史数据集的平均距离乘以3，且存入数据单元可用空间满足目标需求，则可将该数据流传入对应的物理云存储设备。

所述的数据自适应划分模块用于弹性调节海洋数据存储节点的深度，聚类符合用户需求导向及敏感的数据对象。

所述的数据时态主从索引模块用于对存储在HDFS上的信息进行快速查询，保证实时化、精确化和快速化的系统响应。

所述的数据采集及布局模块集成包括台站，浮标，船舶，卫星等海洋环境监测的数据采集网络，组成一致性哈希访问链路，以充分调用云服务资源。

所述的数据动态融合模块通过训练采集数据获取数据的特征及内部规律，根据其空间自相关性及空间异构型等特点，依托海洋信息交换和综合集成，将各类数据合理存储到各分布式计算平台上，以提高数据查询效率。

所述的数据自适应划分模块以需求为导向和用户行为为基础，动态分配和划分各计算节点内部数据资源，该策略能及时转移局部数据，以保证存储节点的深度一致及负载平衡，提高数据的利用率及数据池的访问效率。

所述的数据时态主从索引模块基于Spark云计算服务框架，依托时间维度为延伸载体，建立查询场景。查询处理主要分为两个步骤：首先，查询接收器通过时态主索引找到所有与之相关的节点，并建立查询链接。第二步，执行并行化的局部索引搜索模式，并将最终的信息返回到客户端。

采用了本发明的基于Spark云网络的海洋大数据主从索引系统及方法，该发明中提出的一种基于关键字B⁺-tree和L-RR*的主从复合索引架构，以物联网作为海洋信息采集的触角，初次提出了海洋物理云部署，并基于云架构实现了多源空间数据的快速获取及查询，提供数据的一站式调用服务。通过实证分析及运用，该方法通过挖掘海洋数据布局及特征以准确高效地建立适用于海洋大数据的分布式索引技术，结合Spark云平台保证了系统高性能计算及实时信息查询响应。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种基于Spark云网络的海洋大数据主从索引系统，其特征在于，所述的系统包括：

2.根据权利要求1所述的基于Spark云网络的海洋大数据主从索引系统，其特征在于，所述的数据采集及布局模块包括数据采集网络；所述的数据采集网路集成包括台站、浮标、船舶、卫星的海洋环境监测数据，并形成一致性哈希访问链路。

3.一种基于权利要求1或2所述的系统实现基于Spark云网络的海洋大数据主从索引方法，其特征在于，所述的方法包括以下步骤：

4.根据权利要求3所述的基于Spark云网络的海洋大数据主从索引方法，其特征在于，所述的步骤(1)具体为：

5.根据权利要求3所述的基于Spark云网络的海洋大数据主从索引方法，其特征在于，所述的步骤(2)具体包括以下步骤：

6.根据权利要求3所述的基于Spark云网络的海洋大数据主从索引方法，其特征在于，所述的步骤(3)具体为：

7.根据权利要求3所述的基于Spark云网络的海洋大数据主从索引方法，其特征在于，所述的，响应客户端的查询并进行查询处理，具体包括以下步骤：

(4.1)数据时态主从索引模块响应客户端的查询；