CN107329982A

CN107329982A - 一种基于分布式列式存储的大数据并行计算方法及系统

Info

Publication number: CN107329982A
Application number: CN201710402942.6A
Authority: CN
Inventors: 张星明; 陈霖; 王昊翔; 梁桂煌; 古振威; 吴世豪
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2017-06-01
Filing date: 2017-06-01
Publication date: 2017-11-07

Abstract

本发明公开了一种基于分布式列式存储的大数据并行计算方法及系统，主要是利用基于内存的NoSQL列式存储存放最近最常访问的数据，达到缓存优化的功能，实现数据的快速查询；采用分布式集群的架构，满足海量数据存储需求，实现数据存储容量动态伸缩；结合基于Spark的并行计算框架，实现业务层数据分析并行化作业，提高计算速度；运用图形图表引擎实现大屏滚动分析的实时数据可视化体验。本发明充分发挥了分布式云服务器的内存处理性能和并行计算的优势，克服了单一服务器和串行计算的性能瓶颈，避免了数据节点之间多余的数据传输，提高了系统实时响应速度，实现了快速的大数据分析。

Description

一种基于分布式列式存储的大数据并行计算方法及系统

技术领域

本发明涉及大数据处理技术领域，具体涉及一种基于分布式列式存储的大数据并行计算方法及系统。

背景技术

互联网的高速发展以及硬件的不断升级和更新换代，使得政府，企业等各个单位的数据规模呈现爆炸式增长，逐渐向海量数据迈进。面对海量数据的存储和处理要求，传统的关系型数据库主要基于表和数据行的操作，已逐渐无法满足用户需求，甚至制约着海量数据的存储和处理。因此，仅仅依靠传统的存储技术顺应不了时代的发展和需求，需要在传统处理技术的基础上建立一种新的大数据存储技术，确保数据存储能够满足人们的需要。

现有大数据分析系统的分布式数据仓库规模都是TB级甚至PB级以上，如何从大规模的数据仓库中高效，稳定，准确且实时地进行数据查询和分析成为衡量大数据分析系统性能的一个关键指标。而传统关系型数据库是按行数据的规则进行存储，数据的行式存储会带来弊端是在查询数据时，即使只涉及其中的几列，所有无关的数据列都会被一并读取。而在数据分析处理中，一般只需要对少数列频繁进行查询访问，但却不得不读取大量无关数据列，这势必会对分析性能的造成无谓的损耗。特别是在TB级以上海量数据的条件下，耗费在读取无关数据上的时间将会成为系统性能的一个瓶颈。

对于大数据的挖掘与实时分析查询来说，从采集源数据到最终获得分析结果一般要经过几个主要步骤，包括数据采集、数据预处理、数据存储与管理、分析处理、数据挖掘、数据可视化等。其中，数据存储与管理是整个大数据分析处理流程的基础。该部分的工作直接关系数据分析及实时查询的效率及质量，从而影响到数据分析处理结果呈现的质量。对于目前的数据存储来讲，基于Hadoop的数据仓库是比较常见平台，但是在实时查询的过程中，如果直接对Hadoop数据节点文件系统查询，将导致频繁的磁盘读取，从而大大拖慢查询速度，满足不了查询和分析的实时性。因此，在处理海量数据的实时查询需求时，我们需要一个基于内存的，尽量避免直接磁盘数据读取的中间缓存平台，作为系统实时查询分析的支撑。

另外对于大数据实时查询分析的需求而言，传统的串行计算已经没办法满足，因为串行计算的方式要求任务按照时间先后的顺序或优先级处理顺序逐个进行，限制了现有CPU多核多线程和分布式处理架构可同时处理多任务的性能发挥，计算速度慢。

发明内容

本发明的目的在于克服现有技术的不足，提供了一种基于分布式列式存储的大数据并行计算方法及系统，该方法及系统充分利用集群云服务器内存查询的处理性能和列式存储的优势，避免了查询时直接读取HDFS文件系统数据所导致的延时问题和行式存储带来的多余数据传输问题，大大提高了数据读取效率。此外，在NoSQL列式存储之上还运用了基于Spark的并行计算框架，通过并行计算进一步提高实时查询分析的效率。同时，由于分布式集群具有一定的可扩展性，因此采用分布式的体系架构能够满足海量数据存储弹性可伸缩的要求。

为实现上述目的，本发明所提供的技术方案如下：

一种基于分布式列式存储的大数据并行计算方法，主要将数据存储方式由传统的行式存储转变为列式存储，同时利用内存加快系统响应，采用分布式集群实现扩展性服务和节点调度监控，运用基于Spark的并行计算框架提供分析与计算的支持；所述列式存储有基于内存的NoSQL缓存单元，集群文件写入单元和任务调度单元支持，在工作过程中，NoSQL缓存单元的MemStore负责存储数据，当发起的查询请求到达相应的数据节点时，将首先查询内存中基于NoSQL的数据存储的数据，若内存中的数据命中，则将内存中的命中结果及时返回；所述集群由云平台上搭建的数据服务器组成，包括一台主服务器和多台子服务器，主服务器负责数据查询请求的分发和负载均衡，同时管理各个子服务器，包括存储空间的分配操作以及失效存储的数据迁移操作，每一个子服务器包含基于内存的NoSQL缓存单元MemStore，是实际数据访问读取的单元，还包括集群文件系统写入单元和任务调度单元，通过分布式服务器构建的列式存储服务集群，能大大提高大数据系统的实时调度能力，实现高效率的实时查询分析，同时实现面向海量数据的存储空间可伸缩；此外，基于Spark的并行计算框架为用户提供毫秒级的响应速度，及时呈现结果，该框架是将串行计算的过程按照时间片分解成一系列短小的批处理作业，而这里的批处理引擎是Spark，也就是把输入数据按照固定的大小分段，每一段数据都转换成Spark中的RDD，然后对RDD进行并行的转换操作和相关的业务逻辑操作，将RDD经过操作变成的中间结果保存在内存中；

上述的大数据并行计算方法，包括以下步骤：

步骤1，云平台为云服务器分配所需资源，并初始化云服务器集群；

步骤2，云平台初始化集群中的主服务器的任务调度器，调度器负责管理数据操作节点活动、监听操作节点的执行，以及指导数据集的划分和查询请求分发，负载均衡这些任务；

步骤3，云服务器中的NoSQL存储加载元数据，元数据定义了数据操作节点的名称和操作数据集的字段信息，包括字段名称、数据类型、数据精度，云服务器对加载的数据操作节点按先后顺序排列；

步骤4，NoSQL列式存储加载数据和进行内部数据操作，包括数据单元的拆分split与合并compact操作，以及调用LRU算法将不常访问数据写入HDFS文件系统；

步骤5，主服务器根据查询请求获取当前数据操作节点，分发查询请求至对应数据节点；

步骤6，获得请求的子服务器，根据请求内容及元数据获取操作节点名称以及操作的数据集信息，查询高性能NoSQL存储，返回查询到的数据集；

步骤7，主服务器从上一操作节点获取查询到数据集，将数据集返回给部署Spark并行处理框架的服务器；

步骤8，进行实时计算分析的服务器收到数据集后，采用基于Spark的并行计算框架，将数据集划分为RDD进行操作，同时进行业务逻辑方面的处理，处理完成的数据将返回给前端图表引擎；

步骤9，前端图表引擎加载后台服务器返回的数据，进行可视化实时展示；至此，流程结束。

一种基于分布式列式存储的大数据并行计算系统，包括：

分布式NoSQL存储模块，为数据实时查询提供快速响应，该模块包括主节点和若干子节点，所述主节点进行集群的统一调度和请求分发，实现系统的负载均衡，所述子节点负责数据存储及实际查询访问，同时，子节点能够根据数据规模及实际需要进行伸缩扩展；其中，所述子节点由数据存储单元、调度单元和集群文件写入单元构成，所述数据存储单元基于数据节点的内存，按照列式存储的方式存储最近最常访问的数据，所述调度单元是统一调度数据存储单元的拆分及合并操作，实现合理利用存储空间及优化数据查询，所述集群文件统一写入单元是根据LRU算法将数据存储单元中不常访问的数据写入HDFS文件系统中；

Spark并行计算模块，运用Spark的并行工作方式，提供实时性支撑，在计算过程中，该模块将数据集分成一个个Spark的RDD，然后对每个RDD进行并行的业务操作，操作结束的中间结果保存在内存中，再进行合并或下一步的操作，直至得到最终结果；

数据可视化模块，用于接收来自实时计算后台返回的数据集，通过图形图表引擎动态生成相应的图形图表，经过渲染组合成数据可视化实时滚动大屏。

本发明与现有技术相比，具有如下优点与有益效果：

1、借助NoSQL分布式数据存储高性能、易扩展的特点，采用基于内存的数据存储进行缓存优化，缓存需要装载的数据记录，有效降低集群文件系统读写操作的频率，从而降低集群文件系统读写操作的耗时，保证海量数据的实时查询分析。

2、使用了基于Spark的并行计算框架，将串行计算过程分解为批处理作业，进行并行操作，实现业务计算的实时进行。

3、分布式列式存储为系统提供基于内存的列式存储，提高数据查询效率，Spark并行计算框架为系统提供并行计算支撑，同时结合数据可视化引擎，一起组成基于分布式列式存储的大数据并行计算系统。

附图说明

图1为基于分布式列式存储的大数据并行计算技术方案层次结构图。

图2为数据列式存储结构图。

图3为列式存储与行式存储对比图。

图4为NoSQL列式存储内部工作流程图。

图5为NoSQL列式存储整体工作流程图。

图6为分布式存储集群架构图。

图7为Spark并行计算框架结构图。

图8为基于分布式列式存储的大数据并行计算流程图。

图9为基于分布式列式存储的大数据并行计算系统架构图。

图10为医保药店消费分析系统架构图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

本实施例所提供的基于分布式列式存储的大数据并行计算方法及系统，充分利用集群云服务器内存查询的处理性能和列式存储的优势，避免了查询时直接读取HDFS文件系统数据所导致的延时问题和行式存储带来的多余数据传输问题，大大提高了数据读取效率。此外，该方案在基于NoSQL的列式存储之上还运用了基于Spark的并行计算框架，通过并行计算进一步提高实时查询分析的效率。同时，由于分布式集群具有一定的可扩展性，因此采用分布式的体系架构能够满足海量数据存储弹性可伸缩的要求。本方案的层次结构如图1所示。

本实施例所述的基于分布式列式存储的大数据并行计算方法，特点在于运用NoSQL存储的方式，将数据存储方式由传统的行式存储转变为列式存储，同时利用内存加快系统响应，采用分布式集群实现扩展性服务和节点调度监控，运用基于Spark的并行计算框架提供分析与计算的支持。

在基于NoSQL的列式存储中，按列的存放方式对数据进行存储，存储结构如图2所示。其中行键(Row Key)是用来检索记录的主键，列簇(Column Family)用于访问控制、磁盘和内存的使用统计。在实际应用中，列簇上的控制权限能帮助我们管理不同类型的应用，例如，允许一些应用可以添加新的基本数据、一些应用则只允许浏览数据等。通过Row和Column确定的一个存储单元称为Cell，Cell用于存放数据，Cell中的数据是没有类型的，全部是字节码形式存储。每个Cell都保存着同一份数据的多个版本。版本通过时间戳(Timestamp)来索引。时间戳可以在数据写入时自动赋值。每个Cell中，不同版本的数据按照时间倒序排序，即最新的数据排在最前面。相对于行式存储，列式存储具备以下优点：(1)在查询时只有涉及到的列会被读取；(2)投影操作非常高效；(3)任何列都能作为索引；(4)能有效提高数据压缩比，节省存储空间。如图3所示，描述了列式存储和行式存储的对比。

对比HDFS，高性能存储有基于内存的NoSQL缓存单元，集群文件写入单元和任务调度单元支持，系统响应更快。工作过程中，NoSQL缓存单元MemStore负责存储数据，待存储单元大小达到一定的阈值时，系统任务调度单元将采用split(拆分)操作，将存储单元拆分为适当大小的存储单元MiniStore进行存储，同时与一些分散的存储单元进行compact(合并)，从而有效利用存储空间，其内部工作流程见图4。任务调度单元负责监视NoSQL中的缓存情况，适时采用split和compact操作。同时，当内存中的存储达到一定阈值时，任务调度单元将调用集群文件写入单元，根据LRU淘汰算法(近期最少使用算法)将最近最不常访问的数据写入HDFS文件系统，保证高性能存储中的数据为最近最常访问的数据，提高多次相同查询的命中率。当发起的查询请求到达相应的数据节点时，基于NoSQL的数据存储将首先查询内存中的数据，若内存中的数据命中，则能将内存中的命中结果及时返回，保证了高I/O性能。整体工作流程见图5。

基于NoSQL列式存储以分布式集群的方式执行。集群的架构如图6所示，集群由云平台上搭建的数据服务器组成，包括一台主服务器(Master)和多台子服务器(Slave)。主服务器负责数据查询请求的分发和负载均衡，同时管理各个子服务器，包括存储空间的分配操作以及失效存储的迁移操作等。每一个子服务器部署有基于NoSQL列式存储，包含基于内存的NoSQL缓存单元MemStore，是实际数据访问读取的单元，还包括集群文件系统写入单元和任务调度单元。同时，将服务器集群资源虚拟化为云平台，实现由外部Manger主机进行管理和访问，能使服务器不再受限于物理上的界限，而是让CPU、内存、磁盘、I/O等硬件变成可以动态管理的“资源池”，从而提高资源的利用率，简化系统管理，实现服务器整合，让系统对业务的变化更具适应力。除此之外，通过分布式服务器构建的高性能存储服务集群，能大大提高大数据系统的实时调度能力，实现高效率的实时查询分析，同时拥有面向海量数据的存储空间可伸缩服务的能力。

本方法还结合基于Spark的并行计算框架，为用户提供毫秒级的计算速度，框架工作流程图图如图7所示。该框架运用批处理引擎Spark,将计算的过程按照时间片分解成一系列短小的批处理作业。也就是把输入数据按照固定的大小分段，每一段数据都转换成Spark中的RDD(Resilient Distributed Dataset)，然后对RDD进行并行的转换操作和相关的业务逻辑操作，将RDD经过操作变成的中间结果保存在内存中。Spark再将中间结果进行一系列的归并形成新的中间结果进行下一步的计算，直至得到最终的结果，整个过程都在内存中进行。Spark并行处理过程可以选择多机器分布式运行也可以利用单机多CPU多线程的方式运行。

上述基于分布式列式存储的大数据并行计算方法的流程如图8所示，具体步骤如下：

步骤2，云平台初始化集群中的主服务器的任务调度器，调度器负责管理数据操作节点活动、监听操作节点的执行，以及指导数据集的划分和查询请求分发，负载均衡等任务；

步骤3，云服务器中的NoSQL存储加载元数据，元数据定义了数据操作节点的名称和操作数据集的字段信息，包括字段名称、数据类型、数据精度等，云服务器对加载的数据操作节点按先后顺序排列；

步骤4，NoSQL列式存储加载数据和进行内部数据操作，包括数据存储单元的拆分(split)与合并(compact)操作，以及调用LRU算法将不常访问数据写入HDFS文件系统；

步骤6，获得请求的子服务器，根据请求内容及元数据获取操作节点名称以及操作的数据集信息等，查询高性能NoSQL存储，返回查询到的数据集；

步骤7，主服务器从上一操作节点获取查询到数据集，将数据集返回给Spark并行处理框架；

步骤8，进行实时计算分析的服务器收到数据集后，采用基于Spark的并行计算方法，将数据集划分为RDD进行操作，同时进行业务逻辑方面的处理，处理完成的数据将返回给前端图表引擎；

步骤9，前端图表引擎加载后台服务器返回的数据，进行可视化实时展示。流程结束。

本方法结合基于NoSQL分布式列式存储和基于Spark的并行计算框架，为海量数据提供实时计算分析的支撑。同时由于云平台具有强大的可伸缩性，这为系统的性能提供了丰富的可扩展性支持。

本实施例所述的基于分布式列式存储的大数据并行计算系统，包括分布式NoSQL存储模块，Spark并行计算模块和数据可视化模块，系统架构图如图9所示。

所述分布式NoSQL存储模块充分利用列式存储和内存存储的优势，为数据实时查询提供快速响应。该模块主要包括主节点和若干子节点，主节点进行集群的统一调度和请求分发，实现系统的负载均衡，子节点负责数据存储及实际查询访问，同时，子节点可根据数据规模及实际需要进行伸缩扩展。子节点则由数据存储单元，调度单元和集群文件写入单元构成。数据存储单元基于数据节点的内存，按照列式存储的方式存储最近最常访问的数据，而调度单元则是统一调度数据存储单元的拆分及合并操作，实现合理利用存储空间及优化数据查询，集群文件统一写入单元则是将数据存储单元中根据LRU算法，将不常访问的数据写入HDFS文件系统中。

所述Spark并行计算模块提供实时性支撑，在计算过程中，该Spark并行计算模块将数据集分成一个个Spark的RDD，然后对每个RDD进行并行的业务操作，操作结束的中间结果保存在内存中，再进行合并或下一步的操作，直至得到最终结果。由于基于内存进行的计算，速度比基于磁盘存储的计算快。

所述数据可视化模块，主要接收来自实时计算后台返回的数据集，通过图形图表引擎生成相应的图形图表，经过渲染形成数据可视化实时滚动大屏。

下面我们结合社保大数据综合业务公共服务平台-医保药店消费分析来对本实施例上述的基于分布式列式存储的大数据并行计算方法及系统进行进一步说明，具体情况如下：

社保大数据综合业务公共服务平台依据国家级的信息化规划方案“金保工程”进行规划建设。现有社保业务系统的设计实施，基于各部门具体需求形成，业务数据因分散在各个业务系统中，提供的服务未能整合成一个整体数据服务。基于现有背景，该项目对各个孤立的社保业务服务资源进行整合，构建一个社保综合业务公共服务平台，在原本相互隔离的“数据孤岛”间架起沟通的桥梁，组成面向全局的统一数据视图及数据共享。在服务平台之上，可对各个社保业务领域数据进行挖掘和统计分析，并以报表、图形图像等可视化手段展现，为政府政策方针的制定提供参考依据，实现创新性政府服务应用示范。

医保药店消费分析作为社保大数据综合业务公共服务平台的一部分，将主要分析在参与医保的药店中人群消费分布情况，包括消费次数分布情况，消费类目分布情况，消费区域分布情况，消费年龄段分布情况等。

为了测试本发明的分布式列式存储的大数据并行计算方法及系统的应用效果，我们将这一技术应用到医保药店消费分析当中。

系统主要包括数据源，数据预处理模块，分布式高性能存储模块，Spark并行计算模块，数据可视化模块，系统架构图如图10所示，基于分布式列式存储的大数据并行计算系统如图区域A所示。

其中，数据预处理模块利用ETL数据预处理框架，将数据源中的数据经过清洗，转换，规约，集成，从而清除脏数据。而且在数据存储及分析之前进行数据预处理，能够大大提高数据实时分析的质量，降低实际分析所需要的时间和错误率。

基于NoSQL的分布式列式存储模块充分利用列式存储和内存存储的优势，为数据实时查询提供快速响应。该模块主要包括主节点和若干子节点，主节点进行集群的统一调度和请求分发，实现系统的负载均衡，子节点负责数据存储及实际查询访问，同时，子节点可根据数据规模及实际需要进行伸缩扩展。子节点则由数据存储单元，调度单元和集群文件写入单元构成。数据存储单元基于数据节点的内存，按照列式存储的方式存储最近最常访问的数据，而调度单元则是统一调度数据存储单元的拆分及合并操作，实现合理利用存储空间及优化数据查询，集群文件统一写入单元则是将数据存储单元中不常访问的数据写入HDFS文件系统中。

基于Spark的并行计算模块运用Spark的并行工作方式，提供实时性支撑。计算过程中，并行计算框架将数据集分成一个个Spark的RDD，然后对每个RDD进行并行的业务操作，操作结束的中间结果保存在内存中，再进行合并或下一步的操作，直至得到最终结果。由于基于内存进行的计算，速度比基于磁盘存储的计算会快很多。同时，整个过程会按照时间片分为一个个批处理作业，实现并行计算。

数据可视化模块主要实现对后台处理好的数据集进行图形图表的生成及渲染。模块调用后台数据，返回图形图表模块组成数据可视化界面，并进行渲染，实时呈现分析结果。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于分布式列式存储的大数据并行计算方法，其特征在于：该大数据并行计算方法主要将数据存储方式由传统的行式存储转变为列式存储，同时利用内存加快系统响应，采用分布式集群实现扩展性服务和节点调度监控，运用基于Spark的并行计算框架提供分析与计算的支持；所述列式存储有基于内存的NoSQL缓存单元，集群文件写入单元和任务调度单元支持，在工作过程中，NoSQL缓存单元的MemStore负责存储数据，当发起的查询请求到达相应的数据节点时，将首先查询内存中基于NoSQL的数据存储的数据，若内存中的数据命中，则将内存中的命中结果及时返回；所述集群由云平台上搭建的数据服务器组成，包括一台主服务器和多台子服务器，主服务器负责数据查询请求的分发和负载均衡，同时管理各个子服务器，包括存储空间的分配操作以及失效存储的数据迁移操作，每一个子服务器包含基于内存的NoSQL缓存单元MemStore，是实际数据访问读取的单元，还包括集群文件系统写入单元和任务调度单元，通过分布式服务器构建的列式存储服务集群，能大大提高大数据系统的实时调度能力，实现高效率的实时查询分析，同时实现面向海量数据的存储空间可伸缩；此外，基于Spark的并行计算框架为用户提供毫秒级的响应速度，及时呈现结果，该框架是将串行计算的过程按照时间片分解成一系列短小的批处理作业，而这里的批处理引擎是Spark，也就是把输入数据按照固定的大小分段，每一段数据都转换成Spark中的RDD，然后对RDD进行并行的转换操作和相关的业务逻辑操作，将RDD经过操作变成的中间结果保存在内存中；

上述的大数据并行计算方法，包括以下步骤：

2.一种基于分布式列式存储的大数据并行计算系统，其特征在于，包括：