CN107329982A - 一种基于分布式列式存储的大数据并行计算方法及系统 - Google Patents

一种基于分布式列式存储的大数据并行计算方法及系统 Download PDF

Info

Publication number
CN107329982A
CN107329982A CN201710402942.6A CN201710402942A CN107329982A CN 107329982 A CN107329982 A CN 107329982A CN 201710402942 A CN201710402942 A CN 201710402942A CN 107329982 A CN107329982 A CN 107329982A
Authority
CN
China
Prior art keywords
data
storage
spark
column
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710402942.6A
Other languages
English (en)
Inventor
张星明
陈霖
王昊翔
梁桂煌
古振威
吴世豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201710402942.6A priority Critical patent/CN107329982A/zh
Publication of CN107329982A publication Critical patent/CN107329982A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24532Query optimisation of parallel queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • G06F9/5088Techniques for rebalancing the load in a distributed system involving task migration

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于分布式列式存储的大数据并行计算方法及系统,主要是利用基于内存的NoSQL列式存储存放最近最常访问的数据,达到缓存优化的功能,实现数据的快速查询;采用分布式集群的架构,满足海量数据存储需求,实现数据存储容量动态伸缩;结合基于Spark的并行计算框架,实现业务层数据分析并行化作业,提高计算速度;运用图形图表引擎实现大屏滚动分析的实时数据可视化体验。本发明充分发挥了分布式云服务器的内存处理性能和并行计算的优势,克服了单一服务器和串行计算的性能瓶颈,避免了数据节点之间多余的数据传输,提高了系统实时响应速度,实现了快速的大数据分析。

Description

一种基于分布式列式存储的大数据并行计算方法及系统
技术领域
本发明涉及大数据处理技术领域,具体涉及一种基于分布式列式存储的大数据并行计算方法及系统。
背景技术
互联网的高速发展以及硬件的不断升级和更新换代,使得政府,企业等各个单位的数据规模呈现爆炸式增长,逐渐向海量数据迈进。面对海量数据的存储和处理要求,传统的关系型数据库主要基于表和数据行的操作,已逐渐无法满足用户需求,甚至制约着海量数据的存储和处理。因此,仅仅依靠传统的存储技术顺应不了时代的发展和需求,需要在传统处理技术的基础上建立一种新的大数据存储技术,确保数据存储能够满足人们的需要。
现有大数据分析系统的分布式数据仓库规模都是TB级甚至PB级以上,如何从大规模的数据仓库中高效,稳定,准确且实时地进行数据查询和分析成为衡量大数据分析系统性能的一个关键指标。而传统关系型数据库是按行数据的规则进行存储,数据的行式存储会带来弊端是在查询数据时,即使只涉及其中的几列,所有无关的数据列都会被一并读取。而在数据分析处理中,一般只需要对少数列频繁进行查询访问,但却不得不读取大量无关数据列,这势必会对分析性能的造成无谓的损耗。特别是在TB级以上海量数据的条件下,耗费在读取无关数据上的时间将会成为系统性能的一个瓶颈。
对于大数据的挖掘与实时分析查询来说,从采集源数据到最终获得分析结果一般要经过几个主要步骤,包括数据采集、数据预处理、数据存储与管理、分析处理、数据挖掘、数据可视化等。其中,数据存储与管理是整个大数据分析处理流程的基础。该部分的工作直接关系数据分析及实时查询的效率及质量,从而影响到数据分析处理结果呈现的质量。对于目前的数据存储来讲,基于Hadoop的数据仓库是比较常见平台,但是在实时查询的过程中,如果直接对Hadoop数据节点文件系统查询,将导致频繁的磁盘读取,从而大大拖慢查询速度,满足不了查询和分析的实时性。因此,在处理海量数据的实时查询需求时,我们需要一个基于内存的,尽量避免直接磁盘数据读取的中间缓存平台,作为系统实时查询分析的支撑。
另外对于大数据实时查询分析的需求而言,传统的串行计算已经没办法满足,因为串行计算的方式要求任务按照时间先后的顺序或优先级处理顺序逐个进行,限制了现有CPU多核多线程和分布式处理架构可同时处理多任务的性能发挥,计算速度慢。
发明内容
本发明的目的在于克服现有技术的不足,提供了一种基于分布式列式存储的大数据并行计算方法及系统,该方法及系统充分利用集群云服务器内存查询的处理性能和列式存储的优势,避免了查询时直接读取HDFS文件系统数据所导致的延时问题和行式存储带来的多余数据传输问题,大大提高了数据读取效率。此外,在NoSQL列式存储之上还运用了基于Spark的并行计算框架,通过并行计算进一步提高实时查询分析的效率。同时,由于分布式集群具有一定的可扩展性,因此采用分布式的体系架构能够满足海量数据存储弹性可伸缩的要求。
为实现上述目的,本发明所提供的技术方案如下:
一种基于分布式列式存储的大数据并行计算方法,主要将数据存储方式由传统的行式存储转变为列式存储,同时利用内存加快系统响应,采用分布式集群实现扩展性服务和节点调度监控,运用基于Spark的并行计算框架提供分析与计算的支持;所述列式存储有基于内存的NoSQL缓存单元,集群文件写入单元和任务调度单元支持,在工作过程中,NoSQL缓存单元的MemStore负责存储数据,当发起的查询请求到达相应的数据节点时,将首先查询内存中基于NoSQL的数据存储的数据,若内存中的数据命中,则将内存中的命中结果及时返回;所述集群由云平台上搭建的数据服务器组成,包括一台主服务器和多台子服务器,主服务器负责数据查询请求的分发和负载均衡,同时管理各个子服务器,包括存储空间的分配操作以及失效存储的数据迁移操作,每一个子服务器包含基于内存的NoSQL缓存单元MemStore,是实际数据访问读取的单元,还包括集群文件系统写入单元和任务调度单元,通过分布式服务器构建的列式存储服务集群,能大大提高大数据系统的实时调度能力,实现高效率的实时查询分析,同时实现面向海量数据的存储空间可伸缩;此外,基于Spark的并行计算框架为用户提供毫秒级的响应速度,及时呈现结果,该框架是将串行计算的过程按照时间片分解成一系列短小的批处理作业,而这里的批处理引擎是Spark,也就是把输入数据按照固定的大小分段,每一段数据都转换成Spark中的RDD,然后对RDD进行并行的转换操作和相关的业务逻辑操作,将RDD经过操作变成的中间结果保存在内存中;
上述的大数据并行计算方法,包括以下步骤:
步骤1,云平台为云服务器分配所需资源,并初始化云服务器集群;
步骤2,云平台初始化集群中的主服务器的任务调度器,调度器负责管理数据操作节点活动、监听操作节点的执行,以及指导数据集的划分和查询请求分发,负载均衡这些任务;
步骤3,云服务器中的NoSQL存储加载元数据,元数据定义了数据操作节点的名称和操作数据集的字段信息,包括字段名称、数据类型、数据精度,云服务器对加载的数据操作节点按先后顺序排列;
步骤4,NoSQL列式存储加载数据和进行内部数据操作,包括数据单元的拆分split与合并compact操作,以及调用LRU算法将不常访问数据写入HDFS文件系统;
步骤5,主服务器根据查询请求获取当前数据操作节点,分发查询请求至对应数据节点;
步骤6,获得请求的子服务器,根据请求内容及元数据获取操作节点名称以及操作的数据集信息,查询高性能NoSQL存储,返回查询到的数据集;
步骤7,主服务器从上一操作节点获取查询到数据集,将数据集返回给部署Spark并行处理框架的服务器;
步骤8,进行实时计算分析的服务器收到数据集后,采用基于Spark的并行计算框架,将数据集划分为RDD进行操作,同时进行业务逻辑方面的处理,处理完成的数据将返回给前端图表引擎;
步骤9,前端图表引擎加载后台服务器返回的数据,进行可视化实时展示;至此,流程结束。
一种基于分布式列式存储的大数据并行计算系统,包括:
分布式NoSQL存储模块,为数据实时查询提供快速响应,该模块包括主节点和若干子节点,所述主节点进行集群的统一调度和请求分发,实现系统的负载均衡,所述子节点负责数据存储及实际查询访问,同时,子节点能够根据数据规模及实际需要进行伸缩扩展;其中,所述子节点由数据存储单元、调度单元和集群文件写入单元构成,所述数据存储单元基于数据节点的内存,按照列式存储的方式存储最近最常访问的数据,所述调度单元是统一调度数据存储单元的拆分及合并操作,实现合理利用存储空间及优化数据查询,所述集群文件统一写入单元是根据LRU算法将数据存储单元中不常访问的数据写入HDFS文件系统中;
Spark并行计算模块,运用Spark的并行工作方式,提供实时性支撑,在计算过程中,该模块将数据集分成一个个Spark的RDD,然后对每个RDD进行并行的业务操作,操作结束的中间结果保存在内存中,再进行合并或下一步的操作,直至得到最终结果;
数据可视化模块,用于接收来自实时计算后台返回的数据集,通过图形图表引擎动态生成相应的图形图表,经过渲染组合成数据可视化实时滚动大屏。
本发明与现有技术相比,具有如下优点与有益效果:
1、借助NoSQL分布式数据存储高性能、易扩展的特点,采用基于内存的数据存储进行缓存优化,缓存需要装载的数据记录,有效降低集群文件系统读写操作的频率,从而降低集群文件系统读写操作的耗时,保证海量数据的实时查询分析。
2、使用了基于Spark的并行计算框架,将串行计算过程分解为批处理作业,进行并行操作,实现业务计算的实时进行。
3、分布式列式存储为系统提供基于内存的列式存储,提高数据查询效率,Spark并行计算框架为系统提供并行计算支撑,同时结合数据可视化引擎,一起组成基于分布式列式存储的大数据并行计算系统。
附图说明
图1为基于分布式列式存储的大数据并行计算技术方案层次结构图。
图2为数据列式存储结构图。
图3为列式存储与行式存储对比图。
图4为NoSQL列式存储内部工作流程图。
图5为NoSQL列式存储整体工作流程图。
图6为分布式存储集群架构图。
图7为Spark并行计算框架结构图。
图8为基于分布式列式存储的大数据并行计算流程图。
图9为基于分布式列式存储的大数据并行计算系统架构图。
图10为医保药店消费分析系统架构图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本实施例所提供的基于分布式列式存储的大数据并行计算方法及系统,充分利用集群云服务器内存查询的处理性能和列式存储的优势,避免了查询时直接读取HDFS文件系统数据所导致的延时问题和行式存储带来的多余数据传输问题,大大提高了数据读取效率。此外,该方案在基于NoSQL的列式存储之上还运用了基于Spark的并行计算框架,通过并行计算进一步提高实时查询分析的效率。同时,由于分布式集群具有一定的可扩展性,因此采用分布式的体系架构能够满足海量数据存储弹性可伸缩的要求。本方案的层次结构如图1所示。
本实施例所述的基于分布式列式存储的大数据并行计算方法,特点在于运用NoSQL存储的方式,将数据存储方式由传统的行式存储转变为列式存储,同时利用内存加快系统响应,采用分布式集群实现扩展性服务和节点调度监控,运用基于Spark的并行计算框架提供分析与计算的支持。
在基于NoSQL的列式存储中,按列的存放方式对数据进行存储,存储结构如图2所示。其中行键(Row Key)是用来检索记录的主键,列簇(Column Family)用于访问控制、磁盘和内存的使用统计。在实际应用中,列簇上的控制权限能帮助我们管理不同类型的应用,例如,允许一些应用可以添加新的基本数据、一些应用则只允许浏览数据等。通过Row和Column确定的一个存储单元称为Cell,Cell用于存放数据,Cell中的数据是没有类型的,全部是字节码形式存储。每个Cell都保存着同一份数据的多个版本。版本通过时间戳(Timestamp)来索引。时间戳可以在数据写入时自动赋值。每个Cell中,不同版本的数据按照时间倒序排序,即最新的数据排在最前面。相对于行式存储,列式存储具备以下优点:(1)在查询时只有涉及到的列会被读取;(2)投影操作非常高效;(3)任何列都能作为索引;(4)能有效提高数据压缩比,节省存储空间。如图3所示,描述了列式存储和行式存储的对比。
对比HDFS,高性能存储有基于内存的NoSQL缓存单元,集群文件写入单元和任务调度单元支持,系统响应更快。工作过程中,NoSQL缓存单元MemStore负责存储数据,待存储单元大小达到一定的阈值时,系统任务调度单元将采用split(拆分)操作,将存储单元拆分为适当大小的存储单元MiniStore进行存储,同时与一些分散的存储单元进行compact(合并),从而有效利用存储空间,其内部工作流程见图4。任务调度单元负责监视NoSQL中的缓存情况,适时采用split和compact操作。同时,当内存中的存储达到一定阈值时,任务调度单元将调用集群文件写入单元,根据LRU淘汰算法(近期最少使用算法)将最近最不常访问的数据写入HDFS文件系统,保证高性能存储中的数据为最近最常访问的数据,提高多次相同查询的命中率。当发起的查询请求到达相应的数据节点时,基于NoSQL的数据存储将首先查询内存中的数据,若内存中的数据命中,则能将内存中的命中结果及时返回,保证了高I/O性能。整体工作流程见图5。
基于NoSQL列式存储以分布式集群的方式执行。集群的架构如图6所示,集群由云平台上搭建的数据服务器组成,包括一台主服务器(Master)和多台子服务器(Slave)。主服务器负责数据查询请求的分发和负载均衡,同时管理各个子服务器,包括存储空间的分配操作以及失效存储的迁移操作等。每一个子服务器部署有基于NoSQL列式存储,包含基于内存的NoSQL缓存单元MemStore,是实际数据访问读取的单元,还包括集群文件系统写入单元和任务调度单元。同时,将服务器集群资源虚拟化为云平台,实现由外部Manger主机进行管理和访问,能使服务器不再受限于物理上的界限,而是让CPU、内存、磁盘、I/O等硬件变成可以动态管理的“资源池”,从而提高资源的利用率,简化系统管理,实现服务器整合,让系统对业务的变化更具适应力。除此之外,通过分布式服务器构建的高性能存储服务集群,能大大提高大数据系统的实时调度能力,实现高效率的实时查询分析,同时拥有面向海量数据的存储空间可伸缩服务的能力。
本方法还结合基于Spark的并行计算框架,为用户提供毫秒级的计算速度,框架工作流程图图如图7所示。该框架运用批处理引擎Spark,将计算的过程按照时间片分解成一系列短小的批处理作业。也就是把输入数据按照固定的大小分段,每一段数据都转换成Spark中的RDD(Resilient Distributed Dataset),然后对RDD进行并行的转换操作和相关的业务逻辑操作,将RDD经过操作变成的中间结果保存在内存中。Spark再将中间结果进行一系列的归并形成新的中间结果进行下一步的计算,直至得到最终的结果,整个过程都在内存中进行。Spark并行处理过程可以选择多机器分布式运行也可以利用单机多CPU多线程的方式运行。
上述基于分布式列式存储的大数据并行计算方法的流程如图8所示,具体步骤如下:
步骤1,云平台为云服务器分配所需资源,并初始化云服务器集群;
步骤2,云平台初始化集群中的主服务器的任务调度器,调度器负责管理数据操作节点活动、监听操作节点的执行,以及指导数据集的划分和查询请求分发,负载均衡等任务;
步骤3,云服务器中的NoSQL存储加载元数据,元数据定义了数据操作节点的名称和操作数据集的字段信息,包括字段名称、数据类型、数据精度等,云服务器对加载的数据操作节点按先后顺序排列;
步骤4,NoSQL列式存储加载数据和进行内部数据操作,包括数据存储单元的拆分(split)与合并(compact)操作,以及调用LRU算法将不常访问数据写入HDFS文件系统;
步骤5,主服务器根据查询请求获取当前数据操作节点,分发查询请求至对应数据节点;
步骤6,获得请求的子服务器,根据请求内容及元数据获取操作节点名称以及操作的数据集信息等,查询高性能NoSQL存储,返回查询到的数据集;
步骤7,主服务器从上一操作节点获取查询到数据集,将数据集返回给Spark并行处理框架;
步骤8,进行实时计算分析的服务器收到数据集后,采用基于Spark的并行计算方法,将数据集划分为RDD进行操作,同时进行业务逻辑方面的处理,处理完成的数据将返回给前端图表引擎;
步骤9,前端图表引擎加载后台服务器返回的数据,进行可视化实时展示。流程结束。
本方法结合基于NoSQL分布式列式存储和基于Spark的并行计算框架,为海量数据提供实时计算分析的支撑。同时由于云平台具有强大的可伸缩性,这为系统的性能提供了丰富的可扩展性支持。
本实施例所述的基于分布式列式存储的大数据并行计算系统,包括分布式NoSQL存储模块,Spark并行计算模块和数据可视化模块,系统架构图如图9所示。
所述分布式NoSQL存储模块充分利用列式存储和内存存储的优势,为数据实时查询提供快速响应。该模块主要包括主节点和若干子节点,主节点进行集群的统一调度和请求分发,实现系统的负载均衡,子节点负责数据存储及实际查询访问,同时,子节点可根据数据规模及实际需要进行伸缩扩展。子节点则由数据存储单元,调度单元和集群文件写入单元构成。数据存储单元基于数据节点的内存,按照列式存储的方式存储最近最常访问的数据,而调度单元则是统一调度数据存储单元的拆分及合并操作,实现合理利用存储空间及优化数据查询,集群文件统一写入单元则是将数据存储单元中根据LRU算法,将不常访问的数据写入HDFS文件系统中。
所述Spark并行计算模块提供实时性支撑,在计算过程中,该Spark并行计算模块将数据集分成一个个Spark的RDD,然后对每个RDD进行并行的业务操作,操作结束的中间结果保存在内存中,再进行合并或下一步的操作,直至得到最终结果。由于基于内存进行的计算,速度比基于磁盘存储的计算快。
所述数据可视化模块,主要接收来自实时计算后台返回的数据集,通过图形图表引擎生成相应的图形图表,经过渲染形成数据可视化实时滚动大屏。
下面我们结合社保大数据综合业务公共服务平台-医保药店消费分析来对本实施例上述的基于分布式列式存储的大数据并行计算方法及系统进行进一步说明,具体情况如下:
社保大数据综合业务公共服务平台依据国家级的信息化规划方案“金保工程”进行规划建设。现有社保业务系统的设计实施,基于各部门具体需求形成,业务数据因分散在各个业务系统中,提供的服务未能整合成一个整体数据服务。基于现有背景,该项目对各个孤立的社保业务服务资源进行整合,构建一个社保综合业务公共服务平台,在原本相互隔离的“数据孤岛”间架起沟通的桥梁,组成面向全局的统一数据视图及数据共享。在服务平台之上,可对各个社保业务领域数据进行挖掘和统计分析,并以报表、图形图像等可视化手段展现,为政府政策方针的制定提供参考依据,实现创新性政府服务应用示范。
医保药店消费分析作为社保大数据综合业务公共服务平台的一部分,将主要分析在参与医保的药店中人群消费分布情况,包括消费次数分布情况,消费类目分布情况,消费区域分布情况,消费年龄段分布情况等。
为了测试本发明的分布式列式存储的大数据并行计算方法及系统的应用效果,我们将这一技术应用到医保药店消费分析当中。
系统主要包括数据源,数据预处理模块,分布式高性能存储模块,Spark并行计算模块,数据可视化模块,系统架构图如图10所示,基于分布式列式存储的大数据并行计算系统如图区域A所示。
其中,数据预处理模块利用ETL数据预处理框架,将数据源中的数据经过清洗,转换,规约,集成,从而清除脏数据。而且在数据存储及分析之前进行数据预处理,能够大大提高数据实时分析的质量,降低实际分析所需要的时间和错误率。
基于NoSQL的分布式列式存储模块充分利用列式存储和内存存储的优势,为数据实时查询提供快速响应。该模块主要包括主节点和若干子节点,主节点进行集群的统一调度和请求分发,实现系统的负载均衡,子节点负责数据存储及实际查询访问,同时,子节点可根据数据规模及实际需要进行伸缩扩展。子节点则由数据存储单元,调度单元和集群文件写入单元构成。数据存储单元基于数据节点的内存,按照列式存储的方式存储最近最常访问的数据,而调度单元则是统一调度数据存储单元的拆分及合并操作,实现合理利用存储空间及优化数据查询,集群文件统一写入单元则是将数据存储单元中不常访问的数据写入HDFS文件系统中。
基于Spark的并行计算模块运用Spark的并行工作方式,提供实时性支撑。计算过程中,并行计算框架将数据集分成一个个Spark的RDD,然后对每个RDD进行并行的业务操作,操作结束的中间结果保存在内存中,再进行合并或下一步的操作,直至得到最终结果。由于基于内存进行的计算,速度比基于磁盘存储的计算会快很多。同时,整个过程会按照时间片分为一个个批处理作业,实现并行计算。
数据可视化模块主要实现对后台处理好的数据集进行图形图表的生成及渲染。模块调用后台数据,返回图形图表模块组成数据可视化界面,并进行渲染,实时呈现分析结果。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (2)

1.一种基于分布式列式存储的大数据并行计算方法,其特征在于:该大数据并行计算方法主要将数据存储方式由传统的行式存储转变为列式存储,同时利用内存加快系统响应,采用分布式集群实现扩展性服务和节点调度监控,运用基于Spark的并行计算框架提供分析与计算的支持;所述列式存储有基于内存的NoSQL缓存单元,集群文件写入单元和任务调度单元支持,在工作过程中,NoSQL缓存单元的MemStore负责存储数据,当发起的查询请求到达相应的数据节点时,将首先查询内存中基于NoSQL的数据存储的数据,若内存中的数据命中,则将内存中的命中结果及时返回;所述集群由云平台上搭建的数据服务器组成,包括一台主服务器和多台子服务器,主服务器负责数据查询请求的分发和负载均衡,同时管理各个子服务器,包括存储空间的分配操作以及失效存储的数据迁移操作,每一个子服务器包含基于内存的NoSQL缓存单元MemStore,是实际数据访问读取的单元,还包括集群文件系统写入单元和任务调度单元,通过分布式服务器构建的列式存储服务集群,能大大提高大数据系统的实时调度能力,实现高效率的实时查询分析,同时实现面向海量数据的存储空间可伸缩;此外,基于Spark的并行计算框架为用户提供毫秒级的响应速度,及时呈现结果,该框架是将串行计算的过程按照时间片分解成一系列短小的批处理作业,而这里的批处理引擎是Spark,也就是把输入数据按照固定的大小分段,每一段数据都转换成Spark中的RDD,然后对RDD进行并行的转换操作和相关的业务逻辑操作,将RDD经过操作变成的中间结果保存在内存中;
上述的大数据并行计算方法,包括以下步骤:
步骤1,云平台为云服务器分配所需资源,并初始化云服务器集群;
步骤2,云平台初始化集群中的主服务器的任务调度器,调度器负责管理数据操作节点活动、监听操作节点的执行,以及指导数据集的划分和查询请求分发,负载均衡这些任务;
步骤3,云服务器中的NoSQL存储加载元数据,元数据定义了数据操作节点的名称和操作数据集的字段信息,包括字段名称、数据类型、数据精度,云服务器对加载的数据操作节点按先后顺序排列;
步骤4,NoSQL列式存储加载数据和进行内部数据操作,包括数据单元的拆分split与合并compact操作,以及调用LRU算法将不常访问数据写入HDFS文件系统;
步骤5,主服务器根据查询请求获取当前数据操作节点,分发查询请求至对应数据节点;
步骤6,获得请求的子服务器,根据请求内容及元数据获取操作节点名称以及操作的数据集信息,查询高性能NoSQL存储,返回查询到的数据集;
步骤7,主服务器从上一操作节点获取查询到数据集,将数据集返回给部署Spark并行处理框架的服务器;
步骤8,进行实时计算分析的服务器收到数据集后,采用基于Spark的并行计算框架,将数据集划分为RDD进行操作,同时进行业务逻辑方面的处理,处理完成的数据将返回给前端图表引擎;
步骤9,前端图表引擎加载后台服务器返回的数据,进行可视化实时展示;至此,流程结束。
2.一种基于分布式列式存储的大数据并行计算系统,其特征在于,包括:
分布式NoSQL存储模块,为数据实时查询提供快速响应,该模块包括主节点和若干子节点,所述主节点进行集群的统一调度和请求分发,实现系统的负载均衡,所述子节点负责数据存储及实际查询访问,同时,子节点能够根据数据规模及实际需要进行伸缩扩展;其中,所述子节点由数据存储单元、调度单元和集群文件写入单元构成,所述数据存储单元基于数据节点的内存,按照列式存储的方式存储最近最常访问的数据,所述调度单元是统一调度数据存储单元的拆分及合并操作,实现合理利用存储空间及优化数据查询,所述集群文件统一写入单元是根据LRU算法将数据存储单元中不常访问的数据写入HDFS文件系统中;
Spark并行计算模块,运用Spark的并行工作方式,提供实时性支撑,在计算过程中,该模块将数据集分成一个个Spark的RDD,然后对每个RDD进行并行的业务操作,操作结束的中间结果保存在内存中,再进行合并或下一步的操作,直至得到最终结果;
数据可视化模块,用于接收来自实时计算后台返回的数据集,通过图形图表引擎动态生成相应的图形图表,经过渲染组合成数据可视化实时滚动大屏。
CN201710402942.6A 2017-06-01 2017-06-01 一种基于分布式列式存储的大数据并行计算方法及系统 Pending CN107329982A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710402942.6A CN107329982A (zh) 2017-06-01 2017-06-01 一种基于分布式列式存储的大数据并行计算方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710402942.6A CN107329982A (zh) 2017-06-01 2017-06-01 一种基于分布式列式存储的大数据并行计算方法及系统

Publications (1)

Publication Number Publication Date
CN107329982A true CN107329982A (zh) 2017-11-07

Family

ID=60192971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710402942.6A Pending CN107329982A (zh) 2017-06-01 2017-06-01 一种基于分布式列式存储的大数据并行计算方法及系统

Country Status (1)

Country Link
CN (1) CN107329982A (zh)

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107920126A (zh) * 2017-11-30 2018-04-17 河南云保遥感科技有限公司 一种云环境下的分布式空间大数据管理方法
CN108038226A (zh) * 2017-12-25 2018-05-15 郑州云海信息技术有限公司 一种数据快速采集系统及方法
CN108241742A (zh) * 2018-01-02 2018-07-03 联想(北京)有限公司 数据库查询系统和方法
CN108389134A (zh) * 2018-03-20 2018-08-10 张家林 证券投资组合的监控系统及方法
CN108446985A (zh) * 2018-03-21 2018-08-24 张家林 证券投资组合的分享系统及方法
CN108536808A (zh) * 2018-04-04 2018-09-14 国家计算机网络与信息安全管理中心 一种基于Spark计算框架的数据获取方法和装置
CN108563923A (zh) * 2017-12-05 2018-09-21 华南理工大学 一种基因变异数据分布式存储方法及架构
CN108600321A (zh) * 2018-03-26 2018-09-28 中国科学院计算技术研究所 一种基于分布式内存云的图数据存储方法和系统
CN109189829A (zh) * 2018-08-20 2019-01-11 广州知弘科技有限公司 基于大数据的信息安全系统和方法
CN109408241A (zh) * 2018-10-31 2019-03-01 百度在线网络技术(北京)有限公司 负载均衡方法、装置、设备和存储介质
CN109445945A (zh) * 2018-10-29 2019-03-08 努比亚技术有限公司 应用程序的内存分配方法、移动终端、服务器及存储介质
CN109542867A (zh) * 2018-11-26 2019-03-29 成都四方伟业软件股份有限公司 分布式数据采集方法及装置
CN109542946A (zh) * 2018-10-26 2019-03-29 贵州斯曼特信息技术开发有限责任公司 一种实时计算大数据系统和方法
CN109635168A (zh) * 2018-12-12 2019-04-16 成都四方伟业软件股份有限公司 图表输出方法及装置
CN109871400A (zh) * 2018-12-26 2019-06-11 中译语通科技股份有限公司 一种基于云服务平台的大数据计算控制系统及方法
CN109918450A (zh) * 2019-03-20 2019-06-21 江苏瑞中数据股份有限公司 基于分析类场景下的分布式并行数据库及存储方法
CN110019209A (zh) * 2017-11-16 2019-07-16 国网新源控股有限公司 一种基于水电企业业务数据的大数据融合系统及方法
CN110413210A (zh) * 2018-04-28 2019-11-05 伊姆西Ip控股有限责任公司 用于处理数据的方法、设备和计算机程序产品
CN110569310A (zh) * 2019-09-18 2019-12-13 广东省智能机器人研究院 一种云计算环境下的关系大数据的管理方法
CN110609923A (zh) * 2019-07-31 2019-12-24 象辑知源(武汉)科技有限公司 一种分布式的多算法融合的气象数据插值方法
CN110968597A (zh) * 2018-09-28 2020-04-07 北京淘友天下技术有限公司 基于图关系的人脉关系管理方法
CN111030983A (zh) * 2019-10-15 2020-04-17 深圳壹账通智能科技有限公司 基于分布式分发的数据处理方法、装置及相关设备
CN111046054A (zh) * 2019-12-01 2020-04-21 国家电网有限公司客户服务中心 一种电力营销业务数据分析的方法和系统
CN111142798A (zh) * 2019-12-26 2020-05-12 紫光云(南京)数字技术有限公司 一种SparkStreaming在存储设备中存储文件为固定大小的方法
CN111459940A (zh) * 2020-04-02 2020-07-28 中电工业互联网有限公司 一种高效可靠的数据集成方法
CN111639082A (zh) * 2020-06-08 2020-09-08 成都信息工程大学 基于Ceph的十亿级节点规模知识图谱的对象存储管理方法及系统
CN111736776A (zh) * 2020-06-24 2020-10-02 杭州海康威视数字技术股份有限公司 一种数据存储、读取方法及装置
CN111913791A (zh) * 2020-07-02 2020-11-10 北京和瑞精准医学检验实验室有限公司 任务调度方法、装置、设备和计算机可读存储介质
CN112116463A (zh) * 2020-05-20 2020-12-22 上海金融期货信息技术有限公司 一种基于Spark引擎的智能分析系统
CN112235356A (zh) * 2020-09-23 2021-01-15 青岛数智船海科技有限公司 一种基于集群的分布式pb级cfd仿真数据管理系统
CN112381583A (zh) * 2020-11-19 2021-02-19 深圳供电局有限公司 一种基于分布式内存计算技术的电力量费计算方法及装置
CN112526974A (zh) * 2020-12-04 2021-03-19 中国航空工业集团公司成都飞机设计研究所 采用插件式管理架构的通用试验数据采集系统
CN112698988A (zh) * 2020-12-30 2021-04-23 安徽迪科数金科技有限公司 一种基于分布式系统的解析超大文本文件处理方法
CN113190526A (zh) * 2021-05-17 2021-07-30 中国铁路设计集团有限公司 基于大数据进行地形切断面并行计算方法及系统
CN113434548A (zh) * 2021-06-25 2021-09-24 北京理工大学 一种基于Spark的大规模数据流分析方法及系统
CN113672583A (zh) * 2021-08-20 2021-11-19 浩鲸云计算科技股份有限公司 基于存储与计算分离的大数据多数据源分析方法及系统
CN113806606A (zh) * 2021-09-07 2021-12-17 南方电网调峰调频发电有限公司西部检修试验分公司 基于三维场景的电力大数据快速可视化分析方法及系统
CN113986830A (zh) * 2021-11-11 2022-01-28 西安交通大学 一种面向分布式ct的云端数据管理和任务调度方法及系统
CN115268800A (zh) * 2022-09-29 2022-11-01 四川汉唐云分布式存储技术有限公司 基于计算路由重定向的数据处理方法及数据存储系统
CN116228433A (zh) * 2023-01-03 2023-06-06 易方达基金管理有限公司 债券组合业绩的回测方法、装置、设备和可读存储介质
CN116680090A (zh) * 2023-08-03 2023-09-01 睿至科技集团有限公司 一种基于大数据的边缘计算网络管理方法及平台
CN116841752A (zh) * 2023-08-31 2023-10-03 杭州瞬安信息科技有限公司 一种基于分布式实时计算框架的数据分析计算系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440244A (zh) * 2013-07-12 2013-12-11 广东电子工业研究院有限公司 一种大数据存储优化方法
CN104657497A (zh) * 2015-03-09 2015-05-27 国家电网公司 一种基于分布式计算的海量用电信息并行计算系统及方法
CN106101213A (zh) * 2016-06-08 2016-11-09 四川新环佳科技发展有限公司 信息分布式存储方法
CN106126601A (zh) * 2016-06-20 2016-11-16 华南理工大学 一种社保大数据分布式预处理方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440244A (zh) * 2013-07-12 2013-12-11 广东电子工业研究院有限公司 一种大数据存储优化方法
CN104657497A (zh) * 2015-03-09 2015-05-27 国家电网公司 一种基于分布式计算的海量用电信息并行计算系统及方法
CN106101213A (zh) * 2016-06-08 2016-11-09 四川新环佳科技发展有限公司 信息分布式存储方法
CN106126601A (zh) * 2016-06-20 2016-11-16 华南理工大学 一种社保大数据分布式预处理方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BITERROR: "bitError", 《HTTPS://WWW.CNBLOGS.COM/BITERROR/P/6909923.HTML》 *
丁文超 等: "大数据环境下的安全审计系统框架", 《通信技术》 *

Cited By (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019209A (zh) * 2017-11-16 2019-07-16 国网新源控股有限公司 一种基于水电企业业务数据的大数据融合系统及方法
CN107920126A (zh) * 2017-11-30 2018-04-17 河南云保遥感科技有限公司 一种云环境下的分布式空间大数据管理方法
CN108563923B (zh) * 2017-12-05 2020-08-18 华南理工大学 一种基因变异数据分布式存储方法及系统
CN108563923A (zh) * 2017-12-05 2018-09-21 华南理工大学 一种基因变异数据分布式存储方法及架构
CN108038226A (zh) * 2017-12-25 2018-05-15 郑州云海信息技术有限公司 一种数据快速采集系统及方法
CN108241742A (zh) * 2018-01-02 2018-07-03 联想(北京)有限公司 数据库查询系统和方法
CN108389134A (zh) * 2018-03-20 2018-08-10 张家林 证券投资组合的监控系统及方法
CN108446985A (zh) * 2018-03-21 2018-08-24 张家林 证券投资组合的分享系统及方法
CN108600321A (zh) * 2018-03-26 2018-09-28 中国科学院计算技术研究所 一种基于分布式内存云的图数据存储方法和系统
CN108536808B (zh) * 2018-04-04 2022-04-29 国家计算机网络与信息安全管理中心 一种基于Spark计算框架的数据获取方法和装置
CN108536808A (zh) * 2018-04-04 2018-09-14 国家计算机网络与信息安全管理中心 一种基于Spark计算框架的数据获取方法和装置
CN110413210A (zh) * 2018-04-28 2019-11-05 伊姆西Ip控股有限责任公司 用于处理数据的方法、设备和计算机程序产品
CN110413210B (zh) * 2018-04-28 2023-05-30 伊姆西Ip控股有限责任公司 用于处理数据的方法、设备和计算机程序产品
CN109189829A (zh) * 2018-08-20 2019-01-11 广州知弘科技有限公司 基于大数据的信息安全系统和方法
CN110968597A (zh) * 2018-09-28 2020-04-07 北京淘友天下技术有限公司 基于图关系的人脉关系管理方法
CN109542946A (zh) * 2018-10-26 2019-03-29 贵州斯曼特信息技术开发有限责任公司 一种实时计算大数据系统和方法
CN109445945B (zh) * 2018-10-29 2023-09-19 努比亚技术有限公司 应用程序的内存分配方法、移动终端、服务器及存储介质
CN109445945A (zh) * 2018-10-29 2019-03-08 努比亚技术有限公司 应用程序的内存分配方法、移动终端、服务器及存储介质
CN109408241A (zh) * 2018-10-31 2019-03-01 百度在线网络技术(北京)有限公司 负载均衡方法、装置、设备和存储介质
CN109542867A (zh) * 2018-11-26 2019-03-29 成都四方伟业软件股份有限公司 分布式数据采集方法及装置
CN109542867B (zh) * 2018-11-26 2020-07-24 成都四方伟业软件股份有限公司 分布式数据采集方法及装置
CN109635168A (zh) * 2018-12-12 2019-04-16 成都四方伟业软件股份有限公司 图表输出方法及装置
CN109871400A (zh) * 2018-12-26 2019-06-11 中译语通科技股份有限公司 一种基于云服务平台的大数据计算控制系统及方法
CN109918450A (zh) * 2019-03-20 2019-06-21 江苏瑞中数据股份有限公司 基于分析类场景下的分布式并行数据库及存储方法
CN109918450B (zh) * 2019-03-20 2024-01-09 江苏瑞中数据股份有限公司 基于分析类场景下的分布式并行数据库及存储方法
CN110609923A (zh) * 2019-07-31 2019-12-24 象辑知源(武汉)科技有限公司 一种分布式的多算法融合的气象数据插值方法
CN110569310A (zh) * 2019-09-18 2019-12-13 广东省智能机器人研究院 一种云计算环境下的关系大数据的管理方法
CN111030983A (zh) * 2019-10-15 2020-04-17 深圳壹账通智能科技有限公司 基于分布式分发的数据处理方法、装置及相关设备
CN111030983B (zh) * 2019-10-15 2023-05-26 深圳壹账通智能科技有限公司 基于分布式分发的数据处理方法、装置及相关设备
CN111046054A (zh) * 2019-12-01 2020-04-21 国家电网有限公司客户服务中心 一种电力营销业务数据分析的方法和系统
CN111142798A (zh) * 2019-12-26 2020-05-12 紫光云(南京)数字技术有限公司 一种SparkStreaming在存储设备中存储文件为固定大小的方法
CN111459940A (zh) * 2020-04-02 2020-07-28 中电工业互联网有限公司 一种高效可靠的数据集成方法
CN111459940B (zh) * 2020-04-02 2023-09-19 中电工业互联网有限公司 一种高效可靠的数据集成方法
CN112116463A (zh) * 2020-05-20 2020-12-22 上海金融期货信息技术有限公司 一种基于Spark引擎的智能分析系统
CN111639082A (zh) * 2020-06-08 2020-09-08 成都信息工程大学 基于Ceph的十亿级节点规模知识图谱的对象存储管理方法及系统
CN111639082B (zh) * 2020-06-08 2022-12-23 成都信息工程大学 基于Ceph的十亿级节点规模知识图谱的对象存储管理方法及系统
CN111736776A (zh) * 2020-06-24 2020-10-02 杭州海康威视数字技术股份有限公司 一种数据存储、读取方法及装置
CN111736776B (zh) * 2020-06-24 2023-10-10 杭州海康威视数字技术股份有限公司 一种数据存储、读取方法及装置
CN111913791B (zh) * 2020-07-02 2023-10-13 北京和瑞精湛医学检验实验室有限公司 任务调度方法、装置、设备和计算机可读存储介质
CN111913791A (zh) * 2020-07-02 2020-11-10 北京和瑞精准医学检验实验室有限公司 任务调度方法、装置、设备和计算机可读存储介质
CN112235356A (zh) * 2020-09-23 2021-01-15 青岛数智船海科技有限公司 一种基于集群的分布式pb级cfd仿真数据管理系统
CN112381583A (zh) * 2020-11-19 2021-02-19 深圳供电局有限公司 一种基于分布式内存计算技术的电力量费计算方法及装置
CN112526974A (zh) * 2020-12-04 2021-03-19 中国航空工业集团公司成都飞机设计研究所 采用插件式管理架构的通用试验数据采集系统
CN112698988A (zh) * 2020-12-30 2021-04-23 安徽迪科数金科技有限公司 一种基于分布式系统的解析超大文本文件处理方法
CN113190526A (zh) * 2021-05-17 2021-07-30 中国铁路设计集团有限公司 基于大数据进行地形切断面并行计算方法及系统
CN113434548A (zh) * 2021-06-25 2021-09-24 北京理工大学 一种基于Spark的大规模数据流分析方法及系统
CN113434548B (zh) * 2021-06-25 2022-06-17 北京理工大学 一种基于Spark的大规模数据流分析方法及系统
CN113672583A (zh) * 2021-08-20 2021-11-19 浩鲸云计算科技股份有限公司 基于存储与计算分离的大数据多数据源分析方法及系统
CN113806606A (zh) * 2021-09-07 2021-12-17 南方电网调峰调频发电有限公司西部检修试验分公司 基于三维场景的电力大数据快速可视化分析方法及系统
CN113986830B (zh) * 2021-11-11 2024-02-23 西安交通大学 一种面向分布式ct的云端数据管理和任务调度方法及系统
CN113986830A (zh) * 2021-11-11 2022-01-28 西安交通大学 一种面向分布式ct的云端数据管理和任务调度方法及系统
CN115268800A (zh) * 2022-09-29 2022-11-01 四川汉唐云分布式存储技术有限公司 基于计算路由重定向的数据处理方法及数据存储系统
CN115268800B (zh) * 2022-09-29 2022-12-20 四川汉唐云分布式存储技术有限公司 基于计算路由重定向的数据处理方法及数据存储系统
CN116228433A (zh) * 2023-01-03 2023-06-06 易方达基金管理有限公司 债券组合业绩的回测方法、装置、设备和可读存储介质
CN116228433B (zh) * 2023-01-03 2024-05-17 易方达基金管理有限公司 债券组合业绩的回测方法、装置、设备和可读存储介质
CN116680090A (zh) * 2023-08-03 2023-09-01 睿至科技集团有限公司 一种基于大数据的边缘计算网络管理方法及平台
CN116680090B (zh) * 2023-08-03 2023-12-19 睿至科技集团有限公司 一种基于大数据的边缘计算网络管理方法及平台
CN116841752A (zh) * 2023-08-31 2023-10-03 杭州瞬安信息科技有限公司 一种基于分布式实时计算框架的数据分析计算系统
CN116841752B (zh) * 2023-08-31 2023-11-07 杭州瞬安信息科技有限公司 一种基于分布式实时计算框架的数据分析计算系统

Similar Documents

Publication Publication Date Title
CN107329982A (zh) 一种基于分布式列式存储的大数据并行计算方法及系统
To et al. A survey of state management in big data processing systems
Armenatzoglou et al. Amazon Redshift re-invented
US20200210412A1 (en) Using databases for both transactions and analysis
US9348839B2 (en) Continuous full scan data store table and distributed data store featuring predictable answer time for unpredictable workload
CN103930875B (zh) 用于加速业务数据处理的软件虚拟机
Bakshi Considerations for big data: Architecture and approach
Yuan et al. Spark-GPU: An accelerated in-memory data processing engine on clusters
Li et al. A platform for scalable one-pass analytics using mapreduce
US9424315B2 (en) Methods and systems for run-time scheduling database operations that are executed in hardware
US8458129B2 (en) Methods and systems for real-time continuous updates
US20100293135A1 (en) Highconcurrency query operator and method
US20140358977A1 (en) Management of Intermediate Data Spills during the Shuffle Phase of a Map-Reduce Job
Yao et al. Exploiting single-threaded model in multi-core in-memory systems
Humbetov Data-intensive computing with map-reduce and hadoop
Costa et al. A survey on data-driven performance tuning for big data analytics platforms
Jiang et al. Alibaba hologres: A cloud-native service for hybrid serving/analytical processing
US11609910B1 (en) Automatically refreshing materialized views according to performance benefit
KR20150089544A (ko) 혼용 워크로드 지원을 위한 데이터 관리 장치 및 데이터 관리 방법
WO2013153029A1 (en) Method and system for managing and processing data in a distributed computing platform
Chao-Qiang et al. RDDShare: reusing results of spark RDD
Martin et al. Multi-temperate logical data warehouse design for large-scale healthcare data
Vaidya Survey of parallel data processing in context with MapReduce
Zhou et al. Parallel techniques for large data analysis in the new version of a futures trading evaluation service
He et al. Continuously Bulk Loading over Range Partitioned Tables for Large Scale Historical Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171107