CN104361091A

CN104361091A - 一种大数据系统

Info

Publication number: CN104361091A
Application number: CN201410658038.8A
Authority: CN
Inventors: 辛国茂; 张东; 亓开元; 赵仁明; 房体盈; 曹连超; 卢军佐; 金洪殿; 刘伟; 杨勇; 李占强; 范荣盛
Original assignee: Inspur Beijing Electronic Information Industry Co Ltd
Current assignee: Inspur Beijing Electronic Information Industry Co Ltd
Priority date: 2014-11-18
Filing date: 2014-11-18
Publication date: 2015-02-18

Abstract

提出一种大数据系统，所述系统包括大数据基础平台、共享资源库、可视化编辑与展示子系统、以及流程调度子系统。所述系统综合现有各种大数据处理系统，基于用户编辑生成的数据处理流程调度程序资源和数据资源提交特定的大数据处理系统执行数据处理，极大降低了大数据系统的使用门槛，并且使组织内部大数据相关资源能方便共享，数据处理流程可复用可继承。

Description

一种大数据系统

技术领域

本发明涉及计算机信息存储与处理技术领域，具体涉及一种大数据系统。

背景技术

信息科技经过60多年的发展，已渗透到各行业的方方面面。政治、经济活动中很大一部分的活动都与数据的创造、采集、传输和使用相关，随着网络应用日益深化，大数据应用的影响日益扩大。根据机构测算，全世界数据总量以每两年翻一番的速度递增。换句话说，最近两年产生的数据总量相当于人类有史以来所有数据量的总和。在这个背景下，从公司战略到产业生态，从学术研究到生产实践，从城镇管理乃至国家治理，都将发生本质的变化。

大数据指的是大小超出常规的数据工具获取、存储、管理和分析能力的数据集，并不是说一定要超过特定TB值得数据集才能算是大数据。国际数据公司(IDC)从四个特征定义大数据，即海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)和巨大的数据价值(Value)。大数据几乎渗透到国民经济的所有部门，应用领域涉及信息服务、智慧城市、金融、制造业、国家安全和科学研究等。但目前这些行业处理大数据时，至少会面临如下的问题：

1.数据存储与管理

大数据给存储系统带来了3个方面的挑战：存储规模大，通常达到PB(1,000TB)甚至EB(1,000PB)量级；存储管理复杂，需要兼顾结构化、非结构化和半结构化的数据；上层应用对存储系统的性能、可靠性等指标有不同的要求，而数据的大规模和高复杂度放大了达到这些指标的技术难度。

3.数据分析处理

传统的并行计算方法主要从体系结构和编程语言的层面定义了一些较为底层的并行计算抽象和模型，但由于大数据处理问题具有很有高层的数据特征和计算特征，因此大数据处理需要更多地结合这些高层特征考虑更为高层的计算模式。大数据处理包括以下典型的特征和维度：

●数据结构特征

可分为结构化数据处理、半结构化数据处理与非结构化数据处理。

●数据获取处理方式

按照数据获取方式，大数据可分为批处理与流式计算方式。

●数据处理类型

从数据处理类型来看，大数据处理可分为传统的查询分析计算和复杂的数据挖掘分析计算。

●实时性

从数据计算响应性能角度看，大数据处理可分为实时/准实时与非实时计算，或者是联机计算与离线计算。

●并行计算体系结构

由于需要支持大规模数据的存储计算，大数据处理通常需要使用基于集群的分布式存储与并行计算体系结构和硬件平台。

针对如上问题，开源社区和国内外厂商都在进行相应的尝试和努力。大数据查询分析的典型系统包括Hadoop下的HBase和Hive，Facebook开发的Cassandra，Google公司的Dremel，Cloudera公司的Impala；此外为了实现更高性能的数据查询分析，还出现了不少基于内存的分布式数据存储管理和查询系统，如UC Berkeley AMPLab的基于内存计算引擎Spark的数据仓库Shark。还有MPP(massively parallel processing)数据库，比如EMC的GreenPlum，HP的Vertica。

最适合于大数据批处理的计算模式是MapReduce。MapReduce是一个单输入、两阶段(Map和Reduce)的数据处理过程。MapReduce的简单易用性使其成为目前大数据处理最为成功、最广为接受使用的主流并行计算模式。在开源社区的努力下，Hadoop系统目前已发展成为较为成熟的大数据处理平台，并已发展成一个包含众多数据处理工具和环境的完整的生态系统。Spark也是一个批处理系统，在性能方面比Hadoop MapReduce有很大提升，但是其易用性及稳定性方面目前仍不如Hadoop MapReduce。

流式计算是一种高实时性的计算模式，需要对一定时间窗口内产生的新数据完成实时的计算处理，避免造成数据堆积和丢失。Facebook的Scribe和Apache的Flume都提供了机制来构建日志数据处理流图。通用的流式计算系统是Twitter公司的Storm、Yahoo公司的S4、以及UC Berkeley AMPLab的Spark Streaming。

上述这种基础平台级的系统会不断增多，每个都有自己单独的任务提交与管理方式，而且在系统使用方面不友好，需要有一定的linux操作和编程经验。上述平台都侧重于解决一种应用场景，而现实中大数据分析及应用一般都是混合型场景，比如既包含批处理又包含查询分析，这就造成组织内部往往会部署多种大数据平台，而且每个平台都没有完善的任务和数据共享的机制。这至少会带来如下的问题：

第一，大数据平台使用门槛较高，擅长大数据分析的人往往很难掌握操作方法，阻碍了大数据平台的普及。

第二，组织内大数据分析及处理的相关代码、脚本和数据没有一种共享机制，每个任务都需要从头做起，知识无法积累，不具有持续性；

第三，目前基于上述大数据平台的数据处理需要编写相关程序或者脚本，在描述复杂数据处理流程时极为不便，这也为后续的维护及修改造成很大困难。

发明内容

为了解决上述现有技术中存在的问题，本发明提出了一种大数据系统，降低了大数据基础平台的使用门槛，使组织内部大数据相关资源能方便共享，数据处理流程可复用可继承，且能够为用户提供一种可视化的编辑和展示方式。

所述系统包括：大数据基础平台、共享资源库、可视化编辑与展示子系统、以及流程调度子系统；

所述大数据基础平台，用于从所述流程调度子系统接收程序资源，并执行处理；

所述共享资源库，用于存储所有用户共享的数据资源、程序资源、以及由数据资源和程序资源组成的数据处理流程；

所述可视化编辑与展示子系统，用于以图形化的方式向用户展示所述数据处理流程，以及为用户提供编辑所述数据处理流程的用户接口；

所述流程调度子系统，用于调度所述数据处理流程，将所述程序资源提交所述大数据基础平台执行。

特别地：

所述共享资源库只存储所述数据资源的存储路径信息，所述数据资源存储在所述大数据基础平台中。

特别地：

所述数据处理流程是由所述数据资源和程序资源连接而成的有向无环图；

所述编辑所述数据处理流程具体为：用户根据需要组合所述数据资源和程序资源，构成新的数据处理流程。

特别地：

所述大数据基础平台包括Hbase、Cassandra、Dremel、Impala、基于内存计算引擎Spark的数据仓库Shark、GreenPlum、Vertica中的一种或者多种的组合。

本发明的有益效果是：本大数据系统极大降低了大数据系统的使用门槛，并且使组织内部大数据相关资源能方便共享，数据处理流程可复用可继承，是一套可持续的可累积的大数据系统。

附图说明

附图1为本发明提出的大数据系统架构图。

附图2为本发明提出的大数据系统中数据处理流程示意图。

附图3为本发明提出的大数据系统中数据处理流程的树状结构示意图。

具体实施方式

下面将结合附图，详细说明本发明提出的方案。

参见附图2，其示出了本发明提出的一种大数据系统，该系统包含四个部分：(1)大数据基础平台；(2)共享资源库；(3)可视化编辑与展示子系统；(4)流程调度子系统。

1.大数据基础平台

大数据平台及计算模式，参考技术背景部分的介绍。组织可根据实际业务需求，选择上述内容中介绍的一种或多种平台。

2.共享资源库

共享资源库包含所有用户共享的资源，资源主要分为如下两种：

●数据资源

指的是存储在大数据基础平台中的数据，比如存在于HDFS分布式文件系统中的一个文件或HBase分布式数据库中的一张数据表。

●程序资源

指的是用户编写的处理数据资源的程序、脚本及配置文件。

还包括，数据处理流程资源

由数据资源和程序资源组成，每个数据处理流程是由前述二者连接而成的有向无环图，如图2所示。

特别地，共享资源库只存储上述资源的描述，而不存储具体的信息。比如，一个对应HDFS文件的数据资源，共享资源库中记录的只是这个文件的路径。资源共享机制和共享资源库使得组织内部大数据相关的数据和程序资源可累积。

3.可视化编辑与展示子系统

以图形化的方式展示与编辑数据处理流程，每个数据处理流程是由数据资源和程序资源组成的有向无环图。用户可以基于已有的数据处理流程资源进行修改，构造新的有向无环图，从而形成新的数据处理流程。这类似于面向对象编程中的类继承，基于父数据处理流程(父类)，添加或修改功能够成子数据处理流程(子类)，而子数据处理流程又可以派生新的数据处理流程，从而构成数据处理流程的树状结构，如图3所示。这实现了数据处理的可复用、可继承和可持续。

4.流程调度子系统

用户完成编写相应的数据处理流程后，由流程调度子系统调度执行。把流程中所包含的程序资源对应有向无环图中的节点，当节点的所有依赖节点都执行完毕，也就是所有的输入都生成时，调用当前节点的执行。把节点对应的程序资源提交给相应的大数据基础平台，并监控节点的运行，记录运行状态。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明的权利要求的保护范围。

Claims

1.一种大数据系统，其特征在于，包括：大数据基础平台、共享资源库、可视化编辑与展示子系统、以及流程调度子系统；

2.如权利要求1所述的系统，其特征在于：

所述共享资源库只存储所述数据资源的存储路径信息。

3.如权利要求1所述的系统，其特征在于：

4.如权利要求1至3任一项所述的系统，其特征在于：