CN104361091A - 一种大数据系统 - Google Patents

一种大数据系统 Download PDF

Info

Publication number
CN104361091A
CN104361091A CN201410658038.8A CN201410658038A CN104361091A CN 104361091 A CN104361091 A CN 104361091A CN 201410658038 A CN201410658038 A CN 201410658038A CN 104361091 A CN104361091 A CN 104361091A
Authority
CN
China
Prior art keywords
data
resource
data processing
flow chart
subsystem
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410658038.8A
Other languages
English (en)
Inventor
辛国茂
张东
亓开元
赵仁明
房体盈
曹连超
卢军佐
金洪殿
刘伟
杨勇
李占强
范荣盛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201410658038.8A priority Critical patent/CN104361091A/zh
Publication of CN104361091A publication Critical patent/CN104361091A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems

Abstract

提出一种大数据系统,所述系统包括大数据基础平台、共享资源库、可视化编辑与展示子系统、以及流程调度子系统。所述系统综合现有各种大数据处理系统,基于用户编辑生成的数据处理流程调度程序资源和数据资源提交特定的大数据处理系统执行数据处理,极大降低了大数据系统的使用门槛,并且使组织内部大数据相关资源能方便共享,数据处理流程可复用可继承。

Description

一种大数据系统
技术领域
本发明涉及计算机信息存储与处理技术领域,具体涉及一种大数据系统。
背景技术
信息科技经过60多年的发展,已渗透到各行业的方方面面。政治、经济活动中很大一部分的活动都与数据的创造、采集、传输和使用相关,随着网络应用日益深化,大数据应用的影响日益扩大。根据机构测算,全世界数据总量以每两年翻一番的速度递增。换句话说,最近两年产生的数据总量相当于人类有史以来所有数据量的总和。在这个背景下,从公司战略到产业生态,从学术研究到生产实践,从城镇管理乃至国家治理,都将发生本质的变化。
大数据指的是大小超出常规的数据工具获取、存储、管理和分析能力的数据集,并不是说一定要超过特定TB值得数据集才能算是大数据。国际数据公司(IDC)从四个特征定义大数据,即海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)和巨大的数据价值(Value)。大数据几乎渗透到国民经济的所有部门,应用领域涉及信息服务、智慧城市、金融、制造业、国家安全和科学研究等。但目前这些行业处理大数据时,至少会面临如下的问题:
1.数据存储与管理
大数据给存储系统带来了3个方面的挑战:存储规模大,通常达到PB(1,000TB)甚至EB(1,000PB)量级;存储管理复杂,需要兼顾结构化、非结构化和半结构化的数据;上层应用对存储系统的性能、可靠性等指标有不同的要求,而数据的大规模和高复杂度放大了达到这些指标的技术难度。
3.数据分析处理
传统的并行计算方法主要从体系结构和编程语言的层面定义了一些较为底层的并行计算抽象和模型,但由于大数据处理问题具有很有高层的数据特征和计算特征,因此大数据处理需要更多地结合这些高层特征考虑更为高层的计算模式。大数据处理包括以下典型的特征和维度:
●数据结构特征
可分为结构化数据处理、半结构化数据处理与非结构化数据处理。
●数据获取处理方式
按照数据获取方式,大数据可分为批处理与流式计算方式。
●数据处理类型
从数据处理类型来看,大数据处理可分为传统的查询分析计算和复杂的数据挖掘分析计算。
●实时性
从数据计算响应性能角度看,大数据处理可分为实时/准实时与非实时计算,或者是联机计算与离线计算。
●并行计算体系结构
由于需要支持大规模数据的存储计算,大数据处理通常需要使用基于集群的分布式存储与并行计算体系结构和硬件平台。
针对如上问题,开源社区和国内外厂商都在进行相应的尝试和努力。大数据查询分析的典型系统包括Hadoop下的HBase和Hive,Facebook开发的Cassandra,Google公司的Dremel,Cloudera公司的Impala;此外为了实现更高性能的数据查询分析,还出现了不少基于内存的分布式数据存储管理和查询系统,如UC Berkeley AMPLab的基于内存计算引擎Spark的数据仓库Shark。还有MPP(massively parallel processing)数据库,比如EMC的GreenPlum,HP的Vertica。
最适合于大数据批处理的计算模式是MapReduce。MapReduce是一个单输入、两阶段(Map和Reduce)的数据处理过程。MapReduce的简单易用性使其成为目前大数据处理最为成功、最广为接受使用的主流并行计算模式。在开源社区的努力下,Hadoop系统目前已发展成为较为成熟的大数据处理平台,并已发展成一个包含众多数据处理工具和环境的完整的生态系统。Spark也是一个批处理系统,在性能方面比Hadoop MapReduce有很大提升,但是其易用性及稳定性方面目前仍不如Hadoop MapReduce。
流式计算是一种高实时性的计算模式,需要对一定时间窗口内产生的新数据完成实时的计算处理,避免造成数据堆积和丢失。Facebook的Scribe和Apache的Flume都提供了机制来构建日志数据处理流图。通用的流式计算系统是Twitter公司的Storm、Yahoo公司的S4、以及UC Berkeley AMPLab的Spark Streaming。
上述这种基础平台级的系统会不断增多,每个都有自己单独的任务提交与管理方式,而且在系统使用方面不友好,需要有一定的linux操作和编程经验。上述平台都侧重于解决一种应用场景,而现实中大数据分析及应用一般都是混合型场景,比如既包含批处理又包含查询分析,这就造成组织内部往往会部署多种大数据平台,而且每个平台都没有完善的任务和数据共享的机制。这至少会带来如下的问题:
第一,大数据平台使用门槛较高,擅长大数据分析的人往往很难掌握操作方法,阻碍了大数据平台的普及。
第二,组织内大数据分析及处理的相关代码、脚本和数据没有一种共享机制,每个任务都需要从头做起,知识无法积累,不具有持续性;
第三,目前基于上述大数据平台的数据处理需要编写相关程序或者脚本,在描述复杂数据处理流程时极为不便,这也为后续的维护及修改造成很大困难。
发明内容
为了解决上述现有技术中存在的问题,本发明提出了一种大数据系统,降低了大数据基础平台的使用门槛,使组织内部大数据相关资源能方便共享,数据处理流程可复用可继承,且能够为用户提供一种可视化的编辑和展示方式。
所述系统包括:大数据基础平台、共享资源库、可视化编辑与展示子系统、以及流程调度子系统;
所述大数据基础平台,用于从所述流程调度子系统接收程序资源,并执行处理;
所述共享资源库,用于存储所有用户共享的数据资源、程序资源、以及由数据资源和程序资源组成的数据处理流程;
所述可视化编辑与展示子系统,用于以图形化的方式向用户展示所述数据处理流程,以及为用户提供编辑所述数据处理流程的用户接口;
所述流程调度子系统,用于调度所述数据处理流程,将所述程序资源提交所述大数据基础平台执行。
特别地:
所述共享资源库只存储所述数据资源的存储路径信息,所述数据资源存储在所述大数据基础平台中。
特别地:
所述数据处理流程是由所述数据资源和程序资源连接而成的有向无环图;
所述编辑所述数据处理流程具体为:用户根据需要组合所述数据资源和程序资源,构成新的数据处理流程。
特别地:
所述大数据基础平台包括Hbase、Cassandra、Dremel、Impala、基于内存计算引擎Spark的数据仓库Shark、GreenPlum、Vertica中的一种或者多种的组合。
本发明的有益效果是:本大数据系统极大降低了大数据系统的使用门槛,并且使组织内部大数据相关资源能方便共享,数据处理流程可复用可继承,是一套可持续的可累积的大数据系统。
附图说明
附图1为本发明提出的大数据系统架构图。
附图2为本发明提出的大数据系统中数据处理流程示意图。
附图3为本发明提出的大数据系统中数据处理流程的树状结构示意图。
具体实施方式
下面将结合附图,详细说明本发明提出的方案。
参见附图2,其示出了本发明提出的一种大数据系统,该系统包含四个部分:(1)大数据基础平台;(2)共享资源库;(3)可视化编辑与展示子系统;(4)流程调度子系统。
1.大数据基础平台
大数据平台及计算模式,参考技术背景部分的介绍。组织可根据实际业务需求,选择上述内容中介绍的一种或多种平台。
2.共享资源库
共享资源库包含所有用户共享的资源,资源主要分为如下两种:
●数据资源
指的是存储在大数据基础平台中的数据,比如存在于HDFS分布式文件系统中的一个文件或HBase分布式数据库中的一张数据表。
●程序资源
指的是用户编写的处理数据资源的程序、脚本及配置文件。
还包括,数据处理流程资源
由数据资源和程序资源组成,每个数据处理流程是由前述二者连接而成的有向无环图,如图2所示。
特别地,共享资源库只存储上述资源的描述,而不存储具体的信息。比如,一个对应HDFS文件的数据资源,共享资源库中记录的只是这个文件的路径。资源共享机制和共享资源库使得组织内部大数据相关的数据和程序资源可累积。
3.可视化编辑与展示子系统
以图形化的方式展示与编辑数据处理流程,每个数据处理流程是由数据资源和程序资源组成的有向无环图。用户可以基于已有的数据处理流程资源进行修改,构造新的有向无环图,从而形成新的数据处理流程。这类似于面向对象编程中的类继承,基于父数据处理流程(父类),添加或修改功能够成子数据处理流程(子类),而子数据处理流程又可以派生新的数据处理流程,从而构成数据处理流程的树状结构,如图3所示。这实现了数据处理的可复用、可继承和可持续。
4.流程调度子系统
用户完成编写相应的数据处理流程后,由流程调度子系统调度执行。把流程中所包含的程序资源对应有向无环图中的节点,当节点的所有依赖节点都执行完毕,也就是所有的输入都生成时,调用当前节点的执行。把节点对应的程序资源提交给相应的大数据基础平台,并监控节点的运行,记录运行状态。
当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明的权利要求的保护范围。

Claims (4)

1.一种大数据系统,其特征在于,包括:大数据基础平台、共享资源库、可视化编辑与展示子系统、以及流程调度子系统;
所述大数据基础平台,用于从所述流程调度子系统接收程序资源,并执行处理;
所述共享资源库,用于存储所有用户共享的数据资源、程序资源、以及由数据资源和程序资源组成的数据处理流程;
所述可视化编辑与展示子系统,用于以图形化的方式向用户展示所述数据处理流程,以及为用户提供编辑所述数据处理流程的用户接口;
所述流程调度子系统,用于调度所述数据处理流程,将所述程序资源提交所述大数据基础平台执行。
2.如权利要求1所述的系统,其特征在于:
所述共享资源库只存储所述数据资源的存储路径信息。
3.如权利要求1所述的系统,其特征在于:
所述数据处理流程是由所述数据资源和程序资源连接而成的有向无环图;
所述编辑所述数据处理流程具体为:用户根据需要组合所述数据资源和程序资源,构成新的数据处理流程。
4.如权利要求1至3任一项所述的系统,其特征在于:
所述大数据基础平台包括Hbase、Cassandra、Dremel、Impala、基于内存计算引擎Spark的数据仓库Shark、GreenPlum、Vertica中的一种或者多种的组合。
CN201410658038.8A 2014-11-18 2014-11-18 一种大数据系统 Pending CN104361091A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410658038.8A CN104361091A (zh) 2014-11-18 2014-11-18 一种大数据系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410658038.8A CN104361091A (zh) 2014-11-18 2014-11-18 一种大数据系统

Publications (1)

Publication Number Publication Date
CN104361091A true CN104361091A (zh) 2015-02-18

Family

ID=52528351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410658038.8A Pending CN104361091A (zh) 2014-11-18 2014-11-18 一种大数据系统

Country Status (1)

Country Link
CN (1) CN104361091A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834561A (zh) * 2015-04-29 2015-08-12 华为技术有限公司 一种数据处理方法及装置
CN105468741A (zh) * 2015-11-25 2016-04-06 曙光信息产业(北京)有限公司 一种警务大数据处理系统
CN105677539A (zh) * 2016-01-12 2016-06-15 北京中交兴路车联网科技有限公司 用于大数据系统信息汇总报表的方法和装置
CN105915377A (zh) * 2016-04-14 2016-08-31 北京思特奇信息技术股份有限公司 一种Flume与SparkStreaming整合的方法及系统
CN106550025A (zh) * 2016-10-25 2017-03-29 深圳大学 一种移动云计算系统的数据处理方法及装置
CN106649828A (zh) * 2016-12-29 2017-05-10 中国银联股份有限公司 一种数据查询方法及系统
CN106648672A (zh) * 2016-12-28 2017-05-10 北京云星宇交通科技股份有限公司 一种大数据开发与运行方法及系统
CN107315581A (zh) * 2017-05-23 2017-11-03 努比亚技术有限公司 任务脚本生成装置及方法、任务调度系统及方法
CN107452090A (zh) * 2017-07-26 2017-12-08 四川省金舟信息技术有限公司 一种基于大数据平台的车载智能电脑
CN108536696A (zh) * 2017-03-02 2018-09-14 塞纳德(北京)信息技术有限公司 一种数据库个性化自助查询平台和方法
CN108874982A (zh) * 2018-06-11 2018-11-23 华南理工大学 一种基于Spark大数据框架离线实时处理数据的方法
CN109743202A (zh) * 2018-12-26 2019-05-10 中国联合网络通信集团有限公司 数据的管理方法、装置、设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110320968A1 (en) * 2010-06-29 2011-12-29 Ivo Vollrath Shared user interface services framework
CN103136335A (zh) * 2013-01-31 2013-06-05 北京千分点信息科技有限公司 一种基于数据平台的数据控制方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110320968A1 (en) * 2010-06-29 2011-12-29 Ivo Vollrath Shared user interface services framework
CN103136335A (zh) * 2013-01-31 2013-06-05 北京千分点信息科技有限公司 一种基于数据平台的数据控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘杰: "面向数据集成的数据清理关键技术研究", 《中国博士学位论文全文数据库 信息科技辑》 *
刘绍清等: "基于可复用构建思想的ETL构架设计", 《现代电子技术》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016173351A1 (zh) * 2015-04-29 2016-11-03 华为技术有限公司 一种数据处理方法及装置
CN104834561A (zh) * 2015-04-29 2015-08-12 华为技术有限公司 一种数据处理方法及装置
US10606654B2 (en) 2015-04-29 2020-03-31 Huawei Technologies Co., Ltd. Data processing method and apparatus
CN104834561B (zh) * 2015-04-29 2018-01-19 华为技术有限公司 一种数据处理方法及装置
CN105468741A (zh) * 2015-11-25 2016-04-06 曙光信息产业(北京)有限公司 一种警务大数据处理系统
CN105677539A (zh) * 2016-01-12 2016-06-15 北京中交兴路车联网科技有限公司 用于大数据系统信息汇总报表的方法和装置
CN105915377A (zh) * 2016-04-14 2016-08-31 北京思特奇信息技术股份有限公司 一种Flume与SparkStreaming整合的方法及系统
CN106550025A (zh) * 2016-10-25 2017-03-29 深圳大学 一种移动云计算系统的数据处理方法及装置
CN106648672A (zh) * 2016-12-28 2017-05-10 北京云星宇交通科技股份有限公司 一种大数据开发与运行方法及系统
CN106649828B (zh) * 2016-12-29 2019-12-24 中国银联股份有限公司 一种数据查询方法及系统
CN106649828A (zh) * 2016-12-29 2017-05-10 中国银联股份有限公司 一种数据查询方法及系统
CN108536696A (zh) * 2017-03-02 2018-09-14 塞纳德(北京)信息技术有限公司 一种数据库个性化自助查询平台和方法
CN107315581A (zh) * 2017-05-23 2017-11-03 努比亚技术有限公司 任务脚本生成装置及方法、任务调度系统及方法
CN107315581B (zh) * 2017-05-23 2020-09-11 努比亚技术有限公司 任务脚本生成装置及方法、任务调度系统及方法
CN107452090A (zh) * 2017-07-26 2017-12-08 四川省金舟信息技术有限公司 一种基于大数据平台的车载智能电脑
CN108874982A (zh) * 2018-06-11 2018-11-23 华南理工大学 一种基于Spark大数据框架离线实时处理数据的方法
CN109743202A (zh) * 2018-12-26 2019-05-10 中国联合网络通信集团有限公司 数据的管理方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN104361091A (zh) 一种大数据系统
CN113673948A (zh) 一种基于工业互联网的数字孪生基础开发平台
Pandey et al. Prominence of mapreduce in big data processing
CN107391502B (zh) 时间间隔的数据查询方法、装置及索引构建方法、装置
Alrokayan et al. Sla-aware provisioning and scheduling of cloud resources for big data analytics
CN106611037A (zh) 用于分布式图计算的方法与设备
CN110222029A (zh) 一种大数据多维分析计算效率提升方法及系统
CN108595473A (zh) 一种基于云计算的大数据应用平台
Ye et al. Big data processing framework for manufacturing
Huddar et al. A survey on big data analytical tools
CN204906437U (zh) 大数据存储应用网络架构
Delchev et al. Big Data Analysis Architecture
Prakash Evolution of data warehouses to data lakes for enterprise business intelligence
CN103810258A (zh) 基于数据仓库的数据汇聚调度方法
Vanhove et al. Live datastore transformation for optimizing big data applications in cloud environments
Mahmoudian et al. An Overview of Big Data Concepts, Methods, and Analytics: Challenges, Issues, and Opportunities
Danping et al. Apriori Algorithm Research Based on Map-Reduce in Cloud Computing Environments
Xie et al. Research on big data technology-based agricultural information system
Keswani et al. Enhanced approach to attain competent Big Data pre-processing
Canim et al. System G data store: Big, rich graph data analytics in the cloud
CN104598321A (zh) 一种智能大数据处理方法和装置
CN105488056A (zh) 一种对象处理方法与设备
Xu et al. Research on performance optimization and visualization tool of Hadoop
Gupta et al. Learner to advanced: Big data journey
Zhang et al. Building quotient cube with MapReduce In hadoop

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150218

WD01 Invention patent application deemed withdrawn after publication