CN104102702A

CN104102702A - 一种实现软硬件结合的面向应用的大数据系统及方法

Info

Publication number: CN104102702A
Application number: CN201410321901.0A
Authority: CN
Inventors: 辛国茂; 亓开元; 赵仁明; 房体盈; 曹连超; 卢军佐
Original assignee: Inspur Beijing Electronic Information Industry Co Ltd
Current assignee: Inspur Beijing Electronic Information Industry Co Ltd
Priority date: 2014-07-07
Filing date: 2014-07-07
Publication date: 2014-10-15

Abstract

本发明公开了一种实现软硬件结合的面向应用的大数据系统及方法，包括：硬件层、基础平台层、平台增强层；其中，硬件层，用于根据应用场景以及系统需求对硬件进行定制，并对基础平台层提供硬件支撑；基础平台层，用于根据大数据平台搭配能力以及应用场景的策略，选择一个或者几个大数据平台；平台增强层，用于根据基础平台层选择的大数据平台提供相应的大数据平台工具；其中，应用场景为用户应用需求或用户应用场景。本申请的技术方案屏蔽了平台多样性对用户带来的选择和搭配的难度，并且充分利用了软硬件结合的优势以及结合大数据平台工具提高易用性，极大地提高了行业大数据应用的开发质量和效率。

Description

一种实现软硬件结合的面向应用的大数据系统及方法

技术领域

本发明涉及大数据领域，尤指一种实现软硬件结合的面向应用的大数据系统及方法。

背景技术

大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集，并不是说一定要超过特定万亿字节(TB)值的数据集才能算是大数据。国际数据公司(IDC)从四个特征定义大数据，即海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)和巨大的数据价值(Value)。大数据几乎渗透到国民经济的所有部门，应用领域涉及信息服务、智慧城市、金融、制造业、国家安全和科学研究等。但目前这些行业处理大数据时，至少会面临如下的问题：

1、数据存储与管理

大数据给存储系统带来了3个方面的挑战：存储规模大，通常达到PB(1,000TB)甚至EB(1,000PB)量级；存储管理复杂，需要兼顾结构化、非结构化和半结构化的数据；上层应用对存储系统的性能、可靠性等指标有不同的要求，而数据的大规模和高复杂度放大了达到这些指标的技术难度。

2、数据分析处理

传统的并行计算方法主要从体系结构和编程语言的层面定义了一些较为底层的并行计算抽象和模型，但由于大数据处理问题具有很高层的数据特征和计算特征，因此大数据处理需要更多地结合这些高层特征考虑更为高层的计算模式。大数据处理包括以下典型的特征和维度：

1)数据结构特征

可分为结构化数据处理、半结构化数据处理与非结构化数据处理。

2)数据获取处理方式

按照数据获取方式，大数据可分为批处理与流式计算方式。

3)数据处理类型

从数据处理类型来看，大数据处理可分为传统的查询分析计算和复杂的数据挖掘分析计算。

4)实时性

从数据计算响应性能角度看，大数据处理可分为实时/准实时与非实时计算，或者是联机计算与离线计算。

5)并行计算体系结构

由于需要支持大规模数据的存储计算，大数据处理通常需要使用基于集群的分布式存储与并行计算体系结构和硬件平台。

3、数据系统使用及日常运维

目前大数据系统与传统关系型数据库(比如Oracle、MySql等)相比，对于企业IT人员在使用和日常运维方面还有不小的难度。一方面，大数据系统相关配套工具很零散或不成熟(比如数据导入导出、数据安全、备份容灾等)；另一方面由于大数据系统部署在集群上，服务器数量较多，怎样减少人工操作成本和提高效率，这对大数据系统进行监控和运维提出了很大挑战。

4、应用迁移与开发难度

目前行业内大部分的应用系统都不是基于大数据平台，随着数据规模的增大，这些应用系统已逐渐满足不了日常需求，需要在大数据系统框架下进行应用系统迁移或重构。但大数据应用的开发跟传统应用的开发还是有很大区别，加上缺乏面向行业解决方案的开发工具包，使得行业内大数据应用系统开发成本及难度很高，难以短时间内进行普及。

另外，现有的平台级的大数据系统及产品，每个都侧重于解决一种应用场景，而现实中大数据应用一般都是混合型场景，比如既包含批处理又包含查询分析，并且现有技术中并没有通过对硬件的一些限定来适应大数据平台运行的方法这至少会带来三个问题：第一，平台的多样性会给用户的选择与搭配能力带来极大挑战；第二，需要有为应用场景定制的硬件才能使平台发挥出其优势，采取通用硬件往往达不到最佳效果或者造成浪费；第三，目前这些平台基本是面向通用性，缺乏对具体行业应用的支持，使用及应用开发难度比较大，离用户还有一定距离。

发明内容

为了解决上述技术问题，本发明提供了一种实现软硬件结合的面向应用的大数据系统及方法，能够屏蔽平台多样性对用户带来的选择和搭配的难度，充分利用软硬件结合的优势以及结合大数据平台工具提高易用性，极大地提高了行业大数据应用的开发质量和效率。

为了达到上述发明目的，本发明公开了一种实现软硬件结合的面向应用的大数据系统，包括：硬件层、基础平台层、平台增强层；其中，

硬件层，用于根据应用场景以及系统需求对硬件进行定制，并对基础平台层提供硬件支撑；

基础平台层，用于根据大数据平台搭配能力以及应用场景的策略，选择一个或者几个大数据平台；

平台增强层，用于根据基础平台层选择的所述大数据平台提供相应的大数据平台工具；

其中，所述应用场景为用户应用需求或用户应用场景。

进一步地，大数据平台搭配能力以及应用场景的策略包括：

批处理查询分析对应平台：映射规约平台MapReduce，内存计算引擎平台Spark，数据仓库工具Hive，数据仓库工具Shark；

交互式查询分析对应平台：交互式数据分析系统Dremel，实时查询开源项目Impala，内存数据库；

高并发单表简单查询场景对应平台：分布式的、面向列的开源数据库Hbase；

流式计算场景对应平台：流式计算平台Storm，流式计算平台Sparkstreaming；

复杂查询场景对应平台：大规模并行处理数据库，内存数据库。

进一步地，上述系统还包括业务增值层，用于根据用户应用场景提供与行业应用结合的大数据开发工具包；

所述与行业应用结合的大数据开发工具包包括：金融行业开发工具包、电信行业开发工具包、公安行业开发工具包。

进一步地，硬件层具体用于：

对硬件的网络性能进行定制，包括：根据所述应用场景选择节点间的网络互连类型；

对硬件的存储性能进行定制，包括：节点的硬盘配置、是否使用SSD卡及内存的大小；

对硬件的计算资源进行定制，包括：确定CPU个数、核数及主频要求。

进一步地，大数据平台工具包括：运维监控、数据导入导出、集群管理、数据挖掘、工作流管理、安全增强及权限管理、数据可视化、备份与容灾。

本发明还公开了一种实现软硬件结合的面向应用的大数据方法，包括以下步骤：

根据应用场景以及系统需求对硬件进行定制，并提供硬件支撑；

根据大数据平台搭配能力以及应用场景的策略，选择一个或者几个大数据平台；

根据基础平台层选择的所述大数据平台提供相应的大数据平台工具；

其中，所述应用场景为用户应用需求或用户应用场景。

进一步地，大数据平台搭配能力以及应用场景的策略包括：

进一步地，上述方法还包括：根据用户应用场景提供与行业应用结合的大数据开发工具包；

进一步地，根据应用场景以及系统需求对硬件进行定制，包括：

本申请技术方案包括：硬件层、基础平台层、平台增强层；其中，硬件层，用于根据应用场景以及系统需求对硬件进行定制，并对基础平台层提供硬件支撑；基础平台层，用于根据大数据平台搭配能力以及应用场景的策略，选择一个或者几个大数据平台；平台增强层，用于根据基础平台层选择的大数据平台提供相应的大数据平台工具；其中，应用场景为用户应用需求或用户应用场景。本申请的技术方案为行业应用提供一个相对完整的解决方案，屏蔽了平台多样性对用户带来的选择和搭配的难度，并且充分利用了软硬件结合的优势以及结合大数据平台工具提高易用性，极大地提高了行业大数据应用的开发质量和效率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实现软硬件结合的面向应用的大数据系统的结构示意图；

图2为本发明实现软硬件结合的面向应用的大数据方法的流程图。

具体实施方式

大数据查询分析的典型系统包括分布式系统基础架构(Hadoop)下的分布式的、面向列的开源数据库(HBase)和数据仓库工具(Hive)，社交服务网站Facebook开发的非关系型数据库(Cassandra)，Google公司的交互式数据分析系统(Dremel)，Cloudera公司的实时查询开源项目(Impala)；此外为了实现更高性能的数据查询分析，还出现了不少基于内存的分布式数据存储管理和查询系统，UC Berkeley AMPLab的基于内存计算引擎(Spark)的数据仓库(Shark)。还有大规模并行处理(MPP，Massively ParallelProcessing)数据库，比如唯冠公司(EMC)的数据库引擎GreenPlum，惠普公司(HP)的基于列存储的数据库Vertica。

最适合于大数据批处理的计算模式是MapReduce，MapReduce是一个单输入、两阶段(Map和Reduce)的数据处理过程。MapReduce的简单易用性使其成为目前大数据处理最为成功、最广为接受使用的主流并行计算模式。在开源社区的努力下，Hadoop系统目前已发展成为较为成熟的大数据处理平台，并已发展成一个包含众多数据处理工具和环境的完整的生态系统。Spark也是一个批处理系统，在性能方面比Hadoop MapReduce有很大提升，但是其易用性及稳定性方面目前仍不如Hadoop MapReduce。

流式计算是一种高实时性的计算模式，需要对一定时间窗口内产生的新数据完成实时的计算处理，避免造成数据堆积和丢失。Facebook的Scribe和Apache的Flume都提供了机制来构建日志数据处理流图。通用的流式计算系统是Twitter公司的Storm、Yahoo公司的S4、以及UC Berkeley AMPLab的Spark Streaming。

下面结合附图及具体实施例对本发明进行详细说明。

图1为本发明实现软硬件结合的面向应用的大数据系统的结构示意图，如图1所示，包括：硬件层、基础平台层、平台增强层。其中，

硬件层，用于根据应用场景以及系统需求对硬件进行定制，并对基础平台层提供硬件支撑。

上述应用场景为用户应用需求或用户应用场景。

该硬件层具体用于：

首先，对硬件的网络性能进行定制，包括：根据该应用场景选择节点间的网络互连类型。

其次，对硬件的存储性能进行定制，包括：节点的硬盘配置、是否使用SSD卡及内存的大小。

最后，对硬件的计算资源进行定制，包括：确定CPU个数、核数及主频要求。

基础平台层，用于根据大数据平台搭配能力以及应用场景的策略，选择一个或者几个大数据平台。

需要说明的是，基础平台层在众多的大数据平台中选择合适的平台或组合，可以把用户从众多平台的选择中解放出来，其中合适的是指满足用户应用需求的，选择即是根据上述策略，匹配出合适的大数据平台。

上述大数据平台搭配能力以及应用场景的策略包括：

批处理查询分析对应平台：映射规约平台(MapReduce)，内存计算引擎平台(Spark)，数据仓库工具(Hive)，数据仓库工具(Shark)；

交互式查询分析对应平台：交互式数据分析系统(Dremel)，实时查询开源项目(Impala)，内存数据库；

高并发单表简单查询场景对应平台：分布式的、面向列的开源数据库(Hbase)；

流式计算场景对应平台：流式计算平台(Storm)，流式计算平台(Sparkstreaming)；

平台增强层，用于根据基础平台层选择的所述大数据平台提供相应的大数据平台工具。

上述大数据平台工具包括：运维监控、数据导入导出(ETL)、集群管理、数据挖掘、工作流管理、安全增强及权限管理、数据可视化、备份与容灾。

较优地，上述系统还包括业务增值层，用于根据用户应用场景提供与行业应用结合的大数据开发工具包；

其中，上述与行业应用结合的大数据开发工具包包括：金融行业开发工具包、电信行业开发工具包、公安行业开发工具包。这些工具包是指跟具体业务相关的代码或类库，方便进行应用开发。跟传统工具包不同的是，这些代码或类库是基于大数据平台的。

图2为本发明实现软硬件结合的面向应用的大数据方法的流程图，如图2所示，包括以下步骤：

步骤201，根据应用场景以及系统需求对硬件进行定制，并提供硬件支撑。

上述应用场景为用户应用需求或用户应用场景。

本步骤具体包括：

对硬件的网络性能进行定制，包括：根据所述应用场景选择节点间的网络互连类型。

对硬件的存储性能进行定制，包括：节点的硬盘配置、是否使用SSD卡及内存的大小。

步骤202，根据大数据平台搭配能力以及应用场景的策略，选择一个或者几个大数据平台。

上述大数据平台搭配能力以及应用场景的策略包括：

本步骤需要说明是，在众多的大数据平台中选择合适的平台或组合，可以把用户从众多平台的选择中解放出来，其中合适的是指满足用户应用需求的，选择即是根据上述策略，匹配出合适的大数据平台。

步骤203，根据基础平台层选择的所述大数据平台提供相应的大数据平台工具。

较优地，上述方法还包括：根据用户应用场景提供与行业应用结合的大数据开发工具包。

实施例一

本实施中以交通卡口数据查询为例，来详细说明如何实现实现软硬件结合的面向应用的大数据系统。

交通卡口数据可以理解为高速公路收费口或路口的车辆通行信息，每条记录至少包含：车牌号、通行时间、车辆类型、卡口编号(可根据卡口编号得到卡口所在城市信息)等。基于交通卡口数据的一个应用场景是，查询在指定时间段内同时出现在指定卡口的车辆信息。比如6月28日上午9:00-10:00出现在卡口1,6月28日上午11:00-12:00出现在卡口3,6月28日下午4:00-5:00出现在卡口10的所有车辆信息。假设卡口数据总量为2T，服务器节点数为10。

此实施例的应用场景为数据复杂查询场景，基础平台层可以选用内存数据库产品。根据数据量来看，硬件层可以选用内存比较大而硬盘相对较小的机器，而且为了提高读写速度可以选用ssd硬盘。对于平台增强层，需要有集群管理、运维监控、备份与容灾模块(这个具体还要基于客户需求)。对于业务增值层，由于这个场景是卡口数据的一个通用场景，可以把场景逻辑实现为一个应用程序接口(API)，上层应用(比如UI展示)只需调用这个API，应用开发者无需关注具体使用何种大数据平台。当基础平台层发生变化(比如版本升级或客户强制要求替换)时无需对上层应用进行修改，同时简化了上层应用的开发难度。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本申请不限制于任何特定形式的硬件和软件的结合。

以上所述，仅为本发明的较佳实例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种实现软硬件结合的面向应用的大数据系统，其特征在于，包括：硬件层、基础平台层、平台增强层；其中，

其中，所述应用场景为用户应用需求或用户应用场景。

2.根据权利要求1所述的系统，其特征在于，所述大数据平台搭配能力以及应用场景的策略包括：

3.根据权利要求1所述的系统，其特征在于，所述系统还包括业务增值层，用于根据用户应用场景提供与行业应用结合的大数据开发工具包；

4.根据权利要求1所述的系统，其特征在于，所述硬件层具体用于：

5.根据权利要求1所述的系统，其特征在于，所述大数据平台工具包括：运维监控、数据导入导出、集群管理、数据挖掘、工作流管理、安全增强及权限管理、数据可视化、备份与容灾。

6.一种实现软硬件结合的面向应用的大数据方法，其特征在于，包括：

其中，所述应用场景为用户应用需求或用户应用场景。

7.根据权利要求6所述的方法，其特征在于，所述大数据平台搭配能力以及应用场景的策略包括：

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：根据用户应用场景提供与行业应用结合的大数据开发工具包；

9.根据权利要求6所述的方法，其特征在于，所述根据应用场景以及系统需求对硬件进行定制，包括：

10.根据权利要求6所述的方法，其特征在于，所述大数据平台工具包括：运维监控、数据导入导出、集群管理、数据挖掘、工作流管理、安全增强及权限管理、数据可视化、备份与容灾。