CN105468756A

CN105468756A - 一种海量数据处理系统的设计和实现方法

Info

Publication number: CN105468756A
Application number: CN201510850498.5A
Authority: CN
Inventors: 孙志云; 郭美思
Original assignee: Inspur Group Co Ltd
Current assignee: Inspur Group Co Ltd
Priority date: 2015-11-30
Filing date: 2015-11-30
Publication date: 2016-04-06

Abstract

本发明提供一种海量数据处理系统的设计和实现方法，采用了分布式存储、分布式计算框架、快速处理的方式，提高数据存储、处理效率，节省CPU及网络资源；本方法包括：海量数据收集模块、海量数据存储模块、海量数据处理模块。本发明的结构设计主要考虑海量数据收集、数据存储、数据处理的问题。为了使得海量数据处理过程更加便捷、高效、安全，本文采用了分布式存储、分布式计算框架、快速处理的方式，实现了一种海量数据处理系统的设计和实现。从而提高数据存储、处理效率，节省CPU及网络资源。

Description

一种海量数据处理系统的设计和实现方法

技术领域

本发明涉及一种数据处理系统，具体涉及一种海量数据处理系统的设计和实现方法。

背景技术

随着互联网时代的高速发展，人们的生活发生了巨大的变化。人们会利用互联网进行工作、学习和生活，其中利用互联网的便利寻找学习资料、工作资料、购置生活用品的现象已经非常普遍。现代社会已经进入高科技时代，所有的办公环境及沟通交流都是通过电子产品，数据的产生速度及共享速度也成指数增长，从而导致数据量的剧增。但由于数据的来源及类型变得复杂多样性，数据量非常庞大，与传统的数据有很大的区别。在传统数据中，数据存储、处理及分析的数据量相对较少，可以采用关系型数据库和并行仓库处理，难以保证扩展性。在海量数据存在的大数据时代，由于大数据处理大量的非结构化数据，因此，其存储及处理与传统数据有很大的区别，同时也带来了极大的挑战。为了满足大数据存储分析处理的需求，分布式采集数据、分布式存储数据、分布式处理数据等技术是很好的解决方案。

发明内容

本发明的技术任务是针对现有技术的不足，提供一种海量数据处理系统的设计和实现方法。本方法采用了分布式存储、分布式计算框架、快速处理的方式，从而提高数据存储、处理效率，节省CPU及网络资源。

本发明解决其技术问题所采用的技术方案是：

一种海量数据处理系统的设计和实现方法，采用了分布式存储、分布式计算框架、快速处理的方式，提高数据存储、处理效率，节省CPU及网络资源；本方法包括：海量数据收集模块、海量数据存储模块、海量数据处理模块。

海量数据收集模块是通过数据聚合系统进行数据收集，通过定制数据的发送方，用于用户收集数据，然后写到数据接受方，该模块提供了一个分布式、可靠的数据收集功能。

海量数据存储模块是通过分布式文件进行存储，具有多副本的高可靠性，将数据分布式存储在各个节点上，满足海量数据存储的需求。

海量数据处理模块是通过分布式计算框架将海量数据分成若干部分，然后分到多个节点上进行并行处理，满足海量数据处理的效率。

本发明的一种海量数据处理系统的设计和实现方法与现有技术相比，所产生的有益效果是，（1）通过海量数据聚合方式将海量数据进行收集，便于传输需求；（2）提供分布式存储海量数据，充分利用存储空间，保证数据的可靠性；（3）通过分布式计算框架提取数据进行处理，体现了并行计算的特点，大大提高了处理效率。

为了使得海量数据处理过程更加便捷、高效、安全，本文采用了分布式存储、分布式计算框架、快速处理的方式，实现了一种海量数据处理系统的设计和实现。从而提高数据存储、处理效率，节省CPU及网络资源。

附图说明

附图1一种海量数据处理系统的框架图；

附图2海量数据收集模块示意图；

附图3海量数据处理模块流程图。

具体实施方式

下面对本发明的一种海量数据处理系统的设计和实现方法作以下详细地说明。

实施例

下面参照附图，对本发明的内容以一个具体实例来描述一种海量数据处理系统的设计和实现的过程。

正如发明内容中所描述的，本发明中一种海量数据处理系统的设计和实现包括三个模块，分别是海量数据收集模块、海量数据存储模块和海量数据处理模块。一种海量数据处理系统的框架图如附图1所示。

首先在三个节点的服务器上安装操作系统Centos6.3，然后组件三个节点的集群环境。按照安装的步骤搭建Hadoop平台，启动HDFS、MapReduce、HBase、Flume组件。为海量数据的处理进行环境准备。

海量数据收集模块示意图如附图2所示，使用Flume将在不同agent端的数据进行收集，然后通过配置文件制定到分布式数据存储文件系统中，如HDFS。HDFS具有高可用性，可以根据需求进行副本的设置。

海量数据处理模块流程图如附图3所示，该模块对于存储在HDFS上的海量数据进行处理。根据分布式计算编程框架MapRedcue处理HDFS上的文件，然后进行分割，分别分配到每个节点上进行子任务的执行，最后汇聚结果。该模块通过并行处理可以大大提高数据的处理效率，充分利用服务器的资源，满足了海量数据处理的需求。

Claims

1.一种海量数据处理系统的设计和实现方法，其特征在于采用了分布式存储、分布式计算框架、快速处理的方式，提高数据存储、处理效率，节省CPU及网络资源；本方法包括：海量数据收集模块、海量数据存储模块、海量数据处理模块；

海量数据收集模块是通过数据聚合系统进行数据收集，通过定制数据的发送方，用于用户收集数据，然后写到数据接受方，该模块提供了一个分布式、可靠的数据收集功能；

海量数据存储模块是通过分布式文件进行存储，具有多副本的高可靠性，将数据分布式存储在各个节点上，满足海量数据存储的需求；