CN105468756A - 一种海量数据处理系统的设计和实现方法 - Google Patents
一种海量数据处理系统的设计和实现方法 Download PDFInfo
- Publication number
- CN105468756A CN105468756A CN201510850498.5A CN201510850498A CN105468756A CN 105468756 A CN105468756 A CN 105468756A CN 201510850498 A CN201510850498 A CN 201510850498A CN 105468756 A CN105468756 A CN 105468756A
- Authority
- CN
- China
- Prior art keywords
- data
- mass data
- module
- mass
- data processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000013461 design Methods 0.000 title claims abstract description 15
- 238000013480 data collection Methods 0.000 claims abstract description 17
- 238000013500 data storage Methods 0.000 claims abstract description 16
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种海量数据处理系统的设计和实现方法,采用了分布式存储、分布式计算框架、快速处理的方式,提高数据存储、处理效率,节省CPU及网络资源;本方法包括:海量数据收集模块、海量数据存储模块、海量数据处理模块。本发明的结构设计主要考虑海量数据收集、数据存储、数据处理的问题。为了使得海量数据处理过程更加便捷、高效、安全,本文采用了分布式存储、分布式计算框架、快速处理的方式,实现了一种海量数据处理系统的设计和实现。从而提高数据存储、处理效率,节省CPU及网络资源。
Description
技术领域
本发明涉及一种数据处理系统,具体涉及一种海量数据处理系统的设计和实现方法。
背景技术
随着互联网时代的高速发展,人们的生活发生了巨大的变化。人们会利用互联网进行工作、学习和生活,其中利用互联网的便利寻找学习资料、工作资料、购置生活用品的现象已经非常普遍。现代社会已经进入高科技时代,所有的办公环境及沟通交流都是通过电子产品,数据的产生速度及共享速度也成指数增长,从而导致数据量的剧增。但由于数据的来源及类型变得复杂多样性,数据量非常庞大,与传统的数据有很大的区别。在传统数据中,数据存储、处理及分析的数据量相对较少,可以采用关系型数据库和并行仓库处理,难以保证扩展性。在海量数据存在的大数据时代,由于大数据处理大量的非结构化数据,因此,其存储及处理与传统数据有很大的区别,同时也带来了极大的挑战。为了满足大数据存储分析处理的需求,分布式采集数据、分布式存储数据、分布式处理数据等技术是很好的解决方案。
发明内容
本发明的技术任务是针对现有技术的不足,提供一种海量数据处理系统的设计和实现方法。本方法采用了分布式存储、分布式计算框架、快速处理的方式,从而提高数据存储、处理效率,节省CPU及网络资源。
本发明解决其技术问题所采用的技术方案是:
一种海量数据处理系统的设计和实现方法,采用了分布式存储、分布式计算框架、快速处理的方式,提高数据存储、处理效率,节省CPU及网络资源;本方法包括:海量数据收集模块、海量数据存储模块、海量数据处理模块。
海量数据收集模块是通过数据聚合系统进行数据收集,通过定制数据的发送方,用于用户收集数据,然后写到数据接受方,该模块提供了一个分布式、可靠的数据收集功能。
海量数据存储模块是通过分布式文件进行存储,具有多副本的高可靠性,将数据分布式存储在各个节点上,满足海量数据存储的需求。
海量数据处理模块是通过分布式计算框架将海量数据分成若干部分,然后分到多个节点上进行并行处理,满足海量数据处理的效率。
本发明的一种海量数据处理系统的设计和实现方法与现有技术相比,所产生的有益效果是,(1)通过海量数据聚合方式将海量数据进行收集,便于传输需求;(2)提供分布式存储海量数据,充分利用存储空间,保证数据的可靠性;(3)通过分布式计算框架提取数据进行处理,体现了并行计算的特点,大大提高了处理效率。
为了使得海量数据处理过程更加便捷、高效、安全,本文采用了分布式存储、分布式计算框架、快速处理的方式,实现了一种海量数据处理系统的设计和实现。从而提高数据存储、处理效率,节省CPU及网络资源。
附图说明
附图1一种海量数据处理系统的框架图;
附图2海量数据收集模块示意图;
附图3海量数据处理模块流程图。
具体实施方式
下面对本发明的一种海量数据处理系统的设计和实现方法作以下详细地说明。
一种海量数据处理系统的设计和实现方法,采用了分布式存储、分布式计算框架、快速处理的方式,提高数据存储、处理效率,节省CPU及网络资源;本方法包括:海量数据收集模块、海量数据存储模块、海量数据处理模块。
海量数据收集模块是通过数据聚合系统进行数据收集,通过定制数据的发送方,用于用户收集数据,然后写到数据接受方,该模块提供了一个分布式、可靠的数据收集功能。
海量数据存储模块是通过分布式文件进行存储,具有多副本的高可靠性,将数据分布式存储在各个节点上,满足海量数据存储的需求。
海量数据处理模块是通过分布式计算框架将海量数据分成若干部分,然后分到多个节点上进行并行处理,满足海量数据处理的效率。
实施例
下面参照附图,对本发明的内容以一个具体实例来描述一种海量数据处理系统的设计和实现的过程。
正如发明内容中所描述的,本发明中一种海量数据处理系统的设计和实现包括三个模块,分别是海量数据收集模块、海量数据存储模块和海量数据处理模块。一种海量数据处理系统的框架图如附图1所示。
首先在三个节点的服务器上安装操作系统Centos6.3,然后组件三个节点的集群环境。按照安装的步骤搭建Hadoop平台,启动HDFS、MapReduce、HBase、Flume组件。为海量数据的处理进行环境准备。
海量数据收集模块示意图如附图2所示,使用Flume将在不同agent端的数据进行收集,然后通过配置文件制定到分布式数据存储文件系统中,如HDFS。HDFS具有高可用性,可以根据需求进行副本的设置。
海量数据处理模块流程图如附图3所示,该模块对于存储在HDFS上的海量数据进行处理。根据分布式计算编程框架MapRedcue处理HDFS上的文件,然后进行分割,分别分配到每个节点上进行子任务的执行,最后汇聚结果。该模块通过并行处理可以大大提高数据的处理效率,充分利用服务器的资源,满足了海量数据处理的需求。
Claims (1)
1.一种海量数据处理系统的设计和实现方法,其特征在于采用了分布式存储、分布式计算框架、快速处理的方式,提高数据存储、处理效率,节省CPU及网络资源;本方法包括:海量数据收集模块、海量数据存储模块、海量数据处理模块;
海量数据收集模块是通过数据聚合系统进行数据收集,通过定制数据的发送方,用于用户收集数据,然后写到数据接受方,该模块提供了一个分布式、可靠的数据收集功能;
海量数据存储模块是通过分布式文件进行存储,具有多副本的高可靠性,将数据分布式存储在各个节点上,满足海量数据存储的需求;
海量数据处理模块是通过分布式计算框架将海量数据分成若干部分,然后分到多个节点上进行并行处理,满足海量数据处理的效率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510850498.5A CN105468756A (zh) | 2015-11-30 | 2015-11-30 | 一种海量数据处理系统的设计和实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510850498.5A CN105468756A (zh) | 2015-11-30 | 2015-11-30 | 一种海量数据处理系统的设计和实现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105468756A true CN105468756A (zh) | 2016-04-06 |
Family
ID=55606457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510850498.5A Pending CN105468756A (zh) | 2015-11-30 | 2015-11-30 | 一种海量数据处理系统的设计和实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105468756A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106293923A (zh) * | 2016-08-18 | 2017-01-04 | 北京集奥聚合科技有限公司 | 一种基于hadoop系统的数据处理和分发方法和系统 |
CN106873911A (zh) * | 2017-02-10 | 2017-06-20 | 济南浪潮高新科技投资发展有限公司 | 采用容器分类模式进行分布式数据存储的实现方法 |
CN107357905A (zh) * | 2017-07-14 | 2017-11-17 | 郑州云海信息技术有限公司 | 一种数据处理方法及装置 |
CN107741879A (zh) * | 2017-10-19 | 2018-02-27 | 郑州云海信息技术有限公司 | 一种大数据处理方法及其装置 |
CN108564260A (zh) * | 2018-03-29 | 2018-09-21 | 重庆沐信润喆网络科技有限公司 | 用于工业过程海量数据处理和存储的评估方法 |
CN108696559A (zh) * | 2017-04-11 | 2018-10-23 | 华为技术有限公司 | 流处理方法及装置 |
-
2015
- 2015-11-30 CN CN201510850498.5A patent/CN105468756A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106293923A (zh) * | 2016-08-18 | 2017-01-04 | 北京集奥聚合科技有限公司 | 一种基于hadoop系统的数据处理和分发方法和系统 |
CN106873911A (zh) * | 2017-02-10 | 2017-06-20 | 济南浪潮高新科技投资发展有限公司 | 采用容器分类模式进行分布式数据存储的实现方法 |
CN108696559A (zh) * | 2017-04-11 | 2018-10-23 | 华为技术有限公司 | 流处理方法及装置 |
CN107357905A (zh) * | 2017-07-14 | 2017-11-17 | 郑州云海信息技术有限公司 | 一种数据处理方法及装置 |
CN107741879A (zh) * | 2017-10-19 | 2018-02-27 | 郑州云海信息技术有限公司 | 一种大数据处理方法及其装置 |
CN108564260A (zh) * | 2018-03-29 | 2018-09-21 | 重庆沐信润喆网络科技有限公司 | 用于工业过程海量数据处理和存储的评估方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6523354B2 (ja) | 改善されたインターフェースを備えるステートマシンビルダー及び状態非依存イベントの処理 | |
CN105468756A (zh) | 一种海量数据处理系统的设计和实现方法 | |
Barika et al. | Orchestrating big data analysis workflows in the cloud: research challenges, survey, and future directions | |
CN111400326B (zh) | 一种智慧城市数据管理系统及其方法 | |
CN104731595A (zh) | 面向大数据分析的混合计算系统 | |
Al-Jumaili et al. | Big data analytics using cloud computing based frameworks for power management systems: Status, constraints, and future recommendations | |
CN105550268A (zh) | 大数据流程建模分析引擎 | |
Kchaou et al. | Towards an offloading framework based on big data analytics in mobile cloud computing environments | |
CN103699656A (zh) | 一种基于GPU的面向海量多媒体数据的MapReduce平台 | |
Jena et al. | A survey work on optimization techniques utilizing map reduce framework in hadoop cluster | |
US10326824B2 (en) | Method and system for iterative pipeline | |
CN109885584A (zh) | 分布式数据分析平台的实现方法及终端设备 | |
CN104299170B (zh) | 间歇性能源海量数据处理方法 | |
CN106599253A (zh) | 一种采用NoSQL数据库实现分布式计算的方法 | |
Mikram et al. | Server consolidation algorithms for cloud computing: taxonomies and systematic analysis of literature | |
Lakshmi et al. | Machine learning approaches on map reduce for Big Data analytics | |
Khan | Hadoop performance modeling and job optimization for big data analytics | |
Liu et al. | Research on it architecture of heterogeneous big data | |
Ju et al. | Innovation trend of edge computing technology based on patent perspective | |
CN104090813A (zh) | 一种云数据中心的虚拟机cpu使用率的分析建模方法 | |
Li et al. | A fast big data collection system using MapReduce framework | |
Liu et al. | Survey of big data platform based on cloud computing container technology | |
Wang et al. | Transplantation of data mining algorithms to cloud computing platform when dealing big data | |
Zhao et al. | Finding and counting tree-like subgraphs using MapReduce | |
Xu et al. | Improved particle optimization algorithm solving hadoop task scheduling problem |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160406 |