CN105468756A - 一种海量数据处理系统的设计和实现方法 - Google Patents

一种海量数据处理系统的设计和实现方法 Download PDF

Info

Publication number
CN105468756A
CN105468756A CN201510850498.5A CN201510850498A CN105468756A CN 105468756 A CN105468756 A CN 105468756A CN 201510850498 A CN201510850498 A CN 201510850498A CN 105468756 A CN105468756 A CN 105468756A
Authority
CN
China
Prior art keywords
data
mass data
module
mass
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510850498.5A
Other languages
English (en)
Inventor
孙志云
郭美思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Group Co Ltd
Original Assignee
Inspur Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Group Co Ltd filed Critical Inspur Group Co Ltd
Priority to CN201510850498.5A priority Critical patent/CN105468756A/zh
Publication of CN105468756A publication Critical patent/CN105468756A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种海量数据处理系统的设计和实现方法,采用了分布式存储、分布式计算框架、快速处理的方式,提高数据存储、处理效率,节省CPU及网络资源;本方法包括:海量数据收集模块、海量数据存储模块、海量数据处理模块。本发明的结构设计主要考虑海量数据收集、数据存储、数据处理的问题。为了使得海量数据处理过程更加便捷、高效、安全,本文采用了分布式存储、分布式计算框架、快速处理的方式,实现了一种海量数据处理系统的设计和实现。从而提高数据存储、处理效率,节省CPU及网络资源。

Description

一种海量数据处理系统的设计和实现方法
技术领域
本发明涉及一种数据处理系统,具体涉及一种海量数据处理系统的设计和实现方法。
背景技术
随着互联网时代的高速发展,人们的生活发生了巨大的变化。人们会利用互联网进行工作、学习和生活,其中利用互联网的便利寻找学习资料、工作资料、购置生活用品的现象已经非常普遍。现代社会已经进入高科技时代,所有的办公环境及沟通交流都是通过电子产品,数据的产生速度及共享速度也成指数增长,从而导致数据量的剧增。但由于数据的来源及类型变得复杂多样性,数据量非常庞大,与传统的数据有很大的区别。在传统数据中,数据存储、处理及分析的数据量相对较少,可以采用关系型数据库和并行仓库处理,难以保证扩展性。在海量数据存在的大数据时代,由于大数据处理大量的非结构化数据,因此,其存储及处理与传统数据有很大的区别,同时也带来了极大的挑战。为了满足大数据存储分析处理的需求,分布式采集数据、分布式存储数据、分布式处理数据等技术是很好的解决方案。
发明内容
本发明的技术任务是针对现有技术的不足,提供一种海量数据处理系统的设计和实现方法。本方法采用了分布式存储、分布式计算框架、快速处理的方式,从而提高数据存储、处理效率,节省CPU及网络资源。
本发明解决其技术问题所采用的技术方案是:
一种海量数据处理系统的设计和实现方法,采用了分布式存储、分布式计算框架、快速处理的方式,提高数据存储、处理效率,节省CPU及网络资源;本方法包括:海量数据收集模块、海量数据存储模块、海量数据处理模块。
海量数据收集模块是通过数据聚合系统进行数据收集,通过定制数据的发送方,用于用户收集数据,然后写到数据接受方,该模块提供了一个分布式、可靠的数据收集功能。
海量数据存储模块是通过分布式文件进行存储,具有多副本的高可靠性,将数据分布式存储在各个节点上,满足海量数据存储的需求。
海量数据处理模块是通过分布式计算框架将海量数据分成若干部分,然后分到多个节点上进行并行处理,满足海量数据处理的效率。
本发明的一种海量数据处理系统的设计和实现方法与现有技术相比,所产生的有益效果是,(1)通过海量数据聚合方式将海量数据进行收集,便于传输需求;(2)提供分布式存储海量数据,充分利用存储空间,保证数据的可靠性;(3)通过分布式计算框架提取数据进行处理,体现了并行计算的特点,大大提高了处理效率。
为了使得海量数据处理过程更加便捷、高效、安全,本文采用了分布式存储、分布式计算框架、快速处理的方式,实现了一种海量数据处理系统的设计和实现。从而提高数据存储、处理效率,节省CPU及网络资源。
附图说明
附图1一种海量数据处理系统的框架图;
附图2海量数据收集模块示意图;
附图3海量数据处理模块流程图。
具体实施方式
下面对本发明的一种海量数据处理系统的设计和实现方法作以下详细地说明。
一种海量数据处理系统的设计和实现方法,采用了分布式存储、分布式计算框架、快速处理的方式,提高数据存储、处理效率,节省CPU及网络资源;本方法包括:海量数据收集模块、海量数据存储模块、海量数据处理模块。
海量数据收集模块是通过数据聚合系统进行数据收集,通过定制数据的发送方,用于用户收集数据,然后写到数据接受方,该模块提供了一个分布式、可靠的数据收集功能。
海量数据存储模块是通过分布式文件进行存储,具有多副本的高可靠性,将数据分布式存储在各个节点上,满足海量数据存储的需求。
海量数据处理模块是通过分布式计算框架将海量数据分成若干部分,然后分到多个节点上进行并行处理,满足海量数据处理的效率。
实施例
下面参照附图,对本发明的内容以一个具体实例来描述一种海量数据处理系统的设计和实现的过程。
正如发明内容中所描述的,本发明中一种海量数据处理系统的设计和实现包括三个模块,分别是海量数据收集模块、海量数据存储模块和海量数据处理模块。一种海量数据处理系统的框架图如附图1所示。
首先在三个节点的服务器上安装操作系统Centos6.3,然后组件三个节点的集群环境。按照安装的步骤搭建Hadoop平台,启动HDFS、MapReduce、HBase、Flume组件。为海量数据的处理进行环境准备。
海量数据收集模块示意图如附图2所示,使用Flume将在不同agent端的数据进行收集,然后通过配置文件制定到分布式数据存储文件系统中,如HDFS。HDFS具有高可用性,可以根据需求进行副本的设置。
海量数据处理模块流程图如附图3所示,该模块对于存储在HDFS上的海量数据进行处理。根据分布式计算编程框架MapRedcue处理HDFS上的文件,然后进行分割,分别分配到每个节点上进行子任务的执行,最后汇聚结果。该模块通过并行处理可以大大提高数据的处理效率,充分利用服务器的资源,满足了海量数据处理的需求。

Claims (1)

1.一种海量数据处理系统的设计和实现方法,其特征在于采用了分布式存储、分布式计算框架、快速处理的方式,提高数据存储、处理效率,节省CPU及网络资源;本方法包括:海量数据收集模块、海量数据存储模块、海量数据处理模块;
海量数据收集模块是通过数据聚合系统进行数据收集,通过定制数据的发送方,用于用户收集数据,然后写到数据接受方,该模块提供了一个分布式、可靠的数据收集功能;
海量数据存储模块是通过分布式文件进行存储,具有多副本的高可靠性,将数据分布式存储在各个节点上,满足海量数据存储的需求;
海量数据处理模块是通过分布式计算框架将海量数据分成若干部分,然后分到多个节点上进行并行处理,满足海量数据处理的效率。
CN201510850498.5A 2015-11-30 2015-11-30 一种海量数据处理系统的设计和实现方法 Pending CN105468756A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510850498.5A CN105468756A (zh) 2015-11-30 2015-11-30 一种海量数据处理系统的设计和实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510850498.5A CN105468756A (zh) 2015-11-30 2015-11-30 一种海量数据处理系统的设计和实现方法

Publications (1)

Publication Number Publication Date
CN105468756A true CN105468756A (zh) 2016-04-06

Family

ID=55606457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510850498.5A Pending CN105468756A (zh) 2015-11-30 2015-11-30 一种海量数据处理系统的设计和实现方法

Country Status (1)

Country Link
CN (1) CN105468756A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106293923A (zh) * 2016-08-18 2017-01-04 北京集奥聚合科技有限公司 一种基于hadoop系统的数据处理和分发方法和系统
CN106873911A (zh) * 2017-02-10 2017-06-20 济南浪潮高新科技投资发展有限公司 采用容器分类模式进行分布式数据存储的实现方法
CN107357905A (zh) * 2017-07-14 2017-11-17 郑州云海信息技术有限公司 一种数据处理方法及装置
CN107741879A (zh) * 2017-10-19 2018-02-27 郑州云海信息技术有限公司 一种大数据处理方法及其装置
CN108564260A (zh) * 2018-03-29 2018-09-21 重庆沐信润喆网络科技有限公司 用于工业过程海量数据处理和存储的评估方法
CN108696559A (zh) * 2017-04-11 2018-10-23 华为技术有限公司 流处理方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106293923A (zh) * 2016-08-18 2017-01-04 北京集奥聚合科技有限公司 一种基于hadoop系统的数据处理和分发方法和系统
CN106873911A (zh) * 2017-02-10 2017-06-20 济南浪潮高新科技投资发展有限公司 采用容器分类模式进行分布式数据存储的实现方法
CN108696559A (zh) * 2017-04-11 2018-10-23 华为技术有限公司 流处理方法及装置
CN107357905A (zh) * 2017-07-14 2017-11-17 郑州云海信息技术有限公司 一种数据处理方法及装置
CN107741879A (zh) * 2017-10-19 2018-02-27 郑州云海信息技术有限公司 一种大数据处理方法及其装置
CN108564260A (zh) * 2018-03-29 2018-09-21 重庆沐信润喆网络科技有限公司 用于工业过程海量数据处理和存储的评估方法

Similar Documents

Publication Publication Date Title
JP6523354B2 (ja) 改善されたインターフェースを備えるステートマシンビルダー及び状態非依存イベントの処理
CN105468756A (zh) 一种海量数据处理系统的设计和实现方法
Barika et al. Orchestrating big data analysis workflows in the cloud: research challenges, survey, and future directions
CN111400326B (zh) 一种智慧城市数据管理系统及其方法
CN104731595A (zh) 面向大数据分析的混合计算系统
Al-Jumaili et al. Big data analytics using cloud computing based frameworks for power management systems: Status, constraints, and future recommendations
CN105550268A (zh) 大数据流程建模分析引擎
Kchaou et al. Towards an offloading framework based on big data analytics in mobile cloud computing environments
CN103699656A (zh) 一种基于GPU的面向海量多媒体数据的MapReduce平台
Jena et al. A survey work on optimization techniques utilizing map reduce framework in hadoop cluster
US10326824B2 (en) Method and system for iterative pipeline
CN109885584A (zh) 分布式数据分析平台的实现方法及终端设备
CN104299170B (zh) 间歇性能源海量数据处理方法
CN106599253A (zh) 一种采用NoSQL数据库实现分布式计算的方法
Mikram et al. Server consolidation algorithms for cloud computing: taxonomies and systematic analysis of literature
Lakshmi et al. Machine learning approaches on map reduce for Big Data analytics
Khan Hadoop performance modeling and job optimization for big data analytics
Liu et al. Research on it architecture of heterogeneous big data
Ju et al. Innovation trend of edge computing technology based on patent perspective
CN104090813A (zh) 一种云数据中心的虚拟机cpu使用率的分析建模方法
Li et al. A fast big data collection system using MapReduce framework
Liu et al. Survey of big data platform based on cloud computing container technology
Wang et al. Transplantation of data mining algorithms to cloud computing platform when dealing big data
Zhao et al. Finding and counting tree-like subgraphs using MapReduce
Xu et al. Improved particle optimization algorithm solving hadoop task scheduling problem

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160406