CN111490999A - 一种基于Hadoop的大数据处理分析平台 - Google Patents

一种基于Hadoop的大数据处理分析平台 Download PDF

Info

Publication number
CN111490999A
CN111490999A CN201910078668.0A CN201910078668A CN111490999A CN 111490999 A CN111490999 A CN 111490999A CN 201910078668 A CN201910078668 A CN 201910078668A CN 111490999 A CN111490999 A CN 111490999A
Authority
CN
China
Prior art keywords
platform
hadoop
big data
data processing
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910078668.0A
Other languages
English (en)
Inventor
裘俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Feibi Culture Media Co ltd
Original Assignee
Shanghai Feibi Culture Media Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Feibi Culture Media Co ltd filed Critical Shanghai Feibi Culture Media Co ltd
Priority to CN201910078668.0A priority Critical patent/CN111490999A/zh
Publication of CN111490999A publication Critical patent/CN111490999A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Multi Processors (AREA)

Abstract

本发明涉及大数据应用技术领域,提供一种基于Hadoop的大数据处理分析平台,平台架构自下到上依次为:环境运行模块、基础设施模块、基础平台、用户网关模块和客户应用模块,且平台内部相邻模块之间可同通过边界接口进行交互,基础设施模块为基础平台提供基础设施服务,包括命名服务、分布式文件系统和编程模型,基础平台为用户网关模块提供基础服务调用接口;本发明解决了现有技术的大数据处理平台难以应对爆炸式增长、数据结构的复杂的问题。

Description

一种基于Hadoop的大数据处理分析平台
技术领域
本发明涉及大数据应用技术领域,具体涉及一种基于Hadoop的大数据处理分析平台。
背景技术
伴随Internet和Web技术的飞速发展,网络日志、互联网搜索索引、电子商务、社交网站等技术的广泛使用带来了数据量的急剧增长。计算机技术在各行各业的普遍使用也促使大量数据的产生,如物联网中的传感器所产生的海量数据。近几年数据以惊人的速度增长,这预示我们己经进入大数据时代。大数据时代给我们带来的不仅是数据量的爆炸式增长、数据结构的复杂多样,而且也使处理这些数据信息的手段变的复杂起来。海量数据的存储以及分布式计算是大数据分析与处理的首要问题。
发明内容
解决的技术问题
针对现有技术的不足,本发明提供了一种基于Hadoop的大数据处理分析平台,解决了现有技术的大数据处理平台难以应对爆炸式增长、数据结构的复杂的问题。
技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种基于Hadoop的大数据处理分析平台,所述平台架构自下到上依次为:环境运行模块、基础设施模块、基础平台、用户网关模块和客户应用模块,且平台内部相邻模块之间可同通过边界接口进行交互,所述基础设施模块为基础平台提供基础设施服务,包括命名服务、分布式文件系统和编程模型,所述基础平台为用户网关模块提供基础服务调用接口。
更进一步地,所述环境运行模块采用REHL5.0及以上操作系统,将分布式文件系统的数据目录分布在不同的磁盘分区上。
更进一步地,所述基础设施模块包括Zookeeper集群和Hadoop集群,所述Zookeeper集群为Hadoop集群的命名服务器。
更进一步地,所述基础平台包括任务调度控制台、HBase和Hive。
更进一步地,所述任务调度控制台为编程模型的任务的调度中心,分配各种任务执行的顺序和优先级,用户通过调度控制台提交作业任务,并通过用户网关模块的客户端反馈任务执行的结果。
更进一步地,所述HBase为列数据库,对用户提供表格式的数据访问服务。
更进一步地,所述Hive为一个查询服务端口,用户通过Hive客户端提交类SQL的查询请求,并通过客户端的UI查询结果。
更进一步地,所述用户网关模块用于为终端客户提供个性化的调用接口以及用户的身份认证,是用户唯一可见的大数据平台操作入口。
更进一步地,所述客户应用模块是各种不同的终端应用程序,包括:各种关系型数据库、报表、交易行为分析、对账单和结算。
有益效果
本发明提供了一种基于Hadoop的大数据处理分析平台,与现有公知技术相比,本发明的具有如下有益效果:
大数据平台架构设计采用分层设计,将平台所需提供的服务按照功能划分成不同的模块层次,每一模块层次只与上层或下层的模块层次进行交互,避免跨层的交互,各功能模块的内部是高内聚的,而模块与模块之间是松耦合的;有利于实现平台的高可靠性,高扩展性以及易维护性;在输入数据增长时,只需要在基础设施扩充新的Hadoop节点服务器即可。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的整体架构示意图;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
本实施例的一种基于Hadoop的大数据处理分析平台,参照图1:平台架构自下到上依次为:环境运行模块、基础设施模块、基础平台、用户网关模块和客户应用模块,且平台内部相邻模块之间可同通过边界接口进行交互,基础设施模块为基础平台提供基础设施服务,包括命名服务、分布式文件系统和编程模型,基础平台为用户网关模块提供基础服务调用接口。
本实施例优先的技术方案:环境运行模块采用REHL5.0及以上操作系统,将分布式文件系统的数据目录分布在不同的磁盘分区上;这样可以大大地提高磁盘的IO性能。
基础设施模块包括Zookeeper集群和Hadoop集群,Zookeeper集群为Hadoop集群的命名服务器,本实施例优选地,Hadoop集群采用双主节点模式,以此避免Hadoop集群的单点故障问题。
基础平台包括任务调度控制台、HBase和Hive。其中任务调度控制台为编程模型的任务的调度中心,分配各种任务执行的顺序和优先级,用户通过调度控制台提交作业任务,并通过用户网关模块的客户端反馈任务执行的结果。HBase为列数据库,对用户提供表格式的数据访问服务。Hive为一个查询服务端口,用户通过Hive客户端提交类SQL的查询请求,并通过客户端的UI查询结果。
任务调度控制台接收到用户提交的作业后,匹配其调度算法;
1、请求ZooKeeper返回可用的Hadoop集群的JobTracker节点地址;
2、提交MapReduce作业任务;
3、轮询作业任务是否完成;
4、如果作业完成发送消息并调用回调函数;
5、继续执行下一个作业任务。
本实施例优先的技术方案用户网关模块用于为终端客户提供个性化的调用接口以及用户的身份认证,是用户唯一可见的大数据平台操作入口。
本实施例优先的技术方案客户应用模块是各种不同的终端应用程序,包括:各种关系型数据库、报表、交易行为分析、对账单和结算。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种基于Hadoop的大数据处理分析平台,其特征在于,所述平台架构自下到上依次为:环境运行模块、基础设施模块、基础平台、用户网关模块和客户应用模块,且平台内部相邻模块之间可同通过边界接口进行交互,所述基础设施模块为基础平台提供基础设施服务,包括命名服务、分布式文件系统和编程模型,所述基础平台为用户网关模块提供基础服务调用接口。
2.根据权利要求1所述的一种基于Hadoop的大数据处理分析平台,其特征在于,所述环境运行模块采用REHL5.0及以上操作系统,将分布式文件系统的数据目录分布在不同的磁盘分区上。
3.根据权利要求1所述的一种基于Hadoop的大数据处理分析平台,其特征在于,所述基础设施模块包括Zookeeper集群和Hadoop集群,所述Zookeeper集群为Hadoop集群的命名服务器。
4.根据权利要求1所述的一种基于Hadoop的大数据处理分析平台,其特征在于,所述基础平台包括任务调度控制台、HBase和Hive。
5.根据权利要求4所述的一种基于Hadoop的大数据处理分析平台,其特征在于,所述任务调度控制台为编程模型的任务的调度中心,分配各种任务执行的顺序和优先级,用户通过调度控制台提交作业任务,并通过用户网关模块的客户端反馈任务执行的结果。
6.根据权利要求1所述的一种基于Hadoop的大数据处理分析平台,其特征在于,所述HBase为列数据库,对用户提供表格式的数据访问服务。
7.根据权利要求1所述的一种基于Hadoop的大数据处理分析平台,其特征在于,所述Hive为一个查询服务端口,用户通过Hive客户端提交类SQL的查询请求,并通过客户端的UI查询结果。
8.根据权利要求1所述的一种基于Hadoop的大数据处理分析平台,其特征在于,所述用户网关模块用于为终端客户提供个性化的调用接口以及用户的身份认证,是用户唯一可见的大数据平台操作入口。
9.根据权利要求1所述的一种基于Hadoop的大数据处理分析平台,其特征在于,所述客户应用模块是各种不同的终端应用程序,包括:各种关系型数据库、报表、交易行为分析、对账单和结算。
CN201910078668.0A 2019-01-28 2019-01-28 一种基于Hadoop的大数据处理分析平台 Pending CN111490999A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910078668.0A CN111490999A (zh) 2019-01-28 2019-01-28 一种基于Hadoop的大数据处理分析平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910078668.0A CN111490999A (zh) 2019-01-28 2019-01-28 一种基于Hadoop的大数据处理分析平台

Publications (1)

Publication Number Publication Date
CN111490999A true CN111490999A (zh) 2020-08-04

Family

ID=71812324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910078668.0A Pending CN111490999A (zh) 2019-01-28 2019-01-28 一种基于Hadoop的大数据处理分析平台

Country Status (1)

Country Link
CN (1) CN111490999A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792029A (zh) * 2021-09-22 2021-12-14 电信科学技术第十研究所有限公司 用于大数据处理与分析模型的快速开发框架及其构建方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130124483A1 (en) * 2011-11-10 2013-05-16 Treasure Data, Inc. System and method for operating a big-data platform
CN107563153A (zh) * 2017-08-03 2018-01-09 华子昂 一种基于Hadoop构建的PacBio测序平台IT架构

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130124483A1 (en) * 2011-11-10 2013-05-16 Treasure Data, Inc. System and method for operating a big-data platform
CN107563153A (zh) * 2017-08-03 2018-01-09 华子昂 一种基于Hadoop构建的PacBio测序平台IT架构

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
韩健: "基于Hadoop技术的银行大数据平台架构设计", 《电子世界》, no. 22, pages 162 - 163 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792029A (zh) * 2021-09-22 2021-12-14 电信科学技术第十研究所有限公司 用于大数据处理与分析模型的快速开发框架及其构建方法
CN113792029B (zh) * 2021-09-22 2023-12-01 电信科学技术第十研究所有限公司 用于大数据处理与分析模型的快速开发框架及其构建方法

Similar Documents

Publication Publication Date Title
US11711420B2 (en) Automated management of resource attributes across network-based services
CN107480198B (zh) 一种分布式NewSQL数据库系统和全文检索方法
TWI473029B (zh) 可延伸及可程式化之多租戶服務結構
CN107391142B (zh) 一种应用拆分的方法及装置
US20170364540A1 (en) Normalized searchable cloud layer
CN104573115A (zh) 支持多类型数据库操作的集成接口的实现方法及系统
US10979424B2 (en) Systems, methods, and apparatuses for secure biometric identifier authentication within a cloud based computing environment
CN107659450B (zh) 大数据集群资源的分配方法、分配装置及存储介质
CN105468720A (zh) 集成分布式数据处理系统的方法、相应系统及其数据处理方法
US10860606B2 (en) Efficiently deleting data from objects in a multi tenant database system
CN110581893A (zh) 数据传输方法、装置、路由设备、服务器及存储介质
US11601495B2 (en) Mechanism for a work node scan process to facilitate cluster scaling
CN109614271A (zh) 多个集群数据一致性的控制方法、装置、设备及存储介质
CN116414559A (zh) 算力统一标识建模、分配的方法、存储介质及电子设备
TW201727517A (zh) 資料儲存與業務處理的方法及裝置
CN109165335A (zh) 基于大数据的互联网金融黑名单系统及其应用方法
CN111913784B (zh) 任务调度方法及装置、网元、存储介质
CN106161520A (zh) 大数据应用平台及基于其的交互方法
CN111490999A (zh) 一种基于Hadoop的大数据处理分析平台
CN111814020A (zh) 一种数据的获取方法和装置
CN113886353B (zh) 分层存储管理软件的数据配置推荐方法、装置及存储介质
CN111984686A (zh) 一种数据处理的方法和装置
US10114864B1 (en) List element query support and processing
US11757959B2 (en) Dynamic data stream processing for Apache Kafka using GraphQL
US20240012857A1 (en) Asserted Relationships Matching in an Identity Graph Data Structure

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination