CN111414349A - 交互式统一大数据编程计算平台 - Google Patents

交互式统一大数据编程计算平台 Download PDF

Info

Publication number
CN111414349A
CN111414349A CN202010192762.1A CN202010192762A CN111414349A CN 111414349 A CN111414349 A CN 111414349A CN 202010192762 A CN202010192762 A CN 202010192762A CN 111414349 A CN111414349 A CN 111414349A
Authority
CN
China
Prior art keywords
big data
end server
cluster
module
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010192762.1A
Other languages
English (en)
Inventor
赵博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Hongcheng Big Data Technology And Application Research Institute Co ltd
Original Assignee
Jiangsu Hongcheng Big Data Technology And Application Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Hongcheng Big Data Technology And Application Research Institute Co ltd filed Critical Jiangsu Hongcheng Big Data Technology And Application Research Institute Co ltd
Priority to CN202010192762.1A priority Critical patent/CN111414349A/zh
Publication of CN111414349A publication Critical patent/CN111414349A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及大数据技术领域,公开了一种交互式统一大数据编程计算平台,包括:前端服务器、后端服务器、大数据集群和数据库服务器,所述前端服务器和后端服务器独立部署;所述前端服务器用于接收用户请求,并将用户请求发送至所述后端服务器;所述后端服务器用于将所述用户请求转发至大数据集群处理,并将大数据集群的处理结果返回至前端服务器,及将所述处理结果发送至数据库服务器存储;所述大数据集群包括:并行计算框架、分布式存储框架、分布式协调框架和分布式数据查询管理框架;数据库服务器用于储存用户数据以及所述处理结果。本发明解决了大数据集群较难搭建的问,降低了安装配置门槛,使得用户可以方便、快速的学习使用大数据技术。

Description

交互式统一大数据编程计算平台
技术领域
本发明涉及大数据技术领域,特别涉及一种交互式统一大数据编程计算平台。
背景技术
随着大数据时代的到来,传统的数据处理方法已经不能满足日益增长的数据量了,现在的数据量每天能达到TB甚至PB级,在数据存储上就不同以往,必须采用分布式的存储,以采用保证数据的安全性和可用性,如果涉及到计算层,更是需要大量的计算资源。因此,在这个时代的迫切需求下,各种大数据技术层出不穷,从数据存储到数据查询,再到数据计算分析,每个阶段都有许多可用的技术框架,这对行业的发展起到了促进作用。但也导致了以下问题:选型困难、易用性不高、开发环境难以配置,这些问题也困扰着广大个人工作者或一些小型的公司。
为了解决这些问题,很多公司开发出了自己的大数据框架,例如CDH的Hadoop发行版、阿里巴巴改进的Blink等。但是这些框架也有如下问题,要么是重量级框架,安装部署不便;要么没有原生的技术体验,用户难以理解掌握;而且用户难以获得一站式的大数据技术开发环境。为了解决这个问题,有些公司也开发出了大数据平台,可以在边学习边使用,但是都存在着一个通病,就是需要用户自己搭建大数据集群,然后再使用自己搭建的集群来学习大数据,这样的话,在第一步就很容易出错,而且与实际生产的集群环境相差甚远,无法领会到大数据的优势。
发明内容
本发明提出一种交互式统一大数据编程计算平台,解决现有技术中用户在建设自己的大数据平台时经常遇到选型困难、安装配置门槛高、统一用户管理不便以及大数据集群较难搭建等一系列问题。
本发明的一种交互式统一大数据编程计算平台,包括:前端服务器、后端服务器、大数据集群和数据库服务器,所述前端服务器和后端服务器独立部署;
所述前端服务器用于接收用户请求,并将用户请求发送至所述后端服务器;
所述后端服务器用于将所述用户请求转发至大数据集群处理,并将大数据集群的处理结果返回至前端服务器,及将所述处理结果发送至数据库服务器存储;
所述大数据集群包括:并行计算框架、分布式存储框架、分布式协调框架和分布式数据查询管理框架,用于根据所述用户请求执行相应地处理,并将处理结果返回至所述后端服务器,所述并行计算框架包括:MapReduce集群和Spark集群,所述分布式存储框架包括:HDFS集群、Alluxio集群和HBase集群,所述分布式协调框架包括:Zookeeper集群,所述分布式数据查询管理框架包括:Hive集群和Presto集群;
数据库服务器用于储存用户数据以及所述处理结果。
其中,对于Hive集群,开启hiveserver2和metastore以供远程连接。
其中,对于Spark集群,统一使用Spark On Yarn模式部署,并且在Spark-default.xml中进行配置来开放SparkUI页面可投影的地址。
其中,所述前端服务器包括:
配置文件读取模块,用于读取前端配置文件,所述前端配置文件中包含前端的功能模块所需要的全部依赖;
所述功能模块包括:交互编程与作业提交模块、大数据并行计算模块、大数据分布存储模块、大数据查询管理模块、科研实训与教学实验模块和用户管理与运维模块,用于使用户通过相应的功能模块发起相应功能的用户请求,每个模块均包括多个.vue文件,所述.vue文件中记录了每个功能模块相应的功能及子功能实现方法。
其中,所述后端服务器包括控制模块及与用户请求相对应的处理模块,
所述控制模块用于根据用户请求的类型将用户请求发送至相应的处理模块;
所述处理模块用于将所述用户请求发送至大数据集群,并将处理过程中产生的数据发送至数据库服务器存储。
其中,所述前端服务器还用于接收到用户请求时验证用户token。
其中,所述前端服务器还用于验证涉及到安全性的功能请求,验证通过后将请求发送到后端服务器再次认证然后执行并返回结果。
本发明的平台集成了当下主流的大数据技术框架,包括Hadoop、Spark、HBase、Presto、Hive、Alluxio和Zookeeper,从存储到查询、再到计算一应俱全,涵盖了整个大数据体系中的所有部分,同时也摒弃了原生的框架的弊端:与用户交互上的不灵活性、上手困难这些缺点,通过前端服务器和后端服务器将这些技术框架的使用方法重新构建在网页上,提供了一种易学易用的使用方法,解决了大数据集群较难搭建的问,降低了安装配置门槛,使得用户可以方便、快速的学习使用大数据技术。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种交互式统一大数据编程计算平台结构示意图;
图2为前端服务的功能模块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例的交互式统一大数据编程计算平台如图1所示,包括:前端服务器1、后端服务器2、大数据集群3和数据库服务器4,所述前端服务器1和后端服务器2独立部署,前端服务器1和后端服务器2两者都可以单独运行,通过远程通信传递信息,达到了很好的前后端分离与解耦的效果。
所述前端服务器1用于接收用户请求,并将用户请求发送至所述后端服务器2。
所述后端服务器2用于将所述用户请求转发至大数据集群3处理,并将大数据集群3的处理结果返回至前端服务器1,及将所述处理结果发送至数据库服务器4存储。
所述大数据集群3包括:并行计算框架、分布式存储框架、分布式协调框架和分布式数据查询管理框架,用于根据所述用户请求执行相应地处理,并将处理结果返回至所述后端服务器2,所述并行计算框架包括:MapReduce集群和Spark集群,所述分布式存储框架包括:HDFS集群、Alluxio集群和HBase集群,所述分布式协调框架包括:Zookeeper集群,所述分布式数据查询管理框架包括:Hive集群和Presto集群。
数据库服务器4用于储存用户数据以及所述处理结果。具体地,数据库服务器4中部署有数据库服务,每个用户都有相应的用户权限,对一个指定的用户如果使用正确的密码,则可以在任意地址上登录使用该数据库服务。后端服务器2会将用户数据、实验数据,用户组数据、文档数据等平台相关的数据都存放在数据库中。
本实施例的平台集成了当下主流的大数据技术框架,包括Hadoop、Spark、HBase、Presto、Hive、Alluxio和Zookeeper,从存储到查询、再到计算一应俱全,涵盖了整个大数据体系中的所有部分,同时也摒弃了这些原生的框架的弊端:与用户交互上的不灵活性、上手困难这些缺点,将这些技术的使用方法重新构建在网页上,提供了一种易学易用的使用方法,使得用户可以方便、快速的学习使用大数据技术。
在部署后台的大数据集群3时,先部署Zookeeper集群,使用一主两从的结构;然后部署Hadoop的高可用集群(包括:MapReduce和HDFS集群),同时在hdfs-site.xml中进行特殊配置来开启回收站和管理员功能,在yarn-site.xml中根据硬件配置来指定管理的资源;紧接着部署HBase集群,同时开启ThriftServer功能来提供远程访问接口,例如在网页上发起一个新建HBase表的请求,经由前端服务器1发送到后端服务器2,后端服务器2经过验证后再将其发送到HBase的ThriftServer对应的服务接口进行处理,之后将结果层层返回到前端展示,该ThriftServer是HBase系统框架自带的服务;再然后部署Hive,替换原生的derby数据库,换成其他数据库,例如:MySQL,同时开启hiveserver2和metastore以供远程连接;接下来部署Spark集群,为了方便资源的管理,统一使用Spark On Yarn模式部署,同时在Spark-default.xml中进行特殊配置来开放SparkUI页面可投影的地址;下一步搭建Alluxio集群,采用HA的高可用集群方式部署;最后搭建Presto集群,与Hive一起管理查询HDFS的数据。
前端服务器1包括:
配置文件读取模块,用于读取前端配置文件,对于每一个功能模块,都有其独立的配置信息,例如功能模块“交互编程与作业提交模块”,所需要的配置信息为前端服务启动的IP、端口信息以及前端服务的安全组策略,保证服务可以启动,前端配置文件保证了每一个功能模块能够正确的运行并提供所需的服务。对于前端服务器中的每一个功能模块,后端服务器中均有一个对应的模块处理请求。
如图2所示,功能模块包括:交互编程与作业提交模块、大数据并行计算模块、大数据分布存储模块、大数据查询管理模块、科研实训与教学实验模块和用户管理与运维模块,用户通过相应的功能模块发起相应功能的用户请求。具体地,通过使用Vue技术框架搭建了前端服务,每个功能模块均包括多个.vue文件,其中功能及子功能由.vue文件中的方法实现,上述每个功能模块在启动相应服务启动时会读取上述配置文件信息,从而使其与后端服务器2能够进行通信。
后端服务器2包括控制模块及与用户请求相对应的处理模块。一个请求到后台时,会先经过控制模块,首先判断该请求是否合法,不合法则直接拒绝,合法则将其转发到对应的处理模块下的方法进行处理。总的来说,控制模块用于根据用户请求的类型将用户请求发送至相应的处理模块进行处理。具体地,每一个处理模块负责处理对应的不同类型的请求,例如对数据库的操作对应一个处理模块,对HDFS的操作对应另一个处理模块。后端服务器中包括后端配置文件,可对所有可能动态更改的配置项都提取到后端配置文件中,后端配置文件包括:数据库的配置信息,HDFS以及与大数据集群相关的配置信息,每一个处理模块都有其自己的配置信息,所有需要启动的服务全部提取到一个文件中作为启动脚本,该脚本会读取后端配置文件中的配置信息,从而正确启动对应的处理模块的服务,便于后续处理前端的请求时进行调用处理模块的服务。
在处理前端请求时,每一个请求都有一个对应的方法来进行响应处理,通过控制模块即@app.route()来控制,括号中的参数是请求的地址和方法类型,例如:前端的大数据分布存储模块的HDFS功能模块发起一个请求到“127.0.0.1/hdfs/#/getAllFile”,那么经过后端服务器2控制模块的处理,会将该请求转到对应的处理模块下的“@app.route(‘/getAllFile’,methods=[GET])”方法中进行处理,然后该方法将其与数据库交互或者转发到底层集群中运行,将执行结果返回到页面上;同时会存储用户在使用平台过程中产生的数据,将这些数据存储到数据库中。后端服务的运行环境是一个虚拟环境,方便迁移,环境里包含了所有后端所需的服务依赖库,在页面上进行的所有交互式的开发都是基于这些库进行的,若需要其它的库也可以自行安装。
简单的验证会不通过后台服务器2,直接在前端服务器1进行处理后返回结果,本实施例中,前端服务器1还用于接收到用户请求时验证用户token(令牌)。对于平台的每一个用户,都会为其分配一个唯一的token,这个token就是一个身份标识符,在平台上进行的每一步操作都要验证token来确保该操作不是恶意攻击
前端服务器1还用于验证涉及到安全性的功能请求,验证通过后将请求发送到后端服务器2再次认证然后执行并返回结果。例如为了保障安全性,平台有部分功能只有管理员有权限进行操作,比如在HDFS分布式存储页面上,有个“Do As Surperuser”按钮,该按钮是用来模仿底层Linux系统的管理员用户,从而对HDFS进行任意操作。例如想看查看HDFS任意目录,用户必须先点击该按钮,点击该按钮时前端服务器1会验证当前用户是否为管理员,如果不是,则拒绝操作;如果是,则将请求发送到后端服务器2,后端服务器2再验证当前用户是否有权限进行该操作,如果有,则再将其转发到底层HDFS集群进行查找然后将结果依次返回到页面上。而普通用户没有该权限,只有管理员为用户分配了权限后该用户才能进行对应的操作。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种交互式统一大数据编程计算平台,其特征在于,包括:前端服务器、后端服务器、大数据集群和数据库服务器,所述前端服务器和后端服务器独立部署;
所述前端服务器用于接收用户请求,并将用户请求发送至所述后端服务器;
所述后端服务器用于将所述用户请求转发至大数据集群处理,并将大数据集群的处理结果返回至前端服务器,及将所述处理结果发送至数据库服务器存储;
所述大数据集群包括:并行计算框架、分布式存储框架、分布式协调框架和分布式数据查询管理框架,用于根据所述用户请求执行相应地处理,并将处理结果返回至所述后端服务器,所述并行计算框架包括:MapReduce集群和Spark集群,所述分布式存储框架包括:HDFS集群、Alluxio集群和HBase集群,所述分布式协调框架包括:Zookeeper集群,所述分布式数据查询管理框架包括:Hive集群和Presto集群;
数据库服务器用于储存用户数据以及所述处理结果。
2.如权利要求1所述的交互式统一大数据编程计算平台,其特征在于,对于Hive集群,开启hiveserver2和metastore以供远程连接。
3.如权利要求1所述的交互式统一大数据编程计算平台,其特征在于,对于Spark集群,统一使用Spark On Yarn模式部署,并且在Spark-default.xml中进行配置来开放SparkUI页面可投影的地址。
4.如权利要求1所述的交互式统一大数据编程计算平台,其特征在于,所述前端服务器包括:
配置文件读取模块,用于读取前端配置文件,所述前端配置文件中包含前端的功能模块所需要的全部依赖;
所述功能模块包括:交互编程与作业提交模块、大数据并行计算模块、大数据分布存储模块、大数据查询管理模块、科研实训与教学实验模块和用户管理与运维模块,用于使用户通过相应的功能模块发起相应功能的用户请求,每个模块均包括多个.vue文件,所述.vue文件中记录了每个功能模块相应的功能及子功能实现方法。
5.如权利要求4所述的交互式统一大数据编程计算平台,其特征在于,所述后端服务器包括控制模块及与用户请求相对应的处理模块,
所述控制模块用于根据用户请求的类型将用户请求发送至相应的处理模块;
所述处理模块用于将所述用户请求发送至大数据集群,并将处理过程中产生的数据发送至数据库服务器存储。
6.如权利要求1所述的交互式统一大数据编程计算平台,其特征在于,所述前端服务器还用于接收到用户请求时验证用户token。
7.如权利要求1所述的交互式统一大数据编程计算平台,其特征在于,所述前端服务器还用于验证涉及到安全性的功能请求,验证通过后将请求发送到后端服务器再次认证然后执行并返回结果。
CN202010192762.1A 2020-03-18 2020-03-18 交互式统一大数据编程计算平台 Pending CN111414349A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010192762.1A CN111414349A (zh) 2020-03-18 2020-03-18 交互式统一大数据编程计算平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010192762.1A CN111414349A (zh) 2020-03-18 2020-03-18 交互式统一大数据编程计算平台

Publications (1)

Publication Number Publication Date
CN111414349A true CN111414349A (zh) 2020-07-14

Family

ID=71491211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010192762.1A Pending CN111414349A (zh) 2020-03-18 2020-03-18 交互式统一大数据编程计算平台

Country Status (1)

Country Link
CN (1) CN111414349A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112241312A (zh) * 2020-10-27 2021-01-19 浪潮云信息技术股份公司 基于Docker的快捷集成式Elastic MapReduce服务系统及实现方法
CN112485396A (zh) * 2020-11-12 2021-03-12 电子科技大学中山学院 一种基于大数据的水产养殖水质监测系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140195558A1 (en) * 2013-01-07 2014-07-10 Raghotham Murthy System and method for distributed database query engines
CN104898573A (zh) * 2015-04-06 2015-09-09 华中科技大学 一种基于云计算的数控系统数据采集及处理方法
CN106060066A (zh) * 2016-06-28 2016-10-26 积成电子股份有限公司 基于嵌入式linux实现终端维护和信息发布的方法
CN107943555A (zh) * 2017-10-17 2018-04-20 华南理工大学 一种云计算环境下的大数据存储和处理平台及处理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140195558A1 (en) * 2013-01-07 2014-07-10 Raghotham Murthy System and method for distributed database query engines
CN104898573A (zh) * 2015-04-06 2015-09-09 华中科技大学 一种基于云计算的数控系统数据采集及处理方法
CN106060066A (zh) * 2016-06-28 2016-10-26 积成电子股份有限公司 基于嵌入式linux实现终端维护和信息发布的方法
CN107943555A (zh) * 2017-10-17 2018-04-20 华南理工大学 一种云计算环境下的大数据存储和处理平台及处理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112241312A (zh) * 2020-10-27 2021-01-19 浪潮云信息技术股份公司 基于Docker的快捷集成式Elastic MapReduce服务系统及实现方法
CN112485396A (zh) * 2020-11-12 2021-03-12 电子科技大学中山学院 一种基于大数据的水产养殖水质监测系统

Similar Documents

Publication Publication Date Title
US10372475B2 (en) Approaches for managing virtual instance data
CN102495750B (zh) 用于部署虚拟桌面的方法和系统
US20140075031A1 (en) Separation of pod provisioning and service provisioning
WO2015020909A2 (en) Virtual computing instance migration
WO2014039918A1 (en) Ldap-based multi-customer in-cloud identity management system
CN102110009A (zh) 一种在虚拟化平台中部署应用的方法及虚拟平台管理器
US10025630B2 (en) Operating programs on a computer cluster
US11580199B2 (en) Correspondence of external operations to containers and mutation events
CN105765533B (zh) 用于固件虚拟化的方法和装置
CN108958744B (zh) 大数据分布式集群的部署方法、装置、介质及电子设备
CN104320482A (zh) 一种银行柜员前端系统
CN111510444A (zh) 容器的远程访问方法、系统、服务端和访问辅助组件
CN111414349A (zh) 交互式统一大数据编程计算平台
CN113821268A (zh) 一种与OpenStack Neutron融合的Kubernetes网络插件方法
CN115396229A (zh) 一种基于区块链的跨域资源隔离共享系统
CN109218378B (zh) 一种基于云平台的小型物流管理平台设计方法
CN109948332A (zh) 一种物理机登录密码重置方法及装置
CN114024978B (zh) 一种云资源的同步方法、装置、节点及存储介质
US11570182B1 (en) Compute-less authorization
US11252157B1 (en) Permission management for electronic resources
CN117076096A (zh) 任务流程的执行方法、装置、计算机可读介质及电子设备
CN112448909A (zh) 电子锁管理方法、装置、系统及存储介质
CN113691575B (zh) 通信方法、装置及系统
CN109189753B (zh) 一种在hue中添加用户信息的方法及装置
CN112350982B (zh) 一种资源鉴权方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200714