CN111581635B - 一种数据处理方法及系统 - Google Patents

一种数据处理方法及系统 Download PDF

Info

Publication number
CN111581635B
CN111581635B CN202010401555.2A CN202010401555A CN111581635B CN 111581635 B CN111581635 B CN 111581635B CN 202010401555 A CN202010401555 A CN 202010401555A CN 111581635 B CN111581635 B CN 111581635B
Authority
CN
China
Prior art keywords
component
called
platform
service platform
api
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010401555.2A
Other languages
English (en)
Other versions
CN111581635A (zh
Inventor
张俊杰
李晓歌
韩超
门玉森
王文颖
杨元
吕旖旎
牧日根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Travelsky Technology Co Ltd
Original Assignee
China Travelsky Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Travelsky Technology Co Ltd filed Critical China Travelsky Technology Co Ltd
Priority to CN202010401555.2A priority Critical patent/CN111581635B/zh
Publication of CN111581635A publication Critical patent/CN111581635A/zh
Application granted granted Critical
Publication of CN111581635B publication Critical patent/CN111581635B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/45Structures or tools for the administration of authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/448Execution paradigms, e.g. implementations of programming paradigms
    • G06F9/4482Procedural
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2141Access rights, e.g. capability lists, access control lists, access tables, access matrices
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种数据处理方法及系统,该方法为:应用服务平台获取用户信息和操作请求;安全管控平台根据预设的权限审核规则,确定用户信息是否通过权限审核;若通过权限审核,中间服务平台确定自身所包括的多个API中与操作请求对应的待调用API;中间服务平台根据待调用API,调用基础组件平台所包括的多个组件中与待调用API对应的待调用组件,使待调用组件响应操作请求。本方案中,将多个组件集成在基础组件平台,以及将每个组件对应的API集成在中间服务平台,可统一对各个组件进行维护,降低维护成本。安全管控平台确定用户信息通过权限审核后,利用中间服务平台和基础组件平台调用待调用组件响应操作请求,提高数据的安全性。

Description

一种数据处理方法及系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种数据处理方法及系统。
背景技术
随着互联网和多媒体技术的发展,各个领域的数据量呈现指数级增长,例如对于航空领域,数据量通常以太字节(Terabyte,TB)和拍字节(Petabyte,PB)为单位。
目前在处理海量数据时,通常利用诸如Hadoop组件和HBase组件等大数据组件对海量数据进行处理。但是,对于不同的业务场景需求需要使用不同的大数据组件,而随着大数据组件的增多,对大数据组件的维护成本越来越高,并且使用多种大数据组件处理数据时需要保证数据的安全性。因此,如何降低大数据组件的维护成本和保证数据的安全性是目前亟需解决的问题。
发明内容
有鉴于此,本发明实施例提供一种数据处理方法及系统,以降低大数据组件的维护成本和以保证数据的安全性。
为实现上述目的,本发明实施例提供如下技术方案:
本发明实施例第一方面公开一种数据处理方法,所述方法应用于数据处理系统,所述数据处理系统包括基础组件平台、中间服务平台、应用服务平台和安全管控平台,所述方法包括:
应用服务平台获取用户信息和操作请求;
安全管控平台根据预设的权限审核规则,确定所述用户信息是否通过权限审核;
若所述用户信息通过权限审核,中间服务平台确定自身所包括的多个应用程序接口API中与所述操作请求对应的待调用API,所述中间服务平台包括基础组件平台所包括的多个组件对应的API;
所述中间服务平台根据所述待调用API,调用所述基础组件平台所包括的多个组件中与所述待调用API对应的待调用组件,使所述待调用组件响应所述操作请求。
优选的,所述用户信息包括用户的类型、账户名和密码,所述安全管控平台根据预设的权限审核规则,确定所述用户信息是否通过权限审核,包括:
安全管控平台判断所述用户的类型是否为预设用户类型;
若所述用户的类型为预设用户类型,所述安全管控平台判断所述账户名和所述密码是否正确;
若所述账户名和所述密码正确,确定所述用户信息通过权限审核。
优选的,所述使所述待调用组件响应所述操作请求之后,还包括:
所述安全管控平台接收所述待调用组件发送的数据处理请求;
所述安全管控平台确定所述待调用组件是否为预先通过安全认证的组件;
若所述待调用组件为预先通过安全认证的组件,所述安全管控平台向所述待调用组件反馈用于执行所述数据处理请求的执行指令,使所述待调用组件根据所述执行指令执行所述数据处理请求。
优选的,所述中间服务平台根据所述待调用API,调用所述基础组件平台所包括的多个组件中与所述待调用API对应的待调用组件之前,还包括:
中间服务平台根据所述用户信息,确定所述用户信息对应的管理分组;
所述中间服务平台确定所述管理分组对应的操作权限;
若所述操作权限满足所述操作请求,所述中间服务平台执行调用与所述待调用API对应的待调用组件这一步骤。
优选的,还包括:
所述中间服务平台采集每个API的状态信息;
所述中间服务平台根据每个API的状态信息,确定每个API的运行状态。
本发明实施例第二方面公开一种数据处理系统,所述系统包括:基础组件平台、中间服务平台、应用服务平台和安全管控平台;
所述应用服务平台,用于获取用户信息和操作请求;
所述安全管控平台,用于根据预设的权限审核规则,确定所述用户信息是否通过权限审核,若所述用户信息通过权限审核,执行所述中间服务平台;
所述中间服务平台,用于确定自身所包括的多个应用程序接口API中与所述操作请求对应的待调用API,根据所述待调用API,调用所述基础组件平台所包括的多个组件中与所述待调用API对应的待调用组件,所述中间服务平台包括基础组件平台所包括的多个组件对应的API;
所述基础组件平台,用于根据所述待调用组件响应所述操作请求。
优选的,所述用户信息包括用户的类型、账户名和密码,所述安全管控平台具体用于:判断所述用户的类型是否为预设用户类型,若所述用户的类型为预设用户类型,判断所述账户名和所述密码是否正确,若所述账户名和所述密码正确,确定所述用户信息通过权限审核。
优选的,所述安全管控平台还用于:
接收所述待调用组件发送的数据处理请求,确定所述待调用组件是否为预先通过安全认证的组件,若所述待调用组件为预先通过安全认证的组件,向所述待调用组件反馈用于执行所述数据处理请求的执行指令,使所述待调用组件根据所述执行指令执行所述数据处理请求。
优选的,所述中间服务平台还用于:根据所述用户信息,确定所述用户信息对应的管理分组,确定所述管理分组对应的操作权限,若所述操作权限满足所述操作请求,执行调用与所述待调用API对应的待调用组件这一步骤。
优选的,所述中间服务平台还用于:采集每个API的状态信息,根据每个API的状态信息,确定每个API的运行状态。
基于上述本发明实施例提供的一种数据处理方法及系统,该方法为:应用服务平台获取用户信息和操作请求;安全管控平台根据预设的权限审核规则,确定用户信息是否通过权限审核;若用户信息通过权限审核,中间服务平台确定自身所包括的多个API中与操作请求对应的待调用API;中间服务平台根据待调用API,调用基础组件平台所包括的多个组件中与待调用API对应的待调用组件,使待调用组件响应操作请求。本方案中,将多个组件集成在基础组件平台,以及将每个组件对应的API集成在中间服务平台,可统一对各个组件进行维护,降低维护成本。安全管控平台确定用户信息通过权限审核后,利用中间服务平台和基础组件平台调用待调用组件响应操作请求,提高数据的安全性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种数据处理系统的结构框图;
图2为本发明实施例提供的应用服务平台的架构示意图;
图3为本发明实施例提供的安全管控平台处理Flink提交作业的流程图;
图4为本发明实施例提供的一种数据处理系统的架构示意图;
图5为本发明实施例提供的基础组件平台的数据流向示意图;
图6为本发明实施例提供的一种数据处理方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
由背景技术可知,目前在处理海量数据的时候,通常需要利用多种大数据组件。但是由于不同业务场景需求需要使用不同的大数据组件,对大数据组件的维护成本越来越高,并且使用多种大数据组件处理数据时需要保证数据的安全性。
因此,本发明实施例提供一种数据处理方法及系统,将多个组件集成在基础组件平台,以及将每个组件对应的API集成在中间服务平台,可统一对各个组件进行维护,以降低维护成本。安全管控平台确定用户信息通过权限审核后,利用中间服务平台和基础组件平台调用待调用组件响应操作请求,以提高数据的安全性。
参见图1,示出了本发明实施例提供的一种数据处理系统的结构框图,该数据处理系统包括:应用服务平台100、安全管控平台200、中间服务平台300和基础组件平台400;
应用服务平台100,用于获取用户信息和操作请求。
可以理解的是,用户在通过应用服务平台100进行数据操作时,应用服务平台100获取该用户对应的用户信息和操作请求,操作请求即指示该数据操作的类型。
需要说明的是,在应用服务平台100中设置多个功能模块,通过应用服务平台100中的功能模块为用户提供不同类型的数据操作服务。
为更好解释说明应用服务平台100中的功能模块,通过图2示出的应用服务平台的架构示意图进行举例说明,需要说明的是,图2中的内容仅用于举例说明。
图2中,应用服务平台100中设置3个功能模块,分别为GitLab仓库管理系统、Wiki开放编辑系统和Beatles模块。
其中,GitLab仓库管理系统用于维护数据处理系统,Wiki开放编辑系统用于将数据处理系统中的问题和问题解决方法收集至文档中。
Beatles模块的功能为:根据用户的用户级别(根据用户信息确定)确定该用户使用组件的权限(包括查看权限和使用权限),统计数据处理系统的资源使用情况,提供问答服务,实时反馈数据处理系统的使用问题。
Beatles模块还提供了查看用户的审计信息和查看集群的配置管理数据库(Configuration Management Database,CMDB)信息。
可以理解的是,根据图2示出的内容,Beatles模块所提供的服务为:CMDB服务、Hadoop服务、Storm服务、Flink服务、Kafka服务、租户管理服务、运维服务、系统管理服务和公告管理服务。
安全管控平台200,用于根据预设的权限审核规则,确定用户信息是否通过权限审核,若用户信息通过权限审核,执行中间服务平台300。
需要说明的是,用户信息包括用户的类型、账户名和密码,在具体实现中,安全管控平台200具体用于:判断用户的类型是否为预设用户类型,例如:判断该用户是否为在数据处理系统中注册的用户。
若用户的类型为预设用户类型,判断账户名和密码是否正确,若账户名和密码正确,确定用户信息通过权限审核。
可以理解的是,在安全管控平台200中设置轻型目录访问协议(Light DirectoryAccess Portocol,LDAP)组件、Sentry组件和Kerberos组件。
其中,LDAP组件用于验证用户的账户名和密码是否正确,Sentry组件用于判断用户的类型是否为预设用户类型,Kerberos组件用于对数据的流向进行管控。
为更好解释说明上述Kerberos组件对数据的流向进行管控的过程,以提交Flink作业为例,通过图3进行解释说明,需要说明的是,图3仅用于举例说明。
参见图3,示出了本发明实施例提供的安全管控平台处理Flink提交作业的流程图,包括以下步骤:
步骤S301:获取用户信息。
在具体实现步骤S301的过程中,用户在应用服务平台100中进行登录时,获取用户的类型、账户名和密码。
步骤S302:利用Sentry组件确定用户的类型是否为预设用户类型,若用户的类型是预设用户类型,执行步骤S303。若用户的类型不是预设用户类型,提示该用户申请成为预设用户类型并再次登录,返回执行步骤S301。
步骤S303:利用LDAP组件判断账户名和密码是否正确。若账户名和密码正常,执行步骤S304,若账户名和密码不正确,提示该用户重新输入账户名和密码,返回执行步骤S301。
步骤S304:利用中间服务平台300判断该用户是否申请Flink资源,若用户申请Flink资源,执行步骤S305或查看Flink作业。若用户未申请Flink资源,提示用户申请Flink资源,返回执行步骤S301。
在具体实现步骤S304的过程中,利用中间服务平台300的应用程序接口(ApplicationProgramming Interface,API)判断该用户是否申请Flink资源。
步骤S305:提交Flink作业。
步骤S306:利用Kerberos判断该用户是否有消费数据的权限,若该用户有消费数据的权限,完成Flink作业的提交并查看Flink作用。若该用户没有消费数据的权限,提示用户申请Keytab文件,返回执行步骤S305。
中间服务平台300,用于确定自身所包括的多个API中与操作请求对应的待调用API,根据待调用API,调用基础组件平台400所包括的多个组件中与待调用API对应的待调用组件,中间服务平台300包括基础组件平台400所包括的多个组件对应的API。
可以理解的是,预先将多个组件集成至基层组件平台400中,例如:将存储组件HDFS、非结构化数据库HBase、数据仓库Hive、Yarn队列和Storm组件等集成至基层组件平台400中。
需要说明的是,在调用基层组件平台400中的组件时,通过组件对应的API(每个组件有对应的API)进行调用。
根据上述内容,将基层组件平台400中各个组件的API集成至中间服务平台300,也就是说,将基层组件平台400中各个组件的API提取出来并进行封装,将各个组件的API集成至中间服务平台300。
在具体实现中,中间服务平台300确定操作请求需要调用哪一API(待调用API)后,通过待调用API调用基础组件平台400中与该待调用API对应的组件(待调用组件),使待调用组件响应操作请求。
基础组件平台400,用于根据待调用组件响应操作请求。
为更好解释说明上述本发明实施例图1中涉及的数据处理系统,通过图4进行举例说明,需要说明的是,图4仅用于举例。
参见图4,示出了本发明实施例提供的一种数据处理系统的架构示意图,该数据处理系统包括应用服务平台100、安全管控平台200、中间服务平台300和基础组件平台400。
应用服务平台100中包括GitLab仓库管理系统、Wiki开放编辑系统和Beatles模块。
安全管控平台200包括:Kerberos、Ldap和Sentry等组件。
中间服务平台300包括基础组件平台400中各个组件对应的API(统一各个组件的API),API的类型包括:提供用户统一管理功能的API、提供资源配额功能的API、提供权限管理功能的API、提供运维管控功能的API和提供用户审计功能的API等。
基础组件平台400包括Hadoop、流处理组件和ES组件。其中,Hadoop组件包括:HDFS、YARN、HIVE、HBASE、Spark1.6、Spark2、Sqoop、Impala、Pig、MapReduce、Flume、HUE、Zookeeper和CDK等组件。
流处理组件包括:Kafka、Storm和Flink组件。ES组件包括:ECE、Kibana、Logstash/Beat和ElasticSearch等组件。
在本发明实施例中,将多个组件集成在基础组件平台,以及将每个组件对应的API集成在中间服务平台,可统一对各个组件进行维护,降低维护成本。用户通过应用服务平台进行数据操作时,应用服务平台获取用户信息和操作请求,安全管控平台确定用户信息通过权限审核后,利用中间服务平台和基础组件平台调用待调用组件响应操作请求,提高数据的安全性。
在一具体实施例中,将基础组件平台400划分为数据采集层、数据计算层和数据存储展示层,利用数据采集层进行数据收集,并将收集得到的数据传输至数据计算层进行数据处理,将处理结果传输至数据存储展示层进行存储,并利用商业智能(BusinessIntelligence,BI)工具进行展示。
可以理解的是,数据采集层、数据计算层和数据存储展示层都包含各自对应的组件,用户可根据实际情况进行选择,关于数据采集层、数据计算层和数据存储展示层的内容参见以下说明。
数据采集层包括:用于业务日志场景所需的Flum组件,用于运维日志场景所需的Filebeats组件,实现结构化数据和非结构化数据相互转换的Sqoop组件。Sqoop组件的应用示例为:比如关系数据库管理系统(Relational DataBase Management System,RDBMS)和Hadoop中的数据转换。
数据计算层包括:根据实际的业务需求,可将数据采集层所收集的数据进行3个维度(可根据实际情况设置)的处理,3个维度的处理分别为:将数据采集层收集的数据通过MapReduce或Spark进行离线计算,将数据采集层收集的数据通过SparkStreaming、Flink或Storm进行实时处理,利用Hive实现类SQL查询对数据采集层收集的数据进行处理。
比如:业务需求为需要计算一用户每个小时点击平台的次数,则利用Flink组件对数据采集层所采集的该用户对应的数据进行处理,即可得到该用户每个小时点击平台的次数(处理结果)。
数据存储展示层:将数据计算层对数据的处理结果存储到HDFS或HBase组件中,或者对处理结果进行可视化展示。同理,也可将处理结果存储至ES组件中,利用ES组件中的Kibana对处理结果进行数据展示分析。同时,也可将处理结果存储至Kafka组件中,实现处理结果的跨平台输出,将处理结果输出至目标平台(比如用户的自有平台)中。
为更好解释说明基础组件平台400中各个组件的数据流向,通过图5示出的基础组件平台的数据流向示意图进行举例说明,需要说明的是,图5中示出的内容仅用于举例。
图5中,数据采集层包括Sqoop、Flume、LogStash和Filebeats组件。
数据计算层包括MapReduce、Hive、Spark、Yarn、SparkStreaming、Flink和Storm等组件。其中,MapReduce、Hive、Spark和Yarn组件用于实现离线计算,SparkStreaming、Flink和Storm组件用于实现实时计算。
数据存储展示层包括HDFS、HBase、Kafka和ElasticSearch组件。
数据采集层中的组件从MySQL、业务数据和运维数据等数据源中采集数据,Sqoop从MySQL中采集数据并传输至数据计算层中用于实现离线计算的组件。
Flume、LogStash和Filebeats分别从业务数据与运维数据中采集数据,并将采集得到的数据传输至数据计算层中用于实现实时计算的组件。
数据计算层将处理结果分别传输至数据存储展示层中的HDFS、HBase、Kafka和ElasticSearch组件进行存储。
在本发明实施例中,将多个组件集成在基础组件平台,并将基础组件平台划分为数据采集层、数据计算层和数据存储展示层。利用基础组件平台进行数据收集、数据处理和数据存储,在维护组件时,可统一对基础组件平台中的组件进行维护,降低维护成本。
在一具体实施例中,由上述内容可知,基础组件平台400中包括多个组件,为更加便捷的使用和维护管理基础组件平台400中的组件,将基础组件平台400中的组件的API集成至中间服务平台300,只需要通过中间服务平台300以调用API的方式即可使用基础组件平台400中的组件。
可以理解的是,根据实际需求,中间服务平台300可以仅将基础组件平台400中的部分组件的API提供给租户(用户的一种类型),例如:不将HUE和ES组件的API提供给租户。
需要说明的是,将用户划分为:超级管理员、运维人员和租户三种类型,具体关于用户的类型的具体内容,请参见以下实施例的内容。
需要说明的是,在中间服务平台300中设置LDAP组件和Sentry组件,对用户信息和操作请求进行权限管理。
优选的,中间服务平台300还用于:根据用户信息,确定用户信息对应的管理分组,确定管理分组对应的操作权限,若操作权限满足操作请求,执行调用与待调用API对应的待调用组件这一步骤。
也就是说,在获取用户信息后,中间服务平台300利用LDAP组件确定用户信息对应的管理分组(确定用户处于哪一分组)。利用Sentry确定该用户信息对应的管理分组的操作权限,确定操作权限是否满足操作请求(即用户是否有权限执行该操作请求)。
需要说明的是,LDAP用于对用户进行分组,Sentry用于对LDAP所划分的管理分组进行权限授权,比如:LDAP将用户划分为3个管理分组,分别为A组、B组和C组,Sentry对A组、B组和C组进行权限授权,A组中的用户的操作权限为可以提交和查看所有作业,B组中的用户的操作权限为查看所有作业但不能提交作业,C组中的用户的操作权限为只能查看自身提交的作业但不能提交作业。
优选的,中间服务平台300还用于:采集每个API的状态信息,根据每个API的状态信息,确定每个API的运行状态。也就是说,中间服务平台300对各个组件的运行状态进行监控,将指定的组件的运行状态对接至指定平台,例如将重要级组件(根据实际需求设定重要级组件)的运行状态对接至bigeye平台中对该重要级组件进行监控,从而能及时发现各个组件出现的问题。
优选的,中间服务平台300还包括了其它功能,其它功能包括但不仅限于:审计功能(比如记录用户的登录时间),审计基础资源申请配额,审计用户的库表权限,审计组件的使用信息(比如查询语句,提交或删除作业),提供下载功能和生成审计报告。
在本发明实施例中,将基础组件平台中每个组件对应的API集成在中间服务平台,用户只需要通过中间服务平台即可调用基础组件平台中的各个组件,满足用户对于多种组件的需求,提高用户的使用体验。
在一具体实施例中,应用服务平台100的主要功能为实现租户(用户的一种类型)的作业的提交和查看,以及实现运维人员对数据处理系统的状态信息的监控,并且还对租户和运维人员的提供交互功能。
应用服务平台100根据用户的属性,将用户划分为:超级管理员、运维人员和租户三种类型,关于各类型的用户的具体内容如下说明。
超级管理员:对数据处理系统(基础组件平台、中间服务平台、应用服务平台和安全管控平台)进行维护的维护管理人员,实现对数据处理系统的持续集成、升级回滚和集群的高可用性功能。超级管理员同时具备运维人员和租户两种权限,具有添加或删除运维人员的权限,并且具有查看或下载审计模块的权限,同理超级管理人员还具有公告管理等权限,也就是说,超级管理人员具备最高权限(因此超级管理人员通常只有一个)。
运维人员:登录数据处理系统查看集群状态和CMDB配置信息,具有审批应用请求的权限,同时实现与租户之间的信息交互,并且协助应用解决与数据处理系统或作业相关的问题。
租户:在数据处理系统中查看申请资源和使用资源的配额,具有提交和查看作用的权限。可以理解的是,为保证生产环境的稳定和安全,提供二级租户业务,二级租户为一级租户的子集。一级租户通常为项目负责人和应用维护负责人,具有添加或删除组内成员(添加或删除自身组内的二级租户)、提交作业、查看作业和删除作业等权限,可以理解的是,可以根据实际情况(比如一级租户的使用人员离职或更换部门)实现一级租户的变更。二级租户为普通租户,能查看资源的申请和使用配额,具有查看作业的运行状态和删除作业等权限。需要说明的是,租户可以通过运维服务模块与运维人员进行交互,提交服务请求,服务请求包括但不仅限于所属应用组件、提问等级和详细描述等。
需要说明的是,对Flink组件和Storm组件的WebUI进行重新设计,使Flink组件和Storm组件具备多租户的功能。
在一具体实施例中,为保证数据处理系统的安全,将Sentry组件引入安全管控平台200,利用Sentry组件实现对用户的分级管理,并且可控制用户的访问和查看权限(操作权限)。在调用基础组件平台400中的组件时,被调用的组件会获取并消费数据,为保证数据的安全,将Kerberos组件引入安全管控平台200中,只有通过Kerberos组件认证的组件才能获取和消费数据。
也就是说,接收待调用组件发送的数据处理请求,确定待调用组件是否为预先通过安全认证(是否通过Kerberos组件认证)的组件,若待调用组件为预先通过安全认证的组件,向待调用组件反馈用于执行数据处理请求的执行指令,使待调用组件根据执行指令执行数据处理请求(获取和消费数据)。
与上述本发明实施例提供的一种数据处理系统相对应,参见图6,本发明实施例还提供了一种数据处理方法的流程图,该数据处理方法应用于上述本发明实施例所公开的数据处理系统,该数据处理方法包括:
步骤S601:应用服务平台获取用户信息和操作请求。
步骤S602:安全管控平台根据预设的权限审核规则,确定用户信息是否通过权限审核。若用户信息通过权限审核,执行步骤S603,若用户信息未通过权限审核,提示用户未通过权限审核。
需要说明的是,用户信息包括用户的类型、账户名和密码,在具体实现步骤S602的过程中,安全管控平台判断用户的类型是否为预设用户类型,若用户的类型为预设用户类型,安全管控平台判断账户名和密码是否正确,若账户名和所述密码正确,确定用户信息通过权限审核。
步骤S603:中间服务平台确定自身所包括的多个API中与操作请求对应的待调用API。
需要说明的是,中间服务平台包括基础组件平台所包括的多个组件对应的API。
步骤S604:中间服务平台根据待调用API,调用基础组件平台所包括的多个组件中与待调用API对应的待调用组件,使待调用组件响应操作请求。
优选的,在执行步骤S604之后,安全管控平台接收待调用组件发送的数据处理请求,安全管控平台确定待调用组件是否为预先通过安全认证的组件。若待调用组件为预先通过安全认证的组件,安全管控平台向待调用组件反馈用于执行数据处理请求的执行指令,使待调用组件根据执行指令执行数据处理请求。
优选的,在执行步骤S604之前,中间服务平台根据用户信息,确定用户信息对应的管理分组,中间服务平台确定管理分组对应的操作权限,若操作权限满足操作请求,执行步骤S604。
优选的,中间服务平台采集每个API的状态信息,中间服务平台根据每个API的状态信息,确定每个API的运行状态。
需要说明的是,步骤S601至步骤S604的执行原理,可参见上述本发明实施例公开的数据处理系统的相关内容,在此不再进行赘述。
综上所述,本发明实施例提供一种数据处理方法及系统,将多个组件集成在基础组件平台,以及将每个组件对应的API集成在中间服务平台,可统一对各个组件进行维护,降低维护成本。安全管控平台确定用户信息通过权限审核后,利用中间服务平台和基础组件平台调用待调用组件响应操作请求,提高数据的安全性。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种数据处理方法,其特征在于,所述方法应用于数据处理系统,所述数据处理系统包括基础组件平台、中间服务平台、应用服务平台和安全管控平台,所述方法包括:
应用服务平台获取用户信息和操作请求;
安全管控平台根据预设的权限审核规则,确定所述用户信息是否通过权限审核;
若所述用户信息通过权限审核,中间服务平台确定自身所包括的多个应用程序接口API中与所述操作请求对应的待调用API,所述中间服务平台包括基础组件平台所包括的多个组件对应的API;
所述中间服务平台根据所述待调用API,调用所述基础组件平台所包括的多个组件中与所述待调用API对应的待调用组件,使所述待调用组件响应所述操作请求,其中,在调用所述基础组件平台中的组件时,通过组件对应的API进行调用;
所述安全管控平台接收所述待调用组件发送的数据处理请求;
所述安全管控平台确定所述待调用组件是否为预先通过安全认证的组件;
若所述待调用组件为预先通过安全认证的组件,所述安全管控平台向所述待调用组件反馈用于执行所述数据处理请求的执行指令,使所述待调用组件根据所述执行指令执行所述数据处理请求。
2.根据权利要求1所述的方法,其特征在于,所述用户信息包括用户的类型、账户名和密码,所述安全管控平台根据预设的权限审核规则,确定所述用户信息是否通过权限审核,包括:
安全管控平台判断所述用户的类型是否为预设用户类型;
若所述用户的类型为预设用户类型,所述安全管控平台判断所述账户名和所述密码是否正确;
若所述账户名和所述密码正确,确定所述用户信息通过权限审核。
3.根据权利要求1所述的方法,其特征在于,所述中间服务平台根据所述待调用API,调用所述基础组件平台所包括的多个组件中与所述待调用API对应的待调用组件之前,还包括:
中间服务平台根据所述用户信息,确定所述用户信息对应的管理分组;
所述中间服务平台确定所述管理分组对应的操作权限;
若所述操作权限满足所述操作请求,所述中间服务平台执行调用与所述待调用API对应的待调用组件这一步骤。
4.根据权利要求1所述的方法,其特征在于,还包括:
所述中间服务平台采集每个API的状态信息;
所述中间服务平台根据每个API的状态信息,确定每个API的运行状态。
5.一种数据处理系统,其特征在于,所述系统包括:基础组件平台、中间服务平台、应用服务平台和安全管控平台;
所述应用服务平台,用于获取用户信息和操作请求;
所述安全管控平台,用于根据预设的权限审核规则,确定所述用户信息是否通过权限审核,若所述用户信息通过权限审核,执行所述中间服务平台;
所述中间服务平台,用于确定自身所包括的多个应用程序接口API中与所述操作请求对应的待调用API,根据所述待调用API,调用所述基础组件平台所包括的多个组件中与所述待调用API对应的待调用组件,所述中间服务平台包括基础组件平台所包括的多个组件对应的API,其中,在调用所述基础组件平台中的组件时,通过组件对应的API进行调用;
所述基础组件平台,用于根据所述待调用组件响应所述操作请求;
所述安全管控平台还用于:
接收所述待调用组件发送的数据处理请求,确定所述待调用组件是否为预先通过安全认证的组件,若所述待调用组件为预先通过安全认证的组件,向所述待调用组件反馈用于执行所述数据处理请求的执行指令,使所述待调用组件根据所述执行指令执行所述数据处理请求。
6.根据权利要求5所述的系统,其特征在于,所述用户信息包括用户的类型、账户名和密码,所述安全管控平台具体用于:判断所述用户的类型是否为预设用户类型,若所述用户的类型为预设用户类型,判断所述账户名和所述密码是否正确,若所述账户名和所述密码正确,确定所述用户信息通过权限审核。
7.根据权利要求5所述的系统,其特征在于,所述中间服务平台还用于:根据所述用户信息,确定所述用户信息对应的管理分组,确定所述管理分组对应的操作权限,若所述操作权限满足所述操作请求,执行调用与所述待调用API对应的待调用组件这一步骤。
8.根据权利要求5所述的系统,其特征在于,所述中间服务平台还用于:采集每个API的状态信息,根据每个API的状态信息,确定每个API的运行状态。
CN202010401555.2A 2020-05-13 2020-05-13 一种数据处理方法及系统 Active CN111581635B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010401555.2A CN111581635B (zh) 2020-05-13 2020-05-13 一种数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010401555.2A CN111581635B (zh) 2020-05-13 2020-05-13 一种数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN111581635A CN111581635A (zh) 2020-08-25
CN111581635B true CN111581635B (zh) 2023-09-05

Family

ID=72122899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010401555.2A Active CN111581635B (zh) 2020-05-13 2020-05-13 一种数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN111581635B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417403B (zh) * 2020-11-29 2022-11-29 中国科学院电子学研究所苏州研究院 一种基于GitLab API的系统自动化认证和授权处理方法
CN112714018B (zh) * 2020-12-28 2023-04-18 上海领健信息技术有限公司 基于网关的ElasticSearch搜索服务方法、系统、介质及终端
CN112784235B (zh) * 2021-01-30 2023-08-08 上海浦东发展银行股份有限公司 基于cmdb项目相关信息自动分配链路追踪系统权限的方法
CN113377454A (zh) * 2021-06-23 2021-09-10 浪潮云信息技术股份公司 一种Flink动态连接Kerberos认证组件的实现方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7921299B1 (en) * 2003-12-05 2011-04-05 Microsoft Corporation Partner sandboxing in a shared multi-tenant billing system
CN103618790A (zh) * 2013-11-28 2014-03-05 深圳先进技术研究院 一种获取api服务的方法及系统
US9292361B1 (en) * 2011-08-19 2016-03-22 Google Inc. Application program interface script caching and batching
WO2016144304A1 (en) * 2015-03-06 2016-09-15 Hewlett Packard Enterprise Development Lp Dynamic api management
US10205701B1 (en) * 2014-12-16 2019-02-12 Infoblox Inc. Cloud network automation for IP address and DNS record management
CN109525593A (zh) * 2018-12-20 2019-03-26 中科曙光国际信息产业有限公司 一种对hadoop大数据平台集中安全管控系统及方法
CN110333917A (zh) * 2019-07-19 2019-10-15 深圳前海微众银行股份有限公司 基于微服务的数据处理方法、装置、设备及可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6572750B2 (ja) * 2015-11-20 2019-09-11 富士通株式会社 認証制御プログラム、認証制御装置、及び認証制御方法
US11222321B2 (en) * 2018-06-12 2022-01-11 Mastercard International Incorporated Systems and methods for use in verifying users to service providers

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7921299B1 (en) * 2003-12-05 2011-04-05 Microsoft Corporation Partner sandboxing in a shared multi-tenant billing system
US9292361B1 (en) * 2011-08-19 2016-03-22 Google Inc. Application program interface script caching and batching
CN103618790A (zh) * 2013-11-28 2014-03-05 深圳先进技术研究院 一种获取api服务的方法及系统
US10205701B1 (en) * 2014-12-16 2019-02-12 Infoblox Inc. Cloud network automation for IP address and DNS record management
WO2016144304A1 (en) * 2015-03-06 2016-09-15 Hewlett Packard Enterprise Development Lp Dynamic api management
CN109525593A (zh) * 2018-12-20 2019-03-26 中科曙光国际信息产业有限公司 一种对hadoop大数据平台集中安全管控系统及方法
CN110333917A (zh) * 2019-07-19 2019-10-15 深圳前海微众银行股份有限公司 基于微服务的数据处理方法、装置、设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
4 Most Used REST API Authentication Methods;RestCase;《RestCase, REST API Security, REST API, OAS, API Driven Development》;全文 *

Also Published As

Publication number Publication date
CN111581635A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN111581635B (zh) 一种数据处理方法及系统
US11170316B2 (en) System and method for determining fuzzy cause and effect relationships in an intelligent workload management system
US11921682B2 (en) Extracting data from a blockchain network
US10824525B2 (en) Distributed data monitoring device
US20200067791A1 (en) Client account versioning metadata manager for cloud computing environments
US9565260B2 (en) Account state simulation service for cloud computing environments
US9191380B2 (en) System and method for managing information technology models in an intelligent workload management system
US8856077B1 (en) Account cloning service for cloud computing environments
US8606897B2 (en) Systems and methods for exporting usage history data as input to a management platform of a target cloud-based network
EP4006728A1 (en) Systems and methods for private cloud computing
US20190179944A1 (en) Predictive scaling for cloud applications
CN113094385B (zh) 一种基于软件定义开放工具集的数据共享融合平台及方法
CN112286985B (zh) 一种基于云计算的临床研究统计分析系统
US11714683B1 (en) Information technology and security application automation architecture
CN107659450A (zh) 大数据集群资源的分配方法、分配装置及存储介质
US11233787B2 (en) Automated on call and ad hoc access to restricted resources
CN118312626B (zh) 一种基于机器学习的数据管理方法及系统
Maeno et al. PanDA: Production and Distributed Analysis System
Zhang et al. Why do migrations fail and what can we do about it?
US11632375B2 (en) Autonomous data source discovery
US20240330272A1 (en) Decentralized governance of shared infrastructure
US20240184914A1 (en) Multiple synonymous identifiers in data privacy integration protocols
CN114936817A (zh) 仓储管理系统
CN118014522A (zh) 基于人力资源服务实时工作管理saas平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant