CN109324892B - 分布式管理方法、分布式管理系统及装置 - Google Patents

分布式管理方法、分布式管理系统及装置 Download PDF

Info

Publication number
CN109324892B
CN109324892B CN201810819161.1A CN201810819161A CN109324892B CN 109324892 B CN109324892 B CN 109324892B CN 201810819161 A CN201810819161 A CN 201810819161A CN 109324892 B CN109324892 B CN 109324892B
Authority
CN
China
Prior art keywords
task
task execution
execution units
distributed management
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810819161.1A
Other languages
English (en)
Other versions
CN109324892A (zh
Inventor
王亚强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201810819161.1A priority Critical patent/CN109324892B/zh
Publication of CN109324892A publication Critical patent/CN109324892A/zh
Application granted granted Critical
Publication of CN109324892B publication Critical patent/CN109324892B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例提供一种分布式管理系统,包括:驱动模块,用于发送多个任务请求,所述多个任务请求各自包含其归属的应用ID;应用服务模块,根据所述多个任务请求操作多个任务执行单元,所述多个任务执行单元各自包含其归属的应用ID;监控模块,从所述应用服务模块获得所述多个任务执行单元的操作信息,并据此获得所述多个任务执行单元的状态信息及多个应用的状态信息;第一存储单元,用于存储所述多个任务执行单元的状态信息和多个应用的状态信息。通过任务请求和任务执行单元保持任务和应用的关系,从而能够根据任务执行单元的状态信息获得应用的状态信息。同时提供一种分布式管理方法和装置。

Description

分布式管理方法、分布式管理系统及装置
技术领域
本发明涉及计算机技术领域,具体涉及一种分布式管理方法、分布式管理系统及装置。
背景技术
分布式管理系统通常通过管理节点将一项业务流程分成多个任务部署在工作节点上并分别执行,然后通过管理节点收集任务返回的数据。
以图1所示的基于Kubernetes的任务管理系统为例,所述任务管理系统包括管理节点110和多个工作节点120。Kubernetes是开源的容器集群管理系统,提供应用部署、维护、扩展等功能,能够方便地管理大规模跨主机的容器应用。
管理节点110上部署有scheduler、controller-manager、kube-dns、APIServer、etcd、kubelet和kube-proxy等多个模块。其中,APIServer负责对外提供Kubernetes API服务,它是系统管理指令的统一入口,任何对资源进行增删改查的操作都要交给APIServer处理后再提交给etcd。scheduler负责调度,将pod到合适的工作节点上。如果把scheduler看成一个黑匣子,那么它的输入是pod和由多个工作节点组成的列表,输出是pod和一个工作节点的绑定,即将这个pod部署到这个工作节点上。controller-manager负责管理资源,例如对于已经创建的pod,controller-manager保证pod的状态始终和预期的一样。Kubelet用来处理节点下发到本节点的任务,管理pod以及其中的容器。etcd是一个高可用的键值存储系统,Kubernetes使用它来存储各个资源的状态。iptables是一个配置Linux内核防火墙的命令行工具,kube-proxy主要利用iptables为容器配置网络,实现封包过滤、风暴重定向和网络地址转换等功能。Kubectl实现和APIServer的交互。工作节点120上部署有多个pod、kubelet和kube-proxy等模块。pod是Kubernetes的基本操作单元,也是应用运行的载体。一个业务流程可以分为多个pod运行。
结合图1可以发现,任务执行单元(对应在工作节点上执行的pod)是非常重要的资源,需要实时监视其状态。在图1中,通过controller-manager保证pod的状态始终和预期的一样,并且将pod的状态存储在etcd中。然而,发明人发现,一些情况下,管理员不仅需要了解任务执行单元的状态,还需要了解任务执行单元归属的业务流程的状态,然而,上述任务管理系统中,这种要求并不能得到很好的支持。
因此,有必要提供一种通用的管理系统,能够提供每个任务执行单元的状态以及其所归属的业务流程的状态。
发明内容
有鉴于此,本发明实施例提供分布式管理系统和方法,在任务请求中包含其归属的应用ID,在任务执行单元中同样包含应用ID,通过应用ID和任务执行单元的对应关系,获得任务执行单元和其所归属的应用的状态信息。
根据本发明实施例的第一方面,提供一种分布式管理系统,包括:
驱动模块,发送多个任务请求,所述多个任务请求各自包含其归属的应用ID;
应用服务模块,根据所述多个任务请求操作多个任务执行单元,所述多个任务执行单元各自包含其归属的应用ID;
监控模块,从所述应用服务模块获得所述多个任务执行单元的操作信息,并据此获得所述多个任务执行单元的状态信息及多个应用的状态信息;
第一存储单元,用于存储所述多个任务执行单元的状态信息和多个应用的状态信息。
优选地,所述任务请求为任务创建请求、任务删除请求和任务修改请求中的一个。
优选地,所述驱动模块向所述多个任务执行单元发送信息检索请求,并接收所述多个任务执行单元返回的运行详情。
优选地,所述任务请求还包括IP地址和端口,所述驱动模块根据所述IP地址和端口存储所述运行详情。
优选地,所述监控模块还包括:根据所述IP地址和所述端口读取所述运行详情;
所述分布式管理系统还包括:第二存储单元,用于存储所述监控模块读取到的运行详情。
优选地,所述第一存储单元为内存表,所述第二存储单元为数据库表。
优选地,所述监控模块和所述应用服务模块之间建立长连接,基于所述长连接侦听所述应用服务模块以获得所述多个任务执行单元的操作信息。
优选地,所述分布式管理系统还包括:查询模块,用于接收输入参数,根据所述输入参数输出从所述第一存储单元和/或所述第二存储单元检索到的数据。
优选地,所述分布式管理系统基于Kubernetes架构构建,所述任务请求为spark应用的pod请求,所述任务执行单元执行相应的spark应用的pod。
根据本发明实施例的第二方面,提供一种分布式管理方法,包括:
发送多个任务请求,所述多个任务请求分别归属于不同的应用;
根据所述多个任务请求操作多个任务执行单元,所述多个任务执行单元各自包含其归属的应用ID;
获得所述多个任务执行单元的操作信息,并据此获得所述多个任务执行单元的状态信息及多个应用的状态信息;以及
采用第一存储单元存储所述多个任务执行单元的状态信息和多个应用的状态信息。
优选地,所述任务请求为任务创建请求、任务删除请求和任务修改请求中的一个。
优选地,所述分布式管理方法还包括:
发送信息检索请求,并接收所述多个任务执行单元返回的运行详情。
优选地,所述任务请求还包括IP地址和端口,所述分布式管理方法还包括:根据所述IP地址和端口存储所述运行详情。
优选地,所述分布式管理方法还包括:根据所述IP地址和所述端口读取所述运行详情;以及采用第二存储单元存储所述监控模块读取到的运行详情。
优选地,所述第一存储单元为内存表,所述第二存储单元为数据库优选地,所述分布式管理方法还包括:接收输入参数,并根据所述输入参数输出从所述第一存储单元和/或所述第二存储单元检索到的数据。
根据本发明实施例的第三方面,提供一种分布式管理系统,其特征在于,包括:管理节点和多个工作节点,
管理节点包括:
驱动模块,发送多个任务请求,多个任务请求各自包含其归属的应用ID;
应用服务模块,根据所述多个任务请求操作多个任务执行单元,所述多个任务执行单元各自包含其归属的应用ID;
监控模块,从所述应用服务模块获得所述多个任务执行单元的操作信息,并据此获得所述多个任务执行单元的状态信息及多个应用的状态信息;
第一存储单元,用于存储所述多个任务执行单元的状态信息及多个应用的状态信息。
所述多个工作节点分别包括在其上执行的多个任务执行单元;
优选地,所述分布式管理系统基于Kubernetes架构构建,所述任务请求为spark应用的pod请求,所述任务执行单元执行相应的spark应用的pod。
根据本发明的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被执行时实现上述的分布式管理方法。
根据本发明的第五方面,提供一种分布式管理装置,包括:
存储器,用于存储计算机指令;
处理器,耦合到所述存储器,所述处理器被配置为基于所述存储器存储的计算机指令执行实现上述的分布式管理方法。
本发明的一实施例具有以下优点或有益效果:在任务请求中包含归属的应用ID,在任务执行单元中包含了应用ID,保持了应用和任务执行单元之间的对应关系,从而能够根据任务执行单元的状态信息获得应用的状态信息。
本发明的一优选实施例具有以下优点或有益效果:在任务请求中还包括IP地址和端口,根据IP地址和端口将运行详情存储到服务器上,然后从服务器上读取并存储运行详情,存储和读取运行详情的步骤在不同的服务中执行,减少了数据阻塞,减轻了单一服务的执行压力,从而提高了系统效率。
本发明的另一优选实施例具有以下优点或有益效果:通过将运行详情永久存储,有利于进行数据统计和分析。
附图说明
通过参照以下附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是基于Kubernetes的集群管理系统的部署图;
图2是根据本发明实施例的分布式管理系统的结构示意图;
图3是根据本发明实施例的分布式管理系统中的监控模块220的结构示意图;
图4是根据本发明实施例的分布式管理方法的流程图;
图5是根据本发明实施例的分布式管理装置的结构图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程没有详细叙述。另外附图不一定是按比例绘制的。
图2是根据本发明实施例的分布式管理系统的结构示意图。
如图2所示,分布式管理系统200包括驱动模块210、应用服务模块230、监控模块220和第一存储单元240。
驱动模块210发送多个任务请求,所述多个任务请求各自包含其归属的应用ID。
应用服务模块230根据多个任务请求操作多个任务执行单元。每个任务执行单元包含其归属的应用ID。每个任务执行单元执行对应的任务请求中规定的操作。
监控模块220从应用服务模块获得多个任务执行单元的操作信息,并据此获得多个任务执行单元的状态信息及多个应用的状态信息。
第一存储单元240用于存储多个任务执行单元的状态信息和多个应用的状态信息。
具体而言,当一个应用被分成多个任务请求时,通过任务请求中包含的应用ID确定归属的应用。当应用服务模块230从驱动模块接收到一个任务请求时,根据任务请求的内容操作任务执行单元。一种可选的实施例为:任务请求为对一个类对象的操作请求,则任务执行单元根据该操作请求,操作实体的类对象。
监控模块220和应用服务模块230建立连接,获得任务执行单元的操作信息,并据此获得任务执行单元的状态信息及应用的状态信息存储在第一存储单元240例如信息表中。
任务请求可为任务执行单元的创建请求、任务执行单元的删除请求、任务执行单元的修改请求或任务执行单元的查询请求。相应地,应用服务模块230对任务执行单元进行增加、删除、修改或查询。应该理解,对任务执行单元的创建、删除和修改会实时反映到第一存储单元中,从而使得第一存储单元中只保留当前正在执行的任务执行单元的信息。
在本实施例中,任务请求中包含其归属的应用ID,任务执行单元中同样包含了其归属的应用ID,由于保持了任务执行单元和应用之间的对应关系,从而能够根据任务执行单元的状态信息得到应用的状态信息。在第一存储单元240中存储了应用和任务执行单元的对应关系,从而可以采用应用的名称查询其包含的任务执行单元,也可以查询单一任务执行单元所归属的应用。
在一个可选的实施例中,驱动模块210会定时向任务执行单元发送信息检索请求,并接收返回的运行详情进行存储。运行详情里包含更具体的任务执行单元的运行信息,例如名称、ID以及归属的应用、运行状态等信息,也包含了任务执行单元在执行过程中产生的调试日志、告警日志等。
在一个可选的实施例中,任务请求的格式(未示出全部内容)包含以下注释内容:
application-type=spark;
application-ui=<ip>:<port>;
application-selector=<spark-appid>;
其中,application-type表示应用类型,application-ui包括ip地址和端口,表示运行详情的存储位置,同时是访问接口,其他应用或管理员可以基于该访问接口进行访问,application-selector表示任务执行单元归属的应用ID。在此示例中,应用为一个spark应用,该请求为一个spark请求。spark是新一代分布式内存计算框架。但本发明不仅限于此。基于XML语言的特性,可以在任务请求中定义任意名称的标签,用于支持各种应用。
在一个可选的实施例中,应用服务模块230和监控模块220之间的连接是长连接,监控模块220一直处于侦听状态,当应用服务模块230产生任务操作事件时,监控模块220可以立即侦听到。
在一个可选的实施例中,分布式管理系统还包括:查询模块,用于接收输入参数,并返回从第一存储单元和/或所述第二存储单元返回的数据。查询模块可以基于WEB GUI或命令行模式。
可以理解,上述实施例的分布式管理系统可以基于图1的任务管理系统得以实现。例如,驱动模块210、应用服务模块230、监控模块220和第一存储单元250部署在管理节点110上,任务执行单元(对应pod)在工作节点120上执行。基于Kubernetes现有的组件将使得上述模块的实现更加简单。
图3是根据本发明实施例的分布式管理系统中的监控模块220的结构示意图。
如图3所示,监控模块220处于侦听状态,当侦听到一个操作信息2201时,对2201进行判断:
(1)当操作信息2201为创建任务执行单元的信息时,获取所属的应用ID;判断在内存表2203中是否已存在该应用;如果不存在,则根据该应用ID创建一个新的记录,并将相应的任务执行单元的信息保存在该记录的条目下,同时将该新的记录存储到数据通道2202中,通过数据通道2202异步的存储到mysql中进行永久保存;如果在内存表2203中已存在该应用,则直接将任务执行单元的信息追加到相应的记录的条目下,其中,数据通道2202例如消息队列,共享内存等临时存储数据的存储单元;
(2)当操作信息2201为更新任务执行单元的信息时,获取任务执行单元所属的应用ID,找到相应的记录,再根据任务执行单元的名称定位到任务执行单元的条目,替换任务执行单元的信息;
(3)当操作信息2201为删除任务执行单元的信息时,获取任务执行单元所属的应用ID,找到相应的记录,再根据任务执行单元的名称从记录中删除任务执行单元的信息;如果应用的记录下已经不包含任何任务执行单元,则删除应用记录;
(4)提供各种访问接口得以访问任务执行单元和应用的状态。例如,根据RestfulAPI格式暴露spark应用的任务执行单元的状态信息,方便开发人员访问。对于当前的任务执行单元的状态信息,命令行格式为:cmd/v1/current/{appid};对于指定应用ID当前所有的任务执行单元的状态信息,命令行格式为:cmd/v1/current/{appid},如果不指定应用ID,则返回当前所有的应用中的任务执行单元的状态信息。对于历史记录的信息,命令行格式为:cmd/v1/history/start/{start}/end/{end},从mysql中查处spark应用的历史的状态信息。同时,提供命令行格式为:cmd/metrics,从内存表和mysql中查询实时的状态信息和历史记录;
(5)为监控模块创建部署文件。例如,针对kubernetes现有的监控平台,添加如下格式的条目(annotations):
annotations:
prometheus.io/scrape:"true"
prometheus.io/port:“<port>”
则监控模块会被prometheus的服务发现机制发现到,从而无缝集成到kubernetes现有的监控平台中,并进行可视化展示。prometheus是一个开源的系统监控和告警的工具包,其采用pull方式采集时间序列,通过http协议传输。
应该指出,在上述的监控模块220中,由于每次新生成的任务执行单元的信息都会保存到mysql数据库表,但却不进行删除,从而使得mysql数据库表中保存了历史和当前的任务执行单元的状态信息。并且,上述监控模块220还将读取到的运行详情存储到mysql数据库表中。由于运行详情中也包含了应用ID,因此可以基于应用ID将运行详情和任务执行单元的信息整合到一起。从而,管理员可以基于访问接口访问mysql获得更详细的运行信息。
可以理解,虽然上述描述多结合kubernetes架构,但是即使不采用kubernetes架构,也可以构建上述监控模块。
图4是根据本发明实施例的分布式管理方法的流程图。具体包括以下步骤。
在步骤S101中,发送多个任务请求。
在步骤S102中,根据多个任务请求操作多个任务执行单元。
在步骤S103中,获得多个任务执行单元的操作信息,并据此获得多个任务执行单元的状态信息及多个应用的状态信息。
在步骤S104中,采用第一存储单元存储多个任务执行单元的状态信息和多个应用的状态信息。
具体而言,当一个应用被分成多个任务请求时,任务请求中包含的应用ID确定每个任务归属的应用。根据任务请求操作任务执行单元。任务执行单元是任务的执行载体,用于完成规定的操作。任务执行单元中也包含应用ID。如此,保持了应用和任务执行单元的对应关系,可以通过侦听任务执行单元的操作信息,获得任务执行单元的状态信息和应用的状态信息并进行存储。
在一个可选的实施例中,上述分布式管理方法还包括:发送信息检索请求,并接收多个任务执行单元返回的运行详情。运行详情可以存储在第二存储单元。第一存储单元例如为内存表一般只存储任务执行单元的实时状态信息,第二存储单元例如为mysql表存储任务执行单元的信息运行信息。
在一个可选的实施例中,上述分布式管理方法还包括接收输入参数,并根据输入参数检索第一存储单元和/或第二存储单元输出返回的数据。
图5是根据本发明实施例的分布式管理装置的结构图。图5示出的设备仅仅是一个示例,不应对本发明实施例的功能和使用范围构成任何限制。
参考图5,该分布式管理装置包括通过总线连接的处理器501、存储器502和输入输出设备503。存储器502包括只读存储器(ROM)和随机访问存储器(RAM),存储器502内存储有执行系统功能所需的各种计算机指令和数据,处理器501从存储器502中读取各种计算机指令以执行各种适当的动作和处理。输入输出设备包括键盘、鼠标等的输入部分;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。存储器502还存储有以下的计算机指令以完成本发明实施例的分布式管理方法规定的操作:发送多个任务请求,所述多个任务请求分别归属于不同的应用;根据所述多个任务请求操作多个任务执行单元,所述多个任务执行单元各自包含其归属的应用ID;获得所述多个任务执行单元的操作信息,并据此获得所述多个任务执行单元的状态信息及多个应用的状态信息;以及采用第一存储单元存储所述多个任务执行单元的状态信息和多个应用的状态信息。
相应地,本发明实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,所述计算机指令被执行时实现上述分布式管理方法所规定的操作。
附图中的流程图、框图图示了本发明实施例的系统、方法、装置的可能的体系框架、功能和操作,流程图和框图上的方框可以代表一个模块、程序段或仅仅是一段代码,所述模块、程序段和代码都是用来实现规定逻辑功能的可执行指令。也应当注意,所述实现规定逻辑功能的可执行指令可以重新组合,从而生成新的模块和程序段。因此附图的方框以及方框顺序只是用来更好的图示实施例的过程和步骤,而不应以此作为对发明本身的限制。
系统的各个模块或单元可以通过硬件、固件或软件实现。软件例如包括采用JAVA、C/C++/C#、SQL等各种编程语言形成的编码程序。虽然在方法以及方法图例中给出本发明实施例的步骤以及步骤的顺序,但是所述步骤实现规定的逻辑功能的可执行指令可以重新组合,从而生成新的步骤。所述步骤的顺序也不应该仅仅局限于所述方法以及方法图例中的步骤顺序,可以根据功能的需要随时进行调整。例如将其中的某些步骤并行或按照相反顺序执行。
根据本发明的系统和方法可以部署在单个或多个服务器上。例如,可以将不同的模块分别部署在不同的服务器上,形成专用服务器。或者,可以在多个服务器上分布式部署相同的功能单元、模块或系统,以减轻负载压力。所述服务器包括但不限于在同一个局域网以及通过Internet连接的多个PC机、PC服务器、刀片机、超级计算机等。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (20)

1.一种分布式管理系统,其特征在于,包括:
驱动模块,用于根据应用发送多个任务请求,所述多个任务请求各自包含其归属的应用ID;
应用服务模块,用于根据所述多个任务请求操作多个任务执行单元,所述多个任务执行单元各自包含其归属的应用ID;
监控模块,用于侦听所述应用服务模块以获得所述多个任务执行单元的操作信息,解析所述操作信息以获得所述多个任务执行单元的状态信息,并根据所述多个任务执行单元的状态信息得到其归属的应用的状态信息;
第一存储单元,用于存储所述多个任务执行单元的状态信息和多个应用的状态信息。
2.根据权利要求1所述的分布式管理系统,其特征在于,所述任务请求为任务创建请求、任务删除请求和任务修改请求中的一个。
3.根据权利要求1所述的分布式管理系统,其特征在于,所述驱动模块向所述多个任务执行单元发送信息检索请求,并接收所述多个任务执行单元返回的运行详情。
4.根据权利要求3所述的分布式管理系统,其特征在于,所述任务请求还包括IP地址和端口,所述驱动模块根据所述IP地址和端口存储所述运行详情。
5.根据权利要求4所述的分布式管理系统,其特征在于,所述监控模块还包括:根据所述IP地址和所述端口读取所述运行详情;
所述分布式管理系统还包括:第二存储单元,用于存储所述监控模块读取到的运行详情。
6.根据权利要求5所述的分布式管理系统,其特征在于,所述第一存储单元为内存表,所述第二存储单元为数据库表。
7.根据权利要求1所述的分布式管理系统,其特征在于,所述监控模块和所述应用服务模块之间建立长连接,基于所述长连接侦听所述应用服务模块以获得所述多个任务执行单元的操作信息。
8.根据权利要求5所述的分布式管理系统,其特征在于,所述分布式管理系统还包括:查询模块,用于接收输入参数,根据所述输入参数输出从所述第一存储单元和/或所述第二存储单元检索到的数据。
9.根据权利要求1所述的分布式管理系统,其特征在于,所述分布式管理系统基于Kubernetes架构构建,所述任务请求为spark应用的pod请求,所述任务执行单元执行相应的spark应用的pod。
10.一种分布式管理方法,其特征在于,包括:
发送多个任务请求,所述多个任务请求分别归属于不同的应用;
根据所述多个任务请求操作多个任务执行单元,所述多个任务执行单元各自包含其归属的应用ID;
侦听所述应用服务模块以获得所述多个任务执行单元的操作信息,解析所述操作信息以获得所述多个任务执行单元的状态信息,并根据所述多个任务执行单元的状态信息得到其归属的应用的状态信息;以及
采用第一存储单元存储所述多个任务执行单元的状态信息和多个应用的状态信息。
11.根据权利要求10所述的分布式管理方法,其特征在于, 所述任务请求为任务创建请求、任务删除请求和任务修改请求中的一个。
12.根据权利要求10所述的分布式管理方法,其特征在于,所述分布式管理方法还包括:
发送信息检索请求,并接收所述多个任务执行单元返回的运行详情。
13.根据权利要求12所述的分布式管理方法,其特征在于,所述任务请求还包括IP地址和端口,所述分布式管理方法还包括:根据所述IP地址和端口存储所述运行详情。
14.根据权利要求13所述的分布式管理方法,其特征在于,所述分布式管理方法还包括:根据所述IP地址和所述端口读取所述运行详情;以及采用第二存储单元存储所述运行详情。
15.根据权利要求14所述的分布式管理方法,其特征在于,所述第一存储单元为内存表,所述第二存储单元为数据库表。
16.根据权利要求14所述的分布式管理方法,其特征在于,所述分布式管理方法还包括:接收输入参数,并根据所述输入参数输出从所述第一存储单元和/或所述第二存储单元检索到的数据。
17.一种分布式管理系统,其特征在于,包括:管理节点和多个工作节点,
管理节点包括:
驱动模块,用于发送多个任务请求,多个任务请求各自包含其归属的应用ID;
应用服务模块,用于根据所述多个任务请求操作多个任务执行单元,所述多个任务执行单元各自包含其归属的应用ID;
监控模块,用于侦听所述应用服务模块以获得所述多个任务执行单元的操作信息,解析所述操作信息以获得所述多个任务执行单元的状态信息,并根据所述多个任务执行单元的状态信息得到其归属的应用的状态信息;
第一存储单元,用于存储所述多个任务执行单元的状态信息及多个应用的状态信息;
所述多个工作节点分别包括在其上执行的多个任务执行单元。
18.根据权利要求17所述的分布式管理系统,其特征在于,所述分布式管理系统基于Kubernetes架构构建,所述任务请求为spark应用的pod请求,所述任务执行单元执行相应的spark应用的pod。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被执行时实现如权利要求10至16任一项所述的分布式管理方法。
20.一种分布式管理装置,其特征在于,包括:
存储器,用于存储计算机指令;
处理器,耦合到所述存储器,所述处理器被配置为基于所述存储器存储的计算机指令执行实现如权利要求10至16任一项所述的分布式管理方法。
CN201810819161.1A 2018-07-24 2018-07-24 分布式管理方法、分布式管理系统及装置 Active CN109324892B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810819161.1A CN109324892B (zh) 2018-07-24 2018-07-24 分布式管理方法、分布式管理系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810819161.1A CN109324892B (zh) 2018-07-24 2018-07-24 分布式管理方法、分布式管理系统及装置

Publications (2)

Publication Number Publication Date
CN109324892A CN109324892A (zh) 2019-02-12
CN109324892B true CN109324892B (zh) 2021-01-26

Family

ID=65263948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810819161.1A Active CN109324892B (zh) 2018-07-24 2018-07-24 分布式管理方法、分布式管理系统及装置

Country Status (1)

Country Link
CN (1) CN109324892B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110515696A (zh) * 2019-08-09 2019-11-29 济南浪潮数据技术有限公司 信息监控方法及装置
CN110659109B (zh) * 2019-09-26 2023-07-04 上海仪电(集团)有限公司中央研究院 一种openstack集群虚拟机监控系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103019854A (zh) * 2012-11-20 2013-04-03 北京思特奇信息技术股份有限公司 一种分布式的动态进程管理方法及系统
CN103207806A (zh) * 2012-01-12 2013-07-17 阿里巴巴集团控股有限公司 一种发送消息的方法及其系统
CN103677973A (zh) * 2013-09-01 2014-03-26 西安重装渭南光电科技有限公司 一种分布式多任务调度管理系统
CN103902646A (zh) * 2013-12-27 2014-07-02 北京天融信软件有限公司 一种分布式任务管理系统与方法
CN106959887A (zh) * 2017-02-16 2017-07-18 上海瀚银信息技术有限公司 一种分布式程序的业务流程协作系统及方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090157445A1 (en) * 2007-12-14 2009-06-18 Morinville Paul V Automated Execution of Business Processes Using Two Stage State
CN103019651B (zh) * 2012-08-02 2016-06-29 青岛海信传媒网络技术有限公司 复杂任务的并行处理方法和装置
JP2015079431A (ja) * 2013-10-18 2015-04-23 株式会社日立製作所 業務システム連携装置およびその連携方法
CN106656557A (zh) * 2016-10-31 2017-05-10 网易(杭州)网络有限公司 业务状态处理方法和装置
CN106953910A (zh) * 2017-03-17 2017-07-14 郑州云海信息技术有限公司 一种Hadoop计算存储分离方法
CN107943555B (zh) * 2017-10-17 2021-11-23 华南理工大学 一种云计算环境下的大数据存储和处理平台及处理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207806A (zh) * 2012-01-12 2013-07-17 阿里巴巴集团控股有限公司 一种发送消息的方法及其系统
CN103019854A (zh) * 2012-11-20 2013-04-03 北京思特奇信息技术股份有限公司 一种分布式的动态进程管理方法及系统
CN103677973A (zh) * 2013-09-01 2014-03-26 西安重装渭南光电科技有限公司 一种分布式多任务调度管理系统
CN103902646A (zh) * 2013-12-27 2014-07-02 北京天融信软件有限公司 一种分布式任务管理系统与方法
CN106959887A (zh) * 2017-02-16 2017-07-18 上海瀚银信息技术有限公司 一种分布式程序的业务流程协作系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Kubemetes的大数据流式计算Spark平台设计与实现;杜威科;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180215(第2期);第I139-280页 *

Also Published As

Publication number Publication date
CN109324892A (zh) 2019-02-12

Similar Documents

Publication Publication Date Title
US10747569B2 (en) Systems and methods of discovering and traversing coexisting topologies
US11314758B2 (en) Storing and querying metrics data using a metric-series index
US7552447B2 (en) System and method for using root cause analysis to generate a representation of resource dependencies
US11132356B2 (en) Optimizing data entries in a log
US7251588B2 (en) System for metric introspection in monitoring sources
WO2019200984A1 (zh) 分布式应用的生命周期管理方法、管理器、设备和介质
US20190138375A1 (en) Optimization of message oriented middleware monitoring in heterogenenous computing environments
US10951509B1 (en) Methods, systems, and computer readable media for providing intent-driven microapps for execution on communications network testing devices
US20170126580A1 (en) Tracking Contention in a Distributed Business Transaction
EP3616061B1 (en) Hyper dynamic java management extension
CN113760677A (zh) 异常链路分析方法、装置、设备及存储介质
CN109324892B (zh) 分布式管理方法、分布式管理系统及装置
US10474509B1 (en) Computing resource monitoring and alerting system
US8341254B2 (en) Middleware-driven server discovery
US9032014B2 (en) Diagnostics agents for managed computing solutions hosted in adaptive environments
US11379256B1 (en) Distributed monitoring agent deployed at remote site
CN112765246A (zh) 任务处理方法、装置、电子设备和存储介质
KR20170122874A (ko) 데이터 분산 서비스 기반의 응용 시스템의 통합 로그 관리 장치
CN111698109A (zh) 监控日志的方法和装置
CN114816914A (zh) 基于Kubernetes的数据处理方法、设备及介质
US20090172012A1 (en) Methodology to derive enterprise relationships for generating a topology view in a SOA environment
EP4024761A1 (en) Communication method and apparatus for multiple management domains
US11223534B2 (en) Systems and methods for hub and spoke cross topology traversal
CN110764882A (zh) 分布式管理方法、分布式管理系统及装置
US20120150898A1 (en) Dynamic Collection Of System Support Files In A Data Processing Environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant