CN111008026A - 集群管理方法、装置及系统 - Google Patents
集群管理方法、装置及系统 Download PDFInfo
- Publication number
- CN111008026A CN111008026A CN201811168317.0A CN201811168317A CN111008026A CN 111008026 A CN111008026 A CN 111008026A CN 201811168317 A CN201811168317 A CN 201811168317A CN 111008026 A CN111008026 A CN 111008026A
- Authority
- CN
- China
- Prior art keywords
- distributed consistency
- host
- consistency system
- cluster
- decision information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007726 management method Methods 0.000 title claims abstract description 91
- 238000012423 maintenance Methods 0.000 claims abstract description 92
- 238000012545 processing Methods 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000012544 monitoring process Methods 0.000 claims description 51
- 230000015654 memory Effects 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 13
- 230000005540 biological transmission Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013515 script Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0803—Configuration setting
- H04L41/0813—Configuration setting characterised by the conditions triggering a change of settings
- H04L41/082—Configuration setting characterised by the conditions triggering a change of settings the condition being updates or upgrades of network functionality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/60—Software deployment
- G06F8/65—Updates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/4401—Bootstrapping
- G06F9/4411—Configuring for operating with peripheral devices; Loading of device drivers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0604—Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
- H04L41/0627—Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time by acting on the notification or alarm source
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/085—Retrieval of network configuration; Tracking network configuration history
- H04L41/0853—Retrieval of network configuration; Tracking network configuration history by actively collecting configuration information or by backing up configuration information
- H04L41/0856—Retrieval of network configuration; Tracking network configuration history by actively collecting configuration information or by backing up configuration information by backing up or archiving configuration information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/085—Retrieval of network configuration; Tracking network configuration history
- H04L41/0859—Retrieval of network configuration; Tracking network configuration history by keeping history of different configuration generations or by rolling back to previous configuration versions
- H04L41/0863—Retrieval of network configuration; Tracking network configuration history by keeping history of different configuration generations or by rolling back to previous configuration versions by rolling back to previous configuration versions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0866—Checking the configuration
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
- H04L43/0817—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0823—Errors, e.g. transmission errors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0803—Configuration setting
- H04L41/0823—Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
- H04L41/0836—Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability to enhance reliability, e.g. reduce downtime
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0876—Aspects of the degree of configuration automation
- H04L41/0886—Fully automatic configuration
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/22—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks comprising specially adapted graphical user interfaces [GUI]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
Abstract
本申请公开了一种集群管理方法、装置及系统。其中,该方法包括:获取集群中的分布式一致性系统发出的操作请求;确定对上述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。本申请解决了由于分布式一致性系统的集群管理方式人为操作的出错率较高,导致分布式一致性系统的数据丢失或者服务的终止的技术问题。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种集群管理方法、装置及系统。
背景技术
在分布式一致性系统中,针对经常性的版本发布、配置变更以及主机替换等运维,需要一个良好的自主化运维决策系统来进行流程控制,并保证系统的服务正常和数据的安全性问题。在大规模云计算场景下,为了更好地管理分布式一致性系统的自主化运维,需要一个统一的运维调度平台,而且需要与分布式一致性系统协调交互实现其自主服务。
但是,目前业界分布式一致性系统的主要运维方式仍是分布式一致性系统的研发者针对这些运维操作编写众多的脚本供运维人员使用,在执行这些操作时均通过运维人员执行相应的脚本。现有的实现方式容易出错,而且还需要运维人员花费大量的时间熟练掌握脚本数据,以防操作出错导致数据丢失或者服务的终止。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种集群管理方法、装置及系统,以至少解决由于分布式一致性系统的集群管理方式人为操作的出错率较高,导致分布式一致性系统的数据丢失或者服务的终止的技术问题。
根据本申请实施例的一个方面,提供了一种集群管理系统,包括:运维管控平台,用于向集群中的分布式一致性系统发出操作请求以及展示上述分布式一致性系统的运行状态;决策模块,与上述运维管控平台连接,用于确定对上述操作请求进行处理的决策信息,将该决策信息发送至上述运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
根据本申请实施例的另一方面,还提供了一种集群管理方法,包括:获取集群中的分布式一致性系统发出的操作请求;确定对上述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
根据本申请实施例的另一方面,还提供了一种集群管理装置,包括:获取模块,用于获取集群中的分布式一致性系统发出的操作请求;处理模块,用于确定对上述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
根据本申请实施例的另一方面,还提供了一种存储介质,上述存储介质包括存储的程序,其中,在上述程序运行时控制上述存储介质所在设备执行任意一项上述的集群管理方法。
根据本申请实施例的另一方面,还提供了一种计算机系统,包括:处理器;以及存储器,与上述处理器连接,用于为上述处理器提供处理以下处理步骤的指令:获取集群中的分布式一致性系统发出的操作请求;确定对上述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
在本申请实施例中,通过获取集群中的分布式一致性系统发出的操作请求;确定对上述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
基于本申请实施例,达到了通过分布式一致性系统中的决策模块来保证服务程序的可用性以及数据的安全性的目的,从而实现了提高分布式一致性系统的集群管理效率,避免分布式一致性系统的数据丢失或者服务的终止的技术效果,进而解决了由于分布式一致性系统的集群管理方式人为操作的出错率较高,导致分布式一致性系统的数据丢失或者服务的终止的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种集群管理系统的示意图;
图2是根据本申请实施例的一种可选的集群管理系统的示意图;
图3是根据本申请实施例的一种用于实现集群管理方法的计算机终端(或移动设备)的硬件结构框图;
图4是根据本申请实施例的一种集群管理方法的流程图;
图5是根据本申请实施例的一种可选的集群管理方法的流程图;
图6是根据本申请实施例的一种集群管理装置的示意图;以及
图7是根据本申请实施例的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
服务端集合(Quorum):即分布式一致性系统服务端集合,每个服务端集合均维护着分布式一致性系统的内存数据库,以及持久化存储的事务日志信息与快照数据。
集群(Cluster):云计算场景下的系统服务部署按照集群划分,集群中有一定数量的主机,主机上部署着系统和产品。
主机名(HostName):是指一个逻辑的主机名称,是唯一的主机名称。
服务角色(Server role):又称为组件模块,分布式一致性系统中存在着很多的组件模块,每个组件模块需要通过相关协议协调处理用户的请求。
监控模块(Monitor):用于监控分布式一致性系统的服务角色的健康状况。
决策模块(Decider):用于处理运维人员针对分布式一致性系统的一系列操作,这些操作是需要系统的决策,系统来确认这些操作是否可以进行,什么时候可以开始进行等,其可以为运行于主机上的软件从程序,也可以为用于实现上述决策功能的主机。
监控平台(MonPF):用于展示从主机上收集的基础监控与分布式一致性系统的监控展示页面。
运维管控平台(OMCP):供运维人员使用,通过使用该平台运维人员可以操作分布式一致性系统的升级,主机替换等运维操作。
实施例1
根据本申请实施例,提供了如图1所示的一种集群管理系统的实施例,图1是根据本申请实施例的一种集群管理系统的示意图,如图1所示,上述集群管理系统100包括:运维管控平台101和决策模块103,其中:
运维管控平台101,用于向集群中的分布式一致性系统发出操作请求以及展示上述分布式一致性系统的运行状态;决策模块103,与上述运维管控平台101连接,用于确定对上述操作请求进行处理的决策信息,将该决策信息发送至上述运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
可选的,上述运维管控平台(OMCP)是一个基础的部署运维操作集成平台,运维人员可以通过该运维管控平台对集群中的系统发出操作请求,以及向运维人员展示上述分布式一致性系统的运行状态,例如,向运维人员展示分布式一致性系统执行上述操作请求后的页面展示图。
在本申请的一些实施例中,上述操作请求可以用于请求升级分布式一致性系统的版本、升级分布式一致性系统的配置信息、重启分布式一致性系统服务器等。
需要说明的是,本申请实施例上述运维管控平台还可以通过Web页面,向运维人员展示集群中分布式一致性系统的监控状态以及各种升级阶段的状态。
在一种可选的实施中,在云计算场景下,以集群为单位部署整套分布式一致性系统对外使用,并作为一个管理的维度,为了更好地实现集群下分布式一致性的自主服务,本申请实施例中可以将集群的属性细粒度化,分为三元组<Cluster,HostName,Serverrole>,进而可以更好的对集群进行区分,通过划分属性之后可以设计出具体的API接口来操作分布式一致性系统。
需要明确的是,集群里面有多少个主机,则每个主机上部署了多少个服务角色。
在上述可选的实施例中,上述决策模块通过使用运维管控平台提供的API接口,周期轮询运维管控平台,可选的,上述轮询的间隔可以为分钟级别。进而,运维管控平台会返回给决策模块操作请求,例如,当前有哪些操作需要审批,有哪些操作已经审批,有哪些操作正在进行等。
进而,上述决策模块根据运维管控平台返回的操作请求,基于上述分布式一致性系统的数据一致性和可用性,确定对上述操作请求进行处理的决策信息,并通过API接口将决策信息返回给运维管控平台,以便于运维管控平台根据决策信息进行相应的处理。
在本申请实施例中,通过获取集群中的分布式一致性系统发出的操作请求;确定对上述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
基于本申请实施例,达到了通过分布式一致性系统中的决策模块来保证服务程序的可用性以及数据的安全性的目的,从而实现了提高分布式一致性系统的集群管理效率,避免分布式一致性系统的数据丢失或者服务的终止的技术效果,进而解决了由于分布式一致性系统的集群管理方式人为操作的出错率较高,导致分布式一致性系统的数据丢失或者服务的终止的技术问题。
在一种可选的实施例中,如图2所示,上述系统还包括:监控模块105,位于上述集群中的主机上,用于采集上述分布式一致性系统中作为服务角色的组件模块的监控数据,其中,上述服务角色为上述集群的各个主机中协调处理用户请求的模块;监控平台107,用于收集上述监控模块采集的上述监控数据,并展示上述监控数据。
需要说明的是,由于分布式一致性系统运行环境复杂,需要监控主机与分布式一致性系统的基础指标(例如,磁盘空间大小,磁盘使用率,主机和系统的内存消耗,网络带宽占比等),还需要监控分布式一致性系统的服务可用性(例如,分布式一致性系统的服务器是否正常工作,服务器运行中的每秒请求数等)。
在本申请实施例中,分布式一致性系统通过设置于集群中的主机上的监控模块,可以实现上述监控功能,采集上述分布式一致性系统中作为服务角色的组件模块的监控数据,然后通过监控平台(例如,MonPE监控平台)收集上述监控模块采集的上述监控数据,并且,上述监控平台可以展示上述监控数据。
此外,在本申请实施例中,通过上述监控模块采集上述分布式一致性系统中作为服务角色的组件模块的监控数据,还可以将上述监控数据接入相关数据分析平台,例如:开源的大数据分析处理系统(Spark)进行日志分析,进而可以进行故障辅助诊断、工作负载自动分析。
在一本申请的一些实施例中,上述监控平台107,还用于依据上述监控数据产生告警信息,并将上述告警信息发送至用户侧设备。
例如,上述监控平台在依据上述监控数据产生告警信息之后,可以对接短信电话平台向运维人员或系统开发人员输出告警信息进行提示,还可以展示分布式一致性系统一段时间的监控指标展示图,等等。
作为一种可选的实施例,上述监控平台作为一个全局的监控平台,针对集群中的分布式一致性系统提供了汇报监控状况的API接口,分布式一致性系统通过提供监控模块(监控程序),采集上述分布式一致性系统中作为服务角色的组件模块的监控数据(例如,各种监控指标、健康参数),并调用监控平台提供的API接口向监控平台汇报上述监控数据,进而,监控平台可以向运维人员或系统开发人员实时了解现在集群中分布式一致性系统的状况,并针对异常情况进行快速响应处理。
需要说明的是,上述API接口可以为如下至少之一:第一API接口是由运维人员操作运维管控平台发起的对分布式一致性系统所需要发起的操作行为的接口,第二API接口是分布式一致性系统接收到运维管控平台发来的决策时,需要给予回应的接口。
其中,第一API接口用于获取集群中服务角色的决策信息;第一API接口的名称为:GetMachineSRActionInfoFor决策模块;第一API接口的参数列表可以为:
>cluster:必选
>serverrole:必选
第一API接口的返回值可以为:
>err_code:运维管控平台定义的标准错误码。
>err_msg:运维管控平台定义的标准错误信息,和错误码对应。
第一API接口的返回结果是一个JSON(JavaScript Object Notation)。
其中,第二API接口用于设置集群中服务角色的决策信息,第二API接口的名称:SetMachineSRActionInfoFor决策模块;第二API接口的参数列表可以为:
>cluster:必选
>decide_info:必选
第二API接口的返回值可以为:
>err_code:运维管控平台定义的标准错误码。
>err_msg:运维管控平台定义的标准错误信息,和错误码对应。
>data:操作成功的主机的ServerRole列表。
第二API接口的返回结果为data数据。
在一种可选的实施例中,上述决策模块,还用于确定上述操作请求对应的操作类型;确定执行上述操作类型对应的操作的决策信息,该决策信息为基于上述分布式一致性系统的可用性条件和安全性条件确定的。
可选的,上述操作类型可以用于表征依据哪一主机进行操作。其中,上述决策信息包括以下之一:允许执行上述操作类型对应的操作、取消执行上述操作类型对应的操作。
在一种可选的实施例中,上述决策模块,还用于在上述操作类型为对上述分布式一致性系统的配置信息进行升级时,确定允许执行上述操作请求所对应的操作。
需要说明的是,在分布式一致性系统中,由于一些配置信息是全局配置模板管理的,因而当需要修改某些配置信息,不需要修改代码,只需要修改全局配置模板里面的参数即可,然后统一升级分布式一致性系统的配置信息,分布式一致性系统感知到配置信息的变化并获取新的配置信息。
在一种可选的实施例中,若运维人员通过运维管控平台针对某一个集群中的分布式一致性系统,发起升级配置信息的操作请求,则分布式一致性系统可以获取与该操作请求对应的决策信息。针对分布式一致性系统的配置信息的升级情况,分布式一致性系统的进程是不需要重启的,由于没有导致不可用时间,以及不影响磁盘中数据安全性,因而,可以直接调用运维管控平台提供的API接口:SetMachineSRActionInfoFor;决策模块直接回应允许执行上述操作请求所对应的操作的信息即可,进而可以直接批准配置信息升级的操作。
在一种可选的实施例中,上述决策模块,还用于在上述操作类型为对上述分布式一致性系统中的服务进行升级时,从上述集群中选择其中一个主机进行升级,并且在从上述集群中选择其中一个主机进行升级之前,判断对选择的主机进行升级之前的上一个主机的服务是否满足可用性条件,并在上述服务满足可用性条件时确定对选择的主机进行升级。
在升级分布式一致性系统中的服务时,可以重启分布式一致性系统的服务(即,服务程序),并且,由于在升级分布式一致性系统中的服务时,需要短暂影响分布式一致性系统服务的不可用时间。因此,决策模块在获取到运维管控平台发起的升级分布式一致性系统的服务的操作请求时,需要对选择的主机进行升级之前的上一个主机的服务是否满足可用性条件,例如,分布式一致性系统的服务端集合Quorum中的服务可用性,采取服务端集合Quorum中每次只有一台主机中的服务升级的升级顺序,并且,再每次选择升级一台主机的服务时,需要确保选择的主机进行升级之前的上一个主机的服务是满足可用性条件的,并在上述服务满足可用性条件时确定对选择的主机进行升级。
在一种可选的实施例中,上述决策模块,还用于在上述操作类型为替换分布式一致性系统部署的主机时,获取新增加主机的编号;建立上述新增加主机的编号和上述分布式一致性系统中未被替换的主机的编号之间的关联,以组成新的分布式一致性系统。
由于在云计算场景下,采用的都是普通的服务器,因此,每年面临着大量的主机过保或者坏掉的情况,需要替换主机并重新在新的主机上部署分布式一致性系统的服务程序。
在上述可选的实施例中,当服务端集合Quorum中某一台主机宕机时,服务端集合Quorum中可用的分布式一致性系统就会少一个服务程序,因此,需要在新的一台主机上部署服务程序。
假设服务端集合中有三台主机,且每台主机上都部署了分布式一致性系统的服务程序,三台主机中每台主机上针对分布式一致性系统有个固定的编号,例如,可以为1,2,3。在编号为3的这台主机宕机需要替换时,可以通过修改分布式一致性系统的协议,确定新增加的编号为4的主机与之前编号为1,2的主机,仍可以组成了分布式一致性系统中的一个服务端集合。
需要说明的是,由于之前编号为1,2的主机并不知晓新增加的编号为4的主机,因而,新增加的编号为4的主机是无法直接与之前编号为1,2的主机组成一个服务端集合的,需要保证在替换主机时,服务程序可以自主地将1,2,4组成一个新的服务端集合,进而可以真正地做到替换主机的自主服务。
在一种可选的实施例中,上述决策模块,还用于在上述操作类型为替换分布式一致性系统中指定主机使用的磁盘时,停止上述分布式一致性系统的对外服务;从上述分布式一致性系统中的其他主机中获取日志信息和快照数据;并在将上述日志信息和快照数据存储至新增加的磁盘后,恢复对外服务。
在本申请实施例中,分布式一致性系统可以持久化事务性地请求日志信息和快照数据,因此需要涉及到对主机磁盘的读写操作,并且由于主机的磁盘损坏率很高,经常遇到分布式一致性系统程序的IO故障,表明磁盘已经损坏或者已经过保。
因此,需要在监控模块监控到的磁盘损坏报警之后,由运维人员通过运维管控平台发起替换主机磁盘的请求至分布式一致性系统的决策模块,决策模块在接收到运维管控平台发来的替换主机磁盘的请求之后,需要先处理数据的安全性问题,例如,若之前分布式一致性系统的存储日志与快照的磁盘位置是/dfs/disk1,分布式一致性系统的服务程序在遇到第一磁盘disk1发生IO故障的情况下进行服务降级,停止上述分布式一致性系统的对外服务,并在在新增加的第二磁盘的磁盘位置/dfs/disk2上恢复数据,并从服务端集合中的其他主机中获取所有的日志信息与快照数据,当数据恢复之后开始对外服务。
实施例2
根据本申请实施例,还提供了一种集群管理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图3示出了一种用于实现集群管理方法的计算机终端(或移动设备)的硬件结构框图,如图3所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图3所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图3中所示更多或者更少的组件,或者具有与图3所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本申请实施例中的集群管理对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的集群管理方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
在上述运行环境下,本申请提供了如图4所示的一种集群管理方法,图4是根据本申请实施例的一种集群管理方法的流程图,如图4所示,上述方法包括以下步骤:
步骤S402,获取集群中的分布式一致性系统发出的操作请求;
步骤S404,确定对上述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
可选的,上述运维管控平台(OMCP)是一个基础的部署运维操作集成平台,运维人员可以通过该运维管控平台对集群中的系统发出操作请求,以及向运维人员展示上述分布式一致性系统的运行状态,例如,向运维人员展示分布式一致性系统执行上述操作请求后的页面展示图。
在一种可选的实施例,上述操作请求可以用于请求升级分布式一致性系统的版本、升级分布式一致性系统的配置信息、重启分布式一致性系统服务器等。
需要说明的是,本申请实施例上述运维管控平台还可以通过Web页面,向运维人员展示集群中分布式一致性系统的监控状态以及各种升级阶段的状态。
在一种可选的实施中,在云计算场景下,以集群为单位部署整套分布式一致性系统对外使用,并作为一个管理的维度,为了更好地实现集群下分布式一致性的自主服务,本申请实施例中可以将集群的属性细粒度化,分为三元组<Cluster,HostName,Serverrole>,进而可以更好的对集群进行区分,通过划分属性之后可以设计出具体的API接口来操作分布式一致性系统,还可以明确集群里面有多少个主机,每个主机上部署了多少个服务角色。
在上述可选的实施例中,上述决策模块通过使用运维管控平台提供的API接口,周期轮询运维管控平台,可选的,上述轮询的间隔可以为分钟级别。进而,运维管控平台会返回给决策模块操作请求,例如,当前有哪些操作需要审批,有哪些操作已经审批,有哪些操作正在进行等。
进而,上述决策模块根据运维管控平台返回的操作请求,基于上述分布式一致性系统的数据一致性和可用性,确定对上述操作请求进行处理的决策信息,并通过API接口将决策信息返回给运维管控平台,以便于运维管控平台根据决策信息进行相应的处理。
在本申请实施例中,通过获取集群中的分布式一致性系统发出的操作请求;确定对上述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
基于本申请实施例,达到了通过分布式一致性系统中的决策模块来保证服务程序的可用性以及数据的安全性的目的,从而实现了提高分布式一致性系统的集群管理效率,避免分布式一致性系统的数据丢失或者服务的终止的技术效果,进而解决了由于分布式一致性系统的集群管理方式人为操作的出错率较高,导致分布式一致性系统的数据丢失或者服务的终止的技术问题。
在一种可选的实施例中,图5是根据本申请实施例的一种可选的集群管理方法的流程图,如图5所示,确定对上述操作请求进行处理的决策信息包括:
步骤S502,确定上述操作请求对应的操作类型;
步骤S504,确定执行上述操作类型对应的操作的决策信息,该决策信息为基于上述分布式一致性系统的可用性条件和安全性条件确定的。
可选的,上述操作类型可以用于表征依据哪一主机进行操作。其中,上述决策信息包括以下之一:允许执行上述操作类型对应的操作、取消执行上述操作类型对应的操作。
作为一种可选的实施例,上述确定执行上述操作类型对应的操作的决策信息,包括:在上述操作类型为对上述分布式一致性系统的配置信息进行升级时,确定允许执行上述操作请求所对应的操作。
需要说明的是,在分布式一致性系统中,由于一些配置信息是全局配置模板管理的,因而当需要修改某些配置信息,不需要修改代码,只需要修改全局配置模板里面的参数即可,然后统一升级分布式一致性系统的配置信息,分布式一致性系统感知到配置信息的变化并获取新的配置信息。
在一种可选的实施例中,若运维人员通过运维管控平台针对某一个集群中的分布式一致性系统,发起升级配置信息的操作请求,则分布式一致性系统可以获取与该操作请求对应的决策信息。针对分布式一致性系统的配置信息的升级情况,分布式一致性系统的进程是不需要重启的,由于没有导致不可用时间,以及不影响磁盘中数据安全性,因而,可以直接调用运维管控平台提供的API接口:SetMachineSRActionInfoFor;决策模块直接回应允许执行上述操作请求所对应的操作的信息即可,进而可以直接批准配置信息升级的操作。
在另一种可选的实施例中,确定执行上述操作类型对应的操作的决策信息,包括:在上述操作类型为对上述分布式一致性系统中的服务进行升级时,从上述集群中选择其中一个主机进行升级,并且在从上述集群中选择其中一个主机进行升级之前,判断对选择的主机进行升级之前的上一个主机的服务是否满足可用性条件,并在上述服务满足可用性条件时确定对选择的主机进行升级。
在升级分布式一致性系统中的服务时,可以重启分布式一致性系统的服务(即,服务程序),并且,由于在升级分布式一致性系统中的服务时,需要短暂影响分布式一致性系统服务的不可用时间。因此,决策模块在获取到运维管控平台发起的升级分布式一致性系统的服务的操作请求时,需要对选择的主机进行升级之前的上一个主机的服务是否满足可用性条件,例如,分布式一致性系统的服务端集合Quorum中的服务可用性,采取服务端集合中每次只有一台主机中的服务升级的升级顺序,并且,再每次选择升级一台主机的服务时,需要确保选择的主机进行升级之前的上一个主机的服务是满足可用性条件的,并在上述服务满足可用性条件时确定对选择的主机进行升级。
在本申请实施例中,可选的,确定执行上述操作类型对应的操作的决策信息,包括:在上述操作类型为替换分布式一致性系统部署的主机时,获取新增加主机的编号;建立上述新增加主机的编号和上述分布式一致性系统中未被替换的主机的编号之间的关联,以组成新的分布式一致性系统。
由于在云计算场景下,采用的都是普通的服务器,因此,每年面临着大量的主机过保或者坏掉的情况,需要替换主机并重新在新的主机上部署分布式一致性系统的服务程序。
在上述可选的实施例中,当服务端集合中某一台主机宕机时,服务端集合中可用的分布式一致性系统就会少一个服务程序,因此,需要在新的一台主机上部署服务程序。
假设服务端集合中有三台主机,且每台主机上都部署了分布式一致性系统的服务程序,三台主机中每台主机上针对分布式一致性系统有个固定的编号,例如,可以为1,2,3。在编号为3的这台主机宕机需要替换时,可以通过修改分布式一致性系统的协议,确定新增加的编号为4的主机与之前编号为1,2的主机,仍可以组成了分布式一致性系统中的一个服务端集合。
需要说明的是,由于之前编号为1,2的主机并不知晓新增加的编号为4的主机,因而,新增加的编号为4的主机是无法直接与之前编号为1,2的主机组成一个服务端集合的,需要保证在替换主机时,服务程序可以自主地将1,2,4组成一个新的服务端集合,进而可以真正地做到替换主机的自主服务。
在本申请实施例中,还存在一种可选的实施例,确定执行上述操作类型对应的操作的决策信息,包括:在上述操作类型为替换分布式一致性系统中指定主机使用的磁盘时,停止上述分布式一致性系统的对外服务;从上述分布式一致性系统中的其他主机中获取日志信息和快照数据;并在将上述日志信息和快照数据存储至新增加的磁盘后,恢复对外服务。
在本申请实施例中,分布式一致性系统可以持久化事务性地请求日志信息和快照数据,因此需要涉及到对主机磁盘的读写操作,并且由于主机的磁盘损坏率很高,经常遇到分布式一致性系统程序的IO故障,表明磁盘已经损坏或者已经过保。
因此,需要在监控模块监控到的磁盘损坏报警之后,由运维人员通过运维管控平台发起替换主机磁盘的请求至分布式一致性系统的决策模块,决策模块在接收到运维管控平台发来的替换主机磁盘的请求之后,需要先处理数据的安全性问题,例如,若之前分布式一致性系统的存储日志与快照的磁盘位置是/dfs/disk1,分布式一致性系统的服务程序在遇到第一磁盘disk1发生IO故障的情况下进行服务降级,停止上述分布式一致性系统的对外服务,并在在新增加的第二磁盘的磁盘位置/dfs/disk2上恢复数据,并从服务端集合中的其他主机中获取所有的日志信息与快照数据,当数据恢复之后开始对外服务。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,此处不再赘述。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例上述的方法。
实施例3
根据本申请实施例,还提供了一种计算机系统的实施例,包括:处理器;以及存储器,与上述处理器连接,用于为上述处理器提供处理以下处理步骤的指令:获取集群中的分布式一致性系统发出的操作请求;确定对上述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
在本申请实施例中,通过获取集群中的分布式一致性系统发出的操作请求;确定对上述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
基于本申请实施例,达到了通过分布式一致性系统中的决策模块来保证服务程序的可用性以及数据的安全性的目的,从而实现了提高分布式一致性系统的集群管理效率,避免分布式一致性系统的数据丢失或者服务的终止的技术效果,进而解决了由于分布式一致性系统的集群管理方式人为操作的出错率较高,导致分布式一致性系统的数据丢失或者服务的终止的技术问题。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1、2中的相关描述,此处不再赘述。
实施例4
根据本申请实施例,还提供了一种用于实施上述集群管理方法的装置实施例,图6是根据本申请实施例的一种集群管理装置的示意图,如图6所示,该装置600包括:获取模块602和处理模块604,其中:
获取模块602,用于获取集群中的分布式一致性系统发出的操作请求;处理模块604,用于确定对上述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
此处需要说明的是,上述获取模块602和处理模块604对应于实施例2中的步骤S402至步骤S404,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例2所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例2提供的计算机终端10中。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1、2中的相关描述,此处不再赘述。
实施例5
根据本申请的实施例,还提供一种计算机终端的实施例,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行集群管理方法中以下步骤的程序代码:获取集群中的分布式一致性系统发出的操作请求;确定对上述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
可选地,图7是根据本申请实施例的一种计算机终端的结构框图,如图7所示,该计算机终端700可以包括:一个或多个(图中仅示出一个)处理器702、存储器704以及外设接口706。
其中,存储器可用于存储软件程序以及模块,如本申请实施例中的集群管理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的集群管理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端700。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取集群中的分布式一致性系统发出的操作请求;确定对上述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
可选的,上述处理器还可以执行如下步骤的程序代码:确定上述操作请求对应的操作类型;确定执行上述操作类型对应的操作的决策信息,该决策信息为基于上述分布式一致性系统的可用性条件和安全性条件确定的。
可选的,上述处理器还可以执行如下步骤的程序代码:在上述操作类型为对上述分布式一致性系统的配置信息进行升级时,确定允许执行上述操作请求所对应的操作。
可选的,上述处理器还可以执行如下步骤的程序代码:在上述操作类型为对上述分布式一致性系统中的服务进行升级时,从上述集群中选择其中一个主机进行升级,并且在从上述集群中选择其中一个主机进行升级之前,判断对选择的主机进行升级之前的上一个主机的服务是否满足可用性条件,并在上述服务满足可用性条件时确定对选择的主机进行升级。
可选的,上述处理器还可以执行如下步骤的程序代码:在上述操作类型为替换分布式一致性系统部署的主机时,获取新增加主机的编号;建立上述新增加主机的编号和上述分布式一致性系统中未被替换的主机的编号之间的关联,以组成新的分布式一致性系统。
可选的,上述处理器还可以执行如下步骤的程序代码:在上述操作类型为替换分布式一致性系统中指定主机使用的磁盘时,停止上述分布式一致性系统的对外服务;从上述分布式一致性系统中的其他主机中获取日志信息和快照数据;并在将上述日志信息和快照数据存储至新增加的磁盘后,恢复对外服务。
采用本申请实施例,提供了一种集群管理方案,通过获取集群中的分布式一致性系统发出的操作请求;确定对上述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
基于本申请实施例,达到了通过分布式一致性系统中的决策模块来保证服务程序的可用性以及数据的安全性的目的,从而实现了提高分布式一致性系统的集群管理效率,避免分布式一致性系统的数据丢失或者服务的终止的技术效果,进而解决了由于分布式一致性系统的集群管理方式人为操作的出错率较高,导致分布式一致性系统的数据丢失或者服务的终止的技术问题。
本领域普通技术人员可以理解,图7所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图7其并不对上述电子装置的结构造成限定。例如,计算机终端700还可包括比图7中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图7所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例6
根据本申请的实施例,还提供了一种存储介质的实施例,可选地,在本实施例中,上述存储介质可以用于保存上述实施例2所提供的集群管理方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取集群中的分布式一致性系统发出的操作请求;确定对上述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:确定上述操作请求对应的操作类型;确定执行上述操作类型对应的操作的决策信息,该决策信息为基于上述分布式一致性系统的可用性条件和安全性条件确定的。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在上述操作类型为对上述分布式一致性系统的配置信息进行升级时,确定允许执行上述操作请求所对应的操作。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在上述操作类型为对上述分布式一致性系统中的服务进行升级时,从上述集群中选择其中一个主机进行升级,并且在从上述集群中选择其中一个主机进行升级之前,判断对选择的主机进行升级之前的上一个主机的服务是否满足可用性条件,并在上述服务满足可用性条件时确定对选择的主机进行升级。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在上述操作类型为替换分布式一致性系统部署的主机时,获取新增加主机的编号;建立上述新增加主机的编号和上述分布式一致性系统中未被替换的主机的编号之间的关联,以组成新的分布式一致性系统。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在上述操作类型为替换分布式一致性系统中指定主机使用的磁盘时,停止上述分布式一致性系统的对外服务;从上述分布式一致性系统中的其他主机中获取日志信息和快照数据;并在将上述日志信息和快照数据存储至新增加的磁盘后,恢复对外服务。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (17)
1.一种集群管理系统,包括:
运维管控平台,用于向集群中的分布式一致性系统发出操作请求以及展示所述分布式一致性系统的运行状态;
决策模块,与所述运维管控平台连接,用于确定对所述操作请求进行处理的决策信息,将该决策信息发送至所述运维管控平台,其中,所述决策信息为基于所述分布式一致性系统的数据一致性和可用性确定的。
2.根据权利要求1所述的系统,其中,所述系统还包括:
监控模块,位于所述集群中的主机上,用于采集所述分布式一致性系统中作为服务角色的组件模块的监控数据,其中,所述服务角色为所述集群的各个主机中协调处理用户请求的模块;
监控平台,用于收集所述监控模块采集的所述监控数据,并展示所述监控数据。
3.根据权利要求2所述的系统,其中,所述监控平台,还用于依据所述监控数据产生告警信息,并将所述告警信息发送至用户侧设备。
4.根据权利要求1所述的系统,其中,所述决策模块,还用于确定所述操作请求对应的操作类型;确定执行所述操作类型对应的操作的决策信息,该决策信息为基于所述分布式一致性系统的可用性条件和安全性条件确定的。
5.根据权利要求4所述的系统,其中,所述决策模块,还用于在所述操作类型为对所述分布式一致性系统的配置信息进行升级时,确定允许执行所述操作请求所对应的操作。
6.根据权利要求4所述的系统,其中,所述决策模块,还用于在所述操作类型为对所述分布式一致性系统中的服务进行升级时,从所述集群中选择其中一个主机进行升级,并且在从所述集群中选择其中一个主机进行升级之前,判断对选择的主机进行升级之前的上一个主机的服务是否满足可用性条件,并在所述服务满足可用性条件时确定对选择的主机进行升级。
7.根据权利要求4所述的系统,其中,所述决策模块,还用于在所述操作类型为替换分布式一致性系统部署的主机时,获取新增加主机的编号;建立所述新增加主机的编号和所述分布式一致性系统中未被替换的主机的编号之间的关联,以组成新的分布式一致性系统。
8.根据权利要求4所述的系统,其中,所述决策模块,还用于在所述操作类型为替换分布式一致性系统中指定主机使用的磁盘时,停止所述分布式一致性系统的对外服务;从所述分布式一致性系统中的其他主机中获取日志信息和快照数据;并在将所述日志信息和快照数据存储至新增加的磁盘后,恢复对外服务。
9.一种集群管理方法,包括:
获取集群中的分布式一致性系统发出的操作请求;
确定对所述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,所述决策信息为基于所述分布式一致性系统的数据一致性和可用性确定的。
10.根据权利要求9所述的方法,其中,确定对所述操作请求进行处理的决策信息包括:
确定所述操作请求对应的操作类型;确定执行所述操作类型对应的操作的决策信息,该决策信息为基于所述分布式一致性系统的可用性条件和安全性条件确定的。
11.根据权利要求10所述的方法,其中,确定执行所述操作类型对应的操作的决策信息,包括:在所述操作类型为对所述分布式一致性系统的配置信息进行升级时,确定允许执行所述操作请求所对应的操作。
12.根据权利要求10所述的方法,其中,确定执行所述操作类型对应的操作的决策信息,包括:在所述操作类型为对所述分布式一致性系统中的服务进行升级时,从所述集群中选择其中一个主机进行升级,并且在从所述集群中选择其中一个主机进行升级之前,判断对选择的主机进行升级之前的上一个主机的服务是否满足可用性条件,并在所述服务满足可用性条件时确定对选择的主机进行升级。
13.根据权利要求10所述的方法,其中,确定执行所述操作类型对应的操作的决策信息,包括:在所述操作类型为替换分布式一致性系统部署的主机时,获取新增加主机的编号;建立所述新增加主机的编号和所述分布式一致性系统中未被替换的主机的编号之间的关联,以组成新的分布式一致性系统。
14.根据权利要求10所述的方法,其中,确定执行所述操作类型对应的操作的决策信息,包括:在所述操作类型为替换分布式一致性系统中指定主机使用的磁盘时,停止所述分布式一致性系统的对外服务;从所述分布式一致性系统中的其他主机中获取日志信息和快照数据;并在将所述日志信息和快照数据存储至新增加的磁盘后,恢复对外服务。
15.一种集群管理装置,包括:
获取模块,用于获取集群中的分布式一致性系统发出的操作请求;
处理模块,用于确定对所述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,所述决策信息为基于所述分布式一致性系统的数据一致性和可用性确定的。
16.一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求9至14中任意一项所述的集群管理方法。
17.一种计算机系统,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:
获取集群中的分布式一致性系统发出的操作请求;
确定对所述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,所述决策信息为基于所述分布式一致性系统的数据一致性和可用性确定的。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811168317.0A CN111008026B (zh) | 2018-10-08 | 2018-10-08 | 集群管理方法、装置及系统 |
PCT/CN2019/108367 WO2020073821A1 (zh) | 2018-10-08 | 2019-09-27 | 集群管理方法、装置及系统 |
EP19871446.1A EP3865998A4 (en) | 2018-10-08 | 2019-09-27 | CLUSTER MANAGEMENT METHOD, APPARATUS AND SYSTEM |
JP2021543554A JP7341244B2 (ja) | 2018-10-08 | 2019-09-27 | クラスタ管理方法、装置、およびシステム |
US17/224,874 US11438249B2 (en) | 2018-10-08 | 2021-04-07 | Cluster management method, apparatus and system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811168317.0A CN111008026B (zh) | 2018-10-08 | 2018-10-08 | 集群管理方法、装置及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111008026A true CN111008026A (zh) | 2020-04-14 |
CN111008026B CN111008026B (zh) | 2024-03-26 |
Family
ID=70111200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811168317.0A Active CN111008026B (zh) | 2018-10-08 | 2018-10-08 | 集群管理方法、装置及系统 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11438249B2 (zh) |
EP (1) | EP3865998A4 (zh) |
JP (1) | JP7341244B2 (zh) |
CN (1) | CN111008026B (zh) |
WO (1) | WO2020073821A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112202909A (zh) * | 2020-10-10 | 2021-01-08 | 上海威固信息技术股份有限公司 | 一种计算机存储系统在线升级方法及系统 |
CN114157674A (zh) * | 2020-08-17 | 2022-03-08 | 中移(上海)信息通信科技有限公司 | 无线通信方法、装置、系统、服务器以及介质 |
CN114666195A (zh) * | 2022-03-21 | 2022-06-24 | 江苏红网技术股份有限公司 | 一种多层次安全防护数据交换共享系统及其方法 |
CN115051838A (zh) * | 2022-05-24 | 2022-09-13 | 广州市迪士普音响科技有限公司 | 一种中控主机集群管控方法、装置、设备及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11595321B2 (en) * | 2021-07-06 | 2023-02-28 | Vmware, Inc. | Cluster capacity management for hyper converged infrastructure updates |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040254984A1 (en) * | 2003-06-12 | 2004-12-16 | Sun Microsystems, Inc | System and method for coordinating cluster serviceability updates over distributed consensus within a distributed data system cluster |
CN102571789A (zh) * | 2011-12-31 | 2012-07-11 | 复旦大学 | 一种增强soa可生存性的降级服务替换验证方法 |
CN103400226A (zh) * | 2013-07-31 | 2013-11-20 | 湖南省烟草公司永州市公司 | 一种烟草行业信息安全运维一体化应用平台系统 |
CN103647668A (zh) * | 2013-12-16 | 2014-03-19 | 上海证券交易所 | 一种高可用集群内主机群体决策系统及切换方法 |
CN103888287A (zh) * | 2013-12-18 | 2014-06-25 | 北京首都国际机场股份有限公司 | 信息系统一体化运维监控服务预警平台及其实现方法 |
US20150120931A1 (en) * | 2013-10-31 | 2015-04-30 | Vmware, Inc. | Automatic remediation in a distributed computer system with multiple clusters of host computers |
CN104683446A (zh) * | 2015-01-29 | 2015-06-03 | 广州杰赛科技股份有限公司 | 一种云存储集群节点服务状态实时监控方法和系统 |
CN105703940A (zh) * | 2015-12-10 | 2016-06-22 | 中国电力科学研究院 | 一种面向多级调度分布式并行计算的监控系统及监控方法 |
US20170115978A1 (en) * | 2015-10-26 | 2017-04-27 | Microsoft Technology Licensing, Llc | Monitored upgrades using health information |
CN107729214A (zh) * | 2017-10-13 | 2018-02-23 | 福建富士通信息软件有限公司 | 一种可视化的分布式系统实时监控运维方法及装置 |
CN108063787A (zh) * | 2017-06-26 | 2018-05-22 | 杭州沃趣科技股份有限公司 | 基于分布式一致性状态机实现双活架构的方法 |
CN108418697A (zh) * | 2017-02-09 | 2018-08-17 | 南京联成科技发展有限公司 | 一种智能化的安全运维服务云平台的实现架构 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2003217599A1 (en) | 2002-02-22 | 2003-09-09 | Bea Systems, Inc. | System and method for using a data replication service to manage a configuration repository |
US7392421B1 (en) | 2002-03-18 | 2008-06-24 | Symantec Operating Corporation | Framework for managing clustering and replication |
JP4701929B2 (ja) * | 2005-09-02 | 2011-06-15 | 株式会社日立製作所 | ブート構成変更方法、管理サーバ、及び計算機システム |
US20070168571A1 (en) * | 2005-11-02 | 2007-07-19 | Dell Products L.P. | System and method for automatic enforcement of firmware revisions in SCSI/SAS/FC systems |
US10180809B2 (en) * | 2006-05-17 | 2019-01-15 | Richard Fetik | Secure application acceleration system, methods and apparatus |
US7908448B1 (en) | 2007-01-30 | 2011-03-15 | American Megatrends, Inc. | Maintaining data consistency in mirrored cluster storage systems with write-back cache |
US8156164B2 (en) | 2007-07-11 | 2012-04-10 | International Business Machines Corporation | Concurrent directory update in a cluster file system |
CN101334797B (zh) | 2008-08-04 | 2010-06-02 | 中兴通讯股份有限公司 | 一种分布式文件系统及其数据块一致性管理的方法 |
US9461881B2 (en) * | 2011-09-30 | 2016-10-04 | Commvault Systems, Inc. | Migration of existing computing systems to cloud computing sites or virtual machines |
US20130138615A1 (en) | 2011-11-29 | 2013-05-30 | International Business Machines Corporation | Synchronizing updates across cluster filesystems |
US9742873B2 (en) * | 2012-11-29 | 2017-08-22 | International Business Machines Corporation | Adjustment to managed-infrastructure-as-a-service cloud standard |
US9407505B2 (en) | 2013-03-04 | 2016-08-02 | Amazon Technologies, Inc. | Configuration and verification by trusted provider |
EP2981892B1 (en) * | 2013-04-01 | 2020-05-06 | OC Acquisition LLC | Update management for a distributed computing system |
AU2015241457B2 (en) | 2014-03-31 | 2019-10-10 | Cirata, Inc. | Geographically-distributed file system using coordinated namespace replication |
US10235333B1 (en) | 2014-04-11 | 2019-03-19 | Twitter, Inc. | Managing consistency models in a distributed database |
US9836234B2 (en) * | 2014-06-04 | 2017-12-05 | Pure Storage, Inc. | Storage cluster |
US10353918B2 (en) * | 2014-11-07 | 2019-07-16 | Amobee, Inc. | High availability and disaster recovery in large-scale data warehouse |
US9823973B1 (en) | 2014-12-22 | 2017-11-21 | EMC IP Holding Company LLC | Creating consistent snapshots in a virtualized environment |
US10713275B2 (en) | 2015-07-02 | 2020-07-14 | Mongodb, Inc. | System and method for augmenting consensus election in a distributed database |
CN106470219A (zh) * | 2015-08-17 | 2017-03-01 | 阿里巴巴集团控股有限公司 | 计算机集群的扩容和缩容方法及设备 |
CN105119750B (zh) * | 2015-09-08 | 2019-04-19 | 南京联成科技发展股份有限公司 | 一种基于大数据的分布式信息安全运维管理平台系统 |
CN106933547B (zh) * | 2015-12-29 | 2020-12-01 | 阿里巴巴集团控股有限公司 | 全局信息获取及处理的方法、装置和更新系统 |
US10505793B2 (en) * | 2016-03-29 | 2019-12-10 | Fortinet, Inc. | Network appliance health monitor |
US9952767B2 (en) | 2016-04-29 | 2018-04-24 | Netapp, Inc. | Consistency group management |
US10382269B2 (en) * | 2016-05-26 | 2019-08-13 | Ricoh Company, Ltd. | Configuring devices using device management templates |
US10216540B2 (en) | 2016-11-28 | 2019-02-26 | Amazon Technologies, Inc. | Localized device coordinator with on-demand code execution capabilities |
US11150950B2 (en) * | 2016-12-01 | 2021-10-19 | Vmware, Inc. | Methods and apparatus to manage workload domains in virtual server racks |
US11016696B2 (en) * | 2018-09-14 | 2021-05-25 | Commvault Systems, Inc. | Redundant distributed data storage system |
-
2018
- 2018-10-08 CN CN201811168317.0A patent/CN111008026B/zh active Active
-
2019
- 2019-09-27 WO PCT/CN2019/108367 patent/WO2020073821A1/zh unknown
- 2019-09-27 EP EP19871446.1A patent/EP3865998A4/en active Pending
- 2019-09-27 JP JP2021543554A patent/JP7341244B2/ja active Active
-
2021
- 2021-04-07 US US17/224,874 patent/US11438249B2/en active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040254984A1 (en) * | 2003-06-12 | 2004-12-16 | Sun Microsystems, Inc | System and method for coordinating cluster serviceability updates over distributed consensus within a distributed data system cluster |
CN102571789A (zh) * | 2011-12-31 | 2012-07-11 | 复旦大学 | 一种增强soa可生存性的降级服务替换验证方法 |
CN103400226A (zh) * | 2013-07-31 | 2013-11-20 | 湖南省烟草公司永州市公司 | 一种烟草行业信息安全运维一体化应用平台系统 |
US20150120931A1 (en) * | 2013-10-31 | 2015-04-30 | Vmware, Inc. | Automatic remediation in a distributed computer system with multiple clusters of host computers |
CN103647668A (zh) * | 2013-12-16 | 2014-03-19 | 上海证券交易所 | 一种高可用集群内主机群体决策系统及切换方法 |
CN103888287A (zh) * | 2013-12-18 | 2014-06-25 | 北京首都国际机场股份有限公司 | 信息系统一体化运维监控服务预警平台及其实现方法 |
CN104683446A (zh) * | 2015-01-29 | 2015-06-03 | 广州杰赛科技股份有限公司 | 一种云存储集群节点服务状态实时监控方法和系统 |
US20170115978A1 (en) * | 2015-10-26 | 2017-04-27 | Microsoft Technology Licensing, Llc | Monitored upgrades using health information |
CN105703940A (zh) * | 2015-12-10 | 2016-06-22 | 中国电力科学研究院 | 一种面向多级调度分布式并行计算的监控系统及监控方法 |
CN108418697A (zh) * | 2017-02-09 | 2018-08-17 | 南京联成科技发展有限公司 | 一种智能化的安全运维服务云平台的实现架构 |
CN108063787A (zh) * | 2017-06-26 | 2018-05-22 | 杭州沃趣科技股份有限公司 | 基于分布式一致性状态机实现双活架构的方法 |
CN107729214A (zh) * | 2017-10-13 | 2018-02-23 | 福建富士通信息软件有限公司 | 一种可视化的分布式系统实时监控运维方法及装置 |
Non-Patent Citations (2)
Title |
---|
YUSEN LI ET AL: "Update schedules for improving consistency in multi-server distributed virtual systems", 《NETWORK AND COMPUTER APPLICATIONS》, vol. 41, 31 May 2014 (2014-05-31) * |
何军,田范江,王鼎兴: "一种机群网络文件系统的合作高速缓存技术", 计算机学报, no. 10, 12 October 1997 (1997-10-12) * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114157674A (zh) * | 2020-08-17 | 2022-03-08 | 中移(上海)信息通信科技有限公司 | 无线通信方法、装置、系统、服务器以及介质 |
CN112202909A (zh) * | 2020-10-10 | 2021-01-08 | 上海威固信息技术股份有限公司 | 一种计算机存储系统在线升级方法及系统 |
CN112202909B (zh) * | 2020-10-10 | 2021-06-04 | 上海威固信息技术股份有限公司 | 一种计算机存储系统在线升级方法及系统 |
CN114666195A (zh) * | 2022-03-21 | 2022-06-24 | 江苏红网技术股份有限公司 | 一种多层次安全防护数据交换共享系统及其方法 |
CN114666195B (zh) * | 2022-03-21 | 2022-09-16 | 江苏红网技术股份有限公司 | 一种多层次安全防护数据交换共享系统及其方法 |
CN115051838A (zh) * | 2022-05-24 | 2022-09-13 | 广州市迪士普音响科技有限公司 | 一种中控主机集群管控方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111008026B (zh) | 2024-03-26 |
EP3865998A1 (en) | 2021-08-18 |
JP2022509321A (ja) | 2022-01-20 |
EP3865998A4 (en) | 2022-06-22 |
WO2020073821A1 (zh) | 2020-04-16 |
US20210226871A1 (en) | 2021-07-22 |
JP7341244B2 (ja) | 2023-09-08 |
US11438249B2 (en) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111008026A (zh) | 集群管理方法、装置及系统 | |
US10592330B2 (en) | Systems and methods for automatic replacement and repair of communications network devices | |
US20220191719A1 (en) | Network connectivity performance determination on computing devices | |
WO2018191597A2 (en) | Tenant upgrade analytics | |
US20190098097A1 (en) | Supporting high availability for orchestrated services | |
US10198284B2 (en) | Ensuring operational integrity and performance of deployed converged infrastructure information handling systems | |
US11012298B2 (en) | Methods, systems, and computer readable mediums for selecting and configuring a computing system to support a replicated application | |
WO2014153311A1 (en) | Automatic version management | |
CN115812298A (zh) | 供应故障的区块链管理 | |
CN104796283A (zh) | 一种监控报警的方法 | |
CN111984287A (zh) | 设备升级方法及系统 | |
CN115599617A (zh) | 总线检测方法、装置、服务器及电子设备 | |
CN110968456A (zh) | 分布式存储系统中故障磁盘的处理方法及装置 | |
CN112650815B (zh) | 环境数据的同步方法及装置、存储介质及电子装置 | |
CN110958287A (zh) | 操作对象数据同步方法、装置及系统 | |
CN112751706A (zh) | 一种目标数据的传输方法和装置 | |
CN111913758A (zh) | 组件监控任务的自动化添加方法、装置及系统 | |
CN110659174A (zh) | 监控告警方法、装置和系统 | |
CN112564968B (zh) | 故障处理方法、装置及存储介质 | |
CN113608750B (zh) | 监控组件的部署方法、装置、计算机设备以及存储介质 | |
CN109828765B (zh) | 一种在线业务升级的方法、通用路由平台及存储介质 | |
CN115827027A (zh) | 数据处理方法、装置、存储介质以及电子设备 | |
CN117421177A (zh) | 服务器运行状态的监控方法及装置 | |
CN114860571A (zh) | 数据处理方法、工具、存储介质以及计算机终端 | |
CN115766428A (zh) | 自动化监控方法、存储介质及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |