CN111008026A - 集群管理方法、装置及系统 - Google Patents

集群管理方法、装置及系统 Download PDF

Info

Publication number
CN111008026A
CN111008026A CN201811168317.0A CN201811168317A CN111008026A CN 111008026 A CN111008026 A CN 111008026A CN 201811168317 A CN201811168317 A CN 201811168317A CN 111008026 A CN111008026 A CN 111008026A
Authority
CN
China
Prior art keywords
distributed consistency
host
consistency system
cluster
decision information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811168317.0A
Other languages
English (en)
Other versions
CN111008026B (zh
Inventor
程霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811168317.0A priority Critical patent/CN111008026B/zh
Priority to PCT/CN2019/108367 priority patent/WO2020073821A1/zh
Priority to EP19871446.1A priority patent/EP3865998A4/en
Priority to JP2021543554A priority patent/JP7341244B2/ja
Publication of CN111008026A publication Critical patent/CN111008026A/zh
Priority to US17/224,874 priority patent/US11438249B2/en
Application granted granted Critical
Publication of CN111008026B publication Critical patent/CN111008026B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0813Configuration setting characterised by the conditions triggering a change of settings
    • H04L41/082Configuration setting characterised by the conditions triggering a change of settings the condition being updates or upgrades of network functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/65Updates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/4401Bootstrapping
    • G06F9/4411Configuring for operating with peripheral devices; Loading of device drivers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • H04L41/0627Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time by acting on the notification or alarm source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/085Retrieval of network configuration; Tracking network configuration history
    • H04L41/0853Retrieval of network configuration; Tracking network configuration history by actively collecting configuration information or by backing up configuration information
    • H04L41/0856Retrieval of network configuration; Tracking network configuration history by actively collecting configuration information or by backing up configuration information by backing up or archiving configuration information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/085Retrieval of network configuration; Tracking network configuration history
    • H04L41/0859Retrieval of network configuration; Tracking network configuration history by keeping history of different configuration generations or by rolling back to previous configuration versions
    • H04L41/0863Retrieval of network configuration; Tracking network configuration history by keeping history of different configuration generations or by rolling back to previous configuration versions by rolling back to previous configuration versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0866Checking the configuration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • H04L41/0836Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability to enhance reliability, e.g. reduce downtime
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0876Aspects of the degree of configuration automation
    • H04L41/0886Fully automatic configuration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/22Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks comprising specially adapted graphical user interfaces [GUI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Abstract

本申请公开了一种集群管理方法、装置及系统。其中,该方法包括:获取集群中的分布式一致性系统发出的操作请求;确定对上述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。本申请解决了由于分布式一致性系统的集群管理方式人为操作的出错率较高,导致分布式一致性系统的数据丢失或者服务的终止的技术问题。

Description

集群管理方法、装置及系统
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种集群管理方法、装置及系统。
背景技术
在分布式一致性系统中,针对经常性的版本发布、配置变更以及主机替换等运维,需要一个良好的自主化运维决策系统来进行流程控制,并保证系统的服务正常和数据的安全性问题。在大规模云计算场景下,为了更好地管理分布式一致性系统的自主化运维,需要一个统一的运维调度平台,而且需要与分布式一致性系统协调交互实现其自主服务。
但是,目前业界分布式一致性系统的主要运维方式仍是分布式一致性系统的研发者针对这些运维操作编写众多的脚本供运维人员使用,在执行这些操作时均通过运维人员执行相应的脚本。现有的实现方式容易出错,而且还需要运维人员花费大量的时间熟练掌握脚本数据,以防操作出错导致数据丢失或者服务的终止。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种集群管理方法、装置及系统,以至少解决由于分布式一致性系统的集群管理方式人为操作的出错率较高,导致分布式一致性系统的数据丢失或者服务的终止的技术问题。
根据本申请实施例的一个方面,提供了一种集群管理系统,包括:运维管控平台,用于向集群中的分布式一致性系统发出操作请求以及展示上述分布式一致性系统的运行状态;决策模块,与上述运维管控平台连接,用于确定对上述操作请求进行处理的决策信息,将该决策信息发送至上述运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
根据本申请实施例的另一方面,还提供了一种集群管理方法,包括:获取集群中的分布式一致性系统发出的操作请求;确定对上述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
根据本申请实施例的另一方面,还提供了一种集群管理装置,包括:获取模块,用于获取集群中的分布式一致性系统发出的操作请求;处理模块,用于确定对上述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
根据本申请实施例的另一方面,还提供了一种存储介质,上述存储介质包括存储的程序,其中,在上述程序运行时控制上述存储介质所在设备执行任意一项上述的集群管理方法。
根据本申请实施例的另一方面,还提供了一种计算机系统,包括:处理器;以及存储器,与上述处理器连接,用于为上述处理器提供处理以下处理步骤的指令:获取集群中的分布式一致性系统发出的操作请求;确定对上述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
在本申请实施例中,通过获取集群中的分布式一致性系统发出的操作请求;确定对上述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
基于本申请实施例,达到了通过分布式一致性系统中的决策模块来保证服务程序的可用性以及数据的安全性的目的,从而实现了提高分布式一致性系统的集群管理效率,避免分布式一致性系统的数据丢失或者服务的终止的技术效果,进而解决了由于分布式一致性系统的集群管理方式人为操作的出错率较高,导致分布式一致性系统的数据丢失或者服务的终止的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种集群管理系统的示意图;
图2是根据本申请实施例的一种可选的集群管理系统的示意图;
图3是根据本申请实施例的一种用于实现集群管理方法的计算机终端(或移动设备)的硬件结构框图;
图4是根据本申请实施例的一种集群管理方法的流程图;
图5是根据本申请实施例的一种可选的集群管理方法的流程图;
图6是根据本申请实施例的一种集群管理装置的示意图;以及
图7是根据本申请实施例的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
服务端集合(Quorum):即分布式一致性系统服务端集合,每个服务端集合均维护着分布式一致性系统的内存数据库,以及持久化存储的事务日志信息与快照数据。
集群(Cluster):云计算场景下的系统服务部署按照集群划分,集群中有一定数量的主机,主机上部署着系统和产品。
主机名(HostName):是指一个逻辑的主机名称,是唯一的主机名称。
服务角色(Server role):又称为组件模块,分布式一致性系统中存在着很多的组件模块,每个组件模块需要通过相关协议协调处理用户的请求。
监控模块(Monitor):用于监控分布式一致性系统的服务角色的健康状况。
决策模块(Decider):用于处理运维人员针对分布式一致性系统的一系列操作,这些操作是需要系统的决策,系统来确认这些操作是否可以进行,什么时候可以开始进行等,其可以为运行于主机上的软件从程序,也可以为用于实现上述决策功能的主机。
监控平台(MonPF):用于展示从主机上收集的基础监控与分布式一致性系统的监控展示页面。
运维管控平台(OMCP):供运维人员使用,通过使用该平台运维人员可以操作分布式一致性系统的升级,主机替换等运维操作。
实施例1
根据本申请实施例,提供了如图1所示的一种集群管理系统的实施例,图1是根据本申请实施例的一种集群管理系统的示意图,如图1所示,上述集群管理系统100包括:运维管控平台101和决策模块103,其中:
运维管控平台101,用于向集群中的分布式一致性系统发出操作请求以及展示上述分布式一致性系统的运行状态;决策模块103,与上述运维管控平台101连接,用于确定对上述操作请求进行处理的决策信息,将该决策信息发送至上述运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
可选的,上述运维管控平台(OMCP)是一个基础的部署运维操作集成平台,运维人员可以通过该运维管控平台对集群中的系统发出操作请求,以及向运维人员展示上述分布式一致性系统的运行状态,例如,向运维人员展示分布式一致性系统执行上述操作请求后的页面展示图。
在本申请的一些实施例中,上述操作请求可以用于请求升级分布式一致性系统的版本、升级分布式一致性系统的配置信息、重启分布式一致性系统服务器等。
需要说明的是,本申请实施例上述运维管控平台还可以通过Web页面,向运维人员展示集群中分布式一致性系统的监控状态以及各种升级阶段的状态。
在一种可选的实施中,在云计算场景下,以集群为单位部署整套分布式一致性系统对外使用,并作为一个管理的维度,为了更好地实现集群下分布式一致性的自主服务,本申请实施例中可以将集群的属性细粒度化,分为三元组<Cluster,HostName,Serverrole>,进而可以更好的对集群进行区分,通过划分属性之后可以设计出具体的API接口来操作分布式一致性系统。
需要明确的是,集群里面有多少个主机,则每个主机上部署了多少个服务角色。
在上述可选的实施例中,上述决策模块通过使用运维管控平台提供的API接口,周期轮询运维管控平台,可选的,上述轮询的间隔可以为分钟级别。进而,运维管控平台会返回给决策模块操作请求,例如,当前有哪些操作需要审批,有哪些操作已经审批,有哪些操作正在进行等。
进而,上述决策模块根据运维管控平台返回的操作请求,基于上述分布式一致性系统的数据一致性和可用性,确定对上述操作请求进行处理的决策信息,并通过API接口将决策信息返回给运维管控平台,以便于运维管控平台根据决策信息进行相应的处理。
在本申请实施例中,通过获取集群中的分布式一致性系统发出的操作请求;确定对上述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
基于本申请实施例,达到了通过分布式一致性系统中的决策模块来保证服务程序的可用性以及数据的安全性的目的,从而实现了提高分布式一致性系统的集群管理效率,避免分布式一致性系统的数据丢失或者服务的终止的技术效果,进而解决了由于分布式一致性系统的集群管理方式人为操作的出错率较高,导致分布式一致性系统的数据丢失或者服务的终止的技术问题。
在一种可选的实施例中,如图2所示,上述系统还包括:监控模块105,位于上述集群中的主机上,用于采集上述分布式一致性系统中作为服务角色的组件模块的监控数据,其中,上述服务角色为上述集群的各个主机中协调处理用户请求的模块;监控平台107,用于收集上述监控模块采集的上述监控数据,并展示上述监控数据。
需要说明的是,由于分布式一致性系统运行环境复杂,需要监控主机与分布式一致性系统的基础指标(例如,磁盘空间大小,磁盘使用率,主机和系统的内存消耗,网络带宽占比等),还需要监控分布式一致性系统的服务可用性(例如,分布式一致性系统的服务器是否正常工作,服务器运行中的每秒请求数等)。
在本申请实施例中,分布式一致性系统通过设置于集群中的主机上的监控模块,可以实现上述监控功能,采集上述分布式一致性系统中作为服务角色的组件模块的监控数据,然后通过监控平台(例如,MonPE监控平台)收集上述监控模块采集的上述监控数据,并且,上述监控平台可以展示上述监控数据。
此外,在本申请实施例中,通过上述监控模块采集上述分布式一致性系统中作为服务角色的组件模块的监控数据,还可以将上述监控数据接入相关数据分析平台,例如:开源的大数据分析处理系统(Spark)进行日志分析,进而可以进行故障辅助诊断、工作负载自动分析。
在一本申请的一些实施例中,上述监控平台107,还用于依据上述监控数据产生告警信息,并将上述告警信息发送至用户侧设备。
例如,上述监控平台在依据上述监控数据产生告警信息之后,可以对接短信电话平台向运维人员或系统开发人员输出告警信息进行提示,还可以展示分布式一致性系统一段时间的监控指标展示图,等等。
作为一种可选的实施例,上述监控平台作为一个全局的监控平台,针对集群中的分布式一致性系统提供了汇报监控状况的API接口,分布式一致性系统通过提供监控模块(监控程序),采集上述分布式一致性系统中作为服务角色的组件模块的监控数据(例如,各种监控指标、健康参数),并调用监控平台提供的API接口向监控平台汇报上述监控数据,进而,监控平台可以向运维人员或系统开发人员实时了解现在集群中分布式一致性系统的状况,并针对异常情况进行快速响应处理。
需要说明的是,上述API接口可以为如下至少之一:第一API接口是由运维人员操作运维管控平台发起的对分布式一致性系统所需要发起的操作行为的接口,第二API接口是分布式一致性系统接收到运维管控平台发来的决策时,需要给予回应的接口。
其中,第一API接口用于获取集群中服务角色的决策信息;第一API接口的名称为:GetMachineSRActionInfoFor决策模块;第一API接口的参数列表可以为:
>cluster:必选
>serverrole:必选
第一API接口的返回值可以为:
>err_code:运维管控平台定义的标准错误码。
>err_msg:运维管控平台定义的标准错误信息,和错误码对应。
第一API接口的返回结果是一个JSON(JavaScript Object Notation)。
其中,第二API接口用于设置集群中服务角色的决策信息,第二API接口的名称:SetMachineSRActionInfoFor决策模块;第二API接口的参数列表可以为:
>cluster:必选
>decide_info:必选
第二API接口的返回值可以为:
>err_code:运维管控平台定义的标准错误码。
>err_msg:运维管控平台定义的标准错误信息,和错误码对应。
>data:操作成功的主机的ServerRole列表。
第二API接口的返回结果为data数据。
在一种可选的实施例中,上述决策模块,还用于确定上述操作请求对应的操作类型;确定执行上述操作类型对应的操作的决策信息,该决策信息为基于上述分布式一致性系统的可用性条件和安全性条件确定的。
可选的,上述操作类型可以用于表征依据哪一主机进行操作。其中,上述决策信息包括以下之一:允许执行上述操作类型对应的操作、取消执行上述操作类型对应的操作。
在一种可选的实施例中,上述决策模块,还用于在上述操作类型为对上述分布式一致性系统的配置信息进行升级时,确定允许执行上述操作请求所对应的操作。
需要说明的是,在分布式一致性系统中,由于一些配置信息是全局配置模板管理的,因而当需要修改某些配置信息,不需要修改代码,只需要修改全局配置模板里面的参数即可,然后统一升级分布式一致性系统的配置信息,分布式一致性系统感知到配置信息的变化并获取新的配置信息。
在一种可选的实施例中,若运维人员通过运维管控平台针对某一个集群中的分布式一致性系统,发起升级配置信息的操作请求,则分布式一致性系统可以获取与该操作请求对应的决策信息。针对分布式一致性系统的配置信息的升级情况,分布式一致性系统的进程是不需要重启的,由于没有导致不可用时间,以及不影响磁盘中数据安全性,因而,可以直接调用运维管控平台提供的API接口:SetMachineSRActionInfoFor;决策模块直接回应允许执行上述操作请求所对应的操作的信息即可,进而可以直接批准配置信息升级的操作。
在一种可选的实施例中,上述决策模块,还用于在上述操作类型为对上述分布式一致性系统中的服务进行升级时,从上述集群中选择其中一个主机进行升级,并且在从上述集群中选择其中一个主机进行升级之前,判断对选择的主机进行升级之前的上一个主机的服务是否满足可用性条件,并在上述服务满足可用性条件时确定对选择的主机进行升级。
在升级分布式一致性系统中的服务时,可以重启分布式一致性系统的服务(即,服务程序),并且,由于在升级分布式一致性系统中的服务时,需要短暂影响分布式一致性系统服务的不可用时间。因此,决策模块在获取到运维管控平台发起的升级分布式一致性系统的服务的操作请求时,需要对选择的主机进行升级之前的上一个主机的服务是否满足可用性条件,例如,分布式一致性系统的服务端集合Quorum中的服务可用性,采取服务端集合Quorum中每次只有一台主机中的服务升级的升级顺序,并且,再每次选择升级一台主机的服务时,需要确保选择的主机进行升级之前的上一个主机的服务是满足可用性条件的,并在上述服务满足可用性条件时确定对选择的主机进行升级。
在一种可选的实施例中,上述决策模块,还用于在上述操作类型为替换分布式一致性系统部署的主机时,获取新增加主机的编号;建立上述新增加主机的编号和上述分布式一致性系统中未被替换的主机的编号之间的关联,以组成新的分布式一致性系统。
由于在云计算场景下,采用的都是普通的服务器,因此,每年面临着大量的主机过保或者坏掉的情况,需要替换主机并重新在新的主机上部署分布式一致性系统的服务程序。
在上述可选的实施例中,当服务端集合Quorum中某一台主机宕机时,服务端集合Quorum中可用的分布式一致性系统就会少一个服务程序,因此,需要在新的一台主机上部署服务程序。
假设服务端集合中有三台主机,且每台主机上都部署了分布式一致性系统的服务程序,三台主机中每台主机上针对分布式一致性系统有个固定的编号,例如,可以为1,2,3。在编号为3的这台主机宕机需要替换时,可以通过修改分布式一致性系统的协议,确定新增加的编号为4的主机与之前编号为1,2的主机,仍可以组成了分布式一致性系统中的一个服务端集合。
需要说明的是,由于之前编号为1,2的主机并不知晓新增加的编号为4的主机,因而,新增加的编号为4的主机是无法直接与之前编号为1,2的主机组成一个服务端集合的,需要保证在替换主机时,服务程序可以自主地将1,2,4组成一个新的服务端集合,进而可以真正地做到替换主机的自主服务。
在一种可选的实施例中,上述决策模块,还用于在上述操作类型为替换分布式一致性系统中指定主机使用的磁盘时,停止上述分布式一致性系统的对外服务;从上述分布式一致性系统中的其他主机中获取日志信息和快照数据;并在将上述日志信息和快照数据存储至新增加的磁盘后,恢复对外服务。
在本申请实施例中,分布式一致性系统可以持久化事务性地请求日志信息和快照数据,因此需要涉及到对主机磁盘的读写操作,并且由于主机的磁盘损坏率很高,经常遇到分布式一致性系统程序的IO故障,表明磁盘已经损坏或者已经过保。
因此,需要在监控模块监控到的磁盘损坏报警之后,由运维人员通过运维管控平台发起替换主机磁盘的请求至分布式一致性系统的决策模块,决策模块在接收到运维管控平台发来的替换主机磁盘的请求之后,需要先处理数据的安全性问题,例如,若之前分布式一致性系统的存储日志与快照的磁盘位置是/dfs/disk1,分布式一致性系统的服务程序在遇到第一磁盘disk1发生IO故障的情况下进行服务降级,停止上述分布式一致性系统的对外服务,并在在新增加的第二磁盘的磁盘位置/dfs/disk2上恢复数据,并从服务端集合中的其他主机中获取所有的日志信息与快照数据,当数据恢复之后开始对外服务。
实施例2
根据本申请实施例,还提供了一种集群管理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图3示出了一种用于实现集群管理方法的计算机终端(或移动设备)的硬件结构框图,如图3所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图3所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图3中所示更多或者更少的组件,或者具有与图3所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本申请实施例中的集群管理对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的集群管理方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
在上述运行环境下,本申请提供了如图4所示的一种集群管理方法,图4是根据本申请实施例的一种集群管理方法的流程图,如图4所示,上述方法包括以下步骤:
步骤S402,获取集群中的分布式一致性系统发出的操作请求;
步骤S404,确定对上述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
可选的,上述运维管控平台(OMCP)是一个基础的部署运维操作集成平台,运维人员可以通过该运维管控平台对集群中的系统发出操作请求,以及向运维人员展示上述分布式一致性系统的运行状态,例如,向运维人员展示分布式一致性系统执行上述操作请求后的页面展示图。
在一种可选的实施例,上述操作请求可以用于请求升级分布式一致性系统的版本、升级分布式一致性系统的配置信息、重启分布式一致性系统服务器等。
需要说明的是,本申请实施例上述运维管控平台还可以通过Web页面,向运维人员展示集群中分布式一致性系统的监控状态以及各种升级阶段的状态。
在一种可选的实施中,在云计算场景下,以集群为单位部署整套分布式一致性系统对外使用,并作为一个管理的维度,为了更好地实现集群下分布式一致性的自主服务,本申请实施例中可以将集群的属性细粒度化,分为三元组<Cluster,HostName,Serverrole>,进而可以更好的对集群进行区分,通过划分属性之后可以设计出具体的API接口来操作分布式一致性系统,还可以明确集群里面有多少个主机,每个主机上部署了多少个服务角色。
在上述可选的实施例中,上述决策模块通过使用运维管控平台提供的API接口,周期轮询运维管控平台,可选的,上述轮询的间隔可以为分钟级别。进而,运维管控平台会返回给决策模块操作请求,例如,当前有哪些操作需要审批,有哪些操作已经审批,有哪些操作正在进行等。
进而,上述决策模块根据运维管控平台返回的操作请求,基于上述分布式一致性系统的数据一致性和可用性,确定对上述操作请求进行处理的决策信息,并通过API接口将决策信息返回给运维管控平台,以便于运维管控平台根据决策信息进行相应的处理。
在本申请实施例中,通过获取集群中的分布式一致性系统发出的操作请求;确定对上述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
基于本申请实施例,达到了通过分布式一致性系统中的决策模块来保证服务程序的可用性以及数据的安全性的目的,从而实现了提高分布式一致性系统的集群管理效率,避免分布式一致性系统的数据丢失或者服务的终止的技术效果,进而解决了由于分布式一致性系统的集群管理方式人为操作的出错率较高,导致分布式一致性系统的数据丢失或者服务的终止的技术问题。
在一种可选的实施例中,图5是根据本申请实施例的一种可选的集群管理方法的流程图,如图5所示,确定对上述操作请求进行处理的决策信息包括:
步骤S502,确定上述操作请求对应的操作类型;
步骤S504,确定执行上述操作类型对应的操作的决策信息,该决策信息为基于上述分布式一致性系统的可用性条件和安全性条件确定的。
可选的,上述操作类型可以用于表征依据哪一主机进行操作。其中,上述决策信息包括以下之一:允许执行上述操作类型对应的操作、取消执行上述操作类型对应的操作。
作为一种可选的实施例,上述确定执行上述操作类型对应的操作的决策信息,包括:在上述操作类型为对上述分布式一致性系统的配置信息进行升级时,确定允许执行上述操作请求所对应的操作。
需要说明的是,在分布式一致性系统中,由于一些配置信息是全局配置模板管理的,因而当需要修改某些配置信息,不需要修改代码,只需要修改全局配置模板里面的参数即可,然后统一升级分布式一致性系统的配置信息,分布式一致性系统感知到配置信息的变化并获取新的配置信息。
在一种可选的实施例中,若运维人员通过运维管控平台针对某一个集群中的分布式一致性系统,发起升级配置信息的操作请求,则分布式一致性系统可以获取与该操作请求对应的决策信息。针对分布式一致性系统的配置信息的升级情况,分布式一致性系统的进程是不需要重启的,由于没有导致不可用时间,以及不影响磁盘中数据安全性,因而,可以直接调用运维管控平台提供的API接口:SetMachineSRActionInfoFor;决策模块直接回应允许执行上述操作请求所对应的操作的信息即可,进而可以直接批准配置信息升级的操作。
在另一种可选的实施例中,确定执行上述操作类型对应的操作的决策信息,包括:在上述操作类型为对上述分布式一致性系统中的服务进行升级时,从上述集群中选择其中一个主机进行升级,并且在从上述集群中选择其中一个主机进行升级之前,判断对选择的主机进行升级之前的上一个主机的服务是否满足可用性条件,并在上述服务满足可用性条件时确定对选择的主机进行升级。
在升级分布式一致性系统中的服务时,可以重启分布式一致性系统的服务(即,服务程序),并且,由于在升级分布式一致性系统中的服务时,需要短暂影响分布式一致性系统服务的不可用时间。因此,决策模块在获取到运维管控平台发起的升级分布式一致性系统的服务的操作请求时,需要对选择的主机进行升级之前的上一个主机的服务是否满足可用性条件,例如,分布式一致性系统的服务端集合Quorum中的服务可用性,采取服务端集合中每次只有一台主机中的服务升级的升级顺序,并且,再每次选择升级一台主机的服务时,需要确保选择的主机进行升级之前的上一个主机的服务是满足可用性条件的,并在上述服务满足可用性条件时确定对选择的主机进行升级。
在本申请实施例中,可选的,确定执行上述操作类型对应的操作的决策信息,包括:在上述操作类型为替换分布式一致性系统部署的主机时,获取新增加主机的编号;建立上述新增加主机的编号和上述分布式一致性系统中未被替换的主机的编号之间的关联,以组成新的分布式一致性系统。
由于在云计算场景下,采用的都是普通的服务器,因此,每年面临着大量的主机过保或者坏掉的情况,需要替换主机并重新在新的主机上部署分布式一致性系统的服务程序。
在上述可选的实施例中,当服务端集合中某一台主机宕机时,服务端集合中可用的分布式一致性系统就会少一个服务程序,因此,需要在新的一台主机上部署服务程序。
假设服务端集合中有三台主机,且每台主机上都部署了分布式一致性系统的服务程序,三台主机中每台主机上针对分布式一致性系统有个固定的编号,例如,可以为1,2,3。在编号为3的这台主机宕机需要替换时,可以通过修改分布式一致性系统的协议,确定新增加的编号为4的主机与之前编号为1,2的主机,仍可以组成了分布式一致性系统中的一个服务端集合。
需要说明的是,由于之前编号为1,2的主机并不知晓新增加的编号为4的主机,因而,新增加的编号为4的主机是无法直接与之前编号为1,2的主机组成一个服务端集合的,需要保证在替换主机时,服务程序可以自主地将1,2,4组成一个新的服务端集合,进而可以真正地做到替换主机的自主服务。
在本申请实施例中,还存在一种可选的实施例,确定执行上述操作类型对应的操作的决策信息,包括:在上述操作类型为替换分布式一致性系统中指定主机使用的磁盘时,停止上述分布式一致性系统的对外服务;从上述分布式一致性系统中的其他主机中获取日志信息和快照数据;并在将上述日志信息和快照数据存储至新增加的磁盘后,恢复对外服务。
在本申请实施例中,分布式一致性系统可以持久化事务性地请求日志信息和快照数据,因此需要涉及到对主机磁盘的读写操作,并且由于主机的磁盘损坏率很高,经常遇到分布式一致性系统程序的IO故障,表明磁盘已经损坏或者已经过保。
因此,需要在监控模块监控到的磁盘损坏报警之后,由运维人员通过运维管控平台发起替换主机磁盘的请求至分布式一致性系统的决策模块,决策模块在接收到运维管控平台发来的替换主机磁盘的请求之后,需要先处理数据的安全性问题,例如,若之前分布式一致性系统的存储日志与快照的磁盘位置是/dfs/disk1,分布式一致性系统的服务程序在遇到第一磁盘disk1发生IO故障的情况下进行服务降级,停止上述分布式一致性系统的对外服务,并在在新增加的第二磁盘的磁盘位置/dfs/disk2上恢复数据,并从服务端集合中的其他主机中获取所有的日志信息与快照数据,当数据恢复之后开始对外服务。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,此处不再赘述。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例上述的方法。
实施例3
根据本申请实施例,还提供了一种计算机系统的实施例,包括:处理器;以及存储器,与上述处理器连接,用于为上述处理器提供处理以下处理步骤的指令:获取集群中的分布式一致性系统发出的操作请求;确定对上述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
在本申请实施例中,通过获取集群中的分布式一致性系统发出的操作请求;确定对上述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
基于本申请实施例,达到了通过分布式一致性系统中的决策模块来保证服务程序的可用性以及数据的安全性的目的,从而实现了提高分布式一致性系统的集群管理效率,避免分布式一致性系统的数据丢失或者服务的终止的技术效果,进而解决了由于分布式一致性系统的集群管理方式人为操作的出错率较高,导致分布式一致性系统的数据丢失或者服务的终止的技术问题。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1、2中的相关描述,此处不再赘述。
实施例4
根据本申请实施例,还提供了一种用于实施上述集群管理方法的装置实施例,图6是根据本申请实施例的一种集群管理装置的示意图,如图6所示,该装置600包括:获取模块602和处理模块604,其中:
获取模块602,用于获取集群中的分布式一致性系统发出的操作请求;处理模块604,用于确定对上述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
此处需要说明的是,上述获取模块602和处理模块604对应于实施例2中的步骤S402至步骤S404,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例2所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例2提供的计算机终端10中。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1、2中的相关描述,此处不再赘述。
实施例5
根据本申请的实施例,还提供一种计算机终端的实施例,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行集群管理方法中以下步骤的程序代码:获取集群中的分布式一致性系统发出的操作请求;确定对上述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
可选地,图7是根据本申请实施例的一种计算机终端的结构框图,如图7所示,该计算机终端700可以包括:一个或多个(图中仅示出一个)处理器702、存储器704以及外设接口706。
其中,存储器可用于存储软件程序以及模块,如本申请实施例中的集群管理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的集群管理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端700。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取集群中的分布式一致性系统发出的操作请求;确定对上述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
可选的,上述处理器还可以执行如下步骤的程序代码:确定上述操作请求对应的操作类型;确定执行上述操作类型对应的操作的决策信息,该决策信息为基于上述分布式一致性系统的可用性条件和安全性条件确定的。
可选的,上述处理器还可以执行如下步骤的程序代码:在上述操作类型为对上述分布式一致性系统的配置信息进行升级时,确定允许执行上述操作请求所对应的操作。
可选的,上述处理器还可以执行如下步骤的程序代码:在上述操作类型为对上述分布式一致性系统中的服务进行升级时,从上述集群中选择其中一个主机进行升级,并且在从上述集群中选择其中一个主机进行升级之前,判断对选择的主机进行升级之前的上一个主机的服务是否满足可用性条件,并在上述服务满足可用性条件时确定对选择的主机进行升级。
可选的,上述处理器还可以执行如下步骤的程序代码:在上述操作类型为替换分布式一致性系统部署的主机时,获取新增加主机的编号;建立上述新增加主机的编号和上述分布式一致性系统中未被替换的主机的编号之间的关联,以组成新的分布式一致性系统。
可选的,上述处理器还可以执行如下步骤的程序代码:在上述操作类型为替换分布式一致性系统中指定主机使用的磁盘时,停止上述分布式一致性系统的对外服务;从上述分布式一致性系统中的其他主机中获取日志信息和快照数据;并在将上述日志信息和快照数据存储至新增加的磁盘后,恢复对外服务。
采用本申请实施例,提供了一种集群管理方案,通过获取集群中的分布式一致性系统发出的操作请求;确定对上述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
基于本申请实施例,达到了通过分布式一致性系统中的决策模块来保证服务程序的可用性以及数据的安全性的目的,从而实现了提高分布式一致性系统的集群管理效率,避免分布式一致性系统的数据丢失或者服务的终止的技术效果,进而解决了由于分布式一致性系统的集群管理方式人为操作的出错率较高,导致分布式一致性系统的数据丢失或者服务的终止的技术问题。
本领域普通技术人员可以理解,图7所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图7其并不对上述电子装置的结构造成限定。例如,计算机终端700还可包括比图7中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图7所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例6
根据本申请的实施例,还提供了一种存储介质的实施例,可选地,在本实施例中,上述存储介质可以用于保存上述实施例2所提供的集群管理方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取集群中的分布式一致性系统发出的操作请求;确定对上述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,上述决策信息为基于上述分布式一致性系统的数据一致性和可用性确定的。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:确定上述操作请求对应的操作类型;确定执行上述操作类型对应的操作的决策信息,该决策信息为基于上述分布式一致性系统的可用性条件和安全性条件确定的。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在上述操作类型为对上述分布式一致性系统的配置信息进行升级时,确定允许执行上述操作请求所对应的操作。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在上述操作类型为对上述分布式一致性系统中的服务进行升级时,从上述集群中选择其中一个主机进行升级,并且在从上述集群中选择其中一个主机进行升级之前,判断对选择的主机进行升级之前的上一个主机的服务是否满足可用性条件,并在上述服务满足可用性条件时确定对选择的主机进行升级。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在上述操作类型为替换分布式一致性系统部署的主机时,获取新增加主机的编号;建立上述新增加主机的编号和上述分布式一致性系统中未被替换的主机的编号之间的关联,以组成新的分布式一致性系统。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在上述操作类型为替换分布式一致性系统中指定主机使用的磁盘时,停止上述分布式一致性系统的对外服务;从上述分布式一致性系统中的其他主机中获取日志信息和快照数据;并在将上述日志信息和快照数据存储至新增加的磁盘后,恢复对外服务。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (17)

1.一种集群管理系统,包括:
运维管控平台,用于向集群中的分布式一致性系统发出操作请求以及展示所述分布式一致性系统的运行状态;
决策模块,与所述运维管控平台连接,用于确定对所述操作请求进行处理的决策信息,将该决策信息发送至所述运维管控平台,其中,所述决策信息为基于所述分布式一致性系统的数据一致性和可用性确定的。
2.根据权利要求1所述的系统,其中,所述系统还包括:
监控模块,位于所述集群中的主机上,用于采集所述分布式一致性系统中作为服务角色的组件模块的监控数据,其中,所述服务角色为所述集群的各个主机中协调处理用户请求的模块;
监控平台,用于收集所述监控模块采集的所述监控数据,并展示所述监控数据。
3.根据权利要求2所述的系统,其中,所述监控平台,还用于依据所述监控数据产生告警信息,并将所述告警信息发送至用户侧设备。
4.根据权利要求1所述的系统,其中,所述决策模块,还用于确定所述操作请求对应的操作类型;确定执行所述操作类型对应的操作的决策信息,该决策信息为基于所述分布式一致性系统的可用性条件和安全性条件确定的。
5.根据权利要求4所述的系统,其中,所述决策模块,还用于在所述操作类型为对所述分布式一致性系统的配置信息进行升级时,确定允许执行所述操作请求所对应的操作。
6.根据权利要求4所述的系统,其中,所述决策模块,还用于在所述操作类型为对所述分布式一致性系统中的服务进行升级时,从所述集群中选择其中一个主机进行升级,并且在从所述集群中选择其中一个主机进行升级之前,判断对选择的主机进行升级之前的上一个主机的服务是否满足可用性条件,并在所述服务满足可用性条件时确定对选择的主机进行升级。
7.根据权利要求4所述的系统,其中,所述决策模块,还用于在所述操作类型为替换分布式一致性系统部署的主机时,获取新增加主机的编号;建立所述新增加主机的编号和所述分布式一致性系统中未被替换的主机的编号之间的关联,以组成新的分布式一致性系统。
8.根据权利要求4所述的系统,其中,所述决策模块,还用于在所述操作类型为替换分布式一致性系统中指定主机使用的磁盘时,停止所述分布式一致性系统的对外服务;从所述分布式一致性系统中的其他主机中获取日志信息和快照数据;并在将所述日志信息和快照数据存储至新增加的磁盘后,恢复对外服务。
9.一种集群管理方法,包括:
获取集群中的分布式一致性系统发出的操作请求;
确定对所述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,所述决策信息为基于所述分布式一致性系统的数据一致性和可用性确定的。
10.根据权利要求9所述的方法,其中,确定对所述操作请求进行处理的决策信息包括:
确定所述操作请求对应的操作类型;确定执行所述操作类型对应的操作的决策信息,该决策信息为基于所述分布式一致性系统的可用性条件和安全性条件确定的。
11.根据权利要求10所述的方法,其中,确定执行所述操作类型对应的操作的决策信息,包括:在所述操作类型为对所述分布式一致性系统的配置信息进行升级时,确定允许执行所述操作请求所对应的操作。
12.根据权利要求10所述的方法,其中,确定执行所述操作类型对应的操作的决策信息,包括:在所述操作类型为对所述分布式一致性系统中的服务进行升级时,从所述集群中选择其中一个主机进行升级,并且在从所述集群中选择其中一个主机进行升级之前,判断对选择的主机进行升级之前的上一个主机的服务是否满足可用性条件,并在所述服务满足可用性条件时确定对选择的主机进行升级。
13.根据权利要求10所述的方法,其中,确定执行所述操作类型对应的操作的决策信息,包括:在所述操作类型为替换分布式一致性系统部署的主机时,获取新增加主机的编号;建立所述新增加主机的编号和所述分布式一致性系统中未被替换的主机的编号之间的关联,以组成新的分布式一致性系统。
14.根据权利要求10所述的方法,其中,确定执行所述操作类型对应的操作的决策信息,包括:在所述操作类型为替换分布式一致性系统中指定主机使用的磁盘时,停止所述分布式一致性系统的对外服务;从所述分布式一致性系统中的其他主机中获取日志信息和快照数据;并在将所述日志信息和快照数据存储至新增加的磁盘后,恢复对外服务。
15.一种集群管理装置,包括:
获取模块,用于获取集群中的分布式一致性系统发出的操作请求;
处理模块,用于确定对所述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,所述决策信息为基于所述分布式一致性系统的数据一致性和可用性确定的。
16.一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求9至14中任意一项所述的集群管理方法。
17.一种计算机系统,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:
获取集群中的分布式一致性系统发出的操作请求;
确定对所述操作请求进行处理的决策信息,将该决策信息发送至运维管控平台,其中,所述决策信息为基于所述分布式一致性系统的数据一致性和可用性确定的。
CN201811168317.0A 2018-10-08 2018-10-08 集群管理方法、装置及系统 Active CN111008026B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201811168317.0A CN111008026B (zh) 2018-10-08 2018-10-08 集群管理方法、装置及系统
PCT/CN2019/108367 WO2020073821A1 (zh) 2018-10-08 2019-09-27 集群管理方法、装置及系统
EP19871446.1A EP3865998A4 (en) 2018-10-08 2019-09-27 CLUSTER MANAGEMENT METHOD, APPARATUS AND SYSTEM
JP2021543554A JP7341244B2 (ja) 2018-10-08 2019-09-27 クラスタ管理方法、装置、およびシステム
US17/224,874 US11438249B2 (en) 2018-10-08 2021-04-07 Cluster management method, apparatus and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811168317.0A CN111008026B (zh) 2018-10-08 2018-10-08 集群管理方法、装置及系统

Publications (2)

Publication Number Publication Date
CN111008026A true CN111008026A (zh) 2020-04-14
CN111008026B CN111008026B (zh) 2024-03-26

Family

ID=70111200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811168317.0A Active CN111008026B (zh) 2018-10-08 2018-10-08 集群管理方法、装置及系统

Country Status (5)

Country Link
US (1) US11438249B2 (zh)
EP (1) EP3865998A4 (zh)
JP (1) JP7341244B2 (zh)
CN (1) CN111008026B (zh)
WO (1) WO2020073821A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112202909A (zh) * 2020-10-10 2021-01-08 上海威固信息技术股份有限公司 一种计算机存储系统在线升级方法及系统
CN114157674A (zh) * 2020-08-17 2022-03-08 中移(上海)信息通信科技有限公司 无线通信方法、装置、系统、服务器以及介质
CN114666195A (zh) * 2022-03-21 2022-06-24 江苏红网技术股份有限公司 一种多层次安全防护数据交换共享系统及其方法
CN115051838A (zh) * 2022-05-24 2022-09-13 广州市迪士普音响科技有限公司 一种中控主机集群管控方法、装置、设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11595321B2 (en) * 2021-07-06 2023-02-28 Vmware, Inc. Cluster capacity management for hyper converged infrastructure updates

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040254984A1 (en) * 2003-06-12 2004-12-16 Sun Microsystems, Inc System and method for coordinating cluster serviceability updates over distributed consensus within a distributed data system cluster
CN102571789A (zh) * 2011-12-31 2012-07-11 复旦大学 一种增强soa可生存性的降级服务替换验证方法
CN103400226A (zh) * 2013-07-31 2013-11-20 湖南省烟草公司永州市公司 一种烟草行业信息安全运维一体化应用平台系统
CN103647668A (zh) * 2013-12-16 2014-03-19 上海证券交易所 一种高可用集群内主机群体决策系统及切换方法
CN103888287A (zh) * 2013-12-18 2014-06-25 北京首都国际机场股份有限公司 信息系统一体化运维监控服务预警平台及其实现方法
US20150120931A1 (en) * 2013-10-31 2015-04-30 Vmware, Inc. Automatic remediation in a distributed computer system with multiple clusters of host computers
CN104683446A (zh) * 2015-01-29 2015-06-03 广州杰赛科技股份有限公司 一种云存储集群节点服务状态实时监控方法和系统
CN105703940A (zh) * 2015-12-10 2016-06-22 中国电力科学研究院 一种面向多级调度分布式并行计算的监控系统及监控方法
US20170115978A1 (en) * 2015-10-26 2017-04-27 Microsoft Technology Licensing, Llc Monitored upgrades using health information
CN107729214A (zh) * 2017-10-13 2018-02-23 福建富士通信息软件有限公司 一种可视化的分布式系统实时监控运维方法及装置
CN108063787A (zh) * 2017-06-26 2018-05-22 杭州沃趣科技股份有限公司 基于分布式一致性状态机实现双活架构的方法
CN108418697A (zh) * 2017-02-09 2018-08-17 南京联成科技发展有限公司 一种智能化的安全运维服务云平台的实现架构

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003217599A1 (en) 2002-02-22 2003-09-09 Bea Systems, Inc. System and method for using a data replication service to manage a configuration repository
US7392421B1 (en) 2002-03-18 2008-06-24 Symantec Operating Corporation Framework for managing clustering and replication
JP4701929B2 (ja) * 2005-09-02 2011-06-15 株式会社日立製作所 ブート構成変更方法、管理サーバ、及び計算機システム
US20070168571A1 (en) * 2005-11-02 2007-07-19 Dell Products L.P. System and method for automatic enforcement of firmware revisions in SCSI/SAS/FC systems
US10180809B2 (en) * 2006-05-17 2019-01-15 Richard Fetik Secure application acceleration system, methods and apparatus
US7908448B1 (en) 2007-01-30 2011-03-15 American Megatrends, Inc. Maintaining data consistency in mirrored cluster storage systems with write-back cache
US8156164B2 (en) 2007-07-11 2012-04-10 International Business Machines Corporation Concurrent directory update in a cluster file system
CN101334797B (zh) 2008-08-04 2010-06-02 中兴通讯股份有限公司 一种分布式文件系统及其数据块一致性管理的方法
US9461881B2 (en) * 2011-09-30 2016-10-04 Commvault Systems, Inc. Migration of existing computing systems to cloud computing sites or virtual machines
US20130138615A1 (en) 2011-11-29 2013-05-30 International Business Machines Corporation Synchronizing updates across cluster filesystems
US9742873B2 (en) * 2012-11-29 2017-08-22 International Business Machines Corporation Adjustment to managed-infrastructure-as-a-service cloud standard
US9407505B2 (en) 2013-03-04 2016-08-02 Amazon Technologies, Inc. Configuration and verification by trusted provider
EP2981892B1 (en) * 2013-04-01 2020-05-06 OC Acquisition LLC Update management for a distributed computing system
AU2015241457B2 (en) 2014-03-31 2019-10-10 Cirata, Inc. Geographically-distributed file system using coordinated namespace replication
US10235333B1 (en) 2014-04-11 2019-03-19 Twitter, Inc. Managing consistency models in a distributed database
US9836234B2 (en) * 2014-06-04 2017-12-05 Pure Storage, Inc. Storage cluster
US10353918B2 (en) * 2014-11-07 2019-07-16 Amobee, Inc. High availability and disaster recovery in large-scale data warehouse
US9823973B1 (en) 2014-12-22 2017-11-21 EMC IP Holding Company LLC Creating consistent snapshots in a virtualized environment
US10713275B2 (en) 2015-07-02 2020-07-14 Mongodb, Inc. System and method for augmenting consensus election in a distributed database
CN106470219A (zh) * 2015-08-17 2017-03-01 阿里巴巴集团控股有限公司 计算机集群的扩容和缩容方法及设备
CN105119750B (zh) * 2015-09-08 2019-04-19 南京联成科技发展股份有限公司 一种基于大数据的分布式信息安全运维管理平台系统
CN106933547B (zh) * 2015-12-29 2020-12-01 阿里巴巴集团控股有限公司 全局信息获取及处理的方法、装置和更新系统
US10505793B2 (en) * 2016-03-29 2019-12-10 Fortinet, Inc. Network appliance health monitor
US9952767B2 (en) 2016-04-29 2018-04-24 Netapp, Inc. Consistency group management
US10382269B2 (en) * 2016-05-26 2019-08-13 Ricoh Company, Ltd. Configuring devices using device management templates
US10216540B2 (en) 2016-11-28 2019-02-26 Amazon Technologies, Inc. Localized device coordinator with on-demand code execution capabilities
US11150950B2 (en) * 2016-12-01 2021-10-19 Vmware, Inc. Methods and apparatus to manage workload domains in virtual server racks
US11016696B2 (en) * 2018-09-14 2021-05-25 Commvault Systems, Inc. Redundant distributed data storage system

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040254984A1 (en) * 2003-06-12 2004-12-16 Sun Microsystems, Inc System and method for coordinating cluster serviceability updates over distributed consensus within a distributed data system cluster
CN102571789A (zh) * 2011-12-31 2012-07-11 复旦大学 一种增强soa可生存性的降级服务替换验证方法
CN103400226A (zh) * 2013-07-31 2013-11-20 湖南省烟草公司永州市公司 一种烟草行业信息安全运维一体化应用平台系统
US20150120931A1 (en) * 2013-10-31 2015-04-30 Vmware, Inc. Automatic remediation in a distributed computer system with multiple clusters of host computers
CN103647668A (zh) * 2013-12-16 2014-03-19 上海证券交易所 一种高可用集群内主机群体决策系统及切换方法
CN103888287A (zh) * 2013-12-18 2014-06-25 北京首都国际机场股份有限公司 信息系统一体化运维监控服务预警平台及其实现方法
CN104683446A (zh) * 2015-01-29 2015-06-03 广州杰赛科技股份有限公司 一种云存储集群节点服务状态实时监控方法和系统
US20170115978A1 (en) * 2015-10-26 2017-04-27 Microsoft Technology Licensing, Llc Monitored upgrades using health information
CN105703940A (zh) * 2015-12-10 2016-06-22 中国电力科学研究院 一种面向多级调度分布式并行计算的监控系统及监控方法
CN108418697A (zh) * 2017-02-09 2018-08-17 南京联成科技发展有限公司 一种智能化的安全运维服务云平台的实现架构
CN108063787A (zh) * 2017-06-26 2018-05-22 杭州沃趣科技股份有限公司 基于分布式一致性状态机实现双活架构的方法
CN107729214A (zh) * 2017-10-13 2018-02-23 福建富士通信息软件有限公司 一种可视化的分布式系统实时监控运维方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUSEN LI ET AL: "Update schedules for improving consistency in multi-server distributed virtual systems", 《NETWORK AND COMPUTER APPLICATIONS》, vol. 41, 31 May 2014 (2014-05-31) *
何军,田范江,王鼎兴: "一种机群网络文件系统的合作高速缓存技术", 计算机学报, no. 10, 12 October 1997 (1997-10-12) *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114157674A (zh) * 2020-08-17 2022-03-08 中移(上海)信息通信科技有限公司 无线通信方法、装置、系统、服务器以及介质
CN112202909A (zh) * 2020-10-10 2021-01-08 上海威固信息技术股份有限公司 一种计算机存储系统在线升级方法及系统
CN112202909B (zh) * 2020-10-10 2021-06-04 上海威固信息技术股份有限公司 一种计算机存储系统在线升级方法及系统
CN114666195A (zh) * 2022-03-21 2022-06-24 江苏红网技术股份有限公司 一种多层次安全防护数据交换共享系统及其方法
CN114666195B (zh) * 2022-03-21 2022-09-16 江苏红网技术股份有限公司 一种多层次安全防护数据交换共享系统及其方法
CN115051838A (zh) * 2022-05-24 2022-09-13 广州市迪士普音响科技有限公司 一种中控主机集群管控方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111008026B (zh) 2024-03-26
EP3865998A1 (en) 2021-08-18
JP2022509321A (ja) 2022-01-20
EP3865998A4 (en) 2022-06-22
WO2020073821A1 (zh) 2020-04-16
US20210226871A1 (en) 2021-07-22
JP7341244B2 (ja) 2023-09-08
US11438249B2 (en) 2022-09-06

Similar Documents

Publication Publication Date Title
CN111008026A (zh) 集群管理方法、装置及系统
US10592330B2 (en) Systems and methods for automatic replacement and repair of communications network devices
US20220191719A1 (en) Network connectivity performance determination on computing devices
WO2018191597A2 (en) Tenant upgrade analytics
US20190098097A1 (en) Supporting high availability for orchestrated services
US10198284B2 (en) Ensuring operational integrity and performance of deployed converged infrastructure information handling systems
US11012298B2 (en) Methods, systems, and computer readable mediums for selecting and configuring a computing system to support a replicated application
WO2014153311A1 (en) Automatic version management
CN115812298A (zh) 供应故障的区块链管理
CN104796283A (zh) 一种监控报警的方法
CN111984287A (zh) 设备升级方法及系统
CN115599617A (zh) 总线检测方法、装置、服务器及电子设备
CN110968456A (zh) 分布式存储系统中故障磁盘的处理方法及装置
CN112650815B (zh) 环境数据的同步方法及装置、存储介质及电子装置
CN110958287A (zh) 操作对象数据同步方法、装置及系统
CN112751706A (zh) 一种目标数据的传输方法和装置
CN111913758A (zh) 组件监控任务的自动化添加方法、装置及系统
CN110659174A (zh) 监控告警方法、装置和系统
CN112564968B (zh) 故障处理方法、装置及存储介质
CN113608750B (zh) 监控组件的部署方法、装置、计算机设备以及存储介质
CN109828765B (zh) 一种在线业务升级的方法、通用路由平台及存储介质
CN115827027A (zh) 数据处理方法、装置、存储介质以及电子设备
CN117421177A (zh) 服务器运行状态的监控方法及装置
CN114860571A (zh) 数据处理方法、工具、存储介质以及计算机终端
CN115766428A (zh) 自动化监控方法、存储介质及电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant