CN112463195A - 一种集群分组在线升级的方法、系统、终端及存储介质 - Google Patents

一种集群分组在线升级的方法、系统、终端及存储介质 Download PDF

Info

Publication number
CN112463195A
CN112463195A CN202011416873.2A CN202011416873A CN112463195A CN 112463195 A CN112463195 A CN 112463195A CN 202011416873 A CN202011416873 A CN 202011416873A CN 112463195 A CN112463195 A CN 112463195A
Authority
CN
China
Prior art keywords
node
nodes
monitoring
upgrading
upgrade
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011416873.2A
Other languages
English (en)
Other versions
CN112463195B (zh
Inventor
王凡豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202011416873.2A priority Critical patent/CN112463195B/zh
Publication of CN112463195A publication Critical patent/CN112463195A/zh
Application granted granted Critical
Publication of CN112463195B publication Critical patent/CN112463195B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/65Updates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/61Installation

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种集群分组在线升级的方法、系统、终端及存储介质,包括:将集群中挂载于相同存储池的节点划分为同一节点组;设置监控节点同时升级数量阈值;控制各节点组并行进行在线升级,并实时监控执行在线升级的节点信息;根据所述节点信息和所述数量阈值调节各节点组内的监控节点升级执行顺序。本发明通过对大规模集群的节点进行分组,并采用不同组之间并发升级的机制,大大的减少了大规模集群在线升级的时耗,同时升级过程中对存储池状态检查和mon个数限制又保证了业务的正常运行。

Description

一种集群分组在线升级的方法、系统、终端及存储介质
技术领域
本发明涉及大规模集群升级技术领域,具体涉及一种集群分组在线升级的方法、系统、终端及存储介质。
背景技术
在海量数据背景下,集群复杂度越来越高,集群的规模变的越来越大。当系统版本需要升级时,为了不影响集群业务的正常运行,一般采用在线升级的方式对集群的各个节点进行升级,并且各个节点升级时是串行的。当集群的节点规模达到几百个级别以后,在线升级整体耗时就会变得非常久,升级过程中的风险就会变得很大。
发明内容
针对现有技术的上述不足,本发明提供一种集群分组在线升级的方法、系统、终端及存储介质,以解决上述技术问题。
第一方面,本发明提供一种集群分组在线升级的方法,包括:
将集群中挂载于相同存储池的节点划分为同一节点组;
设置监控节点同时升级数量阈值;
控制各节点组并行进行在线升级,并实时监控执行在线升级的节点信息;
根据所述节点信息和所述数量阈值调节各节点组内的监控节点升级执行顺序。
进一步的,所述设置监控节点同时升级数量阈值,包括:
设置同时升级数量阈值为监控节点总数的50%。
进一步的,所述控制各节点组并行进行在线升级并实时监控执行在线升级的节点信息,包括:
生成各节点组组内节点执行在线升级的顺序;
根据所述顺序,依次通过主节点远程到节点组的节点上调用升级脚本;
实时统计正在升级的监控节点数量。
进一步的,所述根据节点信息和所述数量阈值调节各节点组内的监控节点升级执行顺序,包括:
若当前节点是否为监控节点,则在所述调用升级脚本之前,判断正在升级的监控节点数量是否达到所述数量阈值:
若是,则跳过当前的监控节点,依次对下一节点进行处理。
第二方面,本发明提供一种集群分组在线升级的系统,包括:
节点分组单元,配置用于将集群中挂载于相同存储池的节点划分为同一节点组;
阈值设置单元,配置用于设置监控节点同时升级数量阈值;
升级控制单元,配置用于控制各节点组并行进行在线升级,并实时监控执行在线升级的节点信息;
顺序调整单元,配置用于根据所述节点信息和所述数量阈值调节各节点组内的监控节点升级执行顺序。
进一步的,所述阈值设置单元包括:
设置模块,配置用于设置同时升级数量阈值为监控节点总数的50%。
进一步的,所述升级控制单元包括:
顺序生成模块,配置用于生成各节点组组内节点执行在线升级的顺序;
脚本调用模块,配置用于根据所述顺序,依次通过主节点远程到节点组的节点上调用升级脚本;
数量统计模块,配置用于实时统计正在升级的监控节点数量。
进一步的,所述顺序调整单元包括:
数量判断模块,配置用于若当前节点是否为监控节点,则在所述调用升级脚本之前,判断正在升级的监控节点数量是否达到所述数量阈值;
跳过处理模块,配置用于若正在升级的监控节点数量达到所述数量阈值,则跳过当前的监控节点,依次对下一节点进行处理。
第三方面,提供一种终端,包括:
处理器、存储器,其中,
该存储器用于存储计算机程序,
该处理器用于从存储器中调用并运行该计算机程序,使得终端执行上述的终端的方法。
第四方面,提供了一种计算机存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
本发明的有益效果在于,
本发明提供的集群分组在线升级的方法、系统、终端及存储介质,通过对大规模集群的节点进行分组,并采用不同组之间并发升级的机制,大大的减少了大规模集群在线升级的时耗,同时升级过程中对存储池状态检查和mon个数限制又保证了业务的正常运行。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的方法的示意性流程图。
图2是本发明一个实施例的系统的示意性框图。
图3为本发明实施例提供的一种终端的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
图1是本发明一个实施例的方法的示意性流程图。其中,图1执行主体可以为一种集群分组在线升级的系统。
如图1所示,该方法包括:
步骤110,将集群中挂载于相同存储池的节点划分为同一节点组;
步骤120,设置监控节点同时升级数量阈值;
步骤130,控制各节点组并行进行在线升级,并实时监控执行在线升级的节点信息;
步骤140,根据所述节点信息和所述数量阈值调节各节点组内的监控节点升级执行顺序。
具体的,所述集群分组在线升级的方法包括:
S1、将集群中挂载于相同存储池的节点划分为同一节点组。
在大规模集群场景下,集群一般会创建多个存储池,各个存储池之间的业务互不影响。此种场景下在进行在线升级时,可以按照集群中存储池所挂载的节点把集群所有的节点分成不同的组。各个组之间是并行进行升级的,单个分组内各个节点之间是串行升级的。
S2、设置监控节点同时升级数量阈值。
设置正在升级的监控节点(mon节点)的个数不能超过集群mon总数的一半。
S3、控制各节点组并行进行在线升级,并实时监控执行在线升级的节点信息。根据所述节点信息和所述数量阈值调节各节点组内的监控节点升级执行顺序。
为了防止升级影响正常业务,各节点升级前判断所有mon服务以及本节点所属的存储池状态是否正常。升级的节点是非mon节点时,主节点会远程到该节点上调用升级脚本进行升级;当升级的节点是mon节点时,需要对正在升级的mon进行个数校验。如果不满足mon服务正常运行个数限制,则跳过该节点,先升级组内的其他节点,等组内非mon节点全部升级完成后,再依次遍历跳过的mon节点等待其满足mon升级条件时再进行升级。
定时查询该节点升级是否完成,如果该节点升级成功,就会触发同组内下一个节点的升级动作。如果分组内所有节点都升级完成,则本组在线升级结束。
如图2所示,该系统200包括:
节点分组单元210,配置用于将集群中挂载于相同存储池的节点划分为同一节点组;
阈值设置单元220,配置用于设置监控节点同时升级数量阈值;
升级控制单元230,配置用于控制各节点组并行进行在线升级,并实时监控执行在线升级的节点信息;
顺序调整单元240,配置用于根据所述节点信息和所述数量阈值调节各节点组内的监控节点升级执行顺序。
可选地,作为本发明一个实施例,所述阈值设置单元包括:
设置模块,配置用于设置同时升级数量阈值为监控节点总数的50%。
可选地,作为本发明一个实施例,所述升级控制单元包括:
顺序生成模块,配置用于生成各节点组组内节点执行在线升级的顺序;
脚本调用模块,配置用于根据所述顺序,依次通过主节点远程到节点组的节点上调用升级脚本;
数量统计模块,配置用于实时统计正在升级的监控节点数量。
可选地,作为本发明一个实施例,所述顺序调整单元包括:
数量判断模块,配置用于若当前节点是否为监控节点,则在所述调用升级脚本之前,判断正在升级的监控节点数量是否达到所述数量阈值;
跳过处理模块,配置用于若正在升级的监控节点数量达到所述数量阈值,则跳过当前的监控节点,依次对下一节点进行处理。
图3为本发明实施例提供的一种终端300的结构示意图,该终端300可以用于执行本发明实施例提供的集群分组在线升级的方法。
其中,该终端300可以包括:处理器310、存储器320及通信单元330。这些组件通过一条或多条总线进行通信,本领域技术人员可以理解,图中示出的服务器的结构并不构成对本发明的限定,它既可以是总线形结构,也可以是星型结构,还可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中,该存储器320可以用于存储处理器310的执行指令,存储器320可以由任何类型的易失性或非易失性存储终端或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。当存储器320中的执行指令由处理器310执行时,使得终端300能够执行以下上述方法实施例中的部分或全部步骤。
处理器310为存储终端的控制中心,利用各种接口和线路连接整个电子终端的各个部分,通过运行或执行存储在存储器320内的软件程序和/或模块,以及调用存储在存储器内的数据,以执行电子终端的各种功能和/或处理数据。所述处理器可以由集成电路(Integrated Circuit,简称IC)组成,例如可以由单颗封装的IC所组成,也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说,处理器310可以仅包括中央处理器(Central Processing Unit,简称CPU)。在本发明实施方式中,CPU可以是单运算核心,也可以包括多运算核心。
通信单元330,用于建立通信信道,从而使所述存储终端可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。
本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
因此,本发明通过对大规模集群的节点进行分组,并采用不同组之间并发升级的机制,大大的减少了大规模集群在线升级的时耗,同时升级过程中对存储池状态检查和mon个数限制又保证了业务的正常运行,本实施例所能达到的技术效果可以参见上文中的描述,此处不再赘述。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中如U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,包括若干指令用以使得一台计算机终端(可以是个人计算机,服务器,或者第二终端、网络终端等)执行本发明各个实施例所述方法的全部或部分步骤。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于终端实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种集群分组在线升级的方法,其特征在于,包括:
将集群中挂载于相同存储池的节点划分为同一节点组;
设置监控节点同时升级数量阈值;
控制各节点组并行进行在线升级,并实时监控执行在线升级的节点信息;
根据所述节点信息和所述数量阈值调节各节点组内的监控节点升级执行顺序。
2.根据权利要求1所述的方法,其特征在于,所述设置监控节点同时升级数量阈值,包括:
设置同时升级数量阈值为监控节点总数的50%。
3.根据权利要求1所述的方法,其特征在于,所述控制各节点组并行进行在线升级并实时监控执行在线升级的节点信息,包括:
生成各节点组组内节点执行在线升级的顺序;
根据所述顺序,依次通过主节点远程到节点组的节点上调用升级脚本;
实时统计正在升级的监控节点数量。
4.根据权利要求3所述的方法,其特征在于,所述根据节点信息和所述数量阈值调节各节点组内的监控节点升级执行顺序,包括:
若当前节点是否为监控节点,则在所述调用升级脚本之前,判断正在升级的监控节点数量是否达到所述数量阈值:
若是,则跳过当前的监控节点,依次对下一节点进行处理。
5.一种集群分组在线升级的系统,其特征在于,包括:
节点分组单元,配置用于将集群中挂载于相同存储池的节点划分为同一节点组;
阈值设置单元,配置用于设置监控节点同时升级数量阈值;
升级控制单元,配置用于控制各节点组并行进行在线升级,并实时监控执行在线升级的节点信息;
顺序调整单元,配置用于根据所述节点信息和所述数量阈值调节各节点组内的监控节点升级执行顺序。
6.根据权利要求5所述的系统,其特征在于,所述阈值设置单元包括:
设置模块,配置用于设置同时升级数量阈值为监控节点总数的50%。
7.根据权利要求5所述的系统,其特征在于,所述升级控制单元包括:
顺序生成模块,配置用于生成各节点组组内节点执行在线升级的顺序;
脚本调用模块,配置用于根据所述顺序,依次通过主节点远程到节点组的节点上调用升级脚本;
数量统计模块,配置用于实时统计正在升级的监控节点数量。
8.根据权利要求7所述的系统,其特征在于,所述顺序调整单元包括:
数量判断模块,配置用于若当前节点是否为监控节点,则在所述调用升级脚本之前,判断正在升级的监控节点数量是否达到所述数量阈值;
跳过处理模块,配置用于若正在升级的监控节点数量达到所述数量阈值,则跳过当前的监控节点,依次对下一节点进行处理。
9.一种终端,其特征在于,包括:
处理器;
用于存储处理器的执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-4任一项所述的方法。
10.一种存储有计算机程序的计算机可读存储介质,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一项所述的方法。
CN202011416873.2A 2020-12-07 2020-12-07 一种集群分组在线升级的方法、系统、终端及存储介质 Active CN112463195B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011416873.2A CN112463195B (zh) 2020-12-07 2020-12-07 一种集群分组在线升级的方法、系统、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011416873.2A CN112463195B (zh) 2020-12-07 2020-12-07 一种集群分组在线升级的方法、系统、终端及存储介质

Publications (2)

Publication Number Publication Date
CN112463195A true CN112463195A (zh) 2021-03-09
CN112463195B CN112463195B (zh) 2022-07-08

Family

ID=74800229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011416873.2A Active CN112463195B (zh) 2020-12-07 2020-12-07 一种集群分组在线升级的方法、系统、终端及存储介质

Country Status (1)

Country Link
CN (1) CN112463195B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113472884A (zh) * 2021-06-30 2021-10-01 潍柴动力股份有限公司 Ota升级方法和装置
CN115080093A (zh) * 2022-07-29 2022-09-20 济南浪潮数据技术有限公司 一种分布式系统升级的方法、装置、服务器及介质
WO2024099444A1 (zh) * 2022-11-11 2024-05-16 苏州元脑智能科技有限公司 一种存储集群升级控制方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105337765A (zh) * 2015-10-10 2016-02-17 上海新炬网络信息技术有限公司 一种分布式hadoop集群故障自动诊断修复系统
CN107357529A (zh) * 2017-07-11 2017-11-17 郑州云海信息技术有限公司 一种存储集群在线升级方法及系统
US20200150946A1 (en) * 2018-11-14 2020-05-14 Nutanix, Inc. System and method for the dynamic expansion of a cluster with co nodes before upgrade
CN112003730A (zh) * 2020-07-25 2020-11-27 苏州浪潮智能科技有限公司 一种集群快速部署的方法、系统、终端及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105337765A (zh) * 2015-10-10 2016-02-17 上海新炬网络信息技术有限公司 一种分布式hadoop集群故障自动诊断修复系统
CN107357529A (zh) * 2017-07-11 2017-11-17 郑州云海信息技术有限公司 一种存储集群在线升级方法及系统
US20200150946A1 (en) * 2018-11-14 2020-05-14 Nutanix, Inc. System and method for the dynamic expansion of a cluster with co nodes before upgrade
CN112003730A (zh) * 2020-07-25 2020-11-27 苏州浪潮智能科技有限公司 一种集群快速部署的方法、系统、终端及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
屠雪真等: "分布式系统高效升级方法研究", 《微型电脑应用》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113472884A (zh) * 2021-06-30 2021-10-01 潍柴动力股份有限公司 Ota升级方法和装置
CN115080093A (zh) * 2022-07-29 2022-09-20 济南浪潮数据技术有限公司 一种分布式系统升级的方法、装置、服务器及介质
WO2024099444A1 (zh) * 2022-11-11 2024-05-16 苏州元脑智能科技有限公司 一种存储集群升级控制方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112463195B (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
CN112463195B (zh) 一种集群分组在线升级的方法、系统、终端及存储介质
CN111274077A (zh) 一种磁盘阵列可靠性测试方法、系统、终端及存储介质
CN109445690B (zh) 一种raid卡性能优化方法、装置、终端及存储介质
CN112463239A (zh) Bios与bmc交互选项默认值修改方法、系统、终端及存储介质
CN111181774A (zh) 一种MapReduce任务的高可用方法、系统、终端及存储介质
CN112306784A (zh) 一种测试方法、装置、电子设备和测试系统
CN111949518A (zh) 一种生成故障检测脚本的方法、系统、终端及存储介质
CN111506331A (zh) 一种服务器bmc刷新方法、系统、终端及存储介质
CN111475106A (zh) 一种raid定制化创建方法、系统、终端及存储介质
CN112363826B (zh) 一种项目资源综合管理系统、方法、终端及存储介质
CN112003730A (zh) 一种集群快速部署的方法、系统、终端及存储介质
CN115879409B (zh) 验证方法、验证装置、介质及电子设备
CN111984287A (zh) 设备升级方法及系统
CN116450165A (zh) 一种快速搭建环境及部署程序的方法、系统、终端及存储介质
CN111124772A (zh) 一种云平台存储性能测试方法、系统、终端及存储介质
CN110703988B (zh) 一种分布式存储的存储池创建方法、系统、终端及存储介质
CN110175096B (zh) 一种gpu加压测试方法、系统、终端及存储介质
CN107203392A (zh) 一种小系统终端产品的多规约实现方法
CN112003739A (zh) 一种创建用户自动配额的方法、系统、终端及存储介质
CN113076111A (zh) 客制化集群配置方法、系统、终端及存储介质
CN111984275A (zh) 基于cpu架构类型的系统部署方法、系统、终端及存储介质
CN111752911A (zh) 一种基于Flume的数据传输方法、系统、终端及存储介质
CN112491732A (zh) 一种存储网络拥堵管理方法、系统、终端及存储介质
CN111966286A (zh) 一种多数据池分级迁移的方法及系统
CN111273867B (zh) 一种基于block的数据重定位方法、系统、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant