CN117149396B - 一种集群故障转移方法及装置、设备及存储介质 - Google Patents

一种集群故障转移方法及装置、设备及存储介质 Download PDF

Info

Publication number
CN117149396B
CN117149396B CN202311422613.XA CN202311422613A CN117149396B CN 117149396 B CN117149396 B CN 117149396B CN 202311422613 A CN202311422613 A CN 202311422613A CN 117149396 B CN117149396 B CN 117149396B
Authority
CN
China
Prior art keywords
cluster
service
data request
component
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311422613.XA
Other languages
English (en)
Other versions
CN117149396A (zh
Inventor
王星
邵朗
徐泽意
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Bige Big Data Co ltd
Original Assignee
Beijing Bige Big Data Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Bige Big Data Co ltd filed Critical Beijing Bige Big Data Co ltd
Priority to CN202311422613.XA priority Critical patent/CN117149396B/zh
Publication of CN117149396A publication Critical patent/CN117149396A/zh
Application granted granted Critical
Publication of CN117149396B publication Critical patent/CN117149396B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本公开涉及一种集群故障转移方法及装置、设备及存储介质,所述方法包括:监测每个集群对数据请求的响应情况;将监测到对数据请求无响应的集群,确定为目标集群;计算目标集群响应数据请求所占用资源;从目标集群之外的集群中,选择第一集群;为目标集群和第一集群建立通道,调取目标集群中与数据请求对应的实例,并将实例对应的Yaml文件提交至第一集群;控制第一集群根据Yaml文件部署生成相同的实例,并运行实例Pod;待Pod部署后成功运行,将数据请求调度为访问第一集群的实例服务地址,并将响应数据返回至请求端,将发生故障的目标集群的数据请求分发至其它正常运行的集群,以此来保障业务连续性,减少损失。

Description

一种集群故障转移方法及装置、设备及存储介质
技术领域
本公开涉及云计算技术领域,尤其涉及一种集群故障转移方法及装置、设备及存储介质。
背景技术
相关技术中,通常是针对集群内部多节点之间的故障转移,无法处理解决多个集群之间的故障转移。比如在多集群的应用场景下,一个业务系统部署在多个集群之上,若其中某个集群发生故障或资源不足无法响应请求,目前无法解决这个问题。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开的实施例提供了一种集群故障转移方法及装置、设备及存储介质。
第一方面,本公开的实施例提供了一种集群故障转移方法,应用于多个网络不同的集群,所述方法包括:
监测每个集群对数据请求的响应情况;
将监测到对数据请求无响应的集群,确定为目标集群;
计算目标集群响应所述数据请求所占用的资源;
从目标集群之外的集群中,选择用于响应所述数据请求的第一集群,并将数据请求分发至第一集群;
为目标集群和第一集群建立通道,调取目标集群中与数据请求对应的service实例,并将service实例对应的Yaml文件提交至第一集群;
通过第一集群的Apiserver地址和Token信息,控制该第一集群根据该Yaml文件部署生成相同的实例,并运行该实例Pod;
待Pod部署后成功运行,将该数据请求调度为访问service实例服务地址,并将响应数据返回至请求端。
在一种可能的实施方式中,所述计算目标集群响应所述数据请求所占用的资源,包括:
基于已知的数据请求与服务实例pod之间的对应关系,根据目标集群响应所述数据请求确定对应的服务实例pod;
将服务实例pod运行所需资源,确定为目标集群响应所述数据请求所占用的资源。
在一种可能的实施方式中,所述已知的数据请求与服务实例pod之间的对应关系通过以下步骤得到:
将历史记录中每次数据请求发起后响应的服务实例pod,与该数据请求形成对应关系。
在一种可能的实施方式中,所述待Pod部署后成功运行之后,所述方法还包括:
根据当前成功运行的调度情况,对数据请求与服务实例pod之间的对应关系进行调整。
在一种可能的实施方式中,所述从目标集群之外的集群中,选择用于响应所述数据请求的第一集群,包括:
对于每个集群数据,以节点为单位,拆分出与集群节点数量相同个的栅格数据,使得每个节点数据对应一个栅格数据;
对每个节点对应的栅格数据进行实时计算,将计算结果作为每个节点的运行状态和负载情况;
根据每个集群上的每个节点的运行状态和负载情况以及目标集群响应所述数据请求所占用的资源,从所有节点筛选出满足预设条件的节点;
根据优先级从大到小的顺序,对筛选出的节点进行排序;
将排序后节点中第一个节点作为目标节点;
将目标节点所在集群作为第一集群。
在一种可能的实施方式中,所述根据数据请求运行该实例Pod,包括:
根据数据请求选择第一集群中的目标节点调度运行该实例Pod。
在一种可能的实施方式中,所述为目标集群和第一集群建立通道,包括:
在与目标集群和第一集群分别连接的中心集群中部署预设的服务器组件;
在第一集群中部署预设的访问组件,在目标集群部署预设的代理组件,其中,代理组件的部署文件中包括与代理组件连接的服务器组件服务地址和业务ID, 访问组件的部署文件中包括与访问组件连接的服务器组件服务地址、业务ID、以及每个业务ID对应的映射的虚拟代理业务服务地址;
服务器组件部署完成后,对外暴露服务器组件TCP服务地址,其中,服务器组件用于提供跨集群网络连接通道;
代理组件部署完成后,通过代理组件的部署文件中的服务器组件服务地址,将代理组件所绑定的业务元数据信息注册到服务器组件的元数据库中,其中,业务元数据信息包括业务ID;
服务器组件接收访问组件的访问请求,基于元数据库,通过中心集群中部署的服务器组件,构建同一业务ID对应的访问组件与代理组件之间的通道,实现网络不同的集群之间的数据传输。
第二方面,本公开的实施例提供了一种集群故障转移装置,应用于多个网络不同的集群,所述装置包括:
监测模块,用于监测每个集群对数据请求的响应情况;
确定模块,用于将监测到对数据请求无响应的集群,确定为目标集群;
计算模块,用于计算目标集群响应所述数据请求所占用的资源;
选择模块,用于从目标集群之外的集群中,选择用于响应所述数据请求的第一集群,并将数据请求分发至第一集群;
建立模块,用于为目标集群和第一集群建立通道,调取目标集群中与数据请求对应的service实例,并将service实例对应的Yaml文件提交至第一集群;
控制模块,用于通过第一集群的Apiserver地址和Token信息,控制该第一集群根据该Yaml文件部署生成相同的实例,并运行该实例Pod;
调度模块,用于待Pod部署后成功运行,将该数据请求调度为访问service实例服务地址,并将响应数据返回至请求端。
第三方面,本公开的实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述的集群故障转移方法。
第四方面,本公开的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的集群故障转移方法。
本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部:
本公开实施例所述的集群故障转移方法,监测每个集群对数据请求的响应情况;将监测到对数据请求无响应的集群,确定为目标集群;计算目标集群响应所述数据请求所占用的资源;从目标集群之外的集群中,选择用于响应所述数据请求的第一集群,并将数据请求分发至第一集群;为目标集群和第一集群建立通道,调取目标集群中与数据请求对应的service实例,并将service实例对应的Yaml文件提交至第一集群;通过第一集群的Apiserver地址和Token信息,控制该第一集群根据该Yaml文件部署生成相同的实例,并运行该实例Pod;待Pod部署后成功运行,将该数据请求调度为访问service实例服务地址,并将响应数据返回至请求端,将发生故障的目标集群的数据请求分发至其它正常运行的集群,以此来保障业务连续性,减少损失。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出了根据本公开实施例的集群故障转移方法流程示意图;
图2示意性示出了根据本公开实施例的目标集群和第一集群建立通道的流程示意图;
图3示意性示出了根据本公开实施例的集群故障转移装置的结构框图;
图4示意性示出了根据本公开实施例的电子设备的结构框图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
参见图1,本公开的实施例提供了一种集群故障转移方法,应用于多个网络不同的集群,所述方法包括:
S1,监测每个集群对数据请求的响应情况。
S2,将监测到对数据请求无响应的集群,确定为目标集群。
S3,计算目标集群响应所述数据请求所占用的资源。
S4,从目标集群之外的集群中,选择用于响应所述数据请求的第一集群,并将数据请求分发至第一集群。
S5,为目标集群和第一集群建立通道,调取目标集群中与数据请求对应的service实例,并将service实例对应的Yaml文件提交至第一集群。
S6,通过第一集群的Apiserver地址和Token信息,控制该第一集群根据该Yaml文件部署生成相同的实例,并运行该实例Pod。
S7,待Pod部署后成功运行,将该数据请求调度为访问service实例服务地址,并将响应数据返回至请求端。
在本实施例,步骤S3中,所述计算目标集群响应所述数据请求所占用的资源,包括:
基于已知的数据请求与服务实例pod之间的对应关系,根据目标集群响应所述数据请求确定对应的服务实例pod;
将服务实例pod运行所需资源,确定为目标集群响应所述数据请求所占用的资源。
在本实施例中,所述已知的数据请求与服务实例pod之间的对应关系通过以下步骤得到:
将历史记录中每次数据请求发起后响应的服务实例pod,与该数据请求形成对应关系。
在本实施例,步骤S7中,所述待Pod部署后成功运行之后,所述方法还包括:
根据当前成功运行的调度情况,对数据请求与服务实例pod之间的对应关系进行调整。
在本实施例,步骤S4中,所述从目标集群之外的集群中,选择用于响应所述数据请求的第一集群,包括:
对于每个集群数据,以节点为单位,拆分出与集群节点数量相同个的栅格数据,使得每个节点数据对应一个栅格数据;
对每个节点对应的栅格数据进行实时计算,将计算结果作为每个节点的运行状态和负载情况;
根据每个集群上的每个节点的运行状态和负载情况以及目标集群响应所述数据请求所占用的资源,从所有节点筛选出满足预设条件的节点;
根据优先级从大到小的顺序,对筛选出的节点进行排序;
将排序后节点中第一个节点作为目标节点;
将目标节点所在集群作为第一集群。
在本实施例,步骤S6中,所述根据数据请求运行该实例Pod,包括:
根据数据请求选择第一集群中的目标节点调度运行该实例Pod。
在本实施例中,所述Service实例服务地址为运行Service实例的目标节点的服务地址。
参见图2,在步骤S5中,所述为目标集群和第一集群建立通道,包括:
S21,在与目标集群和第一集群分别连接的中心集群中部署预设的服务器组件;
S22,在第一集群中部署预设的访问组件,在目标集群部署预设的代理组件,其中,代理组件的部署文件中包括与代理组件连接的服务器组件服务地址和业务ID, 访问组件的部署文件中包括与访问组件连接的服务器组件服务地址、业务ID、以及每个业务ID对应的映射的虚拟代理业务服务地址;
S23,服务器组件部署完成后,对外暴露服务器组件TCP服务地址,其中,服务器组件用于提供跨集群网络连接通道;
S24,代理组件部署完成后,通过代理组件的部署文件中的服务器组件服务地址,将代理组件所绑定的业务元数据信息注册到服务器组件的元数据库中,其中,业务元数据信息包括业务ID;
S25,服务器组件接收访问组件的访问请求,基于元数据库,通过中心集群中部署的服务器组件,构建同一业务ID对应的访问组件与代理组件之间的通道,实现网络不同的集群之间的数据传输。
参见图3,本公开的实施例提供了一种集群故障转移装置,应用于多个网络不同的集群,所述装置包括:
监测模块11,用于监测每个集群对数据请求的响应情况;
确定模块12,用于将监测到对数据请求无响应的集群,确定为目标集群;
计算模块13,用于计算目标集群响应所述数据请求所占用的资源;
选择模块14,用于从目标集群之外的集群中,选择用于响应所述数据请求的第一集群,并将数据请求分发至第一集群;
建立模块15,用于为目标集群和第一集群建立通道,调取目标集群中与数据请求对应的service实例,并将service实例对应的Yaml文件提交至第一集群;
控制模块16,用于通过第一集群的Apiserver地址和Token信息,控制该第一集群根据该Yaml文件部署生成相同的实例,并运行该实例Pod;
调度模块17,用于待Pod部署后成功运行,将该数据请求调度为访问service实例服务地址,并将响应数据返回至请求端。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述实施例中,监测模块11、确定模块12、计算模块13、选择模块14、建立模块15、控制模块16和调度模块17中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。监测模块11、确定模块12、计算模块13、选择模块14、建立模块15、控制模块16和调度模块17中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,监测模块11、确定模块12、计算模块13、选择模块14、建立模块15、控制模块16和调度模块17中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
参见图4,本公开的实施例提供的电子设备,包括处理器1110、通信接口1120、存储器1130和通信总线1140,其中,处理器1110,通信接口1120,存储器1130通过通信总线1140完成相互间的通信;
存储器1130,用于存放计算机程序;
处理器1110,用于执行存储器1130上所存放的程序时,实现如下所示集群故障转移方法:
监测每个集群对数据请求的响应情况;
将监测到对数据请求无响应的集群,确定为目标集群;
计算目标集群响应所述数据请求所占用的资源;
从目标集群之外的集群中,选择用于响应所述数据请求的第一集群,并将数据请求分发至第一集群;
为目标集群和第一集群建立通道,调取目标集群中与数据请求对应的service实例,并将service实例对应的Yaml文件提交至第一集群;
通过第一集群的Apiserver地址和Token信息,控制该第一集群根据该Yaml文件部署生成相同的实例,并运行该实例Pod;
待Pod部署后成功运行,将该数据请求调度为访问service实例服务地址,并将响应数据返回至请求端。
上述的通信总线1140可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口1120用于上述电子设备与其他设备之间的通信。
存储器1130可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器1130还可以是至少一个位于远离前述处理器1110的存储装置。
上述的处理器1110可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本公开的实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的基于原始音频波形的端到端的语音伪装情绪检测方法。
该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的;也可以是单独存在,而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的基于原始音频波形的端到端的语音伪装情绪检测方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种集群故障转移方法,其特征在于,应用于多个网络不同的集群,所述方法包括:
监测每个集群对数据请求的响应情况;
将监测到对数据请求无响应的集群,确定为目标集群;
计算目标集群响应所述数据请求所占用的资源;
从目标集群之外的集群中,选择用于响应所述数据请求的第一集群,并将数据请求分发至第一集群;
为目标集群和第一集群建立通道,调取目标集群中与数据请求对应的service实例,并将service实例对应的Yaml文件提交至第一集群;
通过第一集群的Apiserver地址和Token信息,控制该第一集群根据该Yaml文件部署生成相同的实例,并运行该实例Pod;
待Pod部署后成功运行,将该数据请求调度为访问service实例服务地址,并将响应数据返回至请求端,
其中,所述为目标集群和第一集群建立通道,包括:
在与目标集群和第一集群分别连接的中心集群中部署预设的服务器组件;
在第一集群中部署预设的访问组件,在目标集群部署预设的代理组件,其中,代理组件的部署文件中包括与代理组件连接的服务器组件服务地址和业务ID, 访问组件的部署文件中包括与访问组件连接的服务器组件服务地址、业务ID、以及每个业务ID对应的映射的虚拟代理业务服务地址;
服务器组件部署完成后,对外暴露服务器组件TCP服务地址,其中,服务器组件用于提供跨集群网络连接通道;
代理组件部署完成后,通过代理组件的部署文件中的服务器组件服务地址,将代理组件所绑定的业务元数据信息注册到服务器组件的元数据库中,其中,业务元数据信息包括业务ID;
服务器组件接收访问组件的访问请求,基于元数据库,通过中心集群中部署的服务器组件,构建同一业务ID对应的访问组件与代理组件之间的通道,实现网络不同的集群之间的数据传输。
2.根据权利要求1所述的方法,其特征在于,所述计算目标集群响应所述数据请求所占用的资源,包括:
基于已知的数据请求与服务实例pod之间的对应关系,根据目标集群响应所述数据请求确定对应的服务实例pod;
将服务实例pod运行所需资源,确定为目标集群响应所述数据请求所占用的资源。
3.根据权利要求2所述的方法,其特征在于,所述已知的数据请求与服务实例pod之间的对应关系通过以下步骤得到:
将历史记录中每次数据请求发起后响应的服务实例pod,与该数据请求形成对应关系。
4.根据权利要求3所述的方法,其特征在于,所述待Pod部署后成功运行之后,所述方法还包括:
根据当前成功运行的调度情况,对数据请求与服务实例pod之间的对应关系进行调整。
5.根据权利要求1所述的方法,其特征在于,所述从目标集群之外的集群中,选择用于响应所述数据请求的第一集群,包括:
对于每个集群数据,以节点为单位,拆分出与集群节点数量相同个的栅格数据,使得每个节点数据对应一个栅格数据;
对每个节点对应的栅格数据进行实时计算,将计算结果作为每个节点的运行状态和负载情况;
根据每个集群上的每个节点的运行状态和负载情况以及目标集群响应所述数据请求所占用的资源,从所有节点筛选出满足预设条件的节点;
根据优先级从大到小的顺序,对筛选出的节点进行排序;
将排序后节点中第一个节点作为目标节点;
将目标节点所在集群作为第一集群。
6.根据权利要求5所述的方法,其特征在于,所述运行该实例Pod,包括:
选择第一集群中的目标节点调度运行该实例Pod。
7.一种集群故障转移装置,其特征在于,应用于多个网络不同的集群,所述装置包括:
监测模块,用于监测每个集群对数据请求的响应情况;
确定模块,用于将监测到对数据请求无响应的集群,确定为目标集群;
计算模块,用于计算目标集群响应所述数据请求所占用的资源;
选择模块,用于从目标集群之外的集群中,选择用于响应所述数据请求的第一集群,并将数据请求分发至第一集群;
建立模块,用于为目标集群和第一集群建立通道,调取目标集群中与数据请求对应的service实例,并将service实例对应的Yaml文件提交至第一集群;
控制模块,用于通过第一集群的Apiserver地址和Token信息,控制该第一集群根据该Yaml文件部署生成相同的实例,并运行该实例Pod;
调度模块,用于待Pod部署后成功运行,将该数据请求调度为访问service实例服务地址,并将响应数据返回至请求端,
其中,所述为目标集群和第一集群建立通道,包括:
在与目标集群和第一集群分别连接的中心集群中部署预设的服务器组件;
在第一集群中部署预设的访问组件,在目标集群部署预设的代理组件,其中,代理组件的部署文件中包括与代理组件连接的服务器组件服务地址和业务ID, 访问组件的部署文件中包括与访问组件连接的服务器组件服务地址、业务ID、以及每个业务ID对应的映射的虚拟代理业务服务地址;
服务器组件部署完成后,对外暴露服务器组件TCP服务地址,其中,服务器组件用于提供跨集群网络连接通道;
代理组件部署完成后,通过代理组件的部署文件中的服务器组件服务地址,将代理组件所绑定的业务元数据信息注册到服务器组件的元数据库中,其中,业务元数据信息包括业务ID;
服务器组件接收访问组件的访问请求,基于元数据库,通过中心集群中部署的服务器组件,构建同一业务ID对应的访问组件与代理组件之间的通道,实现网络不同的集群之间的数据传输。
8.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6中任一项所述的集群故障转移方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6中任一项所述的集群故障转移方法。
CN202311422613.XA 2023-10-31 2023-10-31 一种集群故障转移方法及装置、设备及存储介质 Active CN117149396B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311422613.XA CN117149396B (zh) 2023-10-31 2023-10-31 一种集群故障转移方法及装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311422613.XA CN117149396B (zh) 2023-10-31 2023-10-31 一种集群故障转移方法及装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN117149396A CN117149396A (zh) 2023-12-01
CN117149396B true CN117149396B (zh) 2024-01-19

Family

ID=88906568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311422613.XA Active CN117149396B (zh) 2023-10-31 2023-10-31 一种集群故障转移方法及装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117149396B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113746887A (zh) * 2020-11-05 2021-12-03 北京沃东天骏信息技术有限公司 一种跨集群数据请求处理方法、设备及存储介质
CN115794769A (zh) * 2022-10-09 2023-03-14 云和恩墨(北京)信息技术有限公司 高可用数据库管理的方法、电子设备及存储介质
CN116719647A (zh) * 2023-08-09 2023-09-08 苏州浪潮智能科技有限公司 超算集群管理方法、装置、编排管理设备及超算集群

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11588698B2 (en) * 2019-06-19 2023-02-21 Hewlett Packard Enterprise Development Lp Pod migration across nodes of a cluster

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113746887A (zh) * 2020-11-05 2021-12-03 北京沃东天骏信息技术有限公司 一种跨集群数据请求处理方法、设备及存储介质
CN115794769A (zh) * 2022-10-09 2023-03-14 云和恩墨(北京)信息技术有限公司 高可用数据库管理的方法、电子设备及存储介质
CN116719647A (zh) * 2023-08-09 2023-09-08 苏州浪潮智能科技有限公司 超算集群管理方法、装置、编排管理设备及超算集群

Also Published As

Publication number Publication date
CN117149396A (zh) 2023-12-01

Similar Documents

Publication Publication Date Title
CN107872402B (zh) 全局流量调度的方法、装置及电子设备
CN109802986B (zh) 设备管理方法、系统、装置及服务器
CN111858007A (zh) 一种基于消息中间件的任务调度方法方法和装置
US8832215B2 (en) Load-balancing in replication engine of directory server
CN111147310A (zh) 一种日志跟踪处理的方法、装置、服务器及介质
CN117155934B (zh) 一种跨集群通信方法及装置、设备及存储介质
CN116933886B (zh) 一种量子计算执行方法、系统、电子设备及存储介质
CN117149396B (zh) 一种集群故障转移方法及装置、设备及存储介质
CN112527480A (zh) 端到端双活方法、装置、设备及存储介质
CN111831408A (zh) 异步任务处理方法、装置、电子设备及介质
CN114546493A (zh) 核共享方法及装置、处理核、电子设备、介质
CN109213883B (zh) 灾害模型群服务链编排方法及装置、终端、存储介质
CN114979282B (zh) 任务调度方法、装置、存储介质以及电子设备
CN112711466B (zh) 悬挂事务巡检方法和装置、电子设备和存储介质
CN111884932B (zh) 一种链路确定方法、装置、设备和计算机可读存储介质
CN112988405B (zh) 微服务自动降级方法、装置及计算设备
CN109324925A (zh) 分布式框架的事务处理方法及装置
CN114625501A (zh) 一种基于区块链的自动取证调度系统及方法
CN114153668A (zh) 自动化测试方法、装置、电子设备及存储介质
US10771539B2 (en) Systems and methods for cross-cluster service provision
CN117149445B (zh) 一种跨集群负载均衡方法及装置、设备及存储介质
CN111506846A (zh) Web页面生成方法、装置、电子设备及存储介质
CN112019359B (zh) 基于ims网络的业务处理方法及系统
CN113986955B (zh) 业务链的确定方法、装置、电子设备及介质
CN112819634B (zh) 交易处理方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant