CN113055236B - 集群业务节点故障的处理方法、装置、设备及存储介质 - Google Patents

集群业务节点故障的处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113055236B
CN113055236B CN202110345232.0A CN202110345232A CN113055236B CN 113055236 B CN113055236 B CN 113055236B CN 202110345232 A CN202110345232 A CN 202110345232A CN 113055236 B CN113055236 B CN 113055236B
Authority
CN
China
Prior art keywords
target
target service
service
service node
physical interface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110345232.0A
Other languages
English (en)
Other versions
CN113055236A (zh
Inventor
肖勤勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Amihuasheng Data Technology Jiangsu Co ltd
Original Assignee
Amihuasheng Data Technology Jiangsu Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Amihuasheng Data Technology Jiangsu Co ltd filed Critical Amihuasheng Data Technology Jiangsu Co ltd
Priority to CN202110345232.0A priority Critical patent/CN113055236B/zh
Publication of CN113055236A publication Critical patent/CN113055236A/zh
Application granted granted Critical
Publication of CN113055236B publication Critical patent/CN113055236B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开一种集群业务节点故障的处理方法、装置、设备及存储介质,该方法包括:在目标业务节点中的目标服务退出后,获取所述目标服务的配置信息,所述配置信息包括所述目标服务退出后需要执行down掉所述目标业务节点对应的目标物理接口的信息;根据所述配置信息down掉所述目标物理接口,以使负载均衡设备感知到所述目标业务节点故障。本发明通过业务节点中的目标服务,实现业务服务状态与物理接口状态联动,使负载均衡设备能够及时感知到业务节点的状态为故障,从而避免业务服务质量受损,解决了现有技术只能实现业务节点物理连接故障的隔离的问题,有效提高了业务节点故障隔离的及时性、准确性,从而提高业务服务质量。

Description

集群业务节点故障的处理方法、装置、设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种集群业务节点故障的处理方法、装置、设备及存储介质。
背景技术
随着大数据及云计算的飞速发展,越来越多的业务需要多个业务节点(即服务器)组成服务器集群对外提供高并发、大流量的业务处理能力。在众多的集群架构中,普遍使用负载均衡设备将业务请求按一定策略分发到集群中的多个业务节点,当服务器集群中某个业务节点出现故障时,需要将业务请求分发到其他业务节点处理,保证对外的业务服务不中断,因此需要相应的装置与负载均衡设备配合来实现业务节点故障的自动隔离和恢复,使得对外业务受损最小。
现有技术中,通常依靠物理连接实现故障隔离及恢复,当某业务节点与负载均衡设备之间的物理接口的状态为up(即物理信号连接正常)时,负载均衡设备才会将相应的业务请求转发到该业务节点,当该业务节点的物理接口的状态为down(即物理信号连接异常)时,负载均衡设备则会将原本转发到该业务节点的业务请求转发给其他业务节点。
但是,现有技术这种故障隔离及恢复方式,只能解决业务节点的物理连接故障,比如光纤网线的断开、整机的服务器重启或下电等情况才会触发该业务节点与负载均衡设备的物理接口down,但是,在很多情况下,业务节点的故障还表现为业务不正常但是物理接口是up的,负载均衡设备无法感知该业务节点的故障,会继续将业务请求转发到该业务节点,造成业务服务质量受损。
发明内容
本发明实施例提供一种集群业务节点故障的处理方法、装置、设备及存储介质,以解决现有技术对业务不正常无法感知故障造成业务服务质量较差的情况。
第一个方面,本发明实施例提供一种集群业务节点故障的处理方法,包括:
在目标业务节点中的目标服务退出后,获取所述目标服务的配置信息,所述配置信息包括所述目标服务退出后需要执行down掉所述目标业务节点对应的目标物理接口的信息;
根据所述配置信息down掉所述目标物理接口,以使负载均衡设备感知到所述目标业务节点故障。
第二个方面,本发明实施例提供一种集群业务节点故障的处理装置,包括:
获取模块,用于在目标业务节点中的目标服务退出后,获取所述目标服务的配置信息,所述配置信息包括所述目标服务退出后需要执行down掉所述目标业务节点对应的目标物理接口的信息;
处理模块,用于根据所述配置信息down掉所述目标物理接口,以使负载均衡设备感知到所述目标业务节点故障。
第三个方面,本发明实施例提供一种电子设备,包括:存储器、收发器及至少一个处理器;
所述处理器、所述存储器与所述收发器通过电路互联;
所述存储器存储计算机执行指令;所述收发器,用于接收负载均衡设备转发的业务请求;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一个方面以及第一个方面各种可能的设计所述的方法。
第四个方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一个方面以及第一个方面各种可能的设计所述的方法。
本发明实施例提供的集群业务节点故障的处理方法、装置、设备及存储介质,通过业务节点的目标服务,实现业务服务状态与物理接口状态联动,当目标服务因各种原因退出后,即将目标业务节点的物理接口状态置为down,以使负载均衡设备能够感知到该目标业务节点的状态为故障,从而不再将业务请求转发给该目标业务节点,避免目标业务节点在业务异常时,因物理接口up导致负载均衡设备会继续向该目标业务节点转发业务请求的情况发生,从而避免业务服务质量受损,解决了现有技术只能实现业务节点物理连接故障的隔离的问题,有效提高了业务节点故障隔离的及时性、准确性,从而提高业务服务质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的集群业务节点故障的处理方法的流程示意图;
图2为本发明一实施例提供的集群业务节点故障的处理方法的一种示例性流程示意图;
图3为本发明一实施例提供的集群业务节点故障的处理装置的结构示意图;
图4为本发明一实施例提供的集群业务节点故障的处理装置的一种示例性结构示意图;
图5为本发明一实施例提供的电子设备的结构示意图;
图6为本发明一实施例提供的电子设备应用的处理系统架构示意图;
图7为本发明一实施例提供的业务节点操作系统运行过程示意图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中,“多个”的含义是两个及两个以上,除非另有明确具体的限定。
下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
本发明一实施例提供一种集群业务节点故障的处理方法,用于服务器集群中业务节点故障的隔离。本实施例的执行主体为集群业务节点故障的处理装置,该装置可以设置在电子设备中,该电子设备可以是服务器。
如图1所示,为本实施例提供的集群业务节点故障的处理方法的流程示意图,该方法包括:
步骤101,在目标业务节点中的目标服务退出后,获取目标服务的配置信息,配置信息包括目标服务退出后需要执行down掉目标业务节点对应的目标物理接口的信息。
具体的,目标业务节点可以是服务器集群中的任意的业务节点,预先在目标业务节点注册用于监测业务节点故障的服务(称为目标服务),或者在目标业务节点已有服务中的关键服务配置相应的配置信息,使得该关键服务作为上述目标服务,或者还可以是根据实际需求在目标业务节点的多个或全部服务中都配置相应的配置信息,使得该多个或全部服务均作为目标服务,目标服务在退出后需要执行down掉目标物理接口的命令,即执行将目标物理接口状态更新为down状态的命令,关键服务可以是响应业务请求的服务,也可以根据实际需求确定关键服务,本实施例不做限定;若目标服务退出(无论是什么原因退出,比如因程序段错误或异常操作系统杀掉该目标服务导致该目标服务退出、该目标服务的守护进程或其他守护进程检测到该目标服务无心跳将该目标服务退出、该目标服务因自身原因主动退出,等等),则表示业务节点故障,操作系统管理服务的守护进程或者该目标服务的守护进程则可以感知到该目标服务退出,集群业务节点故障的处理装置可以通过守护进程获取该目标服务的配置信息,该目标服务的配置信息包括该目标服务退出后需要执行的命令,还可以包括该目标服务启动时需要执行的命令、在其他哪个服务后启动、在其他哪个服务前启动及其他相关信息,具体可以根据实际需求设置,比如该目标服务的配置信息包括该目标服务退出后需要执行down掉目标业务节点对应的目标物理接口的信息。
步骤102,根据配置信息down掉目标物理接口,以使负载均衡设备感知到目标业务节点故障。
具体的,该装置获取到该目标服务的配置信息后,则可以根据该配置信息down掉目标物理接口,以使负载均衡设备能够感知到该目标业务节点的状态为故障,从而不再将业务请求转发给该目标业务节点,避免目标业务节点在业务异常时,因物理接口up导致负载均衡设备会继续向该目标业务节点转发业务请求的情况发生。
可选地,负载均衡设备可以由三层交换机实现,在三层交换机上配置等价路由,实现将业务请求均衡转发到各业务节点,等价路由的配置方式为现有技术,在此不再赘述。
可选地,负载均衡设备也可以是由其他任意可实施的负载均衡设备实现,具体可以根据实际需求设置,本实施例不做限定。
可选地,根据配置信息down掉目标物理接口可以通过目标业务节点的操作系统守护进程实现,也可以是根据实际需求为目标服务设置单独的守护进程实现,具体可以根据实际需求设置,本实施例不做限定。
本实施例提供的集群业务节点故障的处理方法,通过业务节点的目标服务,实现业务服务状态与物理接口状态联动,当目标服务因各种原因退出后,即将目标业务节点的物理接口状态置为down,以使负载均衡设备能够感知到该目标业务节点的状态为故障,从而不再将业务请求转发给该目标业务节点,避免目标业务节点在业务异常时,因物理接口up导致负载均衡设备会继续向该目标业务节点转发业务请求的情况发生,从而避免业务服务质量受损,解决了现有技术只能实现业务节点物理连接故障的隔离的问题,有效提高了业务节点故障隔离的及时性、准确性,从而提高业务服务质量。
为了使本发明的技术方案更加清楚,本发明另一实施例对上述实施例提供的方法做进一步补充说明。
如图2所示,为本实施例提供的集群业务节点故障的处理方法的一种示例性流程示意图,为了使业务节点投入使用或者在故障解决后能够及时恢复使用,作为一种可实施的方式,在上述实施例的基础上,可选地,该方法还可以包括:
步骤2011,在目标业务节点启动时,保持目标业务节点对应的目标物理接口的状态为down状态。
步骤2012,在目标服务启动后,将目标物理接口的状态更新为up状态,以使负载均衡设备感知到目标业务节点非故障。
具体的,在目标业务节点注册目标服务或者配置已有服务作为目标服务后,在将目标业务节点投入使用时,或者目标业务节点故障解决后恢复使用时,可以启动目标业务节点,在启动目标业务节点进行操作系统初始化时,保持目标业务节点的目标物理接口的状态为down状态,而不会被初始化为up状态,在目标服务启动并进行基本业务初始化后,才将目标物理接口的状态更新为up状态,以使负载均衡设备感知到目标业务节点非故障,从而可以将业务请求转发给该目标业务节点,实现目标业务节点的投入使用或故障解决后的恢复使用。
在一实施方式中,为了保证业务节点的业务服务状态与物理接口状态的一致性,将目标物理接口的状态更新为up状态,具体可以包括:
通过目标服务调用第一系统命令将目标物理接口的状态更新为up状态,第一系统命令为使物理接口up的命令。
具体的,在目标服务启动并进行基本业务初始化后,保证目标服务可以正常处理业务请求,才由目标服务调用第一系统命令将目标物理接口的状态更新为up状态,负载均衡设备则可以感知到该目标业务节点可以处理业务请求,从而可以将业务请求转发给该目标业务节点,从而保证目标业务节点在物理接口up状态下确实能够正常进行业务处理,避免先up物理接口可能目标业务节点并不能正常处理业务请求的情况发生。
示例性的,目标业务节点的操作系统以centos7为例,注册或配置的目标服务可以称为procsrv,可以将网络接口(即物理接口)的配置文件的ONBOOT选项设为no,procsrv在进行基本业务初始化可以正常处理业务请求后,调用系统命令ifconfig或ifup,使物理接口up,负载均衡设备即可感知到该物理接口up,等价路由生效,可以将业务请求转发到该目标业务节点处理。
在实际应用中,对于不同的操作系统使物理接口up的命令可能不同,具体可以根据实际需求设置。
在一实施方式中,为了简化业务逻辑,在上述实施例的基础上,可选地,在目标业务节点启动之后,且在目标服务启动之前,该方法还包括:启动操作系统守护进程;相应地,根据配置信息down掉目标物理接口,包括:通过操作系统守护进程调用第二系统命令将目标物理接口的状态更新为down状态,第二系统命令为down掉物理接口的命令。
具体的,操作系统守护进程用于守护注册的相应的服务,负责管理服务的启动及退出,在目标业务节点启动并初始化后,操作系统守护进程启动,操作系统守护进程拉起目标服务,使目标服务启动,在目标服务启动后,调用系统命令将目标物理接口的状态更新为up状态,以使负载均衡设备感知到目标业务节点非故障,从而可以将业务请求转发给该目标业务节点,实现目标业务节点的投入使用或故障解决后的恢复使用;当目标服务因各种原因退出后,通过该操作系统守护进程来调用down掉物理接口的命令将目标物理接口的状态更新为down状态,使得负载均衡设备能够感知到该目标业务节点故障,从而不再将业务请求转发给该目标业务节点,及时有效地实现业务节点故障隔离。
基于操作系统的守护进程机制,从操作系统级监控服务状态,实现业务服务状态与物理接口状态联动,从而可以实现对因各种业务异常退出导致的业务中断,不需要单独的守护进程与负载均衡设备之间进行交互,有效简化业务逻辑,使业务逻辑简单有效,并且现有技术中采用探测报文的保活探测方式需要一定数量的报文丢失才能确定故障,比如10秒钟的报文丢失,时间窗口较大,这段时间业务已经受损,本发明相对于现有技术,不需要长期的时间窗口,服务退出系统能够立即捕捉到,保证业务中断的时间最短;此外,现有技术中采用探测报文的的保活探测方式,对负载均衡器及业务节点的守护进程有很高的要求,比如负载均衡器需要采用F5设备,价格昂贵,成本较高,且为了保证应用层探测机制的灵活性和准确性,业务节点的守护进程需要监控的点非常多,逻辑非常复杂,本发明相对于现有技术的保活探测方式,仅采用简单的三层交换机作为负载均衡设备即可有效实现业务节点因各种原因的故障隔离,无需昂贵的负载均衡器,有效降低成本,并且简化业务逻辑。
示例性的,基于linux守护进程机制,实现业务服务状态与物理接口状态联动,仍以centos7操作系统为例,可以配置目标服务procsrv的退出后执行的命令ExecStopPost=/tmp/ifdown.sh ens3,其中,ifdown.sh是一个位于/tmp目录的脚本,该脚本的具体位置不做限定,有执行权限的任何位置都可以,ens3是需要down掉的网络接口(即物理接口)名称,这里只是示例性的名称,具体名称可以根据实际需求设置,该名称可以在目标服务procsrv中约定,也可以通过其他配置文件获取,具体设置方式为现有技术,在此不再赘述。
示例性的,ifdown.sh的内容如下:
#!/bin/bash
ifconfig$1down
其中,$1是传入的参数,本示例中是ens3,该脚本的主要功能是使$1指定的物理接口down掉,不同的操作系统有不同的命令,具体命令不做限定。
为了使目标服务能够实现上述的功能,作为另一种可实施的方式,在上述实施例的基础上,可选地,该方法还包括:
接收终端发送的服务注册请求,服务注册请求包括待注册的目标服务的配置信息;响应于服务注册请求,对目标服务进行注册。
具体的,为了实现基于目标服务对目标业务节点业务状态的监控,需要预先向操作系统的守护进程注册该目标服务,用户可以通过终端向目标业务节点发送服务注册请求,服务注册请求包括待注册的该目标服务的配置信息,目标业务节点接收到终端发送的服务注册请求后,对该目标服务进行注册,以使该目标服务退出后,集群业务节点故障的处理装置可以获取到该目标服务的配置信息,进而基于配置信息调用系统命令将该目标业务节点的物理接口down掉,实现目标业务节点的故障隔离,避免负载均衡设备继续向该目标业务节点转发业务请求。
可选地,对目标服务进行注册,具体可以包括:将目标服务的配置信息存储到预设区域。
示例性的,目标服务配置的完整示例如下:
[Unit]
Description=procsrv
[Service]
Type=simple
User=root
Group=root
ExecStart=/home/procsrv
Restart=always
StartLimitInterval=0
SuccessExitStatus=143
LimitCORE=536870912
LimitNOFILE=65536
WorkingDirectory=/home
ExecStopPost=/tmp/ifdown.sh ens3
[Install]
WantedBy=multi-user.target
其中,User和Group是执行该目标服务procsrv的用户,在实际应用中不仅仅限于root用户,具体可以根据实际需求设置,ExecStart表示目标服务procsrv实际执行的二进制文件路径,具体路径可以根据实际需求设置,WorkingDirectory表示该目标服务procsrv的工作目录,具体可以根据实际需求设置,ExecStopPost表示该目标服务退出后需要执行的命令的二进制文件路径,具体可以根据实际需求设置。
可选地,该方法还可以包括:接收终端发送的服务配置信息更新请求,服务配置信息更新请求包括待更新服务的标识信息及新配置信息;根据所述服务配置信息更新请求更新待更新服务的标识信息所对应的第一服务的配置信息,并将该第一服务作为目标服务。
具体的,新配置信息可以包括需要更新的部分配置信息,或者新配置信息包括全部配置信息,只是其中部分配置信息为更新后的内容,比如新配置信息包括第一服务退出后需要执行down掉目标业务节点对应的目标物理接口的信息,第一服务启动后需要调用系统命令使目标物理接口up的信息,等等,具体可以根据实际需求设置。
需要说明的是,本实施例中各可实施的方式可以单独实施,也可以在不冲突的情况下以任意组合方式结合实施本发明不做限定。
本实施例提供的集群业务节点故障的处理方法,在业务节点启动时,不自动初始化业务节点与负载均衡设备之间的网络接口,而是保持该网络接口的down状态,当目标服务启动进行基本的业务初始化后,可以正常处理业务请求,调用系统命令,使网络接口up,从而负载均衡设备能够感知到该网络接口up,等价路由生效,可以将业务请求转发到该业务节点处理;并且可以基于操作系统守护进程机制实现业务服务状态与物理接口状态联动,从而可以处理各种服务异常退出导致的业务中断,不需要单独的守护进程与负载均衡设备进行交互,业务逻辑简单有效;且本发明中负载均衡设备采用三层交换机即可实现故障隔离与恢复,无需昂贵的负载均衡器;此外,本发明不需要长期的时间窗口,服务退出系统能立刻捕捉到,保证业务中断时间最短。
以上对本发明提供的集群业务节点故障的处理方法进行了详细说明,下面进一步对本发明的集群业务节点故障的处理装置进行说明。
本发明再一实施例提供一种集群业务节点故障的处理装置,用于执行上述实施例的方法。
如图3所示,为本实施例提供的集群业务节点故障的处理装置的结构示意图,该装置30包括:获取模块31和处理模块32。
其中,获取模块,用于在目标业务节点中的目标服务退出后,获取目标服务的配置信息,配置信息包括目标服务退出后需要执行down掉目标业务节点对应的目标物理接口的信息;处理模块,用于根据配置信息down掉目标物理接口,以使负载均衡设备感知到目标业务节点故障。
具体的,目标服务的配置信息在注册时存储到预设区域,在实际应用中,当目标服务退出后,该装置的获取模块可以从预设区域获取该目标服务的配置信息,并发送给处理模块,处理模块根据配置信息执行目标服务退出后需要执行的任务,将指定的目标物理接口down掉,以使负载均衡设备能够感知到该目标业务节点故障,避免负载均衡设备继续向该目标业务节点转发业务请求,从而及时有效地实现了业务节点故障隔离。
关于本实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,且能够达到相同的技术效果,此处将不做详细阐述说明。
本发明又一实施例对上述实施例提供的装置做进一步补充说明。
为了使目标业务节点能够投入使用或者在故障解决后能够恢复使用,作为一种可实施的方式,在上述实施例的基础上,可选地,处理模块,还用于:
在目标业务节点启动时,保持目标业务节点对应的目标物理接口的状态为down状态;在目标服务启动后,将目标物理接口的状态更新为up状态,以使负载均衡设备感知到目标业务节点非故障。
可选地,该装置还可以包括启动模块,用于在目标业务节点启动时,保持目标业务节点对应的目标物理接口的状态为down状态;处理模块,还用于在目标服务启动后,将目标物理接口的状态更新为up状态,以使负载均衡设备感知到目标业务节点非故障。
可选地,该装置还可以包括第一处理子模块和第二处理子模块。其中,第一处理子模块用于在目标业务节点启动时,保持目标业务节点对应的目标物理接口的状态为down状态;第二处理子模块用于在目标服务启动后,将目标物理接口的状态更新为up状态,以使负载均衡设备感知到目标业务节点非故障;具体模块划分可以根据实际需求设置。
可选地,处理模块,具体用于:
通过目标服务调用第一系统命令将目标物理接口的状态更新为up状态,第一系统命令为使物理接口up的命令。
可选地,处理模块,还用于在目标业务节点启动之后,且在目标服务启动之前,启动操作系统守护进程;处理模块,具体用于通过操作系统守护进程调用第二系统命令将目标物理接口的状态更新为down状态,第二系统命令为使物理接口down掉的命令。
具体的,处理模块启动操作系统守护进程后,通过操作系统守护进程守护目标服务的启动及退出,当操作系统守护进程监测到目标服务退出后,处理模块通过操作系统守护进程调用第二系统命令将目标物理接口的状态更新为down状态。
作为另一种可实施的方式,如图4所示,为本实施例提供的集群业务节点故障的处理装置的一种示例性结构示意图,该装置还可以包括接收模块33和注册模块34。
其中,接收模块,用于接收终端发送的服务注册请求,服务注册请求包括待注册的目标服务的配置信息;注册模块,用于响应于服务注册请求,对目标服务进行注册。
具体的,用户通过终端向目标业务节点发送服务注册请求,目标业务节点的集群业务节点故障的处理装置中的接收模块接收该服务注册请求并发送给注册模块,注册模块响应于服务注册请求,对目标服务进行注册。
可选地,注册模块,具体用于响应于服务注册请求,将目标服务的配置信息存储到预设区域。
需要说明的是,本实施例中各可实施的方式可以单独实施,也可以在不冲突的情况下以任意组合方式结合实施本发明不做限定。
关于本实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,且能够达到相同的技术效果,此处将不做详细阐述说明。
本发明再一实施例提供一种电子设备,用于执行上述实施例提供的方法。该电子设备可以是服务器。
如图5所示,为本实施例提供的电子设备的结构示意图。该电子设备50包括:存储器51、收发器52及至少一个处理器53。
其中,处理器、存储器与收发器通过电路互联;存储器存储计算机执行指令;收发器,用于接收负载均衡设备转发的业务请求;至少一个处理器执行存储器存储的计算机执行指令,使得至少一个处理器执行如上任一实施例提供的方法。
具体的,用户通过终端向服务器(业务节点)发送服务注册请求,服务器的收发器接收终端发送的服务注册请求并发送给处理器,处理器响应于服务注册请求,读取并执行存储器存储的计算机执行指令,以实现如上任一实施例提供的方法。
可选地,收发器还可以接收负载均衡设备转发的客户端的业务请求,还可以向客户端发送业务请求对应的响应结果。
本发明的电子设备可以应用于任意需要负载均衡的应用场景中,作为服务器集群中的业务节点。
示例性的,如图6所示,为本实施例提供的电子设备应用的处理系统架构示意图。该处理系统包括客户端、负载均衡设备及多个电子设备组成的服务器集群,每个电子设备作为一个业务节点。用户通过客户端发送业务请求,用户的业务请求由负载均衡设备按照一定的负载均衡规则转发给相应的业务节点,负载均衡设备与各业务节点通过物理接口连接,每个业务节点均注册有上述的目标服务,用于业务状态监控,对于每个业务节点,当目标服务因各种业务异常退出时,可以将该业务节点与负载均衡设备之间的物理接口down掉,实现该业务节点的故障隔离。
该处理系统中,负载均衡设备采用三层交换机实现,在三层交换机上配置等价路由,依靠等价路由将客户端发送的业务请求转发到各个业务节点,当交换机感知到某业务节点的物理接口down掉时,则将原本要转发到该业务节点的业务请求转发到其他业务节点处理,避免业务中断。三层交换机的具体工作原理为现有技术,在此不再赘述。
示例性的,如图7所示,为本实施例提供的业务节点操作系统运行过程示意图,这里以linux系统为例,运行过程具体包括:
1、业务节点服务器启动,操作系统初始化,物理接口保持down。
2、linux守护进程启动。
3、目标服务procsrv启动。
4、调用系统命令,使物理接口up。
5、若linux守护进程检测到procsrv退出,执行procsrv退出后要执行的命令,调用系统命令ifdown.sh使物理接口down。
需要说明的是,本实施例的电子设备能够实现上述任一实施例提供的方法,且能够达到相同的技术效果,在此不再赘述。
本发明又一实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现如上任一实施例提供的方法。
需要说明的是,本实施例的计算机可读存储介质能够实现上述任一实施例提供的方法,且能够达到相同的技术效果,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求书指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

Claims (13)

1.一种集群业务节点故障的处理方法,适用于业务节点,其特征在于,包括:
在目标业务节点中的目标服务退出后,获取注册于目标业务节点的所述目标服务的配置信息,所述配置信息包括所述目标服务退出后需要执行down掉所述目标业务节点对应的目标物理接口的信息;
根据所述配置信息down掉所述目标物理接口,以使负载均衡设备感知到所述目标业务节点故障而不再向所述目标业务节点转发任何业务请求。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述目标业务节点启动时,保持所述目标业务节点对应的目标物理接口的状态为down状态;
在所述目标服务启动后,将所述目标物理接口的状态更新为up状态,以使所述负载均衡设备感知到所述目标业务节点非故障。
3.根据权利要求2所述的方法,其特征在于,所述将所述目标物理接口的状态更新为up状态,包括:
通过所述目标服务调用第一系统命令将所述目标物理接口的状态更新为up状态,所述第一系统命令为使物理接口up的命令。
4.根据权利要求2所述的方法,其特征在于,在所述目标业务节点启动之后,且在所述目标服务启动之前,所述方法还包括:
启动操作系统守护进程;
所述根据所述配置信息down掉所述目标物理接口,包括:
通过所述操作系统守护进程调用第二系统命令将所述目标物理接口的状态更新为down状态,所述第二系统命令为down掉物理接口的命令。
5.根据权利要求1-4任一项所述的方法,其特征在于,在获取注册于目标业务节点的所述目标服务的配置信息之前,所述方法还包括:
接收终端发送的服务注册请求,所述服务注册请求包括待注册的所述目标服务的配置信息;
响应于所述服务注册请求,对所述目标服务进行注册。
6.根据权利要求5所述的方法,其特征在于,所述响应于所述服务注册请求,对所述目标服务进行注册,包括:
将所述目标服务的配置信息存储到目标业务节点的预设区域。
7.一种集群业务节点故障的处理装置,配置于业务节点,其特征在于,包括:
获取模块,用于在目标业务节点中的目标服务退出后,获取注册于目标业务节点的所述目标服务的配置信息,所述配置信息包括所述目标服务退出后需要执行down掉所述目标业务节点对应的目标物理接口的信息;
处理模块,用于根据所述配置信息down掉所述目标物理接口,以使负载均衡设备感知到所述目标业务节点故障而不再向所述目标业务节点转发任何业务请求。
8.根据权利要求7所述的装置,其特征在于,所述处理模块,还用于:
在所述目标业务节点启动时,保持所述目标业务节点对应的目标物理接口的状态为down状态;
在所述目标服务启动后,将所述目标物理接口的状态更新为up状态,以使所述负载均衡设备感知到所述目标业务节点非故障。
9.根据权利要求8所述的装置,其特征在于,所述处理模块,具体用于:
通过所述目标服务调用第一系统命令将所述目标物理接口的状态更新为up状态,所述第一系统命令为使物理接口up的命令。
10.根据权利要求8所述的装置,其特征在于,所述处理模块,还用于在所述目标业务节点启动之后,且在所述目标服务启动之前,启动操作系统守护进程;
所述处理模块,具体用于通过所述操作系统守护进程调用第二系统命令将所述目标物理接口的状态更新为down状态,所述第二系统命令为使物理接口的命令。
11.根据权利要求7-10任一项所述的装置,其特征在于,所述装置还包括接收模块和注册模块;
所述接收模块,用于接收终端发送的服务注册请求,所述服务注册请求包括待注册的所述目标服务的配置信息;
所述注册模块,用于响应于所述服务注册请求,对所述目标服务进行注册。
12.一种电子设备,其特征在于,包括:存储器、收发器及至少一个处理器;
所述处理器、所述存储器与所述收发器通过电路互联;
所述存储器存储计算机执行指令;所述收发器,用于接收负载均衡设备转发的业务请求;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1-6任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-6任一项所述的方法。
CN202110345232.0A 2021-03-31 2021-03-31 集群业务节点故障的处理方法、装置、设备及存储介质 Active CN113055236B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110345232.0A CN113055236B (zh) 2021-03-31 2021-03-31 集群业务节点故障的处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110345232.0A CN113055236B (zh) 2021-03-31 2021-03-31 集群业务节点故障的处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113055236A CN113055236A (zh) 2021-06-29
CN113055236B true CN113055236B (zh) 2023-06-27

Family

ID=76516536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110345232.0A Active CN113055236B (zh) 2021-03-31 2021-03-31 集群业务节点故障的处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113055236B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116016646B (zh) * 2022-11-07 2024-05-28 中国工商银行股份有限公司 业务访问控制方法、装置、设备及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103248504A (zh) * 2012-02-06 2013-08-14 上海软智信息科技有限公司 一种集群节点匹配方法、集群通信模块、设备及系统
CN103259685B (zh) * 2013-05-24 2016-03-09 杭州华三通信技术有限公司 检测链路故障的方法及网络设备
CN107454155B (zh) * 2017-07-25 2021-01-22 北京三快在线科技有限公司 一种基于负载均衡集群的故障处理方法、装置以及系统
CN110908872B (zh) * 2019-11-29 2023-04-25 杭州迪普科技股份有限公司 一种服务器状态检测方法及系统

Also Published As

Publication number Publication date
CN113055236A (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
CN112003961B (zh) 一种kubernetes中资源暴露方法、系统、设备以及介质
US9141502B2 (en) Method and system for providing high availability to computer applications
CN108234158B (zh) Vnf的建立方法、nfvo以及网络系统
JP4087271B2 (ja) 代理応答装置およびネットワークシステム
CN113132159B (zh) 存储集群节点故障的处理方法、设备及存储系统
US20210406127A1 (en) Method to orchestrate a container-based application on a terminal device
CN113055236B (zh) 集群业务节点故障的处理方法、装置、设备及存储介质
CN112511326A (zh) 一种切换方法、装置、设备和存储介质
CN114840495A (zh) 一种数据库集群防脑裂的方法、存储介质与设备
CN111966466A (zh) 一种容器管理方法、设备以及介质
US10348521B2 (en) Distributed gateways
CN114697191A (zh) 一种资源迁移方法、装置、设备及存储介质
CN109150709B (zh) 一种实现Mux机的方法、设备及系统
CN107360015B (zh) 切换共享存储的方法和设备
CN113824595B (zh) 链路切换控制方法、装置和网关设备
CN110417599B (zh) 主备节点的切换方法以及节点服务器
CN107783855B (zh) 虚拟网元的故障自愈控制装置及方法
WO2019216210A1 (ja) サービス継続システムおよびサービス継続方法
EP4084492A1 (en) A method, system and olt for dual-parenting pon protection
CN112804077B (zh) 数据保护方法、控制器、控制面设备和存储介质
CN108959170B (zh) 虚拟设备管理方法、装置、堆叠系统及可读存储介质
US20240205139A1 (en) Communication system and communication control method
CN118042449A (zh) 网络存储功能故障检测及容灾方法及相关设备
CN114157706A (zh) 一种服务调用外呼方法、装置、介质、产品和设备
CN115643237A (zh) 一种用于会议的数据处理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant