CN102918802B - 确定故障指示状态的方法、节点和系统 - Google Patents

确定故障指示状态的方法、节点和系统 Download PDF

Info

Publication number
CN102918802B
CN102918802B CN201180000645.XA CN201180000645A CN102918802B CN 102918802 B CN102918802 B CN 102918802B CN 201180000645 A CN201180000645 A CN 201180000645A CN 102918802 B CN102918802 B CN 102918802B
Authority
CN
China
Prior art keywords
service
service node
node
indicating condition
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201180000645.XA
Other languages
English (en)
Other versions
CN102918802A (zh
Inventor
朱智勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN102918802A publication Critical patent/CN102918802A/zh
Application granted granted Critical
Publication of CN102918802B publication Critical patent/CN102918802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/04Arrangements for maintaining operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/08Testing, supervising or monitoring using real traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • Environmental & Geological Engineering (AREA)
  • Mathematical Physics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephonic Communication Services (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)

Abstract

本发明实施例提供了一种确定故障指示状态的方法、节点和系统,涉及通信领域,所述方法包括:接收服务请求节点发送的对服务节点池中的各个服务节点是否发生故障的探测结果;根据探测结果,确定本服务节点和其他服务节点的故障指示状态。或者,扩展回应请求消息,携带本服务请求节点对服务节点池中的各个服务节点在当前周期的上一周期是否发生故障的探测结果;在当前周期开始时,向各个服务节点发送回应请求消息,使每个服务节点根据探测结果,确定本服务节点和其他服务节点的故障指示状态。本发明实施例还包括服务请求节点和服务节点,以及由二者组成的系统。本发明上述方案,提高了服务节点故障探测的可靠性。

Description

确定故障指示状态的方法、节点和系统
技术领域
本发明涉及通信领域,特别涉及一种确定故障指示状态的方法、节点和系统。
背景技术
在通讯网络中为了增加网络通讯的可靠性或为了增加网络节点的处理能力,通常在通讯路径上同一级别网络平面部署多个通讯节点,当其中一个通讯节点故障后,会触发同一级别其他通讯节点的故障切换行为以及网络资源抢占行为。因此,如何检测通讯节点故障,就成为需要解决的重要问题。
在GPRS(General Packet Radio Service,通用无线分组业务)或UMTS(Universal MobileTelecommunications System,通用移动通信系统)网络中,GGSN(Gateway GPRS Support Node,网关GPRS支持节点)之间通过Hello消息探测对端GGSN的故障状态,如果在规定时间内没有收到响应报文,则发送方GGSN认为对端GGSN故障,从而触发业务倒换和网络资源抢占行为。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
按照现有的故障检测方法,如果两个GGSN之间的通讯链路中断,则两个GGSN都同时认为对端故障,但实际上两个GGSN可能都是正常的,因此,现有的故障检测方法存在误判的可能性。
发明内容
为了提高故障检测的可靠性,本发明实施例提供了一种确定故障指示状态的方法、节点和系统。所述技术方案如下:
一种确定故障指示状态的方法,包括:
接收服务请求节点发送的对服务节点池中的各个服务节点是否发生故障的探测结果;
根据所述探测结果,确定本服务节点的故障指示状态和除本服务节点之外的其他服务节点的故障指示状态。
一种确定故障指示状态的方法,包括:
扩展回应请求消息,所述回应请求消息携带本服务请求节点对服务节点池中的各个服务节点在当前周期的上一周期是否发生故障的探测结果;
在当前周期开始时,向所述服务节点池中的各个服务节点发送所述回应请求消息,使每个服务节点根据所述探测结果,确定本服务节点的故障指示状态和除本服务节点之外的其他服务节点的故障指示状态。
一种服务节点,包括:
接收器,用于接收服务请求节点发送的对服务节点池中的各个服务节点是否发生故障的探测结果;
确定器,用于根据所述探测结果,确定本服务节点的故障指示状态和除本服务节点之外的其他服务节点的故障指示状态。
一种服务请求节点,包括:
扩展器,用于扩展回应请求消息,所述回应请求消息携带本服务请求节点对服务节点池中的各个服务节点在当前周期的上一周期是否发生故障的探测结果;
发送器,用于在当前周期开始时,向所述服务节点池中的各个服务节点发送所述回应请求消息,使每个服务节点根据所述探测结果,确定本服务节点的故障指示状态和除本服务节点之外的其他服务节点的故障指示状态。
一种确定故障指示状态的系统,包括:服务请求节点和服务节点池中的服务节点;
所述服务请求节点,包括:扩展器和发送器;
扩展器,用于扩展回应请求消息,所述回应请求消息携带本服务请求节点对服务节点池中的各个服务节点在当前周期的上一周期是否发生故障的探测结果;
发送器,用于在当前周期开始时,向所述服务节点池中的各个服务节点发送所述回应请求消息,使每个服务节点根据所述探测结果,确定本服务节点的故障指示状态和除本服务节点之外的其他服务节点的故障指示状态;
每个服务节点,包括:接收器和确定器;
接收器,用于接收所述服务请求节点发送的回应请求消息,所述回应请求消息携带所述服务请求节点对服务节点池中的各个服务节点在当前周期的上一周期是否发生故障的探测结果;
确定器,用于根据所述探测结果,确定本服务节点的故障指示状态和除本服务节点之外的其他服务节点的故障指示状态。
本发明实施例提供的技术方案的有益效果是:通过服务请求节点探测服务节点是否故障,并且根据服务请求节点对服务节点的探测结果,确定本服务节点和其他服务节点的故障指示状态,提高了服务节点故障探测的可靠性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的N×M互联网络架构示意图;
图2-a是本发明实施例1提供的确定故障指示状态的方法流程图;
图2-b是本发明实施例1提供的确定故障指示状态的方法流程图;
图3是本发明实施例2提供的确定故障指示状态的方法流程图;
图4是本发明实施例2提供的故障指示状态确定流程示意图;
图5是本发明实施例2提供的行为触发和行为时序控制示意图;
图6是本发明实施例3提供的服务节点结构示意图;
图7是本发明实施例4提供的服务请求节点结构示意图;
图8是本发明实施例5提供的确定故障指示状态的系统结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例提供的技术方案适用于N个服务请求节点和M个服务节点组成的N×M互联网络架构,其中,N大于或等于1,M大于或等于1。参见图1所示的N×M互联网络架构示意图,M个服务节点组成服务节点池,N个服务请求节点组成服务请求节点池,服务节点池中的每一个服务节点与服务请求节点池中的各个服务请求节点通过IP骨干网全网互联。服务节点池中的每一个服务节点处于同等的网络地位,具备同样的功能,根据运营商的配置有时它们会共享一些网络资源,如IP地址池资源,有时它们之间还会互相备份业务。当其中一个服务节点故障的时候,其他正常运行的服务节点会抢占故障服务节点的网络资源,或接管故障服务节点承载的业务。在GPRS网络或UMTS网络中,SGSN(Serving GPRS Support Node,GPRS服务支持节点)相对GGSN来讲是服务请求方,GGSN相对SGSN来讲是服务提供方,因此,在GPRS网络或UMTS网络中,本实施例所涉及的服务节点是GGSN,服务请求节点是SGSN。在LTE(Long Term Evolution,长期演进)-SAE(System Architecture Evolution,系统架构演进)网络架构中,业务的发起方向总是从MME(移动管理实体)指向Serving GW(ServingGateWay服务网关),所以相对来讲MME是服务请求节点,Serving GW是服务节点;对于ServingGW和PDN GW(Packet Data Network,分组数据网网关)而言,Serving GW是服务请求节点,PDN GW是服务节点。
下面基于N×M互联网络架构,具体阐述本发明的技术方案。
实施例1
参见图2-a,本实施例提供了一种确定故障指示状态的方法,该方法可以由服务节点执行,该方法包括:
101a:接收服务请求节点发送的对服务节点池中的各个服务节点是否发生故障的探测结果;
102a:根据该探测结果,确定本服务节点的故障指示状态和除本服务节点之外的其他服务节点的故障指示状态。
本实施例通过接收服务请求节点发送的对服务节点池中的各个服务节点是否发生故障的探测结果,根据该探测结果,确定本服务节点的故障指示状态和除本服务节点之外的其他服务节点的故障指示状态,提高了服务节点故障探测的可靠性。
参见图2-b,该方法可以由服务请求节点执行,该方法包括:
101b:扩展回应请求消息,该回应请求消息携带本服务请求节点对服务节点池中的各个服务节点在当前周期的上一周期是否发生故障的探测结果;
102b:在当前周期开始时,向该服务节点池中的各个服务节点发送该回应请求消息,使每个服务节点根据该探测结果,确定本服务节点的故障指示状态和除本服务节点之外的其他服务节点的故障指示状态。
本实施例通过扩展回应请求消息,使其携带本服务请求节点对服务节点池中的各个服务节点在当前周期的上一周期是否发生故障的探测结果,并向服务节点池中的各个服务节点发送该回应请求消息,使每个服务节点根据该探测结果,确定本服务节点的故障指示状态和除本服务节点之外的其他服务节点的故障指示状态,提高了服务节点故障探测的可靠性。
实施例2
本实施例提供了一种确定故障指示状态的方法,参见图3,该方法包括:
200:选取故障探测与状态同步周期(简称周期,设为T),在服务请求节点池中的每一个服务请求节点和服务节点池中的每一个服务节点上设置相同的周期T。
对于服务请求节点池中的每一个服务请求节点都执行步骤201-204:
201:服务请求节点扩展回应请求Echo Request消息,使该回应请求消息携带本服务请求节点对服务节点池中的各个服务节点在当前周期的上一周期(设为周期T1)是否发生故障的探测结果;
进一步的,如果当前周期为第一个周期,则该回应请求消息可以携带服务节点池中的各个服务节点初始化的状态,例如,可以将各个服务节点的状态初始化为故障。
其中,本服务请求节点对服务节点池中的各个服务节点在当前周期的上一周期是否发生故障的探测方法为:
本服务请求节点在周期T1开始时向服务节点池中的所有服务节点发送回应请求消息,如果在周期T1结束前本服务请求节点接收到服务节点返回的回应响应Echo Responce消息,则本服务请求节点设置该服务节点为正常,反之,如果在周期T1结束前本服务请求节点没有接收到服务节点返回的回应响应消息,则本服务请求节点设置该服务节点为故障。其中,回应请求消息可以携带本服务请求节点对服务节点池中的各个服务节点在周期T1的上一周期是否发生故障的探测结果。
其中,服务请求节点扩展回应请求Echo Request消息的方法为:
服务请求节点利用回应请求消息的空闲比特或增设新的比特,每一比特分别表示一个服务节点是否故障。例如,Echo Request(GGSN_states:00000111),其中,第0比特代表GGSN-1的状态,第1比特代表GGSN-2的状态,第2比特代表GGSN-3的状态。对于GGSN来说,GGSN相应比特为1代表探测到该GGSN正常,GGSN相应比特为0代表探测到该GGSN故障。
202:在当前周期(设为周期T2)开始时,服务请求节点向服务节点池中的各个服务节点发送上述回应请求消息。
203:服务节点接收到服务请求节点发送的回应请求消息后,记录探测结果,并返回回应响应消息给服务请求节点。
204:如果在当前周期结束前服务请求节点接收到服务节点返回的回应响应消息,则设置该服务节点为正常,反之,如果在当前周期结束前服务请求节点没有接收到服务节点返回的回应响应消息,则设置该服务节点为故障。
205:在当前周期结束时,每个服务节点根据各个服务请求节点发送的探测结果,确定本服务节点的故障指示状态和除本服务节点之外的其他服务节点的故障指示状态。
具体的,根据各个服务请求节点发送的探测结果,服务节点确定除本服务节点之外的其他服务节点的故障指示状态,至少包括以下情况中的一种:
如果在当前周期内接收到至少一个服务请求节点发送的探测结果指示该其他服务节点中的服务节点A正常,则设置该服务节点A的故障指示状态是正常;
如果在当前周期内接收到所有服务请求节点发送的探测结果都指示该其他服务节点中的服务节点B故障,则设置该服务节点B的故障指示状态是故障;
如果在当前周期内接收到部分服务请求节点发送的探测结果、并且该部分服务请求节点发送的探测结果都指示该其他服务节点中的服务节点C故障,则设置该服务节点C的故障指示状态是不确定。
需要说明的是,本实施例中的服务节点A、服务节点B、服务节点C并不特指某一个节点,而是指探测结果符合本实施例限定特征的一类节点。
具体的,根据各个服务请求节点发送的探测结果,服务节点确定本服务节点的故障指示状态,至少包括以下情况中的一种:
如果在当前周期内接收到至少一个服务请求节点发送的探测结果指示本服务节点正常,则设置本服务节点的故障指示状态是正常;
如果在当前周期内没有接收到任何服务请求节点发送的探测结果,或者,如果在当前周期内接收到服务请求节点发送的探测结果都指示本服务节点故障,则设置本服务节点的故障指示状态是不正常。
为了更加形象的说明本步骤,参见图4所示的故障指示状态确定流程示意图,其中,SGSN-1:x1y1z1表示服务请求节点SGSN-1分别对服务节点GGSN-x、GGSN-y、GGSN-z的故障探测结果为x1、y1、z1,SGSN-2:x2y2z2表示服务请求节点SGSN-2分别对服务节点GGSN-x、GGSN-y、GGSN-z的故障探测结果为x2、y2、z2,SGSN-3:x3y3z3表示服务请求节点SGSN-3分别对服务节点GGSN-x、GGSN-y、GGSN-z的故障探测结果为x3、y3、z3。SGSN-1:x1y1z1、SGSN-2:x2y2z2、和SGSN-3:x3y3z3分别发送到GGSN-x、GGSN-y、和GGSN-z,GGSN-x、GGSN-y、和GGSN-z分别根据SGSN-1:x1y1z1、SGSN-2:x2y2z2、和SGSN-3:x3y3z3得出本服务节点和其他服务节点的故障指示状态。其中,x:N/A表示GGSN-x的故障指示状态,y:N/F/U表示GGSN-y的故障指示状态,z:N/F/U表示GGSN-z的故障指示状态,N表示正常,A表示不正常,F表示故障,U表示不确定。
可选的,步骤205之后还可以执行步骤206:
206:每个服务节点以本服务节点的故障指示状态为主状态,以其他服务节点的故障指示状态为辅状态,触发网络资源的获取行为和/或释放行为。
参见图5所示的行为触发和行为时序控制示意图,本步骤具体包括:
当本服务节点的故障指示状态由不正常变迁到正常时,则经过预设的第一保护时长(设为Tc1)后触发获取本服务节点网络资源的操作;当本服务节点的故障指示状态由正常变迁到不正常时,则触发释放本服务节点网络资源的操作,并且在预设的第二时长(设为Tr1)内将本服务节点的网络资源释放完毕;
当本服务节点的故障指示状态是正常时,如果该其他服务节点中的服务节点D的故障指示状态由正常变迁到故障时,则经过预设的第三保护时长(设为Tc2)触发获取该服务节点D网络资源的操作;
当本服务节点的故障指示状态是正常时,如果该其他服务节点中的服务节点E的故障指示状态由故障变迁到正常或不确定时,则触发释放该服务节点E网络资源的操作,并且在预设的第四时长(设为Tr2)内将该服务节点E的网络资源释放完毕;
其中,第一保护时长大于第四时长,第三保护时长大于第二时长。
需要说明的是,本实施例中的服务节点D、服务节点E并不特指某一个节点,而是指故障指示状态符合本实施例限定特征的一类节点。
由于故障的含义就是不能再提供服务,所以从服务请求节点来看服务节点是否故障与服务节点是否能给服务请求节点提供服务的语义是一致的,因此,本实施例通过服务请求节点来探测服务节点是否故障,并将探测结果通知服务节点,相对于服务节点之间彼此探测对端是否故障,消除了状态误判的可能性(或者说消除了故障理解的歧议),提高了服务节点故障探测的可靠性。例如,如果两个GGSN之间的通讯链路中断,按照现有技术方案,则两个GGSN都同时认为对端故障,按照本实施例的技术方案,由服务请求节点来看GGSN是否还能提供服务,如果GGSN能提供服务,则可以得出该GGSN正常的结论,如果GGSN不能提供服务,则得出该GGSN故障的结论,因此,本实施例的技术方案故障探测的可靠性比较高。当服务请求节点有多个时,服务节点可以根据多个服务请求节点的探测结果综合确定本服务节点和其他服务节点的故障指示状态,进一步地提高了服务节点故障探测的可靠性。另外,本实施例还定义了完备的行为触发和行为时序控制逻辑,可以避免网络资源获取和/或释放等网络行为冲突。
实施例3
参见图6,本实施例提供了一种服务节点,包括:
接收器301,用于接收服务请求节点发送的对服务节点池中的各个服务节点是否发生故障的探测结果;
确定器302,用于根据该探测结果,确定本服务节点的故障指示状态和除本服务节点之外的其他服务节点的故障指示状态。
该接收器301,用于
在当前周期内接收服务请求节点发送的回应请求消息,该回应请求消息携带该服务请求节点对服务节点池中的各个服务节点在当前周期的上一周期是否发生故障的探测结果。
该确定器302,用于当根据该探测结果,确定除本服务节点之外的其他服务节点的故障指示状态时,至少包括以下情况中的一种:
如果在当前周期内接收到至少一个服务请求节点发送的探测结果指示该其他服务节点中的服务节点A正常,则设置该服务节点A的故障指示状态是正常;
如果在当前周期内接收到所有服务请求节点发送的探测结果都指示该其他服务节点中的服务节点B故障,则设置该服务节点B的故障指示状态是故障;
如果在当前周期内接收到部分服务请求节点发送的探测结果、并且该部分服务请求节点发送的探测结果都指示该其他服务节点中的服务节点C故障,则设置该服务节点C的故障指示状态是不确定。
该确定器302,用于当根据该探测结果,确定本服务节点的故障指示状态时,至少包括以下情况中的一种:
如果在当前周期内接收到至少一个服务请求节点发送的探测结果指示本服务节点正常,则设置本服务节点的故障指示状态是正常;
如果在当前周期内没有接收到任何服务请求节点发送的探测结果,或者,如果在当前周期内接收到服务请求节点发送的探测结果都指示本服务节点故障,则设置本服务节点的故障指示状态是不正常。
该服务节点还包括:
触发器,用于执行确定器之后,以本服务节点的故障指示状态为主状态,以其他服务节点的故障指示状态为辅状态,触发网络资源的获取行为和/或释放行为。
该触发器,用于实现以下情况中的至少一种:
当本服务节点的故障指示状态由不正常变迁到正常时,则经过预设的第一保护时长后触发获取本服务节点网络资源的操作;当本服务节点的故障指示状态由正常变迁到不正常时,则触发释放本服务节点网络资源的操作,并且在预设的第二时长内将本服务节点的网络资源释放完毕;
当本服务节点的故障指示状态是正常时,如果该其他服务节点中的服务节点D的故障指示状态由正常变迁到故障时,则经过预设的第三保护时长触发获取该服务节点D网络资源的操作;
当本服务节点的故障指示状态是正常时,如果该其他服务节点中的服务节点E的故障指示状态由故障变迁到正常或不确定时,则触发释放该服务节点E网络资源的操作,并且在预设的第四时长内将该服务节点E的网络资源释放完毕;
其中,该第一保护时长大于该第四时长,该第三保护时长大于该第二时长。
本实施例提供的服务节点与方法实施例中的服务节点属于同一构思,其具体过程详见方法实施例,这里不再赘述。
本实施例本实施例通过接收服务请求节点发送的对服务节点池中的各个服务节点是否发生故障的探测结果,根据该探测结果,确定本服务节点的故障指示状态和除本服务节点之外的其他服务节点的故障指示状态,提高了服务节点故障探测的可靠性。当服务请求节点有多个时,服务节点可以根据多个服务请求节点的探测结果综合确定本服务节点和其他服务节点的故障指示状态,进一步地提高了服务节点故障探测的可靠性。另外,本实施例还定义了完备的行为触发和行为时序控制逻辑,可以避免网络行为冲突。
实施例4
参见图7,本实施例提供了一种服务请求节点,包括:
扩展器401,用于扩展回应请求消息,该回应请求消息携带本服务请求节点对服务节点池中的各个服务节点在当前周期的上一周期是否发生故障的探测结果;
发送器402,用于在当前周期开始时,向该服务节点池中的各个服务节点发送该回应请求消息,使每个服务节点根据该探测结果,确定本服务节点的故障指示状态和除本服务节点之外的其他服务节点的故障指示状态。
该扩展器401,用于
利用回应请求消息的空闲比特,每一个空闲比特表示服务节点池中的一个服务节点是否故障;
或者,在回应请求消息中增设新的比特,每一个新的比特服务节点池中的一个服务节点是否故障。
本实施例提供的服务请求节点与方法实施例中的服务请求节点属于同一构思,其具体过程详见方法实施例,这里不再赘述。
本实施例通过扩展回应请求消息,使其携带本服务请求节点对服务节点池中的各个服务节点在当前周期的上一周期是否发生故障的探测结果,并向服务节点池中的各个服务节点发送该回应请求消息,使每个服务节点根据该探测结果,确定本服务节点的故障指示状态和除本服务节点之外的其他服务节点的故障指示状态,提高了服务节点故障探测的可靠性。当服务请求节点有多个时,服务节点可以根据多个服务请求节点的探测结果综合确定本服务节点和其他服务节点的故障指示状态,进一步地提高了服务节点故障探测的可靠性。
实施例5
参见图8,本实施例提供了一种确定故障指示状态的系统,包括:服务请求节点501和服务节点池中的服务节点502;
该服务请求节点501,包括:扩展器401和发送器402;
扩展器401,用于扩展回应请求消息,该回应请求消息携带本服务请求节点对服务节点池中的各个服务节点在当前周期的上一周期是否发生故障的探测结果;
发送器402,用于在当前周期开始时,向该服务节点池中的各个服务节点发送该回应请求消息,使每个服务节点根据该探测结果,确定本服务节点的故障指示状态和除本服务节点之外的其他服务节点的故障指示状态;
每个服务节点502,包括:接收器301和确定器302;
接收器301,用于接收该服务请求节点发送的回应请求消息,该回应请求消息携带该服务请求节点对服务节点池中的各个服务节点在当前周期的上一周期是否发生故障的探测结果;
确定器302,用于根据该探测结果,确定本服务节点的故障指示状态和除本服务节点之外的其他服务节点的故障指示状态。
本实施例提供的服务请求节点和服务节点与方法实施例中的服务请求节点和服务节点属于同一构思,其具体过程详见方法实施例,这里不再赘述。
本实施例通过扩展回应请求消息,使其携带本服务请求节点对服务节点池中的各个服务节点在当前周期的上一周期是否发生故障的探测结果,并向服务节点池中的各个服务节点发送该回应请求消息,使每个服务节点根据该探测结果,确定本服务节点的故障指示状态和除本服务节点之外的其他服务节点的故障指示状态,提高了服务节点故障探测的可靠性。当服务请求节点有多个时,服务节点可以根据多个服务请求节点的探测结果综合确定本服务节点和其他服务节点的故障指示状态,进一步地提高了服务节点故障探测的可靠性。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种确定故障指示状态的方法,其特征在于,包括:
接收服务请求节点发送的对服务节点池中的各个服务节点是否发生故障的探测结果;
根据所述探测结果,确定本服务节点的故障指示状态和除本服务节点之外的其他服务节点的故障指示状态;
以本服务节点的故障指示状态为主状态,以其他服务节点的故障指示状态为辅状态,触发网络资源的获取行为和/或释放行为;
其中,以本服务节点的故障指示状态为主状态,以其他服务节点的故障指示状态为辅状态,触发网络资源的获取行为和/或释放行为,至少包括以下情况中的一种:
当本服务节点的故障指示状态由不正常变迁到正常时,则经过预设的第一保护时长后触发获取本服务节点网络资源的操作;当本服务节点的故障指示状态由正常变迁到不正常时,则触发释放本服务节点网络资源的操作,并且在预设的第二时长内将本服务节点的网络资源释放完毕;
当本服务节点的故障指示状态是正常时,如果所述其他服务节点中的服务节点D的故障指示状态由正常变迁到故障时,则经过预设的第三保护时长触发获取所述服务节点D网络资源的操作;
当本服务节点的故障指示状态是正常时,如果所述其他服务节点中的服务节点E的故障指示状态由故障变迁到正常或不确定时,则触发释放所述服务节点E网络资源的操作,并且在预设的第四时长内将所述服务节点E的网络资源释放完毕;
其中,所述第一保护时长大于所述第四时长,所述第三保护时长大于所述第二时长。
2.根据权利要求1所述的方法,其特征在于,所述接收服务请求节点发送的对服务节点池中的各个服务节点是否发生故障的探测结果,包括:
在当前周期内接收服务请求节点发送的回应请求消息,所述回应请求消息携带所述服务请求节点对服务节点池中的各个服务节点在当前周期的上一周期是否发生故障的探测结果。
3.根据权利要求1或2所述的方法,所述根据所述探测结果,确定除本服务节点之外的其他服务节点的故障指示状态,至少包括以下情况中的一种:
如果在当前周期内接收到至少一个服务请求节点发送的探测结果指示所述其他服务节点中的服务节点A正常,则设置所述服务节点A的故障指示状态是正常;
如果在当前周期内接收到所有服务请求节点发送的探测结果都指示所述其他服务节点中的服务节点B故障,则设置所述服务节点B的故障指示状态是故障;
如果在当前周期内接收到部分服务请求节点发送的探测结果、并且所述部分服务请求节点发送的探测结果都指示所述其他服务节点中的服务节点C故障,则设置所述服务节点C的故障指示状态是不确定。
4.根据权利要求1或2所述的方法,所述根据所述探测结果,确定本服务节点的故障指示状态,至少包括以下情况中的一种:
如果在当前周期内接收到至少一个服务请求节点发送的探测结果指示本服务节点正常,则设置本服务节点的故障指示状态是正常;
如果在当前周期内没有接收到任何服务请求节点发送的探测结果,或者,如果在当前周期内接收到服务请求节点发送的探测结果都指示本服务节点故障,则设置本服务节点的故障指示状态是不正常。
5.根据权利要求1所述的方法,其特征在于,所述接收服务请求节点发送的对服务节点池中的各个服务节点是否发生故障的探测结果,之前包括:
所述服务请求节点扩展回应请求消息,所述回应请求消息携带本服务请求节点对服务节点池中的各个服务节点在当前周期的上一周期是否发生故障的探测结果;
所述服务请求节点在当前周期开始时,向所述服务节点池中的各个服务节点发送所述回应请求消息。
6.一种确定故障指示状态的方法,其特征在于,包括:
扩展回应请求消息,所述回应请求消息携带本服务请求节点对服务节点池中的各个服务节点在当前周期的上一周期是否发生故障的探测结果;
在当前周期开始时,向所述服务节点池中的各个服务节点发送所述回应请求消息,使每个服务节点根据所述探测结果,确定本服务节点的故障指示状态和除本服务节点之外的其他服务节点的故障指示状态,并以本服务节点的故障指示状态为主状态,以其他服务节点的故障指示状态为辅状态,触发网络资源的获取行为和/或释放行为;
其中,以本服务节点的故障指示状态为主状态,以其他服务节点的故障指示状态为辅状态,触发网络资源的获取行为和/或释放行为,至少包括以下情况中的一种:
当本服务节点的故障指示状态由不正常变迁到正常时,则经过预设的第一保护时长后触发获取本服务节点网络资源的操作;当本服务节点的故障指示状态由正常变迁到不正常时,则触发释放本服务节点网络资源的操作,并且在预设的第二时长内将本服务节点的网络资源释放完毕;
当本服务节点的故障指示状态是正常时,如果所述其他服务节点中的服务节点D的故障指示状态由正常变迁到故障时,则经过预设的第三保护时长触发获取所述服务节点D网络资源的操作;
当本服务节点的故障指示状态是正常时,如果所述其他服务节点中的服务节点E的故障指示状态由故障变迁到正常或不确定时,则触发释放所述服务节点E网络资源的操作,并且在预设的第四时长内将所述服务节点E的网络资源释放完毕;
其中,所述第一保护时长大于所述第四时长,所述第三保护时长大于所述第二时长。
7.根据权利要求6所述的方法,其特征在于,所述扩展回应请求消息,包括:
利用回应请求消息的空闲比特,每一个空闲比特表示服务节点池中的一个服务节点是否故障;
或者,在回应请求消息中增设新的比特,每一个新的比特服务节点池中的一个服务节点是否故障。
8.一种服务节点,其特征在于,包括:
接收器,用于接收服务请求节点发送的对服务节点池中的各个服务节点是否发生故障的探测结果;
确定器,用于根据所述探测结果,确定本服务节点的故障指示状态和除本服务节点之外的其他服务节点的故障指示状态;
所述服务节点还包括:
触发器,用于执行确定器之后,以本服务节点的故障指示状态为主状态,以其他服务节点的故障指示状态为辅状态,触发网络资源的获取行为和/或释放行为;
所述触发器,用于实现以下情况中的至少一种:
当本服务节点的故障指示状态由不正常变迁到正常时,则经过预设的第一保护时长后触发获取本服务节点网络资源的操作;当本服务节点的故障指示状态由正常变迁到不正常时,则触发释放本服务节点网络资源的操作,并且在预设的第二时长内将本服务节点的网络资源释放完毕;
当本服务节点的故障指示状态是正常时,如果所述其他服务节点中的服务节点D的故障指示状态由正常变迁到故障时,则经过预设的第三保护时长触发获取所述服务节点D网络资源的操作;
当本服务节点的故障指示状态是正常时,如果所述其他服务节点中的服务节点E的故障指示状态由故障变迁到正常或不确定时,则触发释放所述服务节点E网络资源的操作,并且在预设的第四时长内将所述服务节点E的网络资源释放完毕;
其中,所述第一保护时长大于所述第四时长,所述第三保护时长大于所述第二时长。
9.根据权利要求8所述的服务节点,其特征在于,所述接收器,用于
在当前周期内接收服务请求节点发送的回应请求消息,所述回应请求消息携带所述服务请求节点对服务节点池中的各个服务节点在当前周期的上一周期是否发生故障的探测结果。
10.根据权利要求8或9所述的服务节点,所述确定器,用于当根据所述探测结果,确定除本服务节点之外的其他服务节点的故障指示状态时,至少包括以下情况中的一种:
如果在当前周期内接收到至少一个服务请求节点发送的探测结果指示所述其他服务节点中的服务节点A正常,则设置所述服务节点A的故障指示状态是正常;
如果在当前周期内接收到所有服务请求节点发送的探测结果都指示所述其他服务节点中的服务节点B故障,则设置所述服务节点B的故障指示状态是故障;
如果在当前周期内接收到部分服务请求节点发送的探测结果、并且所述部分服务请求节点发送的探测结果都指示所述其他服务节点中的服务节点C故障,则设置所述服务节点C的故障指示状态是不确定。
11.根据权利要求8或9所述的服务节点,所述确定器,用于当根据所述探测结果,确定本服务节点的故障指示状态时,至少包括以下情况中的一种:
如果在当前周期内接收到至少一个服务请求节点发送的探测结果指示本服务节点正常,则设置本服务节点的故障指示状态是正常;
如果在当前周期内没有接收到任何服务请求节点发送的探测结果,或者,如果在当前周期内接收到服务请求节点发送的探测结果都指示本服务节点故障,则设置本服务节点的故障指示状态是不正常。
12.一种服务请求节点,其特征在于,包括:
扩展器,用于扩展回应请求消息,所述回应请求消息携带本服务请求节点对服务节点池中的各个服务节点在当前周期的上一周期是否发生故障的探测结果;
发送器,用于在当前周期开始时,向所述服务节点池中的各个服务节点发送所述回应请求消息,使每个服务节点根据所述探测结果,确定本服务节点的故障指示状态和除本服务节点之外的其他服务节点的故障指示状态,并以本服务节点的故障指示状态为主状态,以其他服务节点的故障指示状态为辅状态,触发网络资源的获取行为和/或释放行为;
其中,以本服务节点的故障指示状态为主状态,以其他服务节点的故障指示状态为辅状态,触发网络资源的获取行为和/或释放行为,至少包括以下情况中的一种:
当本服务节点的故障指示状态由不正常变迁到正常时,则经过预设的第一保护时长后触发获取本服务节点网络资源的操作;当本服务节点的故障指示状态由正常变迁到不正常时,则触发释放本服务节点网络资源的操作,并且在预设的第二时长内将本服务节点的网络资源释放完毕;
当本服务节点的故障指示状态是正常时,如果所述其他服务节点中的服务节点D的故障指示状态由正常变迁到故障时,则经过预设的第三保护时长触发获取所述服务节点D网络资源的操作;
当本服务节点的故障指示状态是正常时,如果所述其他服务节点中的服务节点E的故障指示状态由故障变迁到正常或不确定时,则触发释放所述服务节点E网络资源的操作,并且在预设的第四时长内将所述服务节点E的网络资源释放完毕;
其中,所述第一保护时长大于所述第四时长,所述第三保护时长大于所述第二时长。
13.根据权利要求12所述的服务请求节点,其特征在于,所述扩展器,用于
利用回应请求消息的空闲比特,每一个空闲比特表示服务节点池中的一个服务节点是否故障;
或者,在回应请求消息中增设新的比特,每一个新的比特服务节点池中的一个服务节点是否故障。
14.一种确定故障指示状态的系统,其特征在于,包括:服务请求节点和服务节点池中的服务节点;
所述服务请求节点,包括:扩展器和发送器;
扩展器,用于扩展回应请求消息,所述回应请求消息携带本服务请求节点对服务节点池中的各个服务节点在当前周期的上一周期是否发生故障的探测结果;
发送器,用于在当前周期开始时,向所述服务节点池中的各个服务节点发送所述回应请求消息,使每个服务节点根据所述探测结果,确定本服务节点的故障指示状态和除本服务节点之外的其他服务节点的故障指示状态;
每个服务节点,包括:接收器、确定器和触发器;
接收器,用于接收所述服务请求节点发送的回应请求消息,所述回应请求消息携带所述服务请求节点对服务节点池中的各个服务节点在当前周期的上一周期是否发生故障的探测结果;
确定器,用于根据所述探测结果,确定本服务节点的故障指示状态和除本服务节点之外的其他服务节点的故障指示状态;
触发器,用于执行确定器之后,以本服务节点的故障指示状态为主状态,以其他服务节点的故障指示状态为辅状态,触发网络资源的获取行为和/或释放行为;
所述触发器,用于实现以下情况中的至少一种:
当本服务节点的故障指示状态由不正常变迁到正常时,则经过预设的第一保护时长后触发获取本服务节点网络资源的操作;当本服务节点的故障指示状态由正常变迁到不正常时,则触发释放本服务节点网络资源的操作,并且在预设的第二时长内将本服务节点的网络资源释放完毕;
当本服务节点的故障指示状态是正常时,如果所述其他服务节点中的服务节点D的故障指示状态由正常变迁到故障时,则经过预设的第三保护时长触发获取所述服务节点D网络资源的操作;
当本服务节点的故障指示状态是正常时,如果所述其他服务节点中的服务节点E的故障指示状态由故障变迁到正常或不确定时,则触发释放所述服务节点E网络资源的操作,并且在预设的第四时长内将所述服务节点E的网络资源释放完毕;
其中,所述第一保护时长大于所述第四时长,所述第三保护时长大于所述第二时长。
CN201180000645.XA 2011-05-30 2011-05-30 确定故障指示状态的方法、节点和系统 Active CN102918802B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2011/074888 WO2011157111A2 (zh) 2011-05-30 2011-05-30 确定故障指示状态的方法、节点和系统

Publications (2)

Publication Number Publication Date
CN102918802A CN102918802A (zh) 2013-02-06
CN102918802B true CN102918802B (zh) 2015-03-11

Family

ID=45348606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180000645.XA Active CN102918802B (zh) 2011-05-30 2011-05-30 确定故障指示状态的方法、节点和系统

Country Status (5)

Country Link
US (1) US9471408B2 (zh)
EP (1) EP2704356B1 (zh)
JP (1) JP5802829B2 (zh)
CN (1) CN102918802B (zh)
WO (1) WO2011157111A2 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104734867B (zh) * 2013-12-19 2019-05-03 中兴通讯股份有限公司 网络业务节点故障处理方法、装置及系统
CN106656580B (zh) * 2016-11-29 2020-06-26 华为技术有限公司 一种业务状态的迁移方法及装置
CN110162424B (zh) * 2019-05-23 2022-03-22 腾讯科技(深圳)有限公司 故障处理方法、系统、装置及存储介质
CN113489608A (zh) * 2021-06-30 2021-10-08 四川虹美智能科技有限公司 业务异常的处理方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1728658A (zh) * 2004-07-29 2006-02-01 华为技术有限公司 一种检测网关服务节点和计费网关之间连通性的方法
CN101047546A (zh) * 2006-03-30 2007-10-03 中兴通讯股份有限公司 一种自动交换光网络的路由信息维护方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61131933A (ja) * 1984-11-30 1986-06-19 Nec Eng Ltd 分散処理形交換装置のヘルスチエツク方式
US6161196A (en) * 1998-06-19 2000-12-12 Lucent Technologies Inc. Fault tolerance via N-modular software redundancy using indirect instrumentation
JP3983138B2 (ja) * 2002-08-29 2007-09-26 富士通株式会社 障害情報収集プログラムおよび障害情報収集装置
JP4457581B2 (ja) * 2003-05-28 2010-04-28 日本電気株式会社 耐障害システム、プログラム並列実行方法、耐障害システムの障害検出装置およびプログラム
US7284147B2 (en) * 2003-08-27 2007-10-16 International Business Machines Corporation Reliable fault resolution in a cluster
US7228460B2 (en) * 2004-01-23 2007-06-05 Hewlett-Packard Development Company, L.P. Multi-state status reporting for high-availability cluster nodes
CN100431314C (zh) * 2005-05-08 2008-11-05 中兴通讯股份有限公司 自动交换光网络中维护控制平面可达性信息的方法
CN101207408B (zh) 2006-12-22 2012-07-11 中兴通讯股份有限公司 一种用于主备倒换的综合故障检测装置和方法
US8671151B2 (en) * 2007-01-24 2014-03-11 Oracle International Corporation Maintaining item-to-node mapping information in a distributed system
CN101420335B (zh) * 2007-10-26 2011-09-14 华为技术有限公司 对等网络节点故障检测/处理方法及装置
CN101459549B (zh) * 2007-12-14 2011-09-21 华为技术有限公司 链路故障处理方法及数据转发装置
US8774010B2 (en) * 2010-11-02 2014-07-08 Cisco Technology, Inc. System and method for providing proactive fault monitoring in a network environment

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1728658A (zh) * 2004-07-29 2006-02-01 华为技术有限公司 一种检测网关服务节点和计费网关之间连通性的方法
CN101047546A (zh) * 2006-03-30 2007-10-03 中兴通讯股份有限公司 一种自动交换光网络的路由信息维护方法

Also Published As

Publication number Publication date
WO2011157111A3 (zh) 2012-05-03
EP2704356B1 (en) 2019-09-04
EP2704356A4 (en) 2014-06-25
WO2011157111A2 (zh) 2011-12-22
US9471408B2 (en) 2016-10-18
JP5802829B2 (ja) 2015-11-04
CN102918802A (zh) 2013-02-06
JP2014522593A (ja) 2014-09-04
EP2704356A2 (en) 2014-03-05
US20140082432A1 (en) 2014-03-20

Similar Documents

Publication Publication Date Title
EP2075974A1 (en) A method and a device for aggregating ports
CN102257848B (zh) 通信设备间的主备倒换方法、通信设备和系统及服务请求设备
CN103560922A (zh) 一种容灾方法及系统
CN101729426B (zh) 一种虚拟路由冗余协议主备用设备快速切换的方法及系统
CN102970167B (zh) 集群系统中网络节点的故障检测方法、网络节点和系统
CN102918802B (zh) 确定故障指示状态的方法、节点和系统
CN107528747B (zh) 主从站通信状态的诊断方法和装置及计算机可读存储介质
CN105515901A (zh) 报文处理装置及方法
CN103999406A (zh) 通信路径的处理方法与装置
CN102136965B (zh) 一种隧道故障检测方法和流量工程节点
CN103220189B (zh) 一种mad检测备份方法和设备
CN104104596B (zh) 一种irf分裂处理方法和装置
CN108093441A (zh) 一种接入控制器的切换方法及装置
CN104994173A (zh) 一种消息处理方法和系统
CN110225133A (zh) 消息发送方法、节点、装置、系统及相关设备
CN108235800A (zh) 一种网络故障探测方法及控制中心设备
CN103051484B (zh) 会话业务处理方法、系统和会话边缘控制器
CN102571311A (zh) 主备切换的通讯系统和通讯方法
CN111953808A (zh) 一种双机双活架构的数据传输切换方法及架构构建系统
CN112751740B (zh) 一种erps子环资源释放方法、系统、服务器及存储介质
CN112422428B (zh) 链路状态获取方法、装置、电子设备及可读存储介质
CN103684887B (zh) 一种连通错误检测组网系统硬件表项生成的方法及设备
CN105426118B (zh) 一种双控系统中利用串口备份心跳通道的方法
CN101227378B (zh) 基于网络存储的通信业务建立方法及存储设备
CN102932172A (zh) 一种检测以太网环故障节点的方法、设备和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant