CN102075380A - 一种服务器状态检测方法及装置 - Google Patents

一种服务器状态检测方法及装置 Download PDF

Info

Publication number
CN102075380A
CN102075380A CN2010105926696A CN201010592669A CN102075380A CN 102075380 A CN102075380 A CN 102075380A CN 2010105926696 A CN2010105926696 A CN 2010105926696A CN 201010592669 A CN201010592669 A CN 201010592669A CN 102075380 A CN102075380 A CN 102075380A
Authority
CN
China
Prior art keywords
server
authentication request
state
authentication
fault recovery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010105926696A
Other languages
English (en)
Other versions
CN102075380B (zh
Inventor
佟志新
魏铮
王成
喻磊
翟来国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201010592669.6A priority Critical patent/CN102075380B/zh
Publication of CN102075380A publication Critical patent/CN102075380A/zh
Application granted granted Critical
Publication of CN102075380B publication Critical patent/CN102075380B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种服务器状态检测方法及装置,用以实现利用实际业务对服务器状态进行检测,在及时有效地确定服务器状态的前提下,使得检测到的服务器状态更准确,避免链路闪断导致的误判。本发明提供的一种服务器状态检测方法包括:确定当前鉴权请求消息需要发往的处于正常状态的服务器,并向该服务器发送鉴权请求,当该鉴权请求失败时,启动该服务器对应的故障检测定时器,并通过该服务器对应的鉴权失败计数器统计向该服务器发送鉴权请求连续失败的次数,其中,当收到该服务器反馈的响应消息时,将所述鉴权失败计数器清零;当故障检测定时器超时时,若所述鉴权失败计数器的计数值超过预设的第一阈值,则将该服务器的状态更新为故障状态。

Description

一种服务器状态检测方法及装置
技术领域
本发明涉及通信技术领域,尤其涉及一种服务器状态检测方法及装置。
背景技术
在CDMA2000-EVDO移动通讯系统中,当用户的接入终端(AT)初次接入接入网络(AN)时,AN通常会对用户完成接入鉴权,即根据用户的帐户信息(包括用户名和密码)构造鉴权请求消息(A12 Access Request),并发送给接入网认证、鉴权、计费(AN-AAA)服务器,AN-AAA服务器收到鉴权请求消息后,根据用户账户合法性,反馈接入接受(A12 Access Accept)或接入拒绝(A12 Access Reject)的响应消息。如果AN-AAA服务器运行异常或所在主机故障,那么,AN在发送鉴权请求消息后,将收不到响应消息。
为了确定AN-AAA服务器的运行状态,现有技术中常用的方案是采用ping检测机制,即定期向AN-AAA服务器发送ping请求,根据应答情况确定服务器状态,但这种方案只能反应服务器主机的运行状态,不能反应服务器业务是否正常。另一种方案可采取构造检测用户的方式,定期发送鉴权请求消息进行AN-AAA服务器状态的检测,但这样需要避免构造的检测用户与实际商用用户重复,另外这种方法可能对AN-AAA服务器的统计带来一定的干扰,实现和运维具有一定复杂度。
另外,AN-AAA服务器故障检测还需要避免链路闪断而造成的误判,即在链路闪断期间,AN-AAA服务器运行正常,但链路不通可能造成大量的鉴权失败,但链路可能很快又恢复,在这种情况下如果认为AN-AAA服务器故障并上报告警,对于经常发生闪断的网络,则会给运维带来不必要的麻烦。
发明内容
本发明实施例提供了一种服务器状态检测方法及装置,用以实现利用实际业务对服务器状态进行检测,在及时有效地确定服务器状态的前提下,使得检测到的服务器状态更准确,避免链路闪断导致的误判。
本发明实施例提供的一种服务器状态检测方法包括:
确定当前鉴权请求消息需要发往的处于正常状态的服务器,并向该服务器发送鉴权请求,当该鉴权请求失败时,
启动该服务器对应的故障检测定时器,并通过该服务器对应的鉴权失败计数器统计向该服务器发送鉴权请求连续失败的次数,其中,当收到该服务器反馈的响应消息时,将所述鉴权失败计数器清零;
当故障检测定时器超时时,若所述鉴权失败计数器的计数值超过预设的第一阈值,则将该服务器的状态更新为故障状态。
本发明实施例提供的一种服务器状态检测装置包括:
服务器确定单元,用于确定当前鉴权请求消息需要发往的处于正常状态的服务器;
鉴权处理单元,用于向所述服务器确定单元确定的处于正常状态的服务器发送鉴权请求,当该鉴权请求失败时,启动该服务器对应的故障检测定时器,并通过该服务器对应的鉴权失败计数器统计向该服务器发送鉴权请求连续失败的次数,其中,当收到该服务器反馈的响应消息时,将所述鉴权失败计数器清零;当故障检测定时器超时时,若所述鉴权失败计数器的计数值超过预设的第一阈值,则将该服务器的状态更新为故障状态。
本发明实施例,确定当前鉴权请求消息需要发往的处于正常状态的服务器,并向该服务器发送鉴权请求,当该鉴权请求失败时,启动该服务器对应的故障检测定时器,并通过该服务器对应的鉴权失败计数器统计向该服务器发送鉴权请求连续失败的次数,其中,当收到该服务器反馈的响应消息时,将所述鉴权失败计数器清零;当故障检测定时器超时时,若所述鉴权失败计数器的计数值超过预设的第一阈值,则将该服务器的状态更新为故障状态,从而实现了基于正常的业务处理,完成对AN-AAA等服务器实体的状态检测,既保证及时有效的发现故障,还可以避免链路闪断导致的服务器状态的误判。
附图说明
图1为本发明实施例提供的一种服务器状态检测方法的流程示意图;
图2为本发明实施例提供的服务器列表示意图;
图3为本发明实施例提供的当用户接入鉴权时,将可用的AN-AAA服务器加入可用服务器集合的处理流程示意图;
图4为本发明实施例提供的用户鉴权失败时的处理流程示意图;
图5为本发明实施例提供的用户鉴权成功时的处理流程示意图;
图6为本发明实施例提供的故障检测定时器超时时的处理流程示意图;
图7为本发明实施例提供的故障恢复定时器超时时的处理流程示意图;
图8为本发明实施例提供的一种服务器状态检测装置的结构示意图。
具体实施方式
本发明实施例提供了一种服务器状态检测方法及装置,用以实现利用实际业务对服务器状态进行检测,在及时有效地确定服务器状态的前提下,使得检测到的服务器状态更准确,避免链路闪断导致的误判。
下面结合附图对本发明实施例提供的技术方案进行说明。
参见图1,本发明实施例提供的一种服务器状态检测方法包括步骤:
S101、确定当前鉴权请求消息需要发往的处于正常状态的服务器,并向该服务器发送鉴权请求,当该鉴权请求失败时,启动该服务器对应的故障检测定时器,并通过该服务器对应的鉴权失败计数器统计向该服务器发送鉴权请求连续失败的次数,其中,当收到该服务器反馈的响应消息时,将所述鉴权失败计数器清零。
S102、当故障检测定时器超时时,若所述鉴权失败计数器的计数值超过预设的第一阈值,则将该服务器的状态更新为故障状态。
较佳地,当在设定时间内,向同一处于正常状态的服务器发送鉴权请求消息的次数超过预设的第一阈值,而没有收到该服务器反馈的响应消息时,将该服务器的状态更新为故障状态,包括:
当向一正常状态的服务器发送鉴权请求消息后,在预设的等待时间内没有收到该服务器反馈的响应消息时,启动故障检测定时器,并开始统计向该服务器发送鉴权请求消息的次数,直到故障检测定时器超时。若统计的向该服务器发送鉴权请求消息的次数超过预设的第一阈值,并且,从故障检测定时器开始启动到故障检测定时器超时的时间内,没有收到该服务器反馈的响应消息,则将该服务器的状态更新为故障状态。
较佳地,该方法还包括:
当确定服务器的状态处于故障状态时,启动该服务器对应的故障恢复定时器,当该故障恢复定时器超时时,将该服务器的状态更新为故障恢复状态。
较佳地,该方法还包括:
当向处于故障恢复状态的服务器发送鉴权请求消息,并得到了该服务器反馈的响应消息时,将该服务器的状态更新为正常状态。
较佳地,该方法还包括:
确定当前鉴权请求消息需要发往的处于故障恢复状态的服务器,并向该服务器发送鉴权请求,当该鉴权请求失败时,启动该服务器对应的故障检测定时器,并通过该服务器对应的鉴权失败计数器统计向该服务器发送鉴权请求连续失败的次数,其中,当收到该服务器反馈的响应消息时,将该服务器对应的鉴权失败计数器清零;
当该服务器对应的故障检测定时器超时时,若该服务器对应的鉴权失败计数器的计数值超过预设的第二阈值,则将该服务器的状态更新为故障状态。
较佳地,根据当前维护的服务器列表中包含的服务器信息,选取当前鉴权请求消息需要发往的服务器;
其中,所述服务器信息,包括服务器的标识和状态。
具体地,所述确定当前鉴权请求消息需要发往的处于正常状态的服务器,包括:根据当前维护的服务器列表中包含的服务器的标识和状态,选取当前鉴权请求消息需要发往的处于正常状态的服务器;
所述确定当前鉴权请求消息需要发往的处于故障恢复状态的服务器,包括:根据当前维护的服务器列表中包含的服务器的标识和状态,选取当前鉴权请求消息需要发往的处于故障恢复状态的服务器。
较佳地,当针对同一用户向处于正常状态或处于故障恢复状态的服务器发送鉴权请求消息后,在预设时间内没有收到该服务器反馈的响应消息时,向另一处于正常状态或故障恢复状态的服务器发送鉴权请求消息。
较佳地,所述可用服务器列表中包含的每一服务器的信息包括:
服务器的IP地址、状态标志、告警上报标志、鉴权失败次数。
本发明实施例中,以基于CDMA2000 EVDO系统中对AN-AAA服务器状态检测为例进行说明,当然,本发明实施例提供的技术方案还可以应用到其他的基于请求/应答模式的应用系统中的服务器状态的检测。
一个AN可能与一个或多个AN-AAA服务器相连,如何确定当前AN-AAA服务器的运行状态,以及如何在出现故障或故障恢复时及时反馈给运维人员,当需要发送鉴权请求消息时,如何选择向可用的服务器发送,这些都是本发明实施例提供的技术方案可以解决的问题。
本发明实施例中,对于向AN-AAA服务器发送一次或多次鉴权请求消息(A12 Access Request)后,并收到AN-AAA服务器反馈的响应消息的情况,称为一次鉴权成功,无论反馈的响应消息中的信息是接受鉴权还是拒绝鉴权;对于向AN-AAA服务器发送一次或多次鉴权请求消息(A12 Access Request)后,没有收到AN-AAA服务器反馈的响应消息的情况,称为一次鉴权失败。
本发明实施例中,基于实际业务对AN-AAA服务器服务状态进行检测。主要通过在一定时间内AN-AAA服务器对A12鉴权连续失败的次数达到阈值时,则认为该AN-AAA服务器为故障状态,并可以进一步提示告警。其中,当需要进行鉴权时,总是从非故障状态(即正常状态和故障恢复状态)的AN-AAA服务器中进行选择,除非只有一个AN-AAA服务器。并且,定期将故障状态的服务器设置为故障恢复状态,以使其重新获得被选择的机会,以保证AN AAA服务器的故障消除后,AN能检测到该AN AAA服务器故障恢复。
对于同一用户进行鉴权时,如果一次鉴权失败,则试图选择其他非故障状态的AN-AAA服务器重新发送鉴权请求,以避免以下两种情况对于鉴权业务的影响:
正常状态的AN-AAA服务器可能发生故障;
被置为故障恢复状态的AN-AAA服务器实际可能并未恢复。
下面从七个方面详细描述本发明实施例的具体内容:
一、本发明实施例为AN-AAA服务器定义了三种状态:
正常状态:AN-AAA服务器运行正常,可以正常地处理A12鉴权请求。
故障状态:AN-AAA服务器运行异常、AN与该AN-AAA服务器的通信链路中断或AN-AAA服务器所在的主机故障,该AN-AAA服务器已经不能处理A12鉴权请求。
故障恢复状态:AN-AAA服务器发生故障已经过去一段时间,该AN-AAA服务器有可能已经恢复正常,在此种状态下,可把A12鉴权消息发送给该AN-AAA服务器,以检测其是否已经恢复正常。
二、本发明实施例定义了两种最大检测失败次数阈值:
第一阈值:为AN-AAA服务器处于正常状态条件下,使用的最大检测失败次数阈值。如果在故障检测定时范围内,发往AN-AAA服务器的鉴权请求连续失败次数达到此阈值,则认为该AN-AAA服务器故障。
第二阈值:为AN-AAA服务器处于故障恢复状态条件下,使用的最大检测失败次数阈值。如果在故障检测定时范围内,发往AN-AAA服务器的鉴权请求连续失败次数达到此阈值,则认为该AN-AAA服务器故障。
因为对于处于故障恢复状态的AN-AAA服务器来说,再次鉴权失败的情况下,AN-AAA服务器仍然处于故障状态的可能性大,所以第二阈值应该小于或等于第一阈值,例如第一阈值设置为10(次),第二阈值设置为5(次)。
三、本发明实施例提供了两种定时器:
故障检测定时器:为每个AN-AAA服务器配置一个对应的故障检测定时器。当一次发往AN-AAA服务器的用户鉴权失败时,启动该AN-AAA服务器对应的故障检测定时器,当该定时器超时时,如果鉴权请求连续失败次数达到第一阈值,则将该AN-AAA服务器置于故障状态。
故障恢复定时器:为每个AN-AAA服务器配置一个对应的故障恢复定时器。当确定AN-AAA服务器处于故障状态时,启动该AN-AAA服务器对应的故障恢复定时器,当该定时器超时时,将对应的AN-AAA服务器置于故障恢复状态,以使该AN-AAA服务器重新得到鉴权选择。
故障检测定时器和故障恢复定时器这两种定时器具有不同的定时时长,故障恢复定时器的定时时长应该远大于故障检测定时器的定时时长。例如,故障检测定时器的定时时长配置为20分钟,故障恢复定时器的定时时长配置为2小时。
四、本发明实施例提供了AN-AAA服务器三种状态的转换条件:
1、正常状态转换到故障状态:在AN-AAA服务器正常状态下,出现一次鉴权失败时,即启动故障检测定时器,在定时器超时时,如果连续鉴权失败次数达到第一阈值,则将该AN-AAA服务器的状态转到故障状态。
2、故障状态转换到故障恢复状态:在AN-AAA服务器转入故障状态时,启动故障恢复定时器,在故障恢复定时器超时时,将该AN-AAA服务器的状态置为故障恢复状态。
3、故障恢复状状态转换到正常状态:在AN-AAA服务器处于故障恢复状态下,成功完成一次鉴权请求,则置该AN-AAA服务器的状态为正常状态。
4、故障恢复状态转换到故障状态:在AN-AAA服务器处于故障恢复状态下,若启动了故障检测定时器,则在该定时器超时时,若鉴权请求连续失败次数达到第二阈值,则置该AN-AAA服务器的状态为故障状态。
五、本发明实施例提供了一种AN-AAA服务器列表,每个AN-AAA服务器在该列表中对应了一条记录,每条记录的内容包括:
IP地址:用于记录AN-AAA服务器的IP地址。
状态标志:用于记录AN-AAA服务器的运行状态为“故障状态”、“故障恢复状态”或“正常状态”,该标志初始化为“正常状态”;
告警上报标志:用于记录是否上报过AN-AAA服务器处于“故障状态”的告警信息。告警上报标志初始化为“未上报”,当检测到AN-AAA服务器处于故障状态时,则向告警装置上报告警信息,并置此标志“已上报”。
鉴权失败计数器:用于记录发往AN-AAA服务器的鉴权请求连续失败的次数。每当发生一次鉴权失败,则计数器加1,每当发生一次鉴权成功,则计数器复位为0。
例如,设检测周期是1小时(即故障检测定时器的定时时长是1小时),第一阀值是20。如果在这1小时内发送了30次的鉴权请求消息,前5次成功,后25次均没有响应,即鉴权请求连续失败的次数为25次,则认为服务器故障;但如果前25次发送的鉴权请求消息均没有响应,后5次发送的鉴权请求消息有响应,虽然鉴权请求连续失败的次数也为25次,但仍然认为这个服务器是正常的。在具体算法实现上,每一次鉴权失败,鉴权失败计数器加1,而每收到一次响应,就会把鉴权失败计数器清0,重新开始计数,在故障检测定时器超时的那一刻,读取该鉴权失败计数器的计数值,并将该值与第一阈值进行比较,以判断服务器是否故障。
其中,若向服务器发送了一次鉴权请求消息,在规定时间内没有收到该服务器反馈的响应消息,则确定发生了一次的鉴权失败。同理,若向服务器发送了一次鉴权请求消息,在规定时间内收到了该服务器反馈的响应消息,则确定发生了一次的鉴权成功。
六、本发明实施例提供了接入鉴权时,选择AN-AAA服务器可用集合的原则:
如果AN-AAA服务器列表中只有一个AN-AAA服务器的信息,则无论其状态标志如何,都将选择该AN-AAA服务器加入AN-AAA服务器可用集合;否则,
将AN-AAA服务器列表中所有状态标志为“正常状态”或“故障恢复状态”的AN-AAA服务器加入AN-AAA服务器可用集合。
在确定当前鉴权请求消息需要发往的服务器时,从AN-AAA服务器可用集合中选择服务器。当从AN-AAA服务器可用集合中选择服务器时,具体地,可以采用负荷分担的方式,根据AN-AAA服务器可用集合中的AN-AAA服务器的权重,选择服务器,其中,每个AN-AAA服务器的权重,可以根据AN-AAA服务器的负荷分担情况实时地进行调整。
综上,基于以上定义,本发明实施例提供的方案流程如下:
当选择一个AN-AAA服务器处理某一用户的一次鉴权失败时,在AN-AAA服务器列表中,将该AN-AAA服务器对应的鉴权失败计数器加1;检查是否已经启动该AN-AAA服务器对应的故障检测定时器,如果还没有启动,则启动该故障检测定时器;重新从除去当前AN-AAA服务器之外的AN-AAA服务器可用集合中选择一个AN-AAA服务器,处理该用户的鉴权请求。
当AN-AAA服务器成功完成一次鉴权请求(收到了AN-AAA服务器的响应)时,则将该AN-AAA服务器的鉴权失败计数嚣清0,并检查是否启动了该AN-AAA服务器对应的故障检测定时器,如果启动了,则停止它;判断该AN-AAA服务器当前状态如果是故障恢复状态,则置该AN-AAA服务器的状态标志为正常状态;检查该AN-AAA服务器的告警上报标志,如果是“已上报”,则通知告警装置该AN-AAA服务器故障已经恢复,并复位该标志为“未上报”。
当AN-AAA服务器的故障检测定时器超时,当前状态标志如果为正常状态,则判断鉴权失败计数嚣计数值是否大于第一阈值,如果是,则置对应的AN-AAA服务器状态标志为“故障状态”,通知告警装置该AN-AAA服务器处于故障状态,置告警上报标志为“已上报”,并启动故障恢复定时器,鉴权失败计数嚣清0;否则,仅执行鉴权失败计数嚣清0,保持当前正常状态。当前状态标志如果是“故障恢复状态”,则判断鉴权失败计数嚣计数值是否大于第二阈值,如果是,则置对应的AN-AAA服务器状态标志为“故障状态”,并启动故障恢复定时器,鉴权失败计数嚣清0;否则,仅执行鉴权失败计数嚣清0,保持当前故障恢复状态。
当AN-AAA服务器的故障恢复定时器超时,将对应AN-AAA服务器当前的状态标志置为“故障恢复状态”。
参见图2,是本发明实施例提供的AN-AAA服务器列表的示意图。如图2所示,当前系统中配置了4个AN-AAA服务器,其中,第一个AN-AAA服务器处于正常状态;第二个AN-AAA服务器,已经连续5次用户鉴权失败,但因为没有达到最大检测失败次数的第一阈值(例如10次),而没有置为故障状态;第三个AN-AAA服务器则因为在规定时间内连续失败达到10次,达到了最大检测失败次数的第一阈值,而置为“故障状态”,并通知告警装置显示告警;第四个AN-AAA服务器,在故障检测发生两小时后,被恢复为故障恢复状态。
图3示出了接入鉴权时选择AN-AAA服务器加入AN-AAA服务器可用集合的处理流程,具体包括步骤:
S201、判断AN-AAA服务器列表中是否只有1条记录,如果是,则执行步骤S202,否则执行步骤S203;
S202、把这唯一的AN-AAA服务器加入AN-AAA服务器可用集合中;
S203、遍历整个AN-AAA服务器列表,把所有状态为“正常状态”或“故障恢复状态“的AN-AAA服务器加入AN-AAA服务器可用集合中。
图4示出了用户鉴权失败时的处理流程,包括步骤:
S301:确定在设定时间内,发送给AN-AAA服务器的规定次数的鉴权请求消息均无响应(收到鉴权失败的通知);
S302:将AN-AAA服务器列表中该AN-AAA服务器对应的鉴权失败计数器加1。
S303:判断该AN-AAA服务器对应的故障检测定时器是否已经启动,如果是,则执行步骤S304,否则结束流程。
S304:启动该AN-AAA服务器对应的故障检测定时器。
图5描述了用户鉴权成功时的处理流程,具体包括步骤:
S401:向AN-AAA服务器发送鉴权请求后,收到该AN-AAA服务器的响应消息(收到用户鉴权成功通知);
S402:将AN-AAA服务器列表中该AN-AAA服务器对应的鉴权失败计数器清0。
S403:判断该AN-AAA服务器对应的故障检测定时器是否已经启动,如果是,则执行步骤S404,否则转到步骤S405。
S404:停止该AN-AAA服务器对应的故障检测定时器;
S405:判断AN-AAA服务器列表中该AN-AAA服务器对应的状态标志是否是“故障恢复状态”,如果是,则执行步骤S406-S407的处理;否则结束流程。
S406:判断AN-AAA服务器列表中该AN-AAA服务器对应的告警上报标志是否为“已上报”,如果是,则执行步骤S407,否则结束流程。
S407:通知告警装置,该AN-AAA服务器故障已经恢复,并将该AN-AAA服务器对应的告警上报标志恢复为“未上报”。
图6描述了故障检测定时器超时时的处理流程,具体包括步骤:
S501:AN-AAA服务器对应的故障检测定时器超时。
S502:判断该AN-AAA服务器对应的状态标志是否是正常状态,如果是则进行步骤S503-S505、S508的处理;否则(处于故障恢复状态),进行步骤S506-S508的处理。
S503:判断该AN-AAA服务器对应的鉴权失败计数器计数值是否大于最大检测失败次数的第一阈值,如果是,则继续执行步骤S504,否则转到执行步骤S508。
S504:置该AN-AAA服务器对应的状态标志为“故障状态”,并启动该AN-AAA服务器对应的故障恢复定时器。
S505:通知告警装置,该AN-AAA服务器处于“故障状态”,将该AN-AAA服务器对应的告警上报标志置为“已上报”。
S506:判断该AN-AAA服务器对应的鉴权失败计数器计数值是否大于最大检测失败次数的第二阈值,如果是则继续执行步骤S507,否则转为执行步骤S508。
S507:置该AN-AAA服务器对应的状态标志为“故障状态”,并启动该AN-AAA服务器对应的故障恢复定时器。
S508:将该AN-AAA服务器对应的鉴权失败计数器清0。
图7描述了故障恢复定时器超时时的处理流程,具体包括步骤;
S601:AN-AAA服务器对应的故障恢复定时器超时。
S602:将AN-AAA服务器列表中该AN-AAA服务器对应的状态标志由“故障状态”改为“故障恢复状态”。
参见图8,本发明实施例提供的一种服务器状态检测装置包括:
服务器确定单元101,用于确定当前鉴权请求消息需要发往的处于正常状态的服务器。
鉴权处理单元102,用于向所述服务器确定单元确定的处于正常状态的服务器发送鉴权请求,当该鉴权请求失败时,启动该服务器对应的故障检测定时器,并通过该服务器对应的鉴权失败计数器统计向该服务器发送鉴权请求连续失败的次数,其中,当收到该服务器反馈的响应消息时,将所述鉴权失败计数器清零;当故障检测定时器超时时,若所述鉴权失败计数器的计数值超过预设的第一阈值,则将该服务器的状态更新为故障状态。
较佳地,所述鉴权处理单元102,当确定服务器的状态处于故障状态时,启动该服务器对应的故障恢复定时器,当该故障恢复定时器超时时,将该服务器的状态更新为故障恢复状态。
较佳地,所述鉴权处理单元102,当向处于故障恢复状态的服务器发送鉴权请求消息,并得到了该服务器反馈的响应消息时,将该服务器的状态更新为正常状态。
较佳地,所述服务器确定单元101,还用于确定当前鉴权请求消息需要发往的处于故障恢复状态的服务器;
所述鉴权处理单元102,还用于向所述服务器确定单元确定的处于故障恢复状态的服务器发送鉴权请求,当该鉴权请求失败时,启动该服务器对应的故障检测定时器,并通过该服务器对应的鉴权失败计数器统计向该服务器发送鉴权请求连续失败的次数,其中,当收到该服务器反馈的响应消息时,将该服务器对应的鉴权失败计数器清零;当该服务器对应的故障检测定时器超时时,若该服务器对应的鉴权失败计数器的计数值超过预设的第二阈值,则将该服务器的状态更新为故障状态。
较佳地,所述服务器确定单元101,根据当前维护的服务器列表中包含的服务器信息,选取当前鉴权请求消息需要发往的处于正常状态或处于故障恢复状态的服务器;其中,所述服务器信息,包括服务器的标识和状态。
较佳地,所述鉴权处理单元102,当针对同一用户向处于正常状态或处于故障恢复状态的服务器发送鉴权请求消息后,在预设时间内没有收到该服务器反馈的响应消息时,向另一处于正常状态或故障恢复状态的服务器发送鉴权请求消息。
较佳地,本发明实施例中所述的服务器状态检测装置,可以为AN,或设置在AN中。
综上所述,本发明实施例提供的技术方案,可以基于正常的业务处理,完成对AN-AAA服务器实体的故障与故障恢复的检测,既保证及时有效的发现AN-AAA服务器故障及故障恢复,同时通过设置合理的最大检测失败次数的阈值和故障检测定时器的时长,避免链路闪断带来的误判;并通过鉴权失败情况下AN-AAA服务器的再次选择和鉴权请求,最大程度地降低故障和故障恢复检测可能对正常鉴权业务本身的影响。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (12)

1.一种服务器状态检测方法,其特征在于,该方法包括:
确定当前鉴权请求消息需要发往的处于正常状态的服务器,并向该服务器发送鉴权请求,当该鉴权请求失败时,
启动该服务器对应的故障检测定时器,并通过该服务器对应的鉴权失败计数器统计向该服务器发送鉴权请求连续失败的次数,其中,当收到该服务器反馈的响应消息时,将所述鉴权失败计数器清零;
当故障检测定时器超时时,若所述鉴权失败计数器的计数值超过预设的第一阈值,则将该服务器的状态更新为故障状态。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:
当确定服务器的状态处于故障状态时,启动该服务器对应的故障恢复定时器,当该故障恢复定时器超时时,将该服务器的状态更新为故障恢复状态。
3.根据权利要求2所述的方法,其特征在于,该方法还包括:
当向处于故障恢复状态的服务器发送鉴权请求消息,并得到了该服务器反馈的响应消息时,将该服务器的状态更新为正常状态。
4.根据权利要求1、2或3所述的方法,其特征在于,该方法还包括:
确定当前鉴权请求消息需要发往的处于故障恢复状态的服务器,并向该服务器发送鉴权请求,当该鉴权请求失败时,
启动该服务器对应的故障检测定时器,并通过该服务器对应的鉴权失败计数器统计向该服务器发送鉴权请求连续失败的次数,其中,当收到该服务器反馈的响应消息时,将该服务器对应的鉴权失败计数器清零;
当该服务器对应的故障检测定时器超时时,若该服务器对应的鉴权失败计数器的计数值超过预设的第二阈值,则将该服务器的状态更新为故障状态。
5.根据权利要求4所述的方法,其特征在于,所述确定当前鉴权请求消息需要发往的处于正常状态的服务器,包括:根据当前维护的服务器列表中包含的服务器的标识和状态,选取当前鉴权请求消息需要发往的处于正常状态的服务器;
所述确定当前鉴权请求消息需要发往的处于故障恢复状态的服务器,包括:根据当前维护的服务器列表中包含的服务器的标识和状态,选取当前鉴权请求消息需要发往的处于故障恢复状态的服务器。
6.根据权利要求5所述的方法,其特征在于,当针对同一用户向处于正常状态或处于故障恢复状态的服务器发送鉴权请求消息后,在预设时间内没有收到该服务器反馈的响应消息时,向另一处于正常状态或故障恢复状态的服务器发送鉴权请求消息。
7.一种服务器状态检测装置,其特征在于,该装置包括:
服务器确定单元,用于确定当前鉴权请求消息需要发往的处于正常状态的服务器;
鉴权处理单元,用于向所述服务器确定单元确定的处于正常状态的服务器发送鉴权请求,当该鉴权请求失败时,启动该服务器对应的故障检测定时器,并通过该服务器对应的鉴权失败计数器统计向该服务器发送鉴权请求连续失败的次数,其中,当收到该服务器反馈的响应消息时,将所述鉴权失败计数器清零;当故障检测定时器超时时,若所述鉴权失败计数器的计数值超过预设的第一阈值,则将该服务器的状态更新为故障状态。
8.根据权利要求7所述的装置,其特征在于,所述鉴权处理单元,当确定服务器的状态处于故障状态时,启动该服务器对应的故障恢复定时器,当该故障恢复定时器超时时,将该服务器的状态更新为故障恢复状态。
9.根据权利要求8所述的装置,其特征在于,所述鉴权处理单元,当向处于故障恢复状态的服务器发送鉴权请求消息,并得到了该服务器反馈的响应消息时,将该服务器的状态更新为正常状态。
10.根据权利要求7、8或9所述的装置,其特征在于,
所述服务器确定单元,还用于确定当前鉴权请求消息需要发往的处于故障恢复状态的服务器;
所述鉴权处理单元,还用于向所述服务器确定单元确定的处于故障恢复状态的服务器发送鉴权请求,当该鉴权请求失败时,启动该服务器对应的故障检测定时器,并通过该服务器对应的鉴权失败计数器统计向该服务器发送鉴权请求连续失败的次数,其中,当收到该服务器反馈的响应消息时,将该服务器对应的鉴权失败计数器清零;当该服务器对应的故障检测定时器超时时,若该服务器对应的鉴权失败计数器的计数值超过预设的第二阈值,则将该服务器的状态更新为故障状态。
11.根据权利要求10所述的装置,其特征在于,所述服务器确定单元,根据当前维护的服务器列表中包含的服务器信息,选取当前鉴权请求消息需要发往的处于正常状态或处于故障恢复状态的服务器;其中,所述服务器信息,包括服务器的标识和状态。
12.根据权利要求11所述的装置,其特征在于,所述鉴权处理单元,当针对同一用户向处于正常状态或处于故障恢复状态的服务器发送鉴权请求消息后,在预设时间内没有收到该服务器反馈的响应消息时,向另一处于正常状态或故障恢复状态的服务器发送鉴权请求消息。
CN201010592669.6A 2010-12-16 2010-12-16 一种服务器状态检测方法及装置 Active CN102075380B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010592669.6A CN102075380B (zh) 2010-12-16 2010-12-16 一种服务器状态检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010592669.6A CN102075380B (zh) 2010-12-16 2010-12-16 一种服务器状态检测方法及装置

Publications (2)

Publication Number Publication Date
CN102075380A true CN102075380A (zh) 2011-05-25
CN102075380B CN102075380B (zh) 2014-12-10

Family

ID=44033733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010592669.6A Active CN102075380B (zh) 2010-12-16 2010-12-16 一种服务器状态检测方法及装置

Country Status (1)

Country Link
CN (1) CN102075380B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102857913A (zh) * 2011-06-28 2013-01-02 中国移动通信集团公司 在建立安全信道时进行鉴权的方法、装置、智能卡及终端
CN103327135A (zh) * 2013-06-27 2013-09-25 贝壳网际(北京)安全技术有限公司 域名解析方法、装置及客户端
CN103684865A (zh) * 2013-12-11 2014-03-26 北京先进数通信息技术股份公司 一种交换系统及一种信息交换方法
CN103731312A (zh) * 2014-01-26 2014-04-16 飞狐信息技术(天津)有限公司 对远程方法调用的服务进行故障检查的方法和装置
CN104954190A (zh) * 2014-03-24 2015-09-30 深圳市金蝶友商电子商务服务有限公司 应用服务器故障检测方法及装置
CN106375150A (zh) * 2016-08-31 2017-02-01 广州唯品会信息科技有限公司 服务器的断开控制方法及装置
CN106412016A (zh) * 2016-08-31 2017-02-15 广州唯品会信息科技有限公司 服务器的连接控制方法及装置
CN107204875A (zh) * 2017-05-11 2017-09-26 腾讯科技(深圳)有限公司 数据上报链路监测方法、装置、电子设备及存储介质
CN107894950A (zh) * 2017-10-30 2018-04-10 北京奇虎科技有限公司 一种设备检测方法、装置、服务器及存储介质
CN108198012A (zh) * 2016-12-08 2018-06-22 阿里巴巴集团控股有限公司 一种目标对象的推送、业务处理方法、设备及系统
CN108601039A (zh) * 2018-07-13 2018-09-28 维沃移动通信有限公司 一种通话方法及移动终端
CN108616393A (zh) * 2018-04-24 2018-10-02 杭州迪普科技股份有限公司 一种基于ldap服务器的认证方法和装置
CN108712521A (zh) * 2018-05-31 2018-10-26 郑州云海信息技术有限公司 设备节点信息的配置系统、方法、设备及可读存储介质
CN108712467A (zh) * 2018-04-19 2018-10-26 宁波三掌柜新商业有限公司 一种实现物联网实时高速稳定高并发的交互方法
CN109634252A (zh) * 2018-11-06 2019-04-16 华为技术有限公司 一种根因诊断的方法、装置
CN109936613A (zh) * 2017-12-19 2019-06-25 北京京东尚科信息技术有限公司 应用于服务器的容灾方法和装置
CN110300071A (zh) * 2019-06-03 2019-10-01 广东美的厨房电器制造有限公司 物联网设备的服务器资源获取方法及相关设备
CN111031000A (zh) * 2019-11-18 2020-04-17 腾讯科技(深圳)有限公司 一种业务风控系统的处理方法、装置、系统及存储介质
CN111039115A (zh) * 2018-10-15 2020-04-21 奥的斯电梯公司 用于监控电梯通信模块故障的方法、系统以及电梯
CN111176876A (zh) * 2019-12-27 2020-05-19 广东浪潮大数据研究有限公司 一种故障恢复确定方法、装置、设备及可读存储介质
CN111245687A (zh) * 2020-03-20 2020-06-05 北京和利时系统工程有限公司 一种通信状态更新方法和装置
CN113419892A (zh) * 2021-07-05 2021-09-21 山东云缦智能科技有限公司 一种自动熔断和恢复服务的实现方法
CN114500278A (zh) * 2021-12-30 2022-05-13 武汉思普崚技术有限公司 一种通过代理服务器升级特征库的方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020103898A1 (en) * 2001-01-31 2002-08-01 Moyer Stanley L. System and method for using session initiation protocol (SIP) to communicate with networked appliances
CN1464396A (zh) * 2002-06-27 2003-12-31 深圳市中兴通讯股份有限公司 一种在服务器之间实现备份的方法
CN1568046A (zh) * 2003-07-03 2005-01-19 中国移动通信集团公司 一种移动网络中业务链路的检测维护方法
CN1848754A (zh) * 2005-04-13 2006-10-18 华为技术有限公司 一种切换服务器的控制方法
CN101119187A (zh) * 2007-09-06 2008-02-06 上海可鲁系统软件有限公司 一种主从设备切换控制方法
CN101141260A (zh) * 2007-10-22 2008-03-12 中兴通讯股份有限公司 对远程用户拨号认证系统服务器通路检活的方法及装置
CN101175088A (zh) * 2006-10-31 2008-05-07 上海东华广播电视网络有限公司 多业务传输平台中监测网络连接状况的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020103898A1 (en) * 2001-01-31 2002-08-01 Moyer Stanley L. System and method for using session initiation protocol (SIP) to communicate with networked appliances
CN1464396A (zh) * 2002-06-27 2003-12-31 深圳市中兴通讯股份有限公司 一种在服务器之间实现备份的方法
CN1568046A (zh) * 2003-07-03 2005-01-19 中国移动通信集团公司 一种移动网络中业务链路的检测维护方法
CN1848754A (zh) * 2005-04-13 2006-10-18 华为技术有限公司 一种切换服务器的控制方法
CN101175088A (zh) * 2006-10-31 2008-05-07 上海东华广播电视网络有限公司 多业务传输平台中监测网络连接状况的方法
CN101119187A (zh) * 2007-09-06 2008-02-06 上海可鲁系统软件有限公司 一种主从设备切换控制方法
CN101141260A (zh) * 2007-10-22 2008-03-12 中兴通讯股份有限公司 对远程用户拨号认证系统服务器通路检活的方法及装置

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102857913B (zh) * 2011-06-28 2015-03-11 中国移动通信集团公司 在建立安全信道时进行鉴权的方法、装置、智能卡及终端
CN102857913A (zh) * 2011-06-28 2013-01-02 中国移动通信集团公司 在建立安全信道时进行鉴权的方法、装置、智能卡及终端
CN103327135A (zh) * 2013-06-27 2013-09-25 贝壳网际(北京)安全技术有限公司 域名解析方法、装置及客户端
CN103684865B (zh) * 2013-12-11 2017-02-08 北京先进数通信息技术股份公司 一种交换系统及一种信息交换方法
CN103684865A (zh) * 2013-12-11 2014-03-26 北京先进数通信息技术股份公司 一种交换系统及一种信息交换方法
CN103731312A (zh) * 2014-01-26 2014-04-16 飞狐信息技术(天津)有限公司 对远程方法调用的服务进行故障检查的方法和装置
CN104954190A (zh) * 2014-03-24 2015-09-30 深圳市金蝶友商电子商务服务有限公司 应用服务器故障检测方法及装置
CN106412016A (zh) * 2016-08-31 2017-02-15 广州唯品会信息科技有限公司 服务器的连接控制方法及装置
CN106375150A (zh) * 2016-08-31 2017-02-01 广州唯品会信息科技有限公司 服务器的断开控制方法及装置
CN108198012A (zh) * 2016-12-08 2018-06-22 阿里巴巴集团控股有限公司 一种目标对象的推送、业务处理方法、设备及系统
CN107204875A (zh) * 2017-05-11 2017-09-26 腾讯科技(深圳)有限公司 数据上报链路监测方法、装置、电子设备及存储介质
CN107204875B (zh) * 2017-05-11 2022-08-23 腾讯科技(深圳)有限公司 数据上报链路监测方法、装置、电子设备及存储介质
CN107894950A (zh) * 2017-10-30 2018-04-10 北京奇虎科技有限公司 一种设备检测方法、装置、服务器及存储介质
CN109936613A (zh) * 2017-12-19 2019-06-25 北京京东尚科信息技术有限公司 应用于服务器的容灾方法和装置
CN108712467A (zh) * 2018-04-19 2018-10-26 宁波三掌柜新商业有限公司 一种实现物联网实时高速稳定高并发的交互方法
CN108616393A (zh) * 2018-04-24 2018-10-02 杭州迪普科技股份有限公司 一种基于ldap服务器的认证方法和装置
CN108712521A (zh) * 2018-05-31 2018-10-26 郑州云海信息技术有限公司 设备节点信息的配置系统、方法、设备及可读存储介质
CN108601039A (zh) * 2018-07-13 2018-09-28 维沃移动通信有限公司 一种通话方法及移动终端
CN111039115A (zh) * 2018-10-15 2020-04-21 奥的斯电梯公司 用于监控电梯通信模块故障的方法、系统以及电梯
CN109634252B (zh) * 2018-11-06 2020-06-26 华为技术有限公司 一种根因诊断的方法、装置
CN109634252A (zh) * 2018-11-06 2019-04-16 华为技术有限公司 一种根因诊断的方法、装置
CN110300071A (zh) * 2019-06-03 2019-10-01 广东美的厨房电器制造有限公司 物联网设备的服务器资源获取方法及相关设备
CN111031000A (zh) * 2019-11-18 2020-04-17 腾讯科技(深圳)有限公司 一种业务风控系统的处理方法、装置、系统及存储介质
CN111176876A (zh) * 2019-12-27 2020-05-19 广东浪潮大数据研究有限公司 一种故障恢复确定方法、装置、设备及可读存储介质
CN111176876B (zh) * 2019-12-27 2024-04-16 广东浪潮大数据研究有限公司 一种故障恢复确定方法、装置、设备及可读存储介质
CN111245687A (zh) * 2020-03-20 2020-06-05 北京和利时系统工程有限公司 一种通信状态更新方法和装置
CN111245687B (zh) * 2020-03-20 2021-11-16 北京和利时系统工程有限公司 一种通信状态更新方法和装置
CN113419892A (zh) * 2021-07-05 2021-09-21 山东云缦智能科技有限公司 一种自动熔断和恢复服务的实现方法
CN114500278A (zh) * 2021-12-30 2022-05-13 武汉思普崚技术有限公司 一种通过代理服务器升级特征库的方法和装置
CN114500278B (zh) * 2021-12-30 2024-04-09 武汉思普崚技术有限公司 一种通过代理服务器升级特征库的方法和装置

Also Published As

Publication number Publication date
CN102075380B (zh) 2014-12-10

Similar Documents

Publication Publication Date Title
CN102075380B (zh) 一种服务器状态检测方法及装置
CN101094157B (zh) 利用链路聚合实现网络互连的方法
US8970394B2 (en) Aggregated real-time power outages/restoration reporting (RTPOR) in a secure mesh network
CN102143073A (zh) 一种数据传输方法及系统
CN101478492B (zh) 一种堆叠成员端口检测的方法和装置
CN102148724B (zh) 链路检测方法及网络接入设备
WO2016152307A1 (ja) 通信装置、通信方法、およびプログラム
CN102307367A (zh) 一种通信设备及掉电告警方法
CN105223949A (zh) 电器设备及其通讯故障诊断方法和装置
CN103546917B (zh) 数据传输方法和装置
CN1747438A (zh) 一种保证以太网自动保护系统环正常工作的方法
CN103560898A (zh) 一种端口状态设置方法、端口优先级的选择方法及装置
CN101150458A (zh) 检测单板的方法和设备
CN103139818A (zh) 一种aos中保持长连接的方法、系统、aoe、aog及终端
CN101860442A (zh) 一种交换机、电源装置及实现掉电远端报警的方法
CN101989933A (zh) 一种故障检测的方法和系统
CN103036696A (zh) 一种联机业务的实现方法、系统及相应设备
CN105871661A (zh) 公网服务器探测方法及探测服务器
CN101441668B (zh) 分布式文件系统中多磁盘分组热备的方法与装置
CN109194521A (zh) 一种流量转发方法及设备
CN109412819A (zh) 用于报警设备掉电的方法及装置
CN100397829C (zh) 一种频发性离散事件性故障的告警方法
CN101764698B (zh) 电力设备自动回复的方法
CN101820317A (zh) 实现保护组保护倒换的方法及系统
CN110174887A (zh) 智能家居设备的维修方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant