CN103368754A - 一种检测业务故障的方法、装置和系统及设备 - Google Patents

一种检测业务故障的方法、装置和系统及设备 Download PDF

Info

Publication number
CN103368754A
CN103368754A CN2012100828535A CN201210082853A CN103368754A CN 103368754 A CN103368754 A CN 103368754A CN 2012100828535 A CN2012100828535 A CN 2012100828535A CN 201210082853 A CN201210082853 A CN 201210082853A CN 103368754 A CN103368754 A CN 103368754A
Authority
CN
China
Prior art keywords
service processor
service
parameter value
processor
ratio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100828535A
Other languages
English (en)
Other versions
CN103368754B (zh
Inventor
王国才
张浩军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201210082853.5A priority Critical patent/CN103368754B/zh
Publication of CN103368754A publication Critical patent/CN103368754A/zh
Application granted granted Critical
Publication of CN103368754B publication Critical patent/CN103368754B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及通信领域技术,尤其涉及检测业务故障的方法、装置和系统及设备,该方法包括从业务处理机对应的前台业务子系统,获取所述业务处理机在同一时间段内的表征接收信息能力的第一参数值和表征转发信息能力的第二参数值;判断所述第一参数值和第二参数值是否满足隔离条件;当满足隔离条件时,隔离所述业务处理机;当不满足所述隔离条件时,通知负载均衡设备为所述业务处理机分配业务消息配额。使用本发明实施例提供的检测业务故障的方法、装置和系统及设备,能够及时发现业务处理机的故障,提高故障检测的准确性,避免向发生故障的业务处理机分配而带来的业务损失。

Description

一种检测业务故障的方法、装置和系统及设备
技术领域
本发明涉及通信领域技术,尤其涉及一种检测业务故障的方法、装置和系统及设备。
背景技术
目前,为了避免多机集群系统中某个业务处理机发生故障时的损失业务量,一般情况下,在多机集群中部署负载均衡设备,并在负载均衡设备中配置健康检查功能。实现该健康检查功能时,一般是以检测每个业务处理机的服务端口存活情况为依据。在按照一定探测策略后判断端口异常,负载均衡设备不再向该业务处理机分配消息配额,则因该单机故障引起的业务损失会被降到最低。
但是,现有技术中存在一个潜在漏洞,当多机集群系统中某一个业务处理机的服务端口正常,但是其内部处理逻辑或与其他外部网元的链接异常等导致业务受阻时,负载均衡设备无法判断该业务处理机工作异常,负载均衡设备会继续给其分配消息配额,造成业务损失。
发明内容
本发明实施例提供了一种检测业务故障的方法、装置和系统及设备,可以提高故障检测的准确性,避免向发生故障的业务处理机分配而带来的业务损失。
本发明实施例提供了一种检测业务故障的方法,包括:
从业务处理机对应的前台业务子系统,获取所述业务处理机在同一时间段内的表征接收信息能力的第一参数值和表征转发信息能力的第二参数值;
判断所述第一参数值和第二参数值是否满足隔离条件;
当满足隔离条件时,隔离所述业务处理机;
当不满足所述隔离条件时,通知负载均衡设备为所述业务处理机分配业务消息配额。
相应的,本发明实施例提供了一种检测业务故障的装置,包括:
获取模块,用于从业务处理机对应的前台业务子系统,获取所述业务处理机在同一时间段内的表征接收信息能力的第一参数值和表征转发信息能力的第二参数值;
判断模块,用于判断所述第一参数值和第二参数值是否满足隔离条件;
隔离模块,用于当满足隔离条件时,隔离所述业务处理机;
通知模块,用于当不满足所述隔离条件时,通知负载均衡设备为所述业务处理机分配业务消息配额。
相应的,本发明实施例提供了一种设备,包括:上述检测业务故障的装置。
相应的,本发明实施例提供了一种检测业务故障的系统,包括:业务处理机、与所述业务处理机对应的操作维护子系统、前台业务子系统和负载均衡设备;
其中,所述操作维护子系统从所述业务处理机对应的前台业务子系统,获取所述业务处理机在同一时间段内的表征接收信息能力的第一参数值和表征转发信息能力的第二参数值;判断所述第一参数值和第二参数值是否满足隔离条件;当满足隔离条件时,隔离所述业务处理机;当不满足所述隔离条件时,通知所述负载均衡设备为所述业务处理机分配业务消息配额。
本发明实施例提供了一种检测业务故障的方法、装置和系统及设备,用于从业务处理机对应的前台业务子系统,获取所述业务处理机在同一时间段内的表征接收信息能力的第一参数值和表征转发信息能力的第二参数值;判断所述第一参数值和第二参数值是否满足隔离条件;当满足隔离条件时,隔离所述业务处理机;当不满足所述隔离条件时,通知负载均衡设备为所述业务处理机分配业务消息配额。使用本发明实施例提供的检测业务故障的方法、装置和系统及设备,通过分析业务处理机接收信息和转发信息的能力,确定业务处理机是否应该被隔离,本发明实施例提供的方案更为贴近业务处理机的实际处理业务能力,能够及时发现业务处理机的故障,提高故障检测的准确性,避免向发生故障的业务处理机分配而带来的业务损失。而且,还可以及时检测到业务处理机恢复正常工作,实现了快速隔离、快速恢复的功能。并且,本发明实施例提供的方案对现有的系统的物理结构改造小,进一步的节约了实现成本。
附图说明
图1为本发明实施例中检测业务故障的方法流程示意图;
图2为本发明实施例中判断是否满足隔离条件的方法流程示意图;
图3为本发明实施例中隔离业务处理机的方法流程示意图;
图4为本发明实施例中恢复业务处理机的方法流程示意图;
图5为本发明另一实施例中检测业务故障的装置示意图;
图6为本发明另一实施例中检测业务故障的系统示意图。
具体实施方式
下面结合各个附图对本发明实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细地阐述。
为了解决现有技术存在的问题,本发明实施例提供了一种检测业务故障的方法,如图1所示,该方法包括:
步骤101、从业务处理机对应的前台业务子系统,获取业务处理机在同一时间段内的表征接收信息能力的第一参数值和表征转发信息能力的第二参数值;
步骤102、判断第一参数值和第二参数值是否满足隔离条件,若是执行步骤103;否则,执行步骤104;
步骤103、当满足隔离条件时,隔离业务处理机;
步骤104、当不满足隔离条件时,通知负载均衡设备为所述业务处理机分配业务消息配额。
在多机集群方式部署的业务系统中(如彩信网关集群系统、彩信中心、短信中心等),为业务处理机分配业务消息配额的负载均衡设备仅能通过业务处理机的服务端口的存活情况判断业务处理机的工作状态,而当业务处理机内部处理逻辑等异常时,无法检测到工作状态异常。本发明实施例提供的方法从业务处理机自身的业务特别出发,通过对接收信息能力和转发信息能力的检测判断业务处理机的工作状态是否正常。
首先,业务处理机对应的操作维护子系统周期性从业务处理机对应的前台业务子系统的业务前台,获取业务处理机在同一时间段内的表征接收信息能力的第一参数值和表征转发信息能力的第二参数值;其中,第一参数值包括接收消息量和成功接收消息量,第二参数值包括转发消息量和成功转发消息量。具体的,现有技术中操作维护子系统存在性能统计功能,该功能实现时从业务前台获取有关业务数据,例如接收消息量、成功接收消息、转发消息量和成功转发消息量等。现有技术中,这些业务数据用于供用户查看。本发明实施例中,通过创造性的劳动,对该功能进行了改进,增加了一些功能,即周期性从业务处理机对应的前台业务子系统的业务前台,获取业务处理机在同一时间段内的表征接收信息能力的第一参数值和表征转发信息能力的第二参数值。例如,周期性从业务处理机对应的前台业务子系统的业务前台,获取业务处理机从当前时间至当前时间的前5分钟内的成功接收消息量以及转发消息量。较佳的,表征接收信息能力的第一参数值选用成功接收消息量,表征转发信息能力的第二参数值选用转发消息量。因为这两个参数表征的意义最为贴近业务处理机工作状况。例如,业务处理机5分钟内转发100条消息,但是由于接收消息的对端发生故障,仅有50条消息成功转发,此时若第二参数值选用成功转发消息量,则偏离了业务处理机的真实工作状态。
然后,业务处理机对应的操作维护子系统,根据该第一参数值和第二参数值,判断是否应该隔离当前的业务处理机。其中,需要判断第一参数值和第二参数值是否满足隔离条件。a)该隔离条件为第二参数值与第一参数值的比值小于预定隔离阈值时,从业务处理机对应的前台业务子系统,获取业务处理机在同一时间段内的第二参数值和第一参数值的比值;将比值与所述预定隔离阈值进行比较;其中,比值小于预定隔离阈值时,满足隔离条件,隔离业务处理机;比值不大于预定隔离阈值时,不满足隔离条件,通知负载均衡设备向业务处理机分配业务消息配额。b)该隔离条件为第二参数值与第一参数值的比值小于预定隔离阈值,且比值小于前N次获取的所述比值,其中N为大于等于1的正整数时,从业务处理机对应的前台业务子系统,获取业务处理机在同一时间段内的第二参数值和第一参数值的比值;将比值与预定隔离阈值进行比较;比值小于预定隔离阈值时,将当前比值与前N次获取的比值分别进行比较;当比较结果均为小于时,满足隔离条件,隔离业务处理机;当比较结果未均为小于时,不满足隔离条件,通知负载均衡设备向业务处理机分配业务消息配额。
以第一参数值为成功接收消息量、第二参数值为转发消息量为例,对满足隔离条件进行说明,如图2所示,包括以下步骤:
步骤201、从业务处理机对应的前台业务子系统,获取业务处理机在前5分钟内的成功接收消息量和转发消息量;
步骤202、获取转发消息量与成功接收消息量的比值;具体的,假设M=转发消息量/成功接收消息量,通过M的值可以反映出前5分钟内业务处理机处理业务的情况。
步骤203、将上述比值与预定隔离阈值进行比较;若不小于,则不满足隔离条件,执行步骤204;若小于,则满足隔离条件,执行步骤205;
具体的,该预定隔离阈值可以根据用户的需要进行配置,若要求业务处理机的处理效率高,则将该预定隔离阈值调高如50%;若要求不高,则可以将预定隔离阈值调低如10%。较佳的,该预定隔离阈值可以取值为30%。
步骤204、通知负载均衡设备向业务处理机分配业务消息配额,继续执行步骤201;
步骤205、获取保存的、前2次获取的转发消息量与成功接收消息量的比值,并与上述比值进行比较;若上述比值均小于保存的比值,则满足隔离条件,执行步骤206;否则,不满足隔离条件,执行步骤204;具体的,假设本次获取的比值为25%,前2次获取的比值分别为35%和45%,则满足隔离条件。
步骤206、隔离业务处理机。其中,当隔离条件仅为第二参数值与第一参数值的比值小于预定隔离阈值时,步骤203中判断小于预定隔离阈值后直接执行步骤206。
上述步骤206的具体实现过程包括:发出隔离提示消息并在接收到隔离指令时,向业务处理机对应的前台业务子系统发送隔离调用命令;前台业务子系统调用隔离程序,对所述业务处理机与对应的负载均衡设备之间的服务端口号进行修改或关闭,并重启;负载均衡设备探测到所述服务端口号修改或关闭时,停止向业务处理机分配消息配额。可以结合附图3,对该过程进行进一步说明,如图3所示,包括以下步骤:
步骤301、业务处理机对应的操作维护子系统发出隔离提示消息;具体的,操作维护子系统中的故障处理设备构造出隔离提示消,并发送到操作维护子系统中的告警台上进行显示。同时,还可以通过互联网向指定地址发送提醒邮件或提醒短信。
步骤302、在操作维护子系统中的告警台上显示出隔离与恢复菜单;
步骤303、在接收到隔离指令时,向业务处理机对应的前台业务子系统发送隔离调用命令;具体的,用户通过选定隔离与恢复菜单中的隔离选项,使得操作维护子系统接收到隔离指令。
步骤304、前台业务子系统调用隔离程序,对业务处理机与对应的负载均衡设备之间的服务端口号进行修改或关闭,并重启;具体的,假设正常情况下,业务处理机与对应的负载均衡设备之间的服务端口号为8888,当需要隔离该业务处理机时,可以将该服务端口号修改为8880,或者直接关闭该服务端口号对应的应用程序。服务端口号修改或关闭后,需要重启才能启用修改后或关闭后的服务端口号。较佳的,可以重启MMSP(multi-mission surveillance platform多任务监视平台)进程。
步骤305、负载均衡设备探测到服务端口号修改或关闭时,停止向业务处理机分配消息配额。具体的,负载均衡设备至少一次探测当前业务处理机部署的业务程序的服务端口不可用时,确定该业务处理器工作异常,产生故障,停止向业务处理机分配消息配额。其中,该负载均衡设备探测的次数可以为一次,也可以为多次,具体次数取决于负载均衡设备配置的探测策略。
当业务处理机被隔离后,若业务处理机的工作状态恢复正常时,需要恢复向该业务处理器分配业务消息配额,具体的,当业务处理机不满足隔离条件时,发出恢复提示消息并在接收到恢复指令时,向业务处理机对应的前台业务子系统发送恢复调用命令;前台业务子系统调用恢复程序,将业务处理机与对应的负载均衡设备之间的服务端口号修改为可用服务端口号,并重启;负载均衡设备探测到服务端口号可用时,向业务处理机分配业务消息配额。结合附图4对该过程进行详细说明,如图4所示,包括以下步骤:
步骤401、当业务处理机不满足隔离条件时,操作维护子系统发出恢复提示消息;具体的,虽然该业务处理机被隔离,但是仍然对其是否满足隔离条件进行判断。当其不满足隔离条件时,业务处理机对应的操作维护子系统发出恢复提示消息。操作维护子系统中的故障处理设备构造出恢复提示消息,并发送到操作维护子系统中的告警台上进行显示。同时,还可以通过互联网向指定地址发送提醒邮件或提醒短信。
步骤402、在操作维护子系统中的告警台上显示出隔离与恢复菜单;
步骤403、在接收到恢复指令时,向业务处理机对应的前台业务子系统发送恢复调用命令;具体的,用户通过选定隔离与恢复菜单中的恢复选项,使得操作维护子系统接收到恢复指令。
步骤404、前台业务子系统调用恢复程序,将业务处理机与对应的负载均衡设备之间的服务端口号修改为可用服务端口号,并重启;具体的,假设正常情况下,业务处理机与对应的负载均衡设备之间的服务端口号为8888,隔离该业务处理机时,将该服务端口号修改为8880。则当恢复该业务处理机时,将服务端口号修改回8888。需要重启才能启用修改后服务端口号。较佳的,可以重启MMSP进程。
步骤405、负载均衡设备探测到服务端口号可用时,向业务处理机分配业务消息配额。
通过上述描述,可以看出,使用本发明实施例提供的检测业务故障的方法,通过分析业务处理机接收信息和转发信息的能力,确定业务处理机是否应该被隔离,本发明实施例提供的方案更为贴近业务处理机的实际处理业务能力,能够及时发现业务处理机的故障,提高故障检测的准确性,避免向发生故障的业务处理机分配而带来的业务损失。而且,还可以及时检测到业务处理机恢复正常工作,实现了快速隔离、快速恢复的功能。并且,本发明实施例提供的方案对现有的系统的物理结构改造小,进一步的节约了实现成本。
基于同一发明构思,本发明实施例还提供了一种检测业务故障的装置,如图5所示,包括:
获取模块501,用于从业务处理机对应的前台业务子系统,获取所述业务处理机在同一时间段内的表征接收信息能力的第一参数值和表征转发信息能力的第二参数值;
判断模块502,用于判断所述第一参数值和第二参数值是否满足隔离条件;
隔离模块503,用于当满足隔离条件时,隔离所述业务处理机;
通知模块504,用于当不满足所述隔离条件时,通知负载均衡设备为所述业务处理机分配业务消息配额。
较佳的,所述获取模块501,具体用于周期性从所述业务处理机对应的前台业务子系统的业务前台,获取所述业务处理机在同一时间段内的表征接收信息能力的第一参数值和表征转发信息能力的第二参数值;其中,所述第一参数值包括接收消息量和成功接收消息量,所述第二参数值包括转发消息量和成功转发消息量。
较佳的,所述隔离条件为所述第二参数值与所述第一参数值的比值小于预定隔离阈值时,所述判断模块502具体用于从业务处理机对应的前台业务子系统,获取所述业务处理机在同一时间段内的第二参数值和第一参数值的比值;将所述比值与所述预定隔离阈值进行比较;其中,所述比值小于所述预定隔离阈值时,满足所述隔离条件,隔离所述业务处理机;所述比值不大于所述预定隔离阈值时,不满足所述隔离条件,通知负载均衡设备向所述业务处理机分配业务消息配额。
较佳的,所述隔离条件为所述第二参数值与所述第一参数值的比值小于预定隔离阈值,且所述比值小于前N次获取的所述比值,其中N为大于等于1的正整数时,所述判断模块502具体用于从业务处理机对应的前台业务子系统,获取所述业务处理机在同一时间段内的第二参数值和第一参数值的比值;将所述比值与所述预定隔离阈值进行比较;所述比值小于所述预定隔离阈值时,将当前比值与前N次获取的比值分别进行比较;当比较结果均为小于时,满足所述隔离条件,隔离所述业务处理机;当比较结果未均为小于时,不满足所述隔离条件,通知负载均衡设备向所述业务处理机分配业务消息配额。
较佳的,所述隔离模块503具体用于发出隔离提示消息并在接收到隔离指令时,向所述业务处理机对应的前台业务子系统发送隔离调用命令;所述前台业务子系统调用隔离程序,对所述业务处理机与对应的负载均衡设备之间的服务端口号进行修改或关闭,并重启;所述负载均衡设备探测到所述服务端口号修改或关闭时,停止向所述业务处理机分配消息配额。
较佳的,该装置还包括:
恢复模块505,用于当所述隔离模块503隔离所述业务处理机后,所述判断模块502判断所述业务处理机不满足所述隔离条件时,发出恢复提示消息并在接收到恢复指令时,向所述业务处理机对应的前台业务子系统发送恢复调用命令;所述前台业务子系统调用恢复程序,将所述业务处理机与对应的负载均衡设备之间的服务端口号修改为可用服务端口号,并重启;所述负载均衡设备探测到所述服务端口号可用时,向所述业务处理机分配业务消息配额。
基于同一发明构思,本发明实施例提供了一种设备,包括:上述检测业务故障的装置。
基于同一发明构思,本发明实施例提供了一种检测业务故障的系统,如图6所示,包括:业务处理机601、与所述业务处理机对应的操作维护子系统602、前台业务子系统603和负载均衡设备604;
其中,所述操作维护子系统从所述业务处理机对应的前台业务子系统,获取所述业务处理机在同一时间段内的表征接收信息能力的第一参数值和表征转发信息能力的第二参数值;判断所述第一参数值和第二参数值是否满足隔离条件;当满足隔离条件时,隔离所述业务处理机;当不满足所述隔离条件时,通知所述负载均衡设备为所述业务处理机分配业务消息配额。
较佳的,所述前台业务子系统接收到所述操作维护子系统发送的隔离调用命令后,调用隔离程序,对所述业务处理机与对应的负载均衡设备之间的服务端口号进行修改或关闭,并重启;所述负载均衡设备探测到所述服务端口号修改或关闭时,停止向所述业务处理机分配业务消息配额;
所述前台业务子系统接收到所述操作维护子系统发送的恢复调用命令后,调用恢复程序,将所述业务处理机与对应的负载均衡设备之间的服务端口号修改为可用服务端口号,并重启;所述负载均衡设备探测到所述服务端口号可用时,向所述业务处理机分配业务消息配额。
上述本发明实施例提供的检测业务故障的方法、装置和系统及设备最好应用于多机集群系统,若应用于非多机集群系统,可能会使得全部业务受阻而导致业务中断。
通过上述描述,可以看出,使用本发明实施例提供的检测业务故障的方法、装置和系统及设备,通过分析业务处理机接收信息和转发信息的能力,确定业务处理机是否应该被隔离,本发明实施例提供的方案更为贴近业务处理机的实际处理业务能力,能够及时发现业务处理机的故障,提高故障检测的准确性,避免向发生故障的业务处理机分配而带来的业务损失。而且,还可以及时检测到业务处理机恢复正常工作,实现了快速隔离、快速恢复的功能。并且,本发明实施例提供的方案对现有的系统的物理结构改造小,进一步的节约了实现成本。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (17)

1.一种检测业务故障的方法,其特征在于,包括:
从业务处理机对应的前台业务子系统,获取所述业务处理机在同一时间段内的表征接收信息能力的第一参数值和表征转发信息能力的第二参数值;
判断所述第一参数值和第二参数值是否满足隔离条件;
当满足隔离条件时,隔离所述业务处理机;
当不满足所述隔离条件时,通知负载均衡设备为所述业务处理机分配业务消息配额。
2.如权利要求1所述的方法,其特征在于,周期性从所述业务处理机对应的前台业务子系统的业务前台,获取所述业务处理机在同一时间段内的表征接收信息能力的第一参数值和表征转发信息能力的第二参数值;
其中,所述第一参数值包括接收消息量和成功接收消息量,所述第二参数值包括转发消息量和成功转发消息量。
3.如权利要求2所述的方法,其特征在于,周期性从所述业务处理机对应的前台业务子系统的业务前台,获取所述业务处理机从当前时间至当前时间的前5分钟内的成功接收消息量以及转发消息量。
4.如权利要求1所述的方法,其特征在于,所述隔离条件为所述第二参数值与所述第一参数值的比值小于预定隔离阈值时,判断所述第一参数值和第二参数值是否满足隔离条件,包括:
从业务处理机对应的前台业务子系统,获取所述业务处理机在同一时间段内的第二参数值和第一参数值的比值;
将所述比值与所述预定隔离阈值进行比较;
其中,所述比值小于所述预定隔离阈值时,满足所述隔离条件,隔离所述业务处理机;所述比值不小于所述预定隔离阈值时,不满足所述隔离条件,通知负载均衡设备向所述业务处理机分配业务消息配额。
5.如权利要求1所述的方法,其特征在于,所述隔离条件为所述第二参数值与所述第一参数值的比值小于预定隔离阈值,且所述比值小于保存的前N次获取的所述比值,其中N为大于等于1的正整数时,判断所述第一参数值和第二参数值是否满足隔离条件,包括:
从业务处理机对应的前台业务子系统,获取所述业务处理机在同一时间段内的第二参数值和第一参数值的比值;
将所述比值与所述预定隔离阈值进行比较;
所述比值小于所述预定隔离阈值时,将当前比值与前N次获取的比值分别进行比较;
当比较结果均为小于时,满足所述隔离条件,隔离所述业务处理机;当比较结果未均为小于时,不满足所述隔离条件,通知负载均衡设备向所述业务处理机分配业务消息配额。
6.如权利要求1或4或5所述的方法,其特征在于,所述隔离所述业务处理机,包括:
发出隔离提示消息并在接收到隔离指令时,向所述业务处理机对应的前台业务子系统发送隔离调用命令;
所述前台业务子系统调用隔离程序,对所述业务处理机与对应的负载均衡设备之间的服务端口号进行修改或关闭,并重启;
所述负载均衡设备探测到所述服务端口号修改或关闭时,停止向所述业务处理机分配消息配额。
7.如权利要求6所述的方法,其特征在于,还包括:
通过互联网向指定地址发送提醒邮件或提醒短信。
8.如权利要求1或4或5所述的方法,其特征在于,隔离所述业务处理机之后,还包括:
当所述业务处理机不满足所述隔离条件时,发出恢复提示消息并在接收到恢复指令时,向所述业务处理机对应的前台业务子系统发送恢复调用命令;
所述前台业务子系统调用恢复程序,将所述业务处理机与对应的负载均衡设备之间的服务端口号修改为可用服务端口号,并重启;
所述负载均衡设备探测到所述服务端口号可用时,向所述业务处理机分配业务消息配额。
9.一种检测业务故障的装置,其特征在于,包括:
获取模块,用于从业务处理机对应的前台业务子系统,获取所述业务处理机在同一时间段内的表征接收信息能力的第一参数值和表征转发信息能力的第二参数值;
判断模块,用于判断所述第一参数值和第二参数值是否满足隔离条件;
隔离模块,用于当满足隔离条件时,隔离所述业务处理机;
通知模块,用于当不满足所述隔离条件时,通知负载均衡设备为所述业务处理机分配业务消息配额。
10.如权利要求9所述的装置,其特征在于,所述获取模块,具体用于周期性从所述业务处理机对应的前台业务子系统的业务前台,获取所述业务处理机在同一时间段内的表征接收信息能力的第一参数值和表征转发信息能力的第二参数值;其中,所述第一参数值包括接收消息量和成功接收消息量,所述第二参数值包括转发消息量和成功转发消息量。
11.如权利要求9所述的装置,其特征在于,所述隔离条件为所述第二参数值与所述第一参数值的比值小于预定隔离阈值时,所述判断模块具体用于从业务处理机对应的前台业务子系统,获取所述业务处理机在同一时间段内的第二参数值和第一参数值的比值;将所述比值与所述预定隔离阈值进行比较;其中,所述比值小于所述预定隔离阈值时,满足所述隔离条件,隔离所述业务处理机;所述比值不大于所述预定隔离阈值时,不满足所述隔离条件,通知负载均衡设备向所述业务处理机分配业务消息配额。
12.如权利要求9所述的装置,其特征在于,所述隔离条件为所述第二参数值与所述第一参数值的比值小于预定隔离阈值,且所述比值小于前N次获取的所述比值,其中N为大于等于1的正整数时,所述判断模块具体用于从业务处理机对应的前台业务子系统,获取所述业务处理机在同一时间段内的第二参数值和第一参数值的比值;将所述比值与所述预定隔离阈值进行比较;所述比值小于所述预定隔离阈值时,将当前比值与前N次获取的比值分别进行比较;当比较结果均为小于时,满足所述隔离条件,隔离所述业务处理机;当比较结果未均为小于时,不满足所述隔离条件,通知负载均衡设备向所述业务处理机分配业务消息配额。
13.如权利要求9所述的装置,其特征在于,所述隔离模块具体用于发出隔离提示消息并在接收到隔离指令时,向所述业务处理机对应的前台业务子系统发送隔离调用命令;所述前台业务子系统调用隔离程序,对所述业务处理机与对应的负载均衡设备之间的服务端口号进行修改或关闭,并重启;所述负载均衡设备探测到所述服务端口号修改或关闭时,停止向所述业务处理机分配消息配额。
14.如权利要求9所述的装置,其特征在于,还包括:
恢复模块,用于当所述隔离模块隔离所述业务处理机后,所述判断模块判断所述业务处理机不满足所述隔离条件时,发出恢复提示消息并在接收到恢复指令时,向所述业务处理机对应的前台业务子系统发送恢复调用命令;所述前台业务子系统调用恢复程序,将所述业务处理机与对应的负载均衡设备之间的服务端口号修改为可用服务端口号,并重启;所述负载均衡设备探测到所述服务端口号可用时,向所述业务处理机分配业务消息配额。
15.一种设备,其特征在于,包括:如权利要求9-14中任一所述的检测业务故障的装置。
16.一种检测业务故障的系统,其特征在于,包括:业务处理机、与所述业务处理机对应的操作维护子系统、前台业务子系统和负载均衡设备;
其中,所述操作维护子系统从所述业务处理机对应的前台业务子系统,获取所述业务处理机在同一时间段内的表征接收信息能力的第一参数值和表征转发信息能力的第二参数值;判断所述第一参数值和第二参数值是否满足隔离条件;当满足隔离条件时,隔离所述业务处理机;当不满足所述隔离条件时,通知所述负载均衡设备为所述业务处理机分配业务消息配额。
17.如权利要求16所述的系统,其特征在于,所述前台业务子系统接收到所述操作维护子系统发送的隔离调用命令后,调用隔离程序,对所述业务处理机与对应的负载均衡设备之间的服务端口号进行修改或关闭,并重启;所述负载均衡设备探测到所述服务端口号修改或关闭时,停止向所述业务处理机分配业务消息配额;
所述前台业务子系统接收到所述操作维护子系统发送的恢复调用命令后,调用恢复程序,将所述业务处理机与对应的负载均衡设备之间的服务端口号修改为可用服务端口号,并重启;所述负载均衡设备探测到所述服务端口号可用时,向所述业务处理机分配业务消息配额。
CN201210082853.5A 2012-03-26 2012-03-26 一种检测业务故障的方法、装置和系统及设备 Active CN103368754B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210082853.5A CN103368754B (zh) 2012-03-26 2012-03-26 一种检测业务故障的方法、装置和系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210082853.5A CN103368754B (zh) 2012-03-26 2012-03-26 一种检测业务故障的方法、装置和系统及设备

Publications (2)

Publication Number Publication Date
CN103368754A true CN103368754A (zh) 2013-10-23
CN103368754B CN103368754B (zh) 2018-04-10

Family

ID=49369350

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210082853.5A Active CN103368754B (zh) 2012-03-26 2012-03-26 一种检测业务故障的方法、装置和系统及设备

Country Status (1)

Country Link
CN (1) CN103368754B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103746829A (zh) * 2013-12-20 2014-04-23 中国科学院计算技术研究所 一种基于集群的故障感知系统及其方法
CN110581855A (zh) * 2019-09-12 2019-12-17 中国工商银行股份有限公司 应用控制方法、装置、电子设备和计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101183377A (zh) * 2007-12-10 2008-05-21 华中科技大学 一种基于消息中间件的高可用性数据库集群
CN102291455A (zh) * 2011-08-10 2011-12-21 华为技术有限公司 分布式集群处理系统及其报文处理方法
WO2012016444A1 (zh) * 2010-08-03 2012-02-09 中兴通讯股份有限公司 基于数字集群系统的故障弱化处理的方法及基站

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101183377A (zh) * 2007-12-10 2008-05-21 华中科技大学 一种基于消息中间件的高可用性数据库集群
WO2012016444A1 (zh) * 2010-08-03 2012-02-09 中兴通讯股份有限公司 基于数字集群系统的故障弱化处理的方法及基站
CN102291455A (zh) * 2011-08-10 2011-12-21 华为技术有限公司 分布式集群处理系统及其报文处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
付明磊等: "《基于双向转发检测协议的光突发交换链路快速故障检测方案》", 《光学精密工程》 *
无: "《双向转发检测诊断路由器日常转发故障》", 《网络与信息》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103746829A (zh) * 2013-12-20 2014-04-23 中国科学院计算技术研究所 一种基于集群的故障感知系统及其方法
CN103746829B (zh) * 2013-12-20 2017-04-05 中国科学院计算技术研究所 一种基于集群的故障感知系统及其方法
CN110581855A (zh) * 2019-09-12 2019-12-17 中国工商银行股份有限公司 应用控制方法、装置、电子设备和计算机可读存储介质
CN110581855B (zh) * 2019-09-12 2021-11-09 中国工商银行股份有限公司 应用控制方法、装置、电子设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN103368754B (zh) 2018-04-10

Similar Documents

Publication Publication Date Title
CN108712501B (zh) 信息的发送方法、装置、计算设备以及存储介质
EP2887720B1 (en) Resource allocation method and device
CN107294808A (zh) 接口测试的方法、装置和系统
CN109861856B (zh) 系统故障信息的通知方法、装置、存储介质及计算机设备
CN101873616A (zh) 一种移动终端自检的方法、系统及移动终端
CN106385334B (zh) 呼叫中心系统及其异常检测及自恢复方法
CN102882704A (zh) 一种issu的软重启升级过程中的链路保护方法和设备
CN110875841A (zh) 报警信息的推送方法、装置及可读存储介质
CN106034039A (zh) 一种故障通知方法及系统
WO2013086996A1 (zh) 故障处理方法、设备和系统
CN101902712A (zh) 呼叫失败的处理方法及装置
CN110138753B (zh) 分布式消息服务系统、方法、设备及计算机可读存储介质
US20200211027A1 (en) Business rules processing framework
US20120233245A1 (en) Voip communication system and method for registering client devices with same
CN101977396B (zh) 多媒体消息业务中实现网元业务切换的系统及方法
CN117762652A (zh) 基于消息中间件的分布式事务的处理方法及装置
CN103368754A (zh) 一种检测业务故障的方法、装置和系统及设备
CN104168541A (zh) 一种具有备用通道的企业短信平台系统
CN108834148B (zh) 一种面向5g的基于nfv的诈骗电话处置系统和方法
CN116260747A (zh) 终端测试设备的监测方法、装置及电子设备
CN105471621A (zh) 一种告警处理系统及方法
CN101964922B (zh) 异常情况捕捉方法及装置
CN106230878A (zh) 一种基于AllJoyn框架的设备服务调用方法及装置
CN116582618B (zh) 电销高可用的实现方法、装置、机房管理平台和计算机
CN115174356B (zh) 一种集群告警上报方法、装置、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant