CN110752939B - 一种业务进程故障处理方法、通知方法和装置 - Google Patents

一种业务进程故障处理方法、通知方法和装置 Download PDF

Info

Publication number
CN110752939B
CN110752939B CN201810820353.4A CN201810820353A CN110752939B CN 110752939 B CN110752939 B CN 110752939B CN 201810820353 A CN201810820353 A CN 201810820353A CN 110752939 B CN110752939 B CN 110752939B
Authority
CN
China
Prior art keywords
business
business process
service
information
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810820353.4A
Other languages
English (en)
Other versions
CN110752939A (zh
Inventor
范超
陈雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Huawei Technology Co Ltd
Original Assignee
Chengdu Huawei Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Huawei Technology Co Ltd filed Critical Chengdu Huawei Technology Co Ltd
Priority to CN201810820353.4A priority Critical patent/CN110752939B/zh
Publication of CN110752939A publication Critical patent/CN110752939A/zh
Application granted granted Critical
Publication of CN110752939B publication Critical patent/CN110752939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/04Network management architectures or arrangements
    • H04L41/046Network management architectures or arrangements comprising network management agents or mobile agents therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/0246Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications

Abstract

本申请实施例提供一种业务进程故障处理方法、通知方法和装置,涉及通信技术领域,用以缩短检测集群系统中业务进程故障的时间,该方案包括:进程退出处理部件接收第一触发消息,所述第一触发消息包括第一业务进程的信息;所述第一业务进程为运行在从服务器上的一个或者多个业务进程中的任一个;进程退出处理部件根据所述第一触发消息,确定所述第一业务进程故障;进程退出处理部件在第一地址列表中写入第一业务进程的信息后,向业务进程监控部件发送第二触发消息,所述第二触发消息用于指示第一业务进程故障,所述业务进程监控部件用于将所述第一业务进程的信息发送给主服务器,所述主服务器用于向至少一个从服务器发送进程视图。

Description

一种业务进程故障处理方法、通知方法和装置
技术领域
本申请实施例涉及通信技术领域,尤其涉及一种业务进程故障处理方法、通知方法和装置。
背景技术
集群系统通常采用冗余的可脱离的部件和专门的软件,可以在集群系统出现单点故障的情况下降级运行,大大提高了集群系统的可用性。集群系统通常采用心跳机制作为检测集群系统中节点(例如,计算机)的工作状态。当节点的工作状态变化时,以通知集群管理工具进行故障倒换。其中,集群管理工具可以使集群系统包括的多个节点执行的工作量达到最大、平衡工作负载以减少瓶颈、监视每个节点的运行状况并在节点出现故障时管理故障转移。
图1示出了分布式系统的可靠协调系统(zookeeper),zookeeper的客户端(client)和服务端(server)之间采用心跳机制进行保活。如果client在2/3超时(Timeout)未收到与其连接的一个server的响应(Acknowledgement,ack),client确定与其连接的server故障。server在1个Timeout时间周期未收到与其连接的client发的心跳包,server确定与其连接的client故障。
图2示出了分布式存储软件(Dsware)集群进程的故障检测示意图,Dsware将集群管理服务器(Culster Manager Server,CMS)本地硬盘组织成一个虚拟存储资源池,为集群管理客户端(Cluster Manager Client,CMC)提供块存储功能。在图2中,每个CMC包括的一个或者多个业务进程定时发送心跳到CMS,CMS为每个业务进程提供租约,如果CMS超过租约期未收到业务进程的心跳,认为该业务进程故障。
虽然图1中的Timeout和图2中的租约可以由用户设置,例如,Timeout通常设置为3.5秒,租约通常设置为5秒。但是,在client故障的情况下,图1中server需要历时3.5秒才能检查出故障,图2中CMS需要5秒才能检测出故障,检测时间长。由于集群系统中各个节点通信时通常存在系统时延,若将Timeout设置小于3.5秒或者将租约设置小于5秒,则有可能存在误判的情况。例如,某个client并未故障,但是由于系统时延的存在,server在Timeout时间周期内未收到与其连接的client发的心跳包,server确定与其连接的client故障。
发明内容
本申请实施例提供一种检测业务进程故障的方法和装置,用以缩短检测集群系统中业务进程故障的时间。
为了解决上述技术问题,本申请实施例采用如下技术方案:
第一方面,本申请实施例提供一种业务进程故障处理方法,包括:进程退出处理部件接收第一触发消息,所述第一触发消息包括第一业务进程的信息;所述第一业务进程为运行在从服务器上的一个或者多个业务进程中的任一个;进程退出处理部件根据所述第一触发消息,确定所述第一业务进程故障;进程退出处理部件在第一地址列表中写入第一业务进程的信息后,向业务进程监控部件发送第二触发消息,所述第二触发消息用于指示第一业务进程故障,所述业务进程监控部件用于将所述第一业务进程的信息发送给主服务器,所述主服务器用于向至少一个从服务器发送进程视图。
本申请实施例提供一种业务进程故障处理方法,通过进程退出处理部件在第一触发消息的请求下,确定第一业务进程故障,并将第一业务进程的信息写入第一地址列表中,并通知业务进程监控部件。可以使得从检测到业务进程故障到向业务进程监控部件上报业务故障的时间缩短在100微秒(us)。此外,业务进程监控部件收到业务进程故障的信息后,通知集群管理代理单元业务进程发生故障,由于业务进程监控部件和集群管理代理单元是在同一个进程里面,采用函数调用方式,可以忽略之间通知的时间。
一种可能的实现方式中,进程退出处理部件根据所述第一触发消息,确定所述第一业务进程故障,包括:进程退出处理部件确定所述进程退出处理部件中具有与所述第一业务进程存在映射关系的第一信息,确定所述第一业务进程故障。
一种可能的实现方式中,本申请实施例提供的方法还包括:进程退出处理部件接收所述业务进程监控部件发送的注册信息;进程退出处理部件根据所述注册信息在所述进程退出处理部件中注册所述第一地址列表,所述第一地址列表用于记录故障业务进程的信息。
一种可能的实现方式中,本申请实施例提供的方法还包括:进程退出处理部件接收一个或者多个第一信息,所述一个或者多个第一信息和所述一个或者多个业务进程一一映射;进程退出处理部件将所述一个或者多个第一信息存储在所述进程退出处理部件中。
第二方面,本申请实施例提供一种业务进程故障的通知方法,包括:业务进程监控部件接收进程退出处理部件发送的第二触发消息,所述第二触发消息用于指示第一业务进程故障;所述第一业务进程为运行在从服务器上的一个或者多个业务进程中的任一个;所述业务进程监控部件根据所述第二触发消息,从第一地址列表中获取所述第一业务进程的信息;其中,所述第一地址列表用于记录故障业务进程的信息;所述业务进程监控部件通过集群管理代理单元将所述第一业务进程的信息发送给主服务器,所述主服务器用于向至少一个从服务器发送进程视图。
一种可能的实现方式中,本申请实施例提供的方法还包括:业务进程监控部件向所述进程退出处理部件发送注册信息,所述注册信息用于指示所述进程退出处理部件注册所述第一地址列表。
一种可能的实现方式中,集群管理代理单元部署在所述业务进程监控部件内。
第三方面,本申请提供一种业务进程故障处理装置,该业务进程故障处理装置可以实现第一方面或第一方面的任意可能的实现方式中的方法,因此也能实现第一方面或第一方面任意可能的实现方式中的有益效果。该业务进程故障处理装置可以为从服务器中的进程退出处理部件,也可以为可以支持进程退出处理部件实现第一方面或第一方面的任意可能的实现方式中的方法的装置,例如应用于进程退出处理部件中的芯片。该进程退出处理部件可以通过软件、硬件、或者通过硬件执行相应的软件实现上述方法。
一种示例,该业务进程故障处理装置,包括:处理模块和通信模块,其中,所述通信模块用于接收第一触发消息,所述第一触发消息包括第一业务进程的信息;所述第一业务进程为运行在从服务器上的一个或者多个业务进程中的任一个;所述处理模块用于根据所述通信模块接收到的第一触发消息,确定所述第一业务进程故障;所述通信模块用于在所述处理模块在第一地址列表中写入第一业务进程的信息后,向业务进程监控部件发送第二触发消息,所述第二触发消息用于指示第一业务进程故障,所述业务进程监控部件用于将所述第一业务进程的信息发送给主服务器,所述主服务器用于向至少一个从服务器发送进程视图。
一种可能的实现方式中,处理模块,具体用于确定所述业务进程故障处理装置中具有与所述第一业务进程存在映射关系的第一信息,确定所述第一业务进程故障。
一种可能的实现方式中,通信模块,用于接收所述业务进程监控部件发送的注册信息;处理模块,用于根据通信模块接到的所述注册信息在所述业务进程故障处理装置中注册所述第一地址列表,所述第一地址列表用于记录故障业务进程的信息。
一种可能的实现方式中,通信模块,用于接收一个或者多个第一信息,一个或者多个第一信息和所述一个或者多个业务进程一一映射;处理模块,用于将一个或者多个第一信息存储在业务进程故障处理装置中。
另一种示例,该业务进程故障处理装置,包括:接收单元,用于接收第一触发消息,所述第一触发消息包括第一业务进程的信息;所述第一业务进程为运行在从服务器上的一个或者多个业务进程中的任一个;确定单元,用于根据所述第一触发消息,确定所述第一业务进程故障;发送单元,用于在第一地址列表中写入第一业务进程的信息后,向业务进程监控部件发送第二触发消息,所述第二触发消息用于指示第一业务进程故障,所述业务进程监控部件用于将所述第一业务进程的信息发送给主服务器,所述主服务器用于向至少一个从服务器发送进程视图。
一种可能的实现方式中,确定单元,具体用于确定所述进程退出处理部件中具有与所述第一业务进程存在映射关系的第一信息,确定所述第一业务进程故障。
一种可能的实现方式中,接收单元,具体用于接收所述业务进程监控部件发送的注册信息;处理单元,用于根据所述注册信息在所述进程退出处理部件中注册所述第一地址列表,所述第一地址列表用于记录故障业务进程的信息。
又一种示例,本申请实施例还提供一种业务进程故障处理装置,该业务进程故障处理装置可以为进程退出处理部件或者为应用于进程退出处理部件中的芯片,该业务进程故障处理装置包括:处理器和通信接口,其中,通信接口用于支持该业务进程故障处理装置执行第一方面至第一方面的任意一种可能的实现方式中所描述的在该业务进程故障处理装置侧进行消息/数据接收和发送的步骤。处理器用于支持该业务进程故障处理装置执行第一方面至第一方面的任意一种可能的实现方式中所描述的在该业务进程故障处理装置侧进行消息/数据处理的步骤。具体相应的步骤可以参考第一方面至第一方面的任意一种可能的实现方式中的描述,在此不再赘述。
可选的,该业务进程故障处理装置的通信接口和处理器相互耦合。
可选的,该业务进程故障处理装置还可以包括存储器,用于存储代码和数据,处理器、通信接口和存储器相互耦合。
第四方面,本申请实施例提供一种业务进程故障的通知装置,该业务进程故障的通知装置可以实现第二方面或第二方面的任意可能的实现方式中的方法,因此也能实现第二方面或第二方面任意可能的实现方式中的有益效果。该业务进程故障的通知装置可以为从服务器中的业务进程监控部件,也可以为可以支持业务进程监控部件实现第二方面或第二方面的任意可能的实现方式中的方法的装置,例如应用于业务进程监控部件中的芯片。该业务进程监控部件可以通过软件、硬件、或者通过硬件执行相应的软件实现上述方法。
一种示例,一种业务进程故障的通知装置,包括通信模块和处理模块:
其中,所述通信模块,用于接收进程退出处理部件发送的第二触发消息,所述第二触发消息用于指示第一业务进程故障;所述第一业务进程为运行在从服务器上的一个或者多个业务进程中的任一个;所述处理模块用于根据所述通信模块接收到的所述第二触发消息,从第一地址列表中获取所述第一业务进程的信息;其中,所述第一地址列表用于记录故障业务进程的信息;所述通信模块用于通过集群管理代理单元将所述第一业务进程的信息发送给主服务器,所述主服务器用于向至少一个从服务器发送进程视图。
一种可能的实现方式,通信模块,还用于向所述进程退出处理部件发送注册信息,所述注册信息用于指示所述进程退出处理部件注册所述第一地址列表。
一种可能的实现方式,集群管理代理单元部署在所述业务进程故障的通知装置内。
另一种示例,业务进程故障的通知装置,包括:接收单元,用于接收进程退出处理部件发送的第二触发消息,所述第二触发消息用于指示第一业务进程故障;所述第一业务进程为运行在从服务器上的一个或者多个业务进程中的任一个;处理单元,用于根据所述通信模块接收到的所述第二触发消息,从第一地址列表中获取所述第一业务进程的信息;发送单元,用于通过集群管理代理单元将所述第一业务进程的信息发送给主服务器,所述主服务器用于向至少一个从服务器发送进程视图。
一种可能的实现方式,发送单元,还用于向所述进程退出处理部件发送注册信息,所述注册信息用于指示所述进程退出处理部件注册所述第一地址列表。
一种可能的实现方式,集群管理代理单元部署在所述业务进程故障的通知装置内。
又一种示例,本申请实施例还提供一种业务进程故障的通知装置,该业务进程故障的通知装置可以为业务进程监控部件或者为应用于业务进程监控部件中的芯片,该业务进程故障的通知装置包括:处理器和通信接口,其中,通信接口用于支持该业务进程故障的通知装置执行第一方面至第一方面的任意一种可能的实现方式中所描述的在该业务进程故障的通知装置侧进行消息/数据接收和发送的步骤。处理器用于支持该业务进程故障的通知装置执行第一方面至第一方面的任意一种可能的实现方式中所描述的在该业务进程故障的通知装置侧进行消息/数据处理的步骤。具体相应的步骤可以参考第一方面至第一方面的任意一种可能的实现方式中的描述,在此不再赘述。
可选的,该业务进程故障的通知装置的通信接口和处理器相互耦合。
可选的,该业务进程故障的通知装置还可以包括存储器,用于存储代码和数据,处理器、通信接口和存储器相互耦合。
第五方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序或指令,当计算机程序或指令在计算机上运行时,使得计算机执行如第一方面或第一方面的各种可能的实现方式描述的一种业务进程故障处理方法。
第六方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序或指令,当计算机程序或指令在计算机上运行时,使得计算机执行如第一方面或第一方面的各种可能的实现方式描述的一种业务进程故障的通知方法。
第七方面,本申请实施例提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行第一方面或第一方面的各种可能的实现方式中的一个或多个。
第八方面,本申请实施例提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行第二方面或第二方面的各种可能的实现方式中的一个或多个。
第九方面,本申请实施例提供一种芯片,该芯片包括处理器和接口电路,接口电路和处理器耦合,处理器用于运行计算机程序或指令,以实现如第一方面或第一方面的各种可能的实现方式描述的一种业务进程故障处理方法,接口电路用于与芯片之外的其它模块进行通信。
第十方面,本申请实施例提供一种芯片,该芯片包括处理器和接口电路,接口电路和处理器耦合,处理器用于运行计算机程序或指令,以实现如第二方面或第二方面的各种可能的实现方式描述的一种业务进程故障的通知方法,接口电路用于与芯片之外的其它模块进行通信。
第十一方面,本申请实施例提供一种集群系统,该集群系统包括主服务器,以及至少一个从服务器,该至少一个从服务器包括第三方面或第三方面的各种可能的实现方式所描述的业务进程故障处理以及第四方面或第四方面的各种可能的实现方式中所描述的业务进程故障的通知装置。可选的该至少一个从节点以及主节点中运行有一个或者多个业务进程。
本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。
附图说明
图1为现有技术中提供的一种分布式系统的可靠协调系统示意图;
图2为分布式存储软件(Dsware)集群进程的故障检测示意图;
图3为本申请实施例一种集群系统的结构示意图;
图4为本申请实施例提供的服务器的一种结构示意图;
图5~图7为本申请实施例提供的一种业务进程故障的处理方法和通知方法交互的流程示意图;
图8~图10为本申请实施例提供的一种业务进程故障的处理装置的结构示意图;
图11~图13为本申请实施例提供的一种业务进程故障的通知装置的结构示意图。
具体实施方式
需要说明的是,本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
本申请实施例描述的网络架构以及业务场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着网络架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况。其中,A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。另外,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
如图3所示,图3示出了本申请实施例提供的一种上报业务进程故障的方法应用的集群系统,该集群系统包括:集群管理服务器(Culster Manager Server,CMS)以及与该集群管理服务器连接的至少一个集群管理客户端(Cluster Manager Client,CMC)(图3中示出了两个集群管理客户端,例如,集群管理客户端a和集群管理客户端b)。
其中,集群管理服务器用于发布该集群系统中的进程视图,其中,进程视图呈现了集群中各个业务进程的状态(故障或正常),业务进程单元收到进程视图后,可以做业务故障倒换和负载均衡。
集群管理服务器、以及至少一个集群管理客户端中每个集群管理客户端运行有一个或者多个业务进程,该业务进程可以为是用户运行业务的程序,多个业务进程组成一个业务集群;集群管理软件负责管理业务集群中业务进程的故障和加入。
示例性的,集群管理客户端可以包括:业务进程单元、业务进程监控部件以及异常处理框架。其中,异常处理框架中注册有钩子函数,异常处理框架包括:进程异常处理部件、进程退出处理部件、资源清理单元以及关闭套接字(socket)。其中,钩子函数用于在业务进程退出后,通知业务进程监控部件(SNM),便于做故障快速上报。业务程序在启动时,通过套接字和业务进程监控部件(SNM)之间建立了连接。也即程序关闭套接字后,表明业务进程已经退出,这时SNM可以重新再来拉起程序。
其中,业务进程单元中运行有一个或者多个业务进程(appdata),业务进程单元用于在业务进程故障时向进程异常处理部件上报出现故障的业务进程的信息。
进程异常处理部件用于将故障的业务进程的信息上报给进程退出处理部件。
进程退出处理部件用于根据自身存储的一个或者多个第一信息确定进程异常处理部件上报的业务进程是否故障,并在确定业务进程故障时将故障的业务进程的信息写入第一地址列表中。然后触发业务进程监控部件(SNM)从第一地址列表中获取故障的业务进程的信息。
业务进程监控部件,用于业务进程监控和故障拉起,以及用于在进程退出处理部件的触发下,从第一地址列表中获取故障的业务进程的信息,并向集群管理代理单元(CMA)发送故障的业务进程的信息,以由集群管理代理单元上报给集群管理服务器。
可选的,本申请实施例中的集群管理代理单元位于SNM内部。
其中,如图4中所描述的任意一个服务器也可以称为节点,至少一个服务器为可以为客户端提供服务的网络设备,比如,服务器101可以是具有服务器功能的计算机等。由于每个服务器的硬件结构相同,本发明实施例以服务器101为例介绍图4所示的存储系统中每个服务器的硬件架构。参见图4,服务器101包括存储器1011、处理器1012、系统总线1013、电源组件1014、输入\输出接口1015、通信组件1016以及一个或多个网卡1017等。其中,存储器1031可用于存储数据、软件程序以及模块,主要包括存储程序区和存储数据区,存储程序区可存储操作系统、至少一个功能所需的应用程序等,存储数据区可存储客户端请求写入的数据。处理器1012通过运行或执行存储在存储器1011内的软件程序和/或模块,以及调用存储在存储器1011内的数据,执行服务器101的各种功能和处理数据。系统总线1013包括地址总线、数据总线、控制总线,用于传输数据和指令;电源组件1014用于为服务器101的各个组件提供电源;输入\输出接口1015为处理器1012和外围接口模块之间提供接口;通信组件1016用于为服务器101和其他设备之间进行有线或无线方式的通信。一个或多个网卡1017用于在服务器101和客户端102的网卡之间形成会话通道,以便传输业务。在通信系统中,服务器101承担着数据的存储、转发、发布等关键任务,是各类基于客户机/服务器(Client/Server,简称:C/S)模式或者浏览器/服务器(Browser/Server,简称:B/S)模式网络中不可或缺的重要组成部分。
本申请实施例提供的一种业务进程故障处理方法可以由从服务器包括的进程退出处理部件来执行或者由应用于进程退出处理部件中的芯片执行,一种业务进程故障的通知方法可以由从服务器包括的业务进程监控部件来执行或者由应用于业务进程监控部件中的芯片执行,本申请实施例对此不作限定。下述实施例将以一种业务进程故障的通知方法由业务进程监控部件执行,一种业务进程故障处理方法由进程退出处理部件执行为例。示例性的,从服务器可以为如图3所示的CMC。
如图5所示,图5示出了本申请实施例提供的一种业务进程故障处理方法和业务进程故障通知方法交互的示意图,该方法包括:
S101、进程退出处理部件接收业务进程单元发送的第一触发消息,该第一触发消息包括第一业务进程的信息,第一触发消息用于指示第一业务进程故障。
示例性的,业务进程单元可以通过进程异常处理部件向进程退出处理部件发送第一触发消息。
可以理解的是,该第一业务进程为运行在从节点中的一个或者多个业务进程中的任一个。
示例性的,第一业务进程的信息用于识别第一业务进程,例如,可以为第一业务进程的地址或者第一业务进程的名称。
本申请实施例中的第一业务进程故障指:业务程序有bug或该第一业务进程所在的节点故障,导致业务程序故障。
S102、进程退出处理部件根据所述第一触发消息,确定所述第一业务进程故障。
示例性的,该进程退出处理部件中注册有第一地址列表。该第一地址列表用于记录故障业务进程的信息。
示例性的,本申请实施例中可以通过如下方式确定第一业务进程故障:进程退出处理部件确定进程退出处理部件中具有与第一业务进程存在映射关系的第一信息,进程退出处理部件确定第一业务进程故障。
示例性的,第一信息可以为第一业务进程的信息,也可以为与第一业务进程的信息存在映射关系的信息,本申请实施例对此不作限定。
例如,第一业务进程的信息为ID1,进程退出处理部件中具有第一信息1,若第一信息1和ID1之间具有映射关系,则进程退出处理部件确定第一业务进程故障。
S103、进程退出处理部件在第一地址列表中写入第一业务进程的信息后,向业务进程监控部件发送第二触发消息,所述第二触发消息用于指示第一业务进程故障,所述业务进程监控部件用于将所述第一业务进程的信息发送给主服务器,所述主服务器用于向至少一个从服务器发送进程视图。
S104、业务进程监控部件接收进程退出处理部件发送的第二触发消息,所述第二触发消息用于指示第一业务进程故障。
S105、业务进程监控部件根据所述第二触发消息,从第一地址列表中获取所述第一业务进程的信息;其中,所述第一地址列表用于记录故障业务进程的信息。
S106、业务进程监控部件通过集群管理代理单元将所述第一业务进程的信息发送给主服务器,所述主服务器用于向至少一个从服务器发送进程视图。
示例性的,主服务器可以为CMS。
本申请实施例提供一种业务进程故障处理方法和业务进程故障通知方法交互方法,该方法通过在业务进程故障后由进程退出处理部件向业务进程监控部件上报故障的业务进程的信息,可以使得从检测到业务进程故障到向业务进程监控部件上报业务故障的时间缩短在100微秒(us)。此外,业务进程监控部件收到业务进程故障的信息后,通知集群管理代理单元业务进程发生故障,由于业务进程监控部件和集群管理代理单元是在同一个进程里面,采用函数调用方式,可以忽略之间通知的时间。
可选的,作为本申请的另一个实施例,如图6所示,本申请实施例提供的方法还包括:
S107、业务进程监控部件向所述进程退出处理部件发送注册信息,所述注册信息用于指示所述进程退出处理部件注册所述第一地址列表。
具体的,在业务进程监控部件启动过程中,业务进程监控部件请求进程退出处理部件在进程退出处理部件中注册第一地址列表。
S108、进程退出处理部件接收所述业务进程监控部件发送的注册信息。
S109、进程退出处理部件根据所述注册信息在所述进程退出处理部件中注册所述第一地址列表,所述第一地址列表用于记录故障业务进程的信息。
作为一种可能的实现方式,如图7所示,本申请实施例提供的方法还包括:S110、在一个或者多个业务进程启动过程中,一个或者多个业务进程向进程退出处理部件发送一个或者多个第一信息,一个或者多个第一信息和一个或者多个业务进程一一映射。S111、进程退出处理部件接收一个或者多个第一信息。S112、进程退出处理部件将一个或者多个第一信息存储在进程退出处理部件中。
示例性的,如表1所示:表1为一个或者多个第一信息和一个或者多个业务进程一一映射的示例。
表1一个或者多个第一信息和一个或者多个业务进程一一映射
业务进程的信息 第一信息
业务进程1 信息1
业务进程2 信息2
可选的,本申请实施例提供的方法还包括:进程退出处理部件向资源清理单元发送第三消息,该第三消息用于通知资源清理单元清理所述第一业务进程相关的资源。例如,用于清理第一业务进程打开的文件、第一业务进程申请的内存。
可选的,本申请实施例提供的方法还包括:资源清理单元向CMA发送第四消息,该第四消息用于指示关闭套接字,通知第一业务进程完全退出可以拉起业务进程。
上述主要从各个网元之间交互的角度对本申请实施例的方案进行了介绍。可以理解的是,各个网元,例如一种业务进程故障处理装置和一种业务进程故障的通知装置等为了实现上述功能,其包括了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对一种业务进程故障处理装置和一种业务进程故障的通知装置的进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
下面以采用对应各个功能划分各个功能模块为例进行说明:
在采用集成的单元的情况下,图8示出了上述实施例中所涉及的一种业务进程故障处理装置的一种可能的结构示意图,该业务进程故障处理装置可以为进程退出处理部件,或者为应用于进程退出处理部件中的芯片。该业务进程故障处理装置包括:接收单元201、确定单元202以及发送单元203。
其中,接收单元201用于支持业务进程故障处理装置执行上述实施例中的步骤S101以及S108以及S111。
确定单元202用于支持业务进程故障处理装置执行上述实施例中的步骤S102。
发送单元203用于支持业务进程故障处理装置执行上述实施例中的步骤S103。
可选的,业务进程故障处理装置还包括处理单元204,用于支持业务进程故障处理装置执行上述实施例中的步骤S112以及S109。
上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
在采用集成的单元的情况下,图9示出了上述实施例中所涉及的一种业务进程故障处理装置的一种可能的逻辑结构示意图,该一种业务进程故障处理装置可以为上述实施例中的进程退出处理部件,或者为应用于进程退出处理部件中的芯片。业务进程故障处理装置包括:处理模块212和通信模块213。处理模块212用于对业务进程故障处理装置的动作进行控制管理,例如,处理模块212用于执行在业务进程故障处理装置侧进行消息或数据处理的步骤,通信模块213用于在业务进程故障处理装置侧进行消息或数据处理的步骤。
例如,作为一种可能的实现方式,处理模块212用于支持业务进程故障处理装置执行上述实施例中的S102、S109、S112。通信模块213用于支持业务进程故障处理装置执行上述实施例中的步骤S101、S103、S108以及S111。和/或用于本文所描述的技术的其他由业务进程故障处理装置执行的过程。
可选的,业务进程故障处理装置还可以包括存储模块211,用于存储业务进程故障处理装置的程序代码和数据。
其中,处理模块212可以是处理器或控制器,例如可以是中央处理器单元,通用处理器,数字信号处理器,专用集成电路,现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包括一个或多个微处理器组合,数字信号处理器和微处理器的组合等等。通信模块213可以是收发器、收发电路或通信接口等。存储模块211可以是存储器。
当处理模块212为处理器220,通信模块213为接口电路230或收发器时,存储模块211为存储器240时,本申请所涉及的业务进程故障处理装置可以为图10所示的设备。
其中,接口电路230、一个或两个以上(包括两个)处理器220以及存储器240通过总线210相互连接。总线210可以是PCI总线或EISA总线等。总线210可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。其中,存储器240用于存储业务进程故障处理装置的程序代码和数据。接口电路230用于支持业务进程故障处理装置与其他设备(例如,业务进程故障通知装置)通信。处理器用于支持业务进程故障处理装置执行存储器240中存储的程序代码和数据,从而对业务进程故障处理装置的动作进行控制管理。
例如,一种可能的实现方式中,接口电路230支持业务进程故障处理装置执行S101、S103、S108以及S111。处理器220用于支持业务进程故障处理装置执行存储器240中存储的程序代码和数据以实现本申请提供的S102、S109、S112。
在采用集成的单元的情况下,图11示出了上述实施例中所涉及的一种业务进程故障的通知装置的一种可能的结构示意图,该业务进程故障的通知装置可以为业务进程监控部件,或者为应用于业务进程监控部件。该业务进程故障的通知装置包括:接收单元301、处理单元302以及发送单元303。
其中,接收单元301用于支持业务进程故障的通知装置执行上述实施例中的步骤S104。
处理单元302用于支持业务进程故障的通知装置执行上述实施例中的步骤S105。
发送单元303用于支持业务进程故障的通知装置执行上述实施例中的步骤S106和S107。
上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
在采用集成的单元的情况下,图12示出了上述实施例中所涉及的一种业务进程故障的通知装置的一种可能的逻辑结构示意图,该一种业务进程故障的通知装置可以为上述实施例中的业务进程监控部件,或者为应用于业务进程监控部件中的芯片。业务进程故障的通知装置包括:处理模块312和通信模块313。处理模块312用于对业务进程故障的通知装置的动作进行控制管理,例如,处理模块312用于执行在业务进程故障的通知装置侧进行消息或数据处理的步骤,通信模块313用于在业务进程故障的通知装置侧进行消息或数据处理的步骤。
例如,作为一种可能的实现方式,处理模块312用于支持业务进程故障的通知装置执行上述实施例中的S105。通信模块313用于支持业务进程故障的通知装置执行上述实施例中的步骤S104、S106和S107。和/或用于本文所描述的技术的其他由业务进程故障的通知装置执行的过程。
可选的,业务进程故障的通知装置还可以包括存储模块311,用于存储业务进程故障的通知装置的程序代码和数据。
其中,处理模块312可以是处理器或控制器,例如可以是中央处理器单元,通用处理器,数字信号处理器,专用集成电路,现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包括一个或多个微处理器组合,数字信号处理器和微处理器的组合等等。通信模块313可以是收发器、收发电路或通信接口等。存储模块311可以是存储器。
当处理模块312为处理器320,通信模块313为接口电路330或收发器时,存储模块311为存储器340时,本申请所涉及的业务进程故障通知装置可以为图13所示的设备。
其中,接口电路330、一个或两个以上(包括两个)处理器320以及存储器340通过总线310相互连接。总线310可以是PCI总线或EISA总线等。总线310可以分为地址总线、数据总线、控制总线等。为便于表示,图13中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。其中,存储器340用于存储业务进程故障通知装置的程序代码和数据。接口电路330用于支持业务进程故障通知装置与其他设备(例如,业务进程故障处理装置)通信。处理器用于支持业务进程故障通知装置执行存储器340中存储的程序代码和数据,从而对业务进程故障通知装置的动作进行控制管理。
例如,一种可能的实现方式中,接口电路330支持业务进程故障通知装置执行S104、S106和S107。处理器320用于支持业务进程故障通知装置执行存储器340中存储的程序代码和数据以实现本申请提供的S105。
一方面,提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当指令被运行时,使得进程退出处理部件或者应用于进程退出处理部件中的芯片执行实施例中的S101、S102、S103、S108、S109、S111以及S112。和/或用于本文所描述的技术的其他由进程退出处理部件或者应用于进程退出处理部件中的芯片执行的过程。
另一方面,提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当指令被运行时,使得业务进程监控部件或者应用于业务进程监控部件中的芯片执行实施例中的S104、S105、S106、S107。和/或用于本文所描述的技术的其他由业务进程监控部件或者应用于业务进程监控部件中的芯片执行的过程。
前述的可读存储介质可以包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
一方面,提供一种包括指令的计算机程序产品,计算机程序产品中存储有指令,当指令被运行时,使得进程退出处理部件或者应用于进程退出处理部件中的芯片执行实施例中的S101、S102、S103、S108、S109、S111以及S112。和/或用于本文所描述的技术的其他由进程退出处理部件或者应用于进程退出处理部件中的芯片执行的过程。
另一方面,提供一种包括指令的计算机程序产品,计算机程序产品中存储有指令,当指令被运行时,使得业务进程监控部件或者应用于业务进程监控部件中的芯片执行实施例中的S104、S105、S106、S107。和/或用于本文所描述的技术的其他由业务进程监控部件或者应用于业务进程监控部件中的芯片执行的过程。
一方面,提供一种芯片,该芯片应用于进程退出处理部件中,芯片包括一个或两个以上(包括两个)处理器和接口电路,接口电路和该一个或两个以上(包括两个)处理器通过线路互联,处理器用于运行指令,以执行实施例中的S101、S102、S103、S108、S109、S111以及S112。和/或用于本文所描述的技术的其他由进程退出处理部件执行的过程。
一方面,提供一种芯片,该芯片应用于业务进程监控部件中,芯片包括一个或两个以上(包括两个)处理器和接口电路,接口电路和该一个或两个以上(包括两个)处理器通过线路互联,处理器用于运行指令,以执行实施例中的S104、S105、S106、S107。和/或用于本文所描述的技术的其他由业务进程监控部件执行的过程。
如图3所示,本申请实施例涉及一种集群系统,该集群系统包括主服务器和至少一个从服务器,其中,至少一个从服务器包括:如图8~图10任一项所述的业务进程故障处理装置以及图11~图12任一项所述的业务进程故障通知装置。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriber line,简称DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包括一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,简称SSD))等。
尽管在此结合各实施例对本申请进行了描述,然而,在实施所要求保护的本申请过程中,本领域技术人员通过查看附图、公开内容、以及所附权利要求书,可理解并实现公开实施例的其他变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
尽管结合具体特征及其实施例对本申请进行了描述,显而易见的,在不脱离本申请的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明,且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包括这些改动和变型在内。

Claims (16)

1.一种业务进程故障处理方法,其特征在于,包括:
进程退出处理部件接收第一触发消息,所述第一触发消息包括第一业务进程的信息;所述第一业务进程为运行在从服务器上的一个或者多个业务进程中的任一个;所述第一触发消息是业务进程单元通过进程异常处理部件向所述进程退出处理部件发送的,所述第一触发消息用于指示所述第一业务进程故障;
进程退出处理部件根据所述第一触发消息,确定所述第一业务进程故障;
进程退出处理部件在第一地址列表中写入第一业务进程的信息后,向业务进程监控部件发送第二触发消息,所述第二触发消息用于指示第一业务进程故障,所述业务进程监控部件用于将所述第一业务进程的信息发送给主服务器,所述主服务器用于向至少一个从服务器发送进程视图,所述进程退出处理部件、所述业务进程单元、所述业务进程监控部件和所述进程异常处理部件位于所述从服务器上。
2.根据权利要求1所述的一种业务进程故障处理方法,其特征在于,所述进程退出处理部件根据所述第一触发消息,确定所述第一业务进程故障,包括:
所述进程退出处理部件确定所述进程退出处理部件中具有与所述第一业务进程存在映射关系的第一信息,确定所述第一业务进程故障。
3.根据权利要求1或2所述的一种业务进程故障处理方法,其特征在于,所述方法还包括:
所述进程退出处理部件接收所述业务进程监控部件发送的注册信息;
所述进程退出处理部件根据所述注册信息在所述进程退出处理部件中注册所述第一地址列表,所述第一地址列表用于记录故障业务进程的信息。
4.根据权利要求1或2所述的一种业务进程故障处理方法,其特征在于,所述方法还包括:
所述进程退出处理部件接收一个或者多个第一信息,所述一个或者多个第一信息和所述一个或者多个业务进程一一映射;
所述进程退出处理部件将所述一个或者多个第一信息存储在所述进程退出处理部件中。
5.一种业务进程故障的通知方法,其特征在于,包括:
业务进程监控部件接收进程退出处理部件发送的第二触发消息,所述第二触发消息用于指示第一业务进程故障;所述第一业务进程为运行在从服务器上的一个或者多个业务进程中的任一个;
所述业务进程监控部件根据所述第二触发消息,从所述进程退出处理部件中注册的第一地址列表中获取所述第一业务进程的信息;其中,所述第一地址列表用于记录故障业务进程的信息;
所述业务进程监控部件通过集群管理代理单元将所述第一业务进程的信息发送给主服务器,所述主服务器用于向至少一个从服务器发送进程视图,所述进程退出处理部件和所述业务进程监控部件位于所述从服务器上。
6.根据权利要求5所述的一种业务进程故障的通知方法,其特征在于,所述方法还包括:
所述业务进程监控部件向所述进程退出处理部件发送注册信息,所述注册信息用于指示所述进程退出处理部件注册所述第一地址列表。
7.根据权利要求5或6所述的一种业务进程故障的通知方法,其特征在于,所述集群管理代理单元部署在所述业务进程监控部件内。
8.一种业务进程故障处理装置,其特征在于,所述装置设置于进程退出处理部件,所述装置包括处理模块和通信模块,
其中,所述通信模块用于接收第一触发消息,所述第一触发消息包括第一业务进程的信息;所述第一业务进程为运行在从服务器上的一个或者多个业务进程中的任一个;所述第一触发消息是业务进程单元通过进程异常处理部件向所述进程退出处理部件发送的,所述第一触发消息用于指示所述第一业务进程故障;
所述处理模块用于根据所述通信模块接收到的第一触发消息,确定所述第一业务进程故障;
所述通信模块用于在所述处理模块在第一地址列表中写入第一业务进程的信息后,向业务进程监控部件发送第二触发消息,所述第二触发消息用于指示第一业务进程故障,所述业务进程监控部件用于将所述第一业务进程的信息发送给主服务器,所述主服务器用于向至少一个从服务器发送进程视图,所述进程退出处理部件、所述业务进程单元、所述业务进程监控部件和所述进程异常处理部件位于所述从服务器上。
9.根据权利要求8所述的一种业务进程故障处理装置,其特征在于,所述处理模块,具体用于确定所述业务进程故障处理装置中具有与所述第一业务进程存在映射关系的第一信息,确定所述第一业务进程故障。
10.根据权利要求8或9所述的一种业务进程故障处理装置,其特征在于,所述通信模块,用于接收所述业务进程监控部件发送的注册信息;
所述处理模块,用于根据所述通信模块接到的所述注册信息在所述业务进程故障处理装置中注册所述第一地址列表,所述第一地址列表用于记录故障业务进程的信息。
11.根据权利要求8或9所述的一种业务进程故障处理装置,其特征在于,所述通信模块,用于接收一个或者多个第一信息,所述一个或者多个第一信息和所述一个或者多个业务进程一一映射;
所述处理模块,用于将所述一个或者多个第一信息存储在所述业务进程故障处理装置中。
12.一种业务进程故障的通知装置,其特征在于,所述装置设置于业务进程监控部件,所述装置包括通信模块和处理模块:
其中,所述通信模块,用于接收进程退出处理部件发送的第二触发消息,所述第二触发消息用于指示第一业务进程故障;所述第一业务进程为运行在从服务器上的一个或者多个业务进程中的任一个;
所述处理模块用于根据所述通信模块接收到的所述第二触发消息,从所述进程退出处理部件中注册的第一地址列表中获取所述第一业务进程的信息;其中,所述第一地址列表用于记录故障业务进程的信息;
所述通信模块用于通过集群管理代理单元将所述第一业务进程的信息发送给主服务器,所述主服务器用于向至少一个从服务器发送进程视图,所述进程退出处理部件和所述业务进程监控部件位于所述从服务器上。
13.根据权利要求12所述的一种业务进程故障的通知装置,其特征在于,所述通信模块,还用于向所述进程退出处理部件发送注册信息,所述注册信息用于指示所述进程退出处理部件注册所述第一地址列表。
14.根据权利要求12或13所述的一种业务进程故障的通知装置,其特征在于,所述集群管理代理单元部署在所述业务进程故障的通知装置内。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序或指令,当计算机程序或指令在计算机上运行时,使得计算机执行如权利要求1至4中任一项所述的一种业务进程故障处理方法,或者使得计算机执行如权利要求5至7中任一项所述的一种业务进程故障的通知方法。
16.一种芯片,其特征在于,所述芯片包括处理器和接口电路,所述接口电路和所述处理器耦合,所述处理器用于运行计算机程序或指令,以实现如权利要求1至4中任一项所述的一种业务进程故障处理方法,或者使得计算机执行如权利要求5至7中任一项所述的一种业务进程故障的通知方法,所述接口电路用于与所述芯片之外的其它模块进行通信。
CN201810820353.4A 2018-07-24 2018-07-24 一种业务进程故障处理方法、通知方法和装置 Active CN110752939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810820353.4A CN110752939B (zh) 2018-07-24 2018-07-24 一种业务进程故障处理方法、通知方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810820353.4A CN110752939B (zh) 2018-07-24 2018-07-24 一种业务进程故障处理方法、通知方法和装置

Publications (2)

Publication Number Publication Date
CN110752939A CN110752939A (zh) 2020-02-04
CN110752939B true CN110752939B (zh) 2022-09-16

Family

ID=69275401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810820353.4A Active CN110752939B (zh) 2018-07-24 2018-07-24 一种业务进程故障处理方法、通知方法和装置

Country Status (1)

Country Link
CN (1) CN110752939B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860522A (zh) * 2021-03-02 2021-05-28 北京梧桐车联科技有限责任公司 程序的运行监控方法、装置及设备

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1996257A (zh) * 2006-12-26 2007-07-11 华为技术有限公司 对进程进行监控的方法和系统
CN101800675A (zh) * 2010-02-25 2010-08-11 华为技术有限公司 故障监控方法、监控设备及通信系统
CN103383689A (zh) * 2012-05-03 2013-11-06 阿里巴巴集团控股有限公司 一种服务进程故障检测方法、装置及服务节点
KR20150031786A (ko) * 2013-09-16 2015-03-25 에스케이텔레콤 주식회사 착신망의 어플리케이션 서버 장애 처리를 위한 장치, 이를 위한 방법 및 이 방법이 기록된 컴퓨터 판독 가능한 기록매체
CN104734886A (zh) * 2015-03-10 2015-06-24 青岛海尔智能家电科技有限公司 一种业务服务器的管理方法、装置及系统
CN105430030A (zh) * 2014-09-16 2016-03-23 钛马信息网络技术有限公司 基于osgi技术的可平行扩展的应用服务器
CN105511598A (zh) * 2014-09-25 2016-04-20 中兴通讯股份有限公司 一种实现终端应用处理的方法及装置
CN105681379A (zh) * 2014-11-20 2016-06-15 博雅网络游戏开发(深圳)有限公司 集群管理系统和方法
CN106375342A (zh) * 2016-10-21 2017-02-01 用友网络科技股份有限公司 一种基于zookeeper技术的系统集群方法及系统
CN106713014A (zh) * 2016-11-30 2017-05-24 华为技术有限公司 一种监控系统中的被监控主机、监控系统以及监控方法
CN106776212A (zh) * 2016-12-09 2017-05-31 中电科华云信息技术有限公司 容器集群部署多进程应用的监管系统及方法
CN106874183A (zh) * 2016-07-05 2017-06-20 阿里巴巴集团控股有限公司 业务异常检测方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030167182A1 (en) * 2001-07-23 2003-09-04 International Business Machines Corporation Method and apparatus for providing symbolic mode checking of business application requirements
US6986076B1 (en) * 2002-05-28 2006-01-10 Unisys Corporation Proactive method for ensuring availability in a clustered system
US7925932B1 (en) * 2004-09-20 2011-04-12 Symantec Operating Corporation Method and appartus for detecting an application process failure
US8661089B2 (en) * 2010-12-08 2014-02-25 International Business Machines Corporation VIOS cluster alert framework
JP2012129664A (ja) * 2010-12-14 2012-07-05 Panasonic Corp ネットワーク通信状態監視装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1996257A (zh) * 2006-12-26 2007-07-11 华为技术有限公司 对进程进行监控的方法和系统
CN101800675A (zh) * 2010-02-25 2010-08-11 华为技术有限公司 故障监控方法、监控设备及通信系统
CN103383689A (zh) * 2012-05-03 2013-11-06 阿里巴巴集团控股有限公司 一种服务进程故障检测方法、装置及服务节点
KR20150031786A (ko) * 2013-09-16 2015-03-25 에스케이텔레콤 주식회사 착신망의 어플리케이션 서버 장애 처리를 위한 장치, 이를 위한 방법 및 이 방법이 기록된 컴퓨터 판독 가능한 기록매체
CN105430030A (zh) * 2014-09-16 2016-03-23 钛马信息网络技术有限公司 基于osgi技术的可平行扩展的应用服务器
CN105511598A (zh) * 2014-09-25 2016-04-20 中兴通讯股份有限公司 一种实现终端应用处理的方法及装置
CN105681379A (zh) * 2014-11-20 2016-06-15 博雅网络游戏开发(深圳)有限公司 集群管理系统和方法
CN104734886A (zh) * 2015-03-10 2015-06-24 青岛海尔智能家电科技有限公司 一种业务服务器的管理方法、装置及系统
CN106874183A (zh) * 2016-07-05 2017-06-20 阿里巴巴集团控股有限公司 业务异常检测方法及装置
CN106375342A (zh) * 2016-10-21 2017-02-01 用友网络科技股份有限公司 一种基于zookeeper技术的系统集群方法及系统
CN106713014A (zh) * 2016-11-30 2017-05-24 华为技术有限公司 一种监控系统中的被监控主机、监控系统以及监控方法
CN106776212A (zh) * 2016-12-09 2017-05-31 中电科华云信息技术有限公司 容器集群部署多进程应用的监管系统及方法

Also Published As

Publication number Publication date
CN110752939A (zh) 2020-02-04

Similar Documents

Publication Publication Date Title
US8972622B2 (en) Monitoring network performance and detecting network faults using round trip transmission times
GB2407887A (en) Automatically modifying fail-over configuration of back-up devices
CN113067875B (zh) 基于微服务网关动态流控的访问方法和装置以及设备
CN108153590A (zh) 管理硬件资源
CN107172171A (zh) 一种服务请求处理方法、装置及计算机可读存储介质
US8862939B2 (en) Network system and management server
CN114844809B (zh) 基于网络心跳和内核磁盘心跳的多因子仲裁方法、装置
US20120233245A1 (en) Voip communication system and method for registering client devices with same
CN110752939B (zh) 一种业务进程故障处理方法、通知方法和装置
US11223515B2 (en) Cluster system, cluster system control method, server device, control method, and non-transitory computer-readable medium storing program
US10122602B1 (en) Distributed system infrastructure testing
CN110224880A (zh) 一种心跳监测方法及监控设备
JP2000250833A (ja) 複数サーバ運用管理における稼働情報取得方法およびそのプログラムを記録した記録媒体
CN113254245A (zh) 一种存储集群的故障检测方法和系统
US10055315B2 (en) Failure monitoring in distributed computing systems
US11258905B2 (en) Techniques for error handling in a task assignment system with an external pairing system
AU2021266891B2 (en) Fencing non-responding ports in a network fabric
US9661137B2 (en) System and method for automatic communication distribution local assignment
US10114712B2 (en) Failure detection via implicit leases in distributed computing systems
CN110247821A (zh) 一种故障检测方法及相关设备
CN109445984A (zh) 一种业务恢复方法、装置、仲裁服务器以及存储系统
CN111984376B (zh) 协议处理方法、装置、设备及计算机可读存储介质
CN110377483B (zh) 服务器监控系统及方法
CN115983393A (zh) 量子电路任务超时原因确定方法、装置、设备及存储介质
CN116155983A (zh) 集群设备接入的自分配方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant