CN103383689A - 一种服务进程故障检测方法、装置及服务节点 - Google Patents

一种服务进程故障检测方法、装置及服务节点 Download PDF

Info

Publication number
CN103383689A
CN103383689A CN2012101355187A CN201210135518A CN103383689A CN 103383689 A CN103383689 A CN 103383689A CN 2012101355187 A CN2012101355187 A CN 2012101355187A CN 201210135518 A CN201210135518 A CN 201210135518A CN 103383689 A CN103383689 A CN 103383689A
Authority
CN
China
Prior art keywords
service
service processes
processes
node
monitoring process
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012101355187A
Other languages
English (en)
Inventor
代志远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN2012101355187A priority Critical patent/CN103383689A/zh
Publication of CN103383689A publication Critical patent/CN103383689A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本申请公开了一种服务进程故障检测方法、装置及服务节点,用以简化服务进程故障检测流程,缩短HBase容灾恢复响应时间。其中,服务进程故障检测方法,包括:第一服务节点启动服务进程,并启动本地的镜像监控进程,其中,所述第一服务节点调用启动后的服务进程提供数据查询服务;以及所述第一服务节点通过所述镜像监控进程定期检查所述服务进程的状态,并确定服务进程状态是否异常;在所述镜像监控进程确定所述服务进程状态异常时,所述第一服务节点通知集群管理节点Master。

Description

一种服务进程故障检测方法、装置及服务节点
技术领域
本申请涉及数据库技术领域,尤其涉及一种服务进程故障检测方法、装置及服务节点。 
背景技术
当前,随着大型互联网网站在线业务的迅速发展,业务数据量越来越大,任何一个与用户相关的在线业务的数据量都在亿级别,每日系统调用次数上亿甚至百亿,且历史数据不能轻易删除,这需要有一个海量分布式文件系统,能对万亿字节(TB,Terabyte)级甚至拍字节(PB,Petabyte)级别的数据提供在线服务。由于HBase有如下几个特点:首先HBase是No-SQL的一个典型实现,提升了系统的可扩展性;其次HBase支持线性水平扩展,HBase服务能力可以随服务器的增长而线性增长,极大提升了系统的可伸缩性和运算能力;最后HBase底层是建立在Hadoop分布式文件系统(HDFS)之上,可以搭建在廉价的PC机集群上,因此,HBase是一种比较合适的选择。 
如图1所示,为HBase的架构示意图,HBase在完全分布式环境下,由集群管理节点(Master)负责管理RegionServers集群的负载均衡以及资源分配,ZooKeeper服务器负责集群元数据的维护并且通过监控各服务节点上的服务进程来监控集群的状态以防止单点故障,每个RegionServer会负责具体数据块的读写,HBase所有的数据存储在HDSF系统上。其中,Zookeeper服务器利用会话(seesion)来监控服务进程,具体的,服务节点创建服务进程时,通知在Zookeeper服务器,Zookeeper服务器为该服务进程创建一个临时节点,该服务节点定期向Zookeeper服务器发送该服务进程的心跳消息,如果该服务节点在超过预设的session超时时长后没有向Zookeeper服务器发送心跳消息,则说明 该服务节点上的服务进程发生异常,Zookeeper服务器将该服务据节点上的服务进程的状态设定为超时,并删除该服务进程对应的临时节点,同时通知Master,以启动容灾处理。 
上述过程中,从判断服务进程是否出现故障至通知Master进程启动容灾处理,需依赖于Zookeeper设定的session超时时长,目前,session超时时长一般设置为90s左右,由于HBase的服务是单点的,亦即当服务进程出现故障时,该服务进程所在服务节点所服务的数据在恢复前是无法读写的,从而使得Hbase容灾恢复响应时间较长,由于在线服务系统对服务响应时间要求较高,对于几十秒的响应时间是无法容忍的,因此,如何缩短Hbase容灾恢复响应时间成为现有技术中亟待解决的技术问题之一。 
发明内容
本申请实施例提供一种服务进程故障检测方法、装置及服务节点,用以简化服务进程监控流程,缩短HBase容灾恢复响应时间。 
本申请实施例提供一种服务进程故障检测方法,包括: 
第一服务节点启动服务进程,并启动本地的镜像监控进程,其中,所述第一服务节点调用启动后的服务进程提供数据查询服务; 
所述第一服务节点通过所述镜像监控进程定期检查所述服务进程的状态,并确定服务进程状态是否异常; 
在所述镜像监控进程确定所述服务进程状态异常时,所述第一服务节点通知集群管理节点Master。 
本申请实施例提供一种服务进程故障检测装置,包括: 
启动单元,用于启动服务进程,并启动该装置本地的镜像监控进程,其中,本装置调用启动后的服务进程提供数据查询服务; 
检查单元,用于通过所述镜像监控进程定期检查所述启动单元启动的服务进程的状态,并确定服务进程状态是否异常; 
第一通知单元,用于在所述检查单元确定所述服务进程状态异常时,通知集群管理节点Master。 
本申请实施例提供一种服务节点,包括上述服务进程故障检测装置。 
本申请实施例提供的服务进程故障检测方法、装置及服务节点,服务节点在服务进程启动时,启动本地的镜像监控进程,由本地的镜像监控进程对服务进程进行监控,从而,服务节点无需定时向Zookeeper服务器发送本地服务进程的心跳消息,简化了服务进程的监控流程,同时由于镜像监控进程处于本地,当发现服务进程异常时,能够及时通知Master启动容灾处理,无需依赖Zookeeper服务器预先设置的session超时时长,从而,缩短了容灾恢复响应时间。 
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。 
附图说明
图1为现有技术中,Hbase的结构示意图; 
图2为本申请实施例中,服务进程故障检测方法的实施流程示意图; 
图3为本申请实施例中,3个服务节点相互连接的网络拓扑结构示意图; 
图4为本申请实施例中,服务进程故障检测装置的结构示意图。 
具体实施方式
为了简化服务进程监控流程,缩短HBase容灾恢复响应时间,本申请实施例提供一种服务进程故障检测方法、装置及服务节点。 
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不 冲突的情况下,本色很年轻中的实施例及实施例中的特征可以相互组合。 
HBase为由多个服务节点组成的服务器集群,集群管理节点(Master)按照预设的规则将数据存储在不同的服务节点上,每一服务节点上存储不同的数据块,并启动一个服务进程以提供数据查询服务,在进行数据查询时,Master按照需要查询的数据块对应的数据块标识,将查询请求分配至对应的服务节点,由该服务节点调用启动的服务进程提供数据查询服务。 
实施例一 
实施例一为本申请实施例提供的服务进程故障检测方法实施流程,如图2所示,包括以下步骤: 
S201、服务节点启动服务进程,并启动本地的镜像监控进程; 
具体实施时,当服务节点启动一服务进程时,系统将为该服务进程分配一个唯一的进程标识符(PID,Process Identifier),并将为该服务节点对应的PID添加至系统正在运行的进程列表中,其中,服务节点根据接收的数据查询请求调用启动后的服务进程提供数据查询服务,镜像监控进程用于监控服务进程状态,以便及时发现服务进程是否异常,并通知Master启动容灾处理。当服务进程终止(包括正常终止和异常终止)时,服务节点将回收为该服务进程分配的PID,并从进程列表中删除该PID。 
S202、服务节点通过启动的镜像监控进程定期检查服务进程状态,并确定该服务进程状态是否异常; 
具体实施中,可以设置镜像监控进程每隔5ms或者10ms检查本地的服务进程是否发生异常,由于服务进程发生异常后,系统将会收回为其分配的PID,若镜像监控进程检测到进程列表中该服务进程对应的PID不存在时,则能够确定服务进程状态异常。 
S203、在镜像监控进程确定服务进程状态异常时,服务节点通知Master(集群管理节点) 
具体的,步骤S203中,镜像监控进程可以通过以下方式确定服务进程状 态发生异常: 
步骤一、镜像监控进程获得该服务进程对应的PID; 
其中,若镜像监控进程先于服务进程启动,则服务进程在启动后,主动向镜像监控进程上报系统为自身分配的PID;若镜像监控进程晚于服务进程启动,则镜像监控进程在启动后,主动从系统正在运行的进程列表中提取该服务进程对应的PID。 
步骤二、镜像监控进程按照预设周期,检测进程列表中是否存在该服务进程对应的PID; 
步骤三、镜像监控进程检测到进程列表中不存在该服务进程对应的PID时,确定该服务进程状态异常。 
上述过程中,由于镜像监控进程位于本地,使得服务节点无需按照预设的Session超时时长向Zookeeper服务器发送服务进程的心跳消息,这样,简化了服务进程监控的流程,同时,由于镜像监控进程通过定期检测进程列表中是否存在该服务进程对应的PID,来确定服务节点上启动的服务进程状态是否异常,当进程列表中存在该服务进程对应的PID时,说明该服务进程处于正常运行状态,当进程列表中不存在该服务进程对应的PID时,说明服务进程处于异常状态,已经终止,同时,检测周期支持设置为ms级,从而,能够在较短时间内确定出服务进程状态异常,并及时通知Master,以便Master启动容灾处理,从而,大大缩短了HBase容灾恢复响应时间。 
实施例二 
为了避免服务进程和镜像监控进程所在服务节点宕机,使得服务进程和镜像监控进程同时处于异常时,镜像监控进程也无法监控服务进程状态,降低服务进程故障检测可靠性,本申请实施例中,每个服务节点上启动的服务进程同时由至少一个其它服务节点(非本服务节点)上启动的监控进程进行监控,基于此,本申请实施例提供的服务进程故障检测方法,还可以包括以下步骤: 
步骤一、服务节点与至少一台其它服务节点建立通信连接,并通过本地启 动的镜像监控进程监控各其它服务节点上启动的服务进程; 
具体的,服务节点上启动的服务进程和镜像监控进程均都打开一个套接字(Socket),并绑定到一个服务端口上,不同的服务端口对应于不同的进程。镜像监控进程对应的服务端口与各其它服务节点上启动的服务进程对应的服务端口建立通信连接,这样,便能够实现本地的镜像监控进程对其它建立通信连接的服务节点的服务进程进行监控。为了便于描述,以下将本地的服务节点称为第一服务节点,将与第一服务节点连接的其它各服务节点称为第二服务节点。 
步骤二、针对任一其它服务节点,确定与该其它服务节点连接异常时,通知Master。 
具体的,第一服务节点上启动的镜像监控进程对应的服务端口按照预设的周期与各第二服务节点上启动的服务进程对应的服务端口建立通信连接,如果无法建立通信连接,则说明第二服务节点可能发生宕机,这种情况下,无需考虑第二服务节点上的镜像监控进程是否检查到第二服务节点上的服务进程状态异常,第一服务节点上启动的镜像监控进程将通知Master第二服务节点上的服务进程状态异常,需要启动容灾处理。其中,为了尽可能减轻系统负担,预设的周期可以稍长,例如可以设置为100ms左右。 
这样,通过多个服务节点对彼此的服务进程进行监控,提高了服务进程故障检测的可靠性。如图3所示,为本申请实施例中,3个服务节点相互连接的网络拓扑结构示意图。其中,每一个服务节点均与其它3个服务节点建立通信连接,从而,每个服务节点上启动的服务进程同时由本地启动的镜像监控进程以及其它3个服务节点上启动的镜像监控进程监控,这样,大大增加了服务进程故障检测的可靠性。 
具体实施时,由于第一服务节点上的监控进程与第二服务节点上的服务进程建立连接之后,当第二服务节点上的服务进程异常时,该服务节点对应的服务端口便会无效,但是第一服务节点上的监控进程无法获知第二服务节点上的 服务进程对应的服务端口无效,而仍旧采用旧连接去连接该失效的服务端口,这将导致访问超时(超时时间可能达到10s甚至几十秒等),这样,使得第一服务节点的监控进程至少需要10s或者更长的时间确定第二服务节点的服务进程发生异常,这样,HBase容灾恢复响应时间虽然有一定程度的缩短,但是对于在线系统来说,其响应时间仍然较长的。为了进一步缩短HBase容灾恢复响应时间,由于采用Ping的模式可以检测到服务进程状态异常情况,因此,本申请实施例中不采用长连接的模式而是每次连接前New Socket新实例来进行连接判断,使得无论是服务进程所在的服务节点宕机,还是服务进程自身异常,网络层面都有快速的感知并反馈给其它服务节点Socket异常,常见反馈信息为“Connection refused”,只要捕获该异常信息就可以断定服务进程已经停止服务,响应时间大概在毫秒级就可以完成检查,然后进入后续的处理。 
基于上述分析,由于第一服务节点上启动的服务进程同时被各第二服务节点上启动的镜像监控进程监控,当第一服务节点发生宕机,导致第一服务节点本地的镜像监控进程异常时,无法监控本地启动的服务进程时,也能够及时由第二服务节点上启动的镜像监控进程发现第一服务节点上的服务进程异常,并通知Master。 
基于同一构思,本申请实施例中还提供一种服务进程故障检测装置及服务节点,由于该装置及服务节点解决问题的原理与上述服务进程故障检测方法相似,因此该装置及服务节点的实施可以参见上述服务进程故障检测方法的实施,重复之处不再赘述。 
如图4所示,为本申请实施例中,服务进程故障检测装置的结构示意图,包括: 
启动单元401,用于启动服务进程,并启动该服务节点本地的镜像监控进程; 
检查单元402,用于通过启动单元401启动的镜像监控进程定期检查该服务进程状态,并确定该服务进程状态是否异常; 
第一通知单元403,用于在检查单元402确定该服务进程状态异常时,通知Master。 
具体实施时,检查单元402,可以包括: 
获得子单元,用于获得该服务进程对应的进程标识符PID; 
检测子单元,用于按照预设周期检测获得子单元获得的PID是否存在; 
确定子单元,用于检测子单元检测到该PID不存在时,确定服务进程状态异常。 
其中,获得子单元,可以用于接收服务进程上报的、该服务进程对应的PID;或者可以用于主动拉取该服务进程对应的PID。 
具体实施中,服务进程故障检测装置,还可以包括: 
连接单元,用于与至少一台除本装置以外的其它服务进程故障检测装置建立通信连接,并通过该监控进程监控各其它服务节点上的服务进程; 
第二通知单元,用于针对任一除本装置以外的其它服务进程故障检测装置,确定与该除本装置以外的其它服务进程故障检测装置连接异常时,通知Master。 
其中,连接单元,可以用于通过监控进程的服务端口与各除本装置以外的其它服务进程故障检测装置采用新建服务端口(New Socket)方式建立通信连接。 
需要说明的是,本申请实施例提供的服务进程故障检测装置可以设置在服务节点中,有服务节点检测各服务进程是否异常,并上报给Master。将服务进程检测装置设置在服务节点中只是本申请实施例的一种较佳的实现方式,具体实施时,还可以将服务进程故障检测装置设置在其它设备中。 
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。 
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。 
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。 
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。 
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。 
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。 

Claims (11)

1.一种服务进程故障检测方法,其特征在于,包括:
第一服务节点启动服务进程,并启动本地的镜像监控进程,其中,所述第一服务节点调用启动后的服务进程提供数据查询服务;以及
所述第一服务节点通过所述镜像监控进程定期检查所述服务进程的状态,并确定服务进程状态是否异常;
在所述镜像监控进程确定所述服务进程状态异常时,所述第一服务节点通知集群管理节点Master。
2.如权利要求1所述的方法,其特征在于,还包括:
所述第一服务节点在启动所述服务进程时,为该服务进程分配其对应的进程标识符PID;并
将所述PID添加至进程列表中;以及
所述镜像监控进程按照以下方式确定所述服务进程状态异常:
所述镜像监控进程获得所述服务进程对应的进程标识符PID;并
按照预设周期,检测所述进程列表中是否存在所述PID;
所述镜像监控进程检测到所述进程列表中不存在所述PID时,确定所述服务进程状态异常。
3.如权利要求2所述的方法,其特征在于,所述镜像监控进程获得所述服务进程对应的PID,具体包括:
所述镜像监控进程接收所述服务进程上报的、该服务进程对应的PID;或者
所述镜像监控进程从所述进程列表中提取所述服务进程对应的PID。
4.如权利要求1所述的方法,其特征在于,还包括:
所述第一服务节点与至少一台第二服务节点建立通信连接,并通过所述监控进程监控各第二服务节点上的服务进程;
针对任一第二服务节点,确定与该第二服务节点连接异常时,通知Master。
5.如权利要求4所述的方法,其特征在于,所述服务节点与至少一台第二服务节点建立通信连接,具体包括:
所述第一服务节点通过所述监控进程的服务端口与各第二服务节点采用新建服务端口New Socket方式建立通信连接。
6.一种服务进程故障检测装置,其特征在于,包括:
启动单元,用于启动服务进程,并启动该装置本地的镜像监控进程,其中,本装置调用启动后的服务进程提供数据查询服务;
检查单元,用于通过所述镜像监控进程定期检查所述启动单元启动的服务进程的状态,并确定服务进程状态是否异常;
第一通知单元,用于在所述检查单元确定所述服务进程状态异常时,通知集群管理节点Master。
7.如权利要求6所述的装置,其特征在于,还包括分配单元和添加单元,其中:
所述分配单元,用于在启动所述服务进程时,为该服务进程分配其对应的进程标识符PID;
所述添加单元,用于将所述PID添加至进程列表中;
所述检查单元,包括:获得子单元,用于获得所述服务进程对应的进程标识符PID;检测子单元,用于按照预设周期检测进程列表中是否存在所述PID;确定子单元,用于在所述检测子单元检测到进程列表中不存在所述PID时,确定所述服务进程状态异常。
8.如权利要求7所述的装置,其特征在于,
所述获得子单元,具体用于接收所述服务进程上报的、该服务进程对应的PID;或者具体用于从所述进程列表中提取所述服务进程对应的PID。
9.如权利要求8所述的装置,其特征在于,还包括:
连接单元,用于与至少一台除本装置以外的其它服务进程故障检测装置建立通信连接,并通过所述监控进程监控各第二服务节点上的服务进程;
第二通知单元,用于针对任一除本装置以外的其它服务进程故障检测装置,确定与该除本装置以外的其它服务进程故障检测装置连接异常时,通知Master。
10.如权利要求9所述的装置,其特征在于,
所述连接单元,具体用于通过所述监控进程的服务端口与各其它服务进程故障检测装置采用新建服务端口New Socket方式建立通信连接。
11.一种服务节点,其特征在于,包括权利要求6~10任一权利要求所述的装置。
CN2012101355187A 2012-05-03 2012-05-03 一种服务进程故障检测方法、装置及服务节点 Pending CN103383689A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012101355187A CN103383689A (zh) 2012-05-03 2012-05-03 一种服务进程故障检测方法、装置及服务节点

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012101355187A CN103383689A (zh) 2012-05-03 2012-05-03 一种服务进程故障检测方法、装置及服务节点

Publications (1)

Publication Number Publication Date
CN103383689A true CN103383689A (zh) 2013-11-06

Family

ID=49491479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012101355187A Pending CN103383689A (zh) 2012-05-03 2012-05-03 一种服务进程故障检测方法、装置及服务节点

Country Status (1)

Country Link
CN (1) CN103383689A (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103259688A (zh) * 2013-06-04 2013-08-21 北京搜狐新媒体信息技术有限公司 一种分布式存储系统的故障诊断方法与装置
CN103729436A (zh) * 2013-12-27 2014-04-16 中国科学院信息工程研究所 一种分布式元数据管理方法及系统
CN104199772A (zh) * 2014-09-02 2014-12-10 浪潮(北京)电子信息产业有限公司 一种监管进程的方法和装置
CN104750757A (zh) * 2013-12-31 2015-07-01 中国移动通信集团公司 一种基于HBase的数据存储方法和设备
CN105939212A (zh) * 2016-02-25 2016-09-14 杭州迪普科技有限公司 状态探测的方法及装置
CN106227581A (zh) * 2016-07-26 2016-12-14 浪潮(北京)电子信息产业有限公司 云服务虚拟机内进程高可用方法及系统
CN106649577A (zh) * 2016-11-17 2017-05-10 杭州沃趣科技股份有限公司 一种检测Oracle数据库同步软件运行状态的方法
CN106776219A (zh) * 2016-12-14 2017-05-31 郑州云海信息技术有限公司 一种服务器整机烧机的检测方法
CN106856489A (zh) * 2015-12-08 2017-06-16 阿里巴巴集团控股有限公司 一种分布式存储系统的服务节点切换方法和装置
CN107239698A (zh) * 2017-05-27 2017-10-10 北京洋浦伟业科技发展有限公司 一种基于信号处理机制的反调试方法和装置
WO2017173927A1 (zh) * 2016-04-07 2017-10-12 阿里巴巴集团控股有限公司 分布式存储系统硬盘挂住故障检测、处理方法及装置
CN107291585A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 容灾方法及装置、服务器
CN108776633A (zh) * 2018-05-22 2018-11-09 深圳壹账通智能科技有限公司 监控进程运行的方法、终端设备及计算机可读存储介质
CN109408581A (zh) * 2018-11-13 2019-03-01 杭州数梦工场科技有限公司 一种数据交换方法、装置、设备及存储介质
CN109756543A (zh) * 2017-11-08 2019-05-14 北京京东尚科信息技术有限公司 程序关联关系的解耦系统和方法
CN109768896A (zh) * 2018-12-14 2019-05-17 平安普惠企业管理有限公司 监控服务器环境状态的方法、装置和计算机设备
CN110262882A (zh) * 2019-06-17 2019-09-20 北京思特奇信息技术股份有限公司 一种分布式的通讯命令调度系统及方法
CN110737562A (zh) * 2018-07-19 2020-01-31 深圳市鸿合创新信息技术有限责任公司 一种监控进程的方法及系统、电子设备
CN110752939A (zh) * 2018-07-24 2020-02-04 成都华为技术有限公司 一种业务进程故障处理方法、通知方法和装置
CN110941825A (zh) * 2019-12-13 2020-03-31 支付宝(杭州)信息技术有限公司 一种应用监控方法及装置
CN110958321A (zh) * 2019-12-09 2020-04-03 杭州安恒信息技术股份有限公司 一种安全产品监控方法、装置、设备及介质
CN111130934A (zh) * 2019-12-20 2020-05-08 国铁吉讯科技有限公司 通信系统的监测方法、装置及系统
CN111464574A (zh) * 2019-01-21 2020-07-28 阿里巴巴集团控股有限公司 调用、加载、注册、管理方法和路由、服务器、节点和介质
CN112035721A (zh) * 2020-07-22 2020-12-04 大箴(杭州)科技有限公司 一种爬虫集群监控方法、装置、存储介质及计算机设备
CN112751934A (zh) * 2020-12-29 2021-05-04 北京先进数通信息技术股份公司 一种客户端重连方法、装置、设备及存储介质
CN112769652A (zh) * 2021-01-14 2021-05-07 苏州浪潮智能科技有限公司 一种节点服务监控方法、装置、设备及介质
CN116400853A (zh) * 2023-02-21 2023-07-07 北京志凌海纳科技有限公司 分布式块存储系统及面向制造业的缩短故障恢复时间方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101420340A (zh) * 2008-11-28 2009-04-29 中国移动通信集团四川有限公司 一种采用自检机制的业务监控与故障快速定位方法
CN101651559A (zh) * 2009-07-13 2010-02-17 浪潮电子信息产业股份有限公司 一种存储服务在双控制器存储系统中故障切换的方法
CN101930463A (zh) * 2010-08-25 2010-12-29 中国运载火箭技术研究院 一种基于内存数据库的仿真网格节点快速迁移方法
CN101969391A (zh) * 2010-10-27 2011-02-09 北京邮电大学 一种支持融合网络业务的云平台及其工作方法
CN102201907A (zh) * 2011-03-04 2011-09-28 于辉 一种分布式仿真同步的实现方法
US20110258325A1 (en) * 2001-06-29 2011-10-20 International Business Machines Corporation Method and System for a Network Management Framework with Redundant Failover Methodology
CN102289391A (zh) * 2011-06-30 2011-12-21 华中科技大学 一种虚拟实验系统中仿真进程迁移方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110258325A1 (en) * 2001-06-29 2011-10-20 International Business Machines Corporation Method and System for a Network Management Framework with Redundant Failover Methodology
CN101420340A (zh) * 2008-11-28 2009-04-29 中国移动通信集团四川有限公司 一种采用自检机制的业务监控与故障快速定位方法
CN101651559A (zh) * 2009-07-13 2010-02-17 浪潮电子信息产业股份有限公司 一种存储服务在双控制器存储系统中故障切换的方法
CN101930463A (zh) * 2010-08-25 2010-12-29 中国运载火箭技术研究院 一种基于内存数据库的仿真网格节点快速迁移方法
CN101969391A (zh) * 2010-10-27 2011-02-09 北京邮电大学 一种支持融合网络业务的云平台及其工作方法
CN102201907A (zh) * 2011-03-04 2011-09-28 于辉 一种分布式仿真同步的实现方法
CN102289391A (zh) * 2011-06-30 2011-12-21 华中科技大学 一种虚拟实验系统中仿真进程迁移方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邱敏: "实现可靠计算的容错网格结构", 《微电子学与计算机》 *

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103259688A (zh) * 2013-06-04 2013-08-21 北京搜狐新媒体信息技术有限公司 一种分布式存储系统的故障诊断方法与装置
CN103729436A (zh) * 2013-12-27 2014-04-16 中国科学院信息工程研究所 一种分布式元数据管理方法及系统
CN104750757B (zh) * 2013-12-31 2018-05-08 中国移动通信集团公司 一种基于HBase的数据存储方法和设备
CN104750757A (zh) * 2013-12-31 2015-07-01 中国移动通信集团公司 一种基于HBase的数据存储方法和设备
CN104199772A (zh) * 2014-09-02 2014-12-10 浪潮(北京)电子信息产业有限公司 一种监管进程的方法和装置
CN106856489A (zh) * 2015-12-08 2017-06-16 阿里巴巴集团控股有限公司 一种分布式存储系统的服务节点切换方法和装置
CN105939212A (zh) * 2016-02-25 2016-09-14 杭州迪普科技有限公司 状态探测的方法及装置
CN107291585A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 容灾方法及装置、服务器
WO2017173927A1 (zh) * 2016-04-07 2017-10-12 阿里巴巴集团控股有限公司 分布式存储系统硬盘挂住故障检测、处理方法及装置
CN106227581A (zh) * 2016-07-26 2016-12-14 浪潮(北京)电子信息产业有限公司 云服务虚拟机内进程高可用方法及系统
CN106227581B (zh) * 2016-07-26 2019-08-02 浪潮(北京)电子信息产业有限公司 云服务虚拟机内进程高可用方法及系统
CN106649577B (zh) * 2016-11-17 2020-02-07 杭州沃趣科技股份有限公司 一种检测Oracle数据库同步软件运行状态的方法
CN106649577A (zh) * 2016-11-17 2017-05-10 杭州沃趣科技股份有限公司 一种检测Oracle数据库同步软件运行状态的方法
CN106776219B (zh) * 2016-12-14 2020-02-21 郑州云海信息技术有限公司 一种服务器整机烧机的检测方法
CN106776219A (zh) * 2016-12-14 2017-05-31 郑州云海信息技术有限公司 一种服务器整机烧机的检测方法
CN107239698A (zh) * 2017-05-27 2017-10-10 北京洋浦伟业科技发展有限公司 一种基于信号处理机制的反调试方法和装置
CN109756543A (zh) * 2017-11-08 2019-05-14 北京京东尚科信息技术有限公司 程序关联关系的解耦系统和方法
CN108776633B (zh) * 2018-05-22 2021-07-02 深圳壹账通智能科技有限公司 监控进程运行的方法、终端设备及计算机可读存储介质
CN108776633A (zh) * 2018-05-22 2018-11-09 深圳壹账通智能科技有限公司 监控进程运行的方法、终端设备及计算机可读存储介质
CN110737562A (zh) * 2018-07-19 2020-01-31 深圳市鸿合创新信息技术有限责任公司 一种监控进程的方法及系统、电子设备
CN110752939A (zh) * 2018-07-24 2020-02-04 成都华为技术有限公司 一种业务进程故障处理方法、通知方法和装置
CN110752939B (zh) * 2018-07-24 2022-09-16 成都华为技术有限公司 一种业务进程故障处理方法、通知方法和装置
CN109408581A (zh) * 2018-11-13 2019-03-01 杭州数梦工场科技有限公司 一种数据交换方法、装置、设备及存储介质
CN109768896A (zh) * 2018-12-14 2019-05-17 平安普惠企业管理有限公司 监控服务器环境状态的方法、装置和计算机设备
CN109768896B (zh) * 2018-12-14 2022-03-18 平安普惠企业管理有限公司 监控服务器环境状态的方法、装置和计算机设备
CN111464574B (zh) * 2019-01-21 2022-10-21 阿里巴巴集团控股有限公司 调用、加载、注册、管理方法和路由、服务器、节点和介质
CN111464574A (zh) * 2019-01-21 2020-07-28 阿里巴巴集团控股有限公司 调用、加载、注册、管理方法和路由、服务器、节点和介质
CN110262882A (zh) * 2019-06-17 2019-09-20 北京思特奇信息技术股份有限公司 一种分布式的通讯命令调度系统及方法
CN110958321A (zh) * 2019-12-09 2020-04-03 杭州安恒信息技术股份有限公司 一种安全产品监控方法、装置、设备及介质
CN110941825B (zh) * 2019-12-13 2022-05-27 支付宝(杭州)信息技术有限公司 一种应用监控方法及装置
CN110941825A (zh) * 2019-12-13 2020-03-31 支付宝(杭州)信息技术有限公司 一种应用监控方法及装置
CN111130934A (zh) * 2019-12-20 2020-05-08 国铁吉讯科技有限公司 通信系统的监测方法、装置及系统
CN112035721A (zh) * 2020-07-22 2020-12-04 大箴(杭州)科技有限公司 一种爬虫集群监控方法、装置、存储介质及计算机设备
CN112751934A (zh) * 2020-12-29 2021-05-04 北京先进数通信息技术股份公司 一种客户端重连方法、装置、设备及存储介质
CN112751934B (zh) * 2020-12-29 2022-11-29 北京先进数通信息技术股份公司 一种客户端重连方法、装置、设备及存储介质
CN112769652A (zh) * 2021-01-14 2021-05-07 苏州浪潮智能科技有限公司 一种节点服务监控方法、装置、设备及介质
CN116400853A (zh) * 2023-02-21 2023-07-07 北京志凌海纳科技有限公司 分布式块存储系统及面向制造业的缩短故障恢复时间方法
CN116400853B (zh) * 2023-02-21 2023-11-07 北京志凌海纳科技有限公司 分布式块存储系统及面向制造业的缩短故障恢复时间方法

Similar Documents

Publication Publication Date Title
CN103383689A (zh) 一种服务进程故障检测方法、装置及服务节点
CN109831500B (zh) Kubernetes集群中配置文件与Pod的同步方法
CN105933448B (zh) 一种自管理的微服务架构及其服务方法
CN102291416B (zh) 一种客户端与服务器端双向同步的方法及系统
CN109218100A (zh) 分布式对象存储集群及其请求响应方法、系统和存储介质
CN110830283B (zh) 故障检测方法、装置、设备和系统
CN104199957A (zh) 一种Redis通用代理的实现方法
CN103036719A (zh) 一种基于主备集群服务器的跨地区服务容灾方法及装置
CN105653329A (zh) 一种应用管理的方法、装置及系统
CN105471960A (zh) 一种私有云与公有云的信息交互系统及方法
CN103888277A (zh) 一种网关容灾备份方法、装置和系统
CN111953566B (zh) 一种基于分布式故障监控的方法和虚拟机高可用系统
CN102354296B (zh) 一种可扩展监控资源的监控系统和方法
CN102624919A (zh) 一种面向服务架构的分布式业务集成系统及其应用方法
CN102437935B (zh) Web应用监控方法及设备
CN108038005A (zh) 基于zookeeper的共享资源访问方法、客户端、服务端、系统
CN103488526A (zh) 在分布式系统中锁定业务资源的系统和方法
CN103024065A (zh) 用于云存储系统的系统配置管理方法
CN103970907A (zh) 一种动态扩展数据库集群的方法
CN103973516A (zh) 一种数据处理系统中实现监控功能的方法及装置
CN107992491A (zh) 一种分布式文件系统、数据访问和数据存储的方法及装置
CN108304296A (zh) 一种服务器监控方法、系统、设备及计算机可读存储介质
CN116302352A (zh) 集群灾备处理方法、装置、电子设备和存储介质
CN107046474B (zh) 一种服务集群
CN113765690A (zh) 集群切换方法、系统、装置、终端、服务器及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1186817

Country of ref document: HK

RJ01 Rejection of invention patent application after publication

Application publication date: 20131106

RJ01 Rejection of invention patent application after publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1186817

Country of ref document: HK