CN104346233A - 一种用于计算机系统的故障恢复方法及装置 - Google Patents

一种用于计算机系统的故障恢复方法及装置 Download PDF

Info

Publication number
CN104346233A
CN104346233A CN201410538090.XA CN201410538090A CN104346233A CN 104346233 A CN104346233 A CN 104346233A CN 201410538090 A CN201410538090 A CN 201410538090A CN 104346233 A CN104346233 A CN 104346233A
Authority
CN
China
Prior art keywords
message
fault recovery
run
local manager
computer system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410538090.XA
Other languages
English (en)
Other versions
CN104346233B (zh
Inventor
王垚
俞森
李国荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Financial Exchange Center
CHINA FOREIGN EXCHANGE TRADE SYSTEM
China Foreign Exchange Trading Center National Interbank Interbank Lending Market Center
Original Assignee
CHINA FOREIGN EXCHANGE TRADE SYSTEM
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHINA FOREIGN EXCHANGE TRADE SYSTEM filed Critical CHINA FOREIGN EXCHANGE TRADE SYSTEM
Priority to CN201410538090.XA priority Critical patent/CN104346233B/zh
Publication of CN104346233A publication Critical patent/CN104346233A/zh
Priority to HK15106240.8A priority patent/HK1205805A1/zh
Application granted granted Critical
Publication of CN104346233B publication Critical patent/CN104346233B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供了一种用于计算机系统的故障恢复方法。所述计算机系统中包括用于管理所述计算机系统与外部设备之间的消息通讯的会话管理进程以及用于对所述外部设备的访问请求进行处理的数据处理进程。所述故障恢复方法包括:a.比较由所述数据处理进程发送给所述会话管理进程的第一消息与所述数据处理进程生成的包含数据处理结果的第二消息的消息标识,其中,所述第一消息是基于所述第二消息生成的;以及b.在所述第一消息与所述第二消息的消息标识不一致的情况下,基于所述第二消息来同步所述第一消息。

Description

一种用于计算机系统的故障恢复方法及装置
技术领域
本发明涉及计算机技术领域,更具体地,涉及一种用于计算机系统的故障恢复方法及装置。
背景技术
随着计算机和网络技术的迅速发展,在银行、外汇交易、股票交易等领域,越来越多的计算机系统被使用。这些计算机系统往往被作为后台服务器使用,其通过网络连接到各种终端或工作站,并通过运行各种进程来响应这些终端或工作站的访问请求,进而实现相应的业务及数据处理。
然而,在这种计算机系统运行时,由于各种原因,例如由于软件错误、硬件或网络错误,等等,该计算机系统可能会出现运行故障。这些故障会严重影响数据处理的实时性和准确性。例如,运行故障可能会使得系统暂时停止运行,从而使得该计算机系统不能实时地响应交易请求或其他访问请求;或者该运行故障可能会导致一些重要的业务数据丢失。
因此,有必要提供一种能够监控计算机系统的运行状态,并且在出现故障时及时进行故障恢复的方法及装置。
发明内容
可见,现有的计算机系统不能够实时地检测运行故障,并且不能够在出现故障时及时地进行故障恢复。
因此,针对上述问题,根据本发明的第一方面,提出了一种用于计算机系统的故障恢复方法,其中,所述计算机系统中包括用于管理所述计算机系统与外部设备之间的消息通讯的会话管理进程以及用于对所述外部设备的访问请求进行处理的数据处理进程,所述故障恢复方法包括:a.比较由所述数据处理进程发送给所述会话管理进程的第一消息与所述数据处理进程生成的包含数据处理结果的第二消息的消息标识,其中,所述第一消息是基于所述第二消息生成的;以及b.在所述第一消息与所述第二消息的消息标识不一致的情况下,基于所述第二消息来同步所述第一消息。
借助于上述方面的故障恢复方法,该计算机系统能够确定经由其中运行的进程所处理得到的数据处理结果是否准确、及时地发送出去。如果由于进程错误等原因引起第一消息丢失,则该计算机系统能够及时地根据已处理得到的数据处理结果重新同步第一消息,已使得该计算机系统能够及时从故障中恢复,并保持正常运行。
在一个实施例中,所述方法还包括:c.比较由所述会话管理进程发送给所述数据处理进程的第三消息与所述第一消息的消息标识,其中,所述第三消息接收自所述外部设备且包含所述访问请求;以及d.在所述第一消息与所述第三消息的消息标识不一致的情况下,基于所述第三消息来同步所述第一消息。
对于数据处理进程未能完全、准确处理访问请求的情况,该计算机系统还能够通过初始处理前接收的第三消息来同步第一消息,也即通过数据处理进程重新处理第一消息中包含的访问请求,以得到准确处理的数据处理结果,并以第一消息的形式发送出去。
在一个实施例中,所述方法还包括:在生成或接收到消息时,将所述消息记录在消息数据库中;以及在同步所述消息时,基于所述消息的消息标识在所述消息数据库中读取对应的消息。
在一个实施例中,在所述消息比较步骤之前,还包括:检测运行错误的进程数量;以及如果单个进程错误,则重启所述进程,如果有多个进程错误,则执行所述消息比较和同步的步骤。
在一个实施例中,所述计算机系统包括:至少一个本地管理器,用于对进程进行管理,其中所述进程配置有线程;以及域管理器,其与所述至少一个本地管理器耦合,用于管理所述至少一个本地管理器及其进程,并通过与所述进程相关联的线程通信以监控所述进程的状态。
在一个实施例中,所述方法还包括:检测运行错误的类型;以及如果所述运行错误为软件错误,则执行所述检测运行错误的进程数量的步骤;如果所述运行错误为硬件错误,则更换运行所述进程的硬件设备。
在一个实施例中,所述比较消息的步骤是由所述域管理器执行的;而所述同步消息的步骤是由所述本地管理器执行的。
在一个实施例中,所述进程的所述线程用于在所述进程出现运行错误时,向所述本地管理器反馈故障报告。
在一个实施例中,所述本地管理器用于将所述进程的状态和/或所述故障报告发送至所述域管理器。
在一个实施例中,所述域管理器用于当需要停止所述进程时,向所述本地管理器发送停止消息,所述本地管理器进一步用于向所述进程的所述线程转发所述停止消息,以使得所述线程根据所述停止消息来停止所述进程。
根据本发明的第二方面,还提出了一种用于计算机系统的故障恢复装置,其中,所述计算机系统中包括用于管理所述计算机系统与外部设备之间的消息通讯的会话管理进程以及用于对所述外部设备的访问请求进行处理的数据处理进程,包括:第一装置,用于比较由所述数据处理进程发送给所述会话管理进程的第一消息与所述数据处理进程生成的包含数据处理结果的第二消息的消息标识,其中,所述第一消息是基于所述第二消息生成的;以及第二装置,用于在所述第一消息与所述第二消息的消息标识不一致的情况下,基于所述第二消息来同步所述第一消息。
在一个实施例中,所述装置还包括:第三装置,用于比较由所述会话管理进程发送给所述数据处理进程的第三消息与所述第一消息的消息标识,其中,所述第三消息接收自所述外部设备且包含所述访问请求;以及第四装置,用于在所述第一消息与所述第三消息的消息标识不一致的情况下,基于所述第三消息来同步所述第一消息。
在一个实施例中,还包括:消息数据库,用于在生成或接收到消息时,将所述消息记录其中;并用于在同步所述消息时,基于所述消息的消息标识来提供对应的消息。
在一个实施例中,还包括:第五装置,用于检测运行错误的进程数量;以及第六装置,用于如果单个进程错误,则重启所述进程,如果有多个进程错误,则执行所述消息比较和同步的步骤。
在一个实施例中,所述计算机系统包括:至少一个本地管理器,用于对进程进行管理,其中所述进程配置有线程;以及域管理器,其与所述至少一个本地管理器耦合,用于管理所述至少一个本地管理器及其进程,并通过与所述进程相关联的线程通信以监控所述进程的状态。
在一个实施例中,还包括:第七装置,用于检测运行错误的类型;以及第八装置,用于如果所述运行错误为软件错误,则执行所述检测运行错误的进程数量的步骤;如果所述运行错误为硬件错误,则更换运行所述进程的硬件设备。
在一个实施例中,所述进程的所述线程用于在所述进程出现运行错误时,向所述本地管理器反馈故障报告。
在一个实施例中,所述本地管理器用于将所述进程的状态和/或所述故障报告发送至所述域管理器。
在一个实施例中,所述域管理器用于当需要停止所述进程时,向所述本地管理器发送停止消息,所述本地管理器进一步用于向所述进程的所述线程转发所述停止消息,以使得所述线程根据所述停止消息来停止所述进程。
上文已经概括而非宽泛地给出了本发明内容的特征。本发明内容的附加特征将在此后描述,其形成了本发明权利要求的主题。本领域技术人员应当理解,可以容易地使用所公开的构思和具体实施方式,作为修改或设计其他结构或者过程的基础,以便执行与本发明相同的目的。本领域技术人员还应当理解,这些等同结构没有脱离所附权利要求书中记载的本发明的主旨和范围。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更加明显:
图1示出了可以应用根据本发明实施例的故障恢复方法及装置的计算机系统100的框图;
图2示出了图1的计算机系统处理访问请求的流程框图200;
图3示出了根据本发明的第一实施例的故障恢复方法300的流程图;
图4示出了根据本发明的第二实施例的故障恢复装置400的框图。
在图中,贯穿不同的示图,相同或类似的附图标记表示相同或相对应的部件或特征。
绘制附图是为了清晰地示出本公开内容的实施方式的有关方面。为了更为清晰地示出某些实施方式,在附图标记之后可能跟随有字母,其指示相同结构、材料或者过程步骤的变形。
具体实施方式
一些例子在上述图中示出并且在下面加以详细描述。这些图并不一定按比例,并且出于清楚和/或简洁的目的,图的某些特征和某些视图可能会在比例上或在示意上被夸大地示出。应当理解,虽然下述说明书提供了用于实现各种实施例的不同的特征的许多不同的实施例或例子,但是可以实现其他的实施例和/或可以进行结构的变化而不偏离本公开的范围。此外,虽然下文描述了部件和布置的特定的示例,但是这些当然仅是示例而不应该被理解为是限制。此外,本公开在各个示例中重复了附图标记和/或字母。该重复仅是为了清楚起见,而并非本身规定在所讨论的各个实施例和/或示例性配置之间的关系。
图1示出了可以应用根据本发明实施例的故障恢复方法及装置的计算机系统100的框图。
如图1所示,计算机系统100包括三个本地管理器(LocalManager)101、102以及103、一个域管理器(Domain Manager)107以及一个控制器(System Administration Console)108。本地管理器101、102和103分别耦合至域管理器107,而域管理器107转而耦合至控制器108。虽然在此示出了三个本地管理器、一个域管理器以及一个控制器,但是本领域的技术人员应当理解,该些数量只是为了示例性地说明而选定的,是非限制性的。在本发明的其他实施例中,能够根据实际需要来任意设置本地管理器、域管理器以及控制器的数目。可以看出,该计算机系统100具有多级管理结构,有利于对进程和/或资源施行活动管理功能、维护管理功能、控制功能、诊断功能、实时监控功能、与安全有关的功能、配置功能等。
如图1所示,本地管理器101、102和103用于管理相关的进程。本地管理器101、102和103中的每一个可以例如安装在一台计算机上,并例如管理在该计算机上运行的应用程序,即进程。此外,为了简明起见,对于每个本地管理器,仅示出了三个其所需要管理的进程。即,对于本地管理器101,其用于管理进程10、20和30。对于本地管理器102,其用于管理进程40、50和60。对于本地管理器103,其用于管理进程70、80和90。当然,本领域的技术人员应当理解,上述进程的数量仅是示例性的,而非限制性的。
在实际应用中,进程包括但不限于会话管理进程、数据处理进程、错误检测、故障恢复以及其他进程,等等。其中,会话管理进程用于管理计算机系统100与外部设备(图中未示出)之间的消息通讯,而数据处理进程用于对外部设备的访问请求进行处理。
域管理器107用于管理本地管理器101、102和103及所有相关的进程10、20、30、40、50、60、70、80和90。域管理器107可以获取本地管理器101、102、103的状态和所有相关的进程的状态。并且当本地管理器101、102、103发生故障时,或某个进程发生故障时,域管理器107都可以获悉。例如,域管理器107和本地管理器101、102和103,本地管理器101、102和103和各个进程10、20、30、40、50、60、70、80和90之间都可以有一个心跳的维护。
此外,控制器108用于经由域管理器107与本地管理器101、102和103来管理相关的进程。而与进程相关联的信息,例如进程的状态、资源的状态、进程与资源的分配关系都会实时地经由域管理器107与本地管理器101、102和103被反映至控制器108。由此,控制器108处的操作员可以实时地监控相关的进程。而当控制器108处的操作员需要实施对进程实施某个操作时,其也可以经由域管理器107与本地管理器101、102和103来对该进程进行管理(下文将详述)。
另一方面,对每个进程,都设置有用于协助管理该进程的线程(Process Admin)。参见图1,为进程10设置有线程1,为进程20设置有线程2,为进程30设置有线程3,为进程40设置有线程4,为进程50设置有线程5,为进程60设置有线程6,为进程70设置有线程7,为进程80设置有线程8,为进程90设置有线程9。
优选地,该线程还用于对分配给进程的资源进行管理。具体地,例如线程1用于对由本地管理器101分配给进程10的资源进行管理。
此外,每个本地管理器与一个资源耦合。例如,本地管理器101与资源104耦合、本地管理器102与资源105耦合、本地管理器103与资源106耦合。这些资源104、105和106中的任一个或全部可以是数据库,并且可以位于共享的存储器上,从而即使本地管理器发生故障也不会对资源产生影响。
虽然在此示出了每个本地管理器都与一个资源耦合,但是在本发明的其他实施例中,本地管理器101、102和103也可以都耦合至一个资源上,即一个共享的存储器。
在本地管理器101、102和103中还存储有配置文件。这些配置文件中包括资源与进程的分配关系。例如对于本地管理器101,相应的配置文件表示进程10、20以及30和资源104中的资源的对应关系。对于本地管理器102,相应的配置文件表示进程40、50以及60和资源105中的资源的对应关系。对于本地管理器103,相应的配置文件表示进程70、80以及90和资源106中的资源的对应关系。
图2示出了图1的计算机系统处理访问请求的流程框图。
如图2所示,首先,该计算机系统通过通信管理器201接收外部设备发送的第三消息,该第三消息包含有访问请求。接着,该第三消息被通过第一协议转换进程203转换为计算机系统内部可识别的格式。之后,该第三消息被发送到会话管理进程205。接着,会话管理进程205将该第一消息转发给数据处理进程队列207,该数据处理进程队列207中可能包含有一个或更多个能够对第三消息进行处理的数据处理进程,并且不同的数据处理进程可以运行在相同或不同的计算机中,也即由相同或不同的本地管理器进行管理。同时,该会话管理进程205还将该第三消息存储到消息数据库209中。
数据处理进程队列207针对第三消息中包含的访问请求相应地进行处理,以生成包含数据处理结果的第二消息,并将所述第二消息发送给所述会话管理进程211。同时,该第二消息会被存储到消息数据库209中。
之后,会话管理进程211接收第二消息,并基于该第二消息生成第一消息,并将该第一消息转发给第二协议转换进程213。同时,该第一消息还被会话管理进程213存储到消息数据库209中。再然后,第二协议转换进程213将该第一消息转换为可为外部设备识别的格式,并通过通信管理器201发送出去。
这样,该计算机系统即完成了对外部设备访问请求的处理。需要说明的是,在该访问请求的处理过程中,任何的一条消息都会被分配一个唯一的消息标识来加以识别,该消息标识例如为数字排列的序号。消息标识,即消息序号会在每次会话过程中从1开始,在整个会话过程中连续递增,直到会话过程全部结束。因此,通过监视消息序号的连续性即可识别交换中的消息缺口,并作出反应,以使得不会出现消息丢失的情况。
图3示出了根据本发明的第一实施例的故障恢复方法300的流程图。正如前述,该计算机系统通过线程来监控其中运行的进程的运行。其中,该线程将进程的标识符、进程的运行状态(例如包括启动、停止或失效状态)提供给本地管理器,进而再由本地管理器提供给域管理器。这样,域管理器可以获得计算机系统中所有进程的运行状态,借以判断是否出现软件错误、硬件错误等导致的运行故障。
具体而言,当进程运行错误时,线程可以在进程出现运行错误时,向本地管理器反馈故障报告。本地管理器用于将进程的状态和/或所述故障报告发送至域管理器。相应地,域管理器可以当需要停止所述进程时,向本地管理器发送停止消息,本地管理器进一步向进程的线程转发该停止消息,以使得线程根据所述停止消息来停止进程。这样,发生运行错误的进程可以被停止,以避免不必要地错误运行继续。
如图3所示,该故障恢复方法300包括:
在步骤S302中,某个或某些线程向本地管理器发出运行故障的指示,例如该些线程不再向本地管理器发出心跳,本地管理器得以确定该些线程所监控的进程运行故障。
之后,在步骤S304中,检测运行错误的类型,即该运行错误是硬件错误还是软件错误。如果是硬件错误,则执行步骤S305,更换运行所述进程的硬件设备。其中,对于图1所示的计算机系统,其中每个本地管理器还对应地设置有一个或多个备用本地管理器,其用于在本地管理器发生硬件错误时,响应于域管理器的指示而应急启动,并且同时启动其中对应的备用进程,从而接替发生硬件错误的本地管理器的运行,以保持该计算机系统中运行的各个进程正常运行。此外,在一些例子中,该计算机系统还设置有备用域管理器以及对应的备用计算机子系统。当域管理器发生硬件错误时,该备用域管理器及备用计算机子系统会接替该发生错误的域管理器及计算机系统运行。
如果运行错误是软件错误,也即由于一个或多个进程的软件错误所导致的运行故障。则执行步骤S306,域管理器向负责故障恢复的本地管理器发出指令,并指示其进一步启动故障恢复进程。
接着,执行步骤S308,本地管理器指示停止所有数据处理进程。
之后,执行步骤S310,检测运行错误的进程数量。如果仅有单个进程错误,则执行步骤S312,重启该进程。如果有多个进程错误,则执行执行步骤S314,比较由数据处理进程发送给会话管理进程的第一消息与数据处理进程生成的包含数据处理结果的第二消息的消息标识,其中,第一消息是基于所述第二消息生成的。
如果第一消息与第二消息的消息标识匹配,例如相同,则说明第一消息已包含了准确地数据处理结果,可以发送出去。则进一步地可以借由网络管理器发送给外部设备。
然而,如果第一消息与第二消息的消息标识不一致,则说明进程运行错误已导致该第一消息丢失,因而执行步骤S316,基于第二消息来同步第一消息,例如,从消息数据库中读取第二消息,并将第二消息重新发送给会话管理进程,从而得到更新的第一消息。其中,消息数据库是独立于进程的,例如消息数据库被设置在图1所示的资源104、105或106中。因此,进程所发生的运行故障并不会影响消息的获取与更新。
在一些情况下,由于运行故障并非是在数据处理进程处理完之后丢失的,而有可能是在数据处理期间即发生运行错误,而使得数据处理结果不正确,即第二消息本身并不准确。因此,可选地,可以在步骤S314之后,进一步执行步骤S318,比较由会话管理进程发送给数据处理进程的第三消息与所述第一消息的消息标识,其中,第三消息接收自外部设备且包含访问请求。如果第一消息与第三消息的消息标识一致,则说明第一消息包含正确的数据处理结果。然而,如果第三消息与第一消息不一致,则说明访问请求被部分或错误地处理,并导致数据丢失。在这种情况下,执行步骤S320,基于第三消息来同步第一消息。例如,将第三消息重新发送给数据处理进程,并在该数据处理进程处理结束之后,将包含更新的数据处理结果的第二消息发送给会话管理进程,以生成更新的第三消息。
这样,由于进程运行错误导致的系统故障即可以被消除并恢复,从而实现系统的正常运行。
图4示出了根据本发明的第二实施例的故障恢复装置400的框图。其中,该故障恢复装置400用于计算机系统的故障恢复,该计算机系统中包括用于管理计算机系统与外部设备之间的消息通讯的会话管理进程以及用于对外部设备的访问请求进行处理的数据处理进程。
如图4所示,该故障恢复装置400包括:
第一装置401,用于比较由所述数据处理进程发送给所述会话管理进程的第一消息与所述数据处理进程生成的包含数据处理结果的第二消息的消息标识,其中,所述第一消息是基于所述第二消息生成的;
第二装置403,用于在所述第一消息与所述第二消息的消息标识不一致的情况下,基于所述第二消息来同步所述第一消息。
在一些例子中,该装置400还包括:
第三装置405,用于比较由所述会话管理进程发送给所述数据处理进程的第三消息与所述第一消息的消息标识,其中,所述第三消息接收自所述外部设备且包含所述访问请求;
第四装置407,用于在所述第一消息与所述第三消息的消息标识不一致的情况下,基于所述第三消息来同步所述第一消息。
在一个实施例中,还包括:消息数据库,用于在生成或接收到消息时,将所述消息记录其中;并用于在同步所述消息时,基于所述消息的消息标识来提供对应的消息。
在一个实施例中,还包括:第五装置,用于检测运行错误的进程数量;以及第六装置,用于如果单个进程错误,则重启所述进程,如果有多个进程错误,则执行所述消息比较和同步的步骤。
在一个实施例中,所述计算机系统包括:至少一个本地管理器,用于对进程进行管理,其中所述进程配置有线程;以及域管理器,其与所述至少一个本地管理器耦合,用于管理所述至少一个本地管理器及其进程,并通过与所述进程相关联的线程通信以监控所述进程的状态。
在一个实施例中,还包括:第七装置,用于检测运行错误的类型;以及第八装置,用于如果所述运行错误为软件错误,则执行所述检测运行错误的进程数量的步骤;如果所述运行错误为硬件错误,则更换运行所述进程的硬件设备。
在一个实施例中,所述进程的所述线程用于在所述进程出现运行错误时,向所述本地管理器反馈故障报告。
在一个实施例中,所述本地管理器用于将所述进程的状态和/或所述故障报告发送至所述域管理器。
在一个实施例中,所述域管理器用于当需要停止所述进程时,向所述本地管理器发送停止消息,所述本地管理器进一步用于向所述进程的所述线程转发所述停止消息,以使得所述线程根据所述停止消息来停止所述进程。
上述示例性方法和/或装置的至少一些由在计算机处理器上运行的一个或多个软件和/或固件程序实现。然而,包括但不限于专用集成电路、可编程逻辑阵列和其它硬件设备的专用硬件实现能够同样被构造为整体地或部分地实现这里所述的示例性方法和/或装置的一些或全部。此外,包括但不限于分布式处理或部件/对象分布式处理、并行处理或虚拟机处理的替代的软件实现也能够被构造为实现这里所述的示例性方法和/或系统。
还应注意,这里所述的示例性软件和/或固件实现被存储在有形存储介质上,例如:磁性介质(例如,磁盘或磁带);磁光或光学介质例如光盘;或固态介质,例如存储卡或容纳一个或多个只读(非易失性)存储器、随机存取存储器或其它可重写的(易失性)存储器的其它封装。因此,这里所述的示例性软件和/或固件能够存储在有形存储介质例如上面或后继描述的介质的存储介质上。在上面的说明书引用特定的标准和协议来描述示例性部件和功能的程度上,应理解,本专利的范围不限于这样的标准和协议。例如,用于互联网和其它分组交换网络传输(例如,传输控制协议(TCP)/互联网协议(IP)、用户数据报协议(UDP)/IP、超文本标记语言(HTML)、超文本传输协议(HTTP))的每个标准代表本领域当前状态的例子。这样的标准周期性地由具有相同的一般功能的、更快和更有效的等效形式取代。因此,具有相同功能的替换标准和协议是被本专利设想到的并且旨在包括在所附权利要求的范围内的等效形式。
本公开的以上描述用于使本领域的任何普通技术人员能够实现或使用本发明。对于本领域普通技术人员来说,本公开的各种修改都是显而易见的,并且本文定义的一般性原理也可以在不脱离本发明的精神和保护范围的情况下应用于其它变形。因此,本发明并不限于本文所述的实例和设计,而是与本文公开的原理和新颖性特性的最广范围相一致。

Claims (18)

1.一种用于计算机系统的故障恢复方法,其中,所述计算机系统中包括用于管理所述计算机系统与外部设备之间的消息通讯的会话管理进程以及用于对所述外部设备的访问请求进行处理的数据处理进程,其特征在于,所述故障恢复方法包括:
a.比较由所述数据处理进程发送给所述会话管理进程的第一消息与所述数据处理进程生成的包含数据处理结果的第二消息的消息标识,其中,所述第一消息是基于所述第二消息生成的;以及
b.在所述第一消息与所述第二消息的消息标识不一致的情况下,基于所述第二消息来同步所述第一消息。
2.根据权利要求1所述的故障恢复方法,其特征在于,所述方法还包括:
c.比较由所述会话管理进程发送给所述数据处理进程的第三消息与所述第一消息的消息标识,其中,所述第三消息接收自所述外部设备且包含所述访问请求;以及
d.在所述第一消息与所述第三消息的消息标识不一致的情况下,基于所述第三消息来同步所述第一消息。
3.根据权利要求1或2所述的故障恢复方法,其特征在于,所述方法还包括:
在生成或接收到消息时,将所述消息记录在消息数据库中;以及
在同步所述消息时,基于所述消息的消息标识在所述消息数据库中读取对应的消息。
4.根据权利要求1或2所述的故障恢复方法,其特征在于,在所述消息比较步骤之前,还包括:
检测运行错误的进程数量;以及
如果单个进程错误,则重启所述进程,如果有多个进程错误,则执行所述消息比较和同步的步骤。
5.根据权利要求4所述的故障恢复方法,其特征在于,所述计算机系统包括:
至少一个本地管理器,用于对进程进行管理,其中所述进程配置有线程;以及
域管理器,其与所述至少一个本地管理器耦合,用于管理所述至少一个本地管理器及其进程,并通过与所述进程相关联的线程通信以监控所述进程的状态。
6.根据权利要求5所述的故障恢复方法,其特征在于,所述方法还包括:
检测运行错误的类型;以及
如果所述运行错误为软件错误,则执行所述检测运行错误的进程数量的步骤;如果所述运行错误为硬件错误,则更换运行所述进程的硬件设备。
7.根据权利要求5所述的故障恢复方法,其特征在于,所述进程的所述线程用于在所述进程出现运行错误时,向所述本地管理器反馈故障报告。
8.根据权利要求7所述的故障恢复方法,其特征在于,所述本地管理器用于将所述进程的状态和/或所述故障报告发送至所述域管理器。
9.根据权利要求5所述的故障恢复方法,其特征在于,所述域管理器用于当需要停止所述进程时,向所述本地管理器发送停止消息,所述本地管理器进一步用于向所述进程的所述线程转发所述停止消息,以使得所述线程根据所述停止消息来停止所述进程。
10.一种用于计算机系统的故障恢复装置,其中,所述计算机系统中包括用于管理所述计算机系统与外部设备之间的消息通讯的会话管理进程以及用于对所述外部设备的访问请求进行处理的数据处理进程,其特征在于,包括:
第一装置,用于比较由所述数据处理进程发送给所述会话管理进程的第一消息与所述数据处理进程生成的包含数据处理结果的第二消息的消息标识,其中,所述第一消息是基于所述第二消息生成的;以及
第二装置,用于在所述第一消息与所述第二消息的消息标识不一致的情况下,基于所述第二消息来同步所述第一消息。
11.根据权利要求10所述的故障恢复装置,其特征在于,所述装置还包括:
第三装置,用于比较由所述会话管理进程发送给所述数据处理进程的第三消息与所述第一消息的消息标识,其中,所述第三消息接收自所述外部设备且包含所述访问请求;以及
第四装置,用于在所述第一消息与所述第三消息的消息标识不一致的情况下,基于所述第三消息来同步所述第一消息。
12.根据权利要求10或11所述的故障恢复装置,其特征在于,还包括:
消息数据库,用于在生成或接收到消息时,将所述消息记录其中;并用于在同步所述消息时,基于所述消息的消息标识来提供对应的消息。
13.根据权利要求10或11所述的故障恢复装置,其特征在于,还包括:
第五装置,用于检测运行错误的进程数量;以及
第六装置,用于如果单个进程错误,则重启所述进程,如果有多个进程错误,则执行所述消息比较和同步的步骤。
14.根据权利要求13所述的故障恢复装置,其特征在于,所述计算机系统包括:
至少一个本地管理器,用于对进程进行管理,其中所述进程配置有线程;以及
域管理器,其与所述至少一个本地管理器耦合,用于管理所述至少一个本地管理器及其进程,并通过与所述进程相关联的线程通信以监控所述进程的状态。
15.根据权利要求14所述的故障恢复装置,其特征在于,还包括:
第七装置,用于检测运行错误的类型;以及
第八装置,用于如果所述运行错误为软件错误,则执行所述检测运行错误的进程数量的步骤;如果所述运行错误为硬件错误,则更换运行所述进程的硬件设备。
16.根据权利要求14所述的故障恢复装置,其特征在于,所述进程的所述线程用于在所述进程出现运行错误时,向所述本地管理器反馈故障报告。
17.根据权利要求16所述的故障恢复装置,其特征在于,所述本地管理器用于将所述进程的状态和/或所述故障报告发送至所述域管理器。
18.根据权利要求14所述的故障恢复装置,其特征在于,所述域管理器用于当需要停止所述进程时,向所述本地管理器发送停止消息,所述本地管理器进一步用于向所述进程的所述线程转发所述停止消息,以使得所述线程根据所述停止消息来停止所述进程。
CN201410538090.XA 2014-10-13 2014-10-13 一种用于计算机系统的故障恢复方法及装置 Active CN104346233B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410538090.XA CN104346233B (zh) 2014-10-13 2014-10-13 一种用于计算机系统的故障恢复方法及装置
HK15106240.8A HK1205805A1 (zh) 2014-10-13 2015-06-30 種用於計算機系統的故障恢復方法及裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410538090.XA CN104346233B (zh) 2014-10-13 2014-10-13 一种用于计算机系统的故障恢复方法及装置

Publications (2)

Publication Number Publication Date
CN104346233A true CN104346233A (zh) 2015-02-11
CN104346233B CN104346233B (zh) 2017-12-26

Family

ID=52501914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410538090.XA Active CN104346233B (zh) 2014-10-13 2014-10-13 一种用于计算机系统的故障恢复方法及装置

Country Status (2)

Country Link
CN (1) CN104346233B (zh)
HK (1) HK1205805A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105141501A (zh) * 2015-08-06 2015-12-09 广州华多网络科技有限公司 在即时通讯客户端推送、展示信息的方法及客户端、系统
CN110415115A (zh) * 2019-06-18 2019-11-05 平安证券股份有限公司 交易系统的运维方法、装置及计算机可读存储介质
CN111190747A (zh) * 2019-12-20 2020-05-22 北京金山云网络技术有限公司 用于消息队列的消息丢失检测方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101145946A (zh) * 2007-09-17 2008-03-19 中兴通讯股份有限公司 一种基于消息日志的容错集群系统和方法
CN101662451A (zh) * 2008-08-26 2010-03-03 北京中京创原通信技术有限公司 基于消息标识机制的命令/响应关联性控制方法
CN102222033A (zh) * 2011-06-20 2011-10-19 中兴通讯股份有限公司 一种保存小型计算机系统接口访问错误的方法及装置
CN103370693A (zh) * 2011-02-18 2013-10-23 起元技术有限责任公司 重启进程
CN103370694A (zh) * 2011-02-18 2013-10-23 起元技术有限责任公司 重启数据处理系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101145946A (zh) * 2007-09-17 2008-03-19 中兴通讯股份有限公司 一种基于消息日志的容错集群系统和方法
CN101662451A (zh) * 2008-08-26 2010-03-03 北京中京创原通信技术有限公司 基于消息标识机制的命令/响应关联性控制方法
CN103370693A (zh) * 2011-02-18 2013-10-23 起元技术有限责任公司 重启进程
CN103370694A (zh) * 2011-02-18 2013-10-23 起元技术有限责任公司 重启数据处理系统
CN102222033A (zh) * 2011-06-20 2011-10-19 中兴通讯股份有限公司 一种保存小型计算机系统接口访问错误的方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105141501A (zh) * 2015-08-06 2015-12-09 广州华多网络科技有限公司 在即时通讯客户端推送、展示信息的方法及客户端、系统
CN110415115A (zh) * 2019-06-18 2019-11-05 平安证券股份有限公司 交易系统的运维方法、装置及计算机可读存储介质
CN111190747A (zh) * 2019-12-20 2020-05-22 北京金山云网络技术有限公司 用于消息队列的消息丢失检测方法和装置

Also Published As

Publication number Publication date
CN104346233B (zh) 2017-12-26
HK1205805A1 (zh) 2015-12-24

Similar Documents

Publication Publication Date Title
US10592330B2 (en) Systems and methods for automatic replacement and repair of communications network devices
US8910172B2 (en) Application resource switchover systems and methods
CN105357038A (zh) 监控虚拟机集群的方法和系统
CN102231681B (zh) 一种高可用集群计算机系统及其故障处理方法
CN109032849B (zh) 热备份系统、热备份方法和计算机设备
CN107147540A (zh) 高可用性系统中的故障处理方法和故障处理集群
CN103607297A (zh) 一种计算机集群系统的故障处理方法
CN104639380A (zh) 服务器监控方法
WO2016183967A1 (zh) 一种关键组件的故障告警方法、装置及大数据管理系统
WO2016188100A1 (zh) 信息系统故障场景信息收集方法及系统
CN105243004A (zh) 一种故障资源检测方法及装置
CN111796959B (zh) 宿主机容器自愈方法、装置及系统
CN104065526A (zh) 一种服务器故障报警的方法和装置
CN105607973B (zh) 一种虚拟机系统中设备故障处理的方法、装置及系统
CN103905247A (zh) 一种基于多客户裁决的双机备份方法及系统
CN111813348A (zh) 统一存储设备中的节点事件处理装置、方法、设备及介质
CN104346233A (zh) 一种用于计算机系统的故障恢复方法及装置
CN105068763A (zh) 一种针对存储故障的虚拟机容错系统和方法
CN109271270A (zh) 存储系统中底层硬件的故障排除方法、系统及相关装置
CN109104314A (zh) 一种修改日志配置文件的方法及装置
CN109117317A (zh) 一种集群故障恢复方法和相关装置
JP2018169920A (ja) 管理装置、管理方法及び管理プログラム
CN110287066B (zh) 一种服务器分区迁移方法及相关装置
CN111444032A (zh) 一种计算机系统故障修复方法、系统及设备
CN103036711B (zh) 状态检测方法及系统、管理节点设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1205805

Country of ref document: HK

GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1205805

Country of ref document: HK

CP03 Change of name, title or address

Address after: No. 15 Zhongshan East 1st Road, Huangpu District, Shanghai, 200001

Patentee after: China Foreign Exchange Trade System

Address before: No. 15 Zhongshan East 1st Road, Huangpu District, Shanghai, March 2012

Patentee before: China Financial Exchange Center

Address after: No. 15 Zhongshan East 1st Road, Huangpu District, Shanghai, March 2012

Patentee after: China Financial Exchange Center

Address before: 201203 building 30, 1387 Zhangdong Road, Pudong New Area, Shanghai

Patentee before: CHINA FOREIGN EXCHANGE TRADE SYSTEM

CP03 Change of name, title or address
TR01 Transfer of patent right

Effective date of registration: 20231124

Address after: No. 15 Zhongshan East 1st Road, Huangpu District, Shanghai, 200001

Patentee after: China Foreign Exchange Trading Center (National Interbank Interbank lending market Center)

Address before: No. 15 Zhongshan East 1st Road, Huangpu District, Shanghai, 200001

Patentee before: China Foreign Exchange Trade System

TR01 Transfer of patent right