CN112055041B

CN112055041B - 信息处理系统

Info

Publication number: CN112055041B
Application number: CN202010506186.3A
Authority: CN
Inventors: 西海一树; 大林雄一; 五岛谕; 中岛靖雄; 中岛孝记; 中村刚; 朴德一
Original assignee: Kyocera Document Solutions Inc
Current assignee: Kyocera Document Solutions Inc
Priority date: 2019-06-07
Filing date: 2020-06-05
Publication date: 2023-11-07
Anticipated expiration: 2040-06-05
Also published as: JP2020201637A; US11487623B2; CN112055041A; EP3748502A1; US20200387428A1

Abstract

本发明提供信息处理系统。在远程管理系统中，用多个实例执行并行分布处理的设备管理服务(40)的每个实例，从计数信息取得与实例自身的复原相关的处理的状况，并且在执行与实例自身的复原相关的处理的情况下，将所述处理的状况存储于计数信息(S223、S224、S243)，用多个实例执行并行分布处理的工作者服务(50)的每个实例，从计数信息取得与设备管理服务(40)的实例的复原相关的处理的状况，并且在执行与设备管理服务(40)的实例的复原相关的处理的情况下，将所述处理的状况存储于计数信息(S221、S222、S242)。

Description

信息处理系统

技术领域

本发明涉及能从故障自主复原的信息处理系统。

背景技术

以往，在公有云中，在检测到当前使用的信息处理系统发生了故障的情况下，通过将IP(Internet Protocol：网际协议)地址从当前使用的信息处理系统转换到备用的信息处理系统，从而由备用的信息处理系统代替当前使用的信息处理系统来继续提供服务的技术已被公众所知。可是，在现有技术中，需要备用的信息处理系统，因而存在备用的信息处理系统相应地花费运营成本的问题。

发明内容

本发明的目的是提供能控制运营成本的信息处理系统。

本发明的信息处理系统包括：第一并行分布处理系统，具备多个实例，并且用所述多个实例执行并行分布处理；第二并行分布处理系统，具备多个实例，并且用所述多个实例执行并行分布处理；以及处理状况存储部，存储处理状况信息，所述处理状况信息针对所述第一并行分布处理系统的每个所述实例，示出与所述第一并行分布处理系统的所述实例的复原相关的处理的状况，所述第一并行分布处理系统的各所述实例从所述处理状况信息取得与实例自身的复原相关的处理的状况，并且在执行与实例自身的复原相关的处理的情况下，将所述处理的状况存储于所述处理状况信息，所述第二并行分布处理系统的各所述实例从所述处理状况信息取得与所述第一并行分布处理系统的所述实例的复原相关的处理的状况，并且在执行与所述第一并行分布处理系统的所述实例的复原相关的处理的情况下，将所述处理的状况存储于所述处理状况信息。

按照所述构成，本发明的信息处理系统利用第一并行分布处理系统的实例自身和第二并行分布处理系统的实例来执行与第一并行分布处理系统的实例的复原相关的处理，所以不需要与第一并行分布处理系统对应的备用系统，可以控制运营成本。

在本发明的信息处理系统中，优选的是，在所述处理状况信息示出了所述第二并行分布处理系统的所述实例针对所述第一并行分布处理系统的所述实例的异常所监视的状况成为特定的状况的情况下，所述第一并行分布处理系统的所述实例再次启动所述第一并行分布处理系统的所述实例自身的应用程序，作为与所述第一并行分布处理系统的所述实例自身的复原相关的处理。

按照所述构成，本发明的信息处理系统根据第二并行分布处理系统的实例针对第一并行分布处理系统的实例的异常所监视的状况，再次启动第一并行分布处理系统的实例的应用程序，因此可以在适当的时机执行第一并行分布处理系统的实例的应用程序的再次启动。

在本发明的信息处理系统中，优选的是，在即使从所述第一并行分布处理系统的所述实例的所述应用程序的再次启动经过了特定的时间，所述处理状况信息也仍未示出所述应用程序的再次启动已成功的情况下，所述第二并行分布处理系统的所述实例请求所述第一并行分布处理系统的所述实例的再次启动。

按照所述构成，本发明的信息处理系统可以在第一并行分布处理系统的实例的应用程序的再次启动失败的情况下，在适当的时机执行所述实例的再次启动。

在本发明的信息处理系统中，优选的是，在即使从所述第一并行分布处理系统的所述实例的再次启动的请求经过了特定的时间，所述处理状况信息也仍未示出所述实例的再次启动已成功的情况下，所述第二并行分布处理系统的所述实例执行用于通知自主复原处理失败的处理。

按照所述构成，本发明的信息处理系统在第一并行分布处理系统的实例的再次启动失败的情况下，执行用于通知自主复原处理失败的处理，所以能够提高在适当的时机接受人工复原处理的可能性。

本发明的信息处理系统可以控制运营成本。

附图说明

图1是本发明的一个实施方式的系统的框图。

图2是图1所示的远程管理系统的框图。

图3是表示图2所示的计数信息的一例的图。

图4是由一台计算机构成的情况下的图1所示的监视系统的框图。

图5是实例启动的情况下的图2所示的复原处理模块的动作的流程图。

图6是Web应用程序在实例的内部启动的情况下的图2所示的复原处理模块的动作的流程图。

图7是实例的内部的Web应用程序启动后的图2所示的复原处理模块的动作的流程图。

图8是执行监视处理的情况下的图2所示的监视模块的动作的流程图。

图9是图8所示的每个实例监视处理的流程图。

图10是图9所示的监视详细处理的流程图。

图11的(a)是图2所示的设备管理服务的实例的Web应用程序的再次启动成功的情况下的流程图。

图11的(b)是图2所示的设备管理服务的实例的Web应用程序的再次启动失败，而所述实例的再次启动成功的情况下的流程图。

图11的(c)是图2所示的设备管理服务的实例的Web应用程序的再次启动失败，且所述实例的再次启动也失败的情况下的流程图。

图12的(a)是图2所示的设备管理服务的实例的Web应用程序的再次启动尚未开始，而所述实例的再次启动成功的情况下的流程图。

图12的(b)是图2所示的设备管理服务的实例的Web应用程序的再次启动尚未开始，且所述实例的再次启动也失败的情况下的流程图。

具体实施方式

以下，使用附图说明本发明的实施方式。

首先，说明本发明的一个实施方式的系统的构成。

图1是本实施方式的系统10的框图。

如图1所示，系统10具备管理图像形成装置的从业者(以下称为“管理从业者”)的顾客的LAN(Local Area Network：局域网)等网络20。系统10除了网络20以外，还可以具备至少一个与网络20同样构成的网络。

网络20具备用于控制网络20的内部与网络20的外部之间的通信的防火墙21以及图像形成装置22。网络20除了图像形成装置22以外，还可以具备至少一个与图像形成装置22同样构成的图像形成装置。网络20中的图像形成装置例如由MFP(MultifunctionPeripheral：多功能一体机)、打印专用机等构成，由管理从业者的顾客使用。

系统10具备作为信息处理系统的远程管理系统30，所述远程管理系统30用于远程管理系统10中的各图像形成装置。远程管理系统30例如能管理配置在世界各地的例如数百万台等的庞大数量的图像形成装置。远程管理系统30由管理从业者使用。远程管理系统30可以由一台计算机构成，也可以由多台计算机构成。以下说明远程管理系统30在公有云的云平台上动作的情况。

由于多个图像形成装置能够借助互联网连接于远程管理系统30，因此伴随连接于远程管理系统30的图像形成装置的增加，构成远程管理系统30的服务器的能力机动地增大。此外，对于远程管理系统30进行动作的云平台，由于所述云平台的系统故障和/或维护，有时在远程管理系统30未掌握的时机，系统的一部分会宕机。

系统10具备监视远程管理系统30的监视系统70。监视系统70由管理从业者使用。监视系统70可以由一台计算机构成，也可以由多台计算机构成。

系统10中的各网络、远程管理系统30和监视系统70能借助互联网11彼此通信。

图2是远程管理系统30的框图。

如图2所示，远程管理系统30包括：设备管理服务40，承担与远程管理系统30远程管理的图像形成装置之间的数据通信，实现用于进行与外部之间的通信的Web服务器；以及工作者服务50，其为实施使用者看不到的数据汇总、邮件发送、报告制作之类的批处理的服务。

设备管理服务40具备实例41。实例41例如具备IIS(Internet InformationServices：互联网信息服务)之类的用于实现Web服务器的Web应用程序41a。设备管理服务40除了实例41以外，还至少具备一个与实例41同样构成的实例。即，设备管理服务40具有使实例冗余化且由多个实例执行并行分布处理的构成，并且构成本发明的第一并行分布处理系统。设备管理服务40的实例冗余化的理由在于：例如由多个实例执行而实现处理的高速化，以及在某个实例发生故障的情况下，即使发生故障的实例再次启动也可以继续处理。

工作者服务50具备实例51。工作者服务50除了实例51以外，还至少具备一个与实例51同样构成的实例。即，工作者服务50具有实例冗余化且由多个实例执行并行分布处理的构成，并且构成本发明的第二并行分布处理系统。工作者服务50的实例冗余化的理由在于：例如由多个实例执行而实现处理的高速化，以及在某个实例发生故障的情况下，即使发生故障的实例再次启动也可以继续处理。

远程管理系统30具备用于存储消息的消息队列61，所述消息表示由工作者服务50的实例执行的处理。远程管理系统30除了消息队列61以外，还可以具备至少一个与消息队列61同样的消息队列。远程管理系统30中的消息队列按照处理的每个种类进行设置。

如果远程管理系统30的使用者和/或图像形成装置向远程管理系统30委托某个处理，则设备管理服务40的实例中的非处理中的任意的实例，在与委托的处理的种类对应的消息队列中存储用于表示所述处理的消息。在远程管理系统30的任意的消息队列中存储有等待执行的消息的情况下，工作者服务50的实例中的非处理中的任意的实例将所述消息从消息队列取出后，执行与所述消息对应的处理。另外，工作者服务50的实例在开始执行与消息对应的处理之后直至所述处理的执行结束为止，在实例自身因再次启动等而结束的情况下，中止所述处理的执行，并将表示所述处理的消息存储于任意的消息队列。

远程管理系统30具备设备管理服务40和工作者服务50双方的理由在于：通过由工作者服务50执行远程管理系统30的使用者和/或图像形成装置借助设备管理服务40向远程管理系统30委托的处理，从而远程管理系统30的使用者和/或图像形成装置能够暂时结束与设备管理服务40之间的处理，其结果，远程管理系统30的使用者和/或图像形成装置可以借助设备管理服务40向远程管理系统30委托新的处理。

远程管理系统30具备存储计数信息62a的缓存服务62，所述计数信息62a表示能从设备管理服务40和工作者服务50双方读出或写入的计数。

图3是表示计数信息62a的一例的图。

如图3所示，计数信息62a将设备管理服务40的实例的识别信息(以下称为“实例ID”)、附有所述实例ID的实例用的计数的值(以下称为“计数值”)、以及时刻彼此相关联，并包含于设备管理服务40的每个实例。计数信息62a是在设备管理服务40的每个实例中表示与设备管理服务40的实例的复原相关的处理的状况的信息，并且构成本发明的处理状况信息。因此，缓存服务62构成本发明的处理状况存储部。

如图2所示，远程管理系统30具备用于存储远程管理系统30的日志等各种信息的存储表63。存储表63由监视系统70(参照图1)监视。

设备管理服务40的实例41具备复原处理模块41b，所述复原处理模块41b执行从实例41发生的异常复原所需的内部处理。

作为由设备管理服务40的实例的复原处理模块执行的内部处理，存在有：“转储输出”，其为输出所述实例的Web服务器的存储器转储的处理；以及“应用程序再次启动”，其为在所述实例的内部再次启动Web应用程序的处理。

“转储输出”是如下的处理：用于在判断为设备管理服务40中的对象的实例不受理来自外部的请求的情况下，通过取得并传送在判断为所述实例不受理来自外部的请求的时点的、所述实例的Web服务器的存储器转储，从而使后续的故障解析变得容易。“应用程序再次启动”是如下的复原处理：用于通过在设备管理服务40中的对象的实例的内部再次启动Web应用程序，从而使所述实例受理新的请求。在执行“应用程序再次启动”之前，必须执行“转储输出”。

工作者服务50的实例51具备监视设备管理服务40的实例的监视模块51a。监视模块51a执行“死活监视”、“恢复状况监视”和“通知判断”这三个处理，所述“死活监视”为监视设备管理服务40的实例是否发生停止的处理，所述“恢复状况监视”为监视设备管理服务40的实例的复原处理的运行的处理。

“死活监视”是如下的处理：从工作者服务50针对设备管理服务40的实例，监视是否发生了503HTTP(Hypertext Transfer Protocol：超文本传输协议)错误之类的因处理的停滞而导致的实例的停止。

“恢复状况监视”是如下的处理：在远程管理系统30进行动作的公有云上，在未利用“应用程序再次启动”进行故障复原的情况下，进行“实例再次启动”，所述“实例再次启动”是用于以OS(Operating System：操作系统)级别再次启动设备管理服务40的配置完毕的任意实例的操作。例如在因来自远程管理系统30的外部的过载导致故障的情况以及在并非Web应用程序的故障而是设备管理服务40的实例自身的故障的情况之类的、即使利用设备管理服务40的复原处理模块41b实施的“应用程序再次启动”也未消除故障的情况下，“恢复状况监视”向公有云侧请求“实例再次启动”。在由工作者服务50的监视模块51a请求了“实例再次启动”的情况下，公有云进行请求的“实例再次启动”的对象的实例的再次启动。

“通知判断”是如下的处理：在利用“实例再次启动”也未使故障复原的情况下，将通知用日志存储于存储表63，所述通知用日志用于使监视系统70执行远程管理系统30的自主复原处理失败的通知。

远程管理系统30具备监视消息发行部64，所述监视消息发行部64定期地、例如每5分钟等发行用于使工作者服务50监视设备管理服务40的实例的处理(以下称为“监视处理”)的消息(以下称为“监视消息”)。

图4是由一台计算机构成的情况下的监视系统70的框图。

图4所示的监视系统70包括：操作部71，其为供各种操作输入的例如键盘、鼠标等操作设备；显示部72，其为显示各种信息的例如LCD等显示设备；通信部73，其为经由LAN、互联网等网络与外部的装置进行通信，或不借助网络而是通过有线或无线直接与外部的装置进行通信的通信设备；存储部74，其为存储各种信息的例如半导体存储器、HDD等非易失性的存储设备；以及控制部75，其控制监视系统70整体。

存储部74存储有用于监视远程管理系统30(参照图2)的监视程序74a。监视程序74a例如可以在监视系统70的制造阶段安装于监视系统70，也可以从CD、DVD、USB存储器等外部的存储介质追加安装于监视系统70，还可以从网络上追加安装于监视系统70。

存储部74存储有表示各种信息的联系方式的联系方式信息74b。联系方式信息74b所示的联系方式例如是电子邮件地址。联系方式信息74b例如也可以示出远程管理系统30的开发者的联系方式、远程管理系统30的使用者的联系方式之类的多个联系方式。

控制部75例如具备CPU、存储程序和各种数据的ROM、以及用作控制部75的CPU的作业区域的作为存储器的RAM。控制部75的CPU执行存储部74或控制部75的ROM中存储的程序。

控制部75通过执行监视程序74a而实现了如下部分：构成要素监视部75a，监视远程管理系统30的构成要素；以及通知执行部75b，在构成要素监视部75a的监视结果满足预定的条件的情况下，针对联系方式信息74b所示的联系方式执行通知。

接下来，说明系统10的动作。

首先，说明实例启动的情况下的复原处理模块的动作。

图5是实例启动的情况下的复原处理模块的动作的流程图。

如果设备管理服务40的实例启动，则所述实例的复原处理模块执行图5所示的动作。

如图5所示，复原处理模块对于具备复原处理模块自身的实例用的计数值，在计数信息62a中登录0(S101)。

接着，复原处理模块在计数信息62a中，登录当前时刻作为与具备复原处理模块自身的实例相关联的时刻(S102)，并结束图5所示的动作。

接下来，说明在实例的内部启动Web应用程序的情况下的复原处理模块的动作。

图6是在实例的内部启动Web应用程序的情况下的复原处理模块的动作的流程图。

例如，如果设备管理服务40的实例启动，则所述实例在内部启动Web应用程序。此外，设备管理服务40的实例有时再次启动Web应用程序。如果在设备管理服务40的实例的内部启动Web应用程序，则所述实例的复原处理模块执行图6所示的动作。

如图6所示，复原处理模块将具备复原处理模块自身的实例用的计数值在计数信息62a中更新为0(S121)。

接着，复原处理模块在计数信息62a中，将与具备复原处理模块自身的实例相关联的时刻更新为当前时刻(S122)，并结束图6所示的动作。

接下来，说明实例的内部的Web应用程序启动后的复原处理模块的动作。

图7是实例的内部的Web应用程序启动后的复原处理模块的动作的流程图。

如果在设备管理服务40的实例的内部启动Web应用程序，则所述实例的复原处理模块执行图7所示的动作。

如图7所示，复原处理模块根据所述实例的实例ID，从计数信息62a取得具备复原处理模块自身的实例用的计数值(S141)。

接着，复原处理模块判断在S141中取得的计数值是否在特定的值以上(S142)。S142中的“特定的值”例如为5。

如果在S142中判断为S141中取得的计数值未在特定的值以上，则复原处理模块执行S141的处理。

如果在S142中判断为S141中取得的计数值在特定的值以上，则复原处理模块将具备复原处理模块自身的实例用的计数值在计数信息62a中更新为－1(S143)。

接着，复原处理模块在计数信息62a中，将与具备复原处理模块自身的实例相关联的时刻更新为当前时刻(S144)。

接着，复原处理模块在具备复原处理模块自身的实例的内部再次启动Web应用程序(S145)。

接着，复原处理模块将S145中的复原处理的内容的日志存储于存储表63(S146)，并执行S141的处理。

接下来，说明执行监视处理的情况下的工作者服务50的实例的监视模块的动作。

图8是执行监视处理的情况下的工作者服务50的实例的监视模块的动作的流程图。

监视消息发行部64定期地、例如每5分钟等发行监视消息，并将所述监视消息存储于监视处理用的消息队列(以下称为“监视消息队列”)。在监视消息队列中存储有等待执行的监视消息的情况下，工作者服务50的实例中的非处理中的任意的实例从监视消息队列取出所述监视消息后，如图8所示的那样执行与所述监视消息对应的监视处理。

如图8所示，工作者服务50的实例中的执行图8所示的动作的实例的监视模块(以下称为“对象监视模块”)，将本次的监视处理开始的日志存储于存储表63(S161)。

接着，对象监视模块从公有云取得设备管理服务40的实例的列表(S162)。

接着，对象监视模块针对S162中取得的列表所示的各实例，并行地执行每个实例监视处理，所述每个实例监视处理是对设备管理服务40的每个实例执行的处理(S163)。

图9是图8所示的每个实例监视处理的流程图。

如图9所示，对象监视模块根据对象实例的实例ID，从计数信息62a取得设备管理服务40的实例中的作为本次的每个实例监视处理的对象的实例(以下，在图9和图10所示的动作的说明中称为“对象实例”)的计数值(S181)。

接着，对象监视模块判断在S181中取得的计数值是否在0以上(S182)。

如果在S182中判断为S181中取得的计数值在0以上，则对象监视模块执行图10所示的监视详细处理(S183)。

图10是图9所示的监视详细处理的流程图。

如图10所示，对象监视模块制作监视对象实例用的Web请求(S201)。

接着，对象监视模块设定特定的时间的请求超时值并执行在S201中制作的Web请求(S202)。

另外，S201～S202的处理是与上述的“死活监视”相关的处理。

对象监视模块在S202的处理之后，判断S202中的执行结果(S203)。

如果在S203中判断为S202中的执行结果是，针对在S202中执行的Web请求，从对象实例收到了正常的应答，则对象监视模块在计数信息62a中将对象实例用的计数值更新为0(S204)，并且在计数信息62a中将与对象实例相关联的时刻(以下称为“对象计数时刻”)更新为当前时刻(S205)。

如果在S203中判断为S202中的执行结果是503HTTP错误，或是与S202中设定的请求超时值对应的超时，则对象监视模块判断计数信息62a中的对象实例用的计数值是否在特定的阈值以上(S206)。S206中的阈值为正的值、例如10等。

如果在S206中判断为计数信息62a中的对象实例用的计数值未在特定的阈值以上，则对象监视模块在计数信息62a中使对象实例用的计数值增加1(S207)，并将对象计数时刻更新为当前时刻(S208)。

如果在S206中判断为计数信息62a中的对象实例用的计数值在特定的阈值以上，则对象监视模块在计数信息62a中将对象实例用的计数值更新为－2(S209)，并将对象计数时刻更新为当前时刻(S210)。

接着，对象监视模块在公有云侧向对象实例请求“实例再次启动”(S211)。

如果在S203中判断为S202中的执行结果是并非503HTTP错误和超时之一的错误，则对象监视模块将所述错误的日志存储于存储表63(S212)。

对象监视模块在S205、S208、S211或S212的处理之后，结束图10所示的监视详细处理。

如图9所示，如果在S182中判断为S181中取得的计数值未在0以上，则对象监视模块取得对象计数时刻(S184)。

接着，对象监视模块判断当前时刻是否晚于在S184中取得的对象计数时刻上加上特定的时间后的时刻(S185)。S185中的“特定的时间”例如为20分钟。

如果在S185中判断为当前时刻晚于在对象计数时刻上加上特定的时间后的时刻，则对象监视模块判断计数信息62a中的对象实例用的计数值是否在－2以下(S186)。

如果在S186中判断为计数信息62a中的对象实例用的计数值不在－2以下，则对象监视模块在计数信息62a中使对象实例用的计数值减小1(S187)，并在计数信息62a中将对象计数时刻更新为当前时刻(S188)。

接着，对象监视模块在公有云侧向对象实例请求“实例再次启动”(S189)。

另外，S182、S184～S189的处理是与上述的“恢复状况监视”相关的处理。

如果在S186中判断为计数信息62a中的对象实例用的计数值在－2以下，则对象监视模块在计数信息62a中将对象计数时刻更新为当前时刻(S190)。

接着，对象监视模块将通知用日志存储于存储表63(S191)，所述通知用日志用于使监视系统70通知远程管理系统30的自主复原处理的失败。

另外，S182、S184～S186和S190～S191的处理是与上述的“通知判断”相关的处理。

如果S183的处理结束、或者在S185中判断为当前时刻并非晚于在对象计数时刻上加上特定的时间后的时刻、或者S189或S191的处理结束，则对象监视模块将本次的监视处理的监视结果存储于存储表63(S192)，并结束图9所示的每个实例监视处理。

如图8所示，对象监视模块在S163的处理之后，将本次的监视处理结束的日志存储于存储表63(S164)，并结束图8所示的动作。

接下来，说明远程管理系统30中的设备管理服务40的故障的复原处理的处理模式的类型。

另外，以下设S142中的“特定的值”、S185中的“特定的时间”、S206中的阈值分别为5、20分钟、10。

图11的(a)是设备管理服务40的实例的Web应用程序的再次启动成功的情况下的流程图。图11的(b)是设备管理服务40的实例的Web应用程序的再次启动失败，而所述实例的再次启动成功的情况下的流程图。图11的(c)是设备管理服务40的实例的Web应用程序的再次启动失败，且所述实例的再次启动也失败的情况下的流程图。图12的(a)是设备管理服务40的实例的Web应用程序的再次启动尚未开始，而所述实例的再次启动成功的情况下的流程图。图12的(b)是设备管理服务40的实例的Web应用程序的再次启动尚未开始，且所述实例的再次启动也失败的情况下的流程图。

在图11和图12所示的动作的说明中，说明一个实例(以下，在图11和图12所示的动作的说明中称为“对象实例”)，来代表设备管理服务40的全部实例。

首先，利用图11的(a)说明设备管理服务40的实例的Web应用程序的再次启动成功的情况。

如果设备管理服务40的对象实例启动、且Web应用程序在对象实例的内部启动，则利用S101的处理和S121的处理，对象实例用的计数值被对象实例的复原处理模块设定为0。此外，在设备管理服务40的对象实例正常(S203中为“正常”)的情况下，对象实例用的计数值被工作者服务50的任意实例的监视模块设定为0(S204)。因此，直至设备管理服务40的对象实例发生异常为止，对象实例用的计数值为0。

如图11的(a)所示，如果设备管理服务40的对象实例发生异常，则工作者服务50的任意实例的监视模块针对对象实例进行监视用的Web请求发生503HTTP错误和/或超时(S203中为503HTTP错误或超时)，所以利用S207的处理，设备管理服务40的对象实例用的计数值被工作者服务50的所述实例的监视模块设定为1(S221)。

同样，如果工作者服务50的任意实例的监视模块针对设备管理服务40的对象实例进行监视用的Web请求合计连续5次发生503HTTP错误和/或超时，则利用合计5次的S207的处理，设备管理服务40的对象实例用的计数值被工作者服务50的这些实例的监视模块设定为5(S222)。

而后，如果设备管理服务40的对象实例用的计数值达到5以上(S142中为“是”)，则利用S143的处理，所述计数值被对象实例的复原处理模块设定为－1(S223)，并且利用S145的处理，对象实例的内部的Web应用程序被所述复原处理模块再次启动。

如果设备管理服务40的对象实例的内部的Web应用程序的再次启动成功，则利用S121的处理，对象实例用的计数值被对象实例的复原处理模块设定为0(S224)。在对象实例的Web应用程序的再次启动成功的情况下，对象实例正常。

接下来，利用图11的(b)说明设备管理服务40的实例的Web应用程序的再次启动失败，而所述实例的再次启动成功的情况。

如上所述，直至设备管理服务40的对象实例发生异常为止，对象实例用的计数值为0。

如图11的(b)所示，S221～S223与图11的(a)所示的处理相同。

在S223的处理之后，如果设备管理服务40的对象实例的Web应用程序的再次启动失败，则对象实例用的计数值不会被对象实例的复原处理模块设定为0。因此，在所述计数值被S143的处理设定为－1的随后的S144的处理中，即使从被对象实例的复原处理模块更新过的与对象实例相关联的时刻经过了20分钟，所述计数值也保持为－1(S241)。

如果设备管理服务40的对象实例的Web应用程序利用S145的处理被对象实例的复原处理模块再次启动后，在对象实例用的计数值保持为－1的状态下，从与设备管理服务40的对象实例相关联的时刻经过了20分钟(S185中为“是”)，则利用S187的处理，对象实例用的计数值被工作者服务50的任意实例的监视模块设定为－2(S242)，并且利用S189的处理，设备管理服务40的对象实例被所述监视模块请求再次启动。

如果设备管理服务40的对象实例的再次启动成功，则Web应用程序在对象实例的内部启动，所以利用S101的处理和S121的处理，对象实例用的计数值被对象实例的复原处理模块设定为0(S243)。在设备管理服务40的对象实例的再次启动成功的情况下，对象实例正常。

接下来，利用图11的(c)说明设备管理服务40的实例的Web应用程序的再次启动失败，且所述实例的再次启动也失败的情况。

如图11的(c)所示，S221～S223、S241～S242与图11的(b)所示的处理相同。

在S242的处理之后，如果设备管理服务40的对象实例的再次启动失败，则对象实例用的计数值不会被对象实例的复原处理模块设定为0。因此，在所述计数值被S187的处理设定为－2的随后的S188的处理中，即使从被工作者服务50的任意实例的监视模块更新过的与对象实例相关联的时刻经过了20分钟，所述计数值也保持为－2(S261)。

如果设备管理服务40的对象实例利用S189的处理被工作者服务50的任意实例的监视模块请求再次启动后，在对象实例用的计数值保持为－2的状态下，从与对象实例相关联的时刻经过了20分钟(S185中为“是”)，则利用S191的处理，通知用日志被工作者服务50的任意实例的监视模块存储于存储表63。如果存储表63中存储有通知用日志，则监视存储表63的监视系统70根据存储表63中存储的通知用日志，针对联系方式信息74b所示的联系方式，用电子邮件通知远程管理系统30针对对象实例的自主复原处理的失败。因此，由确认了所述电子邮件的人执行远程管理系统30的故障的复原处理。

接下来，利用图12的(a)说明设备管理服务40的实例的Web应用程序的再次启动尚未开始，而所述实例的再次启动成功的情况。

如图12的(a)所示，S221～S222与图11的(a)所示的处理相同。

可是，在设备管理服务40的对象实例发生故障的情况下，即使对象实例用的计数值达到5以上，也不会利用对象实例的复原处理模块将所述计数值设定为－1，或使对象实例的内部的Web应用程序再次启动。

因此，如果工作者服务50的任意实例的监视模块针对设备管理服务40的对象实例进行监视用的Web请求进一步连续5次发生503HTTP错误和/或超时，而合计连续发生10次，则利用合计10次的S207的处理，设备管理服务40的对象实例用的计数值被工作者服务50的这些实例的监视模块设定为10(S281)。

而后，如果设备管理服务40的对象实例用的计数值达到10以上(S206中为“是”)，则利用S209的处理，所述计数值被工作者服务50的任意实例的监视模块设定为－2(S282)，并且利用S211的处理，对象实例被所述监视模块请求再次启动。

如果设备管理服务40的对象实例的再次启动成功，则Web应用程序在对象实例的内部启动，所以利用S101的处理和S121的处理，对象实例用的计数值被对象实例的复原处理模块设定为0(S283)。在设备管理服务40的对象实例的再次启动成功的情况下，对象实例正常。

接下来，利用图12的(b)说明设备管理服务40的实例的Web应用程序的再次启动尚未开始，且所述实例的再次启动也失败的情况。

如图12的(b)所示，S221～S222、S281～S282与图12的(a)所示的处理相同。

在S282的处理之后，如果设备管理服务40的对象实例的再次启动失败，则对象实例用的计数值不会被对象实例的复原处理模块设定为0。因此，在所述计数值利用S209的处理而被设定为－2的随后的S210的处理中，即使从被工作者服务50的任意实例的监视模块更新过的与对象实例相关联的时刻经过了20分钟，所述计数值也保持为－2(S301)。

如果设备管理服务40的对象实例利用S211的处理被工作者服务50的任意实例的监视模块请求再次启动后，在对象实例用的计数值保持为－2的状态下，从与对象实例相关联的时刻经过了20分钟(S185中为“是”)，则利用S191的处理，通知用日志被工作者服务50的任意实例的监视模块存储于存储表63。如果在存储表63中存储有通知用日志，则监视存储表63的监视系统70根据存储表63中存储的通知用日志，针对联系方式信息74b所示的联系方式，用电子邮件通知远程管理系统30针对对象实例的自主复原处理的失败。因此，由确认了所述电子邮件的人执行远程管理系统30的故障的复原处理。

如上所述，设备管理服务40的各个实例从计数信息62a取得与实例自身的复原相关的处理的状况(S141)，并且在执行与实例自身的复原相关的处理的情况下，将所述处理的状况存储于计数信息62a(S101～S102、S121～S122、S143～S144)。此外，工作者服务50的各个实例从计数信息62a取得与设备管理服务40的实例的复原相关的处理的状况(S181、S184)，并且在执行与设备管理服务40的实例的复原相关的处理的情况下，将所述处理的状况存储于计数信息62a(S187～S188、S190、S204～S205、S207～S208、S209～S210)。按照所述构成，远程管理系统30利用设备管理服务40的实例自身和工作者服务50的实例来执行与设备管理服务40的实例的复原相关的处理，所以不需要与设备管理服务40对应的备用系统，可以控制运营成本。

工作者服务50的实例的监视模块将与设备管理服务40的实例的复原相关的处理的状况写入缓存服务62的计数信息62a，所述缓存服务62与工作者服务50和设备管理服务40均独立。因此，尽管设备管理服务40和工作者服务50分别构成为由多个实例冗余化，但是即使实例的数量变动，远程管理系统30也能够毫无问题地继续动作，可以实现适当的故障检测和适当的自主复原。

在远程管理系统30中，在计数信息62a示出了工作者服务50的实例针对设备管理服务40的实例的异常所监视的状况成为特定的状况的情况下(S142中为“是”)，设备管理服务40的实例再次启动设备管理服务40的实例自身的Web应用程序，作为与设备管理服务40的实例自身的复原相关的处理(S145)。按照所述构成，远程管理系统30根据工作者服务50的实例针对设备管理服务40的实例的异常所监视的状况，再次启动设备管理服务40的实例的Web应用程序，因此可以在适当的时机执行设备管理服务40的实例的Web应用程序的再次启动。

在远程管理系统30中，在从设备管理服务40的实例的Web应用程序的再次启动经过了特定的时间，计数信息62a仍未示出所述应用程序的再次启动已成功的情况下(S185中为“是”以及S186中为“否”)，工作者服务50的实例请求设备管理服务40的所述实例的再次启动(S189)。按照所述构成，在设备管理服务40的实例的Web应用程序的再次启动失败的情况下，远程管理系统30可以在适当的时机执行所述实例的再次启动。

在远程管理系统30中，在从设备管理服务40的实例的再次启动的请求经过了特定的时间，计数信息62a仍未示出所述实例的再次启动已成功的情况下(S185中为“是”以及S186中为“是”)，工作者服务50的实例执行用于通知自主复原处理失败的处理(S191)。按照所述构成，在设备管理服务40的实例的再次启动失败的情况下，远程管理系统30执行用于通知自主复原处理失败的处理，所以能够提高在适当的时机接受人工复原处理的可能性。

本发明的处理状况存储部在本实施方式中为缓存服务62，但是也可以是缓存服务以外的存储部。例如，本发明的处理状况存储部也可以是数据库和/或存储表。

Claims

1.一种信息处理系统，其特征在于，包括：

第一并行分布处理系统，具备多个实例，并且用所述多个实例执行并行分布处理；

第二并行分布处理系统，具备多个实例，并且用所述多个实例执行并行分布处理；以及

处理状况存储部，存储处理状况信息，所述处理状况信息针对所述第一并行分布处理系统的每个所述实例，示出与所述第一并行分布处理系统的所述实例的复原相关的处理的状况，

所述第一并行分布处理系统的各所述实例从所述处理状况信息取得与实例自身的复原相关的处理的状况，并且在执行与实例自身的复原相关的处理的情况下，将所述处理的状况存储于所述处理状况信息，

所述第二并行分布处理系统的各所述实例从所述处理状况信息取得与所述第一并行分布处理系统的所述实例的复原相关的处理的状况，并且在执行与所述第一并行分布处理系统的所述实例的复原相关的处理的情况下，将所述处理的状况存储于所述处理状况信息。

2.根据权利要求1所述的信息处理系统，其特征在于，在所述处理状况信息示出了所述第二并行分布处理系统的所述实例针对所述第一并行分布处理系统的所述实例的异常所监视的状况成为特定的状况的情况下，所述第一并行分布处理系统的所述实例再次启动所述第一并行分布处理系统的所述实例自身的应用程序，作为与所述第一并行分布处理系统的所述实例自身的复原相关的处理。

3.根据权利要求2所述的信息处理系统，其特征在于，在即使从所述第一并行分布处理系统的所述实例的所述应用程序的再次启动经过了特定的时间，所述处理状况信息也仍未示出所述应用程序的再次启动已成功的情况下，所述第二并行分布处理系统的所述实例请求所述第一并行分布处理系统的所述实例的再次启动。

4.根据权利要求3所述的信息处理系统，其特征在于，在即使从所述第一并行分布处理系统的所述实例的再次启动的请求经过了特定的时间，所述处理状况信息也仍未示出所述实例的再次启动已成功的情况下，所述第二并行分布处理系统的所述实例执行用于通知自主复原处理失败的处理。