JP2022144118A - Computer system and restart program - Google Patents

Computer system and restart program Download PDF

Info

Publication number
JP2022144118A
JP2022144118A JP2021044991A JP2021044991A JP2022144118A JP 2022144118 A JP2022144118 A JP 2022144118A JP 2021044991 A JP2021044991 A JP 2021044991A JP 2021044991 A JP2021044991 A JP 2021044991A JP 2022144118 A JP2022144118 A JP 2022144118A
Authority
JP
Japan
Prior art keywords
information
failure
management
fault
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021044991A
Other languages
Japanese (ja)
Inventor
拓也 近藤
Takuya Kondo
雅彦 齊藤
Masahiko Saito
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2021044991A priority Critical patent/JP2022144118A/en
Publication of JP2022144118A publication Critical patent/JP2022144118A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

To enable autonomous restoration of a failure.SOLUTION: A computer system includes: a first failure information storage part for storing first failure management information including information of a first failure that occurs in a first process group operating in a first group logically divided from a second group; a second failure information storage part for storing second failure management information obtained by registering second external failure information corresponding to the information of the first failure and information of an influence object of the first failure in the second group in association with each other; a first process management part for transmitting the information of the first failure to a first failure information communication part in the case of detecting the first failure; and a second process management part for restarting an influence object of the first failure corresponding to the second external failure information with reference to the second failure management information in the case that a second failure information communication part receives the information of the first failure.SELECTED DRAWING: Figure 1

Description

本開示は、計算機システムおよび再起動プログラムに関する。 The present disclosure relates to a computer system and a reboot program.

従来、計算機により実行されるプロセス、または、計算機上でハイパバイザの制御により動作する仮想マシンに障害が発生した場合に、それを検出してプロセス、または、仮想マシンを再起動させる技術がある。 2. Description of the Related Art Conventionally, when a process executed by a computer or a virtual machine running under the control of a hypervisor on a computer fails, there is a technique for detecting the failure and restarting the process or the virtual machine.

例えば、特許文献1には、異なる機能を提供する複数のプロセスに発生する障害を検出し、正常に稼働しているプロセスについては再起動せず、障害が発生したプロセスのみを再起動することにより、正常に稼働しているプロセスによる機能の提供が中断されることを防止する電子機器が開示されている。 For example, Patent Literature 1 discloses a system that detects failures that occur in multiple processes that provide different functions, does not restart normally running processes, and restarts only the failed process. , an electronic device that prevents a normally running process from interrupting the provision of functionality.

また、特許文献2には、リセット処理を行う仮想マシンの範囲を表すリセットレベルの入力をユーザから受け付け、そのリセットレベルに対応する仮想マシンをリセットする計算機装置が開示されている。 Further, Patent Literature 2 discloses a computer device that accepts input from a user of a reset level representing a range of virtual machines to be reset, and resets the virtual machines corresponding to the reset level.

特開2016-207124号公報JP 2016-207124 A 特開2012-18452号公報JP 2012-18452 A

しかしながら、上述した特許文献1に開示される従来技術では、プロセスが他のプロセスに依存している場合に、その依存関係を考慮しないため、あるプロセスに障害が発生した場合にそのプロセスだけでなく、そのプロセスに依存する別のプロセスも再起動したいという要求に応えることができない。 However, in the conventional technology disclosed in the above-mentioned Patent Document 1, if a process depends on other processes, the dependency is not taken into account. , the request to restart another process that depends on that process cannot be fulfilled.

また、特許文献2に開示される従来技術では、リセットレベルごとに、リセット処理を行う仮想マシンの範囲を、仮想マシン間の依存関係を考慮して決定することができるものの、どのリセットレベルの再起動を行うかをユーザが判断する必要があるため、障害からの復旧を自律的に行うことができないという課題があった。 Further, in the conventional technology disclosed in Patent Document 2, although the range of virtual machines to be reset can be determined for each reset level in consideration of the dependency relationship between the virtual machines, it is possible to determine which reset level to reset. Since it is necessary for the user to decide whether or not to start the system, there is a problem that recovery from a failure cannot be performed autonomously.

本開示の目的は、自律的な障害からの復旧を可能とする計算機システムおよび再起動プログラムを提供することである。 An object of the present disclosure is to provide a computer system and a restart program that enable recovery from autonomous failures.

本開示に係る計算機システムは、論理的に第2のグループと区分された第1のグループで動作する第1のプロセス群において発生する第1の障害の情報を含む第1の障害管理情報を記憶する第1の障害情報記憶部と、第1の障害の情報に対応する第2の外部障害情報と、第2のグループにおける第1の障害の影響対象の情報とを対応付けて登録した第2の障害管理情報を記憶する第2の障害情報記憶部と、第1の障害を検出した場合に、第1の障害の情報を第1の障害情報通信部に送信させる第1のプロセス管理部と、第1の障害の情報を第2の障害情報通信部が受信した場合に、第2の障害管理情報を参照し、第2の外部障害情報に対応する第1の障害の影響対象を再起動する第2のプロセス管理部と、を備える。 A computer system according to the present disclosure stores first failure management information including information about a first failure occurring in a first process group operating in a first group logically separated from a second group. a first failure information storage unit, a second external failure information corresponding to the information of the first failure, and the information of the target affected by the first failure in the second group are registered in association with each other. a second failure information storage unit for storing failure management information of the first failure, and a first process management unit for transmitting information of the first failure to the first failure information communication unit when the first failure is detected; , when the second fault information communication unit receives the information of the first fault, referring to the second fault management information and restarting the target affected by the first fault corresponding to the second external fault information. and a second process management unit.

本開示に係る再起動プログラムは、論理的に第2のグループと区分された第1のグループで動作する第1のプロセス群において発生する第1の障害を検出した場合に、第1の障害の情報を含む第1の障害管理情報を記憶した第1の障害情報記憶部から第1の障害の情報を読み出して第1の障害情報通信部に送信させる手順と、第1の障害の情報を受信した第2の障害情報通信部から第1の障害の情報を取得し、第1の障害の情報に対応する第2の外部障害情報と、第2のグループにおける第1の障害の影響対象の情報とを対応付けて登録した第2の障害管理情報を記憶する第2の障害情報記憶部から第2の障害管理情報を読み出して第1の障害の情報に対応する第2の外部障害情報を特定し、特定した第2の外部障害情報に対応する第1の障害の影響対象を再起動する手順と、をコンピュータに実行させる。 When a restart program according to the present disclosure detects a first failure occurring in a first process group operating in a first group logically separated from a second group, a procedure for reading first failure information from a first failure information storage unit storing first failure management information including information and transmitting the information to a first failure information communication unit; and receiving the first failure information. information of the first failure from the second failure information communication unit, second external failure information corresponding to the information of the first failure, and information of the target affected by the first failure in the second group The second failure management information is read from the second failure information storage unit that stores the second failure management information registered in association with the second failure management information, and the second external failure information corresponding to the first failure information is specified. and restarting the affected target of the first failure corresponding to the identified second external failure information.

本開示によれば、自律的な障害からの復旧が可能となる。 According to the present disclosure, recovery from autonomous failures is possible.

実施の形態1に係る計算機システムの構成の一例を示す図A diagram showing an example of a configuration of a computer system according to Embodiment 1 障害管理情報23aの一例を示す図A diagram showing an example of failure management information 23a 障害管理情報33aの一例を示す図A diagram showing an example of failure management information 33a 第1のVM20が行う再起動処理の処理手順の一例を示すフローチャートFlowchart showing an example of a procedure of restart processing performed by the first VM 20 第2のVM30が行う再起動処理の処理手順の一例を示すフローチャートFlowchart showing an example of a procedure of restart processing performed by the second VM 30 実施の形態2に係る計算機システムの構成の一例を示す図A diagram showing an example of the configuration of a computer system according to Embodiment 2 障害管理情報43aの一例を示す図A diagram showing an example of failure management information 43a 障害管理情報53aの一例を示す図A diagram showing an example of failure management information 53a 障害管理情報63aの一例を示す図A diagram showing an example of failure management information 63a 実施の形態3に係る計算機システムの構成の一例を示す図A diagram showing an example of the configuration of a computer system according to Embodiment 3 障害管理情報72aの一例を示す図A diagram showing an example of failure management information 72a 障害管理情報84aの一例を示す図A diagram showing an example of failure management information 84a 障害管理情報94aの一例を示す図A diagram showing an example of failure management information 94a 障害管理情報105aの一例を示す図A diagram showing an example of the failure management information 105a 障害管理情報113aの一例を示す図A diagram showing an example of the fault management information 113a ハイパバイザ70が行う再起動処理の処理手順の一例を示すフローチャート3 is a flow chart showing an example of a procedure of restart processing performed by the hypervisor 70;

以下、本開示の実施の形態を図面に基づいて詳細に説明する。 Hereinafter, embodiments of the present disclosure will be described in detail based on the drawings.

(実施の形態1)
図1は、実施の形態1に係る計算機システムの構成の一例を示す図である。
(Embodiment 1)
FIG. 1 is a diagram showing an example of the configuration of a computer system according to Embodiment 1. As shown in FIG.

図1に示すように、計算機システムは、ハイパバイザ(Hypervisor)10、第1のVM(Virtual Machine、仮想マシン)20、第2のVM30を備える。 As shown in FIG. 1, the computer system includes a hypervisor 10, a first VM (Virtual Machine, virtual machine) 20, and a second VM 30. FIG.

ハイパバイザ10は、1つの計算機を第1のVM20と第2のVM30とに論理的に分割し、2つの独立した仮想マシンとして動作させる制御部である。第1のVM20および第2のVM30は、このようにして生成された仮想マシンである。 The hypervisor 10 is a control unit that logically divides one computer into a first VM 20 and a second VM 30 and operates them as two independent virtual machines. The first VM 20 and the second VM 30 are virtual machines generated in this way.

なお、ここではハイパバイザ10上で動作する仮想マシンの数が2であることとしたが、2以上であってもよい。 Although the number of virtual machines operating on the hypervisor 10 is assumed to be two here, the number may be two or more.

プロセス21a~21nを含むプロセス群が実行される第1のVM20は、プロセス監視部22、障害情報記憶部23、障害情報通信部24、および、プロセス管理部25を備える。プロセス監視部22、障害情報通信部24、および、プロセス管理部25は、それぞれ個別のプロセスとして実装されても良いが、それぞれの役割を備えた単一のプロセスとして実装されても良い。 A first VM 20 on which a process group including processes 21 a to 21 n is executed includes a process monitoring section 22 , a failure information storage section 23 , a failure information communication section 24 and a process management section 25 . The process monitoring unit 22, the fault information communication unit 24, and the process management unit 25 may be implemented as individual processes, or may be implemented as a single process having their respective roles.

プロセス監視部22、障害情報通信部24、および、プロセス管理部25の機能は、プロセッサにより実現される。また、障害情報記憶部23の機能は、メモリなどの記憶装置により実現される。 Functions of the process monitoring unit 22, the fault information communication unit 24, and the process management unit 25 are realized by the processor. Also, the function of the fault information storage unit 23 is implemented by a storage device such as a memory.

プロセス監視部22は、プロセス21a~21nを含むプロセス群で発生する障害を監視する。例えば、プロセス監視部22は、プロセス21a~21nに対してハートビートメッセージを送信し、応答がないプロセスを、後述するプロセス管理部25に通知する。これにより、動作が停止したり、無限ループに陥っていたりするプロセスの検出が可能となる。 The process monitoring unit 22 monitors faults occurring in a process group including the processes 21a to 21n. For example, the process monitoring unit 22 transmits heartbeat messages to the processes 21a to 21n, and notifies the process management unit 25, which will be described later, of the processes that do not respond. This makes it possible to detect processes that have stopped working or are stuck in an infinite loop.

障害情報記憶部23は、プロセス21a~21nを含むプロセス群において発生する障害の情報と、当該障害の影響対象の情報とを対応付けて登録した障害管理情報23aを記憶する。 The failure information storage unit 23 stores failure management information 23a in which information about failures that occur in a process group including the processes 21a to 21n and information about targets affected by the failures are associated and registered.

図2は、障害管理情報23aの一例を示す図である。障害管理情報23aは、プロセス情報、障害情報、影響対象情報を含む。 FIG. 2 is a diagram showing an example of the fault management information 23a. The fault management information 23a includes process information, fault information, and affected target information.

プロセス情報は、第1のVM20において実行されるプロセスの識別情報、および、第1のVM20の外部において実行されるプロセスであることを示す情報を含む。なお、図2の例では、後者の情報は登録されていない。障害情報は、それらのプロセスの障害の情報である。影響対象情報は、当該障害が発生した場合に影響を受ける対象の情報である。 The process information includes identification information of the process executed in the first VM 20 and information indicating that the process is executed outside the first VM 20 . In addition, in the example of FIG. 2, the latter information is not registered. The failure information is information about failures of those processes. The affected target information is information about the target that will be affected when the failure occurs.

障害情報における「TARGET」は、障害が仮想マシン(VM)、コンテナ、プロセスのどれに発生したかを示す情報である。「VM」は、障害は発生した仮想マシンを示す識別情報である。「PROC」は、障害が発生したプロセスを示す識別情報である。 "TARGET" in the fault information is information indicating whether the fault occurred in a virtual machine (VM), container, or process. "VM" is identification information indicating the virtual machine in which the failure occurred. "PROC" is identification information indicating the process in which the failure occurred.

例えば、「PROCESS12」というプロセス情報には、「TARGET:PROC,VM:1,PROC:PROCESS12」という障害情報、および、「PROCESS13」という影響対象情報が対応付けて登録されている。 For example, process information "PROCESS12" is registered in association with failure information "TARGET:PROC, VM:1, PROC:PROCESS12" and affected target information "PROCESS13".

これは、第1のVM20における「PROCESS12」というプロセスに障害が発生した場合、その障害の発生により「PROCESS13」というプロセスを再起動する必要があることを示している。 This indicates that when a failure occurs in the process "PROCESS12" in the first VM 20, the process "PROCESS13" must be restarted due to the occurrence of the failure.

また、「PROCESS13」というプロセス情報には、「TARGET:PROC,VM:1,PROC:PROCESS13」という障害情報が対応付けて登録されている。 Further, process information "PROCESS13" is registered in association with failure information "TARGET: PROC, VM: 1, PROC: PROCESS13".

この障害情報は、第1のVM20において障害が発生するプロセスが「PROCESS13」であることを示している。なお、「PROCESS13」というプロセスには、影響対象情報が登録されていないので、「PROCESS13」というプロセスに障害が発生した場合に再起動する必要がある対象はない。 This fault information indicates that the process in which the fault occurs in the first VM 20 is "PROCESS13". It should be noted that no affected target information is registered for the process "PROCESS13", so there is no target that needs to be restarted when a failure occurs in the process "PROCESS13".

図1の説明に戻ると、障害情報通信部24は、第2のVM30の障害情報通信部34と通信を行う。 Returning to the description of FIG. 1 , the failure information communication unit 24 communicates with the failure information communication unit 34 of the second VM 30 .

例えば、障害情報通信部24は、第1のVM20におけるプロセス21a~21nに障害が発生した場合に、障害が発生したプロセスに対応する図2に示した障害情報を第2のVM30に送信する。また、障害情報通信部24は、障害情報通信部34から送信される障害情報を受信する。 For example, when a failure occurs in the processes 21a to 21n in the first VM 20, the failure information communication unit 24 transmits the failure information shown in FIG. The failure information communication unit 24 also receives failure information transmitted from the failure information communication unit 34 .

プロセス管理部25は、第1のVM20におけるプロセス21a~21nを管理する。例えば、プロセス管理部25は、プロセス監視部22からの通知により、プロセス21a~21nに障害が発生したことを検出する。また、プロセス管理部25は、プロセス21a~21nからの障害メッセージを受信することによりプロセス21a~21nに障害が発生したことを検出する。 The process management unit 25 manages the processes 21a to 21n in the first VM20. For example, the process management unit 25 detects from the notification from the process monitoring unit 22 that a failure has occurred in the processes 21a to 21n. Also, the process management unit 25 detects that a failure has occurred in the processes 21a to 21n by receiving failure messages from the processes 21a to 21n.

そして、プロセス管理部25は、障害管理情報23aを参照し、障害が発生したプロセスに対応付けて登録されている障害情報および影響対象情報を取得する。 Then, the process management unit 25 refers to the failure management information 23a and acquires the failure information and the affected target information registered in association with the process in which the failure occurred.

例えば、図2の例において、障害を検出したプロセスが「PROCESS12」である場合、プロセス管理部25は、「TARGET:PROC,VM:1,PROC:PROCESS12」という障害情報、および、「PROCESS13」という影響対象情報を取得する。 For example, in the example of FIG. 2, if the process that detected the failure is "PROCESS12", the process management unit 25 outputs the failure information "TARGET: PROC, VM: 1, PROC: PROCESS12" and the failure information "PROCESS13". Get affected information.

その後、プロセス管理部25は、「PROCESS12」のプロセスのように、障害情報が登録されている場合、その障害情報を他のVMである第2のVM30に送信するよう障害情報通信部24に指示する。 Thereafter, the process management unit 25 instructs the failure information communication unit 24 to transmit the failure information to the second VM 30, which is another VM, when failure information is registered like the process "PROCESS12". do.

また、プロセス管理部25は、「PROCESS12」のプロセスのように、影響対象情報が登録されている場合、登録されている影響対象を再起動する。さらに、プロセス管理部25は、障害が発生したプロセスを再起動する。 In addition, the process management unit 25 restarts the registered affected object when the affected object information is registered like the process of "PROCESS12". Furthermore, the process management unit 25 restarts the failed process.

また、図2に示す「PROCESS12」のプロセスのように、影響対象情報として「PROCESS13」が登録されている場合、プロセス管理部25は、「PROCESS13」のプロセスに対応する障害情報も他のVMである第2のVM30に送信するよう障害情報通信部24に指示する。 Further, when "PROCESS13" is registered as the affected target information like the process "PROCESS12" shown in FIG. The failure information communication unit 24 is instructed to transmit to a certain second VM 30 .

なお、「PROCESS13」のプロセスに対応する影響対象情報は登録されていないため、プロセス管理部25はプロセスの再起動を行わない。 In addition, since the affected object information corresponding to the process of "PROCESS13" is not registered, the process management unit 25 does not restart the process.

さらに、プロセス管理部25は、障害情報通信部24が他のVMである第2のVM30から障害情報を受信した場合に、その障害情報を取得し、その障害情報が障害管理情報23aに含まれる障害情報に対応するものであるか否かを判定する。 Furthermore, when the failure information communication unit 24 receives failure information from the second VM 30, which is another VM, the process management unit 25 acquires the failure information, and the failure information is included in the failure management information 23a. It is determined whether or not it corresponds to the failure information.

そして、プロセス管理部25は、その障害情報が障害管理情報23aに含まれる障害情報に対応するものである場合、その障害情報に対応する影響対象情報が登録されているか否かを判定する。 Then, when the failure information corresponds to the failure information included in the failure management information 23a, the process management unit 25 determines whether or not the affected information corresponding to the failure information is registered.

その障害情報に対応する影響対象情報が登録されている場合、プロセス管理部25は、登録されている影響対象を再起動する。 If affected target information corresponding to the fault information is registered, the process management unit 25 restarts the registered affected target.

また、プロセス31a~31mを含むプロセス群が実行される第2のVM30は、プロセス監視部32、障害情報記憶部33、障害情報通信部34、および、プロセス管理部35を備える。プロセス監視部32、障害情報通信部34、および、プロセス管理部35は、それぞれ個別のプロセスとして実装されても良いが、それぞれの役割を備えた単一のプロセスとして実装されても良い。 The second VM 30 on which a process group including the processes 31a to 31m is executed includes a process monitoring section 32, a failure information storage section 33, a failure information communication section 34, and a process management section . The process monitoring unit 32, the fault information communication unit 34, and the process management unit 35 may be implemented as individual processes, or may be implemented as a single process having their respective roles.

プロセス監視部32、障害情報通信部34、および、プロセス管理部35の機能は、プロセッサにより実現される。また、障害情報記憶部33の機能は、メモリなどの記憶装置により実現される。 Functions of the process monitoring unit 32, the fault information communication unit 34, and the process management unit 35 are realized by the processor. Also, the function of the failure information storage unit 33 is implemented by a storage device such as a memory.

プロセス監視部32は、プロセス31a~31mを含むプロセス群で発生する障害を監視する。例えば、プロセス監視部32は、プロセス31a~31mに対してハートビートメッセージを送信し、応答がないプロセスを、後述するプロセス管理部35に通知する。 The process monitoring unit 32 monitors failures occurring in a process group including the processes 31a to 31m. For example, the process monitoring unit 32 sends heartbeat messages to the processes 31a to 31m, and notifies the process management unit 35, which will be described later, of the processes that do not respond.

障害情報記憶部33は、プロセス31a~31mを含むプロセス群において発生する障害の情報と、当該障害の影響対象の情報とを対応付けて登録した障害管理情報33aを記憶する。 The failure information storage unit 33 stores failure management information 33a in which information about failures that occur in a process group including the processes 31a to 31m and information about targets affected by the failures are associated and registered.

図3は、障害管理情報33aの一例を示す図である。障害管理情報33aは、プロセス情報、障害情報、影響対象情報を含む。 FIG. 3 is a diagram showing an example of the fault management information 33a. The fault management information 33a includes process information, fault information, and affected target information.

プロセス情報は、第2のVM30において実行されるプロセスの識別情報、および、第2のVM30の外部において実行されるプロセスであることを示す情報を含む。障害情報は、それらのプロセスの障害の情報ある。影響対象情報は、当該障害が発生した場合に影響を受ける対象の情報である。 The process information includes identification information of the process executed in the second VM 30 and information indicating that the process is executed outside the second VM 30 . The failure information is information on failures of those processes. The affected target information is information about the target that will be affected when the failure occurs.

障害情報における「TARGET」、「VM」、および、「PROC」は、図2に示した障害管理情報33aの障害情報における「TARGET」、「VM」、および、「PROC」と同様の情報である。 "TARGET", "VM" and "PROC" in the failure information are the same information as "TARGET", "VM" and "PROC" in the failure information of the failure management information 33a shown in FIG. .

ここで、「EXTERNAL_ERROR」というプロセス情報には、「TARGET:PROC,VM:1,PROC:PROCESS12」という障害情報(外部障害情報)、および、「PROCESS22,PROCESS23」という影響対象情報が対応付けて登録されている。 Here, the process information "EXTERNAL_ERROR" is registered in association with the failure information (external failure information) "TARGET: PROC, VM: 1, PROC: PROCESS12" and the affected information "PROCESS22, PROCESS23". It is

これは、第1のVM20における「PROCESS12」というプロセスに障害が発生した場合、その障害の発生により「PROCESS22」、「PROCESS23」というプロセスを再起動する必要があることを示している。 This indicates that when a failure occurs in the process "PROCESS12" in the first VM 20, it is necessary to restart the processes "PROCESS22" and "PROCESS23" due to the occurrence of the failure.

図1の説明に戻ると、障害情報通信部34は、第1のVM20の障害情報通信部24と通信を行う。 Returning to the description of FIG. 1 , the failure information communication unit 34 communicates with the failure information communication unit 24 of the first VM 20 .

例えば、障害情報通信部34は、第2のVM30におけるプロセス31a~31mに障害が発生した場合に、障害が発生したプロセスに対応する図3に示した障害情報を第1のVM20に送信する。また、障害情報通信部34は、障害情報通信部24から送信される障害情報を受信する。 For example, when a failure occurs in the processes 31a to 31m in the second VM 30, the failure information communication unit 34 transmits the failure information shown in FIG. Further, the failure information communication section 34 receives failure information transmitted from the failure information communication section 24 .

プロセス管理部35は、第2のVM30におけるプロセス31a~31mを管理する。例えば、プロセス管理部35は、プロセス監視部32からの通知により、プロセス31a~31mに障害が発生したことを検出する。また、プロセス管理部35は、プロセス31a~31mからの障害メッセージを受信することによりプロセス31a~31mに障害が発生したことを検出する。 The process management unit 35 manages the processes 31a-31m in the second VM30. For example, the process management unit 35 detects from the notification from the process monitoring unit 32 that a failure has occurred in the processes 31a to 31m. Also, the process management unit 35 detects that a failure has occurred in the processes 31a to 31m by receiving failure messages from the processes 31a to 31m.

そして、プロセス管理部35は、障害管理情報33aを参照し、障害が発生したプロセスに対応付けて登録されている障害情報および影響対象情報を取得する。 Then, the process management unit 35 refers to the failure management information 33a, and acquires failure information and affected target information registered in association with the process in which the failure occurred.

例えば、図3の例において、障害が発生したプロセスが「PROCESS22」である場合、プロセス管理部35は、「TARGET:PROC,VM:2,PROC:PROCESS22」という障害情報、および、「PROCESS23」という影響対象情報を取得する。 For example, in the example of FIG. 3, if the process in which the failure occurred is "PROCESS22", the process management unit 35 outputs the failure information "TARGET: PROC, VM: 2, PROC: PROCESS22" and the failure information "PROCESS23". Get affected information.

その後、プロセス管理部35は、「PROCESS22」のプロセスのように、障害情報が登録されている場合、その障害情報を他のVMである第1のVM20に送信するよう障害情報通信部34に指示する。 After that, the process management unit 35 instructs the failure information communication unit 34 to transmit the failure information to the first VM 20, which is another VM, when failure information is registered like the process "PROCESS22". do.

また、プロセス管理部35は、「PROCESS22」のプロセスのように、影響対象情報が登録されている場合、登録されている影響対象を再起動する。さらに、プロセス管理部25は、障害が発生したプロセスを再起動する。 In addition, the process management unit 35 restarts the registered affected object when the affected object information is registered like the process of "PROCESS22". Furthermore, the process management unit 25 restarts the failed process.

なお、図3の例では、「PROCESS23」のプロセスに対応する障害情報は登録されていないため、障害情報の第1のVM20への送信処理は行われない。障害が発生しても他へ影響しないプロセスの場合、障害情報を登録しないことで不必要な障害情報の送信処理の抑止が可能となる。また、「PROCESS23」のプロセスに対応する影響対象情報も登録されていないため、プロセス管理部35はプロセスの再起動を行わない。 In the example of FIG. 3, since the failure information corresponding to the process "PROCESS23" is not registered, the process of transmitting the failure information to the first VM 20 is not performed. In the case of a process that does not affect others even if a failure occurs, it is possible to suppress unnecessary failure information transmission processing by not registering failure information. In addition, since the affected object information corresponding to the process "PROCESS23" is not registered, the process management unit 35 does not restart the process.

さらに、プロセス管理部35は、障害情報通信部34が他のVMである第1のVM20から障害情報を受信した場合に、その障害情報を取得し、その障害情報が障害管理情報33aに含まれる障害情報に対応するものであるか否かを判定する。 Further, when the failure information communication unit 34 receives failure information from the first VM 20, which is another VM, the process management unit 35 acquires the failure information, and the failure information is included in the failure management information 33a. It is determined whether or not it corresponds to the fault information.

そして、プロセス管理部35は、その障害情報が障害管理情報33aに含まれる障害情報に対応するものである場合、その障害情報に対応する影響対象情報が登録されているか否かを判定する。 Then, when the failure information corresponds to the failure information included in the failure management information 33a, the process management unit 35 determines whether or not the affected information corresponding to the failure information is registered.

その障害情報に対応する影響対象情報が登録されている場合、プロセス管理部35は、登録されている影響対象を再起動する。 If affected target information corresponding to the fault information is registered, the process management unit 35 restarts the registered affected target.

例えば、障害情報通信部34が第1のVM20から、障害情報として「TARGET:PROC,VM:1,PROC:PROCESS12」という情報を受信したものとする。 For example, it is assumed that the failure information communication unit 34 has received information "TARGET: PROC, VM: 1, PROC: PROCESS 12" from the first VM 20 as failure information.

この場合、この障害情報は、図3に示した障害管理情報33aの「EXTERNAL_ERROR」の障害情報に対応するため、プロセス管理部35は、登録されている影響対象である「PROCESS22」、「PROCESS23」のプロセスを再起動する。 In this case, this fault information corresponds to the fault information of "EXTERNAL_ERROR" of the fault management information 33a shown in FIG. process.

ここで、「PROCESS22」には、障害情報および影響対象情報が登録されているので、プロセス管理部35は、その障害情報を第1のVM20に送信するよう障害情報通信部34に指示するとともに、影響対象情報として登録されている「PROCESS23」のプロセスを再起動する。 Here, since the failure information and the affected information are registered in "PROCESS22", the process management unit 35 instructs the failure information communication unit 34 to transmit the failure information to the first VM 20, Restart the process of "PROCESS23" registered as the affected information.

なお、「PROCESS23」のプロセスに対応する障害情報は登録されていないため、障害情報の第1のVM20への送信処理は行われない。また、「PROCESS23」のプロセスに対応する影響対象情報も登録されていないため、プロセス管理部35はプロセスの再起動は行わない。 Since the failure information corresponding to the process of "PROCESS23" is not registered, the process of transmitting the failure information to the first VM 20 is not performed. In addition, since the affected object information corresponding to the process "PROCESS23" is not registered, the process management unit 35 does not restart the process.

つぎに、第1のVM20が行う再起動処理の処理手順の一例について説明する。図4は、第1のVM20が行う再起動処理の処理手順の一例を示すフローチャートである。 Next, an example of the procedure of restart processing performed by the first VM 20 will be described. FIG. 4 is a flowchart illustrating an example of a procedure of restart processing performed by the first VM 20 .

図4に示すように、プロセス管理部25は、プロセス監視部22からの通知により、または、プロセス21a~21nから受信する障害メッセージにより、プロセス21a~21nに障害が発生したことを検出する(ステップS101)。 As shown in FIG. 4, the process management unit 25 detects that a failure has occurred in the processes 21a to 21n from a notification from the process monitoring unit 22 or from a failure message received from the processes 21a to 21n (step S101).

続いて、プロセス管理部25は、障害管理情報23aを参照し、障害が発生したプロセスの情報をもとに、そのプロセスに対応する障害情報と影響対象情報とを障害管理情報23aから取得する処理を行う(ステップS102)。 Next, the process management unit 25 refers to the fault management information 23a, and based on the information of the process in which the fault occurred, acquires the fault information and the affected object information corresponding to the process from the fault management information 23a. (step S102).

そして、プロセス管理部25は、障害管理情報23aにそのプロセスに対応する障害情報が登録されていたか否かを判定する(ステップS103)。 Then, the process management unit 25 determines whether fault information corresponding to the process is registered in the fault management information 23a (step S103).

障害管理情報23aにそのプロセスに対応する障害情報が登録されていた場合(ステップS103においてYesの場合)、プロセス管理部25は、障害情報通信部24に指示して、その障害情報を他のVMである第2のVM30に送信させる(ステップS104)。 If failure information corresponding to the process is registered in the failure management information 23a (Yes in step S103), the process management unit 25 instructs the failure information communication unit 24 to transmit the failure information to another VM. is transmitted to the second VM 30 (step S104).

その後、プロセス管理部25は、障害管理情報23aにそのプロセスに対応する影響対象情報が登録されていたか否かを判定する(ステップS105)。 After that, the process management unit 25 determines whether or not influence target information corresponding to the process is registered in the failure management information 23a (step S105).

障害管理情報23aにそのプロセスに対応する影響対象情報が登録されていた場合(ステップS105においてYesの場合)、プロセス管理部25は、その影響対象情報に登録されている影響対象を再起動する(ステップS106)。 If the affected object information corresponding to the process is registered in the fault management information 23a (Yes in step S105), the process management unit 25 restarts the affected object registered in the affected object information ( step S106).

なお、プロセス管理部25は、障害管理情報23aにおいて、再起動される影響対象のプロセスに対応する障害情報が登録されている場合には、障害情報通信部24に指示して、その障害情報を第2のVM30に送信させ、そのプロセスに対応する影響対象情報が登録されていた場合には、その影響対象情報に登録されている影響対象を再起動する。 If fault information corresponding to the affected process to be restarted is registered in the fault management information 23a, the process management unit 25 instructs the fault information communication unit 24 to transmit the fault information. If it is sent to the second VM 30 and the affected object information corresponding to the process is registered, the affected object registered in the affected object information is restarted.

さらに、プロセス管理部25は、障害の発生が検出されたプロセスを再起動し(ステップS107)、この再起動処理を終了する。 Furthermore, the process management unit 25 restarts the process in which the occurrence of the failure has been detected (step S107), and terminates this restart processing.

また、ステップS103において、障害管理情報23aにそのプロセスに対応する障害情報が登録されていなかった場合(ステップS103においてNoの場合)、または、ステップS105において、障害管理情報23aにそのプロセスに対応する影響対象情報が登録されていなかった場合(ステップS105においてNoの場合)、プロセス管理部25は、障害の発生が検出されたプロセスを再起動し(ステップS107)、この再起動処理を終了する。 In step S103, if the failure information corresponding to the process is not registered in the failure management information 23a (No in step S103), or if the failure management information 23a corresponds to the process in step S105, If the affected target information is not registered (No in step S105), the process management unit 25 restarts the process in which the occurrence of the failure is detected (step S107), and terminates this restart processing.

つぎに、第2のVM30が行う再起動処理の処理手順の一例について説明する。図5は、第2のVM30が行う再起動処理の処理手順の一例を示すフローチャートである。 Next, an example of the procedure of restart processing performed by the second VM 30 will be described. FIG. 5 is a flowchart illustrating an example of a procedure of restart processing performed by the second VM 30. As illustrated in FIG.

図5に示すように、第2のVM30の障害情報通信部34は、第1のVM20の障害情報通信部24により送信された障害情報を受信する(ステップS201)。 As shown in FIG. 5, the failure information communication unit 34 of the second VM 30 receives failure information transmitted by the failure information communication unit 24 of the first VM 20 (step S201).

そして、プロセス管理部35は、障害情報通信部34から障害情報を取得するとともに、障害管理情報33aを参照し、その障害情報に対応する障害情報と影響対象情報とを障害管理情報33aから取得する処理を行う(ステップS202)。 Then, the process management unit 35 acquires the failure information from the failure information communication unit 34, refers to the failure management information 33a, and acquires the failure information and the affected information corresponding to the failure information from the failure management information 33a. Processing is performed (step S202).

そして、プロセス管理部35は、障害管理情報33aに、障害情報通信部34から取得した障害情報に対応する障害情報が登録されていたか否かを判定する(ステップS203)。 Then, the process management unit 35 determines whether fault information corresponding to the fault information acquired from the fault information communication unit 34 is registered in the fault management information 33a (step S203).

障害管理情報33aに障害情報通信部34から取得した障害情報に対応する障害情報が登録されていた場合(ステップS203においてYesの場合)、プロセス管理部35は、障害情報通信部34に指示して、その障害情報を他のVMである第1のVM20に送信させる(ステップS204)。 If failure information corresponding to the failure information acquired from the failure information communication unit 34 is registered in the failure management information 33a (Yes in step S203), the process management unit 35 instructs the failure information communication unit 34 to , the failure information is transmitted to the first VM 20, which is another VM (step S204).

その後、プロセス管理部35は、障害管理情報33aに障害情報通信部34から取得した障害情報に対応する影響対象情報が登録されていたか否かを判定する(ステップS205)。 After that, the process management unit 35 determines whether or not affected information corresponding to the failure information acquired from the failure information communication unit 34 is registered in the failure management information 33a (step S205).

障害管理情報33aに障害情報通信部34から取得した障害情報に対応する影響対象情報が登録されていた場合(ステップS205においてYesの場合)、プロセス管理部35は、その影響対象情報に登録されている影響対象を再起動し、この再起動処理を終了する(ステップS206)。 If the affected information corresponding to the failure information acquired from the failure information communication unit 34 is registered in the failure management information 33a (Yes in step S205), the process management unit 35 registers the affected information registered in the affected information. restarts the affected target, and terminates the restart processing (step S206).

なお、プロセス管理部35は、障害管理情報33aにおいて、再起動される影響対象のプロセスに対応する障害情報が登録されている場合には、障害情報通信部34に指示して、その障害情報を第1のVM20に送信させ、そのプロセスに対応する影響対象情報が登録されていた場合には、その影響対象情報に登録されている影響対象を再起動する。 If the failure management information 33a registers failure information corresponding to the affected process to be restarted, the process management unit 35 instructs the failure information communication unit 34 to transmit the failure information. If it is sent to the first VM 20 and the affected object information corresponding to the process is registered, the affected object registered in the affected object information is restarted.

また、ステップS203において、障害管理情報33aに障害情報通信部34から取得した障害情報に対応する障害情報が登録されていなかった場合(ステップS203においてNoの場合)、または、ステップS205において、障害管理情報33aに障害情報通信部34から取得した障害情報に対応する影響対象情報が登録されていなかった場合(ステップS205においてNoの場合)、そのままこの再起動処理は終了する。 Further, in step S203, if failure information corresponding to the failure information acquired from the failure information communication unit 34 is not registered in the failure management information 33a (No in step S203), or in step S205, failure management If the affected target information corresponding to the failure information acquired from the failure information communication unit 34 is not registered in the information 33a (No in step S205), this restart processing ends.

このように、実施の形態1では、第1のVM20の障害情報記憶部23が、論理的に第2のVM30と区分された第1のVM20で動作するプロセス21a~21nにおいて発生する第1の障害の情報を含む障害管理情報23aを記憶し、第2のVM30の障害情報記憶部33が、第1の障害の情報に対応する第2の障害情報(外部障害情報)と、第2のVM30における上記第1の障害の影響対象の情報とを対応付けて登録した障害管理情報33aを記憶し、第1のVM20のプロセス管理部25が、上記第1の障害を検出した場合に、第1の障害の情報を障害情報通信部24に送信させ、第1の障害の情報を第2のVM30の障害情報通信部34が受信した場合に、プロセス管理部35が、障害管理情報33aを参照し、上記第2の障害情報(外部障害情報)に対応する第1の障害の影響対象を再起動することとした。 Thus, in Embodiment 1, the failure information storage unit 23 of the first VM 20 stores the first error generated in the processes 21a to 21n operating in the first VM 20 logically separated from the second VM 30. The failure management information 23a including failure information is stored, and the failure information storage unit 33 of the second VM 30 stores second failure information (external failure information) corresponding to the first failure information, The failure management information 33a registered in association with the information on the affected target of the first failure in the first failure is stored, and when the process management unit 25 of the first VM 20 detects the first failure, failure information is transmitted to the failure information communication unit 24, and when the failure information communication unit 34 of the second VM 30 receives the first failure information, the process management unit 35 refers to the failure management information 33a. , the target affected by the first failure corresponding to the second failure information (external failure information) is restarted.

これにより、プロセス間の依存関係を考慮して、障害からの復旧を自律的に行うことができる。 As a result, it is possible to autonomously recover from failures by considering inter-process dependencies.

また、実施の形態1では、第1のVM20のプロセス監視部22が、プロセス21a~21nのハートビートを監視し、ハートビートの監視結果の情報をプロセス管理部25に通知し、プロセス管理部25が、プロセス監視部22による通知に基づいて、プロセス21a~21nの障害を検出することとした。 Further, in the first embodiment, the process monitoring unit 22 of the first VM 20 monitors heartbeats of the processes 21a to 21n, notifies the process management unit 25 of the heartbeat monitoring result information, and processes the process management unit 25. However, based on the notification from the process monitoring unit 22, failures in the processes 21a to 21n are detected.

これにより、動作が停止したり、無限ループに陥っていたりするプロセスの検出が可能となる。 This makes it possible to detect processes that have stopped working or are stuck in an infinite loop.

また、実施の形態1では、第1のVM20の障害管理情報23aに、さらに第2のVM30で動作するプロセス31a~31mにおいて発生する第2の障害に対応する第1の障害情報(外部障害情報)と、第2の障害の影響対象の情報とが対応付けて登録され、第2のVM30の障害管理情報33aには、第2の障害の情報がさらに登録され、第2のVM30のプロセス管理部35は、第2の障害を検出した場合に、第2の障害の情報を障害情報通信部34に送信させ、第1のVM20のプロセス管理部25は、障害情報通信部24が第2の障害の情報を受信した場合に、障害管理情報23aを参照し、上記第1の障害情報(外部障害情報)に対応する第2の障害の影響対象を再起動することとした。 In addition, in the first embodiment, in addition to the fault management information 23a of the first VM 20, first fault information (external fault information ) and information on the target affected by the second failure are registered in association with each other, information on the second failure is further registered in the failure management information 33a of the second VM 30, and process management When the second failure is detected, the unit 35 causes the failure information communication unit 34 to transmit the second failure information, and the process management unit 25 of the first VM 20 causes the failure information communication unit 24 to transmit the second failure. When the failure information is received, the failure management information 23a is referred to and the target affected by the second failure corresponding to the first failure information (external failure information) is restarted.

これにより、第1のVM20において発生した障害からの復旧だけでなく、第2のVM30において発生した障害からの復旧も自律的に行うことができる。 As a result, recovery from a failure occurring in the first VM 20 as well as recovery from a failure occurring in the second VM 30 can be autonomously performed.

また、実施の形態1では、論理的に区分された2つのグループが、ハイパバイザ上で動作する第1のVM20および第2のVM30であることとした。 Moreover, in Embodiment 1, the logically divided two groups are the first VM 20 and the second VM 30 operating on the hypervisor.

これにより、第1のVM20のプロセスに第2のVM30のプロセスが依存する場合に、障害からの復旧を自律的に行うことができる。 Thereby, when the process of the second VM 30 depends on the process of the first VM 20, it is possible to autonomously recover from the failure.

(実施の形態2)
図6は、実施の形態1に係る計算機システムの構成の一例を示す図である。図6に示すように、この計算機システムでは、プロセス40a~40l、および、コンテナ管理プロセス41a、41bが実行される。コンテナ管理プロセス41a、41bは、それぞれ第1のコンテナ50、および、第2のコンテナ60の管理を行うプロセスである。
(Embodiment 2)
FIG. 6 is a diagram showing an example of the configuration of a computer system according to Embodiment 1. As shown in FIG. As shown in FIG. 6, this computer system executes processes 40a to 40l and container management processes 41a and 41b. The container management processes 41a and 41b are processes for managing the first container 50 and the second container 60, respectively.

この計算機システムは、プロセス監視部42、障害情報記憶部43、障害情報通信部44、プロセス管理部45、第1のコンテナ50、および、第2のコンテナ60を備える。第1のコンテナ50および第2のコンテナ60は、1つの計算機において互いに論理的に分割されてアプリケーションを実行するコンテナである。 This computer system comprises a process monitoring section 42 , a fault information storage section 43 , a fault information communication section 44 , a process management section 45 , a first container 50 and a second container 60 . The first container 50 and the second container 60 are containers that are logically divided from each other in one computer to execute applications.

なお、ここではコンテナの数が2であることとしたが、2以上であってもよい。また、プロセス監視部42、障害情報通信部44、および、プロセス管理部45は、それぞれ個別のプロセスとして実装されても良いが、それぞれの役割を備えた単一のプロセスとして実装されても良い。 Although the number of containers is two here, it may be two or more. The process monitoring unit 42, the fault information communication unit 44, and the process management unit 45 may be implemented as separate processes, or may be implemented as a single process having their respective roles.

プロセス監視部42は、プロセス40a~40lおよびコンテナ管理プロセス41a、41bを含むプロセス群で発生する障害を監視する。例えば、プロセス監視部42は、プロセス40a~40lおよびコンテナ管理プロセス41a、41bに対してハートビートメッセージを送信し、応答がないプロセスを、後述するプロセス管理部45に通知する。 The process monitoring unit 42 monitors faults occurring in a process group including the processes 40a to 40l and the container management processes 41a and 41b. For example, the process monitoring unit 42 transmits heartbeat messages to the processes 40a to 40l and the container management processes 41a and 41b, and notifies the process management unit 45 (to be described later) of processes that do not receive a response.

障害情報記憶部43は、プロセス40a~40lおよびコンテナ管理プロセス41a、41bを含むプロセス群において発生する障害の情報と、当該障害の影響対象の情報とを対応付けて登録した障害管理情報43aを記憶する。 The fault information storage unit 43 stores fault management information 43a in which information on faults occurring in a process group including the processes 40a to 40l and the container management processes 41a and 41b is associated with information on targets affected by the faults and registered. do.

図7は、障害管理情報43aの一例を示す図である。障害管理情報43aは、プロセス情報、障害情報、影響対象情報を含む。 FIG. 7 is a diagram showing an example of the fault management information 43a. The fault management information 43a includes process information, fault information, and affected target information.

プロセス情報は、第1のVM20において実行されるプロセスの識別情報、および、第1のVM20の外部において実行されるプロセスであることを示す情報を含む。障害情報は、これらのプロセスの障害の情報ある。影響対象情報は、当該障害が発生した場合に影響を受ける対象の情報である。 The process information includes identification information of the process executed in the first VM 20 and information indicating that the process is executed outside the first VM 20 . The failure information is information on failures of these processes. The affected target information is information about the target that will be affected when the failure occurs.

障害情報における「TARGET」は、障害が仮想マシン(VM)、コンテナ、プロセスのどれに発生したかを示す情報である。「CONTAINER」は、障害が発生したコンテナを示す識別情報である。「PROC」は、障害が発生したプロセスを示す識別情報である。 "TARGET" in the fault information is information indicating whether the fault occurred in a virtual machine (VM), container, or process. "CONTAINER" is identification information indicating a failed container. "PROC" is identification information indicating the process in which the failure occurred.

例えば、「CONTAINER2_MNG_PROCESS」というプロセス情報には、「TARGET:CONTAINER,CONTAINER:2」という障害情報、および、「PROCESS13」という影響対象情報が対応付けて登録されている。 For example, process information "CONTAINER2_MNG_PROCESS" is registered in association with failure information "TARGET:CONTAINER, CONTAINER:2" and affected object information "PROCESS13".

これは、「CONTAINER2_MNG_PROCESS」というコンテナ管理プロセス41bに障害が発生した場合、その障害の発生により「PROCESS13」というプロセスを再起動する必要があることを示している。 This indicates that when a failure occurs in the container management process 41b called "CONTAINER2_MNG_PROCESS", the process called "PROCESS13" must be restarted due to the occurrence of the failure.

また、「PROCESS13」というプロセス情報には、「TARGET:PROC,CONTAINER:-,PROC:PROCESS13」という障害情報が対応付けて登録されている。 Also, the process information "PROCESS13" is registered in association with the failure information "TARGET:PROC, CONTAINER:-, PROC:PROCESS13".

この障害情報は、障害が発生するプロセスが「PROCESS13」であることを示している。なお、「PROCESS13」というプロセスには、影響対象情報が登録されていないので、「PROCESS13」というプロセスに障害が発生した場合に再起動する必要がある対象はない。 This fault information indicates that the process in which the fault occurs is "PROCESS13". It should be noted that no affected target information is registered for the process "PROCESS13", so there is no target that needs to be restarted when a failure occurs in the process "PROCESS13".

また、「EXTERNAL_ERROR」というプロセス情報には、「TARGET:PROC,CONTAINER:2,PROC:PROCESS32」という障害情報(外部障害情報)、および、「PROCESS13」という影響対象情報が対応付けて登録されている。 Further, the process information "EXTERNAL_ERROR" is registered in association with the failure information (external failure information) "TARGET: PROC, CONTAINER: 2, PROC: PROCESS32" and the affected information "PROCESS13". .

これは、「PROCESS32」という第2のコンテナ60のプロセスに障害が発生した場合、その障害の発生により「PROCESS13」というプロセスを再起動する必要があることを示している。 This indicates that when a failure occurs in the process of the second container 60 called "PROCESS32", it is necessary to restart the process called "PROCESS13" due to the occurrence of the failure.

前述のように、「PROCESS13」というプロセスには、影響対象情報が登録されていないので、「PROCESS13」というプロセスに障害が発生した場合に再起動する必要がある対象はない。 As described above, no affected target information is registered for the process "PROCESS13", so there is no target that needs to be restarted when a failure occurs in the process "PROCESS13".

図6の説明に戻ると、障害情報通信部44は、第1のコンテナ50の障害情報通信部54、および、第2のコンテナ60の障害情報通信部64と通信を行う。 Returning to the description of FIG. 6 , the failure information communication unit 44 communicates with the failure information communication unit 54 of the first container 50 and the failure information communication unit 64 of the second container 60 .

例えば、障害情報通信部44は、プロセス40a~40l、または、コンテナ管理プロセス41a、41bに障害が発生した場合に、障害が発生したプロセスに対応する図7に示した障害情報を障害情報通信部54および障害情報通信部64に送信する。 For example, when a failure occurs in the processes 40a to 40l or the container management processes 41a and 41b, the failure information communication unit 44 sends the failure information shown in FIG. 54 and the failure information communication unit 64 .

また、障害情報通信部44は、障害情報通信部54、および、障害情報通信部64から送信される障害情報を受信する。 The failure information communication unit 44 also receives failure information transmitted from the failure information communication unit 54 and the failure information communication unit 64 .

プロセス管理部45は、プロセス40a~40l、および、コンテナ管理プロセス41a、41bを管理する。例えば、プロセス管理部45は、プロセス監視部42からの通知により、プロセス40a~40l、または、コンテナ管理プロセス41a、41bに障害が発生したことを検出する。 The process management unit 45 manages the processes 40a-40l and the container management processes 41a and 41b. For example, the process management unit 45 detects from the notification from the process monitoring unit 42 that a failure has occurred in the processes 40a to 40l or the container management processes 41a and 41b.

また、プロセス管理部45は、プロセス40a~40l、または、コンテナ管理プロセス41a、41bからの障害メッセージを受信することによりプロセス40a~40l、または、コンテナ管理プロセス41a、41bに障害が発生したことを検出する。 Further, the process management unit 45 receives a fault message from the processes 40a to 40l or the container management processes 41a and 41b to notify that a fault has occurred in the processes 40a to 40l or the container management processes 41a and 41b. To detect.

そして、プロセス管理部45は、障害管理情報43aを参照し、障害が発生したプロセスに対応付けて登録されている障害情報および影響対象情報を取得する。 Then, the process management unit 45 refers to the failure management information 43a and acquires the failure information and the affected target information registered in association with the process in which the failure occurred.

例えば、図7の例において、障害が発生したプロセスが「CONTAINER2_MNG_PROCESS」である場合、プロセス管理部25は、「TARGET:CONTAINER,CONTAINER:2」という障害情報、および、「PROCESS13」という影響対象情報を取得する。 For example, in the example of FIG. 7, if the faulty process is "CONTAINER2_MNG_PROCESS", the process management unit 25 sets the fault information "TARGET: CONTAINER, CONTAINER: 2" and the affected target information "PROCESS13". get.

その後、プロセス管理部45は、「CONTAINER2_MNG_PROCESS」のプロセスのように、障害情報が登録されている場合、その障害情報を第1のコンテナ50、および、第2のコンテナ60に送信するよう障害情報通信部44に指示する。 Thereafter, the process management unit 45 performs fault information communication so as to transmit the fault information to the first container 50 and the second container 60 when fault information is registered as in the process of "CONTAINER2_MNG_PROCESS". 44 is instructed.

また、プロセス管理部45は、「CONTAINER2_MNG_PROCESS」のプロセスのように、影響対象情報が登録されている場合、登録されている影響対象を再起動する。さらに、プロセス管理部45は、障害が発生したプロセスを再起動する。 In addition, the process management unit 45 restarts the registered affected object when the affected object information is registered like the process of "CONTAINER2_MNG_PROCESS". Furthermore, the process management unit 45 restarts the failed process.

ここで、図7に示すように、影響対象情報として「PROCESS13」が登録されている場合、プロセス管理部45は、「PROCESS13」のプロセスに対応する障害情報も第1のコンテナ50、および、第2のコンテナ60に送信するよう障害情報通信部44に指示する。 Here, as shown in FIG. 7, when "PROCESS13" is registered as the affected object information, the process management unit 45 stores the fault information corresponding to the process "PROCESS13" in the first container 50 and in the first container. The failure information communication unit 44 is instructed to transmit to the second container 60 .

なお、「PROCESS13」のプロセスに対応する影響対象情報は登録されていないため、プロセス管理部45はプロセスの再起動を行わない。 In addition, since the affected object information corresponding to the process of "PROCESS13" is not registered, the process management unit 45 does not restart the process.

さらに、プロセス管理部45は、障害情報通信部44が第1のコンテナ50、または、第2のコンテナ60から障害情報を受信した場合に、その障害情報を取得し、その障害情報が障害管理情報43aに含まれる障害情報に対応するものであるか否かを判定する。 Furthermore, when the fault information communication unit 44 receives fault information from the first container 50 or the second container 60, the process management unit 45 acquires the fault information, and converts the fault information into fault management information. 43a or not.

そして、プロセス管理部45は、その障害情報が障害管理情報43aに含まれる障害情報に対応するものである場合、その障害情報に対応する影響対象情報が登録されているか否かを判定する。 Then, when the failure information corresponds to the failure information included in the failure management information 43a, the process management unit 45 determines whether or not the affected information corresponding to the failure information is registered.

その障害情報に対応する影響対象情報が登録されている場合、プロセス管理部45は、登録されている影響対象を再起動する。 If affected target information corresponding to the failure information is registered, the process management unit 45 restarts the registered affected target.

例えば、障害情報通信部44が第2のコンテナ60から、障害情報として「TARGET:PROC,CONTAINER:2,PROC:PROCESS32」という情報を受信したものとする。 For example, it is assumed that the failure information communication unit 44 has received information "TARGET: PROC, CONTAINER: 2, PROC: PROCESS 32" from the second container 60 as failure information.

この場合、この障害情報は、図7に示した障害管理情報43aの「EXTERNAL_ERROR」の障害情報(外部障害情報)に対応するため、プロセス管理部45は、登録されている影響対象である「PROCESS13」のプロセスを再起動する。 In this case, this fault information corresponds to the fault information (external fault information) of "EXTERNAL_ERROR" in the fault management information 43a shown in FIG. ” process.

また、「PROCESS13」には、障害情報が登録されているので、プロセス管理部45は、その障害情報を第1のコンテナ50に送信するよう障害情報通信部44に指示するとともに、影響対象情報として登録されている「PROCESS13」のプロセスを再起動する。 In addition, since the failure information is registered in "PROCESS13", the process management unit 45 instructs the failure information communication unit 44 to transmit the failure information to the first container 50, and as the affected information, Restart the registered "PROCESS13" process.

なお、「PROCESS13」のプロセスに対応する影響対象情報は登録されていないため、プロセス管理部45はプロセスの再起動は行わない。 In addition, since the affected object information corresponding to the process of "PROCESS13" is not registered, the process management unit 45 does not restart the process.

プロセス51a~51nを含むプロセス群が実行される第1のコンテナ50は、プロセス監視部52、障害情報記憶部53、障害情報通信部54、および、プロセス管理部55を備える。プロセス監視部52、障害情報通信部54、および、プロセス管理部55は、それぞれ個別のプロセスとして実装されても良いが、それぞれの役割を備えた単一のプロセスとして実装されても良い。 A first container 50 in which a process group including processes 51 a to 51 n is executed includes a process monitoring section 52 , a failure information storage section 53 , a failure information communication section 54 and a process management section 55 . The process monitoring unit 52, the fault information communication unit 54, and the process management unit 55 may be implemented as individual processes, or may be implemented as a single process having their respective roles.

プロセス監視部52、障害情報通信部54、および、プロセス管理部55の機能は、プロセッサにより実現される。また、障害情報記憶部53の機能は、メモリなどの記憶装置により実現される。 Functions of the process monitoring unit 52, the fault information communication unit 54, and the process management unit 55 are realized by the processor. Also, the function of the failure information storage unit 53 is implemented by a storage device such as a memory.

プロセス監視部52は、プロセス51a~51nを含むプロセス群で発生する障害を監視する。例えば、プロセス監視部52は、プロセス51a~51nに対してハートビートメッセージを送信し、応答がないプロセスを、後述するプロセス管理部55に通知する。 The process monitoring unit 52 monitors failures occurring in a process group including the processes 51a to 51n. For example, the process monitoring unit 52 transmits heartbeat messages to the processes 51a to 51n, and notifies the process management unit 55, which will be described later, of the processes that do not receive a response.

障害情報記憶部53は、プロセス51a~51nを含むプロセス群において発生する障害の情報と、当該障害の影響対象の情報とを対応付けて登録した障害管理情報53aを記憶する。 The failure information storage unit 53 stores failure management information 53a in which information about failures that occur in a process group including the processes 51a to 51n and information about targets affected by the failures are associated and registered.

図8は、障害管理情報53aの一例を示す図である。障害管理情報53aは、プロセス情報、障害情報、影響対象情報を含む。 FIG. 8 is a diagram showing an example of the failure management information 53a. The fault management information 53a includes process information, fault information, and affected target information.

プロセス情報は、第1のコンテナ50において実行されるプロセスの識別情報、および、第1のコンテナ50の外部において実行されるプロセスであることを示す情報を含む。なお、図8の例では、後者の情報は登録されていない。障害情報は、それらのプロセスの障害の情報ある。影響対象情報は、当該障害が発生した場合に影響を受ける対象の情報である。 The process information includes identification information of the process executed in the first container 50 and information indicating that the process is executed outside the first container 50 . In addition, in the example of FIG. 8, the latter information is not registered. The failure information is information on failures of those processes. The affected target information is information about the target that will be affected when the failure occurs.

障害情報における「TARGET」、「CONTAINER」、および、「PROC」は、図7に示した障害管理情報43aの障害情報における「TARGET」、「CONTAINER」、および、「PROC」と同様の情報である。 "TARGET", "CONTAINER" and "PROC" in the fault information are information similar to "TARGET", "CONTAINER" and "PROC" in the fault information of the fault management information 43a shown in FIG. .

例えば、「PROCESS21」というプロセス情報には、「TARGET:PROC,CONTAINER:1,PROC:PROCESS21」という障害情報、および、「PROCESS22」という影響対象情報が対応付けて登録されている。 For example, process information "PROCESS21" is registered in association with failure information "TARGET: PROC, CONTAINER: 1, PROC: PROCESS21" and affected target information "PROCESS22".

これは、第1のコンテナ50における「PROCESS21」というプロセスに障害が発生した場合、その障害の発生により「PROCESS22」というプロセスを再起動する必要があることを示している。 This indicates that when a failure occurs in the process "PROCESS21" in the first container 50, the process "PROCESS22" must be restarted due to the occurrence of the failure.

また、「PROCESS22」というプロセス情報には、「TARGET:PROC,CONTAINER:1,PROC:PROCESS22」という障害情報が対応付けて登録されている。 Further, process information "PROCESS22" is registered in association with failure information "TARGET: PROC, CONTAINER: 1, PROC: PROCESS22".

この障害情報は、第1のコンテナ50において障害が発生するプロセスが「PROCESS22」であることを示している。なお、「PROCESS22」というプロセスには、影響対象情報が登録されていないので、「PROCESS22」というプロセスに障害が発生した場合に再起動する必要がある対象はない。 This fault information indicates that the process in which the fault occurs in the first container 50 is "PROCESS22". It should be noted that no affected target information is registered for the process "PROCESS22", so there is no target that needs to be restarted when a failure occurs in the process "PROCESS22".

図6の説明に戻ると、障害情報通信部54は、障害情報通信部44、および、障害情報通信部64と通信を行う。 Returning to the explanation of FIG. 6 , the failure information communication section 54 communicates with the failure information communication section 44 and the failure information communication section 64 .

例えば、障害情報通信部54は、第1のコンテナ50におけるプロセス51a~51nに障害が発生した場合に、障害が発生したプロセスに対応する図8に示した障害情報を障害情報通信部44および障害情報通信部64に送信する。また、障害情報通信部24は、障害情報通信部44および障害情報通信部64から送信される障害情報を受信する。 For example, when a failure occurs in the processes 51a to 51n in the first container 50, the failure information communication unit 54 sends the failure information shown in FIG. It is transmitted to the information communication section 64 . Further, the failure information communication section 24 receives failure information transmitted from the failure information communication section 44 and the failure information communication section 64 .

プロセス管理部55は、第1のコンテナ50におけるプロセス51a~51nを管理する。例えば、プロセス管理部55は、プロセス監視部52からの通知により、プロセス51a~51nに障害が発生したことを検出する。また、プロセス管理部55は、プロセス51a~51nからの障害メッセージを受信することによりプロセス51a~51nに障害が発生したことを検出する。 The process manager 55 manages the processes 51a-51n in the first container 50. FIG. For example, the process management unit 55 detects from the notification from the process monitoring unit 52 that a failure has occurred in the processes 51a to 51n. Also, the process management unit 55 detects that a failure has occurred in the processes 51a to 51n by receiving failure messages from the processes 51a to 51n.

そして、プロセス管理部55は、障害管理情報53aを参照し、障害が発生したプロセスに対応付けて登録されている障害情報および影響対象情報を取得する。 Then, the process management unit 55 refers to the failure management information 53a and acquires the failure information and the affected target information registered in association with the process in which the failure occurred.

例えば、図8の例において、障害が発生したプロセスが「PROCESS21」である場合、プロセス管理部55は、「TARGET:PROC,CONTAINER:1,PROC:PROCESS21」という障害情報、および、「PROCESS22」という影響対象情報を取得する。 For example, in the example of FIG. 8, if the process in which the fault has occurred is "PROCESS21", the process management unit 55 outputs the fault information "TARGET: PROC, CONTAINER: 1, PROC: PROCESS21" and the fault information "PROCESS22". Get affected information.

その後、プロセス管理部55は、「PROCESS21」のプロセスのように、障害情報が登録されている場合、その障害情報を障害情報通信部44および障害情報通信部64に送信するよう障害情報通信部54に指示する。 Thereafter, process management unit 55 instructs failure information communication unit 54 to transmit the failure information to failure information communication unit 44 and failure information communication unit 64 when failure information is registered as in the process “PROCESS21”. direct to.

また、プロセス管理部55は、「PROCESS21」のプロセスのように、影響対象情報が登録されている場合、登録されている影響対象を再起動する。さらに、プロセス管理部55は、障害が発生したプロセスを再起動する。 In addition, the process management unit 55 restarts the registered affected object when the affected object information is registered like the process of "PROCESS21". Furthermore, the process management unit 55 restarts the failed process.

ここで、図8に示すように、影響対象情報として「PROCESS22」が登録されている場合、プロセス管理部55は、「PROCESS22」のプロセスに対応する障害情報も障害情報通信部44および障害情報通信部64に送信するよう障害情報通信部54に指示する。 Here, as shown in FIG. 8, when "PROCESS22" is registered as the affected object information, the process management unit 55 sends fault information corresponding to the process "PROCESS22" to the fault information communication unit 44 and the fault information communication unit 44. The failure information communication unit 54 is instructed to transmit to the unit 64 .

なお、「PROCESS22」のプロセスに対応する影響対象情報は登録されていないため、プロセス管理部55はプロセスの再起動を行わない。 In addition, since the affected object information corresponding to the process of "PROCESS22" is not registered, the process management unit 55 does not restart the process.

さらに、プロセス管理部55は、障害情報通信部54が障害情報通信部44または障害情報通信部64から障害情報を受信した場合に、その障害情報を取得し、その障害情報が障害管理情報53aに含まれる障害情報に対応するものであるか否かを判定する。 Furthermore, when the fault information communication unit 54 receives fault information from the fault information communication unit 44 or the fault information communication unit 64, the process management unit 55 acquires the fault information, and stores the fault information in the fault management information 53a. It is determined whether or not it corresponds to the included fault information.

そして、プロセス管理部55は、その障害情報が障害管理情報53aに含まれる障害情報に対応するものである場合、その障害情報に対応する影響対象情報が登録されているか否かを判定する。 Then, when the fault information corresponds to the fault information included in the fault management information 53a, the process management unit 55 determines whether or not the affected information corresponding to the fault information is registered.

その障害情報に対応する影響対象情報が登録されている場合、プロセス管理部55は、登録されている影響対象を再起動する。 If affected target information corresponding to the failure information is registered, the process management unit 55 restarts the registered affected target.

また、プロセス61a~61mを含むプロセス群が実行される第2のコンテナ60は、プロセス監視部62、障害情報記憶部63、障害情報通信部64、および、プロセス管理部65を備える。プロセス監視部62、障害情報通信部64、および、プロセス管理部65は、それぞれ個別のプロセスとして実装されても良いが、それぞれの役割を備えた単一のプロセスとして実装されても良い。 A second container 60 in which a process group including processes 61a to 61m is executed includes a process monitoring section 62, a failure information storage section 63, a failure information communication section 64, and a process management section 65. FIG. The process monitoring unit 62, the fault information communication unit 64, and the process management unit 65 may be implemented as separate processes, or may be implemented as a single process having their respective roles.

プロセス監視部62、障害情報通信部64、および、プロセス管理部65の機能は、プロセッサにより実現される。また、障害情報記憶部63の機能は、メモリなどの記憶装置により実現される。 Functions of the process monitoring unit 62, the fault information communication unit 64, and the process management unit 65 are realized by the processor. Also, the function of the fault information storage unit 63 is implemented by a storage device such as a memory.

プロセス監視部62は、プロセス61a~61mを含むプロセス群で発生する障害を監視する。例えば、プロセス監視部62は、プロセス61a~61mのハートビートメッセージを送信し、応答がないプロセスを、後述するプロセス管理部65に通知する。 The process monitoring unit 62 monitors faults occurring in the process group including the processes 61a to 61m. For example, the process monitoring unit 62 transmits heartbeat messages of the processes 61a to 61m, and notifies the process management unit 65, which will be described later, of the processes with no response.

障害情報記憶部63は、プロセス61a~61mを含むプロセス群において発生する障害の情報と、当該障害の影響対象の情報とを対応付けて登録した障害管理情報63aを記憶する。 The failure information storage unit 63 stores failure management information 63a in which information about failures that occur in a process group including the processes 61a to 61m and information about targets affected by the failures are associated and registered.

図9は、障害管理情報63aの一例を示す図である。障害管理情報63aは、プロセス情報、障害情報、影響対象情報を含む。 FIG. 9 is a diagram showing an example of the fault management information 63a. The fault management information 63a includes process information, fault information, and affected target information.

プロセス情報は、第2のコンテナ60において実行されるプロセスの識別情報、および、第2のコンテナ60の外部において実行されるプロセスであることを示す情報を含む。障害情報は、それらのプロセスの障害の情報ある。影響対象情報は、当該障害が発生した場合に影響を受ける対象の情報である。 The process information includes identification information of the process executed in the second container 60 and information indicating that the process is executed outside the second container 60 . The failure information is information on failures of those processes. The affected target information is information about the target that will be affected when the failure occurs.

障害情報における「TARGET」、「CONTAINER」、および、「PROC」は、図7に示した障害管理情報43aの障害情報における「TARGET」、「CONTAINER」、および、「PROC」と同様の情報である。 "TARGET", "CONTAINER" and "PROC" in the fault information are information similar to "TARGET", "CONTAINER" and "PROC" in the fault information of the fault management information 43a shown in FIG. .

ここで、図9の上から4番目にある「EXTERNAL_ERROR」というプロセス情報には、「TARGET:CONTAINER,CONTAINER:1」という障害情報(外部障害情報)、および、「PROCESS31,PROCESS32」という影響対象情報が対応付けて登録されている。 Here, the fourth process information "EXTERNAL_ERROR" from the top in FIG. are associated and registered.

これは、第2のコンテナ60の外部のコンテナ管理プロセス41aに障害が発生した場合、その障害の発生により「PROCESS31」、「PROCESS32」というプロセスを再起動する必要があることを示している。 This indicates that when a failure occurs in the container management process 41a outside the second container 60, the processes "PROCESS31" and "PROCESS32" must be restarted due to the occurrence of the failure.

図6の説明に戻ると、障害情報通信部64は、障害情報通信部44、および、障害情報通信部54と通信を行う。 Returning to the explanation of FIG. 6 , the fault information communication section 64 communicates with the fault information communication section 44 and the fault information communication section 54 .

例えば、障害情報通信部64は、第2のコンテナ60におけるプロセス61a~61mに障害が発生した場合に、障害が発生したプロセスに対応する図9に示した障害情報を障害情報通信部44および障害情報通信部54に送信する。また、障害情報通信部64は、障害情報通信部44または障害情報通信部54から送信される障害情報を受信する。 For example, when a failure occurs in the processes 61a to 61m in the second container 60, the failure information communication unit 64 sends the failure information shown in FIG. It is transmitted to the information communication section 54 . Further, the failure information communication unit 64 receives failure information transmitted from the failure information communication unit 44 or the failure information communication unit 54 .

プロセス管理部65は、第2のコンテナ60におけるプロセス61a~61mを管理する。 The process manager 65 manages the processes 61a-61m in the second container 60. FIG.

例えば、プロセス管理部65は、プロセス監視部62からの通知により、プロセス61a~61mに障害が発生したことを検出する。また、プロセス管理部65は、プロセス61a~61mからの障害メッセージを受信することによりプロセス61a~61mに障害が発生したことを検出する。 For example, the process management unit 65 detects from the notification from the process monitoring unit 62 that a failure has occurred in the processes 61a to 61m. Also, the process management unit 65 detects that a failure has occurred in the processes 61a to 61m by receiving failure messages from the processes 61a to 61m.

そして、プロセス管理部65は、障害管理情報63aを参照し、障害が発生したプロセスに対応付けて登録されている障害情報および影響対象情報を取得する。 Then, the process management unit 65 refers to the failure management information 63a and acquires the failure information and the affected target information registered in association with the process in which the failure occurred.

例えば、図9の例において、障害が発生したプロセスが「PROCESS32」である場合、プロセス管理部65は、「TARGET:PROC,CONTAINER:2,PROC:PROCESS32」という障害情報を取得する。なお、図9の例では、「PROCESS32」のプロセスには、影響対象情報は登録されていない。 For example, in the example of FIG. 9, if the failed process is "PROCESS32", the process management unit 65 acquires failure information "TARGET: PROC, CONTAINER: 2, PROC: PROCESS32". In the example of FIG. 9, influence target information is not registered in the process "PROCESS32".

その後、プロセス管理部65は、「PROCESS32」のプロセスのように、障害情報が登録されている場合、その障害情報を障害情報通信部44および障害情報通信部54に送信するよう障害情報通信部64に指示する。 After that, the process management unit 65 instructs the failure information communication unit 64 to transmit the failure information to the failure information communication unit 44 and the failure information communication unit 54 when failure information is registered as in the process "PROCESS32". direct to.

また、プロセス管理部65は、影響対象情報が登録されている場合、登録されている影響対象を再起動する。さらに、プロセス管理部55は、障害が発生したプロセスを再起動する。 Further, when the affected object information is registered, the process management unit 65 restarts the registered affected object. Furthermore, the process management unit 55 restarts the failed process.

ここで、図9に示すように、影響対象情報として「PROCESS31」が登録されている場合、プロセス管理部65は、「PROCESS31」のプロセスに対応する障害情報も障害情報通信部44および障害情報通信部54に送信するよう障害情報通信部64に指示する。 Here, as shown in FIG. 9, when "PROCESS31" is registered as the affected object information, the process management section 65 sends fault information corresponding to the process "PROCESS31" to the fault information communication section 44 and the fault information communication section 44. The failure information communication unit 64 is instructed to transmit to the unit 54 .

なお、図9の例では、「PROCESS31」のプロセスに対応する障害情報は登録されていないため、障害情報の送信処理は行われない。障害が発生しても他へ影響しないプロセスの場合、障害情報を登録しないことで不必要な障害情報の送信処理の抑止が可能となる。また、「PROCESS31」のプロセスに対応する影響対象情報も登録されていないため、プロセス管理部65はプロセスの再起動を行わない。 In the example of FIG. 9, since the failure information corresponding to the process "PROCESS31" is not registered, the failure information transmission process is not performed. In the case of a process that does not affect others even if a failure occurs, it is possible to suppress unnecessary failure information transmission processing by not registering failure information. In addition, since the affected object information corresponding to the process "PROCESS31" is not registered, the process management unit 65 does not restart the process.

さらに、プロセス管理部65は、障害情報通信部64が障害情報通信部44または障害情報通信部54から障害情報を受信した場合に、その障害情報を取得し、その障害情報が障害管理情報63aに含まれる障害情報に対応するものであるか否かを判定する。 Furthermore, when the fault information communication unit 64 receives fault information from the fault information communication unit 44 or the fault information communication unit 54, the process management unit 65 acquires the fault information, and stores the fault information in the fault management information 63a. It is determined whether or not it corresponds to the included fault information.

そして、プロセス管理部65は、その障害情報が障害管理情報63aに含まれる障害情報に対応するものである場合、その障害情報に対応する影響対象情報が登録されているか否かを判定する。 Then, when the failure information corresponds to the failure information included in the failure management information 63a, the process management unit 65 determines whether or not the affected information corresponding to the failure information is registered.

その障害情報に対応する影響対象情報が登録されている場合、プロセス管理部65は、登録されている影響対象を再起動する。 If affected target information corresponding to the fault information is registered, the process management unit 65 restarts the registered affected target.

例えば、障害情報通信部64が、障害情報通信部44から、障害情報として「TARGET:CONTAINER,CONTAINER:1」という情報を受信したものとする。 For example, it is assumed that the failure information communication unit 64 receives information "TARGET: CONTAINER, CONTAINER: 1" from the failure information communication unit 44 as failure information.

この場合、この障害情報は、図9に示した障害管理情報63aの上から4番目に示された「EXTERNAL_ERROR」の障害情報(外部障害情報)に対応するため、プロセス管理部65は、登録されている影響対象である「PROCESS31」、「PROCESS32」のプロセスを再起動する。 In this case, this fault information corresponds to the fault information (external fault information) of "EXTERNAL_ERROR" shown in the fourth from the top of the fault management information 63a shown in FIG. restart the affected processes "PROCESS31" and "PROCESS32".

ここで、「PROCESS32」には、障害情報が登録されているので、プロセス管理部65は、その障害情報を障害情報通信部44および障害情報通信部54に送信するよう障害情報通信部64に指示するとともに、影響対象情報として登録されている「PROCESS31」のプロセスを再起動する。 Since the failure information is registered in "PROCESS32", the process management unit 65 instructs the failure information communication unit 64 to transmit the failure information to the failure information communication unit 44 and the failure information communication unit 54. At the same time, the process of "PROCESS31" registered as the affected information is restarted.

なお、図9の例では、「PROCESS31」のプロセスに対応する障害情報は登録されていないため、障害情報の送信処理は行われない。また、「PROCESS31」のプロセスに対応する影響対象情報も登録されていないため、プロセス管理部65はプロセスの再起動を行わない。 In the example of FIG. 9, since the failure information corresponding to the process "PROCESS31" is not registered, the failure information transmission process is not performed. In addition, since the affected object information corresponding to the process "PROCESS31" is not registered, the process management unit 65 does not restart the process.

プロセス管理部45、55、65がプロセスの障害を検出して行う再起動処理の処理手順は、図4で説明した処理手順と同様のものである。 The processing procedure of restart processing performed by the process management units 45, 55, and 65 upon detection of a process failure is the same as the processing procedure described with reference to FIG.

すなわち、図4に示すように、プロセス管理部45、55、65は、プロセス監視部42、52、62からの通知により、または、各プロセスから受信する障害メッセージにより、各プロセスに障害が発生したことを検出する(ステップS101)。 That is, as shown in FIG. 4, the process management units 45, 55, and 65 receive notifications from the process monitoring units 42, 52, and 62 or receive fault messages from the respective processes to determine whether a fault has occurred in each process. is detected (step S101).

続いて、プロセス管理部45、55、65は、それぞれの障害管理情報43a、53a、63aを参照し、障害が発生したプロセスの情報をもとに、そのプロセスに対応する障害情報と影響対象情報とを障害管理情報43a、53a、63aから取得する処理を行う(ステップS102)。 Subsequently, the process management units 45, 55, and 65 refer to the fault management information 43a, 53a, and 63a, respectively, and based on the information of the process in which the fault occurred, the fault information and affected target information corresponding to the process. from the failure management information 43a, 53a, 63a (step S102).

そして、プロセス管理部45、55、65は、障害管理情報43a、53a、63aにそのプロセスに対応する障害情報が登録されていたか否かを判定する(ステップS103)。 Then, the process management units 45, 55, 65 determine whether or not fault information corresponding to the process is registered in the fault management information 43a, 53a, 63a (step S103).

障害管理情報43a、53a、63aにそのプロセスに対応する障害情報が登録されていた場合(ステップS103においてYesの場合)、プロセス管理部45、55、65は、障害情報通信部44、54、64に指示して、その障害情報を他の障害情報通信部44、54、64に送信させる(ステップS104)。 When failure information corresponding to the process is registered in the failure management information 43a, 53a, 63a (Yes in step S103), the process management units 45, 55, 65 communicate with the failure information communication units 44, 54, 64 to transmit the fault information to the other fault information communication units 44, 54 and 64 (step S104).

その後、プロセス管理部45、55、65は、それぞれの障害管理情報43a、53a、63aにそのプロセスに対応する影響対象情報が登録されていたか否かを判定する(ステップS105)。 After that, the process management units 45, 55, 65 determine whether or not affected information corresponding to the process is registered in the failure management information 43a, 53a, 63a (step S105).

障害管理情報43a、53a、63aにそのプロセスに対応する影響対象情報が登録されていた場合(ステップS105においてYesの場合)、プロセス管理部45、55、65は、その影響対象情報に登録されている影響対象を再起動する(ステップS106)。 If the affected information corresponding to the process is registered in the failure management information 43a, 53a, 63a (Yes in step S105), the process management units 45, 55, 65 are registered in the affected information. restart the affected target (step S106).

なお、プロセス管理部45、55、65は、障害管理情報43a、53a、63aにおいて、再起動される影響対象のプロセスに対応する障害情報が登録されている場合には、障害情報通信部44、54、64に指示して、その障害情報を他の障害情報通信部44、54、64に送信させ、そのプロセスに対応する影響対象情報が登録されていた場合には、その影響対象情報に登録されている影響対象を再起動する。 If the fault management information 43a, 53a, 63a registers the fault information corresponding to the affected process to be restarted, the process management units 45, 55, and 65, the fault information communication unit 44, 54, 64 to transmit the fault information to other fault information communication units 44, 54, 64, and if the affected object information corresponding to the process is registered, it is registered in the affected object information. reboot the affected target.

さらに、プロセス管理部45、55、65は、障害の発生が検出されたプロセスを再起動し(ステップS107)、この再起動処理を終了する。 Furthermore, the process management units 45, 55, 65 restart the process in which the occurrence of the failure is detected (step S107), and terminate this restart processing.

また、ステップS103において、障害管理情報43a、53a、63aにそのプロセスに対応する障害情報が登録されていなかった場合(ステップS103においてNoの場合)、または、ステップS105において、障害管理情報43a、53a、63aにそのプロセスに対応する影響対象情報が登録されていなかった場合(ステップS105においてNoの場合)、プロセス管理部45、55、65は、障害の発生が検出されたプロセスを再起動し(ステップS107)、この再起動処理を終了する。 In step S103, failure information corresponding to the process is not registered in the failure management information 43a, 53a, 63a (No in step S103), or in step S105, failure management information 43a, 53a , 63a (No in step S105), the process management units 45, 55, 65 restart the process in which the occurrence of the failure is detected ( Step S107), this restart process is terminated.

また、プロセス管理部45、55、65が障害情報を受信して行う再起動処理の処理手順は、図5で説明した処理手順と同様のものである。 Also, the processing procedure of the restart processing performed by the process management units 45, 55, and 65 upon receiving the failure information is the same as the processing procedure described with reference to FIG.

すなわち、図5に示すように、障害情報通信部44、54、64は、他の障害情報通信部44、54、64により送信された障害情報を受信する(ステップS201)。 That is, as shown in FIG. 5, the fault information communication units 44, 54 and 64 receive fault information transmitted by the other fault information communication units 44, 54 and 64 (step S201).

そして、プロセス管理部45、55、65は、障害情報通信部44、54、64から障害情報を取得するとともに、それぞれの障害管理情報43a、53a、63aを参照し、その障害情報に対応する障害情報と影響対象情報とを障害管理情報43a、53a、63aから取得する処理を行う(ステップS202)。 The process management units 45, 55, and 65 acquire fault information from the fault information communication units 44, 54, and 64, refer to the fault management information 43a, 53a, and 63a, respectively, and detect faults corresponding to the fault information. A process of acquiring information and affected target information from the failure management information 43a, 53a, 63a is performed (step S202).

そして、プロセス管理部45、55、65は、それぞれの障害管理情報43a、53a、63aに、障害情報通信部44、54、64から取得した障害情報に対応する障害情報が登録されていたか否かを判定する(ステップS203)。 Then, the process management units 45, 55 and 65 determine whether fault information corresponding to the fault information acquired from the fault information communication units 44, 54 and 64 is registered in the respective fault management information 43a, 53a and 63a. is determined (step S203).

障害管理情報43a、53a、63aに障害情報通信部44、54、64から取得した障害情報に対応する障害情報が登録されていた場合(ステップS203においてYesの場合)、プロセス管理部45、55、65は、障害情報通信部44、54、64に指示して、その障害情報を他の障害情報通信部44、54、64に送信させる(ステップS204)。 If failure information corresponding to the failure information acquired from the failure information communication units 44, 54, and 64 is registered in the failure management information 43a, 53a, and 63a (Yes in step S203), the process management units 45, 55, 65 instructs the failure information communication units 44, 54 and 64 to transmit the failure information to the other failure information communication units 44, 54 and 64 (step S204).

その後、プロセス管理部45、55、65は、それぞれの障害管理情報43a、53a、63aに、障害情報通信部44、54、64から取得した障害情報に対応する影響対象情報が登録されていたか否かを判定する(ステップS205)。 After that, the process management units 45, 55 and 65 determine whether affected information corresponding to the fault information acquired from the fault information communication units 44, 54 and 64 is registered in the respective fault management information 43a, 53a and 63a. (step S205).

障害管理情報43a、53a、63aに障害情報通信部44、54、64から取得した障害情報に対応する影響対象情報が登録されていた場合(ステップS205においてYesの場合)、プロセス管理部45、55、65は、その影響対象情報に登録されている影響対象を再起動、この再起動処理を終了する。(ステップS206)。 If affected target information corresponding to the failure information acquired from the failure information communication units 44, 54, and 64 is registered in the failure management information 43a, 53a, and 63a (Yes in step S205), the process management units 45 and 55 , 65 restarts the affected object registered in the affected object information, and terminates this restart processing. (Step S206).

なお、プロセス管理部45、55、65は、障害管理情報43a、53a、63aにおいて、再起動される影響対象のプロセスに対応する障害情報が登録されている場合には、障害情報通信部44、54、64に指示して、その障害情報を他の障害情報通信部44、54、64に送信させ、そのプロセスに対応する影響対象情報が登録されていた場合には、その影響対象情報に登録されている影響対象を再起動する。 If the fault management information 43a, 53a, 63a registers the fault information corresponding to the affected process to be restarted, the process management units 45, 55, and 65, the fault information communication unit 44, 54, 64 to transmit the fault information to other fault information communication units 44, 54, 64, and if the affected object information corresponding to the process is registered, it is registered in the affected object information. reboot the affected target.

また、ステップS203において、障害管理情報43a、53a、63aに障害情報通信部44、54、64から取得した障害情報に対応する障害情報が登録されていなかった場合(ステップS203においてNoの場合)、または、ステップS205において、障害管理情報43a、53a、63aに障害情報通信部44、54、64から取得した障害情報に対応する影響対象情報が登録されていなかった場合(ステップS205においてNoの場合)、そのままこの再起動処理は終了する。 Further, in step S203, if failure information corresponding to the failure information acquired from the failure information communication units 44, 54, and 64 is not registered in the failure management information 43a, 53a, and 63a (No in step S203), Alternatively, in step S205, if the affected target information corresponding to the failure information acquired from the failure information communication units 44, 54, and 64 is not registered in the failure management information 43a, 53a, and 63a (No in step S205). , this restart processing ends.

このように、本実施の形態2では、障害情報記憶部43が、第1のコンテナ50における第1の障害の情報または第2のコンテナ60における第2の障害の情報に対応する外部障害情報と、第1の障害の情報または第2の障害の情報の影響対象の情報とを含む障害管理情報43aを記憶し、第1の障害の情報または第2の障害の情報のいずれかの障害情報を障害情報通信部44が受信した場合に、プロセス管理部45が、障害管理情報43aを参照し、外部障害情報に対応する第1の障害の影響対象または第2の障害の影響対象を再起動することとした。 As described above, in the second embodiment, the fault information storage unit 43 stores external fault information corresponding to the first fault information in the first container 50 or the second fault information in the second container 60. , information about the first failure or information about the second failure, and information about the affected object, and information about the first failure or the information about the second failure. When the fault information communication unit 44 receives the information, the process management unit 45 refers to the fault management information 43a and restarts the target affected by the first fault or the target affected by the second fault corresponding to the external fault information. I decided to

これにより、コンテナにおけるプロセス間の依存関係を考慮して、障害からの復旧を自律的に行うことができる。 As a result, it is possible to autonomously recover from a failure, taking into consideration the dependencies between processes in the container.

また、本実施の形態2では、論理的に区分された2つのグループが、コンテナであることとした。 Also, in the second embodiment, the logically divided two groups are containers.

これにより、コンテナにおけるプロセス間に依存関係がある場合でも、障害からの復旧を自律的に行うことができる。 As a result, recovery from failures can be performed autonomously even if there is a dependency between processes in the container.

(実施の形態3)
図10は、実施の形態3に係る計算機システムの構成の一例を示す図である。以下で説明する計算機システムは、例えば、車両に搭載されるシステムである。図10に示すように、この計算機システムは、ハイパバイザ70、管理VM80、メータVM90、IVI(In-Vehicle Infotainment) VM100を備える。
(Embodiment 3)
FIG. 10 is a diagram showing an example of the configuration of a computer system according to Embodiment 3. As shown in FIG. The computer system described below is, for example, a system mounted on a vehicle. As shown in FIG. 10, this computer system includes a hypervisor 70, a management VM 80, a meter VM 90, and an IVI (In-Vehicle Information) VM 100. FIG.

ハイパバイザ70は、1つの計算機を管理VM80、メータVM90、および、IVI VM100に論理的に分割し、3つの独立した仮想マシンとして動作させる制御部である。管理VM80と、メータVM90と、IVI VM100は、このようにして生成された仮想マシンである。 The hypervisor 70 is a control unit that logically divides one computer into a management VM 80, a meter VM 90, and an IVI VM 100 and operates them as three independent virtual machines. The management VM 80, the meter VM 90, and the IVI VM 100 are virtual machines generated in this manner.

なお、ここではハイパバイザ10上で動作する仮想マシンの数が3であり、コンテナの数が1であることとしたが、少なくとも1以上であればよい。 Although the number of virtual machines operating on the hypervisor 10 is 3 and the number of containers is 1 here, the number may be at least 1 or more.

ハイパバイザ70は、VM監視部71、障害情報記憶部72、障害情報通信部73、および、VM管理部74を備える。 The hypervisor 70 includes a VM monitoring unit 71 , a failure information storage unit 72 , a failure information communication unit 73 and a VM management unit 74 .

VM監視部71、障害情報通信部73、および、VM管理部74の機能は、プロセッサにより実現される。また、障害情報記憶部72の機能は、メモリなどの記憶装置により実現される。 Functions of the VM monitoring unit 71, the failure information communication unit 73, and the VM management unit 74 are realized by the processor. Also, the function of the fault information storage unit 72 is implemented by a storage device such as a memory.

VM監視部71は、管理VM80、メータVM90、および、IVI VM100のそれぞれで稼働する仮想マシンの障害を監視する。例えば、VM監視部71は、管理VM80のVM監視応答部83、メータVM90のVM監視応答部93、または、IVI VM100のVM監視応答部104からVMに障害が発生したことを示す通知を受け付け、後述するVM管理部74に障害の発生を通知する。 The VM monitoring unit 71 monitors failures of virtual machines operating in each of the management VM 80 , meter VM 90 and IVI VM 100 . For example, the VM monitoring unit 71 receives a notification indicating that a failure has occurred in a VM from the VM monitoring response unit 83 of the management VM 80, the VM monitoring response unit 93 of the meter VM 90, or the VM monitoring response unit 104 of the IVI VM 100, The occurrence of the failure is notified to the VM management unit 74, which will be described later.

または、VM監視部71は、VM監視応答部83、93、104に対してハートビートメッセージを送信し、応答がないVM監視応答部83、93、104のVMに障害が発生したことをVM管理部74に通知してもよい。 Alternatively, the VM monitoring unit 71 sends a heartbeat message to the VM monitoring response units 83, 93, and 104, and notifies the VM management response units 83, 93, and 104 that a failure has occurred in the VMs of the VM monitoring response units 83, 93, and 104 that do not respond. The unit 74 may be notified.

障害情報記憶部72は、管理VM80、メータVM90、および、IVI VM100における仮想マシンのプロセス群において発生する障害の情報と、当該障害の影響対象の情報とを対応付けて登録した障害管理情報72aを記憶する。 The fault information storage unit 72 stores fault management information 72a in which information on faults occurring in virtual machine process groups in the management VM 80, the meter VM 90, and the IVI VM 100 is associated with and registered with information on targets affected by the fault. Remember.

図11は、障害管理情報72aの一例を示す図である。障害管理情報72aは、VM情報、障害情報、影響対象情報を含む。 FIG. 11 is a diagram showing an example of the fault management information 72a. The failure management information 72a includes VM information, failure information, and affected target information.

VM情報は、計算機システムにおいて稼働する仮想マシンの識別情報である。障害情報は、それらの仮想マシンにおいて発生する障害の情報である。影響対象情報は、当該障害が発生した場合に影響を受ける対象の情報である。 The VM information is identification information of virtual machines running in the computer system. The failure information is information about failures occurring in those virtual machines. The affected target information is information about the target that will be affected when the failure occurs.

障害情報における「TARGET」は、障害が仮想マシン(VM)、コンテナ、プロセスのどれに発生したかを示す情報である。「VM」は、障害が発生した仮想マシンを示す識別情報である。 "TARGET" in the fault information is information indicating whether the fault occurred in a virtual machine (VM), container, or process. “VM” is identification information indicating a failed virtual machine.

例えば、「管理VM」というVM情報には、「TARGET:VM,VM:MANAGER」という障害情報、および、「SYS_RESET」という影響対象情報が対応付けて登録されている。 For example, VM information "management VM" is registered in association with failure information "TARGET: VM, VM: MANAGER" and affected target information "SYS_RESET".

これは、「管理VM」の仮想マシンのプロセス群において障害が発生した場合、その障害の発生により計算機システム全体を再起動する必要があることを示している。 This indicates that when a failure occurs in the virtual machine process group of the "management VM", the entire computer system must be restarted due to the occurrence of the failure.

また、「メータVM」というVM情報には、「TARGET:VM,VM:METER」という障害情報、および、「IVI VM」という影響対象情報が対応付けて登録されている。 Further, the VM information "meter VM" is registered in association with the failure information "TARGET: VM, VM: METER" and the affected target information "IVI VM".

この障害情報および影響対象情報は、メータVM90における仮想マシンのプロセス群において障害が発生した場合に、IVI VM100における仮想マシンのプロセス群を再起動する必要があることを示している。 This failure information and affected information indicate that the virtual machine process group in the IVI VM 100 needs to be restarted when a failure occurs in the virtual machine process group in the meter VM 90 .

図10の説明に戻ると、障害情報通信部73は、管理VM80の障害情報通信部85、メータVM90の障害情報通信部95、IVI VM100の障害情報通信部106、および、コンテナ110の障害情報通信部114と通信を行う。 Returning to the description of FIG. 10 , the failure information communication unit 73 includes the failure information communication unit 85 of the management VM 80 , the failure information communication unit 95 of the meter VM 90 , the failure information communication unit 106 of the IVI VM 100 , and the failure information communication unit of the container 110 . Communicates with unit 114 .

例えば、障害情報通信部73は、管理VM80、メータVM90、または、IVI VM100における仮想マシンのプロセス群に障害が発生した場合に、障害が発生した仮想マシンに対応する図11に示した障害情報を、障害が発生した仮想マシン以外の仮想マシンに送信する。 For example, when a failure occurs in a virtual machine process group in the management VM 80, the meter VM 90, or the IVI VM 100, the failure information communication unit 73 transmits the failure information shown in FIG. 11 corresponding to the failed virtual machine. , to virtual machines other than the failed virtual machine.

また、障害情報通信部73は、障害情報通信部85、障害情報通信部95、障害情報通信部106、または、障害情報通信部114から送信される障害情報を受信する。 Failure information communication unit 73 also receives failure information transmitted from failure information communication unit 85 , failure information communication unit 95 , failure information communication unit 106 , or failure information communication unit 114 .

VM管理部74は、管理VM80、メータVM90、および、IVI VM100を管理する。例えば、VM管理部74は、VM監視部71からの通知により、管理VM80、メータVM90、または、IVI VM100のプロセス群に障害が発生したことを検出する。 The VM management unit 74 manages the management VM 80, the meter VM 90, and the IVI VM 100. For example, the VM management unit 74 detects that a failure has occurred in the process group of the management VM 80, the meter VM 90, or the IVI VM 100 from the notification from the VM monitoring unit 71. FIG.

また、VM管理部74は、管理VM80のプロセス管理部86、メータVM90のプロセス管理部96、または、IVI VM100のプロセス管理部107から再起動要求メッセージを受信することにより、再起動要求メッセージを送信したVMのプロセス群に障害が発生したことを検出する。 Further, the VM management unit 74 transmits a restart request message by receiving a restart request message from the process management unit 86 of the management VM 80, the process management unit 96 of the meter VM 90, or the process management unit 107 of the IVI VM 100. Detects that a failure has occurred in the process group of the VM that has been executed.

そして、VM管理部74は、障害管理情報72aを参照し、障害が発生したVMに対応付けて登録されている障害情報および影響対象情報を取得する。例えば、障害が発生したVMが「メータVM」である場合、VM管理部74は、「TARGET:VM,VM:METER」という障害情報、および、「IVI VM」という影響対象情報を取得する。 Then, the VM management unit 74 refers to the failure management information 72a and acquires failure information and affected target information registered in association with the failed VM. For example, if the failed VM is a "meter VM", the VM management unit 74 acquires failure information "TARGET: VM, VM: METER" and affected target information "IVI VM".

その後、VM管理部74は、「メータVM」のVMのように、障害情報が登録されている場合、その障害情報を管理VM80、メータVM90、IVI VM100、および、コンテナ110に送信するよう障害情報通信部73に指示する。 After that, the VM management unit 74 sends the failure information to the management VM 80, the meter VM 90, the IVI VM 100, and the container 110 when failure information is registered, such as the VM of "meter VM". The communication unit 73 is instructed.

また、VM管理部74は、「メータVM」のVMのように、影響対象情報が登録されている場合、登録されている影響対象を再起動する。さらに、VM管理部74は、障害が発生したVMのプロセス群を再起動する。 In addition, the VM management unit 74 restarts the registered affected target when the affected target information is registered, such as the VM of the “meter VM”. Furthermore, the VM management unit 74 restarts the process group of the failed VM.

ここで、図11に示すように、影響対象情報として「IVI VM」が登録されている場合、VM管理部74は、「IVI VM」のVMに対応する障害情報も管理VM80、メータVM90、IVI VM100、および、コンテナ110に送信するよう障害情報通信部73に指示する。 Here, as shown in FIG. 11 , when “IVI VM” is registered as the affected target information, the VM management unit 74 also stores failure information corresponding to the VM of “IVI VM” as the management VM 80, the meter VM 90, the IVI The failure information communication unit 73 is instructed to transmit to the VM 100 and the container 110 .

なお、「IVI VM」のVMに対応する影響対象情報は登録されていないため、VM管理部74はVMのプロセス群の再起動を行わない。 In addition, since the affected target information corresponding to the VM of "IVI VM" is not registered, the VM management unit 74 does not restart the process group of the VM.

さらに、VM管理部74は、障害情報通信部73が管理VM80、メータVM90、IVI VM100、および、コンテナ110から障害情報を受信した場合に、その障害情報を取得し、その障害情報が障害管理情報72aに含まれる障害情報に対応するものであるか否かを判定する。 Furthermore, when the failure information communication unit 73 receives failure information from the management VM 80, the meter VM 90, the IVI VM 100, and the container 110, the VM management unit 74 acquires the failure information and converts the failure information into failure management information. 72a or not.

そして、VM管理部74は、その障害情報が障害管理情報72aに含まれる障害情報に対応するものである場合、その障害情報に対応する影響対象情報が登録されているか否かを判定する。 Then, when the failure information corresponds to the failure information included in the failure management information 72a, the VM management unit 74 determines whether or not the affected information corresponding to the failure information is registered.

その障害情報に対応する影響対象情報が登録されている場合、VM管理部74は、登録されている影響対象を再起動する。 If affected target information corresponding to the failure information is registered, the VM management unit 74 restarts the registered affected target.

プロセス81a~81nを含むプロセス群が実行される管理VM80は、プロセス監視部82、VM監視応答部83、障害情報記憶部84、障害情報通信部85、および、プロセス管理部86を備える。管理VM80は、車両の管理を行う仮想マシンである。プロセス監視部82、VM監視応答部83、障害情報通信部85、および、プロセス管理部86は、それぞれ個別のプロセスとして実装されても良いが、それぞれの役割を備えた単一のプロセスとして実装されても良い。 A management VM 80 in which a process group including processes 81a to 81n is executed includes a process monitoring unit 82, a VM monitoring response unit 83, a fault information storage unit 84, a fault information communication unit 85, and a process management unit 86. The management VM 80 is a virtual machine that manages vehicles. The process monitoring unit 82, the VM monitoring response unit 83, the fault information communication unit 85, and the process management unit 86 may each be implemented as individual processes, but they are implemented as a single process having their respective roles. can be

プロセス監視部82、VM監視応答部83、障害情報通信部85、および、プロセス管理部86の機能は、プロセッサにより実現される。また、障害情報記憶部84の機能は、メモリなどの記憶装置により実現される。 Functions of the process monitoring unit 82, the VM monitoring response unit 83, the fault information communication unit 85, and the process management unit 86 are realized by the processor. Also, the function of the fault information storage unit 84 is implemented by a storage device such as a memory.

プロセス監視部82は、プロセス81a~81nを含むプロセス群で発生する障害を監視する。例えば、プロセス監視部82は、プロセス81a~81nのハートビートメッセージを送信し、応答がないプロセスを、後述するプロセス管理部86に通知する。 The process monitoring unit 82 monitors faults occurring in the process group including the processes 81a to 81n. For example, the process monitoring unit 82 transmits heartbeat messages of the processes 81a to 81n, and notifies the process management unit 86, which will be described later, of the processes with no response.

VM監視応答部83は、管理VM80の仮想マシンに対してハートビートメッセージを送信し、応答がない場合に、仮想マシンのプロセス群に障害が発生したことをハイパバイザ70のVM監視部71に通知する。 The VM monitoring response unit 83 transmits a heartbeat message to the virtual machine of the management VM 80, and if there is no response, notifies the VM monitoring unit 71 of the hypervisor 70 that a failure has occurred in the process group of the virtual machine. .

障害情報記憶部84は、プロセス81a~81nを含むプロセス群において発生する障害の情報と、当該障害の影響対象の情報とを対応付けて登録した障害管理情報84aを記憶する。 The failure information storage unit 84 stores failure management information 84a in which information about failures that occur in a process group including the processes 81a to 81n and information about targets affected by the failures are associated and registered.

図12は、障害管理情報84aの一例を示す図である。障害管理情報84aは、プロセス情報、障害情報、影響対象情報を含む。 FIG. 12 is a diagram showing an example of the failure management information 84a. The fault management information 84a includes process information, fault information, and affected target information.

プロセス情報は、管理VM80において実行されるプロセス、および、管理VM80の外部において実行されるプロセスであることを示す情報を含む。なお、図12の例では、後者の情報は登録されていない。障害情報は、それらのプロセスの障害の情報ある。影響対象情報は、当該障害が発生した場合に影響を受ける対象の情報である。 The process information includes information indicating processes executed in the management VM 80 and processes executed outside the management VM 80 . In addition, in the example of FIG. 12, the latter information is not registered. The failure information is information on failures of those processes. The affected target information is information about the target that will be affected when the failure occurs.

図10の説明に戻ると、障害情報通信部85は、障害情報通信部73、障害情報通信部95、障害情報通信部106、および、障害情報通信部114と通信を行う。 Returning to the explanation of FIG. 10 , the fault information communication section 85 communicates with the fault information communication section 73 , the fault information communication section 95 , the fault information communication section 106 and the fault information communication section 114 .

例えば、障害情報通信部85は、管理VM80におけるプロセス81a~81nに障害が発生した場合に、障害が発生したプロセスに対応する障害情報を障害情報通信部73、障害情報通信部95、障害情報通信部106、および、障害情報通信部114に送信する。 For example, when a failure occurs in the processes 81a to 81n in the management VM 80, the failure information communication unit 85 sends failure information corresponding to the failed process to the failure information communication unit 73, the failure information communication unit 95, and the failure information communication unit 73 section 106 and failure information communication section 114 .

また、障害情報通信部85は、障害情報通信部73、障害情報通信部95、障害情報通信部106、または、障害情報通信部114から送信される障害情報を受信する。 Further, failure information communication unit 85 receives failure information transmitted from failure information communication unit 73 , failure information communication unit 95 , failure information communication unit 106 , or failure information communication unit 114 .

プロセス管理部86は、管理VM80におけるプロセス81a~81nを管理する。例えば、プロセス管理部86は、プロセス監視部82からの通知により、プロセス81a~81nに障害が発生したことを検出する。また、プロセス管理部86は、プロセス81a~81nからの障害メッセージを受信することによりプロセス81a~81nに障害が発生したことを検出する。 The process management unit 86 manages processes 81a to 81n in the management VM 80. FIG. For example, the process management unit 86 detects from the notification from the process monitoring unit 82 that a failure has occurred in the processes 81a to 81n. Also, the process management unit 86 detects that a failure has occurred in the processes 81a to 81n by receiving failure messages from the processes 81a to 81n.

そして、プロセス管理部86は、障害管理情報84aを参照し、障害が発生したプロセスに対応付けて登録されている障害情報および影響対象情報を取得する。 Then, the process management unit 86 refers to the failure management information 84a and acquires the failure information and the affected target information registered in association with the process in which the failure occurred.

その後、プロセス管理部86は、障害情報が登録されている場合、その障害情報を障害情報通信部73、障害情報通信部95、障害情報通信部106、および、障害情報通信部114に送信するよう障害情報通信部85に指示する。 After that, when the fault information is registered, the process management section 86 transmits the fault information to the fault information communication section 73, the fault information communication section 95, the fault information communication section 106, and the fault information communication section 114. The failure information communication unit 85 is instructed.

また、プロセス管理部86は、影響対象情報が登録されている場合、登録されている影響対象を再起動する。さらに、プロセス管理部86は、障害が発生したプロセスを再起動する。 Further, when the affected object information is registered, the process management unit 86 restarts the registered affected object. Furthermore, the process management unit 86 restarts the failed process.

さらに、プロセス管理部86は、障害情報通信部85が障害情報通信部73、障害情報通信部95、障害情報通信部106、または、障害情報通信部114から障害情報を受信した場合に、その障害情報を取得し、その障害情報が障害管理情報84aに含まれる障害情報に対応するものであるか否かを判定する。 Furthermore, when the fault information communication unit 85 receives fault information from the fault information communication unit 73, the fault information communication unit 95, the fault information communication unit 106, or the fault information communication unit 114, the process management unit 86 Information is acquired, and it is determined whether or not the failure information corresponds to the failure information included in the failure management information 84a.

そして、プロセス管理部86は、その障害情報が障害管理情報84aに含まれる障害情報に対応するものである場合、その障害情報に対応する影響対象情報が登録されているか否かを判定する。 Then, when the fault information corresponds to the fault information included in the fault management information 84a, the process management unit 86 determines whether or not the affected information corresponding to the fault information is registered.

その障害情報に対応する影響対象情報が登録されている場合、プロセス管理部86は、登録されている影響対象を再起動する。 If affected target information corresponding to the fault information is registered, the process management unit 86 restarts the registered affected target.

なお、図12に示す障害管理情報84aの例では、障害情報および影響対象情報は登録されていないので、プロセス管理部86は、障害が発生したプロセスのみを再起動する。 In the example of the fault management information 84a shown in FIG. 12, since fault information and affected target information are not registered, the process management unit 86 restarts only the faulty process.

また、プロセス91a~91mを含むプロセス群が実行されるメータVM90は、プロセス監視部92、VM監視応答部93、障害情報記憶部94、障害情報通信部95、および、プロセス管理部96を備える。メータVM90は、運転席のデジタルメータ、ナビゲーション情報などの表示を担う仮想マシンである。プロセス監視部92、VM監視応答部93、障害情報通信部95、および、プロセス管理部96は、それぞれ個別のプロセスとして実装されても良いが、それぞれの役割を備えた単一のプロセスとして実装されても良い。 A meter VM 90 in which a process group including processes 91 a to 91 m is executed includes a process monitoring section 92 , a VM monitoring response section 93 , a fault information storage section 94 , a fault information communication section 95 and a process management section 96 . The meter VM 90 is a virtual machine that displays a driver's seat digital meter, navigation information, and the like. The process monitoring unit 92, the VM monitoring response unit 93, the fault information communication unit 95, and the process management unit 96 may each be implemented as individual processes, but they are implemented as a single process having their respective roles. can be

プロセス監視部92、VM監視応答部93、障害情報通信部95、および、プロセス管理部96の機能は、プロセッサにより実現される。また、障害情報記憶部94の機能は、メモリなどの記憶装置により実現される。 The functions of the process monitoring unit 92, the VM monitoring response unit 93, the fault information communication unit 95, and the process management unit 96 are realized by the processor. Also, the function of the fault information storage unit 94 is implemented by a storage device such as a memory.

プロセス監視部92は、プロセス91a~91mを含むプロセス群で発生する障害を監視する。例えば、プロセス監視部92は、プロセス91a~91mに対してハートビートメッセージを送信し、応答がないプロセスを、後述するプロセス管理部96に通知する。 The process monitoring unit 92 monitors failures occurring in the process group including the processes 91a to 91m. For example, the process monitoring unit 92 transmits heartbeat messages to the processes 91a to 91m, and notifies the process management unit 96, which will be described later, of the processes that do not respond.

VM監視応答部93は、メータVM90の仮想マシンに対してハートビートメッセージを送信し、応答がない場合に、仮想マシンのプロセス群に障害が発生したことをハイパバイザ70のVM監視部71に通知する。 The VM monitoring response unit 93 transmits a heartbeat message to the virtual machine of the meter VM 90, and if there is no response, notifies the VM monitoring unit 71 of the hypervisor 70 that a failure has occurred in the process group of the virtual machine. .

障害情報記憶部94は、プロセス91a~91mを含むプロセス群において発生する障害の情報と、当該障害の影響対象の情報と対応付けて登録した障害管理情報94aを記憶する。 The fault information storage unit 94 stores fault management information 94a registered in association with information on faults occurring in a process group including the processes 91a to 91m and information on targets affected by the faults.

図13は、障害管理情報94aの一例を示す図である。障害管理情報94aは、プロセス情報、障害情報、影響対象情報を含む。 FIG. 13 is a diagram showing an example of the fault management information 94a. The fault management information 94a includes process information, fault information, and affected object information.

プロセス情報は、メータVM90において実行されるプロセス、および、メータVM90の外部において実行されるプロセスであることを示す情報を含む。障害情報は、それらのプロセスの障害の情報ある。影響対象情報は、当該障害が発生した場合に影響を受ける対象の情報である。 The process information includes information indicating a process executed in the meter VM 90 and a process executed outside the meter VM 90 . The failure information is information on failures of those processes. The affected target information is information about the target that will be affected when the failure occurs.

障害情報における「TARGET」、「VM」、「CONTAINER」、および、「PROC」は、図2および図7に示した障害管理情報23a、43aの障害情報における「TARGET」、「VM」、「CONTAINER」、および、「PROC」と同様の情報である。 "TARGET", "VM", "CONTAINER", and "PROC" in the failure information correspond to "TARGET", "VM", "CONTAINER" in the failure management information 23a, 43a shown in FIGS. ”, and “PROC”.

図10の説明に戻ると、障害情報通信部95は、障害情報通信部73、障害情報通信部85、障害情報通信部106、および、障害情報通信部114と通信を行う。 Returning to the explanation of FIG. 10 , the fault information communication section 95 communicates with the fault information communication section 73 , the fault information communication section 85 , the fault information communication section 106 and the fault information communication section 114 .

例えば、障害情報通信部95は、メータVM90におけるプロセス91a~91mに障害が発生した場合に、障害が発生したプロセスに対応する障害情報を障害情報通信部73、障害情報通信部85、障害情報通信部106、および、障害情報通信部114に送信する。 For example, when a failure occurs in the processes 91a to 91m in the meter VM 90, the failure information communication unit 95 sends failure information corresponding to the failed process to the failure information communication unit 73, the failure information communication unit 85, and the failure information communication unit 73 section 106 and failure information communication section 114 .

また、障害情報通信部95は、障害情報通信部73、障害情報通信部85、障害情報通信部106、または、障害情報通信部114から送信される障害情報を受信する。 Further, failure information communication unit 95 receives failure information transmitted from failure information communication unit 73 , failure information communication unit 85 , failure information communication unit 106 , or failure information communication unit 114 .

プロセス管理部96は、メータVM90におけるプロセス91a~91mを管理する。例えば、プロセス管理部96は、プロセス監視部92からの通知により、プロセス91a~91mに障害が発生したことを検出する。また、プロセス管理部96は、プロセス91a~91mからの障害メッセージを受信することによりプロセス91a~91mに障害が発生したことを検出する。 A process management unit 96 manages processes 91 a to 91 m in the meter VM 90 . For example, the process management unit 96 detects from the notification from the process monitoring unit 92 that a failure has occurred in the processes 91a to 91m. Also, the process management unit 96 detects that a failure has occurred in the processes 91a to 91m by receiving failure messages from the processes 91a to 91m.

そして、プロセス管理部96は、障害管理情報94aを参照し、障害が発生したプロセスに対応付けて登録されている障害情報および影響対象情報を取得する。 Then, the process management unit 96 refers to the failure management information 94a and acquires the failure information and the affected target information registered in association with the process in which the failure occurred.

例えば、図13の例において、障害が発生したプロセスが「PROCESS21」である場合、プロセス管理部は、「TARGET:PROC,VM:METER,CONTAINER:-,PROC:PROCESS21」という障害情報を取得する。 For example, in the example of FIG. 13, if the failed process is "PROCESS21", the process management unit acquires the failure information "TARGET: PROC, VM: METER, CONTAINER: -, PROC: PROCESS21".

その後、プロセス管理部96は、「PROCESS21」のプロセスのように、障害情報が登録されている場合、その障害情報を障害情報通信部73、障害情報通信部85、障害情報通信部106、および、障害情報通信部114に送信するよう障害情報通信部95に指示する。 After that, the process management unit 96 sends the failure information to the failure information communication unit 73, the failure information communication unit 85, the failure information communication unit 106, and The failure information communication unit 95 is instructed to transmit to the failure information communication unit 114 .

また、プロセス管理部96は、影響対象情報が登録されている場合、登録されている影響対象を再起動する。さらに、プロセス管理部96は、障害が発生したプロセスを再起動する。 Further, when the affected object information is registered, the process management unit 96 restarts the registered affected object. Furthermore, the process management unit 96 restarts the failed process.

ここで、図13に示すように、影響対象情報として「PROCESS22」が登録されている場合、プロセス管理部96は、「PROCESS22」のプロセスに対応する障害情報も障害情報通信部73、障害情報通信部85、障害情報通信部106、および、障害情報通信部114に送信するよう障害情報通信部95に指示する。 Here, as shown in FIG. 13, when "PROCESS22" is registered as the affected object information, the process management section 96 sends fault information corresponding to the process "PROCESS22" to the fault information communication section 73. The failure information communication unit 95 is instructed to transmit to the unit 85 , the failure information communication unit 106 , and the failure information communication unit 114 .

「PROCESS22」のプロセスに対応する影響対象情報は登録されていないため、プロセス管理部96はプロセスの再起動を行わない。 Since the affected object information corresponding to the process of "PROCESS22" is not registered, the process management unit 96 does not restart the process.

さらに、プロセス管理部96は、障害情報通信部95が障害情報通信部73、障害情報通信部85、障害情報通信部106、または、障害情報通信部114から障害情報を受信した場合に、その障害情報を取得し、その障害情報が障害管理情報94aに含まれる障害情報に対応するものであるか否かを判定する。 Furthermore, when the fault information communication unit 95 receives fault information from the fault information communication unit 73, the fault information communication unit 85, the fault information communication unit 106, or the fault information communication unit 114, the process management unit 96 Information is acquired, and it is determined whether or not the failure information corresponds to the failure information included in the failure management information 94a.

そして、プロセス管理部96は、その障害情報が障害管理情報94aに含まれる障害情報に対応するものである場合、その障害情報に対応する影響対象情報が登録されているか否かを判定する。 Then, when the failure information corresponds to the failure information included in the failure management information 94a, the process management unit 96 determines whether or not the affected information corresponding to the failure information is registered.

その障害情報に対応する影響対象情報が登録されている場合、プロセス管理部96は、登録されている影響対象を再起動する。 If affected target information corresponding to the failure information is registered, the process management unit 96 restarts the registered affected target.

また、プロセス101a~101l、および、コンテナ管理プロセス102を含むプロセス群が実行されるIVI VM100は、プロセス監視部103、VM監視応答部104、障害情報記憶部105、障害情報通信部106、プロセス管理部107、および、コンテナ110を備える。プロセス監視部103、VM監視応答部104、障害情報通信部106、および、プロセス管理部107は、それぞれ個別のプロセスとして実装されても良いが、それぞれの役割を備えた単一のプロセスとして実装されても良い。 In addition, the IVI VM 100 in which processes 101a to 101l and a process group including the container management process 102 are executed includes a process monitoring unit 103, a VM monitoring response unit 104, a failure information storage unit 105, a failure information communication unit 106, a process management A unit 107 and a container 110 are provided. The process monitoring unit 103, the VM monitoring response unit 104, the fault information communication unit 106, and the process management unit 107 may each be implemented as individual processes, but they are implemented as a single process having their respective roles. can be

IVI VM100は、ナビゲーション、オーディオ、車両情報の表示のほか、スマートフォンなどとの連携機能を担う仮想マシンである。コンテナ管理プロセス102は、コンテナ110の管理を行うプロセスである。 The IVI VM 100 is a virtual machine that not only displays navigation, audio, and vehicle information, but also functions to link with smartphones and the like. A container management process 102 is a process for managing the container 110 .

プロセス監視部103、VM監視応答部104、障害情報通信部106、プロセス管理部107、および、コンテナ110の障害情報記憶部113以外の機能は、プロセッサにより実現される。また、障害情報記憶部105および障害情報記憶部113の機能は、メモリなどの記憶装置により実現される。 Functions other than the process monitoring unit 103, the VM monitoring response unit 104, the failure information communication unit 106, the process management unit 107, and the failure information storage unit 113 of the container 110 are realized by the processor. Also, the functions of the failure information storage unit 105 and the failure information storage unit 113 are implemented by a storage device such as a memory.

プロセス監視部103は、プロセス101a~101l、および、コンテナ管理プロセス102を含むプロセス群で発生する障害を監視する。例えば、プロセス監視部103は、プロセス101a~101l、および、コンテナ管理プロセス102に対してハートビートメッセージを送信し、応答がないプロセスを、後述するプロセス管理部107に通知する。 The process monitoring unit 103 monitors faults that occur in the processes 101 a to 101 l and the process group including the container management process 102 . For example, the process monitoring unit 103 sends heartbeat messages to the processes 101a to 101l and the container management process 102, and notifies the process management unit 107, which will be described later, of processes that do not respond.

VM監視応答部104は、IVI VM100の仮想マシンに対してハートビートメッセージを送信し、応答がない場合に、仮想マシンのプロセス群に障害が発生したことをハイパバイザ70のVM監視部71に通知する。 The VM monitoring response unit 104 transmits a heartbeat message to the virtual machine of the IVI VM 100, and if there is no response, notifies the VM monitoring unit 71 of the hypervisor 70 that a failure has occurred in the process group of the virtual machine. .

障害情報記憶部105は、プロセス101a~101l、および、コンテナ管理プロセス102を含むプロセス群において発生する障害の情報と、当該障害の影響対象の情報とを対応付けて登録した障害管理情報105aを記憶する。 The fault information storage unit 105 stores fault management information 105a in which information on faults that occur in a process group including the processes 101a to 101l and the container management process 102 is associated with information on targets affected by the faults and registered. do.

図14は、障害管理情報105aの一例を示す図である。障害管理情報105aは、プロセス情報、障害情報、影響対象情報を含む。 FIG. 14 is a diagram showing an example of the failure management information 105a. The fault management information 105a includes process information, fault information, and affected target information.

プロセス情報は、IVI VM100において実行されるプロセスの識別情報、および、IVI VM100の外部において実行されるプロセスであることを示す情報を含む。障害情報は、それらのプロセスの障害の情報ある。影響対象情報は、当該障害が発生した場合に影響を受ける対象の情報である。 The process information includes identification information of processes executed in the IVI VM 100 and information indicating that the processes are executed outside the IVI VM 100 . The failure information is information on failures of those processes. The affected target information is information about the target that will be affected when the failure occurs.

障害情報における「TARGET」、「VM」、「CONTAINER」、および、「PROC」は、図2および図7に示した障害管理情報23a、43aの障害情報における「TARGET」、「VM」、「CONTAINER」、および、「PROC」と同様の情報である。 "TARGET", "VM", "CONTAINER", and "PROC" in the failure information correspond to "TARGET", "VM", "CONTAINER" in the failure management information 23a, 43a shown in FIGS. ”, and “PROC”.

図10の説明に戻ると、障害情報通信部106は、障害情報通信部73、障害情報通信部85、障害情報通信部95、および、障害情報通信部114と通信を行う。 Returning to the description of FIG. 10 , failure information communication section 106 communicates with failure information communication section 73 , failure information communication section 85 , failure information communication section 95 , and failure information communication section 114 .

例えば、障害情報通信部106は、IVI VM100におけるプロセス101a~101l、または、コンテナ管理プロセス102に障害が発生した場合に、障害が発生したプロセスに対応する障害情報を障害情報通信部73、障害情報通信部85、障害情報通信部95、および、障害情報通信部114に送信する。 For example, when a failure occurs in the processes 101a to 101l in the IVI VM 100 or in the container management process 102, the failure information communication unit 106 sends failure information corresponding to the failed process to the failure information communication unit 73. It is transmitted to the communication unit 85 , the failure information communication unit 95 , and the failure information communication unit 114 .

また、障害情報通信部106は、障害情報通信部73、障害情報通信部85、障害情報通信部95、または、障害情報通信部114から送信される障害情報を受信する。 Failure information communication unit 106 also receives failure information transmitted from failure information communication unit 73 , failure information communication unit 85 , failure information communication unit 95 , or failure information communication unit 114 .

プロセス管理部107は、IVI VM100におけるプロセス101a~101l、および、コンテナ管理プロセス102を管理する。例えば、プロセス管理部107は、プロセス監視部103からの通知により、プロセス101a~101l、または、コンテナ管理プロセス102に障害が発生したことを検出する。 The process management unit 107 manages the processes 101 a to 101 l in the IVI VM 100 and the container management process 102 . For example, the process management unit 107 detects from the notification from the process monitoring unit 103 that the processes 101a to 101l or the container management process 102 has failed.

また、プロセス管理部107は、プロセス101a~101l、または、コンテナ管理プロセス102からの障害メッセージを受信することによりプロセス101a~101l、または、コンテナ管理プロセス102に障害が発生したことを検出する。 Also, the process management unit 107 detects that a failure has occurred in the processes 101a to 101l or the container management process 102 by receiving a failure message from the processes 101a to 101l or the container management process 102 .

そして、プロセス管理部107は、障害管理情報105aを参照し、障害が発生したプロセスに対応付けて登録されている障害情報および影響対象情報を取得する。 Then, the process management unit 107 refers to the failure management information 105a, and acquires failure information and affected target information registered in association with the process in which the failure occurred.

例えば、図14の例において、障害が発生したプロセスが「CONTAINER1_MNG_PROCESS」というコンテナ管理プロセス102である場合、プロセス管理部107は、「TARGET:CONTAINER,VM:IVI,CONTAINER:1」という障害情報を取得する。 For example, in the example of FIG. 14, if the process in which the failure occurred is the container management process 102 "CONTAINER1_MNG_PROCESS", the process management unit 107 acquires the failure information "TARGET: CONTAINER, VM: IVI, CONTAINER: 1". do.

その後、プロセス管理部107は、「CONTAINER1_MNG_PROCESS」のプロセスのように、障害情報が登録されている場合、その障害情報を障害情報通信部73、障害情報通信部85、障害情報通信部95、および、障害情報通信部114に送信するよう障害情報通信部106に指示する。 After that, when failure information is registered as in the process of "CONTAINER1_MNG_PROCESS", the process management unit 107 sends the failure information to the failure information communication unit 73, the failure information communication unit 85, the failure information communication unit 95, and the The failure information communication unit 106 is instructed to transmit to the failure information communication unit 114 .

また、プロセス管理部107は、影響対象情報が登録されている場合、登録されている影響対象を再起動する。さらに、プロセス管理部107は、障害が発生したプロセスを再起動する。 Further, when the influence target information is registered, the process management unit 107 restarts the registered influence target. Furthermore, the process management unit 107 restarts the failed process.

ここで、図14に示すように、影響対象情報として「PROCESS32」が登録されている場合、プロセス管理部107は、「PROCESS32」のプロセスに対応する障害情報も障害情報通信部73、障害情報通信部85、障害情報通信部95、および、障害情報通信部114に送信するよう障害情報通信部106に指示する。 Here, as shown in FIG. 14, when "PROCESS32" is registered as the affected object information, the process management unit 107 sends fault information corresponding to the process "PROCESS32" to the fault information communication unit 73. The failure information communication unit 106 is instructed to transmit to the unit 85 , the failure information communication unit 95 , and the failure information communication unit 114 .

「PROCESS32」のプロセスに対応する影響対象情報は登録されていないため、プロセス管理部107はプロセスの再起動を行わない。 Since the affected object information corresponding to the process of "PROCESS32" is not registered, the process management unit 107 does not restart the process.

さらに、プロセス管理部107は、障害情報通信部106が障害情報通信部73、障害情報通信部85、障害情報通信部95、または、障害情報通信部114から障害情報を受信した場合に、その障害情報を取得し、その障害情報が障害管理情報105aに含まれる障害情報に対応するものであるか否かを判定する。 Furthermore, when the failure information communication unit 106 receives failure information from the failure information communication unit 73, the failure information communication unit 85, the failure information communication unit 95, or the failure information communication unit 114, the process management unit 107 Information is acquired, and it is determined whether or not the failure information corresponds to the failure information included in the failure management information 105a.

そして、プロセス管理部107は、その障害情報が障害管理情報105aに含まれる障害情報に対応するものである場合、その障害情報に対応する影響対象情報が登録されているか否かを判定する。 Then, when the failure information corresponds to the failure information included in the failure management information 105a, the process management unit 107 determines whether or not the affected information corresponding to the failure information is registered.

その障害情報に対応する影響対象情報が登録されている場合、プロセス管理部107は、登録されている影響対象を再起動する。 If affected target information corresponding to the fault information is registered, the process management unit 107 restarts the registered affected target.

例えば、障害情報通信部106が、障害情報通信部95から、障害情報として「TARGET:PROC,VM:METER,CONTAINER:-,PROC:PROCESS21」という情報を受信したものとする。 For example, it is assumed that the failure information communication unit 106 receives information "TARGET: PROC, VM: METER, CONTAINER: -, PROC: PROCESS21" from the failure information communication unit 95 as failure information.

この場合、この障害情報は、図14に示した障害管理情報105aの上から4番目に示された「EXTERNAL_ERROR」の障害情報(外部障害情報)に対応するため、プロセス管理部107は、登録されている影響対象である「PROCESS31」のプロセスを再起動する。 In this case, this fault information corresponds to the fault information (external fault information) of "EXTERNAL_ERROR" shown in the fourth from the top of the fault management information 105a shown in FIG. restart the affected process "PROCESS31".

ここで、「PROCESS31」には、障害情報が登録されていないので、障害情報は障害情報通信部73、障害情報通信部85、障害情報通信部95、および、障害情報通信部114に送信されない。 Here, since failure information is not registered in "PROCESS 31", failure information is not transmitted to failure information communication section 73, failure information communication section 85, failure information communication section 95, and failure information communication section 114. FIG.

また、「PROCESS31」のプロセスに対応する影響対象情報も登録されていないため、プロセス管理部107はプロセスの再起動を行わない。 In addition, since the affected object information corresponding to the process "PROCESS31" is not registered, the process management unit 107 does not restart the process.

プロセス111a~111kを含むプロセス群が実行されるコンテナ110は、プロセス監視部112、障害情報記憶部113、障害情報通信部114、および、プロセス管理部115を備える。プロセス監視部112、障害情報通信部114、および、プロセス管理部115は、それぞれ個別のプロセスとして実装されても良いが、それぞれの役割を備えた単一のプロセスとして実装されても良い。 A container 110 in which a process group including processes 111a to 111k is executed includes a process monitoring unit 112, a failure information storage unit 113, a failure information communication unit 114, and a process management unit 115. FIG. The process monitoring unit 112, the fault information communication unit 114, and the process management unit 115 may be implemented as separate processes, or may be implemented as a single process having their respective roles.

プロセス監視部112、障害情報通信部114、および、プロセス管理部115の機能は、プロセッサにより実現される。また、障害情報記憶部113の機能は、メモリなどの記憶装置により実現される。 Functions of the process monitoring unit 112, the fault information communication unit 114, and the process management unit 115 are realized by the processor. Also, the function of the failure information storage unit 113 is implemented by a storage device such as a memory.

プロセス監視部112は、プロセス111a~111kを含むプロセス群で発生する障害を監視する。例えば、プロセス監視部112は、プロセス111a~111kに対してハートビートメッセージを送信し、応答がないプロセスを、後述するプロセス管理部115に通知する。 The process monitoring unit 112 monitors failures occurring in a process group including the processes 111a to 111k. For example, the process monitoring unit 112 transmits heartbeat messages to the processes 111a to 111k, and notifies the process management unit 115, which will be described later, of processes that do not respond.

障害情報記憶部113は、プロセス111a~111kを含むプロセス群において発生する障害の情報と、当該障害の影響対象の情報とを対応付けて登録した障害管理情報113aを記憶する。 The failure information storage unit 113 stores failure management information 113a in which information about failures that occur in a process group including the processes 111a to 111k and information about targets affected by the failures are associated and registered.

図15は、障害管理情報113aの一例を示す図である。障害管理情報113aは、プロセス情報、障害情報、影響対象情報を含む。 FIG. 15 is a diagram showing an example of the failure management information 113a. The fault management information 113a includes process information, fault information, and affected target information.

プロセス情報は、コンテナ110において実行されるプロセスの識別情報、および、コンテナ110の外部において実行されるプロセスであることを示す情報を含む。障害情報は、それらのプロセスの障害の情報ある。影響対象情報は、当該障害が発生した場合に影響を受ける対象の情報である。 The process information includes identification information of the process executed in the container 110 and information indicating that the process is executed outside the container 110 . The failure information is information on failures of those processes. The affected target information is information about the target that will be affected when the failure occurs.

障害情報における「TARGET」、「VM」、「CONTAINER」、および、「PROC」は、図2および図7に示した障害管理情報23a、43aの障害情報における「TARGET」、「VM」、「CONTAINER」、および、「PROC」と同様の情報である。 "TARGET", "VM", "CONTAINER", and "PROC" in the failure information correspond to "TARGET", "VM", "CONTAINER" in the failure management information 23a, 43a shown in FIGS. ”, and “PROC”.

ここで、図15の上から3番目にある「EXTERNAL_ERROR」というプロセス情報には、「TARGET:PROC,VM:METER,CONTAINER:-,PROC:PROCESS22」という障害情報(外部障害情報)、および、「PROCESS41」という影響対象情報が対応付けて登録されている。 Here, the third process information "EXTERNAL_ERROR" from the top in FIG. PROCESS41" is registered in association with the affected target information.

これは、メータVM90の「PROCESS22」というプロセスに障害が発生した場合、その障害の発生により「PROCESS41」というプロセスを再起動する必要があることを示している。 This indicates that when a failure occurs in the process "PROCESS22" of the meter VM 90, it is necessary to restart the process "PROCESS41" due to the occurrence of the failure.

図10の説明に戻ると、障害情報通信部114は、障害情報通信部73、障害情報通信部85、障害情報通信部95、および、障害情報通信部106と通信を行う。 Returning to the description of FIG. 10, the fault information communication section 114 communicates with the fault information communication section 73, the fault information communication section 85, the fault information communication section 95, and the fault information communication section .

例えば、障害情報通信部114は、コンテナ110におけるプロセス111a~111kに障害が発生した場合に、障害が発生したプロセスに対応する図15に示した障害情報を障害情報通信部73、障害情報通信部85、障害情報通信部95、および、障害情報通信部106に送信する。 For example, when a failure occurs in the processes 111a to 111k in the container 110, the failure information communication unit 114 sends the failure information shown in FIG. 85 , failure information communication unit 95 , and failure information communication unit 106 .

また、障害情報通信部114は、障害情報通信部73、障害情報通信部85、障害情報通信部95、または、障害情報通信部106から送信される障害情報を受信する。 Further, failure information communication section 114 receives failure information transmitted from failure information communication section 73 , failure information communication section 85 , failure information communication section 95 , or failure information communication section 106 .

プロセス管理部115は、コンテナ110におけるプロセス111a~111kを管理する。例えば、プロセス管理部115は、プロセス監視部112からの通知により、プロセス111a~111kに障害が発生したことを検出する。 The process manager 115 manages the processes 111a-111k in the container 110. FIG. For example, the process management unit 115 detects from the notification from the process monitoring unit 112 that a failure has occurred in the processes 111a to 111k.

また、プロセス管理部115は、プロセス111a~111kからの障害メッセージを受信することによりプロセス111a~111kに障害が発生したことを検出する。 Also, the process management unit 115 detects that a failure has occurred in the processes 111a to 111k by receiving failure messages from the processes 111a to 111k.

そして、プロセス管理部115は、障害管理情報113aを参照し、障害が発生したプロセスに対応付けて登録されている障害情報および影響対象情報を取得する。 Then, the process management unit 115 refers to the failure management information 113a and acquires the failure information and the affected target information registered in association with the process in which the failure occurred.

例えば、図15の例において、障害が発生したプロセスが「PROCESS41」である場合、プロセス管理部115は、「TARGET:PROC,VM:IVI,CONTAINER:1,PROC:PROCESS41」という障害情報、および、「PROCESS42」という影響対象情報を取得する。 For example, in the example of FIG. 15, if the failed process is "PROCESS41", the process management unit 115 generates failure information "TARGET: PROC, VM: IVI, CONTAINER: 1, PROC: PROCESS41" and Acquire the affected object information "PROCESS42".

その後、プロセス管理部115は、「PROCESS41」のプロセスのように、障害情報が登録されている場合、その障害情報を障害情報通信部73、障害情報通信部85、障害情報通信部95、および、障害情報通信部106に送信するよう障害情報通信部114に指示する。 After that, the process management unit 115 sends the failure information to the failure information communication unit 73, the failure information communication unit 85, the failure information communication unit 95, and The failure information communication unit 114 is instructed to transmit to the failure information communication unit 106 .

また、プロセス管理部115は、「PROCESS42」のプロセスのように、影響対象情報が登録されている場合、登録されている影響対象を再起動する。さらに、プロセス管理部115は、障害が発生したプロセスを再起動する。 In addition, the process management unit 115 restarts the registered affected object when the affected object information is registered like the process of "PROCESS42". Furthermore, the process management unit 115 restarts the failed process.

また、影響対象情報としてプロセスが登録されている場合、プロセス管理部115は、そのプロセスに対応する障害情報も障害情報通信部73、障害情報通信部85、障害情報通信部95、および、障害情報通信部106に送信するよう障害情報通信部114に指示する。 Further, when a process is registered as affected information, the process management unit 115 also sends fault information corresponding to the process to the fault information communication unit 73, the fault information communication unit 85, the fault information communication unit 95, and the fault information The failure information communication unit 114 is instructed to transmit to the communication unit 106 .

さらに、プロセス管理部115は、障害情報通信部114が障害情報通信部85、障害情報通信部95、または、障害情報通信部106から障害情報を受信した場合に、その障害情報を取得し、その障害情報が障害管理情報113aに含まれる障害情報に対応するものであるか否かを判定する。 Furthermore, when the fault information communication unit 114 receives fault information from the fault information communication unit 85, the fault information communication unit 95, or the fault information communication unit 106, the process management unit 115 acquires the fault information, It is determined whether or not the failure information corresponds to the failure information included in the failure management information 113a.

そして、プロセス管理部115は、その障害情報が障害管理情報113aに含まれる障害情報に対応するものである場合、その障害情報に対応する影響対象情報が登録されているか否かを判定する。 Then, when the failure information corresponds to the failure information included in the failure management information 113a, the process management unit 115 determines whether or not the affected information corresponding to the failure information is registered.

その障害情報に対応する影響対象情報が登録されている場合、プロセス管理部115は、登録されている影響対象を再起動する。 If affected target information corresponding to the fault information is registered, the process management unit 115 restarts the registered affected target.

例えば、障害情報通信部114が、障害情報通信部95から、障害情報として「TARGET:PROC,VM:METER,CONTAINER:-,PROC:PROCESS22」という情報を受信したものとする。 For example, it is assumed that the failure information communication unit 114 receives the information "TARGET: PROC, VM: METER, CONTAINER: -, PROC: PROCESS22" from the failure information communication unit 95 as failure information.

この場合、この障害情報は、図15に示した障害管理情報113aの上から3番目に示された「EXTERNAL_ERROR」の障害情報(外部障害情報)に対応するため、プロセス管理部115は、登録されている影響対象である「PROCESS41」のプロセスを再起動する。 In this case, this fault information corresponds to the fault information (external fault information) of "EXTERNAL_ERROR" shown third from the top of the fault management information 113a shown in FIG. restart the affected process "PROCESS41".

ここで、「PROCESS41」には、障害情報が登録されているので、プロセス管理部115は、その障害情報を障害情報通信部73、障害情報通信部85、障害情報通信部95、および、障害情報通信部106に送信するよう障害情報通信部114に指示するとともに、影響対象情報として登録されている「PROCESS42」のプロセスを再起動する。 Here, since the failure information is registered in "PROCESS 41", the process management unit 115 sends the failure information to the failure information communication unit 73, the failure information communication unit 85, the failure information communication unit 95, and the failure information The failure information communication unit 114 is instructed to transmit to the communication unit 106, and the process of "PROCESS42" registered as the affected information is restarted.

「PROCESS42」のプロセスに対応する障害情報、および、影響対象情報は登録されていないため、プロセス管理部115は、障害情報の送信指示、および、プロセスの再起動を行わない。 Since the failure information and affected target information corresponding to the process of "PROCESS42" are not registered, the process management unit 115 does not issue an instruction to send failure information or restart the process.

つぎに、ハイパバイザ70が行う再起動処理の処理手順の一例について説明する。図16は、ハイパバイザ70が行う再起動処理の処理手順の一例を示すフローチャートである。 Next, an example of a procedure of restart processing performed by the hypervisor 70 will be described. FIG. 16 is a flowchart illustrating an example of a procedure of restart processing performed by the hypervisor 70. As illustrated in FIG.

図16に示すように、VM管理部74は、VM監視部71からの通知により、または、各VMから受信する再起動要求メッセージにより、各VMに障害が発生したことを検出する(ステップS301)。 As illustrated in FIG. 16 , the VM management unit 74 detects that a failure has occurred in each VM by a notification from the VM monitoring unit 71 or by a restart request message received from each VM (step S301). .

続いて、VM管理部74は、障害管理情報72aを参照し、VM監視部71から取得した障害が発生したVMの情報をもとに、そのVMに対応する障害情報と影響対象情報とを障害管理情報72aから取得する処理を行う(ステップS302)。 Next, the VM management unit 74 refers to the failure management information 72a, and based on the information of the failed VM acquired from the VM monitoring unit 71, the VM management unit 74 updates the failure information and the affected target information corresponding to the VM. A process of acquiring from the management information 72a is performed (step S302).

そして、VM管理部74は、障害管理情報72aにそのVMに対応する障害情報が登録されていたか否かを判定する(ステップS303)。 Then, the VM management unit 74 determines whether or not failure information corresponding to the VM is registered in the failure management information 72a (step S303).

障害管理情報72aにそのVMに対応する障害情報が登録されていた場合(ステップS303においてYesの場合)、VM管理部74は、障害情報通信部73に指示して、その障害情報を障害情報通信部85、障害情報通信部95、障害情報通信部106、および、障害情報通信部114に送信させる(ステップS304)。 If failure information corresponding to the VM is registered in the failure management information 72a (Yes in step S303), the VM management unit 74 instructs the failure information communication unit 73 to send the failure information to failure information communication. It is transmitted to the unit 85, the failure information communication unit 95, the failure information communication unit 106, and the failure information communication unit 114 (step S304).

その後、VM管理部74は、障害管理情報72aにそのVMに対応する影響対象情報が登録されていたか否かを判定する(ステップS305)。 After that, the VM management unit 74 determines whether the affected target information corresponding to the VM is registered in the fault management information 72a (step S305).

障害管理情報72aにそのVMに対応する影響対象情報が登録されていた場合(ステップS305においてYesの場合)、VM管理部74は、その影響対象情報に登録されている影響対象を再起動する(ステップS306)。 If the affected target information corresponding to the VM is registered in the fault management information 72a (Yes in step S305), the VM management unit 74 restarts the affected target registered in the affected target information ( step S306).

なお、VM管理部74は、障害管理情報72aにおいて、再起動される影響対象のVMに対応する障害情報が登録されている場合には、障害情報通信部73に指示して、その障害情報を障害情報通信部85、障害情報通信部95、障害情報通信部106、および、障害情報通信部114に送信させ、そのVMに対応する影響対象情報が登録されていた場合には、その影響対象情報に登録されている影響対象を再起動する。 Note that if the failure management information 72a registers failure information corresponding to the affected VM to be restarted, the VM management unit 74 instructs the failure information communication unit 73 to transmit the failure information. If the affected target information corresponding to the VM is registered, the affected target information Restart the affected targets registered in the .

さらに、VM管理部74は、障害の発生が検出されたVMを再起動し(ステップS307)、この再起動処理を終了する。 Furthermore, the VM management unit 74 restarts the VM in which the occurrence of the failure has been detected (step S307), and terminates this restart processing.

また、ステップS303において、障害管理情報72aにそのVMに対応する障害情報が登録されていなかった場合(ステップS303においてNoの場合)、または、ステップS305において、障害管理情報72aにそのVMに対応する影響対象情報が登録されていなかった場合(ステップS305においてNoの場合)、VM管理部74は、障害の発生が検出されたVMを再起動し(ステップS307)、この再起動処理を終了する。 In step S303, if the fault information corresponding to the VM is not registered in the fault management information 72a (No in step S303), or if the fault management information 72a corresponds to the VM in step S305 If the affected target information is not registered (No in step S305), the VM management unit 74 restarts the VM in which the occurrence of the failure is detected (step S307), and terminates this restart processing.

プロセス管理部86、96、107,115(以下、単に管理部と呼ぶ。)がプロセスの障害を検出して行う再起動処理の処理手順は、図4で説明した処理手順と同様のものである。 The processing procedure of restart processing performed by the process management units 86, 96, 107, and 115 (hereinafter simply referred to as management units) upon detection of a process failure is the same as the processing procedure described with reference to FIG. .

すなわち、図4に示すように、プロセス監視部82、92、103,112は、自らが管理するプロセスの障害を検出し、障害を検出したことを管理部に通知する(ステップS101)。 That is, as shown in FIG. 4, the process monitoring units 82, 92, 103, and 112 detect failures in the processes they manage and notify the management units of the failure detection (step S101).

続いて、管理部は、それぞれの障害管理情報84a、94a、105a、113a(以下、単に障害管理情報と呼ぶ。)を参照し、障害が発生したプロセスの情報をもとに、そのプロセスに対応する障害情報と影響対象情報とを障害管理情報から取得する処理を行う(ステップS102)。 Subsequently, the management unit refers to the failure management information 84a, 94a, 105a, and 113a (hereinafter simply referred to as failure management information) and, based on the information on the process in which the failure occurred, responds to the process. A process of acquiring the failure information and the affected object information from the failure management information is performed (step S102).

そして、管理部は、障害管理情報にそのプロセスに対応する障害情報が登録されていたか否かを判定する(ステップS103)。 Then, the management unit determines whether fault information corresponding to the process is registered in the fault management information (step S103).

障害管理情報にそのプロセスに対応する障害情報が登録されていた場合(ステップS103においてYesの場合)、管理部は、障害情報通信部85、95、106、114(以下、単に障害情報通信部と呼ぶ。)に指示して、その障害情報を他の障害情報通信部に送信させる(ステップS104)。 If the failure information corresponding to the process is registered in the failure management information (Yes in step S103), the management unit will be referred to as failure information communication units 85, 95, 106, and 114 (hereinafter simply referred to as failure information communication units). ) to transmit the fault information to another fault information communication unit (step S104).

その後、管理部は、それぞれの障害管理情報にそのプロセスに対応する影響対象情報が登録されていたか否かを判定する(ステップS105)。 After that, the management unit determines whether or not affected object information corresponding to the process is registered in each failure management information (step S105).

障害管理情報にそのプロセスに対応する影響対象情報が登録されていた場合(ステップS105においてYesの場合)、管理部は、その影響対象情報に登録されている影響対象を再起動する(ステップS106)。 If the affected object information corresponding to the process is registered in the fault management information (Yes in step S105), the management unit restarts the affected object registered in the affected object information (step S106). .

なお、管理部は、障害管理情報において、再起動される影響対象のプロセスに対応する障害情報が登録されている場合には、障害情報通信部に指示して、その障害情報を他の障害情報通信部に送信させ、そのプロセスに対応する影響対象情報が登録されていた場合には、その影響対象情報に登録されている影響対象を再起動する。 If fault information corresponding to the affected process to be restarted is registered in the fault management information, the management section instructs the fault information communication section to replace the fault information with other fault information. If the affected object information corresponding to the process is registered, the affected object registered in the affected object information is restarted.

さらに、管理部は、障害の発生が検出されたプロセスを再起動し(ステップS107)、この再起動処理を終了する。 Furthermore, the management unit restarts the process in which the occurrence of the failure has been detected (step S107), and terminates this restart processing.

また、ステップS103において、障害管理情報にそのプロセスに対応する障害情報が登録されていなかった場合(ステップS103においてNoの場合)、または、ステップS105において、障害管理情報にそのプロセスに対応する影響対象情報が登録されていなかった場合(ステップS105においてNoの場合)、管理部は、障害の発生が検出されたプロセスを再起動し(ステップS107)、この再起動処理を終了する。 Further, in step S103, if the failure information corresponding to the process is not registered in the failure management information (No in step S103), or in step S105, the affected object corresponding to the process in the failure management information If the information is not registered (No in step S105), the management unit restarts the process in which the occurrence of the failure is detected (step S107), and terminates this restart processing.

また、VM管理部74およびプロセス管理部86、96、107,115(以下、単に管理部と呼ぶ。)が障害情報を受信して行う再起動処理の処理手順は、図5で説明した処理手順と同様のものである。 Further, the procedure of restart processing performed by the VM management unit 74 and the process management units 86, 96, 107, and 115 (hereinafter simply referred to as management units) upon receiving fault information is the processing procedure described with reference to FIG. is similar to

すなわち、図5に示すように、障害情報通信部73、85、95、106、114(以下、単に障害情報通信部と呼ぶ。)は、他の障害情報通信部により送信されたVMまたはプロセスの障害に関する障害情報を受信する(ステップS201)。 That is, as shown in FIG. 5, failure information communication units 73, 85, 95, 106, and 114 (hereinafter simply referred to as failure information communication units) communicate the VMs or processes transmitted by other failure information communication units. Failure information about failure is received (step S201).

そして、管理部は、障害情報通信部から障害情報を取得するとともに、それぞれの障害管理情報72a、84a、94a、105a、113a(以下、単に障害管理情報と呼ぶ。)を参照し、その障害情報に対応する障害情報と影響対象情報とを障害管理情報から取得する処理を行う(ステップS202)。 Then, the management unit acquires the failure information from the failure information communication unit, refers to each of the failure management information 72a, 84a, 94a, 105a, and 113a (hereinafter simply referred to as failure management information), and from the failure management information (step S202).

そして、管理部は、それぞれの障害管理情報にそのVMまたはプロセスに対応する障害情報が登録されていたか否かを判定する(ステップS203)。 Then, the management unit determines whether or not failure information corresponding to the VM or process is registered in each failure management information (step S203).

障害管理情報にそのVMまたはプロセスに対応する障害情報が登録されていた場合(ステップS203においてYesの場合)、管理部は、障害情報通信部に指示して、その障害情報を他の障害情報通信部に送信させる(ステップS204)。 If failure information corresponding to the VM or process is registered in the failure management information (Yes in step S203), the management unit instructs the failure information communication unit to transmit the failure information to another failure information communication. department (step S204).

その後、管理部は、それぞれの障害管理情報にそのVMまたはプロセスに対応する影響対象情報が登録されていたか否かを判定する(ステップS205)。 After that, the management unit determines whether or not affected target information corresponding to the VM or process is registered in each failure management information (step S205).

障害管理情報にそのVMまたはプロセスに対応する影響対象情報が登録されていた場合(ステップS205においてYesの場合)、管理部は、その影響対象情報に登録されている影響対象を再起動し、この再起動処理を終了する。(ステップS206)。 If affected target information corresponding to the VM or process is registered in the failure management information (Yes in step S205), the management unit restarts the affected target registered in the affected target information, and restarts the affected target. Finish the reboot process. (Step S206).

なお、管理部は、障害管理情報において、再起動される影響対象のVMまたはプロセスに対応する障害情報が登録されている場合には、障害情報通信部に指示して、その障害情報を他の障害情報通信部に送信させ、そのVMまたはプロセスに対応する影響対象情報が登録されていた場合には、その影響対象情報に登録されている影響対象を再起動する。 If fault information corresponding to the affected VM or process to be restarted is registered in the fault management information, the management unit instructs the fault information communication unit to send the fault information to another machine. If it is transmitted to the failure information communication unit and affected target information corresponding to the VM or process is registered, the affected target registered in the affected target information is restarted.

また、ステップS203において、障害管理情報にそのVMまたはプロセスに対応する障害情報が登録されていなかった場合(ステップS203においてNoの場合)、または、ステップS205において、障害管理情報にそのVMまたはプロセスに対応する影響対象情報が登録されていなかった場合(ステップS205においてNoの場合)、そのままこの再起動処理は終了する。 Further, in step S203, if failure information corresponding to the VM or process is not registered in the failure management information (No in step S203), or in step S205, if the VM or process is registered in the failure management information If the corresponding affected target information is not registered (No in step S205), this restart processing ends.

このように、本実施の形態3では、論理的に区分された複数のグループの少なくとも1つがハイパバイザ上で動作する仮想マシンまたはコンテナであることとした。 As described above, in the third embodiment, at least one of a plurality of logically divided groups is a virtual machine or container operating on a hypervisor.

これにより、仮想マシンのプロセスとコンテナのプロセスとの間に依存関係がある場合でも、障害からの復旧を自律的に行うことができる。 As a result, even if there is a dependency relationship between the virtual machine process and the container process, recovery from a failure can be performed autonomously.

なお、実施の形態1~3で説明した障害管理情報において、影響対象情報として保持する情報は、システムを再起動するための「SYS_RESET」を除き、自グループの管理対象に限定することが望ましい。 In addition, in the failure management information described in the first to third embodiments, it is preferable that the information held as the affected object information is limited to the managed objects of the own group, except for "SYS_RESET" for restarting the system.

すなわち、他のグループのプロセス等に影響がある場合でも、その影響対象の情報は他のグループの障害管理情報で管理される。これは、ソフトウェアとしての結合度を疎に保つためである。 In other words, even if the processes of other groups are affected, the information of the affected objects is managed by the fault management information of the other groups. This is to maintain loose coupling as software.

また、障害管理情報に登録される情報は、計算機システムの起動時に、論理的に区分された各グループ間で通信を行って交換するようにしてもよい。 Further, the information registered in the failure management information may be exchanged by communication between logically divided groups when the computer system is started.

例えば、図1の計算機システムにおいて、第1のVM20に障害が発生した場合、以下のような障害情報の往復が発生する可能性がある。 For example, in the computer system of FIG. 1, when a failure occurs in the first VM 20, there is a possibility that the following round trip of failure information will occur.

(1)第1のVM20から第2のVM30に障害情報Aが送信される。
(2)障害情報Aに基づき、第2のVM40においてプロセスが再起動され、障害情報Bが第1のVM20に送信される。
(3)障害情報Bに基づき、第1のVM20においてプロセスが再起動され、障害情報Cが第2のVM30に送信される。
(1) Fault information A is transmitted from the first VM 20 to the second VM 30 .
(2) Based on the failure information A, the process is restarted in the second VM 40 and the failure information B is sent to the first VM 20 .
(3) Based on the failure information B, the process is restarted in the first VM 20 and the failure information C is sent to the second VM 30 .

障害管理情報に登録される情報が各グループ間であらかじめ交換されることにより、上記のように障害情報の往復が発生する影響対象をあらかじめ検出できる。そして、最初の障害発生時にその影響対象を再起動するとともに、図5のステップS204に示した障害情報の送信処理を省略することにより、上述した障害情報の往復を防止できる。 By exchanging the information registered in the failure management information among the groups in advance, it is possible to detect in advance the affected target for which the back and forth of the failure information occurs as described above. Then, when the first failure occurs, the affected object is restarted, and by omitting the failure information transmission process shown in step S204 of FIG.

また、図11に示した障害管理情報72aの影響対象情報には、計算機システム全体を再起動するため、「SYS_RESET」という情報が登録されていたが、図2、図3、図12~図14に示した各VMが管理する影響対象情報に「VM_RESET」という情報が登録されてもよい。 In addition, information "SYS_RESET" was registered in the affected object information of the fault management information 72a shown in FIG. 11 in order to restart the entire computer system, but FIGS. Information "VM_RESET" may be registered in the affected target information managed by each VM shown in .

この「VM_RESET」は、VMが自らを再起動させるための情報である。例えば、VMは、ハイパバイザ10、70に再起動要求メッセージを送信することにより、自らを再起動させる。 This "VM_RESET" is information for the VM to restart itself. For example, a VM restarts itself by sending a restart request message to the hypervisor 10,70.

また、図8、図9、図15に示した各コンテナが管理する影響対象情報に「CONTAINER_RESET」という情報が登録されてもよい。 Further, information "CONTAINER_RESET" may be registered in the influence target information managed by each container shown in FIGS.

この「CONTAINER_RESET」は、コンテナが自らを再起動させるための情報である。例えば、コンテナは、コンテナ管理プロセス41a、41b、102に再起動要求メッセージを送信することにより、自らを再起動させる。 This "CONTAINER_RESET" is information for the container to restart itself. For example, a container restarts itself by sending a restart request message to the container management processes 41a, 41b, 102. FIG.

または、各コンテナのプロセス管理部55、65、115が自発的に終了処理を行うことで、コンテナ管理プロセス41a、41b、102に各コンテナの障害を検出させ、コンテナ管理プロセス41a、41b、102に各コンテナを再起動させるようにしてもよい。 Alternatively, the process management units 55, 65, and 115 of each container voluntarily perform termination processing to cause the container management processes 41a, 41b, and 102 to detect failures in the respective containers, and cause the container management processes 41a, 41b, and 102 to Each container may be restarted.

また、上記実施の形態1~3では、第1のグループから受信した障害情報が、第2のグループの障害管理情報の障害情報に対応する例として、それらの障害情報が一致する場合について説明したが、障害情報が対応する場合は必ずしもそれに限定されるものではない。 Further, in the first to third embodiments, as an example in which the failure information received from the first group corresponds to the failure information in the failure management information of the second group, the case where the failure information matches is described. However, it is not necessarily limited to that if the failure information corresponds.

例えば、障害情報として「TARGET:VM,VM:IVI」という障害情報を第2のグループが受信したものとする。この障害情報は、図10に示したIVI VM100に障害が発生したことを示す情報である。 For example, assume that the second group has received failure information "TARGET: VM, VM: IVI" as failure information. This failure information is information indicating that a failure has occurred in the IVI VM 100 shown in FIG.

この場合、IVI VM100が再起動されることになるため、各グループの障害管理情報において、VMが「IVI」である障害情報は、すべて「TARGET:VM,VM:IVI」という障害情報に対応するものと判定される。 In this case, since the IVI VM 100 will be restarted, in the failure management information of each group, the failure information in which the VM is "IVI" all correspond to the failure information "TARGET: VM, VM: IVI". is judged to be

例えば、図15に示した障害管理情報113aにおいて、上から4番目の「EXTERNAL_ERROR」のプロセス情報に対応する「TARGET:PROC,VM:IVI,CONTAINER:-,PROC:PROCESSS32」という障害情報は、「TARGET:VM,VM:IVI」という障害情報に対応するものとして、その後の処理が実行される。 For example, in the fault management information 113a shown in FIG. 15, the fault information "TARGET:PROC, VM:IVI, CONTAINER:-, PROC:PROCESS32" corresponding to the fourth process information "EXTERNAL_ERROR" from the top is " The subsequent processing is executed as corresponding to the failure information "TARGET: VM, VM: IVI".

その他、上記実施の形態は、何れも本開示を実施するにあたっての具体化の一例を示したものに過ぎず、これらによって本開示の技術的範囲が限定的に解釈されてはならない。すなわち、本開示はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施される。 In addition, the above-described embodiments are merely examples of specific implementations of the present disclosure, and the technical scope of the present disclosure should not be construed to be limited by these. That is, the disclosure may be embodied in various forms without departing from its spirit or key features.

本開示の技術は、計算機システムおよび再起動プログラムに利用できる。 The technology of the present disclosure can be used for computer systems and restart programs.

10 ハイパバイザ
20 第1のVM
21a~21n,31a~31m,40a~40l,51a~51n,61a~61m,81a~81n,91a~91m,101a~101l,111a~111k プロセス
22,32,42,52,62,82,92,103,112 プロセス監視部
23,33,43,53,63,72,84,94,105,113 障害情報記憶部
23a,33a,43a,53a,63a,72a,84a,94a,105a,113a 障害管理情報
24,34,44,54,64,73,85,95,106,114 障害情報通信部
25,35,45,55,65,86,96,107,115 プロセス管理部
30 第2のVM
41a,41b,102 コンテナ管理プロセス
71 VM監視部
74 VM管理部
10 hypervisor 20 first VM
21a-21n, 31a-31m, 40a-40l, 51a-51n, 61a-61m, 81a-81n, 91a-91m, 101a-101l, 111a-111k process 22, 32, 42, 52, 62, 82, 92, 103, 112 Process monitoring unit 23, 33, 43, 53, 63, 72, 84, 94, 105, 113 Fault information storage unit 23a, 33a, 43a, 53a, 63a, 72a, 84a, 94a, 105a, 113a Fault management Information 24, 34, 44, 54, 64, 73, 85, 95, 106, 114 Fault information communication unit 25, 35, 45, 55, 65, 86, 96, 107, 115 Process management unit 30 Second VM
41a, 41b, 102 container management process 71 VM monitoring unit 74 VM management unit

Claims (11)

論理的に第2のグループと区分された第1のグループで動作する第1のプロセス群において発生する第1の障害の情報を含む第1の障害管理情報を記憶する第1の障害情報記憶部と、
前記第1の障害の情報に対応する第2の外部障害情報と、前記第2のグループにおける前記第1の障害の影響対象の情報とを対応付けて登録した第2の障害管理情報を記憶する第2の障害情報記憶部と、
前記第1の障害を検出した場合に、前記第1の障害の情報を第1の障害情報通信部に送信させる第1のプロセス管理部と、
前記第1の障害の情報を第2の障害情報通信部が受信した場合に、前記第2の障害管理情報を参照し、前記第2の外部障害情報に対応する前記第1の障害の影響対象を再起動する第2のプロセス管理部と、
を備える計算機システム。
A first fault information storage unit for storing first fault management information including information on a first fault occurring in a first process group operating in a first group logically separated from a second group When,
storing second failure management information in which second external failure information corresponding to the information of the first failure and information affected by the first failure in the second group are registered in association with each other; a second failure information storage unit;
a first process management unit for transmitting information of the first failure to a first failure information communication unit when the first failure is detected;
When the second failure information communication unit receives the information of the first failure, the affected target of the first failure corresponding to the second external failure information by referring to the second failure management information. a second process manager that restarts the
A computer system comprising
前記第1のプロセス群のハートビートを監視する第1のプロセス監視部をさらに備え、前記第1のプロセス監視部は、ハートビートの監視結果の情報を前記第1のプロセス管理部に通知し、前記第1のプロセス管理部は、前記第1のプロセス監視部による通知に基づいて、前記第1の障害を検出する請求項1に記載の計算機システム。 further comprising a first process monitoring unit for monitoring a heartbeat of the first process group, the first process monitoring unit notifying the first process management unit of heartbeat monitoring result information; 2. The computer system according to claim 1, wherein said first process manager detects said first failure based on a notification from said first process monitor. 前記第1の障害管理情報には、さらに前記第2のグループで動作する第2のプロセス群において発生する第2の障害に対応する第1の外部障害情報と、前記第2の障害の影響対象の情報とが対応付けて登録され、
前記第2の障害管理情報は、前記第2の障害の情報をさらに含み、
前記第2のプロセス管理部は、前記第2の障害を検出した場合に、前記第2の障害の情報を前記第2の障害情報通信部に送信させ、
前記第1のプロセス管理部は、前記第1の障害情報通信部が前記第2の障害の情報を受信した場合に、前記第1の障害管理情報を参照し、前記第1の外部障害情報に対応する前記第2の障害の影響対象を再起動する
請求項1または2に記載の計算機システム。
The first failure management information further includes first external failure information corresponding to a second failure that occurs in a second process group operating in the second group, and a target affected by the second failure. is registered in association with the information of
the second failure management information further includes information about the second failure;
The second process management unit causes the second failure information communication unit to transmit information on the second failure when the second failure is detected,
When the first failure information communication unit receives the second failure information, the first process management unit refers to the first failure management information and changes the information to the first external failure information. 3. The computer system according to claim 1, wherein the affected target of the corresponding second failure is restarted.
前記第1のグループおよび前記第2のグループの少なくとも1つが、コンテナである請求項1~3のいずれかに記載の計算機システム。 4. The computer system according to claim 1, wherein at least one of said first group and said second group is a container. 前記第1のグループおよび前記第2のグループが前記コンテナである場合に、
前記第1の障害の情報または前記第2のグループで動作する第2のプロセス群において発生する第2の障害の情報に対応する第3の外部障害情報と、前記第1の障害の情報または前記第2の障害の情報の影響対象の情報とを含む第3の障害管理情報を記憶する第3の障害情報記憶部と、
前記第1の障害の情報または前記第2の障害の情報のいずれかの障害情報を第3の障害情報通信部が受信した場合に、前記第3の障害管理情報を参照し、前記第3の外部障害情報に対応する前記第1の障害の影響対象または前記第2の障害の影響対象を再起動する第3のプロセス管理部と、
を備える請求項4に記載の計算機システム。
when the first group and the second group are the containers,
third external fault information corresponding to the first fault information or the second fault information occurring in the second process group operating in the second group; a third failure information storage unit that stores third failure management information including information about a second failure and information about an affected target;
When the third failure information communication unit receives failure information of either the first failure information or the second failure information, the third failure management information is referred to, and the third failure management information is referred to. a third process management unit that restarts the target affected by the first failure or the target affected by the second failure corresponding to the external failure information;
5. The computer system according to claim 4, comprising:
前記第1のグループを管理するプロセスおよび前記第2のグループを管理するプロセスのハートビートを監視する第3のプロセス監視部をさらに備え、前記第3のプロセス監視部は、ハートビートの監視結果の情報を前記第3のプロセス管理部に通知し、前記第3のプロセス管理部は、前記第3のプロセス監視部による通知に基づいて前記第1のグループを管理するプロセスの障害または前記第2のグループを管理するプロセスの障害を検出し、前記第3の障害管理情報を参照して、検出された前記第1のグループを管理するプロセスの障害の影響対象、または、前記第2のグループを管理するプロセスの障害の影響対象を再起動する
請求項5に記載の計算機システム。
A third process monitoring unit for monitoring heartbeats of the process managing the first group and the process managing the second group, wherein the third process monitoring unit monitors heartbeat monitoring results. Information is notified to the third process management unit, and the third process management unit detects a failure of the process managing the first group based on the notification from the third process monitoring unit or Detecting a failure of a process managing a group, referring to the third failure management information, and managing a target affected by the detected failure of the process managing the first group or the second group 6. The computer system according to claim 5, wherein the affected object of the failure of the process to be executed is restarted.
前記第1のグループおよび前記第2のグループの少なくとも1つが、ハイパバイザ上で動作する仮想マシンである請求項1~3のいずれかに記載の計算機システム。 4. The computer system according to claim 1, wherein at least one of said first group and said second group is a virtual machine running on a hypervisor. 前記第1のグループおよび前記第2のグループが前記仮想マシンである場合に、
前記第1の障害の情報または前記第2のグループで動作する第2のプロセス群において発生する第2の障害の情報に対応する第3の外部障害情報と、前記第1の障害の情報または前記第2の障害の情報の影響対象の情報とを含む第3の障害管理情報を記憶する第3の障害情報記憶部と、
前記第1の障害の情報または前記第2の障害の情報のいずれかの障害情報を第3の障害情報通信部が受信した場合に、前記第3の障害管理情報を参照し、前記第3の外部障害情報に対応する前記第1の障害の影響対象または前記第2の障害の影響対象を再起動するVM管理部と、
を備える請求項7に記載の計算機システム。
When the first group and the second group are the virtual machines,
third external fault information corresponding to the first fault information or the second fault information occurring in the second process group operating in the second group; a third failure information storage unit that stores third failure management information including information about a second failure and information about an affected target;
When the third failure information communication unit receives failure information of either the first failure information or the second failure information, the third failure management information is referred to, and the third failure management information is referred to. a VM management unit that restarts the target affected by the first failure or the target affected by the second failure corresponding to the external failure information;
8. The computer system of claim 7, comprising:
前記第1のグループおよび前記第2のグループを監視するVM監視部をさらに備え、前記VM監視部は、前記第1のグループおよび前記第2のグループの監視結果の情報を前記VM管理部に通知し、前記VM管理部は、前記VM監視部による通知に基づいて前記第1のグループまたは前記第2のグループの障害を検出し、前記第3の障害管理情報を参照して、検出された前記第1のグループの障害の影響対象、または、前記第2のグループの障害の影響対象を再起動する
請求項8に記載の計算機システム。
further comprising a VM monitoring unit that monitors the first group and the second group, wherein the VM monitoring unit notifies the VM management unit of information on monitoring results of the first group and the second group; and the VM management unit detects a failure in the first group or the second group based on the notification from the VM monitoring unit, refers to the third failure management information, and detects the detected failure. 9. The computer system according to claim 8, wherein the failure-affected objects of the first group or the failure-affected objects of the second group are restarted.
前記第3の障害情報記憶部、前記VM監視部、および前記VM管理部は、ハイパバイザ上で動作する請求項9に記載の計算機システム。 10. The computer system according to claim 9, wherein said third fault information storage unit, said VM monitoring unit, and said VM management unit operate on a hypervisor. 論理的に第2のグループと区分された第1のグループで動作する第1のプロセス群において発生する第1の障害を検出した場合に、前記第1の障害の情報を含む第1の障害管理情報を記憶した第1の障害情報記憶部から前記第1の障害の情報を読み出して第1の障害情報通信部に送信させる手順と、
前記第1の障害の情報を受信した第2の障害情報通信部から前記第1の障害の情報を取得し、前記第1の障害の情報に対応する第2の外部障害情報と、前記第2のグループにおける前記第1の障害の影響対象の情報とを対応付けて登録した第2の障害管理情報を記憶する第2の障害情報記憶部から前記第2の障害管理情報を読み出して前記第1の障害の情報に対応する前記第2の外部障害情報を特定し、特定した前記第2の外部障害情報に対応する前記第1の障害の影響対象を再起動する手順と、
をコンピュータに実行させる再起動プログラム。
first fault management including information on said first fault when a first fault occurring in a first process group operating in a first group logically separated from a second group is detected; a procedure of reading the information of the first failure from the first failure information storage unit storing the information and transmitting the information to the first failure information communication unit;
Acquiring the information of the first failure from the second failure information communication unit that received the information of the first failure, obtaining the second external failure information corresponding to the information of the first failure, and the second failure information reading the second failure management information from a second failure information storage unit that stores the second failure management information registered in association with the information affected by the first failure in the group of a procedure of identifying the second external failure information corresponding to the failure information of and restarting the target affected by the first failure corresponding to the identified second external failure information;
A restart program that causes the computer to run
JP2021044991A 2021-03-18 2021-03-18 Computer system and restart program Pending JP2022144118A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021044991A JP2022144118A (en) 2021-03-18 2021-03-18 Computer system and restart program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021044991A JP2022144118A (en) 2021-03-18 2021-03-18 Computer system and restart program

Publications (1)

Publication Number Publication Date
JP2022144118A true JP2022144118A (en) 2022-10-03

Family

ID=83454822

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021044991A Pending JP2022144118A (en) 2021-03-18 2021-03-18 Computer system and restart program

Country Status (1)

Country Link
JP (1) JP2022144118A (en)

Similar Documents

Publication Publication Date Title
US7802128B2 (en) Method to avoid continuous application failovers in a cluster
CN103201724B (en) Providing application high availability in highly-available virtual machine environments
CN108418711B (en) Storage medium for fault management
EP2518627B1 (en) Partial fault processing method in computer system
US20170123927A1 (en) System and method for selective bios restoration
JP5579650B2 (en) Apparatus and method for executing monitored process
US20050235136A1 (en) Methods and systems for thread monitoring
US20150033072A1 (en) Monitoring hierarchical container-based software systems
US20150220411A1 (en) System and method for operating system agnostic hardware validation
WO2020239060A1 (en) Error recovery method and apparatus
WO2018095107A1 (en) Bios program abnormal processing method and apparatus
US20120304184A1 (en) Multi-core processor system, computer product, and control method
JP5425720B2 (en) Virtualization environment monitoring apparatus and monitoring method and program thereof
CN115113905A (en) Firmware upgrading method and firmware upgrading device
US10838815B2 (en) Fault tolerant and diagnostic boot
JP2016200981A (en) Operation management program, operation management method and operation management device
JP2012080181A (en) Method and program for fault information management
US10970098B2 (en) Methods for sharing input-output device for process automation on a computing machine and devices thereof
JP2022144118A (en) Computer system and restart program
US9645857B2 (en) Resource fault management for partitions
US10089200B2 (en) Computer apparatus and computer mechanism
JP2013152627A (en) On-vehicle terminal, and application execution environment program
JP4633553B2 (en) Debug system, debugging method and program
JPH08329006A (en) Fault information system
JP2002351855A (en) Computer abnormality handling system, computer abnormality handling method, computer abnormality handling program running on computer and computer abnormality handling program stored in machine readable storage medium