JP7311335B2 - DISTRIBUTED CONTAINER MONITORING SYSTEM AND DISTRIBUTED CONTAINER MONITORING METHOD - Google Patents

DISTRIBUTED CONTAINER MONITORING SYSTEM AND DISTRIBUTED CONTAINER MONITORING METHOD Download PDF

Info

Publication number
JP7311335B2
JP7311335B2 JP2019125791A JP2019125791A JP7311335B2 JP 7311335 B2 JP7311335 B2 JP 7311335B2 JP 2019125791 A JP2019125791 A JP 2019125791A JP 2019125791 A JP2019125791 A JP 2019125791A JP 7311335 B2 JP7311335 B2 JP 7311335B2
Authority
JP
Japan
Prior art keywords
container
monitoring
monitored
signal
business
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019125791A
Other languages
Japanese (ja)
Other versions
JP2021012498A (en
Inventor
明彦 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2019125791A priority Critical patent/JP7311335B2/en
Publication of JP2021012498A publication Critical patent/JP2021012498A/en
Application granted granted Critical
Publication of JP7311335B2 publication Critical patent/JP7311335B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明は、分散型コンテナ監視システム及び分散型コンテナ監視方法に関するものである。 The present invention relates to a distributed container monitoring system and a distributed container monitoring method.

従来から、コンテナ環境において管理状態等を各サーバ資源がブロックチェーンとして保持することで、中央管理システムを使用せずに、サーバ資源に障害が発生した際、当該サーバ資源上で稼働していたコンテナの再配置先を決定し、再配置することでコンテナ環境を復旧するものがある(例えば、特許文献1参照)。 Conventionally, in a container environment, each server resource maintains the management status etc. as a blockchain, so that when a failure occurs in a server resource without using a central management system, the container that was running on the server resource concerned A container environment is restored by determining the relocation destination of the container and relocating the container (see, for example, Patent Literature 1).

特開2018-156465号公報JP 2018-156465 A

特許文献1に記載の技術では、エージェントがサーバ資源を監視することで、サーバ資源に障害が発生しているか否かを判断しているが、当該エージェントを有する装置が、障害発生してしまった場合、適切に障害監視できない可能性がある。 In the technique described in Patent Document 1, an agent monitors server resources to determine whether or not a failure has occurred in the server resources. In this case, fault monitoring may not be performed properly.

そこで本発明の目的は、より適切に障害監視することにある。 SUMMARY OF THE INVENTION Accordingly, it is an object of the present invention to perform failure monitoring more appropriately.

本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述及び添付図面から明らかになるであろう。 The above and other objects and novel features of the present invention will become apparent from the description of the specification and the accompanying drawings.

本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。 A brief outline of typical inventions disclosed in the present application is as follows.

本発明の代表的な実施の形態による監視対象のコンテナの稼働状況を監視する分散型コンテナ監視システムでは、監視対象のコンテナを監視する第1の監視コンテナと、第1の監視コンテナを監視する第2の監視コンテナと、を備え、第1の監視コンテナは、監視対象のコンテナに対して状況確認を示す信号を送信する第1信号送信部と、第1信号送信部により送信された信号に対する監視対象のコンテナの応答状況に基づいて、監視対象のコンテナの障害を検知する第1検知部と、を有し、第2の監視コンテナは、第1の監視コンテナに対して状況確認を示す信号を送信する第2信号送信部と、第2信号送信部により送信された信号に対する第1の監視コンテナの応答状況に基づいて、第1の監視コンテナの障害を検知する第2検知部と、を有する。 In a distributed container monitoring system for monitoring the operating status of a container to be monitored according to a representative embodiment of the present invention, a first monitoring container for monitoring the container to be monitored and a first monitoring container for monitoring the first monitoring container are provided. 2 monitoring containers, wherein the first monitoring container includes a first signal transmission unit for transmitting a signal indicating status confirmation to the container to be monitored, and monitoring the signal transmitted by the first signal transmission unit. a first detection unit that detects a failure of the container to be monitored based on the response status of the container to be monitored, and the second monitoring container sends a signal indicating status confirmation to the first monitoring container. a second signal transmission unit for transmitting; and a second detection unit for detecting a failure of the first monitoring container based on the response status of the first monitoring container to the signal transmitted by the second signal transmission unit. .

本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。 Among the inventions disclosed in the present application, the effects obtained by representative ones are briefly described below.

すなわち、本発明の代表的な実施の形態によれば、より適切に障害監視することが可能となる。 That is, according to the representative embodiment of the present invention, fault monitoring can be performed more appropriately.

本実施形態である分散型コンテナ監視システムの構成について概要を示した図である。1 is a diagram showing an overview of the configuration of a distributed container monitoring system according to this embodiment; FIG. 本実施形態である監視コンテナの機能ブロック図である。3 is a functional block diagram of a monitoring container according to this embodiment; FIG. 本実施形態における監視コンテナによる業務コンテナ及び監視コンテナを監視し、業務コンテナに障害を検知した場合の処理の流れを示すシーケンス図である。FIG. 10 is a sequence diagram showing the flow of processing when the monitoring container monitors the business container and the monitoring container and detects a failure in the business container according to the present embodiment; 本実施形態における監視コンテナによる業務コンテナ及び監視コンテナを監視し、監視コンテナに障害を検知した場合の処理の流れを示すシーケンス図である。FIG. 10 is a sequence diagram showing the flow of processing when a monitoring container monitors a business container and a monitoring container and detects a failure in the monitoring container according to the present embodiment; 監視状況の画面例を説明する図の例である。It is an example of a figure explaining the example of a screen of a monitoring situation.

以下、本実施形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一の符号を付し、その繰り返しの説明は省略する。一方で、ある図において符号を付して説明した部位について、他の図の説明の際に再度の図示はしないが同一の符号を付して言及する場合がある。 Hereinafter, this embodiment will be described in detail based on the drawings. In principle, the same parts are denoted by the same reference numerals throughout the drawings for describing the embodiments, and repeated descriptions thereof will be omitted. On the other hand, parts that have been described with reference numerals in one drawing may be referred to with the same reference numerals, although they are not shown again in the description of other drawings.

<概要>
図1は、本実施形態である分散型コンテナ監視システム1の構成について概要を示した図である。図1に示すように、分散型コンテナ監視システム1は、サーバ10(サーバ10a~サーバ10c)、及びコントロールサーバ20を有する。
<Overview>
FIG. 1 is a diagram showing an overview of the configuration of a distributed container monitoring system 1 according to this embodiment. As shown in FIG. 1, the distributed container monitoring system 1 has servers 10 (servers 10 a to 10 c ) and a control server 20 .

分散型コンテナ監視システム1は、監視対象のコンテナ(業務アプリケーションを実行するコンテナ等)の稼働状況を監視するシステムである。ここで、コンテナとは、仮想化技術により実現されるものである。 The distributed container monitoring system 1 is a system that monitors the operation status of monitored containers (containers that execute business applications, etc.). Here, a container is realized by virtualization technology.

サーバ10a~サーバ10c、コントロールサーバ20は、いわゆるサーバ装置であり、ネットワーク30を介して互いに情報・信号を送受信できる。 The servers 10a to 10c and the control server 20 are so-called server devices, and can exchange information and signals with each other via the network 30. FIG.

サーバ10及びコントロールサーバ20は、図示しないCPU(Central Processing Unit)により、HDD(Hard Disk Drive)等の記録装置からメモリ上に展開したOS(Operating System)やDBMS(DataBase Management System)、Webサーバプログラム等のミドルウェアや、その上で稼働するソフトウェアを実行する。これにより、後述する各種機能を実現する。 The server 10 and the control server 20 run an OS (Operating System), a DBMS (DataBase Management System), and a Web server program developed on a memory from a recording device such as an HDD (Hard Disk Drive) by a CPU (Central Processing Unit) (not shown). and other middleware and software running on it. This implements various functions to be described later.

コントロールサーバ20は、コンテナを管理し、サーバ10へコンテナ作成の指示をする。コントロールサーバ20は、サーバ10で実行しているコンテナの稼働状況の情報をサーバ10から取得し、取得した情報を出力処理する。 The control server 20 manages containers and instructs the server 10 to create containers. The control server 20 acquires from the server 10 information on the operation status of the container being executed by the server 10, and outputs the acquired information.

このコントロールサーバ20は、Kubernetes等の、既存の分散型コンテナ運用管理ソフトウェアを実行することで、各種機能を実現する。 The control server 20 implements various functions by executing existing distributed container operation management software such as Kubernetes.

サーバ10は、コントロールサーバ20からの指示に基づいて、コンテナを生成する。サーバ10は、コントロールサーバ20からの指示に基づいて、業務アプリケーションを実行するコンテナである業務コンテナ11(監視対象のコンテナ)や、当該業務コンテナを監視することが可能なコンテナである監視コンテナ12を生成する。 The server 10 creates containers based on instructions from the control server 20 . Based on instructions from the control server 20, the server 10 selects a business container 11 (container to be monitored), which is a container for executing business applications, and a monitoring container 12, which is a container capable of monitoring the business container. Generate.

また、サーバ10における監視コンテナ12が、業務コンテナ11の監視をする。また、業務コンテナ11を監視する監視コンテナ12以外の監視コンテナ12が、業務コンテナ11を監視する監視コンテナ12を監視する。 Also, the monitoring container 12 in the server 10 monitors the business container 11 . Also, the monitoring container 12 other than the monitoring container 12 monitoring the business container 11 monitors the monitoring container 12 monitoring the business container 11 .

なお、図1に示す分散型コンテナ監視システム1では、サーバ10a(識別子はサーバS1)は、監視コンテナ12a(識別子は監視コンテナM1)有する。また、サーバ10b(識別子はサーバS2)は、業務コンテナ11と監視コンテナ12b(識別子は監視コンテナM2)とを有する。また、サーバ10c(識別子はサーバS3)は、監視コンテナ12c(識別子は監視コンテナM3)を有する。 In the distributed container monitoring system 1 shown in FIG. 1, the server 10a (identifier is server S1) has a monitoring container 12a (identifier is monitoring container M1). The server 10b (identifier is server S2) has a business container 11 and a monitoring container 12b (identifier is monitoring container M2). The server 10c (identifier is server S3) has a monitoring container 12c (identifier is monitoring container M3).

このように、分散型コンテナ監視システム1では、監視コンテナ12が、各サーバ資源(サーバ10a~サーバ10c)に分散配置されている。 As described above, in the distributed container monitoring system 1, the monitoring containers 12 are distributed to each server resource (server 10a to server 10c).

続いて、監視コンテナ12の機能について、図2を用いて説明する。図2は、監視コンテナ12の機能ブロック図である。 Next, functions of the monitoring container 12 will be described with reference to FIG. FIG. 2 is a functional block diagram of the monitoring container 12. As shown in FIG.

図2に示すように、監視コンテナ12は、役割決定部121、第1信号送信部122、第1検知部123、第2信号送信部124、第2検知部125、検知結果出力部126、及び復旧部127を有する。 As shown in FIG. 2, the monitoring container 12 includes a role determination unit 121, a first signal transmission unit 122, a first detection unit 123, a second signal transmission unit 124, a second detection unit 125, a detection result output unit 126, and a It has a recovery unit 127 .

役割決定部121は、監視コンテナ12のそれぞれが、業務コンテナ11を監視する監視コンテナ12(第1の監視コンテナ)として機能するか、業務コンテナ11を監視する監視コンテナ12を監視するコンテナ(第2の監視コンテナ)として機能するかを決定する部分である。 The role determining unit 121 determines whether each of the monitoring containers 12 functions as a monitoring container 12 (first monitoring container) that monitors the business container 11 or functions as a container (second monitoring container) that monitors the monitoring container 12 that monitors the business container 11 . monitoring container).

役割決定部121は、例えば、コントロールサーバ20からリーダ立候補の問い合わせを受けると、リーダ立候補を示す信号をコントロールサーバ20または他の監視コンテナ12へ送出する。ここでリーダとは、業務コンテナ11を監視するコンテナを意味する。 For example, upon receiving a leader candidacy inquiry from the control server 20 , the role determining unit 121 sends a signal indicating the leader candidacy to the control server 20 or other monitoring container 12 . Here, a leader means a container that monitors the business container 11 .

また、役割決定部121は、他の監視コンテナ12からのリーダ立候補を示す信号を受信する。役割決定部121は、最も早くリーダ立候補を示す信号を送信した監視コンテナ12を、業務コンテナ11を監視する監視コンテナ12に決定する。また、他の監視コンテナ12を、業務コンテナ11を監視する監視コンテナ12に決定する。 Also, the role determination unit 121 receives a signal indicating a leader candidacy from another monitoring container 12 . The role determining unit 121 determines the monitoring container 12 that has transmitted the signal indicating the leader candidate earliest to be the monitoring container 12 that monitors the business container 11 . Also, another monitoring container 12 is determined to be the monitoring container 12 that monitors the business container 11 .

また、役割決定部121は、自監視コンテナ12が、業務コンテナ11を監視する監視コンテナ12である場合、定期的にリーダ継続表明を示す信号を他の監視コンテナ12へ送信する。 Further, when the self-monitoring container 12 is the monitoring container 12 that monitors the business container 11 , the role determination unit 121 periodically transmits a signal indicating the leader continuation assertion to the other monitoring containers 12 .

また、業務コンテナ11を監視する監視コンテナ12に障害が発生していることが検知された場合に、役割決定部121は、リーダ立候補を示す信号をコントロールサーバ20や他の監視コンテナ12へ送信する。このように、役割決定部121は、リーダとなる監視コンテナ12に障害が発生した場合に、役割を決定し直す。このように、役割決定部121は、リーダである監視コンテナ12に障害が発生したことをトリガとして、障害が発生した監視コンテナ12以外の監視コンテナ12をリーダにする。 Further, when it is detected that a failure has occurred in the monitoring container 12 that monitors the business container 11, the role determining unit 121 transmits a signal indicating a leader candidate to the control server 20 and other monitoring containers 12. . In this manner, the role determination unit 121 re-determines the role when a failure occurs in the monitoring container 12 serving as the leader. In this way, the role determining unit 121, triggered by the occurrence of a failure in the monitoring container 12 that is the leader, sets the monitoring container 12 other than the failed monitoring container 12 as the leader.

第1信号送信部122は、監視対象のコンテナである業務コンテナ11に対して状況確認を示す信号を送信する部分である。 The first signal transmission unit 122 is a part that transmits a signal indicating status confirmation to the business container 11, which is a container to be monitored.

役割決定部121により、自コンテナが、業務コンテナ11を監視する監視コンテナ12として機能することが決定された場合、第1信号送信部122は、予め定められているタイミングで業務コンテナ11へ生存確認を問い合わせる信号(ヘルスチェック信号)である生存確認信号を送信する。 When the role determining unit 121 determines that the own container functions as the monitoring container 12 that monitors the business container 11, the first signal transmitting unit 122 confirms the survival of the business container 11 at a predetermined timing. a signal (health check signal) to inquire about the

第1信号送信部122は、生存確認信号を送信すると、送信した旨を第1検知部123へ通知する。 After transmitting the survival confirmation signal, first signal transmitting section 122 notifies first detecting section 123 of the transmission.

第1検知部123は、第1信号送信部122により送信された信号に対する業務コンテナ11の応答状況に基づいて、業務コンテナ11の障害を検知する部分である。 The first detection unit 123 is a part that detects a failure of the business container 11 based on the response status of the business container 11 to the signal transmitted by the first signal transmission unit 122 .

第1検知部123は、第1信号送信部122により、生存確認信号が送信された旨の通知を取得すると、業務コンテナ11からの当該生存確認信号に対する応答信号の受付をする。 When the first detection unit 123 acquires the notification that the life confirmation signal has been transmitted by the first signal transmission unit 122 , the first detection unit 123 receives a response signal to the life confirmation signal from the business container 11 .

第1検知部123は、当該応答信号の内容または、当該応答信号の受信状態に基づいて、業務コンテナ11の障害を検知する。 The first detection unit 123 detects a failure of the business container 11 based on the content of the response signal or the reception state of the response signal.

例えば、第1検知部123は、第1信号送信部122から生存確認信号が送信されてから予め定められている期間内に応答信号が送信されなかった場合、この結果に基づいて、業務コンテナ11の障害を検知する。 For example, if the response signal is not transmitted within a predetermined period after the survival confirmation signal is transmitted from the first signal transmission unit 122, the first detection unit 123 detects the status of the business container 11 based on this result. to detect failures in

なお、第1検知部123は、応答信号を受信するタイミングが徐々に遅くなってきている場合に、業務コンテナ11の障害を検知するようにしてもよい。これは、業務コンテナ11の障害の蓋然性が高いためである。 Note that the first detection unit 123 may detect a failure of the business container 11 when the timing of receiving the response signal is gradually delayed. This is because the business container 11 has a high probability of failure.

第1検知部123は、応答信号を受信した場合、当該応答信号を検知結果出力部126へ送出する。また、第1検知部123は、業務コンテナ11の障害を検知した場合、障害を検知した旨を検知結果出力部126へ送出する。 When receiving the response signal, the first detection unit 123 outputs the response signal to the detection result output unit 126 . Further, when the first detection unit 123 detects a failure of the business container 11 , it sends the detection of the failure to the detection result output unit 126 .

なお、第1検知部123は、当該応答信号自体や、当該応答信号に関する情報(応答信号を受信するまでの時間に関する情報)を検知結果出力部126へ送出してもよい。 Note that the first detection unit 123 may send the response signal itself or information about the response signal (information about the time until the response signal is received) to the detection result output unit 126 .

第2信号送信部124は、業務コンテナ11を監視する監視コンテナ12に対して状況確認を示す信号を送信する部分である。 The second signal transmission unit 124 is a part that transmits a signal indicating status confirmation to the monitoring container 12 that monitors the business container 11 .

役割決定部121により、自コンテナが、業務コンテナ11を監視する監視コンテナ12を監視する監視コンテナ12として機能することが決定された場合、第2信号送信部124は、所定のタイミングで監視対象の監視コンテナ12に対して生存確認信号を送信する。 When the role determination unit 121 determines that the own container functions as the monitoring container 12 that monitors the monitoring container 12 that monitors the business container 11, the second signal transmission unit 124 determines the monitoring target at a predetermined timing. A survival confirmation signal is transmitted to the monitoring container 12 .

第2信号送信部124は、生存確認信号を送信すると、送信した旨を第2検知部125へ通知する。 After transmitting the survival confirmation signal, second signal transmission section 124 notifies second detection section 125 of the transmission.

第2検知部125は、第2信号送信部124により送信された信号に対する、監視対象の監視コンテナ12の応答状況に基づいて、監視対象の監視コンテナ12の障害を検知する部分である。 The second detection unit 125 is a part that detects a failure of the monitoring container 12 to be monitored based on the response status of the monitoring container 12 to be monitored to the signal transmitted by the second signal transmission unit 124 .

第2検知部125は、第2信号送信部124により、生存確認信号が送信された旨の通知を取得すると、監視対象の監視コンテナ12からの当該生存確認信号に対する応答信号の受付をする。監視対象の監視コンテナ12は、正常に稼働している場合、当該生存確認信号を受信すると、応答信号を当該生存確認信号の送信元へ送信する。 When the second detection unit 125 acquires the notification that the survival confirmation signal has been transmitted by the second signal transmission unit 124, the second detection unit 125 receives a response signal to the survival confirmation signal from the monitoring container 12 to be monitored. When the monitoring container 12 to be monitored is operating normally and receives the life confirmation signal, it transmits a response signal to the sender of the life confirmation signal.

第2検知部125は、当該応答信号の内容または、当該応答信号の受信状態に基づいて、監視対象の監視コンテナ12の障害を検知する。 The second detection unit 125 detects a failure of the monitoring container 12 to be monitored based on the content of the response signal or the reception state of the response signal.

例えば、第2検知部125は、第2信号送信部124から生存確認信号が送信されてから予め定められている期間内に応答信号が送信されなかった場合、この結果に基づいて、監視対象の監視コンテナ12の障害を検知する。 For example, when the response signal is not transmitted within a predetermined period after the survival confirmation signal is transmitted from the second signal transmission unit 124, the second detection unit 125 determines the monitoring target based on this result. A failure of the monitoring container 12 is detected.

なお、第2検知部125は、応答信号を受信するタイミングが徐々に遅くなってきている場合に、監視対象の監視コンテナ12の障害を検知するようにしてもよい。これは、監視対象の監視コンテナ12の障害の蓋然性が高いためである。 Note that the second detection unit 125 may detect a failure of the monitoring container 12 to be monitored when the timing of receiving the response signal is gradually delayed. This is because the probability of failure of the monitoring container 12 to be monitored is high.

第2検知部125は、応答信号を受信した場合、当該応答信号を検知結果出力部126へ送出する。また、第2検知部125は、監視対象の監視コンテナ12の障害を検知した場合、障害を検知した旨を検知結果出力部126へ送出する。なお、第2検知部125は、当該応答信号自体や、当該応答信号に関する情報(応答信号を受信するまでの時間に関する情報)を検知結果出力部126へ送出してもよい。 When receiving the response signal, the second detection unit 125 sends the response signal to the detection result output unit 126 . Further, when the second detection unit 125 detects a failure of the monitoring container 12 to be monitored, the second detection unit 125 sends a notification to the effect that the failure has been detected to the detection result output unit 126 . Note that the second detection unit 125 may send the response signal itself or information about the response signal (information about the time until the response signal is received) to the detection result output unit 126 .

検知結果出力部126は、第1検知部123または第2検知部125による検知結果を出力する部分である。 The detection result output unit 126 is a part that outputs the detection result by the first detection unit 123 or the second detection unit 125 .

例えば、検知結果出力部126は、第1検知部123または第2検知部125による検知結果をコントロールサーバ20へ送信する。 For example, the detection result output unit 126 transmits the detection result by the first detection unit 123 or the second detection unit 125 to the control server 20 .

なお、検知結果出力部126は、第1検知部123または第2検知部125から取得した応答信号自体や当該応答信号に関する情報を取得して、これらの情報をコントロールサーバ20へ送信してもよい。 Note that the detection result output unit 126 may acquire information about the response signal itself or the response signal acquired from the first detection unit 123 or the second detection unit 125 and transmit this information to the control server 20. .

復旧部127は、第1検知部123により監視対象のコンテナである業務コンテナ11の障害が検知された場合、コンテナ環境の復旧処理をする部分である。 The recovery unit 127 is a part that performs recovery processing of the container environment when the first detection unit 123 detects a failure in the business container 11, which is a container to be monitored.

復旧部127は、第1検知部123から業務コンテナ11の障害が検知された旨の通知を受けると、障害が発生した業務コンテナ11以外のサーバ10に対して、コンテナ作成要求をして、業務コンテナ11の作成要求をする。この場合、要求先のサーバ10が、業務コンテナ11を作成して、当該業務コンテナ11を稼働させる。このように、復旧部127は、業務コンテナ11の障害が検知された場合、コンテナ環境の復旧処理をする。 Upon receiving notification from the first detection unit 123 that a failure of the business container 11 has been detected, the recovery unit 127 requests the server 10 other than the business container 11 in which the failure occurred to create a container, and restores the business. Make a request to create the container 11 . In this case, the server 10 to which the request is made creates the business container 11 and operates the business container 11 . In this manner, the recovery unit 127 performs recovery processing of the container environment when a failure of the business container 11 is detected.

<処理手順>
続いて、図3を用いて、本実施形態における監視コンテナ12による業務コンテナ11及び監視コンテナ12を監視し、業務コンテナ11に障害を検知した場合の処理について説明する。
<Processing procedure>
Next, with reference to FIG. 3, processing when the monitoring container 12 in this embodiment monitors the business container 11 and the monitoring container 12 and detects a failure in the business container 11 will be described.

図3は、本実施形態における監視コンテナ12による業務コンテナ11及び監視コンテナ12を監視し、業務コンテナ11に障害を検知した場合の処理の流れを示すシーケンス図である。 FIG. 3 is a sequence diagram showing the flow of processing when the monitoring container 12 monitors the business container 11 and the monitoring container 12 and detects a failure in the business container 11 in this embodiment.

まず、サーバ10bにおいて、業務コンテナ11が稼働しているものとする(ステップS1)。コントロールサーバ20からリーダ候補の問い合わせを受信すると、役割決定部121は、リーダ立候補を示す信号を他の監視コンテナ12へ送信する。例えば、監視コンテナ12aの役割決定部121は、監視コンテナ12b及び監視コンテナ12cへリーダ立候補を示す信号を送信する(ステップS2、ステップS3)。 First, it is assumed that the business container 11 is running in the server 10b (step S1). Upon receiving a leader candidate inquiry from the control server 20 , the role determining unit 121 transmits a signal indicating a leader candidate to the other monitoring containers 12 . For example, the role determining unit 121 of the monitoring container 12a transmits a signal indicating leader candidacy to the monitoring containers 12b and 12c (steps S2 and S3).

監視コンテナ12aの役割決定部121は、自監視コンテナ12aが最も早くリーダ立候補を示す信号を送信している場合、自監視コンテナ12aを、業務コンテナ11を監視する監視コンテナに決定する。また、監視コンテナ12aの役割決定部121は、監視コンテナ12b及び監視コンテナ12cを、監視コンテナ12aを監視する監視コンテナに決定する。 The role determining unit 121 of the monitoring container 12a determines the monitoring container 12a to be the monitoring container that monitors the business container 11 when the monitoring container 12a transmits the signal indicating the leader candidate earliest. Also, the role determining unit 121 of the monitoring container 12a determines the monitoring container 12b and the monitoring container 12c as monitoring containers that monitor the monitoring container 12a.

監視コンテナ12aの第1信号送信部122は、業務コンテナ11の生存確認を示す信号を送信し、第1検知部123が、業務コンテナ11から応答信号を受信した場合、業務コンテナ11が障害していないと判断する(ステップS4)。 The first signal transmission unit 122 of the monitoring container 12a transmits a signal indicating that the business container 11 is alive. It is determined that there is no (step S4).

また、監視コンテナ12aの役割決定部121は、所定期間毎にリーダ継続表明を示す信号を監視コンテナ12b及び監視コンテナ12cへ送信する(ステップS5、ステップS6)。 In addition, the role determination unit 121 of the monitoring container 12a transmits a signal indicating the leader continuation assertion to the monitoring container 12b and the monitoring container 12c every predetermined period (Steps S5 and S6).

また、監視コンテナ12bの第2信号送信部124は、生存確認を示す信号を監視コンテナ12aへ送信し、監視コンテナ12bの第2検知部125は、監視コンテナ12aから応答信号を受信することで生存確認をする(ステップS7)。 Further, the second signal transmission unit 124 of the monitoring container 12b transmits a signal indicating confirmation of survival to the monitoring container 12a, and the second detection unit 125 of the monitoring container 12b receives a response signal from the monitoring container 12a to confirm that the monitoring container 12b is alive. Confirm (step S7).

また、監視コンテナ12cの第2信号送信部124は、生存確認を示す信号を監視コンテナ12aへ送信し、監視コンテナ12cの第2検知部125は、監視コンテナ12aから応答信号を受信することで生存確認をする(ステップS8)。 Further, the second signal transmission unit 124 of the monitoring container 12c transmits a signal indicating survival confirmation to the monitoring container 12a, and the second detection unit 125 of the monitoring container 12c receives a response signal from the monitoring container 12a to confirm that the monitoring container 12c is alive. Confirm (step S8).

また、監視コンテナ12aの第1信号送信部122は、業務コンテナ11の生存確認を示す信号を送信する(ステップS9)。なお、ステップS4~ステップS9の間で、サーバ10bにおいて、障害が発生している。 Also, the first signal transmission unit 122 of the monitoring container 12a transmits a signal indicating that the business container 11 is alive (step S9). A failure occurs in the server 10b between steps S4 to S9.

また、監視コンテナ12aの役割決定部121は、所定期間毎にリーダ継続表明を示す信号を監視コンテナ12b及び監視コンテナ12cへ送信する(ステップS10、ステップS11)。 In addition, the role determining unit 121 of the monitoring container 12a transmits a signal indicating the leader continuation assertion to the monitoring container 12b and the monitoring container 12c every predetermined period (steps S10 and S11).

また、監視コンテナ12cの第2信号送信部124は、生存確認を示す信号を監視コンテナ12aへ送信し、監視コンテナ12cの第2検知部125は、監視コンテナ12aから応答信号を受信することで生存確認をする(ステップS12)。 Further, the second signal transmission unit 124 of the monitoring container 12c transmits a signal indicating survival confirmation to the monitoring container 12a, and the second detection unit 125 of the monitoring container 12c receives a response signal from the monitoring container 12a to confirm that the monitoring container 12c is alive. Confirm (step S12).

監視コンテナ12aの第1検知部123は、ステップS9において送信した生存確認を示す信号を送信してから所定期間応答信号が無いので、業務コンテナ11において障害が発生したことを検知する。復旧部127は、これに応じて、サーバ10cに対してコンテナ復旧指示の信号を送信し(ステップS13)、サーバ10cがこれに応じて、業務コンテナの生成(復旧)をする(ステップS14)。 The first detection unit 123 of the monitoring container 12a detects that a failure has occurred in the business container 11 because there is no response signal for a predetermined period after the signal indicating the confirmation of survival transmitted in step S9 is transmitted. In response, the recovery unit 127 transmits a container recovery instruction signal to the server 10c (step S13), and the server 10c generates (recovers) a business container in response to this (step S14).

ステップS15において、ステップS6と同様にリーダ継続表明し、ステップS16において、ステップS8と同様にリーダ生存確認処理をする。 In step S15, leader continuation is asserted in the same manner as in step S6, and in step S16, leader survival confirmation processing is performed in the same manner as in step S8.

また、ステップS17において、ステップS6と同様にリーダ継続表明し、ステップS18において、ステップS8と同様にリーダ生存確認処理をする。 Further, in step S17, leader continuation is asserted as in step S6, and in step S18, leader survival confirmation processing is performed in the same manner as in step S8.

また、ステップS19において、監視コンテナ12aの第1信号送信部122は、業務コンテナ11の生存確認を示す信号をサーバ10cの業務コンテナ11に送信する(ステップS19)。 Also, in step S19, the first signal transmission unit 122 of the monitoring container 12a transmits a signal indicating that the business container 11 is alive to the business container 11 of the server 10c (step S19).

続いて、図4を用いて、本実施形態における監視コンテナ12による業務コンテナ11及び監視コンテナ12を監視し、監視コンテナ12に障害を検知した場合の処理について説明する。図4は、本実施の形態における監視コンテナ12による業務コンテナ11及び監視コンテナ12を監視し、監視コンテナ12に障害を検知した場合の処理の流れを示すシーケンス図である。 Next, with reference to FIG. 4, processing when the business container 11 and the monitoring container 12 are monitored by the monitoring container 12 in this embodiment and a failure is detected in the monitoring container 12 will be described. FIG. 4 is a sequence diagram showing the flow of processing when the monitoring container 12 monitors the business container 11 and the monitoring container 12 and detects a failure in the monitoring container 12 in this embodiment.

ステップS31~ステップS38は、図3に示したシーケンス図のステップS1~ステップS8と同様のため、説明を省略する。 Since steps S31 to S38 are the same as steps S1 to S8 in the sequence diagram shown in FIG. 3, description thereof will be omitted.

ステップS39では、ステップS34と同様に、監視コンテナ12aの第1信号送信部122が、業務コンテナ11の生存確認を示す信号を送信し、第1検知部123が、業務コンテナ11から応答信号を受信した場合、業務コンテナ11が障害していないと判断する(ステップS39)。 In step S39, as in step S34, the first signal transmission unit 122 of the monitoring container 12a transmits a signal indicating that the business container 11 is alive, and the first detection unit 123 receives a response signal from the business container 11. If so, it is determined that the business container 11 is not in trouble (step S39).

ステップS40~ステップS43は、ステップS35~ステップS38と同様に、リーダ継続表明及びリーダ生存確認処理をする。 In steps S40 to S43, similarly to steps S35 to S38, leader continuation assertion and leader survival confirmation processing are performed.

ステップS43の後に、サーバ10aにおいて、障害が発生する。この後で、サーバ10b及びサーバ10cの第2信号送信部124は、生存確認を示す信号を監視コンテナ12aへ送信する(ステップS44、ステップS45)。 After step S43, a failure occurs in the server 10a. After that, the second signal transmission units 124 of the servers 10b and 10c transmit a signal indicating survival confirmation to the monitoring container 12a (steps S44 and S45).

サーバ10b及びサーバ10cの第2検知部125は、第2信号送信部124により生存確認を示す信号を送信してから待機期間(ステップS46)を経過すると、監視コンテナ12aにおいて障害が発生したことを検知する。 The second detection units 125 of the servers 10b and 10c detect that a failure has occurred in the monitoring container 12a after a waiting period (step S46) has elapsed since the second signal transmission unit 124 transmitted a signal indicating survival confirmation. detect.

これに応じて、監視コンテナ12bの役割決定部121は、リーダ立候補を示す信号を監視コンテナ12cへ送信し、監視コンテナ12bを、業務コンテナ11を監視する監視コンテナに決定する(ステップS47)。 In response to this, the role determining unit 121 of the monitoring container 12b transmits a signal indicating the leader candidacy to the monitoring container 12c, and determines the monitoring container 12b to be the monitoring container that monitors the business container 11 (step S47).

監視コンテナ12bの第1信号送信部122は、業務コンテナ11の生存確認を示す信号を送信し、第1検知部123が、業務コンテナ11から応答信号を受信した場合、業務コンテナ11が障害していないと判断する(ステップS48)。 The first signal transmission unit 122 of the monitoring container 12b transmits a signal indicating that the business container 11 is alive. It is determined that there is no (step S48).

また、監視コンテナ12bの役割決定部121は、所定期間毎にリーダ継続表明を示す信号を監視コンテナ12cへ送信する(ステップS49)。また、監視コンテナ12cの第2信号送信部124は、生存確認を示す信号を監視コンテナ12bへ送信し、監視コンテナ12cの第2検知部125は、監視コンテナ12bから応答信号を受信することで生存確認をする(ステップS50)。 In addition, the role determining unit 121 of the monitoring container 12b transmits a signal indicating the assertion of leader continuation to the monitoring container 12c every predetermined period (step S49). Further, the second signal transmission unit 124 of the monitoring container 12c transmits a signal indicating confirmation of survival to the monitoring container 12b, and the second detection unit 125 of the monitoring container 12c receives a response signal from the monitoring container 12b to confirm that the container is alive. Confirm (step S50).

また、監視コンテナ12bの第1信号送信部122は、業務コンテナ11の生存確認を示す信号を送信し、第1検知部123が、業務コンテナ11から応答信号を受信した場合、業務コンテナ11が障害していないと判断する(ステップS51)。 Also, the first signal transmission unit 122 of the monitoring container 12b transmits a signal indicating that the business container 11 is alive, and when the first detection unit 123 receives a response signal from the business container 11, the business container 11 fails It is determined that it is not (step S51).

続いて、監視状況の画面の例について、図5を用いて説明する。図5は、監視状況の画面例を説明する図である。 Next, an example of a monitoring status screen will be described with reference to FIG. FIG. 5 is a diagram for explaining an example of a monitor status screen.

図5の画面は、例えば、コントロールサーバ20が、検知結果出力部126から取得した情報に基づいて生成した画面である。 The screen in FIG. 5 is a screen generated by the control server 20 based on information acquired from the detection result output unit 126, for example.

図5の例では、サーバ3台を管理していることが示されている。具体的に、ノード名が「Worker#1」であるサーバは、識別子が監視コンテナM1である監視コンテナを有する。また、ノード名が「Worker#2」であるサーバは、識別子が業務コンテナC1である業務コンテナと、識別子が監視コンテナM2である監視コンテナを有する。また、ノード名が「Worker#3」であるサーバは、識別子が業務コンテナC2である業務コンテナと、識別子が監視コンテナM3である監視コンテナを有する。 The example of FIG. 5 shows that three servers are managed. Specifically, the server whose node name is "Worker#1" has a monitoring container whose identifier is the monitoring container M1. Also, the server whose node name is "Worker#2" has a business container whose identifier is the business container C1 and a monitoring container whose identifier is the monitoring container M2. Also, the server with the node name "Worker#3" has a business container with the identifier of the business container C2 and a monitoring container with the identifier of the monitoring container M3.

図5の例では、監視コンテナM1が、業務コンテナC1及び業務コンテナC2を監視し、監視コンテナM2及び監視コンテナM3が、監視コンテナM1を監視することが示されている。 The example of FIG. 5 shows that the monitoring container M1 monitors the business containers C1 and C2, and the monitoring containers M2 and M3 monitor the monitoring container M1.

また、「HealthCheck Response Time」では、業務コンテナC1及び業務コンテナC2の生存確認を示す信号に対するレスポンスタイムのグラフを示している。 "HealthCheck Response Time" shows a graph of the response time to the signal indicating the confirmation of the existence of the business container C1 and the business container C2.

また、「Message Count」では、メッセージのレベル毎(Info、Warn、Error)のメッセージ数の推移を示している。 Further, "Message Count" shows the transition of the number of messages for each message level (Info, Warn, Error).

また、詳細欄D1では、メッセージを送信した業務コンテナ、メッセージの送信日、メッセージの送信時刻、メッセージのレベル、当該業務コンテナの所属ノード、具体的なメッセー内容を示している。 The detail field D1 shows the business container that sent the message, the message transmission date, the message transmission time, the message level, the node to which the business container belongs, and the specific message content.

上述の実施形態では、監視コンテナ12が、役割決定部121を有する場合について述べたが、コントロールサーバ20が、役割決定部121を有するようにしてもよい。 Although the monitoring container 12 has the role determination unit 121 in the above embodiment, the control server 20 may have the role determination unit 121 .

上述の実施形態では、役割決定部121が、動的にリーダを決定する場合について述べたが、予め固定してリーダを決定していてもよい。 In the above-described embodiment, the case where the role determination unit 121 dynamically determines the leader was described, but the leader may be fixed in advance.

監視コンテナ12が、第1信号送信部122、第1検知部123、第2信号送信部124、及び第2検知部125を有する場合について述べたが、これに限られず、予めリーダであるか否か決まっている場合、全て有していなくてもよい。 Although the case where the monitoring container 12 has the first signal transmission unit 122, the first detection unit 123, the second signal transmission unit 124, and the second detection unit 125 has been described, the present invention is not limited to this. If it is decided, it is not necessary to have all of them.

<作用効果>
上述の分散型コンテナ監視システム1における、業務コンテナを監視する監視コンテナ12(上述の実施例における監視コンテナ12a)では、第1信号送信部122が、監視対象のコンテナである業務コンテナ11に対して状況確認を示す信号を送信し、第1検知部123が、第1信号送信部122により送信された信号に対する業務コンテナ11の応答状況に基づいて、業務コンテナ11の障害を検知する。
<Effect>
In the monitoring container 12 (monitoring container 12a in the above embodiment) that monitors the business container in the distributed container monitoring system 1 described above, the first signal transmission unit 122 sends the A signal indicating status confirmation is transmitted, and the first detection unit 123 detects a failure of the business container 11 based on the response status of the business container 11 to the signal transmitted by the first signal transmission unit 122 .

また、当該業務コンテナを監視する監視コンテナ12を監視する監視コンテナ12(上述の実施例における監視コンテナ12c)では、第2信号送信部124が、監視コンテナ12aに対して状況確認を示す信号を送信し、第2検知部125が、第2信号送信部124により送信された信号に対する監視コンテナ12aの応答状況に基づいて、監視コンテナ12aの障害を検知する。 Also, in the monitoring container 12 (monitoring container 12c in the above embodiment) monitoring the monitoring container 12 monitoring the business container, the second signal transmitting unit 124 transmits a signal indicating status confirmation to the monitoring container 12a. Then, the second detection unit 125 detects a failure of the monitoring container 12a based on the response status of the monitoring container 12a to the signal transmitted by the second signal transmission unit 124. FIG.

この場合、分散型コンテナ監視システム1では、業務コンテナ11を監視する監視コンテナ12をさらに監視するので、業務コンテナ11を監視する監視コンテナ12に障害が発生したとしても、速やかに障害に対応することができる。すなわち、より適切に障害監視することができる。また、上述の実施形態の分散型コンテナ監視システム1では、ブロックチェーンを用いることなく、サーバ資源を最大限有効活用し、より単純な実装で障害監視することができる。 In this case, since the distributed container monitoring system 1 further monitors the monitoring container 12 that monitors the business container 11, even if a failure occurs in the monitoring container 12 that monitors the business container 11, the failure can be dealt with promptly. can be done. That is, failure monitoring can be performed more appropriately. Furthermore, in the distributed container monitoring system 1 of the above-described embodiment, server resources can be utilized to the maximum and fault monitoring can be performed with a simpler implementation without using blockchain.

また、役割決定部121は、監視コンテナ12のそれぞれが、業務コンテナ11を監視する監視コンテナ12として機能するか、業務コンテナ11を監視する監視コンテナ12を監視する監視コンテナ12として機能するかを決定する。 Also, the role determining unit 121 determines whether each of the monitoring containers 12 functions as the monitoring container 12 that monitors the business container 11 or functions as the monitoring container 12 that monitors the monitoring container 12 that monitors the business container 11 . do.

このように、分散型コンテナ監視システム1では、役割決定部121が、複数の監視コンテナ12の役割分担をすることで、動的に役割分担することができる。 As described above, in the distributed container monitoring system 1, the role determination unit 121 can dynamically divide the roles by allocating the roles of the plurality of monitoring containers 12. FIG.

また、役割決定部121は、第2検知部125により、業務コンテナ11を監視する監視コンテナ12の障害が検知された場合、他の監視コンテナ12を、業務コンテナ11を監視する監視コンテナ12として機能させる。 Further, when the second detection unit 125 detects a failure of the monitoring container 12 that monitors the business container 11 , the role determination unit 121 functions as the monitoring container 12 that monitors the business container 11 . Let

このように、分散型コンテナ監視システム1は、業務コンテナ11を監視する監視コンテナ12の障害を検知して、他の監視コンテナ12を、業務コンテナ11を監視する監視コンテナ12とすることで、継続して、適切に業務コンテナ11を監視し続けることができる。 In this way, the distributed container monitoring system 1 detects a failure in the monitoring container 12 that monitors the business container 11, and uses another monitoring container 12 as the monitoring container 12 that monitors the business container 11. By doing so, the business container 11 can be appropriately monitored.

また、復旧部127は、第1検知部123により監視対象のコンテナである業務コンテナ11の障害が検知された場合、コンテナ環境の復旧処理をする。これにより、分散型コンテナ監視システム1では、業務コンテナ11を適切に障害復旧することができる。また、業務コンテナ11を実行するアプリケーションによっては、アプリケーション自身の機能で復旧することもできるが、復旧部127によれば、それに依存することなく障害復旧することができる。 Further, when the first detection unit 123 detects a failure of the business container 11, which is a container to be monitored, the restoration unit 127 performs restoration processing of the container environment. As a result, the distributed container monitoring system 1 can appropriately perform fault recovery for the business container 11 . Further, depending on the application that executes the business container 11, recovery may be performed by the function of the application itself, but the recovery unit 127 can perform failure recovery without relying on it.

以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は上記の実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、上記の実施の形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施の形態の構成の一部を他の実施の形態の構成に置き換えることが可能であり、また、ある実施の形態の構成に他の実施の形態の構成を加えることも可能である。また、各実施の形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。 Although the invention made by the present inventors has been specifically described based on the embodiments, the present invention is not limited to the above embodiments, and can be variously modified without departing from the scope of the invention. Needless to say. For example, the above embodiments have been described in detail in order to explain the present invention in an easy-to-understand manner, and are not necessarily limited to those having all the described configurations. Also, part of the configuration of one embodiment can be replaced with the configuration of another embodiment, and the configuration of another embodiment can be added to the configuration of one embodiment. . Moreover, it is possible to add, delete, or replace a part of the configuration of each embodiment with another configuration.

また、上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば、集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、SSD(Solid State Drive)等の記録装置、またはICカード、SDカード、DVD等の記録媒体に置くことができる。 Further, each of the above configurations, functions, processing units, processing means, and the like may be realized by hardware, for example, by designing a part or all of them using an integrated circuit. Moreover, each of the above configurations, functions, etc. may be realized by software by a processor interpreting and executing a program for realizing each function. Information such as programs, tables, and files that implement each function can be stored in recording devices such as memories, hard disks, SSDs (Solid State Drives), or recording media such as IC cards, SD cards, and DVDs.

また、上記の各図において、制御線や情報線は説明上必要と考えられるものを示しており、必ずしも実装上の全ての制御線や情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。 Further, in each of the above drawings, control lines and information lines are those considered to be necessary for explanation, and not all control lines and information lines for implementation are necessarily shown. In fact, it may be considered that almost all configurations are interconnected.

本発明は、監視対象のコンテナの稼働状況を監視する分散型コンテナ監視システムに利用可能である。 INDUSTRIAL APPLICABILITY The present invention can be used in a distributed container monitoring system that monitors the operational status of containers to be monitored.

1…分散型コンテナ監視システム、10…サーバ、11…業務コンテナ、12…監視コンテナ、121…役割決定部、122…第1信号送信部、123…第1検知部、
124…第2信号送信部、125…第2検知部、126…検知結果出力部、127…復旧部。
DESCRIPTION OF SYMBOLS 1... Distributed container monitoring system 10... Server 11... Business container 12... Monitoring container 121... Role determination part 122... First signal transmission part 123... First detection part,
124...Second signal transmission unit, 125...Second detection unit, 126...Detection result output unit, 127...Recovery unit.

Claims (5)

監視対象のコンテナの稼働状況を監視する分散型コンテナ監視システムであって、
前記監視対象のコンテナを監視する第1の監視コンテナと、
前記第1の監視コンテナを監視する第2の監視コンテナと、を備え、
前記第1の監視コンテナは、
前記監視対象のコンテナに対して状況確認を示す信号を送信する第1信号送信部と、
前記第1信号送信部により送信された信号に対する前記監視対象のコンテナの応答状況に基づいて、前記監視対象のコンテナの障害を検知する第1検知部と、を有し、
前記第2の監視コンテナは、
前記第1の監視コンテナに対して状況確認を示す信号を送信する第2信号送信部と、
前記第2信号送信部により送信された信号に対する前記第1の監視コンテナの応答状況に基づいて、前記第1の監視コンテナの障害を検知する第2検知部と、を有する、
分散型コンテナ監視システム。
A distributed container monitoring system that monitors the operating status of containers to be monitored,
a first monitoring container that monitors the monitored container;
a second monitoring container that monitors the first monitoring container;
The first monitoring container includes:
a first signal transmission unit that transmits a signal indicating status confirmation to the container to be monitored;
a first detection unit that detects a failure of the container to be monitored based on the response status of the container to be monitored to the signal transmitted by the first signal transmission unit;
The second monitoring container comprises:
a second signal transmission unit that transmits a signal indicating status confirmation to the first surveillance container;
a second detection unit that detects a failure of the first monitoring container based on the response status of the first monitoring container to the signal transmitted by the second signal transmission unit;
Distributed container monitoring system.
請求項1に記載の分散型コンテナ監視システムであって、
前記監視対象のコンテナを監視可能なコンテナである監視コンテナを複数有し、
前記監視コンテナのそれぞれが、前記第1の監視コンテナとして機能するか、前記第2の監視コンテナとして機能するかを決定する役割決定部をさらに有する、
分散型コンテナ監視システム。
A distributed container monitoring system according to claim 1,
having a plurality of monitoring containers that are containers capable of monitoring the container to be monitored;
each of the monitoring containers further comprising a role determining unit that determines whether each of the monitoring containers functions as the first monitoring container or the second monitoring container;
Distributed container monitoring system.
請求項2に記載の分散型コンテナ監視システムであって、
前記役割決定部は、前記第2検知部により前記第1の監視コンテナの障害が検知された場合、他の監視コンテナを第1の監視コンテナとして機能させる、
分散型コンテナ監視システム。
A distributed container monitoring system according to claim 2,
When the second detection unit detects a failure of the first monitoring container, the role determination unit causes another monitoring container to function as the first monitoring container.
Distributed container monitoring system.
請求項1または2に記載の分散型コンテナ監視システムであって、
前記第1の監視コンテナは、
前記第1検知部により前記監視対象のコンテナの障害が検知された場合、コンテナ環境の復旧処理をする復旧部をさらに有する、
分散型コンテナ監視システム。
A distributed container monitoring system according to claim 1 or 2,
The first monitoring container includes:
Further comprising a restoration unit that performs restoration processing of the container environment when the failure of the container to be monitored is detected by the first detection unit,
Distributed container monitoring system.
監視対象のコンテナの稼働状況を監視する分散型コンテナ監視システムで実行する分散型コンテナ監視方法であって、
前記監視対象のコンテナを監視する第1の監視コンテナと、
前記第1の監視コンテナを監視する第2の監視コンテナと、を有し、
前記第1の監視コンテナでは、
前記監視対象のコンテナに対して状況確認を示す信号を送信する第1信号送信ステップと、
前記第1信号送信ステップで送信した信号に対する前記監視対象のコンテナの応答状況に基づいて、前記監視対象のコンテナの障害を検知する第1検知ステップと、を含み、
前記第2の監視コンテナでは、
前記第1の監視コンテナに対して状況確認を示す信号を送信する第2信号送信ステップと、
前記第2信号送信ステップで送信した信号に対する前記第1の監視コンテナの応答状況に基づいて、前記第1の監視コンテナの障害を検知する第2検知ステップと、を含む、
分散型コンテナ監視方法。
A distributed container monitoring method executed by a distributed container monitoring system for monitoring the operating status of containers to be monitored,
a first monitoring container that monitors the monitored container;
a second monitoring container that monitors the first monitoring container;
In the first monitoring container,
a first signal transmission step of transmitting a signal indicating status confirmation to the container to be monitored;
a first detection step of detecting a failure of the container to be monitored based on the response status of the container to be monitored to the signal transmitted in the first signal transmission step;
In the second monitoring container,
a second signal transmission step of transmitting a signal indicating status confirmation to the first surveillance container;
a second detection step of detecting a failure of the first monitoring container based on the response status of the first monitoring container to the signal transmitted in the second signal transmission step;
Distributed container monitoring method.
JP2019125791A 2019-07-05 2019-07-05 DISTRIBUTED CONTAINER MONITORING SYSTEM AND DISTRIBUTED CONTAINER MONITORING METHOD Active JP7311335B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019125791A JP7311335B2 (en) 2019-07-05 2019-07-05 DISTRIBUTED CONTAINER MONITORING SYSTEM AND DISTRIBUTED CONTAINER MONITORING METHOD

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019125791A JP7311335B2 (en) 2019-07-05 2019-07-05 DISTRIBUTED CONTAINER MONITORING SYSTEM AND DISTRIBUTED CONTAINER MONITORING METHOD

Publications (2)

Publication Number Publication Date
JP2021012498A JP2021012498A (en) 2021-02-04
JP7311335B2 true JP7311335B2 (en) 2023-07-19

Family

ID=74227473

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019125791A Active JP7311335B2 (en) 2019-07-05 2019-07-05 DISTRIBUTED CONTAINER MONITORING SYSTEM AND DISTRIBUTED CONTAINER MONITORING METHOD

Country Status (1)

Country Link
JP (1) JP7311335B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7552433B2 (en) 2021-02-25 2024-09-18 富士通株式会社 CONTAINER MANAGEMENT METHOD AND CONTAINER MANAGEMENT PROGRAM

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282601A (en) 2008-05-20 2009-12-03 Nec System Technologies Ltd Operation monitoring program, monitoring system, and monitoring method
JP2017083935A (en) 2015-10-23 2017-05-18 日本電気株式会社 Information processor, cluster system, clustering method, and program
JP2018067332A (en) 2011-07-26 2018-04-26 オラクル・インターナショナル・コーポレイション System and method for cloud computing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282601A (en) 2008-05-20 2009-12-03 Nec System Technologies Ltd Operation monitoring program, monitoring system, and monitoring method
JP2018067332A (en) 2011-07-26 2018-04-26 オラクル・インターナショナル・コーポレイション System and method for cloud computing
JP2017083935A (en) 2015-10-23 2017-05-18 日本電気株式会社 Information processor, cluster system, clustering method, and program

Also Published As

Publication number Publication date
JP2021012498A (en) 2021-02-04

Similar Documents

Publication Publication Date Title
RU2644146C2 (en) Method, device and control system of fault processing
US8910172B2 (en) Application resource switchover systems and methods
JP5851503B2 (en) Providing high availability for applications in highly available virtual machine environments
US6918051B2 (en) Node shutdown in clustered computer system
US11330071B2 (en) Inter-process communication fault detection and recovery system
US20130227359A1 (en) Managing failover in clustered systems
US20080288812A1 (en) Cluster system and an error recovery method thereof
US20150067387A1 (en) Method and apparatus for data storage
CN108347339B (en) Service recovery method and device
JP6631710B2 (en) Virtualization management program, virtualization management device, and virtualization management method
JP7311335B2 (en) DISTRIBUTED CONTAINER MONITORING SYSTEM AND DISTRIBUTED CONTAINER MONITORING METHOD
US8036105B2 (en) Monitoring a problem condition in a communications system
US20210011749A1 (en) Systems and methods to monitor a computing environment
US20120023379A1 (en) Storage device, storage system, and control method
JP6784160B2 (en) Parallel processing device and inter-node communication program
JP2020038506A (en) Information processing system, information processing method, and program
JP7474168B2 (en) Monitoring system and fault monitoring method
US20070030813A1 (en) Monitoring a problem condition in a communications protocol implementation
JP6380774B1 (en) Computer system, server device, program, and failure detection method
JP2008226153A (en) Redundant computer system
KR101883251B1 (en) Apparatus and method for determining failover in virtual system
JP6112205B2 (en) Information processing system, apparatus, method, and program
JP6224985B2 (en) Notification device and notification method
WO2023275984A1 (en) Virtualization system restoration device and virtualization system restoration method
US20240160521A1 (en) Decentralized monitoring of application functionality in a computing environment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220610

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230526

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230704

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230706

R151 Written notification of patent or utility model registration

Ref document number: 7311335

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151