JP6224985B2 - Notification device and notification method - Google Patents

Notification device and notification method Download PDF

Info

Publication number
JP6224985B2
JP6224985B2 JP2013220309A JP2013220309A JP6224985B2 JP 6224985 B2 JP6224985 B2 JP 6224985B2 JP 2013220309 A JP2013220309 A JP 2013220309A JP 2013220309 A JP2013220309 A JP 2013220309A JP 6224985 B2 JP6224985 B2 JP 6224985B2
Authority
JP
Japan
Prior art keywords
time
software
failure
node
notification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013220309A
Other languages
Japanese (ja)
Other versions
JP2015082238A (en
Inventor
雅仁 室井
雅仁 室井
幸久 西澤
幸久 西澤
大子郎 横関
大子郎 横関
平井 利治
利治 平井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013220309A priority Critical patent/JP6224985B2/en
Publication of JP2015082238A publication Critical patent/JP2015082238A/en
Application granted granted Critical
Publication of JP6224985B2 publication Critical patent/JP6224985B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、通知装置及び通知方法に関する。   The present invention relates to a notification device and a notification method.

従来、ソフトウェアの冗長化クラスタを実現し、システムの可用性を高める技術として、ソフトウェアを冗長化することで、ソフトウェアが動作する現用系ハードウェアで故障が発生した場合でも、ソフトウェアが動作するハードウェアを切り替える事でシステムの動作を継続する技術が知られている(例えば、非特許文献1参照)。   Conventionally, as a technology to realize software redundancy cluster and increase system availability, by making software redundant, even if a failure occurs in the working hardware where the software operates, the hardware that operates the software A technique for continuing the operation of the system by switching is known (for example, see Non-Patent Document 1).

このような技術では、現用系ハードウェアの故障を待機系のハードウェアで検知するために、同一クラスタを構成する高可用性クラスタソフトウェア同士で、死活監視のパケットを送受信し合い、それぞれのハードウェアやソフトウェアでの故障の有無を監視している。   In such a technology, in order to detect a failure of the active hardware with the standby hardware, the high-availability cluster software that configures the same cluster sends and receives alive monitoring packets to each other. Monitors software for failures.

また、クラスタ内の各ノードにソフトウェアの動作監視エージェントを配置し、ノード上のソフトウェアの動作状況を監視して外部装置へ通知をすることで、ソフトウェアの稼働時間を外部装置で管理させる。   In addition, a software operation monitoring agent is arranged at each node in the cluster, and the operation state of the software on the node is monitored and notified to the external device, so that the operation time of the software is managed by the external device.

“サービスの可用性を向上させるOSSミドルHeartbeatの開発”、[online]、[平成25年10月11日検索]、インターネット<http://www.ntt.co.jp/journal/0903/files/jn20090346.pdf>“Development of OSS middle Heartbeat to improve service availability”, [online], [October 11, 2013 search], Internet <http://www.ntt.co.jp/journal/0903/files/jn20090346 .pdf> “Crane 〜Management Solution from NTT R&D〜”、[online]、[平成25年10月11日検索]、インターネット<http://www.oss.ecl.ntt.co.jp/ossc/download/Crane.pdf>“Crane -Management Solution from NTT R & D-”, [online], [searched on October 11, 2013], Internet <http://www.oss.ecl.ntt.co.jp/ossc/download/Crane. pdf>

しかしながら、従来の技術では、ソフトウェアの稼働時間を外部装置に適切に通知することができない場合があるという課題があった。つまり、現用系ハードウェアで故障が発生した場合には、ハードウェアが故障しているため監視エージェントの動作と、外部へ稼働状態を通知できるかが保証されないため、ソフトウェアの稼働時間を通知することができない場合があった。   However, the conventional technique has a problem that the operating time of the software cannot be properly notified to the external device. In other words, if a failure occurs in the active hardware, it is not guaranteed that the hardware is broken and the operation of the monitoring agent and the operating status can be notified externally. There was a case that could not be.

なお、ソフトウェアの稼働状況を確認する方法として、例えば、高可用性クラスタ以外の監視システムが、論理リソースの稼働時間を測定してソフトウェアの稼働状況を監視する技術もある(非特許文献2参照)。しかし、サービスを提供するためのシステムの規模に合わせて、監視システムによるソフトウェアの稼働状況の監視に必要なコストが増加してしまう。また、ソフトウェア毎に稼働状況を監視する方法が異なるため、監視システムは冗長化対象のソフトウェア毎に監視方法を変更する必要があった。   As a method for confirming the operating status of software, for example, there is a technique in which a monitoring system other than a high availability cluster measures the operating time of a logical resource and monitors the operating status of software (see Non-Patent Document 2). However, in accordance with the scale of the system for providing the service, the cost required for monitoring the operation status of the software by the monitoring system increases. In addition, since the method of monitoring the operating status differs for each software, the monitoring system needs to change the monitoring method for each software to be redundant.

そこで、この発明は、ソフトウェア毎に監視方法を変更する必要なく、ソフトウェアの稼働時間を外部装置に適切に通知し、かつ監視コストを低減することを目的とする。   Therefore, an object of the present invention is to appropriately notify the external device of the operating time of the software without reducing the monitoring method for each software and to reduce the monitoring cost.

上述した課題を解決し、目的を達成するため、開示の通知装置は、現用系ノードが故障した場合に、該現用系ノードで稼働するソフトウェアを待機系ノードにおいて起動させるクラスタシステムにおいて、前記ソフトウェアに関する情報を外部装置へ通知する通知装置であって、前記現用系ノードの故障が待機系ノードによって検知された場合に、該待機系ノードが現用系ノードの故障を検知した時刻である第1時刻を検出する故障時刻検出部と、前記待機系ノードにおいて前記ソフトウェアの起動が完了した場合に、該ソフトウェアの起動が完了した時刻である第2時刻を検出する起動時刻検出部と、前記第1時刻と、前記第2時刻とを外部装置へ通知する通知部と、を備えることを特徴とする。   In order to solve the above-described problems and achieve the object, the disclosed notification device relates to the software in a cluster system that activates software running on the active node in the standby node when the active node fails. A notification device that notifies an external device of information, and when a failure of the active node is detected by the standby node, a first time that is a time when the standby node detects a failure of the active node A failure time detection unit to detect; a startup time detection unit that detects a second time that is a time when the activation of the software is completed when the activation of the software is completed in the standby node; and the first time And a notification unit that notifies the external device of the second time.

また、開示の通知方法は、現用系ノードが故障した場合に、該現用系ノードで稼働するソフトウェアを待機系ノードにおいて起動させるクラスタシステムにおいて、前記ソフトウェアに関する情報を外部装置へ通知する通知装置により実行される通知方法であって、前記現用系ノードの故障が待機系ノードによって検知された場合に、該待機系ノードが現用系ノードの故障を検知した時刻である第1時刻を検出する故障時刻検出工程と、前記待機系ノードにおいて前記ソフトウェアの起動が完了した場合に、該ソフトウェアの起動が完了した時刻である第2時刻を検出する起動時刻検出工程と、前記第1時刻と、前記第2時刻とを外部装置へ通知する通知工程と、を含んだことを特徴とする。   The disclosed notification method is executed by a notification device that notifies the external device of information related to the software in a cluster system that activates software running on the active node on the standby node when the active node fails. And a failure time detection for detecting a first time when the standby node detects a failure of the active node when a failure of the active node is detected by the standby node. A start time detecting step of detecting a second time that is a time when the start of the software is completed when the start of the software is completed in the standby node, the first time, and the second time And a notification step of notifying an external device.

本願に開示する通知装置及び通知方法は、ソフトウェア毎に監視方法を変更する必要なく、ソフトウェアの稼働時間を外部装置に適切に通知し、かつ監視コストを低減することが可能である。   The notification device and the notification method disclosed in the present application can appropriately notify the operating time of software to an external device without changing the monitoring method for each software, and can reduce the monitoring cost.

図1は、第一の実施形態に係るシステムの構成の一例を示す図である。FIG. 1 is a diagram illustrating an example of a configuration of a system according to the first embodiment. 図2は、第一の実施形態に係るシステムにおける現用系ノードおよび待機系ノードの構成の一例を示す図である。FIG. 2 is a diagram illustrating an example of the configuration of the active node and the standby node in the system according to the first embodiment. 図3は、第一の実施形態に係るソフトウェア稼働時間通知装置の構成を示すブロック図である。FIG. 3 is a block diagram showing the configuration of the software operating time notification device according to the first embodiment. 図4は、第一の実施形態に係る故障検知情報記憶部に記憶される情報の一例を示す図である。FIG. 4 is a diagram illustrating an example of information stored in the failure detection information storage unit according to the first embodiment. 図5は、第一の実施形態に係るソフトウェア起動時間記憶部に記憶される情報の一例を示す図である。FIG. 5 is a diagram illustrating an example of information stored in the software activation time storage unit according to the first embodiment. 図6は、第一の実施形態に係るソフトウェア稼働時間通知装置における通知処理の概要を説明する図である。FIG. 6 is a diagram illustrating an overview of notification processing in the software operating time notification device according to the first embodiment. 図7は、第一の実施形態に係るソフトウェア稼働時間通知装置における通知処理の流れを説明するためのフローチャートである。FIG. 7 is a flowchart for explaining a flow of notification processing in the software operating time notification device according to the first embodiment. 図8は、通知プログラムを実行するコンピュータを示す図である。FIG. 8 is a diagram illustrating a computer that executes a notification program.

以下に図面を参照して、この発明に係る通知装置及び通知方法の実施形態を詳細に説明する。なお、この実施形態によりこの発明が限定されるものではない。   Hereinafter, embodiments of a notification device and a notification method according to the present invention will be described in detail with reference to the drawings. In addition, this invention is not limited by this embodiment.

[第一の実施形態]
以下の実施形態では、第一の実施形態に係るシステムの構成、ソフトウェア稼働時間通知装置の構成及び解析装置による処理の流れを順に説明し、最後に第一の実施形態による効果を説明する。
[First embodiment]
In the following embodiments, the configuration of the system according to the first embodiment, the configuration of the software operating time notification device, and the flow of processing by the analysis device will be described in order, and finally the effects of the first embodiment will be described.

[システムの構成]
まず、第一の実施形態に係るシステムの構成の一例を説明する。図1は、第一の実施形態に係るシステムの構成の一例を示す図である。図1に示すように、第一の実施形態に係るシステムでは、ソフトウェアを冗長化させて可用性を高める複数のソフトウェアクラスタ50A、50Bと、ソフトウェアクラスタ50において稼働するソフトウェアを監視する外部通知先監視システム40とを有し、ソフトウェアクラスタ50A、50Bと外部通知先監視システム40とはネットワーク60を介して接続されている。
[System configuration]
First, an example of a system configuration according to the first embodiment will be described. FIG. 1 is a diagram illustrating an example of a configuration of a system according to the first embodiment. As shown in FIG. 1, in the system according to the first embodiment, a plurality of software clusters 50 </ b> A and 50 </ b> B that make software redundant to increase availability, and an external notification destination monitoring system that monitors software running in the software cluster 50 40, and the software clusters 50A, 50B and the external notification destination monitoring system 40 are connected via a network 60.

なお、図1では、ソフトウェアクラスタ50A、50Bが2つ、外部通知先監視システム40が一つ存在する場合を例示しているが、ソフトウェアクラスタの数および外部通知先監視システムの数は、これに限定されるものではない。また、ソフトウェアクラスタ50A、50Bについて特に区別することなく説明する場合には、ソフトウェアクラスタ50と記載する。   FIG. 1 illustrates the case where there are two software clusters 50A and 50B and one external notification destination monitoring system 40. However, the number of software clusters and the number of external notification destination monitoring systems are not limited to this. It is not limited. Further, when the software clusters 50A and 50B are described without particular distinction, they are referred to as software clusters 50.

ソフトウェアクラスタ50A、50Bは、現用系ノード50aと、待機系ノード50bとをそれぞれ有する。また、現用系ノード50aおよび待機系ノード50bは、ソフトウェア稼働時間通知装置10a、10bを含んでいる。ここで、現用系ノード50aとソフトウェア稼働時間通知装置10aとは、共通のハードウェア資源により構成されていてもよいし、別々のハードウェア資源により構成されていてもよい。また、待機系ノード50bとソフトウェア稼働時間通知装置10bについても同様である。   The software clusters 50A and 50B each have an active node 50a and a standby node 50b. The active node 50a and the standby node 50b include software operating time notification devices 10a and 10b. Here, the active node 50a and the software operating time notification device 10a may be configured with a common hardware resource or may be configured with separate hardware resources. The same applies to the standby node 50b and the software operating time notification device 10b.

現用系ノード50aは、ソフトウェア(以下では、稼働時間通知対象ソフトウェア20aという)を動作させている。また、待機系ノード50bは、現用系ノード50aの故障を検知すると、稼働時間通知対象ソフトウェア20aを起動し、故障した現用系ノード50aの代わりに、稼働時間通知対象ソフトウェア20aを動作させる。また、ソフトウェア稼働時間通知装置10a、10bについて特に区別することなく説明する場合には、ソフトウェア稼働時間通知装置10と記載する。   The active node 50a operates software (hereinafter referred to as operation time notification target software 20a). Further, when detecting a failure of the active node 50a, the standby node 50b activates the operation time notification target software 20a and operates the operation time notification target software 20a instead of the failed active node 50a. The software operating time notification devices 10a and 10b will be referred to as the software operating time notification device 10 when they are described without particular distinction.

ソフトウェア稼働時間通知装置10bは、現用系ノード50aの故障が待機系ノード50bによって検知された場合に、該待機系ノード50bが現用系ノード50aの故障を検知した時刻を検出する。また、ソフトウェア稼働時間通知装置10bは、待機系ノード50bにおいてソフトウェアの起動が完了した場合に、該ソフトウェアの起動が完了した時刻を検出する。   When the failure of the active node 50a is detected by the standby node 50b, the software operating time notification device 10b detects the time when the standby node 50b detects the failure of the active node 50a. Further, when the activation of software is completed in the standby node 50b, the software operating time notification device 10b detects the time when the activation of the software is completed.

そして、ソフトウェア稼働時間通知装置10bは、待機系ノード50bが現用系ノード50aの故障を検知した時刻と、待機系ノード50bにおいてソフトウェアの起動が完了した時刻とを外部通知先監視システム40へ通知する。   Then, the software operating time notification device 10b notifies the external notification destination monitoring system 40 of the time when the standby node 50b detects the failure of the active node 50a and the time when the activation of the software is completed in the standby node 50b. .

次に、図2を用いて、現用系ノード50aおよび待機系ノード50bの構成について説明する。図2は、第一の実施形態に係るシステムにおける現用系ノードおよび待機系ノードの構成の一例を示す図である。なお、以下の例では、外部通知先監視システム40とソフトウェアクラスタ50とが一対一の関係である場合を例に説明するが、これに限定されるものではなく、一対複数や複数対複数でもよく、例えば、一つの外部通知先監視システム40に対して複数のソフトウェアクラスタ50が存在してもよい。   Next, the configuration of the active node 50a and the standby node 50b will be described with reference to FIG. FIG. 2 is a diagram illustrating an example of the configuration of the active node and the standby node in the system according to the first embodiment. In the following example, a case where the external notification destination monitoring system 40 and the software cluster 50 have a one-to-one relationship will be described as an example. However, the present invention is not limited to this and may be one-to-multiple or multi-to-multiple. For example, a plurality of software clusters 50 may exist for one external notification destination monitoring system 40.

ソフトウェアクラスタ50は、高可用性クラスタソフトウェア30によって管理されるサーバの単位であり、冗長化対象のソフトウェアである稼働時間通知対象ソフトウェア20aが動作する現用系ノード50aと、稼働時間通知対象ソフトウェア20aが動作せず、現用系ノード50aで障害が発生した際に稼働時間通知対象ソフトウェアの切り替わり先となる待機系ノード50bで構成される。   The software cluster 50 is a unit of a server managed by the high availability cluster software 30. The active node 50a on which the operation time notification target software 20a, which is the redundancy target software, operates, and the operation time notification target software 20a operates. Instead, when the failure occurs in the active node 50a, the standby node 50b is the switching destination of the operating time notification target software.

また、現用系ノード50aと待機系ノード50bは、ソフトウェアクラスタ50内に、それぞれ複数ノードの存在が可能である。また、ソフトウェアクラスタ50は外部通知先監視システム40に対して、複数のソフトウェアクラスタ50の存在が可能である。   The active node 50a and the standby node 50b can each have a plurality of nodes in the software cluster 50. The software cluster 50 can have a plurality of software clusters 50 with respect to the external notification destination monitoring system 40.

現用系ノード50aでは、稼働時間通知対象ソフトウェア20aおよび高可用性クラスタソフトウェア30aが稼働している。稼働時間通知対象ソフトウェア20aは、現用系ノード50a上で稼働しているソフトウェアであり、稼働状態の監視対象となるソフトウェアである。   In the active node 50a, the operating time notification target software 20a and the high availability cluster software 30a are operating. The operating time notification target software 20a is software that is operating on the active node 50a, and is software that is to be monitored for operating status.

待機系ノード50bでは、高可用性クラスタソフトウェア30bが稼働している。また、現用系ノード50aに故障が発生した場合には、待機系ノード50bにおいて、稼働時間通知対象ソフトウェア20bが起動し、現用系ノード50aの代わりに稼働時間通知対象ソフトウェア20bを稼働させる。   The high availability cluster software 30b is running on the standby node 50b. When a failure occurs in the active node 50a, the operation time notification target software 20b is activated in the standby node 50b, and the operation time notification target software 20b is operated instead of the active node 50a.

高可用性クラスタソフトウェア30a、30bは、高可用性クラスタを作成するために利用される既存のソフトウェアである。高可用性クラスタソフトウェア30a、30bは、ソフトウェアが動作するハードウェアとソフトウェアの稼働状態を監視し、ハードウェアとソフトウェアの故障の有無を確認する。   The high availability cluster software 30a, 30b is existing software used for creating a high availability cluster. The high availability cluster software 30a and 30b monitor the hardware on which the software operates and the operating state of the software, and confirm whether there is a failure in the hardware and software.

また、同一クラスタに所属する高可用性クラスタソフトウェア30a、30b同士で定期的に死活監視パケットを送受信し、他のハードウェアで動作するソフトウェアの故障の有無、他のハードウェアの故障の有無、高可用性クラスタソフトウェア30a、30b自身の故障の有無をお互いに監視している。   In addition, the high-availability cluster software 30a and 30b belonging to the same cluster periodically send and receive alive monitoring packets to check whether software operating on other hardware has failed, whether other hardware has failed, high availability The cluster software 30a and 30b themselves monitor each other for failures.

稼働時間通知対象ソフトウェア20aは冗長化対象のソフトウェアであり、本発明のソフトウェア稼働時間通知装置10bによって稼働時間が、外部通知先監視システム40へ通知される対象のソフトウェアである。   The operating time notification target software 20a is software to be made redundant, and is the target software whose operating time is notified to the external notification destination monitoring system 40 by the software operating time notification device 10b of the present invention.

[ソフトウェア稼働時間通知装置の構成]
次に、図3を用いて、第一の実施形態に係るソフトウェア稼働時間通知装置の構成について説明する。図3は、第一の実施形態に係るソフトウェア稼働時間通知装置の構成を示すブロック図である。図3に示すように、ソフトウェア稼働時間通知装置10は、通信処理部11、記憶部12および制御部13を有する。
[Configuration of Software Operation Time Notification Device]
Next, the configuration of the software operating time notification device according to the first embodiment will be described with reference to FIG. FIG. 3 is a block diagram showing the configuration of the software operating time notification device according to the first embodiment. As illustrated in FIG. 3, the software operating time notification device 10 includes a communication processing unit 11, a storage unit 12, and a control unit 13.

通信処理部11は、接続される外部通知先監視システム40との間でやり取りする各種情報に関する通信を制御する。例えば、通信処理部11は、待機系ノード50bが現用系ノード50aの故障を検知した時刻と、待機系ノード50bにおいてソフトウェアの起動が完了した時刻とを外部通知先監視システム40に送信する。   The communication processing unit 11 controls communication regarding various information exchanged with the connected external notification destination monitoring system 40. For example, the communication processing unit 11 transmits the time when the standby node 50b detects the failure of the active node 50a and the time when the activation of the software is completed in the standby node 50b to the external notification destination monitoring system 40.

記憶部12は、図3に示すように、故障時刻記憶部12aおよび起動時刻記憶部12bを有する。記憶部12は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置などである。   As shown in FIG. 3, the storage unit 12 includes a failure time storage unit 12a and a startup time storage unit 12b. The storage unit 12 is, for example, a semiconductor memory device such as a RAM (Random Access Memory) or a flash memory, or a storage device such as a hard disk or an optical disk.

故障時刻記憶部12aは、待機系ノード50bが現用系ノード50aの故障を検知した時刻を記憶する。例えば、故障時刻記憶部12aは、図4に例示するように、故障した現用系ノード50aを一意に識別する「ノードID」と、待機系ノード50bが現用系ノード50aの故障を検知した時刻である「故障検知時刻」とを対応付けて記憶する。図4は、第一の実施形態に係る故障検知情報記憶部に記憶される情報の一例を示す図である。   The failure time storage unit 12a stores the time when the standby node 50b detects a failure of the active node 50a. For example, as illustrated in FIG. 4, the failure time storage unit 12a includes a “node ID” that uniquely identifies the failed active node 50a, and a time when the standby node 50b detects a failure of the active node 50a. A certain “failure detection time” is stored in association with each other. FIG. 4 is a diagram illustrating an example of information stored in the failure detection information storage unit according to the first embodiment.

図4の例を挙げて説明すると、故障時刻記憶部12aは、例えば、ノードIDである「1」と、故障検知時刻である「2013/10/10 10:22」とを対応付けて記憶する。   For example, the failure time storage unit 12a stores a node ID “1” and a failure detection time “2013/10/10 10:22” in association with each other. .

起動時刻記憶部12bは、待機系ノード50bによりソフトウェアの起動が完了した時刻を記憶する。例えば、起動時刻記憶部12bは、図5に例示するように、待機系ノード50bにより起動された稼働時間通知対象ソフトウェア20を一意に識別する「ソフトウェアID」と、待機系ノード50bによりソフトウェアの起動が完了した時刻である「起動完了時刻」とを対応付けて記憶する。図5は、第一の実施形態に係るソフトウェア起動時間記憶部に記憶される情報の一例を示す図である。   The activation time storage unit 12b stores the time when the activation of the software is completed by the standby node 50b. For example, as illustrated in FIG. 5, the activation time storage unit 12b includes a “software ID” that uniquely identifies the operation time notification target software 20 activated by the standby node 50b, and software activation by the standby node 50b. Is stored in association with the “start-up completion time” that is the time at which is completed. FIG. 5 is a diagram illustrating an example of information stored in the software activation time storage unit according to the first embodiment.

図5の例を挙げて説明すると、起動時刻記憶部12bは、例えば、ソフトウェアIDである「A」と、起動完了時刻である「2013/10/10 13:10」とを対応付けて記憶する。   Referring to the example of FIG. 5, for example, the activation time storage unit 12b stores “A” that is a software ID and “2013/10/10 13:10” that is an activation completion time in association with each other. .

図3に戻って、制御部13は、故障時刻検出部13a、起動時刻検出部13bおよび通知部13cを有する。ここで、制御部13は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの電子回路やASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路である。   Returning to FIG. 3, the control unit 13 includes a failure time detection unit 13a, a startup time detection unit 13b, and a notification unit 13c. Here, the controller 13 is an electronic circuit such as a CPU (Central Processing Unit) or MPU (Micro Processing Unit), or an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).

故障時刻検出部13aは、現用系ノード50aの故障が待機系ノード50bによって検知された場合に、該待機系ノード50bが現用系ノード50aの故障を検知した時刻を検出する。具体的には、故障時刻検出部13aは、待機系ノード50bが現用系ノード50aの故障を検知した時刻を検出すると、該時刻を故障時刻記憶部12aに格納する。   When the failure of the active node 50a is detected by the standby node 50b, the failure time detector 13a detects the time when the standby node 50b detects the failure of the active node 50a. Specifically, when the failure time detection unit 13a detects a time when the standby node 50b detects a failure of the active node 50a, the failure time detection unit 13a stores the time in the failure time storage unit 12a.

また、故障時刻検出部13aは、待機系ノード50bの高可用性クラスタソフトウェア30bが、ハートビートパケットなどとも呼ばれる死活監視パケットを用いて現用系ノード50aの故障を検知した場合に、該待機系ノード50bが現用系ノード50aの故障を検知した時刻を検出する。   Further, the failure time detection unit 13a, when the high availability cluster software 30b of the standby node 50b detects a failure of the active node 50a using a life / death monitoring packet also called a heartbeat packet, the standby node 50b Detects the time when the failure of the active node 50a is detected.

ここで、待機系ノード50bの高可用性クラスタソフトウェア30bが死活監視パケットを用いて現用系ノード50aの故障を検知する方法について説明する。なお、以下の説明では、故障発生前の現用系ノード50aのハードウェアをハードウェアA、待機系ノード50bのハードウェアをハードウェアBとして説明する。また、待機系ノード50bの高可用性クラスタソフトウェア30bが死活監視パケットを用いて現用系ノード50aの故障を検知する方法として、故障したハードウェア以外の他のハードウェアにより故障が検知される方法と故障した現用系ノード50a自身により自ハードウェアの故障を検知する方法とがある。   Here, a method will be described in which the high availability cluster software 30b of the standby node 50b detects a failure of the active node 50a using the alive monitoring packet. In the following description, the hardware of the active node 50a before the occurrence of the failure is described as hardware A, and the hardware of the standby node 50b is described as hardware B. In addition, as a method for the high availability cluster software 30b of the standby node 50b to detect a failure of the active node node 50a using the alive monitoring packet, a method in which a failure is detected by hardware other than the failed hardware and a failure There is a method of detecting a failure of its own hardware by the active node 50a itself.

まず、故障したハードウェア以外の他のハードウェアにより故障が検知される方法の一例について説明する。高可用性クラスタソフトウェア30bは、一定間隔で同一クラスタに属する他の高可用性クラスタソフトウェア30aに対して死活監視用のパケット(以下では、適宜「ハートビートパケット」と記載する)を定期的に送信する。   First, an example of a method for detecting a failure by hardware other than the failed hardware will be described. The high availability cluster software 30b periodically transmits alive monitoring packets (hereinafter referred to as “heartbeat packets” as appropriate) to other high availability cluster software 30a belonging to the same cluster at regular intervals.

そして、ハートビートパケットを高可用性クラスタソフトウェア30aが受信すると、自身が動作するハードウェアやソフトウェアに関する監視結果を応答する。ここで、ハードウェアAがハートビートパケットを受信した場合には、ソフトウェアの状態監視の結果とハードウェアAの状態監視の結果をハートビートパケットに含めて、ハードウェアBへ応答を返す。なお、ハードウェアBがハートビートパケットを受信した場合にも、上記と同様に、ハードウェアBの状態監視の結果をハードウェアAへ応答を返す。   When the high-availability cluster software 30a receives the heartbeat packet, it returns a monitoring result related to the hardware and software on which it operates. Here, when the hardware A receives the heartbeat packet, the result of the software state monitoring and the result of the hardware A state monitoring are included in the heartbeat packet and a response is returned to the hardware B. Even when the hardware B receives the heartbeat packet, the hardware B returns a response to the hardware A status monitoring result as described above.

また、高可用性クラスタソフトウェア30bが送信したハートビートパケットへの応答がない場合には、または、応答に故障の情報が含まれている場合には、待機系ノード50bは、現用系ノード50aのハードウェアAにて故障が発生したことを検知する。   When there is no response to the heartbeat packet transmitted by the high availability cluster software 30b, or when the response includes failure information, the standby node 50b determines the hardware of the active node 50a. The wear A detects that a failure has occurred.

次に、故障した現用系ノード50a自身により自ハードウェアの故障を検知する方法の一例について説明する。故障した現用系ノード50a自身により自ハードウェアの故障を検知する方法には、ソフトウェアによる故障検知方法とハードウェアによる故障検知方法とがある。   Next, an example of a method for detecting a failure of the own hardware by the failed active node 50a itself will be described. As a method of detecting a failure of the own hardware by the failed active node 50a itself, there are a failure detection method by software and a failure detection method by hardware.

例えば、ソフトウェアによる故障検知方法として、HTTPによるレスポンスの確認やデータベースへのコネクションの接続の確認など、冗長化対象のソフトウェアへアクセスを行い、ソフトウェアが動作していることを確認し、適切な応答が得られない場合に故障と判断をする。   For example, as a failure detection method by software, access to redundancy target software, such as confirmation of response by HTTP or confirmation of connection of database, confirms that the software is operating, and sends an appropriate response If it cannot be obtained, it is judged as a failure.

また、ハードウェアによる故障検知方法としては、ハードウェアに対してicmpによる監視などを実施し、ハードウェアが稼働しているかを確認し、応答が無い場合に故障と判断をする。   Moreover, as a failure detection method by hardware, monitoring by hardware such as icmp is performed to check whether the hardware is operating, and when there is no response, a failure is determined.

このように、故障した現用系ノード50a自身により自ハードウェアの故障を検知すると、高可用性クラスタソフトウェア30aは、他のハードウェアへ送信するハートビートパケットや、他のハードウェアからのハートビートパケットへの応答を利用して故障を、同一クラスタ内の他の高可用性クラスタソフトウェア30bへ通知する。   As described above, when the failure of the own hardware is detected by the failed active node 50a itself, the high availability cluster software 30a transmits the heartbeat packet transmitted to other hardware or the heartbeat packet from other hardware. Is used to notify the other high availability cluster software 30b in the same cluster of the failure.

また、高可用性クラスタソフトウェア30bは、ハードウェアやソフトウェアの故障を検知すると、ログとして記録した故障を検知したことを示す情報をハードウェア上に通知する。ここで、故障時刻検出部13aは、現用系ノード50aが故障したことを示すログが記録されたことを契機に、待機系ノード50bが現用系ノード50aの故障を検知した時刻を検出する。つまり、高可用性クラスタソフトウェア30bにより故障を検知したことを示す情報がログとして記録されたことを契機に、故障時刻報記憶部12aへ高可用性クラスタソフトウェア30が故障を検知した時刻を記録する。   Further, when detecting a hardware or software failure, the high availability cluster software 30b notifies the hardware of information indicating that the failure recorded as a log has been detected. Here, the failure time detection unit 13a detects the time when the standby node 50b detects the failure of the active node 50a when a log indicating that the active node 50a has failed is recorded. That is, the time when the high availability cluster software 30 detects the failure is recorded in the failure time report storage unit 12a when information indicating that the failure is detected by the high availability cluster software 30b is recorded as a log.

起動時刻検出部13bは、待機系ノード50bにおいて稼働時間通知対象ソフトウェア20bの起動が完了した場合に、該稼働時間通知対象ソフトウェア20bの起動が完了した時刻を検出する。具体的には、起動時刻検出部13bは、稼働時間通知対象ソフトウェア20bの起動が完了した時刻を検出すると、該時刻を起動時刻記憶部12bに格納する。   When the activation of the operation time notification target software 20b is completed in the standby node 50b, the activation time detection unit 13b detects the time when the activation of the operation time notification target software 20b is completed. Specifically, when the activation time detection unit 13b detects the time when the activation of the operating time notification target software 20b is completed, the activation time detection unit 13b stores the time in the activation time storage unit 12b.

例えば、起動時刻検出部13bは、稼働時間通知対象ソフトウェア20bの起動完了を検知すると、稼働時間通知対象ソフトウェア20の起動時刻を起動時刻記憶部12aに格納する。   For example, when the activation time detection unit 13b detects the activation completion of the operation time notification target software 20b, the activation time detection unit 13b stores the activation time of the operation time notification target software 20 in the activation time storage unit 12a.

通知部13cは、故障時刻検出部13aによって検出された時刻と、起動時刻検出部13bによって検出された時刻とを外部通知先監視システム40へ通知する。例えば、通知部13cは、通信処理部11に対して外部通知先監視システム40へ通知の実施依頼を行い、通信処理部11を介して、待機系ノード50bが現用系ノード50aの故障を検知した時刻と、待機系ノード50bにおいてソフトウェアの起動が完了した時刻とを外部通知先監視システム40へ通知する。   The notification unit 13c notifies the external notification destination monitoring system 40 of the time detected by the failure time detection unit 13a and the time detected by the activation time detection unit 13b. For example, the notification unit 13c requests the communication processing unit 11 to perform notification to the external notification destination monitoring system 40, and the standby node 50b detects a failure of the active node 50a via the communication processing unit 11. The external notification destination monitoring system 40 is notified of the time and the time when the activation of the software is completed in the standby node 50b.

ここで、図6を用いて、ソフトウェアクラスタ50において現用系ノード50aのハードウェアに故障が発生した場合において、待機系ノード50bが現用系ノード50aの故障を検知した時刻と、待機系ノード50bにおいてソフトウェアの起動が完了した時刻とを外部通知先監視システム40へ通知する通知処理の全体の流れを説明する。図6は、第一の実施形態に係るソフトウェア稼働時間通知装置における通知処理の概要を説明する図である。   Here, referring to FIG. 6, when a failure occurs in the hardware of the active node 50a in the software cluster 50, the time when the standby node 50b detects the failure of the active node 50a, and the standby node 50b The overall flow of notification processing for notifying the external notification destination monitoring system 40 of the time when the activation of the software is completed will be described. FIG. 6 is a diagram illustrating an overview of notification processing in the software operating time notification device according to the first embodiment.

例えば、図6に例示するように、稼働時間通知対象ソフトウェア20aに障害が発生した場合に、上述したように、高可用性クラスタソフトウェア30bは、ハートビートパケットから稼働時間通知対象ソフトウェア20aの障害を検知する。そして、故障時刻検出部13aは、現用系ノード50aの故障が待機系ノード50bによって検知された場合に、該待機系ノード50bが現用系ノード50aの故障を検知した時刻を検出する。   For example, as illustrated in FIG. 6, when a failure occurs in the operation time notification target software 20a, as described above, the high availability cluster software 30b detects the failure of the operation time notification target software 20a from the heartbeat packet. To do. Then, when the failure of the active node 50a is detected by the standby node 50b, the failure time detector 13a detects the time when the standby node 50b detects the failure of the active node 50a.

続いて、待機系ノード50bでは、稼働時間通知対象ソフトウェア20bを起動する。そして、起動時刻検出部13bは、待機系ノード50bにおいて稼働時間通知対象ソフトウェア20bの起動が完了した場合に、該稼働時間通知対象ソフトウェア20bの起動が完了した時刻を検出する。その後、ソフトウェア稼働時間通知装置10bの通知部13cは、故障時刻検出部13aによって検出された時刻と、起動時刻検出部13bによって検出された時刻とを外部通知先監視システム40へ通知する。   Subsequently, the standby node 50b activates the operation time notification target software 20b. When the activation of the operating time notification target software 20b is completed in the standby node 50b, the activation time detection unit 13b detects the time when the activation of the operation time notification target software 20b is completed. Thereafter, the notification unit 13c of the software operating time notification device 10b notifies the external notification destination monitoring system 40 of the time detected by the failure time detection unit 13a and the time detected by the activation time detection unit 13b.

[ソフトウェア稼働時間通知装置による処理]
次に、図7を用いて、高可用性クラスタソフトウェア30による稼働時間通知対象ソフトウェア20の故障検知から、ソフトウェア稼働時間通知装置10による外部通知先監視システム40へ通知を実施するまでの流れを説明する。図7は、第一の実施形態に係るソフトウェア稼働時間通知装置における通知処理の流れを説明するためのフローチャートである。
[Processing by software operating time notification device]
Next, with reference to FIG. 7, a flow from detection of a failure of the operation time notification target software 20 by the high availability cluster software 30 to execution of notification to the external notification destination monitoring system 40 by the software operation time notification device 10 will be described. . FIG. 7 is a flowchart for explaining a flow of notification processing in the software operating time notification device according to the first embodiment.

図7に示すように、待機系ノード50bの高可用性クラスタソフトウェア30bが、クラスタ内の稼働時間通知対象ソフトウェア20の故障を検知すると(ステップS101肯定)、ソフトウェア稼働時間通知装置10の故障時刻検出部13aは、待機系ノード50bの高可用性クラスタソフトウェア30が現用系ノード50aの故障を検知した時刻を検出し、該時刻を故障時刻記憶部12aに記録する(ステップS102)。   As shown in FIG. 7, when the high availability cluster software 30b of the standby node 50b detects a failure of the operation time notification target software 20 in the cluster (Yes in step S101), a failure time detection unit of the software operation time notification device 10 13a detects the time when the high availability cluster software 30 of the standby node 50b detects the failure of the active node 50a, and records the time in the failure time storage unit 12a (step S102).

例えば、故障時刻検出部13aは、現用系ノード50aが故障したことを示すログが記録されたことを契機に、待機系ノード50bが現用系ノード50aの故障を検知した時刻を検出する。つまり、高可用性クラスタソフトウェア30bにより故障を検知したことを示す情報がログとして記録されたことを契機に、高可用性クラスタソフトウェア30bが故障を検知した時刻を故障時刻報記憶部12aに記録する。   For example, the failure time detection unit 13a detects the time when the standby node 50b detects a failure of the active node 50a when a log indicating that the active node 50a has failed is recorded. That is, the time when the high availability cluster software 30b detects the failure is recorded in the failure time report storage unit 12a when the information indicating that the failure is detected by the high availability cluster software 30b is recorded as a log.

そして、待機系ノード50bは、監視対象のソフトウェアである稼働時間通知対象ソフトウェア20の起動、および起動時刻検出部13bによる起動時刻の監視を開始する(ステップS103)。続いて、起動時刻検出部13bは、ノード内で動作するプロセスを監視し、稼働時間通知対象ソフトウェア20の起動を検知したか否かを判定する(ステップS104)。   Then, the standby node 50b starts activation of the operating time notification target software 20, which is monitoring target software, and monitoring of the activation time by the activation time detection unit 13b (step S103). Subsequently, the activation time detection unit 13b monitors a process operating in the node and determines whether activation of the operation time notification target software 20 is detected (step S104).

この結果、起動時刻検出部13bは、稼働時間通知対象ソフトウェア20の起動を検知すると(ステップS104肯定)、監視対象のソフトウェアの起動時刻を起動時刻記憶部12bに記録する(ステップS105)。その後、通知部13cは、高可用性クラスタソフトウェア30bが故障を検知した故障時刻と、稼働時間通知対象ソフトウェア20の起動時刻とを外部通知先監視システム40へ送信し(ステップS106)、ソフトウェア稼働時間通知装置10による通知処理を終了する。   As a result, when the activation time detection unit 13b detects activation of the operation time notification target software 20 (Yes in Step S104), the activation time of the monitoring target software is recorded in the activation time storage unit 12b (Step S105). Thereafter, the notification unit 13c transmits the failure time when the high availability cluster software 30b detects the failure and the activation time of the operation time notification target software 20 to the external notification destination monitoring system 40 (step S106), and the software operation time notification The notification process by the device 10 ends.

また、上記の一連の処理の流れの説明では、待機系ノード50bにおいて、自ノードで稼働時間通知対象ソフトウェア20の起動を行う場合を説明したが、他ノードで稼働時間通知対象ソフトウェア20の起動を行われる場合もある。   In the description of the above-described series of processing flow, the case where the operation time notification target software 20 is started in the own node in the standby node 50b has been described. However, the operation time notification target software 20 is started in the other node. Sometimes it is done.

このような場合には、例えば、他の待機系ノード50bで稼働時間通知対象ソフトウェア20の起動を高可用性クラスタソフトウェア30が検知すると、検知した情報をノード内へログなどを利用して通知する。そして、他のノードでの稼働時間通知対象ソフトウェア20の起動を起動時刻検出部13bが検知し、起動時刻検出部13bへ稼働時間通知対象ソフトウェア20の監視終了を指示する。その後、ソフトウェア稼働時間通知装置10による通知処理を終了する。   In such a case, for example, when the high availability cluster software 30 detects the activation of the operation time notification target software 20 in another standby node 50b, the detected information is notified to the node using a log or the like. Then, the activation time detection unit 13b detects the activation of the operation time notification target software 20 in another node, and instructs the activation time detection unit 13b to end the monitoring of the operation time notification target software 20. Thereafter, the notification process by the software operating time notification device 10 is terminated.

[第一の実施形態の効果]
上述してきたように、第一の実施形態にかかるソフトウェア稼働時間通知装置10は、ソフトウェア稼働時間通知装置10は、現用系ノード50aの故障が待機系ノード50bによって検知された場合に、該待機系ノード50bが現用系ノード50aの故障を検知した時刻を検出し、待機系ノード50bにおいて稼働時間通知対象ソフトウェア20の起動が完了した場合に、該稼働時間通知対象ソフトウェア20の起動が完了した時刻を検出する。そして、ソフトウェア稼働時間通知装置10は、待機系ノード50bが現用系ノード50aの故障を検知した時刻と、待機系ノード50bにおいてソフトウェアの起動が完了した時刻とを外部通知先監視システム40へ通知する。これにより、ソフトウェア毎に監視方法を変更する必要なく、ソフトウェアの稼働時間を外部装置に適切に通知し、かつ監視コストを低減することが可能である。
[Effect of the first embodiment]
As described above, the software operating time notification device 10 according to the first embodiment is the same as the software operating time notification device 10 when the failure of the active node 50a is detected by the standby node 50b. When the time when the node 50b detects the failure of the active node 50a is detected and the activation of the operation time notification target software 20 is completed in the standby node 50b, the time when the activation of the operation time notification target software 20 is completed To detect. Then, the software operating time notification device 10 notifies the external notification destination monitoring system 40 of the time when the standby node 50b detects the failure of the active node 50a and the time when the activation of the software is completed in the standby node 50b. . Accordingly, it is possible to appropriately notify the external device of the operation time of the software and to reduce the monitoring cost without changing the monitoring method for each software.

また、ソフトウェア稼働時間通知装置10が稼働時間通知対象ソフトウェア20の稼働時間を外部通知先監視システム40へ通知するため、外部通知先監視システム40の機能に依存せずに稼働時間通知対象ソフトウェアの切り替わりに要した時間を通知することが可能である。   In addition, since the software operation time notification device 10 notifies the operation time of the operation time notification target software 20 to the external notification destination monitoring system 40, the operation time notification target software is switched without depending on the function of the external notification destination monitoring system 40. It is possible to notify the time required for.

また、待機系ノード50bで動作するソフトウェア稼働時間通知装置10から外部通知先監視システム40へ通知するため、現用系ノード50aの通信機能に故障が発生した場合でも、外部通知先監視システム40へ稼働時間通知対象ソフトウェア20の稼働時間を通知することが可能である。   In addition, since the software operating time notification device 10 operating in the standby node 50b notifies the external notification destination monitoring system 40, even if a failure occurs in the communication function of the active node 50a, the external notification destination monitoring system 40 operates. The operating time of the time notification target software 20 can be notified.

また、現用系ノード50aの故障発生時に、稼働時間通知対象ソフトウェア20が切り替わった待機系ノード50bで動作するソフトウェア稼働時間通知装置10から外部通知先監視システム40へ通知するため、ソフトウェアクラスタ50や稼働時間通知対象ソフトウェア20の数が増加しても監視コストが増加することがなく、監視コストを低減することが可能である。   In addition, when a failure occurs in the active node 50a, the software operating time notification device 10 operating in the standby node 50b to which the operating time notification target software 20 is switched is notified to the external notification destination monitoring system 40. Even if the number of time notification target software 20 increases, the monitoring cost does not increase, and the monitoring cost can be reduced.

[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、故障時刻検出部13aと起動時刻検出部13bとを統合してもよい。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[System configuration, etc.]
Further, each component of each illustrated apparatus is functionally conceptual, and does not necessarily need to be physically configured as illustrated. In other words, the specific form of distribution / integration of each device is not limited to that shown in the figure, and all or a part thereof may be functionally or physically distributed or arbitrarily distributed in arbitrary units according to various loads or usage conditions. Can be integrated and configured. For example, the failure time detection unit 13a and the activation time detection unit 13b may be integrated. Further, all or any part of each processing function performed in each device may be realized by a CPU and a program analyzed and executed by the CPU, or may be realized as hardware by wired logic.

また、本実施形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。   In addition, among the processes described in the present embodiment, all or part of the processes described as being performed automatically can be performed manually, or the processes described as being performed manually can be performed. All or a part can be automatically performed by a known method. In addition, the processing procedure, control procedure, specific name, and information including various data and parameters shown in the above-described document and drawings can be arbitrarily changed unless otherwise specified.

[プログラム]
また、上記実施形態において説明したソフトウェア稼働時間通知装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。例えば、第一の実施形態に係るソフトウェア稼働時間通知装置10が実行する処理をコンピュータが実行可能な言語で記述した通知プログラムを作成することもできる。この場合、コンピュータが通知プログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかる通知プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録され通知プログラムをコンピュータに読み込ませて実行することにより上記第一の実施形態と同様の処理を実現してもよい。以下に、図3に示したソフトウェア稼働時間通知装置10と同様の機能を実現する通知プログラムを実行するコンピュータの一例を説明する。
[program]
Moreover, it is also possible to create a program in which the processing executed by the software operating time notification device 10 described in the above embodiment is described in a language that can be executed by a computer. For example, it is possible to create a notification program in which the processing executed by the software operating time notification device 10 according to the first embodiment is described in a language that can be executed by a computer. In this case, when the computer executes the notification program, the same effect as in the above embodiment can be obtained. Furthermore, the same processing as in the first embodiment may be realized by recording such a notification program on a computer-readable recording medium, and recording the notification program recorded on the recording medium and causing the computer to read and execute the notification program. Good. Hereinafter, an example of a computer that executes a notification program that realizes the same function as the software operating time notification device 10 illustrated in FIG. 3 will be described.

図8は、通知プログラムを実行するコンピュータ1000を示す図である。図8に例示するように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有し、これらの各部はバス1080によって接続される。   FIG. 8 is a diagram illustrating a computer 1000 that executes a notification program. As illustrated in FIG. 8, the computer 1000 includes, for example, a memory 1010, a CPU 1020, a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. These units are connected by a bus 1080.

メモリ1010は、図8に例示するように、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、図8に例示するように、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、図8に例示するように、ディスクドライブ1041に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1041に挿入される。シリアルポートインタフェース1050は、図8に例示するように、例えばマウス1051、キーボード1052に接続される。ビデオアダプタ1060は、図8に例示するように、例えばディスプレイ1061に接続される。   The memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012 as illustrated in FIG. The ROM 1011 stores a boot program such as BIOS (Basic Input Output System). The hard disk drive interface 1030 is connected to the hard disk drive 1031 as illustrated in FIG. The disk drive interface 1040 is connected to the disk drive 1041 as illustrated in FIG. For example, a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1041. The serial port interface 1050 is connected to, for example, a mouse 1051 and a keyboard 1052 as illustrated in FIG. The video adapter 1060 is connected to a display 1061, for example, as illustrated in FIG.

ここで、図8に例示するように、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記の通知プログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュールとして、例えばハードディスクドライブ1031に記憶される。   Here, as illustrated in FIG. 8, the hard disk drive 1031 stores, for example, an OS 1091, an application program 1092, a program module 1093, and program data 1094. That is, the above notification program is stored in, for example, the hard disk drive 1031 as a program module in which a command to be executed by the computer 1000 is described.

また、上記実施形態で説明した各種データは、プログラムデータとして、例えばメモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出し、各種処理手順を実行する。   The various data described in the above embodiment is stored as program data, for example, in the memory 1010 or the hard disk drive 1031. Then, the CPU 1020 reads the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1031 to the RAM 1012 as necessary, and executes various processing procedures.

なお、通知プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してCPU1020によって読み出されてもよい。あるいは、通知プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。   Note that the program module 1093 and the program data 1094 related to the notification program are not limited to being stored in the hard disk drive 1031, but may be stored in, for example, a removable storage medium and read out by the CPU 1020 via the disk drive or the like. Good. Alternatively, the program module 1093 and the program data 1094 related to the notification program are stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.), and via the network interface 1070. May be read by the CPU 1020.

10、10a、10b ソフトウェア稼働時間通知装置
11 通信処理部
12 記憶部
12a 故障時刻記憶部
12b 起動時刻記憶部
13 制御部
13a 故障時刻検出部
13b 起動時刻検出部
13c 通知部
13 記憶部
13a 故障時刻記憶部
13b 起動時刻記憶部
20、20a、20b 稼働時間通知対象ソフトウェア
30、30a、30b 高可用性クラスタソフトウェア
40 外部通知先監視システム
10, 10a, 10b Software operating time notification device 11 Communication processing unit 12 Storage unit 12a Failure time storage unit 12b Startup time storage unit 13 Control unit 13a Failure time detection unit 13b Startup time detection unit 13c Notification unit 13 Storage unit 13a Failure time storage Unit 13b Startup time storage unit 20, 20a, 20b Operation time notification target software 30, 30a, 30b High availability cluster software 40 External notification destination monitoring system

Claims (6)

現用系ノードが故障した場合に、該現用系ノードで稼働するソフトウェアを待機系ノードにおいて起動させるクラスタシステムにおいて、前記ソフトウェアに関する情報を外部装置へ通知する、前記待機系ノードが有する通知装置であって、
前記現用系ノードの故障が待機系ノードによって検知された場合に、前記待機系ノードの高可用性クラスタソフトウェアによって前記現用系ノードが故障したことを示すログが記録されたことを契機に、該ログが記録された時刻を、該待機系ノードが現用系ノードの故障を検知した時刻である第1時刻として検出する故障時刻検出部と、
前記故障時刻検出部によって前記第1時刻が検出された後、前記待機系ノード内で動作するプロセスを監視し、前記待機系ノードにおけるソフトウェアの起動を検知し、前記待機系ノードにおいて前記ソフトウェアの起動が完了した場合に、該ソフトウェアの起動が完了した時刻である第2時刻を検出する起動時刻検出部と、
前記第1時刻と、前記第2時刻とを外部装置へ通知する通知部と、
を備えることを特徴とする通知装置。
A notification device included in the standby node that notifies the external device of information related to the software in a cluster system that activates software running on the active node on the standby node when the active node fails. ,
When the failure of the active node is detected by the standby node, the log indicating that the active node has failed is recorded by the high availability cluster software of the standby node. the time recorded, and the failure time detecting unit for detecting a first time is a time at which該待machine system node detects a failure of the active system node,
After the first time is detected by the failure time detection unit, the process that operates in the standby node is monitored, the activation of the software in the standby node is detected, and the activation of the software in the standby node A start time detecting unit for detecting a second time that is a time when the start of the software is completed,
A notification unit for notifying an external device of the first time and the second time;
A notification device comprising:
前記第1時刻を記憶する故障時刻記憶部と、
前記第2時刻を記憶する起動時刻記憶部と
をさらに備え、
前記故障時刻検出部は、前記第1時刻を検出すると、前記第1時刻を前記故障時刻記憶部に格納し、
前記起動時刻検出部は、前記第2時刻を検出すると、前記第2時刻を前記起動時刻記憶部に格納し、
前記通知部は、前記故障時刻記憶部に格納された第1時刻と前記起動時刻記憶部に格納された第2時刻とを外部装置へ通知することを特徴とする請求項1に記載の通知装置。
A failure time storage unit for storing the first time;
A startup time storage unit for storing the second time,
When the failure time detection unit detects the first time, the failure time detection unit stores the first time in the failure time storage unit,
The activation time detection unit, when detecting the second time, stores the second time in the activation time storage unit,
The notification device according to claim 1, wherein the notification unit notifies an external device of a first time stored in the failure time storage unit and a second time stored in the activation time storage unit. .
前記起動時刻検出部は、前記待機系ノードが死活パケットを用いて前記現用系ノードの故障を検知した場合に、前記第1時刻を検出することを特徴とする請求項1または2に記載の通知装置。 3. The notification according to claim 1, wherein the activation time detection unit detects the first time when the standby node detects a failure of the active node using an alive packet. 4. apparatus. 現用系ノードが故障した場合に、該現用系ノードで稼働するソフトウェアを待機系ノードにおいて起動させるクラスタシステムにおいて、前記ソフトウェアに関する情報を外部装置へ通知する、前記待機系ノードが有する通知装置により実行される通知方法であって、
前記現用系ノードの故障が待機系ノードによって検知された場合に、前記待機系ノードの高可用性クラスタソフトウェアによって前記現用系ノードが故障したことを示すログが記録されたことを契機に、該ログが記録された時刻を、該待機系ノードが現用系ノードの故障を検知した時刻である第1時刻として検出する故障時刻検出工程と、
前記故障時刻検出工程によって前記第1時刻が検出された後、前記待機系ノード内で動作するプロセスを監視し、前記待機系ノードにおけるソフトウェアの起動を検知し、前記待機系ノードにおいて前記ソフトウェアの起動が完了した場合に、該ソフトウェアの起動が完了した時刻である第2時刻を検出する起動時刻検出工程と、
前記第1時刻と、前記第2時刻とを外部装置へ通知する通知工程と、
を含んだことを特徴とする通知方法。
In the cluster system that activates the software running on the active node in the standby node when the active node fails, it is executed by the notification device of the standby node that notifies the external device of information related to the software. Notification method,
When the failure of the active node is detected by the standby node, the log indicating that the active node has failed is recorded by the high availability cluster software of the standby node. the time recorded, and the failure time detection step of detecting a first time is a time at which該待machine system node detects a failure of the active system node,
After the first time is detected by the failure time detection step, the process that operates in the standby node is monitored, the activation of the software in the standby node is detected, and the activation of the software in the standby node A start time detecting step of detecting a second time that is a time when the start of the software is completed,
A notification step of notifying the external device of the first time and the second time;
The notification method characterized by including.
前記故障時刻検出工程は、前記第1時刻を検出すると、前記第1時刻を故障時刻記憶部に格納し、
前記起動時刻検出工程は、前記第2時刻を検出すると、前記第2時刻を起動時刻記憶部に格納し、
前記通知工程は、前記故障時刻記憶部に格納された第1時刻と前記起動時刻記憶部に格納された第2時刻とを外部装置へ通知することを特徴とする請求項に記載の通知方法。
In the failure time detection step, when the first time is detected, the first time is stored in the failure time storage unit,
In the activation time detecting step, when the second time is detected, the second time is stored in an activation time storage unit,
5. The notification method according to claim 4 , wherein the notifying step notifies an external device of a first time stored in the failure time storage unit and a second time stored in the activation time storage unit. .
前記起動時刻検出工程は、待機系ノードが死活パケットを用いて前記現用系ノードの故障を検知した場合に、前記第1時刻を検出することを特徴とする請求項4または5に記載の通知方法。 6. The notification method according to claim 4, wherein the activation time detecting step detects the first time when the standby node detects a failure of the active node using a life / death packet. .
JP2013220309A 2013-10-23 2013-10-23 Notification device and notification method Expired - Fee Related JP6224985B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013220309A JP6224985B2 (en) 2013-10-23 2013-10-23 Notification device and notification method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013220309A JP6224985B2 (en) 2013-10-23 2013-10-23 Notification device and notification method

Publications (2)

Publication Number Publication Date
JP2015082238A JP2015082238A (en) 2015-04-27
JP6224985B2 true JP6224985B2 (en) 2017-11-01

Family

ID=53012801

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013220309A Expired - Fee Related JP6224985B2 (en) 2013-10-23 2013-10-23 Notification device and notification method

Country Status (1)

Country Link
JP (1) JP6224985B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112817992B (en) * 2021-01-29 2023-06-23 北京百度网讯科技有限公司 Method, apparatus, electronic device and readable storage medium for executing change task

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5032191B2 (en) * 2007-04-20 2012-09-26 株式会社日立製作所 Cluster system configuration method and cluster system in server virtualization environment
JP5982842B2 (en) * 2012-02-03 2016-08-31 富士通株式会社 Computer fault monitoring program, method, and apparatus

Also Published As

Publication number Publication date
JP2015082238A (en) 2015-04-27

Similar Documents

Publication Publication Date Title
US10860311B2 (en) Method and apparatus for drift management in clustered environments
US10558517B2 (en) Proactive cloud orchestration
US8117487B1 (en) Method and apparatus for proactively monitoring application health data to achieve workload management and high availability
US8065560B1 (en) Method and apparatus for achieving high availability for applications and optimizing power consumption within a datacenter
US8112518B2 (en) Redundant systems management frameworks for network environments
US20210133054A1 (en) Prioritized transfer of failure event log data
US9210059B2 (en) Cluster system
CN107508694B (en) Node management method and node equipment in cluster
US8381014B2 (en) Node controller first failure error management for a distributed system
JP5855724B1 (en) Virtual device management apparatus, virtual device management method, and virtual device management program
CN110830283A (en) Fault detection method, device, equipment and system
JPWO2019049433A1 (en) Cluster system, cluster system control method, server device, control method, and program
US11163630B2 (en) Using real-time analytics to manage application features
CN107071189B (en) Connection method of communication equipment physical interface
JP2015069384A (en) Information processing system, control method for information processing system, and control program for information processor
JP6224985B2 (en) Notification device and notification method
CN115145782A (en) Server switching method, mooseFS system and storage medium
JP2010176345A (en) Multi-node system, node, memory dump processing method, and program
US20210011749A1 (en) Systems and methods to monitor a computing environment
JP5631285B2 (en) Fault monitoring system and fault monitoring method
US20220030093A1 (en) Selective tcp/ip stack reconfiguration
JP7311335B2 (en) DISTRIBUTED CONTAINER MONITORING SYSTEM AND DISTRIBUTED CONTAINER MONITORING METHOD
JP6277069B2 (en) Virtual device management apparatus, virtual device management method, and virtual device management program
JP6364203B2 (en) Monitoring server for monitoring system operating status and monitoring server control method
JP2023526174A (en) Isolation of non-responsive ports in the network fabric

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20151001

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20151005

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160909

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170321

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171006

R150 Certificate of patent or registration of utility model

Ref document number: 6224985

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees