JP6674916B2 - 通信障害管理装置、及び通信システム - Google Patents

通信障害管理装置、及び通信システム Download PDF

Info

Publication number
JP6674916B2
JP6674916B2 JP2017011949A JP2017011949A JP6674916B2 JP 6674916 B2 JP6674916 B2 JP 6674916B2 JP 2017011949 A JP2017011949 A JP 2017011949A JP 2017011949 A JP2017011949 A JP 2017011949A JP 6674916 B2 JP6674916 B2 JP 6674916B2
Authority
JP
Japan
Prior art keywords
time
communication
failure
computer
communication failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017011949A
Other languages
English (en)
Other versions
JP2018121232A (ja
Inventor
篤史 丹治
篤史 丹治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2017011949A priority Critical patent/JP6674916B2/ja
Publication of JP2018121232A publication Critical patent/JP2018121232A/ja
Application granted granted Critical
Publication of JP6674916B2 publication Critical patent/JP6674916B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、ネットワークを介して接続された計算機との間の通信障害を検出する通信障害管理装置等に関する。
従来、複数の計算機が接続されているネットワークシステムにおいて、計算機が定周期にデータを送信するようにし、定周期で送信されるデータを利用して、各計算機やネットワークにおける障害の発生を検出する技術が知られている。このような技術では、例えば、定周期で送信されるデータが所定時間以上受信できない場合に、通信障害が発生していると判定し、通信障害に関する各種状況等をログファイルに記憶するようにしている。
また、複数のノード装置で構成されたネットワークにおいて、ノード装置間でハローメッセージを送受信することにより、ハローメッセージを所定時間以上受信できない場合に、ノード装置に障害が発生したと判定するとともに、その障害が発生したノード装置を経由する他のノード装置を直接アクセスして障害が発生しているか否かを判定する技術が知られている(例えば、特許文献1参照)。
特開2010−98591号公報
例えば、複数の計算機が接続されているネットワークシステムにおいては、定周期で送信される通信データが所定時間以上受信できない場合を常に通信障害として検知し、その際の状況等の情報をログファイルに記録するようにしているので、ログファイルを格納するために比較的大きな容量の記憶装置を用意しなくてはならず、さもなければ、古い情報が上書きされて、直近の限られた短期間の情報しか保存されていないこととなる。
ここで、通信データが所定時間以上受信できない場合に、障害として判定してログファイルに記録するようにすると、例えば、計算機を保守する作業等において、計算機自体を再起動したり、計算機の電源を一時的に停止させたり、計算機の通信機能を一時的に停止させたりした場合等のように、実際には障害が発生していない場合においても、障害として誤検知され、ログファイルに記録されることとなる。
このように、障害が発生していない場合についての情報までログファイルに記録されてしまうと、このような障害とは関係のない不要なデータのために、限られた記憶装置の容量が無駄に消費されてしまい、本当に必要な情報が短期間で消失してしまう虞もある。また、ログファイルを確認する際においても、障害と関係ないデータが多いと、実際の障害に関するデータを高精度に判別することが困難となる。
本発明は、上記事情に鑑みなされたものであり、その目的は、ネットワークにおける障害発生の誤検知を低減することのできる技術を提供することにある。
上記目的を達成するため、第1の観点に係る通信障害管理装置は、所定の周期時間ごとに所定の通信データを送信するように動作する1以上の計算機に、ネットワークを介して接続される通信障害管理装置であって、計算機からの通信データを受信した場合に、通信データを前回受信した時点からの経過時間を特定する経過時間特定部と、特定した経過時間が周期時間に基づく所定の第1時間を超過し、かつ、第1時間よりも長い第2時間以内である場合に、計算機との間で障害が発生していると判定し、特定した経過時間が第1時間を超過し、かつ、第2時間を超過している場合に、障害が発生していないと判定する障害判定部と、障害判定部により障害が発生していると判定された場合に、障害に関する情報を記録する障害記録部と、を備える。
本発明によれば、ネットワークにおける障害発生における誤検知を適切に低減することができる。
図1は、一実施形態に係る通信システムの全体構成図である。 図2は、一実施形態に係る通信障害検出計算機の機能構成図である。 図3は、一実施形態に係るデータ受信時刻管理テーブルの構成図である。 図4は、一実施形態に係るデータ受信時処理のフローチャートである。 図5は、一実施形態に係る通信障害検出処理のフローチャートである。 図6は、一実施形態に係るログ記録処理のフローチャートである。 図7は、一実施形態に係る通信障害回復検出処理のフローチャートである。 図8は、一実施形態に係る通信障害検出計算機の動作の具体例を説明する第1の図である。 図9は、一実施形態に係る通信障害検出計算機の動作の具体例を説明する第2の図である。 図10は、一実施形態に係る通信障害検出計算機の動作の具体例を説明する第3の図である。
実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態の中で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。
以下の説明では、「AAAテーブル」の表現にて情報を説明することがあるが、情報は、どのようなデータ構造で表現されていてもよい。すなわち、情報がデータ構造に依存しないことを示すために、「AAAテーブル」を「AAA情報」と呼ぶことができる。
図1は、一実施形態に係る通信システムの全体構成図である。
通信システム100は、1以上の計算機111(111A,111B)と、通信障害管理装置の一例としての通信障害検出計算機101とを備えている。計算機111(111A,111B)と、通信障害検出計算機101とは、ネットワーク130を介して接続されている。ネットワーク130は、LAN(Local Area Network)でも、WAN(Wide Area Network)であってもよい。
通信障害検出計算機101は、プロセッサの一例としてのCPU(Central Processing Unit)102と、メモリ103と、補助記憶装置104と、通信I/F(インターフェース)105と、入力デバイス106と、表示デバイス107とを備える。
通信I/F105は、ネットワーク130を介して、他の装置(計算機111A,111B等)と通信するためのインターフェースである。
CPU102は、メモリ103及び/又は補助記憶装置104に格納されているプログラムに従って各種処理を実行する。
メモリ103は、例えば、RAM(RANDOM ACCESS MEMORY)であり、CPU102で実行されるプログラムや、CPU102で利用されるデータを記憶する。
補助記憶装置104は、例えば、バードディスクやフラッシュメモリなどであり、CPU102で実行されるプログラムや、CPU102に利用されるデータを記憶する。
入力デバイス106は、例えば、マウス、キーボード等の装置であり、通信障害検出計算機101のユーザによる入力操作を受け付ける。表示デバイス107は、例えば、液晶ディスプレイ等の表示装置であり、各種情報を表示する。
ここで、計算機111(111A,111B)について説明する。なお、計算機111Aと、計算機111Bとは、同様な構成をしており、いずれかを区別しない場合には、計算機111として表記する。
計算機111は、CPU112と、メモリ113と、補助記憶装置114と、通信I/F115と、入力デバイス116と、表示デバイス117とを備える。
通信I/F115は、ネットワーク130を介して、他の装置(通信障害検出計算機101、計算機111等)と通信するためのインターフェースである。
CPU112は、メモリ113及び/又は補助記憶装置114に格納されているプログラムに従って各種処理を実行する。本実施形態では、CPU112は、所定の周期時間(例えば、1秒以下の時間(1ms等))ごとに、所定の通信データを通信I/F115を介してネットワーク130に送信する。ここで、通信データは、例えば、計算機111が動作していることを示すデータであり、宛先を指定していないデータである。この通信データについては、ネットワーク130を介して、通信障害検出計算機101が受信できるようになっている。
メモリ113は、例えば、RAMであり、CPU112で実行されるプログラムや、CPU112で利用されるデータを記憶する。
補助記憶装置114は、例えば、バードディスクやフラッシュメモリなどであり、CPU112で実行されるプログラムや、CPU112に利用されるデータを記憶する。
入力デバイス116は、例えば、マウス、キーボード等の装置であり、計算機111のユーザによる入力操作を受け付ける。表示デバイス117は、例えば、液晶ディスプレイ等の表示装置であり、各種情報を表示する。
図2は、一実施形態に係る通信障害検出計算機の機能構成図である。
通信障害検出計算機101は、通信処理部201と、経過時間特定部、障害判定部、及び通信障害回復判定部の一例としての通信障害検出部202と、障害記録部の一例としてのログ記録処理部203と、データ受信時刻管理テーブル204と、メッセージログファイル205と、計算機動作情報ログファイル206とを備える。通信処理部201と、通信障害検出部202と、ログ記録処理部203とは、メモリ103又は補助記憶装置104に記憶されているプログラムをCPU102が実行することにより構成される。データ受信時刻管理テーブル204と、メッセージログファイル205と、計算機動作情報ログファイル206とは、メモリ103又は補助記憶装置104の少なくとも一方に格納される。
通信処理部201は、ネットワーク130を介してデータの送受信を行う。なお、通信処理部201の詳細な動作については後述する。
通信障害検出部202は、計算機111との間の通信ができなくなる通信障害を検出する。ここで、通信障害には、計算機111自体の障害や、ネットワーク130の障害、通信障害検出計算機101の障害のいずれかが原因の障害が含まれる。通信障害検出部202の詳細な動作については後述する。
ログ記録処理部203は、通信障害が検出されたことや、通信障害が回復したことを示すメッセージや、障害に関する各種情報をログファイルに記録する。ログ記録処理部203の詳細な動作については後述する。
メッセージログファイル205は、各種メッセージの履歴を格納する。
計算機動作情報ログファイル206は、障害に関する情報として、障害発生時における計算機の動作に関する情報等を格納する。
データ受信時刻管理テーブル204は、データの受信に関する各種情報を管理する。
図3は、一実施形態に係るデータ受信時刻管理テーブルの構成図である。
データ受信時刻管理テーブル204は、送信元となる各計算機毎に、送信元計算機301と、前回受信時刻302と、最新受信時刻303と、通信障害検出時刻304と、通信復旧検出時刻305とのフィールドを有するエントリを格納する。
送信元計算機301には、通信データの送信元の計算機を識別可能な識別情報が格納される。前回受信時刻302には、前回の通信データを受信した時刻(前回受信時刻)が格納される。最新受信時刻303には、最新の通信データを受信した時刻(最新受信時刻)が格納される。通信障害検出時刻304には、通信障害の発生が検出された時刻(通信障害検出時刻)が格納される。通信復旧検出時刻305には、通信障害の発生後、最初に通信データが正常に受信されたことを検出した時刻(通信復旧検出時刻)が格納される。本実施形態では、各フィールドに格納される時刻としては、例えば、年、月、日、時、分、秒、m秒が含まれている時刻となっているが、時刻の形式は、これに限らない。
次に、本実施形態に係る通信障害検出計算機101の処理動作について説明する。
図4は、一実施形態に係るデータ受信時処理のフローチャートである。
データ受信時処理は、計算機111からネットワーク130に送信された所定の通信データを受信する際に通信処理部201により実行される処理である。
まず、通信処理部201は、ネットワーク130から計算機111が送信した通信データを受信する(ステップS101)。
次いで、通信処理部201は、データ受信時刻管理テーブル204の各エントリを参照し、エントリの送信元計算機301に、受信した通信データの送信元の計算機111の識別情報があるか否かを判定する(ステップS102)。いずれのエントリの送信元計算機301にも送信元の計算機111の識別情報が無い場合(ステップS102:NO)には、データ受信時刻管理テーブル204に送信元の計算機111に対応するエントリ(図4、図5、及び図7の説明において対応エントリという)がないことを意味するので、通信処理部201は、データ受信時刻管理テーブル204に新たなエントリを追加し、追加したエントリの送信元計算機301に、送信元の計算機111の識別情報を記録することにより対応エントリを作成し(ステップS103)、処理をステップS104に進める。
一方、いずれかのエントリの送信元計算機301に送信元の計算機111の識別情報があった場合(ステップS102:YES)には、対応エントリがあることを意味するので、通信処理部201は、処理をステップS104に進める。
ステップS104では、通信処理部201は、データ受信時刻管理テーブル204の対応エントリの最新受信時刻303に記録があるか否かを判定する。この結果、対応エントリの最新受信時刻303に記録がある場合(ステップS104:YES)には、通信処理部201は、この対応エントリの最新受信時刻303の最新受信時刻を、前回受信時刻302に記録し(ステップS105)、処理をステップS106に進める。
一方、対応エントリの最新受信時刻303に記録がない場合(ステップS104:NO)には、通信処理部201は、処理をステップS106に進める。
ステップS106では、通信処理部201は、ステップS101で受信した通信データの受信時刻(データ受信時刻)を対応エントリの最新受信時刻303に記録する。
次いで、通信処理部201は、この送信元の計算機111との間の通信障害が検出されており(すなわち、対応エントリの通信障害検出時刻に時刻が記録されており)、且つ、対応エントリの通信復旧検出時刻305に記録が無いか否かを判定する(ステップS107)。
この結果、この送信元の計算機111との間の通信障害が検出されており、且つ、対応エントリの通信復旧検出時刻305に記録が無い場合(ステップS107:YES)には、通信処理部201は、データ受信時刻を対応エントリの通信復旧検出時刻305に記録し(ステップS108)、処理を終了する。
一方、この送信元の計算機111との間の通信障害が検出されていない場合や、対応エントリの通信復旧検出時刻305に記録がある場合(ステップS107:NO)には、通信処理部201は、処理を終了する。
図5は、一実施形態に係る通信障害検出処理のフローチャートである。
通信障害検出処理は、データ受信時処理の実行後に、通信障害検出部202により実行される処理である。
まず、通信障害検出部202は、データ受信時刻管理テーブル204の対象エントリの前回受信時刻302に記録があるか否かを判定する(ステップS201)。この結果、対象エントリの前回受信時刻302に記録がある場合(ステップS201:YES)には、通信障害検出部202は、対象エントリの前回受信時刻302の前回受信時刻と、最新受信時刻303の最新受信時刻との差分(すなわち、前回受信からの経過時間)を算出(特定)する(ステップS202)。なお、対象エントリの前回受信時刻302に記録がない場合(ステップS201:NO)には、通信障害検出部202は、通信障害検出処理を終了する。
次いで、通信障害検出部202は、差分がデータ送信周期時間(第1時間)を超過しているか否かを判定する(ステップS203)。ここで、データ送信周期時間とは、計算機111から所定の送信周期で送信する通信データの差分(経過時間)として許容されている時間であり、例えば、通信データの送信周期と同じ時間としてもよく、送信周期に対して所定の許容時間を加算した時間としてもよい。
この結果、差分がデータ送信周期時間を超過している場合(ステップS203:YES)には、さらに通信障害か否かを判定するために、通信障害検出部202は、処理をステップS204に進める。一方、差分がデータ送信周期時間を超過していない場合(ステップS203:NO)には、通信障害が発生していないことを意味しているので、通信障害検出部202は、通信障害検出処理を終了する。
ステップS204では、通信障害検出部202は、差分が計算機保守作業停止判断時間(第2時間)以内か否かを判定する。ここで、計算機保守作業停止判断時間とは、データ送信周期時間よりも長い時間であって、この時間よりも長いと、通信障害とは異なる原因(例えば、計算機111の保守作業等により一時的に計算機111を停止させたこと等)により、通信データの遅延が発生した可能性が比較的高いと想定される時間である。計算機保守作業停止判断時間としては、例えば、30秒としてもよい。この計算機保守作業停止判断時間については、予め通信障害検出部202が表示デバイス107に入力用の画面を表示させ、入力デバイス106によるユーザの入力を受け付けて、メモリ103に格納させておくようにしてもよい。このようにすると、ユーザが適切であると考えられる計算機保守作業停止判断時間を基準として、適切に通信障害の判定を行うことができる。このようにした場合には、通信障害検出部202が時間指定受付部に相当する。
この結果、差分が計算機保守作業停止判断時間以内である場合(ステップS204:YES)には、保守作業等のように通信障害とは異なる原因による可能性が低いことを意味しているので、通信障害検出部202は、通信障害が発生していると判定し、ログ記録処理部203に通信障害が発生したことを通知する(ステップS205)。一方、差分が計算機保守作業停止判断時間以内でない場合(ステップS204:NO)には、保守作業等のように通信障害とは異なる原因による可能性が比較的高いことを意味しているので、通信障害検出部202は、通信障害が発生していないと判定して通信障害検出処理を終了する。
次いで、通信障害検出部202は、対応エントリの通信復旧検出時刻305に記録があるか否かを判定し(ステップS206)、通信復旧検出時刻305に記録がある場合(ステップD206:YES)には、通信障害が回復していないので、通信障害検出部202は、通信復旧検出時刻305の通信復旧検出時刻を消去し(ステップS207)、通信障害検出処理を終了する。一方、通信復旧検出時刻305に記録がない場合(ステップS206:NO)には、通信障害検出部202は、通信障害検出処理を終了する。
図6は、一実施形態に係るログ記録処理のフローチャートである。
ログ記録処理は、ログ記録処理部203により実行される処理である。
ログ記録処理部203は、通信障害検出部202から通信障害が発生したことの通知があるか否かを判定する(ステップS301)。この結果、通信障害が発生したことの通知がない場合(ステップS301:NO)には、ログ記録処理部203は、処理をステップS307に進める。
一方、通信障害が発生したことの通知がある場合(ステップS301:YES)には、ログ記録処理部203は、通信障害の発生を示す通信障害メッセージをメッセージログファイル205に記録する(ステップS302)。ここで、通信障害メッセージには、例えば、通信障害の発生時刻、送信元の計算機111の識別情報、通信障害が発生したとの内容等が含まれている。
次いで、ログ記録処理部203は、通信障害検出時刻における通信障害検出計算機101のメモリ103の使用量(メモリ使用量)を取得し、計算機動作情報ログファイル206に記録する(ステップS303)。
次いで、ログ記録処理部203は、通信障害検出時刻における通信障害検出計算機101のCPU102の負荷率(CPU負荷率)を取得し、計算機動作情報ログファイル203に記録する(ステップS304)。
次いで、ログ記録処理部203は、通信障害検出時刻における通信障害検出計算機101によるネットワーク130を介しての通信に関する統計情報(例えば、通信データ量、通信エラー発生回数等)を取得し、計算機動作情報ログファイル206に記録する(ステップS305)。
次いで、ログ記録処理部203は、通信障害検出時刻における通信障害検出計算機101におけるエラー発生状況に関する情報(例えば、通信障害検出計算機101におけるプログラムの実行エラー等)を取得し、計算機動作情報ログファイル203に記録し(ステップS306)、処理をステップS307に進める。なお、メモリ103の使用量、CPU負荷率、通信に関する統計情報、エラー発生状況に関する情報については、例えば、CPU102で実行されている図示しないOS(オペレーティングシステム)に問い合わせて取得することができる。上記したステップS302〜S306の処理により、通信障害の発生時点と、通信障害の原因を特定するために利用できる情報を適切にメッセージログファイル205と計算機動作情報ログファイル206とに記録することができる。
ステップS307では、ログ記録処理部203は、通信障害検出部202から通信障害が回復したとの通知があるか否かを判定する。この結果、通信障害が回復したことの通知がない場合(ステップS307:NO)には、ログ記録処理部203は、ログ記録処理を終了する。
一方、通信障害が回復したことの通知がある場合(ステップS307:YES)には、ログ記録処理部203は、通信障害が回復したことを示す通信障害回復メッセージをメッセージログファイル205に記録する(ステップS308)。ここで、通信障害回復メッセージには、例えば、通信障害の回復した時刻、通信障害が回復した計算機111の識別情報、通信障害が回復したとの内容等が含まれている。
図7は、一実施形態に係る通信障害回復検出処理のフローチャートである。
通信障害回復検出処理は、データ受信時処理の実行後に、通信障害検出部202により実行される処理である。
まず、通信障害検出部202は、データ受信時刻管理テーブル204の対象エントリの通信復旧検出時刻305に記録があるか否かを判定する(ステップS401)。この結果、対象エントリの通信復旧検出時刻305に記録がある場合(ステップS401:YES)には、通信障害検出部202は、対象エントリの通信復旧検出時刻305の通信復旧検出時刻と、最新受信時刻303の最新受信時刻との差分(経過時間)を算出する(ステップS402)。なお、対象エントリの通信復旧時刻305に記録がない場合(ステップS401:NO)には、通信障害検出部202は、通信障害回復検出処理を終了する。
次いで、通信障害検出部202は、差分が通信障害回復判断時間(第3時間)を超過しているか否かを判定する(ステップS403)。ここで、通信障害回復判断時間とは、通信障害が回復したか否かを判断する時間であり、この時間において、計算機111からの通信データが常にデータ送信周期時間以内で受信できている場合に、通信障害が回復したと判断するようにしている。
この結果、差分が通信障害回復判断時間を超過している場合(ステップS403:YES)には、通信障害が回復していることを意味しているので、通信障害検出部202は、通信障害が回復したと判定して、ログ記録処理部203に通信障害が回復したことを通知する(ステップS404)。これにより、通信障害が回復したことを適切に判定することができる。一方、差分が通信障害回復判断時間を超過していない場合(ステップS403:NO)には、通信障害が回復していないことを意味しているので、通信障害検出部202は、通信障害回復検出処理を終了する。
次に、通信障害検出計算機101の動作の具体例を説明する。
図8は、一実施形態に係る通信障害検出計算機の動作の具体例を説明する第1の図である。図9は、一実施形態に係る通信障害検出計算機の動作の具体例を説明する第2の図である。図10は、一実施形態に係る通信障害検出計算機の動作の具体例を説明する第3の図である。
まず、計算機111Aが通信データをネットワーク130に送信すると、通信障害検出計算機101がネットワーク130を介して、計算機111Aから送信された通信データを受信する。通信データを受信すると通信障害検出計算機101の通信処理部201は、受信した通信データの内容を判断し、図8に示すように、データ受信時刻管理テーブル204に新たなエントリを追加し、追加したエントリの送信元計算機301に計算機111Aの識別情報(図では、計算機A)を記録する。また、通信処理部201は、追加したエントリの最新受信時刻303に通信データを受信した時刻(データ受信時刻)を記録する。
次に、計算機111Aが所定の送信周期に従って次の通信データを送信すると、通信障害検出計算機101がネットワーク130を介して、計算機111Aから送信された次の通信データを受信する。
次の通信データを受信すると、通信障害検出計算機101の通信処理部201は、データ受信時刻管理テーブル204のエントリの中から、送信元計算機301が計算機111Aの識別情報(計算機A)のエントリを検索し、図9に示すように、このエントリの最新受信時刻303に記録されている受信時刻を、前回受信時刻302に記録し、前回受信時刻302への記録完了後、最新受信時刻303にこの通信データの受信時刻を記録する。
最新受信時刻303への受信時刻の記録の完了後、通信障害検出部202が、計算機111Aに対応するエントリの前回受信時刻302の前回受信時刻と、最新受信時刻303の最新受信時刻との差分を算出する。そして、この差分がデータ送信周期時間を超過しており、且つ計算機保守作業停止判断時間以内である場合には、通信障害検出部202は通信障害と判断し、データ受信時刻管理テーブル204の計算機111Aに対応するエントリの通信障害検出時刻304に通信障害を検出した時刻を記録すると共に、ログ記録処理部203に通信障害が発生したことを通知する。
通信障害が発生したことの通知を受信したログ記録処理部203は、通信障害検出のメッセージをメッセージログファイル205に記録する。また、ログ記録処理部203は、この時点(通信障害が検出された時刻)の通信障害検出計算機101のメモリ使用量、CPU負荷率、通信障害検出計算機101によるネットワーク130における通信に関する統計情報、通信障害検出計算機101のエラー発生状況等を計算機動作情報ログファイル206に記録する。
これに対し、計算機111Aに対応するエントリの前回受信時刻302の前回受信時刻と、最新受信時刻303の最新受信時刻との差分が計算機保守作業停止判断時間を超過している場合には、通信障害検出部202は、計算機111Aにおける保守作業に伴う計算機停止によるデータの遅延である可能性が高く、通信障害ではないと判断し、通信障害検出部202は、計算機111Aに対応するエントリの通信障害検出時刻304への通信障害検出時刻の記録を行わず、また、ログ記録処理部203への通信障害が発生したことの通知を行わない。
このように通信障害が検出された後に、通信処理部201が計算機111Aから送信された通信データをデータ送信周期時間内にネットワーク130を介して受信した場合には、通信処理部201は、図10に示すように、データ受信時刻管理テーブル204の計算機A111に対応するエントリの通信復旧検出時刻305に通信データを受信した時刻を記録する。ただし、この時点においては、エントリの通信復旧検出時刻305に、正常に通信が行われた初回の時刻を記録するのみであり、この時点では、通信障害が回復したとは判断されない。
この後、エントリの通信復旧検出時刻305の時刻から通信障害回復判断時間が経過するまでの間において、逐次受信している通信データの受信間隔がデータ送信周期時間を超過することがなければ、通信障害検出部202は、計算機111Aとの間の通信障害が回復したと判断し、ログ記録処理部203に通信障害が回復したことを通知する。この通信障害が回復したことの通知を受信すると、ログ記録処理部203は、通信障害が回復したことを示すメッセージをメッセージログファイル205に記録する。なお、エントリの通信復旧検出時刻305の時刻から通信障害回復判断時間が経過するまでの間において、再度、通信データの受信において遅延が発生した場合には、通信障害検出部202は、通信障害が回復していないと判断し、エントリにおける通信復旧検出時刻305の時刻を消去する。
以上説明したように、本実施形態に係る通信システムによると、通信データを前回受信した時点からの経過時間がデータ送信周期時間を超過し、且つ、計算機保守作業停止判断時間以内である場合に、障害が発生していないと判定し、経過時間がデータ送信周期時間を超過し、且つ、計算機保守作業停止判断時間を超過している場合に、障害が発生していないと判定するようにしたので、例えば、計算機111の保守作業による停止等といった通信障害とは異なる原因により通信データが遅延した場合において、通信障害であると誤検出されてしまうことを適切に防止できる。また、このように、通信障害であると誤検出されてしまうことを防止できるので、誤検出によるメッセージや各種情報がメッセージログファイル205や計算機動作情報ログファイル206に格納されずに済み、通信障害に関するメッセージや各種情報をメッセージログファイル205や計算機動作情報ログファイル206に適切に格納することができる。これにより、メッセージログファイル205や計算機動作情報ログファイル206のメッセージや情報により、精度よく通信障害の要因を特定することが可能となる。
なお、本発明は、上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、適宜変形して実施することが可能である。
例えば、上記実施形態では、計算機111が送信する通信データを、宛先を指定していないデータとしていたが、本発明はこれに限られず、通信データを、通信障害検出計算機101を宛先とする通信データとしてもよい。
また、上記実施形態において、計算機111が送信する通信データ中に、他の計算機における処理に使用するデータを含ませるようにしてもよい。
また、上記実施形態では、ログ記録処理部203は、障害に関する情報として、通信障害検出計算機101のメモリ使用率と、プロセッサの負荷率と、通信障害検出計算機101による通信に関する統計情報と、通信障害検出計算機101において発生したエラー状況とを計算機動作情報ログファイル206に格納するようにしていたが、本発明はこれに限られず、これらの情報のうちの少なくとも1種以上を計算機動作情報ログファイル206に記録するようにしてもよい。
また、上記実施形態において、通信障害検出計算機101のCPU102が行っていた処理の一部又は全部を、ハードウェア回路で行うようにしてもよい。また、上記実施形態におけるプログラムは、プログラムソースからインストールされてよい。プログラムソースは、プログラム配布サーバ又は記憶メディア(例えば可搬型の記憶メディア)であってもよい。
100…通信システム、101…通信障害検出計算機、102…CPU、103…メモリ、106…入力デバイス、107…表示デバイス、111,111A,111B…計算機、201…通信処理部、202…通信障害検出部、203…ログ記録処理部、204…データ受信時刻管理テーブル、205…メッセージログファイル、206…計算機動作情報ログファイル

Claims (7)

  1. 所定の周期時間ごとに所定の通信データを送信するように動作する1以上の計算機に、ネットワークを介して接続される通信障害管理装置であって、
    前記計算機からの前記通信データを受信した場合に、前記通信データを前回受信した時点からの経過時間を特定する経過時間特定部と、
    前記特定した経過時間が前記周期時間に基づく所定の第1時間を超過し、かつ、前記第1時間よりも長い第2時間以内である場合に、前記計算機との間で障害が発生していると判定し、前記特定した経過時間が前記第1時間を超過し、かつ、前記第2時間を超過している場合には、障害が発生していないと判定する障害判定部と、
    前記障害判定部により前記障害が発生していると判定された場合に、前記障害に関する情報を記録する障害記録部と、
    を備える通信障害管理装置。
  2. 前記第2時間は、この時間より長いと前記計算機における保守に係る作業が発生している可能性が高いと想定される時間である
    請求項1に記載の通信障害管理装置。
  3. 前記障害記録部は、前記障害判定部により前記障害が発生していると判定された場合に、障害が発生したこと及び発生した時刻を含む障害発生メッセージを記録する
    請求項1又は請求項2に記載の通信障害管理装置。
  4. 前記障害記録部は、前記障害判定部により前記障害が発生していると判定された場合に、前記障害が発生していると判定した時点における、前記通信障害管理装置のメモリ使用率と、前記通信障害管理装置のプロセッサの負荷率と、前記通信障害管理装置による通信に関する統計情報と、前記通信障害管理装置において発生したエラー状況とのうちの少なくとも1種以上を記録する
    請求項1から請求項3のいずれか一項に記載の通信障害管理装置。
  5. 障害が発生していると判定された前記計算機からの前記通信データの受信が、障害が回復したと判定する基準となる第3時間以上の時間にわたって、前回受信した時点からの経過時間が前記第1時間を超過していない場合に、前記計算機との間の障害が回復したと判定する通信障害回復判定部をさらに有する
    請求項1から請求項4のいずれか一項に記載の通信障害管理装置。
  6. 前記第2時間の指定を受け付ける時間指定受付部をさらに有する
    請求項1から請求項5のいずれか一項に記載の通信障害管理装置。
  7. 所定の周期時間ごとに所定の通信データを送信するように動作する1以上の計算機と、前記計算機とネットワークを介して接続される通信障害管理装置とを備える通信システムであって、
    前記通信障害管理装置は、
    前記計算機からの前記通信データを受信した場合に、前記通信データを前回受信した時点からの経過時間を特定する経過時間特定部と、
    前記特定した経過時間が前記周期時間に基づく所定の第1時間を超過し、かつ、前記第1時間よりも長い第2時間以内である場合に、前記計算機との間で障害が発生していると判定し、前記特定した経過時間が前記第1時間を超過し、かつ、前記第2時間を超過している場合に、障害が発生していないと判定する障害判定部と、
    前記障害判定部により前記障害が発生していると判定された場合に、前記障害に関する情報を記録する障害記録部と、
    を備える通信システム。
JP2017011949A 2017-01-26 2017-01-26 通信障害管理装置、及び通信システム Active JP6674916B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017011949A JP6674916B2 (ja) 2017-01-26 2017-01-26 通信障害管理装置、及び通信システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017011949A JP6674916B2 (ja) 2017-01-26 2017-01-26 通信障害管理装置、及び通信システム

Publications (2)

Publication Number Publication Date
JP2018121232A JP2018121232A (ja) 2018-08-02
JP6674916B2 true JP6674916B2 (ja) 2020-04-01

Family

ID=63045406

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017011949A Active JP6674916B2 (ja) 2017-01-26 2017-01-26 通信障害管理装置、及び通信システム

Country Status (1)

Country Link
JP (1) JP6674916B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08130539A (ja) * 1994-11-01 1996-05-21 Toshiba Corp ネットワーク監視装置
JP4181283B2 (ja) * 1999-09-29 2008-11-12 株式会社日立製作所 障害検出通知方法及びインターネットワーク装置
JP2005038272A (ja) * 2003-07-17 2005-02-10 Hitachi Software Eng Co Ltd ネットワーク監視支援システム
US7644317B1 (en) * 2004-06-02 2010-01-05 Cisco Technology, Inc. Method and apparatus for fault detection/isolation in metro Ethernet service
JP5756430B2 (ja) * 2012-06-05 2015-07-29 株式会社日立製作所 網監視装置

Also Published As

Publication number Publication date
JP2018121232A (ja) 2018-08-02

Similar Documents

Publication Publication Date Title
US10095598B2 (en) Transaction server performance monitoring using component performance data
WO2009110111A1 (ja) サーバ装置及びサーバ装置の異常検知方法及びサーバ装置の異常検知プログラム
JP6387747B2 (ja) 情報処理装置、障害回避方法およびコンピュータプログラム
JP6160064B2 (ja) 適用判定プログラム、障害検出装置および適用判定方法
JP4826831B2 (ja) 障害検知装置、障害検知方法及びそのプログラム
US11157373B2 (en) Prioritized transfer of failure event log data
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
CN110659159A (zh) 一种服务进程运行监控方法、装置、设备及存储介质
US10089162B2 (en) Method for maintaining file system of computer system
CN109586989B (zh) 一种状态检查方法、装置及集群系统
JP5425720B2 (ja) 仮想化環境監視装置とその監視方法およびプログラム
CN112764956A (zh) 数据库的异常处理系统、数据库的异常处理方法及装置
US8984333B2 (en) Automatic computer storage medium diagnostics
CN113535474B (zh) 异构云存储集群故障自动修复的方法、系统、介质及终端
CN105868038B (zh) 内存错误处理方法及电子设备
US9594622B2 (en) Contacting remote support (call home) and reporting a catastrophic event with supporting documentation
JP6674916B2 (ja) 通信障害管理装置、及び通信システム
US20080216057A1 (en) Recording medium storing monitoring program, monitoring method, and monitoring system
JP6222759B2 (ja) 障害通知装置、障害通知方法及びプログラム
CN110851316A (zh) 异常预警方法及装置、系统、电子设备、存储介质
US8087032B2 (en) Automated recovery process initiation for data consumers of a common information model (CIM) managed component
JP5467936B2 (ja) 分散・並列処理システムの障害監視装置と方法およびプログラム
JP5655639B2 (ja) 監視装置、監視方法、プログラム及び監視システム
CN109815064B (zh) 节点隔离方法、装置、节点设备及计算机可读存储介质
CN110928644A (zh) 一种基于云平台的usb管理方法、装置、设备及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191203

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200309

R150 Certificate of patent or registration of utility model

Ref document number: 6674916

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150