JP2009294837A - 障害監視システム及びデバイスと監視装置並びに障害監視方法 - Google Patents

障害監視システム及びデバイスと監視装置並びに障害監視方法 Download PDF

Info

Publication number
JP2009294837A
JP2009294837A JP2008146774A JP2008146774A JP2009294837A JP 2009294837 A JP2009294837 A JP 2009294837A JP 2008146774 A JP2008146774 A JP 2008146774A JP 2008146774 A JP2008146774 A JP 2008146774A JP 2009294837 A JP2009294837 A JP 2009294837A
Authority
JP
Japan
Prior art keywords
state transition
failure
monitoring
test data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008146774A
Other languages
English (en)
Other versions
JP5198154B2 (ja
Inventor
Daisuke Fukui
大輔 福井
Masumi Kawakami
真澄 川上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2008146774A priority Critical patent/JP5198154B2/ja
Publication of JP2009294837A publication Critical patent/JP2009294837A/ja
Application granted granted Critical
Publication of JP5198154B2 publication Critical patent/JP5198154B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】監視対象機器の増加に伴う障害情報の通信データ量の増加を防ぎ、通信データ量を削減することによる障害情報の品質低下を防止する。
【解決手段】監視対象のデバイス202上で動作するプログラムモジュールにおいて発生した障害を障害監視部208が検知した際に、障害情報作成部209が、状態遷移監視部207より状態遷移履歴情報を取得し、外部記憶装置212よりプログラムモジュールに関して実施されたテストデータ213を取得し、状態遷移履歴情報およびテストデータを基に障害情報を作成し、障害情報送信部210が、ネットワーク201を介して監視装置215に送信する。
【選択図】図2

Description

本発明は、障害監視システム及びデバイスと監視装置並びに障害監視方法に関し、特にネットワークを通じて直接的または間接的に通信が可能な複数のデバイスにおける障害の発生を監視する技術に関する。
近年、携帯電話やテレビといったコンシューマ機器が多機能化しており、そこに搭載されるソフトウェアの規模は年々増加する傾向にある。一般に、ソフトウェアの規模が増加すると、潜在的なバグの数が増加し、製品出荷後に不良が発生する可能性が高くなる。こうした状況を避けるため、大規模なソフトウェアの開発を高品位に、かつ高効率に行うために、モデルベース開発やソフトウェアプロダクトラインといったソフトウェア開発の方法論に関する研究が進められている。
一方、コンシューマ機器の製品出荷後に発生するソフトウェアの不具合を迅速に修正するための要素技術の研究も進んでいる。ソフトウェアをリモートから更新するための機能を備えたテレビやゲーム機が製品化されている。また、機器上で発生した障害を検出するシステムが一般に知られている。例えば特許文献1記載の障害監視システムや特許文献2記載の組み込み機器用監視装置などがある。
特開平9−91219号公報 特開2004−187196号公報
一般的な障害検出システムは、監視対象機器からセンタサーバへ障害情報を送信することで障害の検出を行っている。この方式では、監視対象機器の数が増えるにつれて通信回数や通信データ量が増加し、輻輳の発生やサーバ維持費の増加に繋がっている。そこで、前記特許文献1では、発生した障害情報の緊急度を判定し、緊急度が高い障害情報は直ちにセンタサーバへ送信し、緊急度が低い障害情報は一定期間蓄積した後にまとめて送信する手段について述べている。また、前記特許文献2では、監視対象機器同士が連携し、障害情報を回覧することで通信回数を削減する手段について述べている。
しかし、前記特許文献1記載の方式では、通信の回数を削減することは可能であるが、通信データ量の削減には課題が残る。また、前記特許文献2記載の方式では、センタサーバに対する負担は軽減されるが、通信データ量は削減されず、かつ障害情報の収集に係る監視対象機器の高コスト化といった課題を持つ。
一般に通信データ量を削減する方式としてエラーコードの利用や、重要度の低い障害情報を間引いて送信する手段が考えられるが、この方式では障害情報の品質が低下する。エラーコードの送信だけでは想定外の障害に対処することは難しく、障害情報を間引く手段では本当に必要な障害情報にアクセスできなくなる可能性がある。
本発明が解決しようとする第1の課題は、監視対象機器の増加に伴う障害情報の通信データ量の増加である。第2の課題は、通信データ量を削減することによる障害情報の品質低下である。
前記課題を解決するため、本発明ではソフトウェアの開発段階で実施されるテストの結果を基にした障害情報を作成する。例えばモデルベース開発と呼ばれる開発方法論で用いられる状態遷移表を基にした障害情報を作成する。テスト結果を基に、障害発生箇所のテストが実施済である場合は想定外の障害として詳細な障害情報を作成し、未実施である場合は想定内の障害としてテストの実施を促すための簡易な障害情報を作成し、実施中である場合は現在対策中の障害として障害情報を作成しない。この方式を採用することで、前記課題を解決する。
すなわち、本発明は、監視対象となるデバイスと、前記デバイスにおける障害の発生を監視する監視装置と、前記デバイスの障害データを記憶するデータベースである外部記憶装置とからなり、これら装置がネットワークを介してデータの送受信が可能な障害監視システムであって、前記デバイス上で動作するプログラムモジュールにおいて発生した障害を監視する障害監視部と、前記プログラムモジュールの状態遷移を監視する状態遷移監視部と、前記障害監視部が障害の発生を検知した際に前記状態遷移監視部より状態遷移履歴情報を取得し、さらに前記外部記憶装置より前記プログラムモジュールに関して実施されたテストデータを取得し、前記状態遷移履歴情報および前記テストデータを基に障害情報を作成する障害情報作成部と、前記障害情報作成部により作成された障害情報を、ネットワークを介して前記監視装置に送信する障害情報送信部とを有する障害監視システムである。
本発明によれば、監視対象機器からセンタサーバに送信する障害情報のデータ量を削減でき、よって監視対象機器の増加に伴うネットワークトラフィックの増加を抑制することができる。また、ソフトウェアの開発段階で実施されるテストの結果に依拠した監視方法であることから、既存の方式に比べて障害情報の品質を向上させることができ、かつ本発明の導入コストを低く抑えることが可能である。
本発明を実施するための最良の形態を説明する。
本発明の障害監視システム及びデバイスと監視装置並びに障害監視方法の実施形態について、図面を用いて説明する。
図1はハードウェア構成図である。これは、本発明に係る一般的なシステムのハードウェア構成を表すものであり、ハードウェア構成を限定するものではない。また、本発明はネットワークを介した複数の端末を利用するシステムについて述べたものであるが、本図面は単一の端末について示したものであり、本発明に係る全ての端末を網羅するものではない。
演算装置101は、主記憶装置102にロードされたプログラムデータを解析し、処理を実行する中央演算ユニットである。例えばIntel社製のPentium(登録商標)プロセッサなどが演算装置101に該当する。
主記憶装置102は、外部記憶装置104に記録されているプログラムデータをロードする揮発メモリである。例えばDRAM等の半導体メモリが主記憶装置102に該当する。
通信装置103は、外部ネットワークと通信するための装置である。例えばインターネットに接続するためのネットワークインタフェースカードが通信装置103に該当する。
外部記憶装置104は、プログラムデータ等を記憶する不揮発メモリである。例えばハードディスク装置が外部記憶装置104に該当する。外部記憶装置104は、データベース等のネットワークを介した装置であってもよい。
図2はモジュール概念図である。これは、本発明に係る一般的なモジュールの概念構成を表すものであり、モジュールの構成を限定するものではない。図示されているモジュールの包含関係(例えば被監視装置202と監視エージェント206の包含関係)は一般的な例であり、包含関係を規定するものではない。また、図示されているモジュールがネットワークを介して連携するかどうか、同一の装置上で連携するかどうかについて規定するものではない。
ネットワーク201は、データの送受信が行えることを特徴とする通信ネットワークである。例えばインターネットやEthernet(登録商標)などがネットワーク201に該当する。
被監視装置202は、ネットワーク201を介して監視装置215によって監視される装置である。例えば携帯電話やホームゲートウェイなどが被監視装置202に該当する。
被監視プログラム203は、監視エージェント206によって監視されるプログラムである。例えばホームゲートウェイ上で動作する情報家電制御プログラムなどが被監視プログラム203に該当する。
状態遷移通知部204は、被監視プログラム203上で発生した状態遷移に関する情報を状態遷移監視部207に通知するモジュールである。また、通知方式は、PUSH型(状態遷移通知部204から状態遷移監視部207へ通知する方式)であってもよく、PULL型(状態遷移監視部207から状態遷移通知部204に問い合わせる方式)であってもよい。例えばJava(登録商標)のJMX(Java Management Extensions)仕様で規定されるMBeanなどを利用することで状態遷移通知部204を実装できる。この具体例については後述する。
障害通知部205は、被監視プログラム203上で発生した障害に関する情報を障害監視部208に通知するモジュールである。また、通知方式は、PUSH型(障害通知部205から障害監視部208へ通知する方式)であってもよく、PULL型(障害監視部208から障害通知部205に問い合わせる方式)であってもよい。例えばJavaのJMX仕様で規定されるMBeanなどを利用することで障害通知部205を実装できる。この具体例については後述する。
監視エージェント206は、被監視プログラム203の状態遷移、および被監視プログラム203における障害の発生を監視し、被監視プログラム203で障害が発生した場合、ネットワーク201を介してデータベース212より状態遷移表テストデータ213および状態遷移パステストデータ214等のテストデータを取得し、当該テストデータを基に発生した障害の種類を判定し、発生した障害の種類を基に障害情報を作成し、必要であればネットワーク201を介して監視装置215に前記障害情報を送信するモジュールであり、また、ネットワーク201を介して監視装置215より最新のテストデータを受信し、当該テストデータを基にネットワーク201を介してデータベース212に格納されている状態遷移表テストデータ213および状態遷移パステストデータ214等の前記テストデータを更新する機能を持ったモジュールである。
監視エージェント206は、被監視プログラム203と同じマシン上に存在してもよく、ネットワーク201を介した別のマシン上に存在してもよい。また、状態遷移表テストデータ213および状態遷移パステストデータ214等のテストデータは、別のテストデータを利用することも可能である。本実施例では、テストデータの具体的な例として状態遷移表テストデータ213および状態遷移パステストデータ214を利用する。これらのテストデータの具体例については後述する。
状態遷移監視部207は、前述の通り、状態遷移通知部204と連携し、被監視プログラム203の状態遷移を監視するモジュールである。
障害監視部208は、前述の通り、障害通知部205と連携し、被監視プログラム203上で発生する障害を監視するモジュールである。
障害情報作成部209は、障害監視部208が障害の発生を検知した際、過去に遷移した状態の履歴情報を状態遷移監視部207より取得し、ネットワーク201を介して当該情報に対応する状態遷移表テストデータ213および状態遷移パステストデータ214をデータベース212より取得し、当該データを基に障害情報を作成し、必要であれば当該障害情報を障害情報送信部210に送信するモジュールである。障害情報の作成手順および障害情報の具体例については後述する。
障害情報送信部210は、障害情報作成部209によって作成された障害情報を、ネットワーク201を介して監視装置215の障害情報受信部216に送信するモジュールである。
テストデータ更新部211は、監視装置215のテストデータ送信部217がネットワーク201を介して送信したテストデータを受信し、当該テストデータを基にデータベース212に格納されている状態遷移表テストデータ213および状態遷移パステストデータ214を更新するモジュールである。
データベース212は、状態遷移表テストデータ213および状態遷移パステストデータ214を格納する外部記憶装置104である。
状態遷移表テストデータ213は、被監視プログラム203の開発段階で実施された状態遷移表テストに関するデータである。
状態遷移パステストデータ214は、被監視プログラム203の開発段階で実施された状態遷移パステストに関するデータである。
監視プログラム214は、ネットワーク201を介して監視エージェント206から障害情報を受信し、当該障害情報を管理者等に通知し、また、最新のテストデータが存在する場合は当該テストデータをネットワーク201を介してテストデータ更新部211に送信するモジュールである。
監視装置215は、ネットワーク201を介して監視エージェント206と通信を行い、被監視装置202を監視する装置である。
障害情報受信部216は、ネットワーク201を介して障害情報送信部210より障害情報を受信し、当該障害情報を障害情報通知部218に通知するモジュールである。
テストデータ送信部217は、ネットワーク201を介し、被監視プログラム203の開発担当者によって実施された最新のテストデータをテストデータ更新部211に送信するモジュールである。
障害情報通知部218は、障害情報受信部216が受信した障害情報を、独自の手段(メール送信、ダイアログ表示等)により管理者等に通知するモジュールである。
図3は障害情報の作成に関するフローチャートを示す図である。
ステップ301は、状態遷移監視部207が被監視プログラム203の状態遷移を監視するステップである。このステップにおいて、状態遷移監視部207は被監視プログラム203上で発生した状態遷移の履歴を保持する。具体的な状態遷移の監視手段については後述する。
ステップ302は、障害監視部208が被監視プログラム203で発生する障害を監視するステップである。このステップにおいて、障害監視部208は被監視プログラム203上で発生した障害情報のログを保持する。具体的な障害の監視手段については後述する。
ステップ301とステップ302は、処理が前後してもよく、また、並列に実行されていてもよい。
ステップ303は、ステップ302で障害が発生したかどうかを調べるステップである。もし障害が発生していなければ、ステップ301へ戻る。もし障害が発生した場合は、ステップ304へ進む。
ステップ304は、障害情報作成部209が状態遷移監視部207から状態遷移履歴情報を取得するステップである。状態遷移履歴情報の具体例については後述する。
ステップ305は、障害情報作成部209がステップ304で取得した状態遷移履歴情報を基にデータベースを検索するステップである。このステップにおいて、障害情報作成部209はデータベースから前記状態遷移履歴情報に対応した状態遷移表テストデータ213および状態遷移パステストデータ214を検索する。
ステップ306は、障害情報作成部209がステップ305において検索した状態遷移表テストデータ213を検証するステップである。ステップ304で取得した状態遷移履歴情報と状態遷移表テストデータ213を比較し、現在のテスト状態を検証する処理を行う。
ステップ307は、ステップ306の検証処理において、現在のテスト状態が障害対策中かどうかを判定するステップである。もし障害対策中であれば、障害情報を監視装置215に送信する必要がないため、処理を終了する。もし障害対策中でなければ、ステップ308へ進む。
ステップ308は、ステップ306の検証処理において、現在のテスト状態が未実施状態かどうかを判定するステップである。もし未実施であれば、ステップ315へ進む。もし未実施でなければ、つまり実施済であれば、ステップ309へ進む。
ステップ309は、障害情報作成部209がステップ305において検索した状態遷移パステストデータ214を検証するステップである。ステップ304で取得した状態遷移履歴情報と状態遷移パステストデータ214を比較し、現在のテスト状態を検証する処理を行う。
ステップ310は、ステップ309の検証処理において、現在のテスト状態が障害対策中かどうかを判定するステップである。もし障害対策中であれば、障害情報を監視装置215に送信する必要がないため、処理を終了する。もし障害対策中でなければ、ステップ311へ進む。
ステップ311は、ステップ309の検証処理において、現在のテスト状態が実施済状態かどうかを判定するステップである。もし実施済であれば、ステップ313へ進む。もし実施済でなければ、ステップ312へ進む。
ステップ312は、ステップ311において状態遷移パステストデータ214のテスト状態が実施済でなかった場合にパス障害情報を作成するステップである。パス障害情報とは、障害発生時点の状態遷移履歴に関する情報である。障害発生箇所は状態遷移パステストが実施されていないため、状態遷移パステストを実施するための最低限の情報のみを作成することで情報量を削減する。パス障害情報の詳細については後述する。
ステップ313は、ステップ311において状態遷移パステストデータ214のテスト状態が実施済であった場合に詳細障害情報を作成するステップである。詳細障害情報とは、メモリダンプやエラーログといった、障害原因の特定に必要な情報である。障害発生箇所は状態遷移パステストが実施されているため、予期せぬ障害が発生したと判断し、詳細な障害情報を作成する。
ステップ315は、ステップ308において状態遷移表テストデータ213のテスト状態が未実施であった場合に簡易障害情報を作成するステップである。簡易障害情報とは、障害発生箇所に対応する状態遷移表のセル(行、列)に関する情報である。障害発生箇所は状態遷移表テストが実施されていないため、状態遷移表テストを実施するための最低限の情報のみを作成することで情報量を削減する。簡易障害情報の詳細については後述する。
ステップ314およびステップ316は、ステップ312、ステップ313、およびステップ315で作成された障害情報を監視装置215の障害情報受信部216に送信するステップである。以上の手順により障害情報を作成することで、必要最低限の障害情報のみを監視装置215へ送信することができる。
図4は、前記JMX技術を利用した場合の状態遷移監視手段および障害監視手段を表すシーケンス図である。JMX技術は、MBeanとよばれるプログラム監視向けモジュールを開発することで、プログラムの内部状態を外部から監視できるようにするための技術である。Javaのバージョン5(Java SE 5)から、JMX技術が標準技術として導入されている。図4では、このJMX技術を利用した場合の被監視プログラム203の監視手段を示す。図では処理の流れを単純化するため、MBeanServer等のJMX関連モジュールについては記載を省略する。
最初に、監視エージェント206は、状態遷移監視リスナの登録要求403を状態遷移監視MBean401へ送信する。当該リスナの登録に成功すると、状態遷移監視MBean401はエラーを発生させずに登録成功メッセージ404を返す。
次に、監視エージェント206は、障害監視リスナの登録要求405を障害監視MBean402へ送信する。当該リスナの登録に成功すると、障害監視MBean402は、エラーを発生させずに登録成功メッセージ406を返す。
次に、被監視プログラム203は、プログラム内部の状態が変化すると状態遷移メッセージ407を状態遷移監視MBean401へ送信する。状態遷移監視MBean401は、当該状態遷移メッセージ407を受信すると、状態遷移監視リスナを通じて状態遷移通知メッセージ408を監視エージェント206へ送信する。監視エージェント206は、当該状態遷移通知メッセージ408を受信すると、状態遷移履歴(ログ)更新する処理409を行う。このようにして、監視エージェント206は状態遷移履歴情報を保持する。
プログラム内部で障害が発生すると、被監視プログラム203は、障害発生メッセージ410を障害監視MBean402へ送信する。障害監視MBean402は、障害発生メッセージ410を受信すると、障害監視リスナを通じて障害発生通知メッセージ411を監視エージェント206へ送信する。監視エージェント206は、当該障害発生通知メッセージ411を受信すると、状態遷移履歴情報を確認する処理412を行い、次に障害情報を作成する処理413を行い、最後に障害情報を送信する処理414を行う。障害の作成手順および障害情報の送信処理については図3に示した通りである。このように、JMX技術等を利用することで外部監視用プログラムを作成できる。但し、これは障害監視方法の一例であり、他のプログラムを記述することも、専用のハードウェアを利用して監視することも可能である。
図5は本発明で参照している状態遷移表の例を示す図である。これは、モデルベース開発と呼ばれる開発手法において一般に利用される、プログラムの状態遷移を表すデータである。
イベントA501、イベントB502、イベントC503、イベントD504は、プログラムに関連して発生するイベントの種類を表し、状態A505、状態B506、状態C507、状態D508、状態E509は、プログラムの遷移し得る状態を表している。また、図中の「×」はある状態の時にそのイベントが発生する可能性がないことを表し、図中の「/」はある状態の時にそのイベントが発生しても処理が行われず、無視されることを表し、図中の「遷移X(XはAからEまでのいずれかのアルファベット)」はある状態の時にそのイベントXが発生すると、アルファベットXに対応する別の状態に遷移することを表している。例えば図5の表は、状態A505の時にイベントB502は発生する可能性がないことを表し、状態B506の時にイベントA501が発生しても無視されることを表し、状態C507の時にイベントC503が発生するとプログラムの状態が状態A505に遷移することを表している。このような状態遷移表がモデルベース開発と呼ばれる開発方法において一般に利用されている。
図6は、図5で示した状態遷移表に対応する数値データの例を示す表である。図中のe1(601)、e2(602)、e3(603)、e4(604)は、それぞれイベントa501、イベントb502、イベントc503、イベントd504に対応し、s1(605)、s2(606)、s3(607)、s4(608)、s5(609)は、それぞれ状態A505、状態B506、状態C507、状態D508、状態E509に対応している。表中の番号は、図5の表中で示す表記にそれぞれ対応している。このように状態遷移表そのものを文字列データとして利用するのではなく、状態遷移表に対応した数値データを利用することで情報量を削減できる。これは情報量を削減するための一般的な例である。
図7は、図6で示したフォーマットを用いて表記した状態遷移履歴情報の例を示す表である。図中の発生順序701は状態遷移が発生した順番を表す数値であり、セル番号702は図6で示した数値データに対応する数値である。この例では、状態Eの時にイベントBが発生して状態Dに遷移し、状態Dの時にイベントCが発生して状態Cに遷移し、状態Cの時にイベントAが発生して状態Bに遷移し、状態Bの時にイベントDが発生して状態Aに遷移し、状態Aの時にイベントBが発生したことを示している。図5の状態遷移図では状態Aの時にイベントBは発生しないと表記されているが、この例では状態Aの時にイベントBが発生したことを示している。
ここで、図3の説明において述べた簡易障害情報とは、障害発生直前の状態遷移に対応するセル番号702の数値データを障害情報として利用するものである。図7の例では、簡易障害情報に相当するデータは「2」となる。但し、これは情報量を削減するための簡易障害情報の一例であり、その内容を限定するものではない。
図8は、図6で示したフォーマットを用いて表記した状態遷移表テストデータ213の例を示す表である。状態遷移表テストとは、状態遷移表の各マトリクスが正常に動作するかどうかを確認するテストであり、モデルベース開発で一般的に行われるテスト手法である。例えば図5においては、状態Aの時にイベントAが発生した場合に状態Bへ正しく遷移するかどうかといった動作をテストする。
図中のセル番号801は図6で示した数値データに対応する数値であり、テスト状態802はセル番号801に対応した状態遷移表テストの実施状態を表す数値である。テスト状態802の数値は、「0」が実施済であることを表し、「1」が未実施であることを表し、「2」が実施不可能であることを表し、「3」が対策中であることを表している。
ここで、実施不可能とは、ある状態の時にイベントが発生し得ないためにテストが不可能である(図5の「×」に該当する)という意味であり、対策中とは、現在テスト中であるという意味である。このような状態遷移表テストデータ213を利用することで、どういった種類の障害情報を作成すべきか、また、障害情報を監視装置215に送信すべきかどうかを判定することができる。判定手順の例については図3で示した通りである。
図9は、図6で示したフォーマットを用いて表記した状態遷移パステストデータ214の例を示す表である。状態遷移パステストとは、状態遷移表の一連の状態遷移が正常に動作するかどうかを確認するテストであり、モデルベース開発で一般的に行われるテスト手法である。例えば図5においては、状態Aの時にイベントAが発生した場合に状態Bへ正しく遷移し、さらに状態Bの時にイベントBが発生した場合に状態Eへ正しく遷移し、さらに状態Eの時にイベントAが発生した場合に正しく当該イベントを無視するかどうかといった一連の動作をテストする。
図中の状態遷移パス901は図6で示した数値データに対応する状態遷移履歴を表すデータであり、テスト状態902は状態遷移パス901に対応した状態遷移パステストの実施状況を表す数値である。テスト状態902の数値は、「0」が実施済であることを表し、「1」が対策中(例えば事前に受付済み)であることを表す。図中に表れない状態遷移パスは、全てテスト状態が未実施であることを示すものとする。未実施の状態遷移パスを図中に表記しない理由は、状態遷移パス901の取り得る値を全て網羅するとデータ量が膨大になるためである。このような状態遷移パステストデータ214を利用することで、どういった種類の障害情報を作成すべきか、また、障害情報を監視装置215に送信すべきかどうかを判定することができる。判定手順の例については図3で示した通りである。
ここで、図3の説明において述べたパス傷害情報とは、障害発生前の一連の状態遷移に対応する状態遷移パス901の数値データを障害情報として利用するものである。図9の例では、パス障害情報に相当するデータは「1、6、20、9、5」等になる。但し、これは情報量を削減するためのパス障害情報の一例であり、その内容を限定するものではない。
図10は、図3の説明において述べた障害情報の送信手順を示すシーケンス図である。
最初に、障害情報作成部209は、前記障害情報の送信要求1001を障害情報送信部210へ送信する。次に、障害情報送信部210は、前記障害情報を監視装置215の障害情報受信部216へ送信する処理1002を行う。次に、障害情報受信部216は、障害情報送信部210より受信した前記障害情報の通知要求1003を障害情報通知部218へ送信する。障害情報通知部218は前記障害情報の解析処理1004を行い、前記障害情報を人間が読むことのできる形式に変換し、メール送信等の手段により被監視装置202の管理者へ通知する処理1005を行う。最後に、障害情報通知部218は、通知に成功したことを示すメッセージ1006を障害情報受信部216へ送信し、障害情報受信部216は、障害情報の受信に成功したことを示すメッセージ1007を障害情報送信部210へ送信し、障害情報送信部210は、障害情報の送信に成功したことを示すメッセージ1008を障害情報作成部209へ送信する。以上の流れにより障害情報を被監視装置202の管理者に通知するが、これは一般的な通知方法を述べたものであり、通知方法を限定するものではない。
図11はテストデータの更新手順を示すシーケンス図である。障害情報の通知を受けた管理者は、障害箇所をテストし、バグを修正したモジュールを配信すると共に、前記テストデータのテスト状態を更新することができる。
最初に、管理者1101は、被監視プログラム203に関する最新のテストデータを監視プログラム214へ入力する処理1102を行う。次に、監視プログラム214は、前記最新のテストデータを更新するメッセージを監視エージェント206へ送信する処理1103を行う。次に、監視エージェント206は、受信した前記最新のテストデータをデータベース212へ送信し、前記テストデータを更新する処理1104を行う。最後に、データベース212はテストデータの更新に成功したことを示すメッセージ1105を監視エージェント206へ送信し、監視エージェント206は、テストデータの受信に成功したことを示すメッセージ1106を監視プログラム214へ送信し、監視プログラム214は、テストデータの入力に成功したことを示すメッセージ1107を管理者1101へ送信する。以上の流れによりテストデータの更新を行うが、これは一般的な更新方法を述べたものであり、更新方法を限定するものではない。特に、テスト状態の更新は監視エージェント206が自動で行うことも考えられるが、ここでは一般的な例として管理者による更新処理を示したものである。
本発明に係る一般的なシステムのハードウェア構成を示す図である。 本発明に係るモジュールの概念的な構成を示す図である。 障害情報の生成手順の一例を示すフローチャートである。 JMX技術を利用した場合の状態監視手段の一例を示すシーケンス図である。 モデルベース開発で用いられる状態遷移表の一例を示す図である。 状態遷移表に対応した数値データの一例を示す表である。 状態遷移履歴データの一例を示す表である。 状態遷移表テストデータの一例を示す表である。 状態遷移パステストデータの一例を示す表である。 障害情報の送信方法の一例を示すシーケンス図である。 テストデータの更新方法の一例を示すシーケンス図である。
符号の説明
101 演算装置、102 主記憶装置、103 通信装置、104 外部記憶装置、201 ネットワーク、202 被監視装置、203 被監視プログラム、204 状態遷移通知部、205 障害通知部、206 監視エージェント、207 状態遷移監視部、208 障害監視部、209 障害情報策西部、210 障害情報送信部、211 テストデータ更新部、212 データベース、213 状態遷移表テストデータ、214 状態遷移パステストデータ、215 監視装置、216 障害情報受信部、217 テストデータ送信部、218 障害情報通知部。

Claims (11)

  1. 監視対象となるデバイスと、前記デバイスにおける障害の発生を監視する監視装置と、前記デバイスの障害データを記憶するデータベースである外部記憶装置とからなり、これら装置がネットワークを介してデータの送受信が可能な障害監視システムであって、
    前記デバイス上で動作するプログラムモジュールにおいて発生した障害を監視する障害監視部と、前記プログラムモジュールの状態遷移を監視する状態遷移監視部と、前記障害監視部が障害の発生を検知した際に前記状態遷移監視部より状態遷移履歴情報を取得し、さらに前記外部記憶装置より前記プログラムモジュールに関して実施されたテストデータを取得し、前記状態遷移履歴情報および前記テストデータを基に障害情報を作成する障害情報作成部と、前記障害情報作成部により作成された障害情報を、ネットワークを介して前記監視装置に送信する障害情報送信部とを有することを特徴とする障害監視システム。
  2. 前記テストデータが、前記プログラムモジュールに関して実施された状態遷移表テストの結果に対応する状態遷移表テストデータ、または状態遷移パステストの結果に対応する状態遷移パステストデータ、またはその両方である請求項1記載の障害監視システム。
  3. 前記障害情報作成部が、前記状態遷移表テストデータと前記状態遷移履歴情報を基に、前記プログラムモジュールが前記状態遷移表テストですでに合格しているかどうかを判定し、合格している場合はメモリダンプや障害ログ等の詳細障害情報を作成し、合格していない場合は前記状態遷移表テストデータの状態遷移表に対応する簡易障害情報を作成する請求項2記載の障害監視システム。
  4. 前記障害情報作成部が、前記状態遷移パステストデータと前記状態遷移履歴情報を基に、前記プログラムモジュールが前記状態遷移パステストにすでに合格しているかどうかを判定し、合格している場合は前記詳細障害情報を作成し、合格していない場合は前記状態遷移パステストデータの状態遷移パスに対応するパス障害情報を作成する請求項3記載の障害監視システム。
  5. 前記障害情報作成部が、前記状態遷移表テストデータと、前記状態遷移履歴情報を基に、前記プログラムモジュールが前記状態遷移表テストにパスしているかどうかを判定し、パスしていない場合は前記簡易障害情報を作成し、パスしている場合は前記状態遷移パステストデータと、前記状態遷移履歴情報を基に、前記プログラムモジュールが前記状態遷移パステストにパスしているかどうかを判定し、パスしていない場合は前記パス障害情報を作成し、パスしている場合は前記詳細障害情報を作成する請求項2記載の障害監視システム。
  6. 前記障害情報作成部が、前記障害情報を前記監視装置に送信した際、前記状態遷移履歴情報に対応する前記テストデータを対策中のものとして前記外部記憶装置に記憶し、障害が再発した際、前記状態遷移履歴情報に対応する前記テストデータが対策中である場合は、前記障害情報の作成を行わず、また前記監視装置への前記障害情報の送信も行わない請求項1〜請求項5のいずれか1項に記載の障害監視システム。
  7. 前記デバイスの管理者等によって前記監視装置に入力された最新のテストデータおよびテストデータの対策状況を前記外部記憶装置に送信し、前記外部記憶装置が記憶するテストデータを更新させるテストデータ更新部を有する請求項1〜請求項6のいずれか1項に記載の障害監視システム。
  8. プログラムモジュールを備え、監視装置及びデバイス障害データを記憶するデータベースである外部記憶装置とネットワークを介してデータの送受信が可能なデバイスであって、
    前記プログラムモジュールにおいて発生した障害を監視する障害監視部と、前記プログラムモジュールの状態遷移を監視する状態遷移監視部と、前記障害監視部が障害の発生を検知した際に前記状態遷移監視部より状態遷移履歴情報を取得し、さらに前記外部記憶装置より前記プログラムモジュールに関して実施されたテストデータを取得し、前記状態遷移履歴情報および前記テストデータを基に障害情報を作成する障害情報作成部と、前記障害情報作成部により作成された障害情報を、ネットワークを介して前記監視装置に送信する障害情報送信部とを有することを特徴とするデバイス。
  9. デバイスの管理者等によって最新のテストデータおよびテストデータの対策状況を入力し、外部記憶装置が記憶するテストデータを更新させるよう送信するテストデータ送信部を有することを特徴とする監視装置。
  10. 監視対象となるデバイスと、前記デバイスにおける障害の発生を監視する監視装置と、前記デバイスの障害データを記憶するデータベースである外部記憶装置とからなり、これら装置がネットワークを介してデータの送受信が可能な障害監視システムにおける障害を監視する方法であって、
    前記デバイス上で動作するプログラムモジュールにおいて発生した障害を監視する障害監視ステップと、前記プログラムモジュールの状態遷移を監視する状態遷移監視ステップと、前記障害監視ステップにより障害の発生を検知した際に前記状態遷移監視ステップにより状態遷移履歴情報を取得し、さらに前記外部記憶装置より前記プログラムモジュールに関して実施されたテストデータを取得し、前記状態遷移履歴情報および前記テストデータを基に障害情報を作成する障害情報作成ステップと、前記障害情報作成ステップにより作成された障害情報を、ネットワークを介して前記監視装置に送信する障害情報送信ステップとを有することを特徴とする障害監視方法。
  11. 前記テストデータが、前記プログラムモジュールに関して実施された状態遷移表テストの結果に対応する状態遷移表テストデータ、または状態遷移パステストの結果に対応する状態遷移パステストデータ、またはその両方である請求項10記載の障害監視方法。
JP2008146774A 2008-06-04 2008-06-04 障害監視システム及びデバイスと監視装置並びに障害監視方法 Expired - Fee Related JP5198154B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008146774A JP5198154B2 (ja) 2008-06-04 2008-06-04 障害監視システム及びデバイスと監視装置並びに障害監視方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008146774A JP5198154B2 (ja) 2008-06-04 2008-06-04 障害監視システム及びデバイスと監視装置並びに障害監視方法

Publications (2)

Publication Number Publication Date
JP2009294837A true JP2009294837A (ja) 2009-12-17
JP5198154B2 JP5198154B2 (ja) 2013-05-15

Family

ID=41542985

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008146774A Expired - Fee Related JP5198154B2 (ja) 2008-06-04 2008-06-04 障害監視システム及びデバイスと監視装置並びに障害監視方法

Country Status (1)

Country Link
JP (1) JP5198154B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011238234A (ja) * 2010-05-11 2011-11-24 Computer Associates Think Inc コールバックを用いたソフトウェアの動的計測のためのフェイルセーフメカニズム
JP2012182669A (ja) * 2011-03-01 2012-09-20 Ricoh Co Ltd 画像形成装置、管理方法、管理プログラム、及び記録媒体
US9411616B2 (en) 2011-12-09 2016-08-09 Ca, Inc. Classloader/instrumentation approach for invoking non-bound libraries
WO2017081985A1 (ja) * 2015-11-11 2017-05-18 日立オートモティブシステムズ株式会社 車両制御装置
JP2018097624A (ja) * 2016-12-14 2018-06-21 キャッツ株式会社 機器、管理サーバ、情報収集システム及び情報収集方法
JP2020098615A (ja) * 2015-11-11 2020-06-25 日立オートモティブシステムズ株式会社 車両制御装置
CN114428709A (zh) * 2022-01-17 2022-05-03 广州鲁邦通物联网科技股份有限公司 一种云管理平台中sds状态检测方法和系统
CN115953146A (zh) * 2022-12-07 2023-04-11 国家电网有限公司 一种配电网故障处理辅助决策系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6905869B2 (ja) * 2017-05-31 2021-07-21 日立グローバルライフソリューションズ株式会社 家電機器システム、家電機器の診断方法、及び端末機器

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008003985A (ja) * 2006-06-26 2008-01-10 Dainippon Screen Mfg Co Ltd 開発支援システム、開発支援方法および開発支援プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008003985A (ja) * 2006-06-26 2008-01-10 Dainippon Screen Mfg Co Ltd 開発支援システム、開発支援方法および開発支援プログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011238234A (ja) * 2010-05-11 2011-11-24 Computer Associates Think Inc コールバックを用いたソフトウェアの動的計測のためのフェイルセーフメカニズム
JP2012182669A (ja) * 2011-03-01 2012-09-20 Ricoh Co Ltd 画像形成装置、管理方法、管理プログラム、及び記録媒体
US9411616B2 (en) 2011-12-09 2016-08-09 Ca, Inc. Classloader/instrumentation approach for invoking non-bound libraries
WO2017081985A1 (ja) * 2015-11-11 2017-05-18 日立オートモティブシステムズ株式会社 車両制御装置
JP2020098615A (ja) * 2015-11-11 2020-06-25 日立オートモティブシステムズ株式会社 車両制御装置
JP2018097624A (ja) * 2016-12-14 2018-06-21 キャッツ株式会社 機器、管理サーバ、情報収集システム及び情報収集方法
CN114428709A (zh) * 2022-01-17 2022-05-03 广州鲁邦通物联网科技股份有限公司 一种云管理平台中sds状态检测方法和系统
CN114428709B (zh) * 2022-01-17 2022-08-05 广州鲁邦通物联网科技股份有限公司 一种云管理平台中sds状态检测方法和系统
CN115953146A (zh) * 2022-12-07 2023-04-11 国家电网有限公司 一种配电网故障处理辅助决策系统
CN115953146B (zh) * 2022-12-07 2024-02-13 国家电网有限公司 一种配电网故障处理辅助决策系统

Also Published As

Publication number Publication date
JP5198154B2 (ja) 2013-05-15

Similar Documents

Publication Publication Date Title
JP5198154B2 (ja) 障害監視システム及びデバイスと監視装置並びに障害監視方法
US10037238B2 (en) System and method for encoding exception conditions included at a remediation database
CN108427616B (zh) 后台程序监控方法及监控装置
CN110324174B (zh) 区块链环境检测方法、设备、装置及存储介质
US8694831B2 (en) Automatic bug reporting tool
CN110995825B (zh) 一种智能合约的发布方法、智能节点设备及存储介质
US11055416B2 (en) Detecting vulnerabilities in applications during execution
CN102306119A (zh) 捕获全局异常的系统及方法
CN102439568A (zh) 计算设备的系统健康和性能看护
CN112256593B (zh) 一种程序处理方法、装置、计算机设备和可读存储介质
CN112527484A (zh) 工作流断点续跑方法、装置、计算机设备及可读存储介质
CN109144525A (zh) 一种网络自适应的软件安装方法与系统
CN114064208A (zh) 检测应用服务状态的方法、装置、电子设备及存储介质
CN113572726A (zh) 一种多模态网络控制-数据平面一致性校验方法及装置
CN113805925A (zh) 分布式集群管理软件的在线升级方法、装置、设备及介质
CN114430894A (zh) 通过扫描规则引擎最小化生产中断
CN110875832B (zh) 异常业务监控方法、装置、系统及计算机可读存储介质
CN115037653B (zh) 业务流量监控方法、装置、电子设备和存储介质
JP5499484B2 (ja) プログラム修正システム、端末装置、サーバ装置、プログラム修正方法、エラー検出プログラム及び管理プログラム
CN114510381A (zh) 故障注入方法、装置、设备和存储介质
CN114816969A (zh) 测试用例的生成方法、装置、设备及存储介质
JP4918669B2 (ja) リモートメンテナンスシステムと方法およびプログラム
US20240160506A1 (en) Operation support apparatus, system, method, and computer-readable medium
CN112241283B (zh) 软件升级方法、装置、计算机设备和存储介质
CN113778800B (zh) 一种报错信息处理方法、装置、系统、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120417

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120918

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120921

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130206

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160215

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees