JP3704871B2 - 障害調査情報装置 - Google Patents

障害調査情報装置 Download PDF

Info

Publication number
JP3704871B2
JP3704871B2 JP06307897A JP6307897A JP3704871B2 JP 3704871 B2 JP3704871 B2 JP 3704871B2 JP 06307897 A JP06307897 A JP 06307897A JP 6307897 A JP6307897 A JP 6307897A JP 3704871 B2 JP3704871 B2 JP 3704871B2
Authority
JP
Japan
Prior art keywords
information
investigation
trace
output
setting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP06307897A
Other languages
English (en)
Other versions
JPH10260861A (ja
Inventor
敬藏 小池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP06307897A priority Critical patent/JP3704871B2/ja
Publication of JPH10260861A publication Critical patent/JPH10260861A/ja
Application granted granted Critical
Publication of JP3704871B2 publication Critical patent/JP3704871B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、コンピュータシステムに於けるハード、ソフトの各種障害(異常)を調査・特定するための各種情報の一元的一括採取方式に関する。
【0002】
【従来の技術】
コンピュータシステムに於けるハード、ソフトの各種障害(異常)を調査・特定するための各種関連情報を採取するツールは、従来から多数開発、利用されている。この様な中で現在最も一般的に利用されているものに次の様なものがある。即ち、障害検出時点に於けるハード、ソフトの各種状態を障害ログ情報として静的に採取するログ採取ツールや障害を引き起こす原因とも成り得るプログラム自身の動作又はその動作に関連して変化するハード、ソフト資源の各種状態を動的・連続的に追跡情報として採取するトレースツール(トレーサ)及びメモリの任意領域の内容を出力するメモリダンプツールなどが、その代表例である。
【0003】
従来の障害調査に於いては、その障害の種類や性格等を考慮して、これ等ツールは利用者の能力・経験などによる裁量で、状況に応じて組み合わせて使い分けされているのが実態である。
【0004】
図6は、クライアント・サーバシステムに於けるクライアントとサーバ間の情報の授受に於いて障害(エラー)が発生した場合を想定して、従来、障害調査がどの様な手順で行われていたかを説明したものである。
【0005】
同図(1)は一例としてのクライアント・サーバシステムの構成図であり、クライアント60がLAN61を経由してサーバ62に接続されている。
同図(2)は前記システムに於けるクライアント・サーバ間の情報授受に際し、エラーが発生した場合の障害調査手順を説明する為のものである。
【0006】
その情報授受の内容として、クライアント側からのコマンドA及びBに対してサーバ側から、そのコマンドに呼応するレスポンスをクライアント側に返し、その後のクライアント側からの情報発信時にエラーが発生・検出されたケースを想定したものである。
【0007】
同図(2)▲1▼では、トレーサは非起動(トレーサ起動時は処理効率が低下するため) であり、その後障害調査のため、同▲2▼に於いてトレーサを起動させた例である。
【0008】
この様な条件下に於ける障害調査の一般的な処理手順は次の様になる。即ち、▲1▼ログ採取ツールにより採取された障害ログ情報からエラーの内容を調査する。▲2▼情報授受を制御・管理している制御テーブルの内容をメモリダンプツールにより出力し、相手方アプリケーションとの接続状態を調査する。その結果から未だ情報不足で障害を推定出来ない場合には、更にそのエラーを誘引したと思われる原因を突き止めるため▲3▼トレーサを起動させて再現テストを行いトレース情報を採取した後、先のエラー内容、制御テーブル内容と一致しているか確認する。▲4▼トレース情報を時系列に追跡調査した結果とエラー内容、制御テーブル内容とを突き合わせ調査する。
【0009】
この様に従来の障害調査に於いては、そのエラー原因を究明するに際し、関連しそうな情報が、その都度利用者の能力・経験により判断・抽出され、これ等得られた情報を互いに突き合わせて調査して行く手法が採られている。
【0010】
【発明が解決しようとする課題】
前述の如く、従来の障害調査は、先ず利用者によるエラー内容の確認から始まり、その後は利用者の能力・経験に頼るところが極めて大きく、未経験者には非常に難しい作業という問題があった。
【0011】
本発明はこのような点にかんがみて、障害調査に関する経験者のノウハウを整理し、事前に設定して置くことにより、エラーが発生・検出された時、当該エラーに関連する障害調査情報を一括採取する手段を提供することを目的とする。
【0012】
【課題を解決するための手段】
上記の課題は下記の如くに構成された障害調査情報装置によって解決される。
図1は、本発明の原理図である。即ち、
コンピュータ障害に対する障害調査情報装置であって、
障害調査の動作環境を予め設定テーブル11に設定する動作環境設定手段10と、障害発生時に前記設定テーブル11の内容に従ってログデータ13を採取するログ採取手段12と、起動の指定時にトレースデータ15を採取するトレース採取手段14と、前記ログ採取手段12及びトレース採取手段14により採取された調査情報を前記設定テーブル11の内容に従って記憶媒体17へ出力する調査情報記録手段16とを備えることにより、未経験者でも障害調査に必要な情報が一括採取出来る。
【0013】
【発明の実施の形態】
先ず最初に、障害調査に関する能力・経験と同時にノウハウを十分持ち合わせた利用者によりセットアップされる本発明の中心となる設定テーブルの内容から説明する。図2は、予め動作環境設定手段により設定される設定テーブルの内容を示したものであり、設定される内容を大別すると、エラーの種別毎にどの様な情報があれば原因究明に役立つかを設定する調査設定情報と、この設定に基づき主メモリ上に採取された障害調査情報を磁気ディスク装置などの記憶媒体に出力する際の出力条件情報とがある。更に出力条件情報には、出力のタイミングを規定する出力契機情報と、出力の対象とするデータを規定する出力対象情報とがある。
【0014】
調査設定情報としては、OSなどから通知されるハード/ソフトのエラー番号を種類別(例えば、ディスク、通信回線、チャネル、アプリケーション、データ、ディバイス・ドライバ、アクセス・パラメータ、応答パラメータなどの各エラー)に分類、整理したエラー種別毎にログ番号(ログの種類別番号)を対応させ、前記記憶媒体への出力時の優先度、そして一つ以上の関連テーブル名と関連トレース名が記憶・保持出来る様になっており、これ等がログ番号の種類だけ存在する。尚、本発明に於けるログ情報とは、エラー発生時の基本ログデータに加え、その関連テーブル類の内容データを含めたデータを指している。
【0015】
又、出力契機情報には、一定のログ件数以上になった場合、指定優先度(又は以上)のログデータが発生した場合、指定ログ番号(又は指定範囲)のログデータが発生した場合、或いは一定時刻になった場合などがあり、これ等はOR条件で出力契機を設定するものである。
【0016】
更に出力対象情報としては、過去何件分、指定優先度以上のもの、指定ログ番号(又は指定範囲)のもの、及び指定時刻範囲のもの、などがAND条件で与えられ、又、先の出力契機に対応して、複数の出力対象情報を設定することも可能としている。
【0017】
又、図では省略しているが、各ログ番号毎の調査設定情報に対して、前記基本ログデータ以外の情報採取及び出力条件を無効とするモードフラグを持ち、普段の運用時は、このモードフラグを無効(OFF)にセットして置くことにより、基本ログデータのみを採取・出力することにより処理能力の低下を防止することが可能となっている。
【0018】
次に、この設定テーブルに従いログ情報が採取される過程及びトレース情報が採取される過程を図3のフローチャートにより説明する。
先ずログ情報の採取であるが、同図(1)のステップ30でOSなどから通知されるハード/ソフトのエラー番号が認識され、ステップ31に於いて、このエラー番号をキーに、設定テーブルから該当する調査設定情報が抽出される。
【0019】
そしてステップ32で、この調査設定情報中のログ番号、優先度をヘッダーとして、先ず基本ログデータと採取時刻が採取され、ステップ33に於いて調査設定情報で指定された関連テーブル名から、そのテーブルデータが採取された後、調査設定情報中に指定された関連トレース名をその儘セットし、一件分のログ情報が主メモリ上に完成する。
【0020】
続いて、ステップ34で設定テーブルから出力契機情報が呼び出され、ステップ35で、この出力契機情報に設定された条件に合致するものがあるか判定され、条件が合致すればステップ36に於いて、調査情報記録プログラムを起動した後、条件不一致の場合と共に元の状態にリターンし、次のログ採取に備える。
【0021】
次にトレース情報が採取される過程であるが、これはトレーサの起動が外部から指定された場合のみ動作するもので、同図(2)に示す様にステップ37で、発生した事象に対応するトレース名が認識され、ステップ38で、当該トレースデータを採取時刻と共に主メモリ上の所定の領域にセットした後、元の状態にリターンして次のトレース採取に備える。
【0022】
図4は、この様にして採取されたログとトレース情報の出力例である。同図(1)はログ採取プログラムの出力例であり、ログ番号、優先度をヘッダーに、採取時刻、基本ログデータ、指定数の関連テーブル名とそのデータ、及び指定数の関連トレース名がセットされている。
【0023】
又、同図(2)はトレース採取プログラムの出力例であり、各トレース名毎に、そのデータと採取時刻がセットされている。
この採取されたログ及びトレース情報は、先に述べた出力契機情報に設定された条件に合致、或いは指定された時刻( 起動時刻) になった場合に、調査情報記録プログラムにより磁気ディスク装置などの記憶媒体に出力される。
【0024】
この調査情報記録プログラムの動作をフローチャート化したものが図5である。ステップ50で時刻起動か判別され、出力契機別に複数の出力対象情報が設定されている場合に、ステップ51で、該当出力契機に対応する出力対象情報が選定され、ステップ52に於いて、この選定された出力対象情報が設定テーブルから呼び出される。この呼び出された出力対象情報に設定された条件に従って、ステップ53で出力対象データが検索・抽出される。そしてステップ54で、出力対象データが検索された場合には、ステップ55で当該出力対象データ中に関連トレース名が指定されているか判別され、指定があればステップ56で、当該関連トレース名から所定のトレースデータを抽出した後、ステップ55で関連トレース名指定無しの場合と共に、次の出力対象データ検索のためステップ53に戻る。この処理を繰返し、ステップ54で検索データが無くなった場合には、ステップ57に於いて、これ等抽出された出力対象データが、磁気ディスク装置などの記憶媒体に出力され、次の起動待ちに入る。
【0025】
以上が本発明の説明であるが、実際のシステム運用時に、本発明の様な詳細な障害調査情報を採取していたのでは、システムの処理能力を低下させてしまうので、通常の運用に際しては、前述の様に基本ログデータのみを採取(例えばモードフラグOFF)しておき、基本ログデータで障害の有無を確認した後、実際の運用に差し支えない様な方法、例えば負荷の軽い時間帯を選ぶなどして、モードフラグON/トレーサ起動を行うことにより、障害調査情報を一括採取するように利用される。
【0026】
【発明の効果】
以上の説明から明らかなように本発明によれば、経験者のノウハウを活用し、事前に設定して置くことにより、障害調査に必要な情報が一括採取されるため、未経験者でもバラツキのない調査情報を容易に得ることが可能となり、障害に対する原因究明が的確且つ容易に行え、作業負荷が軽減されるという著しい工業的効果がある。
【図面の簡単な説明】
【図1】 本発明の原理図
【図2】 本発明の設定テーブルの内容説明図
【図3】 本発明のログ及びトレース採取プログラムのフローチャート
【図4】 本発明のログ及びトレース採取プログラムの出力例
【図5】 本発明の調査情報記録プログラムのフローチャート
【図6】 従来の障害調査手順例の説明図
【符号の説明】
10 動作環境設定手段
11 設定テーブル
12 ログ採取手段
13 ログデータ
14 トレース採取手段
15 トレースデータ
16 調査情報記録手段
17 記憶媒体

Claims (2)

  1. コンピュータ障害に対する障害調査情報装置であって、
    障害時に調査する調査情報とトレース情報とを含む調査設定情報と、採取した情報の記憶媒体への出力のタイミングを規定する出力契機情報と出力の対象情報を規定する出力対象情報とを含む出力条件と、を予め設定テーブルに設定する動作環境設定手段と、
    障害発生時に前記設定テーブルの内容に従って調査情報を採取するログ採取手段と、
    起動の指定時に前記トレース情報を採取するトレース採取手段と、
    前記ログ採取手段及びトレース採取手段により採取された情報を前記設定テーブルの内容に従って前記記憶媒体へ出力する調査情報記録手段と、
    を備えたことを特徴とする障害調査情報装置。
  2. コンピュータ障害に対する障害調査情報採取プログラムを記憶した媒体であって、コンピュータに、
    障害時に調査する調査情報とトレース情報とを含む調査設定情報と、採取した調査情報の記憶媒体への出力のタイミングを規定する出力契機情報と出力の対象情報を規定する出力対象情報とを含む出力条件と、を予め設定テーブルに設定する動作環境設定機能と、
    障害発生時に前記設定テーブルの内容に従って調査情報を採取するログ採取機能と、
    起動の指定時に前記調査トレース情報を採取するトレース採取機能と、
    前記ログ採取機能及びトレース採取機能により採取された情報を前記設定テーブルの内容に従って前記記憶媒体へ出力する調査情報記録機能と、
    を実現させるためのコンピュータプログラムを記録したコンピュータ可読型記録媒体。
JP06307897A 1997-03-17 1997-03-17 障害調査情報装置 Expired - Fee Related JP3704871B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP06307897A JP3704871B2 (ja) 1997-03-17 1997-03-17 障害調査情報装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP06307897A JP3704871B2 (ja) 1997-03-17 1997-03-17 障害調査情報装置

Publications (2)

Publication Number Publication Date
JPH10260861A JPH10260861A (ja) 1998-09-29
JP3704871B2 true JP3704871B2 (ja) 2005-10-12

Family

ID=13218950

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06307897A Expired - Fee Related JP3704871B2 (ja) 1997-03-17 1997-03-17 障害調査情報装置

Country Status (1)

Country Link
JP (1) JP3704871B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007099578A1 (ja) * 2006-02-27 2007-09-07 Fujitsu Limited 故障解析装置
JP2008146474A (ja) * 2006-12-12 2008-06-26 Oki Data Corp 情報処理装置
JP2009070230A (ja) * 2007-09-14 2009-04-02 Ricoh Co Ltd 動作履歴情報記録装置、動作履歴情報記録装置の制御方法、制御プログラム及び記録媒体
JP2009193395A (ja) * 2008-02-15 2009-08-27 Denso Corp 通信データ収集装置
JP6238221B2 (ja) * 2013-03-19 2017-11-29 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation ソフトウェアの実行を監視する装置、方法およびプログラム
JP6919597B2 (ja) 2018-03-01 2021-08-18 オムロン株式会社 コンピュータおよびその制御方法

Also Published As

Publication number Publication date
JPH10260861A (ja) 1998-09-29

Similar Documents

Publication Publication Date Title
US6735719B2 (en) Method and system for performing load testings on software applications
EP0403415A2 (en) System and method for detecting and diagnosing errors in a computer program
US7974949B2 (en) Computer system and automatic data backup method
WO2004061681A1 (ja) 運用管理方法および運用管理サーバ
JP2000501542A (ja) ネットワーク・アプリケーション用のテスト及びデバッグツール
JP3704871B2 (ja) 障害調査情報装置
JP2001005690A (ja) プログラムテストシステム
CN110011853B (zh) 一种面向多平台和集群的交叉故障排查方法及装置
JP3182111B2 (ja) プログラムテスト支援装置
AU674231B2 (en) Fault-tolerant computer systems
JP3221538B2 (ja) ネットワーク稼動情報収集システム
CN106897181B (zh) 一种Vdbench测试装置
JP4630489B2 (ja) ログ比較デバッグ支援装置および方法およびプログラム
JP3687565B2 (ja) ログデータ保存方式、ログデータ保存方法およびログデータ保存用プログラム
CN1307595C (zh) 管理信息数据库结构定义文件链接的方法及管理设备
JP3691272B2 (ja) 分散処理システムおよび障害解析情報の保存方法
JP2912084B2 (ja) ホスト−ワークステーション間動的リビジョン情報整合方式
JP2002319940A (ja) 情報共有化システムと情報共有化の方法、及びこの方法を実行させるプログラム
JPH02171998A (ja) プラント事故解析装置
JP2928157B2 (ja) 通信セションのモニタ装置と方法
JP3130870B2 (ja) メモリダンプファイル再構成方式
JP2518390B2 (ja) システム性能監視方式
JP3131851B2 (ja) 障害処理装置
JPH0194453A (ja) トレース収集出力方式
CN118897706A (zh) 云桌面数据处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050419

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050607

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050718

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090805

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090805

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100805

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110805

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120805

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120805

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130805

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees