JPH05314040A - トレース方式 - Google Patents

トレース方式

Info

Publication number
JPH05314040A
JPH05314040A JP4121655A JP12165592A JPH05314040A JP H05314040 A JPH05314040 A JP H05314040A JP 4121655 A JP4121655 A JP 4121655A JP 12165592 A JP12165592 A JP 12165592A JP H05314040 A JPH05314040 A JP H05314040A
Authority
JP
Japan
Prior art keywords
trace
information
fault
communication
detail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4121655A
Other languages
English (en)
Inventor
Takeshi Kondo
毅 近藤
Toshiaki Hirata
平田  俊明
Tsutomu Nakamura
勤 中村
Minoru Koizumi
稔 小泉
Tatsuo Kawatobi
達夫 川飛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP4121655A priority Critical patent/JPH05314040A/ja
Publication of JPH05314040A publication Critical patent/JPH05314040A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)
  • Monitoring And Testing Of Exchanges (AREA)

Abstract

(57)【要約】 【目的】運用開始時には、最少のトレース情報を採取
し、障害発生時は、同一障害の再発監視等のために障害
前よりも詳細で採取量が多いトレース情報を採取し、ト
レース出力処理の負荷の軽減を図る。 【構成】運用開始時直後のトレース制御情報17は、最
低詳細度である。トレース採取手段9は、トレース制御
情報17に従い全ての回線に関して最低詳細度のトレー
ス情報を採取する。障害発生時に、障害監視手段20が
トレース制御手段10を起動する。トレース制御手段
は、障害に応じて以前より高い詳細度をトレース制御情
報17に設定する。障害発生後は、トレース採取手段9
は、トレース制御情報17に従い高い詳細度のトレース
情報を採取する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、通信システムの障害原
因究明のために採取する通信ソフトウェアの実行履歴で
あるトレース情報の採取,記録,編集の各方式、並び
に、その実現装置に関する。
【0002】
【従来の技術】通信システムにおけるトレースは、デー
タまたはプロトコルの不正、デッドロックやスケジュー
ル不正等の障害に対する原因究明のため、通信プログラ
ム内部の各種のイベント情報や状態変化や入出力データ
等をトレース情報として時系列に記録するものである。
例えば、文献上田恭雄著;オンラインシステム,昭晃堂
(1987)によると、トレース情報の蓄積方式は、通
信装置内部での格納エリアであるトレースバッファに先
頭から順次蓄積して行き、バッファの最後尾に至った
後、再度、先頭から順次蓄積するラップアラウンド方式
である。こうすることにより、通信装置は、常に最新の
トレース情報を内部に保持する。そして、トレースバッ
ファに蓄えられるトレース情報より古いトレース情報が
必要となるトレースの場合では、トレースバッファ満杯
時にそのバッファ内容を全て外部記憶装置に出力する機
能を備える。また、トレースの負荷を軽減するため、ト
レースの採取対象を指定する機能を備えたトレース方式
もある。例えば、異常発生時にオペレータが該当する回
線を指定してトレース採取を指定し、以降、停止の指示
があるまで該当する回線に関するトレース情報を採取し
続ける方式が上記文献に記載されている。
【0003】
【発明が解決しようとする課題】しかし、これら従来の
技術では、保守員や開発者が行う通信障害究明のために
必要なトレース情報の採取制御をどう行うか、また外部
記憶装置への出力をどのように行なうか等の考慮が十分
ではない。
【0004】従来例で記述したように、トレースの負荷
を軽減するため、異常発生時にオペレータが該当する回
線を指定してトレース採取やトレース停止を指定する方
式では、運用開始から第1回目の障害発生時までのトレ
ース情報が存在しないため、障害原因の究明が困難とな
る。また一方、オペレータがトレース対象を指定せずに
全回線のトレース情報を採取する方法では、トレース採
取のオーバーヘッドが大きすぎるとの問題点があった。
本発明の第1の目的は、このようにトレースオーバーヘ
ッドと障害原因究明の容易性とは相反する関係にあるた
め、通信システムの規模、これを構成する回線の品質や
通信装置等の信頼性とトレース採取の負荷等とを勘案し
て、運用開始時には、性能を優先して必要最小限のトレ
ース情報を採取し、障害発生時は、同一障害の再発監視
等のために原因究明を優先して必要最大限のトレース情
報を採取するトレース方式を提供することにある。
【0005】また、従来例で説明したように、トレース
バッファが満杯になったときに、バッファ内のトレース
情報を全て外部記憶装置へ出力するのでは、障害原因の
究明ために参照されない不要なトレース情報をも外部記
憶装置に記憶することになり、外部記憶装置の記憶資源
を不要なトレース情報で不当に占有し、また、この不要
なトレース情報を外部記憶装置へ出力するためのむだな
オーバーヘッドがあるのでトレース負荷が大きいという
問題点があった。本発明の他の目的は、上記のように障
害原因の究明ために参照されない不要なトレース情報を
外部記憶に出力しないことにより、トレース負荷を軽減
することにある。
【0006】
【課題を解決するための手段】前記二つの課題を解決す
るため、まず、第1の課題に対して以下の手段を用い
る。 (1)オペレータ等により与えられる採取すべきトレー
ス詳細度を記憶する手段(トレース制御情報)。 (2)通信プログラムを構成する各処理モジュールにお
いて、イベント等のトレース情報に開発者の定めたトレ
ース詳細度を付加し、付加されたトレース詳細度と手段
(1)(トレース制御情報)に記憶されたトレース詳細
度とを参照比較し、対応するトレース詳細度を付与され
たトレース情報のみを採取するトレース採取手段。 (3)トレース採取手段(2)で採取したトレース情報
をメモリに格納し蓄積するトレース格納手段。 (4)下記障害通知手段(5)からの通知、または、オ
ペレータの指示に基づき、手段(1)(トレース制御情
報)に記憶されたトレース詳細度を変更するトレース制
御手段。 (5)障害の発生を検知し、障害発生時に該当する回線
等のリソースに関する障害情報をオペレータと上記トレ
ース制御手段(4)に通知する障害通知手段。
【0007】次に、第2の課題に対して以下の手段を用
いる。 (6)通信プロトコルを処理する各レイヤ処理モジュー
ルで採取したトレース情報に各レイヤに特有なリソース
識別子を付加するトレース採取手段。 (7)各レイヤに特有なリソース識別子と実回線との対
応情報を持ち、リソース識別子から回線識別子に変換す
る手段(リソースマネージャ)。 (8)トレース採取手段(6)により採取されたトレー
ス情報のリソース識別子を手段(7)(リソースマネー
ジャ)を用いて回線識別子に変換し、通信装置の内部メ
モリのトレースバッファに蓄積するトレース格納手段。 (9)トレースバッファ上のトレース情報のうち下記障
害通知手段(10)によって通知されたリソース識別子
を手段(7)(リソースマネージャ)を用いて回線識別
子に変換し、特定回線識別子を備えたトレース情報のみ
を外部記憶装置に出力するトレース出力手段。 (10)障害の発生を検知し、障害発生時に該当する回
線等のリソースに関するリソース識別子を付加した障害
情報をトレース出力手段(9)に通知する障害通知手
段。
【0008】
【作用】第1の手段に対する作用を以下に記述する。
【0009】通信ソフトウェアの各プログラムモジュー
ルで発生する各イベント等のトレースとして記録すべき
情報には、以下に示す付与規則に従い詳細度のトレース
採取手段(2)が特定の詳細度を与える。
【0010】詳細度の付与規則は次のようにする。障害
原因究明のために必要な最低限のイベント情報に最低詳
細度を付ける。そして、障害原因究明のために必要な最
大限イベント情報に最高詳細度を付ける。
【0011】従って、最低詳細度のトレース情報の採取
時は、トレースの採取量が最も少ないので、トレースに
よる負荷が最も少ない。これに対して、最高詳細度のト
レース情報の採取時は、トレースの採取量が最も多いた
め、トレースによる負荷が最も多い。
【0012】通信ソフトウェアのゼネレーション処理の
一環としてトレース詳細度の記憶手段(1)(トレース
制御情報)には、デフォルト値である最低詳細度が記憶
される。運用開始後、トレース採取手段(2)は、トレ
ース詳細度の記憶手段(1)(トレース制御情報)を参
照し、最低詳細度が付与されたトレース情報を採取し続
ける。トレース情報は、詳細度の他に回線等のリソース
識別情報を持つが、このときは、全てのリソースに関し
て最低詳細度を持つトレース情報を採取する。
【0013】トレース格納手段(3)によって、通信シ
ステムの運用中は上記の最低詳細度のトレース情報が装
置内部のメモリに蓄積され続ける。
【0014】システム管理者は、運用マニュアルの提供
するトレース負荷の情報やその他構成機器の信頼性等の
情報に基づいて通信システム運用を考慮すると、デフォ
ルトで与えられるトレースの詳細度に満足できない場合
がある。このようなとき、システム管理者は、運用の開
始前にオペレータに詳細度の変更を指示する。指示を受
けたオペレータはトレース制御手段(4)を起動して詳
細度を変更した後に運用を開始することで、管理者の意
向にそったトレース詳細度でシステム運用を行う。
【0015】障害発生時に、障害通知手段(5)によっ
て、オペレータやトレース制御手段(4)へ障害情報が
通知される。障害情報が緊急なオペレータ操作を必要と
しない比較的軽い障害、例えば、縮退や閉塞をせず運用
継続が可能な障害を意味しているならば、トレース制御
手段(4)は自動的に現行より高い詳細度にトレース詳
細度の記憶手段(1)(トレース制御情報)を変更す
る。以後、以前より高いトレース詳細度のトレース情報
をトレース採取手段(2)が採取し、トレース格納手段
(3)が装置内のメモリへ書き込む。
【0016】無論、障害発生後運用において、自動的に
更新された詳細度が適切でないことが判明した場合に
は、オペレータが直接詳細度を指定してトレース制御手
段(4)を起動することで、適切な値に変更することが可
能である。
【0017】緊急なオペレータ操作が必要な障害の場合
は、オペレータは、一連の操作の後、詳細度を指定した
コマンドによってトレース制御手段(4)を起動する。
オペレータは、障害監視のため上記の方法で採取すべき
詳細度を障害状況に応じて障害発生以前よりも高い値に
変更する。
【0018】このようにどの様な障害であっても障害発
生後は、障害に応じて以前より高いトレース詳細度のト
レース情報をトレース採取手段(2)が採取し、トレー
ス格納手段(3)が装置内のメモリへ蓄積する。したが
って、再度障害が発生した場合、より高い詳細度のトレ
ース情報を保守員・開発者に提供することができるた
め、より迅速な障害原因の究明が行える。障害の原因が
究明され障害対策が完了した後は、オペレータ操作によ
り元の詳細度に戻してトレース負荷の少ない通常運用へ
復旧する。
【0019】第2の手段に対する作用を以下記述する。
【0020】通常運用時に、トレースの採取手段(6)
により全ての回線に関するトレース情報が各レイヤ処理
モジュールで採取され、トレース情報には各レイヤで特
有のリソース識別子がそれぞれ付加される。
【0021】トレース格納手段(8)は、手段(7)
(リソースマネージャ)を用いてトレース情報に付加さ
れたリソース識別子を回線識別子に変換し、トレースバ
ッファに蓄積する。
【0022】障害通知手段(10)は、レイヤ処理モジ
ュールで障害を検出すると、該当する障害に関連するリ
ソースを識別し、トレース出力手段(9)にリソース識
別子を含む障害情報を通知する。これを受けたトレース
出力手段(9)は、手段(7)(リソースマネージャ)を
用いて障害情報に付加されたリソース識別子を回線識別
子に変換し、該当する回線識別子が付加されたトレース
情報をトレースバッファ中から選択して外部記憶装置に
出力する。
【0023】以上により、ある回線上を流れるデータに
関してプロトコルエラーやデータ不正等の障害が生じた
とき、通信装置内部のメモリに格納されたトレース情報
のうち、該当する回線に関するトレース情報のみを外部
の記憶装置に出力することができる。
【0024】なお、リソース識別子として回線を単位す
ることで、トレースの編集や解析時に物理装置との対応
をとれるので、下位レイヤから上位レイヤまでの一貫し
た流れが判り易くなる。
【0025】
【実施例】
〈実施例1〉図1は、本発明を実施するシステム構成の
一例である。これは、アプリケーションプログラム(A
P)50を処理するホスト計算機40に接続した、コン
ソール1とディスク装置2と印字装置19を備えた通信
処理装置4へ、複数の回線6によりネットワーク23を
介して接続した複数の端末装置5から構成される通信シ
ステムである。
【0026】通信処理装置4は、その内部に通信プログ
ラムとして、階層化した通信プロトコルを処理するレイ
ヤ処理モジュール7と、各レイヤモジュールとは独立し
たモジュールであるレイヤ処理のスケジュールや通信デ
ータバッファ管理やタイマ処理等の共通処理モジュール
8を持ち、それぞれの制御情報としてレイヤ制御テーブ
ル70と共通制御テーブル60を備える。各々の通信プ
ログラムは上記の制御情報に基づいてホスト計算機40
と端末5との通信を制御する。
【0027】また、通信処理装置4は、本トレース方式
の実現手段として、それぞれのモジュール内部にトレー
ス採取手段9b,9aと、それぞれのモジュールで採取
すべきトレースを制御する情報(トレース制御情報)1
7b,17aと、これらトレース制御情報17の変更手
段であるトレース制御手段10と、各レイヤ処理モジュ
ールで独自に管理しているリソース識別子を回線識別子
に変換する機能や逆に回線識別子をリソース識別子に変
換する機能持つリソースマネージャ18と、トレース情
報をトレースバッファ14に格納する手段(トレース格
納手段)13と、トレースバッファ14を管理するため
のトレースバッファ管理情報21と、トレースバッファ
14またはディスク装置3上のトレース情報をコンソー
ル1または印字装置19上に編集し出力するトレース編
集手段11と、トレース情報の検索手段15と、トレー
スコマンドの振り分け処理手段(コマンド処理)16
と、トレースバッファ14上のトレース情報をディスク
装置3へ出力する手段(トレース出力手段)12と、レ
イヤ処理モジュール7や共通処理モジュール8で発生す
る障害を監視しオペレータ2やトレース制御手段10や
トレース出力手段12に障害情報を通知する手段(障害
通知手段)20とを備える。本例では、トレース採取手
段9や障害通知手段20は、各処理モジュールに組み込
んで実現したものである。
【0028】図2は、本通信処理装置4のトレース採取
の運用シーケンスを表したフローチャートである。以下
に本シーケンスで処理ルートを四つ示す。通常運用時の
処理ルート(202−204−206−210−204
−…)とモジュール障害時(論理矛盾,デッドロック
等)の処理ルート(210−212−218−220)と
プロトコル障害時の処理ルート(210−212−21
4−216−204−…)が主要な三つのルートであ
る。トレースコマンドによる処理ルート(204−20
6−208−…)は、サブルートである。各ルートの処
理は、詳細度を説明した後に説明する。
【0029】図10は、本実施例における詳細度の設定
例である。本例では、詳細度を4段階設ける。
【0030】詳細度1が最高の詳細度であり、本詳細度
でレイヤ処理モジュール7と共通処理モジュール8にお
ける全ての関数の引数とその実行履歴をトレース情報と
して採取する。詳細度1は、主としてデバッグや性能測
定時に使用する。
【0031】詳細度2では、レイヤ処理モジュール7間
で受け渡された通信プリミティブをトレース情報として
採取する。しかし、共通処理モジュール8では、詳細度
1と同じトレース情報を採取する。この詳細度2も、デ
バッグ用として使用する。
【0032】詳細度3では、レイヤ処理モジュール7
は、タイムアウトや制御テーブル等のリソース不足が発
生したときの異常処理の実行履歴をトレース情報として
採取し、共通処理モジュール8では、要求の受付けや要
求の実行結果等のイベントをトレース情報として採取す
る。これは、主としてプロトコル異常発生時の原因究明
に使用するものである。
【0033】詳細度4は、最低の詳細度であり、回線に
おける受信イベントと受信データのヘッダ情報や送信イ
ベントと送信データのヘッダ情報をトレース情報として
採取する。詳細度4は、デフォルトの詳細度である。
【0034】さて、次に図2に示した各ルートで採取す
るトレースと詳細度の関係とトレース処理の概要につい
て説明する。通常運用時の処理ルートで採取するトレー
スの種類は、最低詳細度(詳細度4)、即ち、受信イベン
トと受信データのヘッダ情報や送信イベントと送信デー
タのヘッダ情報のトレース情報である。全ての回線に関
して、この詳細度でトレース情報を採取し蓄積する。つ
まり、トレース採取手段9は、詳細度4を付加されたト
レース情報のみを選択して、トレース格納手段13に引
き渡す。トレース情報を受けたトレース格納手段13
は、トレースバッファ14にこれを蓄積する。また、通
常運用中に、以下に示すようなケースでオペレータ指示
によるトレースの外部記憶装置への出力やオペレータ指
示によるトレース詳細度の変更を行うこともある(サブ
ルート:206−208)。
【0035】例えば、通信相手端末等でプロトコルのシ
ーケンス不正等が検出されたとき、自装置側の障害原因
の有無を判定するため保守員にトレース情報の解析を依
頼するケースでは、トレース制御コマンド(図9(b)
参照:後述)を投入し、障害を検出した端末に接続した
特定回線に関するトレース情報をトレースバッファ14
から外部の記憶装置であるディスク装置3に出力させ
る。また、特定回線の品質が悪くデフォルトで設定され
る詳細度4に満足出来ないケースでは、トレースコマン
ド制御コマンド(図9(a)参照:後述)を投入し、該
当する回線の詳細度を詳細度3へ変更させる。更に、障
害発生後の運用で、以前の詳細度のトレース情報に基づ
く保守員の解析では、障害原因の特定が出来ないときや
究明までの時間が大きい場合に、オペレータは、該当す
る回線のトレース詳細度を以前より上げてトレースを採
取することで障害再発に備えるケースもある。そして、
特定回線での性能を解析したい場合は、特定回線の詳細
度を最高詳細度1に変更させる。このときは、各トレー
スポイントのイベント発生時刻からモジュール性能が測
定できる。
【0036】障害通知手段20が障害を検出した後は、
障害のタイプによってルートがことなる(210)。そ
の一つは、プログラムモジュールのデッドロックを含む
内部論理矛盾により通信プログラムが閉塞した後の運用
であるモジュール障害時の処理ルート(212−218
−…)であり、もう一つは、レイヤ処理モジュール7で
検知するデータ形式不正や異常シーケンス等のプロトコ
ル障害発生後の運用であるプロトコル障害時の処理ルー
ト(212−214−…)である。
【0037】図11は、エラータイプとディスク装置3
へのトレース出力内容との対応表である。プロトコル障
害のように特定回線に関するエラーの場合は、特定回線
に関するトレース情報のみを出力し、その他のエラー
(モジュール障害)では、全てのトレース情報を出力す
る。障害発生後、障害通知手段20から障害情報を受け
たトレース出力手段12は、自動的に上記の決まりに従
って障害発生までにトレースバッファ14上へ蓄積され
たトレース情報をディスク装置3に出力する(21
2)。運用開始後、トレース制御コマンドによってトレ
ース詳細度を変更せず、かつ、初めての障害発生の場合
ならば、ディスク装置3に出力されるトレース情報は、
詳細度4のトレース情報になる。オペレータから障害発
生の連絡を受けた保守員は、ディスク装置3上に出力さ
れたトレース情報を編集解析することで、障害原因の究
明を行う。
【0038】モジュール障害時の処理ルートでは、トレ
ースバッファ14上の全てのトレース情報をディスク装
置3へ出力(218)した後、オペレータは、閉塞した
通信プログラムを再開始する(220)。なお、この
際、オペレータは、障害再発監視のため、障害に応じて
コマンドによりトレース詳細度を以前より高く設定させ
て、トレース情報の採取を行わせる。以降の運用では、
詳細度の高いトレースを採取しつづけるため、障害再発
時に詳細なトレース情報を保守員へ提供できる。
【0039】プロトコル障害時の処理ルートでの、トレ
ース情報のディスク装置2への出力方法は、障害通知手
段20がトレース出力手段12へ発生障害に関するリソ
ース識別情報を通知し、トレース出力手段12が通知さ
れた識別情報に基づいて特定回線に関するトレース情報
のみを出力する方法である。また、障害通知手段20
は、トレース出力手段12への通知と同時にトレース制
御手段12にも、障害情報と共に障害リソースの識別情
報を通知する。これによって起動するトレース制御手段
12は、通知された識別情報に基づいて障害が発生した
回線に関連するトレースの詳細度のみを高くする。この
ように、自動的に詳細度を変化させた場合は、トレース
制御手段12の報告によりコマンド処理16が、その旨
をコンソールに表示し、オペレータに変更後の詳細度を
通知する。以降の運用では、障害が発生した回線のみ詳
細度の高いトレースを採取しつづけるため、障害再発時
に詳細なトレース情報を保守員へ提供でき、かつ、その
負荷も少なく押さえることが出来る。
【0040】さて、図2のシーケンスに基づいて、各処
理ルートでの各実現手段の動作を詳細に説明する。ま
ず、通常運用時のルートから説明を開始する。運用開始
時に採取すべきトレースの種別は、予め決定されてお
り、本例では、最低詳細度4で全ての回線に関するトレ
ースである。採取すべきトレースの種別は、トレース制
御情報17で示される。トレース制御情報17は、運用
開始前に通信処理プログラムのロードモジュールに組み
込まれており、ディスク装置3上に記憶されている。こ
の時点のトレース制御情報17は、最も詳細度の低いト
レース情報(詳細度4)を採取すべきことを示してい
る。詳細度の低いトレース情報とは、万一の障害発生時
に備えて障害原因特定のため採取する必要最低限のトレ
ース情報である。最低詳細度では、レイヤ処理モジュー
ル7で任意の回線からの受信イベントと受信データのヘ
ッダ情報や任意の回線への送信イベントと送信データの
ヘッダ情報を採取し、共通処理モジュール8のトレース
情報は採取しない。オペレータによる運用開始コマンド
の投入により通信処理プログラム(レイヤ処理モジュー
ル7,共通処理モジュール8等)がメモリ上にロードさ
れ、各種テーブル(通信制御テーブル70,共通制御テ
ーブル60等)の初期化を行なった後、通信プログラム
の処理を開始する。図8は、トレース制御情報17のメ
モリ上の型式を示したものである。レイヤ処理モジュー
ル7に関するトレース制御情報17bは、通信プロトコ
ルを処理するためのリソース毎に存在するレイヤ制御テ
ーブル70からポイントされる。レイヤ制御テーブル7
0は、レイヤ特有のリソース識別子を持つ。そして、ト
レース制御情報17bは、詳細度と採取フラグを持つ。
通信制御テーブル70の初期化時に、トレース制御情報
17bの詳細度値は、最低詳細度である4を設定する
(202)。
【0041】次に、トレース採取(204)処理につい
て説明する。
【0042】上記(202)で設定された詳細度4のト
レース情報は、回線上のデータのトレースであるため、
レイヤモジュール処理7で採取する。つまり、トレース
制御情報17bの採取フラグが設定されるのは、最下位
層レイヤモジュール処理が所有する通信制御テーブル7
0からポイントされたものだけである。最下位層のレイ
ヤ処理モジュール7に組み込まれて実現されたトレース
採取手段9bを例にしてトレース採取手段9の処理を図
13を用いて説明する。まず、プロトコル処理中に生じ
たイベントがトレース対象である場合(302)、その
イベントに詳細度の付与規則に従い詳細度を与える(3
04)。次に、イベントが発生した回線の通信制御テー
ブル70からポイントされたトレース制御情報17bを
検査する(306)。
【0043】このとき、採取フラグがオンであり、か
つ、イベント情報に付与された詳細度より該当するトレ
ース制御情報17bの詳細度が高いときに(308)、
トレース採取手段9bは、モジュール識別子と回線識別
子をイベント情報に付加し(310)、これをトレース
格納手段13に渡す(312)。最下位層以外の他のレ
イヤ処理モジュール7でのトレース採取手段9bも同様
の処理手順であるが、イベント情報に付加するものは、
回線識別子でなくレイヤ独自のリソース識別子であるS
AP(Service Access Point)アドレスである。
【0044】図3は、バッファに格納時のトレース情報
30の型式を示したものである。トレース情報30は、
それぞれ、モジュール識別子,時刻,回線識別子,イベ
ントコード,イベント詳細情報からなる。
【0045】図14を用いてトレース格納手段13の処
理を説明する。トレース格納手段13は、受け取ったイ
ベント情報の送りもとをモジュール識別子により調べる
(502)。もし、レイヤ処理モジュール7のトレース
採取手段9bからイベント情報を受けた場合は、リソー
スマネージャー18をコールして、各レイヤでトレース
採取手段9bが付加したリソース識別子を回線識別子に
変更する(504,510)。次に、トレース格納手段
13は、各モジュールから受けたイベント情報に時刻,
回線識別子のヘッダ情報を書きこむことでトレース情報
30を生成する(506)。次に、生成したトレース情
報30をトレースバッファ14に格納する(508)。
【0046】図12はトレースバッファ14とトレース
バッファ管理情報21の構造である。
【0047】トレースバッファ14は、それぞれリソー
ス別バッファ141,共通処理モジュール別バッファ1
42,出力用予備バッファ143の3タイプのバッファ
から構成される。リソース別トレースバッファ141は
回線単位に存在し、レイヤ処理モジュール7で採取され
たトレース情報30を納める。共通処理モジュール別ト
レースバッファ142は共通処理モジュールごとに存在
し、共通処理モジュール7で採取されたトレース情報3
0を納める。出力用予備バッファ143は、ディスクへ
の出力時に使用する。これの使用法は、後のトレース出
力の記述で説明する。
【0048】バッファの管理テーブル21は、三つのバ
ッファタイプを納めた情報220と、そこから各々ポイ
ントされる、リソース別トレースバッファ管理情報22
1とモジュール別トレースバッファ管理情報222と出
力用予備バッファ管理情報223からなる。リソース別
トレースバッファ管理情報221で意味を持つのは、回
線識別子,バッファエリアの先頭アドレス,バッファエ
リアの最終アドレス,バッファの個数,最新のトレース
の格納ポインタ,出力中フラグである。モジュール別ト
レースバッファ管理情報222で意味を持つのは、モジ
ュール識別子,バッファエリアの先頭アドレス,バッフ
ァエリアの最終アドレス,バッファ数,最新のトレース
の格納ポインタ,出力中フラグである。出力用予備バッ
ファ管理情報223で意味を持つのは、バッファエリア
の先頭アドレス,バッファエリアの最終アドレス,トレ
ースの数,バッファの長さである。各種別ごとのトレー
スバッファエリアは、回線識別子又はモジュール識別子
等に対して連続領域を使用する。
【0049】次に、図15によりリソース別トレース、
即ち、レイヤ処理モジュール7で採取されたトレース情
報30を例にしてトレース格納動作(508)を詳しく
説明する。トレース格納手段13は、レイヤ処理モジュ
ール7で採取されたトレース情報30であることをモジ
ュール識別子により判定する(602)。次にバッファ
タイプ情報220のリソース別バッファからポイントさ
れたリソース別トレースバッファ管理テーブル221の
情報を参照する(604)。そして、トレース情報30
と同じ回線識別子をもつ格納ポインタが示すアドレスを
検索し(606)、該当するアドレスにトレース情報30
を格納(608)した後、格納ポインタを更新する(6
10)。なお、トレース格納手段13は、ラップアラウ
ンド方式で各トレースバッファ14を使用する。
【0050】次に、レイヤ以外の共通処理モジュール8
で採取するトレースについて説明する。レイヤ処理モジ
ュール7とのインタフェースで発生するイベントについ
ては、レイヤ処理モジュール7が共通処理モジュール8
への要求時にSAPアドレス等の通信リソースの識別子
を付加することで、イベントとリソースとの対応が付く
トレース情報となる。しかし、OSとのインタフェース
で発生するイベントには、リソースの識別子が付加でき
ないので、イベントとリソースとの対応が付かないトレ
ース情報になる。また、内部の状態変化も、同様にリソ
ースとの対応が必ずしも付かない。このようにリソース
対応が付かないものは、モジュール別トレースバッファ
142に収納する。なお、モジュール別トレースバッフ
ァ142上のトレース情報30の型式は、リソース別バ
ッファ上のトレース情報と共通である。また、共通処理
モジュール8のトレース制御情報17aは、レイヤ処理
モジュール7でのトレース採取と異なり通信制御テーブ
ル30に埋め込むことはできないので、モジュール毎に
一つずつ持つ。このトレース制御情報17aは、モジュ
ール識別子と採取制御フラグと詳細度情報からなる。ト
レースの格納動作は、リソースマネージャのコールをし
ないことと、モジュール識別子を検索キーとしてモジュ
ール別トレースバッファ管理テーブル222を参照する
こと以外リソース別トレースと同様である。
【0051】次に、通信プログラムの障害通知手段20
が、論理矛盾やデッドロック等のモジュール内部障害を
検知した場合、即ち、モジュール障害時のルート(21
0−212−218−・)について説明する。
【0052】図16を用いて障害通知手段20の処理を
説明する(210,212)。障害通知手段20は、障
害を検出すると障害情報を作成する(702)。障害の
タイプを判定し(704)、モジュールの内部障害なら
ば、コンソール1へ通信処理アベンドメッセージ出力し
(710)、障害に関する情報をオペレータ2へ提示す
る。次に、トレース出力手段12に障害情報を通知する
(712)。
【0053】図17を用いてトレース出力手段12の処
理を説明する(218)。障害通知手段20による障害
情報を受けた、トレース出力手段12は(802)、障
害情報からアベンドであることを認識して(804)、
トレースバッファ14上の全てのトレース情報30を出
力する(814)。アベンドメッセージをうけたオペレ
ータ2は、ダンプ情報を採取し、トレース情報,障害情
報ともに、障害発生を保守員等に連絡する。保守員は、
障害の判定や障害の特定を、障害情報から行う(ネット
ワーク管理用ツールを補助として用いるケースもあ
る)。そして、保守員や開発者は、トレースファイル
(障害直前までのトレース履歴)やダンプ等を編集し、
その出力リストを見て障害原因の究明とその対策を行
う。
【0054】この後、オペレータ2は、通信プログラム
をリセットして再立ち上げを行う。この際、高い詳細度
を設定し(詳細度1又は2)運用を開始する(22
0)。以降運用では、共通処理モジュール8でのトレー
スをも採取し続ける。なお、トレースの詳細度の変更
は、次の様におこなう。オペレータ2は、トレース変更
コマンドによってトレース詳細度を指示する。図9
(a)はトレース変更コマンドである。オペレータは、
トレース開始又はトレース停止,回線識別子,詳細度を
指定する。回線識別子の指定により特定回線に関するト
レースの詳細度を変更することが出来る。回線識別子を
指定しないときは、全ての回線と共通処理モジュール8
に関する詳細度を変更できる。オペレータ2からのコマ
ンドを受けたコマンド処理16は、該当するコマンドが
トレース変更コマンドであれば、トレース制御手段10
を起動する(206)。トレース制御手段10の処理を
図18で説明する。コマンドによって起動されたトレー
ス制御手段10(902)は、コマンドの各パラメータ
を解釈し(910)、リソースマネージャによって回線
識別子をリソース識別に変更しレイヤ制御テーブル70
から変更すべきトレース制御情報17bを識別する(9
12)。つぎに、変更すべきトレース制御情報17に、
オペレータの要求にしたがって、詳細度や採取フラグ等
の制御情報を書き込む(914)。トレース採取手段9
は、変更されたトレース制御情報17に従ってトレース
を採取する。
【0055】次に、障害通知手段20が、不正データ等
のプロトコル障害を検出した場合、即ち、プロトコル障
害時のルート(210−212−214−216−・)
について説明する。特定回線に関する障害の場合、再発
監視のため、該当する回線に関するトレース詳細度を自
動的に上げる(214)。つまり、図16で障害通知手
段20が、プロトコル障害を検出すると(702,70
4)、該当するリソースの識別子を障害情報に付加して
(706)、プロトコル障害の旨をトレース制御手段1
0に通知する(708)。そして、障害メッセージをコ
ンソールに出力する(710)。また、障害が発生した
回線に関するトレース情報のみをディスク装置3へ出力
するため、障害通知手段20は、トレース出力手段12
にも通知する(712)。
【0056】図18で障害通知により起動したトレース
制御手段10(902)は、該当リソース識別子をリソ
ースマネージャを用いて解釈し(904)、対応する各
レイヤのトレース制御情報17bを検索して(90
6)、該当する詳細度をそれぞれ一つ増加する(90
8)。図17で障害通知により起動したトレース出力手
段12(802)は、障害情報からプロトコルに関する
障害であることを認識し(804)、リソースマネージ
ャをコールすることで対応する回線識別子を得る(80
6)。
【0057】次に、回線識別子を検索キーとしてリソー
ス別トレースバッファ管理情報221からポイントされた
リソース別トレースバッファ141に格納されたトレー
ス情報30をディスク装置3に出力する(810,21
2)。このまえに、図11に示したトレースバッファ管
理情報21の出力中フラグをセットする。ディスク装置
3へのトレース出力最中にもトレース情報30を格納す
るため、出力中フラグがセットされた管理情報にたいし
て新たに出力用予備バッファ143から連続エリアを割
り当てる(808)。そして、トレース格納手段13
は、割り当てられた新しいエリアへトレース情報30を
格納する。トレース出力手段12によって、トレース情
報が出力された後のトレースバッファエリアは、出力予
備バッファ143にチェーンされる(812)。
【0058】障害再発が無く、かつ、該当するプロトコ
ル障害の原因が自装置にないことが判明した場合や障害
対策が完了した場合、トレース負荷を減らすため、オペ
レータ指示により運用開始時のトレース詳細度に戻す
(206−208)。
【0059】オペレータコマンドによるトレース出力に
ついても説明する。図9(b)はトレース出力コマンド
である。オペレータ2は、出力するトレースの記録され
た時刻,出力する数,出力ファイル名,回線識別子,詳
細度をパラメータとして指定する。これを受けたコマン
ド処理16は、トレース出力手段12を起動する(20
6)。コマンドによって起動されたトレース出力手段1
2の処理は、上記と同様に図17の(808)以降の処
理を行う(208)。
【0060】次に、編集出力の動作について説明する。
【0061】開発者や保守員は、障害の原因究明,デバ
ッグ,性能解析等のために、編集コマンドを投入するこ
とで、蓄積されたトレース情報を調べやすいように編集
させてコンソール装置1や印字装置19に出力させる。
【0062】図5は編集コマンドのスペックである。−
oは、トレース対象の指定であり、回線毎のトレースを
編集する場合に回線識別子を指定し、モジュールのトレ
ースを編集するときにはモジュール識別子を指定する。
複数の対象を指定した場合、両者をマージして表示す
る。−pは、−oと同様にトレース対象の指定である
が、複数指定の場合、各々を並列に表示し、回線識別子
指定時には、各レイヤモジュールごとに並列に表示す
る。−tは、表示先頭のトレース情報の採取時刻であ
る。−nは、出力する数である。−fは、トレースの入
力元を指定し、ディスクを指定するときはファイル名を
指定する。ファイル名の省略時はメモリが入力元とな
る。
【0063】図6,図7は、コマンドによってトレース
情報をコンソール上に編集出力した例である。図6は、
−oオプションによる画面出力例である。指定した複数
のリソースのトレース情報を記録時刻と共に、縦一列に
表示する。例えば、性能解析の用途で使用する。図7
は、−pオプションによる画面出力例である。あるリソ
ースを単数指定したとき、リソースに関するトレース情
報をモジュールごとに分離して表示する。例えば、不正
データ検出等のプロトコル障害時、自分に障害原因があ
るのかどうかをチェックするために使用する。
【0064】図4は、編集手段の処理アルゴリズムであ
る。
【0065】まず、上記のコマンドオプションパラメタ
を判定する(402)。つぎに、対象(回線/モジュー
ル識別子)の数だけ、トレース検索手段15をコールす
る(404)。トレース検索手段15は、トレース情報
30のヘッダ情報と、引数として渡された時刻等のパラ
メタを比較し、該当するトレース情報30の格納ポイン
タを記録する(410)。リターン値は、該当トレース
の数とその格納ポインタである。つぎに、時刻順にソー
トし、編集オプションに合わせて表示位置決定し、印刷
装置19等に出力する(406)。
【0066】
【発明の効果】通常の運用時は、初期化の際にデフォル
トとして設定される最低詳細度のトレース情報を全ての
回線に関して採取するため、システム開始から初回の障
害発生までのトレース情報をもつことができる。これに
よって、保守員や開発者は、ある程度の障害原因の究明
ができる。また、通常運用時のトレースオーバーヘッド
も少ない。なお、障害発生後は、再発監視のため自動的
に特定回線のトレース情報のみを詳細度を上げて採取す
ることができる。また、オペレータ判断により、より詳
細な障害原因を調べたい場合は、オーバーヘッドが大き
くなるが詳細度の高い値をコマンドによって指定するこ
とで、より詳細なトレース情報を採取することができ
る。これによって、障害再発時は、障害原因の究明に要
する時間の短縮が図れる。
【0067】外部記憶装置に記録される情報が障害究明
に必要なものだけであるため、保守員等に参照されない
トレース情報ために外部記憶を不当に占有することがな
い。また、この様な無駄なトレース情報のための出力オ
ーバーヘッドがないため、トレース負荷を軽減するとい
う効果を持つ。
【図面の簡単な説明】
【図1】本発明の一実施例のシステム構成のブロック
図。
【図2】トレースの運用フローチャート。
【図3】トレース情報型式のブロック図。
【図4】トレース編集時のフローチャート。
【図5】トレース編集コマンドの説明図。
【図6】トレース編集画面その1の説明図。
【図7】トレース編集画面その2の説明図。
【図8】トレース制御情報のブロック図。
【図9】トレース制御コマンドの説明図。
【図10】詳細度の設定例の説明図。
【図11】エラー・トレース対応情報の説明図。
【図12】トレースバッファのブロック図。
【図13】トレース採取手段の処理フローチャート。
【図14】トレース格納手段の処理フローチャート。
【図15】トレース格納動作の詳細フローチャート。
【図16】障害通知手段の処理フローチャート。
【図17】トレース出力手段の処理フローチャート。
【図18】トレース制御手段の処理フローチャート。
【符号の説明】
1…コンソール、2…オペレータ、3…ディスク装置、
4…通信処理装置、5…端末、6…回線、7…レイヤ処
理モジュール、8…共通処理モジュール、9…トレース
採取手段、10…トレース制御手段、11…トレース編
集手段、12…トレース出力手段、13…トレース格納
手段、14…トレースバッファ、15…トレース検索手
段、16…コマンド処理、17…トレース制御情報、1
8…リソースマネージャー、19…印字装置、20…障
害通知手段、21…バッファ管理情報、60…共通制御
テーブル、70…レイヤ制御テーブル。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 小泉 稔 神奈川県川崎市麻生区王禅寺1099番地 株 式会社日立製作所システム開発研究所内 (72)発明者 川飛 達夫 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア開発本部内

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】通信回線によって接続された端末や通信制
    御装置から構成される通信システムで、通信障害発生時
    の原因究明等に使用するため、前記端末や前記通信制御
    装置の通信装置内部の通信処理プログラムの実行履歴情
    報であるトレース情報として回線やコネクションの通信
    リソースに関する前記トレース情報をシステムの運用中
    に通信装置の内部メモリやディスクの外部記憶装置上に
    蓄積し、保守員や開発者等の障害対策者に対して前記ト
    レース情報を編集出力するトレース方式において、開発
    者が設定した複数の詳細度と前記トレース情報との対応
    関係に基づき前記通信処理プログラムの各モジュールで
    発生する前記トレース情報に詳細度情報を付加し、トレ
    ース制御情報に従って特定詳細度の前記トレース情報を
    採取するトレース採取手段と、オペレータの指示に基づ
    き前記トレース制御情報を変更するトレース情報制御手
    段と、採取した前記トレース情報を格納するトレース格
    納手段と、障害を検知し前記トレース情報制御手段に障
    害情報を通知する障害通知手段を備え、運用開始時に
    は、詳細度の低いトレース情報、即ち、通信障害原因究
    明に必要最低限の前記トレース情報を採取し、障害発生
    時、障害発生まで蓄積された前記トレース情報からで
    は、障害原因究明時間が非常にかかる場合や障害原因の
    究明が出来ない場合の障害再発監視のため、前記障害通
    知手段の指示に基づきトレース制御手段が前記トレース
    制御情報を以前より高い詳細度に変更することで、トレ
    ース採取手段が高い詳細度の前記トレース情報を採取
    し、変更された詳細度で不十分な場合は、その後のオペ
    レータによるトレース制御手段への特定詳細度の指示に
    基づき、通信障害原因究明に必要十分なトレース情報を
    採取することを特徴とするトレース方式。
  2. 【請求項2】請求項1において、各モジュールで採取し
    た前記トレース情報にリソースの識別子を付加するトレ
    ース採取手段を備え、障害発生時、トレース出力手段へ
    障害に関係した前記リソースの識別子を含む障害情報を
    通知する障害通知手段を備え、通知された前記障害情報
    に含まれた前記リソース識別子に基づき特定リソースに
    関連するトレース情報のみを通信装置の内部メモリに記
    憶された前記トレース情報から選択して、前記通信装置
    の外部記憶手段へ出力するトレース出力手段を備えたト
    レース方式。
JP4121655A 1992-05-14 1992-05-14 トレース方式 Pending JPH05314040A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4121655A JPH05314040A (ja) 1992-05-14 1992-05-14 トレース方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4121655A JPH05314040A (ja) 1992-05-14 1992-05-14 トレース方式

Publications (1)

Publication Number Publication Date
JPH05314040A true JPH05314040A (ja) 1993-11-26

Family

ID=14816628

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4121655A Pending JPH05314040A (ja) 1992-05-14 1992-05-14 トレース方式

Country Status (1)

Country Link
JP (1) JPH05314040A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002032887A (ja) * 2000-07-14 2002-01-31 Hochiki Corp セキュリティシステム及びその運用方法
JP2006146600A (ja) * 2004-11-19 2006-06-08 Ntt Docomo Inc 動作監視サーバ、端末装置及び動作監視システム
JP2008146474A (ja) * 2006-12-12 2008-06-26 Oki Data Corp 情報処理装置
JP2010224692A (ja) * 2009-03-19 2010-10-07 Nec Corp 記録システム、記録装置、記録方法、及びプログラム
WO2012067034A1 (ja) * 2010-11-16 2012-05-24 株式会社日立製作所 設計・開発支援システム
WO2014115264A1 (ja) * 2013-01-23 2014-07-31 富士通株式会社 トレース方法、プログラムおよび情報処理装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002032887A (ja) * 2000-07-14 2002-01-31 Hochiki Corp セキュリティシステム及びその運用方法
JP4525955B2 (ja) * 2000-07-14 2010-08-18 ホーチキ株式会社 セキュリティシステム
JP2006146600A (ja) * 2004-11-19 2006-06-08 Ntt Docomo Inc 動作監視サーバ、端末装置及び動作監視システム
JP2008146474A (ja) * 2006-12-12 2008-06-26 Oki Data Corp 情報処理装置
JP2010224692A (ja) * 2009-03-19 2010-10-07 Nec Corp 記録システム、記録装置、記録方法、及びプログラム
WO2012067034A1 (ja) * 2010-11-16 2012-05-24 株式会社日立製作所 設計・開発支援システム
WO2014115264A1 (ja) * 2013-01-23 2014-07-31 富士通株式会社 トレース方法、プログラムおよび情報処理装置

Similar Documents

Publication Publication Date Title
CN101933001B (zh) 在集群系统中执行软件性能测试作业
EP3806432A1 (en) Method for changing service on device and service changing system
RU2419854C2 (ru) Основанное на шаблоне управление службами
AU639416B2 (en) Entity management system
US5664093A (en) System and method for managing faults in a distributed system
JP5909138B2 (ja) 論理的なサブシステムのマップを介してのフローによるトランザクショントレースの可視化
US5828842A (en) Method of creating information for executing network management operations from a simplified definition of an operation sequence and providing a network management operation sequence, used in the information
US20120117226A1 (en) Monitoring system of computer and monitoring method
EP0444315A2 (en) System and method for software application event collection
JP2001188765A (ja) 分散コンピューティング環境で複数の関係する障害を表す障害情報を参照する技法
JP5691723B2 (ja) 監視方法、情報処理装置および監視プログラム
CN103646104A (zh) 一种强实时故障诊断方法及系统
US8510746B2 (en) Obtaining and storing replaceable resource information for a unique resource
CN108255620A (zh) 一种业务逻辑处理方法、装置、业务服务器及系统
CN112181764A (zh) Kubernetes资源数据的监视方法及装置
CN111694752B (zh) 应用测试方法、电子设备及存储介质
KR102580916B1 (ko) 5g 분산 클라우드 시스템의 빅 데이터를 이용하여 장애를 관리하는 장치 및 방법
JPH05314040A (ja) トレース方式
US6289394B1 (en) Agent management system capable of readily monitoring and controlling agent
CN101681362B (zh) 存储优化方法
CN114090382B (zh) 超融合集群健康巡检方法和装置
JPH04195436A (ja) 計算機システム自動テスト方式
CN113434278A (zh) 数据聚合系统、方法、电子设备及存储介质
Kanyuh An integrated network management product
CN113581257B (zh) 信息监控方法、装置、存储介质及电子设备