JPH05314040A

JPH05314040A - トレース方式

Info

Publication number: JPH05314040A
Application number: JP4121655A
Authority: JP
Inventors: Takeshi Kondo; 毅近藤; Toshiaki Hirata; 平田　　俊明; Tsutomu Nakamura; 勤中村; Minoru Koizumi; 稔小泉; Tatsuo Kawatobi; 達夫川飛
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1992-05-14
Filing date: 1992-05-14
Publication date: 1993-11-26

Abstract

(57)【要約】【目的】運用開始時には、最少のトレース情報を採取
し、障害発生時は、同一障害の再発監視等のために障害
前よりも詳細で採取量が多いトレース情報を採取し、ト
レース出力処理の負荷の軽減を図る。【構成】運用開始時直後のトレース制御情報１７は、最
低詳細度である。トレース採取手段９は、トレース制御
情報１７に従い全ての回線に関して最低詳細度のトレー
ス情報を採取する。障害発生時に、障害監視手段２０が
トレース制御手段１０を起動する。トレース制御手段
は、障害に応じて以前より高い詳細度をトレース制御情
報１７に設定する。障害発生後は、トレース採取手段９
は、トレース制御情報１７に従い高い詳細度のトレース
情報を採取する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、通信システムの障害原
因究明のために採取する通信ソフトウェアの実行履歴で
あるトレース情報の採取，記録，編集の各方式、並び
に、その実現装置に関する。

【０００２】

【従来の技術】通信システムにおけるトレースは、デー
タまたはプロトコルの不正、デッドロックやスケジュー
ル不正等の障害に対する原因究明のため、通信プログラ
ム内部の各種のイベント情報や状態変化や入出力データ
等をトレース情報として時系列に記録するものである。
例えば、文献上田恭雄著；オンラインシステム，昭晃堂
（１９８７）によると、トレース情報の蓄積方式は、通
信装置内部での格納エリアであるトレースバッファに先
頭から順次蓄積して行き、バッファの最後尾に至った
後、再度、先頭から順次蓄積するラップアラウンド方式
である。こうすることにより、通信装置は、常に最新の
トレース情報を内部に保持する。そして、トレースバッ
ファに蓄えられるトレース情報より古いトレース情報が
必要となるトレースの場合では、トレースバッファ満杯
時にそのバッファ内容を全て外部記憶装置に出力する機
能を備える。また、トレースの負荷を軽減するため、ト
レースの採取対象を指定する機能を備えたトレース方式
もある。例えば、異常発生時にオペレータが該当する回
線を指定してトレース採取を指定し、以降、停止の指示
があるまで該当する回線に関するトレース情報を採取し
続ける方式が上記文献に記載されている。

【０００３】

【発明が解決しようとする課題】しかし、これら従来の
技術では、保守員や開発者が行う通信障害究明のために
必要なトレース情報の採取制御をどう行うか、また外部
記憶装置への出力をどのように行なうか等の考慮が十分
ではない。

【０００４】従来例で記述したように、トレースの負荷
を軽減するため、異常発生時にオペレータが該当する回
線を指定してトレース採取やトレース停止を指定する方
式では、運用開始から第１回目の障害発生時までのトレ
ース情報が存在しないため、障害原因の究明が困難とな
る。また一方、オペレータがトレース対象を指定せずに
全回線のトレース情報を採取する方法では、トレース採
取のオーバーヘッドが大きすぎるとの問題点があった。
本発明の第１の目的は、このようにトレースオーバーヘ
ッドと障害原因究明の容易性とは相反する関係にあるた
め、通信システムの規模、これを構成する回線の品質や
通信装置等の信頼性とトレース採取の負荷等とを勘案し
て、運用開始時には、性能を優先して必要最小限のトレ
ース情報を採取し、障害発生時は、同一障害の再発監視
等のために原因究明を優先して必要最大限のトレース情
報を採取するトレース方式を提供することにある。

【０００５】また、従来例で説明したように、トレース
バッファが満杯になったときに、バッファ内のトレース
情報を全て外部記憶装置へ出力するのでは、障害原因の
究明ために参照されない不要なトレース情報をも外部記
憶装置に記憶することになり、外部記憶装置の記憶資源
を不要なトレース情報で不当に占有し、また、この不要
なトレース情報を外部記憶装置へ出力するためのむだな
オーバーヘッドがあるのでトレース負荷が大きいという
問題点があった。本発明の他の目的は、上記のように障
害原因の究明ために参照されない不要なトレース情報を
外部記憶に出力しないことにより、トレース負荷を軽減
することにある。

【０００６】

【課題を解決するための手段】前記二つの課題を解決す
るため、まず、第１の課題に対して以下の手段を用い
る。（１）オペレータ等により与えられる採取すべきトレー
ス詳細度を記憶する手段（トレース制御情報）。（２）通信プログラムを構成する各処理モジュールにお
いて、イベント等のトレース情報に開発者の定めたトレ
ース詳細度を付加し、付加されたトレース詳細度と手段
（１）（トレース制御情報）に記憶されたトレース詳細
度とを参照比較し、対応するトレース詳細度を付与され
たトレース情報のみを採取するトレース採取手段。（３）トレース採取手段（２）で採取したトレース情報
をメモリに格納し蓄積するトレース格納手段。（４）下記障害通知手段（５）からの通知、または、オ
ペレータの指示に基づき、手段（１）（トレース制御情
報）に記憶されたトレース詳細度を変更するトレース制
御手段。（５）障害の発生を検知し、障害発生時に該当する回線
等のリソースに関する障害情報をオペレータと上記トレ
ース制御手段（４）に通知する障害通知手段。

【０００７】次に、第２の課題に対して以下の手段を用
いる。（６）通信プロトコルを処理する各レイヤ処理モジュー
ルで採取したトレース情報に各レイヤに特有なリソース
識別子を付加するトレース採取手段。（７）各レイヤに特有なリソース識別子と実回線との対
応情報を持ち、リソース識別子から回線識別子に変換す
る手段（リソースマネージャ）。（８）トレース採取手段（６）により採取されたトレー
ス情報のリソース識別子を手段（７）（リソースマネー
ジャ）を用いて回線識別子に変換し、通信装置の内部メ
モリのトレースバッファに蓄積するトレース格納手段。（９）トレースバッファ上のトレース情報のうち下記障
害通知手段（１０）によって通知されたリソース識別子
を手段（７）（リソースマネージャ）を用いて回線識別
子に変換し、特定回線識別子を備えたトレース情報のみ
を外部記憶装置に出力するトレース出力手段。（１０）障害の発生を検知し、障害発生時に該当する回
線等のリソースに関するリソース識別子を付加した障害
情報をトレース出力手段（９）に通知する障害通知手
段。

【０００８】

【作用】第１の手段に対する作用を以下に記述する。

【０００９】通信ソフトウェアの各プログラムモジュー
ルで発生する各イベント等のトレースとして記録すべき
情報には、以下に示す付与規則に従い詳細度のトレース
採取手段（２）が特定の詳細度を与える。

【００１０】詳細度の付与規則は次のようにする。障害
原因究明のために必要な最低限のイベント情報に最低詳
細度を付ける。そして、障害原因究明のために必要な最
大限イベント情報に最高詳細度を付ける。

【００１１】従って、最低詳細度のトレース情報の採取
時は、トレースの採取量が最も少ないので、トレースに
よる負荷が最も少ない。これに対して、最高詳細度のト
レース情報の採取時は、トレースの採取量が最も多いた
め、トレースによる負荷が最も多い。

【００１２】通信ソフトウェアのゼネレーション処理の
一環としてトレース詳細度の記憶手段（１）（トレース
制御情報）には、デフォルト値である最低詳細度が記憶
される。運用開始後、トレース採取手段（２）は、トレ
ース詳細度の記憶手段（１）（トレース制御情報）を参
照し、最低詳細度が付与されたトレース情報を採取し続
ける。トレース情報は、詳細度の他に回線等のリソース
識別情報を持つが、このときは、全てのリソースに関し
て最低詳細度を持つトレース情報を採取する。

【００１３】トレース格納手段（３）によって、通信シ
ステムの運用中は上記の最低詳細度のトレース情報が装
置内部のメモリに蓄積され続ける。

【００１４】システム管理者は、運用マニュアルの提供
するトレース負荷の情報やその他構成機器の信頼性等の
情報に基づいて通信システム運用を考慮すると、デフォ
ルトで与えられるトレースの詳細度に満足できない場合
がある。このようなとき、システム管理者は、運用の開
始前にオペレータに詳細度の変更を指示する。指示を受
けたオペレータはトレース制御手段（４）を起動して詳
細度を変更した後に運用を開始することで、管理者の意
向にそったトレース詳細度でシステム運用を行う。

【００１５】障害発生時に、障害通知手段（５）によっ
て、オペレータやトレース制御手段（４）へ障害情報が
通知される。障害情報が緊急なオペレータ操作を必要と
しない比較的軽い障害、例えば、縮退や閉塞をせず運用
継続が可能な障害を意味しているならば、トレース制御
手段（４）は自動的に現行より高い詳細度にトレース詳
細度の記憶手段（１）（トレース制御情報）を変更す
る。以後、以前より高いトレース詳細度のトレース情報
をトレース採取手段（２）が採取し、トレース格納手段
（３）が装置内のメモリへ書き込む。

【００１６】無論、障害発生後運用において、自動的に
更新された詳細度が適切でないことが判明した場合に
は、オペレータが直接詳細度を指定してトレース制御手
段(４)を起動することで、適切な値に変更することが可
能である。

【００１７】緊急なオペレータ操作が必要な障害の場合
は、オペレータは、一連の操作の後、詳細度を指定した
コマンドによってトレース制御手段（４）を起動する。
オペレータは、障害監視のため上記の方法で採取すべき
詳細度を障害状況に応じて障害発生以前よりも高い値に
変更する。

【００１８】このようにどの様な障害であっても障害発
生後は、障害に応じて以前より高いトレース詳細度のト
レース情報をトレース採取手段（２）が採取し、トレー
ス格納手段（３）が装置内のメモリへ蓄積する。したが
って、再度障害が発生した場合、より高い詳細度のトレ
ース情報を保守員・開発者に提供することができるた
め、より迅速な障害原因の究明が行える。障害の原因が
究明され障害対策が完了した後は、オペレータ操作によ
り元の詳細度に戻してトレース負荷の少ない通常運用へ
復旧する。

【００１９】第２の手段に対する作用を以下記述する。

【００２０】通常運用時に、トレースの採取手段（６）
により全ての回線に関するトレース情報が各レイヤ処理
モジュールで採取され、トレース情報には各レイヤで特
有のリソース識別子がそれぞれ付加される。

【００２１】トレース格納手段（８）は、手段（７）
（リソースマネージャ）を用いてトレース情報に付加さ
れたリソース識別子を回線識別子に変換し、トレースバ
ッファに蓄積する。

【００２２】障害通知手段（１０）は、レイヤ処理モジ
ュールで障害を検出すると、該当する障害に関連するリ
ソースを識別し、トレース出力手段（９）にリソース識
別子を含む障害情報を通知する。これを受けたトレース
出力手段（９）は、手段(７)（リソースマネージャ）を
用いて障害情報に付加されたリソース識別子を回線識別
子に変換し、該当する回線識別子が付加されたトレース
情報をトレースバッファ中から選択して外部記憶装置に
出力する。

【００２３】以上により、ある回線上を流れるデータに
関してプロトコルエラーやデータ不正等の障害が生じた
とき、通信装置内部のメモリに格納されたトレース情報
のうち、該当する回線に関するトレース情報のみを外部
の記憶装置に出力することができる。

【００２４】なお、リソース識別子として回線を単位す
ることで、トレースの編集や解析時に物理装置との対応
をとれるので、下位レイヤから上位レイヤまでの一貫し
た流れが判り易くなる。

【００２５】

【実施例】

〈実施例１〉図１は、本発明を実施するシステム構成の
一例である。これは、アプリケーションプログラム（Ａ
Ｐ）５０を処理するホスト計算機４０に接続した、コン
ソール１とディスク装置２と印字装置１９を備えた通信
処理装置４へ、複数の回線６によりネットワーク２３を
介して接続した複数の端末装置５から構成される通信シ
ステムである。

【００２６】通信処理装置４は、その内部に通信プログ
ラムとして、階層化した通信プロトコルを処理するレイ
ヤ処理モジュール７と、各レイヤモジュールとは独立し
たモジュールであるレイヤ処理のスケジュールや通信デ
ータバッファ管理やタイマ処理等の共通処理モジュール
８を持ち、それぞれの制御情報としてレイヤ制御テーブ
ル７０と共通制御テーブル６０を備える。各々の通信プ
ログラムは上記の制御情報に基づいてホスト計算機４０
と端末５との通信を制御する。

【００２７】また、通信処理装置４は、本トレース方式
の実現手段として、それぞれのモジュール内部にトレー
ス採取手段９ｂ，９ａと、それぞれのモジュールで採取
すべきトレースを制御する情報（トレース制御情報）１
７ｂ，１７ａと、これらトレース制御情報１７の変更手
段であるトレース制御手段１０と、各レイヤ処理モジュ
ールで独自に管理しているリソース識別子を回線識別子
に変換する機能や逆に回線識別子をリソース識別子に変
換する機能持つリソースマネージャ１８と、トレース情
報をトレースバッファ１４に格納する手段（トレース格
納手段）１３と、トレースバッファ１４を管理するため
のトレースバッファ管理情報２１と、トレースバッファ
１４またはディスク装置３上のトレース情報をコンソー
ル１または印字装置１９上に編集し出力するトレース編
集手段１１と、トレース情報の検索手段１５と、トレー
スコマンドの振り分け処理手段（コマンド処理）１６
と、トレースバッファ１４上のトレース情報をディスク
装置３へ出力する手段（トレース出力手段）１２と、レ
イヤ処理モジュール７や共通処理モジュール８で発生す
る障害を監視しオペレータ２やトレース制御手段１０や
トレース出力手段１２に障害情報を通知する手段（障害
通知手段）２０とを備える。本例では、トレース採取手
段９や障害通知手段２０は、各処理モジュールに組み込
んで実現したものである。

【００２８】図２は、本通信処理装置４のトレース採取
の運用シーケンスを表したフローチャートである。以下
に本シーケンスで処理ルートを四つ示す。通常運用時の
処理ルート（２０２−２０４−２０６−２１０−２０４
−…）とモジュール障害時（論理矛盾，デッドロック
等）の処理ルート(２１０−２１２−２１８−２２０)と
プロトコル障害時の処理ルート（２１０−２１２−２１
４−２１６−２０４−…）が主要な三つのルートであ
る。トレースコマンドによる処理ルート（２０４−２０
６−２０８−…）は、サブルートである。各ルートの処
理は、詳細度を説明した後に説明する。

【００２９】図１０は、本実施例における詳細度の設定
例である。本例では、詳細度を４段階設ける。

【００３０】詳細度１が最高の詳細度であり、本詳細度
でレイヤ処理モジュール７と共通処理モジュール８にお
ける全ての関数の引数とその実行履歴をトレース情報と
して採取する。詳細度１は、主としてデバッグや性能測
定時に使用する。

【００３１】詳細度２では、レイヤ処理モジュール７間
で受け渡された通信プリミティブをトレース情報として
採取する。しかし、共通処理モジュール８では、詳細度
１と同じトレース情報を採取する。この詳細度２も、デ
バッグ用として使用する。

【００３２】詳細度３では、レイヤ処理モジュール７
は、タイムアウトや制御テーブル等のリソース不足が発
生したときの異常処理の実行履歴をトレース情報として
採取し、共通処理モジュール８では、要求の受付けや要
求の実行結果等のイベントをトレース情報として採取す
る。これは、主としてプロトコル異常発生時の原因究明
に使用するものである。

【００３３】詳細度４は、最低の詳細度であり、回線に
おける受信イベントと受信データのヘッダ情報や送信イ
ベントと送信データのヘッダ情報をトレース情報として
採取する。詳細度４は、デフォルトの詳細度である。

【００３４】さて、次に図２に示した各ルートで採取す
るトレースと詳細度の関係とトレース処理の概要につい
て説明する。通常運用時の処理ルートで採取するトレー
スの種類は、最低詳細度(詳細度４)、即ち、受信イベン
トと受信データのヘッダ情報や送信イベントと送信デー
タのヘッダ情報のトレース情報である。全ての回線に関
して、この詳細度でトレース情報を採取し蓄積する。つ
まり、トレース採取手段９は、詳細度４を付加されたト
レース情報のみを選択して、トレース格納手段１３に引
き渡す。トレース情報を受けたトレース格納手段１３
は、トレースバッファ１４にこれを蓄積する。また、通
常運用中に、以下に示すようなケースでオペレータ指示
によるトレースの外部記憶装置への出力やオペレータ指
示によるトレース詳細度の変更を行うこともある（サブ
ルート：２０６−２０８）。

【００３５】例えば、通信相手端末等でプロトコルのシ
ーケンス不正等が検出されたとき、自装置側の障害原因
の有無を判定するため保守員にトレース情報の解析を依
頼するケースでは、トレース制御コマンド（図９（ｂ）
参照：後述）を投入し、障害を検出した端末に接続した
特定回線に関するトレース情報をトレースバッファ１４
から外部の記憶装置であるディスク装置３に出力させ
る。また、特定回線の品質が悪くデフォルトで設定され
る詳細度４に満足出来ないケースでは、トレースコマン
ド制御コマンド（図９（ａ）参照：後述）を投入し、該
当する回線の詳細度を詳細度３へ変更させる。更に、障
害発生後の運用で、以前の詳細度のトレース情報に基づ
く保守員の解析では、障害原因の特定が出来ないときや
究明までの時間が大きい場合に、オペレータは、該当す
る回線のトレース詳細度を以前より上げてトレースを採
取することで障害再発に備えるケースもある。そして、
特定回線での性能を解析したい場合は、特定回線の詳細
度を最高詳細度１に変更させる。このときは、各トレー
スポイントのイベント発生時刻からモジュール性能が測
定できる。

【００３６】障害通知手段２０が障害を検出した後は、
障害のタイプによってルートがことなる（２１０）。そ
の一つは、プログラムモジュールのデッドロックを含む
内部論理矛盾により通信プログラムが閉塞した後の運用
であるモジュール障害時の処理ルート（２１２−２１８
−…）であり、もう一つは、レイヤ処理モジュール７で
検知するデータ形式不正や異常シーケンス等のプロトコ
ル障害発生後の運用であるプロトコル障害時の処理ルー
ト（２１２−２１４−…）である。

【００３７】図１１は、エラータイプとディスク装置３
へのトレース出力内容との対応表である。プロトコル障
害のように特定回線に関するエラーの場合は、特定回線
に関するトレース情報のみを出力し、その他のエラー
（モジュール障害）では、全てのトレース情報を出力す
る。障害発生後、障害通知手段２０から障害情報を受け
たトレース出力手段１２は、自動的に上記の決まりに従
って障害発生までにトレースバッファ１４上へ蓄積され
たトレース情報をディスク装置３に出力する（２１
２）。運用開始後、トレース制御コマンドによってトレ
ース詳細度を変更せず、かつ、初めての障害発生の場合
ならば、ディスク装置３に出力されるトレース情報は、
詳細度４のトレース情報になる。オペレータから障害発
生の連絡を受けた保守員は、ディスク装置３上に出力さ
れたトレース情報を編集解析することで、障害原因の究
明を行う。

【００３８】モジュール障害時の処理ルートでは、トレ
ースバッファ１４上の全てのトレース情報をディスク装
置３へ出力（２１８）した後、オペレータは、閉塞した
通信プログラムを再開始する（２２０）。なお、この
際、オペレータは、障害再発監視のため、障害に応じて
コマンドによりトレース詳細度を以前より高く設定させ
て、トレース情報の採取を行わせる。以降の運用では、
詳細度の高いトレースを採取しつづけるため、障害再発
時に詳細なトレース情報を保守員へ提供できる。

【００３９】プロトコル障害時の処理ルートでの、トレ
ース情報のディスク装置２への出力方法は、障害通知手
段２０がトレース出力手段１２へ発生障害に関するリソ
ース識別情報を通知し、トレース出力手段１２が通知さ
れた識別情報に基づいて特定回線に関するトレース情報
のみを出力する方法である。また、障害通知手段２０
は、トレース出力手段１２への通知と同時にトレース制
御手段１２にも、障害情報と共に障害リソースの識別情
報を通知する。これによって起動するトレース制御手段
１２は、通知された識別情報に基づいて障害が発生した
回線に関連するトレースの詳細度のみを高くする。この
ように、自動的に詳細度を変化させた場合は、トレース
制御手段１２の報告によりコマンド処理１６が、その旨
をコンソールに表示し、オペレータに変更後の詳細度を
通知する。以降の運用では、障害が発生した回線のみ詳
細度の高いトレースを採取しつづけるため、障害再発時
に詳細なトレース情報を保守員へ提供でき、かつ、その
負荷も少なく押さえることが出来る。

【００４０】さて、図２のシーケンスに基づいて、各処
理ルートでの各実現手段の動作を詳細に説明する。ま
ず、通常運用時のルートから説明を開始する。運用開始
時に採取すべきトレースの種別は、予め決定されてお
り、本例では、最低詳細度４で全ての回線に関するトレ
ースである。採取すべきトレースの種別は、トレース制
御情報１７で示される。トレース制御情報１７は、運用
開始前に通信処理プログラムのロードモジュールに組み
込まれており、ディスク装置３上に記憶されている。こ
の時点のトレース制御情報１７は、最も詳細度の低いト
レース情報（詳細度４）を採取すべきことを示してい
る。詳細度の低いトレース情報とは、万一の障害発生時
に備えて障害原因特定のため採取する必要最低限のトレ
ース情報である。最低詳細度では、レイヤ処理モジュー
ル７で任意の回線からの受信イベントと受信データのヘ
ッダ情報や任意の回線への送信イベントと送信データの
ヘッダ情報を採取し、共通処理モジュール８のトレース
情報は採取しない。オペレータによる運用開始コマンド
の投入により通信処理プログラム（レイヤ処理モジュー
ル７，共通処理モジュール８等）がメモリ上にロードさ
れ、各種テーブル（通信制御テーブル７０，共通制御テ
ーブル６０等）の初期化を行なった後、通信プログラム
の処理を開始する。図８は、トレース制御情報１７のメ
モリ上の型式を示したものである。レイヤ処理モジュー
ル７に関するトレース制御情報１７ｂは、通信プロトコ
ルを処理するためのリソース毎に存在するレイヤ制御テ
ーブル７０からポイントされる。レイヤ制御テーブル７
０は、レイヤ特有のリソース識別子を持つ。そして、ト
レース制御情報１７ｂは、詳細度と採取フラグを持つ。
通信制御テーブル７０の初期化時に、トレース制御情報
１７ｂの詳細度値は、最低詳細度である４を設定する
（２０２）。

【００４１】次に、トレース採取（２０４）処理につい
て説明する。

【００４２】上記（２０２）で設定された詳細度４のト
レース情報は、回線上のデータのトレースであるため、
レイヤモジュール処理７で採取する。つまり、トレース
制御情報１７ｂの採取フラグが設定されるのは、最下位
層レイヤモジュール処理が所有する通信制御テーブル７
０からポイントされたものだけである。最下位層のレイ
ヤ処理モジュール７に組み込まれて実現されたトレース
採取手段９ｂを例にしてトレース採取手段９の処理を図
１３を用いて説明する。まず、プロトコル処理中に生じ
たイベントがトレース対象である場合（３０２）、その
イベントに詳細度の付与規則に従い詳細度を与える（３
０４）。次に、イベントが発生した回線の通信制御テー
ブル７０からポイントされたトレース制御情報１７ｂを
検査する（３０６）。

【００４３】このとき、採取フラグがオンであり、か
つ、イベント情報に付与された詳細度より該当するトレ
ース制御情報１７ｂの詳細度が高いときに（３０８）、
トレース採取手段９ｂは、モジュール識別子と回線識別
子をイベント情報に付加し（３１０）、これをトレース
格納手段１３に渡す（３１２）。最下位層以外の他のレ
イヤ処理モジュール７でのトレース採取手段９ｂも同様
の処理手順であるが、イベント情報に付加するものは、
回線識別子でなくレイヤ独自のリソース識別子であるＳ
ＡＰ（Service Access Point）アドレスである。

【００４４】図３は、バッファに格納時のトレース情報
３０の型式を示したものである。トレース情報３０は、
それぞれ、モジュール識別子，時刻，回線識別子，イベ
ントコード，イベント詳細情報からなる。

【００４５】図１４を用いてトレース格納手段１３の処
理を説明する。トレース格納手段１３は、受け取ったイ
ベント情報の送りもとをモジュール識別子により調べる
（５０２）。もし、レイヤ処理モジュール７のトレース
採取手段９ｂからイベント情報を受けた場合は、リソー
スマネージャー１８をコールして、各レイヤでトレース
採取手段９ｂが付加したリソース識別子を回線識別子に
変更する（５０４，５１０）。次に、トレース格納手段
１３は、各モジュールから受けたイベント情報に時刻，
回線識別子のヘッダ情報を書きこむことでトレース情報
３０を生成する（５０６）。次に、生成したトレース情
報３０をトレースバッファ１４に格納する（５０８）。

【００４６】図１２はトレースバッファ１４とトレース
バッファ管理情報２１の構造である。

【００４７】トレースバッファ１４は、それぞれリソー
ス別バッファ１４１，共通処理モジュール別バッファ１
４２，出力用予備バッファ１４３の３タイプのバッファ
から構成される。リソース別トレースバッファ１４１は
回線単位に存在し、レイヤ処理モジュール７で採取され
たトレース情報３０を納める。共通処理モジュール別ト
レースバッファ１４２は共通処理モジュールごとに存在
し、共通処理モジュール７で採取されたトレース情報３
０を納める。出力用予備バッファ１４３は、ディスクへ
の出力時に使用する。これの使用法は、後のトレース出
力の記述で説明する。

【００４８】バッファの管理テーブル２１は、三つのバ
ッファタイプを納めた情報２２０と、そこから各々ポイ
ントされる、リソース別トレースバッファ管理情報２２
１とモジュール別トレースバッファ管理情報２２２と出
力用予備バッファ管理情報２２３からなる。リソース別
トレースバッファ管理情報２２１で意味を持つのは、回
線識別子，バッファエリアの先頭アドレス，バッファエ
リアの最終アドレス，バッファの個数，最新のトレース
の格納ポインタ，出力中フラグである。モジュール別ト
レースバッファ管理情報２２２で意味を持つのは、モジ
ュール識別子，バッファエリアの先頭アドレス，バッフ
ァエリアの最終アドレス，バッファ数，最新のトレース
の格納ポインタ，出力中フラグである。出力用予備バッ
ファ管理情報２２３で意味を持つのは、バッファエリア
の先頭アドレス，バッファエリアの最終アドレス，トレ
ースの数，バッファの長さである。各種別ごとのトレー
スバッファエリアは、回線識別子又はモジュール識別子
等に対して連続領域を使用する。

【００４９】次に、図１５によりリソース別トレース、
即ち、レイヤ処理モジュール７で採取されたトレース情
報３０を例にしてトレース格納動作（５０８）を詳しく
説明する。トレース格納手段１３は、レイヤ処理モジュ
ール７で採取されたトレース情報３０であることをモジ
ュール識別子により判定する（６０２）。次にバッファ
タイプ情報２２０のリソース別バッファからポイントさ
れたリソース別トレースバッファ管理テーブル２２１の
情報を参照する（６０４）。そして、トレース情報３０
と同じ回線識別子をもつ格納ポインタが示すアドレスを
検索し(６０６)、該当するアドレスにトレース情報３０
を格納（６０８）した後、格納ポインタを更新する（６
１０）。なお、トレース格納手段１３は、ラップアラウ
ンド方式で各トレースバッファ１４を使用する。

【００５０】次に、レイヤ以外の共通処理モジュール８
で採取するトレースについて説明する。レイヤ処理モジ
ュール７とのインタフェースで発生するイベントについ
ては、レイヤ処理モジュール７が共通処理モジュール８
への要求時にＳＡＰアドレス等の通信リソースの識別子
を付加することで、イベントとリソースとの対応が付く
トレース情報となる。しかし、ＯＳとのインタフェース
で発生するイベントには、リソースの識別子が付加でき
ないので、イベントとリソースとの対応が付かないトレ
ース情報になる。また、内部の状態変化も、同様にリソ
ースとの対応が必ずしも付かない。このようにリソース
対応が付かないものは、モジュール別トレースバッファ
１４２に収納する。なお、モジュール別トレースバッフ
ァ１４２上のトレース情報３０の型式は、リソース別バ
ッファ上のトレース情報と共通である。また、共通処理
モジュール８のトレース制御情報１７ａは、レイヤ処理
モジュール７でのトレース採取と異なり通信制御テーブ
ル３０に埋め込むことはできないので、モジュール毎に
一つずつ持つ。このトレース制御情報１７ａは、モジュ
ール識別子と採取制御フラグと詳細度情報からなる。ト
レースの格納動作は、リソースマネージャのコールをし
ないことと、モジュール識別子を検索キーとしてモジュ
ール別トレースバッファ管理テーブル２２２を参照する
こと以外リソース別トレースと同様である。

【００５１】次に、通信プログラムの障害通知手段２０
が、論理矛盾やデッドロック等のモジュール内部障害を
検知した場合、即ち、モジュール障害時のルート（２１
０−２１２−２１８−・）について説明する。

【００５２】図１６を用いて障害通知手段２０の処理を
説明する（２１０，２１２）。障害通知手段２０は、障
害を検出すると障害情報を作成する（７０２）。障害の
タイプを判定し（７０４）、モジュールの内部障害なら
ば、コンソール１へ通信処理アベンドメッセージ出力し
（７１０）、障害に関する情報をオペレータ２へ提示す
る。次に、トレース出力手段１２に障害情報を通知する
（７１２）。

【００５３】図１７を用いてトレース出力手段１２の処
理を説明する（２１８）。障害通知手段２０による障害
情報を受けた、トレース出力手段１２は（８０２）、障
害情報からアベンドであることを認識して（８０４）、
トレースバッファ１４上の全てのトレース情報３０を出
力する（８１４）。アベンドメッセージをうけたオペレ
ータ２は、ダンプ情報を採取し、トレース情報，障害情
報ともに、障害発生を保守員等に連絡する。保守員は、
障害の判定や障害の特定を、障害情報から行う（ネット
ワーク管理用ツールを補助として用いるケースもあ
る）。そして、保守員や開発者は、トレースファイル
（障害直前までのトレース履歴）やダンプ等を編集し、
その出力リストを見て障害原因の究明とその対策を行
う。

【００５４】この後、オペレータ２は、通信プログラム
をリセットして再立ち上げを行う。この際、高い詳細度
を設定し（詳細度１又は２）運用を開始する（２２
０）。以降運用では、共通処理モジュール８でのトレー
スをも採取し続ける。なお、トレースの詳細度の変更
は、次の様におこなう。オペレータ２は、トレース変更
コマンドによってトレース詳細度を指示する。図９
（ａ）はトレース変更コマンドである。オペレータは、
トレース開始又はトレース停止，回線識別子，詳細度を
指定する。回線識別子の指定により特定回線に関するト
レースの詳細度を変更することが出来る。回線識別子を
指定しないときは、全ての回線と共通処理モジュール８
に関する詳細度を変更できる。オペレータ２からのコマ
ンドを受けたコマンド処理１６は、該当するコマンドが
トレース変更コマンドであれば、トレース制御手段１０
を起動する（２０６）。トレース制御手段１０の処理を
図１８で説明する。コマンドによって起動されたトレー
ス制御手段１０（９０２）は、コマンドの各パラメータ
を解釈し（９１０）、リソースマネージャによって回線
識別子をリソース識別に変更しレイヤ制御テーブル７０
から変更すべきトレース制御情報１７ｂを識別する（９
１２）。つぎに、変更すべきトレース制御情報１７に、
オペレータの要求にしたがって、詳細度や採取フラグ等
の制御情報を書き込む（９１４）。トレース採取手段９
は、変更されたトレース制御情報１７に従ってトレース
を採取する。

【００５５】次に、障害通知手段２０が、不正データ等
のプロトコル障害を検出した場合、即ち、プロトコル障
害時のルート（２１０−２１２−２１４−２１６−・）
について説明する。特定回線に関する障害の場合、再発
監視のため、該当する回線に関するトレース詳細度を自
動的に上げる（２１４）。つまり、図１６で障害通知手
段２０が、プロトコル障害を検出すると（７０２，７０
４）、該当するリソースの識別子を障害情報に付加して
（７０６）、プロトコル障害の旨をトレース制御手段１
０に通知する（７０８）。そして、障害メッセージをコ
ンソールに出力する（７１０）。また、障害が発生した
回線に関するトレース情報のみをディスク装置３へ出力
するため、障害通知手段２０は、トレース出力手段１２
にも通知する（７１２）。

【００５６】図１８で障害通知により起動したトレース
制御手段１０（９０２）は、該当リソース識別子をリソ
ースマネージャを用いて解釈し（９０４）、対応する各
レイヤのトレース制御情報１７ｂを検索して（９０
６）、該当する詳細度をそれぞれ一つ増加する（９０
８）。図１７で障害通知により起動したトレース出力手
段１２（８０２）は、障害情報からプロトコルに関する
障害であることを認識し（８０４）、リソースマネージ
ャをコールすることで対応する回線識別子を得る（８０
６）。

【００５７】次に、回線識別子を検索キーとしてリソー
ス別トレースバッファ管理情報221からポイントされた
リソース別トレースバッファ１４１に格納されたトレー
ス情報３０をディスク装置３に出力する（８１０，２１
２）。このまえに、図１１に示したトレースバッファ管
理情報２１の出力中フラグをセットする。ディスク装置
３へのトレース出力最中にもトレース情報３０を格納す
るため、出力中フラグがセットされた管理情報にたいし
て新たに出力用予備バッファ１４３から連続エリアを割
り当てる（８０８）。そして、トレース格納手段１３
は、割り当てられた新しいエリアへトレース情報３０を
格納する。トレース出力手段１２によって、トレース情
報が出力された後のトレースバッファエリアは、出力予
備バッファ１４３にチェーンされる（８１２）。

【００５８】障害再発が無く、かつ、該当するプロトコ
ル障害の原因が自装置にないことが判明した場合や障害
対策が完了した場合、トレース負荷を減らすため、オペ
レータ指示により運用開始時のトレース詳細度に戻す
（２０６−２０８）。

【００５９】オペレータコマンドによるトレース出力に
ついても説明する。図９（ｂ）はトレース出力コマンド
である。オペレータ２は、出力するトレースの記録され
た時刻，出力する数，出力ファイル名，回線識別子，詳
細度をパラメータとして指定する。これを受けたコマン
ド処理１６は、トレース出力手段１２を起動する（２０
６）。コマンドによって起動されたトレース出力手段１
２の処理は、上記と同様に図１７の（８０８）以降の処
理を行う（２０８）。

【００６０】次に、編集出力の動作について説明する。

【００６１】開発者や保守員は、障害の原因究明，デバ
ッグ，性能解析等のために、編集コマンドを投入するこ
とで、蓄積されたトレース情報を調べやすいように編集
させてコンソール装置１や印字装置１９に出力させる。

【００６２】図５は編集コマンドのスペックである。−
ｏは、トレース対象の指定であり、回線毎のトレースを
編集する場合に回線識別子を指定し、モジュールのトレ
ースを編集するときにはモジュール識別子を指定する。
複数の対象を指定した場合、両者をマージして表示す
る。−ｐは、−ｏと同様にトレース対象の指定である
が、複数指定の場合、各々を並列に表示し、回線識別子
指定時には、各レイヤモジュールごとに並列に表示す
る。−ｔは、表示先頭のトレース情報の採取時刻であ
る。−ｎは、出力する数である。−ｆは、トレースの入
力元を指定し、ディスクを指定するときはファイル名を
指定する。ファイル名の省略時はメモリが入力元とな
る。

【００６３】図６，図７は、コマンドによってトレース
情報をコンソール上に編集出力した例である。図６は、
−ｏオプションによる画面出力例である。指定した複数
のリソースのトレース情報を記録時刻と共に、縦一列に
表示する。例えば、性能解析の用途で使用する。図７
は、−ｐオプションによる画面出力例である。あるリソ
ースを単数指定したとき、リソースに関するトレース情
報をモジュールごとに分離して表示する。例えば、不正
データ検出等のプロトコル障害時、自分に障害原因があ
るのかどうかをチェックするために使用する。

【００６４】図４は、編集手段の処理アルゴリズムであ
る。

【００６５】まず、上記のコマンドオプションパラメタ
を判定する（４０２）。つぎに、対象（回線／モジュー
ル識別子）の数だけ、トレース検索手段１５をコールす
る（４０４）。トレース検索手段１５は、トレース情報
３０のヘッダ情報と、引数として渡された時刻等のパラ
メタを比較し、該当するトレース情報３０の格納ポイン
タを記録する（４１０）。リターン値は、該当トレース
の数とその格納ポインタである。つぎに、時刻順にソー
トし、編集オプションに合わせて表示位置決定し、印刷
装置１９等に出力する（４０６）。

【００６６】

【発明の効果】通常の運用時は、初期化の際にデフォル
トとして設定される最低詳細度のトレース情報を全ての
回線に関して採取するため、システム開始から初回の障
害発生までのトレース情報をもつことができる。これに
よって、保守員や開発者は、ある程度の障害原因の究明
ができる。また、通常運用時のトレースオーバーヘッド
も少ない。なお、障害発生後は、再発監視のため自動的
に特定回線のトレース情報のみを詳細度を上げて採取す
ることができる。また、オペレータ判断により、より詳
細な障害原因を調べたい場合は、オーバーヘッドが大き
くなるが詳細度の高い値をコマンドによって指定するこ
とで、より詳細なトレース情報を採取することができ
る。これによって、障害再発時は、障害原因の究明に要
する時間の短縮が図れる。

【００６７】外部記憶装置に記録される情報が障害究明
に必要なものだけであるため、保守員等に参照されない
トレース情報ために外部記憶を不当に占有することがな
い。また、この様な無駄なトレース情報のための出力オ
ーバーヘッドがないため、トレース負荷を軽減するとい
う効果を持つ。

【図面の簡単な説明】

【図１】本発明の一実施例のシステム構成のブロック
図。

【図２】トレースの運用フローチャート。

【図３】トレース情報型式のブロック図。

【図４】トレース編集時のフローチャート。

【図５】トレース編集コマンドの説明図。

【図６】トレース編集画面その１の説明図。

【図７】トレース編集画面その２の説明図。

【図８】トレース制御情報のブロック図。

【図９】トレース制御コマンドの説明図。

【図１０】詳細度の設定例の説明図。

【図１１】エラー・トレース対応情報の説明図。

【図１２】トレースバッファのブロック図。

【図１３】トレース採取手段の処理フローチャート。

【図１４】トレース格納手段の処理フローチャート。

【図１５】トレース格納動作の詳細フローチャート。

【図１６】障害通知手段の処理フローチャート。

【図１７】トレース出力手段の処理フローチャート。

【図１８】トレース制御手段の処理フローチャート。

【符号の説明】

１…コンソール、２…オペレータ、３…ディスク装置、
４…通信処理装置、５…端末、６…回線、７…レイヤ処
理モジュール、８…共通処理モジュール、９…トレース
採取手段、１０…トレース制御手段、１１…トレース編
集手段、１２…トレース出力手段、１３…トレース格納
手段、１４…トレースバッファ、１５…トレース検索手
段、１６…コマンド処理、１７…トレース制御情報、１
８…リソースマネージャー、１９…印字装置、２０…障
害通知手段、２１…バッファ管理情報、６０…共通制御
テーブル、７０…レイヤ制御テーブル。

───────────────────────────────────────────────────── フロントページの続き (72)発明者小泉稔神奈川県川崎市麻生区王禅寺1099番地株式会社日立製作所システム開発研究所内 (72)発明者川飛達夫神奈川県横浜市戸塚区戸塚町5030番地株式会社日立製作所ソフトウェア開発本部内

Claims

【特許請求の範囲】

【請求項１】通信回線によって接続された端末や通信制
御装置から構成される通信システムで、通信障害発生時
の原因究明等に使用するため、前記端末や前記通信制御
装置の通信装置内部の通信処理プログラムの実行履歴情
報であるトレース情報として回線やコネクションの通信
リソースに関する前記トレース情報をシステムの運用中
に通信装置の内部メモリやディスクの外部記憶装置上に
蓄積し、保守員や開発者等の障害対策者に対して前記ト
レース情報を編集出力するトレース方式において、開発
者が設定した複数の詳細度と前記トレース情報との対応
関係に基づき前記通信処理プログラムの各モジュールで
発生する前記トレース情報に詳細度情報を付加し、トレ
ース制御情報に従って特定詳細度の前記トレース情報を
採取するトレース採取手段と、オペレータの指示に基づ
き前記トレース制御情報を変更するトレース情報制御手
段と、採取した前記トレース情報を格納するトレース格
納手段と、障害を検知し前記トレース情報制御手段に障
害情報を通知する障害通知手段を備え、運用開始時に
は、詳細度の低いトレース情報、即ち、通信障害原因究
明に必要最低限の前記トレース情報を採取し、障害発生
時、障害発生まで蓄積された前記トレース情報からで
は、障害原因究明時間が非常にかかる場合や障害原因の
究明が出来ない場合の障害再発監視のため、前記障害通
知手段の指示に基づきトレース制御手段が前記トレース
制御情報を以前より高い詳細度に変更することで、トレ
ース採取手段が高い詳細度の前記トレース情報を採取
し、変更された詳細度で不十分な場合は、その後のオペ
レータによるトレース制御手段への特定詳細度の指示に
基づき、通信障害原因究明に必要十分なトレース情報を
採取することを特徴とするトレース方式。
【請求項２】請求項１において、各モジュールで採取し
た前記トレース情報にリソースの識別子を付加するトレ
ース採取手段を備え、障害発生時、トレース出力手段へ
障害に関係した前記リソースの識別子を含む障害情報を
通知する障害通知手段を備え、通知された前記障害情報
に含まれた前記リソース識別子に基づき特定リソースに
関連するトレース情報のみを通信装置の内部メモリに記
憶された前記トレース情報から選択して、前記通信装置
の外部記憶手段へ出力するトレース出力手段を備えたト
レース方式。