JP3570395B2 - 故障解析情報自動採取システム及び故障解析情報自動採取プログラム - Google Patents
故障解析情報自動採取システム及び故障解析情報自動採取プログラム Download PDFInfo
- Publication number
- JP3570395B2 JP3570395B2 JP2001171813A JP2001171813A JP3570395B2 JP 3570395 B2 JP3570395 B2 JP 3570395B2 JP 2001171813 A JP2001171813 A JP 2001171813A JP 2001171813 A JP2001171813 A JP 2001171813A JP 3570395 B2 JP3570395 B2 JP 3570395B2
- Authority
- JP
- Japan
- Prior art keywords
- failure
- analysis information
- file
- message
- program
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 title claims description 306
- 238000000034 method Methods 0.000 claims description 85
- 230000008569 process Effects 0.000 claims description 85
- 238000012545 processing Methods 0.000 claims description 55
- 230000002159 abnormal effect Effects 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 14
- 235000016496 Panda oleosa Nutrition 0.000 claims description 3
- 240000000220 Panda oleosa Species 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 12
- 238000012217 deletion Methods 0.000 description 6
- 230000037430 deletion Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Debugging And Monitoring (AREA)
- Stored Programmes (AREA)
Description
【発明の属する技術分野】
この発明は、コンピュータシステムの故障発生時に、故障原因の特定と対応処理を迅速に行えるようにするための、故障解析情報自動採取システムに関する。
【0002】
【従来の技術】
従来、コンピュータシステムにおいて、故障(特にソフトウェアシステムの故障)が発生した場合の、故障原因の特定と、必要な故障解析情報の取得の作業は、一般にその都度、人手によって行われていた。
すなわち、経験の豊富なシステム開発者又はシステム運用者が、コンピュータシステムの出力メッセージをチェックすることによって、故障を特定するとともに、故障解析方法の特定化を行って、故障解析情報取得のために必要な作業の指示を行うようにしていた。
従って、故障解析情報取得作業の開始と実行が遅れることによって、必要なトレース情報がオーバーフローして取得できなくなり、そのため、同じ故障の再現を待たなければならなくなるケースが多かった。
【0003】
【発明が解決しようとする課題】
コンピュータシステムにおいては、故障発生時、故障原因を特定するとともに、対応処理を速やかに実施して、システムを復旧する必要がある。これは、情報システムが企業活動のキーとなり、高信頼性と高稼働性とが求められているためである。
また、迅速なシステム復旧のためには、故障解析情報をタイムリーに取得するとともに、取得した情報を解析部門へ速やかに引き渡すことが必要である。
さらに、システムの24時間運転を可能にするために、このようなオペレーションの自動化と省力化が求められている。
しかしながら、従来、コンピュータシステムの故障が、コンピュータの制御の中核となるオペレーションシステム(OS)以外の、従属的な位置づけのプログラムに関連する故障であっても、故障解析に必要な情報を自動的に採取することによって、故障原因の特定と対応処理とを迅速に行うことを可能にするための、故障解析情報自動採取システムは開発されていないという問題があった。
【0004】
この発明は、上述の事情に鑑みてなされたものであって、コンピュータシステムの故障発生時、故障原因の特定と対応処理とを速やかに実施するための、故障解析情報の自動採取を行うことが可能な、故障解析情報自動採取システムを提供することを目的としている。
【0005】
【課題を解決するための手段】
上記課題を解決するため、請求項1記載の発明は、故障解析情報自動採取システムに係り、コンピュータシステムにおいて故障事象が発生したとき、故障事象抽出処理によって、上記コンピュータシステムで表示するすべてのメッセージを取得し、故障メッセージIDと事前に故障メッセージID表に登録されている故障メッセージIDとを照合して、照合一致した故障メッセージIDによってパラメータファイルから当該故障事象に対応する故障解析用パラメータを取得して、故障解析情報解析処理を起動し、上記故障解析情報解析処理において、故障メッセージIDがプログラム異常終了の場合は、異常終了したプログラムを使用しているジョブの終了を待ち合わせるために故障発生情報を故障解析情報データベース内のプログラム状態管理表に登録する処理を実行し、故障メッセージIDがプログラム異常終了ダンプ取得終了の場合は、ダンプのサブファイル名を上記プログラム状態管理表のジョブ生起番号が等しい行に追加登録する処理を実行し、故障メッセージIDがジョブ異常終了の場合は、メッセージ内のジョブ生起番号で上記プログラム状態管理表を検索して故障解析情報を取得し、故障事象発生日時から故障事象発生時のメッセージ取得区間を算出して該メッセージ取得区間を起動パラメータとしてメッセージ取得処理を起動して故障期間のメッセージを解析用情報ファイルに取得し、故障解析情報データベース中のメモリダンプ表を故障プログラム名で検索してメモリダンプ情報を上記解析用情報ファイルに取得し、故障解析情報データベース中のファイルダンプ表を故障プログラム名とジョブ名で検索してファイルダンプ情報を上記解析用情報ファイルに取得する処理を実行し、故障メッセージIDが上記各異常終了以外の場合は、故障解析情報データベース中のメッセージ情報表を故障メッセージIDで検索して該故障メッセージIDに対応する故障解析情報取得プログラムのジョブ名を取りだし、故障解析情報取得プログラムの起動JCL(Job Control Language:以下略す)名を取得して指定されたJCLを起動して故障解析情報を上記解析用情報ファイルに取得し、故障事象発生日時から故障事象発生時のメッセージ取得区間を算出して該メッセージ取得区間を起動パラメータとしてメッセージ取得処理を起動して故障期間のメッセージを上記解析用情報ファイルに取得する処理を実行し、上記故障メッセージIDによって予め登録されている故障解析情報データベースを検索して故障事象ごとの故障解析情報取得処理を特定して、上記故障解析用パラメータを付加して上記特定された故障解析情報取得処理を起動し、上記故障解析情報取得処理の実行によって取得された故障解析情報を、故障事象ごとに用意されているユーティリティプログラムによって解析用情報ファイルに出力することを特徴としている。
【0006】
また、請求項2記載の発明は、請求項1記載の故障解析情報自動採取システムに係り、上記解析用情報ファイルに保持された故障解析情報を、保存用媒体にセーブして排出することを特徴としている。
【0007】
また、請求項3記載の発明は、請求項1記載の故障解析情報自動採取システムに係り、上記解析用情報ファイルに保持された故障解析情報を、TSS(Time Sharing System :以下略す)端末に出力することを特徴としている。
【0008】
また、請求項4記載の発明は、請求項1乃至3のいずれか一記載の故障解析情報自動採取システムに係り、上記解析用情報ファイルに保持されている故障解析情報のうち、保存期間が切れた故障解析情報を自動的に削除することを特徴としている。
【0009】
また、請求項5記載の発明は、請求項1記載の故障解析情報自動採取システムに係り、上記故障解析情報データベース中のメモリダンプ情報の指定を、ダンプ開始アドレスとサイズの対によって行って、取得したメモリダンプ情報を起動パラメータとしてメモリダンプ取得処理プログラムを起動してメモリダンプを上記解析用情報ファイルに取得することを特徴としている。
【0010】
また、請求項6記載の発明は、請求項1記載の故障解析情報自動採取システムに係り、上記故障解析情報データベース中のメモリダンプ情報の指定を、メモリダンプ処理プログラムの起動JCL名の指定によって行って、指定されたJCLを起動してメモリダンプを上記解析用情報ファイルに取得することを特徴としている。
【0011】
また、請求項7記載の発明は、請求項1記載の故障解析情報自動採取システムに係り、上記故障解析情報データベース中のファイルダンプ情報の指定を、ダンプファイル名とファイル種別の対によって行って、取得したファイルダンプ情報を起動パラメータとしてファイルダンプ取得処理プログラムを起動してファイルダンプを上記解析用情報ファイルに取得することを特徴としている。
【0012】
また、請求項8記載の発明は、請求項1記載の故障解析情報自動採取システムに係り、上記故障解析情報データベース中のファイルダンプ情報の指定を、ファイルダンプ処理プログラムの起動JCL名の指定によって行って、指定されたJCLを起動してファイルダンプを上記解析用情報ファイルに取得することを特徴としている。
【0013】
また、請求項9記載の発明は、請求項1乃至8のいずれか一記載の故障解析情報自動採取システムに係り、上記故障解析情報取得処理が、基本プログラムのユーティリティプログラムによって実行され、メッセージ取得処理の場合は、上記基本プログラムで取得しているメッセージログファイルから指定した区間のメッセージを抽出して上記解析用情報ファイルに出力する処理からなり、メモリダンプ取得処理の場合は、プログラム異常終了時に上記基本プログラムで取得しているメモリイメージファイル指定した区間を所定イメージに編集して上記解析用情報ファイルに出力する処理からなり、ファイルダンプ取得処理の場合は、指定したファイルを上記所定イメージに編集して上記解析用情報ファイルに出力する処理からなり、データベース用ファイルダンプ取得処理の場合は、指定したデータベースを順編成ファイルに変換し上記所定イメージに編集して上記解析用情報ファイルに出力する処理からなり、システム評価情報取得処理の場合は、上記基本プログラムで取得しているシステム性能ログファイルから指定した区間の性能データを抽出・編集して上記解析用情報ファイルに出力する処理からなり、各種トレース情報取得処理の場合は、当該プログラム及び上記基本プログラムがトレース情報として収集しているトレースファイルから指定した区間のトレースデータを抽出・編集して上記解析用情報ファイルに出力する処理からなることを特徴としている。
【0014】
また、請求項10記載の発明は、請求項9記載の故障解析情報自動採取システムに係り、上記所定イメージが、英数字カナ(ANK:以下略す)及び16進イメージであることを特徴としている。
【0015】
また、請求項11記載の発明は、故障解析情報自動採取プログラムに係り、コンピュータにおいて実行可能なプログラムであって、請求項1乃至10のいずれか一記載の故障解析情報自動採取システムの処理を遂行するプログラムからなることを特徴としている。
【0018】
この発明の故障解析情報自動採取システムでは、コンピュータシステムにおいて、故障解析情報自動採取プログラムを備えることによって、コンピュータのオペレーションシステム以外の、アプリケーションプログラム、及びミドルウェアを形成する制御プログラム等における故障発生時、故障解析のために必要な情報を自動的に採取できるようにしたので、これらにおける故障原因の特定と、故障対応の処理とを迅速に行うことができるようになる。
【0019】
【発明の実施の形態】
以下、図面を参照して、この発明の実施の形態について説明する。説明は、実施例を用いて具体的に行う。
図1は、この発明の一実施例である故障解析情報自動採取システムの構成を示すブロック図、図2は、故障事象抽出処理の流れを示すフローチャート、図3,図4は、故障解析情報解析処理の流れを示すフローチャート、図5は、解析用情報取得処理の流れを示すフローチャート、図6は、故障解析情報セーブ処理の流れを示すフローチャート、図7は、保存切れ解析情報削除処理の流れを示すフローチャート、図8は、プログラム状態管理表の内容を示す図、図9は、ファイルダンプ情報表の内容を示す図、図10は、メモリダンプ情報表の内容を示す図、図11は、メッセージ情報表の内容を示す図、図12,図13は、制御ファイル表の内容を示す図、図14は、サブファイル名の付与規則表の内容を示す図である。
【0020】
この例の故障解析情報自動採取システム10は、図1に示すように、故障事象抽出処理11と、故障解析情報解析処理12と、解析用情報取得処理13と、解析用情報ファイル(私有SYSOUT)14と、故障解析情報セーブ処理15と、保存切れ解析情報削除処理16と、保存用カートリッジ磁気テープ(CGMT)17と、故障解析情報データベース(DB)18と、パラメータファイル19と、故障メッセージID表20とから概略構成されている。なお図中、実線の矢印は制御の流れを示し、破線の矢印は、データの流れを示している。
【0021】
故障事象抽出処理11は、コンピュータシステムで表示する故障メッセージのメッセージIDを、故障メッセージID表に登録されたメッセージIDと照合して、そのメッセージが事前に登録された故障メッセージであったとき、故障メッセージからから故障解析用のパラメータを取得して、故障解析情報解析処理12を起動する。
故障解析情報解析処理12は、故障メッセージIDがプログラム異常終了の場合は故障発生情報を、プログラム異常終了ダンプ取得終了の場合はダンプファイル名を、それぞれプログラム状態管理表に登録し、ジョブ異常終了の場合は、プログラム状態管理表から故障解析情報を取得してメッセージ取得処理を起動し、メモリダンプ取得処理を起動し、ファイルダンプ取得処理を起動するとともに、これら以外の場合は、故障メッセージIDでメッセージ情報表を索引して故障解析情報取得処理を起動して、メッセージ取得処理を起動し、故障解析情報取得処理の終了を待ち合わせて、故障解析情報セーブ処理を起動する。
【0022】
解析用情報取得処理13は、オペレーションシステム(OS) の提供するユーティリティプログラムによって、メッセージ取得処理,メモリダンプ取得処理,各種故障解析情報取得処理,システム管理機能(SMF)ダンプ取得処理,トレースダンプ取得処理を実行して、結果を解析用情報ファイル14の各サブファイルに出力する。
解析用情報ファイル(私有SYSOUT)14は、解析用情報取得処理13によって出力された各種のサブファイルを、ユーザ個人の故障解析用情報として保存する。
故障解析情報セーブ処理15は、作業テープグループから空きCGMTを抽出して保存用CGMT17を確保し、解析用情報ファイル14から故障発生日時とジョブ生起番号で故障解析情報を抽出して、保存用CGMT17に出力する。そして出力終了後、保存用CGMT17をCGMTライブラリ装置から排出する。保存切れ解析情報削除処理16は、故障解析情報DB18の制御ファイル表から保存切れ日数を求めて、故障解析情報DB18のプログラム状態管理表から保存切れ故障解析情報を削除し、解析用情報ファイル14から保存切れサブファイルを削除する。
【0023】
保存用CGMT17は、CGMTライブラリ装置において、故障解析情報セーブ処理15で出力されたサブファイルを保存し、その後、CGMTライブラリ装置から排出される。
故障解析情報DB18は、故障解析情報解析処理12において必要とする、プログラム状態管理表,ファイルダンプ情報表,メモリダンプ情報表,メッセージ情報表,制御ファイル表を格納している。
パラメータファイル19は、故障解析用の各種パラメータを保持している。
故障メッセージID表20は、登録された故障メッセージのIDを保持している。
【0024】
以下、図1を参照して、この例の故障解析情報自動採取システムの動作を説明する。
コンピュータシステムにおいて、業務ソフトウェア等の実行時に故障事象101が発生して、コンピュータシステムから故障メッセージ102が出力されたときは、故障解析情報自動採取システム10において、故障事象抽出処理11によって、業務プログラムまたはOSが出力する、故障メッセージ102の故障メッセージIDと、故障メッセージID表20に事前に登録されている故障メッセージIDとを照合して、一致したとき、その故障メッセージに対応する故障解析用パラメータを、パラメータファイル19から取得して、このパラメータを付加して故障解析情報解析処理12を起動する。
次に、故障解析情報解析処理12によって、故障解析情報DB18に事前に登録されている内容を、故障メッセージIDによって検索することによって、故障事象ごとに解析用情報取得処理13を特定し、これに故障解析用パラメータを付加して、特定された解析用情報取得処理を起動する。
次に、解析用情報取得処理13によって、故障解析用情報ファイル103に故障事象ごとに予め用意されているユーティリティプログラムを用いて故障解析情報を取得して、得られた故障解析情報を解析用情報ファイル14に出力する。
そして、故障解析情報セーブ処理15によって、解析用情報ファイル14に出力された故障解析情報を、保存用CGMT17にセーブして、CGMTライブラリ装置から排出する。
また、保存切れ解析情報削除処理16によって、解析用情報ファイル14に出力された故障解析情報のうち、保存期限が切れたものを削除する。
なお、解析用情報ファイル14から、故障解析情報セーブ処理15によって保存用CGMT17に排出する代わりに、TSS(Time Sharing System )端末104に出力してもよい。
【0025】
次に、図2を参照して、故障事象抽出処理11の機能を詳細に説明する。
故障事象抽出処理11においては、コンピュータシステムから故障メッセージ102が発生したとき、コンピュータシステムで表示するすべてのメッセージを取得する(ステップS101)。そして、故障メッセージID表20を検索して(ステップS102)、入力された故障メッセージIDが、故障メッセージID表20に事前に登録されているものか否かを順次照合する。検索結果(ステップS103)、該当する故障メッセージIDが未発見の場合は、ステップS101に戻って故障メッセージの照合を続ける。
検索結果、該当する故障メッセージIDが発見されたときは、故障メッセージ102から、パラメータファイル19を参照して故障解析用のパラメータを取得して(ステップS104)、故障解析情報解析処理13を起動する(ステップS105)。表示されたメッセージが登録メッセージでない場合は、これを無視する。
【0026】
次に、図3,図4を参照して、故障解析情報解析処理12の機能を詳細に説明する。
故障事象抽出処理11によって、故障解析情報解析処理12が起動されたときは、故障事象抽出処理11で抽出された故障メッセージIDに対応して、以下の各処理に振り分ける(ステップS201)。
まず、故障メッセージIDがプログラム異常終了であった場合は、故障発生情報(故障事象発生日時,該当ジョブ名,ジョブ生起番号(ジョブをアクセスするためのキー情報),プログラム名)を、故障解析情報DB18内のプログラム状態管理表181に登録して(ステップS202)、異常終了したプログラムを使用しているジョブの終了を待ち合わせる。
また、故障メッセージIDがプログラム異常終了ダンプ取得終了であった場合は、ダンプのサブファイル名を故障解析情報DB18内のプログラム状態管理表181のジョブ生起番号が等しい行に追加登録して(ステップS203)、異常終了したプログラムを使用しているジョブの終了を待ち合わせる。
【0027】
また、故障メッセージIDがジョブ異常終了であった場合は、故障メッセージ内のジョブ生起番号によってプログラム状態管理表181を検索して、故障解析情報(故障事象発生日時,ジョブ名,ジョブ生起番号(ジョブをアクセスするためのキー情報),プログラム名,プログラム異常終了ダンプのサブファイル名)を取得して(ステップS204)、以下の処理を行う。検索結果、故障解析情報がない場合は無視する。
【0028】
まず、故障事象発生日時から故障事象発生時のメッセージ取得区間を算出し、メッセージ取得区間を起動パラメータとしてメッセージ取得処理を起動して(ステップS205)、メッセージ取得処理131(図5)によって、故障期間のメッセージを解析用情報ファイル14のサブファイルに取得する。
次に、メモリダンプ取得処理を起動し(ステップS206)、メッセージダンプ取得処理132(図5)によって、故障解析情報DB18の中のメモリダンプ情報表183を故障プログラム名で検索して、メモリダンプ情報を取得する。検索結果、メモリダンプ情報がない場合は、メモリダンプの取得を行わない。
この際、メモリダンプ情報の指定には2つの形式がある。1つの形式は、ダンプ開始アドレスとサイズとの対を指定する形式である。この場合は、取得したメモリダンプ情報を起動パラメータとして、メモリダンプ取得処理プログラムを起動して、メモリダンプを解析用情報ファイル14のサブファイルに取得する。
もう1つの形式は、取得範囲を細かく指定可能にするために、メモリダンプ取得処理プログラムの起動JCL(Job Control Language)名を指定する形式である。この場合は、指定されたJCLを起動して、メモリダンプを解析用情報ファイル14のサブファイルに取得する。
【0029】
次に、ファイルダンプ取得処理を起動し(ステップS207)、各種故障解析情報取得処理134(図5)のうちのファイルダンプ取得処理134Aによって、故障解析情報DB18の中のファイルダンプ情報表182を、故障プログラム名とジョブ名とで検索して、ファイルダンプ情報を取得する。検索結果、ファイルダンプ情報がない場合は、ファイルダンプの取得を行わない。
この際、ファイルダンプ情報の指定には2つの形式がある。1つの形式は、ダンプファイル名とファイル種別の対を指定する形式である。この場合は、取得したファイルダンプ情報を起動パラメータとして、ファイルダンプ取得処理プログラムを起動して、ファイルダンプを解析用情報ファイル14のサブファイルに取得する。
もう1つの形式は、取得範囲を細かく指定可能にするために、ファイルダンプ処理プログラムの起動JCL名を指定する形式である。この場合は、指定されたJCLを起動して、ファイルダンプを解析用情報ファイル14に取得する。
【0030】
故障メッセージIDが、プログラム異常終了,プログラム異常終了ダンプ取得終了,ジョブ異常終了以外の故障メッセージの場合は、故障解析情報DB18の中のメッセージ情報表184を故障メッセージIDで検索し、故障メッセージIDごとの故障解析情報取得処理を起動して(ステップS208)、各種故障解析情報取得処理134(図5)のうちの故障情報ごとの個々の故障解析情報取得処理134Bを実行する。この場合は、故障メッセージIDに対応する故障解析情報取得処理プログラムのジョブ名を取り出して、故障解析情報取得処理プログラムの起動JCL名を指定し、指定されたJCLを起動して、故障解析情報を解析用情報ファイル14に取得する。検索結果、メッセージIDがない場合は、故障解析用情報の取得を行わない。
【0031】
次に、故障事象発生日時から故障事象発生時のメッセージ取得区間を算出して、メッセージ取得区間を起動パラメータとしてメッセージ取得処理を起動し(ステップS209)、メッセージ取得処理131(図5)によって、故障期間のメッセージを解析用情報ファイル14のサブファイルに取得する。
次に、上記ステップS204乃至S209で起動した故障解析情報取得処理の終了を待ち合わせて、すべての故障解析情報取得処理が終了したとき、故障解析情報セーブ処理を起動して(ステップS210)、故障解析情報セーブ処理15(図6)を実行する。
【0032】
次に、図5を参照して、解析用情報取得処理13の機能を詳細に説明する。
解析用情報取得処理13は、下記のようなユーティリティプログラムとして、OSの一環として提供されるものである。
メッセージ取得処理131においては、OSで取得している故障解析用情報ファイル103中のメッセージログファイル1031から、指定した区間のメッセージを抽出して、解析用情報ファイル14のメッセージプリントサブファイル141に出力する。
メモリダンプ取得処理132においては、プログラム異常終了時に、OSで取得しているメモリイメージファイル(アボートダンプファイル1032)から、指定した区間を英数字カナ(ANK)と16進イメージに編集して、解析用情報ファイル14のメモリダンプサブファイル142に出力する。
システム評価情報(SMF)ダンプ取得処理133においては、OSで取得しているシステム性能ログ(SMF)ファイル1033から、指定した区間の性能データを抽出・編集して、解析用情報ファイル14のSMFダンプサブファイル143に出力する。
【0033】
各種故障解析情報取得処理134においては、ファイルダンプ取得処理として、OSで取得している各種ファイル1034における指定したファイルを、ANK及び16進イメージに編集して、解析用情報ファイル14のファイルダンプ用サブファイル144に出力する。また、データベース用のファイルダンプ取得処理として、OSで取得している各種ファイル1034における指定したデータベースを、一旦、順編成ファイルに変換して、ANK及び16進イメージに編集して、解析用情報ファイル14のファイルダンプサブファイル144に出力する。トレースダンプ取得処理135においては、OS及びプログラムがトレース情報として収集している各種トレースファイル1035から、指定した区間のトレースデータを抽出・編集して、解析用情報ファイル14のトレースダンプサブファイル145に出力する。なお、トレース抽出・編集プログラムは、このトレースを収集するプログラムの支援プログラムとして提供される。
【0034】
次に、図6を参照して、故障解析情報セーブ処理15の機能を詳細に説明する。
故障解析情報セーブ処理15の開始時、図示されないCGMTライブラリ装置における作業テープグループから空きCGMTを抽出して(ステップS301)、保存用CGMT17とする。
次に、故障解析情報解析処理12のジョブ異常終了の場合、及びプログラム異常終了,異常終了ダンプ取得終了,ジョブ異常終了以外の故障メッセージの場合に作成した故障解析情報のサブファイル(メッセージプリントサブファイル141,メモリダンプサブファイル142,SMFサブファイル143,ファイルダンプサブファイル144,トレースダンプサブファイル145)を、解析用情報ファイル14から抽出して、ステップS301で確保した保存用CGMT17に、1サブファイルを1ファイルとして出力する(ステップS302)。この場合の抽出条件は、サブファイル名に埋め込まれている「ジョブ生起番号」又は「故障発生日時」である。なお、サブファイル名の付与条件を、後述する図12,図13の制御ファイル表に示す。
そして、ファイル出力後に、保存用CGMT17をCGMTライブラリ装置から排出する(ステップS303)。
【0035】
次に、図7を参照して、保存切れ解析情報削除処理16の機能を、詳細に説明する。
保存切れ解析情報削除処理16においては、まず、故障解析情報DB18の制御ファイル表185から、故障解析情報の保存日数を取り出して、当日から保存日数を差し引いて保存切れ日時を求める(ステップS401)。
次に、故障解析情報DB18のプログラム状態管理表181から、故障発生日時が保存切れとなっている故障解析情報を抽出して削除する(ステップS402)。
次に、解析用情報ファイル14から、サブファイル作成日時が保存切れになっている故障解析情報のサブファイル(メッセージプリントサブファイル141,メモリダンプサブファイル142,SMFサブファイル143,ファイルダンプサブファイル144,トレースダンプサブファイル145)を削除する(ステップS403)。
【0036】
以下、この例の故障解析情報自動採取システムにおいて使用する各種表について説明する。
上記した、プログラムの故障事象情報を格納している、故障解析情報DB18のプログラム状態管理表181は、図8に例示する内容を有している。このプログラム状態管理表181は、故障が発生したプログラムの名称,故障発生日時等を管理しているものである。
【0037】
また、ファイルダンプ情報及びDBダンプ情報を格納している、故障解析情報DB18のファイルダンプ情報表182は、図9に例示する内容を有している。このファイルダンプ情報表182は、故障発生時に採取するファイル名及びデータベース名等を管理している。
【0038】
また、プログラムのメモリダンプ情報を格納している、故障解析情報DB18のメモリダンプ情報表183は、図10に例示する内容を有している。このメモリダンプ情報表183は、故障発生時に採取するメモリ領域情報を管理している。
【0039】
また、故障解析情報取得対象メッセージID情報を格納している、故障解析情報DB18のメッセージ情報表184は、図11に例示する内容を有している。このメッセージ情報表184は、故障解析情報の自動採取の契機となるメッセージIDと採取する故障解析情報等を管理している。
【0040】
また、故障解析情報自動採取システムの制御情報を格納している故障解析情報DB18の制御ファイル表185は、図12,図13に例示する内容を有している。この制御ファイル表185は、この例の故障解析情報自動採取システムの制御に必要なパラメータ情報を管理している。
【0041】
この例の故障解析情報自動採取システムにおいて取得する故障解析情報の格納サブファイル名の付与基準は、図14に示す、サブファイル名の付与規則表186によって例示される。このサブファイル名の付与規則表186は、故障解析情報を採取した情報を保持するサブファイルに対する、サブファイル名の付与規則をまとめたものである。
【0042】
このように、この例の故障解析情報自動採取システムでは、故障事象の発生時、故障メッセージに応じて、故障事象抽出処理によって解析すべき事象の特定と解析用パラメータの取得と、故障解析情報解析処理の起動とを行い、故障解析情報解析処理によって、故障解析情報の特定と、故障事象に対応する解析用情報取得処理の起動とを行い、解析用情報取得処理によって、故障事象ごとに故障解析事象を取得して解析用情報ファイルに出力し、故障解析事象セーブ処理によって、解析用情報ファイルに出力した故障解析情報を保存CGMTにセーブして排出するようにしたので、故障事象の発生時、故障原因の特定と故障解析情報の取得処理を迅速に実行することができるようになる。
【0043】
以上、この発明の実施例を図面により詳述してきたが、具体的な構成はこの実施例に限られたものではなく、この発明の要旨を逸脱しない範囲の設計の変更等があってもこの発明に含まれる。例えば、上記の実施例では、解析用情報ファイル14の故障解析情報を保存用CGMT17にセーブして排出することによって、爾後の故障解析を行うものとしたが、これに限るものでなく、解析用情報ファイル14からTSS端末104に出力することによって、コンピュータシステムをタイムシェアリングで利用して、故障解析を行うこともできる。TSS端末104としては、プリンタ装置,キャラクタディスプレイ装置,グラフィックディスプレイ装置等を利用できる。
この発明の故障解析情報自動採取システムは、中央処理装置(CPU)と、CPUの作業領域となるRAM(Random Access Memory)と、プログラムおよび各種データベースを格納したHDD(Hard Disc Drive )と、入出力部等とを備えたコンピュータシステムにおいて、CPUが、HDDに予め格納されている故障解析情報自動採取処理のための故障解析情報自動採取プログラムを読み出して実行することによって実現される。
【0044】
【発明の効果】
以上、説明したように、この発明によれば、コンピュータシステムにおいて、故障解析情報自動採取システムを備えることによって、コンピュータシステムにおける中核となるプログラム以外の、アプリケーションプログラムやミドルウェアを形成する制御プログラム等のような、従属的な位置付けを持つソフトウェアシステムに関連する故障の発生時、故障解析情報を自動的に採取するので、故障発生時に爾後の故障解析に必要となる情報をタイムリーにかつ迅速に取得することができ、従って、故障原因の特定と故障対応の処理とを迅速に実行することができるようになる。
また、このような故障解析情報の取得を自動的に行うことができるので、コンピュータシステムの運転の自動化と、コンピュータシステムのオペレーションの省力化が可能になる。
【図面の簡単な説明】
【図1】本発明の一実施例である故障解析情報自動採取システムの構成を示すブロック図である。
【図2】故障事象抽出処理の流れを示すフローチャートである。
【図3】故障解析情報解析処理の流れを示すフローチャートである。
【図4】故障解析情報解析処理の流れを示すフローチャートである。
【図5】解析用情報取得処理の流れを示すフローチャートである。
【図6】故障解析情報セーブ処理の流れを示すフローチャートである。
【図7】保存切れ解析情報削除処理の流れを示すフローチャートである。
【図8】プログラム状態管理表の内容を示す図である。
【図9】ファイルダンプ情報表の内容を示す図である。
【図10】メモリダンプ情報表の内容を示す図である。
【図11】メッセージ情報表の内容を示す図である。
【図12】制御ファイル表の内容を示す図である。
【図13】制御ファイル表の内容を示す図である。
【図14】サブファイル名の付与規則表の内容を示す図である。
【符号の説明】
10 故障解析情報自動採取システム
11 故障事象抽出処理
12 故障解析事象解析処理
13 解析用情報取得処理
14 解析用情報ファイル
15 故障解析情報セーブ処理
16 保存切れ解析情報削除処理
17 保存用CGMT(保存用媒体)
18 故障解析情報データベース(DB)
19 パラメータファイル
20 故障メッセージID表
181 プログラム状態管理表
182 ファイルダンプ情報表
183 メモリダンプ情報表
184 メッセージ情報表
186 制御ファイル表
186 サブファイル名の付与規則表
Claims (11)
- コンピュータシステムにおいて故障事象が発生したとき、故障事象抽出処理によって、前記コンピュータシステムで表示するすべてのメッセージを取得し、故障メッセージIDと事前に故障メッセージID表に登録されている故障メッセージIDとを照合して、照合一致した故障メッセージIDによってパラメータファイルから当該故障事象に対応する故障解析用パラメータを取得して、故障解析情報解析処理を起動し、
前記故障解析情報解析処理において、故障メッセージIDがプログラム異常終了の場合は、異常終了したプログラムを使用しているジョブの終了を待ち合わせるために故障発生情報を故障解析情報データベース内のプログラム状態管理表に登録する処理を実行し、
故障メッセージIDがプログラム異常終了ダンプ取得終了の場合は、ダンプのサブファイル名を前記プログラム状態管理表のジョブ生起番号が等しい行に追加登録する処理を実行し、
故障メッセージIDがジョブ異常終了の場合は、メッセージ内のジョブ生起番号で前記プログラム状態管理表を検索して故障解析情報を取得し、故障事象発生日時から故障事象発生時のメッセージ取得区間を算出して該メッセージ取得区間を起動パラメータとしてメッセージ取得処理を起動して故障期間のメッセージを解析用情報ファイルに取得し、故障解析情報データベース中のメモリダンプ表を故障プログラム名で検索してメモリダンプ情報を前記解析用情報ファイルに取得し、故障解析情報データベース中のファイルダンプ表を故障プログラム名とジョブ名で検索してファイルダンプ情報を前記解析用情報ファイルに取得する処理を実行し、
故障メッセージIDが前記各異常終了以外の場合は、故障解析情報データベース中のメッセージ情報表を故障メッセージIDで検索して該故障メッセージIDに対応する故障解析情報取得プログラムのジョブ名を取りだし、故障解析情報取得プログラムの起動JCL(Job Control Language:以下略す)名を取得して指定されたJCLを起動して故障解析情報を前記解析用情報ファイルに取得し、故障事象発生日時から故障事象発生時のメッセージ取得区間を算出して該メッセージ取得区間を起動パラメータとしてメッセージ取得処理を起動して故障期間のメッセージを前記解析用情報ファイルに取得する処理を実行し、
前記故障メッセージIDによって予め登録されている故障解析情報データベースを検索して故障事象ごとの故障解析情報取得処理を特定して、前記故障解析用パラメータを付加して前記特定された故障解析情報取得処理を起動し、
前記故障解析情報取得処理の実行によって取得された故障解析情報を、故障事象ごとに用意されているユーティリティプログラムによって解析用情報ファイルに出力することを特徴とする故障解析情報自動採取システム。 - 前記解析用情報ファイルに保持された故障解析情報を、保存用媒体にセーブして排出することを特徴とする請求項1記載の故障解析情報自動採取システム。
- 前記解析用情報ファイルに保持された故障解析情報を、TSS(Time Sharing System :以下略す)端末に出力することを特徴とする請求項1記載の故障解析情報自動採取システム。
- 前記解析用情報ファイルに保持されている故障解析情報のうち、保存期間が切れた故障解析情報を自動的に削除することを特徴とする請求項1乃至3のいずれか一記載の故障解析情報自動採取システム。
- 前記故障解析情報データベース中のメモリダンプ情報の指定を、ダンプ開始アドレスとサイズの対によって行って、取得したメモリダンプ情報を起動パラメータとしてメモリダンプ取得処理プログラムを起動してメモリダンプを前記解析用情報ファイルに取得することを特徴とする請求項1記載の故障解析情報自動採取システム。
- 前記故障解析情報データベース中のメモリダンプ情報の指定を、メモリダンプ処理プログラムの起動JCL名の指定によって行って、指定されたJCLを起動してメモリダンプを前記解析用情報ファイルに取得することを特徴とする請求項1記載の故障解析情報自動採取システム。
- 前記故障解析情報データベース中のファイルダンプ情報の指定を、ダンプファイル名とファイル種別の対によって行って、取得したファイルダンプ情報を起動パラメータとしてファイルダンプ取得処理プログラムを起動してファイルダンプを前記解析用情報ファイルに取得することを特徴とする請求項1記載の故障解析情報自動採取システム。
- 前記故障解析情報データベース中のファイルダンプ情報の指定を、ファイルダンプ処理プログラムの起動JCL名の指定によって行って、指定されたJCLを起動してファイルダンプを前記解析用情報ファイルに取得することを特徴とする請求項1記載の故障解析情報自動採取システム。
- 前記故障解析情報取得処理が、前記基本プログラムのユーティリティプログラムによって実行され、
メッセージ取得処理の場合は、前記基本プログラムで取得しているメッセージログファイルから指定した区間のメッセージを抽出して前記解析用情報ファイルに出力する処理からなり、
メモリダンプ取得処理の場合は、プログラム異常終了時に前記基本プログラムで取得しているメモリイメージファイル指定した区間を所定イメージに編集して前記解析用情報ファイルに出力する処理からなり、
ファイルダンプ取得処理の場合は、指定したファイルを前記所定イメージに編集して前記解析用情報ファイルに出力する処理からなり、
データベース用ファイルダンプ取得処理の場合は、指定したデータベースを順編成ファイルに変換し前記所定イメージに編集して前記解析用情報ファイルに出力する処理からなり、
システム評価情報取得処理の場合は、前記基本プログラムで取得しているシステム性能ログファイルから指定した区間の性能データを抽出・編集して前記解析用情報ファイルに出力する処理からなり、
各種トレース情報取得処理の場合は、当該プログラム及び前記基本プログラムがトレース情報として収集しているトレースファイルから指定した区間のトレースデータを抽出・編集して前記解析用情報ファイルに出力する処理からなることを特徴とする請求項1乃至8のいずれか一記載の故障解析情報自動採取システム。 - 前記所定イメージが、英数字カナ(ANK:以下略す)及び16進イメージであることを特徴とする請求項9記載の故障解析情報自動採取システム。
- コンピュータにおいて実行可能なプログラムであって、請求項1乃至10のいずれか一記載の故障解析情報自動採取システムの処理を遂行するプログラムからなることを特徴とする故障解析情報自動採取プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001171813A JP3570395B2 (ja) | 2001-06-06 | 2001-06-06 | 故障解析情報自動採取システム及び故障解析情報自動採取プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001171813A JP3570395B2 (ja) | 2001-06-06 | 2001-06-06 | 故障解析情報自動採取システム及び故障解析情報自動採取プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002366396A JP2002366396A (ja) | 2002-12-20 |
JP3570395B2 true JP3570395B2 (ja) | 2004-09-29 |
Family
ID=19013521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001171813A Expired - Fee Related JP3570395B2 (ja) | 2001-06-06 | 2001-06-06 | 故障解析情報自動採取システム及び故障解析情報自動採取プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3570395B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008182650A (ja) * | 2007-01-26 | 2008-08-07 | Fuji Xerox Co Ltd | 画像形成装置及びプログラム |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4286695B2 (ja) * | 2004-03-26 | 2009-07-01 | 富士通株式会社 | エラー訂正支援プログラムおよびその記録媒体、エラー訂正支援装置ならびにエラー訂正支援方法 |
JP4478196B2 (ja) * | 2006-02-28 | 2010-06-09 | 富士通株式会社 | 監視装置、監視プログラム、および情報処理システム |
JP2007293699A (ja) * | 2006-04-26 | 2007-11-08 | Toshiba Corp | プログラム異常動作時における解析用データ取得装置及びプログラム |
WO2011051999A1 (ja) * | 2009-10-26 | 2011-05-05 | 富士通株式会社 | 情報処理装置及び情報処理装置の制御方法 |
CN114661513B (zh) * | 2022-04-18 | 2024-01-23 | 广州菩润信息科技有限公司 | 分布式多源数据的采集方法、系统、设备及存储介质 |
-
2001
- 2001-06-06 JP JP2001171813A patent/JP3570395B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008182650A (ja) * | 2007-01-26 | 2008-08-07 | Fuji Xerox Co Ltd | 画像形成装置及びプログラム |
JP4636029B2 (ja) * | 2007-01-26 | 2011-02-23 | 富士ゼロックス株式会社 | 画像形成装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2002366396A (ja) | 2002-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8315982B2 (en) | Method, apparatus, program and system for migrating NAS system | |
US20080005189A1 (en) | Computer readable recording medium having stored therein database synchronizing process program, and apparatus for and method of performing database synchronizing process | |
JP2005108133A (ja) | 複製データの管理方法、装置、及びプログラム | |
JP2003150594A (ja) | データウェアハウスシステム | |
EP3788505B1 (en) | Storing data items and identifying stored data items | |
CN108334675B (zh) | 数字飞行器工况集批量仿真的人工智能处理方法及系统 | |
CN114968966A (zh) | 分布式元数据远程异步复制方法、装置和设备 | |
JP3570395B2 (ja) | 故障解析情報自動採取システム及び故障解析情報自動採取プログラム | |
JP2006338197A (ja) | トランザクション制御プログラム、トランザクション制御方法及びトランザクション処理システム | |
JP3985430B2 (ja) | データベース管理装置及び方法 | |
JP2003280963A (ja) | 文書管理システム、復旧方法、復旧を実行させるためのプログラム、該プログラムを記録した記録媒体 | |
JP2010152707A (ja) | データベースのバックアップ方法及びデータベースシステム | |
JP2000048024A (ja) | 構造化文書処理装置 | |
JP2007193408A (ja) | 文書管理システムにおけるディスク運用制御方法 | |
CN112947991A (zh) | 版本差异代码文件的获取方法、装置、计算机设备和介质 | |
JP4373029B2 (ja) | 文書管理装置及び文書管理方法並びに記録媒体 | |
JP2013191012A (ja) | 計算機ログ収集システム及び着脱式ログ記憶デバイス | |
JP2005301465A (ja) | ソフトウェア資産管理方法およびシステム | |
JP4410754B2 (ja) | ファイルバックアップシステム及び方法 | |
JP3725087B2 (ja) | 知識情報収集システムおよび知識情報収集方法 | |
JP3708893B2 (ja) | 知識情報収集システムおよび知識情報収集方法 | |
CN111930814B (zh) | 一种基于etl系统的文件事件的调度方法和etl系统 | |
CN113515362B (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
JP4212539B2 (ja) | ファイル格納位置情報管理システムと方法およびそのプログラム | |
US8190589B2 (en) | System and method for controlling access to a document being edited |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040302 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040506 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040601 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040614 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |