JP4478196B2

JP4478196B2 - 監視装置、監視プログラム、および情報処理システム

Info

Publication number: JP4478196B2
Application number: JP2008502580A
Authority: JP
Inventors: 航輔加藤
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2006-02-28
Filing date: 2006-02-28
Publication date: 2010-06-09
Anticipated expiration: 2026-02-28
Also published as: WO2007099593A1; JPWO2007099593A1; US20090013075A1; US7925745B2

Description

本発明は、情報処理装置の動作を監視する監視装置、コンピュータをそのような監視装置として動作させる監視プログラム、および情報処理装置とその情報処理装置の動作を監視する監視装置からなる情報処理システムに関する。

クライアント・サーバシステム全体を統括的に管理するサーバとして近年市場に提供されているものの中に、サーバ機能を有する情報処理装置とその情報処理装置の状態を常時監視する監視装置とが１つの筐体に搭載されてなるサーバシステムがある（例えば、非特許文献１参照。）。

このようなサーバシステムでは、情報処理装置は、自機において故障が発生すると、サーバシステムに搭載の監視装置に故障発生を通知する。監視装置は、その通知を受けて、例えば故障発生時の情報処理装置内の各部分の動作状態を表わす様々なサブデータを、その情報処理装置内の各所にアクセスして採取する。そして、監視装置は、採取した複数のサブデータの組を、故障発生時の情報処理装置の装置状態を表わす状態データとして監視装置内の所定の格納領域に格納する。

ここで、情報処理装置は、そのクライアント・サーバシステムをなるべく継続的に管理するために、自機において故障が発生しても動き続けることができるように設計されていることが多い。そして、情報処理装置において故障が複数回発生すると、監視装置は、故障発生の度に情報処理装置から状態データを採取して格納することとなる。そして、定期的なメンテナンスの際等に、その時点までに格納された状態データが解析される。そのときに、例えば、処理能力の大幅な低下やサーバダウンに繋がるような状態の箇所が見つかった場合には、その箇所を修理する、あるいは新品と交換する等といった処置が採られる。

ところで、従来、上記のような監視装置における状態データの格納については、以下に一例を示す単純な格納方法が採用されていることが多い。

図１３は、監視装置における状態データに対する従来の格納方法の一例を示す図である。

この図１３に示す格納領域８００は、各々１個の状態データが格納される互いに同じサイズのＮ個の区画に区分けされている。

各区画には、＃１，＃２，＃３，…，＃Ｎというように番号が振られており、故障発生の度に監視装置において採取される状態データは、若い番号に対応する区画から順次に格納される。また、このとき状態データには、ログ１，ログ２，ログ３，…，ログＮというように通し番号が振られる。

図１３のパート（ａ）には、全区画が空いている状態が示され、図１３のパート（ｂ）には、１個の状態データが格納された状態が示され、図１３のパート（ｃ）には、Ｎ個の区画全てに状態データが格納された状態が示され、図１３のパート（ｄ）には、図１３のパート（ｃ）に示す状態に続いてＮ＋１個目の状態データが格納された状態が示されている。図１３のパート（ｄ）に示すように、この格納領域８００の最大格納数であるＮ個を超えて採取されたＮ＋１個目の状態データＪ_Ｎ＋１は、１個目の状態データＪ_１の上に上書きされる。同様に、Ｎ＋２個目の状態データは、２個目の状態データの上に上書きされ、Ｎ＋３個目の状態データは、３個目の状態データの上に上書きされる。
"ＰＲＩＭＥＰＯＷＥＲ（登録商標）とＰＲＩＭＥＣＬＵＳＴＥＲ（登録商標）が織り成す高信頼・高可用ソリューション"、［ｏｎｌｉｎｅ］、２００５年１月１１日、富士通株式会社、［２００６年２月１日検索］、インターネット＜ＵＲＬ：ｈｔｔｐ：／／ｐｒｉｍｅｒｓｅｒｖｅｒ．ｆｕｊｉｔｓｕ．ｃｏｍ／ｐｒｉｍｅｐｏｗｅｒ／ｎｅｗｓ／ａｒｔｉｃｌｅ／０５／０１１１／

このようなデータの上書きを前提とした格納方法では、処理能力の大幅な低下やサーバダウンに繋がるような故障に関連して採取された状態データが、その後に採取された状態データによって上書きされて失われてしまい、メンテナンスの際等に、そのような重大な故障が見過ごされてしまう恐れがある。

このような事態が生じることを抑制して、メンテナンスの際等における故障発見の確度を高めるために、例えば、上記のような区画をなるべく多く備えた大容量の格納領域を用意しておくことで上書きの頻度を抑えるという方法が考えられる。しかしながら、そのような大容量の格納領域を用意することには、コストの上昇や設置スペースの増加等といった問題がある。

尚、ここまで、クライアント・サーバシステムにおけるサーバ機能を有する情報処理装置の動作を監視する監視装置を例に挙げて、故障が見過ごされる恐れがあるという問題について説明したが、このような問題は、クライアント・サーバシステムに限るものではなく、何らかの情報処理装置から得た状態データをメモリに格納する際には一般的に生じうる問題である。

本発明は、上記事情に鑑み、情報処理装置における故障を高い確度で発見することができる監視装置と、コンピュータをそのような監視装置として動作させる監視プログラムと、情報処理装置における故障を高い確度で発見することができる情報処理システムとを提供することを目的とする。

上記目的を達成する本発明の監視装置は、所定の情報処理動作を実行しその情報処理動作の実行中に故障が発生すると故障発生を通知する情報処理装置の動作を監視する監視装置において、
上記情報処理装置による故障発生の通知を受けて、その情報処理装置からその情報処理装置の装置状態を表わす状態データを取り出すデータ取出部と、
上記通知に対応する故障を、互いに重篤度が異なる複数の故障タイプのうち、その故障の重篤度に対応する故障タイプに分類する故障分類部と、
上記データ取出部が取り出した状態データを、上記複数の故障タイプそれぞれに対応する複数の格納領域のうち、上記故障分類部によって分類された故障タイプに対応する格納領域に格納するデータ格納部とを備えたことを特徴とする。

上記のような情報処理装置において発生する故障の中には、処理能力の大幅な低下やサーバダウンに繋がり、メンテナンス時などに詳細な故障解析が必要となる重篤度の高い故障の他に、実質的な被害がほとんど無く、原因もほぼ明らかで故障解析が省略される重篤度の低い故障もある。そして、重篤度の高い故障の発生頻度は、一般的に、重篤度の低い故障の発生頻度に比べて低いことが多い。本発明の監視装置によれば、重篤度の低い頻発する故障について得られる、数が多くて上書きの頻度が高い状態データが、なるべく上書きを避けたい、重篤度の高い故障について得られる状態データとは別の格納領域に格納される。これにより、このような重篤度の高い故障について得られる状態データの保護性が高まるので、後日のメンテナンスの際等に、このような状態データに基いて、情報処理装置における故障を高い確度で発見することができる。

ここで、本発明の監視装置において、「上記データ取出部が、上記状態データとして、上記情報処理装置を構成する複数の構成部品それぞれの部品状態を表わす複数のサブデータの組をその情報処理装置から取り出すものであり、
上記データ格納部が、上記データ取出部が取り出した状態データを上記格納領域に格納する時には、その状態データを構成する複数のサブデータそれぞれを、その格納領域中の、互いに異なるデータサイズに対応した複数の格納部分のうち、そのサブデータのデータサイズに対応した格納部分に格納するものである」という形態は好ましい形態である。

この好ましい形態の監視装置によれば、上記格納領域内を、上記サブデータのデータサイズに応じて有効に利用することで、その格納領域内における無駄な未使用領域の発生を抑制して、その格納領域の広さを十分に生かすことができる。これにより、上記サブデータをなるべく多く、延いては上記状態データをなるべく多く格納することができ、その結果、この格納領域における上書き発生の頻度が抑制されるので、この格納領域内の状態データに対する保護性を一層高めることができる。

また、本発明の監視装置において、「上記データ取出部が、上記状態データとして、上記情報処理装置を構成する複数の構成部品それぞれの部品状態を表わす複数のサブデータの組をその情報処理装置から取り出すものであり、
上記データ格納部が、上記データ取出部が取り出した状態データを上記格納領域に格納する時には、その状態データを構成する複数のサブデータそれぞれを、その格納領域中の、互いに異なるデータサイズに対応した複数の格納部分のうち、そのサブデータのデータサイズに対応した格納部分に格納するものであり、
上記格納部分の広さを操作に応じた広さに変更することで、その格納部分における上記サブデータに対する最大格納数を変更する変更部を備えた」という形態も好ましい。

この好ましい形態の監視装置によれば、例えば、上記変更部によって所望の格納部分の広さを広げ、その格納部分における上記サブデータに対する最大格納数を増やすことで上書き発生の頻度を抑制して保護性を高めることができる。

また、上記目的を達成する本発明の監視プログラムは、コンピュータに組み込まれ、そのコンピュータに、所定の情報処理動作を実行しその情報処理動作の実行中に故障が発生すると故障発生を通知する情報処理装置の動作を監視させる監視プログラムにおいて、
そのコンピュータ上に、
上記情報処理装置による故障発生の通知を受けて、その情報処理装置からその情報処理装置の装置状態を表わす状態データを取り出すデータ取出部と、
上記通知に対応する故障を、互いに重篤度が異なる複数の故障タイプのうち、その故障の重篤度に対応する故障タイプに分類する故障分類部と、
上記データ取出部が取り出した状態データを、上記複数の故障タイプそれぞれに対応する複数の格納領域のうち、上記故障分類部によって分類された故障タイプに対応する格納領域に格納するデータ格納部とを構築することを特徴とする。

本発明の監視プログラムによれば、情報処理装置における故障を高い確度で発見することができる監視装置を容易に実現することができる。

また、上記目的を達成する本発明の情報処理システムは、所定の情報処理動作を実行しその情報処理動作の実行中に故障が発生すると故障発生を通知する情報処理装置；および、
上記情報処理装置による故障発生の通知を受けて、その情報処理装置からその情報処理装置の装置状態を表わす状態データを取り出すデータ取出部と、
上記通知に対応する故障を、互いに重篤度が異なる複数の故障タイプのうち、その故障の重篤度に対応する故障タイプに分類する故障分類部と、
上記データ取出部が取り出した状態データを、上記複数の故障タイプそれぞれに対応する複数の格納領域のうち、上記故障分類部によって分類された故障タイプに対応する格納領域に格納するデータ格納部とを備えた監視装置；
とを備えたことを特徴とする。

本発明の情報処理システムによれば、情報処理装置における故障を高い確度で発見することができる。

尚、本発明の監視プログラムおよび本発明の情報処理システムについては、ここではその基本形態のみを示すのにとどめるが、これは単に重複を避けるためであり、本発明にいう監視プログラムおよび情報処理システムには、上記の基本形態のみではなく、前述した監視装置の各形態に対応する各種の形態が含まれる。

本発明によれば、情報処理装置における故障を高い確度で発見することができる監視装置と、コンピュータをそのような監視装置として動作させる監視プログラムと、情報処理装置における故障を高い確度で発見することができる情報処理システムとを提供することができる。

本発明の一実施形態を含むクライアント・サーバシステムの一例を示す図である。サーバシステム１００のハードウェア構造を示す模式図である。本発明の監視プログラムの一実施形態が記憶されたＲＯＭ１２１ｂを示す概念図である。図３に示す監視プログラム５００をＣＰＵ１２１ａが実行することによって実現される監視装置１２０の機能を示す機能ブロック図である。監視装置１２０において実行される状態データの採取と格納との処理におけるメインルーチンのフローチャートである。状態データの採取および格納を行なうサブルーチンのフローチャートである。サブデータの採取を行なうサブルーチンのフローチャートである。１つのサブデータに対するメモリ１２２内への格納処理を行なうサブルーチンのフローチャートである。メモリ１２２の内部構造を示す模式図である。図９に示す重大故障用格納領域の内部構造を示す模式図である。図９に示す軽微故障用格納領域の内部構造を示す模式図である。、図１０に示すＭａｊｏｒ２Ｋ部分１２２ａ＿１のサイズが増やされ、その分だけＡｌｌｓｃａｎ２Ｋ部分１２２ａ＿９のサイズが減らされる様子を示す図である。監視装置における状態データに対する従来の格納方法の一例を示す図である。

以下図面を参照して本発明の実施の形態を説明する。

図１は、本発明の一実施形態を含むクライアント・サーバシステムの一例を示す図である。

この図１に示すクライアント・サーバシステム１０は、１台のサーバシステム１００と、複数台のクライアントコンピュータ２００，３００，４００，…とで構成されている。

サーバシステム１００は、このクライアント・サーバシステム１０全体を統括的に管理するサーバとして動作するものであり、本発明にいう情報処理システムの一実施形態に相当する。

図２は、サーバシステム１００のハードウェア構造を示す模式図である。

図２に示すように、サーバシステム１００には、クライアント・サーバシステム１０の各種管理を実行し、実質的にこのクライアント・サーバシステム１０のサーバとしての機能を担う情報処理装置１１０と、その情報処理装置１１０の動作を監視する監視装置１２０とが搭載されている。情報処理装置１１０は、本発明にいう情報処理装置の一例に相当し、監視装置１２０は、本発明の監視装置の一実施形態に相当する。

情報処理装置１１０は、第１から第５までの５種類のボード１１１，１１２，１１３，１１４，１１５を備えている。

第１のボード１１１には、システムコントローラ（ＳＣ）１１１ａ、メモリアクセスコントローラ（ＭＡＣ）１１１ｂ、および中央演算処理装置（ＣＰＵ）１１１ｃという３種類のＬＳＩが主に搭載されている。

ＳＣ１１１ａは、ＣＰＵ１１１ｃと他の部品との間でデータを仲介し、スムーズなデータの授受を実現するＬＳＩであり、ＭＡＣは、この情報処理装置１１０における不図示のメモリに対するデータの読み書き動作を制御するＬＳＩであり、ＣＰＵ１１１ｃは、この情報処理装置１１０の動作全般を制御するＬＳＩである。

第２のボード１１２には、Ｉ／Ｏコントローラ１１２ａおよびＩ／Ｏブリッジ１１２ｂという２種類のＬＳＩが主に搭載されている。

Ｉ／Ｏコントローラ１１２ａは、情報処理装置１１０と外部とのデータの授受を実行するＬＳＩであり、Ｉ／Ｏブリッジ１１２ｂは、Ｉ／Ｏコントローラ１１２ａが実行する授受の対象であるデータのデータ形式に対して、パラレル形式とシリアル形式との間での相互変換を施すＬＳＩである。

また、第３のボード１１３には、クロスバー（ＸＢ）１１３ａというＬＳＩが主に搭載され、第４のボード１１４には、クロック発信素子（ＣＬＫ）１１４ａというＬＳＩが主に搭載されている。

ＸＢ１１３ａは、ＳＣ１１１ａとＩ／Ｏコントローラ１１２ａとの間でデータを仲介し、両者間におけるスムーズなデータの授受を実現するＬＳＩであり、ＣＬＫ１１４ａは、この情報処理装置１１０の動作に共通に使われる基準クロックを生成し、情報処理装置１１０中の各所に供給するＬＳＩである。

第５のボード１１５には、監視装置１２０に対して、後述の故障通知を実行する故障通知回路１１５ａが搭載されている。

ここで、この図２に示すサーバシステム１００では、監視装置１２０が本発明の主題に深く係わるものであり、この図２では、情報処理装置１１０については、この監視装置１２０による監視の対象となる上記に説明した各ＬＳＩ、および上記の故障通知回路１１５ａが主に図示されており、情報処理装置１１０が備える他の部品や回路については図示が省略されている。

監視装置１２０は、ＣＰＵ１２１ａやＲＯＭ１２１ｂやＲＡＭ１２１ｃが搭載された処理ボード１２１と、メモリ１２２とを備えている。

処理ボード１２１は、上記の各ＬＳＩに対する監視機能を実質的に担っており、メモリ１２２には、処理ボード１２１による監視の結果が格納される。

処理ボード１２１に搭載されたＲＯＭ１２１ｂには、本発明の監視プログラムの一実施形態が記憶されており、処理ボード１２１に搭載されたＣＰＵ１２１ａが、このＲＯＭ１２１ｂに記憶されたプログラムに従って動作することによって監視機能が実現される。

図３は、本発明の監視プログラムの一実施形態が記憶されたＲＯＭ１２１ｂを示す概念図である。

図３に示す本発明の監視プログラムの一実施形態である監視プログラム５００は、データ取出部５１０と、故障分類部５２０と、データ格納部５３０と、変更部５４０とで構成されている。

図２に示す監視装置１２０に電源が投入されると、この図３に示す監視プログラム５００が、適宜にＲＡＭ１２１ｃ上に展開される。そして、ＣＰＵ１２１ａが、そのＲＡＭ１２１ｃ上に展開された監視プログラム５００を実行する。これにより、監視装置１２０における上記の機能が実現される。この、監視プログラム５００の各要素の作用の詳細については後述する。

図４は、図３に示す監視プログラム５００をＣＰＵ１２１ａが実行することによって実現される監視装置１２０の機能を示す機能ブロック図である。

この図４に示すように、監視装置１２０の機能は、データ取出部６１０と、故障分類部６２０と、データ格納部６３０と、変更部６４０という機能ブロックで構成されている。図２に示す監視装置１２０のＣＰＵ１２１ａが図３に示す監視プログラム５００を実行すると、監視プログラム５００を構成するデータ取出部５１０、故障分類部５２０、データ格納部５３０、および変更部５４０が、それぞれこの図４に示すデータ取出部６１０、故障分類部６２０、データ格納部６３０、および変更部６４０を構築する。

ここで、この図４に示すデータ取出部６１０、故障分類部６２０、データ格納部６３０、および変更部６４０は、それぞれ本発明にいうデータ取出部、故障分類部、データ格納部、および変更部の各一例に相当する。

以下、図４に示す監視装置１２０の各機能ブロックを説明することによって、図３に示す監視プログラム５００の各要素も併せて説明する。

まず、各要素の概略について説明する。

図４に示すデータ取出部６１０では、図２に示す故障通知回路１１５ａが発した、情報処理装置１１０における故障発生の通知を受けて、情報処理装置１１０の装置状態を表わす状態データが、その情報処理装置１１０から取り出される。ここで、この状態データは、図２に示す各ＬＳＩにおいて内部生成される、そのＬＳＩの動作状態を表わすサブデータからなり、状態データの取り出しは、データ取出部６１０が図２に示す各ＬＳＩから適宜にサブデータを採取することで行なわれる。

故障分類部６２０では、情報処理装置１１０で発生した故障が、処理能力の大幅な低下やサーバダウンに繋がる重大故障タイプと、実質的な被害がほとんど無い軽微故障タイプという互いに重篤度が異なる２つの故障タイプのうち、その故障の重篤度に対応するタイプに分類される。

データ格納部６３０では、データ取出部６１０によって取り出された状態データがメモリ１２２における、故障分類部６２０によって分類された故障タイプに対応する格納領域に格納される。ここで、この格納領域は、互いに異なるデータサイズに対応した複数の格納部分に細分化されており、データ格納部６３０が状態データを格納する時には、その状態データを構成する複数のサブデータそれぞれが、格納領域中の、そのサブデータのデータサイズに対応した格納部分に格納されることとなる。

変更部６４０では、複数の格納部分のうち、所望の格納部分のサイズが、ユーザの操作によって変更されることで、その所望の格納部分におけるサブデータの最大格納数が変更される。ここで、本実施形態では、このサイズの変更は、図１および図２に示すサーバ・コンピュータ１００に電気的に接続された端末機器に対するユーザ操作を介して行なわれる。図４では、ノート型のパーソナルコンピュータ７００が、サーバ・コンピュータ１００延いては監視装置１２０の変更部６４０に接続された様子が示されている。

次に、この監視装置１２０について、その監視装置１２０で実行される処理の流れに注目して詳細に説明する。

尚、以下の説明では、図１から図４までの各図に示す構成要素について、特に図番を断らずに参照する。

図５は、監視装置１２０において実行される状態データの採取と格納との処理におけるメインルーチンのフローチャートである。

この図５のフローチャートが表わすメインルーチンは、監視装置１２０に電源が投入されるとスタートする。処理がスタートすると、情報処理装置１１０の故障通知回路１１５ａによる故障発生の通知を待つ待機ループ（ステップＳ１０１）が開始する。故障通知回路１１５ａから故障発生が通知されるまでは、後述のステップＳ１０２およびステップＳ２００が省略され、処理は、ループ端（ステップＳ１０３）を経てステップＳ１０１に戻る。

故障通知回路１１５ａから故障発生が通知されると、その通知が監視装置１２０で受け取られる（ステップＳ１０２）。そして、その状態データの採取および格納を行なうサブルーチンが、監視装置１２０のデータ取出部６１０、故障分類部６２０、およびデータ格納部６３０において実行される（ステップＳ２００）。このサブルーチンが終了すると、処理は、ループ端（ステップＳ１０３）を経てステップＳ１０１に戻る。

このメインルーチンでは、以上のような処理が、監視装置１２０の電源が落とされるまで続けられる。

次に、上記の状態データの採取および格納を行なうサブルーチン（ステップＳ２００）について説明する。

図６は、状態データの採取および格納を行なうサブルーチンのフローチャートである。

このサブルーチンがスタートすると、まず、データ取出部６１０が故障通知回路１１５ａにアクセスすることによって、今回通知された故障がどのような故障であるのか（故障状態）を特定する（ステップＳ２０１）。ここで、情報処理装置１１０における、監視対象の各ＬＳＩは、自己の内部で生じた異常を逐一検知し故障通知回路１１５ａに通知する機能を有している。故障通知回路１１５ａは、各ＬＳＩが発する異常の通知を総合的に分析して、情報処理装置１１０が装置として故障している否かを判断するとともに、その故障がどのような故障であるかという故障状態を認識して、その認識した故障状態を故障通知回路１１５ａ内のメモリに記述する。ステップＳ２０１では、その故障通知回路１１５ａ内のメモリの記述内容から、今回の故障の故障状態が特定される。

次に、今回の通知に対して通し番号（ＬＯＧ−ＩＤ）が採番される（ステップＳ２０２）。このＬＯＧ−ＩＤについては、後に詳細に述べる。

本実施形態では、情報処理装置１１０からの状態データの取り出しは、上述したようにデータ取出部６１０が各ＬＳＩから適宜にサブデータを採取することで行なわれる。ここで、情報処理装置１１０において発生する様々な故障状態の故障それぞれに対して、図２示す７種類のＬＳＩのうち、どのＬＳＩが主な故障原因となるかが予め検討されている。また、各ＬＳＩにおいて内部生成されるサブデータは、後述するように複数種類存在する。そして、各故障状態を表わすために、その故障原因のＬＳＩからどのような種類のサブデータが必要かも予め検討されている。本実施形態では、そのような検討結果をまとめた次のような表が用意されている。

表１は、各ＬＳＩと、各ＬＳＩが原因となり得る各種の故障状態と、各故障状態を表わすために採取すべきサブデータの種類との対応関係を、重篤度の高い重大な故障タイプ（重大故障タイプ）の故障について示す一覧表であり、表２は、表１と同様の対応関係を、重篤度の低い軽微な故障タイプ（軽微故障タイプ）の故障について示す一覧表である。

表１からは、例えば、「ＣＤＥｒｒｏｒ」という、重大故障タイプの故障の故障状態Ｅ１については、故障の原因となり得るＬＳＩが、上述したＳＣ１１１ａ、ＭＡＣ１１１ｂ、およびＸＢ１１３ａであることが分かる。同様に、表２からは、例えば、「ＭｉｎｏｒＦａｃｅ」という軽微故障タイプの故障の故障状態Ｅ２については、故障の原因となり得るＬＳＩが、ＳＣ１１１ａであることが分かる。

また、各故障状態を表わすために採取すべきサブデータの種類も、この一覧表を参照することで特定される。

例えば、上記の各ＬＳＩは、自己の動作状態を表わすサブデータとして、表１および表２に示す、Ｍａｊｏｒ情報Ｊ１、Ｍｉｎｏｒ情報Ｊ２、Ａｌｌｓｃａｎ情報Ｊ３、Ｈｉｓｔｏｒｙ情報Ｊ４、Ｃｏｎｆｉｇ情報Ｊ５、およびＡｎａｌｙｚｅ情報Ｊ６という６種類のサブデータを内部生成して記憶する。ここで、表１および表２に示すこれら６種類のサブデータそれぞれが、本発明にいうサブデータの一例に相当する。

Ｍａｊｏｒ情報Ｊ１は、ＬＳＩを構成する複数の微小部品のうちの主たる部品について異常の有無を示すサブデータであり、Ｍｉｎｏｒ情報Ｊ２は、ＬＳＩを構成する複数の微小部品のうち比較的重要性の低い残りの部品について異常の有無を示すサブデータである。また、Ａｌｌｓｃａｎ情報Ｊ３は、そのＬＳＩにおける異常発生時にそのＬＳＩがどのような処理を実行していたかを示すサブデータであり、Ｈｉｓｔｏｒｙ情報Ｊ４は、そのＬＳＩにおける異常発生までの一定期間における動作履歴を示すサブデータである。また、Ｃｏｎｆｉｇ情報Ｊ５は、そのＬＳＩにおける異常発生時におけるＬＳＩ内の所定箇所におけるハイ／ロー状態を示すサブデータである。また、Ａｎａｌｙｚｅ情報Ｊ６は、そのＬＳＩにおける異常発生時に立てられるフラグである。

本実施形態では、これらの６種類のうち、各種の故障状態について、各ＬＳＩから採取すべきサブデータの種類が、表１および表２に示すように決まっている。表１および表２では、各種の故障状態について、採取すべきサブデータが「○」印で示され、採取しないサブデータが「×」印で示されている。

表１からは、例えば、「ＣＤＥｒｒｏｒ」という故障状態Ｅ１については、ＳＣ１１１ａからＭａｊｏｒ情報Ｊ１とＡｎａｌｙｚｅ情報Ｊ６とを採取し、ＭＡＣ１１１ｂからＭａｊｏｒ情報Ｊ１とＭｉｎｏｒ情報Ｊ２とＣｏｎｆｉｇ情報Ｊ５とＡｎａｌｙｚｅ情報Ｊ６とを採取し、ＸＢ１１３ａからＣｏｎｆｉｇ情報Ｊ５とＡｎａｌｙｚｅ情報Ｊ６とを採取すべきであることが分かる。また、表２からは、「ＭｉｎｏｒＦａｃｅ」という故障状態Ｅ２については、ＳＣ１１１ａからＭｉｎｏｒ情報Ｊ２とＡｎａｌｙｚｅ情報Ｊ６とを採取すべきであることが分かる。

データ取出部６１０は、このような一覧表をデータ形式で記憶している。

図６のフローチャートでは、上記のステップＳ２０２に続いて、上記の特定された故障状態について、主な故障原因となり得るＬＳＩ、および、そのＬＳＩから採取すべきサブデータの種類が、上記の一覧表を参照することで特定される（ステップＳ２０３）。

ＬＳＩおよびサブデータの種類が特定されると、次に、その特定結果に基くサブデータの採取を行なうサブルーチンが、監視装置１２０のデータ取出部６１０において実行される（ステップＳ３００）。このサブルーチンが終了すると、処理は、図５に示すメインルーチンに戻る。

以下、このサブデータの採取を行なうサブルーチン（ステップＳ３００）について説明する。

図７は、サブデータの採取を行なうサブルーチンのフローチャートである。

このサブルーチンがスタートすると、採取すべきサブデータの個数分の、以下の採取処理の繰返しループが開始される（ステップＳ３０１）。例えば、上記の「ＣＤＥｒｒｏｒ」という故障状態Ｅ１については、３個のＬＳＩから、合計で８個のサブデータが採取されるので、都合８回の繰返しループが開始されることとなる。

ここで、本実施形態では、例えばこの「ＣＤＥｒｒｏｒ」という故障状態Ｅ１について採取される８個のサブデータのように、ある故障状態について採取される複数個のサブデータの組が、その故障状態の故障が発生した時の情報処理装置１１０の装置状態を表わす状態データとして扱われる。この複数個のサブデータからなる状態データが、本発明にいう状態データの一例に相当する。

ループが開始されると、採取対象のＬＳＩのうちの１つのＬＳＩへのアクセスが実行され、そのＬＳＩから採取されるべきサブデータのうちの１つのサブデータが採取される（ステップＳ３０２）。

ステップＳ３０１において１つのサブデータが採取されると、その採取されたサブデータに対する、監視装置１２０のメモリ１２２内への格納処理を行なうサブルーチンが実行される（ステップＳ４００）。

そして、その１つのサブデータがメモリ１２２内へ格納されると、処理は、ループ端（ステップＳ３０３）を経てステップＳ３０１に戻り、所定の優先順位における次のサブデータについての採取（ステップＳ３０２）と格納（ステップＳ４００）とが実行される。

この図７のサブルーチンでは、この採取（ステップＳ３０２）と格納（ステップＳ４００）とが、採取すべきサブデータの個数分だけ繰り返されると、図６に示すサブルーチンへと処理が戻る。

次に、１つのサブデータに対するメモリ１２２内への格納処理を行なうサブルーチン（ステップＳ４００）について説明する。

図８は、１つのサブデータに対するメモリ１２２内への格納処理を行なうサブルーチンのフローチャートである。

このサブルーチンがスタートすると、まず、格納対象の１つのサブデータ係わる故障のタイプが、上記の重大故障タイプと軽微故障タイプとの２つの故障タイプのうちのいずれの故障タイプであるかが確認される。（ステップＳ４０１）。ここで、この１つのサブデータは、そもそも図６のフローチャートにおけるステップＳ２０１において特定された故障状態を表わすのに必要なサブデータとして採取されたものである。即ち、この１つのサブデータがどのような故障状態の故障に係わっているかは、このステップＳ４０１の時点で既知である。そこで、このステップＳ４０１では、その既知の故障状態が、重大故障タイプの故障に対応する表１に属するか、軽微故障タイプの故障に対応する表２に属するかが確認される。

次に、格納対象の１つのサブデータのデータサイズが確認される（ステップＳ４０２）。

ここで、本実施形態では、各ＬＳＩから採取される上記の６種類のサブデータそれぞれについて、データサイズが、以下のサイズのいずれかであることが分かっている。

Ｍａｊｏｒ情報Ｊ１については、約２キロバイト、約１キロバイト、および約０．５キロバイトのうちのいずれかであることが分かっており、Ｍｉｎｏｒ情報Ｊ２についても、これら３種類のサイズのうちのいずれかであることが分かっている。Ａｌｌｓｃａｎ情報Ｊ３については、約８キロバイト、約４キロバイト、約２キロバイト、約１キロバイト、および約０．５キロバイトのうちのいずれかであることが分かっており、Ｃｏｎｆｉｇ情報Ｊ５については、約４．４キロバイトおよび約０．７キロバイトのうちのいずれかであることが分かっている。また、Ｈｉｓｔｏｒｙ情報Ｊ４とＡｎａｌｙｚｅ情報Ｊ６とについては、それぞれほぼ決まった１種類のサイズであることが分かっている。

上記のステップＳ４０２では、格納対象の１つのサブデータのデータサイズが、上記のような複数種類のサイズのうちのどのサイズであるかが確認される。

次に、格納対象の１つのサブデータについて、ステップＳ４０２までに確認された故障タイプとそのサブデータのデータサイズに応じて、メモリ１２２内における格納の仕方が以下のように決定される（ステップＳ４０３）。

まず、メモリ１２２の内部構造について説明する。

図９は、メモリ１２２の内部構造を示す模式図である。

この図９に示すように、メモリ１２２の内部は、重大故障タイプの故障に係わるサブデータ（重大故障データ）用の格納領域（重大故障用格納領域）と、軽微故障タイプの故障に係わるサブデータ（軽微故障データ）用の格納領域（軽微故障用格納領域）とに大別されている。そして、これら重大故障用格納領域と軽微故障用格納領域とのそれぞれの内部が、次のように、さらに細分化されている。

図１０は、図９に示す重大故障用格納領域の内部構造を示す模式図であり、図１１は、図９に示す軽微故障用格納領域の内部構造を示す模式図である。

重大故障用格納領域１２２ａは、図１０に示すように複数の格納部分に細分化されているが、まず、Ｍａｊｏｒ情報が格納される部分として、約２キロバイト、約１キロバイト、および約０．５キロバイトそれぞれのサイズのＭａｊｏｒ情報が格納されるＭａｊｏｒ２Ｋ部分１２２ａ＿１、Ｍａｊｏｒ１Ｋ部分１２２ａ＿２、およびＭａｊｏｒ０．５Ｋ部分１２２ａ＿３が用意されている。また、Ｍｉｎｏｒ情報が格納される部分として、約２キロバイト、約１キロバイト、および約０．５キロバイトそれぞれのサイズのＭｉｎｏｒ情報が格納されるＭｉｎｏｒ２Ｋ部分１２２ａ＿４、Ｍｉｎｏｒ１Ｋ部分１２２ａ＿５、およびＭｉｎｏｒ０．５Ｋ部分１２２ａ＿６が用意されている。また、Ａｌｌｓｃａｎ情報が格納される部分として、約８キロバイト、約４キロバイト、約２キロバイト、約１キロバイト、および約０．５キロバイトそれぞれのサイズのＡｌｌｓｃａｎ情報が格納されるＡｌｌｓｃａｎ８Ｋ部分１２２ａ＿７、Ａｌｌｓｃａｎ４Ｋ部分１２２ａ＿８、Ａｌｌｓｃａｎ２Ｋ部分１２２ａ＿９、Ａｌｌｓｃａｎ１Ｋ部分１２２ａ＿１０、およびＡｌｌｓｃａｎ０．５Ｋ部分１２２ａ＿１１が用意されている。また、Ｃｏｎｆｉｇ情報が格納される部分として、約４．４キロバイトおよび約０．７キロバイトそれぞれのサイズのＣｏｎｆｉｇ情報が格納されるＣｏｎｆｉｇ４．４Ｋ部分１２２ａ＿１３およびＣｏｎｆｉｇ０．７Ｋ部分１２２ａ＿１４が用意されている。Ｈｉｓｔｏｒｙ情報とＡｎａｌｙｚｅ情報とのそれぞれが格納される部分としては、それぞれ１種類の部分であるＨｉｓｔｏｒｙ部分１２２ａ＿１２とＡｎａｌｙｚｅ部分１２２ａ＿１５とが用意されている。

さらに、上記に述べた重大故障用格納領域１２２ａ内の１５種類の格納部分それぞれは、例えば、Ｍａｊｏｒ２Ｋ部分１２２ａ＿１がＮ_１個の区画に区分けされ、Ｍａｊｏｒ１Ｋ部分１２２ａ＿２がＮ_２個の区画に区分けされているというように、各々複数個の区画に区分けされており、各区画には１個のサブデータが格納される。

ここで、例えば、Ｍａｊｏｒ２Ｋ部分１２２ａ＿１における区画１個のサイズは、その区画に格納される約２キロバイトのＭａｊｏｒ情報のサイズに応じた約２キロバイトのサイズとなっており、また例えば、Ａｌｌｓｃａｎ８Ｋ部分１２２ａ＿７における区画１個のサイズは、その区画に格納される約８キロバイトのＡｌｌｓｃａｎ情報のサイズに応じた約８キロバイトとなっている。このように、本実施形態では、各格納部分における区画１個のサイズは、その格納部分の種類に応じたサイズとなっている。さらに、各格納部分を構成する区画の個数も、その格納部分の種類に依って異なっている。

また、各格納部分を構成する区画それぞれには、＃１，＃２，＃３，…，＃Ｎ_１というように番号が振られており、監視装置において採取されたサブデータは、そのサブデータの種類およびデータサイズに対応する格納部分において、若い番号に対応する区画から順次に格納される。

一方、軽微故障用格納領域１２２ｂには、上述した表２から分かるように、監視装置１２２で採取されるサブデータがＭｉｎｏｒ情報とＡｎａｌｙｚｅ情報との２種類であることから、図１１に示すように、Ｍｉｎｏｒ情報用の３種類の格納部分１２２ｂ＿１、１２２ｂ＿２、および１２２ｂ＿３と、Ａｎａｌｙｚｅ情報用の１種類の格納部分１２２ｂ＿４だけが設けられている。各格納部分の構造については、図１０に示す重大故障用格納領域１２２ａ中の同名の格納部分と同じであるので重複説明を省略する。

図８に戻って説明を続ける。尚、以下の説明では、図９、図１０、および図１１に示す各構成要素について、特に図番を断らずに参照する。

上述したように、ステップＳ４０３の処理では、メモリ１２２への格納対象であるサブデータが係わっている故障の故障タイプと、そのサブデータのデータサイズとによって、メモリ１２２内における格納部分が決定される。

例えば、上記の「ＣＤＥｒｒｏｒ」という故障状態Ｅ１についてＳＣ１１１ａから取得されたＭａｊｏｒ情報が格納対象であった場合、まず、そのＭａｊｏｒ情報が係わっている故障の故障タイプは、「ＣＤＥｒｒｏｒ」という故障状態Ｅ１が上記の表１に記載されていることから重大故障タイプであるので、そのＭａｊｏｒ情報が、メモリ１２２内の重大故障用格納領域１２２ａ内に格納されることが決定される。さらに、そのＭａｊｏｒ情報のデータサイズが、例えば約２キロバイトであったとすると、そのデータサイズによって、そのＭａｊｏｒ情報が、重大故障用格納領域１２２ａ内のＭａｊｏｒ２Ｋ部分１２２ａ＿１に格納されることが決定される。

このように格納部分が決定されると、格納対象のサブデータに、図６のフローチャートのステップＳ２０２で採番されたＬＯＧ−ＩＤが付与され、その付与済みのサブデータが、上記の決定された格納部分に格納される（ステップＳ４０４）。そして、その後、処理が図７のサブルーチンに戻る。

図７のサブルーチンでは、サブデータの採取と格納とが、採取すべきサブデータの数だけ繰り返される。そして、その繰返しによって、例えば「ＣＤＥｒｒｏｒ」や「ＭｉｎｏｒＦａｃｅ」等といった１つの故障状態について、その故障状態の故障が発生した時の情報処理装置１１０の装置状態を表わす状態データが、共通のＬＯＧ−ＩＤが付与された複数個のサブデータの組として採取され格納される。

ここで、１つの状態データをなす複数のサブデータ全ては、１つの故障状態に対応しているので、それら複数のサブデータは、図９に示す２つの格納領域のうちの１つに全て格納されることとなる。ただし、格納領域内では、複数のサブデータそれぞれは、各サブデータのデータサイズに応じて分散して格納される。しかし、それら複数のサブデータには互いに共通のＬＯＧ−ＩＤが付与されているので、格納領域内に分散して格納された状態であっても、この共通のＬＯＧ−ＩＤを参照することで、１つの状態データを構成していることが分かる。

以上、説明した本実施形態によれば、まず、複数のサブデータからなる状態データは、その状態データが係わっている故障の故障タイプが、重大故障タイプであるか軽微故障タイプであるかに応じて２つの格納領域のうちのいずれかに格納されることとなる。これにより、重大故障タイプの故障について得られる状態データに対する、頻発する軽微故障タイプの故障について得られる状態データによる頻繁な上書きが回避される。従って、このような重大故障タイプの故障について得られる状態データの保護性が高まるので、後日のメンテナンスの際等に、このような状態データに基いて、情報処理装置における故障を高い確度で発見することができる。

また、本実施形態によれば、１つの状態データを構成する複数のサブデータそれぞれは、上記の格納領域内の、そのサブデータのデータサイズに応じた格納部分に格納される。これにより、上記格納領域内が、各サブデータのデータサイズに応じて有効に利用され、その格納領域内における無駄な未使用領域の発生が抑制されるので、その格納領域の広さを十分に生かすことができる。これにより、サブデータをなるべく多く、延いては上記状態データをなるべく多く格納することができ、その結果、この格納領域における上書き発生の頻度が抑制されるので、この格納領域内の状態データに対する保護性を一層高めることができる。

ところで、表１や表２に示した故障状態の故障は、サーバシステム１００の使用環境や、ＳＣ１１１ａやＣＰＵ１１１ｃ等といったＬＳＩの製造誤差等に起因して、故障の発生に偏りが生じることがある。そのような偏りが生じると、特定の種類のサブデータが採取される割合が高まり、その結果、メモリ１２２内の、その特定の種類のサブデータに対応する格納部分が満たされやすくなって、その特定の種類のサブデータについての上書きの頻度が高くなってしまう。本実施形態では、このような事態に対処できるように、所望の格納部分のサイズを、ユーザからの操作を受けて変更する機能が備えられている。本実施形態では、この機能が、図４に示す変更部６４０によって担われている。

ここで、本実施形態では、この格納部分のサイズの変更は、メモリ１２２全体の容量が一定なので、例えば、所望の格納部分のサイズを増やす場合には、他の格納部分のサイズを適宜に減らして、その減らした分をその所望の格納部分に割り当てるという方法が採られている。そのようなサイズ変更の指示が、本実施形態では、図４に示すように、変更部６４０に接続された端末機器（図４の例ではノート型のパーソナルコンピュータ７００）を介してなされる。

まず、ユーザが、ノート型のパーソナルコンピュータ７００の表示画面に表示される不図示の操作画面を介して、所望の格納部分について、それまでよりも多い新たなサイズを入力する。また、他の適当な格納部分について、その所望の格納部分のサイズを増やした分だけ減らした新たなサイズを入力する。すると、このノート型のパーソナルコンピュータ７００から、変更部６４０に対して、それら２つの格納部分それぞれの新たなサイズと、各格納部分における区画１個分のサイズとが伝えられる。ここで、ノート型のパーソナルコンピュータ７００内のメモリには、図１０に示した複数の格納部分それぞれにおける区画１個分のサイズが予め記憶されており、変更部６４０に対しては、ユーザによって入力された格納部分のサイズと、その記憶されている区画１個分のサイズとが伝えられる。

以下、具体例を参照して、格納部分のサイズ変更について説明を続ける。

図１２は、図１０に示すＭａｊｏｒ２Ｋ部分１２２ａ＿１のサイズが増やされ、その分だけＡｌｌｓｃａｎ２Ｋ部分１２２ａ＿９のサイズが減らされる様子を示す図である。

Ｍａｊｏｒ２Ｋ部分１２２ａ＿１について、変更前のサイズをＳ１、新たなサイズをＳ２、区画１個分のサイズをＳａとすると、このサイズ変更による、以下の式で表わされる増加分Ｌ_１だけ、Ｍａｊｏｒ２Ｋ部分１２２ａ＿１内の区画数が増えることとなる。

Ｌ_１＝（Ｓ２−Ｓ１）／Ｓａ
一方、Ａｌｌｓｃａｎ２Ｋ部分１２２ａ＿９については、変更前のサイズをＳ３、新たなサイズをＳ４、区画１個分のサイズをＳｂとすると、以下の式で表わされる減少分Ｌ_２だけ、Ｍａｊｏｒ２Ｋ部分１２２ａ＿１内の区画数が減ることとなる。

Ｌ_２＝（Ｓ３−Ｓ４）／Ｓｂ＝（Ｓ２−Ｓ１）／Ｓｂ
本実施形態では、このようなサイズ変更により、所望の格納部分における区画数すなわちその格納部分におけるサブデータの最大格納数を増やすことで、そのその格納部分における上書きの頻度を下げ、その格納部分におけるサブデータの保護性が高められる。

また、上記では、所望の格納部分のサイズを、他の適当な格納部分のサイズを減らすことで増やす例について説明したが、本実施形態では、極端な例として、例えば１つの格納部分を無くしてその格納部分が有していたサイズを所望の格納部分に全て追加することも可能である。

また、１つの格納部分のサイズを減らして、その分のサイズを有する新規の格納部分を設ける等といった操作も可能である。ただし、この場合には、その新規の格納部分については、ユーザは、その格納部分のサイズとともに、その格納部分の区画１個分のサイズを入力する必要がある。

以上、説明した本実施形態によれば、上述したように、頻繁に採取される軽微故障データによって重大故障データが上書きされて失われてしまうといった不具合が回避され、さらに、特に保護したいサブデータが格納される格納部分のサイズを増やしてそのサブデータに対する保護性を高めること等が可能となる。

尚、上記では、本発明の情報処理システムの一実施形態として、クライアント・サーバシステム全体を管理するサーバシステム１００を例示し、本発明の監視装置の一実施形態として、そのサーバシステム１００において、クライアント・サーバシステムの管理機能を有する情報処理装置１１０の動作を監視する監視装置１２０を例示したが、本発明はこれに限るものではない。本発明の情報処理システムは、何らかの情報処理装置と、その情報処理装置の動作を監視する監視装置とからなる情報処理システムであれば特にその形態を問うものではなく、本発明の監視装置は、何らかの情報処理装置の動作を監視する監視装置であれば特にその形態を問うものではない。

また、上記では、本発明にいうデータ取出部の一例として、図２に示す７種類のＬＳＩにアクセスしてサブデータを採取するデータ取出部６１０を例示したが、本発明はこれに限るものではなく、本発明にいうデータ取出部は、これら７種類以外のＬＳＩにアクセスしてサブデータを採取するものであっても良い。

また、上記では、本発明にいうデータ取出部の一例として、表１や表２に示す６種類のサブデータを採取するデータ取出部６１０を例示したが、本発明はこれに限るものではなく、本発明にいうデータ取出部は、６種類のサブデータ以外のサブデータを採取するものであっても良い。

上記では、本発明にいうデータ格納部の一例として、１つの状態データをなす複数のサブデータを、係わっている故障の故障タイプに応じた格納領域内に、各サブデータのデータサイズに応じて分散して格納するデータ格納部６３０を例示したが、本発明はこれに限るものではなく、本発明にいうデータ格納部は、例えば、１つの状態データをなす複数のサブデータを、係わっている故障の故障タイプに応じた格納領域内の１つの区画にまとめて格納するもの等であっても良い。

Claims

所定の情報処理動作を実行しその情報処理動作の実行中に故障が発生すると故障発生を通知する情報処理装置の動作を監視する監視装置において、
異なるデータサイズに対応した複数の格納部分をそれぞれ備える、互いに重篤度が異なる複数の故障タイプのそれぞれに対応して設けられた複数の格納領域を有する記憶部と、
前記情報処理装置による故障発生の通知を受けて、該情報処理装置の装置状態を表わす状態データを該情報処理装置から取り出すデータ取出部と、
前記通知に対応する故障を、通知された故障の重篤度に対応する故障タイプに分類する故障分類部と、
前記データ取出部が取り出した状態データを、前記複数の格納領域のうち、前記故障分類部によって分類された故障タイプに対応する格納領域内の、取り出した状態データのデータサイズに対応した格納部分に格納するデータ格納部とを備えたことを特徴とする監視装置。
前記データ取出部が、前記状態データとして、前記情報処理装置を構成する複数の構成部品それぞれの部品状態を表わす複数のサブデータを該情報処理装置から取り出すものであり、
前記データ格納部が、状態データを前記格納領域に格納する時に、その状態データを構成する複数のサブデータそれぞれを、該格納領域中の、互いに異なるデータサイズに対応した複数の格納部分のうち、該サブデータのデータサイズに対応した格納部分に格納するものであることを特徴とする請求項１記載の監視装置。
前記監視装置は更に、
前記格納部分の広さを変更し、該格納部分における前記状態データの最大格納数を変更する変更部を備えたことを特徴とする請求項１または２に記載の監視装置。
異なるデータサイズに対応した複数の格納部分をそれぞれ有し、互いに重篤度が異なる複数の故障タイプのそれぞれに対応して設けられた複数の格納領域を有する記憶部を備えたコンピュータに組み込まれ、該コンピュータに、所定の情報処理動作を実行しその情報処理動作の実行中に故障が発生すると故障発生を通知する情報処理装置の動作を監視させる監視プログラムにおいて、
該コンピュータ上に、
前記情報処理装置による故障発生の通知を受けて、該情報処理装置の装置状態を表わす状態データを該情報処理装置から取り出すデータ取出部と、
前記通知に対応する故障を、互いに重篤度が異なる複数の故障タイプのうち、通知された故障の重篤度に対応する故障タイプに分類する故障分類部と、
前記データ取出部が取り出した状態データを、前記故障分類部によって分類された故障タイプに対応する格納領域内の、前記取り出した状態データのデータサイズに対応した格納部分に格納するデータ格納部とを構築することを特徴とする監視プログラム。
所定の情報処理動作を実行し、情報処理動作の実行中に故障が発生すると故障発生を通知する情報処理装置；および、
前記情報処理装置からの故障発生の通知を受けて、該情報処理装置の装置状態を表わす状態データを該情報処理装置から取り出すデータ取出部と、
異なるデータサイズに対応した複数の格納部分をそれぞれ備える、互いに重篤度が異なる複数の故障タイプのそれぞれに対応して設けられた複数の格納領域を有する記憶部と、
前記通知に対応する故障を、通知された故障の重篤度に対応する故障タイプに分類する故障分類部と、
前記データ取出部が取り出した状態データを、前記故障分類部によって分類された故障タイプに対応する格納領域内の、前記取り出した状態データのデータサイズに対応した格納部分に格納するデータ格納部とを備えた監視装置；
を備えたことを特徴とする情報処理システム。