JP4478196B2 - 監視装置、監視プログラム、および情報処理システム - Google Patents

監視装置、監視プログラム、および情報処理システム Download PDF

Info

Publication number
JP4478196B2
JP4478196B2 JP2008502580A JP2008502580A JP4478196B2 JP 4478196 B2 JP4478196 B2 JP 4478196B2 JP 2008502580 A JP2008502580 A JP 2008502580A JP 2008502580 A JP2008502580 A JP 2008502580A JP 4478196 B2 JP4478196 B2 JP 4478196B2
Authority
JP
Japan
Prior art keywords
data
failure
information processing
storage
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008502580A
Other languages
English (en)
Other versions
JPWO2007099593A1 (ja
Inventor
航輔 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2007099593A1 publication Critical patent/JPWO2007099593A1/ja
Application granted granted Critical
Publication of JP4478196B2 publication Critical patent/JP4478196B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0781Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0748Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Description

本発明は、情報処理装置の動作を監視する監視装置、コンピュータをそのような監視装置として動作させる監視プログラム、および情報処理装置とその情報処理装置の動作を監視する監視装置からなる情報処理システムに関する。
クライアント・サーバシステム全体を統括的に管理するサーバとして近年市場に提供されているものの中に、サーバ機能を有する情報処理装置とその情報処理装置の状態を常時監視する監視装置とが1つの筐体に搭載されてなるサーバシステムがある(例えば、非特許文献1参照。)。
このようなサーバシステムでは、情報処理装置は、自機において故障が発生すると、サーバシステムに搭載の監視装置に故障発生を通知する。監視装置は、その通知を受けて、例えば故障発生時の情報処理装置内の各部分の動作状態を表わす様々なサブデータを、その情報処理装置内の各所にアクセスして採取する。そして、監視装置は、採取した複数のサブデータの組を、故障発生時の情報処理装置の装置状態を表わす状態データとして監視装置内の所定の格納領域に格納する。
ここで、情報処理装置は、そのクライアント・サーバシステムをなるべく継続的に管理するために、自機において故障が発生しても動き続けることができるように設計されていることが多い。そして、情報処理装置において故障が複数回発生すると、監視装置は、故障発生の度に情報処理装置から状態データを採取して格納することとなる。そして、定期的なメンテナンスの際等に、その時点までに格納された状態データが解析される。そのときに、例えば、処理能力の大幅な低下やサーバダウンに繋がるような状態の箇所が見つかった場合には、その箇所を修理する、あるいは新品と交換する等といった処置が採られる。
ところで、従来、上記のような監視装置における状態データの格納については、以下に一例を示す単純な格納方法が採用されていることが多い。
図13は、監視装置における状態データに対する従来の格納方法の一例を示す図である。
この図13に示す格納領域800は、各々1個の状態データが格納される互いに同じサイズのN個の区画に区分けされている。
各区画には、#1,#2,#3,…,#Nというように番号が振られており、故障発生の度に監視装置において採取される状態データは、若い番号に対応する区画から順次に格納される。また、このとき状態データには、ログ1,ログ2,ログ3,…,ログNというように通し番号が振られる。
図13のパート(a)には、全区画が空いている状態が示され、図13のパート(b)には、1個の状態データが格納された状態が示され、図13のパート(c)には、N個の区画全てに状態データが格納された状態が示され、図13のパート(d)には、図13のパート(c)に示す状態に続いてN+1個目の状態データが格納された状態が示されている。図13のパート(d)に示すように、この格納領域800の最大格納数であるN個を超えて採取されたN+1個目の状態データJN+1は、1個目の状態データJの上に上書きされる。同様に、N+2個目の状態データは、2個目の状態データの上に上書きされ、N+3個目の状態データは、3個目の状態データの上に上書きされる。
"PRIMEPOWER(登録商標)とPRIMECLUSTER(登録商標)が織り成す高信頼・高可用ソリューション"、[online]、2005年1月11日、富士通株式会社、[2006年2月1日検索]、インターネット<URL:http://primerserver.fujitsu.com/primepower/news/article/05/0111/
このようなデータの上書きを前提とした格納方法では、処理能力の大幅な低下やサーバダウンに繋がるような故障に関連して採取された状態データが、その後に採取された状態データによって上書きされて失われてしまい、メンテナンスの際等に、そのような重大な故障が見過ごされてしまう恐れがある。
このような事態が生じることを抑制して、メンテナンスの際等における故障発見の確度を高めるために、例えば、上記のような区画をなるべく多く備えた大容量の格納領域を用意しておくことで上書きの頻度を抑えるという方法が考えられる。しかしながら、そのような大容量の格納領域を用意することには、コストの上昇や設置スペースの増加等といった問題がある。
尚、ここまで、クライアント・サーバシステムにおけるサーバ機能を有する情報処理装置の動作を監視する監視装置を例に挙げて、故障が見過ごされる恐れがあるという問題について説明したが、このような問題は、クライアント・サーバシステムに限るものではなく、何らかの情報処理装置から得た状態データをメモリに格納する際には一般的に生じうる問題である。
本発明は、上記事情に鑑み、情報処理装置における故障を高い確度で発見することができる監視装置と、コンピュータをそのような監視装置として動作させる監視プログラムと、情報処理装置における故障を高い確度で発見することができる情報処理システムとを提供することを目的とする。
上記目的を達成する本発明の監視装置は、所定の情報処理動作を実行しその情報処理動作の実行中に故障が発生すると故障発生を通知する情報処理装置の動作を監視する監視装置において、
上記情報処理装置による故障発生の通知を受けて、その情報処理装置からその情報処理装置の装置状態を表わす状態データを取り出すデータ取出部と、
上記通知に対応する故障を、互いに重篤度が異なる複数の故障タイプのうち、その故障の重篤度に対応する故障タイプに分類する故障分類部と、
上記データ取出部が取り出した状態データを、上記複数の故障タイプそれぞれに対応する複数の格納領域のうち、上記故障分類部によって分類された故障タイプに対応する格納領域に格納するデータ格納部とを備えたことを特徴とする。
上記のような情報処理装置において発生する故障の中には、処理能力の大幅な低下やサーバダウンに繋がり、メンテナンス時などに詳細な故障解析が必要となる重篤度の高い故障の他に、実質的な被害がほとんど無く、原因もほぼ明らかで故障解析が省略される重篤度の低い故障もある。そして、重篤度の高い故障の発生頻度は、一般的に、重篤度の低い故障の発生頻度に比べて低いことが多い。本発明の監視装置によれば、重篤度の低い頻発する故障について得られる、数が多くて上書きの頻度が高い状態データが、なるべく上書きを避けたい、重篤度の高い故障について得られる状態データとは別の格納領域に格納される。これにより、このような重篤度の高い故障について得られる状態データの保護性が高まるので、後日のメンテナンスの際等に、このような状態データに基いて、情報処理装置における故障を高い確度で発見することができる。
ここで、本発明の監視装置において、「上記データ取出部が、上記状態データとして、上記情報処理装置を構成する複数の構成部品それぞれの部品状態を表わす複数のサブデータの組をその情報処理装置から取り出すものであり、
上記データ格納部が、上記データ取出部が取り出した状態データを上記格納領域に格納する時には、その状態データを構成する複数のサブデータそれぞれを、その格納領域中の、互いに異なるデータサイズに対応した複数の格納部分のうち、そのサブデータのデータサイズに対応した格納部分に格納するものである」という形態は好ましい形態である。
この好ましい形態の監視装置によれば、上記格納領域内を、上記サブデータのデータサイズに応じて有効に利用することで、その格納領域内における無駄な未使用領域の発生を抑制して、その格納領域の広さを十分に生かすことができる。これにより、上記サブデータをなるべく多く、延いては上記状態データをなるべく多く格納することができ、その結果、この格納領域における上書き発生の頻度が抑制されるので、この格納領域内の状態データに対する保護性を一層高めることができる。
また、本発明の監視装置において、「上記データ取出部が、上記状態データとして、上記情報処理装置を構成する複数の構成部品それぞれの部品状態を表わす複数のサブデータの組をその情報処理装置から取り出すものであり、
上記データ格納部が、上記データ取出部が取り出した状態データを上記格納領域に格納する時には、その状態データを構成する複数のサブデータそれぞれを、その格納領域中の、互いに異なるデータサイズに対応した複数の格納部分のうち、そのサブデータのデータサイズに対応した格納部分に格納するものであり、
上記格納部分の広さを操作に応じた広さに変更することで、その格納部分における上記サブデータに対する最大格納数を変更する変更部を備えた」という形態も好ましい。
この好ましい形態の監視装置によれば、例えば、上記変更部によって所望の格納部分の広さを広げ、その格納部分における上記サブデータに対する最大格納数を増やすことで上書き発生の頻度を抑制して保護性を高めることができる。
また、上記目的を達成する本発明の監視プログラムは、コンピュータに組み込まれ、そのコンピュータに、所定の情報処理動作を実行しその情報処理動作の実行中に故障が発生すると故障発生を通知する情報処理装置の動作を監視させる監視プログラムにおいて、
そのコンピュータ上に、
上記情報処理装置による故障発生の通知を受けて、その情報処理装置からその情報処理装置の装置状態を表わす状態データを取り出すデータ取出部と、
上記通知に対応する故障を、互いに重篤度が異なる複数の故障タイプのうち、その故障の重篤度に対応する故障タイプに分類する故障分類部と、
上記データ取出部が取り出した状態データを、上記複数の故障タイプそれぞれに対応する複数の格納領域のうち、上記故障分類部によって分類された故障タイプに対応する格納領域に格納するデータ格納部とを構築することを特徴とする。
本発明の監視プログラムによれば、情報処理装置における故障を高い確度で発見することができる監視装置を容易に実現することができる。
また、上記目的を達成する本発明の情報処理システムは、所定の情報処理動作を実行しその情報処理動作の実行中に故障が発生すると故障発生を通知する情報処理装置;および、
上記情報処理装置による故障発生の通知を受けて、その情報処理装置からその情報処理装置の装置状態を表わす状態データを取り出すデータ取出部と、
上記通知に対応する故障を、互いに重篤度が異なる複数の故障タイプのうち、その故障の重篤度に対応する故障タイプに分類する故障分類部と、
上記データ取出部が取り出した状態データを、上記複数の故障タイプそれぞれに対応する複数の格納領域のうち、上記故障分類部によって分類された故障タイプに対応する格納領域に格納するデータ格納部とを備えた監視装置;
とを備えたことを特徴とする。
本発明の情報処理システムによれば、情報処理装置における故障を高い確度で発見することができる。
尚、本発明の監視プログラムおよび本発明の情報処理システムについては、ここではその基本形態のみを示すのにとどめるが、これは単に重複を避けるためであり、本発明にいう監視プログラムおよび情報処理システムには、上記の基本形態のみではなく、前述した監視装置の各形態に対応する各種の形態が含まれる。
本発明によれば、情報処理装置における故障を高い確度で発見することができる監視装置と、コンピュータをそのような監視装置として動作させる監視プログラムと、情報処理装置における故障を高い確度で発見することができる情報処理システムとを提供することができる。
本発明の一実施形態を含むクライアント・サーバシステムの一例を示す図である。 サーバシステム100のハードウェア構造を示す模式図である。 本発明の監視プログラムの一実施形態が記憶されたROM121bを示す概念図である。 図3に示す監視プログラム500をCPU121aが実行することによって実現される監視装置120の機能を示す機能ブロック図である。 監視装置120において実行される状態データの採取と格納との処理におけるメインルーチンのフローチャートである。 状態データの採取および格納を行なうサブルーチンのフローチャートである。 サブデータの採取を行なうサブルーチンのフローチャートである。 1つのサブデータに対するメモリ122内への格納処理を行なうサブルーチンのフローチャートである。 メモリ122の内部構造を示す模式図である。 図9に示す重大故障用格納領域の内部構造を示す模式図である。 図9に示す軽微故障用格納領域の内部構造を示す模式図である。 、図10に示すMajor2K部分122a_1のサイズが増やされ、その分だけAllscan2K部分122a_9のサイズが減らされる様子を示す図である。 監視装置における状態データに対する従来の格納方法の一例を示す図である。
以下図面を参照して本発明の実施の形態を説明する。
図1は、本発明の一実施形態を含むクライアント・サーバシステムの一例を示す図である。
この図1に示すクライアント・サーバシステム10は、1台のサーバシステム100と、複数台のクライアントコンピュータ200,300,400,…とで構成されている。
サーバシステム100は、このクライアント・サーバシステム10全体を統括的に管理するサーバとして動作するものであり、本発明にいう情報処理システムの一実施形態に相当する。
図2は、サーバシステム100のハードウェア構造を示す模式図である。
図2に示すように、サーバシステム100には、クライアント・サーバシステム10の各種管理を実行し、実質的にこのクライアント・サーバシステム10のサーバとしての機能を担う情報処理装置110と、その情報処理装置110の動作を監視する監視装置120とが搭載されている。情報処理装置110は、本発明にいう情報処理装置の一例に相当し、監視装置120は、本発明の監視装置の一実施形態に相当する。
情報処理装置110は、第1から第5までの5種類のボード111,112,113,114,115を備えている。
第1のボード111には、システムコントローラ(SC)111a、メモリアクセスコントローラ(MAC)111b、および中央演算処理装置(CPU)111cという3種類のLSIが主に搭載されている。
SC111aは、CPU111cと他の部品との間でデータを仲介し、スムーズなデータの授受を実現するLSIであり、MACは、この情報処理装置110における不図示のメモリに対するデータの読み書き動作を制御するLSIであり、CPU111cは、この情報処理装置110の動作全般を制御するLSIである。
第2のボード112には、I/Oコントローラ112aおよびI/Oブリッジ112bという2種類のLSIが主に搭載されている。
I/Oコントローラ112aは、情報処理装置110と外部とのデータの授受を実行するLSIであり、I/Oブリッジ112bは、I/Oコントローラ112aが実行する授受の対象であるデータのデータ形式に対して、パラレル形式とシリアル形式との間での相互変換を施すLSIである。
また、第3のボード113には、クロスバー(XB)113aというLSIが主に搭載され、第4のボード114には、クロック発信素子(CLK)114aというLSIが主に搭載されている。
XB113aは、SC111aとI/Oコントローラ112aとの間でデータを仲介し、両者間におけるスムーズなデータの授受を実現するLSIであり、CLK114aは、この情報処理装置110の動作に共通に使われる基準クロックを生成し、情報処理装置110中の各所に供給するLSIである。
第5のボード115には、監視装置120に対して、後述の故障通知を実行する故障通知回路115aが搭載されている。
ここで、この図2に示すサーバシステム100では、監視装置120が本発明の主題に深く係わるものであり、この図2では、情報処理装置110については、この監視装置120による監視の対象となる上記に説明した各LSI、および上記の故障通知回路115aが主に図示されており、情報処理装置110が備える他の部品や回路については図示が省略されている。
監視装置120は、CPU121aやROM121bやRAM121cが搭載された処理ボード121と、メモリ122とを備えている。
処理ボード121は、上記の各LSIに対する監視機能を実質的に担っており、メモリ122には、処理ボード121による監視の結果が格納される。
処理ボード121に搭載されたROM121bには、本発明の監視プログラムの一実施形態が記憶されており、処理ボード121に搭載されたCPU121aが、このROM121bに記憶されたプログラムに従って動作することによって監視機能が実現される。
図3は、本発明の監視プログラムの一実施形態が記憶されたROM121bを示す概念図である。
図3に示す本発明の監視プログラムの一実施形態である監視プログラム500は、データ取出部510と、故障分類部520と、データ格納部530と、変更部540とで構成されている。
図2に示す監視装置120に電源が投入されると、この図3に示す監視プログラム500が、適宜にRAM121c上に展開される。そして、CPU121aが、そのRAM121c上に展開された監視プログラム500を実行する。これにより、監視装置120における上記の機能が実現される。この、監視プログラム500の各要素の作用の詳細については後述する。
図4は、図3に示す監視プログラム500をCPU121aが実行することによって実現される監視装置120の機能を示す機能ブロック図である。
この図4に示すように、監視装置120の機能は、データ取出部610と、故障分類部620と、データ格納部630と、変更部640という機能ブロックで構成されている。図2に示す監視装置120のCPU121aが図3に示す監視プログラム500を実行すると、監視プログラム500を構成するデータ取出部510、故障分類部520、データ格納部530、および変更部540が、それぞれこの図4に示すデータ取出部610、故障分類部620、データ格納部630、および変更部640を構築する。
ここで、この図4に示すデータ取出部610、故障分類部620、データ格納部630、および変更部640は、それぞれ本発明にいうデータ取出部、故障分類部、データ格納部、および変更部の各一例に相当する。
以下、図4に示す監視装置120の各機能ブロックを説明することによって、図3に示す監視プログラム500の各要素も併せて説明する。
まず、各要素の概略について説明する。
図4に示すデータ取出部610では、図2に示す故障通知回路115aが発した、情報処理装置110における故障発生の通知を受けて、情報処理装置110の装置状態を表わす状態データが、その情報処理装置110から取り出される。ここで、この状態データは、図2に示す各LSIにおいて内部生成される、そのLSIの動作状態を表わすサブデータからなり、状態データの取り出しは、データ取出部610が図2に示す各LSIから適宜にサブデータを採取することで行なわれる。
故障分類部620では、情報処理装置110で発生した故障が、処理能力の大幅な低下やサーバダウンに繋がる重大故障タイプと、実質的な被害がほとんど無い軽微故障タイプという互いに重篤度が異なる2つの故障タイプのうち、その故障の重篤度に対応するタイプに分類される。
データ格納部630では、データ取出部610によって取り出された状態データがメモリ122における、故障分類部620によって分類された故障タイプに対応する格納領域に格納される。ここで、この格納領域は、互いに異なるデータサイズに対応した複数の格納部分に細分化されており、データ格納部630が状態データを格納する時には、その状態データを構成する複数のサブデータそれぞれが、格納領域中の、そのサブデータのデータサイズに対応した格納部分に格納されることとなる。
変更部640では、複数の格納部分のうち、所望の格納部分のサイズが、ユーザの操作によって変更されることで、その所望の格納部分におけるサブデータの最大格納数が変更される。ここで、本実施形態では、このサイズの変更は、図1および図2に示すサーバ・コンピュータ100に電気的に接続された端末機器に対するユーザ操作を介して行なわれる。図4では、ノート型のパーソナルコンピュータ700が、サーバ・コンピュータ100延いては監視装置120の変更部640に接続された様子が示されている。
次に、この監視装置120について、その監視装置120で実行される処理の流れに注目して詳細に説明する。
尚、以下の説明では、図1から図4までの各図に示す構成要素について、特に図番を断らずに参照する。
図5は、監視装置120において実行される状態データの採取と格納との処理におけるメインルーチンのフローチャートである。
この図5のフローチャートが表わすメインルーチンは、監視装置120に電源が投入されるとスタートする。処理がスタートすると、情報処理装置110の故障通知回路115aによる故障発生の通知を待つ待機ループ(ステップS101)が開始する。故障通知回路115aから故障発生が通知されるまでは、後述のステップS102およびステップS200が省略され、処理は、ループ端(ステップS103)を経てステップS101に戻る。
故障通知回路115aから故障発生が通知されると、その通知が監視装置120で受け取られる(ステップS102)。そして、その状態データの採取および格納を行なうサブルーチンが、監視装置120のデータ取出部610、故障分類部620、およびデータ格納部630において実行される(ステップS200)。このサブルーチンが終了すると、処理は、ループ端(ステップS103)を経てステップS101に戻る。
このメインルーチンでは、以上のような処理が、監視装置120の電源が落とされるまで続けられる。
次に、上記の状態データの採取および格納を行なうサブルーチン(ステップS200)について説明する。
図6は、状態データの採取および格納を行なうサブルーチンのフローチャートである。
このサブルーチンがスタートすると、まず、データ取出部610が故障通知回路115aにアクセスすることによって、今回通知された故障がどのような故障であるのか(故障状態)を特定する(ステップS201)。ここで、情報処理装置110における、監視対象の各LSIは、自己の内部で生じた異常を逐一検知し故障通知回路115aに通知する機能を有している。故障通知回路115aは、各LSIが発する異常の通知を総合的に分析して、情報処理装置110が装置として故障している否かを判断するとともに、その故障がどのような故障であるかという故障状態を認識して、その認識した故障状態を故障通知回路115a内のメモリに記述する。ステップS201では、その故障通知回路115a内のメモリの記述内容から、今回の故障の故障状態が特定される。
次に、今回の通知に対して通し番号(LOG−ID)が採番される(ステップS202)。このLOG−IDについては、後に詳細に述べる。
本実施形態では、情報処理装置110からの状態データの取り出しは、上述したようにデータ取出部610が各LSIから適宜にサブデータを採取することで行なわれる。ここで、情報処理装置110において発生する様々な故障状態の故障それぞれに対して、図2示す7種類のLSIのうち、どのLSIが主な故障原因となるかが予め検討されている。また、各LSIにおいて内部生成されるサブデータは、後述するように複数種類存在する。そして、各故障状態を表わすために、その故障原因のLSIからどのような種類のサブデータが必要かも予め検討されている。本実施形態では、そのような検討結果をまとめた次のような表が用意されている。
表1は、各LSIと、各LSIが原因となり得る各種の故障状態と、各故障状態を表わすために採取すべきサブデータの種類との対応関係を、重篤度の高い重大な故障タイプ(重大故障タイプ)の故障について示す一覧表であり、表2は、表1と同様の対応関係を、重篤度の低い軽微な故障タイプ(軽微故障タイプ)の故障について示す一覧表である。
Figure 0004478196
Figure 0004478196
表1からは、例えば、「CD Error」という、重大故障タイプの故障の故障状態E1については、故障の原因となり得るLSIが、上述したSC111a、MAC111b、およびXB113aであることが分かる。同様に、表2からは、例えば、「Minor Face」という軽微故障タイプの故障の故障状態E2については、故障の原因となり得るLSIが、SC111aであることが分かる。
また、各故障状態を表わすために採取すべきサブデータの種類も、この一覧表を参照することで特定される。
例えば、上記の各LSIは、自己の動作状態を表わすサブデータとして、表1および表2に示す、Major情報J1、Minor情報J2、Allscan情報J3、History情報J4、Config情報J5、およびAnalyze情報J6という6種類のサブデータを内部生成して記憶する。ここで、表1および表2に示すこれら6種類のサブデータそれぞれが、本発明にいうサブデータの一例に相当する。
Major情報J1は、LSIを構成する複数の微小部品のうちの主たる部品について異常の有無を示すサブデータであり、Minor情報J2は、LSIを構成する複数の微小部品のうち比較的重要性の低い残りの部品について異常の有無を示すサブデータである。また、Allscan情報J3は、そのLSIにおける異常発生時にそのLSIがどのような処理を実行していたかを示すサブデータであり、History情報J4は、そのLSIにおける異常発生までの一定期間における動作履歴を示すサブデータである。また、Config情報J5は、そのLSIにおける異常発生時におけるLSI内の所定箇所におけるハイ/ロー状態を示すサブデータである。また、Analyze情報J6は、そのLSIにおける異常発生時に立てられるフラグである。
本実施形態では、これらの6種類のうち、各種の故障状態について、各LSIから採取すべきサブデータの種類が、表1および表2に示すように決まっている。表1および表2では、各種の故障状態について、採取すべきサブデータが「○」印で示され、採取しないサブデータが「×」印で示されている。
表1からは、例えば、「CD Error」という故障状態E1については、SC111aからMajor情報J1とAnalyze情報J6とを採取し、MAC111bからMajor情報J1とMinor情報J2とConfig情報J5とAnalyze情報J6とを採取し、XB113aからConfig情報J5とAnalyze情報J6とを採取すべきであることが分かる。また、表2からは、「Minor Face」という故障状態E2については、SC111aからMinor情報J2とAnalyze情報J6とを採取すべきであることが分かる。
データ取出部610は、このような一覧表をデータ形式で記憶している。
図6のフローチャートでは、上記のステップS202に続いて、上記の特定された故障状態について、主な故障原因となり得るLSI、および、そのLSIから採取すべきサブデータの種類が、上記の一覧表を参照することで特定される(ステップS203)。
LSIおよびサブデータの種類が特定されると、次に、その特定結果に基くサブデータの採取を行なうサブルーチンが、監視装置120のデータ取出部610において実行される(ステップS300)。このサブルーチンが終了すると、処理は、図5に示すメインルーチンに戻る。
以下、このサブデータの採取を行なうサブルーチン(ステップS300)について説明する。
図7は、サブデータの採取を行なうサブルーチンのフローチャートである。
このサブルーチンがスタートすると、採取すべきサブデータの個数分の、以下の採取処理の繰返しループが開始される(ステップS301)。例えば、上記の「CD Error」という故障状態E1については、3個のLSIから、合計で8個のサブデータが採取されるので、都合8回の繰返しループが開始されることとなる。
ここで、本実施形態では、例えばこの「CD Error」という故障状態E1について採取される8個のサブデータのように、ある故障状態について採取される複数個のサブデータの組が、その故障状態の故障が発生した時の情報処理装置110の装置状態を表わす状態データとして扱われる。この複数個のサブデータからなる状態データが、本発明にいう状態データの一例に相当する。
ループが開始されると、採取対象のLSIのうちの1つのLSIへのアクセスが実行され、そのLSIから採取されるべきサブデータのうちの1つのサブデータが採取される(ステップS302)。
ステップS301において1つのサブデータが採取されると、その採取されたサブデータに対する、監視装置120のメモリ122内への格納処理を行なうサブルーチンが実行される(ステップS400)。
そして、その1つのサブデータがメモリ122内へ格納されると、処理は、ループ端(ステップS303)を経てステップS301に戻り、所定の優先順位における次のサブデータについての採取(ステップS302)と格納(ステップS400)とが実行される。
この図7のサブルーチンでは、この採取(ステップS302)と格納(ステップS400)とが、採取すべきサブデータの個数分だけ繰り返されると、図6に示すサブルーチンへと処理が戻る。
次に、1つのサブデータに対するメモリ122内への格納処理を行なうサブルーチン(ステップS400)について説明する。
図8は、1つのサブデータに対するメモリ122内への格納処理を行なうサブルーチンのフローチャートである。
このサブルーチンがスタートすると、まず、格納対象の1つのサブデータ係わる故障のタイプが、上記の重大故障タイプと軽微故障タイプとの2つの故障タイプのうちのいずれの故障タイプであるかが確認される。(ステップS401)。ここで、この1つのサブデータは、そもそも図6のフローチャートにおけるステップS201において特定された故障状態を表わすのに必要なサブデータとして採取されたものである。即ち、この1つのサブデータがどのような故障状態の故障に係わっているかは、このステップS401の時点で既知である。そこで、このステップS401では、その既知の故障状態が、重大故障タイプの故障に対応する表1に属するか、軽微故障タイプの故障に対応する表2に属するかが確認される。
次に、格納対象の1つのサブデータのデータサイズが確認される(ステップS402)。
ここで、本実施形態では、各LSIから採取される上記の6種類のサブデータそれぞれについて、データサイズが、以下のサイズのいずれかであることが分かっている。
Major情報J1については、約2キロバイト、約1キロバイト、および約0.5キロバイトのうちのいずれかであることが分かっており、Minor情報J2についても、これら3種類のサイズのうちのいずれかであることが分かっている。Allscan情報J3については、約8キロバイト、約4キロバイト、約2キロバイト、約1キロバイト、および約0.5キロバイトのうちのいずれかであることが分かっており、Config情報J5については、約4.4キロバイトおよび約0.7キロバイトのうちのいずれかであることが分かっている。また、History情報J4とAnalyze情報J6とについては、それぞれほぼ決まった1種類のサイズであることが分かっている。
上記のステップS402では、格納対象の1つのサブデータのデータサイズが、上記のような複数種類のサイズのうちのどのサイズであるかが確認される。
次に、格納対象の1つのサブデータについて、ステップS402までに確認された故障タイプとそのサブデータのデータサイズに応じて、メモリ122内における格納の仕方が以下のように決定される(ステップS403)。
まず、メモリ122の内部構造について説明する。
図9は、メモリ122の内部構造を示す模式図である。
この図9に示すように、メモリ122の内部は、重大故障タイプの故障に係わるサブデータ(重大故障データ)用の格納領域(重大故障用格納領域)と、軽微故障タイプの故障に係わるサブデータ(軽微故障データ)用の格納領域(軽微故障用格納領域)とに大別されている。そして、これら重大故障用格納領域と軽微故障用格納領域とのそれぞれの内部が、次のように、さらに細分化されている。
図10は、図9に示す重大故障用格納領域の内部構造を示す模式図であり、図11は、図9に示す軽微故障用格納領域の内部構造を示す模式図である。
重大故障用格納領域122aは、図10に示すように複数の格納部分に細分化されているが、まず、Major情報が格納される部分として、約2キロバイト、約1キロバイト、および約0.5キロバイトそれぞれのサイズのMajor情報が格納されるMajor2K部分122a_1、Major1K部分122a_2、およびMajor0.5K部分122a_3が用意されている。また、Minor情報が格納される部分として、約2キロバイト、約1キロバイト、および約0.5キロバイトそれぞれのサイズのMinor情報が格納されるMinor2K部分122a_4、Minor1K部分122a_5、およびMinor0.5K部分122a_6が用意されている。また、Allscan情報が格納される部分として、約8キロバイト、約4キロバイト、約2キロバイト、約1キロバイト、および約0.5キロバイトそれぞれのサイズのAllscan情報が格納されるAllscan8K部分122a_7、Allscan4K部分122a_8、Allscan2K部分122a_9、Allscan1K部分122a_10、およびAllscan0.5K部分122a_11が用意されている。また、Config情報が格納される部分として、約4.4キロバイトおよび約0.7キロバイトそれぞれのサイズのConfig情報が格納されるConfig4.4K部分122a_13およびConfig0.7K部分122a_14が用意されている。History情報とAnalyze情報とのそれぞれが格納される部分としては、それぞれ1種類の部分であるHistory部分122a_12とAnalyze部分122a_15とが用意されている。
さらに、上記に述べた重大故障用格納領域122a内の15種類の格納部分それぞれは、例えば、Major2K部分122a_1がN個の区画に区分けされ、Major1K部分122a_2がN個の区画に区分けされているというように、各々複数個の区画に区分けされており、各区画には1個のサブデータが格納される。
ここで、例えば、Major2K部分122a_1における区画1個のサイズは、その区画に格納される約2キロバイトのMajor情報のサイズに応じた約2キロバイトのサイズとなっており、また例えば、Allscan8K部分122a_7における区画1個のサイズは、その区画に格納される約8キロバイトのAllscan情報のサイズに応じた約8キロバイトとなっている。このように、本実施形態では、各格納部分における区画1個のサイズは、その格納部分の種類に応じたサイズとなっている。さらに、各格納部分を構成する区画の個数も、その格納部分の種類に依って異なっている。
また、各格納部分を構成する区画それぞれには、#1,#2,#3,…,#Nというように番号が振られており、監視装置において採取されたサブデータは、そのサブデータの種類およびデータサイズに対応する格納部分において、若い番号に対応する区画から順次に格納される。
一方、軽微故障用格納領域122bには、上述した表2から分かるように、監視装置122で採取されるサブデータがMinor情報とAnalyze情報との2種類であることから、図11に示すように、Minor情報用の3種類の格納部分122b_1、122b_2、および122b_3と、Analyze情報用の1種類の格納部分122b_4だけが設けられている。各格納部分の構造については、図10に示す重大故障用格納領域122a中の同名の格納部分と同じであるので重複説明を省略する。
図8に戻って説明を続ける。尚、以下の説明では、図9、図10、および図11に示す各構成要素について、特に図番を断らずに参照する。
上述したように、ステップS403の処理では、メモリ122への格納対象であるサブデータが係わっている故障の故障タイプと、そのサブデータのデータサイズとによって、メモリ122内における格納部分が決定される。
例えば、上記の「CD Error」という故障状態E1についてSC111aから取得されたMajor情報が格納対象であった場合、まず、そのMajor情報が係わっている故障の故障タイプは、「CD Error」という故障状態E1が上記の表1に記載されていることから重大故障タイプであるので、そのMajor情報が、メモリ122内の重大故障用格納領域122a内に格納されることが決定される。さらに、そのMajor情報のデータサイズが、例えば約2キロバイトであったとすると、そのデータサイズによって、そのMajor情報が、重大故障用格納領域122a内のMajor2K部分122a_1に格納されることが決定される。
このように格納部分が決定されると、格納対象のサブデータに、図6のフローチャートのステップS202で採番されたLOG−IDが付与され、その付与済みのサブデータが、上記の決定された格納部分に格納される(ステップS404)。そして、その後、処理が図7のサブルーチンに戻る。
図7のサブルーチンでは、サブデータの採取と格納とが、採取すべきサブデータの数だけ繰り返される。そして、その繰返しによって、例えば「CD Error」や「Minor Face」等といった1つの故障状態について、その故障状態の故障が発生した時の情報処理装置110の装置状態を表わす状態データが、共通のLOG−IDが付与された複数個のサブデータの組として採取され格納される。
ここで、1つの状態データをなす複数のサブデータ全ては、1つの故障状態に対応しているので、それら複数のサブデータは、図9に示す2つの格納領域のうちの1つに全て格納されることとなる。ただし、格納領域内では、複数のサブデータそれぞれは、各サブデータのデータサイズに応じて分散して格納される。しかし、それら複数のサブデータには互いに共通のLOG−IDが付与されているので、格納領域内に分散して格納された状態であっても、この共通のLOG−IDを参照することで、1つの状態データを構成していることが分かる。
以上、説明した本実施形態によれば、まず、複数のサブデータからなる状態データは、その状態データが係わっている故障の故障タイプが、重大故障タイプであるか軽微故障タイプであるかに応じて2つの格納領域のうちのいずれかに格納されることとなる。これにより、重大故障タイプの故障について得られる状態データに対する、頻発する軽微故障タイプの故障について得られる状態データによる頻繁な上書きが回避される。従って、このような重大故障タイプの故障について得られる状態データの保護性が高まるので、後日のメンテナンスの際等に、このような状態データに基いて、情報処理装置における故障を高い確度で発見することができる。
また、本実施形態によれば、1つの状態データを構成する複数のサブデータそれぞれは、上記の格納領域内の、そのサブデータのデータサイズに応じた格納部分に格納される。これにより、上記格納領域内が、各サブデータのデータサイズに応じて有効に利用され、その格納領域内における無駄な未使用領域の発生が抑制されるので、その格納領域の広さを十分に生かすことができる。これにより、サブデータをなるべく多く、延いては上記状態データをなるべく多く格納することができ、その結果、この格納領域における上書き発生の頻度が抑制されるので、この格納領域内の状態データに対する保護性を一層高めることができる。
ところで、表1や表2に示した故障状態の故障は、サーバシステム100の使用環境や、SC111aやCPU111c等といったLSIの製造誤差等に起因して、故障の発生に偏りが生じることがある。そのような偏りが生じると、特定の種類のサブデータが採取される割合が高まり、その結果、メモリ122内の、その特定の種類のサブデータに対応する格納部分が満たされやすくなって、その特定の種類のサブデータについての上書きの頻度が高くなってしまう。本実施形態では、このような事態に対処できるように、所望の格納部分のサイズを、ユーザからの操作を受けて変更する機能が備えられている。本実施形態では、この機能が、図4に示す変更部640によって担われている。
ここで、本実施形態では、この格納部分のサイズの変更は、メモリ122全体の容量が一定なので、例えば、所望の格納部分のサイズを増やす場合には、他の格納部分のサイズを適宜に減らして、その減らした分をその所望の格納部分に割り当てるという方法が採られている。そのようなサイズ変更の指示が、本実施形態では、図4に示すように、変更部640に接続された端末機器(図4の例ではノート型のパーソナルコンピュータ700)を介してなされる。
まず、ユーザが、ノート型のパーソナルコンピュータ700の表示画面に表示される不図示の操作画面を介して、所望の格納部分について、それまでよりも多い新たなサイズを入力する。また、他の適当な格納部分について、その所望の格納部分のサイズを増やした分だけ減らした新たなサイズを入力する。すると、このノート型のパーソナルコンピュータ700から、変更部640に対して、それら2つの格納部分それぞれの新たなサイズと、各格納部分における区画1個分のサイズとが伝えられる。ここで、ノート型のパーソナルコンピュータ700内のメモリには、図10に示した複数の格納部分それぞれにおける区画1個分のサイズが予め記憶されており、変更部640に対しては、ユーザによって入力された格納部分のサイズと、その記憶されている区画1個分のサイズとが伝えられる。
以下、具体例を参照して、格納部分のサイズ変更について説明を続ける。
図12は、図10に示すMajor2K部分122a_1のサイズが増やされ、その分だけAllscan2K部分122a_9のサイズが減らされる様子を示す図である。
Major2K部分122a_1について、変更前のサイズをS1、新たなサイズをS2、区画1個分のサイズをSaとすると、このサイズ変更による、以下の式で表わされる増加分Lだけ、Major2K部分122a_1内の区画数が増えることとなる。
=(S2−S1)/Sa
一方、Allscan2K部分122a_9については、変更前のサイズをS3、新たなサイズをS4、区画1個分のサイズをSbとすると、以下の式で表わされる減少分Lだけ、Major2K部分122a_1内の区画数が減ることとなる。
=(S3−S4)/Sb=(S2−S1)/Sb
本実施形態では、このようなサイズ変更により、所望の格納部分における区画数すなわちその格納部分におけるサブデータの最大格納数を増やすことで、そのその格納部分における上書きの頻度を下げ、その格納部分におけるサブデータの保護性が高められる。
また、上記では、所望の格納部分のサイズを、他の適当な格納部分のサイズを減らすことで増やす例について説明したが、本実施形態では、極端な例として、例えば1つの格納部分を無くしてその格納部分が有していたサイズを所望の格納部分に全て追加することも可能である。
また、1つの格納部分のサイズを減らして、その分のサイズを有する新規の格納部分を設ける等といった操作も可能である。ただし、この場合には、その新規の格納部分については、ユーザは、その格納部分のサイズとともに、その格納部分の区画1個分のサイズを入力する必要がある。
以上、説明した本実施形態によれば、上述したように、頻繁に採取される軽微故障データによって重大故障データが上書きされて失われてしまうといった不具合が回避され、さらに、特に保護したいサブデータが格納される格納部分のサイズを増やしてそのサブデータに対する保護性を高めること等が可能となる。
尚、上記では、本発明の情報処理システムの一実施形態として、クライアント・サーバシステム全体を管理するサーバシステム100を例示し、本発明の監視装置の一実施形態として、そのサーバシステム100において、クライアント・サーバシステムの管理機能を有する情報処理装置110の動作を監視する監視装置120を例示したが、本発明はこれに限るものではない。本発明の情報処理システムは、何らかの情報処理装置と、その情報処理装置の動作を監視する監視装置とからなる情報処理システムであれば特にその形態を問うものではなく、本発明の監視装置は、何らかの情報処理装置の動作を監視する監視装置であれば特にその形態を問うものではない。
また、上記では、本発明にいうデータ取出部の一例として、図2に示す7種類のLSIにアクセスしてサブデータを採取するデータ取出部610を例示したが、本発明はこれに限るものではなく、本発明にいうデータ取出部は、これら7種類以外のLSIにアクセスしてサブデータを採取するものであっても良い。
また、上記では、本発明にいうデータ取出部の一例として、表1や表2に示す6種類のサブデータを採取するデータ取出部610を例示したが、本発明はこれに限るものではなく、本発明にいうデータ取出部は、6種類のサブデータ以外のサブデータを採取するものであっても良い。
上記では、本発明にいうデータ格納部の一例として、1つの状態データをなす複数のサブデータを、係わっている故障の故障タイプに応じた格納領域内に、各サブデータのデータサイズに応じて分散して格納するデータ格納部630を例示したが、本発明はこれに限るものではなく、本発明にいうデータ格納部は、例えば、1つの状態データをなす複数のサブデータを、係わっている故障の故障タイプに応じた格納領域内の1つの区画にまとめて格納するもの等であっても良い。

Claims (5)

  1. 所定の情報処理動作を実行しその情報処理動作の実行中に故障が発生すると故障発生を通知する情報処理装置の動作を監視する監視装置において、
    異なるデータサイズに対応した複数の格納部分をそれぞれ備える、互いに重篤度が異なる複数の故障タイプのそれぞれに対応して設けられた複数の格納領域を有する記憶部と、
    前記情報処理装置による故障発生の通知を受けて、該情報処理装置の装置状態を表わす状態データを該情報処理装置から取り出すデータ取出部と、
    前記通知に対応する故障を、通知された故障の重篤度に対応する故障タイプに分類する故障分類部と、
    前記データ取出部が取り出した状態データを、前記複数の格納領域のうち、前記故障分類部によって分類された故障タイプに対応する格納領域内の、取り出した状態データのデータサイズに対応した格納部分に格納するデータ格納部とを備えたことを特徴とする監視装置。
  2. 前記データ取出部が、前記状態データとして、前記情報処理装置を構成する複数の構成部品それぞれの部品状態を表わす複数のサブデータを該情報処理装置から取り出すものであり、
    前記データ格納部が、状態データを前記格納領域に格納する時に、その状態データを構成する複数のサブデータそれぞれを、該格納領域中の、互いに異なるデータサイズに対応した複数の格納部分のうち、該サブデータのデータサイズに対応した格納部分に格納するものであることを特徴とする請求項1記載の監視装置。
  3. 前記監視装置は更に、
    前記格納部分の広さを変、該格納部分における前記状態データの最大格納数を変更する変更部を備えたことを特徴とする請求項1または2に記載の監視装置。
  4. 異なるデータサイズに対応した複数の格納部分をそれぞれ有し、互いに重篤度が異なる複数の故障タイプのそれぞれに対応して設けられた複数の格納領域を有する記憶部を備えたコンピュータに組み込まれ、該コンピュータに、所定の情報処理動作を実行しその情報処理動作の実行中に故障が発生すると故障発生を通知する情報処理装置の動作を監視させる監視プログラムにおいて、
    該コンピュータ上に、
    前記情報処理装置による故障発生の通知を受けて、該情報処理装置の装置状態を表わす状態データを該情報処理装置から取り出すデータ取出部と、
    前記通知に対応する故障を、互いに重篤度が異なる複数の故障タイプのうち、通知された故障の重篤度に対応する故障タイプに分類する故障分類部と、
    前記データ取出部が取り出した状態データを、前記故障分類部によって分類された故障タイプに対応する格納領域内の、前記取り出した状態データのデータサイズに対応した格納部分に格納するデータ格納部とを構築することを特徴とする監視プログラム。
  5. 所定の情報処理動作を実行し情報処理動作の実行中に故障が発生すると故障発生を通知する情報処理装置;および、
    前記情報処理装置からの故障発生の通知を受けて、該情報処理装置の装置状態を表わす状態データを該情報処理装置から取り出すデータ取出部と、
    異なるデータサイズに対応した複数の格納部分をそれぞれ備える、互いに重篤度が異なる複数の故障タイプのそれぞれに対応して設けられた複数の格納領域を有する記憶部と、
    前記通知に対応する故障を、通知された故障の重篤度に対応する故障タイプに分類する故障分類部と、
    前記データ取出部が取り出した状態データを、前記故障分類部によって分類された故障タイプに対応する格納領域内の、前記取り出した状態データのデータサイズに対応した格納部分に格納するデータ格納部とを備えた監視装置;
    を備えたことを特徴とする情報処理システム。
JP2008502580A 2006-02-28 2006-02-28 監視装置、監視プログラム、および情報処理システム Expired - Fee Related JP4478196B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2006/303724 WO2007099593A1 (ja) 2006-02-28 2006-02-28 監視装置、監視プログラム、および情報処理システム

Publications (2)

Publication Number Publication Date
JPWO2007099593A1 JPWO2007099593A1 (ja) 2009-07-16
JP4478196B2 true JP4478196B2 (ja) 2010-06-09

Family

ID=38458716

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008502580A Expired - Fee Related JP4478196B2 (ja) 2006-02-28 2006-02-28 監視装置、監視プログラム、および情報処理システム

Country Status (3)

Country Link
US (1) US7925745B2 (ja)
JP (1) JP4478196B2 (ja)
WO (1) WO2007099593A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8874610B2 (en) * 2011-12-06 2014-10-28 International Business Machines Corporation Pattern-based stability analysis of complex data sets

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02297228A (ja) * 1989-05-11 1990-12-07 Fujitsu Ltd 障害情報格納方式
JP3014490B2 (ja) * 1991-06-18 2000-02-28 株式会社日立製作所 障害処理装置
JP2882263B2 (ja) * 1993-12-03 1999-04-12 三菱電機株式会社 ネットワーク監視方式
JPH10283230A (ja) * 1997-03-31 1998-10-23 Nec Corp ファイルデータ格納装置およびプログラムを記録した機械読み取り可能な記録媒体
JP2001209561A (ja) * 2000-01-27 2001-08-03 Mitsubishi Electric Corp 異常処理方式及び異常処理方法
JP3653219B2 (ja) * 2000-10-30 2005-05-25 シャープ株式会社 印刷装置およびそれを用いた通信装置または情報処理装置
JP2002229816A (ja) * 2001-01-31 2002-08-16 Fujitsu Ltd 障害情報取得システム
JP4369067B2 (ja) 2001-02-15 2009-11-18 ヤンマー株式会社 エンジンのシリンダブロック加工方法
JP3570395B2 (ja) * 2001-06-06 2004-09-29 日本電気株式会社 故障解析情報自動採取システム及び故障解析情報自動採取プログラム
US6996580B2 (en) * 2001-06-22 2006-02-07 International Business Machines Corporation System and method for granular control of message logging
JP4045991B2 (ja) * 2003-03-27 2008-02-13 株式会社日立製作所 ポリシールールの生成方法およびそれを用いたジョブ運用管理方法
JP4455411B2 (ja) * 2004-08-06 2010-04-21 キヤノン株式会社 情報処理装置及びその情報通知方法、並びに制御プログラム

Also Published As

Publication number Publication date
WO2007099593A1 (ja) 2007-09-07
JPWO2007099593A1 (ja) 2009-07-16
US20090013075A1 (en) 2009-01-08
US7925745B2 (en) 2011-04-12

Similar Documents

Publication Publication Date Title
JP4980581B2 (ja) 性能監視装置、性能監視方法及びプログラム
JP5949780B2 (ja) プログラム、情報処理装置および方法
Di et al. Logaider: A tool for mining potential correlations of hpc log events
US9128899B1 (en) Predictive failover planning
US8271417B2 (en) Health meter
EP2685380B1 (en) Operations management unit, operations management method, and program
US7206912B2 (en) Method for managing pair states in a storage system
TW202009705A (zh) 用以自動管理發生於資料中心系統的硬體錯誤事件的方法及其系統
CN107924360B (zh) 计算系统中的诊断框架
US20080282104A1 (en) Self Healing Software
US20230342343A1 (en) Data center modeling for facility operations
JP2007323193A (ja) 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム
JP2006260056A (ja) 統合運用管理サーバ、統合的な運用管理のためのメッセージの抽出方法、及び、プログラム
JP5975094B2 (ja) 交換候補提示方法、情報処理装置、及びプログラム
Brandt et al. OVIS-2: A robust distributed architecture for scalable RAS
US20130311646A1 (en) Management method and management system
US20100011100A1 (en) Health Check System, Server Apparatus, Health Check Method, and Storage Medium
JP4478196B2 (ja) 監視装置、監視プログラム、および情報処理システム
Ahlgren et al. Cray System Monitoring: Successes Requirements and Priorities.
JP2011180805A (ja) 運用管理装置、運用管理方法、運用管理プログラム
JP5737789B2 (ja) 仮想マシン運用監視システム
Lundin et al. Significant advances in Cray system architecture for diagnostics, availability, resiliency and health
JP5696492B2 (ja) 故障検出装置、故障検出方法、及び、故障検出プログラム
Sankar et al. Soft failures in large datacenters
JP5655639B2 (ja) 監視装置、監視方法、プログラム及び監視システム

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090522

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100309

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100312

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130319

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140319

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees