JP4260723B2 - 情報処理装置、情報処理装置の制御方法、及びプログラム - Google Patents
情報処理装置、情報処理装置の制御方法、及びプログラム Download PDFInfo
- Publication number
- JP4260723B2 JP4260723B2 JP2004320832A JP2004320832A JP4260723B2 JP 4260723 B2 JP4260723 B2 JP 4260723B2 JP 2004320832 A JP2004320832 A JP 2004320832A JP 2004320832 A JP2004320832 A JP 2004320832A JP 4260723 B2 JP4260723 B2 JP 4260723B2
- Authority
- JP
- Japan
- Prior art keywords
- component
- information processing
- abnormality
- inspection
- data transfer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000010365 information processing Effects 0.000 title claims description 84
- 238000000034 method Methods 0.000 title claims description 26
- 230000005856 abnormality Effects 0.000 claims description 132
- 238000007689 inspection Methods 0.000 claims description 87
- 238000012546 transfer Methods 0.000 claims description 68
- 239000000470 constituent Substances 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 13
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 238000007726 management method Methods 0.000 description 110
- 238000012795 verification Methods 0.000 description 43
- 238000004891 communication Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 18
- 238000012545 processing Methods 0.000 description 15
- 238000012544 monitoring process Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 8
- 230000004044 response Effects 0.000 description 5
- 239000003795 chemical substances by application Substances 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/40—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass for recovering from a failure of a protocol instance or entity, e.g. service redundancy protocols, protocol state redundancy or protocol service redirection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Debugging And Monitoring (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
Description
本実施の形態に係るコンピュータシステムの全体構成を図1に示す。
本実施の形態に係るコンピュータシステムは、管理コンピュータ(本発明の情報処理装置に相当)200と情報処理システムとがネットワーク500を介して通信可能に接続されてなる。
情報処理システムは、クライアント100とアプリケーションサーバ(本発明のコンピュータに相当)300とデータベースサーバ400とストレージ装置600とネットワーク500とSAN510とを構成要素として含んで構成される。クライアント100とアプリケーションサーバ300とデータベースサーバ400とはネットワーク500を介して通信可能に接続される。またデータベースサーバ400とストレージ装置600とは、SAN(Storage Area Network)510を介して通信可能に接続される。
アプリケーションサーバ300は、上述したように、アプリケーションプログラムを実行するコンピュータである。アプリケーションプログラムは、例えば給与計算プログラムや勤務時間管理プログラム、売り上げ管理プログラム、商品在庫管理プログラム等に代表される各種業務用プログラムとすることができる。アプリケーションプログラムの実行形態としては、一つのアプリケーションプログラムが一つのアプリケーションサーバ300で実行される場合もあるし、複数のアプリケーションプログラムが一つのアプリケーションサーバ300で実行される場合もある。情報処理システムは少なくとも一つのアプリケーションサーバ300を含んで構成されている。アプリケーションサーバ300は、クライアント100から送信される様々な要求に応じて、これらのアプリケーションプログラムを実行する。またアプリケーションサーバ300は、アプリケーションプログラムの実行によりストレージ装置600に対してデータの読み書きが必要になった場合には、データベースサーバ400に対してデータの読み書きの要求を送信する。
クライアント100は、企業等における従業員などが業務を遂行する際に使用するコンピュータである。例えば、各従業員は毎日の勤務時間を記録するために、勤務時間管理プログラムを実行しているアプリケーションサーバ300に対して、出勤時刻と退社時刻とをクライアント100から送信する。この場合、勤務時間管理プログラムを実行しているアプリケーションサーバ300は、データベースサーバ400を通じてストレージ装置600に対して出勤時刻や退社時刻、その他勤務時間管理のためのデータを書き込む。
ネットワーク500は、アプリケーションサーバ300、クライアント100、管理コンピュータ200、データベースサーバ400を相互に通信可能に接続する通信網である。ネットワーク500は、例えば企業内におけるLAN(Local Area Network)とすることができる。また例えばWAN(Wide Area Network)とすることもできる。ネットワーク500は、通信ケーブルや、各種ネットワーク機器等を構成要素として含んで構成される。
データベースサーバ400は、上述したように、ストレージ装置600に記憶されるデータを読み書きするためのコンピュータである。データベースサーバ400はストレージ装置600に記憶されるデータに対する読み書きの要求をアプリケーションサーバ300から受け付けることにより、アプリケーションサーバ300とストレージ装置600との間のデータの授受を仲介する。
ストレージ装置600はデータを記憶するための装置であり、データベースサーバ400からの要求を受けて、データの読み書きを行う。データはストレージ装置600の構成要素の一つである記憶ボリュームに記憶される。記憶ボリュームは、ハードディスクドライブ等により提供される物理的な記憶領域である物理ボリュームと、物理ボリューム上に論理的に設定される記憶領域である論理ボリュームとを含む、データを記憶するための記憶領域である。本実施の形態においては図1に示すように、ストレージ装置600は1台であるが、複数台のストレージ装置600を設けるようにすることもできる。
SAN510は、データベースサーバ400とストレージ装置600とを通信可能に接続する通信網である。通信は例えばファイバチャネルプロトコルにより行うことができる。SAN510は、通信ケーブルや各種ネットワーク機器等を構成要素として含んで構成される。
管理コンピュータ200は、情報処理システムを管理するコンピュータである。情報処理システムを管理するシステム管理者等のオペレータにより使用される。管理コンピュータ200には、情報処理システムを構成するアプリケーションサーバ300やネットワーク500、ストレージ装置600等の各構成要素から、情報処理システムを管理するために用いられる様々な情報が送信される。例えば各構成要素の稼働状況を示す情報や、送受信されるデータ量を示す情報、CPU(Central Processing Unit)利用率、記憶ボリュームの記憶容量、記憶ボリュームの使用率等である。また各構成要素で障害が検出された場合には、障害の発生を知らせるメッセージなども送信されてくる。
次に、管理コンピュータ200、アプリケーションサーバ300、データベースサーバ400、クライアント100、ネットワーク500、SAN510、ストレージ装置600のそれぞれの構成について説明する。
ネットワーク500及びSAN510については、ハブやルータ等に代表されるネットワーク機器の構成を図7に示す。ネットワーク500及びSAN510はいずれも通信網であり、各ネットワーク機器の構成はそれぞれ同様である。そのため図7には、ネットワーク500を構成するネットワーク機器とSAN510を構成するネットワーク機器との構成を一つのブロック図にまとめて示す。
ストレージ装置600の構成については、図8に示す。
管理コンピュータ200は、CPU210、メモリ220、ポート230、記録媒体読取装置240、入力装置250、出力装置260、記憶装置280を備える。
業務アプリケーション監視制御プログラム920は、情報処理システムの各構成要素から管理コンピュータ200に送信されてくる様々な情報に基づいて、アプリケーションプログラムの実行に際して障害が発生していないかを監視し、障害が発生したことを検知した場合には、障害が発生した部位の絞り込みを行う。詳しくは後述する。
管理コンピュータ制御プログラム930は、例えばオペレーティングシステムのように管理コンピュータ200を制御するためのプログラムである。これにより、管理コンピュータ200が備える各種ハードウェア機器の制御やソフトウェアの制御が行われる。
出力装置260は情報を外部に出力するための装置でありユーザインタフェースとして機能する。出力装置260としては例えばディスプレイやプリンタ等を用いることができる。
次に、アプリケーションサーバ300の構成について説明する。アプリケーションサーバ300は、CPU310、メモリ320、ポート330、記録媒体読取装置340、入力装置350、出力装置360、記憶装置380を備える。これらの各装置の機能は、上述した管理コンピュータ200が備える各装置と同様である。
APサーバ制御プログラム950は、例えばオペレーティングシステムのようにアプリケーションサーバ300を制御するためのプログラムである。これにより、アプリケーションサーバ300が備える各種ハードウェア機器の制御やソフトウェアの制御が行われる。
エージェントプログラム960は、アプリケーションサーバ300を監視するための各種情報を収集し、それらの情報を管理コンピュータ200に送信するプログラムである。例えばアプリケーションサーバ300の稼働状況やCPU利用率、メモリ使用量、記憶装置380の記憶容量、障害や異常の発生状況等に関する情報を収集して管理コンピュータ200に送信する。
次に、データベースサーバ400の構成について説明する。データベースサーバ400は、CPU410、メモリ420、ポート430、記録媒体読取装置440、入力装置450、出力装置460、記憶装置480を備える。これらの各装置の機能は、上述した管理コンピュータ200が備える各装置と同様である。
データベースサーバ制御プログラム980は、例えばオペレーティングシステムのようにデータベースサーバ400を制御するためのプログラムである。これにより、データベースサーバ400が備える各種ハードウェア機器の制御やソフトウェアの制御が行われる。
エージェントプログラム960は、データベースサーバ400を監視するための各種情報を収集し、それらの情報を管理コンピュータ200に送信するプログラムである。例えばデータベースサーバ400の稼働状況やCPU利用率、メモリ使用量、記憶装置480の記憶容量、障害や異常の発生状況等に関する情報を収集して管理コンピュータ200に送信する。
次に、クライアント100の構成について説明する。クライアント100は、CPU110、メモリ120、ポート130、記録媒体読取装置140、入力装置150、出力装置160、記憶装置180を備える。これらの各装置の機能は、上述した管理コンピュータ200が備える各装置と同様である。
図6に示すように、クライアント100が備える記憶装置180には、クライアント制御プログラム990が記憶される。CPU110がクライアント制御プログラム990を実行することにより、クライアント100としての各種機能が実現される。
クライアント制御プログラム990は、従業員などがアプリケーションサーバ300を用いて業務を遂行するための各種データの入出力や送受信などを行うためのプログラムである。オペレーティングシステムとしての制御を行う機能も含まれるようにすることもできる。
次に、ネットワーク500、SAN510の構成について説明する。ネットワーク500やSAN510は、ハブやルータ等の各種ネットワーク機器520が通信ケーブルで接続されて構成される。ネットワーク機器520の構成を示すブロック図を図7に示す。
CPU521はネットワーク機器520の全体の制御を司るもので、メモリ522に記憶される本実施の形態に係る各種の動作を行うためのコードから構成されるネットワーク機器制御プログラム1000、エージェントプログラム960を実行することにより、ネットワーク機器520としての各種機能を実現する。
データポート524は、他のネットワーク機器520やアプリケーションサーバ300、管理コンピュータ200、データベースサーバ400、ストレージ装置600と通信ケーブルにより接続される。
スイッチ523はデータポート524間を相互に接続する。スイッチ523は例えばクロスバスイッチにより構成される。
次にストレージ装置600の構成について図8に示すブロック図に従い説明する。ストレージ装置600は、ストレージ制御部610、記憶ボリューム620、データポート630、管理ポート640を備えて構成される。
以上説明した情報処理システムを用いて業務アプリケーション(業務)が実行される。業務アプリケーションが実行される際には、図10に示すように、各業務アプリケーションを実行するためのアプリケーションプログラムと対応付けられた情報処理システムの各構成要素が、アプリケーションサーバ300とストレージ装置600との間のデータ転送経路として用いられる。
業務アプリケーションBや業務アプリケーションCについても同様である。このように本実施の形態に係る情報処理システムにおいては、アプリケーションサーバ300とストレージ装置600とが、アプリケーションプログラム毎にそれぞれ割り当てられる複数のデータ転送経路で通信可能に接続される。各データ転送経路は、情報処理システムの各構成要素により構成される。
次に、本実施の形態に係る情報処理システムのいずれかの構成要素において障害や異常が発生した場合の障害箇所の絞り込みの制御について説明する。フローチャートを図16に示す。
S2020ないしS2040の各処理については後述する。
管理コンピュータ200は、業務アプリケーションを監視するエージェントプログラム960を実行するアプリケーションサーバ300よりイベント(例えば障害発生)を示す情報を受信した際に、当該業務アプリケーションに対応付けられた情報処理システムの各構成要素を示すシステム構成管理テーブル800及びオブジェクト管理テーブル810を参照して、障害箇所を絞り込むための検証順位を示す検証ツリーを作成する(S2050)。
まず検証ツリーのトップ(ルート)を決める(S1000)。ここでは、障害の発生した業務アプリケーションのシステム構成情報の中で、共有数が最も多くかつ最下位のレイヤのオブジェクトをトップ(ルート)とする。
そして、S1040のように右要素の検証ツリーについて、未設定のオブジェクトを検証ツリーに設定する(S1060)。
次に左要素の検証ツリーを作る。”ネットワーク2”、”ネットワーク1”を”ストレージ装置”の左要素としてそれぞれ設定する。”ネットワーク1”の上位レイヤに共有のない”AP1”が存在するため、続けて左要素として追加する。
次に右要素の検証ツリーを作る。”ストレージ装置”の下位レイヤである”論理ボリューム1”、”論理ボリューム2”のうち共有数の高い”論理ボリューム1”を”ストレージ装置”の右要素として設定する。
次に”ネットワーク2”の下位のレイヤには”ストレージ装置”があるが、検証ツリーに設定済みであるため右の要素として何も追加しない。”ネットワーク1”の下位レイヤに共有オブジェクトである”DBMS1”があるので、右要素として設定し、”DBMS1”の上位レイヤである”DB1”、”DB2”、”DBMS1”と同一レイヤの”DBMS2”とを左要素として設定する。”DB3”は”DBMS2”の上位レイヤであるため、”DBMS2”の左要素に設定する。
次に、検証ツリーの右要素を更新する。”論理ボリューム1”に関連するオブジェクトはないが、他業務システムに”論理ボリューム2”があるので、”論理ボリューム1”の左要素に追加する。
次に、上記作成した検証ツリーを用いて障害箇所の絞り込みを行う(S2060、S2070)。
まず、検証ツリーのトップから、検証対象となるオブジェクトをチェックする。チェックは、当該オブジェクトの監視エージェントに状態を確認することにより行う。
当該オブジェクトに異常が検出された場合には、右の要素に進み、その要素であるオブジェクトチェックを行う。右の要素に進めない場合は、そのオブジェクトを障害の発生箇所と判定する。チェックの結果が確認できず障害状態の場合は、そのオブジェクトを原因と判定する。判定結果はメモリ220に記憶される。
当該オブジェクトに異常が検出されない場合は、左の要素に進み、その要素であるオブジェクトのチェックを行う。異常が検出されない場合は左の要素を次々に検証していく。これ以上左の要素が存在しない場合で、右要素分岐の処理をした場合は、右分岐を処理したオブジェクトを障害発生箇所と判定する。一度も右分岐がされていない場合は、異常が検出されたオブジェクトが存在しないことになる。この場合は、一時的障害が発生したものとみなし、過去のログ情報(各構成要素のエージェントプログラム960からそれぞれ送信された情報)などから、異常が発生したオブジェクトを検証する(S2100)。
管理コンピュータ200は、メモリ220に記憶された上記検証の結果に基づいて、障害又は異常の原因となったオブジェクトをディスプレイ等の出力装置260に表示する(S2080、S2110)。その際、障害や異常の原因となったオブジェクトや、そのオブジェクトに関連するオブジェクトを強調表示する。強調表示するとは、例えば当該オブジェクトを他のオブジェクトとは異なった色で表示することや、当該オブジェクトを点滅するように表示することを含む。当該オブジェクトの表示の色を他のオブジェクトと異ならせる場合には、例えば他のオブジェクトを黒色で表示し、当該オブジェクトのステータスが「障害」である場合には当該オブジェクトを赤色で表示し、「警告」あるいは「一時障害」である場合には当該オブジェクトを黄色で表示する。
以上の処理により障害の発生したオブジェクトを特定し、障害状態を確認した場合、システム構成管理テーブル800に障害状態のステータスを記録する(S2090)。
そして次回、障害イベントが発生した時には、上記特定された当該オブジェクトを優先的に検証する(S2020、S2030)。当該オブジェクトが障害状態であれば、上記検証処理を行わずに当該オブジェクトを障害の発生箇所であると判定し、障害状態でなかった場合には、上記の検証処理を行う(S2040)。
次に図10に示すシステム構成情報の状態で、以下に示すオブジェクトで障害が発生し”業務アプリケーションA”で障害を検知した場合の障害箇所の特定手順を示す。
まず、他の業務アプリケーションに割り当てられている構成要素が障害の原因となっている場合について説明する。具体的には、”業務アプリケーションC”の”DBMS2”が高負荷状態になっている場合について説明する。なお検証ツリーは図14に示すものを用いる。
”ネットワーク1”のスレッショルドの状態を検証すると、”ネットワーク1”は”DBMS2”の影響で負荷が掛かっている状態になっているので、右要素の”OS4”を検証する。
”OS4”のスレッショルドの状態を検証すると、”OS4”には負荷が掛かっていないので、左要素の”DBMS1”を検証する。”DBMS1”のスレッショルドの状態を検証すると、”DBMS1”も負荷が掛かっていないので、左要素の”DB1”を検証する。”DB1”のスレッショルドの状態を検証すると、”DB1”も負荷が掛かっていないので、左要素の”DB2”を検証する。”DB2”のスレッショルドの状態を検証すると、”DB2”も負荷が掛かっていないので、左要素の”OS5”を検証する。”OS5”のスレッショルドの状態を検証すると、”OS5”も負荷が掛かっていないので、左要素の”DBMS2”を検証する。
”DBMS2”のスレッショルドの状態を検証する。”DBMS2”がもともとの原因であるため、負荷が掛かっている状態である。しかし、このオブジェクトには右要素がないので、このオブジェクトを原因と判定する。
ここでは、”業務アプリケーションA”の”OS4”が障害となっている場合について説明する。ここでも図14に示す検証ツリーを使用して説明する。
まず、検証ツリーのトップである”ストレージ装置”の障害状態とI/Oの履歴を検証する。”ストレージ装置”では障害状態ではなく、I/Oの履歴が無いことから、左要素の”ネットワーク2”を検証する。
”ネットワーク2”の障害状態とI/Oの履歴を検証する。”ネットワーク2”も障害状態ではなく、I/Oの履歴が無いことから、左要素の”ネットワーク1”を検証する。
そして”OS4”の障害状態とI/Oの履歴を検証する。”OS4”は障害状態であるため、このオブジェクトを原因と判定する。
上記障害箇所の絞込み処理においては、検証ツリーを作成した後に検証を行っていたが、検証ツリーを作成せずに検証を行うことも可能である。その場合の処理の流れを図18に示すフローチャートを用いて説明する。
そして各オブジェクトの共有数をオブジェクト管理テーブル810に記憶する(S3010)。
まず管理コンピュータ200は、システム構成管理テーブル800を参照して、障害や異常が検出された業務アプリケーションと関連性のある全ての業務アプリケーションのオブジェクトについて、共有数を算出する(S4000)。
そして各オブジェクトの共有数をオブジェクト管理テーブル810に記憶する(S4010)。
上記の処理により障害や異常の発生したオブジェクトを特定することができた場合には、さらにそのオブジェクトにおいてより詳細に障害部位を特定することも可能である。
以上の処理の流れを図21に示すフローチャートを参照しながら説明する。
まず、管理コンピュータ200は障害箇所の特定を行う(S5000)。これは、上述した例えば図16に示す処理を実行することにより行うことができる。障害箇所が特定できたら(S5010)、障害箇所として特定されたオブジェクトをデータ転送経路として使用する各業務アプリケーションをシステム構成情報より全て求める(S5020)。そしてS5020で求めた業務アプリケーションの状態をエージェントより取得する(S5030)。つまり、障害部位として特定されたオブジェクトをデータ転送経路として使用する各アプリケーションプログラムのそれぞれに関して、アプリケーションサーバ300から送信されてくる異常検出情報の受信有無を調べる。そして各業務アプリケーションの状態の組み合わせにより、障害箇所の各部位の状態を判断する(S5040)。障害箇所の各部位の状態が判断できたら、障害箇所と業務アプリケーションの関連を表示し(S5050)、障害となっている業務アプリケーションを、出力装置260に強調表示する(S5060)。オペレータから、詳細表示の指示が有った場合には(S5070)、障害箇所の各部位について詳細表示する(S5080)。
また管理コンピュータ200は、上記のようにして障害・異常の原因であると詳細に特定できた障害部位を自律ポリシー制御部へ渡し、自律ポリシーに従って自律制御を行うこともできる。
200 管理コンピュータ
300 アプリケーションサーバ
400 データベースサーバ
500 LAN
510 SAN
520 ネットワーク機器
600 ストレージ装置
700 記録媒体
800 システム構成管理テーブル
810 オブジェクト管理テーブル
820 探索ツリー管理テーブル
900 自律ポリシー制御プログラム
910 業務アプリケーション制御プログラム
920 業務アプリケーション監視制御プログラム
930 管理コンピュータ制御プログラム
940 業務アプリケーション実行プログラム
950 APサーバ制御プログラム
960 エージェントプログラム
970 DBMS
980 データベースサーバ制御プログラム
990 クライアント制御プログラム
1000 ネットワーク機器制御プログラム
1010 ストレージ装置制御プログラム
Claims (18)
- 少なくとも一つのアプリケーションプログラムを実行する少なくとも一つのコンピュータとデータを記憶する少なくとも一つのストレージ装置とが、前記アプリケーションプログラム毎にそれぞれ割り当てられる複数のデータ転送経路で通信可能に接続されてなる情報処理システムに通信可能に接続され、
前記各データ転送経路を構成する前記情報処理システムの各構成要素と、前記各構成要素をデータ転送経路として使用するアプリケーションプログラムとを対応付けて記憶するシステム構成記憶部と、
アプリケーションプログラムの実行に際して異常が検出されたことを示す異常検出情報を前記コンピュータから受信する異常検出情報受信部と、
前記各構成要素の中で、最も多くのアプリケーションプログラムが対応付けられる構成要素を検査対象として選定する検査対象選定部と、
前記検査対象として選定された構成要素に対して検査した結果を記憶する検査結果記憶部と、
を備えることを特徴とする情報処理装置。 - 前記検査対象選定部は、
前記検査対象の構成要素に異常が検出されなかった場合には、前記検査対象の構成要素と前記各コンピュータとの間を通信可能に接続するデータ転送経路上に並ぶ各構成要素の中で、最も多くのアプリケーションプログラムが対応付けられる構成要素を次の検査対象として選定し、
前記検査対象の構成要素に異常が検出された場合には、前記検査対象の構成要素と前記各ストレージ装置との間を通信可能に接続するデータ転送経路上に並ぶ各構成要素の中で、最も多くのアプリケーションプログラムが対応付けられる構成要素を次の検査対象として選定する
ことを特徴とする請求項1に記載の情報処理装置。 - 前記検査対象選定部は、
前記各構成要素の中で、最も多くのアプリケーションプログラムが対応付けられる構成要素が複数あった場合には、当該各構成要素の中で、当該各構成要素と前記各ストレージ装置との間の各データ転送経路上にそれぞれ並ぶ構成要素の数が最も少ない構成要素を検査対象として選定する
ことを特徴とする請求項1に記載の情報処理装置。 - 前記検査対象選定部は、
前記各構成要素の中で、最も多くのアプリケーションプログラムが対応付けられる構成要素が複数あった場合には、当該各構成要素の中で、当該各構成要素と前記各コンピュータとの間の各データ転送経路上にそれぞれ並ぶ構成要素の数が最も少ない構成要素を検査対象として選定する
ことを特徴とする請求項1に記載の情報処理装置。 - 前記検査対象を選定する際に、前記各構成要素の中で、最も多くのアプリケーションプログラムが対応付けられる構成要素が複数あった場合に、
当該各構成要素の中で、当該各構成要素と前記各ストレージ装置との間の各データ転送経路上にそれぞれ並ぶ構成要素の数が最も少ない構成要素を検査対象として選定するアルゴリズムにより前記検査対象を選定するか、当該各構成要素の中で、当該各構成要素と前記各コンピュータとの間の各データ転送経路上にそれぞれ並ぶ構成要素の数が最も少ない構成要素を検査対象として選定するアルゴリズムにより前記検査対象を選定するか、を示す選定アルゴリズム選択情報の入力をユーザインタフェースから受ける選定アルゴリズム入力部と、
を備え、
前記検査対象選定部は、前記選定アルゴリズム選択情報に応じて、検査対象を選定するアルゴリズムを切り替える
ことを特徴とする請求項1に記載の情報処理装置。 - 前記検査対象選定部は、
前記検査対象の構成要素に異常が検出されなかった場合には、前記検査対象の構成要素と前記各ストレージ装置との間を通信可能に接続するデータ転送経路上に並ぶ各構成要素、前記検査対象の構成要素、及び前記検査対象の構成要素と前記データ転送経路で通信可能に接続されるストレージ装置については異常がない旨の情報をそれぞれ記憶すると共に、まだ検査対象として選定されていない構成要素のうち、まだ異常がない旨の情報が記憶されていない各構成要素の中で、最も多くのアプリケーションプログラムが対応付けられる構成要素を次の検査対象として選定し、
前記検査対象の構成要素に異常が検出された場合には、前記検査対象の構成要素と前記各コンピュータとの間を通信可能に接続するデータ転送経路上に並ぶ各構成要素、及び前記検査対象の構成要素と前記データ転送経路で通信可能に接続されるコンピュータについては異常がない旨の情報をそれぞれ記憶すると共に、まだ検査対象として選定されていない構成要素のうち、まだ異常がない旨の情報が記憶されていない各構成要素の中で、最も多くのアプリケーションプログラムが対応付けられる構成要素を次の検査対象として選定する
ことを特徴とする請求項1に記載の情報処理装置。 - 前記検査対象選定部は、
まだ検査対象として選定されていない構成要素のうち、まだ異常がない旨の情報が記憶されていない各構成要素の中で、最も多くのアプリケーションプログラムが対応付けられる構成要素が複数あった場合には、前記各構成要素の中で、前記異常が検出されたアプリケーションプログラムと対応付けられる構成要素を検査対象として選定する
ことを特徴とする請求項6に記載の情報処理装置。 - 前記検査対象選定部は、
まだ検査対象として選定されていない構成要素のうち、まだ異常がない旨の情報が記憶されていない各構成要素の中で、最も多くのアプリケーションプログラムが対応付けられる構成要素が複数あった場合には、前記各構成要素の中で、前記各構成要素と前記各ストレージ装置との間の各データ転送経路上にそれぞれ並ぶ構成要素の数が最も少ない構成要素を検査対象として選定する
ことを特徴とする請求項6に記載の情報処理装置。 - 前記検査対象選定部は、
まだ検査対象として選定されていない構成要素のうち、まだ異常がない旨の情報が記憶されていない各構成要素の中で、最も多くのアプリケーションプログラムが対応付けられる構成要素が複数あった場合には、前記各構成要素の中で、前記各構成要素と前記各コンピュータとの間の各データ転送経路上にそれぞれ並ぶ構成要素の数が最も少ない構成要素を検査対象として選定する
ことを特徴とする請求項6に記載の情報処理装置。 - 前記検査の結果をユーザインタフェースに出力する検査結果出力部と、
を備える
ことを特徴とする請求項1に記載の情報処理装置。 - 前記検査の結果に応じて、前記情報処理システムの自律制御を行う自律ポリシー制御部と、
を備える
ことを特徴とする請求項1に記載の情報処理装置。 - まだ検査対象として選定されていない構成要素のうち、異常がない旨の情報が記憶されていない構成要素がない場合には、直近に異常が検出された構成要素を、前記アプリケーションプログラムの実行に際して検出された異常の原因となる構成要素であると特定する異常箇所特定部と、
を備える
ことを特徴とする請求項6に記載の情報処理装置。 - 前記検査対象選定部は、
前記アプリケーションプログラムの実行に際して検出された異常の原因となる構成要素であると過去に特定された構成要素をまず検査対象として選定する
ことを特徴とする請求項12に記載の情報処理装置。 - 前記アプリケーションプログラムの実行に際して検出された異常の原因となる構成要素であると特定された構成要素をデータ転送経路として使用する各アプリケーションプログラムのそれぞれに関する前記異常検出情報の受信有無の組み合わせに応じて、前記構成要素における前記異常の原因となる部位を特定する異常箇所詳細特定部と、
を備える
ことを特徴とする請求項12に記載の情報処理装置。 - 前記特定された異常の原因となる部位をユーザインタフェースに出力する異常箇所出力部と、
を備える
ことを特徴とする請求項14に記載の情報処理装置。 - 前記特定された異常の原因となる部位に応じて、前記情報処理システムの自律制御を行う自律ポリシー制御部と、
を備える
ことを特徴とする請求項14に記載の情報処理装置。 - 少なくとも一つのアプリケーションプログラムを実行する少なくとも一つのコンピュータとデータを記憶する少なくとも一つのストレージ装置とが、前記アプリケーションプログラム毎にそれぞれ割り当てられる複数のデータ転送経路で通信可能に接続されてなる情報処理システムに通信可能に接続される情報処理装置の制御方法であって、
前記各データ転送経路を構成する前記情報処理システムの各構成要素と、前記各構成要素をデータ転送経路として使用するアプリケーションプログラムとを対応付けて記憶し、
アプリケーションプログラムの実行に際して異常が検出されたことを示す異常検出情報を前記コンピュータから受信し、
前記各構成要素の中で、最も多くのアプリケーションプログラムが対応付けられる構成要素を検査対象として選定し、
前記検査対象として選定された構成要素に対して検査した結果を記憶する
ことを特徴とする情報処理装置の制御方法。 - 少なくとも一つのアプリケーションプログラムを実行する少なくとも一つのコンピュータとデータを記憶する少なくとも一つのストレージ装置とが、前記アプリケーションプログラム毎にそれぞれ割り当てられる複数のデータ転送経路で通信可能に接続されてなる情報処理システムに通信可能に接続される情報処理装置に、
前記各データ転送経路を構成する前記情報処理システムの各構成要素と、前記各構成要素をデータ転送経路として使用するアプリケーションプログラムとを対応付けて記憶するシステム構成記憶部と、
アプリケーションプログラムの実行に際して異常が検出されたことを示す異常検出情報を前記コンピュータから受信する異常検出情報受信部と、
前記情報処理システムの各構成要素の中で、最も多くのアプリケーションプログラムが対応付けられる構成要素を検査対象として選定する検査対象選定部と、
前記検査対象として選定された構成要素に対して検査した結果を記憶する検査結果記憶部と、
を実現するためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004320832A JP4260723B2 (ja) | 2004-11-04 | 2004-11-04 | 情報処理装置、情報処理装置の制御方法、及びプログラム |
US11/257,577 US7756971B2 (en) | 2004-11-04 | 2005-10-24 | Method and system for managing programs in data-processing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004320832A JP4260723B2 (ja) | 2004-11-04 | 2004-11-04 | 情報処理装置、情報処理装置の制御方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006133983A JP2006133983A (ja) | 2006-05-25 |
JP4260723B2 true JP4260723B2 (ja) | 2009-04-30 |
Family
ID=36727494
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004320832A Expired - Fee Related JP4260723B2 (ja) | 2004-11-04 | 2004-11-04 | 情報処理装置、情報処理装置の制御方法、及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US7756971B2 (ja) |
JP (1) | JP4260723B2 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7747898B1 (en) | 2006-09-19 | 2010-06-29 | United Services Automobile Association (Usaa) | High-availability data center |
US7600148B1 (en) * | 2006-09-19 | 2009-10-06 | United Services Automobile Association (Usaa) | High-availability data center |
US7685465B1 (en) * | 2006-09-19 | 2010-03-23 | United Services Automobile Association (Usaa) | High-availability data center |
JP4504346B2 (ja) | 2006-12-25 | 2010-07-14 | 富士通株式会社 | トラブル要因検出プログラム、トラブル要因検出方法およびトラブル要因検出装置 |
WO2008105028A1 (ja) * | 2007-02-28 | 2008-09-04 | Sony Computer Entertainment Inc. | 分散処理方法、分散処理システム、サーバ、そのプログラム、コンピュータおよびそのプログラム |
WO2010016239A1 (ja) * | 2008-08-04 | 2010-02-11 | 日本電気株式会社 | 障害解析装置 |
US8706878B1 (en) | 2008-08-21 | 2014-04-22 | United Services Automobile Association | Preferential loading in data centers |
JP5237034B2 (ja) * | 2008-09-30 | 2013-07-17 | 株式会社日立製作所 | イベント情報取得外のit装置を対象とする根本原因解析方法、装置、プログラム。 |
US8806273B2 (en) | 2008-10-30 | 2014-08-12 | International Business Machines Corporation | Supporting detection of failure event |
JP5747765B2 (ja) * | 2011-09-27 | 2015-07-15 | 日本電気株式会社 | 障害分析装置、障害分析方法、およびプログラム |
JP5508449B2 (ja) * | 2012-02-06 | 2014-05-28 | 日本電信電話株式会社 | リソース監視装置、リソース監視システム、リソース監視方法及びリソース監視プログラム |
US8612406B1 (en) * | 2012-05-22 | 2013-12-17 | Sap Ag | Sharing business data across networked applications |
US9418387B1 (en) | 2013-12-13 | 2016-08-16 | Square, Inc. | Employee customizable payroll processing |
US10339608B1 (en) * | 2017-10-31 | 2019-07-02 | Square, Inc. | Selectable payroll amounts for instant payroll deposits |
CN118333127A (zh) * | 2024-06-07 | 2024-07-12 | 鼎道智芯(上海)半导体有限公司 | 一种数据处理方法、装置和数据处理芯片 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3464846B2 (ja) | 1995-05-02 | 2003-11-10 | 株式会社東芝 | 計算機システムの障害状態の監視診断装置 |
US6072777A (en) * | 1996-06-28 | 2000-06-06 | Mci Communications Corporation | System and method for unreported root cause analysis |
US5995485A (en) * | 1996-11-26 | 1999-11-30 | Mci Communications Corporation | Method and apparatus for isolating network failures by correlating paths issuing alarms with failure spans |
US6347074B1 (en) * | 1997-08-13 | 2002-02-12 | Mci Communications Corporation | Centralized method and system for excluding components from a restoral route in a communications network |
US6061723A (en) * | 1997-10-08 | 2000-05-09 | Hewlett-Packard Company | Network management event correlation in environments containing inoperative network elements |
JP3624657B2 (ja) * | 1997-11-07 | 2005-03-02 | 株式会社日立製作所 | 管理計算機又は計算機システム |
US6154849A (en) * | 1998-06-30 | 2000-11-28 | Sun Microsystems, Inc. | Method and apparatus for resource dependency relaxation |
US7287192B1 (en) * | 1999-09-23 | 2007-10-23 | Computer Associates Think, Inc. | Identifying a failed device in a network |
US6813634B1 (en) * | 2000-02-03 | 2004-11-02 | International Business Machines Corporation | Network fault alerting system and method |
US7043661B2 (en) * | 2000-10-19 | 2006-05-09 | Tti-Team Telecom International Ltd. | Topology-based reasoning apparatus for root-cause analysis of network faults |
US6904544B2 (en) * | 2001-01-30 | 2005-06-07 | Sun Microsystems, Inc. | Method, system, program, and data structures for testing a network system including input/output devices |
US7028228B1 (en) * | 2001-03-28 | 2006-04-11 | The Shoregroup, Inc. | Method and apparatus for identifying problems in computer networks |
US6886113B2 (en) * | 2001-06-04 | 2005-04-26 | Lucent Technologies Inc. | System and method for determining and presenting network problems |
JP2003162510A (ja) * | 2001-11-27 | 2003-06-06 | Allied Tereshisu Kk | 管理システム及び方法 |
JP2003256225A (ja) * | 2002-03-06 | 2003-09-10 | Mitsubishi Electric Corp | コンピュータシステム、障害対応方法及びコンピュータシステムを機能させるためのプログラム |
JP2003316522A (ja) * | 2002-04-26 | 2003-11-07 | Hitachi Ltd | 計算機システムおよび計算機システムの制御方法 |
JP4597488B2 (ja) * | 2003-03-31 | 2010-12-15 | 株式会社日立製作所 | プログラム配置方法及びその実施システム並びにその処理プログラム |
US20050144151A1 (en) * | 2003-04-02 | 2005-06-30 | Fischman Reuben S. | System and method for decision analysis and resolution |
US7318226B2 (en) * | 2003-10-16 | 2008-01-08 | International Business Machines Corporation | Distributed autonomic solutions repository |
US20050262237A1 (en) * | 2004-04-19 | 2005-11-24 | Netqos, Inc. | Dynamic incident tracking and investigation in service monitors |
US7515531B2 (en) * | 2004-08-17 | 2009-04-07 | Cox Communications | Apparatus and methods for the communication and fault management of data in a multipath data network |
US7437611B2 (en) * | 2004-10-21 | 2008-10-14 | International Business Machines Corporation | System and method for problem determination using dependency graphs and run-time behavior models |
US7512841B2 (en) * | 2004-10-22 | 2009-03-31 | Hewlett-Packard Development Company, L.P. | Method and system for network fault analysis |
US20060087976A1 (en) * | 2004-10-22 | 2006-04-27 | Rhodes David M | Method and system for network analysis |
-
2004
- 2004-11-04 JP JP2004320832A patent/JP4260723B2/ja not_active Expired - Fee Related
-
2005
- 2005-10-24 US US11/257,577 patent/US7756971B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006133983A (ja) | 2006-05-25 |
US7756971B2 (en) | 2010-07-13 |
US20060230122A1 (en) | 2006-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4260723B2 (ja) | 情報処理装置、情報処理装置の制御方法、及びプログラム | |
US10637745B2 (en) | Algorithms for root cause analysis | |
US10373094B2 (en) | Automated model based root cause analysis | |
US9021307B1 (en) | Verifying application data protection | |
US9785532B2 (en) | Performance regression manager for large scale systems | |
US8204980B1 (en) | Storage array network path impact analysis server for path selection in a host-based I/O multi-path system | |
CN107870832B (zh) | 基于多维度健康诊断方法的多路径存储设备 | |
US8108724B2 (en) | Field replaceable unit failure determination | |
JP4596889B2 (ja) | ストレージシステムの管理方法 | |
WO2006110140A1 (en) | System and method of reporting error codes in an electronically controlled device | |
US10402052B2 (en) | Guided exploration of root cause analysis | |
US9244784B2 (en) | Recovery of storage device in a redundant array of independent disk (raid) or raid-like array | |
CN104903866A (zh) | 对事件根本原因的分析予以支援的管理系统以及方法 | |
JP5083051B2 (ja) | 監視システム、監視装置、被監視装置、監視方法 | |
JP6190468B2 (ja) | 管理システム、プラン生成方法、およびプラン生成プログラム | |
US10901829B2 (en) | Troubleshooting using a visual communications protocol | |
US20190340459A1 (en) | Analyzing storage systems using machine learning systems | |
US20150370619A1 (en) | Management system for managing computer system and management method thereof | |
KR102580916B1 (ko) | 5g 분산 클라우드 시스템의 빅 데이터를 이용하여 장애를 관리하는 장치 및 방법 | |
US20150074267A1 (en) | Network Anomaly Detection | |
JP2014048782A (ja) | 情報処理装置、及び情報処理装置の障害処理方法 | |
JP6070040B2 (ja) | データベースシステム、データベース装置、データベースの障害回復方法およびプログラム | |
WO2015019488A1 (ja) | 管理システム及びその管理システムによるイベント解析方法 | |
WO2021156971A1 (ja) | 警報監視システム、警報監視方法、及びプログラム | |
JP7367495B2 (ja) | 情報処理装置および通信ケーブルログ情報採取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070126 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081119 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090203 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090204 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120220 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120220 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130220 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130220 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140220 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |