JP2022116776A - 保守支援装置、保守支援方法、及び保守支援プログラム - Google Patents

保守支援装置、保守支援方法、及び保守支援プログラム Download PDF

Info

Publication number
JP2022116776A
JP2022116776A JP2021013124A JP2021013124A JP2022116776A JP 2022116776 A JP2022116776 A JP 2022116776A JP 2021013124 A JP2021013124 A JP 2021013124A JP 2021013124 A JP2021013124 A JP 2021013124A JP 2022116776 A JP2022116776 A JP 2022116776A
Authority
JP
Japan
Prior art keywords
alert
storage device
operations
countermeasure
maintenance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021013124A
Other languages
English (en)
Inventor
彬大 原
Akihiro Hara
義裕 吉井
Yoshihiro Yoshii
彰 出口
Akira Deguchi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2021013124A priority Critical patent/JP2022116776A/ja
Priority to US17/475,152 priority patent/US11579963B2/en
Publication of JP2022116776A publication Critical patent/JP2022116776A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】保守における対処を効率よく実行できるように支援する保守支援装置、方法及びプログラムを提供する。【解決手段】管理計算機とホスト計算機とが、ストレージ装置に対して夫々他のネットワークを介して接続されている保守支援システムにおいて、ストレージ装置が有する管理基盤は、ストレージ装置に発生した複数の障害に対する複数の対処の操作が、所定の条件を満たすように、対処の操作の実施順序を決定するアラート対処手順判断プログラム、管理計算機からユーザによるI/O処理基盤の各種構成に対する操作指示を受け取るユーザ指示受領プログラム、ユーザ指示受領プログラムが受け取った操作指示をI/O処理基盤に送信する構成操作指示プログラム、アラート管理テーブルの情報に基づいて、アラートへの対処の実施順序を含む画面を表示させるアラート表示プログラム及び管理計算機に対して画面を表示させるアラート表示プログラムを備える。【選択図】図3

Description

本発明は、保守対象機器の保守を支援する保守支援装置等に関する。
例えば、ストレージ装置を保守対象とする計算機システムにおいては、管理者がストレージ装置を保守することが行われている。このような管理者には、基本的には、ストレージ装置に対する多くの知見が要求されている。
しかしながら、多くの知見を有する管理者を確保することは困難な場合がある。そこで、十分な知見がない管理者でも適切に保守できるようにする仕組みが要請されている。
例えば、特許文献1には、アラート毎に重要度を付与し、重要度の高いアラートを優先表示しつつ、アラートへの対処方法を表示する技術が開示されている。
特開平10-187232号公報
例えば、特許文献1に開示された技術によると、複数のアラートが発生した際に、重要度に応じてどのアラートから対処するかを容易に判断することができる。しかしながら、単純に重要度に従って対処を行うようにすると、効率的に対処をできない虞がある。
例えば、同一の重要度のアラートが発生した場合においては、同一の重要度のアラートのいずれを先に対処するかによって、全体としての対処の手順数や、対処時間等が変わってしまうことがあり、手順数や対処時間が増加してしまう順番で各アラートに対処してしまう虞や、複数のアラートのそれぞれに対処することにより、同一の対処を重複して行ってしまい、手順数や対処時間が増加してしまう虞がある。
本発明は、上記事情に鑑みなされたものであり、その目的は、保守における対処を効率よく実行できるように支援する技術を提供することにある。
上記目的を達成するため、一観点に係る保守支援装置は、保守対象における障害に対する対処の操作の実施順序を決定する保守支援装置であって、前記保守支援装置は、プロセッサと、前記プロセッサと接続された記憶デバイスとを備え、前記記憶デバイスは、前記対処の操作と、前記操作に関する実施または不実施の少なくとも一方に関わる条件とを対応付けた条件情報と、前記保守対象に発生した障害と、前記対処の操作とを対応付けた障害対処情報と、を記憶し、前記プロセッサは、 前記保守対象に発生した複数の障害に対する複数の対処の操作が、前記条件を満たすように、複数の前記対処の操作の実施順序を決定する。
本発明によれば、保守における対処を効率よく実行できるように支援することができる。
図1は、第1実施形態に係る保守支援システムの全体構成図である。 図2は、第1実施形態に係るI/O処理基盤のメモリの構成図である。 図3は、第1実施形態に係る管理基盤のメモリの構成図である。 図4は、第1実施形態に係るアラートログの一例の構成図である。 図5は、第1実施形態に係る操作ログの一例の構成図である。 図6は、第1実施形態に係る操作依存関係テーブルの一例の構成図である。 図7は、第1実施形態に係るアラート管理テーブルの一例の構成図である。 図8は、第1実施形態に係るアラート対処手順判断処理のフローチャートである。 図9は、第2実施形態に係る対処手順数最小化処理のフローチャートである。 図10は、第2実施形態に係るアラートログの一例の構成図である。 図11は、第2実施形態に係る操作依存関係テーブルの一例の構成図である。 図12は、第2実施形態に係るアラート管理テーブルの一例の構成図である。 図13は、第2実施形態に係る対処手順数最小化処理のフローチャートである。 図14は、第3実施形態に係る管理基盤のメモリの構成図である。 図15は、第3実施形態に係るアラートログの一例の構成図である。 図16は、第3実施形態に係る操作ログの一例の構成図である。 図17は、第3実施形態に係る実施要否判断テーブルの一例の構成図である。 図18は、第3実施形態に係るアラート管理テーブルの一例の構成図である。 図19は、第3実施形態に係る対処手順数最小化処理のフローチャートである。
実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態の中で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。
以下の説明では、「AAAテーブル」の表現にて情報を説明することがあるが、情報は、どのようなデータ構造で表現されていてもよい。すなわち、情報がデータ構造に依存しないことを示すために、「AAAテーブル」を「AAA情報」と呼ぶことができる。
また、以下の説明では、「プログラム」を動作主体として処理を説明する場合があるが、プログラムは、プロセッサ(例えばCPU(Central Processing Unit))によって実行されることで、定められた処理を、適宜に記憶部(例えばメモリ)及び/又はインターフェースデバイス等を用いながら行うため、処理の主体が、プロセッサ(或いは、そのプロセッサを有する装置又はシステム)とされてもよい。また、プロセッサは、処理の一部または全部を行うハードウェア回路を含んでもよい。プログラムは、プログラムソースから計算機のような装置にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバまたは計算機が読み取り可能な記録メディア(例えば可搬型の記録メディア)であってもよい。また、以下の説明において、2以上のプログラムが1つのプログラムとして実現されてもよいし、1つのプログラムが2以上のプログラムとして実現されてもよい。
図1は、第1実施形態に係る保守支援システムの全体構成図である。
保守支援システム1は、管理計算機10と、ホスト計算機20と、ストレージ装置100とを備える。管理計算機10とストレージ装置100とは、管理ネットワーク30を介して接続されている。ホスト計算機20と、ストレージ装置100とは、ネットワーク40を介して接続されている。管理ネットワーク30及びネットワーク40は、例えば、有線LAN(Local Area Network)や無線LANなどの通信路である。
管理計算機10は、例えば、PC(Personal Computer)によって構成され、ストレージ装置100を管理する管理者(ユーザ)によって操作される計算機である。管理計算機10は、LANポート11と、CPU(Central Processing Unit)12と、メモリ13と、ストレージデバイス14と、を備える。
LANポート11は、例えば、有線LANカードや無線LANカードなどのインターフェースであり、管理ネットワーク30を介してストレージ装置100と通信する。
CPU12は、メモリ13及び/又はストレージデバイス14に格納されているプログラムに従って各種処理を実行する。
メモリ13は、例えば、RAM(RANDOM ACCESS MEMORY)であり、CPU12で実行されるプログラムや、必要な情報を記憶する。
ストレージデバイス14は、例えば、ハードディスクやフラッシュメモリなどであり、CPU12で実行されるプログラムや、CPU12に利用されるデータを記憶する。ストレージデバイス14は、例えば、管理計算機10の管理者からの入力情報をストレージ装置100に送信し、ストレージ装置100から所定の情報を表示する画面の情報を取得して表示するWebブラウザを記憶する。
ホスト計算機20は、例えば、PCによって構成され、ストレージ装置100のデータを読み出して所定の処理をしたり、所定の処理により得られたデータをストレージ装置100に書き込んだりするために用いられる。ホスト計算機20は、複数のLANポート21と、CPU22と、メモリ23と、ストレージデバイス24と、を備える。なお、本実施形態では、冗長性を持たせるためにLANポート21を複数備えるようにしているが、1つであってもよい。
LANポート21は、例えば、有線LANカードや無線LANカードなどのインターフェースであり、ネットワーク40を介してストレージ装置100と通信する。本実施形態では、ネットワーク40を利用してホスト計算機20とストレージ装置100とのデータのI/Oパスが構成される。
CPU22は、メモリ23及び/又はストレージデバイス24に格納されているプログラムに従って各種処理を実行する。
メモリ23は、例えば、RAMであり、CPU22で実行されるプログラムや、必要な情報を記憶する。
ストレージデバイス24は、例えば、ハードディスクやフラッシュメモリなどであり、CPU22で実行されるプログラムや、CPU22に利用されるデータを記憶する。
ストレージ装置100は、I/O処理基盤110と、保守支援装置の一例としての管理基盤150とを備える。I/O処理基盤110と、管理基盤150とは、ネットワーク190を介して接続されている。
I/O処理基盤110は、ホスト計算機20の処理に係るデータのI/Oを処理する計算機であり、複数のLANポート111と、複数のLANポート112と、複数のCPU113と、複数のメモリ114と、複数のストレージデバイス115と、を備える。なお、冗長性を持たせるために各構成111~115をそれぞれ複数備えるようにしているが、少なくともいずれか1種類の構成を1つとしてもよい。
LANポート111は、例えば、有線LANカードや無線LANカードなどのインターフェースであり、ネットワーク190を介して管理基盤150と通信する。
LANポート112は、例えば、有線LANカードや無線LANカードなどのインターフェースであり、ネットワーク40を介してホスト計算機20と通信する。
CPU113は、メモリ114及び/又はストレージデバイス115に格納されているプログラムに従って各種処理を実行する。
メモリ114は、例えば、RAMであり、CPU113で実行されるプログラムや、必要な情報を記憶する。
ストレージデバイス115は、例えば、ハードディスクやフラッシュメモリなどであり、CPU113で実行されるプログラムや、CPU113に利用されるデータや、ホスト計算機20で利用されるデータを記憶する。
管理基盤150は、保守対象のストレージ装置100の保守支援に関する処理を行う計算機であり、LANポート151と、LANポート152と、プロセッサの一例としてのCPU153と、メモリ154と、ストレージデバイス155と、を備える。ここで、メモリ154と、ストレージデバイス155とは、特許請求の範囲における記憶デバイスに対応する。
LANポート151は、例えば、有線LANカードや無線LANカードなどのインターフェースであり、管理ネットワーク30を介して管理計算機10と通信する。
LANポート152は、例えば、有線LANカードや無線LANカードなどのインターフェースであり、ネットワーク190を介してI/O処理基盤110と通信する。
CPU153は、メモリ154及び/又はストレージデバイス155に格納されているプログラムに従って各種処理を実行する。
メモリ154は、例えば、RAMであり、CPU153で実行されるプログラムや、必要な情報を記憶する。
ストレージデバイス155は、例えば、ハードディスクやフラッシュメモリなどであり、CPU153で実行されるプログラムや、CPU153に利用されるデータを記憶する。
次に、I/O処理基盤110のメモリ114に格納されているプログラムについて説明する。
図2は、第1実施形態に係るI/O処理基盤のメモリの構成図である。
I/O処理基盤110のメモリ114は、I/O処理プログラム121と、異常検出プログラム122と、構成操作実施プログラム123とを記憶する。
I/O処理プログラム121は、CPU113に実行されることにより、ホスト計算機20からのI/O要求に従ってI/O処理を実行する。異常検出プログラム122は、CPU113に実行されることにより、I/O処理基盤110における各種構成の異常(障害)を検出し、管理基盤150に通知する。構成操作実施プログラム123は、管理基盤150からのI/O処理基盤110の各種構成に対する操作指示を受け取り、操作指示に従って構成に対する操作を実施する。
次に、管理基盤150のメモリ154に格納されているプログラム及び情報について説明する。
図3は、第1実施形態に係る管理基盤のメモリの構成図である。
管理基盤150のメモリ154は、アラート対処手順判断プログラム161と、アラートログ162と、操作ログ163と、操作依存関係テーブル164と、アラート管理テーブル165と、構成操作指示プログラム166と、ユーザ指示受領プログラム167と、アラート表示プログラム168とを記憶する。アラートログ162と、操作ログ163と、操作依存関係テーブル164と、アラート管理テーブル165とは、例えば、ストレージデバイス155に格納されており、必要に応じてメモリ154に読み出されてもよい。アラートログ162と、操作ログ163と、操作依存関係テーブル164と、アラート管理テーブル165とについての詳細は、後述する。
アラート対処手順判断プログラム161は、ストレージ装置100に発生した複数の障害に対する複数の対処の操作が、所定の条件(本実施形態では、操作依存関係テーブル164の条件)を満たすように、対処の操作の実施順序を決定する。具体的な処理としては、アラート対処手順判断プログラム161は、CPU153に実行されることにより、I/O処理基盤110から通知された異常に対応するアラートの情報をアラートログ162に格納する。アラート対処手順判断プログラム161は、CPU153に実行されることにより、アラートへの対処手順を判断するアラート対処手順判断処理(図8参照)を実行する。ユーザ指示受領プログラム167は、CPU153に実行されることにより、管理計算機10から、ユーザによるI/O処理基盤110の各種構成に対する操作指示を受け取る。構成操作指示プログラム166は、CPU153に実行されることにより、ユーザ指示受領プログラム167が受け取った操作指示をI/O処理基盤110に送信する。アラート表示プログラム168は、CPU153に実行されることにより、アラート管理テーブル165の情報に基づいて、アラートへの対処の実施順序を含む画面を表示させる。アラート表示プログラム168は、例えば、管理計算機10に対して画面を表示させる。
次に、アラートログ162について詳細に説明する。
図4は、第1実施形態に係るアラートログの一例の構成図である。
アラートログ162は、障害対処情報を記憶するログであり、I/O処理基盤110で発生した障害についてのアラート毎のエントリを記憶する。アラートログ162のエントリは、重大度162aと、発生時刻162bと、内容162cと、対処方法162dとのフィールドを含む。
重大度162aには、エントリに対応するアラートが示す障害の重大度が格納される。例えば、重大度は、管理基盤100において、予め記憶された障害と重大度と対応関係に基づいて、I/O処理基盤110から通知された障害に対する重大度を特定して格納するようにしてもよい。発生時刻162bには、エントリに対応する障害の発生時刻が格納される。内容162cには、エントリに対応する障害の内容が格納される。対処方法162dには、エントリに対応する障害に対する対処方法(操作)が格納される。例えば、障害に対する対処方法は、管理基盤150において、予め記憶された障害の内容と対処方法との対応関係に基づいて、I/O処理基盤110から通知されたす障害に対する対処方法を特定して格納するようにしてもよい。
図4に示すアラートログ162の1番目のエントリは、重大度が中のアラートが10:00に発生し、障害の内容がホストとのI/Oパス障害であり、その対象方法が、I/Oパス追加であることを示し、2番目のエントリは、重大度が中のアラートが10:01に発生し、障害の内容がLANポート障害であり、その対象方法が、LANポート交換であることを示している。
次に、操作ログ163について詳細に説明する。
図5は、第1実施形態に係る操作ログの一例の構成図である。
操作ログ163は、I/O処理基盤110に対する各種操作毎のエントリを記憶する。操作ログ163のエントリは、実施時刻163aと、操作163bとのフィールドを含む。
実施時刻163aには、エントリに対応する操作を実施した時刻が格納される。操作163bには、エントリに対応する操作の内容が格納される。
図5に示す操作ログ163の1番目のエントリは、9:50に、ボリューム作成の操作を行ったことを示す。
次に、操作依存関係テーブル164について詳細に説明する。
図6は、第1実施形態に係る操作依存関係テーブルの一例の構成図である。
操作依存関係テーブル164は、操作と、その操作に関する実施または不実施の少なくとも一方に関わる条件(本実施形態では、その操作を実行するために実行しておくべき前提となる操作)との関係である条件情報を記憶する。操作依存関係テーブル164は、操作毎のエントリを記憶する。操作依存関係テーブル164のエントリは、操作164aと、前提操作164bとのフィールドを含む。
操作164aには、エントリに対応する操作の内容が格納される。前提操作164bには、エントリに対応する操作の前提となる操作(前提操作)が格納される。
図6に示す操作依存関係テーブル164の1番目のエントリは、I/Oパス追加の操作は、LANポート交換の操作が前提となることを示し、2番目のエントリは、ボリューム閉塞回復の操作は、プール閉塞回復の操作が前提となることを示し、3番目のエントリは、プール閉塞回復の操作は、ドライブ交換、外部ストレージとのI/Oパス回復、又は、外部ストレージとのI/Oパスの追加の操作が前提となることを示している。
次に、アラート管理テーブル165について詳細に説明する。
図7は、第1実施形態に係るアラート管理テーブルの一例の構成図である。
アラート管理テーブル165は、発生した障害のアラートへの対処方法や、実施順序等の情報を管理するテーブルであり、アラート毎のエントリを格納する。アラート管理テーブル165のエントリは、重大度165aと、発生時刻165bと、内容165cと、対処方法165dと、実施順序165eと、実施状況165fとのフィールドを含む。
重大度165aには、エントリに対応するアラートが示す障害の重大度が格納される。発生時刻165bには、エントリに対応するアラートが示す障害の発生時刻が格納される。内容165cには、エントリに対応する障害の内容が格納される。対処方法165dには、エントリに対応する障害への対処方法(操作)が格納される。実施順序165eには、エントリに対応する障害についての発生している障害の中での対処を実施すべき実施順序が格納される。実施状況165fには、エントリに対応する障害への対処の実施状況が格納される。
図7に示すアラート管理テーブル165の1番目のエントリは、ホストとのI/Oパス障害が10:00に発生し、この障害の重大度が中であり、対処方法が、I/Oパス追加であり、対処の実施順序は、2番目であり、未実施であることを示し、2番目のエントリは、LANポート障害が10:01に発生し、この障害の重大度が中であり、対処方法が、LANポート交換であり、対処の実施順序は、1番目であり、未実施であることを示している。
次に、保守支援システム1による処理動作について説明する。
図8は、第1実施形態に係るアラート対処手順判断処理のフローチャートである。
アラート対処手順判断処理は、例えば、新たなアラートが発生した場合に実行されてもよいし、管理計算機10からユーザによる操作指示があった場合に実行されてもよい。
アラート対処手順判断プログラム161(厳密には、アラート対処手順判断プログラム161を実行するCPU153)は、アラート管理テーブル165をストレージデバイス155からメモリ154に読み出す(ステップS11)。
次いで、アラート対処手順判断プログラム161は、アラートログ162をストレージデバイス155からメモリ154に読み出し、アラートログ162の中のアラート管理テーブル165に登録されていないアラートのエントリをアラート管理テーブル165に登録する(ステップS12)。
次いで、アラート対処手順判断プログラム161は、操作ログ163をストレージデバイス155からメモリ154に読み出し、操作ログ163に基づいてアラート管理テーブル165の実施状況を更新する(ステップS13)。
次いで、アラート対処手順判断プログラム161は、対処手順数最小化処理(図9参照)を実行して、各アラートに対する実施順序を決定する(ステップS14)。
次いで、アラート対処手順判断プログラム161は、対処手順数最小化処理により決定された実施順序に基づいてアラート管理テーブル165を更新する(ステップS15)。
このアラート対処手順判断処理により、アラート管理テーブル165における各アラートの対処の実施順序が適切な順序に決定されることとなる。この後、アラート表示プログラム168は、管理計算機10からアラートの表示指示を受け付けると、アラート管理テーブル165を参照し、アラート管理テーブル165の内容を含む画面を、管理計算機10に表示させる。この際に、アラート表示プログラム168は、アラート管理テーブル165に含まれているアラートの情報をエントリの順番に表示するようにしてもよく、実施順序に従ってアラートの情報をソートして表示してもよい。
次に、ステップS14の対処手順数最小化処理について説明する。
図9は、第1実施形態に係る対処手順数最小化処理のフローチャートである。
アラート対処手順判断プログラム161は、アラート管理テーブル165から実施状況165fが未実施のエントリの対処方法165dの操作を抽出する(ステップS21)。
次いで、アラート対処手順判断プログラム161は、操作依存関係テーブル164をストレージデバイス155からメモリ154に読み出す(ステップS22)。
次いで、アラート対処手順判断プログラム161は、ステップS21で抽出した操作(抽出操作)の中に操作依存関係テーブル164の操作164aに含まれる操作があるか否かを判定する(ステップS23)。
この結果、抽出操作の中に操作依存関係テーブル164に含まれる操作がある場合(ステップS23:YES)には、アラート対処手順判断プログラム161は、抽出操作の中に操作の前提操作、すなわち、操作依存関係テーブル164の前提操作164bに含まれる操作が含まれるか否かを判定する(ステップS24)。
この結果、抽出操作の中に前提操作が含まれる場合(ステップS24:YES)には、アラート対処手順判断プログラム161は、前提操作を、抽出操作よりも先に実施するように実施順序を入れ替える(ステップS25)。
次いで、アラート対処手順判断プログラム161は、実施順序に従った操作の実施により、抽出操作の実施において全ての前提操作の実施が満たされるか否かを判定する(ステップS26)。
この結果、抽出操作の実施において全ての前提操作の実施が満たされる場合(ステップS26:YES)には、アラート対処手順判断プログラム161は、対処手順数最小化処理を終了する一方、抽出操作の実施において全ての前提操作の実施が満たされない場合(ステップS26:NO)には、アラート対処手順判断プログラム161は、処理をステップS25に進める。
一方、抽出操作の中に操作依存関係テーブル164に含まれる操作がない場合(ステップS23:NO)、又は、抽出操作の中に前提操作が含まれない場合(ステップS24:NO)には、アラート対処手順判断プログラム161は、アラートの重大度及びアラートの発生時刻に基づいて実施順序を決定し(ステップS27)、対処手順数最小化処理を終了する。具体的には、アラート対処手順判断プログラム161は、重大度の高い順に従って実施順序を決定し、同一の重大度であれば発生時刻が古い順に実施順序を決定する。
上記した対処手順数最小化処理によると、ある操作に対して前提操作が存在する場合に、前提操作を先に実行するように実施順序を決定することができる。これにより、例えば、前提操作に対応するアラートの重大度に関わらず、適切に前提操作を先に実行するようにすることができる。このため、例えば、前提操作が実施されない場合に、ある操作を実施してしまって、ある操作の実施が停止したり、エラーとなってしまったりする事態を適切に防止することができる。
次に、第2実施形態に係る保守支援システムについて説明する。
第2実施形態に係る保守支援システムについては、第1実施形態に係る保守支援システム1と同様な構成については同一の符号を付し、異なる構成や処理について説明する。
第2実施形態の保守支援システムの管理基盤150は、第1実施形態の管理基盤150において、アラート対処手順判断プログラム161に代えてアラート対処手順判断プログラム169を格納するとともに、操作依存関係テーブル164に代えて操作依存関係テーブル170を格納する。
図10は、第2実施形態に係るアラートログの一例の構成図である。
図10に示すアラートログ162の1番目のエントリは、重大度が中のアラートが10:00に発生し、障害の内容がCPU停止であり、その対処方法が、CPU回復操作であることを示し、2番目のエントリは、重大度が大のアラートが10:01に発生し、障害の内容がI/O処理基盤停止であり、その対処方法が、I/O処理基盤再起動であることを示している。
図11は、第2実施形態に係る操作依存関係テーブルの一例の構成図である。
操作依存関係テーブル170は、操作と、その操作に関する実施または不実施の少なくとも一方に関わる条件(本実施形態では、その操作を実行することにより不要となる操作(不要操作))との関係を記憶する。操作依存関係テーブル170は、操作毎のエントリを記憶する。操作依存関係テーブル170のエントリは、操作170aと、不要操作170bとのフィールドを含む。
操作170aには、エントリに対応する対処方法の操作の内容が格納される。不要操作170bには、エントリに対応する操作を行うことにより不要となる操作(不要操作)が格納される。
図11に示す操作依存関係テーブル170の1番目のエントリは、I/O処理基盤再起動の操作を実施すると、CPU回復操作が不要となることを示し、2番目のエントリは、I/O処理基盤再起動の操作を実施すると、I/Oパス再認識の操作が不要となることを示し、3番目のエントリは、I/O処理基盤全交換の操作を実施すると、メモリ交換の操作が不要であることを示している。
図12は、第2実施形態に係るアラート管理テーブルの一例の構成図である。
図12に示すアラート管理テーブル165はアラート対処手順判断処理の実行後の状態を示し、1番目のエントリは、CPU停止が10:00に発生し、この障害の重大度が中であり、対処方法が、CPU回復操作であり、対処の実施順序は、なく、この操作が不要であることを示し、2番目のエントリは、I/O処理基盤停止が10:01に発生し、この障害への重大度が大であり、対処方法が、I/O処理基盤再起動であり、対処の実施順序は、1番目であり、未実施であることを示している。
次に、第2実施形態に係る保守支援システム1による処理動作について説明する。
第2実施形態に係るアラート対処手順判断処理は、第1実施形態に係るアラート対象手順判断処理のステップS14において、図13の対処手順数最小化処理を実行する。
図13は、第2実施形態に係る対処手順数最小化処理のフローチャートである。
アラート対処手順判断プログラム169は、アラート管理テーブル165から実施状況165fが未実施のエントリの対処方法165dの操作を抽出する(ステップS31)。
次いで、アラート対処手順判断プログラム169は、操作依存関係テーブル170をストレージデバイス155からメモリ154に読み出す(ステップS32)。
次いで、アラート対処手順判断プログラム169は、ステップS31で抽出した操作(抽出操作)の中に操作依存関係テーブル170の操作170aに含まれる操作があるか否かを判定する(ステップS33)。
この結果、抽出操作の中に操作依存関係テーブル170に含まれる操作がある場合(ステップS33:YES)には、アラート対処手順判断プログラム169は、抽出操作の中に操作の実施による不要操作、すなわち、操作依存関係テーブル170の不要操作170bに含まれる操作が含まれるか否かを判定する(ステップS34)。
この結果、抽出操作の中に不要操作が含まれる場合(ステップS34:YES)には、アラート対処手順判断プログラム169は、他の操作を不要にできる抽出操作を先に実施するように実施順序を入れ替え、抽出操作により実施が不要となる操作を実施不要とし(ステップS35)、対処手順数最小化処理を終了する。
一方、抽出操作の中に操作依存関係テーブル170に含まれる操作がない場合(ステップS33:NO)、又は、抽出操作の中に不要操作が含まれない場合(ステップS34:NO)には、アラート対処手順判断プログラム169は、アラートの重大度及びアラートの発生時刻に基づいて実施順序を決定し(ステップS36)、対処手順数最小化処理を終了する。具体的には、アラート対処手順判断プログラム169は、重大度の高い順に従って実施順序を決定し、同一の重大度であれば発生時刻が古い順に実施順序を決定する。
上記した対処手順数最小化処理によると、或る操作に対して不要となる操作が存在する場合に、或る操作を先に実施するように実施順序を決定することができる。これにより、例えば、操作に対応するアラートの重大度に関わらず、他の操作を不要にできる操作を先に実行するようにすることができる。このため、例えば、不要となる操作が無駄に実行されてしまう事態を適切に防止することができる。
また、上記した対処手順数最小化処理を行うことにより、アラート対処手順判断処理では、アラート管理テーブル165における各アラートの対処の実施順序が適切な順序に決定されることとなる。この後、アラート表示プログラム168は、管理計算機10からアラートの表示指示を受け付けると、アラート管理テーブル165を参照し、アラート管理テーブル165の内容を含む画面を、管理計算機10に表示させる。この際に、アラート表示プログラム168は、アラート管理テーブル165に含まれているアラートの情報をその順番に表示するようにしてもよく、実施順序に従ってアラートの情報をソートして表示してもよい。また、アラート表示プログラム168は、対処手順数最小化処理で実施が不要であるとされた操作については、画面において、実施が不要であることを認識できるように表示するようにしてもよい。
次に、第3実施形態に係る保守支援システムについて説明する。
第3実施形態に係る保守支援システムについては、第1実施形態に係る保守支援システム1と同様な構成については同一の符号を付し、異なる構成や処理について説明する。
図14は、第3実施形態に係る管理基盤のメモリの構成図である。
管理基盤150のメモリ154は、アラート対処手順判断プログラム171と、アラートログ162と、操作ログ163と、実施要否判断テーブル172と、アラート管理テーブル165と、構成操作指示プログラム166と、ユーザ指示受領プログラム167と、アラート表示プログラム168とを記憶する。実施要否判断テーブル172は、例えば、ストレージデバイス155に格納されており、必要に応じてメモリ154に読み出されてもよい。実施要否判断テーブル172についての詳細は、後述する。
アラート対処手順判断プログラム171は、CPU153に実行されることにより、I/O処理基盤110から通知された異常に対応するアラートの情報をアラートログ162に格納する。アラート対処手順判断プログラム171は、CPU153に実行されることにより、アラートへの対処手順を判断するアラート対処手順判断処理(図8参照)を実行する。なお、アラート対処手順判断プログラム171は、アラート対処手順判断処理におけるステップS14においては、図19に示す対処手順数最初化処理を実行する。
図15は、第3実施形態に係るアラートログの一例の構成図である。
図15に示すアラートログ162の1番目のエントリは、重大度が中のアラートが10:00に発生し、障害の内容がストレージデバイス障害であり、その対処方法が、ドライブ交換と、ダンプ取得であることを示し、2番目のエントリは、重大度が中のアラートが10:01に発生し、障害の内容がストレージデバイス障害であり、その対処方法が、ドライブ交換と、ダンプ取得であることを示し、3番目のエントリは、重大度が中のアラートが10:10に発生し、障害の内容がストレージデバイス障害であり、その対処方法が、ドライブ交換と、ダンプ取得であることを示している。なお、ダンプ取得は、いずれのストレージデバイス115が故障しても、メモリ114のストレージデバイス115の状態を示している共通のエリアのダンプを取得する操作である。
図16は、第3実施形態に係る操作ログの一例の構成図である。
図16に示す操作ログ163の1番目のエントリは、10:08に、ダンプ取得の操作を行ったことを示し、2番目のエントリは、10:05に、ドライブ交換の操作を行ったことを示し、3番目のエントリは、9:50に、ボリューム作成の操作を行ったことを示している。
図17は、第3実施形態に係る実施要否判断テーブルの一例の構成図である。
実施要否判断テーブル172は、操作と、その操作に関する実施または不実施の少なくとも一方に関わる条件(本実施形態では、その操作の実施が不要となる条件)との関係を記憶する。実施要否判断テーブル172は、操作毎のエントリを記憶する。実施要否判断テーブル172のエントリは、操作172aと、実施不要条件172bとのフィールドを含む。
操作172aには、エントリに対応する対処方法の操作の内容が格納される。実施不要条件172bには、エントリに対応する操作を実施することが不要となる条件(不要条件)が格納される。
図17に示す実施要否判断テーブル172の1番目のエントリは、ダンプ取得の操作は、障害発生以降に取得したダンプデータが存在することを条件として実施が不要となることを示し、2番目のエントリは、操作ロックの解除の操作は、操作ロックが掛けられていないことを条件として実施が不要になることを示している。
図18は、第3実施形態に係るアラート管理テーブルの一例の構成図である。
図18に示すアラート管理テーブル165はアラート対処手順判断処理の実行後の状態を示し、1番目のエントリは、ストレージデバイス障害が10:00に発生し、この障害の重大度が中であり、対処方法が、ドライブ交換と、ダンプ取得とであり、ドライブ交換の実施順序が1番目であり実施済みであり、ダンプ取得の実施順序が2番目であり、実施済みであることを示し、2番目のエントリは、ストレージデバイス障害が10:01に発生し、この障害の重大度が中であり、対処方法が、ドライブ交換と、ダンプ取得とであり、ドライブ交換の実施順序が3番目であり未実施であり、ダンプ取得の実施順序が設定なく、不要であることを示し、3番目のエントリは、ストレージデバイス障害が10:10に発生し、この障害の重大度が中であり、対処方法が、ドライブ交換と、ダンプ取得とであり、ドライブ交換の実施順序が4番目であり未実施であり、ダンプ取得の実施順序が5番目であり、未実施であることを示している。
次に、第3実施形態に係る保守支援システム1による処理動作について説明する。
第3実施形態に係るアラート対処手順判断処理は、第1実施形態に係るアラート対象手順判断処理のステップS14において、図19の対処手順数最小化処理を実行する。
図19は、第3実施形態に係る対処手順数最小化処理のフローチャートである。
アラート対処手順判断プログラム171は、アラート管理テーブル165から実施状況165fが未実施のエントリの対処方法165dの操作を抽出する(ステップS41)。
次いで、アラート対処手順判断プログラム171は、実施要否判断テーブル172をストレージデバイス155からメモリ154に読み出す(ステップS42)。
次いで、アラート対処手順判断プログラム171は、ステップS41で抽出した操作(抽出操作)の中に実施要否判断テーブル172の操作172aに含まれる操作があるか否かを判定する(ステップS43)。
この結果、抽出操作の中に実施要否判断テーブル172に含まれる操作がある場合(ステップS43:YES)には、アラート対処手順判断プログラム171は、その操作の実施が不要な条件、すなわち、操作依存関係テーブル172の不要条件172bに含まれる不要条件と合致する状況か否か判定する(ステップS44)。
この結果、不要条件と合致する状況である場合(ステップS44:YES)には、アラート対処手順判断プログラム171は、その操作の実施が不要であるとして、実施順序を付与せず(ステップS45)、対処手順数最小化処理を終了する。
一方、抽出操作の中に実施要否判断テーブル172に含まれる操作がない場合(ステップS43:NO)、又は、不要条件と合致する状況でない場合(ステップS44:NO)には、アラート対処手順判断プログラム171は、アラートの重大度及びアラートの発生時刻に基づいて実施順序を決定し(ステップS46)、対処手順数最小化処理を終了する。具体的には、アラート対処手順判断プログラム171は、重大度の高い順に従って実施順序を決定し、同一の重大度であれば発生時刻が古い順に実施順序を決定する。
上記した対処手順数最小化処理によると、或る操作に対して実施が不要となる条件が存在する場合に、或る操作を実施しないように決定することができる。これにより、例えば、重複する同様な操作を実施しないようにすることができる。このため、例えば、重複する操作が無駄に実行されてしまう事態を適切に防止することができる。例えば、アラートログ162の2番目のエントリのアラートが発生した発生時刻は10:01であり、操作ログ163の1番目のエントリのように、10:08にダンプ取得の操作(ここでは、アラートログの1番目のエントリのアラートに対する対処の操作)が行われている場合には、アラートログ162の2番目のエントリのアラートに対する対処方法の操作中のダンプ取得は、アラート管理テーブル165に示すように実施が不要とされることとなる。
また、上記した対処手順数最小化処理を行うことにより、アラート対処手順判断処理では、アラート管理テーブル165における各アラートの対処の実施順序が適切な順序に決定されることとなる。この後、アラート表示プログラム168は、管理計算機10からアラートの表示指示を受け付けると、アラート管理テーブル165を参照し、アラート管理テーブル165の内容を含む画面を、管理計算機10に表示させる。この際に、アラート表示プログラム168は、アラート管理テーブル165に含まれているアラートの情報をその順番に表示するようにしてもよく、実施順序に従ってアラートの情報をソートして表示してもよい。また、アラート表示プログラム168は、対処手順数最小化処理で実施が不要であるとされた操作については、画面において、実施が不要であることを認識できるように表示するようにしてもよい。
なお、本発明は、上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、適宜変形して実施することが可能である。
例えば、上記第1実施形態から第3実施形態の少なくとも2つの実施形態を組み合わせて実行するようにしてもよい。
また、上記実施形態では、管理基盤150を、I/O処理基盤110のハードウェア構成(CPU、メモリ等)とは別のハードウェアにより構成していたが、本発明はこれに限られず、同一のハードウェアにより構成してもよい。
また、上記実施形態では、管理基盤150をストレージ装置100に構成した例を示したが、本発明はこれに限られず、管理基盤150をストレージ装置100の外部の計算機で構成してもよい。
1…保守支援システム、10…管理計算機、20…ホスト計算機、30…管理ネットワーク、40…ネットワーク、100…ストレージ装置、110…I/O処理基盤、111,112…LANポート、113…CPU、114…メモリ、115…ストレージデバイス、150…管理基盤、151,152…LANポート、153…CPU、154…メモリ、155…ストレージデバイス、190…ネットワーク、161,169,171…アラート対処手順判断プログラム、164,170…操作依存関係テーブル、168…アラート表示プログラム、172…実施要否判断テーブル

Claims (12)

  1. 保守対象における障害に対する対処の操作の実施順序を決定する保守支援装置であって、
    前記保守支援装置は、プロセッサと、前記プロセッサと接続された記憶デバイスとを備え、
    前記記憶デバイスは、
    前記対処の操作と、前記操作に関する実施または不実施の少なくとも一方に関わる条件とを対応付けた条件情報と、
    前記保守対象に発生した障害と、前記対処の操作とを対応付けた障害対処情報と、を記憶し、
    前記プロセッサは、
    前記保守対象に発生した複数の障害に対する複数の対処の操作が、前記条件を満たすように、複数の前記対処の操作の実施順序を決定する
    保守支援装置。
  2. 前記条件は、前記対処の操作を実施するために前提となる操作である前提操作の条件であり、
    前記プロセッサは、
    複数の前記対処の操作のそれぞれについて、前記対処の操作よりも前記対処の操作に対する前記前提操作に該当する他の対処の操作が先に実施される実施順序を決定する
    請求項1に記載の保守支援装置。
  3. 前記保守対象は、ストレージ装置であり、
    前記条件情報は、
    (A)前記対処の操作は、前記ストレージ装置に対するI/Oパスの追加であり、前記前提操作は、前記ストレージ装置の通信ポート交換である
    (B)前記対処の操作は、前記ストレージ装置のボリューム閉塞回復であり、前記前提操作は、前記ストレージ装置のプール閉塞回復である
    又は、(C)前記対処の操作は、前記ストレージ装置のプール閉塞回復であり、前記前提操作は、前記ストレージ装置のストレージデバイスの交換、外部ストレージデバイスとのI/Oパス回復、又は外部ストレージデバイスとのI/Oパス追加である
    の少なくとも1つを含む
    請求項2に記載の保守支援装置。
  4. 前記条件は、前記対処の操作を実施することが不要となる操作である不要操作の条件であり、
    前記プロセッサは、
    複数の前記対処の操作のそれぞれについて、前記対処の操作により不要となる他の対処の操作よりも前記対処の操作を先に実施し、不要となる他の対処の操作を実施しないように前記実施順序を決定する
    請求項1に記載の保守支援装置。
  5. 前記保守対象は、ストレージ装置であり、
    前記条件情報は、
    (A)前記対処の操作は、ストレージ装置におけるI/O処理を実行するI/O処理基盤に再起動であり、前記不要操作は、前記I/O処理基盤のプロセッサの回復操作である
    (B)前記対処の操作は、ストレージ装置におけるI/O処理を実行するI/O処理基盤に再起動であり、前記不要操作は、前記I/O処理基盤のI/Oパス再認識である
    又は、(C)前記対処の操作は、ストレージ装置におけるI/O処理を実行するI/O処理基盤の交換であり、前記不要操作は、前記I/O処理基盤のメモリ交換である

    の少なくとも1つを含む
    請求項4に記載の保守支援装置。
  6. 前記プロセッサは、
    前記実施しない前記対処の操作について認識可能に表示させる
    請求項4に記載の保守支援装置。
  7. 前記条件は、前記対処の操作を実施することが不要となる条件であり、
    前記プロセッサは、
    複数の前記対処の操作のそれぞれについて、前記対処の操作を実施することが不要となる条件を満たしている操作について実施しないように前記実施順序を決定する
    請求項1に記載の保守支援装置。
  8. 前記保守対象は、ストレージ装置であり、
    前記条件情報は、
    (A)前記対処の操作は、前記ストレージ装置のメモリの所定の領域のダンプ取得であり、前記不要となる条件は、障害発生以降に取得した前記所定の領域のダンプデータが存在することである
    又は、(B)前記対処の操作は、前記ストレージ装置に対する操作ロックの解除であり、前記不要となる条件は、前記ストレージ装置に対する操作ロックがかけられていないことである
    の少なくとも1つを含む
    請求項7に記載の保守支援装置。
  9. 前記プロセッサは、
    前記実施しない前記対処の操作について認識可能に表示させる
    請求項7に記載の保守支援装置。
  10. 前記プロセッサは、
    前記実施順序の情報を表示させる
    請求項1に記載の保守支援装置。
  11. 保守対象における障害に対する対処の操作の実施順序を決定する保守支援装置による保守支援方法であって、
    前記保守支援装置は、前記対処の操作と、前記操作に関する実施または不実施の少なくとも一方に関わる条件とを対応付けた条件情報と、前記保守対象に発生した障害と、前記対処の操作とを対応付けた障害対処情報と、を記憶し、
    前記保守支援装置は、
    前記保守対象に発生した複数の障害に対する複数の対処の操作が、前記条件を満たすように、複数の前記対処の操作の実施順序を決定する
    保守支援方法。
  12. 保守対象における障害に対する対処の操作の実施順序を決定する処理をコンピュータに実行させる保守支援プログラムであって、
    前記コンピュータは、
    前記対処の操作と、前記操作に関する実施または不実施の少なくとも一方に関わる条件とを対応付けた条件情報と、
    前記保守対象に発生した障害と、前記対処の操作とを対応付けた障害対処情報と、を記憶し、
    前記保守支援プログラムは、
    前記コンピュータに、
    前記保守対象に発生した複数の障害に対する複数の対処の操作が、前記条件を満たすように、複数の前記対処の操作の実施順序を決定させる
    保守支援プログラム。

JP2021013124A 2021-01-29 2021-01-29 保守支援装置、保守支援方法、及び保守支援プログラム Pending JP2022116776A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021013124A JP2022116776A (ja) 2021-01-29 2021-01-29 保守支援装置、保守支援方法、及び保守支援プログラム
US17/475,152 US11579963B2 (en) 2021-01-29 2021-09-14 Maintenance support device, maintenance support method, and maintenance support program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021013124A JP2022116776A (ja) 2021-01-29 2021-01-29 保守支援装置、保守支援方法、及び保守支援プログラム

Publications (1)

Publication Number Publication Date
JP2022116776A true JP2022116776A (ja) 2022-08-10

Family

ID=82611477

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021013124A Pending JP2022116776A (ja) 2021-01-29 2021-01-29 保守支援装置、保守支援方法、及び保守支援プログラム

Country Status (2)

Country Link
US (1) US11579963B2 (ja)
JP (1) JP2022116776A (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10187232A (ja) 1996-12-19 1998-07-14 Toshiba Corp 監視制御装置
US6715097B1 (en) * 2000-05-20 2004-03-30 Equipe Communications Corporation Hierarchical fault management in computer systems
US10248483B2 (en) * 2007-10-19 2019-04-02 Oracle International Corporation Data recovery advisor
US20160062857A1 (en) * 2013-04-17 2016-03-03 Nec Corporation Fault recovery routine generating device, fault recovery routine generating method, and recording medium
US11106528B2 (en) * 2018-10-10 2021-08-31 EMC IP Holding Company LLC Datacenter IoT-triggered preemptive measures using machine learning
US11288117B2 (en) * 2019-08-06 2022-03-29 Oracle International Corporation Predictive system remediation

Also Published As

Publication number Publication date
US11579963B2 (en) 2023-02-14
US20220245019A1 (en) 2022-08-04

Similar Documents

Publication Publication Date Title
US8082471B2 (en) Self healing software
JP4551096B2 (ja) ストレージサブシステム
US7979749B2 (en) Method and infrastructure for detecting and/or servicing a failing/failed operating system instance
US7861117B2 (en) Method to recover from a boot device failure during reboot or system IPL
US20070115738A1 (en) Failure management method for a storage system
US7899897B2 (en) System and program for dual agent processes and dual active server processes
JP2008186294A (ja) ソフトウェア更新装置及びソフトウェア更新システム
US8977895B2 (en) Multi-core diagnostics and repair using firmware and spare cores
JP2007200114A (ja) データベース回復方法及び計算機システム
JP5083051B2 (ja) 監視システム、監視装置、被監視装置、監視方法
JP2009238010A (ja) Itシステムのトラブル対処装置、トラブル対処方法およびそのためのプログラム
JP2007249761A (ja) コンピュータ装置、起動制御方法及び起動制御プログラム
US7673178B2 (en) Break and optional hold on failure
US8112598B2 (en) Apparatus and method for controlling copying
JP5975094B2 (ja) 交換候補提示方法、情報処理装置、及びプログラム
JP2022116776A (ja) 保守支援装置、保守支援方法、及び保守支援プログラム
JP2001034509A (ja) 情報処理装置の障害回復方法
JP2010146087A (ja) 系切替計算機システムの管理方法
KR20200004514A (ko) Pci-e 인터페이스를 이용한 컴퓨터 장애진단 시스템
JPH11259339A (ja) コンピュータ障害保守システム及び障害対応コンピュータ
JPH0424838A (ja) マルチプロセッサの障害管理方式
US20220214910A1 (en) Information processing system, information processing apparatus, and information processing method
JP2003029998A (ja) 冗長あるいは二重化された論理部の動作状態を表示するコンソールを備えた情報処理装置
JP2002244886A (ja) 表示機能付き論理ボード
JP6944252B2 (ja) 情報処理装置