JP2013206105A - 情報処理システム、保守方法及びプログラム - Google Patents

情報処理システム、保守方法及びプログラム Download PDF

Info

Publication number
JP2013206105A
JP2013206105A JP2012074131A JP2012074131A JP2013206105A JP 2013206105 A JP2013206105 A JP 2013206105A JP 2012074131 A JP2012074131 A JP 2012074131A JP 2012074131 A JP2012074131 A JP 2012074131A JP 2013206105 A JP2013206105 A JP 2013206105A
Authority
JP
Japan
Prior art keywords
maintenance
information
failure
level
processing system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012074131A
Other languages
English (en)
Other versions
JP5995265B2 (ja
Inventor
Hisashi Shindo
久 進藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Computertechno Ltd
Original Assignee
NEC Computertechno Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Computertechno Ltd filed Critical NEC Computertechno Ltd
Priority to JP2012074131A priority Critical patent/JP5995265B2/ja
Publication of JP2013206105A publication Critical patent/JP2013206105A/ja
Application granted granted Critical
Publication of JP5995265B2 publication Critical patent/JP5995265B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract


【課題】多種多様かつ難易度の異なる保守作業への対応を好適に支援する。
【解決手段】情報処理システムは、管理対象のシステムに含まれる置換可能な部位のうちの障害要因部位を特定するための情報と、該障害要因部位の障害の履歴情報とを格納した情報源にアクセスして、管理対象のシステムに含まれる置換可能な部位から発せられるエラーコードから、被疑割合付きの障害要因部位情報と、該障害要因部位の障害の履歴情報とを生成する障害要因解析部と、前記障害要因部位と前記障害の履歴情報とに基づいて、保守作業の難易度を示す保守レベルを算出する保守レベル算出部と、を備え、前記保守レベルを含んだ保守作業の指示情報を出力する。
【選択図】図1

Description

本発明は、情報処理システム、保守方法及びプログラムに関し、特に、保守作業に関する指示を出力する情報処理システム、保守方法及びプログラムに関する。
特許文献1に、設定当初のFRUテーブルを用いて正確な被疑割合を含む情報を提供する障害管理システムが開示されている。同文献によると、この障害管理システムは、サービスプロセッサにより障害事象が検知された場合に、当該障害事象を特定する情報をキーとして障害履歴情報を検索し、当該障害事象が過去に発生した障害事象と一致する場合に、前記障害履歴情報から当該障害事象を引き起こした誘因履歴のある障害要因部位を抽出する機能を備える。そして、前記誘因履歴のある障害要因部位が抽出された場合に、当該障害要因部位の前記誘因頻度に応じて、FRUテーブルの当該障害要因部位に対応する設定当初の被疑割合を補正して得られる補正被疑割合を算出する。当該障害事象と当該障害要因部位との関係が、前記FRUテーブルと前記障害履歴情報とで一致する場合に、当該障害履歴情報の相当する前記誘因頻度をインクリメントする、と記載されている。
また、特許文献2には、発生した異常状態の復旧難易度を算出し、復旧難易度に応じた宛て先に通知メールを送信するようにして、適切な宛て先にエラーを通知することができるようにした電子装置が開示されている。同文献によると、この電子装置は、異常状態を検出する状態検出部と、状態検出部によって検出された異常状態に応じた内容の通知メールを生成するメール生成部と、状態検出部によって検出された異常状態に応じた宛て先を抽出する宛て先抽出部と、宛て先抽出部によって抽出された宛て先との間の電子メールの通信及び再送を制御する通信制御部とを備えると記載されている。そして、状態検出部は、検出した異常状態の復旧難易度を算出し、宛て先抽出部は、算出された復旧難易度に基づいて通知メールを送信する宛て先を抽出し、メール生成部は、宛て先抽出部よって抽出された宛て先に対する通知メールを生成し、通信制御部は、メール生成部によって生成された通知メールを宛て先抽出部よって抽出された宛て先に送信する、と記載されている。
特開2011−175513号公報 特開2007−30444号公報
以下の分析は、本発明によって与えられたものである。近年、電子機器製品のダウンサイジング化にともない、多くのコモディティプロセッサを高速ネットワークで接続する高密度実装サーバ(ブレード、クラスタ)技術など分散・並列処理技術が進んでいる。これらの技術の進歩により保守コスト削減のための構造設計も重要な要素の一つであるが、相反してシステム構成あるいは形態によってはより高度な高密度実装がとられ、定期保守あるいは障害発生時の保守自体も高度な訓練や相応の経験が必要となるケースがある。
また、上記システム構成や形態に依存しない場合でも、設計不良、製造工程での初期不良あるいはロット不良(品質バラツキ)、顧客先での運用環境による劣化、部品の経年劣化等が挙げられ、これらの要因に応じて保守の対応も追随しないと適切な保守が出来ず、運用停止時間の長期化や健全に運用されているシステムへの副次的な影響を及ぼし兼ねずユーザに甚大な被害を与えることがある。
上記のように、適切な保守を行うためには、保守作業の難易度に応じた訓練や経験が必要とされるところ、特許文献1の障害管理システムは、障害発生時に、障害要因部位について正確な被疑割合を提供することを主眼としており、保守作業の難易度を提供できるものとなっていない。
特許文献2の電子機器は、異常状態が検出されると、異常状態の復旧難易度を算出すると記載されているが、当該復旧難易度は、異常状態を通知する通知メールの宛先を決定するために用いられているに過ぎない。また、復旧難易度の算出方法自体も、同公報図4のような異常ステータスと復旧難易度とを対応付けたテーブル(異常ステータスエリア)から読み出すものであり、上述のように、システム構成や形態のみならず、様々な要素が絡み合って適切な保守を行う必要があるシステムには到底対応することは不可能である。
本発明は、上記した事情に鑑みてなされたものであって、その目的とするところは、上記した多種多様かつ難易度の異なる保守作業への対応を支援する情報処理システム、保守方法及びプログラムを提供することにある。
本発明の第1の視点によれば、管理対象のシステムに含まれる置換可能な部位のうちの障害要因部位を特定するための情報と、該障害要因部位の障害の履歴情報とを格納した情報源にアクセスして、管理対象のシステムに含まれる置換可能な部位から発せられるエラーコードから、被疑割合付きの障害要因部位情報と、該障害要因部位の障害の履歴情報とを生成する障害要因解析部と、前記障害要因部位と前記障害の履歴情報とに基づいて、保守作業の難易度を示す保守レベルを算出する保守レベル算出部と、を備え、前記保守レベルを含んだ保守作業の指示情報を出力する情報処理システムが提供される。
本発明の第2の視点によれば、管理対象のシステムに含まれる置換可能な部位のうちの障害要因部位を特定するための情報と、該障害要因部位の障害の履歴情報とを格納した情報源にアクセスにアクセス可能な情報処理システムによる保守方法であって、前記情報源にアクセスして、管理対象のシステムに含まれる置換可能な部位から発せられるエラーコードから、被疑割合付きの障害要因部位情報と、該障害要因部位の障害の履歴情報とを生成するステップと、障害要因部位と、保守支援情報とに基づいて、保守作業の難易度を示す保守レベルを算出するステップと、前記保守レベルを含んだ保守作業の指示情報を出力するステップとを含む、保守方法が提供される。本方法は、保守員に対し、保守レベルを含んだ保守作業の指示情報を出力する情報処理システムという、特定の機械に結びつけられている。
本発明の第3の視点によれば、管理対象のシステムに含まれる置換可能な部位のうちの障害要因部位を特定するための情報と、該障害要因部位の障害の履歴情報とを格納した情報源にアクセスにアクセス可能な情報処理システムに含まれるコンピュータに、前記情報源にアクセスして、管理対象のシステムに含まれる置換可能な部位から発せられるエラーコードから、被疑割合付きの障害要因部位情報と、該障害要因部位の障害の履歴情報とを生成する処理と、障害要因部位と、保守支援情報とに基づいて、保守作業の難易度を示す保守レベルを算出する処理と、前記保守レベルを含んだ保守作業の指示情報を出力する処理とを実行させるプログラムが提供される。なお、このプログラムは、コンピュータが読み取り可能な記憶媒体に記録することができる。即ち、本発明は、コンピュータプログラム製品として具現することも可能である。
本発明によれば、多種多様かつ難易度の異なる保守作業への対応を好適に支援することが可能となる。
本発明の一実施形態の構成を示す図である。 本発明の第1の実施形態の情報処理システムの構成を示す図である。 本発明の第1の実施形態の情報処理システムのFRUテーブルに保持されている情報を示す図である。 本発明の第1の実施形態の情報処理システムの動作を表した流れ図である。 保守作業の流れを表した図である。 論理パーティションによる複数のシステムが運用されているサーバの例である。 論理パーティションの構成例を示す図である。 図7の構成における障害発生時の影響範囲を示す図である。 本発明の第1の実施形態の情報処理システムの状態表示ランプ(エラー/メンテナンス状態)の点灯制御を行う回路構成を示す図である。搭載可能なメンテナンス報告手段および障害報告手段の一例を示す図である。 図7の構成におけるエラー閾値変更処理を説明するための図である。 エラー検出時の判定フローを表した流れ図である。
はじめに本発明の一実施形態の概要について図面を参照して説明する。なお、この概要に付記した図面参照符号は、理解を助けるための一例として各要素に便宜上付記したものであり、本発明を図示の態様に限定することを意図するものではない。
本発明は、図1に示すように、その一実施形態において、障害要因解析部110と、保守レベル算出部120と、前記保守レベルを含んだ保守作業の指示情報を出力する表示部130とを備える構成にて実現できる。
より具体的には、障害要因解析部110は、管理対象のシステムに含まれる置換可能な部位のうちの障害要因部位を特定するための情報と、該障害要因部位の障害の履歴情報とを格納した情報源100にアクセスして、管理対象のシステムに含まれる置換可能な部位から発せられるエラーコードから、被疑割合付きの障害要因部位情報と、該障害要因部位の障害の履歴情報とを生成する。
そして、前記保守レベル算出部120は、障害要因部位と前記障害の履歴情報とに基づいて、保守作業の難易度を示す保守レベルを算出する。例えば、保守レベル算出部120は、ある障害要因部位に故障が多発している場合、保守レベルを引き上げる。これにより、相応の高度な訓練や経験を持った保守員による保守や、オンラインではなく、オフラインによる保守作業が行われる。
[第1の実施形態]
続いて、本発明の第1の実施形態について図面を参照して詳細に説明する。図2は、本発明の第1の実施形態の構成を表したブロック図である。
図2を参照すると、障害情報管理サーバ12と接続された情報処理システム11が示されている。情報処理システム11は、主記憶装置(以下、「MEM」)21と、複数のプロセッサ(以下、「PROC」)22と、複数のノードコントローラ(以下、「NC」)23と、複数のクロスバスイッチ(以下、「Xbar」)24と、複数の入出力装置(以下、「IO」)25と、サービスプロセッサ(以下、「SVP」)26と、データ収集部40と、障害要因解析部41と、保守レベル算出部42と、コンソール43と、構成情報解析部44とを備えている。
また、この情報処理システム11は、情報源として、FRU(Field Replacable Unit)テーブル30と、障害履歴格納部A31と、障害履歴格納部B32と、を備えている。
MEM21、PROC22、NC23、Xbar24、IO25のいずれか1つあるいは複数の箇所で障害が検出された場合、信号線e001を介してエラーがSVP26に報告される。
SVP26は、前記エラー報告を受信すると、そのサービスログから、上記MEM21、PROC22、NC23、Xbar24、IO25の障害情報を採取する。さらに、SVP26は、前記障害情報に含まれるエラーインディケータフラグ(EIF)をキーとして、FRUテーブル30から障害要因部位(NAME)やその被疑割合(RATE)等を抽出し、障害履歴格納部A31に登録する。
FRUテーブル30は、エラーコードを示すエラーインディケータフラグ(EIF)に対応する障害要因部位(NAME)やその被疑割合(RATE)、製造ロット番号やリビジョン番号(REV)、ベンダーID(VID)等を登録したテーブルである。
図3は、FRUテーブル30の一例を示す図である。例えば、EIFが「N0_EIF_0」には、FRU[0]として、NAME=N0_NCC、RATE=100、REV=A0001、VID=000という情報が対応付けられている。これは、「N0_EIF_0」とのエラーインディケータフラグ(EIF)から、障害要因部位として、100%の割合でN0ノードコントローラのカード「N0_NCC」が特定されることを示している。同様に、「N0_EIF_2」とのエラーインディケータフラグ(EIF)から、障害要因部位として、N0ノードコントローラのポート0「N0_P0」、N1ノードコントローラのポート0「N1_P0」、ケーブルA(CABLE_A)が特定される。また、それぞれ被疑割合は、49%、50%、1%という情報が得られる。
また、図3のFRUテーブルは、EIF毎に、エラー回数(Error Count)と、メンテナンス状態フラグ(MN1)とを保持可能となっている。これらの情報は、SVP26から適宜更新される。
障害履歴格納部A31は、情報処理システム11で検出された障害の履歴情報を格納する。また、これらの障害の履歴情報に、製造ロットやベンダID等を含ませることで、障害発生頻度から、設計マージンに余裕のない機能や製造ロットにより障害発生頻度の多い部品の分析が可能となる。障害履歴格納部A31には、EIF毎に、エラー回数フィールドを管理するテーブルが備えられており、各EIFのエラー発生回数を把握できるようになっている。
障害履歴格納部B32は、信号線n001を介して障害情報サーバ12から提供された他の情報処理システムで検出された障害の履歴情報を格納する。また、障害履歴格納部B32も、EIF毎に、エラー回数フィールドを管理するテーブルが備えられており、各EIFのエラー発生回数を把握できるようになっている。
データ収集部40は、SVP26によるFRUテーブル30、障害履歴格納部A31の更新が完了すると、FRUテーブル30、障害履歴格納部A31及び障害履歴格納部B32のデータを収集し、障害要因解析部41及び構成情報解析部44に出力する。
障害要因解析部41は、データ収集部40から出力されたデータに基づいて、報告されたエラーが過去の障害履歴、他の情報処理システムの障害履歴、製造ロット等を分析し、被疑割合付きの障害要因部位情報と、該障害要因部位の障害の履歴情報とを生成する。また、障害要因解析部41が、必要に応じて外部サーバ等に対し、障害要因部位として特定された部位の情報等を問い合わせるようにしてもよい。
保守レベル算出部42は、障害要因解析部41から出力された被疑割合付きの障害要因部位情報と、該障害要因部位の障害の履歴情報と、信号線n002を介して得られる保守情報とに基づいて、保守の難易度を算出し、被疑割合付きの障害要因部位情報とともに保守の難易度情報(保守レベル)を含んだ保守作業の指示情報を出力する。例えば、保守支援情報に、保守時のミス(手順ミス)による障害や保守による故障(過剰な押し込み、引き込みなどにより発生したもの)の回数が含まれている場合、保守レベル算出部42は、この保守時のミスによる故障回数情報が多い部位の保守レベルを保守レベル高(難易度大)と算出する。前記保守レベルの算出は、例えば、予め定めた数式により、障害要因部位や、故障の回数、そのうちの保守時のミスによる回数等を評点に換算し、予め定めたレベル毎の閾値と、この評点と比較することにより求めることができる。なお、閾値は部品のFIT(Failure In Time)値等から障害要因部位毎に決めておくことが好ましい。
コンソール43は、保守レベル算出部42から出力された、被疑割合付きの障害要因部位情報および保守の難易度情報(保守レベル)を含んだ保守作業の指示情報を出力する。
構成情報解析部44は、データ収集部40から出力されたデータに基づいて、運用形態から構成情報を分析してSVP26に伝達する。この分析結果には、例えば、障害要因部位の保守操作(カバーの脱着、ケーブルの移動/脱着、モジュール交換)に伴う副次的な影響による運用可否情報が含まれる。前記分析の結果、運用可能と判断された場合、SVP26は、MEM21、PROC22、NC23、Xbar24、IO25をメンテナンスモードに移行させるとともに、メンテナンスモード中のエラーカウント等の変更を実施する。
障害情報管理サーバ12は、信号線n003、n004を介して、情報処理システム11を含む他の情報処理システムと接続され、障害情報を収集するサーバである。より具体的には、障害情報管理サーバ12は、前記収集した障害情報を蓄積する障害情報データベース(障害情報DB)35と、保守支援情報として情報処理システム11を含む他の情報処理システムにて行われた保守作業の情報を格納する保守情報データベース(保守情報DB)36とを備えている。障害情報DB35に格納された情報は、所定のタイミングで、信号線n001を介して、情報処理システム11の障害履歴格納部B32に転送される。
なお、図2に示した情報処理システム11のデータ収集部40、障害要因解析部41と、保守レベル算出部42とおよび構成情報解析部44はそれぞれ、情報処理システム11に搭載されたコンピュータに、そのハードウェアを用いて、上記した各処理を実行させるコンピュータプログラムにより実現することもできる。
続いて、本実施形態の動作について図面を参照して詳細に説明する。情報処理システム11においては、以下の障害が発生しうる。
・MEM21−PROC22間
・PROC22−NC23間
・NC23−Xbar24間
・Xbar24−IO25間
・SVP26−MEM21、PROC22、NC23、Xbar24、IO25間
・MEM21、PROC22、NC23、Xbar24、IO25、SVP26の単体障害
以下の説明では、情報処理システム11の複数のノード間を接続しているXbar24とIO25間で障害を発生した場合の動作を説明する。
図4は、本発明の第1の実施形態の情報処理システムにおいて、Xbar24またはIO25のいずれかにおいてエラーが検出された際の動作を表した流れ図である。図4を参照すると、まず、Xbar24−IO25間の障害により、Xbar24またはIO25のいずれかにおいてエラーが検出されると(ステップS001)、SVP26へのエラー報告が行われる(ステップS002)。
前記エラー報告を受けたSVP26は、そのサービスログ(SVPログ)から、上記Xbar24、IO25の障害情報を採取する(ステップS003)。
次に、SVP26は、前記採取した障害情報に含まれるエラーインディケータ(EIF)をキーとしてFRUテーブル30から該当するデータを検索する(ステップS004)。次に、SVP26は、前記FRUテーブル30から検索したデータを障害履歴格納部A31に格納するとともに、データ収集部40を起動する。ここで、SVP26は、前記FRUテーブル30の該当するエントリのエラー回数フィールドの値を1加算する。
データ収集部40は、まず、ステップS004での登録より前に、ステップS003で特定されたエラーインディケータ(EIF)に対応するデータが障害履歴格納部A31に登録されていたか否かを確認する(ステップS005)。
ここで、ステップS003で特定されたエラーインディケータ(EIF)に対応するデータが障害履歴格納部A31に登録されていた場合(ステップS005のYes)、データ収集部40は、ステップS003で特定されたエラーインディケータ(EIF)に対応するデータが障害履歴格納部B32に登録されていたか否かを確認する(ステップS006−1)。
また、ステップS003で特定されたエラーインディケータ(EIF)に対応するデータが障害履歴格納部A31に登録されていない場合も(ステップS005のNo)、同様に、データ収集部40は、ステップS003で特定されたエラーインディケータ(EIF)に対応するデータが障害履歴格納部B32に登録されていたか否かを確認する(ステップS006−2)。
上記ステップS005、S006−1、S006−2の結果に応じて、ステップS007〜S010のいずれかの処理が行われる。また、障害履歴格納部A31、障害履歴格納部B32のいずれかまたは双方に、同一の障害履歴が存在していた場合、データ収集部40は、それぞれのエラー回数フィールドを管理するテーブルのエラー発生回数フィールドの値を1加算する。
まず、障害履歴格納部A31、障害履歴格納部B32の双方に、同一の障害履歴が存在していた場合(ステップS005、S006−1が共にYes)、データ収集部40は、これら双方の障害履歴を障害要因解析部41に出力する。障害要因解析部41は、前記双方の障害履歴情報について、製造ロット、ベンダーID等の条件を比較分析し、障害要因部位および障害要因部位の被疑割合の補正の必要性を判定する(ステップS007)。
一方、障害履歴格納部A31に、同一の障害履歴が存在しているが、障害履歴格納部B32に、同一の障害履歴が存在していない場合(ステップS005がYes、S006−1がNo)、データ収集部40は、障害履歴格納部A31の障害履歴を障害要因解析部41に出力する。障害要因解析部41は、障害履歴格納部A31の障害履歴情報について、製造ロット、ベンダーID等の条件を比較分析し、障害要因部位および障害要因部位の被疑割合の補正の必要性を判定する(ステップS008)。
一方、障害履歴格納部A31に、同一の障害履歴が存在していないが、障害履歴格納部B32に、同一の障害履歴が存在している場合(ステップS005がNo、S006−2がYes)、データ収集部40は、障害履歴格納部B32の障害履歴を障害要因解析部41に出力する。障害要因解析部41は、障害履歴格納部B32の障害履歴情報について、製造ロット、ベンダーID等の条件を比較分析し、障害要因部位および障害要因部位の被疑割合の補正の必要性を判定する(ステップS009)。
一方、障害履歴格納部A31、障害履歴格納部B32の双方に、同一の障害履歴が存在していない場合(ステップS005、S006−1が共にNo)、データ収集部40は、FRUテーブルのデータをそのまま送信する(ステップS010)。障害要因解析部41は、FRUテーブルのデータを用いて、障害要因部位と、該障害要因部位の被疑割合とを出力する(ステップS010)。
なお、上記したステップS007〜S009における被疑割合の補正方法については、特許文献1に詳細に記載されている。
次に、保守レベル算出部42が、前記ステップS007〜S010で得られた情報と保守支援情報とを基に保守の難易度を算出し、被疑割合付きの障害要因部位情報や保守支援情報とともに保守の難易度情報(保守レベル)を含んだ保守作業の指示情報を生成・出力する(ステップS011)。ここで、保守レベルの算出の結果、保守レベルが高い場合(難易度大)や、保守による他装置への副次的影響が予見される場合、保守レベル算出部42は、オンライン保守は行わないようにするといった指示を生成する。
最後に、コンソール43にて、保守レベル算出部42から出力された保守指示が表示される(ステップS012)。保守員は、保守指示に応じて、例えば、運用停止後の保守(オフライン保守)に切り替えるための保守スケジュールを作成し、保守作業を開始する。
続いて、保守作業の一連の流れを説明する。図5は、保守作業の流れを表した図である。以下、本実施形態の情報処理システム11は、図6に示すような論理パーティションによる複数のシステムが運用されているサーバであるものとする。また、そのNC23、Xbar24、IO25間は、図7に示すように接続され、パーティション0(PAR0)と、パーティション1(PAR1)と、が構成され、それぞれ第1のオペレーティングシステム(OS_0)、第2のオペレーティングシステム(OS_1)に割り当てて運用されているものとして説明する。
ここで、図8のXbar1−IO1間での障害検出により、情報処理システム11は、暫定的に保守操作を禁ずる保守操作ロックを指示し、障害状態表示ランプの点滅動作等により、障害を検出したことを表示する。図9は、情報処理システム11(図11では、情報処理システム11中の装置A11A、装置B11Bのみを示す)に備えられるエラー状態表示ランプ(EF表示)48およびメンテナンス状態表示ランプ(MF表示)47の点灯制御を行う回路構成を示す図である。ここでは、情報処理システム11に含まれる装置11A、11Bのいずれかで障害(EF)が検出されると、EF制御部46が、エラー状態表示ランプ(EF表示)48を点滅させる。これにより、コンソール以外でも保守員等に障害発生を認識させることができる。
次に、情報処理システム11は、その障害がシステムの自動訂正機能等により訂正可能な障害であるか否かを判定する(ステップS101)。ここで、訂正可能な障害と判断した場合(ステップS101のYES)、情報処理システム11は、自動訂正処理を行ない、エラー状態表示ランプ(EF表示)48を消灯する(ステップS102)。
訂正可能な障害でないと判断した場合(ステップS101のNO)、次に、該当データを再送可能であるか否かを判定する。ここで、該当データを再送不可能な障害と判断した場合(ステップS103のNO)、リカバリ不可障害と判断し、Xbar1−IO1間を閉塞する処理が行われる。
該当データを再送可能な障害と判断した場合(ステップS103のYES)、メンテナンスモードに遷移させるか否かの判断が行われる(ステップS104)。なお、ここで、他に稼動中のシステムがなく、保守操作ミス等による副次的なシステム障害の影響がない場合、メンテナンスモードへの遷移は不要と判断され、保守指示書に基づいて保守が行われる(ステップS104のNO)。具体的には、今回検出された障害の発生件数(エラー回数)が所定の閾値未満であれば(ステップS105のNO)、運用継続となり(ステップS106)、そうでない場合には、リカバリ不可障害と判断し、Xbar1−IO1間を閉塞する処理が行われる。なお、図5の例では、Xbar1−IO1間を閉塞する前に、予防保守通知(ステップS108)を出力するか否かのエラー判定が行われる(ステップS107)。
一方、図8に示すように、第1のオペレーティングシステム(OS_0)、第2のオペレーティングシステム(OS_1)が運用中である場合、ステップS104において、メンテナンスモードに遷移する。この場合、情報処理システム11は、図9に示すメンテナンス状態表示ランプ(MF表示)47を点灯する。
前記メンテナンス状態表示ランプ47の点灯やコンソール43の表示により、メンテナンスモードに移行したことを認識した保守員は、コンソール43に表示された障害履歴、保守情報、保守レベル(難易度)等から総合的に判断し、運用中の保守(オンライン保守)を実施するか否かを判断する(ステップS109)。
ここで、例えば、保守レベルが高い場合(難易度大)、保守による他装置への副次的影響が予見されるため、保守員は、オンライン保守は行わず、顧客と相談しシステムダウンに繋がるような副次的な影響を排除した保守スケジュールに変更することができる(図5の流れ図の作業を中断)。
一方、保守レベルが高くなく(難易度小〜中)、オンライン保守が可能と判断された場合、保守員は、保守ロック指示を解除し、保守作業を開始する。
まず、保守員は、障害要因部位IO1の交換に先立って閾値変更処理を行なう(ステップS110)。図10は、障害要因部位IO1を交換する際にエラー閾値を変更する箇所を表わした図である。図10の例では、IO1の交換による論理パーティションへの影響を最小限にするために、SVP26より、Xbar0−I0、Xbar0−I1、Xbar1−I0、Xbar1−I1のエラーカウントの閾値変更が行われている。具体的には、交換作業の間にエラーが発生しても、システムの切り離しや予防保守通知の出力が抑止されるよう、これらのエラーカウントの閾値を暫定的に引き上げる、あるいは、エラーカウントを無効化する等の措置が行われる。
これにより、図11に示すように、メンテナンスモードにおいて、前記閾値等のパラメータの調整が行われるため(S202、S204、S206)、交換部位に関連する箇所にて障害が検出されても(図11のS203、S205、S207)、エラー判定1〜3(S208〜S210)にて、否定判定が行われる。続く、エラー分析(S211)においても、メンテナンスモードである旨と、構成情報と、これらのエラー判定結果とを踏まえた分析が行われ、メンテナンスを中断するか否かやエラー表示を行うか否かが決定される。さらに、これらの結果は、保守情報DB36に蓄積される。
上記閾値変更後、今回検出された障害の発生件数(エラー回数)が前記変更後の閾値未満であれば(ステップS111のNO)、メンテナンスモードを維持した状態で運用継続となる(ステップS112)。この結果、保守による他のシステムへの副次的影響が最小限に抑えられる。
一方、今回検出された障害の発生件数(エラー回数)が前記変更後の閾値を越えてしまうような場合には、図11に示したフローにて、エラー判定が行われる(ステップS113)。前記エラー判定の結果、NG(メンテナンス中断)と判定した場合、コンソール43等にエラー判定通知が出力され(ステップS116)、リカバリ不可障害と判断し、Xbar1−IO1間を閉塞する処理が行われる。この場合、図9に示すメンテナンス状態表示ランプ(MF表示)47やエラー状態表示ランプ(EF表示)48を点灯させるなどを併せて行ってもよい。その際に、エラー発生箇所の数やエラー件数などに応じて、エラー状態表示ランプ(EF表示)48の点灯数を制御するようにしてもよい。
一方、前記エラー判定の結果、OK(メンテナンス継続可)と判定した場合、メンテナンスモードを維持した状態で運用継続となる(ステップS114)。この結果、保守による他のシステムへの副次的影響が最小限に抑えられる。
以上の過程を経て、保守が完了したら、再度、図10に示したエラーカウント閾値等を戻し、メンテナンスモードを解除し通常運用に復帰する。
以上のように、本実施形態によれば、保守レベルを含んだ保守作業の指示情報が出力されるため、保守員に適切な保守させることができる。加えて、保守レベルが高くなく保守を行う場合においても、上述の保守作業の流れのように、エラー回数の閾値を適宜引き上げることで、運用中の他のシステムへの影響を低減することができる。これらにより、近年問題となっている平均復旧時間(MTTR)を短縮して保守員への負担を軽減し、なおかつ顧客への影響を最小限に止めることができる。
システム縮退や拡張に伴う構成変更の際に、障害履歴および保守履歴情報を反映することにより、極力障害発生の高い部位を回避してシステムの構成および保守を支援することができる。これにより、平均故障間隔(MTBF)の影響を最小限にとどめ、結果としてシステムの稼働率が改善してシステム全体の信頼性を向上させることができる。
以上、本発明の実施形態を説明したが、本発明は、上記した実施形態に限定されるものではなく、本発明の基本的技術的思想を逸脱しない範囲で、更なる変形・置換・調整を加えることができる。例えば、上記した実施形態では、障害検出時の保守の例を挙げて説明したが、定期点検による部品交換、予兆保守による作業の場合も同様に適用可能である。
また、上記した実施形態では、エラー回数の閾値の変更等により、保守作業による副次的影響を低減するものとして説明したが、一時的に動作モードを可変にしデータの転送レートを低下させること等により保守による副次的影響を最小限にするようにしてもよい。
また、上記した実施形態では、保守情報DB36には、情報処理システム11を含む他の情報処理システムにて行われた保守作業の情報を格納するものとして説明したが、下記のような情報を記録しておくことも望ましい。
・メンテナンスレコーダによる保守、点検操作の映像情報
これらの映像情報は、障害部位やエラーコード等のタグを付与され、障害発生時に障害部位等より関連する映像情報を索引、参照できるようにすることが好ましい。また、これら映像情報は、定点WEBカメラやベテラン保守員が着用する小型カメラ(例えば、メガネに装着した小型カメラ)等から収集するようにしてもよい。加えて、これらのWEBカメラや小型カメラには、障害情報管理サーバ12に対し、保守あるいは点検の開始から完了までの情報を送信する手段および格納する手段を設けることが好ましい。さらに、遠隔地の保守員がリアルタイムで上記映像情報を視聴できるようにしてもよい。もちろん、セキュリティレベルや保守員のアクセスポリシに基づいた視聴制御が行われる。
また、上記した実施形態では、情報処理システム11が単体で動作するものとして説明したが、複数の情報処理システムで障害情報を授受し、他の情報処理システムから障害報告の受信の都度、保守レベルを再計算して保守員に提示するにしてもよい。例えば、他の情報処理システムから、ある部位の障害報告を受信した場合、情報処理システム11が、過去の障害履歴情報を参照し同一部位あるいは関連部位の有無を判定するようにすることができる。
また、上記した実施形態では、保守レベルを算出するためのパラメータは予め登録されているものとして説明したが、適宜、これらを点検、修正できるようにしてもよい。例えば、実際に行う保守の形態(オンライン、オフライン)、サーバの型(ラックマウント、ブレード)情報を用いることで、より精緻な保守指示を出力することができる。加えて、本来はオンラインでメンテナンスが可能であるが、当該保守を行った場合、保守対象外(管理対象外)の装置に影響する可能性があるか否かを判定するようにしてもよい。その結果によって、例えば、保守対象外(管理対象外)への影響によりシステムダウンとなる致命障害のリスクがある場合は、顧客への問い合わせを行い保守スケジュールを確立するといった運用を行うことが可能になる。
なお、上記の特許文献の各開示を、本書に引用をもって繰り込むものとする。本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素(各請求項の各要素、各実施形態ないし実施例の各要素、各図面の各要素等を含む)の多様な組み合わせ、ないし選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。
11 情報処理システム
11A、11B 装置
12 障害情報管理サーバ
21 主記憶装置(MEM)
22 プロセッサ(PROC)
23 ノードコントローラ(NC)
24 クロスバスイッチ(Xbar)
25 入出力装置(IO)
26 サービスプロセッサ(SVP)
30 FRU(Field Replacable Unit)テーブル
31 障害履歴格納部A
32 障害履歴格納部B
35 障害情報データベース(障害情報DB)
36 保守情報データベース(保守情報DB)
40 データ収集部
41 障害要因解析部
42 保守レベル算出部
43 コンソール
44 構成情報解析部
46 EF制御部
47 メンテナンス状態表示ランプ(MF表示)
48 エラー状態表示ランプ(EF表示)
100 情報源
110 障害要因解析部
120 保守レベル算出部
130 表示部
e001、n001、n002、n003、n004 信号線

Claims (9)

  1. 管理対象のシステムに含まれる置換可能な部位のうちの障害要因部位を特定するための情報と、該障害要因部位の障害の履歴情報とを格納した情報源にアクセスして、管理対象のシステムに含まれる置換可能な部位から発せられるエラーコードから、被疑割合付きの障害要因部位情報と、該障害要因部位の障害の履歴情報とを生成する障害要因解析部と、
    前記障害要因部位と前記障害の履歴情報とに基づいて、保守作業の難易度を示す保守レベルを算出する保守レベル算出部と、を備え、
    前記保守レベルを含んだ保守作業の指示情報を出力する情報処理システム。
  2. 前記情報源には、各障害要因部位に関する保守支援情報を格納した保守情報データベースが含まれ、
    前記保守支援情報を含んだ保守作業の指示情報を出力する請求項1の情報処理システム。
  3. 前記保守情報データベースには、さらに、各障害要因部位において発生した保守時のミスによる故障情報が含まれ、
    保守レベル算出部は、前記障害要因部位と前記障害の履歴情報とに加えて、前記保守時のミスによる故障情報を用いて保守レベルを算出する請求項2の情報処理システム。
  4. 前記保守レベルが所定のレベル以下である場合、オンラインでの保守作業を指示し、
    前記保守レベルが前記所定のレベルを超えた場合、オフラインでの保守作業を指示する請求項1から3いずれか一の情報処理システム。
  5. 前記保守レベルを含んだ保守作業の指示情報の出力後、所定の条件が成立するまで、オンラインでの保守操作を禁止する保守操作ロック機能を有する請求項1から4いずれか一の情報処理システム。
  6. さらに、管理対象のシステムの構成情報に基づいて、保守作業により影響を受ける他の運用システムまたは運用中の別の論理パーティションの有無を判別し、サービスプロセッサに通報する構成情報解析部を備え、
    前記サービスプロセッサは、前記保守作業により影響を受ける他の運用システムまたは運用中の別の論理パーティションを、前記保守作業による障害検出を抑止させるよう制御する請求項1から5いずれか一の情報処理システム。
  7. 前記情報源には、各保守作業の映像を記録した動画データが含まれ、
    保守員からの要求に応じて、前記動画データを再生する請求項1から6いずれか一の情報処理システム。
  8. 管理対象のシステムに含まれる置換可能な部位のうちの障害要因部位を特定するための情報と、該障害要因部位の障害の履歴情報とを格納した情報源にアクセスにアクセス可能な情報処理システムによる保守方法であって、
    前記情報源にアクセスして、管理対象のシステムに含まれる置換可能な部位から発せられるエラーコードから、被疑割合付きの障害要因部位情報と、該障害要因部位の障害の履歴情報とを生成するステップと、
    障害要因部位と、保守支援情報とに基づいて、保守作業の難易度を示す保守レベルを算出するステップと、
    前記保守レベルを含んだ保守作業の指示情報を出力するステップとを含む、保守方法。
  9. 管理対象のシステムに含まれる置換可能な部位のうちの障害要因部位を特定するための情報と、該障害要因部位の障害の履歴情報とを格納した情報源にアクセスにアクセス可能な情報処理システムに含まれるコンピュータに、
    前記情報源にアクセスして、管理対象のシステムに含まれる置換可能な部位から発せられるエラーコードから、被疑割合付きの障害要因部位情報と、該障害要因部位の障害の履歴情報とを生成する処理と、
    障害要因部位と、保守支援情報とに基づいて、保守作業の難易度を示す保守レベルを算出する処理と、
    前記保守レベルを含んだ保守作業の指示情報を出力する処理とを実行させるプログラム。
JP2012074131A 2012-03-28 2012-03-28 情報処理システム、保守方法及びプログラム Active JP5995265B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012074131A JP5995265B2 (ja) 2012-03-28 2012-03-28 情報処理システム、保守方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012074131A JP5995265B2 (ja) 2012-03-28 2012-03-28 情報処理システム、保守方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2013206105A true JP2013206105A (ja) 2013-10-07
JP5995265B2 JP5995265B2 (ja) 2016-09-21

Family

ID=49525125

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012074131A Active JP5995265B2 (ja) 2012-03-28 2012-03-28 情報処理システム、保守方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5995265B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016186715A (ja) * 2015-03-27 2016-10-27 日本電気株式会社 モジュール管理装置、モジュール管理方法、および、モジュール管理プログラム
JP2018120413A (ja) * 2017-01-25 2018-08-02 Necプラットフォームズ株式会社 保守判断装置、保守判断方法及びプログラム
JPWO2021205605A1 (ja) * 2020-04-09 2021-10-14
CN117540284A (zh) * 2024-01-10 2024-02-09 深圳市胜威南方科技有限公司 一种pdu运行故障检测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01278866A (ja) * 1988-04-30 1989-11-09 Mazda Motor Corp 車両の故障診断装置
JPH0787191A (ja) * 1993-09-16 1995-03-31 Nec Corp ネットワーク障害管理方法
JPH07296065A (ja) * 1994-04-22 1995-11-10 Hitachi Inf & Control Syst Inc 生産管理方法および生産管理システム
JP2002269264A (ja) * 2001-03-12 2002-09-20 Mitsubishi Electric Corp ユーザへの出張修理受付ウェブシステムおよびそのウェブシステムを利用した出張修理対応方法
JP2004102727A (ja) * 2002-09-10 2004-04-02 Mitsubishi Heavy Ind Ltd 作業支援システム
JP2004161195A (ja) * 2002-11-15 2004-06-10 Shin Meiwa Ind Co Ltd ボーディングブリッジの集中遠隔監視システム
JP2011175513A (ja) * 2010-02-25 2011-09-08 Nec Computertechno Ltd 障害管理システム及び方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01278866A (ja) * 1988-04-30 1989-11-09 Mazda Motor Corp 車両の故障診断装置
JPH0787191A (ja) * 1993-09-16 1995-03-31 Nec Corp ネットワーク障害管理方法
JPH07296065A (ja) * 1994-04-22 1995-11-10 Hitachi Inf & Control Syst Inc 生産管理方法および生産管理システム
JP2002269264A (ja) * 2001-03-12 2002-09-20 Mitsubishi Electric Corp ユーザへの出張修理受付ウェブシステムおよびそのウェブシステムを利用した出張修理対応方法
JP2004102727A (ja) * 2002-09-10 2004-04-02 Mitsubishi Heavy Ind Ltd 作業支援システム
JP2004161195A (ja) * 2002-11-15 2004-06-10 Shin Meiwa Ind Co Ltd ボーディングブリッジの集中遠隔監視システム
JP2011175513A (ja) * 2010-02-25 2011-09-08 Nec Computertechno Ltd 障害管理システム及び方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016186715A (ja) * 2015-03-27 2016-10-27 日本電気株式会社 モジュール管理装置、モジュール管理方法、および、モジュール管理プログラム
JP2018120413A (ja) * 2017-01-25 2018-08-02 Necプラットフォームズ株式会社 保守判断装置、保守判断方法及びプログラム
JPWO2021205605A1 (ja) * 2020-04-09 2021-10-14
WO2021205605A1 (ja) * 2020-04-09 2021-10-14 日本電信電話株式会社 情報処理装置、コスト値算出方法及びコスト値算出プログラム
JP7405245B2 (ja) 2020-04-09 2023-12-26 日本電信電話株式会社 情報処理装置、コスト値算出方法及びコスト値算出プログラム
CN117540284A (zh) * 2024-01-10 2024-02-09 深圳市胜威南方科技有限公司 一种pdu运行故障检测方法
CN117540284B (zh) * 2024-01-10 2024-04-12 深圳市胜威南方科技有限公司 一种pdu运行故障检测方法

Also Published As

Publication number Publication date
JP5995265B2 (ja) 2016-09-21

Similar Documents

Publication Publication Date Title
US8645769B2 (en) Operation management apparatus, operation management method, and program storage medium
US20090249129A1 (en) Systems and Methods for Managing Multi-Component Systems in an Infrastructure
CA2816469C (en) Faults and performance issue prediction
US9239988B2 (en) Network event management
JP5678717B2 (ja) 監視装置、監視システムおよび監視方法
JP2011138251A (ja) 監視制御ネットワークシステム
JP5995265B2 (ja) 情報処理システム、保守方法及びプログラム
US8719626B2 (en) Proactively removing channel paths in error from a variable scope of I/O devices
CN115794588A (zh) 内存故障预测方法、装置、系统及监测服务器
JP2016046702A (ja) 通信システム,異常制御装置および異常制御方法
US20090249117A1 (en) Apparatus maintenance system and method
CN109271270A (zh) 存储系统中底层硬件的故障排除方法、系统及相关装置
JP5505966B2 (ja) 障害管理システム及び方法
EP1653662A2 (en) Protection switch logging methods and systems
CA2758682C (en) Plant control system, data to be equalized selection apparatus, and data to be equalized selection method
WO2011051999A1 (ja) 情報処理装置及び情報処理装置の制御方法
JP2003330758A (ja) 集約機能付障害情報通知システム及びマシンを集約機能付障害情報通知手段として機能させるためのプログラム
JP2008171057A (ja) システム総合管理システム
JP2010152469A (ja) ログ収集処理監視システム
JP2014078067A (ja) データベースシステム、データベース装置、データベースの障害回復方法およびプログラム
JP6388335B2 (ja) 障害傾向判定装置、障害傾向判定方法及びプログラム
JP2017182371A (ja) 故障予測装置、故障予測方法、及び故障予測プログラム
WO2023084670A1 (ja) 監視装置、監視方法、及びコンピュータ読み取り可能な記憶媒体
WO2013035264A1 (ja) 監視装置、監視方法およびプログラム
JP2023045180A (ja) 制御クラウドサーバ

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20140725

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160726

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160818

R150 Certificate of patent or registration of utility model

Ref document number: 5995265

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150