JP5995265B2 - Information processing system, maintenance method and program - Google Patents
Information processing system, maintenance method and program Download PDFInfo
- Publication number
- JP5995265B2 JP5995265B2 JP2012074131A JP2012074131A JP5995265B2 JP 5995265 B2 JP5995265 B2 JP 5995265B2 JP 2012074131 A JP2012074131 A JP 2012074131A JP 2012074131 A JP2012074131 A JP 2012074131A JP 5995265 B2 JP5995265 B2 JP 5995265B2
- Authority
- JP
- Japan
- Prior art keywords
- maintenance
- information
- failure
- processing system
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012423 maintenance Methods 0.000 title claims description 213
- 230000010365 information processing Effects 0.000 title claims description 54
- 238000000034 method Methods 0.000 title claims description 24
- 238000000556 factor analysis Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000005192 partition Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000013480 data collection Methods 0.000 description 15
- 230000002159 abnormal effect Effects 0.000 description 10
- 238000004519 manufacturing process Methods 0.000 description 8
- 238000011084 recovery Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 230000009291 secondary effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003449 preventive effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 101150085860 SVP26 gene Proteins 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 230000007850 degeneration Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Debugging And Monitoring (AREA)
Description
本発明は、情報処理システム、保守方法及びプログラムに関し、特に、保守作業に関する指示を出力する情報処理システム、保守方法及びプログラムに関する。 The present invention relates to an information processing system, a maintenance method, and a program, and more particularly, to an information processing system, a maintenance method, and a program that output instructions related to maintenance work.
特許文献1に、設定当初のFRUテーブルを用いて正確な被疑割合を含む情報を提供する障害管理システムが開示されている。同文献によると、この障害管理システムは、サービスプロセッサにより障害事象が検知された場合に、当該障害事象を特定する情報をキーとして障害履歴情報を検索し、当該障害事象が過去に発生した障害事象と一致する場合に、前記障害履歴情報から当該障害事象を引き起こした誘因履歴のある障害要因部位を抽出する機能を備える。そして、前記誘因履歴のある障害要因部位が抽出された場合に、当該障害要因部位の前記誘因頻度に応じて、FRUテーブルの当該障害要因部位に対応する設定当初の被疑割合を補正して得られる補正被疑割合を算出する。当該障害事象と当該障害要因部位との関係が、前記FRUテーブルと前記障害履歴情報とで一致する場合に、当該障害履歴情報の相当する前記誘因頻度をインクリメントする、と記載されている。
また、特許文献2には、発生した異常状態の復旧難易度を算出し、復旧難易度に応じた宛て先に通知メールを送信するようにして、適切な宛て先にエラーを通知することができるようにした電子装置が開示されている。同文献によると、この電子装置は、異常状態を検出する状態検出部と、状態検出部によって検出された異常状態に応じた内容の通知メールを生成するメール生成部と、状態検出部によって検出された異常状態に応じた宛て先を抽出する宛て先抽出部と、宛て先抽出部によって抽出された宛て先との間の電子メールの通信及び再送を制御する通信制御部とを備えると記載されている。そして、状態検出部は、検出した異常状態の復旧難易度を算出し、宛て先抽出部は、算出された復旧難易度に基づいて通知メールを送信する宛て先を抽出し、メール生成部は、宛て先抽出部よって抽出された宛て先に対する通知メールを生成し、通信制御部は、メール生成部によって生成された通知メールを宛て先抽出部よって抽出された宛て先に送信する、と記載されている。
Further, in
以下の分析は、本発明によって与えられたものである。近年、電子機器製品のダウンサイジング化にともない、多くのコモディティプロセッサを高速ネットワークで接続する高密度実装サーバ(ブレード、クラスタ)技術など分散・並列処理技術が進んでいる。これらの技術の進歩により保守コスト削減のための構造設計も重要な要素の一つであるが、相反してシステム構成あるいは形態によってはより高度な高密度実装がとられ、定期保守あるいは障害発生時の保守自体も高度な訓練や相応の経験が必要となるケースがある。 The following analysis is given by the present invention. In recent years, with downsizing of electronic equipment products, distributed and parallel processing technologies such as a high-density mounting server (blade, cluster) technology that connects many commodity processors through a high-speed network are progressing. Structural design for reducing maintenance costs is also an important factor due to the advancement of these technologies, but on the contrary, depending on the system configuration or configuration, higher-density mounting is taken, so that regular maintenance or failure occurs In some cases, the maintenance itself requires advanced training and appropriate experience.
また、上記システム構成や形態に依存しない場合でも、設計不良、製造工程での初期不良あるいはロット不良(品質バラツキ)、顧客先での運用環境による劣化、部品の経年劣化等が挙げられ、これらの要因に応じて保守の対応も追随しないと適切な保守が出来ず、運用停止時間の長期化や健全に運用されているシステムへの副次的な影響を及ぼし兼ねずユーザに甚大な被害を与えることがある。 In addition, even if it does not depend on the above system configuration or form, there may be design defects, initial defects or lot defects (quality variation) in the manufacturing process, deterioration due to the operating environment at the customer site, aging deterioration of parts, etc. If the maintenance response does not follow according to the factors, appropriate maintenance cannot be performed, which may cause prolonged operation stop time and side effects on a soundly operated system, and may cause serious damage to the user. Sometimes.
上記のように、適切な保守を行うためには、保守作業の難易度に応じた訓練や経験が必要とされるところ、特許文献1の障害管理システムは、障害発生時に、障害要因部位について正確な被疑割合を提供することを主眼としており、保守作業の難易度を提供できるものとなっていない。
As described above, in order to perform appropriate maintenance, training and experience corresponding to the difficulty level of maintenance work are required. However, the failure management system of
特許文献2の電子機器は、異常状態が検出されると、異常状態の復旧難易度を算出すると記載されているが、当該復旧難易度は、異常状態を通知する通知メールの宛先を決定するために用いられているに過ぎない。また、復旧難易度の算出方法自体も、同公報図4のような異常ステータスと復旧難易度とを対応付けたテーブル(異常ステータスエリア)から読み出すものであり、上述のように、システム構成や形態のみならず、様々な要素が絡み合って適切な保守を行う必要があるシステムには到底対応することは不可能である。
The electronic device disclosed in
本発明は、上記した事情に鑑みてなされたものであって、その目的とするところは、上記した多種多様かつ難易度の異なる保守作業への対応を支援する情報処理システム、保守方法及びプログラムを提供することにある。 The present invention has been made in view of the above-described circumstances, and an object of the present invention is to provide an information processing system, a maintenance method, and a program for supporting correspondence to the above-described various maintenance tasks having different difficulty levels. It is to provide.
本発明の第1の視点によれば、少なくともプロセッサ、メモリを含む置換可能な部位を備えた情報処理システムであって、前記置換可能な部位からエラーコードが出力された場合、前記置換可能な部位のうちの障害要因部位を特定するための情報と、該障害要因部位の障害の履歴情報とを格納した情報源にアクセスして、前記エラーコードに対応する被疑割合付きの障害要因部位情報と、該障害要因部位の障害の履歴情報とを取得する障害要因解析部と、前記被疑割合付きの障害要因部位と前記障害の履歴情報とに基づいて、保守作業の難易度を示す保守レベルを算出する保守レベル算出部と、を備え、前記保守レベルを含んだ保守作業の指示情報を出力する情報処理システムが提供される。 According to a first aspect of the present invention , there is provided an information processing system including a replaceable part including at least a processor and a memory, and when an error code is output from the replaceable part, the replaceable part Access to an information source storing information for identifying a failure factor portion of the error history information and failure history information of the failure factor portion, failure factor portion information with a suspect ratio corresponding to the error code , Based on the failure factor analysis unit that acquires the failure history information of the failure factor part, the failure factor part with the suspect ratio, and the failure history information, a maintenance level that indicates a difficulty level of the maintenance work is calculated. And an information processing system that outputs maintenance work instruction information including the maintenance level.
本発明の第2の視点によれば、少なくともプロセッサ、メモリを含む置換可能な部位を備えた情報処理システムによる保守方法であって、前記置換可能な部位からエラーコードが出力された場合、前記置換可能な部位のうちの障害要因部位を特定するための情報と、該障害要因部位の障害の履歴情報とを格納した情報源にアクセスして、前記エラーコードに対応する被疑割合付きの障害要因部位情報と、該障害要因部位の障害の履歴情報とを取得するステップと、前記被疑割合付きの障害要因部位と前記障害の履歴情報とに基づいて、保守作業の難易度を示す保守レベルを算出するステップと、前記保守レベルを含んだ保守作業の指示情報を出力するステップとを含む、保守方法が提供される。本方法は、保守員に対し、保守レベルを含んだ保守作業の指示情報を出力する情報処理システムという、特定の機械に結びつけられている。 According to a second aspect of the present invention, there is provided a maintenance method by an information processing system including a replaceable part including at least a processor and a memory, and when an error code is output from the replaceable part, the replacement and information for specifying the cause of the error portion of the possible sites, to access the information source of the history information stored in the failure of the fault-site disorder with suspect rate corresponding to the error code and cause part information, acquiring the history information of the failure of the disorder factors site, based on the history information of the suspected ratio with a fault-site with the disorder, a maintenance level indicating a degree of difficulty of maintenance There is provided a maintenance method including a step of calculating and a step of outputting maintenance work instruction information including the maintenance level. This method is associated with a specific machine called an information processing system that outputs maintenance work instruction information including a maintenance level to maintenance personnel.
本発明の第3の視点によれば、少なくともプロセッサ、メモリを含む置換可能な部位を備えた情報処理システムに含まれるコンピュータに、前記置換可能な部位からエラーコードが出力された場合、前記被疑割合付きの障害要因部位情報と、該障害要因部位の障害の履歴情報とを取得する処理と、前記被疑割合付きの障害要因部位と前記障害の履歴情報とに基づいて、保守作業の難易度を示す保守レベルを算出する処理と、前記保守レベルを含んだ保守作業の指示情報を出力する処理とを実行させるプログラムが提供される。なお、このプログラムは、コンピュータが読み取り可能な記憶媒体に記録することができる。即ち、本発明は、コンピュータプログラム製品として具現することも可能である。
According to a third aspect of the present invention, when an error code is output from the replaceable part to a computer included in an information processing system including a replaceable part including at least a processor and a memory , the suspect ratio The degree of difficulty of maintenance work is indicated based on the process of obtaining the failure factor part information with the fault, the history information of the fault of the fault factor part, and the fault factor part with the suspect ratio and the fault history information. There is provided a program for executing a process for calculating a maintenance level and a process for outputting maintenance work instruction information including the maintenance level. This program can be recorded on a computer-readable storage medium. That is, the present invention can be embodied as a computer program product.
本発明によれば、多種多様かつ難易度の異なる保守作業への対応を好適に支援することが可能となる。 ADVANTAGE OF THE INVENTION According to this invention, it becomes possible to support suitably the response | compatibility to the various maintenance work from which the difficulty level differs.
はじめに本発明の一実施形態の概要について図面を参照して説明する。なお、この概要に付記した図面参照符号は、理解を助けるための一例として各要素に便宜上付記したものであり、本発明を図示の態様に限定することを意図するものではない。 First, an outline of an embodiment of the present invention will be described with reference to the drawings. Note that the reference numerals of the drawings attached to this summary are attached to the respective elements for convenience as an example for facilitating understanding, and are not intended to limit the present invention to the illustrated embodiment.
本発明は、図1に示すように、その一実施形態において、障害要因解析部110と、保守レベル算出部120と、前記保守レベルを含んだ保守作業の指示情報を出力する表示部130とを備える構成にて実現できる。
As shown in FIG. 1, the present invention includes a failure
より具体的には、障害要因解析部110は、管理対象のシステムに含まれる置換可能な部位のうちの障害要因部位を特定するための情報と、該障害要因部位の障害の履歴情報とを格納した情報源100にアクセスして、管理対象のシステムに含まれる置換可能な部位から発せられるエラーコードから、被疑割合付きの障害要因部位情報と、該障害要因部位の障害の履歴情報とを生成する。
More specifically, the failure
そして、前記保守レベル算出部120は、障害要因部位と前記障害の履歴情報とに基づいて、保守作業の難易度を示す保守レベルを算出する。例えば、保守レベル算出部120は、ある障害要因部位に故障が多発している場合、保守レベルを引き上げる。これにより、相応の高度な訓練や経験を持った保守員による保守や、オンラインではなく、オフラインによる保守作業が行われる。
[第1の実施形態]
The maintenance
[First Embodiment]
続いて、本発明の第1の実施形態について図面を参照して詳細に説明する。図2は、本発明の第1の実施形態の構成を表したブロック図である。 Next, a first embodiment of the present invention will be described in detail with reference to the drawings. FIG. 2 is a block diagram showing the configuration of the first exemplary embodiment of the present invention.
図2を参照すると、障害情報管理サーバ12と接続された情報処理システム11が示されている。情報処理システム11は、主記憶装置(以下、「MEM」)21と、複数のプロセッサ(以下、「PROC」)22と、複数のノードコントローラ(以下、「NC」)23と、複数のクロスバスイッチ(以下、「Xbar」)24と、複数の入出力装置(以下、「IO」)25と、サービスプロセッサ(以下、「SVP」)26と、データ収集部40と、障害要因解析部41と、保守レベル算出部42と、コンソール43と、構成情報解析部44とを備えている。
Referring to FIG. 2, an information processing system 11 connected to the failure
また、この情報処理システム11は、情報源として、FRU(Field Replacable Unit)テーブル30と、障害履歴格納部A31と、障害履歴格納部B32と、を備えている。 In addition, the information processing system 11 includes a field replaceable unit (FRU) table 30, a failure history storage unit A31, and a failure history storage unit B32 as information sources.
MEM21、PROC22、NC23、Xbar24、IO25のいずれか1つあるいは複数の箇所で障害が検出された場合、信号線e001を介してエラーがSVP26に報告される。 If a failure is detected at any one or more of MEM21, PROC22, NC23, Xbar24, and IO25, an error is reported to SVP 26 via signal line e001.
SVP26は、前記エラー報告を受信すると、そのサービスログから、上記MEM21、PROC22、NC23、Xbar24、IO25の障害情報を採取する。さらに、SVP26は、前記障害情報に含まれるエラーインディケータフラグ(EIF)をキーとして、FRUテーブル30から障害要因部位(NAME)やその被疑割合(RATE)等を抽出し、障害履歴格納部A31に登録する。
Upon receiving the error report, the SVP 26 collects the failure information of the
FRUテーブル30は、エラーコードを示すエラーインディケータフラグ(EIF)に対応する障害要因部位(NAME)やその被疑割合(RATE)、製造ロット番号やリビジョン番号(REV)、ベンダーID(VID)等を登録したテーブルである。 The FRU table 30 registers a failure factor part (NAME) corresponding to an error indicator flag (EIF) indicating an error code, a suspected ratio (RATE), a manufacturing lot number, a revision number (REV), a vendor ID (VID), and the like. It is a table.
図3は、FRUテーブル30の一例を示す図である。例えば、EIFが「N0_EIF_0」には、FRU[0]として、NAME=N0_NCC、RATE=100、REV=A0001、VID=000という情報が対応付けられている。これは、「N0_EIF_0」とのエラーインディケータフラグ(EIF)から、障害要因部位として、100%の割合でN0ノードコントローラのカード「N0_NCC」が特定されることを示している。同様に、「N0_EIF_2」とのエラーインディケータフラグ(EIF)から、障害要因部位として、N0ノードコントローラのポート0「N0_P0」、N1ノードコントローラのポート0「N1_P0」、ケーブルA(CABLE_A)が特定される。また、それぞれ被疑割合は、49%、50%、1%という情報が得られる。 FIG. 3 is a diagram illustrating an example of the FRU table 30. For example, the information “NAME = N0_NCC, RATE = 100, REV = A0001, VID = 000” is associated as FRU [0] with the EIF “N0_EIF_0”. This indicates that the card “N0_NCC” of the N0 node controller is specified at a rate of 100% as the failure factor portion from the error indicator flag (EIF) with “N0_EIF_0”. Similarly, the port 0 “N0_P0” of the N0 node controller, the port 0 “N1_P0” of the N1 node controller, and the cable A (CABLE_A) are identified from the error indicator flag (EIF) with “N0_EIF_2”. . Further, information on the suspect ratios of 49%, 50%, and 1% is obtained.
また、図3のFRUテーブルは、EIF毎に、エラー回数(Error Count)と、メンテナンス状態フラグ(MN1)とを保持可能となっている。これらの情報は、SVP26から適宜更新される。 In addition, the FRU table of FIG. 3 can hold the number of errors (Error Count) and the maintenance status flag (MN1) for each EIF. Such information is appropriately updated from the SVP 26.
障害履歴格納部A31は、情報処理システム11で検出された障害の履歴情報を格納する。また、これらの障害の履歴情報に、製造ロットやベンダID等を含ませることで、障害発生頻度から、設計マージンに余裕のない機能や製造ロットにより障害発生頻度の多い部品の分析が可能となる。障害履歴格納部A31には、EIF毎に、エラー回数フィールドを管理するテーブルが備えられており、各EIFのエラー発生回数を把握できるようになっている。 The failure history storage unit A31 stores history information of failures detected by the information processing system 11. In addition, by including manufacturing lots, vendor IDs, and the like in the failure history information, it is possible to analyze parts with high failure occurrence frequency based on functions and production lots that have no margin in design margin from the failure occurrence frequency. . The failure history storage unit A31 is provided with a table for managing the error count field for each EIF so that the error occurrence count of each EIF can be grasped.
障害履歴格納部B32は、信号線n001を介して障害情報サーバ12から提供された他の情報処理システムで検出された障害の履歴情報を格納する。また、障害履歴格納部B32も、EIF毎に、エラー回数フィールドを管理するテーブルが備えられており、各EIFのエラー発生回数を把握できるようになっている。
The failure history storage unit B32 stores history information of failures detected by other information processing systems provided from the
データ収集部40は、SVP26によるFRUテーブル30、障害履歴格納部A31の更新が完了すると、FRUテーブル30、障害履歴格納部A31及び障害履歴格納部B32のデータを収集し、障害要因解析部41及び構成情報解析部44に出力する。
When the update of the FRU table 30 and the failure history storage unit A31 by the SVP 26 is completed, the
障害要因解析部41は、データ収集部40から出力されたデータに基づいて、報告されたエラーが過去の障害履歴、他の情報処理システムの障害履歴、製造ロット等を分析し、被疑割合付きの障害要因部位情報と、該障害要因部位の障害の履歴情報とを生成する。また、障害要因解析部41が、必要に応じて外部サーバ等に対し、障害要因部位として特定された部位の情報等を問い合わせるようにしてもよい。
Based on the data output from the
保守レベル算出部42は、障害要因解析部41から出力された被疑割合付きの障害要因部位情報と、該障害要因部位の障害の履歴情報と、信号線n002を介して得られる保守情報とに基づいて、保守の難易度を算出し、被疑割合付きの障害要因部位情報とともに保守の難易度情報(保守レベル)を含んだ保守作業の指示情報を出力する。例えば、保守支援情報に、保守時のミス(手順ミス)による障害や保守による故障(過剰な押し込み、引き込みなどにより発生したもの)の回数が含まれている場合、保守レベル算出部42は、この保守時のミスによる故障回数情報が多い部位の保守レベルを保守レベル高(難易度大)と算出する。前記保守レベルの算出は、例えば、予め定めた数式により、障害要因部位や、故障の回数、そのうちの保守時のミスによる回数等を評点に換算し、予め定めたレベル毎の閾値と、この評点と比較することにより求めることができる。なお、閾値は部品のFIT(Failure In Time)値等から障害要因部位毎に決めておくことが好ましい。
The maintenance
コンソール43は、保守レベル算出部42から出力された、被疑割合付きの障害要因部位情報および保守の難易度情報(保守レベル)を含んだ保守作業の指示情報を出力する。
The
構成情報解析部44は、データ収集部40から出力されたデータに基づいて、運用形態から構成情報を分析してSVP26に伝達する。この分析結果には、例えば、障害要因部位の保守操作(カバーの脱着、ケーブルの移動/脱着、モジュール交換)に伴う副次的な影響による運用可否情報が含まれる。前記分析の結果、運用可能と判断された場合、SVP26は、MEM21、PROC22、NC23、Xbar24、IO25をメンテナンスモードに移行させるとともに、メンテナンスモード中のエラーカウント等の変更を実施する。
The configuration
障害情報管理サーバ12は、信号線n003、n004を介して、情報処理システム11を含む他の情報処理システムと接続され、障害情報を収集するサーバである。より具体的には、障害情報管理サーバ12は、前記収集した障害情報を蓄積する障害情報データベース(障害情報DB)35と、保守支援情報として情報処理システム11を含む他の情報処理システムにて行われた保守作業の情報を格納する保守情報データベース(保守情報DB)36とを備えている。障害情報DB35に格納された情報は、所定のタイミングで、信号線n001を介して、情報処理システム11の障害履歴格納部B32に転送される。
The failure
なお、図2に示した情報処理システム11のデータ収集部40、障害要因解析部41と、保守レベル算出部42とおよび構成情報解析部44はそれぞれ、情報処理システム11に搭載されたコンピュータに、そのハードウェアを用いて、上記した各処理を実行させるコンピュータプログラムにより実現することもできる。
Note that the
続いて、本実施形態の動作について図面を参照して詳細に説明する。情報処理システム11においては、以下の障害が発生しうる。
・MEM21−PROC22間
・PROC22−NC23間
・NC23−Xbar24間
・Xbar24−IO25間
・SVP26−MEM21、PROC22、NC23、Xbar24、IO25間
・MEM21、PROC22、NC23、Xbar24、IO25、SVP26の単体障害
以下の説明では、情報処理システム11の複数のノード間を接続しているXbar24とIO25間で障害を発生した場合の動作を説明する。
Next, the operation of this embodiment will be described in detail with reference to the drawings. In the information processing system 11, the following failures may occur.
・ Between MEM21 and PROC22 ・ Between PROC22 and NC23 ・ Between NC23 and Xbar24 ・ Between Xbar24 and IO25 ・ Between SVP26 and MEM21, between PROC22, NC23, Xbar24 and IO25 In the description, an operation when a failure occurs between the
図4は、本発明の第1の実施形態の情報処理システムにおいて、Xbar24またはIO25のいずれかにおいてエラーが検出された際の動作を表した流れ図である。図4を参照すると、まず、Xbar24−IO25間の障害により、Xbar24またはIO25のいずれかにおいてエラーが検出されると(ステップS001)、SVP26へのエラー報告が行われる(ステップS002)。
FIG. 4 is a flowchart showing an operation when an error is detected in either
前記エラー報告を受けたSVP26は、そのサービスログ(SVPログ)から、上記Xbar24、IO25の障害情報を採取する(ステップS003)。
Upon receiving the error report, the SVP 26 collects the failure information of the
次に、SVP26は、前記採取した障害情報に含まれるエラーインディケータ(EIF)をキーとしてFRUテーブル30から該当するデータを検索する(ステップS004)。次に、SVP26は、前記FRUテーブル30から検索したデータを障害履歴格納部A31に格納するとともに、データ収集部40を起動する。ここで、SVP26は、前記FRUテーブル30の該当するエントリのエラー回数フィールドの値を1加算する。
Next, the SVP 26 searches for corresponding data from the FRU table 30 using the error indicator (EIF) included in the collected failure information as a key (step S004). Next, the SVP 26 stores the data retrieved from the FRU table 30 in the failure history storage unit A31 and activates the
データ収集部40は、まず、ステップS004での登録より前に、ステップS003で特定されたエラーインディケータ(EIF)に対応するデータが障害履歴格納部A31に登録されていたか否かを確認する(ステップS005)。
The
ここで、ステップS003で特定されたエラーインディケータ(EIF)に対応するデータが障害履歴格納部A31に登録されていた場合(ステップS005のYes)、データ収集部40は、ステップS003で特定されたエラーインディケータ(EIF)に対応するデータが障害履歴格納部B32に登録されていたか否かを確認する(ステップS006−1)。
Here, when the data corresponding to the error indicator (EIF) identified in step S003 is registered in the failure history storage unit A31 (Yes in step S005), the
また、ステップS003で特定されたエラーインディケータ(EIF)に対応するデータが障害履歴格納部A31に登録されていない場合も(ステップS005のNo)、同様に、データ収集部40は、ステップS003で特定されたエラーインディケータ(EIF)に対応するデータが障害履歴格納部B32に登録されていたか否かを確認する(ステップS006−2)。
Similarly, when the data corresponding to the error indicator (EIF) specified in step S003 is not registered in the failure history storage unit A31 (No in step S005), the
上記ステップS005、S006−1、S006−2の結果に応じて、ステップS007〜S010のいずれかの処理が行われる。また、障害履歴格納部A31、障害履歴格納部B32のいずれかまたは双方に、同一の障害履歴が存在していた場合、データ収集部40は、それぞれのエラー回数フィールドを管理するテーブルのエラー発生回数フィールドの値を1加算する。
Depending on the results of steps S005, S006-1, and S006-2, any one of steps S007 to S010 is performed. If the same failure history exists in either or both of the failure history storage unit A31 and the failure history storage unit B32, the
まず、障害履歴格納部A31、障害履歴格納部B32の双方に、同一の障害履歴が存在していた場合(ステップS005、S006−1が共にYes)、データ収集部40は、これら双方の障害履歴を障害要因解析部41に出力する。障害要因解析部41は、前記双方の障害履歴情報について、製造ロット、ベンダーID等の条件を比較分析し、障害要因部位および障害要因部位の被疑割合の補正の必要性を判定する(ステップS007)。
First, when the same failure history exists in both the failure history storage unit A31 and the failure history storage unit B32 (both steps S005 and S006-1 are Yes), the
一方、障害履歴格納部A31に、同一の障害履歴が存在しているが、障害履歴格納部B32に、同一の障害履歴が存在していない場合(ステップS005がYes、S006−1がNo)、データ収集部40は、障害履歴格納部A31の障害履歴を障害要因解析部41に出力する。障害要因解析部41は、障害履歴格納部A31の障害履歴情報について、製造ロット、ベンダーID等の条件を比較分析し、障害要因部位および障害要因部位の被疑割合の補正の必要性を判定する(ステップS008)。
On the other hand, if the same failure history exists in the failure history storage unit A31, but the same failure history does not exist in the failure history storage unit B32 (Yes in step S005, No in S006-1), The
一方、障害履歴格納部A31に、同一の障害履歴が存在していないが、障害履歴格納部B32に、同一の障害履歴が存在している場合(ステップS005がNo、S006−2がYes)、データ収集部40は、障害履歴格納部B32の障害履歴を障害要因解析部41に出力する。障害要因解析部41は、障害履歴格納部B32の障害履歴情報について、製造ロット、ベンダーID等の条件を比較分析し、障害要因部位および障害要因部位の被疑割合の補正の必要性を判定する(ステップS009)。
On the other hand, when the same failure history does not exist in the failure history storage unit A31, but the same failure history exists in the failure history storage unit B32 (No in step S005, Yes in S006-2), The
一方、障害履歴格納部A31、障害履歴格納部B32の双方に、同一の障害履歴が存在していない場合(ステップS005、S006−1が共にNo)、データ収集部40は、FRUテーブルのデータをそのまま送信する(ステップS010)。障害要因解析部41は、FRUテーブルのデータを用いて、障害要因部位と、該障害要因部位の被疑割合とを出力する(ステップS010)。
On the other hand, when the same failure history does not exist in both the failure history storage unit A31 and the failure history storage unit B32 (both No in steps S005 and S006-1), the
なお、上記したステップS007〜S009における被疑割合の補正方法については、特許文献1に詳細に記載されている。
In addition, the correction method of the suspicious ratio in the above-described steps S007 to S009 is described in detail in
次に、保守レベル算出部42が、前記ステップS007〜S010で得られた情報と保守支援情報とを基に保守の難易度を算出し、被疑割合付きの障害要因部位情報や保守支援情報とともに保守の難易度情報(保守レベル)を含んだ保守作業の指示情報を生成・出力する(ステップS011)。ここで、保守レベルの算出の結果、保守レベルが高い場合(難易度大)や、保守による他装置への副次的影響が予見される場合、保守レベル算出部42は、オンライン保守は行わないようにするといった指示を生成する。
Next, the maintenance
最後に、コンソール43にて、保守レベル算出部42から出力された保守指示が表示される(ステップS012)。保守員は、保守指示に応じて、例えば、運用停止後の保守(オフライン保守)に切り替えるための保守スケジュールを作成し、保守作業を開始する。
Finally, the maintenance instruction output from the maintenance
続いて、保守作業の一連の流れを説明する。図5は、保守作業の流れを表した図である。以下、本実施形態の情報処理システム11は、図6に示すような論理パーティションによる複数のシステムが運用されているサーバであるものとする。また、そのNC23、Xbar24、IO25間は、図7に示すように接続され、パーティション0(PAR0)と、パーティション1(PAR1)と、が構成され、それぞれ第1のオペレーティングシステム(OS_0)、第2のオペレーティングシステム(OS_1)に割り当てて運用されているものとして説明する。
Next, a series of maintenance work will be described. FIG. 5 is a diagram showing the flow of maintenance work. Hereinafter, it is assumed that the information processing system 11 of this embodiment is a server in which a plurality of systems using logical partitions as shown in FIG. 6 are operated. Also, the
ここで、図8のXbar1−IO1間での障害検出により、情報処理システム11は、暫定的に保守操作を禁ずる保守操作ロックを指示し、障害状態表示ランプの点滅動作等により、障害を検出したことを表示する。図9は、情報処理システム11(図11では、情報処理システム11中の装置A11A、装置B11Bのみを示す)に備えられるエラー状態表示ランプ(EF表示)48およびメンテナンス状態表示ランプ(MF表示)47の点灯制御を行う回路構成を示す図である。ここでは、情報処理システム11に含まれる装置11A、11Bのいずれかで障害(EF)が検出されると、EF制御部46が、エラー状態表示ランプ(EF表示)48を点滅させる。これにより、コンソール以外でも保守員等に障害発生を認識させることができる。
Here, by detecting a failure between Xbar1 and IO1 in FIG. 8, the information processing system 11 instructs a maintenance operation lock temporarily prohibiting the maintenance operation, and detects a failure by a blinking operation of a failure state display lamp or the like. Display. FIG. 9 shows an error status display lamp (EF display) 48 and a maintenance status display lamp (MF display) 47 provided in the information processing system 11 (in FIG. 11, only the devices A11A and B11B in the information processing system 11 are shown). It is a figure which shows the circuit structure which performs lighting control of. Here, when a failure (EF) is detected in any of the
次に、情報処理システム11は、その障害がシステムの自動訂正機能等により訂正可能な障害であるか否かを判定する(ステップS101)。ここで、訂正可能な障害と判断した場合(ステップS101のYES)、情報処理システム11は、自動訂正処理を行ない、エラー状態表示ランプ(EF表示)48を消灯する(ステップS102)。 Next, the information processing system 11 determines whether or not the failure is a failure that can be corrected by the automatic correction function of the system (step S101). If it is determined that the fault can be corrected (YES in step S101), the information processing system 11 performs an automatic correction process and turns off the error status display lamp (EF display) 48 (step S102).
訂正可能な障害でないと判断した場合(ステップS101のNO)、次に、該当データを再送可能であるか否かを判定する。ここで、該当データを再送不可能な障害と判断した場合(ステップS103のNO)、リカバリ不可障害と判断し、Xbar1−IO1間を閉塞する処理が行われる。 If it is determined that the failure is not correctable (NO in step S101), it is next determined whether or not the data can be retransmitted. Here, if it is determined that the corresponding data is a failure that cannot be retransmitted (NO in step S103), it is determined that the failure is a non-recoverable failure, and a process of closing between Xbar1 and IO1 is performed.
該当データを再送可能な障害と判断した場合(ステップS103のYES)、メンテナンスモードに遷移させるか否かの判断が行われる(ステップS104)。なお、ここで、他に稼動中のシステムがなく、保守操作ミス等による副次的なシステム障害の影響がない場合、メンテナンスモードへの遷移は不要と判断され、保守指示書に基づいて保守が行われる(ステップS104のNO)。具体的には、今回検出された障害の発生件数(エラー回数)が所定の閾値未満であれば(ステップS105のNO)、運用継続となり(ステップS106)、そうでない場合には、リカバリ不可障害と判断し、Xbar1−IO1間を閉塞する処理が行われる。なお、図5の例では、Xbar1−IO1間を閉塞する前に、予防保守通知(ステップS108)を出力するか否かのエラー判定が行われる(ステップS107)。 If it is determined that the data can be retransmitted (YES in step S103), it is determined whether or not to shift to the maintenance mode (step S104). Here, if there is no other system in operation and there is no influence of a secondary system failure due to a maintenance operation error, etc., it is determined that the transition to the maintenance mode is unnecessary, and maintenance is performed based on the maintenance instruction. Is performed (NO in step S104). Specifically, if the number of failures (number of errors) detected this time is less than a predetermined threshold (NO in step S105), the operation is continued (step S106). Judgment is performed and processing between Xbar1 and IO1 is closed. In the example of FIG. 5, an error determination is made as to whether or not a preventive maintenance notification (step S108) is to be output (step S107) before closing between Xbar1 and IO1.
一方、図8に示すように、第1のオペレーティングシステム(OS_0)、第2のオペレーティングシステム(OS_1)が運用中である場合、ステップS104において、メンテナンスモードに遷移する。この場合、情報処理システム11は、図9に示すメンテナンス状態表示ランプ(MF表示)47を点灯する。 On the other hand, as shown in FIG. 8, when the first operating system (OS_0) and the second operating system (OS_1) are in operation, the process transits to the maintenance mode in step S104. In this case, the information processing system 11 lights the maintenance status display lamp (MF display) 47 shown in FIG.
前記メンテナンス状態表示ランプ47の点灯やコンソール43の表示により、メンテナンスモードに移行したことを認識した保守員は、コンソール43に表示された障害履歴、保守情報、保守レベル(難易度)等から総合的に判断し、運用中の保守(オンライン保守)を実施するか否かを判断する(ステップS109)。
The maintenance staff who has recognized that the maintenance mode has been switched to by the lighting of the maintenance
ここで、例えば、保守レベルが高い場合(難易度大)、保守による他装置への副次的影響が予見されるため、保守員は、オンライン保守は行わず、顧客と相談しシステムダウンに繋がるような副次的な影響を排除した保守スケジュールに変更することができる(図5の流れ図の作業を中断)。 Here, for example, when the maintenance level is high (difficulty level is high), the side effects on the other devices due to maintenance are foreseen, so the maintenance staff does not perform online maintenance but leads to system down by consulting with the customer. It is possible to change to a maintenance schedule that eliminates such secondary effects (interruption of the flowchart in FIG. 5).
一方、保守レベルが高くなく(難易度小〜中)、オンライン保守が可能と判断された場合、保守員は、保守ロック指示を解除し、保守作業を開始する。 On the other hand, if the maintenance level is not high (difficulty level: medium to medium) and it is determined that online maintenance is possible, the maintenance staff releases the maintenance lock instruction and starts maintenance work.
まず、保守員は、障害要因部位IO1の交換に先立って閾値変更処理を行なう(ステップS110)。図10は、障害要因部位IO1を交換する際にエラー閾値を変更する箇所を表わした図である。図10の例では、IO1の交換による論理パーティションへの影響を最小限にするために、SVP26より、Xbar0−I0、Xbar0−I1、Xbar1−I0、Xbar1−I1のエラーカウントの閾値変更が行われている。具体的には、交換作業の間にエラーが発生しても、システムの切り離しや予防保守通知の出力が抑止されるよう、これらのエラーカウントの閾値を暫定的に引き上げる、あるいは、エラーカウントを無効化する等の措置が行われる。 First, the maintenance staff performs a threshold value changing process prior to replacement of the failure factor site IO1 (step S110). FIG. 10 is a diagram showing a location where the error threshold is changed when the failure factor site IO1 is replaced. In the example of FIG. 10, the error count threshold of Xbar0-I0, Xbar0-I1, Xbar1-I0, and Xbar1-I1 is changed from the SVP 26 in order to minimize the influence on the logical partition due to the replacement of IO1. ing. Specifically, even if an error occurs during replacement, the error count threshold is temporarily raised or the error count is disabled so that system disconnection and preventive maintenance notification output are suppressed. Measures such as
これにより、図11に示すように、メンテナンスモードにおいて、前記閾値等のパラメータの調整が行われるため(S202、S204、S206)、交換部位に関連する箇所にて障害が検出されても(図11のS203、S205、S207)、エラー判定1〜3(S208〜S210)にて、否定判定が行われる。続く、エラー分析(S211)においても、メンテナンスモードである旨と、構成情報と、これらのエラー判定結果とを踏まえた分析が行われ、メンテナンスを中断するか否かやエラー表示を行うか否かが決定される。さらに、これらの結果は、保守情報DB36に蓄積される。
As a result, as shown in FIG. 11, parameters such as the threshold value are adjusted in the maintenance mode (S202, S204, S206), so even if a failure is detected at a location related to the replacement site (FIG. 11). S203, S205, S207), and error determinations 1-3 (S208-S210), a negative determination is made. In the error analysis (S211) that follows, the analysis is performed based on the fact that it is the maintenance mode, the configuration information, and these error determination results, and whether or not the maintenance is interrupted or whether or not an error is displayed. Is determined. Further, these results are accumulated in the
上記閾値変更後、今回検出された障害の発生件数(エラー回数)が前記変更後の閾値未満であれば(ステップS111のNO)、メンテナンスモードを維持した状態で運用継続となる(ステップS112)。この結果、保守による他のシステムへの副次的影響が最小限に抑えられる。 After the threshold value change, if the number of faults detected this time (number of errors) is less than the threshold value after the change (NO in step S111), the operation is continued with the maintenance mode maintained (step S112). As a result, the side effects of maintenance on other systems are minimized.
一方、今回検出された障害の発生件数(エラー回数)が前記変更後の閾値を越えてしまうような場合には、図11に示したフローにて、エラー判定が行われる(ステップS113)。前記エラー判定の結果、NG(メンテナンス中断)と判定した場合、コンソール43等にエラー判定通知が出力され(ステップS116)、リカバリ不可障害と判断し、Xbar1−IO1間を閉塞する処理が行われる。この場合、図9に示すメンテナンス状態表示ランプ(MF表示)47やエラー状態表示ランプ(EF表示)48を点灯させるなどを併せて行ってもよい。その際に、エラー発生箇所の数やエラー件数などに応じて、エラー状態表示ランプ(EF表示)48の点灯数を制御するようにしてもよい。
On the other hand, if the number of faults detected this time (number of errors) exceeds the threshold after the change, error determination is performed in the flow shown in FIG. 11 (step S113). As a result of the error determination, if it is determined that NG (maintenance is interrupted), an error determination notification is output to the
一方、前記エラー判定の結果、OK(メンテナンス継続可)と判定した場合、メンテナンスモードを維持した状態で運用継続となる(ステップS114)。この結果、保守による他のシステムへの副次的影響が最小限に抑えられる。 On the other hand, if it is determined that the result of the error determination is OK (maintenance can be continued), the operation is continued with the maintenance mode maintained (step S114). As a result, the side effects of maintenance on other systems are minimized.
以上の過程を経て、保守が完了したら、再度、図10に示したエラーカウント閾値等を戻し、メンテナンスモードを解除し通常運用に復帰する。 After the above process, when the maintenance is completed, the error count threshold shown in FIG. 10 is returned again, the maintenance mode is canceled, and the normal operation is resumed.
以上のように、本実施形態によれば、保守レベルを含んだ保守作業の指示情報が出力されるため、保守員に適切な保守させることができる。加えて、保守レベルが高くなく保守を行う場合においても、上述の保守作業の流れのように、エラー回数の閾値を適宜引き上げることで、運用中の他のシステムへの影響を低減することができる。これらにより、近年問題となっている平均復旧時間(MTTR)を短縮して保守員への負担を軽減し、なおかつ顧客への影響を最小限に止めることができる。 As described above, according to the present embodiment, maintenance work instruction information including a maintenance level is output, so that maintenance personnel can be appropriately maintained. In addition, even when maintenance is not performed at a high level, it is possible to reduce the influence on other operating systems by appropriately raising the threshold value of the number of errors as in the above-described maintenance work flow. . As a result, the mean recovery time (MTTR), which has become a problem in recent years, can be shortened to reduce the burden on maintenance personnel, and the influence on customers can be minimized.
システム縮退や拡張に伴う構成変更の際に、障害履歴および保守履歴情報を反映することにより、極力障害発生の高い部位を回避してシステムの構成および保守を支援することができる。これにより、平均故障間隔(MTBF)の影響を最小限にとどめ、結果としてシステムの稼働率が改善してシステム全体の信頼性を向上させることができる。 By reflecting the failure history and maintenance history information when the configuration is changed due to system degeneration or expansion, it is possible to avoid the site where the failure is as high as possible and support the configuration and maintenance of the system. As a result, the influence of the mean time between failures (MTBF) can be minimized, and as a result, the operating rate of the system can be improved and the reliability of the entire system can be improved.
以上、本発明の実施形態を説明したが、本発明は、上記した実施形態に限定されるものではなく、本発明の基本的技術的思想を逸脱しない範囲で、更なる変形・置換・調整を加えることができる。例えば、上記した実施形態では、障害検出時の保守の例を挙げて説明したが、定期点検による部品交換、予兆保守による作業の場合も同様に適用可能である。 Although the embodiments of the present invention have been described above, the present invention is not limited to the above-described embodiments, and further modifications, substitutions, and adjustments may be made without departing from the basic technical idea of the present invention. Can be added. For example, in the above-described embodiment, an example of maintenance at the time of detecting a failure has been described, but the present invention can be similarly applied to parts replacement by periodic inspection and work by predictive maintenance.
また、上記した実施形態では、エラー回数の閾値の変更等により、保守作業による副次的影響を低減するものとして説明したが、一時的に動作モードを可変にしデータの転送レートを低下させること等により保守による副次的影響を最小限にするようにしてもよい。 Further, in the above-described embodiment, it has been described that the secondary influence by the maintenance work is reduced by changing the threshold value of the number of errors, but the operation mode is temporarily changed to lower the data transfer rate, etc. Thus, the side effects of maintenance may be minimized.
また、上記した実施形態では、保守情報DB36には、情報処理システム11を含む他の情報処理システムにて行われた保守作業の情報を格納するものとして説明したが、下記のような情報を記録しておくことも望ましい。
・メンテナンスレコーダによる保守、点検操作の映像情報
これらの映像情報は、障害部位やエラーコード等のタグを付与され、障害発生時に障害部位等より関連する映像情報を索引、参照できるようにすることが好ましい。また、これら映像情報は、定点WEBカメラやベテラン保守員が着用する小型カメラ(例えば、メガネに装着した小型カメラ)等から収集するようにしてもよい。加えて、これらのWEBカメラや小型カメラには、障害情報管理サーバ12に対し、保守あるいは点検の開始から完了までの情報を送信する手段および格納する手段を設けることが好ましい。さらに、遠隔地の保守員がリアルタイムで上記映像情報を視聴できるようにしてもよい。もちろん、セキュリティレベルや保守員のアクセスポリシに基づいた視聴制御が行われる。
In the above-described embodiment, the
-Video information of maintenance and inspection operations by the maintenance recorder These video information are tagged with tags such as faulty parts and error codes so that related video information can be indexed and referenced from faulty parts when a fault occurs. preferable. Further, the video information may be collected from a fixed-point WEB camera, a small camera worn by an experienced maintenance worker (for example, a small camera attached to glasses), or the like. In addition, these WEB cameras and small cameras are preferably provided with means for transmitting and storing information from the start to completion of maintenance or inspection to the failure
また、上記した実施形態では、情報処理システム11が単体で動作するものとして説明したが、複数の情報処理システムで障害情報を授受し、他の情報処理システムから障害報告の受信の都度、保守レベルを再計算して保守員に提示するにしてもよい。例えば、他の情報処理システムから、ある部位の障害報告を受信した場合、情報処理システム11が、過去の障害履歴情報を参照し同一部位あるいは関連部位の有無を判定するようにすることができる。 In the above-described embodiment, the information processing system 11 has been described as operating alone. However, each time a failure report is received from a plurality of information processing systems and a failure report is received from another information processing system, a maintenance level is provided. May be recalculated and presented to maintenance personnel. For example, when a failure report for a certain part is received from another information processing system, the information processing system 11 can determine the presence or absence of the same part or a related part with reference to past fault history information.
また、上記した実施形態では、保守レベルを算出するためのパラメータは予め登録されているものとして説明したが、適宜、これらを点検、修正できるようにしてもよい。例えば、実際に行う保守の形態(オンライン、オフライン)、サーバの型(ラックマウント、ブレード)情報を用いることで、より精緻な保守指示を出力することができる。加えて、本来はオンラインでメンテナンスが可能であるが、当該保守を行った場合、保守対象外(管理対象外)の装置に影響する可能性があるか否かを判定するようにしてもよい。その結果によって、例えば、保守対象外(管理対象外)への影響によりシステムダウンとなる致命障害のリスクがある場合は、顧客への問い合わせを行い保守スケジュールを確立するといった運用を行うことが可能になる。 In the above-described embodiment, the parameters for calculating the maintenance level are described as being registered in advance. However, these parameters may be appropriately inspected and corrected. For example, more precise maintenance instructions can be output by using information on the type of maintenance actually performed (online, offline) and server type (rack mount, blade) information. In addition, although maintenance is possible online, it may be determined whether or not there is a possibility of affecting a device that is not subject to maintenance (not subject to management) when the maintenance is performed. Depending on the result, for example, if there is a risk of a fatal failure that causes the system to go down due to the influence of being out of maintenance (out of management), it is possible to perform operations such as inquiring customers and establishing a maintenance schedule Become.
なお、上記の特許文献の各開示を、本書に引用をもって繰り込むものとする。本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素(各請求項の各要素、各実施形態ないし実施例の各要素、各図面の各要素等を含む)の多様な組み合わせ、ないし選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。 It should be noted that the disclosures of the above patent documents are incorporated herein by reference. Within the scope of the entire disclosure (including claims) of the present invention, the embodiments and examples can be changed and adjusted based on the basic technical concept. Further, various combinations or selections of various disclosed elements (including each element of each claim, each element of each embodiment or example, each element of each drawing, etc.) within the scope of the claims of the present invention. Is possible. That is, the present invention of course includes various variations and modifications that could be made by those skilled in the art according to the entire disclosure including the claims and the technical idea.
11 情報処理システム
11A、11B 装置
12 障害情報管理サーバ
21 主記憶装置(MEM)
22 プロセッサ(PROC)
23 ノードコントローラ(NC)
24 クロスバスイッチ(Xbar)
25 入出力装置(IO)
26 サービスプロセッサ(SVP)
30 FRU(Field Replacable Unit)テーブル
31 障害履歴格納部A
32 障害履歴格納部B
35 障害情報データベース(障害情報DB)
36 保守情報データベース(保守情報DB)
40 データ収集部
41 障害要因解析部
42 保守レベル算出部
43 コンソール
44 構成情報解析部
46 EF制御部
47 メンテナンス状態表示ランプ(MF表示)
48 エラー状態表示ランプ(EF表示)
100 情報源
110 障害要因解析部
120 保守レベル算出部
130 表示部
e001、n001、n002、n003、n004 信号線
DESCRIPTION OF SYMBOLS 11
22 Processor (PROC)
23 Node controller (NC)
24 Crossbar switch (Xbar)
25 Input / output unit (IO)
26 Service Processor (SVP)
30 FRU (Field Replaceable Unit) table 31 Failure history storage unit A
32 Fault history storage B
35 Failure information database (failure information DB)
36 Maintenance Information Database (Maintenance Information DB)
40
48 Error status indicator lamp (EF display)
DESCRIPTION OF
Claims (9)
前記置換可能な部位からエラーコードが出力された場合、前記置換可能な部位のうちの障害要因部位を特定するための情報と、該障害要因部位の障害の履歴情報とを格納した情報源にアクセスして、前記エラーコードに対応する被疑割合付きの障害要因部位情報と、該障害要因部位の障害の履歴情報とを取得する障害要因解析部と、
前記被疑割合付きの障害要因部位と前記障害の履歴情報とに基づいて、保守作業の難易度を示す保守レベルを算出する保守レベル算出部と、を備え、
前記保守レベルを含んだ保守作業の指示情報を出力する情報処理システム。 An information processing system having a replaceable part including at least a processor and a memory,
When an error code is output from the replaceable part , access to an information source storing information for identifying a fault factor part of the replaceable part and fault history information of the fault factor part Then, a failure factor analysis unit that acquires failure factor part information with a suspicion ratio corresponding to the error code , and failure history information of the failure factor part,
A maintenance level calculation unit that calculates a maintenance level indicating a difficulty level of maintenance work based on the failure factor part with the suspect ratio and the history information of the failure, and
An information processing system for outputting maintenance work instruction information including the maintenance level.
前記保守支援情報を含んだ保守作業の指示情報を出力する請求項1の情報処理システム。 The information source includes a maintenance information database storing maintenance support information related to each failure factor site,
The information processing system according to claim 1, wherein the maintenance work instruction information including the maintenance support information is output.
保守レベル算出部は、前記障害要因部位と前記障害の履歴情報とに加えて、前記保守時のミスによる故障情報を用いて保守レベルを算出する請求項2の情報処理システム。 The maintenance information database further includes failure information due to a maintenance error that occurred in each failure factor site,
The information processing system according to claim 2, wherein the maintenance level calculation unit calculates a maintenance level by using failure information due to a mistake at the time of maintenance in addition to the failure factor part and the failure history information.
前記保守レベルが前記所定のレベルを超えた場合、オフラインでの保守作業を指示する請求項1から3いずれか一の情報処理システム。 If the maintenance level is below a predetermined level, instruct online maintenance work;
The information processing system according to any one of claims 1 to 3, wherein when the maintenance level exceeds the predetermined level, an offline maintenance work is instructed.
前記サービスプロセッサは、前記保守作業により影響を受ける他の運用システムまたは運用中の別の論理パーティションを、前記保守作業による障害検出を抑止させるよう制御する請求項1から5いずれか一の情報処理システム。 In addition, based on the configuration information of the system to be managed, a configuration information analysis unit that determines the presence or absence of another operating system affected by the maintenance work or another logical partition in operation, and notifies the service processor,
6. The information processing system according to claim 1, wherein the service processor controls another operation system affected by the maintenance work or another logical partition in operation to suppress failure detection by the maintenance work. .
保守員からの要求に応じて、前記動画データを再生する請求項1から6いずれか一の情報処理システム。 The information source includes moving image data recording a video of each maintenance operation,
The information processing system according to claim 1, wherein the moving image data is reproduced in response to a request from a maintenance staff.
前記置換可能な部位からエラーコードが出力された場合、前記置換可能な部位のうちの障害要因部位を特定するための情報と、該障害要因部位の障害の履歴情報とを格納した情報源にアクセスして、前記エラーコードに対応する被疑割合付きの障害要因部位情報と、該障害要因部位の障害の履歴情報とを取得するステップと、
前記被疑割合付きの障害要因部位と前記障害の履歴情報とに基づいて、保守作業の難易度を示す保守レベルを算出するステップと、
前記保守レベルを含んだ保守作業の指示情報を出力するステップとを含む、保守方法。 A maintenance method by an information processing system having at least a replaceable part including a processor and a memory ,
If an error code from the substitutable positions is output, information source which stores information for specifying the cause of the error portion of said substitutable positions, and history information of the failure of the fault-site And acquiring failure factor part information with a suspicion rate corresponding to the error code , and failure history information of the failure factor part, and
Calculating a maintenance level indicating a difficulty level of maintenance work based on the failure factor portion with the suspect ratio and the history information of the failure ;
Outputting maintenance instruction information including the maintenance level.
前記置換可能な部位からエラーコードが出力された場合、前記被疑割合付きの障害要因部位情報と、該障害要因部位の障害の履歴情報とを取得する処理と、
前記被疑割合付きの障害要因部位と前記障害の履歴情報とに基づいて、保守作業の難易度を示す保守レベルを算出する処理と、
前記保守レベルを含んだ保守作業の指示情報を出力する処理とを実行させるプログラム。 In a computer included in an information processing system including at least a processor and a replaceable part including a memory ,
When an error code is output from the replaceable part, a process of acquiring the failure factor part information with the suspect ratio and the failure history information of the failure factor part;
A process of calculating a maintenance level indicating a difficulty level of maintenance work based on the failure factor part with the suspect ratio and the history information of the failure ;
A program for executing a process of outputting maintenance work instruction information including the maintenance level.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012074131A JP5995265B2 (en) | 2012-03-28 | 2012-03-28 | Information processing system, maintenance method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012074131A JP5995265B2 (en) | 2012-03-28 | 2012-03-28 | Information processing system, maintenance method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013206105A JP2013206105A (en) | 2013-10-07 |
JP5995265B2 true JP5995265B2 (en) | 2016-09-21 |
Family
ID=49525125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012074131A Active JP5995265B2 (en) | 2012-03-28 | 2012-03-28 | Information processing system, maintenance method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5995265B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6515632B2 (en) * | 2015-03-27 | 2019-05-22 | 日本電気株式会社 | Module management apparatus, module management method, and module management program |
JP2018120413A (en) * | 2017-01-25 | 2018-08-02 | Necプラットフォームズ株式会社 | Maintenance determining device, maintenance determining method, and program |
WO2021205605A1 (en) * | 2020-04-09 | 2021-10-14 | 日本電信電話株式会社 | Information processing device, cost value calculation method, and cost value calculation program |
CN117540284B (en) * | 2024-01-10 | 2024-04-12 | 深圳市胜威南方科技有限公司 | PDU operation fault detection method |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01278866A (en) * | 1988-04-30 | 1989-11-09 | Mazda Motor Corp | Trouble diagnoser for vehicle |
JP2748832B2 (en) * | 1993-09-16 | 1998-05-13 | 日本電気株式会社 | Network fault management method |
JPH07296065A (en) * | 1994-04-22 | 1995-11-10 | Hitachi Inf & Control Syst Inc | Method and system for production control |
JP2002269264A (en) * | 2001-03-12 | 2002-09-20 | Mitsubishi Electric Corp | Visiting repair receiving web system for user and visiting repair coping method using the web system |
JP2004102727A (en) * | 2002-09-10 | 2004-04-02 | Mitsubishi Heavy Ind Ltd | Work support system |
JP4066419B2 (en) * | 2002-11-15 | 2008-03-26 | 新明和工業株式会社 | Centralized remote monitoring system for boarding bridge |
JP5505966B2 (en) * | 2010-02-25 | 2014-05-28 | エヌイーシーコンピュータテクノ株式会社 | Fault management system and method |
-
2012
- 2012-03-28 JP JP2012074131A patent/JP5995265B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013206105A (en) | 2013-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8645769B2 (en) | Operation management apparatus, operation management method, and program storage medium | |
US20090249129A1 (en) | Systems and Methods for Managing Multi-Component Systems in an Infrastructure | |
JP5678717B2 (en) | Monitoring device, monitoring system, and monitoring method | |
JP5995265B2 (en) | Information processing system, maintenance method and program | |
JP2011138251A (en) | Monitoring control network system | |
WO2012114215A1 (en) | Network event management | |
US20110173504A1 (en) | Communication system, a communication method and a program thereof | |
JP4648961B2 (en) | Apparatus maintenance system, method, and information processing apparatus | |
US8719626B2 (en) | Proactively removing channel paths in error from a variable scope of I/O devices | |
CN115794588A (en) | Memory fault prediction method, device and system and monitoring server | |
JP5505966B2 (en) | Fault management system and method | |
JP2016046702A (en) | Communication system, abnormality control device, and abnormality control method | |
CN109271270A (en) | The troubleshooting methodology, system and relevant apparatus of bottom hardware in storage system | |
EP1653662A2 (en) | Protection switch logging methods and systems | |
CA2758682C (en) | Plant control system, data to be equalized selection apparatus, and data to be equalized selection method | |
WO2011051999A1 (en) | Information processing device and method for controlling information processing device | |
CN112400194B (en) | System and method for triggering training events | |
JP2003330758A (en) | Fault information notifying system with concentration function and program for functioning machine as fault information notifying system with concentration function | |
JP2006154991A (en) | Information processing system, control method of information processing system, monitoring device, monitoring program, and maintenance program | |
JP2014078067A (en) | Database system, database device, failure recovery method for database and program | |
JP2010152469A (en) | Log collection process monitoring system | |
JP6388335B2 (en) | Failure tendency determination device, failure tendency determination method, and program | |
JP2017182371A (en) | Failure prediction device, failure prediction method, and failure prediction program | |
WO2013035264A1 (en) | Monitoring device, monitoring method and program | |
KR20110069571A (en) | Method and apparatus for managing network based on database about network disorder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20140725 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150205 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151215 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160726 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160818 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5995265 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |