JP2010003132A - 情報処理装置、その入出力装置の故障検出方法及びプログラム - Google Patents

情報処理装置、その入出力装置の故障検出方法及びプログラム Download PDF

Info

Publication number
JP2010003132A
JP2010003132A JP2008161685A JP2008161685A JP2010003132A JP 2010003132 A JP2010003132 A JP 2010003132A JP 2008161685 A JP2008161685 A JP 2008161685A JP 2008161685 A JP2008161685 A JP 2008161685A JP 2010003132 A JP2010003132 A JP 2010003132A
Authority
JP
Japan
Prior art keywords
input
output device
access frequency
low
threshold value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008161685A
Other languages
English (en)
Inventor
Takayuki Miyagaki
貴之 宮垣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008161685A priority Critical patent/JP2010003132A/ja
Publication of JP2010003132A publication Critical patent/JP2010003132A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】 「サイレント故障」を早期に検出する。
【解決手段】情報処理装置は、各入出力装置(デバイスA〜C)103〜105毎に、アクセス頻度を記録する手段と、アクセス頻度が少ない入出力装置に対して故障診断を実行する手段と、を備える。
【選択図】 図1

Description

本発明は、情報処理装置、その入出力装置の故障診断方法及びプログラムに関し、特に、複数の入出力装置が接続された情報処理装置、これら入出力装置の故障検出方法及びプログラムに関する。
特許文献1に、二重化された入出力装置の使用頻度を測定する使用頻度測定手段と、測定された頻度を基準値と比較する比較手段とを設け、測定された使用頻度が基準値を下回っているときにのみ障害検出手段を動作させる方法が開示されている。具体的には、対象システムに、二重化された入出力装置のいずれか一方に対する処理要求を実行した場合にインクリメントする処理要求カウンタを設けるとともに、一定時間毎にこの処理要求カウンタを参照して、基準値以下であれば、障害検出用アクセスタスクを起動させる。そして、この障害検出用アクセスタスクが、上記二重化された入出力装置の全領域に対してアクセスすることにより、二重化された入出力装置のスタンバイ側の入出力装置の障害を早期に検出できるとされている。
特開昭63−231538号公報
各種の入出力装置には故障検出機能を備えているものがあるが、物理的な障害やソフトウェアのバグ等から実際にアクセスが行われるまで故障を検出できない「サイレント故障」が生じることがある。入出力装置へのアクセス頻度が高ければ、「サイレント故障」を早期に検出することができるが、アクセス頻度が低い場合には故障検出が遅れてしまう可能性がある。
この点、特許文献1の方式は、アクト側の入出力装置の使用頻度と基準値とを比較することにより、障害を検出している。このため、アクト側の入出力装置の使用頻度が基準値以上であれば、障害検出用アクセスタスクの起動頻度が低下し、スタンバイ側の入出力装置のサイレント故障の検出が遅れてしまうという問題点がある。上記基準値を低く設定すれば、障害検出用アクセスタスクが起動されやすくなり、サイレント故障の検出機会も増大することとなるが、特許文献1の2頁左下欄に記載のとおり、システムも負荷がそれだけ多くなり、一般タスクからの処理要求が制限されてしまう。
さらに、特許文献1の方式では、二重化されていないその他の入出力装置のサイレント故障を検出できないという問題点もある。また、入出力装置の中には、負荷の大きい時間帯が異なる、あるいは、入出力装置の用途や機器特性等が異なる等の理由から、特許文献1のような一律の基準値の設定が困難であったり、特許文献1のようなすべての入出力装置へのデータの転送という障害検出方法が適当でないシステム構成も十分に考えられる。
本発明は、上記した事情に鑑みてなされたものであって、その目的とするところは、情報処理装置に接続された入出力装置毎に適切な間隔で故障診断を行ない、「サイレント故障」に代表される故障の検出機会を増大させることのできる情報処理装置、その入出力装置の故障検出方法及びプログラムを提供することを目的とする。
本発明の第1の視点によれば、各入出力装置毎に、アクセス頻度を記録する手段と、前記アクセス頻度が少ない入出力装置に対して故障診断を実行する手段と、を備えたことを特徴とする情報処理装置が提供される。
本発明の第2の視点によれば、各入出力装置毎に、アクセス頻度を記録しておき、前記アクセス頻度が少ない入出力装置に対して故障診断を実行する入出力装置の故障検出方法が提供される。
本発明の第3の視点によれば、各入出力装置毎に、アクセス頻度を記録する処理と、前記アクセス頻度が少ない入出力装置に対して故障診断を実行する処理と、を情報処理装置に実行させるプログラムが提供される。
本発明によれば、入出力装置毎に適切なタイミングで故障診断を実施し、「サイレント故障」を早期に検出することが可能となる。
続いて、本発明の好適な実施形態について図面を参照して詳細に説明する。図1は、本発明の第1の実施形態に係る情報処理装置の構成を表したブロック図である。
図1を参照すると、CPU101と、入出力制御部102と、デバイスA〜C(入出力装置)103〜105と、アクセス記憶部106と、を備えた情報処理装置の構成が示されている。なお、本発明を適用可能な情報処理装置は、サーバ、パーソナルコンピュータ、携帯情報端末等のほか、上記した各要素を備えることができる装置・機器であれば特に制限されるものではない。
CPU101は入出力制御部102及びインタフェースA〜Cを介して各デバイスA103〜C105へアクセスし、デバイスを制御する。ここで、デバイスとは、情報処理装置に接続され、何らかの入出力を行う機器や装置一般を指すものとする。
アクセス記憶部106は、CPU101から各デバイスへのアクセスが行われる度に、デバイスA103〜C105毎にそのアクセス頻度を記録する。図2は、アクセス記憶部106にて記録された、ある時点におけるデバイスA103〜C105のアクセス頻度をテーブル形式で表した図である。なお、図2の例では、デバイスA〜デバイスCと表しているが、各デバイスに付与されたベンダID、製品ID、クラスID、デバイスID等、あるいは、これらを組み合わせたものを用いることができる。
なお、本実施形態では、各デバイスA103〜C105毎に、故障の有無を確認するための故障診断方法は予め決定されているものとする。特許文献1のようにデータの転送を行うものとしてもよいし、あるいは、各デバイスA103〜C105に内蔵されている自己診断機能を利用するものであってもよい。
図3は、上記のようにして記録されたアクセス頻度の比較対象となる閾値の設定例である。図3に示したように閾値TH〜THは、各デバイスA103〜C105毎に設定され、図示省略する記憶装置や、アクセス記憶部106に保存される。これら閾値TH〜THは各デバイスの使用頻度や信頼性に基づいて適宜設定することができる。また例えば、デバイスに種別(種類)毎に、閾値の規定値(初期値)を設定しておくこともできる。また、同種のデバイスであっても、その使用頻度や故障時にシステム全体に与えるリスクに応じて、閾値に差を付けることも有用である。
続いて、本実施形態の動作について図面を参照して詳細に説明する。図4は、本実施形態に係る情報処理装置にて実行される、本発明に関係する動作を抽出したフローチャートである。
図4を参照すると、まず、電源投入等によりアクセス記録部106への記録と監視が開始される(ステップS001)。具体的には、CPU101から各デバイスへのアクセスが検知されると、アクセス記憶部106の該当するデバイスのアクセス頻度が更新される。
CPU101は、所定の時間間隔で、アクセス記憶部106に記録された各デバイスA103〜C105のアクセス頻度を参照し(図2参照)、各アクセス頻度が各デバイスA103〜C105毎に予め定められた閾値(図3参照)以下であるか否かを確認する(ステップS002)。
前記確認の結果、各アクセス頻度が対応する閾値以下であるデバイスがある場合には(ステップS002のYes)、CPU101は、該当デバイスに対して正常性確認のための診断を実施する。
前記正常性確認のための診断の結果、該当デバイスに問題がないと判断された場合には(ステップS003の診断OK)、ステップS001に戻って、CPU101によるアクセス監視が継続される。
一方、該当デバイスに問題があると判断された場合には(ステップS003の診断NG)、CPU101に対してその旨の通知が行われる(ステップS004)。前記通知を受け取ったCPU101は、問題があると判断されたデバイスや故障モード等の詳細情報を含んだ警告メッセージを出力する。
本実施形態によれば、上記のようにして、アクセス頻度の少ないデバイスの故障検出機会を増加させることができる。例えば、システム管理者に、ファームウェアの更新や部品交換等の適切な対応を早期に行わせることができる。
以上、本発明の好適な実施形態を説明したが、本発明は、上記した実施形態に限定されるものではなく、本発明の基本的技術的思想を逸脱しない範囲で、更なる変形・置換・調整を加えることができる。例えば、上記した実施形態では、各デバイス毎に閾値を設定されているものとして説明したが、各デバイス毎について、同一閾値で異なる時間間隔を設定可能とし、各デバイスの種類や用途に応じて異なる時間間隔で監視動作(図4のステップS002)を行うことができるようにしてもよい。
また、各デバイス毎に閾値と時間間隔の双方を設定できるようにしてもよい。このようにすれば、アクセス頻度の違いが大きく異なるデバイスの設定が容易化される。また、p回/週、q回/月というように、直感的にわかり易いものとなるため、設定値の変更や管理が容易化される。
また、上記した実施形態では、入出力制御部102にデバイスA103〜C105が直接接続されているものとして説明したが、例えば、USB(Universal Serial Bus)デバイスのように、カスケード接続されるデバイスを監視対象に加えることもできる。
本発明の第1の実施形態に係る情報処理装置の構成を表したブロック図である。 ある時点におけるデバイス毎のアクセス頻度をテーブル形式で表した図である。 デバイス毎に設定した閾値の例である。 本実施形態に係る情報処理装置にて実行される、本発明に関係する動作を抽出したフローチャートである。
符号の説明
101 CPU(Central Processing Unit)
102 入出力制御部
103〜105 デバイス(入出力装置)A〜C
106 アクセス記憶部

Claims (15)

  1. 各入出力装置毎に、アクセス頻度を記録する手段と、
    前記アクセス頻度が少ない入出力装置に対して故障診断を実行する手段と、
    を備えたことを特徴とする情報処理装置。
  2. 入出力装置毎に閾値を受け付け、該閾値を用いて各入出力装置のアクセス頻度が少ないか否かを判定する請求項1に記載の情報処理装置。
  3. 入出力装置の種別によって閾値が初期設定されており、該閾値を用いて各入出力装置のアクセス頻度が少ないか否かを判定する請求項1又は2に記載の情報処理装置。
  4. 入出力装置毎に時間間隔を受け付け、該時間間隔毎に、各入出力装置のアクセス頻度が少ないか否かを判定する請求項1乃至3いずれか一に記載の情報処理装置。
  5. 入出力装置の種別によって時間間隔が初期設定されており、該時間間隔毎に、各入出力装置のアクセス頻度が少ないか否かを判定する請求項1乃至4いずれか一に記載の情報処理装置。
  6. 各入出力装置毎に、アクセス頻度を記録しておき、
    前記アクセス頻度が少ない入出力装置に対して故障診断を実行すること、
    を特徴とする情報処理装置に備えられた入出力装置の故障検出方法。
  7. 入出力装置毎に閾値を受け付け、該閾値を用いて各入出力装置のアクセス頻度が少ないか否かを判定する請求項6に記載の故障検出方法。
  8. 入出力装置の種別によって閾値が初期設定されており、該閾値を用いて入出力装置のアクセス頻度が少ないか否かを判定する請求項6又は7に記載の故障検出方法。
  9. 入出力装置毎に時間間隔を受け付け、該時間間隔毎に、各入出力装置のアクセス頻度が少ないか否かを判定する請求項6乃至8いずれか一に記載の故障検出方法。
  10. 入出力装置の種別によって時間間隔が初期設定されており、該時間間隔毎に、各入出力装置のアクセス頻度が少ないか否かを判定する請求項6乃至9いずれか一に記載の故障検出方法。
  11. 各入出力装置毎に、アクセス頻度を記録する処理と、
    前記アクセス頻度が少ない入出力装置に対して故障診断を実行する処理と、
    を情報処理装置に実行させるプログラム。
  12. 入出力装置毎に閾値を受け付け、該閾値を用いて各入出力装置のアクセス頻度が少ないか否かを判定する請求項11に記載のプログラム。
  13. 入出力装置の種別によって閾値が初期設定されており、該閾値を用いて入出力装置のアクセス頻度が少ないか否かを判定する請求項11又は12に記載のプログラム。
  14. 入出力装置毎に時間間隔を受け付け、該時間間隔毎に、各入出力装置のアクセス頻度が少ないか否かを判定する請求項11乃至13いずれか一に記載のプログラム。
  15. 入出力装置の種別によって時間間隔が初期設定されており、該時間間隔毎に、各入出力装置のアクセス頻度が少ないか否かを判定する請求項11乃至14いずれか一に記載のプログラム。
JP2008161685A 2008-06-20 2008-06-20 情報処理装置、その入出力装置の故障検出方法及びプログラム Withdrawn JP2010003132A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008161685A JP2010003132A (ja) 2008-06-20 2008-06-20 情報処理装置、その入出力装置の故障検出方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008161685A JP2010003132A (ja) 2008-06-20 2008-06-20 情報処理装置、その入出力装置の故障検出方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2010003132A true JP2010003132A (ja) 2010-01-07

Family

ID=41584795

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008161685A Withdrawn JP2010003132A (ja) 2008-06-20 2008-06-20 情報処理装置、その入出力装置の故障検出方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2010003132A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013084044A (ja) * 2011-10-06 2013-05-09 Dainippon Printing Co Ltd 画像出力受付端末、故障通知方法
JP2014016754A (ja) * 2012-07-09 2014-01-30 Fuji Xerox Co Ltd 不具合推定装置及びプログラム
CN112015348A (zh) * 2020-08-28 2020-12-01 北京浪潮数据技术有限公司 一种数据卷的io静默方法、装置和介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013084044A (ja) * 2011-10-06 2013-05-09 Dainippon Printing Co Ltd 画像出力受付端末、故障通知方法
JP2014016754A (ja) * 2012-07-09 2014-01-30 Fuji Xerox Co Ltd 不具合推定装置及びプログラム
CN112015348A (zh) * 2020-08-28 2020-12-01 北京浪潮数据技术有限公司 一种数据卷的io静默方法、装置和介质
CN112015348B (zh) * 2020-08-28 2022-03-22 北京浪潮数据技术有限公司 一种数据卷的io静默方法、装置和介质

Similar Documents

Publication Publication Date Title
US7805630B2 (en) Detection and mitigation of disk failures
US8286034B2 (en) Accurate fault status tracking of variable access sensors
US20200033928A1 (en) Method of periodically recording for events
CN104639380A (zh) 服务器监控方法
TWI261748B (en) Policy-based response to system errors occurring during OS runtime
JP2017091077A (ja) 擬似故障の発生プログラム、発生方法、及び発生装置
US20150286548A1 (en) Information processing device and method
JP2010218510A (ja) 状態監視システムおよび状態監視方法
JP2010003132A (ja) 情報処理装置、その入出力装置の故障検出方法及びプログラム
JP6880961B2 (ja) 情報処理装置、およびログ記録方法
JP5689783B2 (ja) コンピュータ、コンピュータシステム、および障害情報管理方法
JP6317074B2 (ja) 障害通知装置、障害通知プログラムならびに障害通知方法
WO2011051999A1 (ja) 情報処理装置及び情報処理装置の制御方法
JP2010066801A (ja) ログ記録システム、モジュール監視手段、トレースログ管理手段、記録方法、プログラム、及び記憶媒体
CN115080132A (zh) 信息处理方法、装置、服务器及存储介质
JP2010009258A (ja) ソフトウエアの異常検出装置
US9696780B2 (en) Information processing apparatus, system, management apparatus, and power status control method
TWI494754B (zh) 伺服器監控裝置和其操作方法
JP6222759B2 (ja) 障害通知装置、障害通知方法及びプログラム
JP6744448B2 (ja) 情報処理装置、情報処理システム、故障検出方法、及びそのためのプログラム
JP2010214932A (ja) プリンタ制御装置およびこれを備えたプリンタ
JP5729238B2 (ja) 管理サーバ、異常予測システム、異常予測方法、及び、異常予測プログラム
JP5997005B2 (ja) 情報処理装置、プロセスの正常終了判定方法およびプログラム
JP5734107B2 (ja) プロセス障害判定復旧装置、プロセス障害判定復旧方法、プロセス障害判定復旧プログラム、および記録媒体
JP2017151511A (ja) 情報処理装置、動作ログ取得方法および動作ログ取得プログラム

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20110906