JP2010146072A - コンピュータの異常監視装置、異常監視方法、異常監視プログラム - Google Patents

コンピュータの異常監視装置、異常監視方法、異常監視プログラム Download PDF

Info

Publication number
JP2010146072A
JP2010146072A JP2008319605A JP2008319605A JP2010146072A JP 2010146072 A JP2010146072 A JP 2010146072A JP 2008319605 A JP2008319605 A JP 2008319605A JP 2008319605 A JP2008319605 A JP 2008319605A JP 2010146072 A JP2010146072 A JP 2010146072A
Authority
JP
Japan
Prior art keywords
module
abnormality
modules
computer
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008319605A
Other languages
English (en)
Inventor
Tomotaka Fukami
智孝 深見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008319605A priority Critical patent/JP2010146072A/ja
Publication of JP2010146072A publication Critical patent/JP2010146072A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】コンピュータ装置の障害が発生した場合に故障モジュールの調査・修理を迅速に行うことができるようにする。
【解決手段】コンピュータ1を構成する各モジュール12〜14に、外部環境情報を検出するための電圧センサ21a、21c、温度センサ22a〜22c、回転センサ24と、エラー情報を格納するための不揮発性メモリ(EEPROM)23a〜23cを搭載する。異常発生時に、異常の発生したモジュール12〜14に対応する不揮発性メモリ23a〜23cに、異常の情報を保存する。これにより、システム異常の原因となったモジュールを調査・修理することで、異常に迅速に対応できる。
【選択図】図1

Description

本発明は、高可用性が求められるコンピュータの異常監視装置、異常監視方法、及び異常監視プログラムに関する。
サーバなどの高可用性が求められる大型コンピュータ装置においては、故障が発生した場合にダウン時間を短くするために、各ユニットをモジュール化し、故障箇所の交換を容易にできるよう設計されている。装置構成モジュールとしては、メインボード、プロセッサ、IOモジュール、メモリモジュール、電源モジュール、ファンモジュール、ストレージモジュール(ハードディスクドライブ(HDD))等で構成されている。
高信頼性を実現するために、各モジュールの温度・電圧等の異常によるデータエラーの発生を防ぐ必要がある。このため温度・電圧等の環境情報を常時監視し、障害があった場合にはログを記録し、管理者に異常を通知できるようになっている。
また、メモリ障害の場合は、エラーの発生したメモリの実装されているスロット番号や、エラービットのログを表示し、交換・修理の際に利用できるようになっている。
また、特許文献1には、障害発生時に、ボード上の不揮発性メモリに、ボードに対応する障害のロギングデータを格納し、修理の際に障害の解析に有効な情報を提供するようにしたものが提案されている。
特開2008−84080号公報
従来の装置では、電圧・温度異常等のイベントログはメインボード上に搭載された記憶メモリに記録されており、メモリモジュールや電源モジュール等のオプション品の故障の場合には、同じ装置に搭載されていたメインボードからイベントログ等の情報を引き出して、エラー情報を記載した修理伝票を故障モジュールに添付して調査を行う必要があった。また、故障品の再現調査を行う際にも、エラー時の温度・電圧等の環境情報がなく、障害不再現となってしまい、改善へのフィードバックができない場合もあった。
また、特許文献1に示されるものでは、ボード上の不揮発性メモリに、ボードに対応する障害のロギングデータを格納している。ところが、故障が発生するのは、メインモジュールにより直接制御されるボードに限られるものではない。電源モジュールやファンモジュール等、メインモジュールでは直接制御されないモジュールに故障が発生し、これにより電源や温度環境に異常が生じて、故障を招く場合がある。
上述の課題を鑑み、本発明は、コンピュータ装置の障害が発生した場合に故障モジュールの調査・修理を迅速に行うことができるコンピュータの異常監視装置、異常監視方法、異常監視プログラムを提供することを目的とする。
上述の課題を解決するために、本発明に係るコンピュータの異常監視装置は、複数のモジュールから構成されるコンピュータの異常監視装置であって、複数のモジュールの各々に配設された不揮発性メモリと、複数のモジュールの各々の異常を管理する管理手段とを備え、異常発生時に、異常の発生したモジュールに対応する不揮発性メモリに、異常の情報を保存させるようにしたことを特徴とする。
本発明に係るコンピュータの異常監視方法は、複数のモジュールから構成されるコンピュータの異常監視方法であって、複数のモジュールの各々に不揮発性メモリを配設しておき、モジュールの各々の異常を監視し、異常発生時に、異常の発生したモジュールに対応する不揮発性メモリに、異常の情報を保存させることを特徴とする。
本発明に係るコンピュータの異常監視プログラムは、複数のモジュールから構成されるコンピュータの異常監視プログラムであって、複数のモジュールの各々には不揮発性メモリが配設されており、モジュールの各々の異常を監視するステップと、異常発生時に、異常の発生したモジュールに対応する不揮発性メモリに、異常の情報を保存させるステップとを含むことを特徴とする。
本発明によれば、異常発生時に、異常の発生したモジュールに対応する不揮発性メモリに、異常の情報が保存される。このため、システム異常の原因となったモジュールを調査・修理することで、異常に迅速に対応できる。不揮発性メモリに記録された情報は電源を落としても消去されず、故障発生までのモジュールの温度や電圧等の履歴が記録されている。これにより、故障発生までの環境情報やエラー情報を各モジュール単位に記録することができ、メインモジュールからの情報を引き出すことなくエラー情報を収集することができる。また、障害発生時のモジュールの環境情報の情報を収集することで、再現調査を加速することが可能となり、品質改善へのフィードバックが可能となる。
以下、本発明の実施の形態について図面を参照しながら説明する。図1に示すように、本発明の第1の実施の形態のコンピュータ1は、各部がモジュール化されている。ここでは、メインモジュール11と、I/Oモジュール12と、ファンモジュール13と、電源モジュール14とにモジュール化されている。なお、モジュール構成はこれに限定されるものではない。
メインモジュール11は、プロセッサやメインボードからなり、各モジュールの異常を管理するマネージメントコントローラ20を含んでいる。
I/Oモジュール12は、外部機器の接続を行うモジュールである。このI/Oモジュール12には、電圧センサ21aと、温度センサ22aと、不揮発性メモリ23aとが取り付けられている。
ファンモジュール13は、コンピュータ1の冷却を行うモジュールである。このファンモジュール13には、温度センサ22bと、回転センサ24と、不揮発性メモリ23bとが取り付けられている。
電源モジュール14は、コンピュータ1に電源を供給するモジュールである。この電源モジュール14には、電圧センサ21cと、温度センサ22cと、不揮発性メモリ23cとが取り付けられている。
このように、本発明の第1の実施形態では、各モジュール12〜14には、外部環境情報を検出するための電圧センサ21a、21c、温度センサ22a〜22c、回転センサ24と、エラー情報を格納するための不揮発性メモリ23a〜23cが搭載されている。不揮発性メモリ23a〜23cとしては、EEPROM(Electrically Erasable and Programmable Read Only Memory)が用いられる。
メインモジュール11上のマネージメントコントローラ20は、図2に示すように、一定期間が経過したかどうかを判断し(ステップS1)、一定期間が経過したら、各センサ(電圧センサ21a、21c、温度センサ22a〜22c、回転センサ24)からの値を定期的に読み出して(ステップS2)、各モジュール(I/Oモジュール12、ファンモジュール13、電源モジュール14)の電圧変動、温度異常を監視している。そして、マネージメントコントローラ20は、読み取ったセンサの値を、対応する各モジュールに搭載された不揮発性メモリ23a〜23cに対して書き込みを行う(ステップS3)。
マネージメントコントローラ20は、異常が発生したかどうかを判断し(ステップS4)、異常が発生してなければ、ステップS1に処理を戻す。あるモジュールにおいて電圧異常、温度異常を検出した場合、マネージメントコントローラ20は、異常の通知をユーザーに行い(ステップS5)、該当するモジュールの不揮発性メモリ23a〜23cに異常検出を記録し(ステップS6)、必要に応じてシステムの停止処理等を行う(ステップS7)。
システム異常の原因となったモジュールは工場へ返却されて、調査・修理が行われる。ここで、不揮発性メモリ23a〜23cに記録された情報は電源を落としても消去されず、故障発生までのモジュールの温度や電圧等の履歴が記録されている。これにより、故障発生までの環境情報やエラー情報を各モジュール単位に記録することができ、メインモジュールからの情報を引き出すことなくエラー情報を収集することができ、故障モジュールの戻入後の調査・修理を迅速に行うことができる。
また、障害発生時のモジュールの環境情報の情報を収集することで、再現調査を加速することが可能となり、品質改善へのフィードバックが可能となる。
図3は、本発明の他の実施形態を示すものである。上述の第1の実施形態では、コンピュータを構成するモジュールの故障の発生に対処するものである。これに対して、この実施形態では、メモリエラーに対処するものである。
コンピュータのメモリはモジュール化されており、複数のメモリモジュールが装着されている。図3において、メモリモジュール101a〜101dは、例えば、DIMM(Dual Inline Memory Module)である。各メモリモジュール101a〜101dには、不揮発性メモリ(EEPROM)102a〜102dが搭載される。メモリエラーが発生した場合には、不良が発生したメモリモジュール101a〜101dの不揮発性メモリ102a〜102dに、エラー情報が記録される。
例えば、メモリモジュール101aにメモリエラーが検出されたとする。この場合、メインモジュール111のマネージメントコントローラ120は、異常の通知をユーザーに行い、メインモジュールへの記録と同時に、該当するメモリモジュール101の不揮発性メモリ102aに、使用開始時期、メモリ実装情報(該当メモリが搭載されているスロット情報)、エラーカウント(訂正可能なエラーの発生回数)、エラー発生日時、エラーレコード(エラーステータス、エラーアドレス)、環境情報(メモリ電圧、メモリ温度)等を記録する。
このように、メモリモジュール101a〜101c自体に、不良情報を記録する不揮発性メモリ102a〜102dを搭載することで、不良が発生したメモリモジュールと、発生していないメモリモジュールとを明確にすることが可能となる。これにより、エラー調査での再現性を向上させ、品質改善へのフィードバックが可能となる。
本発明は、上述した実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
本発明の第1の実施形態の構成を示すブロック図である。 本発明の第1の実施形態の説明に用いるフローチャートである。 本発明の他の実施形態の構成を示すブロック図である。
符号の説明
1 コンピュータ
11 メインモジュール
12 I/Oモジュール
13 ファンモジュール
14 電源モジュール
20 マネージメントコントローラ
21a、21c 電圧センサ
22a、22b、22c 温度センサ
23a〜23c 不揮発性メモリ
24 回転センサ
101a〜101c メモリモジュール
102a〜102d 不揮発性メモリ
111 メインモジュール
120 マネージメントコントローラ

Claims (5)

  1. 複数のモジュールから構成されるコンピュータの異常監視装置であって、
    前記複数のモジュールの各々に配設された不揮発性メモリと、
    前記複数のモジュールの各々の異常を管理するマネージメント手段とを備え、
    異常発生時に、異常の発生したモジュールに対応する不揮発性メモリに、異常の情報を保存させるようにしたことを特徴とするコンピュータの異常監視装置。
  2. 前記複数のモジュールは、IOモジュール、電源モジュール、ファンモジュール、ストレージモジュールの何れかを含み、
    前記複数のモジュールの各々は、外部環境の検出手段を有し、
    前記マネージメント手段は、前記複数のモジュールの各々の外部環境の検出手段により得られる情報を対応するモジュールの不揮発性メモリに保存することを特徴とする請求項1に記載のコンピュータの異常監視装置。
  3. 前記モジュールは複数のメモリモジュールを含み、
    前記複数のメモリモジュールの各々に不揮発性メモリを配設し、
    前記マネージメント手段は、メモリ異常発生時には、異常が発生したメモリモジュールに対応する不揮発性メモリに情報を保存することを特徴とする請求項1に記載のコンピュータの異常監視装置。
  4. 複数のモジュールから構成されるコンピュータの異常監視方法であって、
    前記複数のモジュールの各々に不揮発性メモリを配設しておき、
    前記モジュールの各々の異常を監視し、
    異常発生時に、異常の発生したモジュールに対応する不揮発性メモリに、異常の情報を保存させることを特徴とするコンピュータの異常監視方法。
  5. 複数のモジュールから構成されるコンピュータの異常監視プログラムであって、
    前記複数のモジュールの各々には不揮発性メモリが配設されており、
    前記モジュールの各々の異常を監視するステップと、
    異常発生時に、異常の発生したモジュールに対応する不揮発性メモリに、異常の情報を保存させるステップとを含むことを特徴とするコンピュータの異常監視プログラム。
JP2008319605A 2008-12-16 2008-12-16 コンピュータの異常監視装置、異常監視方法、異常監視プログラム Pending JP2010146072A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008319605A JP2010146072A (ja) 2008-12-16 2008-12-16 コンピュータの異常監視装置、異常監視方法、異常監視プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008319605A JP2010146072A (ja) 2008-12-16 2008-12-16 コンピュータの異常監視装置、異常監視方法、異常監視プログラム

Publications (1)

Publication Number Publication Date
JP2010146072A true JP2010146072A (ja) 2010-07-01

Family

ID=42566496

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008319605A Pending JP2010146072A (ja) 2008-12-16 2008-12-16 コンピュータの異常監視装置、異常監視方法、異常監視プログラム

Country Status (1)

Country Link
JP (1) JP2010146072A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012128489A (ja) * 2010-12-13 2012-07-05 Nec Computertechno Ltd 情報処理装置、情報処理装置障害再現方法および情報処理装置障害再現プログラム
KR101197086B1 (ko) * 2012-04-27 2012-11-07 주식회사 아진엑스텍 스마트 모니터링 장치
JP2014003078A (ja) * 2012-06-15 2014-01-09 Nec Corp 半導体集積回路およびその制御方法
CN106844154A (zh) * 2017-01-23 2017-06-13 黑龙江工业学院 计算机故障信号检测装置及其检测系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04260938A (ja) * 1991-01-24 1992-09-16 Mitsubishi Electric Corp 故障診断装置
JPH05127778A (ja) * 1991-11-05 1993-05-25 Nippon Steel Corp 計算機設置環境データ収集装置
JP2006127070A (ja) * 2004-10-28 2006-05-18 Hitachi Ltd 産業用パーソナルコンピュータの提案型の保守販売方法
WO2007088606A1 (ja) * 2006-02-01 2007-08-09 Fujitsu Limited 故障情報管理方法及び検出方法、装置並びに記憶媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04260938A (ja) * 1991-01-24 1992-09-16 Mitsubishi Electric Corp 故障診断装置
JPH05127778A (ja) * 1991-11-05 1993-05-25 Nippon Steel Corp 計算機設置環境データ収集装置
JP2006127070A (ja) * 2004-10-28 2006-05-18 Hitachi Ltd 産業用パーソナルコンピュータの提案型の保守販売方法
WO2007088606A1 (ja) * 2006-02-01 2007-08-09 Fujitsu Limited 故障情報管理方法及び検出方法、装置並びに記憶媒体

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012128489A (ja) * 2010-12-13 2012-07-05 Nec Computertechno Ltd 情報処理装置、情報処理装置障害再現方法および情報処理装置障害再現プログラム
KR101197086B1 (ko) * 2012-04-27 2012-11-07 주식회사 아진엑스텍 스마트 모니터링 장치
WO2013162239A1 (en) * 2012-04-27 2013-10-31 Ajinextek Co., Ltd. Smart monitoring apparatus
JP2014003078A (ja) * 2012-06-15 2014-01-09 Nec Corp 半導体集積回路およびその制御方法
CN106844154A (zh) * 2017-01-23 2017-06-13 黑龙江工业学院 计算机故障信号检测装置及其检测系统
CN106844154B (zh) * 2017-01-23 2019-10-01 黑龙江工业学院 计算机故障信号检测装置及其检测系统

Similar Documents

Publication Publication Date Title
US8024609B2 (en) Failure analysis based on time-varying failure rates
US20080282113A1 (en) Failure information management method and apparatus, failure detection method and apparatus, electronic apparatus, information processing apparatus and computer-readable storage medium
US7370806B2 (en) Label for an electronic product that provides failure information when the product fails
US20200033928A1 (en) Method of periodically recording for events
JP2010146072A (ja) コンピュータの異常監視装置、異常監視方法、異常監視プログラム
US8234526B2 (en) Computer system and monitoring device
JP2017091077A (ja) 擬似故障の発生プログラム、発生方法、及び発生装置
JP2015049606A (ja) 管理システム、管理対象装置、管理装置、方法及びプログラム
JP4886558B2 (ja) 情報処理装置
JP2014021577A (ja) 故障予測装置、故障予測システム、故障予測方法、及び、故障予測プログラム
US20110154115A1 (en) Analysis result stored on a field replaceable unit
US7457990B2 (en) Information processing apparatus and information processing recovery method
JP2010113463A (ja) 診断システム
TW201337541A (zh) 埠異常檢測裝置、電腦、網路系統及程式
JP2010198314A (ja) 情報管理装置
US8626992B2 (en) Storage device with identification information
US9928154B2 (en) Leveling stress factors among like components in a server
JP7227043B2 (ja) Sramモジュールの破損検出装置
WO2024121939A1 (ja) ピンエレクトロニクス装置、試験装置、および方法
WO2024121938A1 (ja) ピンエレクトロニクス装置、試験装置、および方法
JP5011159B2 (ja) システム監視回路を備えた計算機
JP2010214932A (ja) プリンタ制御装置およびこれを備えたプリンタ
JP2009123108A (ja) 情報処理装置
JP2006268281A (ja) 電源入力切断時の異常検知方式
JP5126389B2 (ja) 制御装置及び制御方法

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100709

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130219

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130903

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140107