JP2019160116A - 情報処理装置、試験制御方法、及び試験制御プログラム - Google Patents

情報処理装置、試験制御方法、及び試験制御プログラム Download PDF

Info

Publication number
JP2019160116A
JP2019160116A JP2018048869A JP2018048869A JP2019160116A JP 2019160116 A JP2019160116 A JP 2019160116A JP 2018048869 A JP2018048869 A JP 2018048869A JP 2018048869 A JP2018048869 A JP 2018048869A JP 2019160116 A JP2019160116 A JP 2019160116A
Authority
JP
Japan
Prior art keywords
failure
test
environmental
environmental factor
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018048869A
Other languages
English (en)
Inventor
佐知子 加来
Sachiko Kaku
佐知子 加来
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Platforms Ltd
Original Assignee
NEC Platforms Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Platforms Ltd filed Critical NEC Platforms Ltd
Priority to JP2018048869A priority Critical patent/JP2019160116A/ja
Publication of JP2019160116A publication Critical patent/JP2019160116A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Testing Electric Properties And Detecting Electric Faults (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

【課題】電子装置に含まれる電子部品における故障の原因特定を容易にする。【解決手段】故障の発生が環境要因に依存する電子部品と、電子部品における故障の発生を検出する故障検出部と、環境要因を測定する環境測定部と、環境要因を再現する環境再現部と、電子部品における故障の有無を試験する試験実行部と、故障検出部によって故障の発生が検出された際に、環境要因を故障時環境要因として環境測定部によって測定し、測定した故障時環境要因に基づいて1つ以上の環境要因である試験時環境要因を決定し、決定した各試験時環境要因を環境再現部によって再現し、再現した各試験時環境要因の下で電子部品に対する試験を試験実行部によって実行し、測定した故障時環境要因を表すデータ、及び実行した各試験の結果と該試験が実行された際の各試験時環境要因とが対応付けられたデータを出力する試験制御部とを備える。【選択図】 図1

Description

本発明は、情報処理装置に含まれる電子部品における故障の原因を特定する技術に関する。
情報処理装置に含まれる電子部品では、情報処理装置における環境要因(電子部品の温度、電子部品に提供される電源電圧等)に応じて、故障が発生する可能性が変化することがある。
電子部品の故障予測を行う技術の一例が特許文献1に開示されている。特許文献1のブレードサーバは、装置部品と、環境負荷付与部と、エラー検出部と、制御部とを含む。装置部品は、例えば、ハードディスク、メモリモジュール、電子部品、通信処理部品、又はファンである。環境負荷付与部は、装置部品に環境負荷を与える。環境負荷付与部は、例えば、ハードディスクに対する温度設定部、メモリモジュールに対する可変電源部、電子部品に対する冷却部、通信処理部品に対する試験データ付与部、又はファンに対する可変電源部である。制御部は、環境負荷付与部を制御して装置部品に通常の使用状態より高い環境負荷を与え、エラー検出部により高い環境負荷の下で検出された装置部品のエラーに基づいて故障予測を行う。ここで、通常の使用状態より高い環境負荷は、例えば、動作保証値に対応する環境負荷、又は動作保証値外の環境負荷である。又、高い環境負荷の下で検出された装置部品のエラーは、例えば、高い温度におけるハードディスクのエラー率、又は高い電源電圧におけるメモリモジュールのエラー率等である。上記構成の結果、特許文献1のブレードサーバは、構成部品の故障予測を行う。
電子部品の故障予防を行う技術の一例が特許文献2に開示されている。特許文献2のコンピュータシステムは、複数のCPU(Central Processing Unit)と、冷却装置と、電源制御部と、診断プロセッサとを含む。CPUは、CPUの温度を測定する温度センサを含み、BIST(Build In Self Test)を実行可能である。冷却装置は、CPUを冷却する。電源制御部は、CPUに電源を供給する。電源制御部は、CPUに供給する電圧を変化させることが可能である。診断プロセッサは、CPUの診断を行う。診断プロセッサは、あるCPUに障害が発生した場合に、当該CPUをシステムから切り離した後に、システムに対して当該CPUの再組み込みを行う。この際、診断プロセッサは、温度センサによって測定された、当該CPUの温度に基づいて、障害再発予防処置を行った後に、当該CPUの再組み込みを行う。ここで、障害再発予防処置とは、必要に応じて冷却装置に冷却を強化させた上で、電源制御部によって、CPUに供給する電圧を上昇させることである。冷却の強化及び電圧の上昇は、BIST実行時におけるCPUの温度に基づいて、高負荷時におけるCPUの温度を推定し、高負荷時におけるCPUの温度が温度障害を引き起こさないように決定される。上記構成の結果、特許文献2のコンピュータシステムは、再組み込みしたCPUにおける障害再発の可能性を低下させる。
特許文献1及び特許文献2の技術は、電子部品の故障予測、又は電子部品の障害発生時における再発予防を目的としており、電子部品の故障が実際に発生した際に故障の発生原因を特定する用途には利用できない。
電子部品の故障に起因する電子装置の故障は、発生頻度が低いことが多い。又、運用中の電子装置において交換した被疑電子部品を工場に戻入して、工場において同じ構成の電子装置において被疑電子部品を動作させたとしても、故障が再現しないために故障の原因を特定できないことが多かった。又は、故障が発生した電子装置と同等な、電子装置の構成、又は電子装置の設置環境を、工場において準備できないために、故障の原因を特定できないことも少なくない。
故障発生時の環境要因を記録する技術の一例が特許文献3に開示されている。特許文献3の光伝送通信装置は、管理パッケージと複数の被管理パッケージとを含む。被管理パッケージは、機能実行部と、再現調査用メモリとを含む。機能実行部は、管理パッケージからの管理情報に基づいて装置設定及び動作を行い、装置設定及び動作に関する状態情報を管理パッケージに送信する。再現調査用メモリは、管理パッケージからのフィールド環境データを保存する。管理パッケージは、運用メモリと、制御部とを含む。運用メモリは、フィールド環境データを保存する。制御部は、光伝送通信装置内に配置された被管理パッケージのそれぞれに対し、管理情報を送信し、特定の被管理パッケージに対して運用メモリが記憶するフィールド環境データを送り込む。上記構成の結果、特許文献3の光伝送通信装置は、再現試験時に工場において光伝送通信装置のフィールド環境を再現する。
特開2005−221413号公報 特開2010−170355号公報 特開2011−59893号公報
しかしながら、特許文献3の光伝送通信装置は、故障発生時点での環境要因(電子部品の温度、電子部品に提供される電源電圧等)を記録するが、記録した環境要因の内どの環境要因が電子部品の故障に関係しているかを特定するための情報を提供しない。又、特許文献3の光伝送通信装置では、記録した環境要因を利用したとしても、工場等において、故障が発生した実環境における環境要因を再現できないために、故障の原因を特定できないことがある。
本発明は、上記の課題に鑑みてなされたもので、故障の原因の特定を容易にすることを主たる目的とする。
本発明の一態様において、情報処理装置は、故障の発生が環境要因に依存する電子部品と、電子部品における故障の発生を検出する故障検出部と、環境要因を測定する環境測定部と、環境要因を再現する環境再現部と、電子部品における故障の有無を試験する試験実行部と、故障検出部によって故障の発生が検出された際に、環境要因を故障時環境要因として環境測定部によって測定し、測定した故障時環境要因に基づいて1つ以上の環境要因である試験時環境要因を決定し、決定した各試験時環境要因を環境再現部によって再現し、再現した各試験時環境要因の下で電子部品に対する試験を試験実行部によって実行し、測定した故障時環境要因を表すデータ、及び実行した各試験の結果と該試験が実行された際の各試験時環境要因とが対応付けられたデータを出力する試験制御部とを備える。
本発明の一態様において、試験制御方法は、故障の発生が環境要因に依存する電子部品と、電子部品における故障の発生を検出する故障検出部と、環境要因を測定する環境測定部と、環境要因を再現する環境再現部と、電子部品における故障の有無を試験する試験実行部とを備えた情報処理装置の試験制御方法であって、故障検出部によって故障の発生が検出された際に、環境要因を故障時環境要因として環境測定部によって測定し、測定した故障時環境要因に基づいて1つ以上の環境要因である試験時環境要因を決定し、決定した各試験時環境要因を環境再現部によって再現し、再現した各試験時環境要因の下で電子部品に対する試験を試験実行部によって実行し、実行した各試験の結果と該試験が実行された各試験時環境要因とが対応付けられたデータを出力する。
本発明の一態様において、試験制御プログラムは、故障の発生が環境要因に依存する電子部品と、電子部品における故障の発生を検出する故障検出部と、環境要因を測定する環境測定部と、環境要因を再現する環境再現部と、電子部品における故障の有無を試験する試験実行部とを備えた情報処理装置が備えるコンピュータに、故障検出部によって故障の発生が検出された際に、環境要因を故障時環境要因として環境測定部によって測定し、測定した故障時環境要因に基づいて1つ以上の環境要因である試験時環境要因を決定し、決定した各試験時環境要因を環境再現部によって再現し、再現した各試験時環境要因の下で電子部品に対する試験を試験実行部によって実行し、実行した各試験の結果と該試験が実行された各試験時環境要因とが対応付けられたデータを出力する試験制御処理を実行させる。
本発明によれば、電子装置に含まれる電子部品における故障の原因特定を容易にできるという効果がある。
本発明の第1の実施形態における情報処理装置の構成の一例を示すブロック図である。 本発明の第1の実施形態における情報処理装置の動作を示すフローチャートである。 本発明の第1の実施形態における試験時環境要因の一例を示すグラフである。 本発明の第2の実施形態におけるディスクアレイ装置の構成の一例を示すブロック図である。 本発明の第2の実施形態におけるディスクアレイ装置の動作を示すフローチャートである。 本発明の第2の実施形態におけるディスクアレイ装置のデバッグモードに関する構成の一例を示すブロック図である。 本発明の各実施形態における情報処理装置を実現可能なハードウェア構成の一例を示すブロック図である。
以下、本発明の実施形態について、図面を参照して詳細に説明する。尚、全ての図面において、同等の構成要素には同じ符号を付し、適宜説明を省略する。
(第1の実施形態)
本発明の各実施形態の基本である、本発明の第1の実施形態について説明する。
本実施形態における構成について説明する。
図1は、本発明の第1の実施形態における情報処理装置の構成の一例を示すブロック図である。
本実施形態における情報処理装置100は、電子部品110と、故障検出部120と、環境測定部130と、環境再現部140と、試験実行部150と、試験制御部160とを含む。
電子部品110は、故障の発生が環境要因に依存する電子部品である。電子部品110は、例えば、LSI、IC、メモリ、インタフェースカード、又はハードディスクドライブである。環境要因は、例えば、電子部品における、温度、信号電圧、又は電源電圧である。
故障検出部120は、電子部品110における故障の発生を検出する。ここで、故障は、環境要因に依存する限定的な故障であってもよいし、環境要因に依存しない完全な故障であってもよい。
環境測定部130は、環境要因を測定する。環境測定部130は、環境要因を常時測定し、最新の測定結果、又は測定結果の履歴を保持してもよい。環境測定部130は、例えば、温度センサ、又は電圧センサである。
環境再現部140は、環境要因を再現する。環境再現部140は、例えば、ファン、又は電圧可変電源によって、温度、信号電圧、又は電源電圧を制御する。
試験実行部150は、電子部品110における故障の有無を試験する。ここで、試験は、電子部品110が正常に動作しているか否かを確認する試験である。
試験制御部160は、故障検出部120によって故障の発生が検出された際に、試験の実行を制御する。
本実施形態における動作について説明する。
図2は、本発明の第1の実施形態における情報処理装置の動作を示すフローチャートである。尚、図2に示すフローチャート及び以下の説明は一例であり、適宜求める処理に応じて、処理順等を入れ替えたり、処理を戻したり、又は処理を繰り返したりしてもよい。
試験制御部160は、故障検出部120によって電子部品110における故障の発生を待ち受ける(ステップS110)。
次に、故障検出部120によって故障の発生が検出された際に、試験制御部160は、環境要因を故障時環境要因として環境測定部130によって測定する(ステップS120)。ここで、環境測定部130は環境要因を常時測定しており、試験制御部160は、故障の発生が検出された際における最新の測定結果を環境要因としてもよい。
続いて、試験制御部160は、測定した故障時環境要因に基づいて試験時環境要因を決定する(ステップS130)。ここで、「試験時環境要因」とは、一連の試験を実行する際の環境要因のセットであることとする。試験時環境要因は1つ以上の環境要因を含み、各環境要因は各試験の実行(試行)に一対一に関連付けられる。
続いて、試験制御部160は、決定した試験時環境要因について、以下の処理を繰り返す(ステップS140乃至S180)
まず、試験制御部160は、決定した各試験時環境要因を環境再現部140によって再現する(ステップS150)。
次に、試験制御部160は、再現した各試験時環境要因の下で電子部品110に対する試験を試験実行部150によって実行する(ステップS160)。
続いて、試験制御部160は、測定した故障時環境要因を表すデータ、及び実行した各試験の結果と該試験が実行された際の各試験時環境要因とが対応付けられたデータを出力する(ステップS170)。
図3は、本発明の第1の実施形態における試験時環境要因の一例を示すグラフである。図3において、各グラフの横軸は環境要因を構成する第1のパラメータを表す。又、各グラフが縦軸を含む場合、縦軸は環境要因を構成する第2のパラメータを表す。但し、環境要因が含むパラメータの数は一例であり、環境要因は1つ以上の任意個のパラメータから成ってもよい。又、黒丸は故障時環境要因を表し、白抜きの丸は試験時環境要因を表すこととする。
図3(A)に示される例では、試験時環境要因は、故障時環境要因を含む。即ち、ある試験は、故障発生時における環境要因の下で実行される。この場合、試験時環境要因において故障が再現すれば、故障は、偶然発生したのではなく、故障時環境要因に起因して発生した可能性が高い。
図3(B)に示される例では、環境要因は第1のパラメータを含む。そして、試験時環境要因における第1のパラメータは、故障時環境要因における第1のパラメータの値より小さい値を含む。更に、試験時環境要因における第1のパラメータは、故障時環境要因における第1のパラメータの値より大きい値を含む。更に、試験時環境要因における第1のパラメータは、適切な間隔で並べられた、その他の値を含んでもよい。このような試験時環境要因によって、故障が発生する環境要因がより狭い範囲に特定される(故障が発生しなくなる、第1パラメータにおける限界値が特定される)可能性がある。ここで、試験時環境要因は、故障時環境要因における第1のパラメータの近似値を含むこととする。あるいは、試験時環境要因は、故障時環境要因を含んでもよい。
図3(C)に示される例では、環境要因は第1のパラメータと第2のパラメータとを含む。そして、試験時環境要因は、第1のパラメータと第2のパラメータとの組合せを以下の4種類を持つ。
(1)第1のパラメータが故障時環境要因と等しく、且つ第2のパラメータが故障時環境要因より小さい環境要因210、
(2)第1のパラメータが故障時環境要因と等しく、且つ第2のパラメータが故障時環境要因より大きい環境要因220、
(3)第2のパラメータが故障時環境要因と等しく、且つ第1のパラメータが故障時環境要因より小さい環境要因230、
(4)第2のパラメータが故障時環境要因と等しく、且つ第1のパラメータが故障時環境要因より大きい環境要因240。
この場合、故障の発生に関係するパラメータを特定できる可能性がある。更に、試験時環境要因は、第1のパラメータと第2のパラメータとの組合せを含んでもよい。ここで、試験時環境要因は、故障時環境要因における第1のパラメータ及び第2のパラメータに関する近似値を含むこととする。あるいは、試験時環境要因は、故障時環境要因を含んでもよい。
図3(D)に示される例では、環境要因は第1のパラメータ乃至第Nのパラメータ(Nは自然数)を含む(図3(D)ではNは2)。そして、試験制御部160は、試験の実行において、第1のパラメータ乃至第Nのパラメータが張る空間において、図3(D)に破線の円で示したように、故障時環境要因に近い点から順に、試験時環境要因として決定してもよい。この場合、試験制御部160は、試験を実行可能な時間が限られている際に、故障が発生する環境要因をより効率的に特定できる可能性がある。ここで、試験時環境要因は、故障時環境要因における第1のパラメータ乃至第Nのパラメータに関する近似値を含むこととする。あるいは、試験時環境要因は、故障時環境要因を含んでもよい。
以上説明したように、本実施形態における情報処理装置100は、故障が発生した情報処理装置100において、故障発生時と同じ又は近似する環境要因の下で情報処理装置100を動作させる試験を行う。即ち、故障が発生した情報処理装置100は、故障発生時と同じ又は近似する環境要因の下で情報処理装置100の故障が再現するか否かを試験する。ここで、故障が再現すれば故障は試験において再現された環境要因に依存する可能性が高く、故障が再現しなければ故障は試験において再現された環境要因に依存しない可能性が高い。従って、本実施形態における情報処理装置100には、故障の原因の特定を容易にすることができるという効果がある。
又、情報処理装置100は、故障発生時と異なる環境要因の下で情報処理装置100の故障が再現するか否かを試験してもよい。ここで、故障発生時と同じ又は近似する環境要因の下で故障が再現し、且つ故障が再現しない環境要因が存在すれば、故障は試験において制御された環境要因に依存する可能性が高い。従って、本実施形態における情報処理装置100には、情報処理装置100が故障発生時と異なる環境要因の下で情報処理装置100の故障が再現するか否かの試験を行う場合には、故障の原因の特定を更に容易にすることができるという効果がある。
(第2の実施形態)
次に、本発明の第1の実施形態を基本とする、本発明の第2の実施形態について説明する。本実施形態では、情報処理装置はディスクアレイ装置であり、電子部品はインタフェースカードである。本実施形態における環境因子は温度及び信号電圧である。又、本実施形態では、情報処理装置の構成及び動作についてより詳細に説明する。
本実施形態における構成について説明する。
図4は、本発明の第2の実施形態におけるディスクアレイ装置の構成の一例を示すブロック図である。
本実施形態におけるディスクアレイ装置1は、マザーボード3と、インタフェース(I/F)カード2A、2B、・・・と、論理ディスク20とを含む。ディスクアレイ装置1は、I/Fカード2A、2B、・・・を介してホストサーバ(不図示)に接続されている。ディスクアレイ装置1は、I/Fカード2Aが故障した場合に、当該ディスクアレイ装置1そのものを用いて、I/Fカード2Aにおける故障を再現する再現試験を行う。
マザーボード3は、ファン11と、電圧マージン設定回路5と、温度/電圧監視IC(Integrated Circuit)6と、制御部4とを含む。
ファン11は、マザーボード3及びI/Fカード2A、2B、・・・を冷却する。
マザーボード3に含まれる電圧マージン設定回路5は、マザーボード3における電圧マージンを設定する。
マザーボード3に含まれる温度/電圧監視IC6は、マザーボード3における、温度及び電圧を監視する。
制御部4は、マザーボード3及びI/Fカード2A、2B、・・・を制御する。
I/Fカード2A、2B、・・・はそれぞれ、電圧マージン設定回路5と、温度・電圧監視IC6と、I/Fチップ12A、12B、・・・とを含む。
I/Fカード2A、2B、・・・に含まれる電圧マージン設定回路5はそれぞれ、I/Fカード2A、2B、・・・における電圧マージンを設定する。
I/Fカード2A、2B、・・・に含まれる温度・電圧監視IC6はそれぞれ、I/Fカード2A、2B、・・・における、温度及び電圧を監視する。
制御部4は、電圧マージン設定回路5と温度・電圧監視IC6とを一括して管理する。制御部4は、ファン制御部7と、信号電圧制御部8と、装置状態制御部9と、故障辞書10(障害解析部)と、I/Fチップ制御部13と、I/O制御部14とを含む。
ファン制御部7は、ファン11の風速を制御する。
信号電圧制御部8は、マザーボード3及びI/Fカード2A、2B、・・・上の電圧マージン設定回路5を制御する。
装置状態制御部9は、再現試験を行う際に、温度・電圧監視IC6によって監視された、温度及び電圧の値に基づいて、ファン制御部7にファン11の風速設定を変化させることによって、マザーボード3及びI/Fカード2A、2B、・・・の温度調節を行う。又、装置状態制御部9は、再現試験を行う際に、温度・電圧監視IC6によって監視された、温度及び電圧の値に基づいて、信号電圧制御部8に、マザーボード3及びI/Fカード2A、2B、・・・上の各電圧マージン設定回路5を制御することによって、マザーボード3及びI/Fカード2A、2B、・・・における任意の信号における信号電圧を変化させる。
故障辞書10は、I/Fカード2A、2B、・・・において発生する可能性がある障害種類と、障害種類に応じて追加で採取すべき詳細デバッグログとに関する情報を予め保持する。
I/Fチップ12A、12B、・・・は、マザーボード3とホストサーバとの間でI/Oデータの入出力を行う。又、I/Fチップ12A、12B、・・・は、I/O制御部14によって送信されたI/Oデータをループバックさせるループバック試験機能(デバッグ機能)を有する。
I/Fチップ制御部13は、I/Fチップ12A、12B、・・・における試験等を制御する。
I/O制御部14は、I/Fチップ12A、12B、・・・における入出力を制御する。
論理ディスク20は、I/O制御部14を経由してホストによって書き込まれたデータが、装置状態制御部9によって冗長化されたデータを保持する。論理ディスク20は、複数個の物理ディスク(例えば、ハードディスクドライブ、又はソリッドステートドライブ等)である。
尚、ディスクアレイ装置1は、本発明の第1の実施形態における情報処理装置100に対応する。又、I/Fカード2A、2B、・・・は、本発明の第1の実施形態における電子部品110に対応する。又、装置状態制御部9は、本発明の第1の実施形態における環境測定部130及び試験制御部160に対応する。又、ファン制御部7及び信号電圧制御部8は、本発明の第1の実施形態における環境再現部140に対応する。又、I/Fチップ制御部13は、本発明の第1の実施形態における試験実行部150に対応する。又、I/Fチップ制御部13及びI/O制御部14は、本発明の第1の実施形態における故障検出部120に対応する。
本実施形態における他の構成は、本発明の第1の実施形態における構成と同じである。
本実施形態における動作について説明する。
図5は、本発明の第2の実施形態におけるディスクアレイ装置の動作を示すフローチャートである。具体的には、図5は、ディスクアレイ装置1においてI/Fカード2Aで障害が発生してから再現試験を行うまでにおけるディスクアレイ装置1の動作を示す。尚、図5に示すフローチャート及び以下の説明は一例であり、適宜求める処理に応じて、処理順等を入れ替えたり、処理を戻したり、又は処理を繰り返したりしてもよい。
まず、装置状態制御部9は、障害が発生したI/Fカード2Aを縮退させ、ホストサーバとの接続を遮断する(ステップS1)。
次に、装置状態制御部9は、再現試験を行うため、縮退させたI/Fカード2Aを再起動(リセット)させる(ステップS2)。
続いて、装置状態制御部9は、I/Fカード2Aが復旧可能かどうかを判断する(ステップS3)。再起動によってI/Fカード2Aが復旧しなかった場合(ステップS3におけるNo)、装置状態制御部9は、発生した障害は固定障害(環境要因に依存しない障害)であると判断して、再現試験を行わず処理を終了する。再起動によってI/Fカード2Aが復旧した場合(ステップS3におけるYes)、装置状態制御部9は、障害発生の条件(環境要因)を分析し易くするために、ディスクアレイ装置1をデバッグモードに自動的に切り替える(ステップS4)。
図6は、本発明の第2の実施形態におけるディスクアレイ装置のデバッグモードに関する構成の一例を示すブロック図である。但し、図6では、ファン11と、電圧マージン設定回路5と、温度/電圧監視IC6と、ファン制御部7と、信号電圧制御部8とは省略されている。
デバッグモードでは、装置状態制御部9は、I/Fチップ制御部13又はI/O制御部14によって、I/Fカード2A、2B、・・・において発生した障害に関する情報をI/Fチップ12A、12B、・・・から取得する。装置状態制御部9は、故障辞書10によって保持されている情報と発生した障害とを照合して障害種類を判断する。
図5の説明へ戻る。
続いて、装置状態制御部9は、通常のログとは別に、障害種類に応じて追加で採取すべき詳細デバッグログの採取ができるよう設定を変更する(ステップS5)。
続いて、装置状態制御部9は、障害発生時と同等の負荷をI/Fカード2Aに流すために、I/Fチップ制御部13によって、I/Fチップ12Aにおけるデバッグ機能をオンにして、ループバック試験を実行させる(ステップS6)。ここで、装置状態制御部9は、ループバック試験において、I/Fチップ12Aに入力されたデータと、I/Fチップ12Aから出力されたI/Oデータを比較することによって、I/Fチップ12A及びI/Fカード2Aが正常動作しているか否かを確認できる。又、装置状態制御部9は、再現試験(ループバック試験)用にI/Fカード2Aに送信するI/Oデータとして、障害発生前にI/Fカード2Aに実際に流れていたI/Oデータを記録しておき、記録したI/Oデータに類似するI/OデータをI/Fチップ12Aへ送信してもよい。又、装置状態制御部9は、I/Fカード2Aにループバック試験用のI/Oデータを送信している状態において、所定の試験パターンに従って、I/Fカード2Aの温度又は発生した障害に関係する信号線の信号電圧等の環境要因を変化させる。
続いて、装置状態制御部9は、各試験において障害が再現したか否かを判断する(ステップS7)。障害が再現した場合に(ステップS7におけるYes)、装置状態制御部9は、デバッグログを保存し、障害が発生した旨と環境要因との組を記録し(ステップS8)、ステップS10へ処理を進める。障害が再現しなかった場合に(ステップS7におけるNo)、装置状態制御部9は、障害が発生しなかった旨と環境要因との組を記録し(ステップS9)、ステップS10へ処理を進める。
続いて、装置状態制御部9は、デバッグモードを解除するコマンドの入力があったか否かを判断する(ステップS10)。デバッグモードを解除するコマンドの入力があった場合(ステップS10におけるYes)、装置状態制御部9は、デバッグモードを終了して(ステップS11)、処理を終了する。デバッグモードを解除するコマンドの入力がなかった場合(ステップS10におけるNo)、装置状態制御部9は、ステップS6へ処理を戻す。即ち、例えば、障害が発生したI/Fカード2Aの交換のために保守員が現地に到着してデバッグモード解除コマンドを実行するまで、装置状態制御部9は、可能な限りの環境要因下において再現試験を自動的に繰り返し実行する。
本実施形態における再現試験は、故障が発生したディスクアレイ装置1を、故障が発生した状態のまま使用して行われる。即ち、再現試験は、例えば、ディスクアレイ装置1における、電源のオフ及びオン、並びに基板の抜き差し等を経ることなく、再現試験において変更される環境要因を除いて、故障が発生した環境要因を故障発生時のまま維持した状態において実行される。そのため、再現試験では、故障発生時と同じ環境要因において、故障が再現される可能性が高い。又、再現試験では、ディスクアレイ装置1において温度又は信号電圧等の環境要因を変更した場合に、再現試験において変更されなかった環境要因が変化し難いので、故障の再現性に関係する環境要因を特定しやすい。
本実施形態における他の動作は、本発明の第1の実施形態における動作と同じである。
以上説明したように、本実施形態におけるディスクアレイ装置1は、故障が発生したディスクアレイ装置1において、故障発生時と同じ環境要因及び故障発生時と異なる環境要因の下でディスクアレイ装置1を動作させる試験を行う。即ち、故障が発生したディスクアレイ装置1は、故障発生時と同じ環境要因の下でディスクアレイ装置1の故障が再現するか否かを試験する。ここで、故障が再現しなければ、故障は試験において再現された環境要因に依存しない可能性が高い。又、故障が発生したディスクアレイ装置1は、故障発生時と異なる環境要因の下でディスクアレイ装置1の故障が再現するか否かを試験する。ここで、故障が再現しない環境要因が存在すれば、故障は試験において制御された環境要因に依存する可能性が高い。従って、本実施形態におけるディスクアレイ装置1には、故障の原因の特定を容易にすることができるという効果がある。
又、本実施形態における再現試験では、デバッグプログラムを利用することによって、再現試験時におけるプログラムの動作に関する詳細なデバッグ用情報を利用することができる。そのため、再現試験では、被疑部品の交換を行う前に、より多くの被疑部品を特定するためのデバッグ用情報を利用できる。
又、本実施形態における再現試験では、再現試験において変化させた環境要因を記録する。そのため、工場に被疑部品を戻入した際に、工場試験において変化させる環境要因を、再現試験において故障に影響があった環境要因に絞り込んだ上で、素早く工場試験を行うことができる。そのため、工場でしか行えない波形測定等の追加試験も効率よく実行可能である。
図7は、本発明の各実施形態における、情報処理装置を実現可能なハードウェア構成の一例を示すブロック図である。
情報処理装置907は、記憶装置902と、CPU(Central Processing Unit)903と、キーボード904と、モニタ905と、I/O(Input/Output)装置908とを備え、これらが内部バス906によって接続されている。記憶装置902は、試験制御部160、装置状態制御部9等のCPU903の動作プログラムを格納する。CPU903は、情報処理装置907の全体を制御し、記憶装置902に格納された動作プログラムを実行し、I/O装置908によって試験制御部160、装置状態制御部9等のプログラムの実行やデータの送受信を行なう。尚、上記の情報処理装置907の内部構成は一例である。情報処理装置907は、必要に応じて、キーボード904、モニタ905を接続する装置構成であってもよい。
上述した本発明の各実施形態における情報処理装置907は、専用の装置によって実現してもよいが、I/O装置908が外部との通信を実行するハードウェアの動作以外は、コンピュータ(情報処理装置)によっても実現可能である。本発明の各実施形態において、I/O装置908は、例えば、電子部品110、故障検出部120、環境測定部130、環境再現部140、温度/電圧監視IC6、電圧マージン設定回路5、ファン11、又はI/Fカード2A、2B、・・・等との入出力部である。この場合、係るコンピュータは、記憶装置902に格納されたソフトウェア・プログラムをCPU903に読み出し、読み出したソフトウェア・プログラムをCPU903において実行する。上述した各実施形態の場合、係るソフトウェア・プログラムには、上述したところの、図1及び4に示した、情報処理装置100、ディスクアレイ装置1の各部の機能を実現可能な記述がなされていればよい。但し、これらの各部には、適宜ハードウェアを含むことも想定される。そして、このような場合、係るソフトウェア・プログラム(コンピュータ・プログラム)は、本発明を構成すると捉えることができる。更に、係るソフトウェア・プログラムを格納した、コンピュータ読み取り可能な記憶媒体も、本発明を構成すると捉えることができる。
以上、本発明を、上述した各実施形態およびその変形例によって例示的に説明した。しかしながら、本発明の技術的範囲は、上述した各実施形態およびその変形例に記載した範囲に限定されない。当業者には、係る実施形態に対して多様な変更又は改良を加えることが可能であることは明らかである。そのような場合、係る変更又は改良を加えた新たな実施形態も、本発明の技術的範囲に含まれ得る。そしてこのことは、特許請求の範囲に記載した事項から明らかである。
本発明は、ディスクアレイ装置、サーバ、コンピュータ周辺機器等の電子装置に含まれる電子部品における故障の原因を特定する用途において利用できる。
1 ディスクアレイ装置
2A I/Fカード
2B i/Fカード
3 マザーボード
4 制御部
5 電圧マージン設定回路
6 温度/電圧監視IC
7 ファン制御部
8 信号電圧制御部
9 装置状態制御部
10 故障辞書
11 ファン
12A I/Fチップ
12B I/Fチップ
13 I/Fチップ制御部
14 I/O制御部
20 論理ディスク
100 情報処理装置
110 電子部品
120 故障検出部
130 環境測定部
140 環境再現部
150 試験実行部
160 試験制御部
210、220、230、240 環境要因
902 記憶装置
903 CPU
904 キーボード
905 モニタ
906 内部バス
907 情報処理装置
908 I/O装置

Claims (8)

  1. 故障の発生が環境要因に依存する電子部品と、
    前記電子部品における前記故障の発生を検出する故障検出部と、
    前記環境要因を測定する環境測定部と、
    前記環境要因を再現する環境再現部と、
    前記電子部品における前記故障の有無を試験する試験実行部と、
    前記故障検出部によって前記故障の発生が検出された際に、
    前記環境要因を故障時環境要因として前記環境測定部によって測定し、
    測定した前記故障時環境要因に基づいて1つ以上の前記環境要因である試験時環境要因を決定し、
    決定した各前記試験時環境要因を前記環境再現部によって再現し、
    再現した各前記試験時環境要因の下で前記電子部品に対する前記試験を前記試験実行部によって実行し、
    測定した前記故障時環境要因を表すデータ、及び実行した各前記試験の結果と該前記試験が実行された際の各前記試験時環境要因とが対応付けられたデータを出力する
    試験制御部と
    を備えた情報処理装置。
  2. 前記試験時環境要因は、前記故障時環境要因を含む
    請求項1に記載の情報処理装置。
  3. 前記環境要因は第1のパラメータを含み、
    前記試験時環境要因における前記第1のパラメータは前記故障時環境要因における前記第1のパラメータの値より小さい値を含み、
    前記試験時環境要因における前記第1のパラメータは前記故障時環境要因における前記第1のパラメータの値より大きい値を含む
    請求項1又は2に記載の情報処理装置。
  4. 前記環境要因は第1のパラメータと第2のパラメータとを含み、
    前記試験時環境要因は、前記第1のパラメータが前記故障時環境要因と等しく、且つ前記第2のパラメータが前記故障時環境要因より小さい前記環境要因を含み、
    前記試験時環境要因は、前記第1のパラメータが前記故障時環境要因と等しく、且つ前記第2のパラメータが前記故障時環境要因より大きい前記環境要因を含み、
    前記試験時環境要因は、前記第2のパラメータが前記故障時環境要因と等しく、且つ前記第1のパラメータが前記故障時環境要因より小さい前記環境要因を含み、
    前記試験時環境要因は、前記第2のパラメータが前記故障時環境要因と等しく、且つ前記第1のパラメータが前記故障時環境要因より大きい前記環境要因を含む
    請求項1又は2に記載の情報処理装置。
  5. 前記環境要因は第1のパラメータ乃至第Nのパラメータ(Nは自然数)を含み、
    前記試験制御部は、前記試験の実行において、前記第1のパラメータ乃至前記第Nのパラメータが張る空間において、前記故障時環境要因に近い点から順に、前記試験時環境要因として決定する
    請求項1又は2に記載の情報処理装置。
  6. 前記情報処理装置は、インタフェースカードを含むディスクアレイ装置であり、
    前記電子部品は、前記ディスクアレイ装置とホストサーバとを接続する前記インタフェースカードであり、
    前記環境要因は、前記電子部品における、温度及び信号電圧をパラメータとする
    請求項1乃至5の何れか1項に記載の情報処理装置。
  7. 故障の発生が環境要因に依存する電子部品と、
    前記電子部品における前記故障の発生を検出する故障検出部と、
    前記環境要因を測定する環境測定部と、
    前記環境要因を再現する環境再現部と、
    前記電子部品における前記故障の有無を試験する試験実行部と
    を備えた情報処理装置の試験制御方法であって、
    前記故障検出部によって前記故障の発生が検出された際に、
    前記環境要因を故障時環境要因として前記環境測定部によって測定し、
    測定した前記故障時環境要因に基づいて1つ以上の前記環境要因である試験時環境要因を決定し、
    決定した各前記試験時環境要因を前記環境再現部によって再現し、
    再現した各前記試験時環境要因の下で前記電子部品に対する前記試験を前記試験実行部によって実行し、
    実行した各前記試験の結果と該前記試験が実行された各前記試験時環境要因とが対応付けられたデータを出力する
    情報処理装置の試験制御方法。
  8. 故障の発生が環境要因に依存する電子部品と、
    前記電子部品における前記故障の発生を検出する故障検出部と、
    前記環境要因を測定する環境測定部と、
    前記環境要因を再現する環境再現部と、
    前記電子部品における前記故障の有無を試験する試験実行部と
    を備えた情報処理装置が備えるコンピュータに、
    前記故障検出部によって前記故障の発生が検出された際に、
    前記環境要因を故障時環境要因として前記環境測定部によって測定し、
    測定した前記故障時環境要因に基づいて1つ以上の前記環境要因である試験時環境要因を決定し、
    決定した各前記試験時環境要因を前記環境再現部によって再現し、
    再現した各前記試験時環境要因の下で前記電子部品に対する前記試験を前記試験実行部によって実行し、
    実行した各前記試験の結果と該前記試験が実行された各前記試験時環境要因とが対応付けられたデータを出力する
    試験制御処理を実行させる
    情報処理装置の試験制御プログラム。
JP2018048869A 2018-03-16 2018-03-16 情報処理装置、試験制御方法、及び試験制御プログラム Pending JP2019160116A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018048869A JP2019160116A (ja) 2018-03-16 2018-03-16 情報処理装置、試験制御方法、及び試験制御プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018048869A JP2019160116A (ja) 2018-03-16 2018-03-16 情報処理装置、試験制御方法、及び試験制御プログラム

Publications (1)

Publication Number Publication Date
JP2019160116A true JP2019160116A (ja) 2019-09-19

Family

ID=67994887

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018048869A Pending JP2019160116A (ja) 2018-03-16 2018-03-16 情報処理装置、試験制御方法、及び試験制御プログラム

Country Status (1)

Country Link
JP (1) JP2019160116A (ja)

Similar Documents

Publication Publication Date Title
US9569325B2 (en) Method and system for automated test and result comparison
US10495691B2 (en) System architecture method and apparatus for adaptive hardware fault detection with hardware metrics subsystem
US7680624B2 (en) Method and apparatus for performing a real-time root-cause analysis by analyzing degrading telemetry signals
US20080276129A1 (en) Software tracing
JP5153774B2 (ja) 試験装置、プログラム、および、記録媒体
JP2018116679A (ja) バスハング検出
Bakhshi et al. Intermittent failures in hardware and software
US20220253375A1 (en) Systems and methods for device testing to avoid resource conflicts for a large number of test scenarios
WO2019184612A1 (zh) 一种终端及电子设备
Bernardi et al. Applicative system level test introduction to increase confidence on screening quality
US8161324B2 (en) Analysis result stored on a field replaceable unit
JP5545771B2 (ja) 診断装置、診断方法および診断プログラム診断方法
CN107357700A (zh) 一种测试nvme硬盘顺序稳定性的方法及系统
US9507690B2 (en) Method and device for analyzing an execution of a predetermined program flow on a physical computer system
JP2019160116A (ja) 情報処理装置、試験制御方法、及び試験制御プログラム
US9373415B2 (en) Dynamic hard error detection
CN115757099A (zh) 平台固件保护恢复功能自动测试方法和装置
CN111459734A (zh) 一种故障监控周期的测试方法、系统及计算机存储介质
US11474922B2 (en) Fault content identification device, fault content identification method, and recording medium in which fault content identification program is stored
CN111190781A (zh) 服务器系统的测试自检方法
CN112035300A (zh) 服务器bmc自动化测试系统、方法、存储介质、电子设备
CN113708986A (zh) 服务器监控装置、方法及计算机可读存储介质
TW201928981A (zh) 記憶體整體測試之系統及其方法
CN115695159B (zh) 一种设备诊断方法、装置、设备和存储介质
US11829229B2 (en) Apparatus and method for diagnosing no fault failure found in electronic systems