JP2018092333A - 故障情報管理プログラム、起動試験方法及び並列処理装置 - Google Patents

故障情報管理プログラム、起動試験方法及び並列処理装置 Download PDF

Info

Publication number
JP2018092333A
JP2018092333A JP2016234475A JP2016234475A JP2018092333A JP 2018092333 A JP2018092333 A JP 2018092333A JP 2016234475 A JP2016234475 A JP 2016234475A JP 2016234475 A JP2016234475 A JP 2016234475A JP 2018092333 A JP2018092333 A JP 2018092333A
Authority
JP
Japan
Prior art keywords
failure
information
failure rate
time
diagnosis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016234475A
Other languages
English (en)
Other versions
JP6794805B2 (ja
Inventor
拓 小森田
Taku Komorida
拓 小森田
篤 ▲高▼見
篤 ▲高▼見
Atsushi Takami
将人 福森
Masato Fukumori
将人 福森
治彦 上埜
Haruhiko Ueno
治彦 上埜
剛 橋本
Takeshi Hashimoto
剛 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2016234475A priority Critical patent/JP6794805B2/ja
Priority to US15/805,186 priority patent/US10613953B2/en
Publication of JP2018092333A publication Critical patent/JP2018092333A/ja
Application granted granted Critical
Publication of JP6794805B2 publication Critical patent/JP6794805B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2247Verification or detection of system hardware configuration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2284Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by power-on test, e.g. power-on self test [POST]

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Stored Programmes (AREA)

Abstract

【課題】起動時の診断時間を短縮する故障情報管理プログラム、起動試験方法及び並列処理装置を提供する。【解決手段】故障情報管理装置2の集計部25が、一定時間毎に演算ユニット4の各ハードウェア部位の故障率を算出し、2次データ記憶部22を更新する。そして、故障率算出部26が、電源制御装置3からの要求に基づいて、2次データ記憶部22を用いて演算ユニット4の起動時の故障率を各ハードウェア部位について算出し、電源制御装置3に応答する。そして、電源制御装置3は、起動指示と共にハードウェア部位毎の起動時の故障率を各演算ユニット4に通知する。【選択図】図4

Description

本発明は、故障情報管理プログラム、起動試験方法及び並列処理装置に関する。
近年、複数の演算ユニットが接続され、接続された演算ユニットが協調して演算を行う並列処理装置が利用されている。並列処理装置では、演算ユニット内の電源を制御するBMC(Baseboard Management Controller)が演算ユニットを起動すると、ハードウェアの初期化及び診断を行うPOST(Power On Self-Test)と呼ばれるプログラムがCPU(Central Processing Unit)上で実行される。その後OS(Operating System)が起動され、演算ユニットが各種演算を行うことが可能となる。
POSTは、演算ユニットに含まれるCPU、主記憶装置といったハードウェアを正常に使用できることを確認するために診断処理を行う。診断処理でハードウェアの故障を検出した場合、POSTは、故障結果をBMCに通知する。
なお、印刷装置内部において重大な障害が発生した場合にその旨を記憶し、障害が発生した後の電源投入時には、印刷装置内部の自己診断を通常の電源投入時より詳細に行うことで、通常時の自己診断に要する時間を短くする技術がある。
また、被試験体の自己診断結果と試験項目の順序を対応付けたデータを記憶し、自己診断結果に応じて試験項目の並べ替えを行うことで、故障個所を検出する可能性の高い試験項目から試験を実行し、故障検出時間を短縮する技術がある。
また、被検査対象機器を検査する検査回路の自己診断の内容を検査NGの内容により設定変更可能とすることで、検査装置の信頼性を保つ技術がある。
特開平10−35061号公報 特開2001−201527号公報 特開2009−139313号公報
POSTによる診断では、故障を確実に検出するためには、診断処理をより詳細に行うことが必要であるが、診断処理をより詳細に行えば行うほど診断に時間がかかり、演算ユニットが演算を開始する時間が遅くなる。従来は、POSTの診断の詳細度は、ハードウェアの構成に応じて静的に決められていたため、常に診断に所定の時間がかかるという問題がある。
本発明は、1つの側面では、診断時間を短縮することを目的とする。
1つの態様では、故障情報管理プログラムは、コンピュータに、診断対象装置から受信した故障情報に基づいて診断対象装置の部位毎に計算した故障率を、時間情報及び部位と対応付けて実績情報として記憶させる。そして、故障情報管理プログラムは、コンピュータに、診断対象装置が起動される際に、実績情報と現在時刻を基に起動時の各部位の故障率を算出して診断対象装置に通知する処理を実行させる。
1つの側面では、本発明は、診断時間を短縮することができる。
図1は、時間と故障率の関係(バスタブ曲線)を示す図である。 図2は、診断箇所を変える方法を説明するための図である。 図3は、診断箇所内で診断の詳細度を変える方法を説明するための図である。 図4は、実施例に係る並列処理装置の構成を示す図である。 図5は、1次データの一例を示す図である。 図6は、2次データの一例を示す図である。 図7は、起動時における故障率の算出方法を説明するための図である。 図8は、診断テーブルの一例を示す図である。 図9Aは、POSTからBMCへの故障情報通知のデータフォーマットの一例を示す図である。 図9Bは、OSからBMCへの故障情報通知のデータフォーマットの一例を示す図である。 図9Cは、BMCから故障情報管理装置への故障情報通知のデータフォーマットの一例を示す図である。 図10は、故障個所コードの一例を示す図である。 図11は、ユーザによる起動指示から故障情報の記録までの処理のフローを示すシーケンス図である。 図12は、運用時に故障が検出された場合の処理のフローを示すシーケンス図である。 図13は、格納部による処理のフローを示すフローチャートである。 図14は、集計部による処理のフローを示すフローチャートである。 図15は、故障率算出部による処理のフローを示すフローチャートである。 図16は、故障情報を通知された時のBMCの処理のフローを示すフローチャートである。 図17は、POSTによる処理のフローを示すフローチャートである。 図18は、実施例に係る故障情報管理プログラムを実行するコンピュータのハードウェア構成を示す図である。
以下に、本願の開示する故障情報管理プログラム、起動試験方法及び並列処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例は開示の技術を限定するものではない。
まず、実施例に係る診断方法について図1〜図3を用いて説明する。図1は、時間と故障率の関係(バスタブ曲線)を示す図である。ここで、故障率とは、単位時間あたりにハードウェアが故障する割合である。図1に示すように、故障率は、時間の経過と共に、バスタブのような曲線で遷移する。
バスタブ曲線は、以下の3つの期間に分けられる。
(1)初期故障期:主に製造上の欠陥による故障で、故障率は時間の経過と共に減少する。
(2)偶発故障期:故障が時間の経過によらずほぼ一定になる。
(3)磨耗故障期:故障率は磨耗により時間の経過と共に増大する。
そこで、実施例に係る診断では、初期故障期及び摩耗故障期のように故障率が高い場合は診断の詳細度を上げ、偶発故障期のように故障率が低い場合には診断の詳細度を下げる。すなわち、実施例に係る診断は、故障率に基づいて診断の詳細度を動的に変える。
診断の詳細度を変える方法には、診断箇所を変える方法と、診断箇所内での診断の詳細度を変える方法がある。図2は、診断箇所を変える方法を説明するための図である。図2において、診断箇所故障比率は、全体の中で各診断箇所が故障する比率を示す。各診断箇所の故障率は、全体の故障率に診断箇所故障比率を掛けた値となる。診断実施条件は、各診断箇所の診断を実施する条件を示す。
全体の故障率を0.10%とすると、診断箇所αの故障率は0.10×40/100=0.04%であり、診断箇所βの故障率は0.10×30/100=0.03%である。また、診断箇所γの故障率は0.10×20/100=0.02%であり、診断箇所δの故障率は0.10×10/100=0.01%である。
したがって、診断箇所αと診断箇所βの診断は、診断実施条件を満たすので、実施される。一方、診断箇所γと診断箇所δの診断は、診断実施条件を満たさないので、実施されない。
図3は、診断箇所内で診断の詳細度を変える方法を説明するための図である。図3は、CPUのコアから主記憶装置へのアクセス診断を行う場合を示す。コアから主記憶装置へのアクセスを確認するためには、本来L1キャッシュへのアクセス、L2キャッシュへのアクセス、主記憶装置へのアクセス診断を順に実施する必要がある。
しかし、故障率が低い場合には、L1キャッシュ、L2キャッシュへのアクセス診断を行わずにいきなり主記憶装置へのアクセス診断を行う。一方、故障率が高い場合には、コアからL1キャッシュへのアクセス診断、コアからL1キャッシュを介したL2キャッシュへのアクセス診断、コアからL1キャッシュ及びL2キャッシュを介した主記憶装置へのアクセス診断を全て行う。このように、主記憶装置へのアクセス診断において、診断の詳細度を変えることで、診断箇所を変えることなく、診断を減らすことができる。
次に、実施例に係る並列処理装置の構成について説明する。図4は、実施例に係る並列処理装置の構成を示す図である。図4に示すように、実施例に係る並列処理装置1は、故障情報管理装置2と、電源制御装置3と、演算ユニット#0〜演算ユニット#999で表される1000個の演算ユニット4を有する。なお、ここでは、並列処理装置1は1000個の演算ユニット4を有するが、並列処理装置1はより多くのあるいはより少ない演算ユニット4を有してよい。また、故障情報管理装置2と電源制御装置3をまとめて1台の装置としてもよい。
故障情報管理装置2は、演算ユニット4で発生した故障に関する情報を管理する。電源制御装置3は、演算ユニット4の電源を制御する。演算ユニット4は、他の演算ユニット4と連携して演算処理を行う。
故障情報管理装置2は、1次データ記憶部21と、2次データ記憶部22と、搭載数記憶部23と、格納部24と、集計部25と、故障率算出部26とを有する。
1次データ記憶部21は、各演算ユニット4で発生した故障のログを1次データとして記憶する。図5は、1次データの一例を示す図である。図5に示すように、1次データは、故障検出時間と故障個所を故障毎に示すデータである。
故障検出時間は、故障が検出された日時である。故障検出時間は、YYYYMMDDHHMMSSで表される。YYYYは西暦年を表す。MMは月を表す。DDは日にちを表す。HHは時間を表す。MMは分を表す。SSは秒を表す。故障個所は、故障が検出されたハードウェア部位である。故障個所は、PCI(Peripheral Component Interconnect)、主記憶装置、CPU等である。故障が発生する毎に1次データにエントリが追加される。
2次データ記憶部22は、一定時間毎の故障個所毎の故障率を2次データとして記憶する。図6は、2次データの一例を示す図である。図6に示すように、2次データは、期間毎に各ハードウェア部位の故障率と算出時刻を示すデータである。期間は、例えば、0時から24時までの24時間である。算出時刻は、故障率が算出された時刻である。算出時刻は、YYYYMMDDHHで表される。
故障率は一定期間毎に算出され、2次データにエントリが追加される。なお、図6では、ハードウェア部位としてCPU42、主記憶装置43、PCIRC(PCI Root Complex)44のみを示すが、2次データ記憶部22は、HDDCtrl45等の他のハードウェア部位についても故障率を記憶する。
搭載数記憶部23は、演算ユニット#0〜演算ユニット#999に搭載されているハードウェア部位の個数を記憶する。すなわち、搭載数記憶部23は、演算ユニット#0〜演算ユニット#999に搭載されているCPU数、主記憶装置数、PCIRC数等を記憶する。
格納部24は、各演算ユニット4から故障情報を受信して1次データ記憶部21に故障検出時間と故障個所を1次データ記憶部21に格納する。
集計部25は、一定時間毎の1次データから2次データの1つのエントリを作成し、2次データ記憶部22に格納する。すなわち、集計部25は、一定時間毎に各故障個所の故障発生数を集計し、各故障個所の故障率を計算して2次データ記憶部22に追加する。
故障率算出部26は、電源制御装置3から故障率の取得要求を受信すると、2次データに基づいて起動時における故障率を算出して電源制御装置3に応答する。故障率算出部26は、故障個所毎に故障率を算出して電源制御装置3に応答する。
図7は、起動時における故障率の算出方法を説明するための図である。故障率算出部26は、2次データの中で現在から直近の3つの故障率を用いて、最小二乗法により時刻と故障率の近似1次直線y=ax+bを求める。
図7では、現在から直近の3つの故障率を時刻の順にx0、x1、x2とし、対応する故障率をy0、y1、y2としている。起動時の故障率を求めるために直近の故障率を3つ使用する理由は、偶発故障期から磨耗故障期に変わって故障率が急増する時にいち早く故障率の上昇に対応するためである。
なお、近似直線を求める際、計算結果が発散するのを防ぐため、故障率算出部26は、x0が基準となるように変数を変換する。すなわち、i=0,1,2について、故障率算出部26は、ui=xi−x0、vi=yiとする。そして、故障率算出部26は、3点の最小二乗法により、近似直線の係数を以下の式(1)により算出する。
Figure 2018092333
故障率算出部26は、算出した近似直線を用いて、起動時の故障率として現在時刻xtの故障率ytをyt=a×(xt−x0)+bにより求める。なお、2次データのエントリ数が3つに満たない場合、故障率算出部26は、起動時の故障率を100%とする。すなわち、稼働直後で十分な故障情報がない場合、演算ユニット4は、詳細度を最大にして診断を行う。
図4に戻って、電源制御装置3は、電源制御部31を有する。電源制御部31は、演算ユニット4のBMC41に起動又は停止を指示する。電源制御部31は、BMC41に起動を指示する際に、故障率をBMC41に送信する。
演算ユニット4は、BMC41と、CPU42と、主記憶装置43と、PCIRC44と、HDD(Hard Disk Drive)Ctlr45と、HDD46と、故障率記憶部47とを有する。
BMC41は、演算ユニット4内の電源を制御する。また、BMC41は、電源制御部31から起動指示と共に故障率を受け取ると、受け取った故障率を故障率記憶部47に格納する。
CPU42は、主記憶装置43からプログラムを読み出して実行する中央処理装置である。CPU42は、CPU故障通知部42aを有する。CPU故障通知部42aは、CPU42で故障を検出するとOS4a又はPOST4bに通知するハードウェアである。なお、演算ユニット4は、複数のCPU42を有してもよい。
CPU42では、OS4a及びPOST4bが実行される。POST4bは、BMC41から起動指示がCPU42に通知されると起動され、演算ユニット4のハードウェアの初期化と診断を実施する。POST4bは、診断テーブル4cを有する。診断テーブル4cは、ハードウェア部位毎に診断詳細度を定義したテーブルである。
図8は、診断テーブル4cの一例を示す図である。図8に示すように、診断テーブル4cは、ハードウェア部位毎に診断内容と診断実施条件を対応付けるテーブルである。診断内容は、診断の詳細度に応じた診断の内容である。各診断内容は、診断箇所、診断箇所毎の詳細度が異なる。診断実施条件は、対応する診断内容を実施する条件である。例えば、POST4bは、CPU42については、故障率が0.005%以上の場合、診断C#1の内容の診断を行う。
POST4bは、故障を検出すると、BMC41に故障情報を通知する。図9Aは、POST4bからBMC41への故障情報通知のデータフォーマットの一例を示す図である。図9Aにおいて、0〜31はビット位置を示す。図9Aに示すように、POST4bからBMC41への故障情報通知は12バイトのデータである。最初の8バイトは、故障検出時刻を示しており、1970年1月1日0時からの経過時間で表す。次の4バイトのうちビット位置0〜7の1バイトは、故障個所コードを示す。故障個所コードは、故障個所を示すコードである。
図10は、故障個所コードの一例を示す図である。図10に示すように、例えば、CPU42のコードの値は0x01である。ここで、「0x」は、16進数であることを表す。
BMC41は、POST4b又はOS4aから故障を通知されると、故障情報を故障情報管理装置2に通知する。なお、OS4aは、演算ユニット4の運用時に検出された故障をBMC41に通知する。図9Bは、OS4aからBMC41への故障情報通知のデータフォーマットの一例を示す図である。
図9Bに示すように、OS4aからBMC41への故障情報通知は12バイトのデータである。最初の8バイトは、故障検出時刻を示しており、1970年1月1日0時からの経過時間で表す。次の4バイトのうちビット位置0〜7の1バイトは、故障個所コードを示す。
図9Cは、BMC41から故障情報管理装置2への故障情報通知のデータフォーマットの一例を示す図である。図9Cに示すように、BMC41から故障情報管理装置2への故障情報通知は12バイトのデータである。最初の8バイトは、故障検出時刻を示しており、1970年1月1日0時からの経過時間で表す。次の4バイトのうちビット位置0〜7の1バイトは、故障個所コードを示す。
図4に戻って、主記憶装置43は、プログラムやプログラムの実行途中結果などを記憶するメモリである。PCIRC44は、PCI接続のルートとなるデバイスであり、CPU42に接続する。HDDCtlr45は、HDD46を制御するコントローラである。HDD46は、プログラムやデータを格納するディスク装置である。
故障率記憶部47は、BMC41が電源制御装置3から受け取った故障率を記憶する。故障率記憶部47は、演算装置4のハードウェア部位毎に故障率を記憶する。
次に、ユーザによる起動指示から故障情報の記録までの処理のフローについて説明する。図11は、ユーザによる起動指示から故障情報の記録までの処理のフローを示すシーケンス図である。
図11に示すように、電源制御装置3は、ユーザから起動指示を受け取る(1)と、故障情報管理装置2に故障率を要求する(2)。すると、故障情報管理装置2は、ハードウェア部位毎に起動時の故障率を算出し(3)、算出した故障率を電源制御装置3へ応答する(4)。そして、電源制御装置3は、全演算ユニット4のBMC41に故障率の通知及び起動指示を行う(5)。なお、図11は、全演算ユニット4を代表して演算ユニット#sだけを示す。ここで、sは0から999のいずれかの整数である。
BMC41は、故障率記憶部47への故障率の格納とCPU42への起動指示を行う(6)。CPU42は、故障率記憶部47の故障率と診断テーブル4cとを用いて実施する診断内容を特定し、診断を実施する(7)。診断実施条件を満たす診断内容がない場合には、CPU42は診断を実施しない。
そして、故障を検出すると、CPU42は、BMC41に故障情報を通知する(8)。図11において、optで示される四角は、故障が検出された場合を示す。故障情報を通知されたBMC41は、故障情報管理装置2に故障情報を通知する(9)。そして、故障情報管理装置2が、1次データの情報を更新する(10)。
このように、故障情報管理装置2が、ハードウェア部位毎に故障率を算出し、電源制御装置3が、演算ユニット#sに故障率を起動指示と共に通知することで、並列処理装置1は、診断の詳細度を動的に変更することができる。
次に、運用時に故障が検出された場合の処理のフローについて説明する。図12は、運用時に故障が検出された場合の処理のフローを示すシーケンス図である。図12に示すように、OS4a又はCPU故障通知部42aは、故障を検出すると、故障情報をBMC41に通知する(1)。すると、BMC41は、故障情報管理装置2に故障情報を通知する(2)。そして、故障情報管理装置2が、1次データの情報を更新する(3)。
このように、OS4a又はCPU故障通知部42aが故障を検出するとBMC41が故障情報を故障情報管理装置2に通知することで、故障情報管理装置2は、運用時の故障情報を収集することができる。
次に、格納部24による処理のフローについて説明する。図13は、格納部24による処理のフローを示すフローチャートである。図13に示すように、格納部24は、BMC41から故障情報を受け取ると、故障情報で1次データ記憶部21を更新する(ステップS1)。
このように、格納部24がBMC41から送信された故障情報を用いて1次データ記憶部21を更新することで、故障情報管理装置2は、故障情報を1次データとして蓄積することができる。
次に、集計部25による処理のフローについて説明する。図14は、集計部25による処理のフローを示すフローチャートである。集計部25は、一定時間毎に図14に示す処理をハードウェア部位毎に実行する。
図14に示すように、集計部25は、1次データに基づいて一定時間内に検出された故障の件数を集計する(ステップS11)。そして、集計部25は、並列処理装置1に搭載されたハードウェア個数で故障検出件数を割ることによって故障率を算出する(ステップS12)。ここで、ハードウェア個数は、搭載数記憶部23に記憶される。そして、集計部25は、算出した故障率で2次データ記憶部22を更新する(ステップS13)。
このように、集計部25が一定時間内に検出された故障の件数に基づいて一定時間毎の故障率を算出することによって、故障情報管理装置2は、起動時の故障率を精度よく算出することができる。
次に、故障率算出部26による処理のフローについて説明する。図15は、故障率算出部26による処理のフローを示すフローチャートである。図15に示すように、故障率算出部26は、2次データのエントリ数は3以上であるか否かを判定する(ステップS21)。
そして、2次データのエントリ数が3以上である場合には、故障率算出部26は、2次データの中で直近の3つの故障率から近似直線を求め、求めた近似直線を用いて起動時の故障率を算出する(ステップS22)。一方、2次データのエントリ数が3以上でない場合には、故障率算出部26は、起動時の故障率を100%とする(ステップS23)。そして、故障率算出部26は、起動時の故障率を電源制御装置3に通知する(ステップS24)。
このように、故障率算出部26は、直近の3つの故障率を用いて起動時の故障率を算出することで、起動時の故障率を精度よく算出することができる。
次に、故障情報を通知された時のBMC41の処理のフローについて説明する。図16は、故障情報を通知された時のBMC41の処理のフローを示すフローチャートである。図16に示すように、BMC41は、故障情報管理装置2に故障情報を通知する(ステップS31)。
このように、BMC41が、故障情報管理装置2に故障情報を通知することで、故障情報管理装置2は、故障情報を1次データとして蓄積することができる。
次に、POST4bによる処理のフローについて説明する。図17は、POST4bによる処理のフローを示すフローチャートである。なお、POST4bは、各ハードウェア部位について図17に示す処理を実行する。
図17に示すように、POST4bは、故障率記憶部47から診断対象のハードウェア部位の故障率xを取得する(ステップS41)。そして、POST4bは、診断対象のハードウェア部位に関して診断テーブル4cの各診断内容について、ステップS42〜ステップS46の処理を実行する。
すなわち、POST4bは、診断テーブル4cから診断実施条件の閾値αを取得する(ステップS42)。そして、POST4bは、故障率xが閾値α以上であるか否かを判定し(ステップS43)、故障率xが閾値α以上でない場合には、次の診断内容について処理を行う。
一方、故障率xが閾値α以上である場合には、POST4bは、診断内容の診断を実施し(ステップS44)、故障を検出したか否かを判定する(ステップS45)。そして、故障を検出した場合には、BMC41に故障情報を通知する(ステップS46)。
このように、POST4bは、起動時の故障率と診断テーブル4cに基づいて各診断内容の診断を実施するか否かを判定することによって、診断の詳細度を動的に変更し、診断時間を短縮することができる。
上述してきたように、実施例では、故障情報管理装置2の集計部25が、一定時間毎に各ハードウェア部位の故障率を算出し、2次データ記憶部22を更新する。そして、故障率算出部26が、電源制御装置3からの要求に基づいて、2次データ記憶部22を用いて演算ユニット4の起動時の故障率を各ハードウェア部位について算出し、電源制御装置3に応答する。そして、電源制御装置3は、起動指示と共にハードウェア部位毎の起動時の故障率を各演算ユニット4に通知する。したがって、各演算ユニット4は、起動時の故障率に基づいて診断内容を動的に変えることで、起動時の診断時間を短縮することができる。
また、実施例では、故障率算出部26は、直近の3つの故障率に基づいて起動時の故障率を算出するので、起動時の故障率を正確に算出することができる。
また、実施例では、集計部25が、1次データを用いて24時間等の一定期間毎に各ハードウェア部位の故障率を算出して2次データ記憶部22を更新するので、故障率算出部26は、直近の故障率を用いて起動時の故障率を算出することができる。
また、実施例では、格納部24が、各演算ユニット4が実施した診断により検出された故障の情報を受信して1次データ記憶部21を更新するので、起動時の診断結果を故障率の算出に反映することができる。
なお、実施例では、故障情報管理装置2について説明したが、故障情報管理装置2が有する構成をソフトウェアによって実現することで、同様の機能を有する故障情報管理プログラムを得ることができる。そこで、故障情報管理プログラムを実行するコンピュータについて説明する。
図18は、実施例に係る故障情報管理プログラムを実行するコンピュータのハードウェア構成を示す図である。図18に示すように、コンピュータ50は、メインメモリ51と、CPU52と、LAN(Local Area Network)インタフェース53と、HDD54とを有する。また、コンピュータ50は、スーパーIO(Input Output)55と、DVI(Digital Visual Interface)56と、ODD(Optical Disk Drive)57とを有する。
メインメモリ51は、プログラムやプログラムの実行途中結果などを記憶するメモリである。CPU52は、メインメモリ51からプログラムを読み出して実行する中央処理装置である。CPU52は、メモリコントローラを有するチップセットを含む。
LANインタフェース53は、コンピュータ50をLAN経由で他のコンピュータに接続するためのインタフェースである。HDD54は、プログラムやデータを格納するディスク装置であり、スーパーIO55は、マウスやキーボードなどの入力装置を接続するためのインタフェースである。DVI56は、液晶表示装置を接続するインタフェースであり、ODD57は、DVDの読み書きを行う装置である。
LANインタフェース53は、PCIエクスプレス(PCIe)によりCPU52に接続され、HDD54及びODD57は、SATA(Serial Advanced Technology Attachment)によりCPU52に接続される。スーパーIO55は、LPC(Low Pin Count)によりCPU52に接続される。
そして、コンピュータ50において実行される故障情報管理プログラムは、DVDに記憶され、ODD57によってDVDから読み出されてコンピュータ50にインストールされる。あるいは、故障情報管理プログラムは、LANインタフェース53を介して接続された他のコンピュータシステムのデータベースなどに記憶され、これらのデータベースから読み出されてコンピュータ50にインストールされる。そして、インストールされた故障情報管理プログラムは、HDD54に記憶され、メインメモリ51に読み出されてCPU52によって実行される。
また、実施例では、並列処理装置1について説明したが、本発明はこれに限定されるものではなく、起動時に故障診断が行われる他の装置にも同様に適用することができる。
1 並列処理装置
2 故障情報管理装置
3 電源制御装置
4 演算ユニット
4a OS
4b POST
4c 診断テーブル
21 1次データ記憶部
22 2次データ記憶部
23 搭載数記憶部
24 格納部
25 集計部
26 故障率算出部
31 電源制御部
41 BMC
42 CPU
42a CPU故障通知部
43 主記憶装置
44 PCIRC
45 HDDCtlr
46 HDD
47 故障率記憶部
50 コンピュータ
51 メインメモリ
52 CPU
53 LANインタフェース
54 HDD
55 スーパーIO
56 DVI
57 ODD

Claims (6)

  1. コンピュータに、
    診断対象装置から受信した故障情報に基づいて前記診断対象装置の部位毎に計算した故障率を、時間情報及び部位と対応付けて実績情報として記憶し、
    前記診断対象装置が起動される際に、前記実績情報と現在時刻を基に起動時の各部位の故障率を算出して前記診断対象装置に通知
    する処理を実行させることを特徴とする故障情報管理プログラム。
  2. 前記起動時の故障率を算出する処理は、前記実績情報のうち直近の3つの故障率を基に算出することを特徴とする請求項1に記載の故障情報管理プログラム。
  3. 前記コンピュータに、
    前記故障情報に含まれる故障発生時刻と故障発生部位に基づいて24時間あたりの故障率を部位毎に算出して前記実績情報として格納する処理
    をさらに実行させることを特徴とする請求項1又は2に記載の故障情報管理プログラム。
  4. 前記コンピュータに、
    前記起動時の故障率を通知された前記診断対象装置が該故障率に応じて行った起動時試験により検出した故障の情報を受信して記憶部に格納する処理
    をさらに実行させ、
    前記実績情報を算出する処理は、前記記憶部に格納された情報を前記故障情報として用いて前記実績情報を算出することを特徴とする請求項3に記載の故障情報管理プログラム。
  5. 診断対象装置と該診断対象装置の故障情報を管理する故障情報管理装置とを有するシステムによる起動試験方法において、
    前記故障情報管理装置が、
    診断対象装置から受信した故障情報に基づいて前記診断対象装置の部位毎に計算した故障率を、時間情報及び部位と対応付けて実績情報として記憶し、
    前記診断対象装置が起動される際に、前記実績情報と現在時刻を基に起動時の各部位の故障率を算出して前記診断対象装置に通知し、
    前記診断対象装置が、
    通知された故障率に応じた起動時試験を行う
    ことを特徴とする起動試験方法。
  6. 並列に演算を実行する複数の演算装置と該複数の演算装置の故障情報を管理する故障情報管理装置を有する並列処理装置において、
    前記故障情報管理装置は、
    演算装置から受信した故障情報に基づいて前記演算装置の部位毎に計算した故障率を、時間情報及び部位と対応付けて実績情報として記憶する記憶部と、
    前記演算装置が起動される際に、前記実績情報と現在時刻を基に起動時の各部位の故障率を算出して前記演算装置に通知する算出部とを有し、
    前記演算装置は、
    通知された故障率に応じた起動時試験を行う試験部
    を有することを特徴とする並列処理装置。
JP2016234475A 2016-12-01 2016-12-01 故障情報管理プログラム、起動試験方法及び並列処理装置 Active JP6794805B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016234475A JP6794805B2 (ja) 2016-12-01 2016-12-01 故障情報管理プログラム、起動試験方法及び並列処理装置
US15/805,186 US10613953B2 (en) 2016-12-01 2017-11-07 Start test method, system, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016234475A JP6794805B2 (ja) 2016-12-01 2016-12-01 故障情報管理プログラム、起動試験方法及び並列処理装置

Publications (2)

Publication Number Publication Date
JP2018092333A true JP2018092333A (ja) 2018-06-14
JP6794805B2 JP6794805B2 (ja) 2020-12-02

Family

ID=62243969

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016234475A Active JP6794805B2 (ja) 2016-12-01 2016-12-01 故障情報管理プログラム、起動試験方法及び並列処理装置

Country Status (2)

Country Link
US (1) US10613953B2 (ja)
JP (1) JP6794805B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020042623A (ja) * 2018-09-12 2020-03-19 株式会社日立製作所 並列分散処理制御システム、プログラム、及び並列分散処理制御方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109062722A (zh) * 2018-07-24 2018-12-21 郑州云海信息技术有限公司 一种存储器错误检测方法及装置
US11126485B2 (en) * 2019-04-19 2021-09-21 Red Hat, Inc. Risk assessment for run-time patches
US11800038B1 (en) * 2022-08-30 2023-10-24 Toshiba Tec Kabushiki Kaisha Determination of an occurance of an abnormality in an image forming device and control method thereof

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012026040A1 (ja) * 2010-08-27 2012-03-01 富士通株式会社 診断モジュール配信装置、診断モジュール配信方法、および診断モジュール配信プログラム
JP2013161211A (ja) * 2012-02-03 2013-08-19 Nec Computertechno Ltd 情報処理装置、故障診断制御装置、故障判定方法、故障判定プログラム
JP2013171348A (ja) * 2012-02-17 2013-09-02 Toshiba Corp 制御装置、及びその自己診断方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1035061A (ja) 1996-07-24 1998-02-10 Canon Inc 印刷装置
US6014744A (en) * 1998-01-13 2000-01-11 Microsoft Corporation State governing the performance of optional booting operations
US6216226B1 (en) * 1998-10-02 2001-04-10 International Business Machines Corporation Method and system for dynamically selecting a boot process within a data processing system
JP2001201527A (ja) 2000-01-21 2001-07-27 Mitsubishi Electric Corp 試験装置
US6640316B1 (en) * 2000-05-23 2003-10-28 Dell Products L.P. Boot recovery of simple boot BIOS
US7266727B2 (en) * 2004-03-18 2007-09-04 International Business Machines Corporation Computer boot operation utilizing targeted boot diagnostics
US7555677B1 (en) * 2005-04-22 2009-06-30 Sun Microsystems, Inc. System and method for diagnostic test innovation
JP2009139313A (ja) 2007-12-10 2009-06-25 Ricoh Co Ltd 自己診断機能を有する検査装置およびそのためのプログラムならびに記録媒体
JP5272804B2 (ja) * 2009-03-02 2013-08-28 富士ゼロックス株式会社 情報処理装置及びプログラム
US9317350B2 (en) * 2013-09-09 2016-04-19 International Business Machines Corporation Method and apparatus for faulty memory utilization
US9734015B2 (en) * 2015-06-23 2017-08-15 Dell Products, L.P. Pre-boot self-healing and adaptive fault isolation
US10324830B2 (en) * 2017-11-03 2019-06-18 Terrance HOLBROOK Conditional upgrade and installation of software based on risk-based validation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012026040A1 (ja) * 2010-08-27 2012-03-01 富士通株式会社 診断モジュール配信装置、診断モジュール配信方法、および診断モジュール配信プログラム
JP2013161211A (ja) * 2012-02-03 2013-08-19 Nec Computertechno Ltd 情報処理装置、故障診断制御装置、故障判定方法、故障判定プログラム
JP2013171348A (ja) * 2012-02-17 2013-09-02 Toshiba Corp 制御装置、及びその自己診断方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020042623A (ja) * 2018-09-12 2020-03-19 株式会社日立製作所 並列分散処理制御システム、プログラム、及び並列分散処理制御方法
JP7063781B2 (ja) 2018-09-12 2022-05-09 株式会社日立製作所 並列分散処理制御システム、プログラム、及び並列分散処理制御方法

Also Published As

Publication number Publication date
US10613953B2 (en) 2020-04-07
JP6794805B2 (ja) 2020-12-02
US20180157566A1 (en) 2018-06-07

Similar Documents

Publication Publication Date Title
US10761926B2 (en) Server hardware fault analysis and recovery
US10223224B1 (en) Method and system for automatic disk failure isolation, diagnosis, and remediation
TWI546659B (zh) 基於資源存取模式預測、診斷應用程式故障並從應用程式故障恢復
TWI317868B (en) System and method to detect errors and predict potential failures
JP6794805B2 (ja) 故障情報管理プログラム、起動試験方法及び並列処理装置
US20100313072A1 (en) Failure Analysis Based on Time-Varying Failure Rates
TWI310899B (en) Method, system, and product for utilizing a power subsystem to diagnose and recover from errors
US8122176B2 (en) System and method for logging system management interrupts
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
JP2010086364A (ja) 情報処理装置、動作状態監視装置および方法
US10528443B2 (en) Validation of multiprocessor hardware component
US8189283B2 (en) Disk drive with state-information data buffer
US8984333B2 (en) Automatic computer storage medium diagnostics
US11048565B2 (en) Control system and control apparatus
US8214693B2 (en) Damaged software system detection
JP5529686B2 (ja) コンピュータ装置の異常検査方法及びそれを用いたコンピュータ装置
CN104102563A (zh) 一种发现服务器系统的mca错误的方法及装置
JP2013045154A (ja) 情報処理装置、情報処理システム、情報処理装置の異常兆候検出方法、及び異常兆候検出プログラム
US20150100817A1 (en) Anticipatory Protection Of Critical Jobs In A Computing System
US20140281738A1 (en) Method and system for key performance indicators elicitation with incremental data decycling for database management system
US10776240B2 (en) Non-intrusive performance monitor and service engine
JP2013206046A (ja) 情報処理装置、起動時診断方法、及びプログラム
TWI840907B (zh) 偵測偏差的電腦系統及方法,及非暫態電腦可讀取媒體
JP2020201524A (ja) 決定方法、決定プログラム及び情報処理装置
US11669262B2 (en) Method, device, and product for managing scrubbing operation in storage system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190807

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200728

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201013

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201026

R150 Certificate of patent or registration of utility model

Ref document number: 6794805

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150