JP2013120426A - ソフトエラー耐性調整機能を備えた電子システム装置及びソフトエラー耐性調整方法 - Google Patents

ソフトエラー耐性調整機能を備えた電子システム装置及びソフトエラー耐性調整方法 Download PDF

Info

Publication number
JP2013120426A
JP2013120426A JP2011266833A JP2011266833A JP2013120426A JP 2013120426 A JP2013120426 A JP 2013120426A JP 2011266833 A JP2011266833 A JP 2011266833A JP 2011266833 A JP2011266833 A JP 2011266833A JP 2013120426 A JP2013120426 A JP 2013120426A
Authority
JP
Japan
Prior art keywords
soft error
error rate
soft
cache
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011266833A
Other languages
English (en)
Other versions
JP5722754B2 (ja
Inventor
Tadanobu Toba
忠信 鳥羽
Kenichi Shinpo
健一 新保
Jun Kadowaki
潤 門脇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2011266833A priority Critical patent/JP5722754B2/ja
Publication of JP2013120426A publication Critical patent/JP2013120426A/ja
Application granted granted Critical
Publication of JP5722754B2 publication Critical patent/JP5722754B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

【課題】電子システム装置において、環境放射線等のソフトエラー要因によるソフトエラー発生を監視し、設置環境や環境変化に自律的に追従、調整し、ソフトエラー耐性を向上する。
【解決手段】プロセッサコア2が管理するキャッシュメモリ3と主記憶メモリ5のソフトエラーを検出する手段11と、該ソフトエラーの発生を監視する手段11と、該ソフトエラー発生時刻までの総稼動時間とソフトエラーの発生数を記録する手段13と、ソフトエラー率を計算する手段11と、ソフトエラー率のしきい値とキャッシュメモリの制御方法を切替える情報を対応させて格納する手段14と、計算された前記ソフトエラー率と前回のソフトエラー率が、該前記格納手段に格納されたいずれかのしきい値を跨いで変化する場合に、該しきい値に対応したキャッシュメモリの制御方法を切替える情報に基づいて、キャッシュモード切替え指示を出力する手段12とを設ける。
【選択図】図1

Description

本発明は、ソフトエラー耐性調整機能を備えた電子システム装置及びソフトエラー耐性調整方法に関するものである。
半導体デバイスの微細化につれ、環境放射線(地上における宇宙線中性子,α線)等に起因するソフトエラーの問題が特にSRAMや論理ゲート(非特許文献1−3参照)、クロック系(非特許文献4,5参照)などについて顕在化している。極めて高いエネルギーを有する中性子がデバイスを構成する原子核内に突入すると核内の核子(中性子、陽子)が衝突を繰り返し、特に高いエネルギーを持った核子は核外に放出される。核子が核外に飛び出すだけの運動エネルギーを持ち得ない状態になると、励起状態にある残留原子核から陽子、中性子、重陽子、アルファ粒子などの軽粒子が蒸発する過程が続き、最終的に残留核も反跳エネルギーを持つためこれらの2次粒子は全てその飛程に見合った距離をデバイスの中を飛ぶことになる。
半導体パッケージなどに含まれる放射性同位元素から発生するα線や,核反応の結果発生する電荷を持った2次イオンがSRAMの“high”状態にあるストレージノードの空乏層を通過すると電子はノードに吸収され正孔は反対方向に流れイオンの飛跡に沿って電荷収集領域が広がるファネリングメカニズムによってストレージノードに電荷が収集される。臨界電荷量以上の電荷が収集されると“high”状態が“low”状態に推移し、ソフトエラー(Single Event Upset;SEU)になる。これが、環境放射線ソフトエラーのメカニズムとして考えられてきた典型的なメカニズムでありSEU(Single Event Upset)とも称する。メモリデバイスのSEUについて複数のセルが同時にエラーになるケースをMCU(Multi Cell Upset)と呼んでSBU(Single Bit Upset:単一ビットエラー)とは区別する。MCUは同一ワードに発生した場合MBU(Multiple Bit Upset)と呼んで通常のECC(Error Correction Code)では修復できないためシステムダウンの原因となる。
SEUを含むソフトエラーは、ハードエラー(ハードウェアの固定故障)と異なり、エラー発生後も、新たなデータに更新され、再起動などによって正常に復帰してしまうためにエラーの要因特定が困難な場合が多い。このように論理回路に発生するソフトエラーの影響とは、コンピュータのプロセッサやASIC、制御用デジタル回路等の誤作動を引き起こす可能性を有し、電子システムとしての誤作動の要因となることが懸念される。
特にプロセッサを搭載する電子システム装置では、キャッシュメモリや、主記憶となるメモリ等のデータ反転に対し、システムとして誤作動を起こさない仕組み作りが必要とされている。サーバや通信装置では、システム全体を2重系にする等の冗長化により、ソフトエラーが発生しても動作し続けるよう設計されているが、製品コストや消費電力の観点で改善が求められる。
メモリアーキテクチャを変更することで2次的な効果を得る取組みとして、キャッシュメモリの使用容量を限定することで消費電力を削減する手法がある。特許文献1では、キャッシュモニタユニットを設けることで、キャッシュメモリの使用率を常に監視し、キャッシュメモリの使用率があらかじめ決めたしきい値より大きければ、キャッシュメモリの一部を無効にし(使用しない)、キャッシュアクセス頻度を削減することで、消費電力を削減するものである。また、特許文献2では、キャッシュメモリのライン毎にアクセス頻度を監視し、アクセス頻度があるしきい値を超えていた場合は、優先的にキャッシュにロードしておくことで、プロセッサからのアクセスレイテンシを小さくし、処理性能を向上、しきい値を超えていなければ、ノン・キャッシュモードにすることで、メモリ使用効率を向上するものである。
特許第4456154号 特許第2735781号
P. Shivakumar (University of Texas at Austin), M. Kistler, W Keckler.S, DougBurger, Lorenzo.A., "Modeling the Effect of Technology Trends on the Soft Error Rate of Combinational Logic," Int'l Conf. on Dependable Systems and Networks, pp. 389-398 (2002). Mavis, D.G., and Eaton, PaulH., "(Invited) SEU and SET modeling & mitigation in deep submicron technologies," IRPS, Phoenix, Arizona, April 15-19, 2007, No.4B.1 (2007). Seifert, N., Zhu, X., Massengill, L.W., "Impact of Scaling on Soft-Error Rates in Commercial Microprocessors," TNS, Honolulu, Hawaii, July 23-27, Vol.49, No.6, pp. 3100-3106 (2002). Seifert, N. , Shipley, P., Pant, M.D., Ambrose, V., and Gill, B., "Radiation-Induced Clock Jitter and Race," 2005 IEEE International Reliability Physics Symposium Proceedings, April 17-21, San Jose, April 17-21, 2005, Vol.43rd Annual, pp. 215-222 (2005). N. Seifert, V. Zia, "Assessing the impact of scaling on the efficacy of spatial redundancy based mitigation schemes for terrestrial applications,," IEEE Workshop on Silicon Errors in Logic - System Effects 3, Austin Texas, April 3, 4 (2007).
半導体デバイスの微細化・高集積化に伴い、環境放射線(α線、中性子線等)によるソフトエラーの影響が拡大するとともに、プロセッサ内キャッシュ容量の増大により、プロセッサを使用する電子システム装置のソフトエラーが問題となりつつある。しかし、ソフトエラーの主要因である中性子線を遮蔽することは難しく、その対策は困難である。通常、通信機器等に搭載されているプロセッサが環境放射線により、キャッシュデータが書き換えられた場合、そのエラーを検出し、ハードウエアもしくはOSレベルでシステム停止処理を行う。通信装置等、装置停止が及ぼす影響が大きなシステムでは、システムの動作を停止せずに復旧することが重要である。また、プラント制御機器、遠隔地に設置される機器などにおいても、長期間使い続けるための信頼性が重要である。
従来より実施されている誤り検出・訂正技術は、主記憶、二次記憶の領域のデータが主な対象であり、キャッシュメモリは高速で動作させることが主目的であるため、誤り訂正技術を実施することは難しい。
中性子線量は、機器の設置場所、時期によって高低に変動があることが知られており、太陽黒点の活動などの自然現象に左右されることから、例えば、中性子線量が高い場所に設置した装置等、ソフトエラー率が高い場合でも、中性子線量の高低に応じてキャッシュメモリなどのメモリ制御方法を切替えて、出来るだけ装置動作を継続することが求められる。
本発明の目的は、電子システム装置の設置環境、設置場所の影響でソフトエラー率が上昇する場合でも、システムの安定的な稼動を実現し、高信頼化を図ることである。
上記課題を解決するために本発明では、プロセッサを備えた電子システム装置において、プロセッサが管理するキャッシュメモリと主記憶メモリのソフトエラーを検出する手段と、該ソフトエラーの発生を監視する手段と、該ソフトエラー発生時刻までの総稼動時間とソフトエラーの発生数を記録する手段と、該記録したソフトエラー発生数と総稼動時間からソフトエラー率を計算する手段と、ソフトエラー率のしきい値とキャッシュメモリの制御方法を切替える情報を対応させて格納する手段と、計算された前記ソフトエラー率と前回のソフトエラー率が、前記格納手段に格納されたいずれかのしきい値を跨いで変化する場合に、該しきい値に対応したキャッシュメモリの制御方法を切替える情報に基づいて、キャッシュモード切替え指示を出力する手段とを設けて、ソフトエラー耐性調整機能を備えた。
本発明によれば、電子システム装置の設置環境、設置場所の影響でソフトエラー率が上昇する場合でも、システムの安定的な稼動を実現し、高信頼化を図ることができる。
本発明の実施の形態に係るプロセッサノードの構成図である。 本発明の実施の形態に係るソフトエラー監視の動作シーケンスを示した図を示す。 本発明の実施の形態に係る動作モードを設定するシーケンス例を示した図である。 本発明によるソフトエラー監視部およびエラー記録部の構成図である。 本発明によるキャッシュアクセス方法とソフトエラー監視結果によるプロセッサコアへのレジスタ設定テーブルの構成例である。 一般的なコンピュータシステムのキャッシュアクセス方式を示した図である。 本発明によるプロセッサコアの設定状態および設定画面例を示した図である。 階層化されたメモリ構成におけるデータアクセスの流れと、各メモリ階層でのデータ滞在時間の関係を示した図である。 本発明のソフトエラー耐性調整機能を一般的なコンピュータに実装した構成図である。
本発明に係る電子システムのソフトエラー耐性調整回路、および装置の実施例を、図面を用いて説明する。
図1は、本発明のソフトエラー耐性調整回路を設けた電子システム装置の構成を示す。図1は、電子システム装置の各種機能の制御や各種計算を行うプロセッサコア2と、プロセッサコア2で実行するプログラムおよびデータを一時的に格納するL1キャッシュ3と、上記プログラムとデータを階層化して一時的に格納するL2キャッシュ4と、上記プログラムとデータをさらに階層化して格納するための主記憶メモリ5と、上記プログラムとデータを定常的に格納するハードディスク7と、このハードディスク7のリードライト制御を行うハードディスクコントローラ6と、プロセッサコア2やL1キャッシュ3、L2キャッシュ4、ハードディスクコントローラ6との間の上記プログラムとデータの転送を行うバス8とを備えたプロセッサノード1において、プロセッサコア2からソフトエラー情報を取得し、ソフトエラー率を計算するソフトエラー監視部11と、上記ソフトエラー監視部11で取得、計算した結果を格納するエラー記録部13と、上記ソフトエラー監視部11での情報をもとにプロセッサコア2によって制御されるキャッシュアクセス方法を選択する設定切替部12と、上記キャッシュアクセス方法とソフトエラー監視部11から得られる情報との対応関係を格納する設定テーブル14とをさらに備えた構成を示す。
また、プロセッサノード1は、プロセッサノード1の外部とのデータ通信を行うための外部I/Fコントローラ9と、他のプロセッサノードとネットワーク接続するためのネットワークインターフェイス10とを持つ。なお、本発明では、L1キャッシュ3、L2キャッシュ4、主記憶メモリ5、ハードディスク7のプログラムおよびデータを格納する記憶階層構成を限定するものではなく、キャッシュの階層が増減しても構わない。また、図1の実施例では、L1キャッシュ3とL2キャッシュ4とハードディスクコントローラ6とが、バス8で接続されているが、バス接続に限定するものではない。プロセッサコアと、プログラム、データを記憶するメモリが存在する所謂一般的なコンピュータの構成でも良い。また、ソフトエラー監視部11によるソフトエラー情報を取得する部位は、上述したプロセッサコア2だけでなく、L1キャッシュ3や、図1には記載していないが、L2キャッシュ4、主記憶メモリ5から取得しても構わない。
設定切替部12で設定するキャッシュアクセス方法の切替えの実施例としては、ライトスルー(write through)方式と ライトバック(write back)方式の選択がある。図6にメモリ階層とキャッシュアクセス方法の特性と動作を示す。ライトスルー方式とは、プロセッサが記憶装置にデータを書き込むと同時に、キャッシュにも同様の内容を書き込む方式である。この方法は、キャッシュと主記憶メモリとの間でのデータが常に一致する。ただし、主記憶メモリよりもキャッシュのアクセス速度が高速であるという特性を活かすことができないため、プロセッサコアの待ち時間が大きくなり、処理速度が遅くなる可能性がある。
ライトバック方式とは、プロセッサが主記憶メモリにデータを書き込む際、いったんキャッシュにデータを書き込み、プロセッサでの処理の空き時間にキャッシュから主記憶メモリに書き込む方式である。キャッシュと主記憶メモリに同時にデータの書き込みを行うライトスルー方式に比べて、キャッシュが主記憶メモリよりもアクセス速度が高速であるという特性を活かすことで、処理速度を高速化可能となる。ただし、キャッシュと主記憶メモリとの間でデータが必ずしも整合するとは限らない。そのため、最新データがキャッシュにしか存在しない時間が存在し、その期間にキャッシュの情報が環境放射線等のソフトエラー要因により反転するとシステムの動作が停止することになる。通常、キャッシュは、動作周波数を高速にする必要があるため、データの誤り訂正機構を入れ込むことが困難である。なお、このキャッシュアクセス方式によるキャッシュ内滞在時間の流れについては、図8を用いて後述する。
以上の構成により、性能を重視してライトバック方式で動作させていた電子システム装置に対し、図1に示すソフトエラー監視部11でのエラー率悪化の検出により、自動的にライトスルー方式に変更することで、人手による設定変更手続きを必要とせず、ソフトエラー率を低減した設定での動作に切り替えることができる。
同様にして、ソフトエラー監視部11におけるソフトエラー率の検出の結果、所定の期間の間、ソフトエラー率が所定の水準まで良好な状態であったため、ライトスルー方式で運用していたキャッシュアクセス方式をライトバック方式に切り替えることが可能である。
上述した方法は、メモリ階層のアクセス制御方法であるが、キャッシュのデータ格納管理の制御方法を切り替える方法もある。例えば、ダイレクトマップ方式では、アドレスにより一意に配置が決まるため、同一ライン(キャッシュ内の格納単位)にアドレス差が大きい異なるデータが転送されると必ずラインの入れ替えが発生する。つまりラインの入れ替えが頻発しスループットが落ちるキャッシュスラッシングが発生するが、キャッシュ内のデータ更新回数が多く、キャッシュ滞在時間が短いことになる。また、セットアソシアティブ方式は、キャッシュを複数のブロックに分割することで、下位アドレスが同じ複数のメモリ領域に対してキャッシュがヒットするようにする技術で、セット数が多いほど効率が上がるが、データの更新頻度(主記憶メモリへの転送)が少なくなり、キャッシュ内の滞在時間が長くなる可能性がある。上記方式により、性能を重視してセットアソシアティブ方式で動作させていた電子システム装置に対し、ソフトエラー監視部11でのエラー率悪化の検出により、自動的にデータのキャッシュ滞在時間の短いダイレクトマップ方式に変更することで、人手による設定変更手続きを必要とせず、ソフトエラー率を低減した設定での動作に切り替えることができる。
ただし、本方式では、ソフトエラー率を低減する効果は実行アプリケーションに対する依存度が高い。例えば、技術計算プログラムのようにメモリのアクセス領域が局所的になる場合、キャッシュのデータ格納管理の制御方法の切替えによるソフトエラー率の差は小さくなる可能性があるが、金融システム等のトランザクション処理の場合、そのアクセス領域は局所的ではなく広範囲であるため、ソフトエラー率を低減する効果が大きいことが予測される。本発明によれば、実行プログラムの動作に関わらず、ソフトエラー率をリアルタイムで監視し、エラー率の少ないキャッシュのデータ格納管理の制御方法を自動的に選択することが可能である。
また、キャッシュアクセス方法ではなく、メモリデバイスをプロセッサコア2により強制的に変更する方法もある。例えば、SRAMとDRAMを搭載する電子システム装置においては、SRAMのアクセス速度が高く処理性能を上げることができるが、環境放射線等に起因するソフトエラーに対する耐性は、SRAMに比べDRAMの方が高いため、例えば、ソフトエラー監視部11の検出結果より、ソフトエラー率が高い場合には、データの記録をDRAM中心に行い、ソフトエラー率が低い場合にはSRAMを主に使用してデータの記録を行うように、データの格納場所をプロセッサコア2において最適配置することで電子システム装置全体としてのソフトエラー率を削減することが可能である。
ただし、上述した方法は一例であり、当該電子システム装置およびプロセッサコアに応じた方法を適用するものとし、選択されるべき方法は問わない。
図2および図3は、図1に示す構成において、ソフトエラー監視部11と、設定切替部12と、エラー記録部13と、設定テーブル14による動作の流れを説明するフローチャートを示す。また、図4にソフトエラー監視部11と、エラー記録部13の機能ブロック図を示す。
図2に示すフローチャートの処理は、プロセッサノード1に実装された電子システム装置が起動するのに同期して、または所定の開始コマンドによって開始される。
ステップS21は、ソフトエラー監視部11でプロセッサコア2もしくはL1キャッシュ3からのソフトエラー発生状況を、図4に示すエラーイベントリード部41で監視する。および、プロセッサコア2より発せられる所定時間間隔ごとの設定見直し指示を監視する。プロセッサコア2、L1キャッシュ3、およびソフトエラー監視部11で実行されるソフトエラーの検出方法は、既存の誤り検出技術を使用することで良い。アドレス空間上のデータが破損していることを検知する方法は本発明では特定はしない。また、例えば中性子線などにより複数ビットのデータに反転が生じた場合を検知した場合には、それは発生時刻に1回のエラーが生じたとカウントするように、エラー発生情報(エラーイベント)を作成する。なお、ハードウエアの異常に起因するエラーは永続的に固定するなどの特徴より、ソフトエラーとは分離して、本発明の適用対象外となる。
ステップS22において、エラー発生情報、または設定見直し指示情報を取得する。エラー発生情報は、ソフトエラーイベントの発生を通知するのみである。設定見直し指示情報は、ソフトエラー率を計算する場合の評価期間を、総稼動時間とするか、または前回の設定見直し指示からの経過期間とするかの情報を含む。
ステップS23は、エラー発生情報、または設定見直し指示情報を取得後、エラーイベントリード部41は、エラー発生時間、または設定見直し指示時間を記録するため、エラー記録部13内にあるエラー発生時間格納レジスタ46に、ソフトエラー監視部11が持つタイマ42の情報を書き込むためのイネーブル信号を出力する。また、同時に総稼働時間レジスタ45に積算部50により計算される稼働時間を格納するためのイネーブル信号を出力する。また、イベント制御部43は、エラー発生情報を受け付けた場合のみに、イネーブル信号をエラー数カウンタ51へ発行して、エラー数をカウントし、保持する。また、イベント制御部43は、前回のエラー発生時間データ、または前回の設定見直し指示時間データの格納を前回のエラー発生時間データ格納レジスタ47へ指示する。
ステップS24では、イベント制御部43は、ソフトエラー発生情報、または設定見直し指示情報を取得後、エラー率演算部44にソフトエラー率計算指示を送出する。エラー率演算部44では、エラー発生時間格納レジスタ46と、前回のエラー発生時間データ格納レジスタ47と、総稼働時間レジスタ45と、エラー数カウンタ51とを読み込み、ソフトエラー率と平均エラー発生間隔(MTTF:mean time to failure)を計算する。
エラー率の計算式の一例としては、以下の式がある。
(数1)
λ=r/T
(数2)
MTTF=T/r
ここで、T:総稼働時間、r:エラー数、λ:エラー率である。
また、エラー率演算部44は、設定見直し指示情報の指示に従って、前回のエラー数カウンタ値を記録していて、前回と今回の設定見直し指示時間の間の時間間隔におけるソフトエラー率の計算も行うことができる。
次に、ステップS25において、前記算出したエラー率と、図5に示す予め登録されている設定テーブルのエラー率のしきい値502とを比較する。設定テーブルに格納されたしきい値は、各しきい値をエラー率の値が超えた場合に、キャッシュアクセス方法、キャッシュのデータ格納管理の制御方法、メモリデバイスの選択方法などを変更するためのプロセッサコア2のレジスタ名称501と、実際に設定する値503とを対応付けて構成される。
例えば、しきい値が0の行は、電子システム装置が起動して、当初はエラー率が0の場合のレジスタ名称501:Reg1、・・Reg5の初期設定値を、X0、・・XFと格納している。さらに、エラー率が計算されて、しきい値0.4を超えて、0.41となった場合には、しきい値0.4の行の各レジスタに設定する値を使用して、プロセッサコア2の設定が変更される。同様にして、さらにエラー率が計算されて、しきい値0.5を超えて、0.54となった場合には、しきい値0.5の行の各レジスタに設定する値を使用して、プロセッサコア2の設定が変更される。また、さらにエラー率が計算されて、しきい値0.5を下回って、計算結果がしきい値0.4と0.5の間に達した場合は、小さい値のしきい値0.4の行の各レジスタに設定する値を使用して、プロセッサコア2の設定が変更される。各しきい値に対応したレジスタ設定値によって、キャッシュアクセス方法、キャッシュのデータ格納管理の制御方法、メモリデバイスの選択方法、その他の制御方法のいずれか1つ、または複数の方法の方式を切替えることができる。
なお、図5の例では、レジスタ名称501をReg1、・・Reg5としているが、プロセッサコア内の設定レジスタに応じたレジスタ設定値を格納するもので、図5の例に限定するものではない。また、各レジスタの初期設定値はしきい値が0の行の設定値である必要はなく、任意の設定値の組に指定可能である。
ステップS25の設定テーブルの各しきい値と、ソフトエラー率の計算結果とを比較した結果が、前回の計算結果から今回の計算結果への変化がいずれかのしきい値を跨ぐものであれば、プロセッサコア2の制御方法の設定変更が要と判定してステップS27へ続き、前回の計算結果から今回の計算結果への変化がいずれのしきい値も跨がないものであれば、設定変更は否と判定してステップS28へ続く。(図2に示すステップS26)
ステップS27では、設定変更リクエストを発行する処理を実行する。図3に設定変更リクエストの発行処理のフローチャートを示す。ステップS31では、ステップS26で前回のエラー率の計算結果から今回のエラー率の計算結果への変化がいずれかのしきい値を跨ぐと判定されているので、該当しきい値か、またはそれより小さい値のしきい値に対応する設定テーブルのレジスタ設定値を検索する。
ステップS32において、設定テーブルのレジスタ設定値を読み出して、ステップS33において、プロセッサコア2の各レジスタを、読み出したレジスタ設定値で設定変更する指示を発行する。
ステップS28では、ソフトエラー監視部11で引き続きソフトエラー発生状況、および設定見直し指示の監視を継続することを終了させる指示、または電子システム装置の停止が無い限りは、継続としてステップS21の処理へ移る。
図7は、本発明によるプロセッサノード1のハードウエア設定を管理するBIOS画面71の実施形態例を示す。ここでは、キャッシュアクセス方法の設定状態、エラー検出機構の使用・未使用設定等を設定、表示する画面の例を示す。なお、BIOSとは、Basic Input/Output Systemの略称で、プロセッサの初期動作設定や、ハードディスク、キーボード等の周辺機器を制御するプログラムで、基本的な入出力手段をOSに提供するためのものである。
図8は、階層化したメモリ構成を縦軸に、時間経過(t)を横軸に表している。メモリ構成を、プロセッサコア2(図中Core)と、L1キャッシュ3(図中Cache)と、主記憶メモリ5(図中SRAM)を例として、キャッシュアクセスと主記憶へのアクセスの流れを時系列に表している。なお、図1に示す例では、L2キャッシュ4を設けているが、処理の説明を簡単にするため、図8の例ではL2キャッシュ4は外した構成としているが、処理の流れは同様となる。最初(0番目)のストア命令(アドレス0:a0)を表す“S0[a0]”が発行されると、CoreにあるデータがCacheに転送される。そのデータをロード命令L0[a0]で、再度Coreに読み込んでいる。Coreに読み込んだ後、CacheをフラッシュしSRAMへ転送している。この例では、フラッシュ時に書き戻すWriteBack方式の例を示している。上述したCoreへの読み込み後、さらにSRAMからa1データをL1[a1]命令でCoreに読み込む。これをCoreで処理した後、a1’データとして、Cacheに書き戻している。以下、同様に命令列の順に処理を継続している。ソフトエラー要因となる環境放射線等の影響を受けるキャッシュの滞在時間は、図中a0’、a1’の期間となる。本発明により、ソフトエラー率を監視し、この滞在時間をアクセス方式の選択により制御することで、電子システム装置としてのソフトエラー率を緩和することができる。
また、上述したソフトエラー監視部11、エラー記録部13、設定切替部12、設定テーブル14が、プロセッサコア2の数と一致する必要はなく、例えば、プロセッサコア2の数より少ない場合は、一部のソフトエラー監視部11、設定切替部12の指示に従い、搭載している全てのプロセッサコア2のキャッシュアクセス方法など全ての制御方法を一括設定変更指示する制御信号を設けることで、キャッシュアクセス方法など全ての制御方法を一括設定変更する。なお、複数のプロセッサコア2を具備する場合、それぞれに個別のキャッシュアクセス方法など全ての制御方法の設定変更を指示してもよい。
また、図5に示すレジスタ501を、キャッシュの強制的な更新(キャッシュフラッシュ)間隔を設定するレジスタとし、レジスタ設定値503をその更新頻度データとすることで、例えばライトバック方式を使用したプロセッサノードにおいて、キャッシュ内のプログラムおよびデータの滞在時間を一定値以下に限定することができ、電子システム装置としてのソフトエラー率を削減することができる。
また、同様に図5に示すレジスタ501を、プロセッサで使用するプログラムおよびデータの定常的な格納位置を指示するレジスタとし、レジスタ設定値503をその主記憶メモリアドレスとすることで、例えばライトスルー方式を使用したプロセッサノードにおいて、SRAMで構成されている主記憶内のデータの一部を、一般的に環境放射線耐性が高いDRAMに強制的に格納することができ、電子システム装置としてのソフトエラー率を削減することができる。
以上述べたように、本実施例によれば、電子システム装置に用いるプロセッサノードにおいて、環境放射線等によるソフトエラー発生を監視し、ソフトエラー率を算出する手段と、その結果からキャッシュの制御方式(データ更新頻度)などを変更する手段を設けることで、設置環境や環境変化を自律的に調整、追従することでソフトエラー耐性を向上し、環境放射線等のソフトエラー要因の影響によるシステム停止頻度の削減および、システム停止による製品開発者の保守コストを削減でき、システムの稼動安定性及び信頼性を向上することができる。
図9に、プロセッサコアと、プログラム、データを記憶するメモリが存在する所謂一般的なコンピュータに、本発明のソフトエラー耐性調整機能を実装した実施例を示す。
計算機100は、プロセッサコア2、および主記憶メモリ5を含む演算部110と、L1キャッシュ3、およびL2キャッシュ4などに相当するキャッシュメモリ120(演算部110に含まれるべきであるが、本発明の制御対象であるため特に明記した)と、二次記憶メモリに相当する記憶部130と、キーボード、マウスなどによるユーザの入力手段となる入力部140と、ディスプレイ装置などの出力部150と、ネットワーク170を介して外部のシステムとの通信を行う通信部160とを備える。
記憶部130に記憶されたプログラムを演算部110へロードして、実行することによって、各機能を実現する。
ソフトエラー検出部111は、キャッシュメモリ120、および演算部110内の主記憶メモリ5上のデータに、ビットの反転などが在るか否かを検査して、1ビット以上の反転を検出した場合には、ソフトエラー在りの出力をする。ここでの誤り検出方法は、既存の誤り検出方法のいずれかを採用すればよい。
記憶部130には、前記した図5の設定テーブルと同じメモリ制御設定テーブル131を予め作成して記憶してある。
ソフトエラー率計算部112は、ソフトエラー検出部111がソフトエラー在りの出力をした時点で、または設定見直し指示が他プログラムより発行された時点で、またはユーザより入力部140を介して設定見直し指示が入力された時点で、それらのソフトエラー情報、設定見直し指示情報を受け付けて、受け付けた時点の時間の記録、総稼動時間の算出、評価期間の算出、ソフトエラー回数のカウント、およびソフトエラー率の算出を行う。
メモリ制御設定変更部113は、ソフトエラー率計算部112が算出したソフトエラー率を入力して、およびメモリ制御設定テーブル131を検索して、図2のステップS25の処理と同じ処理を実行する。その結果、制御方法の設定変更が必要と判定される場合には、図2のステップS27の処理と同じ処理を実行する。
以上の演算部の機能によって、ソフトエラー耐性調整機能を実現する。
1 本発明の電子システム装置およびプロセッサノード
2 プロセッサコア
3 L1キャッシュ
4 L2キャッシュ
5 主記憶メモリ
6 ハードディスクコントローラ
7 ハードディスク
8 バス
9 外部I/Fコントローラ
10 ネットワークI/F
11 ソフトエラー監視部
12 設定切替部
13 エラー記録部
14 設定テーブル
15 ソフトエラー検出信号
16 キャッシュアクセス方式切替指示信号
17 キャッシュアクセス方式切替レジスタ設定信号
41 エラーイベントリード部
42 タイマ
43 イベント制御部
44 エラー率演算部
45 総稼働時間レジスタ
46 エラー発生時間格納レジスタ
47 前回のエラー発生時間データ格納レジスタ
48 平均エラー発生間隔格納レジスタ
49 ソフトエラー率格納レジスタ
50 積算部
51 エラー数カウンタ
71 BIOS画面
100 ソフトエラー耐性調整機能を実装した計算機
110 演算部
111 ソフトエラー検出部
112 ソフトエラー率計算部
113 メモリ制御設定変更部
120 キャッシュメモリ
130 記憶部
131 メモリ制御設定テーブル
140 入力部
150 出力部
160 通信部
170 ネットワーク
501 レジスタ名称
502 しきい値
503 実際に設定する値。

Claims (9)

  1. プロセッサを備えた電子システム装置において、
    プロセッサが管理するキャッシュメモリと主記憶メモリのソフトエラーを検出する手段と、
    該ソフトエラーの発生を監視する手段と、
    該ソフトエラー発生時刻までの総稼動時間とソフトエラーの発生数を記録する手段と、
    該記録したソフトエラー発生数と総稼動時間からソフトエラー率を計算する手段と、
    ソフトエラー率のしきい値とキャッシュメモリの制御方法を切替える情報を対応させて格納する手段と、
    計算された前記ソフトエラー率と前回のソフトエラー率が、前記格納手段に格納されたいずれかのしきい値を跨いで変化する場合に、該しきい値に対応したキャッシュメモリの制御方法を切替える情報に基づいて、キャッシュモード切替え指示を出力する手段とを設けたことを特徴とするソフトエラー耐性調整機能を備えた電子システム装置。
  2. 前記格納手段が、ソフトエラー率のしきい値とキャッシュメモリのアクセス方法、データ格納管理の制御方法、または更新間隔を切替える情報を対応させて格納し、
    前記キャッシュモード切替え指示を出力する手段が、計算された前記ソフトエラー率と前回のソフトエラー率が、前記格納手段に格納されたいずれかのしきい値を跨いで変化する場合に、該しきい値に対応したキャッシュメモリのアクセス方法、データ格納管理の制御方法、または更新間隔を切替える情報に基づいて、キャッシュモード切替え指示を出力する、ことを特徴とする請求項1に記載のソフトエラー耐性調整機能を備えた電子システム装置。
  3. 前記格納手段が、ソフトエラー率のしきい値と、主記憶領域としてSRAMまたはDRAMを主体に選択するための切替え情報とを対応させて格納し、
    前記キャッシュモード切替え指示を出力する手段が、計算された前記ソフトエラー率と前回のソフトエラー率が、前記格納手段に格納されたいずれかのしきい値を跨いで変化する場合に、該しきい値に対応した主記憶領域としてSRAMまたはDRAMを主体に選択するための切替え情報に基づいて、主記憶メモリアクセス切替え指示を出力する、ことを特徴とする請求項1に記載のソフトエラー耐性調整機能を備えた電子システム装置。
  4. 複数のプロセッサを搭載し、それらプロセッサ間でプログラムとデータを格納する主記憶メモリを共通で利用する電子システム装置において、
    全てのプロセッサもしくは一部のプロセッサでキャッシュメモリと主記憶メモリのソフトエラーを検出する手段と、
    該ソフトエラーの発生を監視する手段と、
    該ソフトエラー発生時刻までの総稼動時間とソフトエラーの発生数を記録する手段と、
    該記録したソフトエラー発生数と総稼動時間からソフトエラー率を計算する手段と、
    ソフトエラー率のしきい値と全てのプロセッサのキャッシュメモリの制御方法を切替える情報を対応させて格納する手段と、
    計算された前記ソフトエラー率と前回のソフトエラー率が、
    前記格納手段に格納されたいずれかのしきい値を跨いで変化する場合に、該しきい値に対応したキャッシュメモリの制御方法を切替える情報に基づいて、全てのプロセッサのキャッシュモード切替え指示を出力する手段とを設けたことを特徴とするソフトエラー耐性調整機能を備えた電子システム装置。
  5. 前記格納手段が、ソフトエラー率のしきい値とキャッシュメモリのアクセス方法、データ格納管理の制御方法、または更新間隔を切替える情報を対応させて格納し、
    前記キャッシュモード切替え指示を出力する手段が、計算された前記ソフトエラー率と前回のソフトエラー率が、前記格納手段に格納されたいずれかのしきい値を跨いで変化する場合に、該しきい値に対応したキャッシュメモリのアクセス方法、データ格納管理の制御方法、または更新間隔を切替える情報に基づいて、キャッシュモード切替え指示を出力する、ことを特徴とする請求項4に記載のソフトエラー耐性調整機能を備えた電子システム装置。
  6. 前記格納手段が、ソフトエラー率のしきい値と、主記憶領域としてSRAMまたはDRAMを主体に選択するための切替え情報とを対応させて格納し、
    前記キャッシュモード切替え指示を出力する手段が、計算された前記ソフトエラー率と前回のソフトエラー率が、前記格納手段に格納されたいずれかのしきい値を跨いで変化する場合に、該しきい値に対応した主記憶領域としてSRAMまたはDRAMを主体に選択するための切替え情報に基づいて、主記憶メモリアクセス切替え指示を出力する、ことを特徴とする請求項4に記載のソフトエラー耐性調整機能を備えた電子システム装置。
  7. 電子システム装置に備えられたプロセッサにおいて、
    キャッシュメモリと主記憶メモリのソフトエラーを検出するステップと、
    該ソフトエラーの発生を監視するステップと、
    該ソフトエラー発生時刻までの総稼動時間とソフトエラーの発生数を記録するステップと、
    該記録したソフトエラー発生数と総稼動時間からソフトエラー率を計算するステップと、
    計算された前記ソフトエラー率と前回のソフトエラー率とにより、予め記憶装置に記憶されたソフトエラー率のしきい値とキャッシュメモリの制御方法を切替える情報を対応させたデータテーブルを検索して、前記ソフトエラー率と前回のソフトエラー率が前記記憶されたいずれかのしきい値を跨いで変化する場合に、該当しきい値に対応したキャッシュメモリの制御方法を切替える情報に基づいて、キャッシュモード切替え指示を出力するステップとを有することを特徴とするソフトエラー耐性調整方法。
  8. 前記キャッシュモード切替え指示を出力するステップが、計算された前記ソフトエラー率と前回のソフトエラー率とにより、予め記憶装置に記憶されたソフトエラー率のしきい値とキャッシュメモリのアクセス方法、データ格納管理の制御方法、または更新間隔を切替える情報を対応させたデータテーブルを検索して、前記ソフトエラー率と前回のソフトエラー率が前記記憶されたいずれかのしきい値を跨いで変化する場合に、該当しきい値に対応したキャッシュメモリのアクセス方法、データ格納管理の制御方法、または更新間隔を切替える情報に基づいて、キャッシュモード切替え指示を出力することを特徴とする請求項7に記載のソフトエラー耐性調整方法。
  9. 前記キャッシュモード切替え指示を出力するステップが、計算された前記ソフトエラー率と前回のソフトエラー率とにより、予め記憶装置に記憶されたソフトエラー率のしきい値と主記憶領域としてSRAMまたはDRAMを主体に選択するための切替え情報を対応させたデータテーブルを検索して、前記ソフトエラー率と前回のソフトエラー率が前記記憶されたいずれかのしきい値を跨いで変化する場合に、該当しきい値に対応した主記憶領域としてSRAMまたはDRAMを主体に選択するための切替え情報に基づいて、主記憶メモリアクセス切替え指示を出力する、ことを特徴とする請求項7に記載のソフトエラー耐性調整方法。
JP2011266833A 2011-12-06 2011-12-06 ソフトエラー耐性調整機能を備えた電子システム装置及びソフトエラー耐性調整方法 Active JP5722754B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011266833A JP5722754B2 (ja) 2011-12-06 2011-12-06 ソフトエラー耐性調整機能を備えた電子システム装置及びソフトエラー耐性調整方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011266833A JP5722754B2 (ja) 2011-12-06 2011-12-06 ソフトエラー耐性調整機能を備えた電子システム装置及びソフトエラー耐性調整方法

Publications (2)

Publication Number Publication Date
JP2013120426A true JP2013120426A (ja) 2013-06-17
JP5722754B2 JP5722754B2 (ja) 2015-05-27

Family

ID=48773055

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011266833A Active JP5722754B2 (ja) 2011-12-06 2011-12-06 ソフトエラー耐性調整機能を備えた電子システム装置及びソフトエラー耐性調整方法

Country Status (1)

Country Link
JP (1) JP5722754B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017058953A (ja) * 2015-09-16 2017-03-23 株式会社東芝 キャッシュメモリシステム
WO2018186155A1 (ja) * 2017-04-05 2018-10-11 株式会社日立製作所 中性子強度モニタリングシステムおよび方法
JP2019128948A (ja) * 2018-01-22 2019-08-01 三星電子株式会社Samsung Electronics Co.,Ltd. 集積回路装置及びストレージ装置
US10552258B2 (en) 2016-09-16 2020-02-04 Semiconductor Energy Laboratory Co., Ltd. Semiconductor device, electronic device, and driving method thereof

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07248970A (ja) * 1994-03-08 1995-09-26 Fujitsu Ltd キャッシュメモリ装置
JP2007293440A (ja) * 2006-04-21 2007-11-08 Toshiba Corp 不揮発性キャッシュメモリを用いる記憶装置とその制御方法
US20100077148A1 (en) * 2008-09-20 2010-03-25 Moyer William C Method and Apparatus for Configuring a Unified Cache
JP2011507073A (ja) * 2007-12-06 2011-03-03 フリースケール セミコンダクター インコーポレイテッド 設定可能なウェイの冗長を用いるキャッシュメモリのエラー検出器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07248970A (ja) * 1994-03-08 1995-09-26 Fujitsu Ltd キャッシュメモリ装置
JP2007293440A (ja) * 2006-04-21 2007-11-08 Toshiba Corp 不揮発性キャッシュメモリを用いる記憶装置とその制御方法
JP2011507073A (ja) * 2007-12-06 2011-03-03 フリースケール セミコンダクター インコーポレイテッド 設定可能なウェイの冗長を用いるキャッシュメモリのエラー検出器
US20100077148A1 (en) * 2008-09-20 2010-03-25 Moyer William C Method and Apparatus for Configuring a Unified Cache

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200700980016; 杉原 真、石原 亨、村上 和彰: 'マルチプロセッサシステムのソフトエラー低減を目的としたタスクスケジューリング法' DAシンポジウム2007論文集 No.7, 200708, 第163頁-第168頁, 社団法人情報処理学会 *
JPN6014032044; 杉原 真、石原 亨、村上 和彰: 'マルチプロセッサシステムのソフトエラー低減を目的としたタスクスケジューリング法' DAシンポジウム2007論文集 No.7, 200708, 第163頁-第168頁, 社団法人情報処理学会 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017058953A (ja) * 2015-09-16 2017-03-23 株式会社東芝 キャッシュメモリシステム
US10360100B2 (en) 2015-09-16 2019-07-23 Kabushiki Kaisha Toshiba Cache memory system and processor system
US10552258B2 (en) 2016-09-16 2020-02-04 Semiconductor Energy Laboratory Co., Ltd. Semiconductor device, electronic device, and driving method thereof
WO2018186155A1 (ja) * 2017-04-05 2018-10-11 株式会社日立製作所 中性子強度モニタリングシステムおよび方法
JP2018179580A (ja) * 2017-04-05 2018-11-15 株式会社日立製作所 中性子強度モニタリングシステムおよび方法
JP2019128948A (ja) * 2018-01-22 2019-08-01 三星電子株式会社Samsung Electronics Co.,Ltd. 集積回路装置及びストレージ装置
JP7308025B2 (ja) 2018-01-22 2023-07-13 三星電子株式会社 集積回路装置及びストレージ装置

Also Published As

Publication number Publication date
JP5722754B2 (ja) 2015-05-27

Similar Documents

Publication Publication Date Title
JP4038786B2 (ja) キャッシュメモリにおける漏洩電力の低減方法及び装置
US7987407B2 (en) Handling of hard errors in a cache of a data processing apparatus
JP5699057B2 (ja) プログラマブルデバイス、プログラマブルデバイスのリコンフィグ方法および電子デバイス
US20070011513A1 (en) Selective activation of error mitigation based on bit level error count
US8412981B2 (en) Core sparing on multi-core platforms
US7734949B2 (en) Information error recovery apparatus and methods
US7493523B2 (en) Method and apparatus for preventing soft error accumulation in register arrays
JP5722754B2 (ja) ソフトエラー耐性調整機能を備えた電子システム装置及びソフトエラー耐性調整方法
JP6290934B2 (ja) プログラマブルデバイス、エラー保持システム、及び電子システム装置
US20160179577A1 (en) Method of Managing the Operation of an Electronic System with a Guaranteed Lifetime
Rivers et al. Error tolerance in server class processors
US11586496B2 (en) Electronic circuit with integrated SEU monitor
Reddi et al. Robust and resilient designs from the bottom-up: Technology, CAD, circuit, and system issues
Liu et al. Binary star: Coordinated reliability in heterogeneous memory systems for high performance and scalability
CN101120327A (zh) 在电子装置中有效实现抗干扰模式的系统和方法
Agiakatsikas et al. Impact of Voltage Scaling on Soft Errors Susceptibility of Multicore Server CPUs
Dweik et al. Reliability-Aware Exceptions: Tolerating intermittent faults in microprocessor array structures
US20090150653A1 (en) Mechanism for soft error detection and recovery in issue queues
Rivers et al. Reliability challenges and system performance at the architecture level
Sasan et al. History & Variation Trained Cache (HVT-Cache): A process variation aware and fine grain voltage scalable cache with active access history monitoring
Fazeli et al. An energy efficient circuit level technique to protect register file from MBUs and SETs in embedded processors
Fazeli et al. Robust register caching: An energy-efficient circuit-level technique to combat soft errors in embedded processors
Yao et al. A memory ras system design and engineering practice in high temperature ambient data center
US9535812B2 (en) Apparatus and method to track device usage
Rodrigues et al. A mechanism to verify cache coherence transactions in multicore systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140123

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140710

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140805

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20140908

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150317

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150326

R150 Certificate of patent or registration of utility model

Ref document number: 5722754

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150