JP5630565B2 - 情報処理装置,及びキャッシュ制御方法 - Google Patents
情報処理装置,及びキャッシュ制御方法 Download PDFInfo
- Publication number
- JP5630565B2 JP5630565B2 JP2013503290A JP2013503290A JP5630565B2 JP 5630565 B2 JP5630565 B2 JP 5630565B2 JP 2013503290 A JP2013503290 A JP 2013503290A JP 2013503290 A JP2013503290 A JP 2013503290A JP 5630565 B2 JP5630565 B2 JP 5630565B2
- Authority
- JP
- Japan
- Prior art keywords
- request
- tag
- memory
- way
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0891—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches using clearing, invalidating or resetting means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/08—Error detection or correction by redundancy in data representation, e.g. by using checking codes
- G06F11/10—Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
- G06F11/1008—Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices
- G06F11/1072—Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices in multilevel memories
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Memory System Of A Hierarchy Structure (AREA)
- Techniques For Improving Reliability Of Storages (AREA)
Description
SMPは、複数のCPU(Central Processing Unit)が同等な立場で処理を分担するマルチプロセッサ手法であり、CPUキャッシュを同期させる機能や処理に用いられる各種資源を管理する機能を備える。
このようなSMPサーバシステムでは、処理速度の向上のために、CPUのキャッシュタグ(TAG)データのコピー(TAG_CP)をSC内に備えることがある。この場合、各CPUからの問い合わせに対し、対象CPUの前段にあるSCにより、TAG_CPが参照されて応答が返される。これにより、スヌープ方式による高速なキャッシュアクセスを実現し、CPUのキャッシュメモリ(Cache Memory;以下、CMという)の同期処理の高速化を実現する。
また、近年、CPUのCMにおいて、キャッシュライン数の増加に伴い、複数のWAYによるデータ格納構造であるセットアソシアティブ構成が採用されている。
キャッシュタグデータは、CPU内部のTAGメモリ及びSC内部のTAG_CPメモリにそれぞれ格納され、インデックスと呼ばれるメモリの物理アドレスの一部を使用したアドレスにより管理される。キャッシュタグデータは、CPUからのリクエストに応じて、インデックスにより特定されるCM内の一のキャッシュラインから、一のWAYを絞り込み、CMから所望のデータを取得するのに用いられる。
上述したSMPサーバシステムでは、CPU、CM、TAGメモリ又はTAG_CPメモリ等の障害が検出されると、運用管理部によって、異常が発生した箇所をシステムから切り離す縮退処理が行なわれる。この縮退処理により、システムの動作を中断することなく運用を継続することができ、耐障害性の向上が実現される。
以下、SC内のTAG_CPメモリでCEが発生した場合の、システムの縮退処理の動作を説明する。
図10に例示するように、SMPサーバシステムでは、システムボード(SB;System Board:以下、SBという)200と、運用管理部600とが備えられる。
各CPU300−1〜300−4には、それぞれCM310−1〜310−4及びTAGメモリ320−1〜320−4が備えられる。なお、CM310−1〜310−4及びTAGメモリ320−1〜320−4の符号におけるハイフン“−”の右側の数字は、CM310−1〜310−4及びTAGメモリ320−1〜320−4が、それぞれ対応する数字のCPU300−1〜300−4に備えられることを示す。
図10及び図11に示すように、システムの運用中、SC400内のTAG_CPメモリ420−2にCEが発生し、SC400により検出された場合(ステップS101)、SC400からCEが発生したTAG_CPメモリ420に対応するCPU300−2に対して、被疑箇所の情報が通知される(ステップS102)。なお、この情報には、ECCにより訂正された被疑箇所のインデックスと、WAY番号とが含まれる。
縮退処理完了通知を受けたSC400では、被疑箇所のWAYに対して縮退処理が行なわれる(ステップS105)。そして、SC400により、運用管理部600に対して、縮退処理を行なったCPU300−2のWAY番号を含むエラー通知が行なわれ(ステップS106)、運用管理部600の制御情報に故障情報が記録される(ステップS107)。その後、SMPサーバシステムでは運用が継続される(ステップS108)。
なお、ステップS107において運用管理部600の制御情報に記録された故障情報は、例えばSMPサーバシステムで実行中のOS(Operating System)の再起動等によってCPU及びSC内の縮退状態がリセットされた場合に、被疑箇所のWAYを再度縮退させるために用いられる。
以下、SC内のTAG_CPメモリでCEが発生した場合の、システムの縮退処理の動作を説明する。
図12及び図13に示すように、システムの運用中、SC400内のTAG_CPメモリ420−2にUEが発生し、SC400により検出された場合(ステップS111)、SC400から運用管理部600に対して、UEが発生したことが割り込みで通知される(ステップS112)。
OSの再起動後、運用管理部600により、制御情報の故障情報が読み込まれ(ステップS115)、故障情報に記録されているCPU300−2は、立ち上げ処理が行なわれず、他の正常なCPU300−1、300−3及び300−4についてのみ立ち上げ処理が行なわれる。つまり、運用管理部600により、被疑箇所に対応するCPU300−2及び被疑箇所に対応するTAG_CPメモリ420−2が縮退処理された状態で、OSが立ち上がる(ステップS116,図12中、「縮退範囲」参照)。その後、SMPサーバシステムでは、運用が再開される(ステップS117)。
なお、他に、キャッシュメモリを搭載した複数のCPUを備えたマルチプロセッサシステムにおいて、メモリコントロール/コヒーレンシ制御装置が備えるタグメモリから索引されたタグ索引結果に訂正不可能障害が発生した場合であっても、動作を継続できるようにする技術が知られている。
なお、訂正不可能障害が検出されたタグ索引結果に関連する可能性がある全てのデータとは、キャッシュメモリに格納されているデータの内の、下位アドレスがタグ索引時に用いられた下位アドレスと一致する全てのデータをいう。
しかしながら、UEが発生した場合の上述した手法では、運用が停止する時間が発生し、SMPサーバシステムの可用性が低下するという問題がある。
このように、UEの発生確率が高くなっている現状において、SMPサーバシステムの可用性が低下する場面(頻度)が増加するという問題もある。
(i)メモリコントロール/コヒーレンシ制御装置内のタグ部で訂正不可能エラーが発生してタグ部の一部が縮退された場合、CPUは、タグ部の一部が縮退されたことを知らないため、CPUから、縮退されたタグ部の一部を再使用するようなリクエストが送信される可能性がある。このようなリクエストが送信された場合、メモリコントロール/コヒーレンシ制御装置は、リクエストに従ったタグ部の使用が不可能であるという応答、或いはキャッシュをタグ部に登録せずに使用するという応答をCPUに返すことになる。
(i−1)CPUは、上述の応答を受けることを許容していない場合、つまり上述の応答に対する処理が定義されておらず対応できない場合には、動作不能に陥る可能性がある。
すなわち、タグメモリのアドレスライン系で故障が発生した場合、タグメモリのセルに対するアクセスが正常に行なわれず、エントリ使用不可フラグ自体を正しく読み出せないことがある。従って、実際にはエントリ使用不可フラグに縮退を示す情報が設定されている場合であっても、システムからは縮退したように見えず、リトライが行なわれる度にUEの発生が検出されて、処理不能に陥る可能性がある。
上述の点に鑑み、本件の目的の1つは、情報処理装置の可用性の向上を実現することである。
なお、前記目的に限らず、後述する発明を実施するための形態に示す各構成により導かれる作用効果であって、従来の技術によっては得られない作用効果を奏することも本発明の他の目的の1つとして位置付けることができる。
〔1〕第1実施形態
〔1−1〕第1実施形態の構成
図1は、第1実施形態の一例としての情報処理システム1の構成を示す図である。
図1に示すように、情報処理システム(情報処理装置)1は、SB2と、運用管理部6とを備える。
また、第1実施形態における情報処理システム1は、SC4内のTAG_CPメモリ42においてCEが発生した場合に、図11に示す上述した手法により、運用を継続することができる。なお、第1実施形態においては、CEが発生した場合の情報処理システム1の動作については、その詳細な説明を省略する。
SB2は、少なくとも1つ(第1実施形態においては4つ)のCPU3−1〜3−4と、SC4と、RAM等のメモリ5とを備える。なお、以下の説明においてCPU3−1〜3−4を区別しない場合には、単にCPU3という。
CPU3−1〜3−4は、それぞれCM31−1〜31−4及びTAGメモリ(第1タグメモリ)32−1〜32−4を備える。以下の説明においてCM31−1〜31−4を区別しない場合には、単にCM31という。また、TAGメモリ32−1〜32−4を区別しない場合には、単にTAGメモリ32という。
CM31は、CPU3とメモリ5との間で転送されるデータを格納する。なお、第1実施形態においては、CM31が、nWAYセットアソシアティブ方式を採用する場合について例示する。
また、第1実施形態におけるCPU3は、SC4からCEが発生した通知(CE通知リクエスト)又はUEが発生した通知(UE通知リクエスト)を受信すると、当該CE又はUEが発生したTAG_CPメモリ42のWAYに対応するTAGメモリ32のWAYを動的に縮退させる。そして、CPU3は、WAYの縮退後、TAGメモリ32のWAYの縮退処理が完了したことをSC4へ通知する。
SC(システムコントローラ)4は、CPU3及びメモリ5間のアクセスを制御するとともに、CPU3と他のCPU3又はSB2の外部の処理装置との通信制御を行なうLSIである。なお、第1実施形態においては、CPU3及びSC4は、キャッシュコヒーレンシのアルゴリズムとしてスヌープ方式を採用する場合について例示する。
TAG_CPメモリ42−1〜42−4は、対応するTAGメモリ32−1〜32−4に記憶されるデータの複製データを保持する。以下の説明においてTAG_CPメモリ42−1〜42−4を区別しない場合には、単にTAG_CPメモリ42という。
SC4は、CPU3のキャッシュタグデータのコピーをTAG_CPメモリ42に格納することで、各CPU3からのメモリ5へのアクセス要求等のリクエストに対し、TAG_CPメモリ42を参照してリクエストに応じた所定の処理を行ない、要求元のCPU3に応答を返す。これにより、スヌープ方式による高速なキャッシュアクセスを実現し、CPU3のCM31の同期処理の高速化を実現する。
そして、SC4は、UEが検出されたTAG_CPメモリ42に対応するCPU3に対して、エラー情報を含むUE通知リクエストを出力する。なお、エラー情報には、被疑箇所に対応するWAY情報(例えばWAYの番号等)が含まれる。UE通知リクエストを受信したCPU3は、エラー情報に基づいて、TAGメモリ32のWAYを動的に縮退させ、WAYの縮退後、縮退処理が完了した旨の縮退処理完了通知をSC4へ通知する。
さらに、SC4は、CPU3から縮退処理完了通知を受信するとともに、TAG_CPメモリ42のWAYの縮退処理の完了後、UE発生リクエストに係る処理を再開する。
また、SC4は、運用管理部6に対してCE又はUEに関するエラー情報を割り込み通知する。
メモリ5は、種々のデータやプログラムを一時的に格納する記憶領域であって、CPU3がプログラムを実行する際に、データやプログラムを一時的に格納・展開して用いる。なお、第1実施形態におけるメモリ5は、CPU3−1〜3−4のいずれからもアクセス可能であり、CPU3−1〜3−4により共有して用いられる。
なお、情報処理システム1は、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)等の記憶部(図示省略)を備えることができる。記憶部は、SC4を介して各CPU3からアクセス可能に構成することができる。
図2は、第1実施形態の一例としてのSC4の構成を示す図である。
図2に示すように、SC4は、複数(第1実施形態においては4つ)のTAG_CPメモリ制御部41−1〜41−4と、コマンド制御部43と、リクエスト制御部44と、アドレスロックレジスタ部45と、レジスタ部46とを備える。
また、コマンド制御部43は、CPU3から受信したリクエストについてSC4内で処理が完了するまでは、当該リクエストを保持する。つまり、コマンド制御部43は、リクエストの要求先であるTAG_CPメモリ制御部41において、リクエストが処理中の場合や、リクエストが処理されなかった場合には、当該リクエストを保持する。
なお、コマンド制御部43は、TAG_CPメモリ制御部41における処理が完了すると、キュー43aから該当するリクエストを削除する。
具体的には、TAG_CPメモリ制御部41は、コマンド制御部43から転送されるリクエストに含まれるメモリ5の実アドレス(PA;Physical Address)から、キャッシュラインを特定するインデックス及びWAYを特定するエントリアドレス(以下、登録アドレスという)を抽出する。そして、TAG_CPメモリ制御部41は、対応するTAG_CPメモリ42−1〜42−4内から、抽出したインデックス及び登録アドレスに対応するキャッシュタグデータを検索する。
また、TAG_CPメモリ制御部41は、TAG_CPメモリ42でCE又はUEが検出された場合、リクエスト制御部44に対して、被疑箇所の通知(TAG_CPエラー通知)を行なう。
具体的には、リクエスト制御部44は、TAG_CPメモリ42でCE又はUEが検出され、TAG_CPメモリ42からTAG_CPエラー通知を受けると、被疑箇所のインデックス及びWAY情報を含むCE通知リクエスト又はUE通知リクエストをCPU3に発行する。CE又はUE通知リクエストが通知されたCPU3は、当該リクエストに基づいて、CE又はUEが発生したTAG_CPメモリ42のWAYに対応するTAGメモリ32のWAYについて縮退処理を行ない、縮退処理完了通知をリクエスト制御部44へ通知する。
さらに、リクエスト制御部44は、CE又はUEが発生した場合に、CE又はUEが発生したTAG_CPメモリ42のWAYを縮退させる。また、リクエスト制御部44は、UEが発生した場合に、CPU3からTAGメモリ32の縮退処理完了通知を受信した後、コマンド制御部43にUE検出リクエストを再発行させる指示を行なう。
また、リクエスト制御部44は、UEが発生した場合に、CPU3から縮退処理完了通知を受信すると、コマンド制御部43に対して、UE検出リクエストの処理再開(再発行)の指示を通知する。コマンド制御部43は、リクエスト制御部44からUE検出リクエストの処理再開の指示が通知されると、UE検出リクエストの保留状態を解除して当該リクエストの処理を再開(当該リクエストを再発行)する。
なお、リクエスト制御部44は、運用管理部6に対して割り込み通知するCE又はUEに関するエラー情報に、縮退させたWAYに関する情報を含めても良いし、含めなくても良い。リクエスト制御部44がエラー情報に縮退させたWAYに関する情報を含めない場合、運用管理部6は、リクエスト制御部44からのエラー情報の割り込み通知を受信すると、レジスタ部46から被疑箇所に対応したCPU3の情報及びWAY情報を取得し、保持するようにしても良い。
構成情報には、TAG_CPメモリ42−1〜42−4のWAY毎に、有効又は無効の状態が含まれ、リクエスト制御部44からの設定変更要求に応じて、レジスタ部46により有効又は無効の状態が設定される。
換言すれば、レジスタ部46は、TAG_CPメモリ42−1〜42−4のWAYを縮退することを示す縮退フラグを保持するといえる。
すなわち、リクエスト制御部44は、レジスタ部46に対して、CE又はUEが発生したTAG_CPメモリ42のWAYに係る縮退フラグを設定することにより、当該WAYを縮退させる。
従って、CPU3によるTAGメモリ32のWAYの縮退処理も、リクエスト制御部44による縮退処理と同様に、対応するTAGメモリ32のWAYに係る縮退フラグがCPU3によってレジスタ部に設定されることにより行なわれる。
具体的には、アドレスロックレジスタ部45は、コマンド制御部43から転送されるリクエスト内の実アドレスから全てのアドレス(フルアドレス)とインデックスとを抽出し、抽出したフルアドレス、つまりSC4内で処理中のリクエストに係るフルアドレスをロックレジスタ45aに保持する。
また、アドレスロックレジスタ部45は、SC4内で処理中のリクエストに係る処理が完了した場合、ロックレジスタ45aから当該リクエストに係るアドレス情報を削除し、当該リクエストのロックを解除する。
つまり、第1実施形態におけるアドレスロックレジスタ部45は、UE検出リクエストによりUEが検出された場合、当該UE検出リクエスト内のアドレス情報をロックレジスタ45aに保持してロックし、CPU3からの縮退処理完了通知を受信した場合に、当該リクエストのロックを解除する。
なお、アドレスロックレジスタ部45は、UE検出リクエストのアドレスがロックレジスタ45aに保持されている場合、同一インデックスであって且つフルアドレスが不一致のときには、被疑箇所と同一インデックスの領域についてもガードすることができる。これにより、UE発生後の縮退処理中に、後発リクエストによるTAG_CPメモリ42の被疑箇所と同一インデックスの領域への参照を抑止することができる。このため、アドレスロックレジスタ部45は、アドレス比較のビット幅を可変にできるように構成されることが好ましい。
〔1−3〕第1実施形態の情報処理システムのUE発生時の動作
次に、上述の如く構成された情報処理システム1におけるSC4のTAG_CPメモリ42でUEが発生した場合の縮退処理について説明する。
はじめに、図3及び図4に示すように、システムの運用中、TAG_CPメモリ42−2でUEが検出された場合(ステップS1)、SC4内のTAG_CPメモリ制御部41により、リクエスト制御部44に対してTAG_CPエラー通知が行なわれる。
次いで、リクエスト制御部44により、UEが検出されたTAG_CPメモリ42−2に対応するCPU3−2に対して、UEが検出された被疑箇所のインデックス及びWAY情報を含むUE通知リクエストが通知される(ステップS3)。
また、リクエスト制御部44により、運用管理部6に対して、UEに関するエラー情報が割り込み通知される(ステップS8)。
そして、情報処理システム1による運用が継続される(ステップS10)。
上述の処理により、CPU3及びSC4において、被疑箇所に対応したWAYの縮退処理が動的に行なわれるため、TAG_CPメモリ42においてUEが発生した場合でも、運用の停止を回避することができる。
従って、システムの継続運用が可能になり、情報処理システム1の可用性の向上を実現することができる。
さらに、TAG_CPメモリ42内の被疑箇所に対応するWAYの縮退処理に加えて、CPU3のTAGメモリ32内の被疑箇所に対応するWAYの縮退処理も行なわれる。
さらに、TAG_CPメモリ42−1〜42−4は、CPU3−1〜3−4内のTAGメモリ32−1〜32−4と一対一に対応する。従って、TAG_CPメモリ42の一部(WAY)が縮退しても、CPU3は被疑箇所に対応するCPU3以外の他のCPU3へのアクセスを行なうことができるため、CPU3からのリクエスト発行のリトライによる性能低下を防ぐことができる。
これにより、縮退処理の完了後にコマンド制御部43によってUE検出リクエストが再発行されるため、UE検出リクエストを発行したCPU3は、要求先において処理されなかったUE検出リクエストのリトライを行なわずに済む。
さらに、第1実施形態の一例としての情報処理システム1によれば、アドレスロックレジスタ部45により、CPU3及びSC4において被疑箇所に対応するWAYが縮退されるまでは、他のリクエストによる被疑箇所へのアクセスが抑止される。
従って、他のリクエストによってUEが検出されたキャッシュタグデータが参照されないように、被疑箇所をガードすることができ、キャッシュコヒーレンシを保つことができる。つまり、上述した図13に例示するようなUEが発生したTAG_CPメモリ42に対応するCPU3自体の縮退のためのOS再起動が不要となるため、システムの継続運用が可能になり、情報処理システム1の可用性の向上を実現することができる。
さらに、第1実施形態の一例としての情報処理システム1によれば、アドレスロックレジスタ部45により、UE検出リクエストのアドレスがロックレジスタ45aに保持されている場合、同一インデックスであって且つフルアドレスが不一致のときには、被疑箇所と同一インデックスの領域についてもガードされる。なお、この場合、アドレスロックレジスタ部45は、アドレス比較のビット幅を可変にできるように構成される。
従って、上述したアドレスロックレジスタ部45のガード機能による後発リクエストのリトライ条件に、UE検出リクエスト内の実アドレスにおけるフルアドレス又はインデックスと一致した場合を加えることによって、被疑箇所のガードを実現することができ、新たな回路を設けずに済むため、情報処理システム1の製造及び保守コストを減少させることができる。
これにより、TAG_CPメモリ42内に縮退フラグを備える構成と比較して、例えばアドレスライン系で故障が発生した場合でも、リクエスト処理部44は、確実に縮退フラグの設定を行なうことができ、UEの縮退処理を確実に行なうことができる。
〔2−1〕第2実施形態の構成
次に、図5〜図9を参照しながら、第2実施形態としての情報処理システム(情報処理装置)1′の構成について説明する。なお、図5において既述の符号と同一の符号は同一の部分若しくは略同一の部分を示しているため、重複した説明は省略する。
図5に示すように、第2実施形態における情報処理システム1′は、複数(図5に示す例では16個)のSB2と、運用管理部6と、複数(図5に示す例では4つ)のクロスバー(Cross Bar;以下、XBという)9とを備える。
そして、情報処理システム1′は、これら複数のSB2の全て若しくは一部を使用したSMPサーバシステムとして機能する。
運用管理部6は、第1実施形態と同様の構成であり、情報処理システム1′全体、つまり各SB2内のCPU3及びSC4を制御するファームウェアを搭載する。また、運用管理部6は、運用管理部6が管理する制御情報において、各SB2における縮退されたCPU3の情報及びWAY情報を故障情報として保持する。
第2実施形態におけるSC4は、第1実施形態と同様に、自SB2内のCPU3から発行されたリクエストに係る処理を実行することができる。また、第2実施形態におけるSC4は、複数のSB2間における通信のインターフェース機能を備え、他のSB2内のCPU3により、XB9を経由して自SB2内へのリクエストが発行された場合、当該リクエストに係る処理を実行することができる。
以下、第2実施形態におけるTAG_CPメモリ42の構成について説明する。
図6は、第2実施形態の一例としてのメモリ5のアドレスマップを示す図であり、図7は、第2実施形態の一例としてのTAG_CPメモリ42の構成を示す図である。なお、図7に示す例においては、各WAYのテーブルにおける1行が、1つのキャッシュタグデータに対応する。
第2実施形態におけるSC4内のTAG_CPメモリ42は、キャッシュタグデータを、図7に示す形態で管理する。
すなわち、TAG_CPメモリ42では、メモリ5の実アドレス(PA)のうちの41:19ビットがキャッシュタグデータの登録アドレスとして格納される。
さらに、TAG_CPメモリ42では、キャッシュタグデータのエラー訂正符号(ECC)が、7ビットのデータとしてキャッシュタグデータに付加される。
そして、上述した登録アドレス及びステータスを格納するTAG_CPメモリ42のアドレスには、メモリ5の実アドレスの一部であるインデックスが使用される。
従って、図6に示すメモリ5のアドレスマップにおいて、同じインデックスになるブロック(例えばA0及びB0)は、図7に示すように同じインデックスアドレスに割り当てられる。また、これら同じインデックスになるブロックは、順にWAY0、WAY1…WAY11に格納される。
また、SC4は、TAG_CPメモリ42においてCE又はUEが検出された場合、第1実施形態と同様の動作を行なうが、図8を参照しながら、より具体的な構成例について説明する。なお、図8において既述の符号と同一の符号は同一の部分若しくは略同一の部分を示しているため、重複した説明は省略する。
図8に例示するSC4は、第1実施形態におけるSC4に加えて、パイプ部47と、第1I/F(Interface)部48と、第2I/F部49とをさらに備える。
また、図8に例示するSC4は、第1実施形態におけるSC4に加えて、TAG_CPメモリ制御部41が比較器41aを備え、リクエスト制御部44がアドレス競合検査部45bを備え、レジスタ部46がレジスタ設定変更部46a及び構成制御レジスタ46bを備える。
パイプ部47は、コマンド制御部43からのリクエストをラッチ回路47a−1に入力するとともに、当該リクエストを、ラッチ回路47a−1からラッチ回路47a−2並びにTAG_CPメモリ制御部41及びアドレスロックレジスタ部45に対してそれぞれ出力する。
一方、TAG_CPメモリ制御部41及びアドレスロックレジスタ部45に入力されたリクエストは、TAG_CPメモリ制御部41において検索処理が行なわれ、キャッシュ検索結果としてラッチ回路47b−1に出力される。キャッシュ検索結果は、ラッチ回路47b−1〜47b−oを順に通過して、結果確定部47cに出力される。
第1I/F部48は、パイプ部47の結果確定部47cから出力されたリクエストを、結果確定部47cによって確定された転送先、例えば自SB2内のCPU3やメモリ5、又はXB9を経由して他のSB2内のSC4等へ送信する。
ここで、ラッチ回路47a−1〜47a−n及び47b−1〜47b−o並びに後述するラッチ回路40aは、例えばそれぞれがフリップフロップ(Flip-Flop)である。これらのラッチ回路47a−1〜47a−n及び47b−1〜47b−oにより、リクエストとキャッシュ検索結果とが結果確定部47cに入力されるタイミングの調整が行なわれる。
具体的には、図8に示すように、TAG_CPメモリ制御部41は、リクエストから抽出したインデックスに基づいて、TAG_CPメモリ42から同じインデックスの登録アドレスを抽出する。そして、TAG_CPメモリ制御部41は、リクエストから抽出した登録アドレス(図8中、上位PA[41:19]参照)と、TAG_CPメモリ42から抽出した登録アドレスとを比較器41aで比較し、一致するか否かを判定する。
なお、検索によりリクエストに係るキャッシュタグデータがTAG_CPメモリ42内でヒット又はミスヒットした場合、その後の処理の内容は、リクエストの内容とキャッシュタグデータのステータスとに応じて決定される。これらの処理の内容の決定は、既知の種々の手法に実現することができるため、ここではその詳細な説明は省略する。
なお、図8に示す例においては、リクエスト制御部44は、TAG_CPメモリ42においてUEが発生した場合、UEが発生したTAG_CPメモリ42のWAYの縮退処理を行なうため、レジスタ設定変更部46aに対して設定変更要求を通知する。
レジスタ設定変更部46aは、構成情報が保持されている構成制御レジスタ46bに対して、設定変更要求に基づいた縮退フラグの設定を行なう。
また、SC4は、例えばCE又はUEが発生した場合に、CE又はUEが発生したTAG_CPメモリ42において稼動しているWAY数が所定の数(例えば1)以下である場合には、CE又はUEが発生したTAG_CPメモリ42及び対応するCPU3自体の縮退を行なっても良い。
また、リクエスト制御部44は、CEが発生した回数をカウントし、CEの発生回数が所定の閾値よりも大きい場合に、CE検出リクエストをCPU3に通知しても良い。
なお、第2実施形態におけるCPU3においても、構成制御レジスタ(図示省略)が備えられており、運用管理部6は、CPU3が備える構成制御レジスタに対しても、設定変更を行なうことができる。
具体的には、図8に示すように、アドレスロックレジスタ部45は、コマンド制御部43から転送されるリクエスト内の実アドレスからフルアドレス(例えば、第2実施形態においては41:3ビット)とインデックスとを抽出し、抽出したフルアドレスをロックレジスタ45aに保持する。
なお、アドレス競合検査部45bは、図8に示す例においては、リクエスト制御部44内に備えられているが、アドレスロックレジスタ部45と結線されており、アドレスロックレジスタ部45の一機能として動作する。なお、アドレス競合検査部45bは、アドレスロックレジスタ部45内に備えられても良い。
このように、第2実施形態におけるアドレスロックレジスタ部45は、第1実施形態と同様に、コマンド制御部43から転送される後発リクエストに係る処理をキャンセル及びリトライさせて、処理中のリクエストと競合しないようにガードするガード機能を備える。
これにより、アドレス競合検査部45bは、後発リクエストに係るフルアドレス(PA[41:3])とUE検出リクエストにおける被疑箇所のフルアドレス(REG_ADRS[41:3])とが一致した場合、第1実施形態と同様に、後発リクエストのフルアドレスビジーをコマンド制御部43に通知する。
このように、第2実施形態におけるアドレスロックレジスタ部45は、第1実施形態と同様に、ガード機能により、処理中のリクエストと競合しないように後発リクエストに係る処理をガードするとともに、UEが発生した場合に被疑箇所をガードすることができる。
〔2−2〕第2実施形態の情報処理システムのCE又はUE発生時の動作
次に、上述の如く構成された情報処理システム1′におけるSC4のTAG_CPメモリ42でCE又はUEが発生した場合の縮退処理について説明する。
はじめに、図9に示すように、システムの運用中、TAG_CPメモリ42−2でエラーが発生し、TAG_CPメモリ制御部41−2によって検出された場合(ステップS11)、SC4により、検出されたエラーがCEであるか否かが判断される(ステップS12)。
CE発生数が所定の閾値以下であると判断された場合(ステップS13のNoルート)、リクエスト制御部44により、CE発生数をカウントするカウンタの値がインクリメントされ、情報処理システム1′の運用に戻る。
稼動しているWAY数が1よりも大きいと判断された場合(ステップS14のNoルート)、リクエスト制御部44からCEが発生したTAG_CPメモリ42−2に対応するCPU3−2に対して、CE通知リクエストが通知される(ステップS15)。なお、このリクエストには、ECCにより訂正された被疑箇所のインデックスと、WAY情報とが含まれる。
縮退処理完了通知を受けたリクエスト制御部44では、CEが発生したTAG_CPメモリ42−2のWAYに対して縮退処理が行なわれる(ステップS18)。そして、リクエスト制御部44により、運用管理部6に対して、CEに関するエラー情報が通知され(ステップS19)、運用管理部6の制御情報に故障情報が記録される(ステップS20)。その後、情報処理システム1′では、運用が継続される(ステップS21)。
割り込み通知後、運用管理部6では、自身で管理する制御情報に、被疑対象のTAG_CPメモリ42−2に対応したTAGメモリ32を有するCPU3−2を示す情報とWAY情報とが故障情報として記録される(ステップS23)。そして、運用管理部6により、情報処理システム1′で実行中のOSが再起動される(ステップS24)。
稼動しているWAY数が1よりも大きいと判断された場合(ステップS28のNoルート)、図4を用いて上述したステップS2〜S10の処理が行なわれる(ステップS29)。
次いで、リクエスト制御部44により、UEが検出されたTAG_CPメモリ42−2に対応するCPU3−2に対して、UE通知リクエストが通知される(ステップS3)。
また、リクエスト制御部44により、SC4内で被疑箇所に対応したWAYの縮退処理が行なわれる(ステップS6)。
そして、リクエスト制御部44により、運用管理部6に対して、UEに関するエラー情報が割り込み通知される(ステップS8)。
一方、ステップS28において、リクエスト制御部44により、稼動しているWAY数が1以下と判断された場合(ステップS28のYesルート)、リクエスト制御部44から運用管理部6に対して、UEが発生し、CPU3−2の縮退処理を行なうことが割り込み通知される(ステップS22)。以降、UEが発生したTAG_CPメモリ42に対応するCPU3−2について、上述したステップS23以降の処理が行なわれる。
また、第2実施形態の一例としての情報処理システム1′によれば、リクエスト制御部44により、CEの発生回数がカウントされ、CEの発生回数が所定の閾値よりも大きい場合に、CE検出リクエストがCPU3に通知される。
〔3〕その他
以上、本発明の好ましい実施形態及び変形例について詳述したが、本発明は、かかる特定の実施形態及び変形例に限定されるものではなく、本発明の趣旨を逸脱しない範囲内において、種々の変形、変更して実施することができる。
また、上述した第1及び第2実施形態においては、UEが検出されたリクエストについては、CPU3及びSC4における対象のWAYの縮退処理が完了するまでは処理を保留するが、これに限定されるものではない。例えば、SC4は、UEが検出された際に、キャッシュタグデータから、他のCPU3、つまりUEが検出されたTAG_CPメモリ42に対応するCPU3とは異なるCPU3に最新のデータがあることが確認できた場合、UE検出リクエストに対しては通常通り処理を行なっても良い。なお、他のCPUに最新のデータがある場合は、UEが検出されたリクエストに対する他WAYのTAG_CPメモリ42のキャッシュタグデータのステータスは、MOSIプロトコルにおいては、例えば“M”又は“O”である。
上述のように、UEが発生したTAG_CPメモリ42に対応するCPU3と、UE検出リクエストの要求元のCPU3及び最新データを保持しているCPU3とが異なるCPUの場合には、UE検出リクエストの保留による処理遅延を防ぐことができる。
〔4〕付記
以上の第1及び第2実施形態に関し、更に以下の付記を開示する。
(付記1)
キャッシュメモリ及び第1タグメモリを有する演算処理装置と、前記演算処理装置と他の処理装置との通信制御を行なうシステムコントローラとを有する情報処理装置であって、
前記システムコントローラは、
前記演算処理装置から受信したリクエストを保持し、当該リクエストが要求先において処理されなかった場合に当該リクエストを再発行するコマンド制御部と、
前記第1タグメモリに記憶されるデータの複製データを保持する第2タグメモリと、
前記第2タグメモリから読み出されたデータが訂正不可能なエラーであるUE(Uncorrectable Error)を起こした場合に、前記UEが発生した第2タグメモリのウェイ情報を前記演算処理装置に通知するリクエスト制御部とを有し、
前記演算処理装置は、前記リクエスト制御部から前記UEが発生した通知を受けると、当該UEが発生した前記第2タグメモリのウェイに対応する前記第1タグメモリのウェイを縮退させて、前記第1タグメモリのウェイの縮退処理が完了したことを前記リクエスト制御部へ通知し、
前記リクエスト制御部は、前記UEが発生した場合に、前記第2タグメモリのUEが発生したウェイを縮退させるとともに、前記演算処理装置から、前記第1タグメモリの縮退処理が完了した旨の通知を受信した後、前記コマンド制御部に当該UEに係るリクエストを再発行させる指示を行なうことを特徴とする、情報処理装置。
(付記2)
前記リクエスト制御部は、前記UEが発生した場合に、前記コマンド制御部に対して前記UEに係るリクエストを保留させる指示を行なうことを特徴とする、付記1記載の情報処理装置。
(付記3)
前記システムコントローラは、
前記UEが発生した場合に、前記演算処理装置から前記第1タグメモリの縮退処理が完了した旨の通知を受信するとともに、前記第2タグメモリのUEが発生したウェイを縮退させるまでは、他のリクエストによる前記第2タグメモリの当該UEが発生したデータへのアクセスを抑止するアドレスロックレジスタ部を有することを特徴とする、付記1又は付記2記載の情報処理装置。
(付記4)
前記アドレスロックレジスタ部は、
リクエスト内のアドレス情報を保持するロックレジスタを備えるとともに、
前記UEが発生した場合に、当該UEに係るリクエスト内のアドレス情報を抽出し、抽出したアドレス情報を前記ロックレジスタに保持させ、当該UEに係るリクエストの後発リクエスト内のアドレス情報が、前記ロックレジスタに保持された前記UEに係るリクエスト内の前記アドレス情報と一致した場合、前記コマンド制御部に対して当該後発リクエストを再発行させる指示を行なうことを特徴とする、付記3記載の情報処理装置。
(付記5)
前記システムコントローラは、
前記第2タグメモリのウェイを縮退することを示す縮退フラグを保持するレジスタ部を有し、
前記リクエスト制御部は、前記レジスタ部に対して、UEが発生した前記第2タグメモリのウェイに係る縮退フラグを設定することにより、前記第2タグメモリのUEが発生したウェイを縮退させることを特徴とする、付記1〜4のいずれか1項記載の情報処理装置。
(付記6)
前記情報処理装置は、前記キャッシュメモリ及び前記第1タグメモリを有する前記演算処理装置を複数備え、
前記システムコントローラは、前記複数の演算処理装置にそれぞれ備えられた前記複数の第1タグメモリに対応して、前記第2タグメモリを複数備えることを特徴とする、付記1〜5のいずれか1項記載の情報処理装置。
(付記7)
前記情報処理装置は、
前記情報処理装置に係る制御を行なう運用管理部を有し、
前記リクエスト制御部は、前記第2タグメモリのUEが発生したウェイを縮退させた後、前記運用管理部に対して、前記UEに関するエラー情報を通知し、
前記運用管理部は、前記リクエスト制御部からの通知に基づいて、縮退されたウェイに関する情報を保持するとともに、前記情報処理装置において実行されるOS(Operating System)が再起動した場合に、保持している縮退させたウェイに関する情報に基づいて、前記第1及び第2タグメモリの当該ウェイを縮退させることを特徴とする、付記1〜6のいずれか1項記載の情報処理装置。
(付記8)
前記リクエスト制御部は、前記第2タグメモリにおいてUEが発生した際に稼働中のウェイが所定の数以下である場合、前記運用管理部に対して、当該UEが発生した前記第2タグメモリのウェイに対応する前記第1タグメモリを有する演算処理装置を示す情報を通知し、
前記運用管理部は、前記リクエスト制御部から通知された前記演算処理装置を示す情報を保持するとともに、前記情報処理装置において実行されるOSを再起動させ、保持している前記演算処理装置を示す情報に基づいて、当該演算処理装置を縮退させることを特徴とする、付記7記載の情報処理装置。
(付記9)
前記リクエスト制御部は、前記第2タグメモリから読み出されたデータが訂正可能なエラーであるCE(Correctable Error)を起こした場合に、前記CEが発生した第2タグメモリのウェイ情報を前記演算処理装置に通知し、
前記演算処理装置は、前記リクエスト制御部から前記CEが発生した通知を受けると、当該CEが発生した前記第2タグメモリのウェイに対応する前記第1タグメモリのウェイを縮退させて、前記第1タグメモリのウェイの縮退処理が完了したことを前記リクエスト制御部へ通知し、
前記リクエスト制御部は、前記CEが発生した場合に、前記第2タグメモリのCEが発生したウェイを縮退させることを特徴とする、付記7記載の情報処理装置。
(付記10)
前記リクエスト制御部は、前記第2タグメモリにおいてCEが発生した際に稼働中のウェイが所定の数以下である場合、前記運用管理部に対して、当該CEが発生した前記第2タグメモリのウェイに対応する前記第1タグメモリを有する演算処理装置を示す情報を通知し、
前記運用管理部は、前記リクエスト制御部から通知された前記演算処理装置を示す情報を保持するとともに、前記情報処理装置において実行されるOSを再起動させ、保持している前記演算処理装置を示す情報に基づいて、当該演算処理装置を縮退させることを特徴とする、付記9記載の情報処理装置。
(付記11)
キャッシュメモリ及び第1タグメモリを有する演算処理装置と、前記演算処理装置と他の処理装置との通信制御を行なうシステムコントローラとを有する情報処理装置のキャッシュ制御方法であって、
前記システムコントローラにおいて、
前記第1タグメモリに記憶されるデータの複製データを保持する第2タグメモリから読み出されたデータが訂正不可能なエラーであるUE(Uncorrectable Error)を起こした場合に、前記UEが発生した前記第2タグメモリのウェイ情報を前記演算処理装置に通知し、
前記演算処理装置において、
前記UEが発生した通知を受けると、当該UEが発生した前記第2タグメモリのウェイに対応する前記第1タグメモリのウェイを縮退させて、前記第1タグメモリのウェイの縮退処理が完了したことを前記システムコントローラへ通知して、
前記システムコントローラにおいて、
前記第2タグメモリのUEが発生したウェイを縮退するとともに、前記演算処理装置から、前記第1タグメモリの縮退処理が完了した旨の通知を受信した後、当該UEに係るリクエストを再発行させることを特徴とする、情報処理装置のキャッシュ制御方法。
(付記12)
前記システムコントローラにおいて、
前記第2タグメモリから読み出されたデータが前記UEを起こした場合に、前記UEに係るリクエストを保留させることを特徴とする、付記11記載の情報処理装置のキャッシュ制御方法。
(付記13)
前記システムコントローラにおいて、
前記演算処理装置から前記第1タグメモリの縮退処理が完了した旨の通知を受信するとともに、前記第2タグメモリのUEが発生したウェイを縮退させるまでは、他のリクエストによる前記第2タグメモリの当該UEが発生したデータへのアクセスを抑止することを特徴とする、付記11又は付記12記載の情報処理装置のキャッシュ制御方法。
(付記14)
前記システムコントローラにおいて、
前記UEが発生した場合に、当該UEに係るリクエスト内のアドレス情報を抽出し、抽出したアドレス情報を保持するとともに、当該UEに係るリクエストの後発リクエスト内のアドレス情報が、前記保持している前記UEに係るリクエスト内の前記アドレス情報と一致した場合、当該後発リクエストを再発行させることを特徴とする、付記13記載の情報処理装置のキャッシュ制御方法。
(付記15)
前記システムコントローラにおいて、
前記UEが発生した場合に、前記システムコントローラが備えるレジスタ部に対して、UEが発生した前記第2タグメモリのウェイを縮退することを示す縮退フラグを設定することにより、前記第2タグメモリのUEが発生したウェイを縮退することを特徴とする、付記11〜14のいずれか1項記載の情報処理装置のキャッシュ制御方法。
(付記16)
前記情報処理装置は、前記キャッシュメモリ及び前記第1タグメモリを有する前記演算処理装置を複数備え、
前記システムコントローラは、前記複数の演算処理装置にそれぞれ備えられた前記複数の第1タグメモリに対応して、前記第2タグメモリを複数備えることを特徴とする、付記11〜15のいずれか1項記載の情報処理装置のキャッシュ制御方法。
(付記17)
前記情報処理装置は、
前記情報処理装置に係る制御を行なう運用管理部を有し、
前記システムコントローラにおいて、
前記第2タグメモリのUEが発生したウェイを縮退させた後、前記運用管理部に対して、前記UEに関するエラー情報を通知し、
前記運用管理部において、
前記システムコントローラからの通知に基づいて、縮退されたウェイに関する情報を保持するとともに、前記情報処理装置において実行されるOS(Operating System)が再起動した場合に、保持している縮退させたウェイに関する情報に基づいて、前記第1及び第2タグメモリの当該ウェイを縮退させることを特徴とする、付記11〜16のいずれか1項記載の情報処理装置のキャッシュ制御方法。
(付記18)
前記システムコントローラにおいて、
前記第2タグメモリにおいてUEが発生した際に稼働中のウェイが所定の数以下である場合、前記運用管理部に対して、当該UEが発生した前記第2タグメモリのウェイに対応する前記第1タグメモリを有する演算処理装置を示す情報を通知し、
前記運用管理部において、
前記システムコントローラから通知された前記演算処理装置を示す情報を保持するとともに、前記情報処理装置において実行されるOSを再起動させ、保持している前記演算処理装置を示す情報に基づいて、当該演算処理装置を縮退させることを特徴とする、付記17記載の情報処理装置のキャッシュ制御方法。
(付記19)
前記システムコントローラにおいて、
前記第2タグメモリから読み出されたデータが訂正可能なエラーであるCE(Correctable Error)を起こした場合に、前記CEが発生した第2タグメモリのウェイ情報を前記演算処理装置に通知し、
前記演算処理装置において、
前記システムコントローラから前記CEが発生した通知を受けると、当該CEが発生した前記第2タグメモリのウェイに対応する前記第1タグメモリのウェイを縮退させて、前記第1タグメモリのウェイの縮退処理が完了したことを前記システムコントローラへ通知し、
前記システムコントローラにおいて、
前記CEが発生した場合に、前記第2タグメモリのCEが発生したウェイを縮退させることを特徴とする、付記17記載の情報処理装置のキャッシュ制御方法。
(付記20)
前記システムコントローラにおいて、
前記第2タグメモリにおいてCEが発生した際に稼働中のウェイが所定の数以下である場合、前記運用管理部に対して、当該CEが発生した前記第2タグメモリのウェイに対応する前記第1タグメモリを有する演算処理装置を示す情報を通知し、
前記運用管理部において、
前記システムコントローラから通知された前記演算処理装置を示す情報を保持するとともに、前記情報処理装置において実行されるOSを再起動させ、保持している前記演算処理装置を示す情報に基づいて、当該演算処理装置を縮退させることを特徴とする、付記19記載の情報処理装置のキャッシュ制御方法。
2 SB
3,3−1,3−2,3−3,3−4 CPU(演算処理装置)
300,300−1,300−2,300−3,300−4 CPU
31,31−1,31−2,31−3,31−4 CM(キャッシュメモリ)
310−1,310−2,310−3,310−4 CM(キャッシュメモリ)
32,32−1,32−2,32−3,32−4 TAGメモリ(第1タグメモリ)
320−1,320−2,320−3,320−4 TAGメモリ
4,400 SC(システムコントローラ)
40a ラッチ回路
41,41−1,41−2,41−3,41−4 TAG_CPメモリ制御部
41a 比較器
42,42−1,42−2,42−3,42−4 TAG_CPメモリ(第2タグメモリ)
420,420−1,420−2,420−3,420−4 TAG_CPメモリ
43 コマンド制御部
43a キュー
44 リクエスト制御部
45 アドレスロックレジスタ部
45a ロックレジスタ
45b アドレス競合検査部
45ba 比較器
46 レジスタ部
46a レジスタ設定変更部
46b 構成制御レジスタ
47 パイプ部
47a−1〜47a−n,47b−1〜47b−o ラッチ回路
47c 結果確定部
48 第1I/F部
49 第2I/F部
5,500 メモリ
6,600 運用管理部
7 記憶部
8 XBU
9 XB
Claims (10)
- キャッシュメモリ及び第1タグメモリを有する演算処理装置と、前記演算処理装置と他の処理装置との通信制御を行なうシステムコントローラとを有する情報処理装置であって、
前記システムコントローラは、
前記演算処理装置から受信したリクエストを保持し、当該リクエストが要求先において処理されなかった場合に当該リクエストを再発行するコマンド制御部と、
前記第1タグメモリに記憶されるデータの複製データを保持する第2タグメモリと、
前記第2タグメモリから読み出されたデータが訂正不可能なエラーであるUE(Uncorrectable Error)を起こした場合に、前記UEが発生した第2タグメモリのウェイ情報を前記演算処理装置に通知するリクエスト制御部とを有し、
前記演算処理装置は、前記リクエスト制御部から前記UEが発生した通知を受けると、当該UEが発生した前記第2タグメモリのウェイに対応する前記第1タグメモリのウェイを縮退させて、前記第1タグメモリのウェイの縮退処理が完了したことを前記リクエスト制御部へ通知し、
前記リクエスト制御部は、前記UEが発生した場合に、前記第2タグメモリのUEが発生したウェイを縮退させるとともに、前記演算処理装置から、前記第1タグメモリの縮退処理が完了した旨の通知を受信した後、前記コマンド制御部に当該UEに係るリクエストを再発行させる指示を行なうことを特徴とする、情報処理装置。 - 前記リクエスト制御部は、前記UEが発生した場合に、前記コマンド制御部に対して前記UEに係るリクエストを保留させる指示を行なうことを特徴とする、請求項1記載の情報処理装置。
- 前記システムコントローラは、
前記UEが発生した場合に、前記演算処理装置から前記第1タグメモリの縮退処理が完了した旨の通知を受信するとともに、前記第2タグメモリのUEが発生したウェイを縮退させるまでは、他のリクエストによる前記第2タグメモリの当該UEが発生したデータへのアクセスを抑止するアドレスロックレジスタ部を有することを特徴とする、請求項1又は請求項2記載の情報処理装置。 - 前記アドレスロックレジスタ部は、
リクエスト内のアドレス情報を保持するロックレジスタを備えるとともに、
前記UEが発生した場合に、当該UEに係るリクエスト内のアドレス情報を抽出し、抽出したアドレス情報を前記ロックレジスタに保持させ、当該UEに係るリクエストの後発リクエスト内のアドレス情報が、前記ロックレジスタに保持された前記UEに係るリクエスト内の前記アドレス情報と一致した場合、前記コマンド制御部に対して当該後発リクエストを再発行させる指示を行なうことを特徴とする、請求項3記載の情報処理装置。 - 前記システムコントローラは、
前記第2タグメモリのウェイを縮退することを示す縮退フラグを保持するレジスタ部を有し、
前記リクエスト制御部は、前記レジスタ部に対して、UEが発生した前記第2タグメモリのウェイに係る縮退フラグを設定することにより、前記第2タグメモリのUEが発生したウェイを縮退させることを特徴とする、請求項1〜4のいずれか1項記載の情報処理装置。 - 前記情報処理装置は、
前記情報処理装置に係る制御を行なう運用管理部を有し、
前記リクエスト制御部は、前記第2タグメモリのUEが発生したウェイを縮退させた後、前記運用管理部に対して、前記UEに関するエラー情報を通知し、
前記運用管理部は、前記リクエスト制御部からの通知に基づいて、縮退されたウェイに関する情報を保持するとともに、前記情報処理装置において実行されるOS(Operating System)が再起動した場合に、保持している縮退させたウェイに関する情報に基づいて、前記第1及び第2タグメモリの当該ウェイを縮退させることを特徴とする、請求項1〜5のいずれか1項記載の情報処理装置。 - 前記リクエスト制御部は、前記第2タグメモリにおいてUEが発生した際に稼働中のウェイが所定の数以下である場合、前記運用管理部に対して、当該UEが発生した前記第2タグメモリのウェイに対応する前記第1タグメモリを有する演算処理装置を示す情報を通知し、
前記運用管理部は、前記リクエスト制御部から通知された前記演算処理装置を示す情報を保持するとともに、前記情報処理装置において実行されるOSを再起動させ、保持している前記演算処理装置を示す情報に基づいて、当該演算処理装置を縮退させることを特徴とする、請求項6記載の情報処理装置。 - 前記リクエスト制御部は、前記第2タグメモリから読み出されたデータが訂正可能なエラーであるCE(Correctable Error)を起こした場合に、前記CEが発生した第2タグメモリのウェイ情報を前記演算処理装置に通知し、
前記演算処理装置は、前記リクエスト制御部から前記CEが発生した通知を受けると、当該CEが発生した前記第2タグメモリのウェイに対応する前記第1タグメモリのウェイを縮退させて、前記第1タグメモリのウェイの縮退処理が完了したことを前記リクエスト制御部へ通知し、
前記リクエスト制御部は、前記CEが発生した場合に、前記第2タグメモリのCEが発生したウェイを縮退させることを特徴とする、請求項6記載の情報処理装置。 - 前記リクエスト制御部は、前記第2タグメモリにおいてCEが発生した際に稼働中のウェイが所定の数以下である場合、前記運用管理部に対して、当該CEが発生した前記第2タグメモリのウェイに対応する前記第1タグメモリを有する演算処理装置を示す情報を通知し、
前記運用管理部は、前記リクエスト制御部から通知された前記演算処理装置を示す情報を保持するとともに、前記情報処理装置において実行されるOSを再起動させ、保持している前記演算処理装置を示す情報に基づいて、当該演算処理装置を縮退させることを特徴とする、請求項8記載の情報処理装置。 - キャッシュメモリ及び第1タグメモリを有する演算処理装置と、前記演算処理装置と他の処理装置との通信制御を行なうシステムコントローラとを有する情報処理装置のキャッシュ制御方法であって、
前記システムコントローラにおいて、
前記第1タグメモリに記憶されるデータの複製データを保持する第2タグメモリから読み出されたデータが訂正不可能なエラーであるUE(Uncorrectable Error)を起こした場合に、前記UEが発生した前記第2タグメモリのウェイ情報を前記演算処理装置に通知し、
前記演算処理装置において、
前記UEが発生した通知を受けると、当該UEが発生した前記第2タグメモリのウェイに対応する前記第1タグメモリのウェイを縮退させて、前記第1タグメモリのウェイの縮退処理が完了したことを前記システムコントローラへ通知して、
前記システムコントローラにおいて、
前記第2タグメモリのUEが発生したウェイを縮退するとともに、前記演算処理装置から、前記第1タグメモリの縮退処理が完了した旨の通知を受信した後、当該UEに係るリクエストを再発行させることを特徴とする、情報処理装置のキャッシュ制御方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2011/055488 WO2012120660A1 (ja) | 2011-03-09 | 2011-03-09 | 情報処理装置,及びキャッシュ制御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2012120660A1 JPWO2012120660A1 (ja) | 2014-07-07 |
JP5630565B2 true JP5630565B2 (ja) | 2014-11-26 |
Family
ID=46797663
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013503290A Expired - Fee Related JP5630565B2 (ja) | 2011-03-09 | 2011-03-09 | 情報処理装置,及びキャッシュ制御方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20140006721A1 (ja) |
JP (1) | JP5630565B2 (ja) |
WO (1) | WO2012120660A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9646869B2 (en) | 2010-03-02 | 2017-05-09 | Micron Technology, Inc. | Semiconductor devices including a diode structure over a conductive strap and methods of forming such semiconductor devices |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007097019A1 (ja) * | 2006-02-27 | 2007-08-30 | Fujitsu Limited | キャッシュ制御装置およびキャッシュ制御方法 |
JP2008046701A (ja) * | 2006-08-11 | 2008-02-28 | Nec Computertechno Ltd | マルチプロセッサシステム及びその動作方法 |
JP2008052550A (ja) * | 2006-08-25 | 2008-03-06 | Nec Computertechno Ltd | マルチプロセッサシステム及びメモリコントロール/コヒーレンシ制御装置並びにコヒーレンシ保証方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007097027A1 (ja) * | 2006-02-27 | 2007-08-30 | Fujitsu Limited | 縮退制御装置および縮退制御プログラム |
-
2011
- 2011-03-09 JP JP2013503290A patent/JP5630565B2/ja not_active Expired - Fee Related
- 2011-03-09 WO PCT/JP2011/055488 patent/WO2012120660A1/ja active Application Filing
-
2013
- 2013-09-06 US US14/020,120 patent/US20140006721A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007097019A1 (ja) * | 2006-02-27 | 2007-08-30 | Fujitsu Limited | キャッシュ制御装置およびキャッシュ制御方法 |
JP2008046701A (ja) * | 2006-08-11 | 2008-02-28 | Nec Computertechno Ltd | マルチプロセッサシステム及びその動作方法 |
JP2008052550A (ja) * | 2006-08-25 | 2008-03-06 | Nec Computertechno Ltd | マルチプロセッサシステム及びメモリコントロール/コヒーレンシ制御装置並びにコヒーレンシ保証方法 |
Also Published As
Publication number | Publication date |
---|---|
US20140006721A1 (en) | 2014-01-02 |
JPWO2012120660A1 (ja) | 2014-07-07 |
WO2012120660A1 (ja) | 2012-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9065706B2 (en) | Information processing apparatus, computer-readable recording medium, and control method | |
EP2673711B1 (en) | Method and system for reducing write latency for database logging utilizing multiple storage devices | |
US7343515B1 (en) | System and method for performing error recovery in a data processing system having multiple processing partitions | |
US6594785B1 (en) | System and method for fault handling and recovery in a multi-processing system having hardware resources shared between multiple partitions | |
US9798577B2 (en) | Transactional storage accesses supporting differing priority levels | |
US8190951B2 (en) | Handling of errors in a data processing apparatus having a cache storage and a replicated address storage | |
US8856588B2 (en) | Information processing apparatus, control method, and computer-readable recording medium | |
US9389973B2 (en) | Memory error propagation for faster error recovery | |
TWI428742B (zh) | 用於本地代理器資料及記憶體管理的裝置、方法及系統 | |
US10613792B2 (en) | Efficient enforcement of barriers with respect to memory move sequences | |
JPH0239254A (ja) | データ処理システム及びそのキヤツシユ記憶システム | |
BR112016021217B1 (pt) | Aumento de protocolo de coerência para indicar o estado da transação | |
US9977742B2 (en) | Cache coherency | |
US8826097B2 (en) | Memory scrubbing | |
US10152322B2 (en) | Memory move instruction sequence including a stream of copy-type and paste-type instructions | |
US20110320863A1 (en) | Dynamic re-allocation of cache buffer slots | |
KR100406575B1 (ko) | 멀티프로세서 데이터 처리 시스템에서 복구 불가능한에러를 허용하는 방법 및 장치 | |
US10346164B2 (en) | Memory move instruction sequence targeting an accelerator switchboard | |
US9727489B1 (en) | Counter-based victim selection in a cache memory | |
TWI451242B (zh) | 具有分散式快取記憶體之多處理器系統的容錯 | |
EP2105838B1 (en) | Cache control apparatus, information processing apparatus, and cache control method | |
JP2010231619A (ja) | 情報処理装置 | |
JP5630565B2 (ja) | 情報処理装置,及びキャッシュ制御方法 | |
US9727488B1 (en) | Counter-based victim selection in a cache memory | |
US20180052607A1 (en) | Migration of memory move instruction sequences between hardware threads |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140624 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140819 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140909 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140922 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5630565 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |