JP4378386B2 - キャッシュウェイ縮退監視装置、キャッシュウェイ縮退監視方法およびキャッシュウェイ縮退監視プログラム - Google Patents

キャッシュウェイ縮退監視装置、キャッシュウェイ縮退監視方法およびキャッシュウェイ縮退監視プログラム Download PDF

Info

Publication number
JP4378386B2
JP4378386B2 JP2007046098A JP2007046098A JP4378386B2 JP 4378386 B2 JP4378386 B2 JP 4378386B2 JP 2007046098 A JP2007046098 A JP 2007046098A JP 2007046098 A JP2007046098 A JP 2007046098A JP 4378386 B2 JP4378386 B2 JP 4378386B2
Authority
JP
Japan
Prior art keywords
cache
monitoring
usage rate
cpu usage
degeneration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007046098A
Other languages
English (en)
Other versions
JP2008210142A (ja
Inventor
忠士 中野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2007046098A priority Critical patent/JP4378386B2/ja
Priority to US12/000,915 priority patent/US20080209102A1/en
Publication of JP2008210142A publication Critical patent/JP2008210142A/ja
Application granted granted Critical
Publication of JP4378386B2 publication Critical patent/JP4378386B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0864Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches using pseudo-associative means, e.g. set-associative or hashing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/60Details of cache memory
    • G06F2212/601Reconfiguration of cache memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/60Details of cache memory
    • G06F2212/608Details relating to cache mapping
    • G06F2212/6082Way prediction in set-associative cache

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Memory System Of A Hierarchy Structure (AREA)
  • Debugging And Monitoring (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Description

この発明は、複数のウェイで構成されるキャッシュの縮退を制御し、当該縮退制御されたキャッシュの障害状況を監視するキャッシュウェイ縮退監視装置、キャッシュウェイ縮退監視方法およびキャッシュウェイ縮退監視プログラムに関する。
従来より、ブロック(Block)と呼ばれる記憶単位をインデックス数分含んだウェイ(Way)を並列に設けられたウェイ構成のキャッシュメモリが知られている。このようなキャッシュメモリを縮退制御(データ格納領域のいずれかを使用不可能な状態に制御)する技術が実施されている。
具体的には、キャッシュメモリ内に発生した訂正可能なエラーの回数をウェイごとにカウントしておき、そのエラー回数が所定の閾値に達したウェイを縮退制御する(例えば、特許文献1参照)。そして、このような縮退制御がなされたキャッシュメモリのマルチプロセッサシステムを停止して、ボード交換を行う復旧作業を実施する。
特開平2−302856号公報
ところで、上記した特許文献1の技術では、縮退制御がなされると、サービス提供が可能な状態(例えば、CPU使用率が低い状態)でもボード交換を行うこととなり、システムの稼動を継続できないという課題があった。
そこで、この発明は、上述した従来技術の課題を解決するためになされたものであり、キャッシュメモリの状態に応じて、システムの稼動を継続して運転することを目的とする。
上述した課題を解決し、目的を達成するため、請求項1に係る発明は、複数のウェイで構成されるキャッシュの縮退を制御し、当該縮退制御されたキャッシュの障害状況を監視するキャッシュウェイ縮退監視装置であって、CPUが使用されている割合を示すCPU使用率を計測するCPU使用率計測手段と、前記キャッシュにヒットした回数を示すキャッシュヒット数を計測するキャッシュヒット数計測手段と、キャッシュの縮退が発生した場合には、前記CPU使用率計測手段によって計測された前記CPU使用率と、前記キャッシュヒット数計測手段によって計測された前記キャッシュヒット数とが所定の閾値を超えているか否かを監視する監視手段と、を備えることを特徴とする。
また、請求項2に係る発明は、上記の発明において、前記CPU使用率計測手段によって計測された前記CPU使用率をハードウェア内のCPU使用率格納部に格納するCPU使用率格納手段と、前記キャッシュヒット数計測手段によって計測された前記キャッシュヒット数をハードウェア内のキャッシュヒット数格納部に格納するキャッシュヒット数格納手段とをさらに備え、前記監視手段は、前記CPU使用率格納部に格納された前記CPU使用率と、前記キャッシュヒット数格納部に格納された前記キャッシュヒット数とが所定の閾値を超えているか否かを監視することを特徴とする。
また、請求項3に係る発明は、上記の発明において、前記監視手段によって監視された前記CPU使用率および前記キャッシュヒット数が前記所定の閾値に近い場合には、前記監視手段の監視周期をソフトウェアに基づき段階的に変更する周期変更手段をさらに備え、前記監視手段は、前記周期変更手段によって変更された前記監視周期に基づいて、前記CPU使用率および前記キャッシュヒット数が所定の閾値を超えているか否かを監視することを特徴とする。
また、請求項4に係る発明は、上記の発明において、前記監視手段によって監視された前記CPU使用率および前記キャッシュヒット数が前記所定の閾値に近い場合には、前記監視手段の監視周期をハードウェアが段階的に変更する周期変更手段をさらに備え、前記監視手段は、前記周期変更手段によって変更された前記監視周期に基づいて、前記CPU使用率および前記キャッシュヒット数が所定の閾値を超えているか否かを監視することを特徴とする。
また、請求項5に係る発明は、複数のウェイで構成されるキャッシュの縮退を制御し、当該縮退制御されたキャッシュの障害状況を監視するキャッシュウェイ縮退監視方法であって、CPUが使用されている割合を示すCPU使用率を計測するCPU使用率計測工程と、前記キャッシュにヒットした回数を示すキャッシュヒット数を計測するキャッシュヒット数計測工程と、キャッシュの縮退が発生した場合には、前記CPU使用率計測工程によって計測された前記CPU使用率と、前記キャッシュヒット数計測工程によって計測された前記キャッシュヒット数とが所定の閾値を超えているか否かを監視する監視工程と、を含んだことを特徴とする。
また、請求項6に係る発明は、複数のウェイで構成されるキャッシュの縮退を制御し、当該縮退制御されたキャッシュの障害状況を監視するキャッシュウェイ縮退監視方法をコンピュータに実行させるキャッシュウェイ縮退監視プログラムであって、CPUが使用されている割合を示すCPU使用率を計測するCPU使用率計測手順と、前記キャッシュにヒットした回数を示すキャッシュヒット数を計測するキャッシュヒット数計測手順と、キャッシュの縮退が発生した場合には、前記CPU使用率計測手順によって計測された前記CPU使用率と、前記キャッシュヒット数計測手順によって計測された前記キャッシュヒット数とが所定の閾値を超えているか否かを監視する監視手順と、をコンピュータに実行させることを特徴とする。
請求項1、5または6の発明によれば、CPUが使用されている割合を示すCPU使用率を計測し、キャッシュにヒットした回数を示すキャッシュヒット数を計測し、キャッシュの縮退が発生した場合には、計測されたCPU使用率と、計測されたキャッシュヒット数とが所定の閾値を超えているか否かを監視するので、例えば、キャッシュ縮退状態であっても、サービスの負荷状態が低負荷状態(CPUの使用率が低い状態)である場合には、システムの稼動を停止しない結果、キャッシュおよびCPUの状況に応じて、キャッシュが使えない状態(システムとしての処理能力を満足できない状態)を判定し、システムの稼動を継続するべきか適切な判断をすることが可能である。
また、請求項2の発明によれば、計測されたCPU使用率をハードウェア内のCPU使用率格納部に格納し、計測されたキャッシュヒット数をハードウェア内のキャッシュヒット数格納部に格納し、CPU使用率格納部に格納されたCPU使用率と、キャッシュヒット数格納部に格納されたキャッシュヒット数とが所定の閾値を超えているか否かを監視するので、ハードウェアが自立して、システムの稼動を継続するべきか否かの判断をすることが可能である。
また、請求項3の発明によれば、監視されたCPU使用率およびキャッシュヒット数が所定の閾値に近い場合には、監視周期をソフトウェアに基づき段階的に変更し、変更された監視周期に基づいて、CPU使用率およびキャッシュヒット数が所定の閾値を超えているか否かを監視するので、例えば、キャッシュの縮退が頻繁に発生するような場合には、監視周期を短くする結果、システムのサービスが満足できない状態になる前に、ソフトウェアによる迅速な障害検出が可能である。
また、請求項4の発明によれば、監視されたCPU使用率およびキャッシュヒット数が所定の閾値に近い場合には監視周期をハードウェアが段階的に変更し、変更された監視周期に基づいて、CPU使用率およびキャッシュヒット数が所定の閾値を超えているか否かを監視するので、例えば、キャッシュの縮退が頻繁に発生するような場合には、監視周期を短くする結果、システムのサービスが満足できない状態になる前に、ハードウェアによる迅速な障害検出が可能である。
以下に添付図面を参照して、この発明に係るキャッシュウェイ縮退監視装置、キャッシュウェイ縮退監視方法およびキャッシュウェイ縮退監視プログラムの実施例を詳細に説明する。
以下の実施例では、実施例1に係るキャッシュウェイ縮退監視装置の概要および特徴、キャッシュウェイ縮退監視装置の構成および処理の流れを順に説明し、最後に実施例1による効果を説明する。
[実施例1に係るキャッシュウェイ縮退監視装置の概要および特徴]
まず最初に、図1を用いて、実施例1に係るキャッシュウェイ縮退監視装置の概要および特徴を説明する。図1は、実施例1に係るキャッシュウェイ縮退監視装置の概要および特徴を説明するための図である。
実施例1のキャッシュウェイ縮退監視装置1では、複数のウェイで構成されるキャッシュの縮退を制御し、当該縮退制御されたキャッシュの障害状況を監視することを概要とする。そして、このキャッシュウェイ縮退監視装置1では、キャッシュおよびCPUの状況に応じて、システムの稼動を継続するべきか適切な判断をする点に主たる特徴がある。
この主たる特徴について具体的に説明すると、キャッシュウェイ縮退監視装置1は、ハードウェアを制御およびソフトウェア処理を行なうソフトウェア(周期監視スレッド)10と、縮退制御やキャッシュヒットカウント計測を行うハードウェア20とで構成される。
このソフトウェア10は、キャッシュの縮退によるサービスの限界を予めテーブルとして記憶する閾値情報テーブル(後に図4を用いて詳述)15を備える。また、ハードウェア20は、ハードウェア20によって計測されたキャッシュ縮退の情報を記憶するキャッシュウェイ状態レジスタ23と、ハードウェア20によって計測されたキャッシュヒット数を記憶するキャッシュヒットカウンタ24とを記憶する。
このような構成のもと、キャッシュウェイ縮退監視装置1のソフトウェア10は、CPUが使用されている割合を示すCPU使用率を計測する(図1の(1)参照)。具体的には、ソフトウェア10は、ソフトウェア10のサービス処理が行なわれているかをアイドルスレッドの動作時間より計測する。
また、キャッシュウェイ縮退監視装置1のハードウェア20は、キャッシュにヒットした回数を示すキャッシュヒット数を計測する(図1の(2)参照)。具体的には、ハードウェア20は、アクセスを受け付けたデータがキャッシュ内にある場合には、キャッシュヒットカウンタをインクリメントする。
そして、ソフトウェア10は、キャッシュの縮退が発生した場合には(図1の(3)参照)、計測されたCPU使用率と、ハードウェア20によって計測されたキャッシュヒット数とが所定の閾値を超えているか否かを監視する(図1の(4)参照)。
具体的には、ハードウェア20は、キャッシュの縮退が発生した場合には、キャッシュウェイ状態レジスタ23の該当ビットをオンにする。そして、ソフトウェア10は、キャッシュウェイ状態レジスタ23からビット情報を周期的に読み出し、ビットがオンである場合には、CPU使用率およびキャッシュヒット数が閾値情報テーブル15に記憶されている閾値を超えているかを監視する。
その後、ソフトウェア10は、CPU使用率およびキャッシュヒット数が閾値情報テーブル15に記憶されている閾値を超えていると判定した場合には、縮退発生の原因を履歴情報として記憶し、ボードの交換を図示しない出力部に表示する。
このように、キャッシュウェイ縮退監視装置1は、例えば、キャッシュ縮退状態であっても、サービスの負荷状態が低負荷状態(CPUの使用率が低い状態)である場合には、システムの稼動を停止しない結果、上記した主たる特徴のごとく、キャッシュおよびCPUの状況に応じて、キャッシュが使えない状態(システムとしての処理能力を満足できない状態)を判定し、システムの稼動を継続するべきか適切な判断をすることが可能である。
[マルチプロセッサシステムの構成]
次に、図2を用いて、図1に示したキャッシュウェイ縮退監視装置1が適用されるマルチプロセッサシステム100の構成を説明する。図2は、実施例1に係るマルチプロセッサシステムの構成を示すブロック図である。同図に示すように、このマルチプロセッサシステム100は、CPU(キャッシュウェイ縮退監視装置)1、ウェイ構成であるキャッシュ2、CPU1によってアクセスされるデータを記憶するMM(メインメモリ)3、PCIバスを送受信するデータを中継して変換するPro−PCIBusBridge4、PCIバスに接続された複数のPCIDevice5a〜5xおよび他プロセッサ制御部7で構成され、他プロセッサ制御部7を介して他のプロセッサと接続されている。
[キャッシュウェイ縮退監視装置の構成]
次に、図3および図4を用いて、図1に示したキャッシュウェイ縮退監視装置1の構成を説明する。図3は、実施例1に係るキャッシュウェイ縮退監視装置1の構成を示すブロック図であり、図4は、閾値情報テーブルの一例を説明するための図である。図3に示すように、このキャッシュウェイ縮退監視装置1は、ソフトウェア(周期監視スレッド)10とハードウェア20とで構成される。
このソフトウェア10は、障害監視部11、CPU使用率計測部12、障害処理部13、ボード交換報知部14および閾値情報テーブル15を備える。ハードウェア20は、キャッシュヒット数計測部21、縮退制御部22、キャッシュウェイ状態レジスタ23およびキャッシュヒットカウンタ24を備える。以下にこれらの各部の処理を説明する。
閾値情報テーブル15は、キャッシュの縮退によるサービスの限界を予めテーブルとして記憶する。具体的には、閾値情報テーブル15は、図4に示すように、CPU使用率、キャッシュウェイ状態レジスタのビット、キャッシュヒットカウンタの閾値をそれぞれ対応付けて記憶し、後述する障害判定処理の際に参照される。
つまり、キャッシュウェイ状態レジスタのビットが「1」である場合に、計測されたCPU使用率に対応するキャッシュヒット率よりもハードウェアによって計測されたキャッシュヒット率が高いか否かを判定して、障害処理を行うかを判断する。具体的な例を挙げて説明すると、後述する障害監視部11は、キャッシュ縮退レジスタが「ON=1」となり、CPU使用率が75%の場合、キャッシュヒットカウンタが6000回以上ヒットしていれば、キャッシュが満足に使えない状態であると判断する。
障害監視部11は、キャッシュの縮退が発生した場合には、計測されたCPU使用率と、ハードウェア20によって計測されたキャッシュヒット数とが所定の閾値を超えているか否かを監視する。具体的には、障害監視部11は、キャッシュウェイ状態レジスタ23からビット情報を読み出し、正常であることを示すビット「0」である場合には、所定の時間ごとにキャッシュウェイ状態レジスタ23からビット情報を読み出す処理を繰り返す。
そして、障害監視部11は、キャッシュウェイ状態レジスタ23からビット情報を読み出し、異常であることを示すビット「1」である場合には、キャッシュヒットカウンタ24からキャッシュヒット数を読み出す。続いて、障害監視部11は、CPU使用率計測部12にCPUの使用率を計測する指示を通知し、CPU使用率計測部12によって計測されたCPU使用率を取得し、閾値情報テーブル15を参照して障害処理判定を行う。
つまり、障害監視部11は、障害処理として、閾値情報テーブル15を参照し、計測されたCPU使用率に対応するキャッシュカウンタ数の閾値を、キャッシュヒットカウンタ24から読み出されたキャッシュヒット数の値が超えているかを判定する。
この結果、障害監視部11は、キャッシュカウンタ数の閾値をキャッシュヒット数の値が超えていない場合には、その後周期的にキャッシュヒットカウンタ24からキャッシュヒット数を読み出して障害判定処理を繰り返し行う。そして、障害監視部11は、キャッシュカウンタ数の閾値をキャッシュヒット数の値が超えた場合には、障害処理を行う指示を障害処理部13に通知する。
CPU使用率計測部12は、キャッシュウェイ縮退監視装置1のソフトウェア10によってCPUが使用されている割合を示すCPU使用率を計測する。具体的には、CPU使用率計測部12は、障害監視部11からCPUの使用率を計測する指示を受け付けると、アイドルスレッドの動作時間からCPU使用率を計測し、計測されたCPU使用率を障害監視部11に通知する。
障害処理部13は、縮退発生の原因を履歴情報として図示しない記憶部に記憶する障害処理を行う。具体的には、障害処理部13は、障害処理を行う指示を障害監視部11から受け付けると、縮退発生の原因を履歴情報として図示しない記憶部に記憶する障害処理を行い、ボード交換報知部14にボード交換の報知の指示を通知する。
ボード交換報知部14は、キャッシュが使えない状態(システムとしての処理能力を満足できない状態)である場合に、ボード交換する旨を図示しない所定の出力部で報知する。具体的には、ボード交換報知部14は、障害処理部13からボード交換の報知の指示を受け付けると、ボード交換する旨を図示しない所定の出力部で報知する。
ハードウェア20のキャッシュウェイ状態レジスタ23は、ハードウェア20によって計測されたキャッシュ縮退の情報を記憶する。具体的には、キャッシュウェイ状態レジスタ23は、キャッシュの縮退が発生した場合に、該当ビットをオンにして記憶する。
キャッシュヒットカウンタ24は、ハードウェア20によって計測されたキャッシュヒット数を記憶する。具体的には、キャッシュヒットカウンタ24は、アクセスを受け付けたデータがキャッシュ内にある場合には、キャッシュヒットカウンタをインクリメントする。そして、キャッシュヒットカウンタ24は、キャッシュの縮退が発生した場合に、障害監視部11によってキャッシュヒット数が読み出される。
キャッシュヒット数計測部21は、キャッシュにヒットした回数を示すキャッシュヒット数を計測する。具体的には、ハードウェア20は、アクセスを受け付けたデータがキャッシュ内にある場合には、キャッシュヒットカウンタをインクリメントする。
縮退制御部22は、キャッシュに故障が発生した場合に、縮退を制御する。具体的には、縮退制御部22は、キャッシュの縮退が発生した場合には、キャッシュウェイ状態レジスタ23の該当ビットをオンにする。
[キャッシュウェイ縮退監視装置による処理]
次に、図5を用いて、実施例1に係るキャッシュウェイ縮退監視装置1による処理を説明する。図5は、実施例1に係るキャッシュウェイ縮退監視装置1の処理動作を示すフローチャートである。
同図に示すように、キャッシュウェイ縮退監視装置1のソフトウェア10は、障害処理を行う判定に用いる閾値の初期設定を閾値情報テーブル15に対して行う(ステップS101)。そして、ソフトウェア10は、キャッシュウェイ状態レジスタ23からビット情報を読み出し(ステップS102)、正常であることを示すビット「0」である場合には(ステップS103)、所定の時間ごとにキャッシュウェイ状態レジスタ23からビット情報を読み出す処理を繰り返す(ステップS104、ステップS105)。
そして、ソフトウェア10は、キャッシュウェイ状態レジスタ23からビット情報を読み出し(ステップS106)、異常であることを示すビット「1」である場合には(ステップS107)、キャッシュヒットカウンタ24からキャッシュヒット数を読み出す(ステップS108、ステップS109)。続いて、ソフトウェア10は、計測されたCPU使用率を取得し、閾値情報テーブル15を参照して障害処理判定を行う(ステップS110)。
この結果、ソフトウェア10は、キャッシュカウンタ数の閾値をキャッシュヒット数の値が超えていない場合には(ステップS110)、その後周期的にキャッシュヒットカウンタ24からキャッシュヒット数を読み出して障害判定処理を繰り返し行う(ステップS111、ステップS112)。そして、ソフトウェア10は、キャッシュカウンタ数の閾値をキャッシュヒット数の値が超えた場合には(ステップS113)、縮退発生の原因を履歴情報として所定の記憶部に記憶する障害処理を行い(ステップS114)、ボード交換報知部14にボード交換の報知の指示を通知する(ステップS115)。
[実施例1の効果]
上述してきたように、CPUが使用されている割合を示すCPU使用率を計測し、キャッシュにヒットした回数を示すキャッシュヒット数を計測し、キャッシュの縮退が発生した場合には、計測されたCPU使用率と、計測されたキャッシュヒット数とが所定の閾値を超えているか否かを監視するので、例えば、キャッシュ縮退状態であっても、サービスの負荷状態が低負荷状態(CPUの使用率が低い状態)である場合には、システムの稼動を停止しない結果、キャッシュおよびCPUの状況に応じて、キャッシュが使えない状態(システムとしての処理能力を満足できない状態)を判定し、システムの稼動を継続するべきか適切な判断をすることが可能である。
ところで、上記の実施例1では、ソフトウェアがシステムの稼動を継続するべきかを判定する障害判定を行う場合を説明したが、本発明はこれに限定されるものではなく、ハードウェアが障害判定を行うようにしてもよい。
そこで、以下の実施例2では、ハードウェアが障害判定を行い、その判定結果をソフトウェアに通知する場合として、図6および図7を用いて、実施例2におけるキャッシュウェイ縮退監視装置1aの概要と特徴、構成および処理について説明する。図6は、実施例2に係るキャッシュウェイ縮退監視装置1aの概要および特徴を説明するための図であり、図7は、実施例2に係るキャッシュウェイ縮退監視装置1aの処理手順を説明するためのフローチャートである。
まず最初に、実施例2に係るキャッシュウェイ縮退監視装置1aの概要および特徴を説明する。図6に示すように、キャッシュウェイ縮退監視装置1aのハードウェア20aは、実施例1と同様に、キャッシュウェイ状態レジスタ23aおよびキャッシュヒットカウンタ24aを備える。そして、実施例1とは異なり、実施例2に係るハードウェア20aは、CPU使用率を格納するCPU使用率情報レジスタ25aと、ソフトウェアによって設定されたキャッシュの縮退によるサービスの限界を記憶する閾値情報テーブル26aとを備える点が相違する。
そして、実施例1とは異なり、実施例2に係るキャッシュウェイ縮退監視装置1aのソフトウェア10aは、測定したCPU使用率を周期的にCPU使用率情報レジスタ25aに設定する。続いて、キャッシュウェイ縮退監視装置1aのハードウェア20aは、CPU使用率情報レジスタ25aに格納されたCPU使用率と、キャッシュヒットカウンタ24aに格納されたキャッシュヒット数とが閾値情報テーブル26aに格納された所定の閾値を超えているか否かを周期的に監視する。
その結果、ハードウェア20aは、所定の閾値を超えた場合には、障害処理を行う旨を指示するウェイ縮退通知をソフトウェア10aに通知する。そして、ウェイ縮退通知を受け付けたソフトウェア10aは、縮退発生の原因を履歴情報として記憶し、ボードの交換を図示しない出力部に表示する。
次に、図7を用いて実施例2に係るキャッシュウェイ縮退監視装置1aの処理について説明する。実施例2の処理は、図5に示した実施例1に係るキャッシュウェイ縮退監視装置1の処理と比較して、ソフトウェアがシステムの稼動を継続するべきかを判定する障害判定を行う点が相違する。
すなわち、図7に示すように、キャッシュウェイ縮退監視装置1aのソフトウェア10aは、閾値情報テーブル26aに閾値情報を設定した後(ステップS201)、CPU使用率の計測を開始する(ステップS202)。そして、ソフトウェア10aは、測定したCPU使用率を周期的にCPU使用率情報レジスタ25aに設定する(ステップS203)。
そして、ハードウェア20aは、CPU使用率情報レジスタ25aに格納されたCPU使用率と、キャッシュヒットカウンタ24aに格納されたキャッシュヒット数とが閾値情報テーブル26aに格納された所定の閾値を超えているか否かを周期的に監視し(ステップS204)、その結果、所定の閾値を超えた場合には、障害処理を行う旨を指示するウェイ縮退通知をソフトウェア10aに通知する(ステップS205)。
そして、ウェイ縮退通知を受け付けたソフトウェア10aは、縮退発生の原因を履歴情報として記憶する障害処理を行い(ステップS206)、ボードの交換を出力部で報知する(ステップS207)。
このように、上記の実施例2では、計測されたCPU使用率をハードウェア内のCPU使用率情報レジスタ25aに格納し、計測されたキャッシュヒット数をハードウェア内のキャッシュヒットカウンタ24aに格納し、CPU使用率情報レジスタ25aに格納されたCPU使用率と、キャッシュヒットカウンタ24aに格納されたキャッシュヒット数とが所定の閾値を超えているか否かを監視するので、ハードウェアが自立して、システムの稼動を継続するべきか否かの判断をすることが可能である。
ところで、上記の実施例1では、キャッシュの縮退が発生した場合に、ソフトウェア10が一定の周期でハードウェア20からキャッシュヒット数を読み出す場合を説明したが、本発明はこれに限定されるものではなく、ソフトウェア10がキャッシュヒット数を読み出すタイミングを調整するようにしてもよい。
そこで、以下の実施例3では、ソフトウェア10bがキャッシュヒット数を読み出すタイミングを調整する場合として、図8を用いて、実施例3におけるキャッシュウェイ縮退監視装置1bの概要と特徴について説明する。図8は、実施例3に係るキャッシュウェイ縮退監視装置1bの概要および特徴を説明するための図である。
同図に示すように、実施例3に係るキャッシュウェイ縮退監視装置1bは、実施例1と同様に、CPU使用率およびキャッシュヒット数が閾値情報テーブル15bに記憶されている閾値を超えているかを監視し、CPU使用率およびキャッシュヒット数が所定の閾値に近い場合には、監視周期をソフトウェア10bが段階的に変更する。
例えば、キャッシュウェイ縮退監視装置1bは、CPU使用率およびキャッシュヒット数が所定の閾値に近い場合には、サービスが満足できない状態になる前に障害を迅速に検出するため、監視周期を短くする。
このように、上記の実施例3では、監視されたCPU使用率およびキャッシュヒット数が所定の閾値に近い場合には、監視周期をソフトウェアが段階的に変更し、変更された監視周期に基づいて、CPU使用率およびキャッシュヒット数が所定の閾値を超えているか否かを監視するので、例えば、キャッシュの縮退が頻繁に発生するような場合には、監視周期を短くする結果、システムのサービスが満足できない状態になる前に、ソフトウェアによる迅速な障害検出が可能である。
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では実施例4として本発明に含まれる他の実施例を説明する。
(1)監視タイミング
また、上記の実施例3では、ソフトウェアがキャッシュヒット数を読み出すタイミングを調整する場合を説明したが、本発明はこれに限定されるものではなく、ハードウェア20cがキャッシュヒット数を読み出すタイミングを調整するようにしてもよい。
具体的には、図9に示すように、ハードウェア20cは、監視タイミングに関する情報をソフトウェア10cに通知し、ソフトウェア10cがCPU使用率をCPU使用率情報レジスタ25cに設定する周期を制御する。
このように、監視されたCPU使用率およびキャッシュヒット数が所定の閾値に近い場合には監視周期をハードウェアが段階的に変更し、変更された監視周期に基づいて、CPU使用率およびキャッシュヒット数が所定の閾値を超えているか否かを監視するので、例えば、キャッシュの縮退が頻繁に発生するような場合には、監視周期を短くする結果、システムのサービスが満足できない状態になる前に、ハードウェアによる迅速な障害検出が可能である。
(2)システム構成等
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、障害監視部11と障害処理部13を統合してもよい。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、閾値情報テーブルに格納される閾値は、任意に変更するようにしてもよい。
なお、本実施例で説明したキャッシュウェイ縮退監視方法は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD−ROM、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することもできる。
(付記1)複数のウェイで構成されるキャッシュの縮退を制御し、当該縮退制御されたキャッシュの障害状況を監視するキャッシュウェイ縮退監視装置であって、
CPUが使用されている割合を示すCPU使用率を計測するCPU使用率計測手段と、
前記キャッシュにヒットした回数を示すキャッシュヒット数を計測するキャッシュヒット数計測手段と、
キャッシュの縮退が発生した場合には、前記CPU使用率計測手段によって計測された前記CPU使用率と、前記キャッシュヒット数計測手段によって計測された前記キャッシュヒット数とが所定の閾値を超えているか否かを監視する監視手段と、
を備えることを特徴とするキャッシュウェイ縮退監視装置。
(付記2)前記CPU使用率計測手段によって計測された前記CPU使用率をハードウェア内のCPU使用率格納部に格納するCPU使用率格納手段と、
前記キャッシュヒット数計測手段によって計測された前記キャッシュヒット数をハードウェア内のキャッシュヒット数格納部に格納するキャッシュヒット数格納手段とをさらに備え、
前記監視手段は、前記CPU使用率格納部に格納された前記CPU使用率と、前記キャッシュヒット数格納部に格納された前記キャッシュヒット数とが所定の閾値を超えているか否かを監視することを特徴とする付記1に記載のキャッシュウェイ縮退監視装置。
(付記3)前記監視手段によって監視された前記CPU使用率および前記キャッシュヒット数が前記所定の閾値に近い場合には、前記監視手段の監視周期をソフトウェアが段階的に変更する周期変更手段をさらに備え、
前記監視手段は、前記周期変更手段によって変更された前記監視周期に基づいて、前記CPU使用率および前記キャッシュヒット数が所定の閾値を超えているか否かを監視することを特徴とする付記1に記載のキャッシュウェイ縮退監視装置。
(付記4)前記監視手段によって監視された前記CPU使用率および前記キャッシュヒット数が前記所定の閾値に近い場合には、前記監視手段の監視周期をハードウェアが段階的に変更する周期変更手段をさらに備え、
前記監視手段は、前記周期変更手段によって変更された前記監視周期に基づいて、前記CPU使用率および前記キャッシュヒット数が所定の閾値を超えているか否かを監視することを特徴とする付記1に記載のキャッシュウェイ縮退監視装置。
(付記5)複数のウェイで構成されるキャッシュの縮退を制御し、当該縮退制御されたキャッシュの障害状況を監視するキャッシュウェイ縮退監視方法であって、
CPUが使用されている割合を示すCPU使用率を計測するCPU使用率計測工程と、
前記キャッシュにヒットした回数を示すキャッシュヒット数を計測するキャッシュヒット数計測工程と、
キャッシュの縮退が発生した場合には、前記CPU使用率計測工程によって計測された前記CPU使用率と、前記キャッシュヒット数計測工程によって計測された前記キャッシュヒット数とが所定の閾値を超えているか否かを監視する監視工程と、
を含んだことを特徴とするキャッシュウェイ縮退監視方法。
(付記6)複数のウェイで構成されるキャッシュの縮退を制御し、当該縮退制御されたキャッシュの障害状況を監視するキャッシュウェイ縮退監視方法をコンピュータに実行させるキャッシュウェイ縮退監視プログラムであって、
CPUが使用されている割合を示すCPU使用率を計測するCPU使用率計測手順と、
前記キャッシュにヒットした回数を示すキャッシュヒット数を計測するキャッシュヒット数計測手順と、
キャッシュの縮退が発生した場合には、前記CPU使用率計測手順によって計測された前記CPU使用率と、前記キャッシュヒット数計測手順によって計測された前記キャッシュヒット数とが所定の閾値を超えているか否かを監視する監視手順と、
をコンピュータに実行させることを特徴とするキャッシュウェイ縮退監視プログラム。
以上のように、本発明に係るキャッシュウェイ縮退監視装置、キャッシュウェイ縮退監視方法およびキャッシュウェイ縮退監視プログラムは複数のウェイで構成されるキャッシュの縮退を制御し、当該縮退制御されたキャッシュの障害状況を監視する場合に有用であり、特に、キャッシュおよびCPUの状況に応じて、システムの稼動を継続するべきか適切な判断をすることに適する。
実施例1に係るキャッシュウェイ縮退監視装置1の概要および特徴を説明するための図である。 実施例1に係るマルチプロセッサシステム100の構成を示すブロック図である。 実施例1に係るキャッシュウェイ縮退監視装置1の構成を示すブロック図である。 閾値情報テーブルの一例を説明するための図である。 実施例1に係るキャッシュウェイ縮退監視装置1の処理動作を示すフローチャートである。 実施例2に係るキャッシュウェイ縮退監視装置1aの概要および特徴を説明するための図である。 実施例2に係るキャッシュウェイ縮退監視装置1aの処理手順を説明するためのフローチャートである。 実施例3に係るキャッシュウェイ縮退監視装置1bの概要および特徴を説明するための図である。 実施例4に係るキャッシュウェイ縮退監視装置1cの概要および特徴を説明するための図である。
符号の説明
1、1a、1b、1c キャッシュウェイ縮退監視装置
10、10a、10b、10c ソフトウェア
11 障害監視部
12 CPU使用率計測部
13 障害処理部
14 ボード交換報知部
15 閾値情報テーブル
20、20a、20b、20c ハードウェア
21 キャッシュヒット数計測部
22 縮退制御部
23 キャッシュウェイ状態レジスタ
24 キャッシュヒットカウンタ
100 マルチプロセッサシステム

Claims (6)

  1. 複数のウェイで構成されるキャッシュの縮退を制御し、当該縮退制御されたキャッシュの障害状況を監視するキャッシュウェイ縮退監視装置であって、
    CPUが使用されている割合を示すCPU使用率を計測するCPU使用率計測手段と、
    前記キャッシュにヒットした回数を示すキャッシュヒット数を計測するキャッシュヒット数計測手段と、
    キャッシュの縮退が発生した場合には、前記CPU使用率計測手段によって計測された前記CPU使用率と、前記キャッシュヒット数計測手段によって計測された前記キャッシュヒット数とが所定の閾値を超えているか否かを監視する監視手段と、
    を備えることを特徴とするキャッシュウェイ縮退監視装置。
  2. 前記CPU使用率計測手段によって計測された前記CPU使用率をハードウェア内のCPU使用率格納部に格納するCPU使用率格納手段と、
    前記キャッシュヒット数計測手段によって計測された前記キャッシュヒット数をハードウェア内のキャッシュヒット数格納部に格納するキャッシュヒット数格納手段とをさらに備え、
    前記監視手段は、前記CPU使用率格納部に格納された前記CPU使用率と、前記キャッシュヒット数格納部に格納された前記キャッシュヒット数とが所定の閾値を超えているか否かを監視することを特徴とする請求項1に記載のキャッシュウェイ縮退監視装置。
  3. 前記監視手段によって監視された前記CPU使用率および前記キャッシュヒット数が前記所定の閾値に近い場合には、前記監視手段の監視周期をソフトウェアに基づき段階的に変更する周期変更手段をさらに備え、
    前記監視手段は、前記周期変更手段によって変更された前記監視周期に基づいて、前記CPU使用率および前記キャッシュヒット数が所定の閾値を超えているか否かを監視することを特徴とする請求項1に記載のキャッシュウェイ縮退監視装置。
  4. 前記監視手段によって監視された前記CPU使用率および前記キャッシュヒット数が前記所定の閾値に近い場合には、前記監視手段の監視周期をハードウェアが段階的に変更する周期変更手段をさらに備え、
    前記監視手段は、前記周期変更手段によって変更された前記監視周期に基づいて、前記CPU使用率および前記キャッシュヒット数が所定の閾値を超えているか否かを監視することを特徴とする請求項1に記載のキャッシュウェイ縮退監視装置。
  5. 複数のウェイで構成されるキャッシュの縮退を制御し、当該縮退制御されたキャッシュの障害状況を監視するキャッシュウェイ縮退監視方法であって、
    CPUが使用されている割合を示すCPU使用率を計測するCPU使用率計測工程と、
    前記キャッシュにヒットした回数を示すキャッシュヒット数を計測するキャッシュヒット数計測工程と、
    キャッシュの縮退が発生した場合には、前記CPU使用率計測工程によって計測された前記CPU使用率と、前記キャッシュヒット数計測工程によって計測された前記キャッシュヒット数とが所定の閾値を超えているか否かを監視する監視工程と、
    を含んだことを特徴とするキャッシュウェイ縮退監視方法。
  6. 複数のウェイで構成されるキャッシュの縮退を制御し、当該縮退制御されたキャッシュの障害状況を監視するキャッシュウェイ縮退監視方法をコンピュータに実行させるキャッシュウェイ縮退監視プログラムであって、
    CPUが使用されている割合を示すCPU使用率を計測するCPU使用率計測手順と、
    前記キャッシュにヒットした回数を示すキャッシュヒット数を計測するキャッシュヒット数計測手順と、
    キャッシュの縮退が発生した場合には、前記CPU使用率計測手順によって計測された前記CPU使用率と、前記キャッシュヒット数計測手順によって計測された前記キャッシュヒット数とが所定の閾値を超えているか否かを監視する監視手順と、
    をコンピュータに実行させることを特徴とするキャッシュウェイ縮退監視プログラム。
JP2007046098A 2007-02-26 2007-02-26 キャッシュウェイ縮退監視装置、キャッシュウェイ縮退監視方法およびキャッシュウェイ縮退監視プログラム Active JP4378386B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007046098A JP4378386B2 (ja) 2007-02-26 2007-02-26 キャッシュウェイ縮退監視装置、キャッシュウェイ縮退監視方法およびキャッシュウェイ縮退監視プログラム
US12/000,915 US20080209102A1 (en) 2007-02-26 2007-12-18 Device, method, and computer product for monitoring cache-way downgrade

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007046098A JP4378386B2 (ja) 2007-02-26 2007-02-26 キャッシュウェイ縮退監視装置、キャッシュウェイ縮退監視方法およびキャッシュウェイ縮退監視プログラム

Publications (2)

Publication Number Publication Date
JP2008210142A JP2008210142A (ja) 2008-09-11
JP4378386B2 true JP4378386B2 (ja) 2009-12-02

Family

ID=39717227

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007046098A Active JP4378386B2 (ja) 2007-02-26 2007-02-26 キャッシュウェイ縮退監視装置、キャッシュウェイ縮退監視方法およびキャッシュウェイ縮退監視プログラム

Country Status (2)

Country Link
US (1) US20080209102A1 (ja)
JP (1) JP4378386B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4519151B2 (ja) * 2007-03-20 2010-08-04 富士通株式会社 キャッシュ制御回路
TWI486764B (zh) * 2009-10-30 2015-06-01 Silicon Motion Inc 資料儲存裝置,控制器,以及於次等級記憶體存取資料之方法
US20130117275A1 (en) * 2010-07-16 2013-05-09 Nec Corporation Index monitoring system, index monitoring method and program
GB2506904A (en) * 2012-10-12 2014-04-16 Ibm Managing a cache for storing one or more intermediate products of a computer program
CN103778069B (zh) * 2012-10-18 2017-09-08 深圳市中兴微电子技术有限公司 高速缓冲存储器的高速缓存块长度调整方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU3250393A (en) * 1991-12-17 1993-07-19 Compaq Computer Corporation Apparatus for reducing computer system power consumption
AU2364095A (en) * 1994-05-12 1995-12-05 Ast Research, Inc. Cpu activity monitoring through cache watching
US5796939A (en) * 1997-03-10 1998-08-18 Digital Equipment Corporation High frequency sampling of processor performance counters
TW451132B (en) * 1998-12-15 2001-08-21 Nippon Electric Co System and method for cache processing
US6748558B1 (en) * 2000-05-10 2004-06-08 Motorola, Inc. Performance monitor system and method suitable for use in an integrated circuit
US7526757B2 (en) * 2004-01-14 2009-04-28 International Business Machines Corporation Method and apparatus for maintaining performance monitoring structures in a page table for use in monitoring performance of a computer program
US7181599B2 (en) * 2004-01-14 2007-02-20 International Business Machines Corporation Method and apparatus for autonomic detection of cache “chase tail” conditions and storage of instructions/data in “chase tail” data structure
JP4599902B2 (ja) * 2004-06-18 2010-12-15 株式会社日立製作所 ハードウェアモニタを用いた性能解析方法
US7730531B2 (en) * 2005-04-15 2010-06-01 Microsoft Corporation System and method for detection of artificially generated system load

Also Published As

Publication number Publication date
US20080209102A1 (en) 2008-08-28
JP2008210142A (ja) 2008-09-11

Similar Documents

Publication Publication Date Title
US9426248B2 (en) Data collection and transfer apparatus
CN109783262B (zh) 故障数据处理方法、装置、服务器及计算机可读存储介质
JP4378386B2 (ja) キャッシュウェイ縮退監視装置、キャッシュウェイ縮退監視方法およびキャッシュウェイ縮退監視プログラム
JP4815141B2 (ja) 回路異常動作検出システム
US20150193325A1 (en) Method and system for determining hardware life expectancy and failure prevention
US20180060148A1 (en) Bad block detection and predictive analytics in nand flash storage devices
JP6294251B2 (ja) 誤り訂正機能による寿命予測を有する制御装置
JP2007323193A (ja) 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム
JP2007264767A (ja) 電源監視装置
US20230136274A1 (en) Ceph Media Failure and Remediation
WO2012128388A1 (ja) 運用管理システム、運用管理方法、及びプログラム
US11163630B2 (en) Using real-time analytics to manage application features
US20150286513A1 (en) Implementing tiered predictive failure analysis at domain intersections
US10268598B2 (en) Primary memory module with record of usage history
CN105630657B (zh) 一种温度检测方法及装置
CN108763027A (zh) 一种硬盘监控方法、装置及服务器
JP5473139B2 (ja) 試験装置と試験方法
US20160188254A1 (en) Lifecycle management of solid state memory adaptors
CN111188782A (zh) 一种风扇冗余测试方法、装置和计算机可读存储介质
KR101966394B1 (ko) 저장 장치의 수명 예측 장치 및 방법
WO2023079120A1 (en) Ceph media failure and remediation
CN113986142B (zh) 磁盘故障监控方法、装置、计算机设备及存储介质
JP6567923B2 (ja) 障害処理装置、システム、障害管理装置、方法およびプログラム
JP6524848B2 (ja) 故障予測装置、故障予測方法及び故障予測プログラム
CN117312094A (zh) 一种基于时间序列分析算法的服务器硬件监控采集方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090616

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090817

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090908

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090914

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120918

Year of fee payment: 3