JP2010186242A - 計算機システム - Google Patents
計算機システム Download PDFInfo
- Publication number
- JP2010186242A JP2010186242A JP2009028677A JP2009028677A JP2010186242A JP 2010186242 A JP2010186242 A JP 2010186242A JP 2009028677 A JP2009028677 A JP 2009028677A JP 2009028677 A JP2009028677 A JP 2009028677A JP 2010186242 A JP2010186242 A JP 2010186242A
- Authority
- JP
- Japan
- Prior art keywords
- memory
- computer system
- operating
- processing unit
- management information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】マルチコアCPUモジュールを搭載し、メインCPU上で動作しているアプリケーション処理を中断することなく、サブCPUでメモリ診断を行う計算機システムを得る。
【解決手段】計算機システム1は、マルチコアCPUモジュール4を搭載し、メインCPU2とサブCPU3上で、それぞれ、OS1とOS2が動作し、OS1はアプリケーション11と障害対処処理を行う障害対処処理部14を動作させ、OS2は、定期的にメモリ5の診断を行うメモリ診断処理部13と、メモリ診断処理部13の診断結果を障害対処処理部14に通知する障害監視処理部12とを動作させ、障害対処処理部14は、メモリ障害の通知を受けると、計算機システム1を停止させるようにする。
【選択図】図1
【解決手段】計算機システム1は、マルチコアCPUモジュール4を搭載し、メインCPU2とサブCPU3上で、それぞれ、OS1とOS2が動作し、OS1はアプリケーション11と障害対処処理を行う障害対処処理部14を動作させ、OS2は、定期的にメモリ5の診断を行うメモリ診断処理部13と、メモリ診断処理部13の診断結果を障害対処処理部14に通知する障害監視処理部12とを動作させ、障害対処処理部14は、メモリ障害の通知を受けると、計算機システム1を停止させるようにする。
【選択図】図1
Description
この発明は、マルチコアCPUモジュールを搭載し、アプリケーションが動作するCPUとは別のCPUでメモリ診断を行い、故障検出を行う計算機システムに関するものである。
従来の計算機システムでは、アプリケーションがメモリアクセスした場合に、メモリ故障が検出されるようになっていた。
また、特許文献1に示される障害監視システムでは、複数のOS(オペレーティングシステム)が、相互に監視し合うことが記載されている。
また、特許文献1に示される障害監視システムでは、複数のOS(オペレーティングシステム)が、相互に監視し合うことが記載されている。
従来の計算機システムでは、アプリケーションがメモリをアクセスした場合に初めてメモリ故障が検出されるため、2重系の計算機システムで、待機系となっていた計算機が動作しようとした場合に、メモリ故障を検出して、両系異常となる場合があった。
メモリ診断を同一のOS上で実施する場合、リアルタイムアプリケーションの処理を極力継続する必要がある産業用のシステムでは、メモリ診断にCPUを利用するため、リアルタイム応答性に影響を与えるという問題があった。
また、特許文献1は、複数のOSが相互にその状態を監視しているが、この場合は、OSまたはアプリケーションが異常により動作しなくなるまで、障害の検出を行うことができず、障害に対してすぐに対処することができない、また、メモリなどハードウェアの障害を検出しないなどの問題があった。
メモリ診断を同一のOS上で実施する場合、リアルタイムアプリケーションの処理を極力継続する必要がある産業用のシステムでは、メモリ診断にCPUを利用するため、リアルタイム応答性に影響を与えるという問題があった。
また、特許文献1は、複数のOSが相互にその状態を監視しているが、この場合は、OSまたはアプリケーションが異常により動作しなくなるまで、障害の検出を行うことができず、障害に対してすぐに対処することができない、また、メモリなどハードウェアの障害を検出しないなどの問題があった。
この発明は、上述のような課題を解決するためになされたものであり、マルチコアCPUモジュールを搭載し、メインCPU上で動作しているアプリケーション処理を中断することなく、サブCPUでメモリ診断を行う計算機システムを得ることを目的としている。
この発明に係わる計算機システムにおいては、マルチコアCPUモジュールを搭載し、複数のオペレーティングシステムが異なるコアCPU上で動作する計算機システムであって、
第1のコアCPU上の第1のオペレーティングシステムで動作するアプリケーション、
第2のコアCPU上の第2のオペレーティングシステムで動作し、アプリケーションに用いられるメモリの診断を行うメモリ診断手段、
第2のオペレーティングシステムで動作し、メモリ診断手段によりメモリの異常が検出されたとき、異常を通知する異常通知手段、
第1のオペレーティングシステムで動作し、異常通知手段からの通知を受けて、障害発生時の対処を行う障害対処手段を備えたものである。
第1のコアCPU上の第1のオペレーティングシステムで動作するアプリケーション、
第2のコアCPU上の第2のオペレーティングシステムで動作し、アプリケーションに用いられるメモリの診断を行うメモリ診断手段、
第2のオペレーティングシステムで動作し、メモリ診断手段によりメモリの異常が検出されたとき、異常を通知する異常通知手段、
第1のオペレーティングシステムで動作し、異常通知手段からの通知を受けて、障害発生時の対処を行う障害対処手段を備えたものである。
この発明は、以上に説明したように、マルチコアCPUモジュールを搭載し、複数のオ
ペレーティングシステムが異なるコアCPU上で動作する計算機システムであって、
第1のコアCPU上の第1のオペレーティングシステムで動作するアプリケーション、
第2のコアCPU上の第2のオペレーティングシステムで動作し、アプリケーションに用いられるメモリの診断を行うメモリ診断手段、
第2のオペレーティングシステムで動作し、メモリ診断手段によりメモリの異常が検出されたとき、異常を通知する異常通知手段、
第1のオペレーティングシステムで動作し、異常通知手段からの通知を受けて、障害発生時の対処を行う障害対処手段を備えたので、第1のコアCPU上で動作しているアプリケーション処理を中断することなく、メモリ診断を行うことができる。
ペレーティングシステムが異なるコアCPU上で動作する計算機システムであって、
第1のコアCPU上の第1のオペレーティングシステムで動作するアプリケーション、
第2のコアCPU上の第2のオペレーティングシステムで動作し、アプリケーションに用いられるメモリの診断を行うメモリ診断手段、
第2のオペレーティングシステムで動作し、メモリ診断手段によりメモリの異常が検出されたとき、異常を通知する異常通知手段、
第1のオペレーティングシステムで動作し、異常通知手段からの通知を受けて、障害発生時の対処を行う障害対処手段を備えたので、第1のコアCPU上で動作しているアプリケーション処理を中断することなく、メモリ診断を行うことができる。
実施の形態1.
以下、この発明の実施の形態1を図1に基づいて説明する。
図1は、この発明の実施の形態1による計算機システムを示す構成図である。
図1において、計算機システム1は、ワークステーション、パーソナルコンピュータ、あるいはその他の計算機からなる。この計算機システム1は、メインCPU2およびサブCPU3の複数のCPUコアを含むマルチコアCPUモジュール4と、主記憶としてのメモリ5とが、システムバスブリッジ6により接続されている。
システムバスブリッジ6は、メモリ制御を行うメモリ制御部、割り込み制御を行う割り込み制御部、システムバス制御を行うシステムバス制御部を持ち、このシステムバスブリッジ6には、システムバス7を介して複数の周辺装置インタフェース8が接続されている。複数の周辺装置インタフェース8には、各種周辺装置が接続される。
なお、上述では、マルチコアCPUモジュール4とメモリ5の接続に、システムバスブリッジ6を用いているが、発明を適用する計算機の構成は、これに限らない。
以下、この発明の実施の形態1を図1に基づいて説明する。
図1は、この発明の実施の形態1による計算機システムを示す構成図である。
図1において、計算機システム1は、ワークステーション、パーソナルコンピュータ、あるいはその他の計算機からなる。この計算機システム1は、メインCPU2およびサブCPU3の複数のCPUコアを含むマルチコアCPUモジュール4と、主記憶としてのメモリ5とが、システムバスブリッジ6により接続されている。
システムバスブリッジ6は、メモリ制御を行うメモリ制御部、割り込み制御を行う割り込み制御部、システムバス制御を行うシステムバス制御部を持ち、このシステムバスブリッジ6には、システムバス7を介して複数の周辺装置インタフェース8が接続されている。複数の周辺装置インタフェース8には、各種周辺装置が接続される。
なお、上述では、マルチコアCPUモジュール4とメモリ5の接続に、システムバスブリッジ6を用いているが、発明を適用する計算機の構成は、これに限らない。
メインCPU2(第1のコアCPU)とサブCPU3(第2のコアCPU)上で、それぞれ独立に、OS1(9)(第1のオペレーティングシステム)およびOS2(10)(第2のオペレーティングシステム)が動作する構成とする。
メインCPU2は、OS1(9)とOS2(10)との間のOS間通信を行うマルチOS管理処理部30と、OS1(9)上で動作するアプリケーション11を有し、またOS1(9)は、障害検出時に障害対処処理を行う障害対処処理部14(障害対処手段)を有している。
アプリケーション11は、メモリ5をアクセスしながら所定の処理を実行する。
サブCPU3は、OS2(10)上で、障害発生時にマルチOS管理処理部30を介して、OS1(9)の障害対処処理部14に障害内容を通知する障害監視処理部12(異常通知手段)と、定期的に起床してメモリ5の診断を行うメモリ診断処理部13(メモリ診断手段)とが動作する構成となっている。
メインCPU2は、OS1(9)とOS2(10)との間のOS間通信を行うマルチOS管理処理部30と、OS1(9)上で動作するアプリケーション11を有し、またOS1(9)は、障害検出時に障害対処処理を行う障害対処処理部14(障害対処手段)を有している。
アプリケーション11は、メモリ5をアクセスしながら所定の処理を実行する。
サブCPU3は、OS2(10)上で、障害発生時にマルチOS管理処理部30を介して、OS1(9)の障害対処処理部14に障害内容を通知する障害監視処理部12(異常通知手段)と、定期的に起床してメモリ5の診断を行うメモリ診断処理部13(メモリ診断手段)とが動作する構成となっている。
次に、動作について説明する。
OSのブートローダは、メインCPU2で、OS1(9)をメモリ5にロードし、起動をかける。OS1(9)は、起動後、マルチOS管理処理部30およびOS2(10)をメモリ5にロードし、マルチOS管理処理部30を介して、OS2(10)をサブCPU3に割り付けて、OS2(10)の起動を行う。
OSのブートローダは、メインCPU2で、OS1(9)をメモリ5にロードし、起動をかける。OS1(9)は、起動後、マルチOS管理処理部30およびOS2(10)をメモリ5にロードし、マルチOS管理処理部30を介して、OS2(10)をサブCPU3に割り付けて、OS2(10)の起動を行う。
OS2(10)は、起動後、障害監視処理部12、メモリ診断処理部13に起動をかける。メモリ診断処理部13は、起動時に引数として渡された時間の間隔で、定期的にメモリ5に対して、アドレスを変更しながらアクセスを行い、メモリ異常の発生を確認する。
ここで、アクセスする単位は、例えばバイト単位、ワード単位、キャッシュページ単位、OSで管理するページ単位などがあり、アドレス変更は、ランダム、シーケンシャル、ページの先頭アドレス毎などがある。
ここで、アクセスする単位は、例えばバイト単位、ワード単位、キャッシュページ単位、OSで管理するページ単位などがあり、アドレス変更は、ランダム、シーケンシャル、ページの先頭アドレス毎などがある。
メモリ診断処理部13で、メモリ異常が検出された場合、メモリ診断処理部13は、障害監視処理部12にメモリ異常が検出されたこと、およびメモリ異常を発生したアドレス、サイズなどメモリ異常に関する情報を通知する。
メモリ異常検出を通知された障害監視処理部12は、マルチOS管理処理部30を介して、OS1(9)の障害対処処理部14にメモリ異常が検出されたこと、およびメモリ異常を発生したアドレス、サイズなどメモリ異常に関する情報を通知する。
メモリ異常検出を通知された障害監視処理部12は、マルチOS管理処理部30を介して、OS1(9)の障害対処処理部14にメモリ異常が検出されたこと、およびメモリ異常を発生したアドレス、サイズなどメモリ異常に関する情報を通知する。
メモリ異常検出を通知されたOS1(9)の障害対処処理部14は、計算機システム停止などの対処を行う。
実施の形態1によれば、定期的に起床してメモリの診断を行うメモリ診断処理部を、アプリケーションが動作するCPUとは異なるCPU上で独立して動作するように構成したため、アプリケーションの実行を中断することなく、メモリの診断を行うことができる。
また、定期的に起床してメモリの診断を行うメモリ診断処理部を備えたことにより、アプリケーションやOSが、エラーを発生するメモリにアクセスする前に、メモリ故障を検出することができ、例えば、待機系となっている計算機の異常を事前に検出し、障害に対応することで、計算機のダウン時間を少なくすることができる。
また、定期的に起床してメモリの診断を行うメモリ診断処理部を備えたことにより、アプリケーションやOSが、エラーを発生するメモリにアクセスする前に、メモリ故障を検出することができ、例えば、待機系となっている計算機の異常を事前に検出し、障害に対応することで、計算機のダウン時間を少なくすることができる。
実施の形態2.
実施の形態1では、サブCPU上で定期的にメモリ診断を行い、メインCPU上の障害対処処理部にて計算機システムの停止などの対処を行う機能について述べた。実施の形態2は、さらに、障害対処処理部で、メモリ診断の結果、異常と判定されたメモリが、未使用のメモリかどうかを判定し、未使用メモリの場合、該当メモリがOS1で使用されないように設定するようにする。
実施の形態1では、サブCPU上で定期的にメモリ診断を行い、メインCPU上の障害対処処理部にて計算機システムの停止などの対処を行う機能について述べた。実施の形態2は、さらに、障害対処処理部で、メモリ診断の結果、異常と判定されたメモリが、未使用のメモリかどうかを判定し、未使用メモリの場合、該当メモリがOS1で使用されないように設定するようにする。
図2は、この発明の実施の形態2による計算機システムを示す構成図である。
図2において、1〜14、30は図1におけるものと同一のものである。図2では、障害対処処理部14に、OS1(9)およびアプリケーション11により使用されているメモリかどうかを判定するメモリページ使用判定処理部15(メモリページ使用判定手段)と、該当べージを割り当てない処理などを行うメモリページ管理設定処理部16(メモリページ管理設定手段)とを設けている。
図2において、1〜14、30は図1におけるものと同一のものである。図2では、障害対処処理部14に、OS1(9)およびアプリケーション11により使用されているメモリかどうかを判定するメモリページ使用判定処理部15(メモリページ使用判定手段)と、該当べージを割り当てない処理などを行うメモリページ管理設定処理部16(メモリページ管理設定手段)とを設けている。
次に、図2を用いて、実施の形態2について説明する。実施の形態1では、計算機システムの全体的な動作について説明したが、実施の形態2は、障害対処処理について説明する。
図2の計算機システムは、OS1(9)の障害対処処理部14にメモリ異常検出が通知されるまでは、実施の形態1と同じ動作を行う。
ここで、通知されたメモリのアドレスとサイズから、OS1(9)およびアプリケーション11で使用されているメモリかどうかの判定をメモリページ使用判定処理部15が行う。この使用されているメモリかどうかの判定は、例えば、未使用のページのリストなどを利用する方法や、各ページに対応したテーブルをあらかじめメモリ上に作成し、使用された場合にフラグを設定するようにし、エラーを発生したメモリに対応するテーブルのフ
ラグを参照する方法などがある。
図2の計算機システムは、OS1(9)の障害対処処理部14にメモリ異常検出が通知されるまでは、実施の形態1と同じ動作を行う。
ここで、通知されたメモリのアドレスとサイズから、OS1(9)およびアプリケーション11で使用されているメモリかどうかの判定をメモリページ使用判定処理部15が行う。この使用されているメモリかどうかの判定は、例えば、未使用のページのリストなどを利用する方法や、各ページに対応したテーブルをあらかじめメモリ上に作成し、使用された場合にフラグを設定するようにし、エラーを発生したメモリに対応するテーブルのフ
ラグを参照する方法などがある。
未使用のページリストを利用した場合は、エラーを発生したメモリが未使用であると判定されたら、未使用のページリストからエラー部分を削除する。
また、各ページに対応したテーブルを利用した場合は、使用不可のフラグをテーブルに設定し、OS1(9)のメモリ管理でメモリを獲得しようとした場合に、該当べージを割り当てない等の処理をメモリページ管理設定処理部16で実施する。
また、各ページに対応したテーブルを利用した場合は、使用不可のフラグをテーブルに設定し、OS1(9)のメモリ管理でメモリを獲得しようとした場合に、該当べージを割り当てない等の処理をメモリページ管理設定処理部16で実施する。
実施の形態2によれば、障害対処処理部により、メモリ診断の結果、異常と判定されたメモリが、未使用のメモリかどうかを判定し、未使用メモリの場合、該当メモリがOS1で使用されないようにすることができる。
このため、エラーを発生したメモリに対して、アクセスしないようにすることによって、アプリケーションおよびOSでメモリエラーの発生を事前に抑止し、動作継続性を高めることができる。
このため、エラーを発生したメモリに対して、アクセスしないようにすることによって、アプリケーションおよびOSでメモリエラーの発生を事前に抑止し、動作継続性を高めることができる。
実施の形態3.
実施の形態2では、サブCPU上で定期的にメモリ診断を行い、メインCPU上の障害対処処理部にて未使用のメモリであった場合、使用されないように設定する機能について述べたが、実施の形態3は、さらに、OS1で管理されている未使用ページのリストへのアドレス等、OS1上で管理されているメモリページ管理情報を、メモリ診断処理で参照して、未使用メモリかどうかを判断し、未使用メモリに対してのみ診断を行うようにするものである。
実施の形態2では、サブCPU上で定期的にメモリ診断を行い、メインCPU上の障害対処処理部にて未使用のメモリであった場合、使用されないように設定する機能について述べたが、実施の形態3は、さらに、OS1で管理されている未使用ページのリストへのアドレス等、OS1上で管理されているメモリページ管理情報を、メモリ診断処理で参照して、未使用メモリかどうかを判断し、未使用メモリに対してのみ診断を行うようにするものである。
図3は、この発明の実施の形態3による計算機システムを示す構成図である。
図3において、1〜16、30は図2におけるものと同一のものである。図3では、メモリ5に、未使用のページリストを含むメモリページを管理する情報であり、メインCPU2のOS1(9)で管理されるメモリページ管理情報18を持たせ、サブCPU3のメモリ診断処理部13に、メモリページ管理情報18を参照し、未使用のページかどうかを判定する診断メモリ決定処理部19(診断メモリ決定手段)を設けている。
また、OS1(9)に、メモリページ管理情報18のアドレスなどのメモリページ管理情報18を参照するための情報を、メモリ診断処理部13の診断メモリ決定処理部19に通知するメモリページ管理情報通知処理部17(メモリページ管理情報通知手段)を設けている。
図3において、1〜16、30は図2におけるものと同一のものである。図3では、メモリ5に、未使用のページリストを含むメモリページを管理する情報であり、メインCPU2のOS1(9)で管理されるメモリページ管理情報18を持たせ、サブCPU3のメモリ診断処理部13に、メモリページ管理情報18を参照し、未使用のページかどうかを判定する診断メモリ決定処理部19(診断メモリ決定手段)を設けている。
また、OS1(9)に、メモリページ管理情報18のアドレスなどのメモリページ管理情報18を参照するための情報を、メモリ診断処理部13の診断メモリ決定処理部19に通知するメモリページ管理情報通知処理部17(メモリページ管理情報通知手段)を設けている。
次に、図3を用いて、実施の形態3について説明する。実施の形態2では、OS1の障害対処処理について説明したが、実施の形態3は、メモリページ管理情報通知処理、診断メモリ判定処理について説明する。
図3に示す計算機システムでは、OS1(9)のメモリページ管理情報通知処理部17は、メモリ診断処理部13が起動するときに、マルチOS管理処理部30を介して、メモリページ管理情報18のアドレスなどのメモリページ管理情報18を参照するための情報を、メモリ診断処理部13の診断メモリ決定処理部19に通知する。
メモリ診断処理部13は、定期的に起動されると、診断メモリ決定処理部19で、例えば未使用のページリストなどのメモリページ管理情報18を参照し、未使用のページかどうかを判定、未使用のページに対してのみメモリ診断処理部13で診断を行わせる。
メモリエラーが検出されてから以降は、実施の形態2で述べたものと同じである。
図3に示す計算機システムでは、OS1(9)のメモリページ管理情報通知処理部17は、メモリ診断処理部13が起動するときに、マルチOS管理処理部30を介して、メモリページ管理情報18のアドレスなどのメモリページ管理情報18を参照するための情報を、メモリ診断処理部13の診断メモリ決定処理部19に通知する。
メモリ診断処理部13は、定期的に起動されると、診断メモリ決定処理部19で、例えば未使用のページリストなどのメモリページ管理情報18を参照し、未使用のページかどうかを判定、未使用のページに対してのみメモリ診断処理部13で診断を行わせる。
メモリエラーが検出されてから以降は、実施の形態2で述べたものと同じである。
なお、上述の実施の形態3の説明では、診断メモリ決定処理部19の処理は、未使用のページかどうかを判定するものとしたが、使用中のページを診断するなど、診断するメモリを指定できるインタフェースを診断メモリ決定処理部19に設けてもよい。
実施の形態3によれば、メモリページ管理情報を、メモリ診断処理で参照することで、未使用メモリかどうかを判断し、未使用メモリに対してのみ診断を行うようにしたので、アプリケーションおよびOS1でメモリを使用する前にエラーの発生を抑止し、動作継続性を高めることができる。
実施の形態4.
実施の形態3では、サブCPU上で定期的にメモリ診断を行うメモリを、メインCPU上のOSで管理されている情報にしたがって、判定する機能について述べたが、実施の形態4は、さらに、メインCPU上のOSで管理されているメモリページ管理情報が格納されているメモリを、先に診断することで、診断メモリ決定処理が誤動作することを防止するようにした。
図4は、この発明の実施の形態4による計算機システムを示す構成図である。
図4において、1〜19、30は図3におけるものと同一のものである。図4では、診断メモリ決定処理部19に、メモリページ管理情報18のアドレスを、診断するメモリとして決定するメモリページ管理情報アドレス判定処理部20を設けている。
実施の形態3では、サブCPU上で定期的にメモリ診断を行うメモリを、メインCPU上のOSで管理されている情報にしたがって、判定する機能について述べたが、実施の形態4は、さらに、メインCPU上のOSで管理されているメモリページ管理情報が格納されているメモリを、先に診断することで、診断メモリ決定処理が誤動作することを防止するようにした。
図4は、この発明の実施の形態4による計算機システムを示す構成図である。
図4において、1〜19、30は図3におけるものと同一のものである。図4では、診断メモリ決定処理部19に、メモリページ管理情報18のアドレスを、診断するメモリとして決定するメモリページ管理情報アドレス判定処理部20を設けている。
次に、図4を用いて、実施の形態4について説明する。実施の形態3では、メモリ診断処理部13の診断メモリ決定処理部19について説明したが、実施の形態4は、診断メモリ決定処理のメモリページ管理情報アドレス判定処理について説明する。
図4の計算機システム1では、メモリ診断処理部13は、定期的に起動されると、診断メモリ決定処理部19で、メモリページ管理情報18を参照する前に、起動時に通知されたメモリページ管理情報18の参照情報をもとに、メモリページ管理情報アドレス判定処理部20で、メモリページ管理情報18のアドレスを、診断するメモリとして決定し、診断を行う。
メモリページ管理情報18に対するメモリ診断が正常に終了した場合、メモリページ管理情報18を参照する以降の動作は、実施の形態3で述べたものと同じである。
また、メモリページ管理情報18に対するメモリ診断の結果、メモリエラーが検出された以降の動作は、実施の形態2で述べたものと同じである。
図4の計算機システム1では、メモリ診断処理部13は、定期的に起動されると、診断メモリ決定処理部19で、メモリページ管理情報18を参照する前に、起動時に通知されたメモリページ管理情報18の参照情報をもとに、メモリページ管理情報アドレス判定処理部20で、メモリページ管理情報18のアドレスを、診断するメモリとして決定し、診断を行う。
メモリページ管理情報18に対するメモリ診断が正常に終了した場合、メモリページ管理情報18を参照する以降の動作は、実施の形態3で述べたものと同じである。
また、メモリページ管理情報18に対するメモリ診断の結果、メモリエラーが検出された以降の動作は、実施の形態2で述べたものと同じである。
実施の形態4によれば、OS1で管理されているメモリページ管理情報が格納されているメモリを、先に診断するようにしたので、診断メモリ決定処理が誤動作することを防止することができる。
実施の形態5.
実施の形態1では、サブCPU上で定期的にメモリ診断を行い、メインCPU上の障害対処処理部にて計算機システムの停止を行う機能について述べたが、実施の形態5は、メモリ診断でエラーが検出された場合に、メインCPU上のOS1の障害対処処理部ではなく、サブCPU上の障害対処処理部に通知し、エラーに対して、メインCPUの動作を停止させる構成とした。
実施の形態1では、サブCPU上で定期的にメモリ診断を行い、メインCPU上の障害対処処理部にて計算機システムの停止を行う機能について述べたが、実施の形態5は、メモリ診断でエラーが検出された場合に、メインCPU上のOS1の障害対処処理部ではなく、サブCPU上の障害対処処理部に通知し、エラーに対して、メインCPUの動作を停止させる構成とした。
図5は、この発明の実施の形態5による計算機システムを示す構成図である。
図5において、1〜13、30は図1におけるものと同一のものである。図1の障害対処処理部14に替えて、サブCPU3に、OS2(10)上で動作し、エラー停止などの障害対処を行う障害対処処理部21(障害対処手段)を設けている。
図5において、1〜13、30は図1におけるものと同一のものである。図1の障害対処処理部14に替えて、サブCPU3に、OS2(10)上で動作し、エラー停止などの障害対処を行う障害対処処理部21(障害対処手段)を設けている。
次に、図5を用いて、実施の形態5について説明する。実施の形態1では、全体的な動作について説明したが、実施の形態5は、サブCPU上で動作する障害監視処理および障害対処処理について説明する。
図1と同様にして、メモリ異常検出を通知された障害監視処理部12(異常通知手段)は、OS2(10)上で動作する障害対処処理部21にメモリ異常が検出されたこと、お
よびメモリ異常を発生したアドレス、サイズなどメモリ異常に関する情報を通知する。メモリ異常検出を通知された障害対処処理部21は、マルチOS管理処理部30に対して、メインCPU2の停止を指示して、OS1(9)の動作を停止し、計算機システム1を停止させる。
図1と同様にして、メモリ異常検出を通知された障害監視処理部12(異常通知手段)は、OS2(10)上で動作する障害対処処理部21にメモリ異常が検出されたこと、お
よびメモリ異常を発生したアドレス、サイズなどメモリ異常に関する情報を通知する。メモリ異常検出を通知された障害対処処理部21は、マルチOS管理処理部30に対して、メインCPU2の停止を指示して、OS1(9)の動作を停止し、計算機システム1を停止させる。
なお、障害対処処理部21での対処については、例として計算機停止について述べたが、故障対処テーブルなどを参照し、対処方法を決定するように構成してもよい。
実施の形態5によれば、メモリ診断でエラーが検出された場合に、メインCPU上のOS1の障害対処処理部ではなく、サブCPU上の障害対処処理部に通知し、エラーに対して、メインCPUの動作を停止できるようにしたので、メモリエラーの場合にOS1が動作できない可能性がある場合にも計算機システムをエラー停止させることができる。
1 計算機システム
2 メインCPU
3 サブCPU
4 マルチコアCPUモジュール
5 メモリ
6 システムバスブリッジ
7 システムバス
8 周辺装置インタフェース
9 OS1
10 OS2
11 アプリケーション
12 障害監視処理部
13 メモリ診断処理部
14 障害対処処理部
15 メモリページ使用判定処理部
16 メモリページ管理設定処理部
17 メモリページ管理情報通知処理部
18 メモリページ管理情報
19 診断メモリ決定処理部
20 メモリページ管理情報アドレス判定処理部
21 障害対処処理部
30 マルチOS管理処理部
2 メインCPU
3 サブCPU
4 マルチコアCPUモジュール
5 メモリ
6 システムバスブリッジ
7 システムバス
8 周辺装置インタフェース
9 OS1
10 OS2
11 アプリケーション
12 障害監視処理部
13 メモリ診断処理部
14 障害対処処理部
15 メモリページ使用判定処理部
16 メモリページ管理設定処理部
17 メモリページ管理情報通知処理部
18 メモリページ管理情報
19 診断メモリ決定処理部
20 メモリページ管理情報アドレス判定処理部
21 障害対処処理部
30 マルチOS管理処理部
Claims (6)
- マルチコアCPUモジュールを搭載し、複数のオペレーティングシステムが異なるコアCPU上で動作する計算機システムであって、
第1のコアCPU上の第1のオペレーティングシステムで動作するアプリケーション、
上記第2のコアCPU上の第2のオペレーティングシステムで動作し、上記アプリケーションに用いられるメモリの診断を行うメモリ診断手段、
上記第2のオペレーティングシステムで動作し、上記メモリ診断手段により上記メモリの異常が検出されたとき、上記異常を通知する異常通知手段、
上記第1のオペレーティングシステムで動作し、上記異常通知手段からの通知を受けて、障害発生時の対処を行う障害対処手段を備えたことを特徴とする計算機システム。 - 上記障害対処手段は、上記メモリ診断手段によるメモリ診断の結果、異常と判定されたメモリのページが、未使用のメモリページかどうかを判定するメモリページ使用判定手段と、
上記異常と判定されたメモリのページが、上記アプリケーションにより使用されないように設定するメモリページ管理設定手段とを有することを特徴とする請求項1記載の計算機システム。 - 上記メモリに格納され、上記第1のオペレーティングシステムによって管理されるメモリページ管理情報、
上記第1のオペレーティングシステムで動作し、上記メモリページ管理情報を参照するためのメモリページ管理情報参照情報を上記メモリ診断手段に通知するメモリページ管理情報通知手段を備え、
上記メモリ診断手段は、上記メモリページ管理情報通知手段により通知されたメモリページ管理情報参照情報をもとに、上記メモリページ管理情報を参照して、診断するメモリページを決定する診断メモリ決定手段を有することを特徴とする請求項1または請求項2記載の計算機システム。 - 上記診断メモリ決定手段は、上記メモリページ管理情報の参照に先立って、当該メモリページ管理情報が格納されているメモリページを診断するように構成されていることを特徴とする請求項3記載の計算機システム。
- マルチコアCPUモジュールを搭載し、複数のオペレーティングシステムが異なるコアCPU上で動作する計算機システムであって、
第1のコアCPU上の第1のオペレーティングシステムで動作するアプリケーション、
上記第2のコアCPU上の第2のオペレーティングシステムで動作し、上記アプリケーションに用いられるメモリの診断を行うメモリ診断手段、
上記第2のオペレーティングシステムで動作し、上記メモリ診断手段により上記メモリの異常が検出されたとき、上記異常を通知する異常通知手段、
上記第2のオペレーティングシステムで動作し、上記異常通知手段からの通知を受けて、障害発生時の対処を行う障害対処手段を備えたことを特徴とする計算機システム。 - マルチコアCPUモジュールを搭載し、複数のオペレーティングシステムが異なるコアCPU上で動作する計算機システムであって、
第1のコアCPU上の第1のオペレーティングシステムで動作するアプリケーション、
上記第2のコアCPU上の第2のオペレーティングシステムで動作し、上記アプリケーションに用いられるメモリの診断を行うメモリ診断手段を備えたことを特徴とする計算機システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009028677A JP2010186242A (ja) | 2009-02-10 | 2009-02-10 | 計算機システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009028677A JP2010186242A (ja) | 2009-02-10 | 2009-02-10 | 計算機システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010186242A true JP2010186242A (ja) | 2010-08-26 |
Family
ID=42766878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009028677A Pending JP2010186242A (ja) | 2009-02-10 | 2009-02-10 | 計算機システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010186242A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014056396A (ja) * | 2012-09-12 | 2014-03-27 | Denso Corp | 電子制御装置 |
JP2014219915A (ja) * | 2013-05-10 | 2014-11-20 | コニカミノルタ株式会社 | 画像形成システムおよび画像形成システムの診断方法 |
CN106502847A (zh) * | 2016-10-31 | 2017-03-15 | 紫光华山信息技术有限公司 | 服务器的诊断方法及装置 |
WO2017078093A1 (ja) * | 2015-11-05 | 2017-05-11 | 日立オートモティブシステムズ株式会社 | 電子制御装置及び電子制御方法 |
JP2019101951A (ja) * | 2017-12-07 | 2019-06-24 | トヨタ自動車株式会社 | 情報処理装置 |
JP2020060928A (ja) * | 2018-10-10 | 2020-04-16 | トヨタ自動車株式会社 | モータ制御用の情報処理装置 |
CN117632570A (zh) * | 2024-01-25 | 2024-03-01 | 上海励驰半导体有限公司 | 基于多核异构soc的多操作系统诊断方法、装置和系统 |
-
2009
- 2009-02-10 JP JP2009028677A patent/JP2010186242A/ja active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014056396A (ja) * | 2012-09-12 | 2014-03-27 | Denso Corp | 電子制御装置 |
JP2014219915A (ja) * | 2013-05-10 | 2014-11-20 | コニカミノルタ株式会社 | 画像形成システムおよび画像形成システムの診断方法 |
WO2017078093A1 (ja) * | 2015-11-05 | 2017-05-11 | 日立オートモティブシステムズ株式会社 | 電子制御装置及び電子制御方法 |
JP2017091047A (ja) * | 2015-11-05 | 2017-05-25 | 日立オートモティブシステムズ株式会社 | 電子制御装置及び電子制御方法 |
CN106502847A (zh) * | 2016-10-31 | 2017-03-15 | 紫光华山信息技术有限公司 | 服务器的诊断方法及装置 |
CN106502847B (zh) * | 2016-10-31 | 2020-02-11 | 新华三信息技术有限公司 | 服务器的诊断方法及装置 |
CN110008138A (zh) * | 2017-12-07 | 2019-07-12 | 丰田自动车株式会社 | 信息处理装置 |
JP2019101951A (ja) * | 2017-12-07 | 2019-06-24 | トヨタ自動車株式会社 | 情報処理装置 |
CN110008138B (zh) * | 2017-12-07 | 2023-07-21 | 丰田自动车株式会社 | 信息处理装置 |
JP2020060928A (ja) * | 2018-10-10 | 2020-04-16 | トヨタ自動車株式会社 | モータ制御用の情報処理装置 |
JP7176341B2 (ja) | 2018-10-10 | 2022-11-22 | 株式会社デンソー | モータ制御用の情報処理装置 |
CN117632570A (zh) * | 2024-01-25 | 2024-03-01 | 上海励驰半导体有限公司 | 基于多核异构soc的多操作系统诊断方法、装置和系统 |
CN117632570B (zh) * | 2024-01-25 | 2024-04-12 | 上海励驰半导体有限公司 | 基于多核异构soc的多操作系统诊断方法、装置和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7426657B2 (en) | System and method for predictive processor failure recovery | |
US8135985B2 (en) | High availability support for virtual machines | |
JP2010186242A (ja) | 計算機システム | |
US11068360B2 (en) | Error recovery method and apparatus based on a lockup mechanism | |
US8176365B2 (en) | Computer apparatus and processor diagnostic method | |
WO2015169199A1 (zh) | 分布式环境下虚拟机异常恢复方法 | |
EP2518627B1 (en) | Partial fault processing method in computer system | |
JP2014026567A (ja) | 監視装置、情報処理装置、及び監視方法 | |
US20100241809A1 (en) | Processor, server system, and method for adding a processor | |
JP2009069963A (ja) | マルチプロセッサシステム | |
JP5332257B2 (ja) | サーバシステム、サーバ管理方法、およびそのプログラム | |
CN115576734B (zh) | 一种多核异构日志存储方法和系统 | |
JP5327105B2 (ja) | バックアップシステム | |
WO2008004330A1 (fr) | Système à processeurs multiples | |
JP4867896B2 (ja) | 情報処理システム | |
CN115904793A (zh) | 一种基于多核异构系统的内存转存方法、系统及芯片 | |
JP4495248B2 (ja) | 情報処理装置、障害処理方法 | |
JP2005234744A (ja) | マルチプロセッサシステム及び障害処理方法 | |
WO2016204070A1 (ja) | Cpu監視装置 | |
JP2015106226A (ja) | 二重化システム | |
JP5832408B2 (ja) | 仮想計算機システム及びその制御方法 | |
CN116560936A (zh) | 异常监测方法、协处理器及计算设备 | |
JP5906807B2 (ja) | 演算処理装置及びストール監視方法 | |
JP2013097634A (ja) | マルチプロセッサシステムの障害回復方法 | |
JP2008033598A (ja) | 動的置き換えシステム、動的置き換え方法およびプログラム |