JP2002312201A - 論理分割マルチプロセッシング・システムに対するログ修復処置の処理システム、処理方法およびその記録媒体 - Google Patents

論理分割マルチプロセッシング・システムに対するログ修復処置の処理システム、処理方法およびその記録媒体

Info

Publication number
JP2002312201A
JP2002312201A JP2002046093A JP2002046093A JP2002312201A JP 2002312201 A JP2002312201 A JP 2002312201A JP 2002046093 A JP2002046093 A JP 2002046093A JP 2002046093 A JP2002046093 A JP 2002046093A JP 2002312201 A JP2002312201 A JP 2002312201A
Authority
JP
Japan
Prior art keywords
log
partitions
action
repair action
repair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002046093A
Other languages
English (en)
Inventor
Mark S Edwards
マーク・エス・エドワーズ
George H Ahrens
ジョージ・エイチ・アーレンス
Douglas M Benignus
ダグラス・エム・ベニーナス
Arthur J Tysor
アーサー・ジェイ・タイサー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Infineon Technologies North America Corp
Original Assignee
International Business Machines Corp
Infineon Technologies North America Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp, Infineon Technologies North America Corp filed Critical International Business Machines Corp
Publication of JP2002312201A publication Critical patent/JP2002312201A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0781Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】 【課題】 論理分割(LPAR)マルチプロセッシング
・システムにおいてログ修復処置を処理する方法を開示
する。 【解決手段】 本発明に係るシステムおよび方法は、制
御の単一のフォーカル・ポイントを用いる通知方式を使
用することにより、複数の区画において同一のアクショ
ンを実行しなければならないという問題を解決する。フ
ォーカル・ポイントが、実行されたアクションが他の区
画に共通であると判断する場合には、そのアクションが
フォーカル・ポイントによって他の区画に対してブロー
ドキャストされ、各々の区画を訪問してアクションを繰
り返す必要性を除去する。各々の受信側区画は、ブロー
ドキャスト情報を用いてそのログ修復処置レコードを更
新する。このようにして、アクティブな作業区画に対す
る短縮された修復シナリオとより少ない中断とが与えら
れ、より高いユーザ満足をもたらすシステム可用性の増
大をユーザに提供する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、一般的には論理分
割マルチプロセッシング・システムに関し、特に、この
ようなシステムにおけるログ修復処置の処理に関する。
【0002】
【従来の技術】論理分割は、単一のマルチプロセッシン
グ・システムを、それがまるで2以上の独立したシステ
ムであるかのように稼働させることができる。各論理区
画は、システム内のリソースの分割を表し、独立した論
理システムとして動作する。リソースの分割は物理的ま
たは仮想的であり得るので、各区画は論理的である。論
理区画の1例は、各々が自身のプロセッサ,主記憶装置
および入出力装置を備える複数の独立したサーバへのマ
ルチプロセッサ・コンピュータ・システムの分割であ
る。
【0003】論理分割システムにおいて、ローカル・エ
ラー(その区画のみに対する入出力アダプタ)は、その
区画上で実行するOSに報告される。グローバル・エラ
ー(全ての区画、例えばファン,電源機構,メモリ等に
影響を及ぼし得るエラー)は、全てのオペレーティング
・システムに報告される。一般に、修復が行われる時、
たとえグローバル修復であっても、修復処置はエラーを
有する区画用のエラー・ログ内に記録されるだけであ
る。各区画のログ内に修復データを繰り返し入力する必
要性なしに、全ての区画に対して修復を報告することは
有益であり得る。
【0004】図1は、論理分割(logically
partitioned;LPAR)マルチプロセッシ
ング・システム100のブロック図である。マルチプロ
セッシング・システム100は、複数の入出力装置(I
/O)104からローカルに、そして、基本ハードウェ
ア106例えば、電源機構,冷却機構,ファン,メモリ
およびプロセッサからグローバルに入力を受信する複数
のオペレーティング・システム(OS)区画102a,
102b,102cおよび102dを有する。4つのO
S区画がここに示されているが、当業者は、本発明の趣
旨および範囲内であらゆる数の区画を用いることができ
るということを容易に理解できる。OS区画102a−
102dの各々は、識別(ID)番号105a−105
dを有する。
【0005】このようなシステムにおいて、1つの区画
上のエラー・ログに記録されるグローバル・リソースへ
の修復処置を、当該リソースを共用するその他の全ての
区画内のエラー・ログへ報告することが望ましい。区画
は、互いに分離されているので、他のどの区画のエラー
・ログ情報も知ることができない。サービス・アクショ
ンを要求するハードウェア・エラーがログに記録される
場合、診断は、ログ修復処置がログに記録されるまで問
題を報告し続けることとなる。従来のLPARマルチプ
ロセッシング・システムにおいて、“修復された”リソ
ースを共用する各区画は、修復処置を手動で記録するた
めに、(システム検証モードの実行中の診断かまたはロ
グ修復処置保守援助機能の使用によって)訪問(vis
it)される必要がある。すなわち、グローバル・リソ
ースは、これらの区画における問題として報告され続
け、修復処置が記録された区画においては報告されない
こととなる。これは、グローバルに報告されたエラーに
対するあらゆる修復処置を手動で記録するためにかなり
の時間とユーザの中断とを与える。
【0006】したがって、グローバル・エラーの修復処
置を記録するために要求される時間の量を削減するため
のシステムおよび方法が必要とされる。当該システムお
よび方法は、費用有効的であり,容易に実現され,既存
システムに容易に適用できる必要がある。本発明はこの
ような必要性に取り組むものである。
【0007】
【課題を解決するための手段】論理分割(LPAR)マ
ルチプロセッシング・システムにおいてログ修復処置を
処理する方法を開示する。LPARマルチプロセッシン
グ・システムは、複数の区画を有する。本方法およびシ
ステムは、複数の区画のうちの1つにログ修復処置を記
録するステップを含む。本方法およびシステムは、単一
のログ修復処置サービスへログ修復処置のレコードを送
信するステップをさらに含み、当該レコードは、ログ修
復処置と複数の区画のうちの1つの区画識別コードとを
含む。本方法およびシステムは、ログ修復処置を、単一
のサービスから複数の区画のうちのその他の区画のそれ
ぞれへ送信するステップをさらに含む。
【0008】これにより、本発明に係るシステムおよび
方法は、制御の単一のフォーカル・ポイントを用いる通
知方式を使用することにより、複数の区画内で同一のア
クションを実行しなければならないという問題を解決す
る。フォーカル・ポイントが、実行されたアクションが
他の区画に共通であると判断する場合に、そのアクショ
ンはフォーカル・ポイントによって他の区画へブロード
キャストされ、各々の区画を訪問してアクションを繰り
返す必要性を除去する。各々の受信側区画は、ブロード
キャスト情報を用いてそのログ修復処置レコードを更新
する。このようにして、アクティブな作業区画に対する
短縮された修復シナリオとより少ない中断とが与えら
れ、これにより、より高いユーザ満足をもたらすシステ
ム可用性の増大をユーザに提供する。
【0009】
【発明の実施の形態】本発明は、一般的には論理分割マ
ルチプロセッシング・システムに関し、特に、このよう
なシステムにおけるログ修復処置の処理に関する。以下
の説明は、当業者が本発明を実施し利用できるようにす
るために提供され、特許出願およびその要件の背景にお
いて与えられる。好適な実施の形態に対する様々な変更
とここに述べられる包括的な原理および特徴とは、当業
者にとって容易に明らかとすることができる。したがっ
て、本発明は、示される実施の形態に限定されることは
意図されず、ここに述べられる原理および特徴と一致す
る最大の範囲と一致することが意図される。
【0010】本発明は、ハードウェア・システム・コン
ソール内部のサービス・フォーカル・ポイント(SF
P)・アプリケーション内のプロシージャを用いて、グ
ローバルに報告された障害に関連した各区画内のログ修
復処置を処理する。図2は、本発明に係るサービス・フ
ォーカル・ポイント(SFP)・アプリケーションの図
である。このシステムおいて、SFPアプリケーション
202は、ハードウェア・システム・コンソール200
上に存在する。ハードウェア・システム・コンソール2
00は、SFPアプリケーション202を実行する(図
示しない)プロセッサを含む。SFPアプリケーション
202は、典型的に、コンピュータ読み取り可能媒体、
例えば、フロッピー(R),ディスク・ドライブ,CD
ROM,DVD等上に存在する。サービス・フォーカ
ル・ポイント・アプリケーション202は、フィルタ2
04を介してOS区画102a−102nからエラー報
告を受信するサービス・アクション・イベント(ser
vice action event;SAE)・ログ
206を有する。ハードウェア・システム・コンソール
上にある他のアプリケーションは、エラー報告に関する
フィルタに掛けられた情報を受信し、サービスのコール
を発行するサービス・エージェント208である。示さ
れるように、LPARマルチプロセッシング・システム
において、各々の区画から与えられ得るローカル障害と
共にオペレーティング・システム102a−102nの
各々から与えられるグローバル障害が存在する。障害を
受信したOS区画102a−102nの各々は、ハード
ウェア・システム内のサービス・フォーカル・ポイント
・アプリケーション202へエラー報告を送信すること
となる。各々のOS区画102a−102nは、エラー
・ログを有する。
【0011】図3は、単一の区画102のブロック図で
ある。区画102は、マネージャ152と通信するエラ
ー・ログ150を有する。マネージャ152は、(図2
の)SFPアプリケーション202から情報を受信し、
SFPアプリケーション202へ情報を伝送する。マネ
ージャ152は、ログ修復診断を実行する。本形態の論
理分割マルチプロセッシング・システムにおいては、報
告されるエラーの複製を除去し、サービス担当者へ報告
されるエラーの数を最小化することを指向する。
【0012】図4は、LPARマルチプロセッシング・
システムにおいて、報告されるエラーの複製を最小化す
るプロセスを説明するフローチャートである。図2およ
び4を共に参照すると、ステップ302により、グロー
バルに報告された障害が、各OS区画102a−102
nへ報告される。続いて、ステップ304により、各オ
ペレーティング・システム区画は、障害をサービス・フ
ォーカル・ポイント・アプリケーション内のSAEログ
206へ報告する。SAEログ206は、OS区画10
2a−102nからの複製されたエラー・ログをフィル
タに掛けるフィルタ機構を有する。次に、ステップ30
6により、SAEログ206は、サービス担当者による
後の利用のために、エラーを報告したOS区画102a
−102nのそれぞれの区画ID105a−105nと
共にエラーの発生の最初の報告を保管する。SAEログ
206内のフィルタに掛けられたエラー・ログは、次
に、ステップ308により、サービス・エージェント・
アプリケーション208に受け渡される。次に、ステッ
プ310により、サービス・エージェント・アプリケー
ションは、サービスのコールに関して、単一の報告をサ
ービス担当者へ送信する。
【0013】上述したプロセスは、エラーの複製がSF
Pからサービス・エージェントへ報告されないというこ
とを保証する。本発明は、特定区画のユーザが、診断に
よって報告される問題を経験し続けることがないという
ことを保証するために、サービスが実行された後に区画
を更新する。
【0014】本発明の特徴をより詳細に説明するため
に、関連する図と共に以下の説明を示す。図5は、区画
上のエラー・ログを更新するプロセスのフローチャート
である。図2,3および5を共に参照すると、サービス
が実行された後に最初に、ステップ404により、修復
された区画に修正が記録され、その区画のエラーおよび
区画ID番号と共にSFPアプリケーション202へ送
信される。その次に、ステップ406により、SFPア
プリケーション202は、同一のエラーを報告した区画
のそれぞれに対してログ修復処置を送信する。次に、ス
テップ408により、ログ修復処置を受信した各区画
は、プログラム・マネージャ152によってログ修復処
置をそのエラー・ログ150に記録する。このように、
SFPアプリケーション202の使用により、ユーザが
ログ修復処置を手動で実行しなければならないのではな
く、ログ修復処置が自動的に実行可能となる。
【0015】したがって、本発明によれば、サービス担
当者が障害が起きているリソースに対する正常な修復処
置を実行する場合には、それが区画上に記録され、エラ
ー・コード,修正リソースのロケーション・コードおよ
び報告区画情報と共に制御のフォーカル・ポイントへ受
け渡される。この時点で、区画のうちの1つだけが、リ
ソースが修正されたということを認識しており、訂正さ
れない場合には、認識していない区画上で不必要な修復
処置を生じさせる可能性がある。修復処置通知に基づい
て、制御のフォーカル・ポイントは、存在する場合には
その他の区画のうちのどれが同一のエラーを受信したか
判断する。同一のリソースに関する同一のエラーを報告
したその他の区画のそれぞれについて、制御のフォーカ
ル・ポイントは、修復の通知を当該その他の区画へ送信
する。続いて、その他の区画は、まるでサービス担当者
がその区画内でアクションを実行したかのように修復処
置を記録する。
【0016】このようにして、本発明に係るシステムお
よび方法は、制御の単一のフォーカル・ポイントを用い
る通知方式を使用することにより、複数の区画において
同一のアクションを実行しなければならないという問題
を解決する。フォーカル・ポイントが、実行されたアク
ションが他の区画に共通であると判断する場合には、そ
のアクションは、フォーカル・ポイントによって当該他
の区画へブロードキャストされ、各区画を訪問してアク
ションを繰り返す必要性を除去する。このようにして、
アクティブな作業区画に対する短縮された修復シナリオ
とより少ない中断とが与えられ、より高いユーザ満足を
もたらすシステム可用性の増大をユーザに提供する。
【0017】示された実施の形態に従って本発明を説明
してきたが、実施の形態に対する変形が可能であり、そ
のような変形は本発明の趣旨および範囲に含まれ得ると
いうことを、当業者は容易に理解できる。したがって、
当業者は、特許請求の範囲の趣旨および範囲から外れる
ことなしに、多くの変更を行うことができる。
【0018】まとめとして、本発明の構成に関して以下
の事項を開示する。 (1)論理分割(LPAR)マルチプロセッシング・シ
ステムにおいてログ修復処置を処理する方法であって、
前記LPARマルチプロセッシング・システムは、複数
の区画を有し、グローバルに報告されたエラーに応答す
る前記ログ修復処置を実行し、前記方法は、(a)前記
複数の区画のうちの1つに前記ログ修復処置を記録する
ステップと、(b)前記ログ修復処置のレコードを単一
のログ修復処置サービスへ送信するステップとを有し、
前記レコードは、前記ログ修復処置と前記複数の区画の
うちの前記1つについての区画識別コードとを含み、さ
らに、(c)前記ログ修復処置を、前記単一のサービス
から前記複数の区画のうちのその他の区画のそれぞれへ
送信するステップ、を含む方法。 (2)(d)前記複数の区画のうちの前記その他の区画
によって、前記ログ修復処置を記録するステップをさら
に含む上記(1)に記載の方法。 (3)前記ログ修復処置は、前記複数の区画のうちの前
記その他の区画のそれぞれの内部のエラー・ログに記録
される上記(2)に記載の方法。 (4)論理分割(LPAR)マルチプロセッシング・シ
ステムにおいてログ修復処置を処理するシステムであっ
て、前記LPARマルチプロセッシング・システムは、
複数の区画を有し、グローバルに報告されたエラーに応
答する前記ログ修復処置を実行し、前記システムは、前
記マルチプロセッシング・システム内の複数の区画に関
して、複数の関連するグローバルに報告されたエラーを
受信しフィルタに掛けるためのサービス・アクション・
イベント(SAE)ログであって、前記複数のグローバ
ルに報告されたエラーのうちの最初の発生のみを保管
し、前記複数の区画のうちのその他の区画のそれぞれへ
ログ修復処置を与えるSAEログと、前記ログ修復処置
を前記SAEログから受信し、前記ログ修復処置を記録
するための前記区画のそれぞれの内部のエラー・ログと
を備えるシステム。 (5)前記SAEログは、前記複数の関連するグローバ
ルに報告されたエラーを前記LPARマルチプロセッシ
ング・システムから受信する手段と、前記複数の関連す
るグローバルに報告されたエラーのうちの最初の発生を
保管する手段と、前記最初の発生をサービス・エージェ
ントへ送信する手段とを、さらに備える上記(4)に記
載のシステム。 (6)前記SAEログは、障害を報告した各区画のID
を保管する手段をさらに備える上記(5)に記載のシス
テム。 (7)論理分割(LPAR)マルチプロセッシング・シ
ステムにおいてログ修復処置を処理するプログラムを含
むコンピュータ読み取り可能媒体であって、前記LPA
Rマルチプロセッシング・システムは、複数の区画を有
し、グローバルに報告されたエラーに応答する前記ログ
修復処置を実行し、前記プログラムは、(a)前記複数
の区画のうちの1つに前記ログ修復処置を記録するステ
ップと、(b)前記ログ修復処置のレコードを単一のロ
グ修復処置サービスへ送信するステップとを有し、前記
レコードは、前記ログ修復処置と前記複数の区画のうち
の前記1つについての区画識別コードとを含み、さら
に、(c)前記ログ修復処置を、前記単一のサービスか
ら前記複数の区画のうちのその他の区画のそれぞれへ送
信するステップ、を含むコンピュータ読み取り可能媒
体。 (8)(d)前記複数の区画のうちの前記その他の区画
によって、前記ログ修復処置を記録するステップをさら
に含む上記(7)に記載のコンピュータ読み取り可能媒
体。 (9)前記ログ修復処置は、前記複数の区画のうちの前
記その他の区画のそれぞれの内部のエラー・ログに記録
される上記(8)に記載のコンピュータ読み取り可能媒
体。
【図面の簡単な説明】
【図1】図1は、論理分割マルチプロセッシング・シス
テムのブロック図である。
【図2】図2は、本発明に係るサービス・フォーカル・
ポイント・アプリケーションの図である。
【図3】図3は、単一の区画のブロック図である。
【図4】図4は、本発明に係るLPARマルチプロセッ
シング・システムにおいて、報告されるエラーの複製を
最小化するプロセスを説明するフローチャートである。
【図5】図5は、区画上のエラー・ログを更新するプロ
セスのフローチャートである。
【符号の説明】
100 論理分割(LPAR)マルチプロセッシング・
システム 102 オペレーティング・システム(OS)区画 104 入出力装置(I/O) 105 識別(ID)番号 106 基本ハードウェア 150 エラー・ログ 152 マネージャ 200 ハードウェア・システム・コンソール 202 サービス・フォーカル・ポイント(SFP)・
アプリケーション 204 フィルタ 206 サービス・アクション・イベント(SAE)・
ログ 208 サービス・エージェント
───────────────────────────────────────────────────── フロントページの続き (71)出願人 399035836 インフィニオン テクノロジーズ ノース アメリカ コーポレイション Infineon Technologi es North America Co rp アメリカ合衆国 カリフォルニア サン ホセ ノース ファースト ストリート 1730 1730 North First Stre et、San Jose、CA、USA (74)上記1名の代理人 100086243 弁理士 坂口 博 (外2名) (72)発明者 マーク・エス・エドワーズ アメリカ合衆国 78727 テキサス州 オ ースティン アントワネット プレイス 12317 (72)発明者 ジョージ・エイチ・アーレンス アメリカ合衆国 78660 テキサス州 ピ ーフルーガーヴィル ウッドローン ドラ イブ 1213 (72)発明者 ダグラス・エム・ベニーナス アメリカ合衆国 77853 テキサス州 ダ イム ボックス ボックス159エイ−1 アールティー1(番地なし) (72)発明者 アーサー・ジェイ・タイサー アメリカ合衆国 78610 テキサス州 ブ ッダ レジャーウッズ 702 Fターム(参考) 5B042 GA22 GC10 KK09 MA08 MC15 MC40 5B098 HH08 JJ01 JJ09

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】論理分割(LPAR)マルチプロセッシン
    グ・システムにおいてログ修復処置を処理する方法であ
    って、前記LPARマルチプロセッシング・システム
    は、複数の区画を有し、グローバルに報告されたエラー
    に応答する前記ログ修復処置を実行し、前記方法は、 (a)前記複数の区画のうちの1つに前記ログ修復処置
    を記録するステップと、 (b)前記ログ修復処置のレコードを単一のログ修復処
    置サービスへ送信するステップとを有し、前記レコード
    は、前記ログ修復処置と前記複数の区画のうちの前記1
    つについての区画識別コードとを含み、さらに、 (c)前記ログ修復処置を、前記単一のサービスから前
    記複数の区画のうちのその他の区画のそれぞれへ送信す
    るステップ、を含む方法。
  2. 【請求項2】(d)前記複数の区画のうちの前記その他
    の区画によって、前記ログ修復処置を記録するステップ
    をさらに含む請求項1に記載の方法。
  3. 【請求項3】前記ログ修復処置は、前記複数の区画のう
    ちの前記その他の区画のそれぞれの内部のエラー・ログ
    に記録される請求項2に記載の方法。
  4. 【請求項4】論理分割(LPAR)マルチプロセッシン
    グ・システムにおいてログ修復処置を処理するシステム
    であって、前記LPARマルチプロセッシング・システ
    ムは、複数の区画を有し、グローバルに報告されたエラ
    ーに応答する前記ログ修復処置を実行し、前記システム
    は、 前記マルチプロセッシング・システム内の複数の区画に
    関して、複数の関連するグローバルに報告されたエラー
    を受信しフィルタに掛けるためのサービス・アクション
    ・イベント(SAE)ログであって、前記複数のグロー
    バルに報告されたエラーのうちの最初の発生のみを保管
    し、前記複数の区画のうちのその他の区画のそれぞれへ
    ログ修復処置を与えるSAEログと、 前記ログ修復処置を前記SAEログから受信し、前記ロ
    グ修復処置を記録するための前記区画のそれぞれの内部
    のエラー・ログとを備えるシステム。
  5. 【請求項5】前記SAEログは、 前記複数の関連するグローバルに報告されたエラーを前
    記LPARマルチプロセッシング・システムから受信す
    る手段と、 前記複数の関連するグローバルに報告されたエラーのう
    ちの最初の発生を保管する手段と、 前記最初の発生をサービス・エージェントへ送信する手
    段とを、さらに備える請求項4に記載のシステム。
  6. 【請求項6】前記SAEログは、 障害を報告した各区画のIDを保管する手段をさらに備
    える請求項5に記載のシステム。
  7. 【請求項7】論理分割(LPAR)マルチプロセッシン
    グ・システムにおいてログ修復処置を処理するプログラ
    ムを含むコンピュータ読み取り可能媒体であって、前記
    LPARマルチプロセッシング・システムは、複数の区
    画を有し、グローバルに報告されたエラーに応答する前
    記ログ修復処置を実行し、 前記プログラムは、 (a)前記複数の区画のうちの1つに前記ログ修復処置
    を記録するステップと、 (b)前記ログ修復処置のレコードを単一のログ修復処
    置サービスへ送信するステップとを有し、前記レコード
    は、前記ログ修復処置と前記複数の区画のうちの前記1
    つについての区画識別コードとを含み、さらに、 (c)前記ログ修復処置を、前記単一のサービスから前
    記複数の区画のうちのその他の区画のそれぞれへ送信す
    るステップ、を含むコンピュータ読み取り可能媒体。
  8. 【請求項8】(d)前記複数の区画のうちの前記その他
    の区画によって、前記ログ修復処置を記録するステップ
    をさらに含む請求項7に記載のコンピュータ読み取り可
    能媒体。
  9. 【請求項9】前記ログ修復処置は、前記複数の区画のう
    ちの前記その他の区画のそれぞれの内部のエラー・ログ
    に記録される請求項8に記載のコンピュータ読み取り可
    能媒体。
JP2002046093A 2001-03-01 2002-02-22 論理分割マルチプロセッシング・システムに対するログ修復処置の処理システム、処理方法およびその記録媒体 Pending JP2002312201A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/798,290 US20020124201A1 (en) 2001-03-01 2001-03-01 Method and system for log repair action handling on a logically partitioned multiprocessing system
US09/798290 2001-03-01

Publications (1)

Publication Number Publication Date
JP2002312201A true JP2002312201A (ja) 2002-10-25

Family

ID=25173014

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002046093A Pending JP2002312201A (ja) 2001-03-01 2002-02-22 論理分割マルチプロセッシング・システムに対するログ修復処置の処理システム、処理方法およびその記録媒体

Country Status (3)

Country Link
US (1) US20020124201A1 (ja)
JP (1) JP2002312201A (ja)
TW (1) TW567410B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7139940B2 (en) 2003-04-10 2006-11-21 International Business Machines Corporation Method and apparatus for reporting global errors on heterogeneous partitioned systems

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002229806A (ja) * 2001-02-02 2002-08-16 Hitachi Ltd 計算機システム
US7464405B2 (en) * 2004-03-25 2008-12-09 International Business Machines Corporation Method for preventing loading and execution of rogue operating systems in a logical partitioned data processing system
US7296129B2 (en) * 2004-07-30 2007-11-13 International Business Machines Corporation System, method and storage medium for providing a serialized memory interface with a bus repeater
US7277988B2 (en) * 2004-10-29 2007-10-02 International Business Machines Corporation System, method and storage medium for providing data caching and data compression in a memory subsystem
US7305574B2 (en) * 2004-10-29 2007-12-04 International Business Machines Corporation System, method and storage medium for bus calibration in a memory subsystem
US7512762B2 (en) 2004-10-29 2009-03-31 International Business Machines Corporation System, method and storage medium for a memory subsystem with positional read data latency
US7331010B2 (en) 2004-10-29 2008-02-12 International Business Machines Corporation System, method and storage medium for providing fault detection and correction in a memory subsystem
US7991850B2 (en) * 2005-07-28 2011-08-02 Advanced Micro Devices, Inc. Resilient system partition for personal internet communicator
US7478259B2 (en) 2005-10-31 2009-01-13 International Business Machines Corporation System, method and storage medium for deriving clocks in a memory system
US7685392B2 (en) 2005-11-28 2010-03-23 International Business Machines Corporation Providing indeterminate read data latency in a memory system
US7669086B2 (en) 2006-08-02 2010-02-23 International Business Machines Corporation Systems and methods for providing collision detection in a memory system
US7581073B2 (en) * 2006-08-09 2009-08-25 International Business Machines Corporation Systems and methods for providing distributed autonomous power management in a memory system
US7539842B2 (en) * 2006-08-15 2009-05-26 International Business Machines Corporation Computer memory system for selecting memory buses according to physical memory organization information stored in virtual address translation tables
US7870459B2 (en) 2006-10-23 2011-01-11 International Business Machines Corporation High density high reliability memory module with power gating and a fault tolerant address and command bus
US7721140B2 (en) 2007-01-02 2010-05-18 International Business Machines Corporation Systems and methods for improving serviceability of a memory system
US8543712B2 (en) * 2008-02-19 2013-09-24 International Business Machines Corporation Efficient configuration of LDAP user privileges to remotely access clients within groups
US8914684B2 (en) * 2009-05-26 2014-12-16 Vmware, Inc. Method and system for throttling log messages for multiple entities
US20110179398A1 (en) * 2010-01-15 2011-07-21 Incontact, Inc. Systems and methods for per-action compiling in contact handling systems
US9529661B1 (en) * 2015-06-18 2016-12-27 Rockwell Collins, Inc. Optimal multi-core health monitor architecture
CN108832717A (zh) * 2018-06-22 2018-11-16 国网天津市电力公司 一种配电自动化系统进程在线监测报警方法
CN110928696B (zh) * 2020-02-13 2020-10-09 北京一流科技有限公司 用户级线程控制系统及其方法
TWI767548B (zh) * 2021-02-02 2022-06-11 台灣積體電路製造股份有限公司 操作具有複數個作業系統之使用者裝置的方法及系統

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4710926A (en) * 1985-12-27 1987-12-01 American Telephone And Telegraph Company, At&T Bell Laboratories Fault recovery in a distributed processing system
US4843541A (en) * 1987-07-29 1989-06-27 International Business Machines Corporation Logical resource partitioning of a data processing system
JPH06214969A (ja) * 1992-09-30 1994-08-05 Internatl Business Mach Corp <Ibm> 情報通信方法および装置
JP3196004B2 (ja) * 1995-03-23 2001-08-06 株式会社日立製作所 障害回復処理方法
JP2836552B2 (ja) * 1995-11-20 1998-12-14 日本電気株式会社 分散型ネットワーク障害回復装置
US5768501A (en) * 1996-05-28 1998-06-16 Cabletron Systems Method and apparatus for inter-domain alarm correlation
US6000046A (en) * 1997-01-09 1999-12-07 Hewlett-Packard Company Common error handling system
US5991518A (en) * 1997-01-28 1999-11-23 Tandem Computers Incorporated Method and apparatus for split-brain avoidance in a multi-processor system
US6496941B1 (en) * 1998-12-29 2002-12-17 At&T Corp. Network disaster recovery and analysis tool
US6414595B1 (en) * 2000-06-16 2002-07-02 Ciena Corporation Method and system for processing alarm objects in a communications network
US6609213B1 (en) * 2000-08-10 2003-08-19 Dell Products, L.P. Cluster-based system and method of recovery from server failures

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7139940B2 (en) 2003-04-10 2006-11-21 International Business Machines Corporation Method and apparatus for reporting global errors on heterogeneous partitioned systems

Also Published As

Publication number Publication date
US20020124201A1 (en) 2002-09-05
TW567410B (en) 2003-12-21

Similar Documents

Publication Publication Date Title
JP2002312201A (ja) 論理分割マルチプロセッシング・システムに対するログ修復処置の処理システム、処理方法およびその記録媒体
US7313717B2 (en) Error management
JP2002323987A (ja) 論理分割マルチプロセッシング・システムにおいて重複して報告されるエラーをなくす方法およびシステム
US7765431B2 (en) Preservation of error data on a diskless platform
CN110807064B (zh) Rac分布式数据库集群系统中的数据恢复装置
JP5102901B2 (ja) データセンタにわたる複数データサーバ間のデータ完全性を保持する方法およびシステム
JP3962393B2 (ja) グローバル・エラーを報告するための論理分割データ処理システム
US7343515B1 (en) System and method for performing error recovery in a data processing system having multiple processing partitions
CN104239161B (zh) 在虚拟化系统中实现用于共享适配器的增强错误处理
US7711991B2 (en) Error monitoring of partitions in a computer system using partition status indicators
US8347142B2 (en) Non-disruptive I/O adapter diagnostic testing
KR20040047209A (ko) 네트워크 상의 컴퓨터 시스템의 자동 복구 방법 및 이를구현하기 위한 컴퓨터 시스템의 자동 복구 시스템
CA2530575A1 (en) Fault tolerant duplex computer system and its control method
US20100085871A1 (en) Resource leak recovery in a multi-node computer system
CA2708976C (en) Synchronizing device error information among nodes
US20060104209A1 (en) Failure isolation in a communication system
CN115190046B (zh) 一种服务器集群的检测方法、检测装置及计算设备
US20070234114A1 (en) Method, apparatus, and computer program product for implementing enhanced performance of a computer system with partially degraded hardware
US20100085870A1 (en) Global detection of resource leaks in a multi-node computer system
WO2015015621A1 (ja) 情報処理装置、診断方法、診断プログラム、及び情報処理システム
TW200307200A (en) Multiple fault location in a series of devices
CN111901415B (zh) 数据处理方法和系统、计算机可读存储介质及处理器
KR100604552B1 (ko) 클러스터 시스템에서 상태 정보 및 제어 명령의 공유를통한 시스템 장애 대응방법
KR100235570B1 (ko) 2이상의 주전산기를 병립 연결한 시스템의 클러스터 관리 마스터 시스템의 클러스터 관리방법
JP2024082450A (ja) 電子制御装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041221

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20050317

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20050323

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050817