JP2003076671A - Fault containment and error handling in partitioned system with shared resources - Google Patents

Fault containment and error handling in partitioned system with shared resources

Info

Publication number
JP2003076671A
JP2003076671A JP2002190699A JP2002190699A JP2003076671A JP 2003076671 A JP2003076671 A JP 2003076671A JP 2002190699 A JP2002190699 A JP 2002190699A JP 2002190699 A JP2002190699 A JP 2002190699A JP 2003076671 A JP2003076671 A JP 2003076671A
Authority
JP
Japan
Prior art keywords
domain
resource
allocated
fault
definition table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002190699A
Other languages
Japanese (ja)
Other versions
JP4213415B2 (en
Inventor
Kazunori Masuyama
和則 増山
Yasushi Umezawa
靖 梅澤
Jeremy J Farrell
ジェイ.ファレル ジェレミー
Sudheer Miryala
ミルヤラ サディール
Takeshi Shimizu
剛 清水
Hitoshi Oi
ヒトシ 大井
N Conway Patrick
エヌ.コンウェイ パトリック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US10/150,618 external-priority patent/US7380001B2/en
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2003076671A publication Critical patent/JP2003076671A/en
Application granted granted Critical
Publication of JP4213415B2 publication Critical patent/JP4213415B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Multi Processors (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a system and a method for fault contaminant and error handling within a domain in a partitioned computer system. SOLUTION: This computer system includes a system manager having access right for reading and writing to a resource definition table. When a failure occurs in the domain, the system manager suspends the system, distinguishes allocation resource related to the fault domain, distinguishes a no-fault domain, and ends a suspension condition in the no-fault domain to contain the failure in the fault domain. Furthermore, the system manager releases the allocation of resource allocated to the fault domain so that the no-fault domain can use the resource in order to handle an error in the fault domain.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、一般にコンピュー
タシステムのドメインへの区画の分割に関し、特に共有
リソースを有する分割コンピュータシステムにおける障
害の抑制及びエラー処理に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention generally relates to partitioning a partition of a computer system into domains, and more particularly to fault suppression and error handling in partitioned computer systems having shared resources.

【0002】[0002]

【従来の技術】マルチノード・コンピュータ・システム
は、しばしばドメインに分割され、各ドメインが独自に
アドレス空間を有する独立した機械として機能する。分
割することで、コンピュータシステムのリソースを異な
るタスクに効果的に割り当てることができる。分割され
たコンピュータシステムにおけるドメインは、動的にリ
ソースを共有し得る。ドメイン内でパケット処理の決定
的な障害が生じた場合は、システムで処理を継続するこ
とができない。その結果、共有リソース全体が中間状態
に置かれる。システム内の障害ドメインをリセットし、
再起動するためには、共有リソース全体をリセットしな
ければならない。たとえ他のドメインが障害なく動作し
ていても、全てのドメインをリセットしなければならな
い。
Multi-node computer systems are often divided into domains, each domain functioning as an independent machine with its own address space. Partitioning effectively allocates computer system resources to different tasks. Domains in a partitioned computer system can dynamically share resources. When a critical packet processing failure occurs in the domain, the system cannot continue processing. As a result, the entire shared resource is placed in an intermediate state. Reset the fault domain in the system,
The entire shared resource must be reset to restart. All domains must be reset, even if the other domains are working fine.

【0003】分割されたシステムにおけるエラー抑制及
び復旧の解決法の1つは、各ドメインに専用のリソース
を使用し、あるドメインで障害が起きた場合でも障害の
起きていないドメインは影響を受けないようにすること
である。しかし、分割されたシステムにおいて、各ドメ
インに専用リソースを使用してエラー抑制及び復旧を行
うには、共有リソースを使用する場合よりも多くのリソ
ースを必要とする。なぜなら、リソース量は、システム
の全ドメインの最大要求に対応しなければならないから
である。
One solution to error suppression and recovery in a partitioned system is to use dedicated resources for each domain so that if one domain fails, the unfailed domains are unaffected. To do so. However, in a divided system, more resources are required to perform error suppression and recovery using dedicated resources for each domain than when using shared resources. This is because the resource amount has to correspond to the maximum demand of all domains of the system.

【0004】[0004]

【発明が解決しようとする課題】従って、システムが障
害ドメインにエラーを含んでいても、他の障害のないド
メインは影響を受けないような機構を提供することが望
まれる。
Therefore, it would be desirable to provide a mechanism such that if a system contains an error in a fault domain, other non-fault domains will not be affected.

【0005】本発明は、相互接続によって結合された複
数のコンピュータノードを有する論理的に分割されたコ
ンピュータシステムにおける、障害抑制及びエラー処理
のためのシステム及び方法である。
The present invention is a system and method for fault suppression and error handling in a logically partitioned computer system having multiple computer nodes coupled by an interconnect.

【0006】[0006]

【課題を解決するための手段】システムは、幾つかの或
いは全てのドメインによって動的に共有される少なくと
も1つのリソースを含む。リソース定義テーブルは各リ
ソースの状態に関する情報、例えばリソースがドメイン
に割り当てられているかどうか、を格納する。リソース
定義テーブルはリソースとそのリソースが割り当てられ
ているドメインとの間の関連も管理する。
The system includes at least one resource that is dynamically shared by some or all domains. The resource definition table stores information about the status of each resource, eg, whether the resource is assigned to a domain. The resource definition table also manages the association between a resource and the domain to which that resource is assigned.

【0007】システムは、リソース定義テーブルに読み
出し及び書き込みのアクセス権を有するシステムマネー
ジャを更に含む。ドメインにパケット処理障害が起きた
場合、システムマネージャはシステムを休止状態にする
ことにより、システムの新たなパケットの開始を強制的
に一時延期する。システムマネージャは共有リソースの
ステータス情報を監視する。例えば、中間状態におかれ
ている割り当てリソースを識別する。リソース定義テー
ブルに格納されるドメイン識別子を利用して、システム
マネージャはその割り当てリソースに関連する障害ドメ
インも検出する。システムマネージャは関連するリソー
スがリソース定義テーブルにない1つ或いはそれ以上の
障害のないドメインの検出も行う。その後、システムマ
ネージャは障害のないドメインの休止状態を終了し、障
害のないドメインは動作を再開し、これによりエラーを
障害ドメイン内に抑制する。その後、システムマネージ
ャは障害ドメイン内のエラーを処理する。例えば、他の
ドメインが将来使用するために割り当てられたリソース
の割り当てを解除し、障害ドメインをリセットする。こ
の結果、障害は障害ドメイン内に抑制され、障害のない
ドメインはリセットされることなく継続して動作する。
The system further includes a system manager having read and write access to the resource definition table. In the event of a packet processing failure in the domain, the system manager forces the system to dormant, suspending the start of new packets for the system. The system manager monitors status information of shared resources. For example, identify allocated resources that are in an intermediate state. Utilizing the domain identifier stored in the resource definition table, the system manager also detects the fault domain associated with the allocated resource. The system manager also detects one or more non-faulty domains whose associated resources are not in the resource definition table. The system manager then exits the non-failed domain from hibernation and the non-failed domain resumes operation, thereby suppressing the error within the failed domain. The system manager then handles the error in the fault domain. For example, deallocating resources that other domains have allocated for future use and resetting the failed domain. As a result, the fault is suppressed within the fault domain and the non-fault domain continues to operate without being reset.

【0008】[0008]

【発明の実施の形態】図1を参照すると、複数のドメイ
ンに分割されたマルチノード・コンピュータ・システム
100のブロック線図が示されている。図1に示される
各ドメイン131、135及び137は複数のノード、
即ち中央制御装置(CPU)ノード105、メモリノー
ド110及び入力/出力(I/O)ノード115を含
み、相互接続120を介して接続されている。CPUノ
ード105は従来の処理装置、例えばインテル又はイン
テル対応のPentiumTMクラス又はそれ以上のプロ
セッサ、サンのSPARCTMクラス又はそれ以上のプロ
セッサ、或いはIBM/モトローラのPowerPCTM
クラス又はそれ以上のプロセッサである。I/Oノード
115は従来のI/Oシステム、例えば記憶装置、入力
装置、周辺装置等である。メモリノード110は従来の
メモリシステム、例えば動的ランダムアクセスメモリシ
ステム、静的ランダムアクセスメモリシステム等であ
る。各ノードは別々のコンピュータチップ、コンピュー
タ基盤或いは独立型ユニットで実施してもよい。CPU
ノード105、メモリノード110及びI/Oノード1
15はパケットを使用し、相互接続120を介して互い
に通信する。相互接続120は、例えば、従来のグロー
バル相互接続でもよく、またはルータを含む。各ドメイ
ン131、135及び137は各ローカルドメインの状
態を制御するローカルドメインレジスタを有する。一例
としてドメインレジスタ145を図1に示す。各ローカ
ルドメインレジスタは、好ましくは、制御レジスタ、ス
テータスレジスタ、エラー記録レジスタ(図示しない)
等の様々な異なる型のローカルレジスタを含む。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENT Referring to FIG. 1, there is shown a block diagram of a multi-node computer system 100 partitioned into multiple domains. Each of the domains 131, 135 and 137 shown in FIG. 1 has a plurality of nodes,
That is, it includes a central control unit (CPU) node 105, a memory node 110 and an input / output (I / O) node 115, which are connected via an interconnect 120. CPU node 105 may be a conventional processor, such as an Intel or Intel-compatible Pentium class processor or higher, a Sun SPARC class processor or higher, or an IBM / Motorola PowerPC processor.
A processor of class or better. The I / O node 115 is a conventional I / O system, such as a storage device, an input device, and a peripheral device. The memory node 110 is a conventional memory system such as a dynamic random access memory system or a static random access memory system. Each node may be implemented on a separate computer chip, computer board or stand-alone unit. CPU
Node 105, memory node 110 and I / O node 1
15 use packets to communicate with each other via interconnect 120. Interconnect 120 may be, for example, a conventional global interconnect or may include a router. Each domain 131, 135 and 137 has a local domain register that controls the state of each local domain. The domain register 145 is shown in FIG. 1 as an example. Each local domain register is preferably a control register, status register, error recording register (not shown).
, Etc., including various different types of local registers.

【0009】システム100は、システム100内の少
なくとも1つのドメインによって動的に使用される1つ
又はそれ以上の共有リソース130を更に含む。システ
ム100はリソース定義テーブル155を更に含み、リ
ソースの状態及びリソースとそのリソースが割り当てら
れるドメインとの関係を、たとえそのリソースがそのド
メインにすでに割り当てられていなくても、格納する。
リソース定義テーブル155をアドレス復号論理を含む
レジスタ配列として実現し、エントリの読み出し又は書
き込みを許可する。リソース定義テーブル155は別々
の読み出し、書き込みポートを有する静的RAM配列で
実現されてもよい。リソース定義テーブル155は図2
から5に関連づけて、以下により詳しく述べる。
System 100 further includes one or more shared resources 130 that are dynamically used by at least one domain within system 100. The system 100 further includes a resource definition table 155 to store the state of the resource and the relationship between the resource and the domain to which the resource is assigned, even if the resource is not already assigned to the domain.
The resource definition table 155 is realized as a register array including address decoding logic, and reading or writing of entries is permitted. The resource definition table 155 may be implemented as a static RAM array with separate read and write ports. The resource definition table 155 is shown in FIG.
5 to 5 will be described in more detail below.

【0010】システム100は、相互接続120と接続
され、システムマネージャ140と呼ばれる外部エージ
ェントを更に含む。好ましい実施態様においては、シス
テムマネージャ140はリソース定義テーブル155へ
読み出し及び書き込みアクセス権を有する。これは、シ
ステムマネージャ140が中間状態に置かれている割り
当てリソースを識別するのに有効である。ドメインID
を利用することにより、システムマネージャ140はそ
の割り当てリソースに関連する障害ドメインを識別す
る。システムマネージャ140はシステム100内の全
ドメインのリストと障害ドメインのリストを管理する。
これにより、システムマネージャ140はリソース定義
テーブル155において関連リソースを持たない、障害
のないドメインを識別することができる。
The system 100 further includes an external agent, called the system manager 140, which is connected to the interconnect 120. In the preferred embodiment, the system manager 140 has read and write access to the resource definition table 155. This helps the system manager 140 identify allocated resources that are in an intermediate state. Domain ID
The system manager 140 identifies the fault domain associated with the allocated resource by utilizing the. The system manager 140 manages a list of all domains in the system 100 and a list of failed domains.
As a result, the system manager 140 can identify a domain having no related resource and no failure in the resource definition table 155.

【0011】システムマネージャ140は1つ或いはそ
れ以上のローカルドメインレジスタ、例えばドメインレ
ジスタ145に対し読み取り及び書き込みアクセス権を
有する。この権利により、システムマネージャ140
は、再設定プロセスの一部としてドメイン131、13
5及び137を休止させる等、各個別ドメインの状態を
監視及び制御することができる。ドメイン内にハードウ
エア障害が生じた場合、相互接続120がデッドロック
されるためドメインがデッドロックされる。従来のコン
ピュータシステムにおいては、リソースがドメイン間で
共有されているため、デッドロックされたドメインが他
のドメインの動作にエラーを起こす可能性がある。シス
テムマネージャ140はローカルドメインレジスタ、例
えばレジスタ145、に対して書き込み及び読み出しア
クセス権を有するので、デッドロックされたドメインの
ドメイン状態をリセットすることができる。システムマ
ネージャ140は、あらゆる個別ドメイン上で動作する
ハードウエアやソフトウエアから独立して動作する。従
って、コンピュータシステム100内のどの個別ドメイ
ンのハードウエア又はソフトウエア障害の影響も受けな
い。システムマネージャ140はハードウエア、ソフト
ウエア、ファームウエア及びこれらの組み合わせで実現
されて良い。システムマネージャ140はシステム管理
者(図示しない)用の制御インタフェイス(図示しな
い)を有するシステムコントローラ(図示しない)の一
部であっても良い。
System manager 140 has read and write access to one or more local domain registers, eg domain register 145. This right allows the system manager 140
Domain 131, 13 as part of the reconfiguration process.
The status of each individual domain can be monitored and controlled, such as by pausing 5 and 137. In the event of a hardware failure within the domain, the domain is deadlocked because the interconnect 120 is deadlocked. In a conventional computer system, resources are shared between domains, so a deadlocked domain can cause the operation of other domains to fail. The system manager 140 has write and read access to local domain registers, such as register 145, so that it can reset the domain state of the deadlocked domain. The system manager 140 operates independently of the hardware and software operating on any individual domain. Thus, it is immune to hardware or software failures in any of the individual domains within computer system 100. The system manager 140 may be implemented in hardware, software, firmware and combinations thereof. The system manager 140 may be part of a system controller (not shown) having a control interface (not shown) for a system administrator (not shown).

【0012】図2を参照すると、システム100におけ
る未処理トランザクションの状態を常に把握しているリ
ソース定義テーブル155が示されている。図2に示さ
れるリソース定義テーブル155は8エントリを含む。
リソース定義テーブル155は幾つのエントリを含んで
もよいことに留意すべきである。パケットがノードから
相互接続120に送られるときに、各共有リソースエン
トリ40はドメインに割り当てられる。共有リソースエ
ントリ40の状態情報は、更なる処理が実行された場合
には更新される。共有リソースエントリ40は一連のパ
ケット処理が完了すると、割り当て解除される。リソー
ス定義テーブル155は好ましくは有効ビット10、ド
メインID20及びリソースエントリ30のフィールド
を含む。有効ビットフィールド10は、特定の値を有
し、リソースがドメインに割り当てられたかどうかを示
す。本発明のある実施態様では、リソースが割り当てら
れている場合には有効ビットフィールド10は「1」で
あり、リソースが割り当て解除された場合には有効ビッ
トフィールド10は「0」である。ドメインIDフィー
ルド20はリソースが割り当てられたドメインを識別す
る。ドメインID20があるので、システム100はリ
ソースとそれに対応するドメインの関係を管理すること
ができ、そのため、システム100内に障害が生じた場
合にシステムマネージャ140は1つあるいはそれ以上
の障害のないドメインを識別することができる。図2に
示すように、リソース0及び1はドメイン0に割り当て
られ、リソース2はドメイン3に割り当てられ、リソー
ス4及び7はドメイン2に割り当てられる。
Referring to FIG. 2, there is shown a resource definition table 155 that keeps track of the status of outstanding transactions in the system 100. The resource definition table 155 shown in FIG. 2 includes 8 entries.
It should be noted that the resource definition table 155 may contain any number of entries. Each shared resource entry 40 is assigned to a domain as the packet is sent from the node to the interconnect 120. The state information of the shared resource entry 40 is updated when further processing is executed. The shared resource entry 40 is deallocated when the series of packet processing is completed. The resource definition table 155 preferably includes fields for valid bit 10, domain ID 20, and resource entry 30. The valid bit field 10 has a specific value and indicates whether the resource has been assigned to the domain. In one embodiment of the present invention, the valid bit field 10 is "1" when the resource is allocated and the valid bit field 10 is "0" when the resource is deallocated. The domain ID field 20 identifies the domain to which the resource is assigned. The presence of the domain ID 20 allows the system 100 to manage the relationship between a resource and its corresponding domain, so that in the event of a failure within the system 100, the system manager 140 will have one or more unaffected domains. Can be identified. As shown in FIG. 2, resources 0 and 1 are assigned to domain 0, resource 2 is assigned to domain 3, and resources 4 and 7 are assigned to domain 2.

【0013】図3は、リソース定義テーブル155のリ
ソース割り当て解除プロセスを示す。例えば、リソース
4は一連のパケット処理が完了したときに割り当て解除
される。そして、リソース4に対する有効ビットフィー
ルド10は1から0へクリアされる。ドメインIDフィ
ールド20は、リソース4がドメイン2へ割り当てられ
た時の値を保持していることに留意すべきである。この
情報は、リソース4をどのドメインが前回使ったかを識
別するのに有効である。
FIG. 3 shows a resource deallocating process of the resource definition table 155. For example, the resource 4 is deallocated when the series of packet processing is completed. Then, the valid bit field 10 for the resource 4 is cleared from 1 to 0. It should be noted that the domain ID field 20 holds the value when the resource 4 was assigned to the domain 2. This information is useful in identifying which domain last used the resource 4.

【0014】図4は、割り当てのためのリソース選択プ
ロセスを示す。割り当て用にリソースを選択するため
に、優先符号器(図示しない)はリソース定義テーブル
155内の全リソースの有効ビット10を復号化し、最
も番号の小さい、未使用リソースを選択する。図4で
は、リソース3が、最小番号の割り当てられていないリ
ソースである。リソース3はパケットがノード、例えば
CPUノード105、から相互接続120へ送られたと
きに割り当てられ、パケット処理の状態を保持する。共
有リソースの状態情報は、更なる処理が実行された場合
に更新される。
FIG. 4 shows a resource selection process for allocation. To select a resource for allocation, a priority encoder (not shown) decodes the effective bit 10 of all resources in the resource definition table 155 and selects the lowest numbered unused resource. In FIG. 4, the resource 3 is the resource to which the minimum number is not assigned. Resource 3 is allocated when a packet is sent from a node, eg CPU node 105, to the interconnect 120 and holds the state of packet processing. The shared resource status information is updated when further processing is performed.

【0015】図5に示すように、リソース定義テーブル
155はドメイン1によるリソース3の割り当てをたど
っている。ドメインがリソースを割り当てると、そのド
メインまたはシステムマネージャ140のみがそのリソ
ースの修正又は割り当て解除を許可される。図示する例
では、ドメイン1又はシステムマネージャ140のみが
リソース3の修正又は割り当て解除を許可される。これ
により、システム100はリソース分離を維持できる。
リソース分離は、リソース定義テーブル155へアクセ
スした全メッセージのドメインIDをチェックすること
によって実現する。あるメッセージが、修正しようとし
ているリソースのドメインIDフィールド20内のドメ
インIDと異なるドメインから発せられている場合は、
エラー状態を意味し、それは記録され、システムマネー
ジャ140に報告されなければならない。
As shown in FIG. 5, the resource definition table 155 traces the allocation of the resource 3 by the domain 1. When a domain allocates a resource, only that domain or system manager 140 is allowed to modify or deallocate that resource. In the example shown, only domain 1 or system manager 140 is allowed to modify or deallocate resource 3. This allows the system 100 to maintain resource isolation.
Resource separation is realized by checking the domain IDs of all messages that have accessed the resource definition table 155. If a message originates from a domain different from the domain ID in the domain ID field 20 of the resource being modified,
An error condition, which must be recorded and reported to the system manager 140.

【0016】図6は、共有リソースを有し論理的に分割
されたシステムにおけるエラー抑制及び復旧の方法を示
すフローチャートである。プロセスは、パケット処理障
害がドメイン内で生じ、そのドメインがデッドロックさ
れた時に開始10する。システムマネージャ140はシ
ステム100内の全ドメインの全ノードを休止20し、
新たなトランザクションを受け入れず、全ドメイン内の
全未処理トランザクションは完了まで動作する。
FIG. 6 is a flowchart showing a method of error suppression and recovery in a logically divided system having shared resources. The process starts 10 when a packet processing failure occurs within a domain and the domain is deadlocked. The system manager 140 suspends 20 all nodes in all domains in the system 100,
It does not accept new transactions and all outstanding transactions in all domains work to completion.

【0017】システムマネージャ140は、システム1
00を「休止」状態にするのに、好ましくは「バスロッ
ク」と呼ばれる機構を使用する。これは、ノード、例え
ばCPUノード105、が分割されたシステム内の全リ
ソースをロックする必要があるときに発行される。シス
テムマネージャ140はロック取得要求を全ドメインの
各ノードへ一斉送信する。要求を受け取ったシステム1
00の各ノードは、システム100への新たなプロセッ
サ要求の発行を中止する。各ノードは、システム100
からそのノードへのあらゆる未処理要求へ十分なリソー
スを保証してその未処理要求を完了させ、全未処理要求
への返答が受信されるのを待つ。その後、ロック取得要
求に対して生成された返答が各ノードによりシステムマ
ネージャ140へ送信される。全ノードからの返答が受
信されると、システム100は全未処理要求を排出し、
「休止」状態に入る。
The system manager 140 is the system 1
A mechanism called "bus lock" is preferably used to put 00 into the "dormant" state. This is issued when a node, eg CPU node 105, needs to lock all resources in the partitioned system. The system manager 140 broadcasts the lock acquisition request to each node in all domains. System 1 that received the request
Each node of 00 stops issuing a new processor request to the system 100. Each node is a system 100
To all outstanding requests from the node to the node, guaranteeing sufficient resources to complete the outstanding request and waiting for a reply to all outstanding requests. Thereafter, the response generated for the lock acquisition request is transmitted to the system manager 140 by each node. When replies from all nodes are received, the system 100 drains all outstanding requests,
Enter the "pause" state.

【0018】パケット処理エラーにより要求が完了でき
なかった場合、その特定のノードからはロック取得要求
への返答が受信されない。この状況は、単にシステムマ
ネージャ140のタイムアウトによって検出される。タ
イムアウト時間が終わると、システムマネージャ140
はリソース定義テーブル155を調査30し、中間状態
にある割り当てリソースを識別する。ドメインIDを使
用して、システムマネージャ140はその割り当てリソ
ースに関連する障害ドメインを検出40する。また、リ
ソース定義テーブル内で割り当てリソースを有さない1
つ或いはそれ以上の障害のないドメインの検出50も行
う。例えば、図2に示されるように、ドメイン0は関連
するドメインを持たない障害のないドメインである。シ
ステムマネージャ140は障害のないドメインを識別す
ると、そのドメインの休止状態を終了する。例えば、シ
ステムマネージャ140はロック開放要求を全ドメイン
の全ノードに発行し、相互接続120へ新たな要求の発
行を継続できるようにする。これにより、システムマネ
ージャ140は障害を障害ドメイン内に抑制することが
でき、障害のないドメインは再起動しなくてもよい。
If the request cannot be completed due to a packet processing error, no reply to the lock acquisition request is received from that particular node. This situation is simply detected by the system manager 140 timeout. When the timeout expires, the system manager 140
Examines the resource definition table 155 to identify allocated resources in the intermediate state. Using the domain ID, the system manager 140 detects 40 the fault domain associated with its assigned resource. Also, in the resource definition table, there is no allocated resource 1
The detection 50 of one or more non-faulty domains is also performed. For example, as shown in FIG. 2, domain 0 is a fault-free domain with no associated domain. When the system manager 140 identifies a domain that has no failures, it exits the dormant state for that domain. For example, the system manager 140 issues a lock release request to all nodes in all domains, allowing the interconnection 120 to continue issuing new requests. This allows the system manager 140 to contain the failure within the failed domain, without having to restart the unfailed domain.

【0019】その後、システムマネージャ140は障害
ドメイン内のエラーを処理する。例えば、障害ドメイン
に関連するリソースの割り当て解除70を行い、他の障
害のないドメインがそのリソースを利用できるようにす
る。このように、図3において、ドメイン2がリソース
4を割り当てられた障害ドメインであった場合、システ
ムマネージャ140はリソース4を割り当て解除し、リ
ソース定義テーブル155の有効ビットフィールド10
をクリアし、有効ビットフィールド10の値を「1」か
ら「0」に変えることにより、そのリソースは他の障害
のないドメインが使えるようにする。ドメインIDフィ
ールド20はリソース4が割り当てられた時の値を保持
していることに留意すべきである。システムマネージャ
140は、この情報を使って、ドメイン「2」が前回リ
ソース4を使用したことを識別する。
The system manager 140 then handles the error in the fault domain. For example, deallocating 70 the resources associated with the faulty domain so that other non-faulty domains can utilize the resource. As described above, in FIG. 3, when the domain 2 is the fault domain to which the resource 4 is allocated, the system manager 140 deallocates the resource 4 and the effective bit field 10 of the resource definition table 155.
Is cleared and the value of the valid bit field 10 is changed from "1" to "0" so that the resource can be used by another non-failed domain. It should be noted that the domain ID field 20 holds the value when the resource 4 was assigned. The system manager 140 uses this information to identify that domain "2" last used resource 4.

【0020】[0020]

【発明の効果】本発明の好ましい実施態様によれば、チ
ャネル165はシステムマネージャ140がシステムを
再初期化又は再起動することにより、デッドロックされ
たドメイン内のハードウエア状態を選択的にリセット8
0するのに有効である。障害ドメインがリセットされる
と、プロセスは終了90する。結果として、障害は障害
ドメイン内に抑制され、障害のないドメインはリセット
されることなく動作を継続し、障害ドメインはリセット
される。
In accordance with the preferred embodiment of the present invention, channel 165 selectively resets the hardware state in a deadlocked domain by system manager 140 reinitializing or rebooting the system.
It is effective to zero. When the fault domain is reset, the process ends 90. As a result, the fault is suppressed within the fault domain, the non-fault domain continues to operate without being reset, and the fault domain is reset.

【0021】付記 (付記1) パケット処理障害を障害ドメイン内に抑制
して処理する分割コンピュータシステムであって、少な
くとも1つのドメインによって動的に共有される少なく
とも1つの割り当てリソースの状態を格納するリソース
定義テーブルを含み、各リソースは割り当てられている
ドメインを識別するドメインIDと関連づけられおり、
リソース定義ファイルへの書き込み及び読み出しアクセ
ス権を有し、ドメインIDを使用して割り当てリソース
とその割り当てリソースに関連する障害ドメインを識別
できるシステムマネージャ、を含むコンピュータシステ
ム。 (付記2) 相互接続を介して接続される複数のコンピ
ュータノードを更に有し、システムマネージャは更に各
ドメインの各ノードを休止状態にできる付記1に記載の
システム。 (付記3) システムマネージャが少なくとも1つ障害
のないドメインを識別し、その少なくとも1つの障害の
ないドメインの休止状態を終えることを更に含む、付記
2に記載のシステム。 (付記4) システムマネージャが、リソース定義テー
ブルに示されるリソースの状態を変えることにより障害
ドメインに関連する割り当てリソースを割り当て解除を
行うことを更に含む、付記1に記載のシステム。 (付記5) リソース定義テーブルの各リソースが、リ
ソースが割り当てられているかどうかを示す特定値を有
する有効ビットと関連づけられている、付記1に記載の
システム。 (付記6)有効ビットが0であると、前記特定値がリソ
ースが割り当てられたことを示す、付記5に記載のシス
テム。 (付記7)有効ビットが1であると、前記特定値がリソ
ースが割り当てられたことを示す、付記5に記載のシス
テム。 (付記8)少なくとも2つのドメインに分割され、各ド
メインが複数のコンピュータノードを有するコンピュー
タシステムにおける、パケット処理障害を障害ドメイン
内に抑制して処理する方法であって、システムのパケッ
ト処理障害に対応して各ドメインの各ノードを休止状態
に入れること、リソース定義テーブルの割り当てリソー
スを識別すること、リソース定義テーブルの割り当てリ
ソースに関連する障害ドメインを識別すること、リソー
ス定義テーブルで割り当てリソースを有さない少なくと
も1つの障害のないドメインを識別すること、障害のな
いドメインの休止状態を終了すること、及びリソース定
義テーブルの障害リソースと関連する割り当てリソース
の割り当て解除をすること、を含む方法。 (付記9) 障害ドメインをリセットするステップを更
に含む、付記8に記載の方法。 (付記10) 障害ドメインをリセットするステップ
が、障害ドメインの状態を変えることを更に含む、付記
8に記載の方法。 (付記11) 休止状態に入れるステップが、各ドメイ
ンの各ノードにロック取得要求を発行することを含む、
付記8に記載の方法。 (付記12) 休止状態を終了するステップが、各ドメ
インの各ノードにロック開放要求を発行することを含
む、付記8に記載の方法。 (付記13) コンピュータノードがCPUノードであ
る、付記2に記載のシステム。 (付記14) コンピュータノードがI/Oノードであ
る、付記2に記載のシステム。 (付記15) コンピュータノードがメモリノードであ
る、付記2に記載のシステム。 (付記16) システムマネージャがハードウエアで実
現される、付記1に記載のシステム。 (付記17) システムマネージャがソフトウエアで実
現される、付記1に記載のシステム。 (付記18) システムマネージャがシステム外部のコ
ンピュータにあるソフトウエアによって実現される、付
記1に記載のシステム。
Supplementary note (Supplementary note 1) A divided computer system for suppressing a packet processing failure within a fault domain for processing, and storing a state of at least one allocated resource dynamically shared by at least one domain. Including a definition table, each resource is associated with a domain ID that identifies the domain to which it is assigned,
A computer system including a system manager having write and read access to a resource definition file and using a domain ID to identify an assigned resource and a fault domain associated with the assigned resource. (Supplementary note 2) The system according to supplementary note 1, further comprising a plurality of computer nodes connected via an interconnection, wherein the system manager can further suspend each node of each domain. (Supplementary note 3) The system of Supplementary note 2, further comprising the system manager identifying at least one non-failed domain and ending the hibernation of the at least one non-failed domain. (Supplementary note 4) The system according to supplementary note 1, further comprising: the system manager deallocating the allocated resource associated with the failure domain by changing the state of the resource indicated in the resource definition table. (Supplementary note 5) The system according to supplementary note 1, wherein each resource of the resource definition table is associated with a valid bit having a specific value indicating whether or not the resource is allocated. (Supplementary note 6) The system according to supplementary note 5, wherein when the valid bit is 0, the specific value indicates that a resource is allocated. (Supplementary note 7) The system according to supplementary note 5, wherein when the valid bit is 1, the specific value indicates that a resource has been allocated. (Supplementary note 8) A method of suppressing packet processing failure in a failure domain in a computer system having at least two domains, each domain having a plurality of computer nodes, and handling the system packet processing failure. To put each node in each domain into a dormant state, to identify the allocation resource in the resource definition table, to identify the fault domain related to the allocation resource in the resource definition table, and to have the allocation resource in the resource definition table. Identifying at least one non-faulty domain that does not exist, terminating the non-faulty domain from hibernation, and deallocating allocated resources associated with the failed resource in the resource definition table. (Supplementary note 9) The method according to supplementary note 8, further comprising resetting the fault domain. (Supplementary note 10) The method of Supplementary note 8, wherein the step of resetting the fault domain further comprises changing a state of the fault domain. (Supplementary Note 11) The step of entering the hibernation state includes issuing a lock acquisition request to each node of each domain,
The method according to attachment 8. (Supplementary note 12) The method according to supplementary note 8, wherein the step of ending the hibernation includes issuing a lock release request to each node of each domain. (Supplementary note 13) The system according to supplementary note 2, wherein the computer node is a CPU node. (Supplementary Note 14) The system according to Supplementary Note 2, wherein the computer node is an I / O node. (Supplementary note 15) The system according to supplementary note 2, wherein the computer node is a memory node. (Supplementary note 16) The system according to supplementary note 1, wherein the system manager is realized by hardware. (Supplementary note 17) The system according to supplementary note 1, wherein the system manager is realized by software. (Supplementary note 18) The system according to supplementary note 1, wherein the system manager is realized by software in a computer outside the system.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明のマルチノード・コンピュータ・システ
ムの全体のアーキテクチャのブロック線図である。
FIG. 1 is a block diagram of the overall architecture of a multi-node computer system of the present invention.

【図2】図1の実施態様によるリソース定義テーブルの
ブロック線図である。
FIG. 2 is a block diagram of a resource definition table according to the embodiment of FIG.

【図3】図2のリソース定義テーブル内のリソース割り
当て解除プロセスを示すブロック線図である。
3 is a block diagram illustrating a resource deallocation process in the resource definition table of FIG.

【図4】図2のリソース定義テーブル内の最小番号リソ
ースを割り当てるよう選択するプロセスを示すブロック
線図である。
4 is a block diagram illustrating a process of selecting to allocate the lowest numbered resource in the resource definition table of FIG.

【図5】ドメイン1によるリソース3の割り当てをたど
るリソース定義テーブルを示すブロック線図である。
FIG. 5 is a block diagram showing a resource definition table that traces allocation of resources 3 by domain 1.

【図6】図1の実施態様によって実行される方法のフロ
ーチャートである。
FIG. 6 is a flowchart of a method performed by the embodiment of FIG.

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 15/16 640 G06F 15/16 640A (72)発明者 梅澤 靖 アメリカ合衆国,カリフォルニア 95014, クパーティノ,バレー グリーン ドライ ブ 20875 ナンバー51 (72)発明者 ジェレミー ジェイ.ファレル アメリカ合衆国,カリフォルニア 95008, キャンベル,パトリシア コート 1030 (72)発明者 サディール ミルヤラ アメリカ合衆国,カリフォルニア 95129, サン ノゼ,ウエスト ウォルブルック ドライブ 5725 (72)発明者 清水 剛 アメリカ合衆国,カリフォルニア 95134, サン ノゼ,エラン ビレッジ レーン 310 ナンバー113 (72)発明者 大井 ヒトシ アメリカ合衆国,フロリダ 33431,ボカ ラトン,グレイズ ロード 777 (72)発明者 パトリック エヌ.コンウェイ アメリカ合衆国,カリフォルニア 94024, ロス アルトス,ドロレス アベニュ 973 Fターム(参考) 5B045 BB28 BB32 HH01 HH04 JJ02 JJ07 JJ13 5B098 HH01 JJ03 ─────────────────────────────────────────────────── ─── Continuation of front page (51) Int.Cl. 7 Identification code FI theme code (reference) G06F 15/16 640 G06F 15/16 640A (72) Inventor Yasushi Umezawa USA, California 95014, Valley Green Dry Bou 20875 Number 51 (72) Inventor Jeremy Jay. Farrell United States, California 95008, Campbell, Patricia Court 1030 (72) Inventor Sadir Milyara United States, California 95129, San Jose, West Walbrook Drive 5725 (72) Inventor Tsuyoshi Shimizu United States, California 95134, San Jose, Elan Village Lane 310 No. 113 (72) Inventor Hitoshi Oi USA, Florida 33431, Boca Raton, Glades Road 777 (72) Inventor Patrick N. Conway United States, California 94024, Los Altos, Dolores 973 F term (reference) 5B045 BB28 BB32 HH01 HH04 JJ02 JJ07 JJ13 5B098 HH01 JJ03

Claims (10)

【特許請求の範囲】[Claims] 【請求項1】 パケット処理障害を障害ドメイン内に抑
制して処理する分割コンピュータシステムであって、 少なくとも1つのドメインによって動的に共有される少
なくとも1つの割り当てリソースの状態を格納するリソ
ース定義テーブルを含み、各リソースは割り当てられて
いるドメインを識別するドメインIDと関連づけられお
り、 リソース定義ファイルへの書き込み及び読み出しアクセ
ス権を有し、ドメインIDを使用して割り当てリソース
とその割り当てリソースに関連する障害ドメインを識別
できるシステムマネージャ、を含むコンピュータシステ
ム。
1. A split computer system for suppressing a packet processing failure within a failure domain for processing, and comprising a resource definition table storing a state of at least one allocated resource dynamically shared by at least one domain. Each resource is associated with a domain ID that identifies the domain to which it is allocated, has write and read access to the resource definition file, and uses the domain ID to allocate resources and faults associated with the allocated resources. A computer system that includes a system manager that can identify a domain.
【請求項2】 相互接続を介して接続される複数のコン
ピュータノードを更に有し、システムマネージャは更に
各ドメインの各ノードを休止状態にできる請求項1に記
載のシステム。
2. The system of claim 1, further comprising a plurality of computer nodes connected via an interconnect, the system manager further capable of hibernating each node of each domain.
【請求項3】 システムマネージャが少なくとも1つ障
害のないドメインを識別し、その少なくとも1つの障害
のないドメインの休止状態を終えることを更に含む、請
求項2に記載のシステム。
3. The system of claim 2, further comprising a system manager identifying at least one non-faulty domain and ending hibernation of the at least one non-faulty domain.
【請求項4】 システムマネージャが、リソース定義テ
ーブルに示されるリソースの状態を変えることにより障
害ドメインに関連する割り当てリソースを割り当て解除
を行うことを更に含む、請求項1に記載のシステム。
4. The system of claim 1, further comprising: the system manager deallocating the allocated resources associated with the fault domain by changing the state of the resources shown in the resource definition table.
【請求項5】 リソース定義テーブルの各リソースが、
リソースが割り当てられているかどうかを示す特定値を
有する有効ビットと関連づけられている、請求項1に記
載のシステム。
5. Each resource of the resource definition table is
The system of claim 1, associated with a valid bit having a particular value that indicates whether a resource is allocated.
【請求項6】 有効ビットが0であると、前記特定値が
リソースが割り当てられたことを示す、請求項5に記載
のシステム。
6. The system of claim 5, wherein a valid bit of 0 indicates that the particular value has been allocated a resource.
【請求項7】 有効ビットが1であると、前記特定値が
リソースが割り当てられたことを示す、請求項5に記載
のシステム。
7. The system of claim 5, wherein a valid bit of 1 indicates that the particular value has been allocated a resource.
【請求項8】 少なくとも2つのドメインに分割され、
各ドメインが複数のコンピュータノードを有するコンピ
ュータシステムにおける、パケット処理障害を障害ドメ
イン内に抑制して処理する方法であって、 システムのパケット処理障害に対応して各ドメインの各
ノードを休止状態に入れること、 リソース定義テーブルの割り当てリソースを識別するこ
と、 リソース定義テーブルの割り当てリソースに関連する障
害ドメインを識別すること、 リソース定義テーブルで割り当てリソースを有さない少
なくとも1つの障害のないドメインを識別すること、 障害のないドメインの休止状態を終了すること、及びリ
ソース定義テーブルの障害リソースと関連する割り当て
リソースの割り当て解除をすること、を含む方法。
8. Dividing into at least two domains,
A method of suppressing a packet processing failure in a failure domain in a computer system in which each domain has a plurality of computer nodes and putting each node of each domain into a dormant state in response to the system packet processing failure Identifying an allocated resource in the resource definition table, identifying a fault domain associated with the allocated resource in the resource definition table, and identifying at least one fault-free domain having no allocated resource in the resource definition table. Terminating the dormancy-free domain, and deallocating the allocated resources associated with the failed resource in the resource definition table.
【請求項9】 障害ドメインをリセットするステップを
更に含む、請求項8に記載の方法。
9. The method of claim 8, further comprising resetting the fault domain.
【請求項10】 障害ドメインをリセットするステップ
が、障害ドメインの状態を変えることを更に含む、請求
項8に記載の方法。
10. The method of claim 8, wherein resetting the fault domain further comprises changing a state of the fault domain.
JP2002190699A 2001-06-29 2002-06-28 Error suppression and error handling in partitioned systems with shared resources Expired - Fee Related JP4213415B2 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US30196901P 2001-06-29 2001-06-29
US60/301969 2001-06-29
US10/150,618 US7380001B2 (en) 2001-05-17 2002-05-17 Fault containment and error handling in a partitioned system with shared resources
US10/150618 2002-05-17

Publications (2)

Publication Number Publication Date
JP2003076671A true JP2003076671A (en) 2003-03-14
JP4213415B2 JP4213415B2 (en) 2009-01-21

Family

ID=26847856

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002190699A Expired - Fee Related JP4213415B2 (en) 2001-06-29 2002-06-28 Error suppression and error handling in partitioned systems with shared resources

Country Status (1)

Country Link
JP (1) JP4213415B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008165556A (en) * 2006-12-28 2008-07-17 Hitachi Ltd Computer system and chip set therefor
WO2008120383A1 (en) * 2007-03-29 2008-10-09 Fujitsu Limited Information processor and fault processing method
WO2009147716A1 (en) * 2008-06-02 2009-12-10 富士通株式会社 Data processing system, data processing method, and data processing program
JP5930046B2 (en) * 2012-08-17 2016-06-08 富士通株式会社 Information processing apparatus and control method of information processing apparatus
US9483502B2 (en) 2012-08-09 2016-11-01 Fujitsu Limited Computational processing device including request holding units each provided for each type of commands, information processing device including request holding units each provided for each type of commands, and method of controlling information processing device

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008165556A (en) * 2006-12-28 2008-07-17 Hitachi Ltd Computer system and chip set therefor
JP4723470B2 (en) * 2006-12-28 2011-07-13 株式会社日立製作所 Computer system and its chipset
WO2008120383A1 (en) * 2007-03-29 2008-10-09 Fujitsu Limited Information processor and fault processing method
JP4495248B2 (en) * 2007-03-29 2010-06-30 富士通株式会社 Information processing apparatus and failure processing method
JPWO2008120383A1 (en) * 2007-03-29 2010-07-15 富士通株式会社 Information processing apparatus and failure processing method
US7930599B2 (en) 2007-03-29 2011-04-19 Fujitsu Limited Information processing apparatus and fault processing method
WO2009147716A1 (en) * 2008-06-02 2009-12-10 富士通株式会社 Data processing system, data processing method, and data processing program
JP5212471B2 (en) * 2008-06-02 2013-06-19 富士通株式会社 Data processing system, data processing method, and data processing program
US8806276B2 (en) 2008-06-02 2014-08-12 Fujitsu Limited Control system for driving a data processing apparatus
US9483502B2 (en) 2012-08-09 2016-11-01 Fujitsu Limited Computational processing device including request holding units each provided for each type of commands, information processing device including request holding units each provided for each type of commands, and method of controlling information processing device
JP5930046B2 (en) * 2012-08-17 2016-06-08 富士通株式会社 Information processing apparatus and control method of information processing apparatus

Also Published As

Publication number Publication date
JP4213415B2 (en) 2009-01-21

Similar Documents

Publication Publication Date Title
US7380001B2 (en) Fault containment and error handling in a partitioned system with shared resources
JP3696960B2 (en) Parallel processing system and parallel processing method
JP3196004B2 (en) Failure recovery processing method
CN1316362C (en) Equipment and method of relocating shared computer data in multiline procedure computer
JP4181554B2 (en) “How to reduce power consumption in a logically partitioned data processing system”.
US7404105B2 (en) High availability multi-processor system
JP3906042B2 (en) How to maintain optimal system availability through resource recovery
JP2566727B2 (en) Search Method for Reservation Reservation System in Multiprocessing Environment Consisting of Multiple Systems
KR101081092B1 (en) Fault recovery on a massively parallel computer system to handle node failures without ending an executing job
US7478268B2 (en) Deallocation of memory in a logically-partitioned computer
US20050132249A1 (en) Apparatus method and system for fault tolerant virtual memory management
JP2004318885A (en) Method, medium and system for replacing fault processor
JP2006507561A (en) Method and apparatus for dynamically allocating and deallocating processors in a logically partitioned data processing system
EP1290556A1 (en) Fast relief swapping of processors in a data processing system
JP2004240970A (en) System and method for dynamically allocating resource of invalid logical partition
US8031637B2 (en) Ineligible group member status
JP2005327288A (en) Method and device for excluding hidden storage channel between partitions and partition analysis
US7996585B2 (en) Method and system for state tracking and recovery in multiprocessing computing systems
JP2003076671A (en) Fault containment and error handling in partitioned system with shared resources
JP2004030578A (en) Interconnection mechanism of virtual i/o
JP2001022599A (en) Fault tolerant system, fault tolerant processing method and recording medium for fault tolerant control program
US20030131330A1 (en) Masterless building block binding to partitions
JP2003330737A (en) Computer system
JP2001142731A (en) Information processing system and fault processing system accompanied by data copy used for same
US20070083867A1 (en) Method and system to recover from control block hangs in a heterogenous multiprocessor environment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050520

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070327

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071106

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080930

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081030

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111107

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4213415

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111107

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121107

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121107

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131107

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees