JP2005234744A - Multiprocessor system and failure processing method - Google Patents
Multiprocessor system and failure processing method Download PDFInfo
- Publication number
- JP2005234744A JP2005234744A JP2004041061A JP2004041061A JP2005234744A JP 2005234744 A JP2005234744 A JP 2005234744A JP 2004041061 A JP2004041061 A JP 2004041061A JP 2004041061 A JP2004041061 A JP 2004041061A JP 2005234744 A JP2005234744 A JP 2005234744A
- Authority
- JP
- Japan
- Prior art keywords
- processor
- failure
- main storage
- storage device
- processors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Techniques For Improving Reliability Of Storages (AREA)
- Debugging And Monitoring (AREA)
Abstract
Description
本発明は、マルチプロセッサシステムおよび障害処理方法に関し、特に主記憶装置における障害の処理方法と、この処理方法を実行するマルチプロセッサシステムに関する。 The present invention relates to a multiprocessor system and a failure processing method, and more particularly to a failure processing method in a main storage device and a multiprocessor system that executes this processing method.
近年のマルチプロセッサ技術の発展によって、主記憶装置に対して数十台〜数百台のプロセッサを接続してシステム運用を行う情報処理装置が登場するようになった。このような情報処理装置では、複数のプロセッサにより共有されるメモリを管理するメモリ管理方法が知られている。例えば、特許文献1には、メモリ領域の所有権の確保や解放を高速に行うメモリ管理方法が開示されている。このメモリ管理方法は、複数のプロセッサによって共有される共有メモリ上の領域毎に、各プロセッサに対応したフラグをそれぞれ設ける。そして、このフラグにより、対応するプロセッサが共有メモリ上の対応する領域を使用している状態であるか、未使用の状態であるか、所有権を他のプロセッサへ譲渡している途中の状態であるかを表示する。各プロセッサは、メモリ領域の確保時に、フラグによりメモリ領域が使用中及び譲渡中か否かを検出する。そして、使用中及び譲渡中のいずれかの状態にもない場合のみメモリ領域を確保するように動作するものである。
With the recent development of multiprocessor technology, information processing apparatuses that perform system operations by connecting tens to hundreds of processors to a main storage device have appeared. In such an information processing apparatus, a memory management method for managing a memory shared by a plurality of processors is known. For example,
一方、主記憶装置で障害が発生した場合に、メモリアクセスを実行した要求元のプロセッサに対して障害の発生を通知し、このプロセッサが障害処理を実行するマルチプロセッサが知られている。例えば、特許文献2には、メモリアクセスを実行した要求元のプロセッサに対して障害の発生を通知し、このプロセッサが障害処理を実行するマルチプロセッサシステムが開示されている。このシステムは、任意のプロセッサから主記憶装置にアクセスした際に、主記憶装置に障害が発生すれば、障害発生検出手段が障害発生の有無を検出し、同時に、主記憶制御ユニットのプロセッサ識別手段がアクセス元のプロセッサを識別し、この障害を起こしたプロセッサに対して障害発生通知手段によって障害発生を通知する。こうして、障害を起こしたプロセッサに対して障害発生を通知することにより、プロセッサ側のソフトウェアにより主記憶装置からの切り離し処置などの必要な対策をとらせるようにし、あるプロセッサのアクセス時に主記憶装置や主記憶制御ユニットで発生した障害に対しても、残りのプロセッサが主記憶装置にアクセスできるようにし、特定のプロセッサに起因する一過性の障害に対してシステム全体がダウンすることがないようにして、耐障害性を向上させるものである。
On the other hand, there is known a multiprocessor in which when a failure occurs in the main storage device, the occurrence of the failure is notified to the requesting processor that executed the memory access, and the processor executes the failure process. For example,
マルチプロセッサシステムでは、一般に複数のプロセッサによってメモリ(主記憶装置)が共有されるが、メモリにおいて障害が発生すると、複数のプロセッサに影響が波及する虞があり、障害の影響が大きい。ところで特許文献1のメモリ管理方法の目的は、分割したメモリ領域を確保するための排他制御にあり、複数のプロセッサで、分割された特定のメモリ領域を共有するような構成とはなっていない。また、各プロセッサに対応した使用状態の情報を共有メモリ上で管理しており、共有メモリ自体の故障には対応することができない。さらに、障害時に信頼性の向上を図ることができる旨の記載があるものの、障害処理に対する具体的な構成や動作は、一切開示されていない。
In a multiprocessor system, a memory (main storage device) is generally shared by a plurality of processors. However, when a failure occurs in the memory, there is a possibility that the plurality of processors are affected, and the influence of the failure is large. By the way, the purpose of the memory management method of
一方、特許文献2に開示されているシステムでは、主記憶装置で訂正不可能な障害が発生した場合に、メモリアクセスを実行した要求元のプロセッサに対してのみ障害の発生を通知し、このプロセッサが障害処理を実行することによってシステムの運用継続の可否を判断していた。しかし、主記憶装置の記憶領域を複数のプロセッサで共有している場合には、各プロセッサで共有している主記憶部分で故障が発生すると、障害の発生を通知された最初のプロセッサによって障害処理が行われる前に、他のプロセッサが同一領域へメモリアクセスを行う可能性がある。この場合、他のプロセッサは、障害を知ることなく主記憶装置へのアクセス処理を実行してしまい、障害の影響が波及してしまう。
On the other hand, in the system disclosed in
これを防止するために、主記憶装置で訂正不可能な障害が発生した場合、訂正不可能な障害はシステムの中枢に障害が発生しているものと見なし、マルチプロセッサを構成する全てのプロセッサに障害の発生を通知し、速やかにシステムを停止させる方法が考えられる。しかしながら、プロセッサ上で動作しているプログラムが、障害に関わる主記憶領域を全く使用していない場合でも、割り込みによって処理が中断されるため、システム全体に障害の影響が波及してしまい、耐故障性の面で不十分である。 To prevent this, if an uncorrectable failure occurs in the main storage device, the uncorrectable failure is considered to have occurred at the heart of the system, and all the processors that make up the multiprocessor are considered. A method of notifying the occurrence of a failure and quickly stopping the system can be considered. However, even if the program running on the processor does not use the main memory area related to the failure at all, the processing is interrupted by the interrupt, so the influence of the failure will spread to the entire system, and the fault tolerance Is insufficient.
本発明の目的は、障害に関わる主記憶領域に関与しているプロセッサのみに障害の影響を限定するマルチプロセッサシステム及び障害処理方法を提供することにある。 An object of the present invention is to provide a multiprocessor system and a failure processing method that limit the influence of a failure to only the processors involved in the main storage area involved in the failure.
前記目的を達成するために、本発明に係るマルチプロセッサシステムは、第1のアスペクトによれば、複数のプロセッサと、複数のプロセッサとバスで接続され、プロセッサが共有する主記憶装置と、を含むシステムである。主記憶装置は、主記憶装置内の記憶空間が複数の領域に分割され各領域がどのプロセッサによって使用されているかを表すレジスタ部と、領域のいずれかに障害が発生した場合にレジスタ部を参照してプロセッサを特定してプロセッサに通知する通知部と、を備える。 In order to achieve the above object, according to a first aspect, a multiprocessor system according to the present invention includes a plurality of processors, and a main storage device connected to the plurality of processors via a bus and shared by the processors. System. The main storage device divides the storage space in the main storage device into multiple areas, and refers to the register section that indicates which processor is using each area, and the register section when one of the areas fails And a notification unit that identifies the processor and notifies the processor.
本発明において、好ましくは、通知部は、割り込み制御回路を備え、特定されたプロセッサに対し割り込みによって通知するようにしてもよい。 In the present invention, preferably, the notification unit may include an interrupt control circuit and notify the specified processor by an interrupt.
また、本発明において、好ましくは、レジスタ部は、各領域がどのプロセッサ上で動作するプログラムによって使用されているかを表すようにしてもよい。 In the present invention, preferably, the register unit may represent which processor is used by which program each area uses.
さらに、本発明において、好ましくは、レジスタ部は、プロセッサ毎に複数の領域を指示する構成とされるようにしてもよい。 Furthermore, in the present invention, preferably, the register unit may be configured to indicate a plurality of areas for each processor.
また、本発明において、好ましくは、レジスタ部は、複数のプロセッサ中のどのプロセッサが複数の領域のどの領域を使用しているかをフラグによって示す構成とされるようにしてもよい。 In the present invention, preferably, the register unit may be configured to indicate which processor of the plurality of processors uses which of the plurality of areas by a flag.
さらに、本発明において、好ましくは、フラグは、フラグに対応する領域をプロセッサが使用する際、または解放する際に、プロセッサ上で動作するプログラムによって書き換えられるようにしてもよい。 Further, in the present invention, preferably, the flag may be rewritten by a program operating on the processor when the processor uses or releases the area corresponding to the flag.
本発明に係る障害処理方法は、第2のアスペクトによれば、複数のプロセッサと、複数のプロセッサとバスで接続され、プロセッサが共有する主記憶装置と、を含むマルチプロセッサシステムの障害処理方法に適用される。この方法は、主記憶装置内の記憶空間が複数の領域に分割され各領域がどのプロセッサによって使用されているかをフラグで表す。また、領域のいずれかに障害が発生した場合にフラグを参照してプロセッサを特定して割り込みを通知する。 According to a second aspect of the present invention, there is provided a failure processing method for a multiprocessor system including a plurality of processors and a main storage device connected to the plurality of processors via a bus and shared by the processors. Applied. In this method, the storage space in the main storage device is divided into a plurality of areas, and a flag indicates which processor is using each area. Further, when a failure occurs in any of the areas, the processor is identified with reference to the flag and an interrupt is notified.
本発明によれば、主記憶装置に障害が発生した場合、主記憶装置の記憶空間中の障害の発生した領域を使用しているプロセッサのみに、障害が発生したことを選択的に通知するように動作する。したがって、障害が発生した記憶空間を使用しているマイクロプロセッサ(プログラム)のみに障害の波及範囲を限定し、障害発生の影響を受けるプロセッサを最小限に抑えることができる。 According to the present invention, when a failure occurs in the main storage device, only the processor using the failed area in the storage space of the main storage device is selectively notified that the failure has occurred. To work. Therefore, it is possible to limit the propagation range of the failure only to the microprocessor (program) using the storage space where the failure has occurred, and to minimize the processors affected by the failure occurrence.
図1は、本発明の実施形態に係るマルチプロセッサシステムの構成を示すブロック図である。図1において、マルチプロセッサシステムは、マイクロプロセッサ20、21、22、・・2nと主記憶装置10から構成され、マイクロプロセッサ20、21、22、・・2nと主記憶装置10とがシステムバス31を介して接続されている。また、主記憶装置10からは、割り込み信号線30が各マイクロプロセッサ20〜2nに対して、個別に結線されている。
FIG. 1 is a block diagram showing a configuration of a multiprocessor system according to an embodiment of the present invention. 1, the multiprocessor system includes
以上のようなマルチプロセッサシステムにおいて、複数のマイクロプロセッサ20〜2nがシステムバス31を介して主記憶装置10へのアクセスを行う。割り込み信号線30は、主記憶装置10の記憶空間内で障害が発生した場合に、マイクロプロセッサ20〜2nへ障害が発生したことを通知する目的で使用される。
In the multiprocessor system as described above, the plurality of
また、主記憶装置10には、主記憶装置10内の記憶空間を複数の領域に分割して各領域がどのマイクロプロセッサのプログラムによって使用されているかを表すレジスタ部と、領域のいずれかに障害が発生した場合にレジスタ部を参照してマイクロプロセッサを特定して割り込み信号線30を介して通知する通知部と、を備えている。
In addition, the
以上のように構成されるマルチプロセッサシステムは、主記憶装置10内の記憶空間が複数の領域に分割され各領域がどのマイクロプロセッサによって使用されているかをレジスタ部内でフラグにより表し、領域のいずれかに障害が発生した場合にフラグを参照してマイクロプロセッサを特定して割り込みを通知するように動作する。
In the multiprocessor system configured as described above, the storage space in the
次に、より具体的にマルチプロセッサシステムの構成、特に主記憶装置10の構成について説明する。図2は、本発明の実施例に係るマルチプロセッサシステムの構成を示すブロック図である。なお、図2では、主記憶装置10における障害をマイクロプロセッサ20に通知する場合を例にして説明するために、マイクロプロセッサ21〜2nについては記載を省略してある。
Next, the configuration of the multiprocessor system, in particular, the configuration of the
図2において、主記憶装置10は、主記憶部11と、記憶制御回路12と、割り込み制御回路14と、アドレスレジスタ15を備えている。主記憶部11は、主記憶空間を複数の領域A〜Hに分割して管理・運用されており、これらの領域について個別に障害の検出が可能とする。また、記憶制御回路12の中には、記憶領域A〜Hのそれぞれに対応して、マイクロプロセッサ20〜2nがどの記憶領域を使用中であるかを記憶する制御レジスタ群13を備えている。割り込み制御回路14は、記憶制御回路12の指示で、制御レジスタ群13の記録内容に基づいて、各マイクロプロセッサに障害の発生を割り込み信号線30を介して通知する。例えば、制御レジスタ群13の中の制御レジスタ130の内容に基づいて、マイクロプロセッサ20に障害の発生を割り込み信号線30を介して通知する。
In FIG. 2, the
一方、マイクロプロセッサ20が主記憶部11にアクセスする場合には、システムバス31を介して主記憶装置10へのアクセスを行う。主記憶部11にアクセスするためのアドレス情報は、アドレスレジスタ15で解読され、主記憶部11の所定の領域が割り当てられる。例えば、図2では領域A、B、Eがマイクロプロセッサ20によってアクセスされ、各領域に対応する制御レジスタ130のビット内容が使用中である旨の値「1」に設定されている。
On the other hand, when the
図3は、記憶制御回路12の制御レジスタ群13の設定例を表しており、制御レジスタ群13には、システムに属するマイクロプロセッサ20〜2nに対応してそれぞれ制御レジスタ130〜13nが設けられている。制御レジスタ130〜13nは、対応するプロセッサが主記憶空間のどの領域を使用しているのかを表している。図3に示す例では、プロセッサ#0は、記憶領域の領域A、B、Eを使用し、同様にプロセッサ#1は、記憶領域の領域A、Gを使用し、プロセッサ#2は、記憶領域の領域A、B、E、Fを使用し、プロセッサ#nは、記憶領域の領域Bを使用している。制御レジスタ130〜13nの各ビットは、主記憶部11の分割された主記憶空間の各領域A〜Hに対応する記憶領域における使用状態を表すフラグ(使用中を「1」、不使用を「0」)として用いられる。
FIG. 3 shows a setting example of the
図2において、マイクロプロセッサ20上で動作しているプログラム(オペレーティングシステム)は、所定のマイクロプロセッサと所定の主記憶部11の記憶領域とでグループを構成し、1つの独立したシステムを構成している。このときプログラムは、自らが使用する主記憶部11の記憶領域について、マイクロプロセッサごとに設けた制御レジスタ130〜13nの記憶領域に対応したビットに、現在その記憶領域を使用中である旨の値「1」を予め書込む。また、記憶領域を使用していない場合、あるいは使用しなくなった(解放した)場合には、値「0」を書込む。
In FIG. 2, a program (operating system) running on the
記憶制御回路12は、主記憶部11に障害が発生した場合に、障害が発生した記憶領域を特定し、この記憶領域に対応した制御レジスタ130〜13nのビットを参照する。このとき制御レジスタ130〜13nのビットが、該当する記憶領域の使用中を表す状態に設定されていた場合、すなわち値「1」の場合には、割り込み制御回路14に指示して、対応するマイクロプロセッサ、例えばマイクロプロセッサ20に対し、割り込み信号線30を介して障害の発生を通知する。
When a failure occurs in the
いま、領域Gで障害が発生したとすると、記憶制御回路12は、制御レジスタ130〜13nを参照し、領域Gを使用しているマイクロプロセッサを特定する。図3の例では、制御レジスタ131の内容からプロセッサ#1(マイクロプロセッサ21)がこの条件にあてはまる。記憶制御回路12は、制御レジスタ131の情報に従って、プロセッサ#1に対してのみ障害が発生したことを割り込み制御回路14によって通知する。
If a failure occurs in the region G, the
また、領域Eで障害が発生したとすると、記憶制御回路12は、制御レジスタ130〜13nを参照し、領域Eを使用しているマイクロプロセッサを特定する。図3の例では、制御レジスタ130、132の内容からプロセッサ#0、#2(マイクロプロセッサ20、22)がこの条件にあてはまる。記憶制御回路12は、制御レジスタ130、132の情報に従って、プロセッサ#0、#2に対して障害が発生したことを割り込み制御回路14によって通知する。
If a failure occurs in the area E, the
主記憶部11内の使用中の記憶領域に障害が発生したことを割り込みにより通知されたマイクロプロセッサは、所定の障害処理を実行する。
The microprocessor notified by an interruption that a failure has occurred in the storage area in use in the
以上のようにマルチプロセッサシステムは動作し、主記憶装置10に障害が発生した場合、主記憶装置10の記憶空間中の障害の発生した領域を使用しているプロセッサのみに、障害が発生したことを選択的に通知する。したがって、障害が発生した記憶空間を使用しているマイクロプロセッサのみに障害の波及範囲が限定されることとなる。
As described above, when the multiprocessor system operates and a failure occurs in the
10 主記憶装置
11 主記憶部
12 記憶制御回路
13 制御レジスタ群
130〜13n 制御レジスタ
14 割り込み制御回路
15 アドレスレジスタ
20〜2n マイクロプロセッサ
30 割り込み信号線
31 システムバス
DESCRIPTION OF
Claims (9)
前記主記憶装置は、
前記主記憶装置内の記憶空間が複数の領域に分割され各領域がどのプロセッサによって使用されているかを表すレジスタ部と、
前記領域のいずれかに障害が発生した場合に前記レジスタ部を参照して前記プロセッサを特定して前記プロセッサに前記障害を通知する通知部と、
を備えることを特徴とするマルチプロセッサシステム。 In a multiprocessor system including a plurality of processors and a main storage device connected to the plurality of processors via a bus and shared by the processors,
The main storage device
A register unit that indicates which processor uses the storage space in the main storage device and each area is used by each of the areas;
A notification unit that identifies the processor by referring to the register unit when a failure occurs in any of the areas and notifies the processor of the failure;
A multiprocessor system comprising:
前記主記憶装置内の記憶空間が複数の領域に分割され各領域がどの前記プロセッサによって使用されているかをフラグで表し、
前記領域のいずれかに障害が発生した場合に前記フラグを参照して前記プロセッサを特定して割り込みを通知することを特徴とする障害処理方法。 In a failure processing method for a multiprocessor system, comprising: a plurality of processors; and a main storage device connected to the plurality of processors via a bus and shared by the processors,
The storage space in the main storage device is divided into a plurality of areas, and each of the areas is represented by a flag, which is represented by a flag,
A failure processing method characterized in that, when a failure occurs in any of the areas, the processor is identified with reference to the flag and an interrupt is notified.
8. The failure processing method according to claim 7, wherein the flag is rewritten by a program operating on the processor when the processor uses or releases an area corresponding to the flag.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004041061A JP2005234744A (en) | 2004-02-18 | 2004-02-18 | Multiprocessor system and failure processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004041061A JP2005234744A (en) | 2004-02-18 | 2004-02-18 | Multiprocessor system and failure processing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005234744A true JP2005234744A (en) | 2005-09-02 |
Family
ID=35017656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004041061A Withdrawn JP2005234744A (en) | 2004-02-18 | 2004-02-18 | Multiprocessor system and failure processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005234744A (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7694195B2 (en) | 2007-08-14 | 2010-04-06 | Dell Products L.P. | System and method for using a memory mapping function to map memory defects |
US7945815B2 (en) | 2007-08-14 | 2011-05-17 | Dell Products L.P. | System and method for managing memory errors in an information handling system |
US7949913B2 (en) | 2007-08-14 | 2011-05-24 | Dell Products L.P. | Method for creating a memory defect map and optimizing performance using the memory defect map |
US8724408B2 (en) | 2011-11-29 | 2014-05-13 | Kingtiger Technology (Canada) Inc. | Systems and methods for testing and assembling memory modules |
US9117552B2 (en) | 2012-08-28 | 2015-08-25 | Kingtiger Technology(Canada), Inc. | Systems and methods for testing memory |
JP2015179488A (en) * | 2014-03-19 | 2015-10-08 | 富士通株式会社 | Information processing apparatus, shared memory management method, and shared memory management program |
US9373362B2 (en) | 2007-08-14 | 2016-06-21 | Dell Products L.P. | System and method for implementing a memory defect map |
-
2004
- 2004-02-18 JP JP2004041061A patent/JP2005234744A/en not_active Withdrawn
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7694195B2 (en) | 2007-08-14 | 2010-04-06 | Dell Products L.P. | System and method for using a memory mapping function to map memory defects |
US7945815B2 (en) | 2007-08-14 | 2011-05-17 | Dell Products L.P. | System and method for managing memory errors in an information handling system |
US7949913B2 (en) | 2007-08-14 | 2011-05-24 | Dell Products L.P. | Method for creating a memory defect map and optimizing performance using the memory defect map |
US9373362B2 (en) | 2007-08-14 | 2016-06-21 | Dell Products L.P. | System and method for implementing a memory defect map |
US8724408B2 (en) | 2011-11-29 | 2014-05-13 | Kingtiger Technology (Canada) Inc. | Systems and methods for testing and assembling memory modules |
US9224500B2 (en) | 2011-11-29 | 2015-12-29 | Kingtiger Technology (Canada) Inc. | Systems and methods for testing and assembling memory modules |
US9117552B2 (en) | 2012-08-28 | 2015-08-25 | Kingtiger Technology(Canada), Inc. | Systems and methods for testing memory |
JP2015179488A (en) * | 2014-03-19 | 2015-10-08 | 富士通株式会社 | Information processing apparatus, shared memory management method, and shared memory management program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5225515B2 (en) | Processor device and program | |
JP6074955B2 (en) | Information processing apparatus and control method | |
US9135175B2 (en) | Distributed cache coherency directory with failure redundancy | |
US10379931B2 (en) | Computer system | |
JP2010186242A (en) | Computer system | |
JP2005234744A (en) | Multiprocessor system and failure processing method | |
US20160292108A1 (en) | Information processing device, control program for information processing device, and control method for information processing device | |
JP2009175960A (en) | Virtual multiprocessor system | |
JP2006338426A (en) | Calculator system | |
US20150089271A1 (en) | Management device, data acquisition method, and recording medium | |
JP4867896B2 (en) | Information processing system | |
JP2008250386A (en) | Access control device and computer system | |
JP2010015364A (en) | Multiprocessor system and information processor | |
JP2008140124A (en) | Data processor | |
JP4066950B2 (en) | Computer system and maintenance method thereof | |
JP2009271597A (en) | Processor | |
CN117272412B (en) | Interrupt control register protection method, device, computer equipment and storage medium | |
JP5832408B2 (en) | Virtual computer system and control method thereof | |
JP4611659B2 (en) | Unauthorized access detection device, unauthorized access detection method, program | |
JP2008077388A (en) | Multiprocessor control system, method and program | |
JP2009116681A (en) | Multiprocessor system, microprocessor, and failure handling method of microprocessor | |
WO2015159359A1 (en) | Physical computer | |
JP2011180840A (en) | Processor, multiprocessor system, and method of detecting illegal memory access | |
JPS58217063A (en) | Multiple control processing system of program event recording | |
JP6438381B2 (en) | Electronic control unit |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20070501 |