JP2005234744A - Multiprocessor system and failure processing method - Google Patents

Multiprocessor system and failure processing method Download PDF

Info

Publication number
JP2005234744A
JP2005234744A JP2004041061A JP2004041061A JP2005234744A JP 2005234744 A JP2005234744 A JP 2005234744A JP 2004041061 A JP2004041061 A JP 2004041061A JP 2004041061 A JP2004041061 A JP 2004041061A JP 2005234744 A JP2005234744 A JP 2005234744A
Authority
JP
Japan
Prior art keywords
processor
failure
main storage
storage device
processors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004041061A
Other languages
Japanese (ja)
Inventor
Takeshi Koike
毅 小池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2004041061A priority Critical patent/JP2005234744A/en
Publication of JP2005234744A publication Critical patent/JP2005234744A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Techniques For Improving Reliability Of Storages (AREA)
  • Debugging And Monitoring (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a multi-processor system and a failure processing method for limiting the influence of failure only to a processor related to a main storage region associated with the failure. <P>SOLUTION: This system is provided with a plurality of microprocessors 20 to 2n and a main storage device 10 connected through a bus 31 to the plurality of microprocessors 20 to 2n so as to be shared by the microprocessors 20 to 2n. The main storage device 10 is provided with a register representing which processor is using each region obtained by dividing the storage space of the main storage device 10 into a plurality regions and a notification part which specifies the processor by referring to the register part when any failure is generated in any of those regions, and notifies the processor of the generation of the failure. In this case, the main storage device 10 notifies the processor of the generation of the failure through an interrupting signal line 30. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は、マルチプロセッサシステムおよび障害処理方法に関し、特に主記憶装置における障害の処理方法と、この処理方法を実行するマルチプロセッサシステムに関する。   The present invention relates to a multiprocessor system and a failure processing method, and more particularly to a failure processing method in a main storage device and a multiprocessor system that executes this processing method.

近年のマルチプロセッサ技術の発展によって、主記憶装置に対して数十台〜数百台のプロセッサを接続してシステム運用を行う情報処理装置が登場するようになった。このような情報処理装置では、複数のプロセッサにより共有されるメモリを管理するメモリ管理方法が知られている。例えば、特許文献1には、メモリ領域の所有権の確保や解放を高速に行うメモリ管理方法が開示されている。このメモリ管理方法は、複数のプロセッサによって共有される共有メモリ上の領域毎に、各プロセッサに対応したフラグをそれぞれ設ける。そして、このフラグにより、対応するプロセッサが共有メモリ上の対応する領域を使用している状態であるか、未使用の状態であるか、所有権を他のプロセッサへ譲渡している途中の状態であるかを表示する。各プロセッサは、メモリ領域の確保時に、フラグによりメモリ領域が使用中及び譲渡中か否かを検出する。そして、使用中及び譲渡中のいずれかの状態にもない場合のみメモリ領域を確保するように動作するものである。   With the recent development of multiprocessor technology, information processing apparatuses that perform system operations by connecting tens to hundreds of processors to a main storage device have appeared. In such an information processing apparatus, a memory management method for managing a memory shared by a plurality of processors is known. For example, Patent Document 1 discloses a memory management method that secures and releases ownership of a memory area at high speed. In this memory management method, a flag corresponding to each processor is provided for each area on a shared memory shared by a plurality of processors. The flag indicates that the corresponding processor is using the corresponding area on the shared memory, is not used, or is in the middle of transferring ownership to another processor. Displays whether there is. Each processor detects whether the memory area is in use or being transferred by using a flag when the memory area is secured. The memory area is operated only when it is not in use or being transferred.

一方、主記憶装置で障害が発生した場合に、メモリアクセスを実行した要求元のプロセッサに対して障害の発生を通知し、このプロセッサが障害処理を実行するマルチプロセッサが知られている。例えば、特許文献2には、メモリアクセスを実行した要求元のプロセッサに対して障害の発生を通知し、このプロセッサが障害処理を実行するマルチプロセッサシステムが開示されている。このシステムは、任意のプロセッサから主記憶装置にアクセスした際に、主記憶装置に障害が発生すれば、障害発生検出手段が障害発生の有無を検出し、同時に、主記憶制御ユニットのプロセッサ識別手段がアクセス元のプロセッサを識別し、この障害を起こしたプロセッサに対して障害発生通知手段によって障害発生を通知する。こうして、障害を起こしたプロセッサに対して障害発生を通知することにより、プロセッサ側のソフトウェアにより主記憶装置からの切り離し処置などの必要な対策をとらせるようにし、あるプロセッサのアクセス時に主記憶装置や主記憶制御ユニットで発生した障害に対しても、残りのプロセッサが主記憶装置にアクセスできるようにし、特定のプロセッサに起因する一過性の障害に対してシステム全体がダウンすることがないようにして、耐障害性を向上させるものである。   On the other hand, there is known a multiprocessor in which when a failure occurs in the main storage device, the occurrence of the failure is notified to the requesting processor that executed the memory access, and the processor executes the failure process. For example, Patent Document 2 discloses a multiprocessor system in which occurrence of a failure is notified to a requesting processor that has executed memory access, and the processor executes failure processing. In this system, when a failure occurs in the main storage device when the main storage device is accessed from an arbitrary processor, the failure detection means detects whether or not the failure has occurred, and at the same time, the processor identification means of the main storage control unit Identifies the processor of the access source, and notifies the occurrence of the failure by the failure occurrence notifying means to the processor that has caused the failure. In this way, the failure occurrence is notified to the failed processor so that the processor side software can take necessary measures such as disconnection from the main storage device. Even if a failure occurs in the main memory control unit, the remaining processors can access the main memory so that the entire system does not go down due to a transient failure caused by a specific processor. Thus, fault tolerance is improved.

特開平4−364550号公報 (図1)JP-A-4-364550 (FIG. 1) 特開平5−81059号公報 (図2)JP-A-5-81059 (FIG. 2)

マルチプロセッサシステムでは、一般に複数のプロセッサによってメモリ(主記憶装置)が共有されるが、メモリにおいて障害が発生すると、複数のプロセッサに影響が波及する虞があり、障害の影響が大きい。ところで特許文献1のメモリ管理方法の目的は、分割したメモリ領域を確保するための排他制御にあり、複数のプロセッサで、分割された特定のメモリ領域を共有するような構成とはなっていない。また、各プロセッサに対応した使用状態の情報を共有メモリ上で管理しており、共有メモリ自体の故障には対応することができない。さらに、障害時に信頼性の向上を図ることができる旨の記載があるものの、障害処理に対する具体的な構成や動作は、一切開示されていない。   In a multiprocessor system, a memory (main storage device) is generally shared by a plurality of processors. However, when a failure occurs in the memory, there is a possibility that the plurality of processors are affected, and the influence of the failure is large. By the way, the purpose of the memory management method of Patent Document 1 is exclusive control for securing a divided memory area, and a plurality of processors are not configured to share a specific divided memory area. In addition, usage state information corresponding to each processor is managed on the shared memory, and a failure of the shared memory itself cannot be dealt with. Furthermore, although there is a description that reliability can be improved in the event of a failure, no specific configuration or operation for failure processing is disclosed.

一方、特許文献2に開示されているシステムでは、主記憶装置で訂正不可能な障害が発生した場合に、メモリアクセスを実行した要求元のプロセッサに対してのみ障害の発生を通知し、このプロセッサが障害処理を実行することによってシステムの運用継続の可否を判断していた。しかし、主記憶装置の記憶領域を複数のプロセッサで共有している場合には、各プロセッサで共有している主記憶部分で故障が発生すると、障害の発生を通知された最初のプロセッサによって障害処理が行われる前に、他のプロセッサが同一領域へメモリアクセスを行う可能性がある。この場合、他のプロセッサは、障害を知ることなく主記憶装置へのアクセス処理を実行してしまい、障害の影響が波及してしまう。   On the other hand, in the system disclosed in Patent Document 2, when an uncorrectable failure occurs in the main storage device, the occurrence of the failure is notified only to the requesting processor that has executed the memory access. The system determines whether or not the system operation can be continued by executing failure processing. However, when the storage area of the main storage device is shared by multiple processors, if a failure occurs in the main storage shared by each processor, the failure processing is performed by the first processor that is notified of the occurrence of the failure. There is a possibility that another processor may perform memory access to the same area before the operation is performed. In this case, other processors execute access processing to the main storage device without knowing the failure, and the influence of the failure spreads.

これを防止するために、主記憶装置で訂正不可能な障害が発生した場合、訂正不可能な障害はシステムの中枢に障害が発生しているものと見なし、マルチプロセッサを構成する全てのプロセッサに障害の発生を通知し、速やかにシステムを停止させる方法が考えられる。しかしながら、プロセッサ上で動作しているプログラムが、障害に関わる主記憶領域を全く使用していない場合でも、割り込みによって処理が中断されるため、システム全体に障害の影響が波及してしまい、耐故障性の面で不十分である。   To prevent this, if an uncorrectable failure occurs in the main storage device, the uncorrectable failure is considered to have occurred at the heart of the system, and all the processors that make up the multiprocessor are considered. A method of notifying the occurrence of a failure and quickly stopping the system can be considered. However, even if the program running on the processor does not use the main memory area related to the failure at all, the processing is interrupted by the interrupt, so the influence of the failure will spread to the entire system, and the fault tolerance Is insufficient.

本発明の目的は、障害に関わる主記憶領域に関与しているプロセッサのみに障害の影響を限定するマルチプロセッサシステム及び障害処理方法を提供することにある。   An object of the present invention is to provide a multiprocessor system and a failure processing method that limit the influence of a failure to only the processors involved in the main storage area involved in the failure.

前記目的を達成するために、本発明に係るマルチプロセッサシステムは、第1のアスペクトによれば、複数のプロセッサと、複数のプロセッサとバスで接続され、プロセッサが共有する主記憶装置と、を含むシステムである。主記憶装置は、主記憶装置内の記憶空間が複数の領域に分割され各領域がどのプロセッサによって使用されているかを表すレジスタ部と、領域のいずれかに障害が発生した場合にレジスタ部を参照してプロセッサを特定してプロセッサに通知する通知部と、を備える。   In order to achieve the above object, according to a first aspect, a multiprocessor system according to the present invention includes a plurality of processors, and a main storage device connected to the plurality of processors via a bus and shared by the processors. System. The main storage device divides the storage space in the main storage device into multiple areas, and refers to the register section that indicates which processor is using each area, and the register section when one of the areas fails And a notification unit that identifies the processor and notifies the processor.

本発明において、好ましくは、通知部は、割り込み制御回路を備え、特定されたプロセッサに対し割り込みによって通知するようにしてもよい。   In the present invention, preferably, the notification unit may include an interrupt control circuit and notify the specified processor by an interrupt.

また、本発明において、好ましくは、レジスタ部は、各領域がどのプロセッサ上で動作するプログラムによって使用されているかを表すようにしてもよい。   In the present invention, preferably, the register unit may represent which processor is used by which program each area uses.

さらに、本発明において、好ましくは、レジスタ部は、プロセッサ毎に複数の領域を指示する構成とされるようにしてもよい。   Furthermore, in the present invention, preferably, the register unit may be configured to indicate a plurality of areas for each processor.

また、本発明において、好ましくは、レジスタ部は、複数のプロセッサ中のどのプロセッサが複数の領域のどの領域を使用しているかをフラグによって示す構成とされるようにしてもよい。   In the present invention, preferably, the register unit may be configured to indicate which processor of the plurality of processors uses which of the plurality of areas by a flag.

さらに、本発明において、好ましくは、フラグは、フラグに対応する領域をプロセッサが使用する際、または解放する際に、プロセッサ上で動作するプログラムによって書き換えられるようにしてもよい。   Further, in the present invention, preferably, the flag may be rewritten by a program operating on the processor when the processor uses or releases the area corresponding to the flag.

本発明に係る障害処理方法は、第2のアスペクトによれば、複数のプロセッサと、複数のプロセッサとバスで接続され、プロセッサが共有する主記憶装置と、を含むマルチプロセッサシステムの障害処理方法に適用される。この方法は、主記憶装置内の記憶空間が複数の領域に分割され各領域がどのプロセッサによって使用されているかをフラグで表す。また、領域のいずれかに障害が発生した場合にフラグを参照してプロセッサを特定して割り込みを通知する。   According to a second aspect of the present invention, there is provided a failure processing method for a multiprocessor system including a plurality of processors and a main storage device connected to the plurality of processors via a bus and shared by the processors. Applied. In this method, the storage space in the main storage device is divided into a plurality of areas, and a flag indicates which processor is using each area. Further, when a failure occurs in any of the areas, the processor is identified with reference to the flag and an interrupt is notified.

本発明によれば、主記憶装置に障害が発生した場合、主記憶装置の記憶空間中の障害の発生した領域を使用しているプロセッサのみに、障害が発生したことを選択的に通知するように動作する。したがって、障害が発生した記憶空間を使用しているマイクロプロセッサ(プログラム)のみに障害の波及範囲を限定し、障害発生の影響を受けるプロセッサを最小限に抑えることができる。   According to the present invention, when a failure occurs in the main storage device, only the processor using the failed area in the storage space of the main storage device is selectively notified that the failure has occurred. To work. Therefore, it is possible to limit the propagation range of the failure only to the microprocessor (program) using the storage space where the failure has occurred, and to minimize the processors affected by the failure occurrence.

図1は、本発明の実施形態に係るマルチプロセッサシステムの構成を示すブロック図である。図1において、マルチプロセッサシステムは、マイクロプロセッサ20、21、22、・・2nと主記憶装置10から構成され、マイクロプロセッサ20、21、22、・・2nと主記憶装置10とがシステムバス31を介して接続されている。また、主記憶装置10からは、割り込み信号線30が各マイクロプロセッサ20〜2nに対して、個別に結線されている。   FIG. 1 is a block diagram showing a configuration of a multiprocessor system according to an embodiment of the present invention. 1, the multiprocessor system includes microprocessors 20, 21, 22,... 2 n and a main storage device 10, and the microprocessors 20, 21, 22,. Connected through. Further, from the main memory device 10, interrupt signal lines 30 are individually connected to the microprocessors 20 to 2n.

以上のようなマルチプロセッサシステムにおいて、複数のマイクロプロセッサ20〜2nがシステムバス31を介して主記憶装置10へのアクセスを行う。割り込み信号線30は、主記憶装置10の記憶空間内で障害が発生した場合に、マイクロプロセッサ20〜2nへ障害が発生したことを通知する目的で使用される。   In the multiprocessor system as described above, the plurality of microprocessors 20 to 2n access the main storage device 10 via the system bus 31. The interrupt signal line 30 is used for the purpose of notifying the microprocessors 20 to 2n that a failure has occurred when a failure occurs in the storage space of the main storage device 10.

また、主記憶装置10には、主記憶装置10内の記憶空間を複数の領域に分割して各領域がどのマイクロプロセッサのプログラムによって使用されているかを表すレジスタ部と、領域のいずれかに障害が発生した場合にレジスタ部を参照してマイクロプロセッサを特定して割り込み信号線30を介して通知する通知部と、を備えている。   In addition, the main storage device 10 includes a register unit that divides the storage space in the main storage device 10 into a plurality of areas and indicates which microprocessor program is using each area, and one of the areas is faulty. A notification unit that identifies the microprocessor and refers to it via the interrupt signal line 30 when the error occurs.

以上のように構成されるマルチプロセッサシステムは、主記憶装置10内の記憶空間が複数の領域に分割され各領域がどのマイクロプロセッサによって使用されているかをレジスタ部内でフラグにより表し、領域のいずれかに障害が発生した場合にフラグを参照してマイクロプロセッサを特定して割り込みを通知するように動作する。   In the multiprocessor system configured as described above, the storage space in the main storage device 10 is divided into a plurality of areas, and which microprocessor is used by each microprocessor is indicated by a flag in the register unit. When a failure occurs, the microprocessor is identified with reference to the flag and an interrupt is notified.

次に、より具体的にマルチプロセッサシステムの構成、特に主記憶装置10の構成について説明する。図2は、本発明の実施例に係るマルチプロセッサシステムの構成を示すブロック図である。なお、図2では、主記憶装置10における障害をマイクロプロセッサ20に通知する場合を例にして説明するために、マイクロプロセッサ21〜2nについては記載を省略してある。   Next, the configuration of the multiprocessor system, in particular, the configuration of the main storage device 10 will be described more specifically. FIG. 2 is a block diagram showing the configuration of the multiprocessor system according to the embodiment of the present invention. In FIG. 2, the description of the microprocessors 21 to 2n is omitted in order to explain the case of notifying the microprocessor 20 of a failure in the main storage device 10 as an example.

図2において、主記憶装置10は、主記憶部11と、記憶制御回路12と、割り込み制御回路14と、アドレスレジスタ15を備えている。主記憶部11は、主記憶空間を複数の領域A〜Hに分割して管理・運用されており、これらの領域について個別に障害の検出が可能とする。また、記憶制御回路12の中には、記憶領域A〜Hのそれぞれに対応して、マイクロプロセッサ20〜2nがどの記憶領域を使用中であるかを記憶する制御レジスタ群13を備えている。割り込み制御回路14は、記憶制御回路12の指示で、制御レジスタ群13の記録内容に基づいて、各マイクロプロセッサに障害の発生を割り込み信号線30を介して通知する。例えば、制御レジスタ群13の中の制御レジスタ130の内容に基づいて、マイクロプロセッサ20に障害の発生を割り込み信号線30を介して通知する。   In FIG. 2, the main storage device 10 includes a main storage unit 11, a storage control circuit 12, an interrupt control circuit 14, and an address register 15. The main storage unit 11 is managed and operated by dividing the main storage space into a plurality of areas A to H, and a failure can be individually detected for these areas. The storage control circuit 12 includes a control register group 13 for storing which storage area the microprocessors 20 to 2n are using, corresponding to the storage areas A to H, respectively. The interrupt control circuit 14 notifies each microprocessor of the occurrence of a failure via the interrupt signal line 30 based on the contents recorded in the control register group 13 in accordance with an instruction from the storage control circuit 12. For example, the occurrence of a failure is notified to the microprocessor 20 via the interrupt signal line 30 based on the contents of the control register 130 in the control register group 13.

一方、マイクロプロセッサ20が主記憶部11にアクセスする場合には、システムバス31を介して主記憶装置10へのアクセスを行う。主記憶部11にアクセスするためのアドレス情報は、アドレスレジスタ15で解読され、主記憶部11の所定の領域が割り当てられる。例えば、図2では領域A、B、Eがマイクロプロセッサ20によってアクセスされ、各領域に対応する制御レジスタ130のビット内容が使用中である旨の値「1」に設定されている。   On the other hand, when the microprocessor 20 accesses the main storage unit 11, the microprocessor 20 accesses the main storage device 10 via the system bus 31. Address information for accessing the main storage unit 11 is decoded by the address register 15 and a predetermined area of the main storage unit 11 is allocated. For example, in FIG. 2, the areas A, B, and E are accessed by the microprocessor 20, and the bit content of the control register 130 corresponding to each area is set to a value “1” indicating that it is in use.

図3は、記憶制御回路12の制御レジスタ群13の設定例を表しており、制御レジスタ群13には、システムに属するマイクロプロセッサ20〜2nに対応してそれぞれ制御レジスタ130〜13nが設けられている。制御レジスタ130〜13nは、対応するプロセッサが主記憶空間のどの領域を使用しているのかを表している。図3に示す例では、プロセッサ#0は、記憶領域の領域A、B、Eを使用し、同様にプロセッサ#1は、記憶領域の領域A、Gを使用し、プロセッサ#2は、記憶領域の領域A、B、E、Fを使用し、プロセッサ#nは、記憶領域の領域Bを使用している。制御レジスタ130〜13nの各ビットは、主記憶部11の分割された主記憶空間の各領域A〜Hに対応する記憶領域における使用状態を表すフラグ(使用中を「1」、不使用を「0」)として用いられる。   FIG. 3 shows a setting example of the control register group 13 of the storage control circuit 12, and the control register group 13 is provided with control registers 130 to 13n corresponding to the microprocessors 20 to 2n belonging to the system, respectively. Yes. The control registers 130 to 13n indicate which area of the main storage space is used by the corresponding processor. In the example shown in FIG. 3, the processor # 0 uses the storage areas A, B, and E. Similarly, the processor # 1 uses the storage areas A and G, and the processor # 2 has the storage area. The areas #A, B, E, and F are used, and the processor #n uses the area B of the storage area. Each bit of the control registers 130 to 13n is a flag indicating a use state in a storage area corresponding to each of the areas A to H of the divided main storage space of the main storage unit 11 ("1" for use, "1" for nonuse). 0 ").

図2において、マイクロプロセッサ20上で動作しているプログラム(オペレーティングシステム)は、所定のマイクロプロセッサと所定の主記憶部11の記憶領域とでグループを構成し、1つの独立したシステムを構成している。このときプログラムは、自らが使用する主記憶部11の記憶領域について、マイクロプロセッサごとに設けた制御レジスタ130〜13nの記憶領域に対応したビットに、現在その記憶領域を使用中である旨の値「1」を予め書込む。また、記憶領域を使用していない場合、あるいは使用しなくなった(解放した)場合には、値「0」を書込む。   In FIG. 2, a program (operating system) running on the microprocessor 20 forms a group by a predetermined microprocessor and a predetermined storage area of the main storage unit 11, and forms an independent system. Yes. At this time, for the storage area of the main storage unit 11 used by the program itself, a value indicating that the storage area is currently being used for the bit corresponding to the storage area of the control registers 130 to 13n provided for each microprocessor. Write “1” in advance. Also, when the storage area is not used or when it is no longer used (released), the value “0” is written.

記憶制御回路12は、主記憶部11に障害が発生した場合に、障害が発生した記憶領域を特定し、この記憶領域に対応した制御レジスタ130〜13nのビットを参照する。このとき制御レジスタ130〜13nのビットが、該当する記憶領域の使用中を表す状態に設定されていた場合、すなわち値「1」の場合には、割り込み制御回路14に指示して、対応するマイクロプロセッサ、例えばマイクロプロセッサ20に対し、割り込み信号線30を介して障害の発生を通知する。   When a failure occurs in the main storage unit 11, the storage control circuit 12 identifies a storage area where the failure has occurred, and refers to the bits of the control registers 130 to 13n corresponding to this storage area. At this time, if the bits of the control registers 130 to 13n are set in a state indicating that the corresponding storage area is being used, that is, if the value is “1”, the interrupt control circuit 14 is instructed to correspond to the corresponding micro area. The occurrence of a failure is notified to the processor, for example, the microprocessor 20 via the interrupt signal line 30.

いま、領域Gで障害が発生したとすると、記憶制御回路12は、制御レジスタ130〜13nを参照し、領域Gを使用しているマイクロプロセッサを特定する。図3の例では、制御レジスタ131の内容からプロセッサ#1(マイクロプロセッサ21)がこの条件にあてはまる。記憶制御回路12は、制御レジスタ131の情報に従って、プロセッサ#1に対してのみ障害が発生したことを割り込み制御回路14によって通知する。   If a failure occurs in the region G, the storage control circuit 12 refers to the control registers 130 to 13n and identifies the microprocessor that uses the region G. In the example of FIG. 3, processor # 1 (microprocessor 21) satisfies this condition based on the contents of the control register 131. The storage control circuit 12 notifies the interrupt control circuit 14 that a failure has occurred only to the processor # 1 according to the information in the control register 131.

また、領域Eで障害が発生したとすると、記憶制御回路12は、制御レジスタ130〜13nを参照し、領域Eを使用しているマイクロプロセッサを特定する。図3の例では、制御レジスタ130、132の内容からプロセッサ#0、#2(マイクロプロセッサ20、22)がこの条件にあてはまる。記憶制御回路12は、制御レジスタ130、132の情報に従って、プロセッサ#0、#2に対して障害が発生したことを割り込み制御回路14によって通知する。   If a failure occurs in the area E, the storage control circuit 12 refers to the control registers 130 to 13n and identifies the microprocessor that uses the area E. In the example of FIG. 3, processors # 0 and # 2 (microprocessors 20 and 22) satisfy this condition based on the contents of the control registers 130 and 132. The storage control circuit 12 notifies the interrupt control circuit 14 that a failure has occurred to the processors # 0 and # 2 according to the information in the control registers 130 and 132.

主記憶部11内の使用中の記憶領域に障害が発生したことを割り込みにより通知されたマイクロプロセッサは、所定の障害処理を実行する。   The microprocessor notified by an interruption that a failure has occurred in the storage area in use in the main storage unit 11 executes predetermined failure processing.

以上のようにマルチプロセッサシステムは動作し、主記憶装置10に障害が発生した場合、主記憶装置10の記憶空間中の障害の発生した領域を使用しているプロセッサのみに、障害が発生したことを選択的に通知する。したがって、障害が発生した記憶空間を使用しているマイクロプロセッサのみに障害の波及範囲が限定されることとなる。   As described above, when the multiprocessor system operates and a failure occurs in the main storage device 10, the failure has occurred only in the processor using the failed area in the storage space of the main storage device 10. Is selectively notified. Therefore, the spillover range of the failure is limited only to the microprocessor using the storage space where the failure has occurred.

本発明の実施形態に係るマルチプロセッサシステムの構成を表すブロック図である。It is a block diagram showing the structure of the multiprocessor system which concerns on embodiment of this invention. 本発明の実施例に係る主記憶装置の構成を表すブロック図である。It is a block diagram showing the structure of the main memory which concerns on the Example of this invention. 本発明の実施例に係る制御レジスタ群の設定例を示す図である。It is a figure which shows the example of a setting of the control register group which concerns on the Example of this invention.

符号の説明Explanation of symbols

10 主記憶装置
11 主記憶部
12 記憶制御回路
13 制御レジスタ群
130〜13n 制御レジスタ
14 割り込み制御回路
15 アドレスレジスタ
20〜2n マイクロプロセッサ
30 割り込み信号線
31 システムバス
DESCRIPTION OF SYMBOLS 10 Main memory device 11 Main memory part 12 Storage control circuit 13 Control register group 130-13n Control register 14 Interrupt control circuit 15 Address register 20-2n Microprocessor 30 Interrupt signal line 31 System bus

Claims (9)

複数のプロセッサと、前記複数のプロセッサとバスで接続され、前記プロセッサが共有する主記憶装置と、を含むマルチプロセッサシステムにおいて、
前記主記憶装置は、
前記主記憶装置内の記憶空間が複数の領域に分割され各領域がどのプロセッサによって使用されているかを表すレジスタ部と、
前記領域のいずれかに障害が発生した場合に前記レジスタ部を参照して前記プロセッサを特定して前記プロセッサに前記障害を通知する通知部と、
を備えることを特徴とするマルチプロセッサシステム。
In a multiprocessor system including a plurality of processors and a main storage device connected to the plurality of processors via a bus and shared by the processors,
The main storage device
A register unit that indicates which processor uses the storage space in the main storage device and each area is used by each of the areas;
A notification unit that identifies the processor by referring to the register unit when a failure occurs in any of the areas and notifies the processor of the failure;
A multiprocessor system comprising:
前記通知部は、割り込み制御回路を備え、前記特定されたプロセッサに対し割り込みによって通知することを特徴とする請求項1記載のマルチプロセッサシステム。   The multiprocessor system according to claim 1, wherein the notification unit includes an interrupt control circuit and notifies the specified processor by an interrupt. 前記レジスタ部は、前記各領域がどの前記プロセッサ上で動作するプログラムによって使用されているかを表すことを特徴とする請求項1記載のマルチプロセッサシステム。   The multiprocessor system according to claim 1, wherein the register unit represents which processor uses each of the areas. 前記レジスタ部は、前記プロセッサ毎に前記複数の領域を指示する構成とされることを特徴とする請求項1記載のマルチプロセッサシステム。   The multiprocessor system according to claim 1, wherein the register unit is configured to instruct the plurality of areas for each processor. 前記レジスタ部は、前記複数のプロセッサ中のどのプロセッサが前記複数の領域のどの領域を使用しているかをフラグによって示す構成とされることを特徴とする請求項1記載のマルチプロセッサシステム。   2. The multiprocessor system according to claim 1, wherein the register unit is configured to indicate which of the plurality of processors is using which of the plurality of processors by a flag. 前記フラグは、前記フラグに対応する領域をプロセッサが使用する際、または解放する際に、前記プロセッサ上で動作するプログラムによって書き換えられることを特徴とする請求項5記載のマルチプロセッサシステム。   6. The multiprocessor system according to claim 5, wherein the flag is rewritten by a program operating on the processor when the processor uses or releases an area corresponding to the flag. 複数のプロセッサと、前記複数のプロセッサとバスで接続され、前記プロセッサが共有する主記憶装置と、を含むマルチプロセッサシステムの障害処理方法において、
前記主記憶装置内の記憶空間が複数の領域に分割され各領域がどの前記プロセッサによって使用されているかをフラグで表し、
前記領域のいずれかに障害が発生した場合に前記フラグを参照して前記プロセッサを特定して割り込みを通知することを特徴とする障害処理方法。
In a failure processing method for a multiprocessor system, comprising: a plurality of processors; and a main storage device connected to the plurality of processors via a bus and shared by the processors,
The storage space in the main storage device is divided into a plurality of areas, and each of the areas is represented by a flag, which is represented by a flag,
A failure processing method characterized in that, when a failure occurs in any of the areas, the processor is identified with reference to the flag and an interrupt is notified.
前記フラグは、前記各領域がどの前記プロセッサ上で動作するプログラムによって使用されているかを表すことを特徴とする請求項7記載の障害処理方法。   The failure processing method according to claim 7, wherein the flag indicates which processor is used on which processor each area is used. 前記フラグは、前記フラグに対応する領域をプロセッサが使用する際、または解放する際に、前記プロセッサ上で動作するプログラムによって書き換えられることを特徴とする請求項7記載の障害処理方法。
8. The failure processing method according to claim 7, wherein the flag is rewritten by a program operating on the processor when the processor uses or releases an area corresponding to the flag.
JP2004041061A 2004-02-18 2004-02-18 Multiprocessor system and failure processing method Withdrawn JP2005234744A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004041061A JP2005234744A (en) 2004-02-18 2004-02-18 Multiprocessor system and failure processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004041061A JP2005234744A (en) 2004-02-18 2004-02-18 Multiprocessor system and failure processing method

Publications (1)

Publication Number Publication Date
JP2005234744A true JP2005234744A (en) 2005-09-02

Family

ID=35017656

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004041061A Withdrawn JP2005234744A (en) 2004-02-18 2004-02-18 Multiprocessor system and failure processing method

Country Status (1)

Country Link
JP (1) JP2005234744A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7694195B2 (en) 2007-08-14 2010-04-06 Dell Products L.P. System and method for using a memory mapping function to map memory defects
US7945815B2 (en) 2007-08-14 2011-05-17 Dell Products L.P. System and method for managing memory errors in an information handling system
US7949913B2 (en) 2007-08-14 2011-05-24 Dell Products L.P. Method for creating a memory defect map and optimizing performance using the memory defect map
US8724408B2 (en) 2011-11-29 2014-05-13 Kingtiger Technology (Canada) Inc. Systems and methods for testing and assembling memory modules
US9117552B2 (en) 2012-08-28 2015-08-25 Kingtiger Technology(Canada), Inc. Systems and methods for testing memory
JP2015179488A (en) * 2014-03-19 2015-10-08 富士通株式会社 Information processing apparatus, shared memory management method, and shared memory management program
US9373362B2 (en) 2007-08-14 2016-06-21 Dell Products L.P. System and method for implementing a memory defect map

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7694195B2 (en) 2007-08-14 2010-04-06 Dell Products L.P. System and method for using a memory mapping function to map memory defects
US7945815B2 (en) 2007-08-14 2011-05-17 Dell Products L.P. System and method for managing memory errors in an information handling system
US7949913B2 (en) 2007-08-14 2011-05-24 Dell Products L.P. Method for creating a memory defect map and optimizing performance using the memory defect map
US9373362B2 (en) 2007-08-14 2016-06-21 Dell Products L.P. System and method for implementing a memory defect map
US8724408B2 (en) 2011-11-29 2014-05-13 Kingtiger Technology (Canada) Inc. Systems and methods for testing and assembling memory modules
US9224500B2 (en) 2011-11-29 2015-12-29 Kingtiger Technology (Canada) Inc. Systems and methods for testing and assembling memory modules
US9117552B2 (en) 2012-08-28 2015-08-25 Kingtiger Technology(Canada), Inc. Systems and methods for testing memory
JP2015179488A (en) * 2014-03-19 2015-10-08 富士通株式会社 Information processing apparatus, shared memory management method, and shared memory management program

Similar Documents

Publication Publication Date Title
JP5225515B2 (en) Processor device and program
JP6074955B2 (en) Information processing apparatus and control method
US9135175B2 (en) Distributed cache coherency directory with failure redundancy
US10379931B2 (en) Computer system
JP2010186242A (en) Computer system
JP2005234744A (en) Multiprocessor system and failure processing method
US20160292108A1 (en) Information processing device, control program for information processing device, and control method for information processing device
JP2009175960A (en) Virtual multiprocessor system
JP2006338426A (en) Calculator system
US20150089271A1 (en) Management device, data acquisition method, and recording medium
JP4867896B2 (en) Information processing system
JP2008250386A (en) Access control device and computer system
JP2010015364A (en) Multiprocessor system and information processor
JP2008140124A (en) Data processor
JP4066950B2 (en) Computer system and maintenance method thereof
JP2009271597A (en) Processor
CN117272412B (en) Interrupt control register protection method, device, computer equipment and storage medium
JP5832408B2 (en) Virtual computer system and control method thereof
JP4611659B2 (en) Unauthorized access detection device, unauthorized access detection method, program
JP2008077388A (en) Multiprocessor control system, method and program
JP2009116681A (en) Multiprocessor system, microprocessor, and failure handling method of microprocessor
WO2015159359A1 (en) Physical computer
JP2011180840A (en) Processor, multiprocessor system, and method of detecting illegal memory access
JPS58217063A (en) Multiple control processing system of program event recording
JP6438381B2 (en) Electronic control unit

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070501