JP7087719B2 - Computer system - Google Patents

Computer system Download PDF

Info

Publication number
JP7087719B2
JP7087719B2 JP2018119241A JP2018119241A JP7087719B2 JP 7087719 B2 JP7087719 B2 JP 7087719B2 JP 2018119241 A JP2018119241 A JP 2018119241A JP 2018119241 A JP2018119241 A JP 2018119241A JP 7087719 B2 JP7087719 B2 JP 7087719B2
Authority
JP
Japan
Prior art keywords
configuration information
mounting unit
device mounting
identification information
slot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018119241A
Other languages
Japanese (ja)
Other versions
JP2019220107A (en
Inventor
修 五十幡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2018119241A priority Critical patent/JP7087719B2/en
Publication of JP2019220107A publication Critical patent/JP2019220107A/en
Application granted granted Critical
Publication of JP7087719B2 publication Critical patent/JP7087719B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Description

本発明は、コンピュータシステム、構成情報制御方法、およびプログラムに関する。 The present invention relates to computer systems, configuration information control methods, and programs.

コンピュータシステムの性能を高めるために、アクセラレータが使用されている。例えばサーバ装置では、1つのサーバ筐体内に複数枚のアクセラレータを搭載し、超高性能のコンピュータシステムを実現している。 Accelerators are used to improve the performance of computer systems. For example, in a server device, a plurality of accelerators are mounted in one server housing to realize an ultra-high performance computer system.

また本発明に関連する技術として、複数のアクセラレータを管理するプール管理サーバを備え、ホストコンピュータが利用するアクセラレータを柔軟に付け替えられるようにする技術が知られている(例えば特許文献1参照)。 Further, as a technique related to the present invention, there is known a technique provided with a pool management server that manages a plurality of accelerators so that the accelerators used by the host computer can be flexibly replaced (see, for example, Patent Document 1).

特開2013-196206号公報Japanese Unexamined Patent Publication No. 2013-196206

ところで、1つのサーバ装置内に1枚あるいは2枚以上のアクセラレータを搭載している場合、その中の1枚でも障害(故障)が発生すると、サーバ装置の性能が低下する。サーバ装置の性能を元に戻すためには、故障したアクセラレータを正常なアクセラレータに交換する必要がある。しかし、アクセラレータを交換するためには、正常動作している他のアクセラレータを含めたサーバ装置全体のプログラムの実行を停止させ、且つサーバ装置の電源をオフしてアクセラレータを交換しなければならない。そのため、アクセラレータに故障が発生したとき、その保守作業の期間(MTTR)はコンピュータシステムが利用できない。あるいは、故障したアクセラレータはその状態のままとし、正常動作しているアクセラレータのみで動作させ、性能は落ちるが可用性を重視した運用を行い、定期メンテナンスで、故障アクセラレータの交換を行うことがある。しかし、この方法では定期メンテナンスの時期までは性能がダウンした状態でコンピュータシステムを運用せざるを得ない。故障アクセラレータを活線交換できる場合、前述の交換手順と比較し、MTTRを短くすることは可能であるが、保守員が交換部品を準備し、現場に到着してアクセラレータを交換するまでの時間はMTTRとして必要不可欠である。 By the way, when one or two or more accelerators are mounted in one server device, if a failure (failure) occurs even in one of them, the performance of the server device deteriorates. In order to restore the performance of the server device, it is necessary to replace the failed accelerator with a normal accelerator. However, in order to replace the accelerator, it is necessary to stop the execution of the program of the entire server device including other accelerators operating normally, and turn off the power of the server device to replace the accelerator. Therefore, when a failure occurs in the accelerator, the computer system cannot be used during the maintenance work period (MTTR). Alternatively, the failed accelerator may be left in that state, operated only by the accelerator that is operating normally, the operation may be performed with an emphasis on availability although the performance may be reduced, and the failed accelerator may be replaced by regular maintenance. However, with this method, the computer system must be operated with its performance down until the time of regular maintenance. If the faulty accelerator can be replaced live, it is possible to shorten the MTTR compared to the replacement procedure described above, but the time required for maintenance personnel to prepare replacement parts, arrive at the site, and replace the accelerator is It is indispensable as MTTR.

他方、本発明に関連する技術を利用し、故障したアクセラレータをホストコンピュータから切り離し、待機中の他の正常なアクセラレータをホストコンピュータに接続することが考えられる。この方法によれば、故障したアクセラレータが接続されていたホストコンピュータの性能を維持することができる。しかしながら、特許文献1では、待機中の他の正常なアクセラレータには、故障したアクセラレータとは別の名前が付けられている。そのため、アクセラレータを管理および制御するソフトウェア(以下、管理ソフトウェアあるいは管理手段とも呼ぶ)からは別のアクセラレータが新たに接続されたように見えるため、障害発生前の状態と変わりなく運用することは困難であった。 On the other hand, it is conceivable to utilize the technique related to the present invention to disconnect the failed accelerator from the host computer and connect another normal standby accelerator to the host computer. According to this method, the performance of the host computer to which the failed accelerator is connected can be maintained. However, in Patent Document 1, the other normal accelerators on standby are given different names from the failed accelerators. Therefore, it is difficult to operate the accelerator as it was before the failure because it seems that another accelerator is newly connected to the software that manages and controls the accelerator (hereinafter, also referred to as management software or management means). there were.

以上のような課題は、アクセラレータに限らず、コンピュータシステムに何らかのデバイスが接続されている場合にも生じ得るものである。 The above-mentioned problems can occur not only in the accelerator but also when some device is connected to the computer system.

本発明の目的は、上述した課題、即ち障害発生前の状態と変わりなく運用することは困難である、という課題を解決するコンピュータシステムを提供することにある。 An object of the present invention is to provide a computer system that solves the above-mentioned problem, that is, the problem that it is difficult to operate in the same state as before the occurrence of a failure.

本発明の一形態に係るコンピュータシステムは、
プロセッサと、
前記プロセッサに外部インターフェースを介して接続された第1のデバイス搭載部および第2のデバイス搭載部と、を備え、
前記プロセッサは、
前記第1のデバイス搭載部の識別情報である第1のデバイス搭載部識別情報に対応付けて前記第1のデバイス搭載部に搭載されるデバイスに割り当てる識別情報である第1のデバイス識別情報を記憶し、前記第2のデバイス搭載部の識別情報である第2のデバイス搭載部識別情報に対応するデバイス識別情報は存在しない第1の構成情報と、前記第2のデバイス搭載部識別情報に対応付けて前記第1のデバイス識別情報を記憶し、前記第1のデバイス搭載部識別情報に対応するデバイス識別情報は存在しない第2の構成情報とを記憶する記憶手段と、
初期状態では前記第1の構成情報を運用に使用する運用構成情報として選択する選択手段と、
前記運用構成情報に基づいて前記第1のデバイス搭載部に搭載されたデバイスおよび前記第2のデバイス搭載部に搭載されたデバイスを管理する管理手段と、を備え、
前記選択手段は、前記第1のデバイス搭載部に搭載されたデバイスの障害検出時、前記第1のデバイス搭載部に搭載されたデバイスの代わりに前記第2のデバイス搭載部に搭載されたデバイスを使用するために前記第1の構成情報の代わりに前記第2の構成情報を前記運用構成情報として選択するように構成されている。
The computer system according to one embodiment of the present invention is
With the processor
A first device mounting unit and a second device mounting unit connected to the processor via an external interface are provided.
The processor
The first device identification information, which is the identification information assigned to the device mounted on the first device mounting unit, is stored in association with the first device mounting unit identification information, which is the identification information of the first device mounting unit. However, the device identification information corresponding to the second device mounting unit identification information, which is the identification information of the second device mounting unit, does not exist, and is associated with the first configuration information and the second device mounting unit identification information. A storage means for storing the first device identification information and a second configuration information in which the device identification information corresponding to the first device mounting portion identification information does not exist.
In the initial state, the selection means for selecting the first configuration information as the operation configuration information used for operation, and
A management means for managing a device mounted on the first device mounting unit and a device mounted on the second device mounting unit based on the operation configuration information is provided.
The selection means selects a device mounted on the second device mounting unit instead of the device mounted on the first device mounting unit when a failure of the device mounted on the first device mounting unit is detected. The second configuration information is configured to be selected as the operation configuration information in place of the first configuration information for use.

また、本発明の他の形態に係る構成情報制御方法は、
プロセッサと、
前記プロセッサに外部インターフェースを介して接続された第1のデバイス搭載部および第2のデバイス搭載部と、を備えたコンピュータシステムが実行する構成情報制御方法であって、
前記第1のデバイス搭載部の識別情報である第1のデバイス搭載部識別情報に対応付けて前記第1のデバイス搭載部に搭載されるデバイスに割り当てる識別情報である第1のデバイス識別情報を記憶し、前記第2のデバイス搭載部の識別情報である第2のデバイス搭載部識別情報に対応するデバイス識別情報は存在しない第1の構成情報と、前記第2のデバイス搭載部識別情報に対応付けて前記第1のデバイス識別情報を記憶し、前記第1のデバイス搭載部識別情報に対応するデバイス識別情報は存在しない第2の構成情報とを記憶し、
初期状態では前記第1の構成情報を運用に使用する運用構成情報として選択し、
前記運用構成情報に基づいて前記第1のデバイス搭載部に搭載されたデバイスおよび前記第2のデバイス搭載部に搭載されたデバイスを管理し、
前記第1のデバイス搭載部に搭載されたデバイスの障害検出時、前記第1のデバイス搭載部に搭載されたデバイスの代わりに前記第2のデバイス搭載部に搭載されたデバイスを使用するために前記第1の構成情報の代わりに前記第2の構成情報を前記運用構成情報として選択する。
Further, the configuration information control method according to another embodiment of the present invention is
With the processor
A configuration information control method executed by a computer system including a first device mounting unit and a second device mounting unit connected to the processor via an external interface.
The first device identification information, which is the identification information assigned to the device mounted on the first device mounting unit, is stored in association with the first device mounting unit identification information, which is the identification information of the first device mounting unit. However, the device identification information corresponding to the second device mounting unit identification information, which is the identification information of the second device mounting unit, does not exist, and is associated with the first configuration information and the second device mounting unit identification information. The first device identification information is stored, and the second configuration information in which the device identification information corresponding to the first device mounting portion identification information does not exist is stored.
In the initial state, the first configuration information is selected as the operation configuration information to be used for operation.
Based on the operation configuration information, the device mounted on the first device mounting unit and the device mounted on the second device mounting unit are managed.
In order to use the device mounted on the second device mounting unit instead of the device mounted on the first device mounting unit when the failure of the device mounted on the first device mounting unit is detected. The second configuration information is selected as the operation configuration information instead of the first configuration information.

また、本発明の他の形態に係るプログラムは、
プロセッサと、
前記プロセッサに外部インターフェースを介して接続された第1のデバイス搭載部および第2のデバイス搭載部と、を備えたコンピュータを、
前記第1のデバイス搭載部の識別情報である第1のデバイス搭載部識別情報に対応付けて前記第1のデバイス搭載部に搭載されるデバイスに割り当てる識別情報である第1のデバイス識別情報を記憶し、前記第2のデバイス搭載部の識別情報である第2のデバイス搭載部識別情報に対応するデバイス識別情報は存在しない第1の構成情報と、前記第2のデバイス搭載部識別情報に対応付けて前記第1のデバイス識別情報を記憶し、前記第1のデバイス搭載部識別情報に対応するデバイス識別情報は存在しない第2の構成情報とを記憶する記憶手段と、
初期状態では前記第1の構成情報を運用に使用する運用構成情報として選択する選択手段と、
前記運用構成情報に基づいて前記第1のデバイス搭載部に搭載されたデバイスおよび前記第2のデバイス搭載部に搭載されたデバイスを管理する管理手段と、して機能させ、
前記選択手段は、前記第1のデバイス搭載部に搭載されたデバイスの障害検出時、前記第1のデバイス搭載部に搭載されたデバイスの代わりに前記第2のデバイス搭載部に搭載されたデバイスを使用するために前記第1の構成情報の代わりに前記第2の構成情報を前記運用構成情報として選択するように構成されている。
Further, the program according to another embodiment of the present invention is
With the processor
A computer including a first device mounting unit and a second device mounting unit connected to the processor via an external interface.
The first device identification information, which is the identification information assigned to the device mounted on the first device mounting unit, is stored in association with the first device mounting unit identification information, which is the identification information of the first device mounting unit. However, the device identification information corresponding to the second device mounting unit identification information, which is the identification information of the second device mounting unit, does not exist, and is associated with the first configuration information and the second device mounting unit identification information. A storage means for storing the first device identification information and a second configuration information in which the device identification information corresponding to the first device mounting portion identification information does not exist.
In the initial state, the selection means for selecting the first configuration information as the operation configuration information used for operation, and
It functions as a management means for managing the device mounted on the first device mounting unit and the device mounted on the second device mounting unit based on the operation configuration information.
The selection means selects a device mounted on the second device mounting unit instead of the device mounted on the first device mounting unit when a failure of the device mounted on the first device mounting unit is detected. The second configuration information is configured to be selected as the operation configuration information in place of the first configuration information for use.

本発明は上述した構成を有することにより、障害発生前の状態と変わりなく運用することができる。 By having the above-mentioned configuration, the present invention can be operated in the same state as before the failure occurred.

本発明の第1の実施形態に係るコンピュータシステムに備わる5つのスロットに搭載された5つのアクセラレータの状態の変化の一例を示す図である。It is a figure which shows an example of the change of the state of 5 accelerators installed in 5 slots provided in the computer system which concerns on 1st Embodiment of this invention. 本発明の第1の実施形態に係るコンピュータシステムの構成と通常時の動作の例を示す図である。It is a figure which shows the example of the structure of the computer system which concerns on 1st Embodiment of this invention, and the operation at a normal time. 本発明の第1の実施形態に係るコンピュータシステムにおいてアクセラレータの1つに障害が発生した際の動作の例を示す図である。It is a figure which shows the example of the operation when one of the accelerators has a failure in the computer system which concerns on 1st Embodiment of this invention. 本発明の第2の実施形態に係るコンピュータシステムの構成とアクセラレータ交換時の動作の例を示す図である。It is a figure which shows the configuration of the computer system which concerns on 2nd Embodiment of this invention, and the example of operation at the time of accelerator exchange. 本発明の第3の実施形態に係るコンピュータシステムのブロック図である。It is a block diagram of the computer system which concerns on 3rd Embodiment of this invention. 本発明の第3の実施形態に係るコンピュータシステムで使用する構成情報の例を示す図である。It is a figure which shows the example of the configuration information used in the computer system which concerns on 3rd Embodiment of this invention.

次に本発明の実施の形態について図面を参照して詳細に説明する。
[第1の実施形態]
図1は、本発明の第1の実施形態に係るコンピュータシステムに備わる5つのスロットに搭載された5つのアクセラレータの状態の変化の一例を示す図である。図2は、本発明の第1の実施形態に係るコンピュータシステムの構成と通常時の動作の例を示す図である。図3は、本発明の第1の実施形態に係るコンピュータシステムにおいてアクセラレータの1つに障害が発生した際の動作の例を示す図である。以下、図1乃至図3を参照して本実施形態について説明する。
Next, embodiments of the present invention will be described in detail with reference to the drawings.
[First Embodiment]
FIG. 1 is a diagram showing an example of a change in the state of five accelerators mounted in five slots provided in the computer system according to the first embodiment of the present invention. FIG. 2 is a diagram showing an example of a configuration and normal operation of a computer system according to the first embodiment of the present invention. FIG. 3 is a diagram showing an example of operation when one of the accelerators fails in the computer system according to the first embodiment of the present invention. Hereinafter, the present embodiment will be described with reference to FIGS. 1 to 3.

先ず、図1(1)を参照すると、本実施形態に係るコンピュータシステムは、スロット(図ではSLOTと記載。以下同じ)6、スロット7、スロット8、スロット9、スロット10という5つのスロットを備えている。但し、本発明はスロットの数が5に限定されず、複数であればよい。各スロット6~10には、各スロットを一意に識別するための識別情報であるスロット番号#10、#20、#30、#40、#99が付与されている。 First, referring to FIG. 1 (1), the computer system according to the present embodiment includes five slots: slot (described as SLOT in the figure; the same applies hereinafter) 6, slot 7, slot 8, slot 9, and slot 10. ing. However, the present invention is not limited to the number of slots of 5, and may be a plurality of slots. Slot numbers # 10, # 20, # 30, # 40, and # 99, which are identification information for uniquely identifying each slot, are assigned to the slots 6 to 10.

また、図1(1)を参照すると、通常状態では、スロット6にアクセラレータ1が搭載され、スロット7にアクセラレータ2が搭載され、スロット8にアクセラレータ3が搭載され、スロット9にアクセラレータ4が搭載され、スロット10にアクセラレータ5が搭載されている。アクセラレータ1~5は、例えば、GPU(Graphics Processing Unit)アクセラレータやFPGA(Field-Programmable Gate Array)アクセラレータなどである。ここで、通常状態では、スロット6~9に搭載されたアクセラレータ1~4が運用に使用され、スロット10に搭載されたアクセラレータ5は運用に使用されず、予備のアクセラレータとして待機している。予備のアクセラレータ5は、アクセラレータ1~4の代わりに使用するものであるため、アクセラレータ1~4と互換性のあるアクセラレータを使用する。また、運用に使用される各アクセラレータ1~4には、各アクセラレータを一意に識別するソフトウェアビジブルな識別情報であるID番号が付与されている。即ち、アクセラレータ1、2、3、4は、ID#01、ID#02、ID#03、ID#04というID番号が付与されている。他方、運用に使用しないアクセラレータ5には、ソフトウェアビジブルな識別情報は付与されていない。 Further, referring to FIG. 1 (1), in a normal state, the accelerator 1 is mounted in the slot 6, the accelerator 2 is mounted in the slot 7, the accelerator 3 is mounted in the slot 8, and the accelerator 4 is mounted in the slot 9. , The accelerator 5 is mounted in the slot 10. The accelerators 1 to 5 include, for example, a GPU (Graphics Processing Unit) accelerator, an FPGA (Field-Programmable Gate Array) accelerator, and the like. Here, in the normal state, the accelerators 1 to 4 mounted in the slots 6 to 9 are used for operation, and the accelerator 5 mounted in the slot 10 is not used for operation and stands by as a spare accelerator. Since the spare accelerator 5 is used in place of the accelerators 1 to 4, an accelerator compatible with the accelerators 1 to 4 is used. Further, each of the accelerators 1 to 4 used for operation is given an ID number, which is software-visible identification information that uniquely identifies each accelerator. That is, the accelerators 1, 2, 3, and 4 are assigned ID numbers ID # 01, ID # 02, ID # 03, and ID # 04. On the other hand, software-visible identification information is not given to the accelerator 5 that is not used for operation.

次に、図1(2)を参照すると、スロット7に搭載されたアクセラレータ2で障害が発生したときの状態が示されている。大きな×印が障害の発生を表している。この時点では、スロット10に搭載されているアクセラレータ5は未だ待機している。その結果、運用に供されるアクセラレータは、アクセラレータ1、3、4の3つであり、通常状態より1つ少ない。そのため、このままではコンピュータシステムの性能が低下することになる。 Next, referring to FIG. 1 (2), a state when a failure occurs in the accelerator 2 mounted in the slot 7 is shown. A large cross indicates the occurrence of a failure. At this point, the accelerator 5 mounted in the slot 10 is still waiting. As a result, the number of accelerators used for operation is three, that is, accelerators 1, 3, and 4, which is one less than in the normal state. Therefore, if nothing is done, the performance of the computer system will deteriorate.

そこで本実施形態では、運用に供しているアクセラレータ2に障害が発生した場合、図1(3)に示すように、障害に係るアクセラレータ2の代わりに、スロット10に搭載された予備のアクセラレータ5を運用に供する。その結果、運用に供されるアクセラレータは、通常状態と同じ4つになり、コンピュータシステムの性能の低下が防止される。また、図1(3)に示すように、アクセラレータ5を運用に供するにあたって、アクセラレータ5の識別情報として、障害に係るアクセラレータ2に付与されていた識別情報であるID#02と同一の識別情報を付与する。これによって、アクセラレータを利用するソフトウェアは、障害発生前の状態と変わりなく運用を行うことができる。 Therefore, in the present embodiment, when a failure occurs in the accelerator 2 used for operation, as shown in FIG. 1 (3), a spare accelerator 5 mounted in the slot 10 is used instead of the accelerator 2 related to the failure. Use for operation. As a result, the number of accelerators used for operation is four, which is the same as in the normal state, and deterioration of the performance of the computer system is prevented. Further, as shown in FIG. 1 (3), when the accelerator 5 is put into operation, the same identification information as ID # 02, which is the identification information given to the accelerator 2 related to the failure, is used as the identification information of the accelerator 5. Give. As a result, the software that uses the accelerator can be operated in the same state as before the failure occurred.

以上のように、本実施形態に係るコンピュータシステムは、1つのサーバ筐体内などに複数枚のアクセラレータを搭載し、超高性能のコンピュータシステムを実現している。そして、アクセラレータの予備(以降、待機アクセラレータと呼ぶことがある)を1枚以上搭載しておき、通常運用時は待機させ、通常運用で動作しているアクセラレータ(以降、運用アクセラレータと呼ぶことがある)で障害が発生した場合、その障害の発生した運用アクセラレータを切り離し、待機アクセラレータを通常運用向けに組み込む。そのために、以下で詳述するように、基本となるアクセラレータ構成を示す基本構成情報と、アクセラレータの故障パタンから、故障アクセラレータの切り離しと予備アクセラレータの組み込みで再構築するための構成情報を備えるようにしている。以下、本実施形態の構成について、図2を用いて説明する。 As described above, the computer system according to the present embodiment is equipped with a plurality of accelerators in one server housing or the like to realize an ultra-high performance computer system. Then, one or more spare accelerators (hereinafter sometimes referred to as standby accelerators) are installed, and the accelerators are made to stand by during normal operation and are operating in normal operation (hereinafter sometimes referred to as operation accelerators). ), The operation accelerator where the failure occurred is disconnected, and the standby accelerator is installed for normal operation. Therefore, as described in detail below, the basic configuration information showing the basic accelerator configuration and the configuration information for reconstructing by disconnecting the fault accelerator and incorporating the spare accelerator from the fault pattern of the accelerator are provided. ing. Hereinafter, the configuration of this embodiment will be described with reference to FIG.

<本実施形態の構成>
図2において、基本構成情報20は、基本となる複数枚のアクセラレータの構成を示す情報であり、アクセラレータを制御する管理ソフトウェアが、自身が管理するID番号(アクセラレータと1対1で結びつくソフトウェアビジブルな名称)と、アクセラレータの物理的な搭載位置などを結び付けた情報(スロット番号)から構成される。具体的には、基本構成情報20は、スロット6のスロット番号#10とスロット6に搭載するアクセラレータに付与するID番号#01との組、スロット7のスロット番号#20とスロット7に搭載するアクセラレータに付与するID番号#02との組、スロット8のスロット番号#30とスロット8に搭載するアクセラレータに付与するID番号#03との組、スロット9のスロット番号#40とスロット9に搭載するアクセラレータに付与するID番号#04との組を有し、スロット10のスロット番号#99とスロット10に搭載するアクセラレータに付与するID番号との組におけるID番号はNULL値になっている。即ち、基本構成情報20は、運用アクセラレータに付与するID番号を記載しているが、待機アクセラレータに付与するID番号は記載していない。
<Structure of this embodiment>
In FIG. 2, the basic configuration information 20 is information indicating the configuration of a plurality of basic accelerators, and is software visible in which the management software that controls the accelerators has an ID number managed by itself (one-to-one connection with the accelerator). It consists of information (slot number) that links the name) with the physical mounting position of the accelerator. Specifically, the basic configuration information 20 is a set of the slot number # 10 of the slot 6 and the ID number # 01 assigned to the accelerator mounted on the slot 6, the slot number # 20 of the slot 7 and the accelerator mounted on the slot 7. The pair with the ID number # 02 assigned to the slot 8, the pair with the slot number # 30 of the slot 8 and the ID number # 03 assigned to the accelerator mounted on the slot 8, the slot number # 40 of the slot 9 and the accelerator mounted on the slot 9. The ID number in the pair of the slot number # 99 of the slot 10 and the ID number assigned to the accelerator mounted on the slot 10 is a FULL value. That is, the basic configuration information 20 describes the ID number assigned to the operation accelerator, but does not describe the ID number assigned to the standby accelerator.

また図2において、スロット10障害構成情報21、スロット20障害構成情報22、スロット30障害構成情報23、スロット40障害構成情報24は、基本構成情報20と同様に、アクセラレータの識別情報であるID番号とスロットの識別情報であるスロット番号とを結びつけた情報である。しかし、スロット10障害構成情報21、スロット20障害構成情報22、スロット30障害構成情報23、スロット40障害構成情報24は、それぞれ対応するスロットに搭載されたアクセラレータで障害が発生した後に、待機アクセラレータを構成に組み込むための構成情報である点で、基本構成情報20とは相違する。 Further, in FIG. 2, the slot 10 failure configuration information 21, the slot 20 failure configuration information 22, the slot 30 failure configuration information 23, and the slot 40 failure configuration information 24 are ID numbers which are identification information of the accelerator, similarly to the basic configuration information 20. This is information that is associated with the slot number, which is the identification information of the slot. However, the slot 10 failure configuration information 21, the slot 20 failure configuration information 22, the slot 30 failure configuration information 23, and the slot 40 failure configuration information 24 each set the standby accelerator after a failure occurs in the accelerator mounted in the corresponding slot. It differs from the basic configuration information 20 in that it is configuration information to be incorporated into the configuration.

具体的には、スロット10障害構成情報21は、スロット番号#10のスロット6に搭載されたアクセラレータで障害が発生した場合に、スロット10に搭載された待機アクセラレータを構成に組み込むための構成情報である。スロット10障害構成情報21は、スロット6に搭載された障害が発生したアクセラレータを切り離すためにスロット6のスロット番号#10とスロット6に搭載するアクセラレータに付与するID番号との組におけるID番号はNULL値になっており、また、スロット10に搭載された待機アクセラレータを障害が発生したアクセラレータの代わりに構成に組み込むためにスロット10のスロット番号#99とスロット10に搭載するアクセラレータに付与するID番号との組におけるID番号は、基本構成情報20において障害が発生したアクセラレータに付与していたID番号と同一のID番号#01になっている点で、基本構成情報20と相違し、それ以外は基本構成情報20と同一である。 Specifically, the slot 10 failure configuration information 21 is configuration information for incorporating the standby accelerator mounted in the slot 10 into the configuration when a failure occurs in the accelerator mounted in the slot 6 of the slot number # 10. be. In the slot 10 failure configuration information 21, the ID number in the set of the slot number # 10 of the slot 6 and the ID number assigned to the accelerator mounted in the slot 6 in order to disconnect the failed accelerator mounted in the slot 6 is NUML. It is also a value, and the slot number # 99 of slot 10 and the ID number assigned to the accelerator mounted in slot 10 in order to incorporate the standby accelerator mounted in slot 10 into the configuration in place of the accelerator in which the failure has occurred. The ID number in the set is different from the basic configuration information 20 in that it is the same ID number # 01 as the ID number assigned to the accelerator in which the failure occurred in the basic configuration information 20, and the other parts are basic. It is the same as the configuration information 20.

また、スロット20障害構成情報22は、スロット番号#20のスロット7に搭載されたアクセラレータで障害が発生した場合に、スロット10に搭載された待機アクセラレータを構成に組み込むための構成情報である。スロット20障害構成情報22は、スロット7に搭載された障害が発生したアクセラレータを切り離すためにスロット7のスロット番号#20とスロット7に搭載するアクセラレータに付与するID番号との組におけるID番号はNULL値になっており、また、スロット10に搭載された待機アクセラレータを障害が発生したアクセラレータの代わりに構成に組み込むためにスロット10のスロット番号#99とスロット10に搭載するアクセラレータに付与するID番号との組におけるID番号は、基本構成情報20において障害が発生したアクセラレータに付与していたID番号と同一のID番号#02になっている点で、基本構成情報20と相違し、それ以外は基本構成情報20と同一である。 Further, the slot 20 failure configuration information 22 is configuration information for incorporating the standby accelerator mounted in the slot 10 into the configuration when a failure occurs in the accelerator mounted in the slot 7 of the slot number # 20. In the slot 20 failure configuration information 22, the ID number in the set of the slot number # 20 of the slot 7 and the ID number assigned to the accelerator mounted in the slot 7 in order to disconnect the accelerator mounted in the slot 7 is NUML. It is also a value, and the slot number # 99 of slot 10 and the ID number assigned to the accelerator mounted in slot 10 in order to incorporate the standby accelerator mounted in slot 10 into the configuration in place of the accelerator in which the failure has occurred. The ID number in the set is different from the basic configuration information 20 in that it is the same ID number # 02 as the ID number assigned to the accelerator in which the failure occurred in the basic configuration information 20, and the other parts are basic. It is the same as the configuration information 20.

以下同様に、スロット30障害構成情報23は、スロット番号#30のスロット8に搭載されたアクセラレータで障害が発生した場合に、スロット10に搭載された待機アクセラレータを構成に組み込むための構成情報であり、スロット40障害構成情報24は、スロット番号#40のスロット9に搭載されたアクセラレータで障害が発生した場合に、スロット10に搭載された待機アクセラレータを構成に組み込むための構成情報である。 Similarly, the slot 30 failure configuration information 23 is configuration information for incorporating the standby accelerator mounted in the slot 10 into the configuration when a failure occurs in the accelerator mounted in the slot 8 of the slot number # 30. The slot 40 failure configuration information 24 is configuration information for incorporating the standby accelerator mounted in the slot 10 into the configuration when a failure occurs in the accelerator mounted in the slot 9 of the slot number # 40.

以上の基本構成情報20、スロット10障害構成情報21、スロット20障害構成情報22、スロット30障害構成情報23、スロット40障害構成情報24は、コンピュータシステムの電源がオフされてもデータが消えない不揮発性メモリに記憶されている。 The above basic configuration information 20, slot 10 failure configuration information 21, slot 20 failure configuration information 22, slot 30 failure configuration information 23, and slot 40 failure configuration information 24 are non-volatile data that do not disappear even when the computer system is turned off. It is stored in the sex memory.

また、図2の構成情報選択手段32は、基本構成情報20、スロット10障害構成情報21、スロット20障害構成情報22、スロット30障害構成情報23、スロット40障害構成情報24から、コンピュータシステムの運用で使用する運用構成情報25を選択するように構成されている。即ち、運用構成情報25は、稼働するコンピュータシステムが使用している構成情報であり、前述した基本構成情報20、スロット10障害構成情報21、スロット20障害構成情報22、スロット30障害構成情報23、スロット40障害構成情報24の中から、構成情報選択手段32によって選択された構成情報である。 Further, the configuration information selection means 32 of FIG. 2 operates a computer system from the basic configuration information 20, the slot 10 failure configuration information 21, the slot 20 failure configuration information 22, the slot 30 failure configuration information 23, and the slot 40 failure configuration information 24. It is configured to select the operation configuration information 25 to be used in. That is, the operation configuration information 25 is the configuration information used by the operating computer system, and is the above-mentioned basic configuration information 20, slot 10 failure configuration information 21, slot 20 failure configuration information 22, slot 30 failure configuration information 23, and so on. It is the configuration information selected by the configuration information selection means 32 from the slot 40 failure configuration information 24.

また、図2の障害スロット判別手段31は、構成情報選択手段32に対して選択すべき構成情報を通知するように構成されている。障害スロット判別手段31は、初期状態では、基本構成情報20を選択すべき構成情報として構成情報選択手段32に通知するように構成されている。また、障害スロット判別手段31は、アクセラレータを制御する管理ソフトウェアから障害の発生したアクセラレータのID番号を通知する情報である障害ID情報30を受信すると、障害ID情報30と現在の運用構成情報25を元に、次の構成情報の指示を構成情報選択手段32に通知するように構成されている。具体的には、先ず、障害スロット判別手段31は、障害ID情報30から障害の発生したアクセラレータのID番号を認識する。次に障害スロット判別手段31は、認識したID番号のアクセラレータを搭載しているスロットのスロット番号を現在の運用構成情報25から決定する。次に障害スロット判別手段31は、決定したスロット番号で障害が発生した場合に使用する構成情報を選択すべき構成情報として構成情報選択手段32に対して通知する。 Further, the failure slot determining means 31 of FIG. 2 is configured to notify the configuration information selection means 32 of the configuration information to be selected. In the initial state, the failure slot determining means 31 is configured to notify the configuration information selection means 32 of the basic configuration information 20 as configuration information to be selected. Further, when the failure slot determination means 31 receives the failure ID information 30, which is information notifying the ID number of the accelerator in which the failure has occurred, from the management software that controls the accelerator, the failure ID information 30 and the current operation configuration information 25 are obtained. Originally, it is configured to notify the configuration information selection means 32 of the instruction of the next configuration information. Specifically, first, the failure slot determination means 31 recognizes the ID number of the accelerator in which the failure has occurred from the failure ID information 30. Next, the fault slot determination means 31 determines the slot number of the slot on which the accelerator of the recognized ID number is mounted from the current operation configuration information 25. Next, the failure slot determining means 31 notifies the configuration information selection means 32 of the configuration information to be used when a failure occurs in the determined slot number as the configuration information to be selected.

上述した障害スロット判別手段31および構成情報選択手段32は、ハードウェアで実現する以外にコンピュータとプログラムで実現することができる。プログラムは、コンピュータ読み取り可能な記録媒体に記録されて提供され、コンピュータに読み込まれ、コンピュータの動作を制御することにより、コンピュータ上に障害スロット判別手段31および構成情報選択手段32を実現する。 The failure slot determination means 31 and the configuration information selection means 32 described above can be realized by a computer and a program in addition to being realized by hardware. The program is recorded and provided on a computer-readable recording medium, read by the computer, and controls the operation of the computer to realize the failure slot determination means 31 and the configuration information selection means 32 on the computer.

<本実施形態の動作の説明>
次に本実施形態の動作を説明する。ここでは、図1に示すように、通常運用しているアクセラレータが4つ、待機アクセラレータが1つの構成を備えるコンピュータシステムにおいて、スロット7に搭載されたID番号#02のアクセラレータ2で障害が発生し、待機アクセラレータであるスロット10に搭載されたアクセラレータ5が組み込まれる動作を例として説明する。
<Explanation of operation of this embodiment>
Next, the operation of this embodiment will be described. Here, as shown in FIG. 1, in a computer system having a configuration of four accelerators in normal operation and one standby accelerator, a failure occurs in accelerator 2 of ID number # 02 mounted in slot 7. An operation in which the accelerator 5 mounted in the slot 10 which is a standby accelerator is incorporated will be described as an example.

また、障害の発生したアクセラレータの切り離しと待機アクセラレータの組み込みは、電源オフ→電源オンを契機に実施する動作例とする。但し、障害の発生したアクセラレータの切り離しと待機アクセラレータの組み込みは、電源オフ→電源オンを契機にする場合に限定されない。例えば障害の発生したアクセラレータの切り離しと待機アクセラレータの組み込みは、コンピュータシステムの再起動を契機に実施してもよい。 In addition, disconnection of the accelerator in which a failure has occurred and incorporation of the standby accelerator are examples of operations in which the power is turned off and then turned on. However, the disconnection of the accelerator in which the failure has occurred and the incorporation of the standby accelerator are not limited to the case where the power is turned off and then the power is turned on. For example, the disconnection of the accelerator in which a failure has occurred and the incorporation of the standby accelerator may be carried out when the computer system is restarted.

図1の(1)に示すように、運用アクセラレータ1が正常に稼働している時、障害スロット判別手段31は、基本構成情報20を選択する指示を構成情報選択手段32に通知している。これにより、図2に示すように、運用構成情報25は基本構成情報20が選択され、その内容に従ったスロット番号とID番号の対応で運用する。即ち、アクセラレータを管理する管理ソフトウェアは、例えば、ID番号が#02のアクセラレータ2へデータを出力するなどのアクセスを行う場合、運用構成情報25を参照してID番号が#02のアクセラレータ2はスロット番号#20のスロット7に搭載されていることを認識し、スロット7を通じてアクセラレータ2へデータを出力するなどのアクセスを行う。 As shown in FIG. 1 (1), when the operation accelerator 1 is operating normally, the failure slot determination means 31 notifies the configuration information selection means 32 of an instruction to select the basic configuration information 20. As a result, as shown in FIG. 2, the basic configuration information 20 is selected as the operation configuration information 25, and the operation configuration information 25 is operated according to the correspondence between the slot number and the ID number according to the content thereof. That is, when the management software that manages the accelerator accesses, for example, outputs data to the accelerator 2 having the ID number # 02, the accelerator 2 having the ID number # 02 is a slot with reference to the operation configuration information 25. Recognizing that it is installed in slot 7 of number # 20, access such as outputting data to accelerator 2 through slot 7 is performed.

次に、ID番号#02のアクセラレータ2で障害が発生し、構成情報の入れ替えを行うまでの動作について図を用いて説明する。 Next, the operation until the failure occurs in the accelerator 2 of the ID number # 02 and the configuration information is replaced will be described with reference to the drawings.

図1の(2)に示すように、ID番号#02のアクセラレータ2で障害が発生した際、 アクセラレータを管理する管理ソフトウェアは障害スロット判別手段31に対し、障害が発生したアクセラレータのID(今回はID=#02)を障害ID情報30として通知する。通知を受けた障害スロット判別手段31は、障害ID情報30と運用構成情報25から障害の発生したアクセラレータ2が搭載されているスロットのスロット番号を導き出す。ID番号#02のアクセラレータ2が切り離し対象になるので、障害スロット判別手段31は、現在の構成情報(図2に示す運用構成情報25)からID番号#02のアクセラレータはスロット番号#20のスロット7に搭載されたアクセラレータであることを認識する。障害スロット判別手段31は、スロット番号を認識後、次の新しい構成情報となるスロット20障害構成情報22を選択するよう構成情報選択手段32に通知する。これにより、図3に示すように、運用構成情報25の内容が、基本構成情報20からスロット20障害構成情報22に入れ替わる。 As shown in (2) of FIG. 1, when a failure occurs in the accelerator 2 having the ID number # 02, the management software that manages the accelerator tells the failure slot determination means 31 the ID of the accelerator in which the failure has occurred (this time, this time). ID = # 02) is notified as the failure ID information 30. Upon receiving the notification, the fault slot determination means 31 derives the slot number of the slot in which the faulty accelerator 2 is mounted from the fault ID information 30 and the operation configuration information 25. Since the accelerator 2 with the ID number # 02 is to be separated, the fault slot determination means 31 uses the current configuration information (operation configuration information 25 shown in FIG. 2) to indicate that the accelerator with the ID number # 02 is the slot 7 with the slot number # 20. Recognize that it is an accelerator installed in. After recognizing the slot number, the failure slot determination means 31 notifies the configuration information selection means 32 to select the slot 20 failure configuration information 22 which is the next new configuration information. As a result, as shown in FIG. 3, the content of the operation configuration information 25 is replaced from the basic configuration information 20 to the slot 20 failure configuration information 22.

この後、コンピュータシステムの電源をオフし、その後に再びコンピュータシステムの電源をオンする。すると、管理ソフトウェアは、新しい運用構成情報25(すでにスロット20障害構成情報の内容に入れ替わっている)の内容から、各スロットに搭載されたアクセラレータにID番号を付与する。このとき運用構成情報25の内容(スロット20障害構成情報22と同じ内容)は、直前に障害の発生したスロット番号#20のスロット7に搭載されたアクセラレータ2に対してID番号を割り当てず、スロット番号#99のスロット10に搭載された待機アクセラレータ5にID番号#02のID番号を割り当て、また障害の発生していないスロット番号#10、スロット番号#30、スロット番号#40の各スロットに搭載されたアクセラレータ1、3、4に割り当てるID番号は以前と変わりない構成を記している。これにより、スロット番号#20のスロット7に搭載された障害アクセラレータ2が切り離され、スロット番号#99のスロット10に搭載された待機アクセラレータ5にID番号#02が割り当てられ、運用アクセラレータとして組み込まれる。この状態は管理ソフトウェアから見た場合、図1の(3)に示すように、ID番号#01からID番号#03の4つのアクセラレータが揃っているため、障害発生前の状態と変わりなく見える。 After this, the computer system is turned off, and then the computer system is turned on again. Then, the management software assigns an ID number to the accelerator mounted in each slot from the contents of the new operation configuration information 25 (already replaced with the contents of the slot 20 failure configuration information). At this time, the content of the operation configuration information 25 (the same content as the slot 20 failure configuration information 22) does not assign an ID number to the accelerator 2 mounted in the slot 7 of the slot number # 20 where the failure occurred immediately before, and the slot The ID number of ID number # 02 is assigned to the standby accelerator 5 mounted in slot 10 of number # 99, and the ID number is mounted in each slot of slot number # 10, slot number # 30, and slot number # 40 where no failure has occurred. The ID numbers assigned to the accelerators 1, 3 and 4 are the same as before. As a result, the fault accelerator 2 mounted in the slot 7 of the slot number # 20 is disconnected, the standby accelerator 5 mounted in the slot 10 of the slot number # 99 is assigned the ID number # 02, and the ID number # 02 is incorporated as an operation accelerator. When viewed from the management software, this state looks the same as the state before the failure because the four accelerators ID number # 01 to ID number # 03 are aligned as shown in FIG. 1 (3).

このように、障害の発生したスロット位置のアクセラレータにはID番号を割り当てないことで論理的に切り離す(管理ソフトウェアから見えない状態にする)ことができ、同時に予備搭載していた待機アクセラレータを通常運用アクセラレータとして組み込み、ID番号を割り当てることができることから、管理ソフトウェア見えには障害発生前の状態と変わりなく運用が可能である。 In this way, the accelerator at the slot position where the failure occurred can be logically separated (made invisible to the management software) by not assigning an ID number, and at the same time, the standby accelerator that was pre-installed is normally operated. Since it can be incorporated as an accelerator and an ID number can be assigned, the management software can be operated in the same state as before the failure.

なお、障害アクセラレータの切り離しと、待機アクセラレータの組込みは、PCIe仕様で定義されるHotPlug方式など周知の技術を採用するなど、切り離しや組み込み処理の契機は然るべき手段で実施すればよい。 It should be noted that the disconnection of the fault accelerator and the incorporation of the standby accelerator may be carried out by appropriate means, such as by adopting a well-known technique such as the HotPlug method defined in the PCIe specification.

本例では予備(待機)アクセラレータが1つの構成を例にしたが、複数枚の予備アクセラレータを搭載し、通常運用アクセラレータの障害パタンと予備アクセラレータとの入れ替え構成を、新たな構成情報として複数装備しても構わない。 In this example, a configuration with one spare (standby) accelerator is taken as an example, but multiple spare accelerators are installed, and multiple configurations for replacing the failure pattern of the normal operation accelerator and the spare accelerator are provided as new configuration information. It doesn't matter.

<本実施形態の効果>
このように本実施形態によれば、以下のような効果が得られる。
<Effect of this embodiment>
As described above, according to the present embodiment, the following effects can be obtained.

1つのサーバ筐体内にPCIe等で接続した複数枚のアクセラレータを搭載するコンピュータシステムにおいて、アクセラレータの管理ソフトウェアが利用するIDと、アクセラレータの物理的な搭載位置などを結び付けたアクセラレータ構成情報を複数装備していて、それらの構成情報は基本となるアクセラレータ構成を示す構成情報と、運用しているアクセラレータの故障パタンから故障したアクセラレータの切り離しと予備アクセラレータの組み込みを定義した構成情報である。そのため、運用中のアクセラレータで障害が発生した場合、その障害の発生した故障アクセラレータを切り離し、予備のアクセラレータを通常運用向けとして組み込むことが可能になり、障害のたびに保守作業(システム停止)時間を採る必要がなくなり、MTTRを極小化できる。 In a computer system equipped with multiple accelerators connected by PCIe etc. in one server chassis, it is equipped with multiple accelerator configuration information that links the ID used by the accelerator management software and the physical mounting position of the accelerator. The configuration information is the configuration information indicating the basic accelerator configuration and the configuration information defining the disconnection of the failed accelerator from the failure pattern of the operating accelerator and the incorporation of the spare accelerator. Therefore, if a failure occurs in an accelerator in operation, it is possible to disconnect the failed accelerator in which the failure occurred and incorporate a spare accelerator for normal operation, and maintenance work (system stop) time is required for each failure. There is no need to take it, and MTTR can be minimized.

また、運用中のアクセラレータで障害が発生した場合、その障害の発生した故障アクセラレータを切り離し、予備のアクセラレータを通常運用向けとして組み込みができるため、アクセラレータが故障する前の性能を保ちつつ、可用性の高いシステムを構築できる。 In addition, if a failure occurs in an accelerator in operation, the failed accelerator that has failed can be disconnected and a spare accelerator can be installed for normal operation, so the performance before the accelerator fails is maintained and the availability is high. You can build a system.

[第2の実施形態]
次に、本発明の第2の実施形態について説明する。
[Second Embodiment]
Next, a second embodiment of the present invention will be described.

図4は、本発明の第2の実施形態に係るコンピュータシステムの構成とアクセラレータ交換時の動作の例を示す図である。図4を参照すると、本実施形態は、障害スロット判別手段31に交換スロット情報40がさらに入力されている点で第1の実施形態と相違し、それ以外は第1の実施形態と同じである。 FIG. 4 is a diagram showing an example of the configuration of the computer system and the operation at the time of accelerator replacement according to the second embodiment of the present invention. Referring to FIG. 4, the present embodiment is different from the first embodiment in that the exchange slot information 40 is further input to the fault slot determination means 31, and is the same as the first embodiment except for the fact that the exchange slot information 40 is further input. ..

障害スロット判別手段31は、アクセラレータの交換が行われたスロットのスロット番号を通知する情報である交換スロット情報40を受信すると、基本構成情報20を選択すべき構成情報として構成情報選択手段32に通知するように構成されている点で、第1の実施形態における障害スロット判別手段31と相違し、それ以外は第1の実施形態における障害スロット判別手段31と同じである。 When the failure slot determination means 31 receives the exchange slot information 40, which is information notifying the slot number of the slot in which the accelerator has been exchanged, the failure slot determination means 31 notifies the configuration information selection means 32 as the configuration information to select the basic configuration information 20. It is different from the fault slot determination means 31 in the first embodiment in that it is configured to do so, and is otherwise the same as the fault slot determination means 31 in the first embodiment.

第1の実施形態で説明したようにスロット7に搭載されたアクセラレータ2で障害が発生したためにスロット10に搭載された予備アクセラレータ5が通常運用アクセラレータ(そのID番号は#02)として稼働している場合、運用構成情報25はスロット20障害構成情報22の内容と同一になっている。このような状態で運用されているときに、保守員がスロット7に搭載された障害に係るアクセラレータ2を正常なアクセラレータに交換し、図示しない入力装置などからスロット番号#20を表す交換スロット情報40が障害スロット判別手段31に入力したとする。すると、この交換スロット情報40の通知を受けた障害スロット判別手段31は、運用構成情報25を基本構成情報20に切り替えるよう構成情報選択手段32に指示する。 As described in the first embodiment, the spare accelerator 5 mounted in the slot 10 is operating as a normal operation accelerator (its ID number is # 02) due to a failure in the accelerator 2 mounted in the slot 7. In this case, the operation configuration information 25 is the same as the content of the slot 20 failure configuration information 22. During operation in such a state, the maintenance personnel replaces the faulty accelerator 2 mounted in the slot 7 with a normal accelerator, and the replacement slot information 40 representing the slot number # 20 from an input device (not shown) or the like. Is input to the failure slot determination means 31. Then, the failure slot determination means 31 that has received the notification of the exchange slot information 40 instructs the configuration information selection means 32 to switch the operation configuration information 25 to the basic configuration information 20.

これにより、運用構成情報25の内容は基本構成情報20が適用される。その結果、スロット7に搭載したアクセラレータにID番号#02が割り当てられて、通常運用アクセラレータとなる。また、スロット番号#99のスロット10に搭載されたアクセラレータは再び予備アクセラレータに移行し、待機状態となる。 As a result, the basic configuration information 20 is applied to the contents of the operation configuration information 25. As a result, the ID number # 02 is assigned to the accelerator mounted in the slot 7, and the accelerator becomes a normal operation accelerator. Further, the accelerator mounted in slot 10 of slot number # 99 shifts to the spare accelerator again and goes into a standby state.

なお、本例におけるアクセラレータの交換は活線交換、未通電状態での交換など然るべき方法で実施すればよい。 The accelerator in this example may be replaced by an appropriate method such as hot-line replacement or replacement in a non-energized state.

[第3の実施形態]
次に本発明の第3の実施形態について説明する。
[Third Embodiment]
Next, a third embodiment of the present invention will be described.

図5は、本発明の第3の実施形態に係るコンピュータシステムのブロック図である。図5を参照すると、本実施形態に係るコンピュータシステム100は、プロセッサ110と、このプロセッサ110に外部インターフェースを介して接続されたデバイス搭載部120およびデバイス搭載部130とを備えている。コンピュータシステム100は、例えば1台のサーバ装置であってよい。但し、コンピュータシステム100は、1台のサーバ装置に限定されず、1台以上の情報処理装置であってもよい。また、デバイス搭載部120は、デバイス121を搭載するように構成されている。また、デバイス搭載部130は、デバイス121と互換性のあるデバイス131を搭載するように構成されている。デバイス121、131は、アクセラレータであってよい。但し、デバイス121、131は、アクセラレータに限定されず、任意のデバイスであってよい。また、外部インターフェースは、PCIe(PCI Express)(登録商標)であってよい。但し、外部インターフェースは、PCIeに限定されず、PCIなどであってもよい。 FIG. 5 is a block diagram of a computer system according to a third embodiment of the present invention. Referring to FIG. 5, the computer system 100 according to the present embodiment includes a processor 110, and a device mounting unit 120 and a device mounting unit 130 connected to the processor 110 via an external interface. The computer system 100 may be, for example, one server device. However, the computer system 100 is not limited to one server device, and may be one or more information processing devices. Further, the device mounting unit 120 is configured to mount the device 121. Further, the device mounting unit 130 is configured to mount a device 131 compatible with the device 121. The devices 121 and 131 may be accelerators. However, the devices 121 and 131 are not limited to the accelerator and may be any device. Further, the external interface may be PCIe (PCI Express) (registered trademark). However, the external interface is not limited to PCIe, and may be PCI or the like.

プロセッサ110は、記憶手段111と、選択手段112と、管理手段113とを備えている。 The processor 110 includes storage means 111, selection means 112, and management means 113.

記憶手段111は、複数の構成情報を記憶するように構成されている。記憶手段111は、コンピュータシステム100の電源がオフされても記憶情報が消失されないように構成されている。記憶手段111は、第1の構成情報141と第2の構成情報142との少なくとも2つの構成情報を記憶するように構成されている。 The storage means 111 is configured to store a plurality of configuration information. The storage means 111 is configured so that the stored information is not lost even when the power of the computer system 100 is turned off. The storage means 111 is configured to store at least two configuration information, that is, the first configuration information 141 and the second configuration information 142.

図6は第1の構成情報141と第2の構成情報142の例を示す図である。図6を参照すると、第1の構成情報141は、デバイス搭載部120の識別情報である第1のデバイス搭載部識別情報に対応付けてデバイス搭載部120に搭載されるデバイス121に割り当てる識別情報である第1のデバイス識別情報を記憶し、デバイス搭載部130の識別情報である第2のデバイス搭載部識別情報に対応するデバイス識別情報は記憶していない。また、第2の構成情報142は、デバイス搭載部130の識別情報である第2のデバイス搭載部識別情報に対応付けてデバイス搭載部130に搭載されるデバイス131に割り当てる識別情報として第1のデバイス識別情報を記憶し、デバイス搭載部120の識別情報である第1のデバイス搭載部識別情報に対応するデバイス識別情報は記憶していない。 FIG. 6 is a diagram showing an example of the first configuration information 141 and the second configuration information 142. Referring to FIG. 6, the first configuration information 141 is identification information assigned to the device 121 mounted on the device mounting unit 120 in association with the first device mounting unit identification information which is the identification information of the device mounting unit 120. A certain first device identification information is stored, and the device identification information corresponding to the second device mounting unit identification information, which is the identification information of the device mounting unit 130, is not stored. Further, the second configuration information 142 is the first device as identification information assigned to the device 131 mounted on the device mounting unit 130 in association with the second device mounting unit identification information which is the identification information of the device mounting unit 130. The identification information is stored, and the device identification information corresponding to the first device mounting unit identification information, which is the identification information of the device mounting unit 120, is not stored.

選択手段112は、記憶手段111に記憶された複数の構成情報の中から運用に使用する1つの構成情報を選択するように構成されている。選択手段112は、初期状態では第1の構成情報141を運用に使用する運用構成情報として選択するように構成されている。また、選択手段112は、デバイス搭載部120に搭載されたデバイス121の障害検出時、デバイス搭載部120に搭載されたデバイス121の代わりにデバイス搭載部130に搭載されたデバイス131を使用するために第1の構成情報141の代わりに第2の構成情報142を運用構成情報として選択するように構成されている。 The selection means 112 is configured to select one configuration information to be used for operation from a plurality of configuration information stored in the storage means 111. In the initial state, the selection means 112 is configured to select the first configuration information 141 as the operation configuration information used for operation. Further, in order to use the device 131 mounted on the device mounting unit 130 instead of the device 121 mounted on the device mounting unit 120 when the failure detection of the device 121 mounted on the device mounting unit 120 is detected by the selection means 112. The second configuration information 142 is configured to be selected as the operation configuration information instead of the first configuration information 141.

管理手段113は、運用構成情報に基づいてデバイス搭載部120に搭載されたデバイス121およびデバイス搭載部130に搭載されたデバイス131を管理するように構成されている。 The management means 113 is configured to manage the device 121 mounted on the device mounting unit 120 and the device 131 mounted on the device mounting unit 130 based on the operation configuration information.

上述した記憶手段111、選択手段112、および管理手段113は、ハードウェアで実現する以外にコンピュータとプログラムで実現することができる。プログラムは、コンピュータ読み取り可能な記録媒体に記録されて提供され、コンピュータに読み込まれ、コンピュータの動作を制御することにより、コンピュータ上に記憶手段111、選択手段112、および管理手段113を実現する。 The storage means 111, the selection means 112, and the management means 113 described above can be realized by a computer and a program in addition to being realized by hardware. The program is recorded and provided on a computer-readable recording medium, read into the computer, and controls the operation of the computer to realize the storage means 111, the selection means 112, and the management means 113 on the computer.

このように構成された本実施形態に係るコンピュータシステム100は、以下のように動作する。すなわち、初期状態では、選択手段112は、第1の構成情報141を運用に使用する運用構成情報として選択し、管理手段113は、その運用構成情報(第1の構成情報141)に基づいてデバイス搭載部120に搭載されたデバイス121および第2のデバイス搭載部130に搭載されたデバイス131を管理する。例えば、管理手段113は、運用構成情報(第1の構成情報141)に基づいて、デバイス搭載部120に搭載されているデバイス121に第1のデバイス識別情報を割り当ててデバイスの運用を行う。また管理手段113は、運用に供されているデバイス121に障害が発生したか否かを監視する。他方、管理手段113は、運用構成情報(第1の構成情報141)に基づいて、デバイス搭載部130に搭載されているデバイス131にはデバイス識別情報を割り当てない。デバイス識別情報が割り当てられないデバイス131は、コンピュータシステム100から論理的に切り離されたデバイスとして扱われる。 The computer system 100 according to the present embodiment configured in this way operates as follows. That is, in the initial state, the selection means 112 selects the first configuration information 141 as the operation configuration information used for the operation, and the management means 113 selects the device based on the operation configuration information (first configuration information 141). It manages the device 121 mounted on the mounting unit 120 and the device 131 mounted on the second device mounting unit 130. For example, the management means 113 assigns the first device identification information to the device 121 mounted on the device mounting unit 120 based on the operation configuration information (first configuration information 141) to operate the device. Further, the management means 113 monitors whether or not a failure has occurred in the device 121 used for operation. On the other hand, the management means 113 does not assign the device identification information to the device 131 mounted on the device mounting unit 130 based on the operation configuration information (first configuration information 141). The device 131 to which the device identification information is not assigned is treated as a device logically separated from the computer system 100.

その後、デバイス搭載部113に搭載されたデバイス121に障害が発生したとする。すると、選択手段112は、デバイス搭載部120に搭載されたデバイス121の代わりにデバイス搭載部130に搭載されたデバイス131を使用するために第1の構成情報141の代わりに第2の構成情報142を運用構成情報として選択する。そのため、管理手段113は、コンピュータシステム100が再起動されると、新たな運用構成情報(第2の構成情報142)に基づいてデバイス搭載部120に搭載されたデバイス121および第2のデバイス搭載部130に搭載されたデバイス131を管理する。例えば、管理手段113は、運用構成情報(第1の構成情報142)に基づいて、デバイス搭載部130に搭載されているデバイス131に第1のデバイス識別情報を割り当ててデバイスの運用を行う。他方、管理手段113は、運用構成情報(第1の構成情報142)に基づいて、デバイス搭載部120に搭載されているデバイス121にはデバイス識別情報を割り当てない。デバイス識別情報が割り当てられないデバイス121は、コンピュータシステム100から論理的に切り離されたデバイスとして扱われる。 After that, it is assumed that a failure occurs in the device 121 mounted on the device mounting unit 113. Then, the selection means 112 uses the device 131 mounted on the device mounting unit 130 instead of the device 121 mounted on the device mounting unit 120, so that the second configuration information 142 is used instead of the first configuration information 141. Is selected as the operation configuration information. Therefore, when the computer system 100 is restarted, the management means 113 has the device 121 mounted on the device mounting unit 120 and the second device mounting unit based on the new operation configuration information (second configuration information 142). It manages the device 131 mounted on the 130. For example, the management means 113 assigns the first device identification information to the device 131 mounted on the device mounting unit 130 based on the operation configuration information (first configuration information 142) to operate the device. On the other hand, the management means 113 does not assign the device identification information to the device 121 mounted on the device mounting unit 120 based on the operation configuration information (first configuration information 142). The device 121 to which the device identification information is not assigned is treated as a device logically separated from the computer system 100.

以上のように構成され動作することにより、本実施形態に係るコンピュータシステム100は、障害発生前の状態と変わりなく運用することができる。その理由は、デバイス121に障害が発生すると、選択手段112が第2の構成情報142を運用構成情報として選択し、管理手段113がこの新たな運用構成情報(第2の構成情報142)に基づいてデバイス搭載部120に搭載されたデバイス121および第2のデバイス搭載部130に搭載されたデバイス131を管理するためである。すなわち、管理手段113は、運用構成情報(第1の構成情報142)に基づいて、デバイス131にデバイス121に割り当てていた識別情報と同じ第1のデバイス識別情報を割り当ててデバイス131の運用を行い、デバイス121は、コンピュータシステム100から論理的に切り離すためである。 By being configured and operating as described above, the computer system 100 according to the present embodiment can be operated in the same state as before the failure occurred. The reason is that when a failure occurs in the device 121, the selection means 112 selects the second configuration information 142 as the operation configuration information, and the management means 113 is based on this new operation configuration information (second configuration information 142). This is to manage the device 121 mounted on the device mounting unit 120 and the device 131 mounted on the second device mounting unit 130. That is, the management means 113 assigns the same first device identification information as the identification information assigned to the device 121 to the device 131 based on the operation configuration information (first configuration information 142), and operates the device 131. , The device 121 is to be logically separated from the computer system 100.

以上、上記各実施形態を参照して本発明を説明したが、本発明は、上述した実施形態に限定されるものではない。本発明の構成や詳細には、本発明の範囲内で当業者が理解しうる様々な変更をすることができる。 Although the present invention has been described above with reference to each of the above embodiments, the present invention is not limited to the above-described embodiments. Various modifications that can be understood by those skilled in the art can be made to the structure and details of the present invention within the scope of the present invention.

本発明の活用例として、複数のコンピュータやアクセラレータなどで構成する計算機システムの構成制御・管理に活用が可能である。 As an example of utilization of the present invention, it can be utilized for configuration control and management of a computer system composed of a plurality of computers, accelerators, and the like.

1…アクセラレータ
2…アクセラレータ
3…アクセラレータ
4…アクセラレータ
5…アクセラレータ
6…スロット
7…スロット
8…スロット
9…スロット
10…スロット
20…基本構成情報
21…スロット10障害構成情報
22…スロット20障害構成情報
23…スロット30障害構成情報
24…スロット40障害構成情報
25…運用構成情報
30…障害ID情報
31…障害スロット判別手段
32…構成情報選択手段
40…交換スロット情報
100…コンピュータシステム
110…プロセッサ
111…記憶手段
112…選択手段
113…管理手段
120…デバイス搭載部
121…デバイス
130…デバイス搭載部
131…デバイス
141…第1の構成情報
142…第2の構成情報
1 ... Accelerator 2 ... Accelerator 3 ... Accelerator 4 ... Accelerator 5 ... Accelerator 6 ... Slot 7 ... Slot 8 ... Slot 9 ... Slot 10 ... Slot 20 ... Basic configuration information 21 ... Slot 10 Failure configuration information 22 ... Slot 20 Failure configuration information 23 ... Slot 30 failure configuration information 24 ... Slot 40 failure configuration information 25 ... Operation configuration information 30 ... Failure ID information 31 ... Failure slot determination means 32 ... Configuration information selection means 40 ... Exchange slot information 100 ... Computer system 110 ... Processor 111 ... Storage Means 112 ... Selection means 113 ... Management means 120 ... Device mounting unit 121 ... Device 130 ... Device mounting unit 131 ... Device 141 ... First configuration information 142 ... Second configuration information

Claims (7)

プロセッサと、
前記プロセッサに外部インターフェースを介して接続された第1のデバイス搭載部および第2のデバイス搭載部と、を備え、
前記プロセッサは、
前記第1のデバイス搭載部の識別情報である第1のデバイス搭載部識別情報に対応付けて前記第1のデバイス搭載部に搭載されるデバイスに割り当てる識別情報である第1のデバイス識別情報が存在し、前記第2のデバイス搭載部の識別情報である第2のデバイス搭載部識別情報に対応するデバイス識別情報は存在しない第1の構成情報と、前記第2のデバイス搭載部識別情報に対応付けて前記第1のデバイス識別情報が存在し、前記第1のデバイス搭載部識別情報に対応するデバイス識別情報は存在しない第2の構成情報とを記憶する記憶手段と、
初期状態では前記第1の構成情報を運用に使用する運用構成情報として選択する選択手段と、
前記運用構成情報に基づいて前記第1のデバイス搭載部に搭載されたデバイスおよび前記第2のデバイス搭載部に搭載されたデバイスを管理する管理手段と、を備え、
前記選択手段は、前記第1のデバイス搭載部に搭載されたデバイスの障害検出時、前記第1のデバイス搭載部に搭載されたデバイスの代わりに前記第2のデバイス搭載部に搭載されたデバイスを使用するために前記第1の構成情報の代わりに前記第2の構成情報を前記運用構成情報として選択するように構成されている
コンピュータシステム。
With the processor
A first device mounting unit and a second device mounting unit connected to the processor via an external interface are provided.
The processor
There is a first device identification information which is identification information assigned to a device mounted on the first device mounting unit in association with the first device mounting unit identification information which is the identification information of the first device mounting unit. However, the device identification information corresponding to the second device mounting unit identification information, which is the identification information of the second device mounting unit, does not exist, and is associated with the first configuration information and the second device mounting unit identification information. A storage means for storing the second configuration information in which the first device identification information exists and the device identification information corresponding to the first device mounting portion identification information does not exist.
In the initial state, the selection means for selecting the first configuration information as the operation configuration information used for operation, and
A management means for managing a device mounted on the first device mounting unit and a device mounted on the second device mounting unit based on the operation configuration information is provided.
When the failure detection of the device mounted on the first device mounting unit is detected, the selection means selects the device mounted on the second device mounting unit instead of the device mounted on the first device mounting unit. A computer system configured to select the second configuration information as the operational configuration information in place of the first configuration information for use.
前記選択手段は、前記第1のデバイス搭載部に搭載されたデバイスの交換時、前記第1の構成情報を前記運用構成情報として選択するように構成されている
請求項1に記載のコンピュータシステム。
The computer system according to claim 1, wherein the selection means is configured to select the first configuration information as the operation configuration information when the device mounted on the first device mounting portion is replaced.
前記選択手段は、前記第1の構成情報および前記第2の構成情報のうち指定されたものを前記運用構成情報として選択する構成情報選択手段と、
前記第1のデバイス搭載部に搭載されたデバイスの障害の有無に応じて前記運用構成情報として選択すべきものを前記構成情報選択手段に対して通知する障害スロット判別手段とを含んで構成される
請求項1または2に記載のコンピュータシステム。
The selection means includes a configuration information selection means that selects a designated one of the first configuration information and the second configuration information as the operation configuration information.
A claim including a failure slot determining means for notifying the configuration information selection means of what should be selected as the operation configuration information according to the presence or absence of a failure of the device mounted on the first device mounting unit. Item 2. The computer system according to item 1 or 2.
前記デバイスは、アクセラレータである
請求項1乃至3の何れかに記載のコンピュータシステム。
The computer system according to any one of claims 1 to 3, wherein the device is an accelerator.
前記管理手段は、コンピュータシステムの電源がオンされたこと或いは再起動されたことを契機に前記管理を行うように構成されている
請求項1乃至4の何れかに記載のコンピュータシステム。
The computer system according to any one of claims 1 to 4, wherein the management means is configured to perform the management when the power of the computer system is turned on or restarted.
プロセッサと、
前記プロセッサに外部インターフェースを介して接続された第1のデバイス搭載部および第2のデバイス搭載部と、を備えたコンピュータシステムが実行する構成情報制御方法であって、
前記第1のデバイス搭載部の識別情報である第1のデバイス搭載部識別情報に対応付けて前記第1のデバイス搭載部に搭載されるデバイスに割り当てる識別情報である第1のデバイス識別情報が存在し、前記第2のデバイス搭載部の識別情報である第2のデバイス搭載部識別情報に対応するデバイス識別情報は存在しない第1の構成情報と、前記第2のデバイス搭載部識別情報に対応付けて前記第1のデバイス識別情報が存在し、前記第1のデバイス搭載部識別情報に対応するデバイス識別情報は存在しない第2の構成情報とを記憶し、
初期状態では前記第1の構成情報を運用に使用する運用構成情報として選択し、
前記運用構成情報に基づいて前記第1のデバイス搭載部に搭載されたデバイスおよび前記第2のデバイス搭載部に搭載されたデバイスを管理し、
前記第1のデバイス搭載部に搭載されたデバイスの障害検出時、前記第1のデバイス搭載部に搭載されたデバイスの代わりに前記第2のデバイス搭載部に搭載されたデバイスを使用するために前記第1の構成情報の代わりに前記第2の構成情報を前記運用構成情報として選択する
構成情報制御方法。
With the processor
A configuration information control method executed by a computer system including a first device mounting unit and a second device mounting unit connected to the processor via an external interface.
There is a first device identification information which is identification information assigned to a device mounted on the first device mounting unit in association with the first device mounting unit identification information which is the identification information of the first device mounting unit. However, the device identification information corresponding to the second device mounting unit identification information, which is the identification information of the second device mounting unit, does not exist, and is associated with the first configuration information and the second device mounting unit identification information. The second configuration information is stored so that the first device identification information exists and the device identification information corresponding to the first device mounting portion identification information does not exist.
In the initial state, the first configuration information is selected as the operation configuration information to be used for operation.
Based on the operation configuration information, the device mounted on the first device mounting unit and the device mounted on the second device mounting unit are managed.
In order to use the device mounted on the second device mounting unit instead of the device mounted on the first device mounting unit when the failure of the device mounted on the first device mounting unit is detected. A configuration information control method for selecting the second configuration information as the operation configuration information instead of the first configuration information.
プロセッサと、
前記プロセッサに外部インターフェースを介して接続された第1のデバイス搭載部および第2のデバイス搭載部と、を備えたコンピュータを、
前記第1のデバイス搭載部の識別情報である第1のデバイス搭載部識別情報に対応付けて前記第1のデバイス搭載部に搭載されるデバイスに割り当てる識別情報である第1のデバイス識別情報が存在し、前記第2のデバイス搭載部の識別情報である第2のデバイス搭載部識別情報に対応するデバイス識別情報は存在しない第1の構成情報と、前記第2のデバイス搭載部識別情報に対応付けて前記第1のデバイス識別情報が存在し、前記第1のデバイス搭載部識別情報に対応するデバイス識別情報は存在しない第2の構成情報とを記憶する記憶手段と、
初期状態では前記第1の構成情報を運用に使用する運用構成情報として選択する選択手段と、
前記運用構成情報に基づいて前記第1のデバイス搭載部に搭載されたデバイスおよび前記第2のデバイス搭載部に搭載されたデバイスを管理する管理手段と、して機能させ、
前記選択手段は、前記第1のデバイス搭載部に搭載されたデバイスの障害検出時、前記第1のデバイス搭載部に搭載されたデバイスの代わりに前記第2のデバイス搭載部に搭載されたデバイスを使用するために前記第1の構成情報の代わりに前記第2の構成情報を前記運用構成情報として選択するように構成されている
プログラム。
With the processor
A computer including a first device mounting unit and a second device mounting unit connected to the processor via an external interface.
There is a first device identification information which is identification information assigned to a device mounted on the first device mounting unit in association with the first device mounting unit identification information which is the identification information of the first device mounting unit. However, the device identification information corresponding to the second device mounting unit identification information, which is the identification information of the second device mounting unit, does not exist, and is associated with the first configuration information and the second device mounting unit identification information. A storage means for storing the second configuration information in which the first device identification information exists and the device identification information corresponding to the first device mounting portion identification information does not exist.
In the initial state, the selection means for selecting the first configuration information as the operation configuration information used for operation, and
It functions as a management means for managing the device mounted on the first device mounting unit and the device mounted on the second device mounting unit based on the operation configuration information.
When the failure detection of the device mounted on the first device mounting unit is detected, the selection means selects the device mounted on the second device mounting unit instead of the device mounted on the first device mounting unit. A program configured to select the second configuration information as the operational configuration information in place of the first configuration information for use.
JP2018119241A 2018-06-22 2018-06-22 Computer system Active JP7087719B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018119241A JP7087719B2 (en) 2018-06-22 2018-06-22 Computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018119241A JP7087719B2 (en) 2018-06-22 2018-06-22 Computer system

Publications (2)

Publication Number Publication Date
JP2019220107A JP2019220107A (en) 2019-12-26
JP7087719B2 true JP7087719B2 (en) 2022-06-21

Family

ID=69096751

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018119241A Active JP7087719B2 (en) 2018-06-22 2018-06-22 Computer system

Country Status (1)

Country Link
JP (1) JP7087719B2 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002215473A (en) 2001-01-23 2002-08-02 Mitsubishi Electric Corp Information processor and multiplex system
US20060198314A1 (en) 2005-03-03 2006-09-07 Nec Corporation Processing device, failure recovery method therefor, and failure restoration method
US20090204743A1 (en) 2008-02-08 2009-08-13 Tetsuya Inoue Storage subsystem and control method therefof
JP2013097553A (en) 2011-10-31 2013-05-20 Fujitsu Ltd Switching control device, switching control method, information processor and switching control program
WO2015189877A1 (en) 2014-06-13 2015-12-17 三菱電機株式会社 Vehicle-mounted control hub device
US20160019070A1 (en) 2010-12-29 2016-01-21 Huawei Technologies Co., Ltd. Method for configuring storage system connection, device and storage system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3448197B2 (en) * 1997-03-10 2003-09-16 富士通株式会社 Information processing device

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002215473A (en) 2001-01-23 2002-08-02 Mitsubishi Electric Corp Information processor and multiplex system
US20060198314A1 (en) 2005-03-03 2006-09-07 Nec Corporation Processing device, failure recovery method therefor, and failure restoration method
JP2006277724A (en) 2005-03-03 2006-10-12 Nec Corp Processing device, failure recovery method therefor, and failure restoration method
US20090204743A1 (en) 2008-02-08 2009-08-13 Tetsuya Inoue Storage subsystem and control method therefof
JP2009187483A (en) 2008-02-08 2009-08-20 Hitachi Ltd Storage subsystem and control method thereof
US20160019070A1 (en) 2010-12-29 2016-01-21 Huawei Technologies Co., Ltd. Method for configuring storage system connection, device and storage system
JP2013097553A (en) 2011-10-31 2013-05-20 Fujitsu Ltd Switching control device, switching control method, information processor and switching control program
WO2015189877A1 (en) 2014-06-13 2015-12-17 三菱電機株式会社 Vehicle-mounted control hub device

Also Published As

Publication number Publication date
JP2019220107A (en) 2019-12-26

Similar Documents

Publication Publication Date Title
CN202798798U (en) High availability system based on cloud computing technology
US8904055B2 (en) Switching control device and switching control method
JP5069732B2 (en) Computer device, computer system, adapter succession method
EP1901161A2 (en) Storage system and control method for the same
US20170315850A1 (en) Efficient data system error recovery
US10445295B1 (en) Task-based framework for synchronization of event handling between nodes in an active/active data storage system
CN102999587A (en) Arrangement for mirror database across different servers used for failover
US9049101B2 (en) Cluster monitor, method for monitoring a cluster, and computer-readable recording medium
US9141295B2 (en) Load balancing of data reads in storage environments
US6954825B2 (en) Disk subsystem
US7882389B2 (en) Dynamic reassignment of devices attached to redundant controllers
US7865766B2 (en) Providing increased availability of I/O drawers during concurrent I/O hub repair
CN112748856A (en) Method of managing disc, electronic device, and computer program product
JP2011034161A (en) Server system and management method for server system
US10552067B2 (en) Method and system for delivering message in storage system
JP7087719B2 (en) Computer system
US8549349B2 (en) Storage controller and storage control method
US10193752B2 (en) Storage system upgrade
JP6063576B2 (en) Server system, computer system, server system management method, and computer-readable storage medium
CN111158580B (en) Method and apparatus for image information management for fault tolerant disk arrays
JP2016143248A (en) Storage control device and storage control program
CN107329698B (en) Data protection method and storage device
JP3691316B2 (en) Apparatus and method for determining operation mode when abnormality is detected
JP2005157462A (en) System switching method and information processing system
JP4576455B2 (en) System, switching method, and management device program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210510

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220523

R151 Written notification of patent or utility model registration

Ref document number: 7087719

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151