JP7087719B2 - Computer system - Google Patents
Computer system Download PDFInfo
- Publication number
- JP7087719B2 JP7087719B2 JP2018119241A JP2018119241A JP7087719B2 JP 7087719 B2 JP7087719 B2 JP 7087719B2 JP 2018119241 A JP2018119241 A JP 2018119241A JP 2018119241 A JP2018119241 A JP 2018119241A JP 7087719 B2 JP7087719 B2 JP 7087719B2
- Authority
- JP
- Japan
- Prior art keywords
- configuration information
- mounting unit
- device mounting
- identification information
- slot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Hardware Redundancy (AREA)
Description
本発明は、コンピュータシステム、構成情報制御方法、およびプログラムに関する。 The present invention relates to computer systems, configuration information control methods, and programs.
コンピュータシステムの性能を高めるために、アクセラレータが使用されている。例えばサーバ装置では、1つのサーバ筐体内に複数枚のアクセラレータを搭載し、超高性能のコンピュータシステムを実現している。 Accelerators are used to improve the performance of computer systems. For example, in a server device, a plurality of accelerators are mounted in one server housing to realize an ultra-high performance computer system.
また本発明に関連する技術として、複数のアクセラレータを管理するプール管理サーバを備え、ホストコンピュータが利用するアクセラレータを柔軟に付け替えられるようにする技術が知られている(例えば特許文献1参照)。 Further, as a technique related to the present invention, there is known a technique provided with a pool management server that manages a plurality of accelerators so that the accelerators used by the host computer can be flexibly replaced (see, for example, Patent Document 1).
ところで、1つのサーバ装置内に1枚あるいは2枚以上のアクセラレータを搭載している場合、その中の1枚でも障害(故障)が発生すると、サーバ装置の性能が低下する。サーバ装置の性能を元に戻すためには、故障したアクセラレータを正常なアクセラレータに交換する必要がある。しかし、アクセラレータを交換するためには、正常動作している他のアクセラレータを含めたサーバ装置全体のプログラムの実行を停止させ、且つサーバ装置の電源をオフしてアクセラレータを交換しなければならない。そのため、アクセラレータに故障が発生したとき、その保守作業の期間(MTTR)はコンピュータシステムが利用できない。あるいは、故障したアクセラレータはその状態のままとし、正常動作しているアクセラレータのみで動作させ、性能は落ちるが可用性を重視した運用を行い、定期メンテナンスで、故障アクセラレータの交換を行うことがある。しかし、この方法では定期メンテナンスの時期までは性能がダウンした状態でコンピュータシステムを運用せざるを得ない。故障アクセラレータを活線交換できる場合、前述の交換手順と比較し、MTTRを短くすることは可能であるが、保守員が交換部品を準備し、現場に到着してアクセラレータを交換するまでの時間はMTTRとして必要不可欠である。 By the way, when one or two or more accelerators are mounted in one server device, if a failure (failure) occurs even in one of them, the performance of the server device deteriorates. In order to restore the performance of the server device, it is necessary to replace the failed accelerator with a normal accelerator. However, in order to replace the accelerator, it is necessary to stop the execution of the program of the entire server device including other accelerators operating normally, and turn off the power of the server device to replace the accelerator. Therefore, when a failure occurs in the accelerator, the computer system cannot be used during the maintenance work period (MTTR). Alternatively, the failed accelerator may be left in that state, operated only by the accelerator that is operating normally, the operation may be performed with an emphasis on availability although the performance may be reduced, and the failed accelerator may be replaced by regular maintenance. However, with this method, the computer system must be operated with its performance down until the time of regular maintenance. If the faulty accelerator can be replaced live, it is possible to shorten the MTTR compared to the replacement procedure described above, but the time required for maintenance personnel to prepare replacement parts, arrive at the site, and replace the accelerator is It is indispensable as MTTR.
他方、本発明に関連する技術を利用し、故障したアクセラレータをホストコンピュータから切り離し、待機中の他の正常なアクセラレータをホストコンピュータに接続することが考えられる。この方法によれば、故障したアクセラレータが接続されていたホストコンピュータの性能を維持することができる。しかしながら、特許文献1では、待機中の他の正常なアクセラレータには、故障したアクセラレータとは別の名前が付けられている。そのため、アクセラレータを管理および制御するソフトウェア(以下、管理ソフトウェアあるいは管理手段とも呼ぶ)からは別のアクセラレータが新たに接続されたように見えるため、障害発生前の状態と変わりなく運用することは困難であった。 On the other hand, it is conceivable to utilize the technique related to the present invention to disconnect the failed accelerator from the host computer and connect another normal standby accelerator to the host computer. According to this method, the performance of the host computer to which the failed accelerator is connected can be maintained. However, in Patent Document 1, the other normal accelerators on standby are given different names from the failed accelerators. Therefore, it is difficult to operate the accelerator as it was before the failure because it seems that another accelerator is newly connected to the software that manages and controls the accelerator (hereinafter, also referred to as management software or management means). there were.
以上のような課題は、アクセラレータに限らず、コンピュータシステムに何らかのデバイスが接続されている場合にも生じ得るものである。 The above-mentioned problems can occur not only in the accelerator but also when some device is connected to the computer system.
本発明の目的は、上述した課題、即ち障害発生前の状態と変わりなく運用することは困難である、という課題を解決するコンピュータシステムを提供することにある。 An object of the present invention is to provide a computer system that solves the above-mentioned problem, that is, the problem that it is difficult to operate in the same state as before the occurrence of a failure.
本発明の一形態に係るコンピュータシステムは、
プロセッサと、
前記プロセッサに外部インターフェースを介して接続された第1のデバイス搭載部および第2のデバイス搭載部と、を備え、
前記プロセッサは、
前記第1のデバイス搭載部の識別情報である第1のデバイス搭載部識別情報に対応付けて前記第1のデバイス搭載部に搭載されるデバイスに割り当てる識別情報である第1のデバイス識別情報を記憶し、前記第2のデバイス搭載部の識別情報である第2のデバイス搭載部識別情報に対応するデバイス識別情報は存在しない第1の構成情報と、前記第2のデバイス搭載部識別情報に対応付けて前記第1のデバイス識別情報を記憶し、前記第1のデバイス搭載部識別情報に対応するデバイス識別情報は存在しない第2の構成情報とを記憶する記憶手段と、
初期状態では前記第1の構成情報を運用に使用する運用構成情報として選択する選択手段と、
前記運用構成情報に基づいて前記第1のデバイス搭載部に搭載されたデバイスおよび前記第2のデバイス搭載部に搭載されたデバイスを管理する管理手段と、を備え、
前記選択手段は、前記第1のデバイス搭載部に搭載されたデバイスの障害検出時、前記第1のデバイス搭載部に搭載されたデバイスの代わりに前記第2のデバイス搭載部に搭載されたデバイスを使用するために前記第1の構成情報の代わりに前記第2の構成情報を前記運用構成情報として選択するように構成されている。
The computer system according to one embodiment of the present invention is
With the processor
A first device mounting unit and a second device mounting unit connected to the processor via an external interface are provided.
The processor
The first device identification information, which is the identification information assigned to the device mounted on the first device mounting unit, is stored in association with the first device mounting unit identification information, which is the identification information of the first device mounting unit. However, the device identification information corresponding to the second device mounting unit identification information, which is the identification information of the second device mounting unit, does not exist, and is associated with the first configuration information and the second device mounting unit identification information. A storage means for storing the first device identification information and a second configuration information in which the device identification information corresponding to the first device mounting portion identification information does not exist.
In the initial state, the selection means for selecting the first configuration information as the operation configuration information used for operation, and
A management means for managing a device mounted on the first device mounting unit and a device mounted on the second device mounting unit based on the operation configuration information is provided.
The selection means selects a device mounted on the second device mounting unit instead of the device mounted on the first device mounting unit when a failure of the device mounted on the first device mounting unit is detected. The second configuration information is configured to be selected as the operation configuration information in place of the first configuration information for use.
また、本発明の他の形態に係る構成情報制御方法は、
プロセッサと、
前記プロセッサに外部インターフェースを介して接続された第1のデバイス搭載部および第2のデバイス搭載部と、を備えたコンピュータシステムが実行する構成情報制御方法であって、
前記第1のデバイス搭載部の識別情報である第1のデバイス搭載部識別情報に対応付けて前記第1のデバイス搭載部に搭載されるデバイスに割り当てる識別情報である第1のデバイス識別情報を記憶し、前記第2のデバイス搭載部の識別情報である第2のデバイス搭載部識別情報に対応するデバイス識別情報は存在しない第1の構成情報と、前記第2のデバイス搭載部識別情報に対応付けて前記第1のデバイス識別情報を記憶し、前記第1のデバイス搭載部識別情報に対応するデバイス識別情報は存在しない第2の構成情報とを記憶し、
初期状態では前記第1の構成情報を運用に使用する運用構成情報として選択し、
前記運用構成情報に基づいて前記第1のデバイス搭載部に搭載されたデバイスおよび前記第2のデバイス搭載部に搭載されたデバイスを管理し、
前記第1のデバイス搭載部に搭載されたデバイスの障害検出時、前記第1のデバイス搭載部に搭載されたデバイスの代わりに前記第2のデバイス搭載部に搭載されたデバイスを使用するために前記第1の構成情報の代わりに前記第2の構成情報を前記運用構成情報として選択する。
Further, the configuration information control method according to another embodiment of the present invention is
With the processor
A configuration information control method executed by a computer system including a first device mounting unit and a second device mounting unit connected to the processor via an external interface.
The first device identification information, which is the identification information assigned to the device mounted on the first device mounting unit, is stored in association with the first device mounting unit identification information, which is the identification information of the first device mounting unit. However, the device identification information corresponding to the second device mounting unit identification information, which is the identification information of the second device mounting unit, does not exist, and is associated with the first configuration information and the second device mounting unit identification information. The first device identification information is stored, and the second configuration information in which the device identification information corresponding to the first device mounting portion identification information does not exist is stored.
In the initial state, the first configuration information is selected as the operation configuration information to be used for operation.
Based on the operation configuration information, the device mounted on the first device mounting unit and the device mounted on the second device mounting unit are managed.
In order to use the device mounted on the second device mounting unit instead of the device mounted on the first device mounting unit when the failure of the device mounted on the first device mounting unit is detected. The second configuration information is selected as the operation configuration information instead of the first configuration information.
また、本発明の他の形態に係るプログラムは、
プロセッサと、
前記プロセッサに外部インターフェースを介して接続された第1のデバイス搭載部および第2のデバイス搭載部と、を備えたコンピュータを、
前記第1のデバイス搭載部の識別情報である第1のデバイス搭載部識別情報に対応付けて前記第1のデバイス搭載部に搭載されるデバイスに割り当てる識別情報である第1のデバイス識別情報を記憶し、前記第2のデバイス搭載部の識別情報である第2のデバイス搭載部識別情報に対応するデバイス識別情報は存在しない第1の構成情報と、前記第2のデバイス搭載部識別情報に対応付けて前記第1のデバイス識別情報を記憶し、前記第1のデバイス搭載部識別情報に対応するデバイス識別情報は存在しない第2の構成情報とを記憶する記憶手段と、
初期状態では前記第1の構成情報を運用に使用する運用構成情報として選択する選択手段と、
前記運用構成情報に基づいて前記第1のデバイス搭載部に搭載されたデバイスおよび前記第2のデバイス搭載部に搭載されたデバイスを管理する管理手段と、して機能させ、
前記選択手段は、前記第1のデバイス搭載部に搭載されたデバイスの障害検出時、前記第1のデバイス搭載部に搭載されたデバイスの代わりに前記第2のデバイス搭載部に搭載されたデバイスを使用するために前記第1の構成情報の代わりに前記第2の構成情報を前記運用構成情報として選択するように構成されている。
Further, the program according to another embodiment of the present invention is
With the processor
A computer including a first device mounting unit and a second device mounting unit connected to the processor via an external interface.
The first device identification information, which is the identification information assigned to the device mounted on the first device mounting unit, is stored in association with the first device mounting unit identification information, which is the identification information of the first device mounting unit. However, the device identification information corresponding to the second device mounting unit identification information, which is the identification information of the second device mounting unit, does not exist, and is associated with the first configuration information and the second device mounting unit identification information. A storage means for storing the first device identification information and a second configuration information in which the device identification information corresponding to the first device mounting portion identification information does not exist.
In the initial state, the selection means for selecting the first configuration information as the operation configuration information used for operation, and
It functions as a management means for managing the device mounted on the first device mounting unit and the device mounted on the second device mounting unit based on the operation configuration information.
The selection means selects a device mounted on the second device mounting unit instead of the device mounted on the first device mounting unit when a failure of the device mounted on the first device mounting unit is detected. The second configuration information is configured to be selected as the operation configuration information in place of the first configuration information for use.
本発明は上述した構成を有することにより、障害発生前の状態と変わりなく運用することができる。 By having the above-mentioned configuration, the present invention can be operated in the same state as before the failure occurred.
次に本発明の実施の形態について図面を参照して詳細に説明する。
[第1の実施形態]
図1は、本発明の第1の実施形態に係るコンピュータシステムに備わる5つのスロットに搭載された5つのアクセラレータの状態の変化の一例を示す図である。図2は、本発明の第1の実施形態に係るコンピュータシステムの構成と通常時の動作の例を示す図である。図3は、本発明の第1の実施形態に係るコンピュータシステムにおいてアクセラレータの1つに障害が発生した際の動作の例を示す図である。以下、図1乃至図3を参照して本実施形態について説明する。
Next, embodiments of the present invention will be described in detail with reference to the drawings.
[First Embodiment]
FIG. 1 is a diagram showing an example of a change in the state of five accelerators mounted in five slots provided in the computer system according to the first embodiment of the present invention. FIG. 2 is a diagram showing an example of a configuration and normal operation of a computer system according to the first embodiment of the present invention. FIG. 3 is a diagram showing an example of operation when one of the accelerators fails in the computer system according to the first embodiment of the present invention. Hereinafter, the present embodiment will be described with reference to FIGS. 1 to 3.
先ず、図1(1)を参照すると、本実施形態に係るコンピュータシステムは、スロット(図ではSLOTと記載。以下同じ)6、スロット7、スロット8、スロット9、スロット10という5つのスロットを備えている。但し、本発明はスロットの数が5に限定されず、複数であればよい。各スロット6~10には、各スロットを一意に識別するための識別情報であるスロット番号#10、#20、#30、#40、#99が付与されている。
First, referring to FIG. 1 (1), the computer system according to the present embodiment includes five slots: slot (described as SLOT in the figure; the same applies hereinafter) 6, slot 7,
また、図1(1)を参照すると、通常状態では、スロット6にアクセラレータ1が搭載され、スロット7にアクセラレータ2が搭載され、スロット8にアクセラレータ3が搭載され、スロット9にアクセラレータ4が搭載され、スロット10にアクセラレータ5が搭載されている。アクセラレータ1~5は、例えば、GPU(Graphics Processing Unit)アクセラレータやFPGA(Field-Programmable Gate Array)アクセラレータなどである。ここで、通常状態では、スロット6~9に搭載されたアクセラレータ1~4が運用に使用され、スロット10に搭載されたアクセラレータ5は運用に使用されず、予備のアクセラレータとして待機している。予備のアクセラレータ5は、アクセラレータ1~4の代わりに使用するものであるため、アクセラレータ1~4と互換性のあるアクセラレータを使用する。また、運用に使用される各アクセラレータ1~4には、各アクセラレータを一意に識別するソフトウェアビジブルな識別情報であるID番号が付与されている。即ち、アクセラレータ1、2、3、4は、ID#01、ID#02、ID#03、ID#04というID番号が付与されている。他方、運用に使用しないアクセラレータ5には、ソフトウェアビジブルな識別情報は付与されていない。
Further, referring to FIG. 1 (1), in a normal state, the accelerator 1 is mounted in the
次に、図1(2)を参照すると、スロット7に搭載されたアクセラレータ2で障害が発生したときの状態が示されている。大きな×印が障害の発生を表している。この時点では、スロット10に搭載されているアクセラレータ5は未だ待機している。その結果、運用に供されるアクセラレータは、アクセラレータ1、3、4の3つであり、通常状態より1つ少ない。そのため、このままではコンピュータシステムの性能が低下することになる。
Next, referring to FIG. 1 (2), a state when a failure occurs in the accelerator 2 mounted in the slot 7 is shown. A large cross indicates the occurrence of a failure. At this point, the accelerator 5 mounted in the
そこで本実施形態では、運用に供しているアクセラレータ2に障害が発生した場合、図1(3)に示すように、障害に係るアクセラレータ2の代わりに、スロット10に搭載された予備のアクセラレータ5を運用に供する。その結果、運用に供されるアクセラレータは、通常状態と同じ4つになり、コンピュータシステムの性能の低下が防止される。また、図1(3)に示すように、アクセラレータ5を運用に供するにあたって、アクセラレータ5の識別情報として、障害に係るアクセラレータ2に付与されていた識別情報であるID#02と同一の識別情報を付与する。これによって、アクセラレータを利用するソフトウェアは、障害発生前の状態と変わりなく運用を行うことができる。
Therefore, in the present embodiment, when a failure occurs in the accelerator 2 used for operation, as shown in FIG. 1 (3), a spare accelerator 5 mounted in the
以上のように、本実施形態に係るコンピュータシステムは、1つのサーバ筐体内などに複数枚のアクセラレータを搭載し、超高性能のコンピュータシステムを実現している。そして、アクセラレータの予備(以降、待機アクセラレータと呼ぶことがある)を1枚以上搭載しておき、通常運用時は待機させ、通常運用で動作しているアクセラレータ(以降、運用アクセラレータと呼ぶことがある)で障害が発生した場合、その障害の発生した運用アクセラレータを切り離し、待機アクセラレータを通常運用向けに組み込む。そのために、以下で詳述するように、基本となるアクセラレータ構成を示す基本構成情報と、アクセラレータの故障パタンから、故障アクセラレータの切り離しと予備アクセラレータの組み込みで再構築するための構成情報を備えるようにしている。以下、本実施形態の構成について、図2を用いて説明する。 As described above, the computer system according to the present embodiment is equipped with a plurality of accelerators in one server housing or the like to realize an ultra-high performance computer system. Then, one or more spare accelerators (hereinafter sometimes referred to as standby accelerators) are installed, and the accelerators are made to stand by during normal operation and are operating in normal operation (hereinafter sometimes referred to as operation accelerators). ), The operation accelerator where the failure occurred is disconnected, and the standby accelerator is installed for normal operation. Therefore, as described in detail below, the basic configuration information showing the basic accelerator configuration and the configuration information for reconstructing by disconnecting the fault accelerator and incorporating the spare accelerator from the fault pattern of the accelerator are provided. ing. Hereinafter, the configuration of this embodiment will be described with reference to FIG.
<本実施形態の構成>
図2において、基本構成情報20は、基本となる複数枚のアクセラレータの構成を示す情報であり、アクセラレータを制御する管理ソフトウェアが、自身が管理するID番号(アクセラレータと1対1で結びつくソフトウェアビジブルな名称)と、アクセラレータの物理的な搭載位置などを結び付けた情報(スロット番号)から構成される。具体的には、基本構成情報20は、スロット6のスロット番号#10とスロット6に搭載するアクセラレータに付与するID番号#01との組、スロット7のスロット番号#20とスロット7に搭載するアクセラレータに付与するID番号#02との組、スロット8のスロット番号#30とスロット8に搭載するアクセラレータに付与するID番号#03との組、スロット9のスロット番号#40とスロット9に搭載するアクセラレータに付与するID番号#04との組を有し、スロット10のスロット番号#99とスロット10に搭載するアクセラレータに付与するID番号との組におけるID番号はNULL値になっている。即ち、基本構成情報20は、運用アクセラレータに付与するID番号を記載しているが、待機アクセラレータに付与するID番号は記載していない。
<Structure of this embodiment>
In FIG. 2, the
また図2において、スロット10障害構成情報21、スロット20障害構成情報22、スロット30障害構成情報23、スロット40障害構成情報24は、基本構成情報20と同様に、アクセラレータの識別情報であるID番号とスロットの識別情報であるスロット番号とを結びつけた情報である。しかし、スロット10障害構成情報21、スロット20障害構成情報22、スロット30障害構成情報23、スロット40障害構成情報24は、それぞれ対応するスロットに搭載されたアクセラレータで障害が発生した後に、待機アクセラレータを構成に組み込むための構成情報である点で、基本構成情報20とは相違する。
Further, in FIG. 2, the
具体的には、スロット10障害構成情報21は、スロット番号#10のスロット6に搭載されたアクセラレータで障害が発生した場合に、スロット10に搭載された待機アクセラレータを構成に組み込むための構成情報である。スロット10障害構成情報21は、スロット6に搭載された障害が発生したアクセラレータを切り離すためにスロット6のスロット番号#10とスロット6に搭載するアクセラレータに付与するID番号との組におけるID番号はNULL値になっており、また、スロット10に搭載された待機アクセラレータを障害が発生したアクセラレータの代わりに構成に組み込むためにスロット10のスロット番号#99とスロット10に搭載するアクセラレータに付与するID番号との組におけるID番号は、基本構成情報20において障害が発生したアクセラレータに付与していたID番号と同一のID番号#01になっている点で、基本構成情報20と相違し、それ以外は基本構成情報20と同一である。
Specifically, the
また、スロット20障害構成情報22は、スロット番号#20のスロット7に搭載されたアクセラレータで障害が発生した場合に、スロット10に搭載された待機アクセラレータを構成に組み込むための構成情報である。スロット20障害構成情報22は、スロット7に搭載された障害が発生したアクセラレータを切り離すためにスロット7のスロット番号#20とスロット7に搭載するアクセラレータに付与するID番号との組におけるID番号はNULL値になっており、また、スロット10に搭載された待機アクセラレータを障害が発生したアクセラレータの代わりに構成に組み込むためにスロット10のスロット番号#99とスロット10に搭載するアクセラレータに付与するID番号との組におけるID番号は、基本構成情報20において障害が発生したアクセラレータに付与していたID番号と同一のID番号#02になっている点で、基本構成情報20と相違し、それ以外は基本構成情報20と同一である。
Further, the
以下同様に、スロット30障害構成情報23は、スロット番号#30のスロット8に搭載されたアクセラレータで障害が発生した場合に、スロット10に搭載された待機アクセラレータを構成に組み込むための構成情報であり、スロット40障害構成情報24は、スロット番号#40のスロット9に搭載されたアクセラレータで障害が発生した場合に、スロット10に搭載された待機アクセラレータを構成に組み込むための構成情報である。
Similarly, the
以上の基本構成情報20、スロット10障害構成情報21、スロット20障害構成情報22、スロット30障害構成情報23、スロット40障害構成情報24は、コンピュータシステムの電源がオフされてもデータが消えない不揮発性メモリに記憶されている。
The above
また、図2の構成情報選択手段32は、基本構成情報20、スロット10障害構成情報21、スロット20障害構成情報22、スロット30障害構成情報23、スロット40障害構成情報24から、コンピュータシステムの運用で使用する運用構成情報25を選択するように構成されている。即ち、運用構成情報25は、稼働するコンピュータシステムが使用している構成情報であり、前述した基本構成情報20、スロット10障害構成情報21、スロット20障害構成情報22、スロット30障害構成情報23、スロット40障害構成情報24の中から、構成情報選択手段32によって選択された構成情報である。
Further, the configuration information selection means 32 of FIG. 2 operates a computer system from the
また、図2の障害スロット判別手段31は、構成情報選択手段32に対して選択すべき構成情報を通知するように構成されている。障害スロット判別手段31は、初期状態では、基本構成情報20を選択すべき構成情報として構成情報選択手段32に通知するように構成されている。また、障害スロット判別手段31は、アクセラレータを制御する管理ソフトウェアから障害の発生したアクセラレータのID番号を通知する情報である障害ID情報30を受信すると、障害ID情報30と現在の運用構成情報25を元に、次の構成情報の指示を構成情報選択手段32に通知するように構成されている。具体的には、先ず、障害スロット判別手段31は、障害ID情報30から障害の発生したアクセラレータのID番号を認識する。次に障害スロット判別手段31は、認識したID番号のアクセラレータを搭載しているスロットのスロット番号を現在の運用構成情報25から決定する。次に障害スロット判別手段31は、決定したスロット番号で障害が発生した場合に使用する構成情報を選択すべき構成情報として構成情報選択手段32に対して通知する。
Further, the failure slot determining means 31 of FIG. 2 is configured to notify the configuration information selection means 32 of the configuration information to be selected. In the initial state, the failure slot determining means 31 is configured to notify the configuration information selection means 32 of the
上述した障害スロット判別手段31および構成情報選択手段32は、ハードウェアで実現する以外にコンピュータとプログラムで実現することができる。プログラムは、コンピュータ読み取り可能な記録媒体に記録されて提供され、コンピュータに読み込まれ、コンピュータの動作を制御することにより、コンピュータ上に障害スロット判別手段31および構成情報選択手段32を実現する。 The failure slot determination means 31 and the configuration information selection means 32 described above can be realized by a computer and a program in addition to being realized by hardware. The program is recorded and provided on a computer-readable recording medium, read by the computer, and controls the operation of the computer to realize the failure slot determination means 31 and the configuration information selection means 32 on the computer.
<本実施形態の動作の説明>
次に本実施形態の動作を説明する。ここでは、図1に示すように、通常運用しているアクセラレータが4つ、待機アクセラレータが1つの構成を備えるコンピュータシステムにおいて、スロット7に搭載されたID番号#02のアクセラレータ2で障害が発生し、待機アクセラレータであるスロット10に搭載されたアクセラレータ5が組み込まれる動作を例として説明する。
<Explanation of operation of this embodiment>
Next, the operation of this embodiment will be described. Here, as shown in FIG. 1, in a computer system having a configuration of four accelerators in normal operation and one standby accelerator, a failure occurs in accelerator 2 of
また、障害の発生したアクセラレータの切り離しと待機アクセラレータの組み込みは、電源オフ→電源オンを契機に実施する動作例とする。但し、障害の発生したアクセラレータの切り離しと待機アクセラレータの組み込みは、電源オフ→電源オンを契機にする場合に限定されない。例えば障害の発生したアクセラレータの切り離しと待機アクセラレータの組み込みは、コンピュータシステムの再起動を契機に実施してもよい。 In addition, disconnection of the accelerator in which a failure has occurred and incorporation of the standby accelerator are examples of operations in which the power is turned off and then turned on. However, the disconnection of the accelerator in which the failure has occurred and the incorporation of the standby accelerator are not limited to the case where the power is turned off and then the power is turned on. For example, the disconnection of the accelerator in which a failure has occurred and the incorporation of the standby accelerator may be carried out when the computer system is restarted.
図1の(1)に示すように、運用アクセラレータ1が正常に稼働している時、障害スロット判別手段31は、基本構成情報20を選択する指示を構成情報選択手段32に通知している。これにより、図2に示すように、運用構成情報25は基本構成情報20が選択され、その内容に従ったスロット番号とID番号の対応で運用する。即ち、アクセラレータを管理する管理ソフトウェアは、例えば、ID番号が#02のアクセラレータ2へデータを出力するなどのアクセスを行う場合、運用構成情報25を参照してID番号が#02のアクセラレータ2はスロット番号#20のスロット7に搭載されていることを認識し、スロット7を通じてアクセラレータ2へデータを出力するなどのアクセスを行う。
As shown in FIG. 1 (1), when the operation accelerator 1 is operating normally, the failure slot determination means 31 notifies the configuration information selection means 32 of an instruction to select the
次に、ID番号#02のアクセラレータ2で障害が発生し、構成情報の入れ替えを行うまでの動作について図を用いて説明する。
Next, the operation until the failure occurs in the accelerator 2 of the
図1の(2)に示すように、ID番号#02のアクセラレータ2で障害が発生した際、 アクセラレータを管理する管理ソフトウェアは障害スロット判別手段31に対し、障害が発生したアクセラレータのID(今回はID=#02)を障害ID情報30として通知する。通知を受けた障害スロット判別手段31は、障害ID情報30と運用構成情報25から障害の発生したアクセラレータ2が搭載されているスロットのスロット番号を導き出す。ID番号#02のアクセラレータ2が切り離し対象になるので、障害スロット判別手段31は、現在の構成情報(図2に示す運用構成情報25)からID番号#02のアクセラレータはスロット番号#20のスロット7に搭載されたアクセラレータであることを認識する。障害スロット判別手段31は、スロット番号を認識後、次の新しい構成情報となるスロット20障害構成情報22を選択するよう構成情報選択手段32に通知する。これにより、図3に示すように、運用構成情報25の内容が、基本構成情報20からスロット20障害構成情報22に入れ替わる。
As shown in (2) of FIG. 1, when a failure occurs in the accelerator 2 having the
この後、コンピュータシステムの電源をオフし、その後に再びコンピュータシステムの電源をオンする。すると、管理ソフトウェアは、新しい運用構成情報25(すでにスロット20障害構成情報の内容に入れ替わっている)の内容から、各スロットに搭載されたアクセラレータにID番号を付与する。このとき運用構成情報25の内容(スロット20障害構成情報22と同じ内容)は、直前に障害の発生したスロット番号#20のスロット7に搭載されたアクセラレータ2に対してID番号を割り当てず、スロット番号#99のスロット10に搭載された待機アクセラレータ5にID番号#02のID番号を割り当て、また障害の発生していないスロット番号#10、スロット番号#30、スロット番号#40の各スロットに搭載されたアクセラレータ1、3、4に割り当てるID番号は以前と変わりない構成を記している。これにより、スロット番号#20のスロット7に搭載された障害アクセラレータ2が切り離され、スロット番号#99のスロット10に搭載された待機アクセラレータ5にID番号#02が割り当てられ、運用アクセラレータとして組み込まれる。この状態は管理ソフトウェアから見た場合、図1の(3)に示すように、ID番号#01からID番号#03の4つのアクセラレータが揃っているため、障害発生前の状態と変わりなく見える。
After this, the computer system is turned off, and then the computer system is turned on again. Then, the management software assigns an ID number to the accelerator mounted in each slot from the contents of the new operation configuration information 25 (already replaced with the contents of the
このように、障害の発生したスロット位置のアクセラレータにはID番号を割り当てないことで論理的に切り離す(管理ソフトウェアから見えない状態にする)ことができ、同時に予備搭載していた待機アクセラレータを通常運用アクセラレータとして組み込み、ID番号を割り当てることができることから、管理ソフトウェア見えには障害発生前の状態と変わりなく運用が可能である。 In this way, the accelerator at the slot position where the failure occurred can be logically separated (made invisible to the management software) by not assigning an ID number, and at the same time, the standby accelerator that was pre-installed is normally operated. Since it can be incorporated as an accelerator and an ID number can be assigned, the management software can be operated in the same state as before the failure.
なお、障害アクセラレータの切り離しと、待機アクセラレータの組込みは、PCIe仕様で定義されるHotPlug方式など周知の技術を採用するなど、切り離しや組み込み処理の契機は然るべき手段で実施すればよい。 It should be noted that the disconnection of the fault accelerator and the incorporation of the standby accelerator may be carried out by appropriate means, such as by adopting a well-known technique such as the HotPlug method defined in the PCIe specification.
本例では予備(待機)アクセラレータが1つの構成を例にしたが、複数枚の予備アクセラレータを搭載し、通常運用アクセラレータの障害パタンと予備アクセラレータとの入れ替え構成を、新たな構成情報として複数装備しても構わない。 In this example, a configuration with one spare (standby) accelerator is taken as an example, but multiple spare accelerators are installed, and multiple configurations for replacing the failure pattern of the normal operation accelerator and the spare accelerator are provided as new configuration information. It doesn't matter.
<本実施形態の効果>
このように本実施形態によれば、以下のような効果が得られる。
<Effect of this embodiment>
As described above, according to the present embodiment, the following effects can be obtained.
1つのサーバ筐体内にPCIe等で接続した複数枚のアクセラレータを搭載するコンピュータシステムにおいて、アクセラレータの管理ソフトウェアが利用するIDと、アクセラレータの物理的な搭載位置などを結び付けたアクセラレータ構成情報を複数装備していて、それらの構成情報は基本となるアクセラレータ構成を示す構成情報と、運用しているアクセラレータの故障パタンから故障したアクセラレータの切り離しと予備アクセラレータの組み込みを定義した構成情報である。そのため、運用中のアクセラレータで障害が発生した場合、その障害の発生した故障アクセラレータを切り離し、予備のアクセラレータを通常運用向けとして組み込むことが可能になり、障害のたびに保守作業(システム停止)時間を採る必要がなくなり、MTTRを極小化できる。 In a computer system equipped with multiple accelerators connected by PCIe etc. in one server chassis, it is equipped with multiple accelerator configuration information that links the ID used by the accelerator management software and the physical mounting position of the accelerator. The configuration information is the configuration information indicating the basic accelerator configuration and the configuration information defining the disconnection of the failed accelerator from the failure pattern of the operating accelerator and the incorporation of the spare accelerator. Therefore, if a failure occurs in an accelerator in operation, it is possible to disconnect the failed accelerator in which the failure occurred and incorporate a spare accelerator for normal operation, and maintenance work (system stop) time is required for each failure. There is no need to take it, and MTTR can be minimized.
また、運用中のアクセラレータで障害が発生した場合、その障害の発生した故障アクセラレータを切り離し、予備のアクセラレータを通常運用向けとして組み込みができるため、アクセラレータが故障する前の性能を保ちつつ、可用性の高いシステムを構築できる。 In addition, if a failure occurs in an accelerator in operation, the failed accelerator that has failed can be disconnected and a spare accelerator can be installed for normal operation, so the performance before the accelerator fails is maintained and the availability is high. You can build a system.
[第2の実施形態]
次に、本発明の第2の実施形態について説明する。
[Second Embodiment]
Next, a second embodiment of the present invention will be described.
図4は、本発明の第2の実施形態に係るコンピュータシステムの構成とアクセラレータ交換時の動作の例を示す図である。図4を参照すると、本実施形態は、障害スロット判別手段31に交換スロット情報40がさらに入力されている点で第1の実施形態と相違し、それ以外は第1の実施形態と同じである。
FIG. 4 is a diagram showing an example of the configuration of the computer system and the operation at the time of accelerator replacement according to the second embodiment of the present invention. Referring to FIG. 4, the present embodiment is different from the first embodiment in that the
障害スロット判別手段31は、アクセラレータの交換が行われたスロットのスロット番号を通知する情報である交換スロット情報40を受信すると、基本構成情報20を選択すべき構成情報として構成情報選択手段32に通知するように構成されている点で、第1の実施形態における障害スロット判別手段31と相違し、それ以外は第1の実施形態における障害スロット判別手段31と同じである。
When the failure slot determination means 31 receives the
第1の実施形態で説明したようにスロット7に搭載されたアクセラレータ2で障害が発生したためにスロット10に搭載された予備アクセラレータ5が通常運用アクセラレータ(そのID番号は#02)として稼働している場合、運用構成情報25はスロット20障害構成情報22の内容と同一になっている。このような状態で運用されているときに、保守員がスロット7に搭載された障害に係るアクセラレータ2を正常なアクセラレータに交換し、図示しない入力装置などからスロット番号#20を表す交換スロット情報40が障害スロット判別手段31に入力したとする。すると、この交換スロット情報40の通知を受けた障害スロット判別手段31は、運用構成情報25を基本構成情報20に切り替えるよう構成情報選択手段32に指示する。
As described in the first embodiment, the spare accelerator 5 mounted in the
これにより、運用構成情報25の内容は基本構成情報20が適用される。その結果、スロット7に搭載したアクセラレータにID番号#02が割り当てられて、通常運用アクセラレータとなる。また、スロット番号#99のスロット10に搭載されたアクセラレータは再び予備アクセラレータに移行し、待機状態となる。
As a result, the
なお、本例におけるアクセラレータの交換は活線交換、未通電状態での交換など然るべき方法で実施すればよい。 The accelerator in this example may be replaced by an appropriate method such as hot-line replacement or replacement in a non-energized state.
[第3の実施形態]
次に本発明の第3の実施形態について説明する。
[Third Embodiment]
Next, a third embodiment of the present invention will be described.
図5は、本発明の第3の実施形態に係るコンピュータシステムのブロック図である。図5を参照すると、本実施形態に係るコンピュータシステム100は、プロセッサ110と、このプロセッサ110に外部インターフェースを介して接続されたデバイス搭載部120およびデバイス搭載部130とを備えている。コンピュータシステム100は、例えば1台のサーバ装置であってよい。但し、コンピュータシステム100は、1台のサーバ装置に限定されず、1台以上の情報処理装置であってもよい。また、デバイス搭載部120は、デバイス121を搭載するように構成されている。また、デバイス搭載部130は、デバイス121と互換性のあるデバイス131を搭載するように構成されている。デバイス121、131は、アクセラレータであってよい。但し、デバイス121、131は、アクセラレータに限定されず、任意のデバイスであってよい。また、外部インターフェースは、PCIe(PCI Express)(登録商標)であってよい。但し、外部インターフェースは、PCIeに限定されず、PCIなどであってもよい。
FIG. 5 is a block diagram of a computer system according to a third embodiment of the present invention. Referring to FIG. 5, the computer system 100 according to the present embodiment includes a
プロセッサ110は、記憶手段111と、選択手段112と、管理手段113とを備えている。
The
記憶手段111は、複数の構成情報を記憶するように構成されている。記憶手段111は、コンピュータシステム100の電源がオフされても記憶情報が消失されないように構成されている。記憶手段111は、第1の構成情報141と第2の構成情報142との少なくとも2つの構成情報を記憶するように構成されている。
The storage means 111 is configured to store a plurality of configuration information. The storage means 111 is configured so that the stored information is not lost even when the power of the computer system 100 is turned off. The storage means 111 is configured to store at least two configuration information, that is, the
図6は第1の構成情報141と第2の構成情報142の例を示す図である。図6を参照すると、第1の構成情報141は、デバイス搭載部120の識別情報である第1のデバイス搭載部識別情報に対応付けてデバイス搭載部120に搭載されるデバイス121に割り当てる識別情報である第1のデバイス識別情報を記憶し、デバイス搭載部130の識別情報である第2のデバイス搭載部識別情報に対応するデバイス識別情報は記憶していない。また、第2の構成情報142は、デバイス搭載部130の識別情報である第2のデバイス搭載部識別情報に対応付けてデバイス搭載部130に搭載されるデバイス131に割り当てる識別情報として第1のデバイス識別情報を記憶し、デバイス搭載部120の識別情報である第1のデバイス搭載部識別情報に対応するデバイス識別情報は記憶していない。
FIG. 6 is a diagram showing an example of the
選択手段112は、記憶手段111に記憶された複数の構成情報の中から運用に使用する1つの構成情報を選択するように構成されている。選択手段112は、初期状態では第1の構成情報141を運用に使用する運用構成情報として選択するように構成されている。また、選択手段112は、デバイス搭載部120に搭載されたデバイス121の障害検出時、デバイス搭載部120に搭載されたデバイス121の代わりにデバイス搭載部130に搭載されたデバイス131を使用するために第1の構成情報141の代わりに第2の構成情報142を運用構成情報として選択するように構成されている。
The selection means 112 is configured to select one configuration information to be used for operation from a plurality of configuration information stored in the storage means 111. In the initial state, the selection means 112 is configured to select the
管理手段113は、運用構成情報に基づいてデバイス搭載部120に搭載されたデバイス121およびデバイス搭載部130に搭載されたデバイス131を管理するように構成されている。
The management means 113 is configured to manage the
上述した記憶手段111、選択手段112、および管理手段113は、ハードウェアで実現する以外にコンピュータとプログラムで実現することができる。プログラムは、コンピュータ読み取り可能な記録媒体に記録されて提供され、コンピュータに読み込まれ、コンピュータの動作を制御することにより、コンピュータ上に記憶手段111、選択手段112、および管理手段113を実現する。 The storage means 111, the selection means 112, and the management means 113 described above can be realized by a computer and a program in addition to being realized by hardware. The program is recorded and provided on a computer-readable recording medium, read into the computer, and controls the operation of the computer to realize the storage means 111, the selection means 112, and the management means 113 on the computer.
このように構成された本実施形態に係るコンピュータシステム100は、以下のように動作する。すなわち、初期状態では、選択手段112は、第1の構成情報141を運用に使用する運用構成情報として選択し、管理手段113は、その運用構成情報(第1の構成情報141)に基づいてデバイス搭載部120に搭載されたデバイス121および第2のデバイス搭載部130に搭載されたデバイス131を管理する。例えば、管理手段113は、運用構成情報(第1の構成情報141)に基づいて、デバイス搭載部120に搭載されているデバイス121に第1のデバイス識別情報を割り当ててデバイスの運用を行う。また管理手段113は、運用に供されているデバイス121に障害が発生したか否かを監視する。他方、管理手段113は、運用構成情報(第1の構成情報141)に基づいて、デバイス搭載部130に搭載されているデバイス131にはデバイス識別情報を割り当てない。デバイス識別情報が割り当てられないデバイス131は、コンピュータシステム100から論理的に切り離されたデバイスとして扱われる。
The computer system 100 according to the present embodiment configured in this way operates as follows. That is, in the initial state, the selection means 112 selects the
その後、デバイス搭載部113に搭載されたデバイス121に障害が発生したとする。すると、選択手段112は、デバイス搭載部120に搭載されたデバイス121の代わりにデバイス搭載部130に搭載されたデバイス131を使用するために第1の構成情報141の代わりに第2の構成情報142を運用構成情報として選択する。そのため、管理手段113は、コンピュータシステム100が再起動されると、新たな運用構成情報(第2の構成情報142)に基づいてデバイス搭載部120に搭載されたデバイス121および第2のデバイス搭載部130に搭載されたデバイス131を管理する。例えば、管理手段113は、運用構成情報(第1の構成情報142)に基づいて、デバイス搭載部130に搭載されているデバイス131に第1のデバイス識別情報を割り当ててデバイスの運用を行う。他方、管理手段113は、運用構成情報(第1の構成情報142)に基づいて、デバイス搭載部120に搭載されているデバイス121にはデバイス識別情報を割り当てない。デバイス識別情報が割り当てられないデバイス121は、コンピュータシステム100から論理的に切り離されたデバイスとして扱われる。
After that, it is assumed that a failure occurs in the
以上のように構成され動作することにより、本実施形態に係るコンピュータシステム100は、障害発生前の状態と変わりなく運用することができる。その理由は、デバイス121に障害が発生すると、選択手段112が第2の構成情報142を運用構成情報として選択し、管理手段113がこの新たな運用構成情報(第2の構成情報142)に基づいてデバイス搭載部120に搭載されたデバイス121および第2のデバイス搭載部130に搭載されたデバイス131を管理するためである。すなわち、管理手段113は、運用構成情報(第1の構成情報142)に基づいて、デバイス131にデバイス121に割り当てていた識別情報と同じ第1のデバイス識別情報を割り当ててデバイス131の運用を行い、デバイス121は、コンピュータシステム100から論理的に切り離すためである。
By being configured and operating as described above, the computer system 100 according to the present embodiment can be operated in the same state as before the failure occurred. The reason is that when a failure occurs in the
以上、上記各実施形態を参照して本発明を説明したが、本発明は、上述した実施形態に限定されるものではない。本発明の構成や詳細には、本発明の範囲内で当業者が理解しうる様々な変更をすることができる。 Although the present invention has been described above with reference to each of the above embodiments, the present invention is not limited to the above-described embodiments. Various modifications that can be understood by those skilled in the art can be made to the structure and details of the present invention within the scope of the present invention.
本発明の活用例として、複数のコンピュータやアクセラレータなどで構成する計算機システムの構成制御・管理に活用が可能である。 As an example of utilization of the present invention, it can be utilized for configuration control and management of a computer system composed of a plurality of computers, accelerators, and the like.
1…アクセラレータ
2…アクセラレータ
3…アクセラレータ
4…アクセラレータ
5…アクセラレータ
6…スロット
7…スロット
8…スロット
9…スロット
10…スロット
20…基本構成情報
21…スロット10障害構成情報
22…スロット20障害構成情報
23…スロット30障害構成情報
24…スロット40障害構成情報
25…運用構成情報
30…障害ID情報
31…障害スロット判別手段
32…構成情報選択手段
40…交換スロット情報
100…コンピュータシステム
110…プロセッサ
111…記憶手段
112…選択手段
113…管理手段
120…デバイス搭載部
121…デバイス
130…デバイス搭載部
131…デバイス
141…第1の構成情報
142…第2の構成情報
1 ... Accelerator 2 ... Accelerator 3 ... Accelerator 4 ... Accelerator 5 ...
Claims (7)
前記プロセッサに外部インターフェースを介して接続された第1のデバイス搭載部および第2のデバイス搭載部と、を備え、
前記プロセッサは、
前記第1のデバイス搭載部の識別情報である第1のデバイス搭載部識別情報に対応付けて前記第1のデバイス搭載部に搭載されるデバイスに割り当てる識別情報である第1のデバイス識別情報が存在し、前記第2のデバイス搭載部の識別情報である第2のデバイス搭載部識別情報に対応するデバイス識別情報は存在しない第1の構成情報と、前記第2のデバイス搭載部識別情報に対応付けて前記第1のデバイス識別情報が存在し、前記第1のデバイス搭載部識別情報に対応するデバイス識別情報は存在しない第2の構成情報とを記憶する記憶手段と、
初期状態では前記第1の構成情報を運用に使用する運用構成情報として選択する選択手段と、
前記運用構成情報に基づいて前記第1のデバイス搭載部に搭載されたデバイスおよび前記第2のデバイス搭載部に搭載されたデバイスを管理する管理手段と、を備え、
前記選択手段は、前記第1のデバイス搭載部に搭載されたデバイスの障害検出時、前記第1のデバイス搭載部に搭載されたデバイスの代わりに前記第2のデバイス搭載部に搭載されたデバイスを使用するために前記第1の構成情報の代わりに前記第2の構成情報を前記運用構成情報として選択するように構成されている
コンピュータシステム。 With the processor
A first device mounting unit and a second device mounting unit connected to the processor via an external interface are provided.
The processor
There is a first device identification information which is identification information assigned to a device mounted on the first device mounting unit in association with the first device mounting unit identification information which is the identification information of the first device mounting unit. However, the device identification information corresponding to the second device mounting unit identification information, which is the identification information of the second device mounting unit, does not exist, and is associated with the first configuration information and the second device mounting unit identification information. A storage means for storing the second configuration information in which the first device identification information exists and the device identification information corresponding to the first device mounting portion identification information does not exist.
In the initial state, the selection means for selecting the first configuration information as the operation configuration information used for operation, and
A management means for managing a device mounted on the first device mounting unit and a device mounted on the second device mounting unit based on the operation configuration information is provided.
When the failure detection of the device mounted on the first device mounting unit is detected, the selection means selects the device mounted on the second device mounting unit instead of the device mounted on the first device mounting unit. A computer system configured to select the second configuration information as the operational configuration information in place of the first configuration information for use.
請求項1に記載のコンピュータシステム。 The computer system according to claim 1, wherein the selection means is configured to select the first configuration information as the operation configuration information when the device mounted on the first device mounting portion is replaced.
前記第1のデバイス搭載部に搭載されたデバイスの障害の有無に応じて前記運用構成情報として選択すべきものを前記構成情報選択手段に対して通知する障害スロット判別手段とを含んで構成される
請求項1または2に記載のコンピュータシステム。 The selection means includes a configuration information selection means that selects a designated one of the first configuration information and the second configuration information as the operation configuration information.
A claim including a failure slot determining means for notifying the configuration information selection means of what should be selected as the operation configuration information according to the presence or absence of a failure of the device mounted on the first device mounting unit. Item 2. The computer system according to item 1 or 2.
請求項1乃至3の何れかに記載のコンピュータシステム。 The computer system according to any one of claims 1 to 3, wherein the device is an accelerator.
請求項1乃至4の何れかに記載のコンピュータシステム。 The computer system according to any one of claims 1 to 4, wherein the management means is configured to perform the management when the power of the computer system is turned on or restarted.
前記プロセッサに外部インターフェースを介して接続された第1のデバイス搭載部および第2のデバイス搭載部と、を備えたコンピュータシステムが実行する構成情報制御方法であって、
前記第1のデバイス搭載部の識別情報である第1のデバイス搭載部識別情報に対応付けて前記第1のデバイス搭載部に搭載されるデバイスに割り当てる識別情報である第1のデバイス識別情報が存在し、前記第2のデバイス搭載部の識別情報である第2のデバイス搭載部識別情報に対応するデバイス識別情報は存在しない第1の構成情報と、前記第2のデバイス搭載部識別情報に対応付けて前記第1のデバイス識別情報が存在し、前記第1のデバイス搭載部識別情報に対応するデバイス識別情報は存在しない第2の構成情報とを記憶し、
初期状態では前記第1の構成情報を運用に使用する運用構成情報として選択し、
前記運用構成情報に基づいて前記第1のデバイス搭載部に搭載されたデバイスおよび前記第2のデバイス搭載部に搭載されたデバイスを管理し、
前記第1のデバイス搭載部に搭載されたデバイスの障害検出時、前記第1のデバイス搭載部に搭載されたデバイスの代わりに前記第2のデバイス搭載部に搭載されたデバイスを使用するために前記第1の構成情報の代わりに前記第2の構成情報を前記運用構成情報として選択する
構成情報制御方法。 With the processor
A configuration information control method executed by a computer system including a first device mounting unit and a second device mounting unit connected to the processor via an external interface.
There is a first device identification information which is identification information assigned to a device mounted on the first device mounting unit in association with the first device mounting unit identification information which is the identification information of the first device mounting unit. However, the device identification information corresponding to the second device mounting unit identification information, which is the identification information of the second device mounting unit, does not exist, and is associated with the first configuration information and the second device mounting unit identification information. The second configuration information is stored so that the first device identification information exists and the device identification information corresponding to the first device mounting portion identification information does not exist.
In the initial state, the first configuration information is selected as the operation configuration information to be used for operation.
Based on the operation configuration information, the device mounted on the first device mounting unit and the device mounted on the second device mounting unit are managed.
In order to use the device mounted on the second device mounting unit instead of the device mounted on the first device mounting unit when the failure of the device mounted on the first device mounting unit is detected. A configuration information control method for selecting the second configuration information as the operation configuration information instead of the first configuration information.
前記プロセッサに外部インターフェースを介して接続された第1のデバイス搭載部および第2のデバイス搭載部と、を備えたコンピュータを、
前記第1のデバイス搭載部の識別情報である第1のデバイス搭載部識別情報に対応付けて前記第1のデバイス搭載部に搭載されるデバイスに割り当てる識別情報である第1のデバイス識別情報が存在し、前記第2のデバイス搭載部の識別情報である第2のデバイス搭載部識別情報に対応するデバイス識別情報は存在しない第1の構成情報と、前記第2のデバイス搭載部識別情報に対応付けて前記第1のデバイス識別情報が存在し、前記第1のデバイス搭載部識別情報に対応するデバイス識別情報は存在しない第2の構成情報とを記憶する記憶手段と、
初期状態では前記第1の構成情報を運用に使用する運用構成情報として選択する選択手段と、
前記運用構成情報に基づいて前記第1のデバイス搭載部に搭載されたデバイスおよび前記第2のデバイス搭載部に搭載されたデバイスを管理する管理手段と、して機能させ、
前記選択手段は、前記第1のデバイス搭載部に搭載されたデバイスの障害検出時、前記第1のデバイス搭載部に搭載されたデバイスの代わりに前記第2のデバイス搭載部に搭載されたデバイスを使用するために前記第1の構成情報の代わりに前記第2の構成情報を前記運用構成情報として選択するように構成されている
プログラム。 With the processor
A computer including a first device mounting unit and a second device mounting unit connected to the processor via an external interface.
There is a first device identification information which is identification information assigned to a device mounted on the first device mounting unit in association with the first device mounting unit identification information which is the identification information of the first device mounting unit. However, the device identification information corresponding to the second device mounting unit identification information, which is the identification information of the second device mounting unit, does not exist, and is associated with the first configuration information and the second device mounting unit identification information. A storage means for storing the second configuration information in which the first device identification information exists and the device identification information corresponding to the first device mounting portion identification information does not exist.
In the initial state, the selection means for selecting the first configuration information as the operation configuration information used for operation, and
It functions as a management means for managing the device mounted on the first device mounting unit and the device mounted on the second device mounting unit based on the operation configuration information.
When the failure detection of the device mounted on the first device mounting unit is detected, the selection means selects the device mounted on the second device mounting unit instead of the device mounted on the first device mounting unit. A program configured to select the second configuration information as the operational configuration information in place of the first configuration information for use.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018119241A JP7087719B2 (en) | 2018-06-22 | 2018-06-22 | Computer system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018119241A JP7087719B2 (en) | 2018-06-22 | 2018-06-22 | Computer system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019220107A JP2019220107A (en) | 2019-12-26 |
JP7087719B2 true JP7087719B2 (en) | 2022-06-21 |
Family
ID=69096751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018119241A Active JP7087719B2 (en) | 2018-06-22 | 2018-06-22 | Computer system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7087719B2 (en) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002215473A (en) | 2001-01-23 | 2002-08-02 | Mitsubishi Electric Corp | Information processor and multiplex system |
US20060198314A1 (en) | 2005-03-03 | 2006-09-07 | Nec Corporation | Processing device, failure recovery method therefor, and failure restoration method |
US20090204743A1 (en) | 2008-02-08 | 2009-08-13 | Tetsuya Inoue | Storage subsystem and control method therefof |
JP2013097553A (en) | 2011-10-31 | 2013-05-20 | Fujitsu Ltd | Switching control device, switching control method, information processor and switching control program |
WO2015189877A1 (en) | 2014-06-13 | 2015-12-17 | 三菱電機株式会社 | Vehicle-mounted control hub device |
US20160019070A1 (en) | 2010-12-29 | 2016-01-21 | Huawei Technologies Co., Ltd. | Method for configuring storage system connection, device and storage system |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3448197B2 (en) * | 1997-03-10 | 2003-09-16 | 富士通株式会社 | Information processing device |
-
2018
- 2018-06-22 JP JP2018119241A patent/JP7087719B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002215473A (en) | 2001-01-23 | 2002-08-02 | Mitsubishi Electric Corp | Information processor and multiplex system |
US20060198314A1 (en) | 2005-03-03 | 2006-09-07 | Nec Corporation | Processing device, failure recovery method therefor, and failure restoration method |
JP2006277724A (en) | 2005-03-03 | 2006-10-12 | Nec Corp | Processing device, failure recovery method therefor, and failure restoration method |
US20090204743A1 (en) | 2008-02-08 | 2009-08-13 | Tetsuya Inoue | Storage subsystem and control method therefof |
JP2009187483A (en) | 2008-02-08 | 2009-08-20 | Hitachi Ltd | Storage subsystem and control method thereof |
US20160019070A1 (en) | 2010-12-29 | 2016-01-21 | Huawei Technologies Co., Ltd. | Method for configuring storage system connection, device and storage system |
JP2013097553A (en) | 2011-10-31 | 2013-05-20 | Fujitsu Ltd | Switching control device, switching control method, information processor and switching control program |
WO2015189877A1 (en) | 2014-06-13 | 2015-12-17 | 三菱電機株式会社 | Vehicle-mounted control hub device |
Also Published As
Publication number | Publication date |
---|---|
JP2019220107A (en) | 2019-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN202798798U (en) | High availability system based on cloud computing technology | |
US8904055B2 (en) | Switching control device and switching control method | |
JP5069732B2 (en) | Computer device, computer system, adapter succession method | |
EP1901161A2 (en) | Storage system and control method for the same | |
US20170315850A1 (en) | Efficient data system error recovery | |
US10445295B1 (en) | Task-based framework for synchronization of event handling between nodes in an active/active data storage system | |
CN102999587A (en) | Arrangement for mirror database across different servers used for failover | |
US9049101B2 (en) | Cluster monitor, method for monitoring a cluster, and computer-readable recording medium | |
US9141295B2 (en) | Load balancing of data reads in storage environments | |
US6954825B2 (en) | Disk subsystem | |
US7882389B2 (en) | Dynamic reassignment of devices attached to redundant controllers | |
US7865766B2 (en) | Providing increased availability of I/O drawers during concurrent I/O hub repair | |
CN112748856A (en) | Method of managing disc, electronic device, and computer program product | |
JP2011034161A (en) | Server system and management method for server system | |
US10552067B2 (en) | Method and system for delivering message in storage system | |
JP7087719B2 (en) | Computer system | |
US8549349B2 (en) | Storage controller and storage control method | |
US10193752B2 (en) | Storage system upgrade | |
JP6063576B2 (en) | Server system, computer system, server system management method, and computer-readable storage medium | |
CN111158580B (en) | Method and apparatus for image information management for fault tolerant disk arrays | |
JP2016143248A (en) | Storage control device and storage control program | |
CN107329698B (en) | Data protection method and storage device | |
JP3691316B2 (en) | Apparatus and method for determining operation mode when abnormality is detected | |
JP2005157462A (en) | System switching method and information processing system | |
JP4576455B2 (en) | System, switching method, and management device program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210510 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220106 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220510 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220523 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7087719 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |