JP2022068986A - Expansion device arbitration apparatus, expansion device arbitration method, failure recovery system apparatus, program, and recording media - Google Patents

Expansion device arbitration apparatus, expansion device arbitration method, failure recovery system apparatus, program, and recording media Download PDF

Info

Publication number
JP2022068986A
JP2022068986A JP2020177864A JP2020177864A JP2022068986A JP 2022068986 A JP2022068986 A JP 2022068986A JP 2020177864 A JP2020177864 A JP 2020177864A JP 2020177864 A JP2020177864 A JP 2020177864A JP 2022068986 A JP2022068986 A JP 2022068986A
Authority
JP
Japan
Prior art keywords
expansion
expansion device
unit
failure
card
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020177864A
Other languages
Japanese (ja)
Inventor
顕太郎 大川
Kentaro Okawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Solution Innovators Ltd
Original Assignee
NEC Solution Innovators Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Solution Innovators Ltd filed Critical NEC Solution Innovators Ltd
Priority to JP2020177864A priority Critical patent/JP2022068986A/en
Publication of JP2022068986A publication Critical patent/JP2022068986A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

To provide an expansion device arbitration apparatus and method, a failure recovery system apparatus, a program, and a recording medium that detect and recover a fault for each expansion device in an expansion card including a plurality of expansion devices.SOLUTION: An arbitration apparatus 10 comprises a fault detection section, an expansion device cut-off section, an expansion device built-in section, and a recovery decision section. The fault detection section detects a fault occurred in multiple expansion devices that an expansion card connected to a main unit comprises. The expansion device cut-off section cuts off from the main unit an expansion device with a fault when a fault in the expansion device is detected. The expansion device built-in section integrates an expansion device after restoration processing after restoration processing of the expansion device with a fault into the main unit. The recovery decision section determines whether the integrated expansion device is recovered. The expansion device cut-off section cuts off the expansion device again in the case where the recovery decision section determines that the integrated expansion device is not recovered.SELECTED DRAWING: Figure 1

Description

本発明は、拡張デバイス調停装置、拡張デバイス調停方法、障害復旧システム装置、プログラム、及び記録媒体に関する。 The present invention relates to an extended device arbitration device, an extended device arbitration method, a disaster recovery system device, a program, and a recording medium.

コンピュータの内部において、CPU(Central Processing Unit)等のメインユニットとI/O(Input/Output)デバイスとを接続するバス又は内部インターフェースの規格として、AGP(Accelerated Graphics Port)、SATA(Serial ATA)、PCI(Peripheral Component Interconnect)、PCI-e(Peripheral Component Interconnect-Express)等、様々なものが知られている。 AGP (Accelerated Graphics Port), SATA (Cerial ATA), as a standard for a bus or internal interface that connects a main unit such as a CPU (Central Processing Unit) and an I / O (Input / Output) device inside a computer. Various things such as PCI (Peripheral Component Interconnect) and PCI-e (Peripheral Component Interconnect-Express) are known.

前記内部インターフェースに接続された拡張カードにおいて、障害が発生した場合、障害を検出し、復旧を行うシステムが知られている(特許文献1、2)。 When a failure occurs in an expansion card connected to the internal interface, a system that detects the failure and recovers from the failure is known (Patent Documents 1 and 2).

特開2011-128795号公報Japanese Unexamined Patent Publication No. 2011-128795 特開2019-159439号公報JP-A-2019-159439

特許文献1及び2のような技術では、障害の検知及び復旧を、拡張カード単位で行う。このため、前記拡張カード上に複数の拡張デバイスが搭載されている場合、障害が発生した拡張デバイスだけでなく、同一カード上のすべての拡張デバイスが一時的に使用できなくなるという問題があった。 In techniques such as Patent Documents 1 and 2, failure detection and recovery are performed on an expansion card basis. Therefore, when a plurality of expansion devices are mounted on the expansion card, there is a problem that not only the expansion device in which the failure has occurred but also all the expansion devices on the same card cannot be used temporarily.

そこで、本発明は、複数の拡張デバイスを備える拡張カードにおいて、拡張デバイスの障害を検出し、拡張デバイス単位で復旧を行うことができる拡張デバイス調停装置、調停方法、障害復旧システム装置、プログラム、及び記録媒体の提供を目的とする。 Therefore, according to the present invention, in an expansion card provided with a plurality of expansion devices, an expansion device arbitration device, an arbitration method, a failure recovery system device, a program, and an expansion device arbitration device capable of detecting a failure of the expansion device and performing recovery in units of the expansion devices, and The purpose is to provide a recording medium.

前記目的を達成するために、本発明の拡張デバイス調停装置は、障害検出部、拡張デバイス切り離し部、拡張デバイス組み込み部、及び、復旧判定部を含み、
前記障害検出部は、メインユニットに接続された拡張カードが備える、複数の拡張デバイスについて障害を検出し、
前記拡張デバイス切り離し部は、前記拡張デバイスの障害が検出された場合、前記障害のある拡張デバイスを前記メインユニットから切り離し、
前記拡張デバイス組み込み部は、前記障害のある拡張デバイスの復旧処理後、前記復旧処理後の拡張デバイスを前記メインユニットに組み込み、
前記復旧判定部は、組み込んだ拡張デバイスが復旧したか否かを判定し、
前記拡張デバイス切り離し部は、前記復旧判定部により、組み込んだ拡張デバイスが復旧していないと判定された場合、前記拡張デバイスを再度切り離すことを特徴とする装置である。
In order to achieve the above object, the extended device arbitration device of the present invention includes a failure detection unit, an expansion device disconnection unit, an expansion device incorporation unit, and a recovery determination unit.
The failure detection unit detects failures in a plurality of expansion devices included in the expansion card connected to the main unit, and detects failures.
When a failure of the expansion device is detected, the expansion device disconnection unit disconnects the failed expansion device from the main unit.
After the recovery process of the failed expansion device, the expansion device embedded unit incorporates the expanded device after the recovery process into the main unit.
The recovery determination unit determines whether or not the incorporated expansion device has been restored, and determines whether or not the embedded expansion device has been restored.
The expansion device disconnection unit is a device characterized in that when the recovery determination unit determines that the incorporated expansion device has not been restored, the expansion device is disconnected again.

本発明の調停方法は、障害検出工程、拡張デバイス切り離し工程、拡張デバイス組み込み工程、及び、復旧判定工程を含み、
前記障害検出工程は、メインユニットに接続された拡張カードが備える、複数の拡張デバイスについて障害を検出し、
前記拡張デバイス切り離し工程は、前記拡張デバイスの障害が検出された場合、前記障害のある拡張デバイスを前記メインユニットから切り離し、
前記拡張デバイス組み込み工程は、前記障害のある拡張デバイスの復旧処理後、前記復旧処理後の拡張デバイスを前記メインユニットに組み込み、
前記復旧判定工程は、組み込んだ拡張デバイスが復旧したか否かを判定し、
前記拡張デバイス切り離し工程は、前記復旧判定工程により、組み込んだ拡張デバイスが復旧していないと判定された場合、前記拡張デバイスを再度切り離すことを特徴とする方法である。
The arbitration method of the present invention includes a failure detection step, an expansion device disconnection step, an expansion device incorporation step, and a recovery determination step.
In the failure detection step, a failure is detected for a plurality of expansion devices included in the expansion card connected to the main unit.
In the expansion device disconnection step, when a failure of the expansion device is detected, the expansion device with the failure is disconnected from the main unit.
In the expansion device embedding step, after the recovery processing of the failed expansion device, the expansion device after the recovery processing is incorporated into the main unit.
The recovery determination step determines whether or not the incorporated expansion device has been restored, and determines whether or not the embedded expansion device has been restored.
The expansion device disconnection step is a method characterized by disconnecting the expansion device again when it is determined by the recovery determination step that the incorporated expansion device has not been restored.

本発明の障害復旧システム装置は、メインユニットと、拡張カードとを含み、
前記メインユニットは、拡張デバイスの調停装置を備え、
前記拡張カードは、拡張デバイスを複数備え、
前記メインユニットと、前記拡張カードと、前記拡張デバイスの調停装置とは、それぞれのI/Fを介して互いに接続可能であり、
前記拡張デバイスの調停装置は、前記本発明の拡張デバイス調停装置であるシステム装置である。
The disaster recovery system apparatus of the present invention includes a main unit and an expansion card.
The main unit comprises an expansion device arbitrator.
The expansion card is equipped with a plurality of expansion devices.
The main unit, the expansion card, and the arbitration device of the expansion device can be connected to each other via their respective I / Fs.
The arbitration device for the expansion device is a system device that is the expansion device arbitration device of the present invention.

本発明のプログラムは、コンピュータに、障害検出手順、拡張デバイス切り離し手順、拡張デバイス組み込み手順、及び、復旧判定手順を実行させるためのプログラムであって、
前記障害検出手順は、メインユニットに接続された拡張カードが備える、複数の拡張デバイスについて障害を検出し、
前記拡張デバイス切り離し手順は、前記拡張デバイスの障害が検出された場合、前記障害のある拡張デバイスを前記メインユニットから切り離し、
前記拡張デバイス組み込み手順は、前記障害のある拡張デバイスの復旧処理後、前記復旧処理後の拡張デバイスを前記メインユニットに組み込み、
前記復旧判定手順は、組み込んだ拡張デバイスが復旧したか否かを判定し、
前記拡張デバイス切り離し手順は、前記復旧判定手順により、組み込んだ拡張デバイスが復旧していないと判定された場合、前記拡張デバイスを再度切り離すことを特徴とするプログラムである。
The program of the present invention is a program for causing a computer to execute a failure detection procedure, an extended device disconnection procedure, an extended device embedding procedure, and a recovery determination procedure.
The failure detection procedure detects failures for a plurality of expansion devices included in an expansion card connected to the main unit.
The expansion device disconnection procedure disconnects the failed expansion device from the main unit when a failure of the expansion device is detected.
In the expansion device embedding procedure, after the recovery process of the failed expansion device, the expansion device after the recovery process is incorporated into the main unit.
The recovery determination procedure determines whether or not the embedded extended device has been restored.
The expansion device disconnection procedure is a program characterized by disconnecting the expansion device again when it is determined by the recovery determination procedure that the incorporated expansion device has not been restored.

本発明の記録媒体は、本発明のプログラムを記録しているコンピュータ読み取り可能な記録媒体である。 The recording medium of the present invention is a computer-readable recording medium on which the program of the present invention is recorded.

本発明によれば、複数の拡張デバイスを備える拡張カードを備えるシステムにおいて、拡張デバイス単位での障害の検出及び復旧が可能となる。 According to the present invention, in a system including an expansion card including a plurality of expansion devices, it is possible to detect and recover a failure in each expansion device.

図1は、実施形態1の調停装置の一例の構成を示すブロック図である。FIG. 1 is a block diagram showing a configuration of an example of the arbitration device of the first embodiment. 図2は、実施形態1の調停装置のハードウェア構成の一例を示すブロック図である。FIG. 2 is a block diagram showing an example of the hardware configuration of the arbitration device of the first embodiment. 図3は、実施形態1の調停装置における処理の一例を示すフローチャートである。FIG. 3 is a flowchart showing an example of processing in the arbitration device of the first embodiment. 図4は、実施形態2の調停装置の一例の構成を示すブロック図である。FIG. 4 is a block diagram showing a configuration of an example of the arbitration device of the second embodiment. 図5は、実施形態2の調停装置における処理の一例を示すフローチャートである。FIG. 5 is a flowchart showing an example of processing in the arbitration device of the second embodiment. 図6は、実施形態2の調停装置における処理の別の一例を示すフローチャートである。FIG. 6 is a flowchart showing another example of the process in the arbitration device of the second embodiment. 図7は、実施形態1の調停装置を備える障害復旧システム装置の一例の構成を示す模式図である。FIG. 7 is a schematic diagram showing a configuration of an example of a failure recovery system device including the arbitration device of the first embodiment.

本発明の拡張デバイス調停装置は、例えば、前記障害検出部は、下記(1)~(3)からなる群から選択された少なくとも1つの処理により、前記拡張デバイスの障害を検出する、という態様であってもよい。
(1)前記メインユニットから、拡張デバイス障害情報を受信する。
(2)前記障害検出部により、前記拡張デバイスにアクセスして障害を検出する。
(3)前記拡張デバイスから、拡張デバイス障害情報を受信する。
In the extended device arbitration device of the present invention, for example, the failure detection unit detects a failure of the extended device by at least one process selected from the group consisting of the following (1) to (3). There may be.
(1) Receive extended device failure information from the main unit.
(2) The failure detection unit accesses the expansion device to detect a failure.
(3) Receive extended device failure information from the extended device.

本発明の拡張デバイス調停装置は、例えば、さらに、記憶部を含み、
前記記憶部は、前記拡張デバイスごとの復旧閾値を記憶し、
前記復旧閾値は、前記拡張デバイスの復旧を行う回数であり、
前記拡張デバイス組み込み部は、前記障害検出部により、前記復旧閾値を超えて障害を検出した拡張デバイスについて、メインユニットへの組み込みを行わない
という態様であってもよい。
The extended device arbitration device of the present invention further includes, for example, a storage unit.
The storage unit stores the recovery threshold value for each expansion device, and stores the recovery threshold value.
The recovery threshold is the number of times the extended device is recovered.
The expansion device built-in unit may be in an embodiment in which the failure detection unit does not incorporate the expansion device that has detected a failure exceeding the recovery threshold into the main unit.

本発明の拡張デバイス調停装置は、例えば、拡張カード切り離し部、及び拡張カード組み込み部を含み、
前記拡張カード切り離し部は、前記拡張デバイス切り離し部により、前記複数の拡張デバイスがすべて切り離された場合、前記拡張デバイスを備える前記拡張カードを切り離し、
前記拡張カード組み込み部は、前記拡張カードの復旧処理後、前記復旧処理後の拡張カードを前記メインユニットに組み込み、
前記復旧判定部は、組み込んだ拡張カードが復旧したか否かを判定する
という態様であってもよい。
The expansion device arbitration device of the present invention includes, for example, an expansion card disconnection unit and an expansion card integration unit.
When all the plurality of expansion devices are separated by the expansion device disconnection unit, the expansion card disconnection unit disconnects the expansion card including the expansion device.
After the expansion card is restored, the expansion card incorporating unit incorporates the expanded card after the restoration process into the main unit.
The recovery determination unit may be in a mode of determining whether or not the incorporated expansion card has been restored.

本発明の拡張デバイス調停装置は、例えば、記憶部、拡張カード切り離し部、及び拡張カード組み込み部を含み、
前記記憶部は、前記拡張デバイス毎に、拡張カードの切り離しに関する優先度と、拡張カード切り離し閾値とを記憶し、
前記拡張カード切り離し閾値は、障害が発生した拡張デバイスを備える拡張カードを切り離すか否かを判定するための閾値であり、
前記拡張カード切り離し部は、前記復旧判定部により復旧に失敗したと判定された前記拡張デバイスの前記優先度が、前記拡張カード切り離し閾値を超える場合、前記拡張デバイスを含む拡張カードを切り離し、
前記拡張カード組み込み部は、前記拡張カードの復旧処理後、前記復旧処理後の拡張カードを前記メインユニットに組み込み、
前記復旧判定部は、組み込んだ拡張カードが復旧したか否かを判定する
という態様であってもよい。
The expansion device arbitration device of the present invention includes, for example, a storage unit, an expansion card disconnection unit, and an expansion card integration unit.
The storage unit stores the priority regarding the disconnection of the expansion card and the expansion card disconnection threshold value for each expansion device.
The expansion card disconnection threshold is a threshold for determining whether or not to disconnect an expansion card including an expansion device in which a failure has occurred.
When the priority of the expansion device determined to have failed in recovery by the recovery determination unit exceeds the expansion card disconnection threshold value, the expansion card disconnection unit disconnects the expansion card including the expansion device.
After the expansion card is restored, the expansion card incorporating unit incorporates the expanded card after the restoration process into the main unit.
The recovery determination unit may be in a mode of determining whether or not the incorporated expansion card has been restored.

本発明の調停方法は、例えば、前記障害検出工程は、下記(1)~(3)からなる群から選択された少なくとも1つの処理により、前記拡張デバイスの障害を検出するという態様であってもよい。
(1)前記メインユニットから、拡張デバイス障害情報を受信する;
(2)前記障害検出工程により、前記拡張デバイスにアクセスして障害を検出する;
(3)前記拡張デバイスから、拡張デバイス障害情報を受信する。
The arbitration method of the present invention may be such that, for example, the failure detection step detects a failure of the extended device by at least one process selected from the group consisting of the following (1) to (3). good.
(1) Receive extended device failure information from the main unit;
(2) By the failure detection step, the extended device is accessed and a failure is detected;
(3) Receive extended device failure information from the extended device.

本発明の調停方法は、例えば、拡張デバイスごとの復旧閾値を使用し、
前記復旧閾値は、前記拡張デバイスの復旧を行う回数であり、
前記拡張デバイス組み込み工程は、前記障害検出工程により、前記復旧閾値を超えて障害を検出した拡張デバイスについて、メインユニットへの組み込みを行わない
という態様であってもよい。
The arbitration method of the present invention uses, for example, a recovery threshold for each extended device.
The recovery threshold is the number of times the extended device is recovered.
The expansion device incorporation step may be an embodiment in which the expansion device that has detected a failure exceeding the recovery threshold value by the failure detection step is not incorporated into the main unit.

本発明の調停方法は、例えば、拡張カード切り離し工程、及び拡張カード組み込み工程を含み、
前記拡張カード切り離し工程は、前記拡張デバイス切り離し工程により、前記複数の拡張デバイスがすべて切り離された場合、前記拡張デバイスを備える前記拡張カードを切り離し、
前記拡張カード組み込み工程は、前記拡張カードの復旧処理後、前記復旧処理後の拡張カードを前記メインユニットに組み込み、
前記復旧判定工程は、組み込んだ拡張カードが復旧したか否かを判定する
という態様であってもよい。
The arbitration method of the present invention includes, for example, an expansion card disconnection step and an expansion card incorporation step.
In the expansion card disconnection step, when all the plurality of expansion devices are detached by the expansion device disconnection step, the expansion card including the expansion device is detached.
In the expansion card incorporating step, after the expansion card is restored, the expanded card after the restoration process is incorporated into the main unit.
The recovery determination step may be in the form of determining whether or not the incorporated expansion card has been restored.

本発明の調停方法は、例えば、拡張カード切り離し工程、及び拡張カード組み込み工程を含み、
拡張カードの切り離しに関する優先度と、拡張カード切り離し閾値とを使用し、
前記拡張カード切り離し閾値は、障害が発生した拡張デバイスを備える拡張カードを切り離すか否かを判定するための閾値であり、
前記拡張カード切り離し工程は、前記復旧判定工程により復旧に失敗したと判定された前記拡張デバイスの前記優先度が、前記拡張カード切り離し閾値を超える場合、前記拡張デバイスを含む拡張カードを切り離し、
前記拡張カード組み込み工程は、前記拡張カードの復旧処理後、前記復旧処理後の拡張カードを前記メインユニットに組み込み、
前記復旧判定工程は、組み込んだ拡張カードが復旧したか否かを判定する
という態様であってもよい。
The arbitration method of the present invention includes, for example, an expansion card disconnection step and an expansion card incorporation step.
Using the expansion card detachment priority and the expansion card detachment threshold,
The expansion card disconnection threshold is a threshold for determining whether or not to disconnect an expansion card including an expansion device in which a failure has occurred.
In the expansion card disconnection step, when the priority of the expansion device determined to have failed in recovery by the recovery determination step exceeds the expansion card disconnection threshold value, the expansion card including the expansion device is detached.
In the expansion card incorporating step, after the expansion card is restored, the expanded card after the restoration process is incorporated into the main unit.
The recovery determination step may be in the form of determining whether or not the incorporated expansion card has been restored.

本発明のプログラムは、例えば、前記障害検出手順は、下記(1)~(3)からなる群から選択された少なくとも1つの処理により、前記拡張デバイスの障害を検出する
という態様であってもよい。
(1)前記メインユニットから、拡張デバイス障害情報を受信する;
(2)前記障害検出手順により、前記拡張デバイスにアクセスして障害を検出する;
(3)前記拡張デバイスから、拡張デバイス障害情報を受信する。
The program of the present invention may be in an embodiment in which, for example, the failure detection procedure detects a failure of the extended device by at least one process selected from the group consisting of the following (1) to (3). ..
(1) Receive extended device failure information from the main unit;
(2) By the failure detection procedure, the extended device is accessed to detect a failure;
(3) Receive extended device failure information from the extended device.

本発明のプログラムは、例えば、拡張デバイスごとの復旧閾値を使用し、
前記復旧閾値は、前記拡張デバイスの復旧を行う回数であり、
前記拡張デバイス組み込み手順は、前記障害検出手順により、前記復旧閾値を超えて障害を検出した拡張デバイスについて、メインユニットへの組み込みを行わない
という態様であってもよい。
The program of the present invention uses, for example, a recovery threshold for each extended device.
The recovery threshold is the number of times the extended device is recovered.
The expansion device incorporation procedure may be an embodiment in which the expansion device that has detected a failure exceeding the recovery threshold value by the failure detection procedure is not incorporated into the main unit.

本発明のプログラムは、例えば、拡張カード切り離し手順、及び拡張カード組み込み手順を含み、
前記拡張カード切り離し手順は、前記拡張デバイス切り離し手順により、前記複数の拡張デバイスがすべて切り離された場合、前記拡張デバイスを備える前記拡張カードを切り離し、
前記拡張カード組み込み手順は、前記拡張カードの復旧処理後、前記復旧処理後の拡張カードを前記メインユニットに組み込み、
前記復旧判定手順は、組み込んだ拡張カードが復旧したか否かを判定する
という態様であってもよい。
The program of the present invention includes, for example, an expansion card disconnection procedure and an expansion card installation procedure.
In the expansion card disconnection procedure, when all the plurality of expansion devices are detached by the expansion device disconnection procedure, the expansion card including the expansion device is detached.
In the expansion card incorporating procedure, after the expansion card is restored, the expanded card after the restoration process is incorporated into the main unit.
The recovery determination procedure may be in the form of determining whether or not the incorporated expansion card has been restored.

本発明のプログラムは、例えば、拡張カード切り離し手順、及び拡張カード組み込み手順を含み、
前記拡張デバイス毎の拡張カードの切り離しに関する優先度と、拡張カード切り離し閾値とを使用し、
前記拡張カード切り離し閾値は、障害が発生した拡張デバイスを備える拡張カードを切り離すか否かを判定するための閾値であり、
前記拡張カード切り離し手順は、前記復旧判定手順により復旧に失敗したと判定された前記拡張デバイスの前記優先度が、前記拡張カード切り離し閾値を超える場合、前記拡張デバイスを含む拡張カードを切り離し、
前記拡張カード組み込み手順は、前記拡張カードの復旧処理後、前記復旧処理後の拡張カードを前記メインユニットに組み込み、
前記復旧判定手順は、組み込んだ拡張カードが復旧したか否かを判定する
という態様であってもよい。
The program of the present invention includes, for example, an expansion card disconnection procedure and an expansion card installation procedure.
Using the expansion card detachment priority for each expansion device and the expansion card detachment threshold,
The expansion card disconnection threshold is a threshold for determining whether or not to disconnect an expansion card including an expansion device in which a failure has occurred.
In the expansion card disconnection procedure, when the priority of the expansion device determined to have failed in recovery by the recovery determination procedure exceeds the expansion card disconnection threshold value, the expansion card including the expansion device is detached.
In the expansion card incorporating procedure, after the expansion card is restored, the expanded card after the restoration process is incorporated into the main unit.
The recovery determination procedure may be in the form of determining whether or not the incorporated expansion card has been restored.

本発明において、拡張カードとは、例えば、メインユニットとバス接続され、メインユニットの機能を拡張するための部材である。前記接続の規格は、特に制限されず、例えば、AGP、SATA、PCI、PCIe等があげられる。また、本発明において、拡張デバイスとは、前記拡張カードに配置された、機能をつかさどる装置である。前記接続規格が、例えば、PCI又はPCIeである場合、前記拡張カードは、PCIカード又はPCIeカードともいい、前記拡張デバイスは、PCIデバイス、PCIeデバイス、又はエンドポイントともいう。 In the present invention, the expansion card is, for example, a member connected to the main unit by a bus to expand the function of the main unit. The connection standard is not particularly limited, and examples thereof include AGP, SATA, PCI, and PCIe. Further, in the present invention, the expansion device is a device that controls the function and is arranged on the expansion card. When the connection standard is, for example, PCI or PCIe, the expansion card is also referred to as a PCI card or PCIe card, and the expansion device is also referred to as a PCI device, a PCIe device, or an endpoint.

本発明の実施形態について図を用いて説明する。本発明は、以下の実施形態には限定されない。以下の各図において、同一部分には、同一符号を付している。また、各実施形態の説明は、特に言及がない限り、互いの説明を援用でき、各実施形態の構成は、特に言及がない限り、組合せ可能である。 An embodiment of the present invention will be described with reference to the drawings. The present invention is not limited to the following embodiments. In each of the following figures, the same parts are designated by the same reference numerals. Further, the explanations of the respective embodiments can be referred to each other unless otherwise specified, and the configurations of the respective embodiments can be combined unless otherwise specified.

[実施形態1]
図1は、本実施形態の調停装置10(以下、本装置10ともいう)の一例の構成を示すブロック図である。図1に示すように、本装置10は、障害検出部11、拡張デバイス切り離し部12、拡張デバイス組み込み部13、及び、復旧判定部14を含む。また、本装置10は、例えば、任意の構成として、記憶部(図示せず)を含んでもよい。
[Embodiment 1]
FIG. 1 is a block diagram showing a configuration of an example of the arbitration device 10 (hereinafter, also referred to as the present device 10) of the present embodiment. As shown in FIG. 1, the present apparatus 10 includes a failure detection unit 11, an expansion device disconnection unit 12, an expansion device incorporation unit 13, and a recovery determination unit 14. Further, the apparatus 10 may include a storage unit (not shown) as an arbitrary configuration, for example.

本装置10は、例えば、前記各部を含む1つの装置でもよいし、前記各部が、通信回線網を介して接続可能な装置でもよい。また、本装置10は、前記通信回線網を介して、後述する外部装置と接続可能である。前記通信回線網は、特に制限されず、公知のネットワークを使用でき、例えば、有線でも無線でもよい。前記通信回線網は、例えば、インターネット回線、WWW(World Wide Web)、電話回線、LAN(Local Area Network)、SAN(Storage Area Network)、DTN(Delay Tolerant Networking)等があげられる。無線通信としては、例えば、WiFi(Wireless Fidelity)、Bluetooth(登録商標)等が挙げられる。前記無線通信としては、各装置が直接通信する形態(Ad Hoc通信)、アクセスポイントを介した間接通信のいずれであってもよい。本装置10は、例えば、システムとしてサーバに組み込まれていてもよい。 The device 10 may be, for example, one device including the above-mentioned parts, or may be a device in which the above-mentioned parts can be connected via a communication network. Further, the present device 10 can be connected to an external device described later via the communication network. The communication network is not particularly limited, and a known network can be used, and may be wired or wireless, for example. Examples of the communication line network include an Internet line, WWW (World Wide Web), a telephone line, a LAN (Local Area Network), a SAN (Storage Area Network), a DTN (Delay Traveler Network), and the like. Examples of wireless communication include WiFi (Wireless Fidelity), Bluetooth (registered trademark) and the like. The wireless communication may be either a form in which each device communicates directly (Ad Hoc communication) or an indirect communication via an access point. The apparatus 10 may be incorporated in the server as a system, for example.

図2に、本装置10のハードウェア構成のブロック図を例示する。本装置10は、例えば、中央演算装置(CPU、GPU等)101、メモリ102、バス103、入力装置104、表示装置105、通信デバイス106、記憶部107等を有する。本装置10のハードウェア構成の各部は、それぞれのインタフェース(I/F)により、バス103を介して相互に接続されている。 FIG. 2 illustrates a block diagram of the hardware configuration of the present device 10. The apparatus 10 includes, for example, a central processing unit (CPU, GPU, etc.) 101, a memory 102, a bus 103, an input device 104, a display device 105, a communication device 106, a storage unit 107, and the like. Each part of the hardware configuration of the present apparatus 10 is connected to each other via the bus 103 by each interface (I / F).

中央演算装置(中央処理装置)101は、本装置10の全体の制御を担う。本装置10において、中央演算装置101により、例えば、本発明のプログラムやその他のプログラムが実行され、また、各種情報の読み込みや書き込みが行われる。具体的には、例えば、中央演算装置101が、障害検出部11、拡張デバイス切り離し部12、拡張デバイス組み込み部13、及び、復旧判定部14として機能する。 The central processing unit (central processing unit) 101 is responsible for overall control of the apparatus 10. In the present device 10, for example, the program of the present invention and other programs are executed by the central processing unit 101, and various information is read and written. Specifically, for example, the central processing unit 101 functions as a failure detection unit 11, an expansion device disconnection unit 12, an expansion device incorporation unit 13, and a recovery determination unit 14.

本装置10は、例えば、バス103により、メインユニット、及び拡張カードと接続できる。前記メインユニット及び前記拡張カードについては、後述する。バス103は、例えば、外部装置とも接続できる。前記外部装置は、例えば、外部データベース、プリンター等があげられる。本装置10は、例えば、バス103に接続された通信デバイス106により、前記通信回線網に接続でき、前記通信回線網を介して、外部装置と接続することもできる。また、例えば、後述する本発明の障害復旧システム装置が、複数の調停装置10を含む場合、本装置10は、例えば、通信デバイス106により、他の調停装置10と互いに通信可能であってもよい。 The apparatus 10 can be connected to the main unit and the expansion card by, for example, the bus 103. The main unit and the expansion card will be described later. The bus 103 can also be connected to, for example, an external device. Examples of the external device include an external database and a printer. The device 10 can be connected to the communication network by, for example, a communication device 106 connected to the bus 103, and can also be connected to an external device via the communication network. Further, for example, when the failure recovery system device of the present invention described later includes a plurality of arbitration devices 10, the device 10 may be able to communicate with other arbitration devices 10 by, for example, a communication device 106. ..

メモリ102は、例えば、メインメモリ(主記憶装置)が挙げられる。中央演算装置101が処理を行う際には、例えば、後述する記憶部107に記憶されている本発明のプログラム等の種々の動作プログラムを、メモリ102が読み込み、中央演算装置101は、メモリ102からデータを受け取って、プログラムを実行する。前記メインメモリは、例えば、RAM(ランダムアクセスメモリ)である。また、メモリ102は、例えば、ROM(読み出し専用メモリ)であってもよい。 The memory 102 may be, for example, a main memory (main storage device). When the central processing unit 101 performs processing, for example, the memory 102 reads various operation programs such as the program of the present invention stored in the storage unit 107 described later, and the central processing unit 101 reads from the memory 102. Receive the data and run the program. The main memory is, for example, a RAM (random access memory). Further, the memory 102 may be, for example, a ROM (read-only memory).

記憶部107は、例えば、前記メインメモリ(主記憶装置)に対して、いわゆる補助記憶装置ともいう。前述のように、記憶部107には、本発明のプログラムを含む動作プログラムが格納されている。記憶部107は、例えば、記録媒体と、記録媒体に読み書きするドライブとの組合せであってもよい。前記記録媒体は、特に制限されず、例えば、内蔵型でも外付け型でもよく、HD(ハードディスク)、CD-ROM、CD-R、CD-RW、MO、DVD、フラッシュメモリー、メモリーカード等が挙げられる。記憶部107は、例えば、記録媒体とドライブとが一体化されたハードディスクドライブ(HDD)、及びソリッドステートドライブ(SSD)であってもよい。また、本装置10が前記記憶部を含む場合、例えば、記憶部107が前記記憶部として機能する。この場合、記憶部107は、復旧閾値を記憶していてもよい。前記復旧閾値は、例えば、前記拡張デバイスの復旧を行う回数である。前記復旧閾値は、例えば、前記拡張デバイス毎に異なる回数が設定されていてもよい。この場合、前記復旧閾値は、例えば、前記拡張デバイスの優先度に応じて適宜設定できる。具体的には、例えば、相対的により重要なデバイスほど、前記復旧閾値を高く設定できる。 The storage unit 107 is also referred to as a so-called auxiliary storage device with respect to the main memory (main storage device), for example. As described above, the storage unit 107 stores an operation program including the program of the present invention. The storage unit 107 may be, for example, a combination of a recording medium and a drive for reading and writing to the recording medium. The recording medium is not particularly limited, and may be an internal type or an external type, and examples thereof include HD (hard disk), CD-ROM, CD-R, CD-RW, MO, DVD, flash memory, and memory card. Be done. The storage unit 107 may be, for example, a hard disk drive (HDD) in which a recording medium and a drive are integrated, and a solid state drive (SSD). When the apparatus 10 includes the storage unit, for example, the storage unit 107 functions as the storage unit. In this case, the storage unit 107 may store the recovery threshold value. The recovery threshold is, for example, the number of times the extended device is recovered. The recovery threshold value may be set to a different number of times for each of the extended devices, for example. In this case, the recovery threshold can be appropriately set according to, for example, the priority of the expansion device. Specifically, for example, the more important the device is, the higher the recovery threshold can be set.

本装置10において、メモリ102及び記憶部107は、管理者からのアクセス情報及びログ情報、並びに、外部データベース(図示せず)から取得した情報を記憶することも可能である。 In the apparatus 10, the memory 102 and the storage unit 107 can also store the access information and the log information from the administrator, and the information acquired from the external database (not shown).

本装置10は、例えば、さらに、入力装置104、表示装置105を有する。入力装置104は、例えば、タッチパネル、キーボード、マウス等である。表示装置105は、例えば、LEDディスプレイ、液晶ディスプレイ等が挙げられる。 The apparatus 10 further includes, for example, an input device 104 and a display device 105. The input device 104 is, for example, a touch panel, a keyboard, a mouse, or the like. Examples of the display device 105 include an LED display and a liquid crystal display.

図7に、本実施形態の調停装置10を備える障害復旧システム装置の一例の構成を示す。図7は、本実施形態の障害復旧システム装置20の構成の一例を示す模式図である。図7に示すように、本実施形態の障害復旧システム装置20は、メインユニット21、バス22、及び拡張カードとして、PCIカード23を含む。メインユニット21及びPCIカード23は、それぞれ、それぞれのI/Fを介してバス22を通じて接続されており、互いに通信可能である。なお、図7において、メインユニット21が調停装置10を備えているが、調停装置10は、例えば、メインユニットから独立した部材としてバス22に接続されていてもよい。この場合、調停装置10も、そのI/Fを介してバス22を通じて、メインユニット21及びPCIカード23と通信可能である。なお、図7において、システム装置20は、前記拡張カードとして、PCIカードを備え、前記拡張デバイスとして、PCIデバイスA及びBを備えるが、本発明のシステム装置において、前記拡張カード及び前記拡張デバイスは、前述のように、PCI規格のものに限定されない。 FIG. 7 shows a configuration of an example of a failure recovery system device including the arbitration device 10 of the present embodiment. FIG. 7 is a schematic diagram showing an example of the configuration of the failure recovery system device 20 of the present embodiment. As shown in FIG. 7, the disaster recovery system apparatus 20 of the present embodiment includes a main unit 21, a bus 22, and a PCI card 23 as an expansion card. The main unit 21 and the PCI card 23 are connected to each other via the bus 22 via their respective I / Fs, and can communicate with each other. Although the main unit 21 is provided with the arbitration device 10 in FIG. 7, the arbitration device 10 may be connected to the bus 22 as a member independent of the main unit, for example. In this case, the arbitration device 10 can also communicate with the main unit 21 and the PCI card 23 via the bus 22 via its I / F. In FIG. 7, the system device 20 includes a PCI card as the expansion card and PCI devices A and B as the expansion device. In the system device of the present invention, the expansion card and the expansion device are , As mentioned above, it is not limited to the PCI standard.

メインユニット21は、システム装置20の主要な制御を司るユニットであり、OS/バスドライバ、I/F、本発明の調停装置10等を有する。 The main unit 21 is a unit that controls the main control of the system device 20, and has an OS / bus driver, an I / F, an arbitration device 10 of the present invention, and the like.

PCIカード(拡張カード)23は、バス22を通じてメインユニット21に接続されている。PCIカード23は、例えば、PCIスイッチ231、PCIデバイス232A、PCIデバイス232B等を含む。PCIスイッチ231は、例えば、PCIカード23上において、接続できるPCIデバイスを増やすための装置である。PCIデバイス232A、232Bは、例えば、PCIカード23上において、それぞれのI/Fを介して、PCIスイッチ231に接続され、PCIスイッチ231を経由して、メインユニット21と接続されている。なお、図7において、PCIカード23が有するPCIデバイス232は、2つであるが、これには限定されず、2つ以上であってもよい。 The PCI card (expansion card) 23 is connected to the main unit 21 through the bus 22. The PCI card 23 includes, for example, a PCI switch 231, a PCI device 232A, a PCI device 232B, and the like. The PCI switch 231 is a device for increasing the number of connectable PCI devices on the PCI card 23, for example. The PCI devices 232A and 232B are connected to the PCI switch 231 via the respective I / Fs and connected to the main unit 21 via the PCI switch 231, for example, on the PCI card 23. In FIG. 7, the number of PCI devices 232 included in the PCI card 23 is two, but the number is not limited to two, and the number may be two or more.

つぎに、本発明の調停方法の一例を、図3のフローチャートに基づき説明する。本実施形態の調停方法は、例えば、図1及び図2の調停装置10を備える、図7のシステム装置20を用いて、次のように実施する。なお、本実施形態の調停方法は、図1及び図2の調停装置10を備える、図7のシステム装置20の使用には限定されない。 Next, an example of the arbitration method of the present invention will be described with reference to the flowchart of FIG. The arbitration method of the present embodiment is carried out as follows, for example, by using the system device 20 of FIG. 7 including the arbitration device 10 of FIGS. 1 and 2. The arbitration method of the present embodiment is not limited to the use of the system device 20 of FIG. 7, which includes the arbitration device 10 of FIGS. 1 and 2.

まず、障害検出部11は、メインユニットに接続された拡張カードが備える、複数の拡張デバイスについて障害を検出する(S11、障害検出工程)。前記障害の検出は、例えば、下記(1)~(3)からなる群から選択された少なくとも一つの処理により検出できる。下記(1)~(3)の処理の選択及び組み合わせは、特に限定されず、例えば、本発明の調停装置を備えるコンピュータシステムの要件及び実装方法により、適切なものを選択できる。なお、障害検出部11による障害の検出方法は、下記(1)~(3)の処理に限定されず、本発明の調停装置を備えるコンピュータシステムの要件及び実装方法により、例えば、公知の障害検出方法が適宜採用できる。
(1)前記メインユニットから、拡張デバイス障害情報を受信する。
(2)前記障害検出部により、前記拡張デバイスにアクセスして障害を検出する。
(3)前記拡張デバイスから、拡張デバイス障害情報を受信する。
First, the failure detection unit 11 detects a failure of a plurality of expansion devices included in the expansion card connected to the main unit (S11, failure detection step). The failure can be detected by, for example, at least one process selected from the group consisting of the following (1) to (3). The selection and combination of the following processes (1) to (3) are not particularly limited, and for example, an appropriate one can be selected depending on the requirements and mounting method of the computer system provided with the arbitration device of the present invention. The failure detection method by the failure detection unit 11 is not limited to the processes (1) to (3) below, and is, for example, a known failure detection according to the requirements and mounting method of the computer system provided with the arbitration device of the present invention. The method can be adopted as appropriate.
(1) Receive extended device failure information from the main unit.
(2) The failure detection unit accesses the expansion device to detect a failure.
(3) Receive extended device failure information from the extended device.

前記(1)の処理は、例えば、前記メインユニットが、メインユニットの拡張デバイスI/Fを経由して、前記拡張デバイスへの経路障害を検出する処理である。前記拡張デバイスの接続規格がPCI又はPCIeである場合、前記(1)の処理は、例えば、PCI(e)Specに準拠した検出方法を採用できる。前記メインユニットが前記拡張デバイスへの経路障害を検出した場合、前記メインユニットは、本発明の調停装置10の障害検出部11に、前記拡張デバイス障害情報を送信し、調停装置10の障害検出部11は、前記拡張デバイス障害情報を受信することで、前記拡張デバイスの障害を検出する。前記拡張デバイス障害情報は、例えば、前記拡張デバイスに障害が発生していることを意味する情報である。 The process (1) is, for example, a process in which the main unit detects a route failure to the expansion device via the expansion device I / F of the main unit. When the connection standard of the extended device is PCI or PCIe, the process of (1) can adopt, for example, a detection method compliant with PCI (e) Spec. When the main unit detects a path failure to the expansion device, the main unit transmits the expansion device failure information to the failure detection unit 11 of the arbitration device 10 of the present invention, and the failure detection unit of the arbitration device 10. 11 detects the failure of the extended device by receiving the extended device failure information. The extended device failure information is, for example, information meaning that a failure has occurred in the extended device.

前記(2)の処理は、例えば、障害検出部11が、前記拡張デバイスのI/Fを経由して、前記拡張デバイスの性能に影響を与えない範囲で、前記拡張デバイスに定期的にReadアクセスを行い、Readの失敗を検出する処理である。前記(2)の処理においては、障害検出部11が、前記Readの失敗を検出したデバイスについて、障害が発生した拡張デバイスと判断する。 In the process of (2), for example, the failure detection unit 11 periodically Read access to the expansion device via the I / F of the expansion device to the extent that the performance of the expansion device is not affected. Is a process to detect a read failure. In the process of (2), the failure detection unit 11 determines that the device that has detected the failure of the Read is an extended device in which a failure has occurred.

前記(3)の処理は、例えば、前記拡張デバイスのドライバにより、前記拡張デバイス固有の障害検出処理と、復旧処理とを行い、前記復旧処理に失敗した場合に、前記ドライバが、調停装置10の障害検出部11に対し、前記拡張デバイス障害情報を送信し、障害検出部11は、前記拡張デバイス障害情報を受信することで、前記拡張デバイスの障害を検出する。なお、前記(3)の処理は、例えば、前記拡張デバイスのドライバを変更可能な場合に採用することが好ましい。 In the process of (3), for example, the driver of the extended device performs a failure detection process peculiar to the extended device and a recovery process, and when the recovery process fails, the driver uses the arbitration device 10 to perform the process. The extended device failure information is transmitted to the failure detection unit 11, and the failure detection unit 11 detects the failure of the extended device by receiving the extended device failure information. It is preferable that the process (3) is adopted, for example, when the driver of the expansion device can be changed.

つぎに、拡張デバイス切り離し部12は、前記拡張デバイスの障害が検出された場合、前記障害のある拡張デバイスを前記メインユニットから切り離す(S12、拡張デバイス切り離し工程)。前記「拡張デバイスを切り離す」とは、例えば、前記デバイスのドライバをメインユニットから取り外し、拡張デバイスへのアクセス経路を無効化することにより、前記拡張デバイスにアクセスできないようにすることをいう。 Next, when the expansion device disconnection unit 12 detects a failure of the expansion device, the expansion device disconnection unit 12 disconnects the failed expansion device from the main unit (S12, expansion device disconnection step). The "disconnecting the expansion device" means, for example, removing the driver of the device from the main unit and invalidating the access route to the expansion device so that the expansion device cannot be accessed.

そして、切り離した前記拡張デバイスについて、公知の復旧処理手段により、復旧処理を行う。前記復旧処理は、例えば、メインユニットからの指示により、前記拡張デバイスを初期化又は再起動する処理があげられる。また、例えば、前記拡張デバイス自身が復旧処理機能を備える拡張デバイスである場合、前記拡張デバイス自身により、前記復旧処理を行ってもよい。 Then, the separated expansion device is restored by a known restoration processing means. Examples of the recovery process include a process of initializing or restarting the extended device according to an instruction from the main unit. Further, for example, when the expansion device itself is an expansion device having a recovery processing function, the expansion device itself may perform the recovery processing.

つぎに、拡張デバイス組み込み部13は、前記障害のある拡張デバイスの復旧処理後、前記復旧処理後の拡張デバイスを前記メインユニットに組み込む(S13、拡張デバイス組み込み工程)。前記「拡張デバイスを組み込む」とは、例えば、取り外した前記拡張デバイスのドライバをメインユニットに取り付け、拡張デバイスへのアクセス経路を有効化することにより、前記拡張デバイスにアクセスできるようにすることをいう。 Next, the expansion device embedding unit 13 incorporates the expanded device after the recovery processing into the main unit after the recovery processing of the failed expansion device (S13, expansion device embedding step). The term "embedding the expansion device" means, for example, attaching the removed driver of the expansion device to the main unit and enabling the access route to the expansion device so that the expansion device can be accessed. ..

つぎに、復旧判定部14は、組み込んだ拡張デバイスが復旧したか否かを判定する(S14、復旧判定工程)。前記復旧の判定は、例えば、組み込んだ拡張デバイスに対し、Readアクセスが可能か否か(Readアクセスの成否)、及び、前記ドライバの取り付けの成否(ドライバ組み込みの成否)により判定できる。具体的には、復旧判定部14は、まず、前記組み込んだ拡張デバイスに対し、Readアクセスを試みる。前記Readアクセスに失敗した場合、復旧判定部14は、前記組み込んだ拡張デバイスが復旧に失敗したと判定する。前記Readアクセスに成功した場合、つぎに、復旧判定部14は、前記ドライバの取り付けの成否を判定する。そして、前記ドライバの取り付けが失敗している場合、復旧判定部14は、前記拡張デバイスが復旧に失敗したと判定し、前記ドライバの取り付けが成功している場合、復旧判定部14は、前記拡張デバイスが復旧に成功したと判定する。また、復旧判定部14は、前記ドライバの取り付けが成功したと判定した場合、例えば、さらに、前記拡張デバイスの正常性を確認してもよい。この場合、復旧判定部14は、前記Readアクセスの成功及び前記ドライバ取り付けの成功に加えて、さらに、前記拡張デバイスの正常性が確認された場合に、前記拡張デバイスが復旧に成功したと判定する。なお、前記ドライバの取り付け時において、前記拡張デバイスの正常性を確認しない動作のドライバの場合、及び、障害検出工程において検出した障害が、前記ドライバの取り付け時の拡張デバイスの正常性の確認では復旧を判定できない種類の障害である場合は、例えば、前記拡張デバイスの正常性の確認は行わず、前記Readアクセスの成否及び前記ドライバの取り付け成否の判定により、前記拡張デバイスの復旧を判定してもよい。 Next, the recovery determination unit 14 determines whether or not the incorporated expansion device has been restored (S14, restoration determination step). The recovery determination can be determined, for example, by whether or not Read access is possible (success or failure of Read access) and the success or failure of the driver installation (success or failure of driver installation) with respect to the embedded expansion device. Specifically, the recovery determination unit 14 first attempts Read access to the built-in expansion device. When the Read access fails, the recovery determination unit 14 determines that the built-in expansion device has failed to recover. When the Read access is successful, the recovery determination unit 14 next determines the success or failure of the driver installation. Then, when the driver installation fails, the recovery determination unit 14 determines that the expansion device has failed in recovery, and when the driver installation is successful, the recovery determination unit 14 determines that the expansion device has failed. Determine that the device has been successfully recovered. Further, when the recovery determination unit 14 determines that the driver installation is successful, for example, the recovery determination unit 14 may further confirm the normality of the expansion device. In this case, the recovery determination unit 14 determines that the expansion device has been successfully restored when the normality of the expansion device is confirmed in addition to the success of the Read access and the success of the driver installation. .. In the case of a driver whose operation does not confirm the normality of the extended device when the driver is installed, or when the failure detected in the failure detection process is restored by confirming the normality of the extended device when the driver is installed. If the failure is of a type that cannot be determined, for example, the recovery of the extended device may be determined by determining the success or failure of the Read access and the success or failure of the driver installation without checking the normality of the extended device. good.

そして、前記復旧判定工程において、組み込んだ拡張デバイスが復旧していないと判定された場合(S14、No)、拡張デバイス切り離し部12により、前記拡張デバイスを再度切り離し、S12~S14工程を繰り返す。この際、本装置10の前記記憶部に、前記復旧閾値が記憶されている場合、前記障害検出工程において、復旧閾値を超えて障害を検出した、すなわち、復旧閾値を超えてS12~S14工程の処理を繰り返した拡張デバイスについては、前記拡張デバイス組み込み工程を行わず、処理を終了してもよい。他方、前記復旧判定において、前記拡張デバイスが復旧したと判定された場合(S14、Yes)、処理を終了する(END)。 Then, when it is determined in the recovery determination step that the incorporated expansion device has not been recovered (S14, No), the expansion device disconnection unit 12 disconnects the expansion device again, and the steps S12 to S14 are repeated. At this time, when the recovery threshold value is stored in the storage unit of the present device 10, the failure is detected in the failure detection step in excess of the recovery threshold value, that is, the recovery threshold value is exceeded in the steps S12 to S14. For the expansion device in which the processing is repeated, the processing may be terminated without performing the expansion device incorporating step. On the other hand, when it is determined in the recovery determination that the extended device has been restored (S14, Yes), the process ends (END).

本実施形態の拡張デバイス調停方法によれば、複数の拡張デバイスを備える拡張カードを備えるシステムにおいて、拡張デバイス単位での障害の検出及び復旧が可能となる。このため、本発明によれば、例えば、拡張デバイスの障害発生によるシステム全体への影響をより局所化できるため、システムの可用性を向上できる。 According to the expansion device arbitration method of the present embodiment, in a system including an expansion card including a plurality of expansion devices, it is possible to detect and recover a failure in each expansion device. Therefore, according to the present invention, for example, the influence on the entire system due to the occurrence of a failure of the expansion device can be more localized, so that the availability of the system can be improved.

[実施形態2]
本実施形態の調停装置は、例えば、さらに、拡張カード切り離し部、及び拡張カード組み込み部を含むこと以外は、実施形態1と同様である。
[Embodiment 2]
The arbitration device of the present embodiment is the same as that of the first embodiment except that it further includes, for example, an expansion card disconnection unit and an expansion card incorporation unit.

図4は、本実施形態の調停装置10Aの構成の一例を示すブロック図である。図4に示すように、調停装置10Aは、実施形態の調停装置10に加えて、さらに拡張カード切り離し部15、及び拡張カード組み込み部16を含む。調停装置10Aのハードウェア構成は、中央処理装置101が、図2の調停装置10の構成に加えて、さらに、拡張カード切り離し部15、及び拡張カード組み込み部16として機能する以外は同様である。 FIG. 4 is a block diagram showing an example of the configuration of the arbitration device 10A of the present embodiment. As shown in FIG. 4, the arbitration device 10A further includes an expansion card disconnection unit 15 and an expansion card incorporation unit 16 in addition to the arbitration device 10 of the embodiment. The hardware configuration of the arbitration device 10A is the same except that the central processing unit 101 functions as an expansion card disconnection unit 15 and an expansion card incorporation unit 16 in addition to the configuration of the arbitration device 10 of FIG.

つぎに、実施形態2の調停方法について、図5のフローチャートを用いて説明する。実施形態2の調停方法は、例えば、図4に示す実施形態2の調停装置10Aを用いて実施できる。なお、実施形態2の調停方法は、調停装置10Aの使用には限定されない。 Next, the arbitration method of the second embodiment will be described with reference to the flowchart of FIG. The arbitration method of the second embodiment can be carried out by using, for example, the arbitration device 10A of the second embodiment shown in FIG. The arbitration method of the second embodiment is not limited to the use of the arbitration device 10A.

まず、実施形態1の調停方法におけるS11~S13と同様にして、S11~S13を実施する。 First, S11 to S13 are carried out in the same manner as S11 to S13 in the arbitration method of the first embodiment.

つぎに、復旧判定部14は、組み込んだ拡張デバイスが復旧したか否かを判定する(S114)。組み込んだ拡張デバイスが復旧した場合(S14、Yes)、処理を終了する(END)。他方、組み込んだ拡張デバイスが復旧していない場合(S14、No)、拡張デバイス切り離し部12により、再度、前記拡張デバイスを切り離す(S12’、拡張デバイス切り離し工程)。 Next, the recovery determination unit 14 determines whether or not the incorporated expansion device has been restored (S114). When the embedded expansion device is restored (S14, Yes), the process ends (END). On the other hand, when the incorporated expansion device has not been restored (S14, No), the expansion device disconnection unit 12 disconnects the expansion device again (S12', expansion device disconnection step).

つぎに、拡張カード切り離し部15は、拡張カードが備える複数の拡張デバイス全てが切り離されたか否かを判定し(S15A)、切り離されていない拡張デバイスがある場合(S15A、No)、S11~S14の処理を繰り返す。他方、前記拡張カードが備える複数の拡張デバイスすべてが切り離された場合(S15A、Yes)、拡張カード切り離し部15は、前記拡張カードを切り離す(S15B、拡張カード切り離し工程)。 Next, the expansion card disconnection unit 15 determines whether or not all of the plurality of expansion devices included in the expansion card have been detached (S15A), and if there is an expansion device that has not been detached (S15A, No), S11 to S14. Repeat the process of. On the other hand, when all of the plurality of expansion devices included in the expansion card are disconnected (S15A, Yes), the expansion card disconnection unit 15 disconnects the expansion card (S15B, expansion card disconnection step).

そして、切り離した前記拡張カードについて、公知の復旧処理手段により、復旧処理を行う。前記復旧処理は、例えば、メインユニットからの指示により、前記拡張カードを初期化又は再起動する処理があげられる。また、例えば、前記拡張カード自身が復旧処理機能を備える拡張カードである場合、前記拡張カード自身により、前記復旧処理を行ってもよい。 Then, the separated expansion card is restored by a known restoration processing means. Examples of the recovery process include a process of initializing or restarting the expansion card according to an instruction from the main unit. Further, for example, when the expansion card itself is an expansion card having a recovery processing function, the expansion card itself may perform the recovery processing.

つぎに、拡張カード組み込み部16は、前記拡張カードの復旧処理後、前記復旧処理後の拡張カードを前記メインユニットに組み込む(S16、拡張カード組み込み工程)。前記「拡張カードを組み込む」とは、例えば、取り外した前記拡張カードのドライバをメインユニットに取り付け、拡張カードへのアクセス経路を有効化することにより、前記拡張カードにアクセスできるようにすることをいう。 Next, the expansion card incorporating unit 16 incorporates the expanded card after the restoration process into the main unit after the restoration process of the expansion card (S16, expansion card incorporating step). The term "incorporating an expansion card" means, for example, attaching the driver of the removed expansion card to the main unit and activating the access route to the expansion card so that the expansion card can be accessed. ..

つぎに、復旧判定部14は、組み込んだ拡張カードが復旧したか否かを判定する(S17、復旧判定工程)。前記復旧の判定は、例えば、前記拡張カードが備える拡張デバイスが復旧したか否かにより判定する。具体的に、例えば、S17において、前記拡張カードが復旧したかの判定は、前記拡張カードが備えるすべての拡張デバイスが復旧したと判定された場合に、前記拡張カードが復旧したと判定してもよいし、前記拡張カードが備える拡張デバイスのうち、少なくとも1つの拡張デバイスが復旧したと判定された場合に、前記拡張カードが復旧したと判定してもよいが、前者が好ましい。なお、後者の場合、前記拡張デバイス毎に、後述する優先度及び切り離し閾値が設定されている場合、例えば、前記優先度が、前記切り離し閾値を超えているデバイスについて復旧したと判定された場合、前記拡張カードが復旧したと判定してもよい。なお、S17において、前記各拡張デバイスが復旧したか否かの判定は、例えば、S14と同様にして、判定すればよい。 Next, the recovery determination unit 14 determines whether or not the incorporated expansion card has been restored (S17, restoration determination step). The determination of recovery is determined by, for example, whether or not the expansion device included in the expansion card has been restored. Specifically, for example, in S17, the determination as to whether or not the expansion card has been restored may be determined even if it is determined that the expansion card has been restored when it is determined that all the expansion devices included in the expansion card have been restored. Alternatively, when it is determined that at least one expansion device among the expansion devices included in the expansion card has been restored, it may be determined that the expansion card has been restored, but the former is preferable. In the latter case, when the priority and the disconnection threshold value described later are set for each expansion device, for example, when it is determined that the device whose priority exceeds the disconnection threshold value has been restored. It may be determined that the expansion card has been restored. In S17, whether or not each of the extended devices has been restored may be determined in the same manner as in S14, for example.

そして、前記復旧判定工程において、組み込んだ拡張カードが復旧していないと判定された場合(S17、No)、拡張カード切り離し15により、前記拡張カードを再度切り離し、S15B~S17工程を繰り返す。この際、S14工程と同様に、本装置10の前記記憶部に、拡張カードごとに復旧閾値が記憶されている場合、復旧閾値を超えてS15B~S17工程の処理を繰り返した拡張カードについては、前記拡張カード組み込み工程を行わず、処理を終了してもよい。他方、前記復旧判定工程において、前記拡張カードが復旧したと判定された場合(S17、Yes)、処理を終了する(END)。 Then, when it is determined in the recovery determination step that the incorporated expansion card has not been restored (S17, No), the expansion card is detached again by the expansion card disconnection 15, and the steps S15B to S17 are repeated. At this time, as in the S14 step, when the recovery threshold value is stored in the storage unit of the apparatus 10 for each expansion card, the expansion card that exceeds the recovery threshold value and repeats the processes of the steps S15B to S17 is used. The process may be completed without performing the expansion card incorporating step. On the other hand, when it is determined in the recovery determination step that the expansion card has been restored (S17, Yes), the process ends (END).

本実施形態の拡張デバイス調停方法によれば、複数の拡張デバイスを備える拡張カードを備えるシステムにおいて、拡張デバイス単位での障害の検出及び復旧が可能となる。そして、拡張カードが備えるすべての拡張デバイスの復旧が不能な場合に、拡張カード単位での復旧処理を行うことができる。このため、本実施形態の調停方法によれば、例えば、拡張デバイスの障害発生によるシステム復旧処理を多段化できるため、システム全体への影響を軽減でき、システムの可用性を向上できる。 According to the expansion device arbitration method of the present embodiment, in a system including an expansion card including a plurality of expansion devices, it is possible to detect and recover a failure in each expansion device. Then, when it is impossible to recover all the expansion devices included in the expansion card, the recovery process can be performed for each expansion card. Therefore, according to the arbitration method of the present embodiment, for example, the system recovery process due to the occurrence of a failure of the expansion device can be multi-staged, so that the influence on the entire system can be reduced and the availability of the system can be improved.

[変形例]
拡張カード切り離し部15及び拡張カード組み込み部16による処理は、上記の例示には制限されず、例えば、障害が検出された拡張デバイスの優先度に応じて行ってもよい。
[Modification example]
The processing by the expansion card disconnection unit 15 and the expansion card integration unit 16 is not limited to the above example, and may be performed, for example, according to the priority of the expansion device in which the failure is detected.

変形例の調停方法について、図6のフローチャートを用いて説明する。変形例の調停方法は、例えば、図4に示す実施形態2の調停装置10Aを用いて実施できる。なお、変形例の調停方法は、調停装置10Aの使用には限定されない。 The arbitration method of the modified example will be described with reference to the flowchart of FIG. The arbitration method of the modified example can be carried out by using, for example, the arbitration device 10A of the second embodiment shown in FIG. The arbitration method of the modified example is not limited to the use of the arbitration device 10A.

まず、実施形態1の調停方法におけるS11~S13と同様にして、S11~S13を実施する。 First, S11 to S13 are carried out in the same manner as S11 to S13 in the arbitration method of the first embodiment.

つぎに、復旧判定部14は、組み込んだ拡張デバイスが復旧したか否かを判定する(S114)。組み込んだ拡張デバイスが復旧した場合(S14、Yes)、処理を終了する(END)。他方、組み込んだ拡張デバイスが復旧していない場合(S14、No)、拡張カード切り離し部15は、前記復旧に失敗したと判定された拡張デバイスに設定された優先度が、拡張カード切り離し閾値を超えるか否かを判定する(S15A’)。前記優先度は、例えば、前記拡張カードが備える複数の拡張デバイスにおける、重要度を示す値である。前記優先度は、各拡張デバイス毎に高低が定義されていてもよいし、優先度として、本装置10Aの前記記憶部に、前記拡張デバイス毎に設定された任意の値が記憶されていてもよい。前記拡張カード切り離し閾値は、前記障害が発生した拡張デバイスを備える拡張カードを切り離すか否かを判定するための閾値であり、例えば、各拡張カードが備える拡張デバイスの機能等に応じて適宜設定できる。そして、前記復旧に失敗した拡張デバイスに設定された前記優先度が、前記拡張カード切り離し閾値を超えない場合(S15A’、No)、S12~S14の復旧処理を繰り返す。他方、前記復旧に失敗した拡張デバイスに設定された前記優先度が、前記拡張カード切り離し閾値を超える場合(S15A’、YES)、拡張カード切り離し部15は、前記拡張デバイスを備える拡張カードを切り離す(S15B、拡張カード切り離し工程)。 Next, the recovery determination unit 14 determines whether or not the incorporated expansion device has been restored (S114). When the embedded expansion device is restored (S14, Yes), the process ends (END). On the other hand, when the incorporated expansion device has not been restored (S14, No), in the expansion card disconnection unit 15, the priority set for the expansion device determined to have failed the restoration exceeds the expansion card disconnection threshold value. Whether or not it is determined (S15A'). The priority is, for example, a value indicating the importance in a plurality of expansion devices included in the expansion card. The priority may be defined as high or low for each expansion device, or even if an arbitrary value set for each expansion device is stored in the storage unit of the apparatus 10A as the priority. good. The expansion card disconnection threshold is a threshold for determining whether or not to disconnect an expansion card including the expansion device in which the failure has occurred, and can be appropriately set according to, for example, the function of the expansion device included in each expansion card. .. Then, when the priority set for the expansion device that failed to recover does not exceed the expansion card disconnection threshold value (S15A', No), the recovery processing of S12 to S14 is repeated. On the other hand, when the priority set for the expansion device that failed to recover exceeds the expansion card disconnection threshold value (S15A', YES), the expansion card disconnection unit 15 disconnects the expansion card including the expansion device (S15A', YES). S15B, expansion card disconnection process).

その後、前記実施形態2のS16~S17と同様にして、S16~S17を実施し、処理を終了する(END)。 After that, S16 to S17 are carried out in the same manner as in S16 to S17 of the second embodiment, and the process is terminated (END).

変形例の調停方法によれば、例えば、障害が発生した拡張カード上の拡張デバイスの優先度に応じて、拡張カードごとの復旧処理に切り替えられるため、重要な機能を備える拡張デバイスに障害が発生した場合、速やかに拡張カード単位の復旧処理を行うことができる。 According to the arbitration method of the modified example, for example, the recovery process is switched to each expansion card according to the priority of the expansion device on the expansion card in which the failure occurred, so that the expansion device having an important function fails. If so, the recovery process for each expansion card can be performed promptly.

[実施形態3]
本実施形態のプログラムは、前記各実施形態の方法の各工程を、手順として、コンピュータに実行させるためのプログラムである。本発明において、「手順」は、「処理」と読み替えてもよい。また、本実施形態のプログラムは、例えば、コンピュータ読み取り可能な記録媒体に記録されていてもよい。前記記録媒体は、例えば、非一時的なコンピュータ可読記録媒体(non-transitory computer-readable storage medium)である。前記記録媒体としては、特に限定されず、例えば、HD(ハードディスク)、CD-ROM、CD-R、CD-RW、MO、DVD、フロッピー(登録商標)ディスク(FD)、フラッシュメモリー、メモリーカード等が挙げられる。
[Embodiment 3]
The program of this embodiment is a program for causing a computer to execute each step of the method of each of the above-described embodiments as a procedure. In the present invention, "procedure" may be read as "processing". Further, the program of the present embodiment may be recorded on a computer-readable recording medium, for example. The recording medium is, for example, a non-transitory computer-readable storage medium. The recording medium is not particularly limited, and for example, HD (hard disk), CD-ROM, CD-R, CD-RW, MO, DVD, floppy (registered trademark) disk (FD), flash memory, memory card and the like. Can be mentioned.

以上、実施形態を参照して本発明を説明したが、本発明は、上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。 Although the present invention has been described above with reference to the embodiments, the present invention is not limited to the above embodiments. Various modifications that can be understood by those skilled in the art can be made to the structure and details of the present invention within the scope of the present invention.

<付記>
上記の実施形態の一部又は全部は、以下の付記のように記載されうるが、以下には限られない。
(付記1)
障害検出部、拡張デバイス切り離し部、拡張デバイス組み込み部、及び、復旧判定部を含み、
前記障害検出部は、メインユニットに接続された拡張カードが備える、複数の拡張デバイスについて障害を検出し、
前記拡張デバイス切り離し部は、前記拡張デバイスの障害が検出された場合、前記障害のある拡張デバイスを前記メインユニットから切り離し、
前記拡張デバイス組み込み部は、前記障害のある拡張デバイスの復旧処理後、前記復旧処理後の拡張デバイスを前記メインユニットに組み込み、
前記復旧判定部は、組み込んだ拡張デバイスが復旧したか否かを判定し、
前記拡張デバイス切り離し部は、前記復旧判定部により、組み込んだ拡張デバイスが復旧していないと判定された場合、前記拡張デバイスを再度切り離すことを特徴とする、拡張デバイス調停装置。
(付記2)
前記障害検出部は、下記(1)~(3)からなる群から選択された少なくとも1つの処理により、前記拡張デバイスの障害を検出する、付記1記載の拡張デバイス調停装置:
(1)前記メインユニットから、拡張デバイス障害情報を受信する;
(2)前記障害検出部により、前記拡張デバイスにアクセスして障害を検出する;
(3)前記拡張デバイスから、拡張デバイス障害情報を受信する。
(付記3)
さらに、記憶部を含み、
前記記憶部は、前記拡張デバイスごとの復旧閾値を記憶し、
前記復旧閾値は、前記拡張デバイスの復旧を行う回数であり、
前記拡張デバイス組み込み部は、前記障害検出部により、前記復旧閾値を超えて障害を検出した拡張デバイスについて、メインユニットへの組み込みを行わない、付記1又は2に記載の拡張デバイス調停装置。
(付記4)
拡張カード切り離し部、及び拡張カード組み込み部を含み、
前記拡張カード切り離し部は、前記拡張デバイス切り離し部により、前記複数の拡張デバイスがすべて切り離された場合、前記拡張デバイスを備える前記拡張カードを切り離し、
前記拡張カード組み込み部は、前記拡張カードの復旧処理後、前記復旧処理後の拡張カードを前記メインユニットに組み込み、
前記復旧判定部は、組み込んだ拡張カードが復旧したか否かを判定する、付記1から3のいずれかに記載の拡張デバイス調停装置。
(付記5)
記憶部、拡張カード切り離し部、及び拡張カード組み込み部を含み、
前記記憶部は、前記拡張デバイス毎に、拡張カードの切り離しに関する優先度と、拡張カード切り離し閾値とを記憶し、
前記拡張カード切り離し閾値は、障害が発生した拡張デバイスを備える拡張カードを切り離すか否かを判定するための閾値であり、
前記拡張カード切り離し部は、前記復旧判定部により復旧に失敗したと判定された前記拡張デバイスの前記優先度が、前記拡張カード切り離し閾値を超える場合、前記拡張デバイスを含む拡張カードを切り離し、
前記拡張カード組み込み部は、前記拡張カードの復旧処理後、前記復旧処理後の拡張カードを前記メインユニットに組み込み、
前記復旧判定部は、組み込んだ拡張カードが復旧したか否かを判定する、付記1から4のいずれかに記載の拡張デバイス調停装置。
(付記6)
メインユニットと、拡張カードとを含み、
前記メインユニットは、拡張デバイスの調停装置を備え、
前記拡張カードは、拡張デバイスを複数備え、
前記メインユニットと、前記拡張カードと、前記拡張デバイスの調停装置とは、それぞれのI/Fを介して互いに接続可能であり、
前記拡張デバイスの調停装置は、付記1から5のいずれか一向に記載の拡張デバイス調停装置である、障害復旧システム装置。
(付記7)
障害検出工程、拡張デバイス切り離し工程、拡張デバイス組み込み工程、及び、復旧判定工程を含み、
前記障害検出工程は、メインユニットに接続された拡張カードが備える、複数の拡張デバイスについて障害を検出し、
前記拡張デバイス切り離し工程は、前記拡張デバイスの障害が検出された場合、前記障害のある拡張デバイスを前記メインユニットから切り離し、
前記拡張デバイス組み込み工程は、前記障害のある拡張デバイスの復旧処理後、前記復旧処理後の拡張デバイスを前記メインユニットに組み込み、
前記復旧判定工程は、組み込んだ拡張デバイスが復旧したか否かを判定し、
前記拡張デバイス切り離し工程は、前記復旧判定工程により、組み込んだ拡張デバイスが復旧していないと判定された場合、前記拡張デバイスを再度切り離すことを特徴とする、拡張デバイス調停方法。
(付記8)
前記障害検出工程は、下記(1)~(3)からなる群から選択された少なくとも1つの処理により、前記拡張デバイスの障害を検出する、付記7記載の拡張デバイス調停方法:
(1)前記メインユニットから、拡張デバイス障害情報を受信する;
(2)前記障害検出工程により、前記拡張デバイスにアクセスして障害を検出する;
(3)前記拡張デバイスから、拡張デバイス障害情報を受信する。
(付記9)
拡張デバイスごとの復旧閾値を使用し、
前記復旧閾値は、前記拡張デバイスの復旧を行う回数であり、
前記拡張デバイス組み込み工程は、前記障害検出工程により、前記復旧閾値を超えて障害を検出した拡張デバイスについて、メインユニットへの組み込みを行わない、付記7又は8に記載の拡張デバイス調停方法。
(付記10)
拡張カード切り離し工程、及び拡張カード組み込み工程を含み、
前記拡張カード切り離し工程は、前記拡張デバイス切り離し工程により、前記複数の拡張デバイスがすべて切り離された場合、前記拡張デバイスを備える前記拡張カードを切り離し、
前記拡張カード組み込み工程は、前記拡張カードの復旧処理後、前記復旧処理後の拡張カードを前記メインユニットに組み込み、
前記復旧判定工程は、組み込んだ拡張カードが復旧したか否かを判定する、付記7から9のいずれかに記載の拡張デバイス調停方法。
(付記11)
拡張カード切り離し工程、及び拡張カード組み込み工程を含み、
拡張カードの切り離しに関する優先度と、拡張カード切り離し閾値とを使用し、
前記拡張カード切り離し閾値は、障害が発生した拡張デバイスを備える拡張カードを切り離すか否かを判定するための閾値であり、
前記拡張カード切り離し工程は、前記復旧判定工程により復旧に失敗したと判定された前記拡張デバイスの前記優先度が、前記拡張カード切り離し閾値を超える場合、前記拡張デバイスを含む拡張カードを切り離し、
前記拡張カード組み込み工程は、前記拡張カードの復旧処理後、前記復旧処理後の拡張カードを前記メインユニットに組み込み、
前記復旧判定工程は、組み込んだ拡張カードが復旧したか否かを判定する、付記7から9のいずれかに記載の拡張デバイス調停方法。
(付記12)
コンピュータに、障害検出手順、拡張デバイス切り離し手順、拡張デバイス組み込み手順、及び、復旧判定手順を実行させるためのプログラムであって、
前記障害検出手順は、メインユニットに接続された拡張カードが備える、複数の拡張デバイスについて障害を検出し、
前記拡張デバイス切り離し手順は、前記拡張デバイスの障害が検出された場合、前記障害のある拡張デバイスを前記メインユニットから切り離し、
前記拡張デバイス組み込み手順は、前記障害のある拡張デバイスの復旧処理後、前記復旧処理後の拡張デバイスを前記メインユニットに組み込み、
前記復旧判定手順は、組み込んだ拡張デバイスが復旧したか否かを判定し、
前記拡張デバイス切り離し手順は、前記復旧判定手順により、組み込んだ拡張デバイスが復旧していないと判定された場合、前記拡張デバイスを再度切り離すことを特徴とする、プログラム。
(付記13)
前記障害検出手順は、下記(1)~(3)からなる群から選択された少なくとも1つの処理により、前記拡張デバイスの障害を検出する、付記12記載のプログラム:
(1)前記メインユニットから、拡張デバイス障害情報を受信する;
(2)前記障害検出手順により、前記拡張デバイスにアクセスして障害を検出する;
(3)前記拡張デバイスから、拡張デバイス障害情報を受信する。
(付記14)
拡張デバイスごとの復旧閾値を使用し、
前記復旧閾値は、前記拡張デバイスの復旧を行う回数であり、
前記拡張デバイス組み込み手順は、前記障害検出手順により、前記復旧閾値を超えて障害を検出した拡張デバイスについて、メインユニットへの組み込みを行わない、付記12又は13に記載のプログラム。
(付記15)
拡張カード切り離し手順、及び拡張カード組み込み手順を含み、
前記拡張カード切り離し手順は、前記拡張デバイス切り離し手順により、前記複数の拡張デバイスがすべて切り離された場合、前記拡張デバイスを備える前記拡張カードを切り離し、
前記拡張カード組み込み手順は、前記拡張カードの復旧処理後、前記復旧処理後の拡張カードを前記メインユニットに組み込み、
前記復旧判定手順は、組み込んだ拡張カードが復旧したか否かを判定する、付記12から14のいずれかに記載のプログラム。
(付記16)
拡張カード切り離し手順、及び拡張カード組み込み手順を含み、
前記拡張デバイス毎の拡張カードの切り離しに関する優先度と、拡張カード切り離し閾値とを使用し、
前記拡張カード切り離し閾値は、障害が発生した拡張デバイスを備える拡張カードを切り離すか否かを判定するための閾値であり、
前記拡張カード切り離し手順は、前記復旧判定手順により復旧に失敗したと判定された前記拡張デバイスの前記優先度が、前記拡張カード切り離し閾値を超える場合、前記拡張デバイスを含む拡張カードを切り離し、
前記拡張カード組み込み手順は、前記拡張カードの復旧処理後、前記復旧処理後の拡張カードを前記メインユニットに組み込み、
前記復旧判定手順は、組み込んだ拡張カードが復旧したか否かを判定する、付記12から15のいずれかに記載のプログラム。
(付記17)
付記12から16のいずれかに記載のプログラムを記録しているコンピュータ読み取り可能な記録媒体。
<Additional notes>
Some or all of the above embodiments may be described as, but not limited to, the following appendixes.
(Appendix 1)
Includes a failure detection unit, an expansion device disconnection unit, an expansion device integration unit, and a recovery determination unit.
The failure detection unit detects failures in a plurality of expansion devices included in the expansion card connected to the main unit, and detects failures.
When a failure of the expansion device is detected, the expansion device disconnection unit disconnects the failed expansion device from the main unit.
After the recovery process of the failed expansion device, the expansion device embedded unit incorporates the expanded device after the recovery process into the main unit.
The recovery determination unit determines whether or not the incorporated expansion device has been restored, and determines whether or not the embedded expansion device has been restored.
The expansion device arbitration device is characterized in that the expansion device disconnection unit disconnects the expansion device again when the recovery determination unit determines that the incorporated expansion device has not been restored.
(Appendix 2)
The extended device arbitration device according to Appendix 1, wherein the failure detection unit detects a failure of the extended device by at least one process selected from the group consisting of the following (1) to (3).
(1) Receive extended device failure information from the main unit;
(2) The failure detection unit accesses the expansion device to detect a failure;
(3) Receive extended device failure information from the extended device.
(Appendix 3)
In addition, it includes a storage unit
The storage unit stores the recovery threshold value for each expansion device, and stores the recovery threshold value.
The recovery threshold is the number of times the extended device is recovered.
The expansion device arbitration device according to Appendix 1 or 2, wherein the expansion device incorporating unit does not incorporate the expansion device that has detected a failure exceeding the recovery threshold into the main unit by the failure detection unit.
(Appendix 4)
Includes expansion card disconnection section and expansion card integration section
When all the plurality of expansion devices are separated by the expansion device disconnection unit, the expansion card disconnection unit disconnects the expansion card including the expansion device.
After the expansion card is restored, the expansion card incorporating unit incorporates the expanded card after the restoration process into the main unit.
The expansion device arbitration device according to any one of Supplementary note 1 to 3, wherein the recovery determination unit determines whether or not the incorporated expansion card has been restored.
(Appendix 5)
Includes storage, expansion card detachment, and expansion card integration
The storage unit stores the priority regarding the disconnection of the expansion card and the expansion card disconnection threshold value for each expansion device.
The expansion card disconnection threshold is a threshold for determining whether or not to disconnect an expansion card including an expansion device in which a failure has occurred.
When the priority of the expansion device determined to have failed in recovery by the recovery determination unit exceeds the expansion card disconnection threshold value, the expansion card disconnection unit disconnects the expansion card including the expansion device.
After the expansion card is restored, the expansion card incorporating unit incorporates the expanded card after the restoration process into the main unit.
The expansion device arbitration device according to any one of Supplementary note 1 to 4, wherein the recovery determination unit determines whether or not the incorporated expansion card has been restored.
(Appendix 6)
Including main unit and expansion card
The main unit comprises an expansion device arbitrator.
The expansion card is equipped with a plurality of expansion devices.
The main unit, the expansion card, and the arbitration device of the expansion device can be connected to each other via their respective I / Fs.
The expansion device arbitration device is a failure recovery system device, which is the expansion device arbitration device according to any one of Supplementary note 1 to 5.
(Appendix 7)
Includes failure detection process, expansion device disconnection process, expansion device installation process, and recovery determination process.
In the failure detection step, a failure is detected for a plurality of expansion devices included in the expansion card connected to the main unit.
In the expansion device disconnection step, when a failure of the expansion device is detected, the expansion device with the failure is disconnected from the main unit.
In the expansion device embedding step, after the recovery processing of the failed expansion device, the expansion device after the recovery processing is incorporated into the main unit.
The recovery determination step determines whether or not the incorporated expansion device has been restored, and determines whether or not the embedded expansion device has been restored.
The expansion device arbitration method is characterized in that, when it is determined by the recovery determination step that the incorporated expansion device has not been restored, the expansion device disconnection step disconnects the expansion device again.
(Appendix 8)
The extended device arbitration method according to Appendix 7, wherein the failure detection step detects a failure of the extended device by at least one process selected from the group consisting of the following (1) to (3).
(1) Receive extended device failure information from the main unit;
(2) By the failure detection step, the extended device is accessed and a failure is detected;
(3) Receive extended device failure information from the extended device.
(Appendix 9)
Using the recovery threshold for each expansion device,
The recovery threshold is the number of times the extended device is recovered.
The expansion device arbitration method according to Supplementary note 7 or 8, wherein the expansion device incorporation step does not incorporate the expansion device that has detected a failure exceeding the recovery threshold value into the main unit by the failure detection step.
(Appendix 10)
Including expansion card disconnection process and expansion card installation process
In the expansion card disconnection step, when all the plurality of expansion devices are detached by the expansion device disconnection step, the expansion card including the expansion device is detached.
In the expansion card incorporating step, after the expansion card is restored, the expanded card after the restoration process is incorporated into the main unit.
The expansion device arbitration method according to any one of Supplementary note 7 to 9, wherein the recovery determination step determines whether or not the incorporated expansion card has been restored.
(Appendix 11)
Including expansion card disconnection process and expansion card installation process
Using the expansion card detachment priority and the expansion card detachment threshold,
The expansion card disconnection threshold is a threshold for determining whether or not to disconnect an expansion card including an expansion device in which a failure has occurred.
In the expansion card disconnection step, when the priority of the expansion device determined to have failed in recovery by the recovery determination step exceeds the expansion card disconnection threshold value, the expansion card including the expansion device is detached.
In the expansion card incorporating step, after the expansion card is restored, the expanded card after the restoration process is incorporated into the main unit.
The expansion device arbitration method according to any one of Supplementary note 7 to 9, wherein the recovery determination step determines whether or not the incorporated expansion card has been restored.
(Appendix 12)
A program for causing a computer to perform a failure detection procedure, an extended device disconnection procedure, an extended device installation procedure, and a recovery determination procedure.
The failure detection procedure detects failures for a plurality of expansion devices included in an expansion card connected to the main unit.
The expansion device disconnection procedure disconnects the failed expansion device from the main unit when a failure of the expansion device is detected.
In the expansion device embedding procedure, after the recovery process of the failed expansion device, the expansion device after the recovery process is incorporated into the main unit.
The recovery determination procedure determines whether or not the embedded extended device has been restored.
The expansion device disconnection procedure is a program comprising disconnecting the expansion device again when it is determined by the recovery determination procedure that the incorporated expansion device has not been restored.
(Appendix 13)
The program according to Appendix 12, wherein the failure detection procedure detects a failure of the extended device by at least one process selected from the group consisting of the following (1) to (3).
(1) Receive extended device failure information from the main unit;
(2) By the failure detection procedure, the extended device is accessed to detect a failure;
(3) Receive extended device failure information from the extended device.
(Appendix 14)
Using the recovery threshold for each expansion device,
The recovery threshold is the number of times the extended device is recovered.
The program according to Appendix 12 or 13, wherein the expansion device incorporation procedure does not incorporate the expansion device that has detected a failure exceeding the recovery threshold value into the main unit by the failure detection procedure.
(Appendix 15)
Including expansion card disconnection procedure and expansion card installation procedure
In the expansion card disconnection procedure, when all the plurality of expansion devices are detached by the expansion device disconnection procedure, the expansion card including the expansion device is detached.
In the expansion card incorporating procedure, after the expansion card is restored, the expanded card after the restoration process is incorporated into the main unit.
The recovery determination procedure is the program according to any one of Supplementary note 12 to 14, which determines whether or not the incorporated expansion card has been restored.
(Appendix 16)
Including expansion card disconnection procedure and expansion card installation procedure
Using the expansion card detachment priority for each expansion device and the expansion card detachment threshold,
The expansion card disconnection threshold is a threshold for determining whether or not to disconnect an expansion card including an expansion device in which a failure has occurred.
In the expansion card disconnection procedure, when the priority of the expansion device determined to have failed in recovery by the recovery determination procedure exceeds the expansion card disconnection threshold value, the expansion card including the expansion device is detached.
In the expansion card incorporating procedure, after the expansion card is restored, the expanded card after the restoration process is incorporated into the main unit.
The recovery determination procedure is the program according to any one of Supplementary note 12 to 15, which determines whether or not the incorporated expansion card has been restored.
(Appendix 17)
A computer-readable recording medium recording the program according to any one of Supplementary Notes 12 to 16.

本発明によれば、複数の拡張デバイスを備える拡張カードを備えるシステムにおいて、拡張デバイス単位での障害の検出及び復旧が可能となる。このため、本発明によれば、例えば、拡張デバイスの障害発生によるシステム全体への影響をより局所化できるため、システムの可用性を向上できる。したがって、本発明は、例えば、コンピュータシステムに関する広範な分野において好適に利用可能である。 According to the present invention, in a system including an expansion card including a plurality of expansion devices, it is possible to detect and recover a failure in each expansion device. Therefore, according to the present invention, for example, the influence on the entire system due to the occurrence of a failure of the expansion device can be more localized, so that the availability of the system can be improved. Therefore, the present invention can be suitably used in a wide range of fields related to computer systems, for example.

10、10A 調停装置
11 障害検出部
12 拡張デバイス切り離し部
13 拡張デバイス組み込み部
14 復旧判定部
15 拡張カード切り離し部
16 拡張カード組み込み部
20 障害復旧システム装置
21 メインユニット
22 バス
23 拡張カード(PCIカード)
101 中央演算処理装置(CPU)
102 メモリ
103 バス
104 入力装置
105 表示装置
106 通信デバイス
107 記憶装置(記憶部)
10, 10A Mediation device 11 Failure detection unit 12 Expansion device disconnection unit 13 Expansion device integration unit 14 Recovery judgment unit 15 Expansion card disconnection unit 16 Expansion card installation unit 20 Failure recovery system device 21 Main unit 22 Bus 23 Expansion card (PCI card)
101 Central processing unit (CPU)
102 Memory 103 Bus 104 Input device 105 Display device 106 Communication device 107 Storage device (storage unit)

Claims (10)

障害検出部、拡張デバイス切り離し部、拡張デバイス組み込み部、及び、復旧判定部を含み、
前記障害検出部は、メインユニットに接続された拡張カードが備える、複数の拡張デバイスについて障害を検出し、
前記拡張デバイス切り離し部は、前記拡張デバイスの障害が検出された場合、前記障害のある拡張デバイスを前記メインユニットから切り離し、
前記拡張デバイス組み込み部は、前記障害のある拡張デバイスの復旧処理後、前記復旧処理後の拡張デバイスを前記メインユニットに組み込み、
前記復旧判定部は、組み込んだ拡張デバイスが復旧したか否かを判定し、
前記拡張デバイス切り離し部は、前記復旧判定部により、組み込んだ拡張デバイスが復旧していないと判定された場合、前記拡張デバイスを再度切り離すことを特徴とする、拡張デバイス調停装置。
Includes a failure detection unit, an expansion device disconnection unit, an expansion device integration unit, and a recovery determination unit.
The failure detection unit detects failures in a plurality of expansion devices included in the expansion card connected to the main unit, and detects failures.
When a failure of the expansion device is detected, the expansion device disconnection unit disconnects the failed expansion device from the main unit.
After the recovery process of the failed expansion device, the expansion device embedded unit incorporates the expanded device after the recovery process into the main unit.
The recovery determination unit determines whether or not the incorporated expansion device has been restored, and determines whether or not the embedded expansion device has been restored.
The expansion device arbitration device is characterized in that the expansion device disconnection unit disconnects the expansion device again when the recovery determination unit determines that the incorporated expansion device has not been restored.
前記障害検出部は、下記(1)~(3)からなる群から選択された少なくとも1つの処理により、前記拡張デバイスの障害を検出する、請求項1記載の拡張デバイス調停装置:
(1)前記メインユニットから、拡張デバイス障害情報を受信する;
(2)前記障害検出部により、前記拡張デバイスにアクセスして障害を検出する;
(3)前記拡張デバイスから、拡張デバイス障害情報を受信する。
The extended device arbitration device according to claim 1, wherein the failure detection unit detects a failure of the extended device by at least one process selected from the group consisting of the following (1) to (3).
(1) Receive extended device failure information from the main unit;
(2) The failure detection unit accesses the expansion device to detect a failure;
(3) Receive extended device failure information from the extended device.
さらに、記憶部を含み、
前記記憶部は、前記拡張デバイスごとの復旧閾値を記憶し、
前記復旧閾値は、前記拡張デバイスの復旧を行う回数であり、
前記拡張デバイス組み込み部は、前記障害検出部により、前記復旧閾値を超えて障害を検出した拡張デバイスについて、メインユニットへの組み込みを行わない、請求項1又は2に記載の拡張デバイス調停装置。
In addition, it includes a storage unit
The storage unit stores the recovery threshold value for each expansion device, and stores the recovery threshold value.
The recovery threshold is the number of times the extended device is recovered.
The extended device arbitration device according to claim 1 or 2, wherein the extended device built-in unit does not incorporate the extended device that has detected a failure exceeding the recovery threshold into the main unit by the failure detection unit.
拡張カード切り離し部、及び拡張カード組み込み部を含み、
前記拡張カード切り離し部は、前記拡張デバイス切り離し部により、前記複数の拡張デバイスがすべて切り離された場合、前記拡張デバイスを備える前記拡張カードを切り離し、
前記拡張カード組み込み部は、前記拡張カードの復旧処理後、前記復旧処理後の拡張カードを前記メインユニットに組み込み、
前記復旧判定部は、組み込んだ拡張カードが復旧したか否かを判定する、請求項1から3のいずれか一項に記載の拡張デバイス調停装置。
Includes expansion card disconnection section and expansion card integration section
When all the plurality of expansion devices are separated by the expansion device disconnection unit, the expansion card disconnection unit disconnects the expansion card including the expansion device.
After the expansion card is restored, the expansion card incorporating unit incorporates the expanded card after the restoration process into the main unit.
The expansion device arbitration device according to any one of claims 1 to 3, wherein the recovery determination unit determines whether or not the incorporated expansion card has been restored.
記憶部、拡張カード切り離し部、及び拡張カード組み込み部を含み、
前記記憶部は、前記拡張デバイス毎に、拡張カードの切り離しに関する優先度と、拡張カード切り離し閾値とを記憶し、
前記拡張カード切り離し閾値は、障害が発生した拡張デバイスを備える拡張カードを切り離すか否かを判定するための閾値であり、
前記拡張カード切り離し部は、前記復旧判定部により復旧に失敗したと判定された前記拡張デバイスの前記優先度が、前記拡張カード切り離し閾値を超える場合、前記拡張デバイスを含む拡張カードを切り離し、
前記拡張カード組み込み部は、前記拡張カードの復旧処理後、前記復旧処理後の拡張カードを前記メインユニットに組み込み、
前記復旧判定部は、組み込んだ拡張カードが復旧したか否かを判定する、請求項1から4のいずれか一項に記載の拡張デバイス調停装置。
Includes storage, expansion card detachment, and expansion card integration
The storage unit stores the priority regarding the disconnection of the expansion card and the expansion card disconnection threshold value for each expansion device.
The expansion card disconnection threshold is a threshold for determining whether or not to disconnect an expansion card including an expansion device in which a failure has occurred.
When the priority of the expansion device determined to have failed in recovery by the recovery determination unit exceeds the expansion card disconnection threshold value, the expansion card disconnection unit disconnects the expansion card including the expansion device.
After the expansion card is restored, the expansion card incorporating unit incorporates the expanded card after the restoration process into the main unit.
The expansion device arbitration device according to any one of claims 1 to 4, wherein the recovery determination unit determines whether or not the incorporated expansion card has been restored.
メインユニットと、拡張カードとを含み、
前記メインユニットは、拡張デバイスの調停装置を備え、
前記拡張カードは、拡張デバイスを複数備え、
前記メインユニットと、前記拡張カードと、前記拡張デバイスの調停装置とは、それぞれのI/Fを介して互いに接続可能であり、
前記拡張デバイスの調停装置は、請求項1から5のいずれか一向に記載の拡張デバイス調停装置である、障害復旧システム装置。
Including main unit and expansion card
The main unit comprises an expansion device arbitrator.
The expansion card is equipped with a plurality of expansion devices.
The main unit, the expansion card, and the arbitration device of the expansion device can be connected to each other via their respective I / Fs.
The expansion device arbitration device is a failure recovery system device, which is the expansion device arbitration device according to any one of claims 1 to 5.
障害検出工程、拡張デバイス切り離し工程、拡張デバイス組み込み工程、及び、復旧判定工程を含み、
前記障害検出工程は、メインユニットに接続された拡張カードが備える、複数の拡張デバイスについて障害を検出し、
前記拡張デバイス切り離し工程は、前記拡張デバイスの障害が検出された場合、前記障害のある拡張デバイスを前記メインユニットから切り離し、
前記拡張デバイス組み込み工程は、前記障害のある拡張デバイスの復旧処理後、前記復旧処理後の拡張デバイスを前記メインユニットに組み込み、
前記復旧判定工程は、組み込んだ拡張デバイスが復旧したか否かを判定し、
前記拡張デバイス切り離し工程は、前記復旧判定工程により、組み込んだ拡張デバイスが復旧していないと判定された場合、前記拡張デバイスを再度切り離すことを特徴とする、拡張デバイス調停方法。
Includes failure detection process, expansion device disconnection process, expansion device installation process, and recovery determination process.
In the failure detection step, a failure is detected for a plurality of expansion devices included in the expansion card connected to the main unit.
In the expansion device disconnection step, when a failure of the expansion device is detected, the expansion device with the failure is disconnected from the main unit.
In the expansion device embedding step, after the recovery processing of the failed expansion device, the expansion device after the recovery processing is incorporated into the main unit.
The recovery determination step determines whether or not the incorporated expansion device has been restored, and determines whether or not the embedded expansion device has been restored.
The expansion device arbitration method is characterized in that, when it is determined by the recovery determination step that the incorporated expansion device has not been restored, the expansion device disconnection step disconnects the expansion device again.
前記障害検出工程は、下記(1)~(3)からなる群から選択された少なくとも1つの処理により、前記拡張デバイスの障害を検出する、請求項7記載の拡張デバイス調停方法:
(1)前記メインユニットから、拡張デバイス障害情報を受信する;
(2)前記障害検出工程により、前記拡張デバイスにアクセスして障害を検出する;
(3)前記拡張デバイスから、拡張デバイス障害情報を受信する。
The extended device arbitration method according to claim 7, wherein the failure detection step detects a failure of the extended device by at least one process selected from the group consisting of the following (1) to (3).
(1) Receive extended device failure information from the main unit;
(2) By the failure detection step, the extended device is accessed and a failure is detected;
(3) Receive extended device failure information from the extended device.
コンピュータに、障害検出手順、拡張デバイス切り離し手順、拡張デバイス組み込み手順、及び、復旧判定手順を実行させるためのプログラムであって、
前記障害検出手順は、メインユニットに接続された拡張カードが備える、複数の拡張デバイスについて障害を検出し、
前記拡張デバイス切り離し手順は、前記拡張デバイスの障害が検出された場合、前記障害のある拡張デバイスを前記メインユニットから切り離し、
前記拡張デバイス組み込み手順は、前記障害のある拡張デバイスの復旧処理後、前記復旧処理後の拡張デバイスを前記メインユニットに組み込み、
前記復旧判定手順は、組み込んだ拡張デバイスが復旧したか否かを判定し、
前記拡張デバイス切り離し手順は、前記復旧判定手順により、組み込んだ拡張デバイスが復旧していないと判定された場合、前記拡張デバイスを再度切り離すことを特徴とする、プログラム。
A program for causing a computer to perform a failure detection procedure, an extended device disconnection procedure, an extended device installation procedure, and a recovery determination procedure.
The failure detection procedure detects failures for a plurality of expansion devices included in an expansion card connected to the main unit.
The expansion device disconnection procedure disconnects the failed expansion device from the main unit when a failure of the expansion device is detected.
In the expansion device embedding procedure, after the recovery process of the failed expansion device, the expansion device after the recovery process is incorporated into the main unit.
The recovery determination procedure determines whether or not the embedded extended device has been restored.
The expansion device disconnection procedure is a program comprising disconnecting the expansion device again when it is determined by the recovery determination procedure that the incorporated expansion device has not been restored.
請求項9記載のプログラムを記録しているコンピュータ読み取り可能な記録媒体。 A computer-readable recording medium on which the program according to claim 9 is recorded.
JP2020177864A 2020-10-23 2020-10-23 Expansion device arbitration apparatus, expansion device arbitration method, failure recovery system apparatus, program, and recording media Pending JP2022068986A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020177864A JP2022068986A (en) 2020-10-23 2020-10-23 Expansion device arbitration apparatus, expansion device arbitration method, failure recovery system apparatus, program, and recording media

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020177864A JP2022068986A (en) 2020-10-23 2020-10-23 Expansion device arbitration apparatus, expansion device arbitration method, failure recovery system apparatus, program, and recording media

Publications (1)

Publication Number Publication Date
JP2022068986A true JP2022068986A (en) 2022-05-11

Family

ID=81521834

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020177864A Pending JP2022068986A (en) 2020-10-23 2020-10-23 Expansion device arbitration apparatus, expansion device arbitration method, failure recovery system apparatus, program, and recording media

Country Status (1)

Country Link
JP (1) JP2022068986A (en)

Similar Documents

Publication Publication Date Title
JP4723290B2 (en) Disk array device and control method thereof
US8843680B2 (en) Storage system having SAS as its backend communication standard
US7904744B2 (en) Data storage using multiple protocols
JP5915086B2 (en) Switching control device, switching control method, information processing device, and switching control program
US20110320706A1 (en) Storage apparatus and method for controlling the same
US7568119B2 (en) Storage control device and storage control device path switching method
CN104036043A (en) High availability method of MYSQL and managing node
US8015434B2 (en) Management apparatus, storage system, and storage apparatus management method
US8073993B2 (en) Management of redundant physical data paths in a computing system
CN102187311A (en) Methods and systems for recovering a computer system using a storage area network
WO2024113818A1 (en) Switch reset system and method, non-volatile readable storage medium, and electronic device
US8589598B2 (en) Management of redundant physical data paths in a computing system
US20130232377A1 (en) Method for reusing resource and storage sub-system using the same
JP4500346B2 (en) Storage system
JP2022068986A (en) Expansion device arbitration apparatus, expansion device arbitration method, failure recovery system apparatus, program, and recording media
JPWO2007094041A1 (en) Server management apparatus and server management program
US20100023801A1 (en) Method to recover from ungrouped logical path failures
US10203963B2 (en) Method for configuring storage system connection, device and storage system
KR20050120856A (en) A method for upgrading and restoring embeded systems by using usb memory device
CN102081579A (en) Cache image system and method for storage equipment with dual controllers
JP4915113B2 (en) Bus system, reset initialize circuit, and fault recovery method in bus system
JP2001175545A (en) Server system, fault diagnosing method, and recording medium
JP6942655B2 (en) Route control device, control method, control program and storage system
US10977107B2 (en) Apparatus and method to control a storage device
JP4294568B2 (en) Disk array device and control method thereof

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220630

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230904

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240614

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240625