JPWO2013108351A1 - Computer system and logical storage area management method - Google Patents
Computer system and logical storage area management method Download PDFInfo
- Publication number
- JPWO2013108351A1 JPWO2013108351A1 JP2013554106A JP2013554106A JPWO2013108351A1 JP WO2013108351 A1 JPWO2013108351 A1 JP WO2013108351A1 JP 2013554106 A JP2013554106 A JP 2013554106A JP 2013554106 A JP2013554106 A JP 2013554106A JP WO2013108351 A1 JPWO2013108351 A1 JP WO2013108351A1
- Authority
- JP
- Japan
- Prior art keywords
- computer
- storage area
- logical storage
- storage medium
- logical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2041—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with more than one idle spare processing component
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Hardware Redundancy (AREA)
Abstract
一般的な計算機を用いて、耐故障機能を有する共有ストレージを構築可能な計算機システムを提供することを目的とする。複数の計算機を備える計算機システムであって、計算機は、複数の計算機の各々の記憶媒体が提供する記憶領域を用いて論理記憶領域を生成する冗長化処理部と、論理記憶領域を用いて前記サービスを提供するサービス提供部とを有し、冗長化処理部は、主系計算機及び副系計算機の記憶媒体が提供する記憶領域を用いて論理記憶領域を生成し、論理記憶領域と、論理記憶領域を構成する主系計算機及び副系計算機の記憶媒体との対応関係を含む冗長化情報を生成し、主系計算機及び副系計算機の記憶媒体に冗長化情報を書き込み、論理記憶領域をサービス提供部に提供して、サービスの開始を命令し、アクセス要求を受信した場合に、冗長化情報を参照して論理記憶領域にアクセスする。An object of the present invention is to provide a computer system capable of constructing a shared storage having a fault tolerance function using a general computer. A computer system including a plurality of computers, wherein the computer uses a storage area provided by each storage medium of the plurality of computers to generate a logical storage area, and the service using the logical storage area. The redundancy processing unit generates a logical storage area using the storage areas provided by the storage medium of the primary computer and the secondary computer, the logical storage area, and the logical storage area The redundant information including the correspondence with the storage medium of the primary computer and the secondary computer constituting the system is generated, the redundant information is written in the storage medium of the primary computer and the secondary computer, and the logical storage area is provided as a service providing unit. When the access request is received, the logical storage area is accessed with reference to the redundancy information.
Description
本発明は、複数の計算機を用いて構築された分散共有ファイルシステムに関する。特に、耐故障機能を有する共有ストレージを構築可能な計算機システム及び共有ストレージの管理方法に関する。 The present invention relates to a distributed shared file system constructed using a plurality of computers. In particular, the present invention relates to a computer system capable of constructing a shared storage having a fault tolerance function and a shared storage management method.
複数の計算機から構成される計算機システムでは、一台の計算機に故障が発生して場合であってもシステム全体として動作を継続できる耐故障機能が求められる。 A computer system composed of a plurality of computers is required to have a fault-tolerant function capable of continuing operation as a whole system even when a failure occurs in one computer.
耐故障機能としては、通常使用する主系計算機と、主系計算機の故障に備えて待機する副系計算機とを準備し、主系計算機に故障が発生した場合に副系計算機が動作を引き継ぐ方式が採られる。この場合、主系計算機と副系計算機とが共有ストレージを有し、主系計算機によって変更されたストレージの内容を副系計算機が引き継ぐことができるように構成される。 As a fault-tolerant function, there is a method that prepares a primary computer that is normally used and a secondary computer that stands by in preparation for a failure of the primary computer, and when the primary computer fails, the secondary computer takes over the operation. Taken. In this case, the main computer and the sub computer have a shared storage, and the sub computer can take over the contents of the storage changed by the main computer.
しかし、前述したような構成では、副系計算機が動作を引き継いだ後に、意図せず主系計算機が共有ストレージへアクセスすることによって、データを破壊する可能性がある。前述したようなデータ破壊の危険性を排除するため、共有ストレージに対するアクセスの排他制御が必要である。 However, in the configuration as described above, there is a possibility that the data is destroyed when the primary computer unintentionally accesses the shared storage after the secondary computer takes over the operation. In order to eliminate the risk of data destruction as described above, exclusive control of access to the shared storage is necessary.
例えば、特許文献1には、機能正否監視手段によって機能の停止が検出された場合に、複数のノードが共有ディスクに対して該共有ディスクの占有を指示するコマンドを発行し、占有権を取得したノードのみが共有ディスクの制御を可能にする方式が開示されている。 For example, in Patent Document 1, when a function stoppage is detected by the function correctness monitoring unit, a plurality of nodes issue commands to instruct the shared disk to occupy the shared disk, and acquire the occupation right A method is disclosed in which only a node can control a shared disk.
一般的に、前述したような共有ストレージは、専用のストレージシステムを用いて構成される。前述したような複数の計算機が共有して使用できる記憶領域を提供する機能(以下、共有機能と記載する)、及び、排他制御の機能は、当該ストレージシステムが備える。そのため、一般的な計算機だけでは共有ストレージを構成できない問題がある。 Generally, the shared storage as described above is configured using a dedicated storage system. The storage system includes a function for providing a storage area that can be shared and used by a plurality of computers as described above (hereinafter referred to as a shared function) and an exclusive control function. Therefore, there is a problem that the shared storage cannot be configured only with a general computer.
例えば、特許文献1は、計算機とは別に、外部に専用の共有ストレージ装置を用意しているが、計算機が有する記憶装置を用いて共有ストレージを構成するものではない。 For example, Patent Document 1 prepares a dedicated shared storage device outside the computer, but does not constitute a shared storage using a storage device included in the computer.
また、計算機が有する記憶装置を用いて共有ストレージを構成した場合に、1台の計算機に障害が発生した場合に、共有ストレージをどのように制御するかについては記載されていない。 Also, there is no description on how to control the shared storage when a failure occurs in one computer when the shared storage is configured using a storage device included in the computer.
例えば、複数の計算機が有する記憶装置を用いて構成された共有ストレージを利用する場合、1台の計算機に障害が発生すると、共有ストレージに障害が発生した状態となる。そのため、主系計算機又は副系計算機は、当該共有ストレージを用いてサービスを継続することできない。特許文献1には、共有ストレージの障害を認識されることなく、サービスを継続する構成については記載されていない。 For example, when a shared storage configured using storage devices included in a plurality of computers is used, if a failure occurs in one computer, a failure occurs in the shared storage. Therefore, the primary computer or the secondary computer cannot continue the service using the shared storage. Patent Document 1 does not describe a configuration for continuing the service without recognizing the failure of the shared storage.
本発明は、上記の問題点に鑑みてなされてものであり、共有機能及び排他制御の機能を備えていない計算機を用いて、安価、かつ、耐故障機能を有する計算機システムを提供することを目的とする。 The present invention has been made in view of the above problems, and an object of the present invention is to provide a computer system that is inexpensive and has a fault-tolerant function using a computer that does not have a sharing function and an exclusive control function. To do.
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、複数の計算機を備える計算機システムであって、前記複数の計算機の各々は、プロセッサと、前記プロセッサに接続されるメモリと、前記プロセッサに接続される記憶媒体と、ネットワークを介して他の装置と接続するためのネットワークインタフェースとを有し、前記複数の計算機は、サービスを提供する1台の主系計算機と、前記主系計算機に障害が発生した場合に前記サービスを引き継ぐ1台以上の副系計算機とを含み、前記主系計算機は、前記複数の計算機の各々の前記記憶媒体が提供する記憶領域を用いて論理記憶領域を生成し、前記生成された論理記憶領域へのアクセスを管理する第1の冗長化処理部と、前記論理記憶領域を用いて前記サービスを提供する第1のサービス提供部と、を有し、前記副系計算機は、前記主系計算機を監視し、前記主系計算機の障害を検知した場合に、前記サービスを引き継ぐための処理を実行する障害制御部と、前記論理記憶領域を用いて前記サービスを提供する第2のサービス提供部と、を有し、前記第1の冗長化処理部は、前記主系計算機の記憶媒体及び前記副系計算機の記憶媒体が提供する記憶領域を用いて第1の論理記憶領域を生成し、前記第1の論理記憶領域と、当該第1の論理記憶領域を構成する前記主系計算機の記憶媒体及び前記副系計算機の記憶媒体との対応関係を含む第1の冗長化情報を生成し、前記第1の論理記憶領域を構成する前記主系計算機の記憶媒体及び前記副系計算機の記憶媒体に、前記第1の冗長化情報を書き込み、前記第1の論理記憶領域を前記第1のサービス提供部に提供して、当該第1のサービス提供部に前記サービスの開始を命令し、前記第1のサービス提供部からアクセス要求を受信した場合に、前記第1の冗長化情報を参照して、前記第1の論理記憶領域にアクセスし、前記障害制御部は、前記主系計算機の障害を検知した場合に、前記第2のサービス提供部を起動させ、前記第2のサービス提供部は、前記第1の論理記憶領域に格納された情報を用いて前記サービスを継続することを特徴とする。 A typical example of the invention disclosed in the present application is as follows. That is, a computer system including a plurality of computers, each of the plurality of computers including a processor, a memory connected to the processor, a storage medium connected to the processor, and another device via a network A plurality of computers, each of which includes one main computer that provides a service and one or more secondary computers that take over the service when a failure occurs in the main computer. The main computer generates a logical storage area using a storage area provided by the storage medium of each of the plurality of computers, and manages access to the generated logical storage area. A first redundancy processing unit, and a first service providing unit that provides the service using the logical storage area, and the subordinate computer includes: A fault control unit that monitors a system computer and detects a failure of the main computer, and executes a process for taking over the service; and a second service provision that provides the service using the logical storage area And the first redundancy processing unit generates a first logical storage area using a storage area provided by the storage medium of the primary computer and the storage medium of the secondary computer, Generating first redundancy information including a correspondence relationship between the first logical storage area and the storage medium of the primary computer and the storage medium of the secondary computer constituting the first logical storage area; The first redundancy information is written in the storage medium of the primary computer and the storage medium of the secondary computer constituting the first logical storage area, and the first logical storage area is stored in the first service. Providing to the provision department, the first When a service providing unit is instructed to start the service, and an access request is received from the first service providing unit, the first logical storage area is accessed with reference to the first redundancy information. The failure control unit activates the second service providing unit when detecting a failure of the primary computer, and the second service providing unit is stored in the first logical storage area. The service is continued using information.
本発明の一形態によれば、一般的な計算機を用いて耐故障機能を備えた論理記憶領域(共有ストレージ)を構築することが可能となる。また、主系計算機の障害発生時には、業務処理部は論理記憶領域の障害を意識させることなくサービスを継続できる。 According to one embodiment of the present invention, it is possible to construct a logical storage area (shared storage) having a fault tolerance function using a general computer. In addition, when a failure occurs in the main computer, the business processing unit can continue the service without being aware of the failure in the logical storage area.
以下、本発明の実施の形態について、図面を用いて詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
(第一の実施形態) (First embodiment)
図1は、本発明の第一の実施形態の計算機システムの構成を示すブロック図である。 FIG. 1 is a block diagram showing the configuration of the computer system according to the first embodiment of this invention.
本実施形態の計算機システムは、計算機101A及び計算機101Bから構成される。計算機101A及び計算機101Bは、ネットワーク180を介して互いに接続される。ネットワーク180は、例えば、LAN(Local Area Network)が考えられる。ただし、本発明は、ネットワーク180の接続形式に限定されない。以下、計算機101A及び計算機101Bを区別しない場合、計算機101と記載する。
The computer system according to this embodiment includes a computer 101A and a
本実施形態では、計算機101A及び計算機101Bが備える記憶媒体を用いて共有ストレージを構成する。また、計算機101Aは、共有ストレージを用いてサービスを提供する主系計算機として稼動し、計算機101Bは計算機101Aに障害が発生した場合にサービスを継続する副系計算機として稼動するものとする。なお、図1では、計算機101が2台であるが、3台以上あってもよい。
In the present embodiment, the shared storage is configured using a storage medium included in the computer 101A and the
まず、計算機101のハードウェア構成について説明する。 First, the hardware configuration of the computer 101 will be described.
計算機101Aは、プロセッサ102A、メモリ103A、ストレージインタフェース104A、ディスク装置105A及びネットワークインタフェース106Aを備える。
The computer 101A includes a
プロセッサ102Aは、メモリ103Aに格納されるプログラムを実行する。プロセッサ102Aがプログラムを実行することによって、計算機101Aの機能を実現できる。以下、プログラムを主語に処理を説明する場合、プロセッサ102Aによってプログラムが実行されていることを示す。
The
メモリ103Aは、プロセッサ102Aが実行するプログラム及び当該プログラムを実行するために必要なデータを格納する。メモリ103Aは、例えば、DRAMのような半導体メモリが考えられ、ディスク装置105Aに比べ高速にアクセスすることができる。メモリ103Aに格納されるプログラム及びデータについては後述する。
The
ストレージインタフェース104Aは、大容量のデータを格納可能なディスク装置105Aに接続するためのインタフェースである。
The
ディスク装置105Aは、所定のサービスに必要な情報(例えば、ファイルデータ)を格納する。ディスク装置105Aは、例えば、HDD(Hard Disk Drive)が考えられる。
The
なお、ディスク装置105以外のSSD(Solid State Drive)等の記憶媒体であってよい。また、ディスク装置105Aは、複数あってもよい。また、ディスク装置105Aは計算機101Aに外付けされた形式でもよい。
In addition, it may be a storage medium such as an SSD (Solid State Drive) other than the disk device 105. Further, there may be a plurality of
ネットワークインタフェース106Aは、ネットワーク180を介して他の装置と接続するためのインタフェースである。
The
なお、計算機101Aは、メモリ103A及びディスク装置105A以外に、OS(Operating System)等の情報を格納する記憶装置を備えていてもよい。
In addition to the
計算機101Bのハードウェア構成は計算機101Aと同一であるため説明を省略する。
Since the hardware configuration of the
次に、計算機101のソフトウェア構成について説明する。 Next, the software configuration of the computer 101 will be described.
計算機101Aのメモリ103Aには、サービス提供部150、冗長化処理部151A、ディスクドライバ部152A、ネットワークディスクドライバ部153A、副系選択部154、構成設定部155A及び構成回復部156Aを実現するプログラムが格納される。
In the
サービス提供部150は、共有ストレージを用いて所定のサービスを提供する。サービス提供部150は、サービスの提供時に共有ストレージに対するアクセス要求を出力する。
The
冗長化処理部151Aは、共有ストレージに対するアクセス要求を受信し、当該アクセス要求に対応するアクセス処理を実行する。具体的には、冗長化処理部151Aは、ディスクドライバ部152A及びネットワークディスクドライバ部153Bに対してアクセス要求を出力する。冗長化処理部151Aが実行する処理の詳細は、図4を用いて後述する。冗長化処理部151Aは、例えば、OSが備えるソフトウェアRAID機能によって実現することができる。
The
ディスクドライバ部152Aは、冗長化処理部151Aから出力されたアクセス要求に基づいて、共有ストレージを構成するディスク装置105Aにアクセスする。
The
ネットワークディスクドライバ部153Aは、ネットワーク180を介して、共有ストレージを構成するディスク装置105Bにアクセスする。具体的には、ネットワークディスクドライバ部153Aは、ネットワークディスクドライバ部153Bにアクセス要求を送信する。
The network
副系選択部154は、計算機システムに含まれる複数の計算機101から副系計算機となる計算機101を選択する。副系選択部154が実行する処理の詳細は、図3を用いて後述する。
The sub
構成設定部155Aは、主系計算機として稼動するために必要な情報を設定する。構成設定部155Aが実行する処理の詳細は、図2を用いて後述する。
The
構成回復部156Aは、計算機101Aに障害が発生した場合に、当該障害を回復するための処理を実行する。構成回復部156Aが実行する処理の詳細は、図9を用いて後述する。
When a failure occurs in the computer 101A, the
なお、メモリ103Aに格納されるプログラムは、ディスク装置105A又は外部の装置(図示省略)に格納されていてもよい。この場合、ディスク装置105Aから各プログラムが読み出され、又は、ネットワーク180を介して外部の装置から各プログラムが読み出され、メモリ103Aに格納される。
The program stored in the
計算機101Bのメモリ103Bには、障害制御部170、代替サービス提供部171、冗長化処理部151B、ディスクドライバ部152B、ネットワークディスクドライバ部153B、構成設定部155B、及び構成回復部156Bを実現するプログラムが格納される。
In the
障害制御部170は、主系計算機として稼動する計算機101Aの動作を監視し、計算機101Aの障害を検知した場合に、計算機101Bがサービスを継続するための処理を実行する。障害制御部170が実行する処理の詳細は、図6を用いて後述する。
The
代替サービス提供部171は、障害が発生した計算機101Aの代わりにサービスを提供する。
The alternative
冗長化処理部151Bは、冗長化処理部151Aと同一のものであり、代替サービス提供部171から出力されたアクセス要求を受信し、共有ストレージに対するアクセス処理を実行する。ディスクドライバ部152Bは、ディスクドライバ部152Bと同一のものである。冗長化処理部151Bが実行する処理の詳細は、図8を用いて後述する。
The
ネットワークディスクドライバ部153Bは、ネットワークディスクドライバ部153Aから受信したアクセス要求に基づいて、ディスクドライバ部152Bに対してアクセス要求を出力する。これによって、共有ストレージを構成するディスク装置105Bへのアクセスを実現できる。また、ネットワークディスクドライバ部153Bは、ネットワーク180を介して、共有ストレージを構成するディスク装置105Aにアクセスする。
The network disk driver unit 153B outputs an access request to the
構成設定部155Bは、副系計算機として稼動するために必要な情報を設定する。構成設定部155Bが実行する処理の詳細は、図5及び図7を用いて後述する。
The
構成回復部156Bは、主系計算機の障害が回復した後に、再び副系計算機として稼動するための処理を実行する。構成回復部156Bが実行する処理の詳細は、図10を用いて後述する。
The
なお、メモリ103Bに格納されるプログラムは、ディスク装置105B又は外部の装置(図示省略)に格納されていてもよい。この場合、ディスク装置105Bから各プログラムが読み出され、又は、ネットワーク180を介して外部の装置から各プログラムが読み出され、メモリ103Bに格納される。
The program stored in the
また、構成設定部155A及び構成設定部155Bは、同一の機能を提供するプログラムであり、主系計算機の設定処理及び副系計算機の設定処理を実行することができる。構成回復部156A及び構成回復部156Bは、同一の機能を提供するプログラムであり、主系計算機の回復処理及び副系計算機の回復処理を実行することができる。
The
以下、ディスクドライバ部152A及びディスクドライバ部152Bを区別しない場合、ディスクドライバ部152と記載し、ネットワークディスクドライバ部153A及びネットワークディスクドライバ部153Bを区別しない場合、ネットワークディスクドライバ部153と記載する。また、構成設定部155A及び構成設定部155Bを区別しない場合、構成設定部155と記載し、構成回復部156A及び構成回復部156Bを区別しない場合、構成回復部156と記載する。
Hereinafter, when the
以下、各構成の処理について説明する。まず、図2〜図5を用いて、主系計算機及び副系計算機の設定方法について説明する。 Hereinafter, processing of each configuration will be described. First, the setting method of the main computer and the sub computer will be described with reference to FIGS.
図2は、本発明の第一の実施形態における構成設定部155A(主系)が実行する処理を説明したフローチャートである。
FIG. 2 is a flowchart illustrating processing executed by the
構成設定部155Aは、計算機システムの管理者からの指示を受信すると処理を開始する(ステップS201)。このとき、当該指示には、計算機システム内の計算機101の総数と構成設定部155Aが実行される計算機101Aの識別番号が含まれる。
The
例えば、図1の例では、計算機101の総数は「2」、計算機101Aの識別番号は「1」、計算機101Bの識別番号が「2」となる。
For example, in the example of FIG. 1, the total number of computers 101 is “2”, the identification number of the computer 101A is “1”, and the identification number of the
構成設定部155Aは、副系選択部154を呼び出す(ステップS202)。呼び出された副系選択部154が後述する処理(図3参照)を実行することによって、副系計算機となる計算機101を決定することができる。このとき、構成設定部155Aは、副系選択部154から副系計算機となる計算機101の識別情報を取得する。
The
計算機101の識別情報は、計算機システム内において計算機101を一意に識別できる情報であればよく、例えば、計算機101のコンピュータ名、MACアドレス及びIPアドレス等が考えられる。 The identification information of the computer 101 only needs to be information that can uniquely identify the computer 101 in the computer system. For example, the computer name, MAC address, and IP address of the computer 101 can be considered.
構成設定部155Aは、ネットワークディスクドライバ部153Aに対して副系計算機が備えるネットワークディスクドライバ部153と接続するよう指示する(ステップS203)。図1に示す例では、ネットワークディスクドライバ部153Aは、ネットワークディスクドライバ部153Bと接続するように指示される。これによって、ネットワークディスクドライバ部153Aは、ネットワークディスクドライバ部153Bにアクセス要求を送信することができる。
The
構成設定部155Aは、冗長化処理部151Aに論理デバイス(共有ストレージ)の生成を指示する(ステップS204)。ここで、論理デバイスとは、サービス提供部150が一つのディスク装置として認識可能な論理的なディスク装置である。本発明では、複数の計算機101が有するディスク装置105が有する記憶領域から生成される論理デバイスが、共有ストレージとして用いられる。
The
これによって、ディスク装置105A及びディスク装置105Bが有する記憶領域から論理デバイスが生成される。また、ディスクドライバ部152A及びネットワークディスクドライバ部153Aのそれぞれに同一の書込要求を出力される。そのため、論理デバイスへの書込処理では、ディスク装置105A及びディスク装置105Bのそれぞれにデータが書き込まれる。前述のようにデータが、異なるディスク装置105に格納されるため、主系計算機に障害が発生しても副系計算機のディスク装置105に格納されるデータを用いてサービスを継続することができる。
As a result, logical devices are generated from the storage areas of the
なお、論理デバイス上には、分散共有ファイルシステムを構築することができる。共有ファイルシステム上に配置されたファイルには、すべての計算機101が同じようにアクセスできる。 A distributed shared file system can be constructed on the logical device. All the computers 101 can access the files arranged on the shared file system in the same way.
構成設定部155Aは、サービス提供部150に論理デバイスにアクセスするように指示し、処理を終了する(ステップS205、ステップS206)。具体的には、構成設定部155Aは、サービスに用いる記憶領域として論理デバイスの識別情報を通知する。これによってサービス提供部150は、論理デバイスに対してアクセス要求を出力する。
The
図3は、本発明の第一の実施形態における副系選択部154が実行する処理を説明するフローチャートである。
FIG. 3 is a flowchart illustrating processing executed by the sub
副系選択部154は、構成設定部155Aから呼び出されると処理を開始する(ステップS301)。なお、副系選択部154は、呼び出されるときに計算機システムを構成する計算機101の総数と、構成設定部155Aを実行する計算機101の識別番号とを構成設定部155Aから受け取る。
When called from the
副系選択部154は、自身の識別番号が計算機システムを構成する計算機101に割り当てられた識別番号のうち、最大の識別番号であるか否かを判定する(ステップS302)。例えば、副系選択部154は、自身の識別番号が計算機101の総数と同一であるか否かを判定する。自身の識別番号が計算機101の総数と同一である場合には、自身の識別番号が最大の識別番号であると判定される。
The sub
自身の識別番号が最大であると判定された場合、副系選択部154は、最小の識別番号(例えば、識別番号が「1」)の計算機101を副系計算機に選択し、ステップS305に進む(ステップS303)。
When it is determined that its own identification number is the largest, the sub
自身の識別番号が最大でないと判定された場合、副系選択部154は、自身の識別番号に「1」を加算した識別番号の計算機101を副系計算機に選択し、ステップS305に進む(ステップS304)。
When it is determined that its own identification number is not the maximum, the sub
副系選択部154は、副系計算機として選択された計算機101の識別情報を取得し、処理を終了する(ステップS305、ステップS306)。
The sub
例えば、予め、識別番号と識別情報とを対応づけたデータを準備しておき、副系選択部154が、副系計算機の識別番号に基づいて当該データを参照することによって識別情報を取得する方法が考えられる。
For example, a method in which data in which an identification number is associated with identification information is prepared in advance, and the
なお、副系計算機の選択方法は、図3に示すものに限定されず、計算機101のリソース量、使用率等に基づいて選択する方法であってもよい。また、2台以上の副系計算機を選択する場合、副系計算機として選択された計算機101の識別番号を新たな入力として図3に示す処理を繰り返し実行すればよい。 The selection method of the subordinate computer is not limited to that shown in FIG. 3, and may be a method of selecting based on the resource amount, usage rate, etc. of the computer 101. When two or more secondary computers are selected, the process shown in FIG. 3 may be repeatedly executed with the identification number of the computer 101 selected as the secondary computer as a new input.
図4は、本発明の第一の実施形態における冗長化処理部151A(主系)が実行する処理を説明するフローチャートである。
FIG. 4 is a flowchart for explaining processing executed by the
冗長化処理部151Aは、構成設定部155Aから論理デバイスの生成指示を受信すると処理を開始する(ステップS401)。冗長化処理部151Aは、副系計算機の識別情報を取得する(ステップS402)。
The
冗長化処理部151Aは、主系計算機のディスク装置105及び副系計算機のディスク装置105を統合して論理デバイスを生成する(ステップS403)。図1に示す例では、ディスク装置105A及びディスク装置105Bが統合された論理デバイスが生成される。
The
冗長化処理部151Aは、論理デバイスと各ディスク装置105とを対応づけた冗長化情報を生成する(ステップS404)。冗長化情報は、少なくとも、論理デバイスの識別情報及びディスク装置105の識別情報を含む。なお、冗長化情報は、計算機101の識別情報等その他の情報を含んでいてもよい。
The
冗長化処理部151Aは、冗長化情報を各ディスク装置105へ書き込み、処理を終了する(ステップS405、ステップS406)。図1に示す例では、冗長化処理部151Aは、ディスクドライバ部152A及びネットワークディスクドライバ部153Aのそれぞれに冗長化情報の書込要求を出力する。これによって、共有ストレージ、すなわち、論理デバイスを構成するディスク装置105A及びディスク装置105Bに冗長化情報が格納される。
The
図5は、本発明の第一の実施形態における構成設定部155B(副系)が実行する処理を説明するフローチャートである。
FIG. 5 is a flowchart for explaining processing executed by the
構成設定部155Bは、計算機システムの管理者からの指示を受信すると処理を開始する(ステップS501)。なお、構成設定部155Bの処理は、構成設定部155Aの処理よりも前に実行される。
The
構成設定部155Bは、ネットワークディスクドライバ部153Bに対して、他の計算機101から自身のディスク装置105へのアクセスを許可するよう設定し、処理を終了する(ステップS502、ステップS503)。図1に示す例では、計算機101Aからディスク装置105Bへのアクセスが許可される。構成設定部155Bが実行する処理によって、計算機101Aがディスク装置105Bにアクセス可能となり、論理デバイスを構成する記憶領域を提供することが可能となる。
The
以上が、共有ストレージの構成時に実行される処理である。図2〜図5の処理が終了した後、サービス提供部150は、論理デバイスを用いて所定のサービスを提供する。
The above is the processing executed when the shared storage is configured. After the processes in FIGS. 2 to 5 are completed, the
このとき、冗長化処理部151は、サービス提供部150から論理デバイスへの書込要求を受信すると、ディスク装置105Aから冗長化情報を読み出し、当該冗長化情報に基づいて、ディスク装置105A及びディスク装置105Bのそれぞれにデータを書き込む。なお、読み出された冗長化情報は、メモリ103Aに一時的に格納される。これによって、論理デバイスへのアクセス時にディスク装置105へのI/O発生を低減することができる。
At this time, when receiving the write request to the logical device from the
また、冗長化処理部151は、サービス提供部150から論理デバイスへの読出要求を受信すると、冗長化情報を参照して、ディスク装置105Aからデータを読み出す。
Further, upon receiving a read request from the
次に、図6〜図8を用いて、主系計算機として稼動する計算機101Aに障害が発生した場合に実行される処理について説明する。 Next, processing executed when a failure occurs in the computer 101A operating as the main computer will be described with reference to FIGS.
図6は、本発明の第一の実施形態における障害制御部170が実行する処理を説明するフローチャートである。
FIG. 6 is a flowchart illustrating processing executed by the
障害制御部170は、周期的に、主系計算機を監視しており、主系計算機の障害を検知すると処理を開始する(ステップS601)。図1に示す例では、障害制御部170は、主系計算機として稼動する計算機101Aを監視し、計算機101Aの障害を検知すると処理を開始する。
The
監視方法としては、ネットワーク180を介した通信を監視する方法などが考えられる。ただし、本発明は、主系計算機の障害検出方法に限定されない。
As a monitoring method, a method of monitoring communication via the
なお、副系計算機が複数ある場合には、予め、副系計算機に優先順位を与えておき、優先順位が高い副系計算機が主導的に処理を実行するように構成すればよい。 If there are a plurality of secondary computers, priorities may be given to the secondary computers in advance, and the secondary computer having a higher priority may be configured to execute the process.
障害制御部170は、ネットワークディスクドライバ部153Bに対して、論理デバイスを構成する他の計算機101からディスク装置105へのアクセスを禁止するように指示する(ステップS602)。副系計算機が2台以上ある場合には、主系計算機だけではなく他の副系計算機からのアクセスも禁止される。図1に示す例では、計算機101Aからディスク装置105Bへのアクセスが禁止される。
The
障害制御部170は、構成設定部155Bを呼び出す(ステップS603)。障害制御部170は、構成設定部155Bからの処理完了の通知を待つ。構成設定部155Bが実行する処理の詳細は、図7を用いて後述する。
The
その後、障害制御部170は、代替サービス提供部171の処理の開始を指示して、処理を終了する(ステップS604、ステップS605)。
Thereafter, the
以上の処理によって、代替サービス提供部171が、サービス提供部150に代わってサービスを継続することができる。
Through the above processing, the alternative
ステップS602では、計算機101Aからディスク装置105Bへのアクセスを禁止している。これは、計算機101Aが予期せず再び動作を始めた場合に、代替サービス提供部171及びサービス提供部150からディスク装置105Bへのアクセスが衝突してデータが失われる危険を回避するためである。
In step S602, access from the computer 101A to the
図7は、本発明の第一の実施形態における構成設定部155B(副系)が、障害発生時に実行する処理を説明するフローチャートである。
FIG. 7 is a flowchart for explaining processing executed by the
構成設定部155Bは、障害制御部170から読み出されると処理を開始する(ステップS701)。構成設定部155Bは、ネットワークディスクドライバ部153Bに対して他の副系計算機が備えるネットワークディスクドライバ部153Bと接続するよう指示する(ステップS702)。これによって、ネットワークディスクドライバ部153Bは、他の副系計算機のネットワークディスクドライバ部153にアクセス要求を送信することができる。
The
なお、副系計算機はすでに選択されているため、ステップS202に対応する処理は省略される。また、構成設定部155Bは、冗長化情報を参照することによって他の副系計算機を特定することができる。
Since the secondary computer has already been selected, the processing corresponding to step S202 is omitted. In addition, the
構成設定部155Bは、冗長化処理部151Bに論理デバイス(共有ストレージ)の生成を指示する(ステップS703)。図1に示す例では、計算機101Bが備えるディスク装置105Bから論理デバイスが生成される。
The
構成設定部155Bは、代替サービス提供部171に新たに生成された論理デバイスにアクセスするように指示して、処理を終了する(ステップS704、ステップS705)。
The
図8は、本発明の第一の実施形態における冗長化処理部151B(副系)が実行する処理を説明するフローチャートである。
FIG. 8 is a flowchart for explaining processing executed by the
冗長化処理部151Bは、構成設定部155Bから読み出されると処理を開始する(ステップS801)。冗長化処理部151Bは、副系計算機の識別情報を取得する(ステップS802)。ステップS802の処理は、ステップS402と同一の処理である。
The
冗長化処理部151Bは、副系計算機のディスク装置105を統合して論理デバイスを生成する(ステップS803)。
The
ステップS803の処理はステップS403と異なり、主系計算機のディスク装置105を除いたディスク装置105から論理デバイスが生成される。すなわち、副系計算機のディスク装置105のみから論理デバイスが生成される。 The processing in step S803 differs from step S403 in that a logical device is generated from the disk device 105 excluding the disk device 105 of the main computer. That is, a logical device is generated only from the disk device 105 of the secondary computer.
図1に示す例では、ディスク装置105Bのみから論理デバイスが生成される。
In the example shown in FIG. 1, a logical device is generated only from the
冗長化処理部151Bは、論理デバイスと各ディスク装置105とを対応づけた冗長化情報を生成する(ステップS804)。ステップS804の処理は、ステップS404と同一の処理である。
The
冗長化処理部151Bは、冗長化情報を各ディスク装置105へ書き込み、処理を終了する(ステップS805、ステップS806)。図1に示す例では、冗長化処理部151Bは、ネットワークディスクドライバ部153Bに冗長化情報の書込要求を出力する。これによって、論理デバイスを構成するディスク装置105Bに冗長化情報が格納される。
The
なお、新たに生成された論理デバイスの識別情報は、最初に生成された論理デバイスの識別情報と同一となるように設定する。これによって、障害発生前と同一の動作環境の下サービスを継続することができる。ただし、異なる論理デバイスの識別情報が設定されてもよい。 The newly generated logical device identification information is set to be the same as the first generated logical device identification information. As a result, the service can be continued under the same operating environment as before the occurrence of the failure. However, identification information of different logical devices may be set.
本実施形態では、前述した処理によって耐障害性を高める効果がある。通常、冗長化処理部151Bは、書込要求を受信した場合、ディスク装置105に格納される冗長化情報を読み出して、論理デバイスを構成するディスク装置105を特定する。さらに、冗長化処理部151Bは、特定された全てのディスク装置105に同一のデータを書き込む。
In the present embodiment, there is an effect of improving the fault tolerance by the processing described above. Normally, when the
しかし、主系計算機として稼働する計算機101に障害が発生すると、論理デバイスを構成する主系計算機のディスク装置105を利用できない状態となる。そのため、冗長化処理部151Bは、論理デバイスにエラーが発生しており、論理デバイスを利用できないと判定する。したがって、冗長化処理部151Bは、論理デバイスを構成する複数のディスク装置105にデータを書き込むことができない。すなわち、データの冗長化が実現できない。
However, when a failure occurs in the computer 101 that operates as the primary computer, the disk device 105 of the primary computer constituting the logical device cannot be used. Therefore, the
そこで、本実施形態では、障害制御部170から呼び出された冗長化処理部151Bが、主系計算機のディスク装置105を除く他のディスク装置105を用いて新たに論理デバイスを構築する。これによって、冗長化処理部151Bは、代替サービス提供部171から書込要求を受信した場合に、複数のディスク装置105にデータを書き込むことができる。
Therefore, in this embodiment, the
また、図1に示すように、論理デバイスを構成するディスク装置105が1台のみであっても、代替サービス提供部171からは論理デバイスに障害が発生しているとは認識されずにサービスを継続することができるという効果がある。
In addition, as shown in FIG. 1, even if there is only one disk device 105 constituting a logical device, the alternative
図9は、本発明の第一の実施形態における構成回復部156A(主系)が実行する処理を説明するフローチャートである。
FIG. 9 is a flowchart for explaining processing executed by the
構成回復部156Aは、障害が回復した計算機101Aが再起動した後、計算機システムの管理者から処理開始の指示を受信すると処理を開始する(ステップS901)。構成回復部156Aは、副系計算機の構成回復部156Bを呼び出す(ステップS902)。これによって、代替サービス提供部171からサービス提供部150へサービスを引き継ぐための処理(図10参照)が実行される。
The
構成回復部156Aは、ネットワークディスクドライバ部153Aに対して副系計算機が備えるネットワークディスクドライバ部153Bと接続するよう指示する(ステップS903)。ステップS903の処理は、ステップS203と同一の処理である。ステップS903の処理によって、計算機101Aは論理デバイスへアクセスが可能となる。
The
構成回復部156Aは、冗長化処理部151Aに対して、副系計算機から冗長化情報の取得を指示する(ステップS904)。当該指示を受信した冗長化処理部151Aは、ネットワークディスクドライバ部153Aに、副系計算機から冗長化情報を取得するためのアクセス要求を出力する。
The
ステップS904では、ステップ803において生成された新たな論理デバイスの冗長化構成が読み出される。これによって、冗長化構成を維持したままサービスを継続することができる。 In step S904, the redundant configuration of the new logical device generated in step 803 is read. As a result, the service can be continued while maintaining the redundant configuration.
図1に示す例では、論理デバイスを構成するディスク装置105Bが一個であるためデータの二重化はできないが、論理デバイスに障害が発生しているとは認識されることなくサービスを継続することができるという効果がある。
In the example shown in FIG. 1, data cannot be duplicated because there is only one
構成回復部156Aは、サービス提供部150に論理デバイスにアクセスするように指示し、さらに、サービスの開始を指示する(ステップS905)。ステップS905の処理は、ステップS205と同一の処理である。
The
構成回復部156Aは、冗長化処理部151Aに対してディスク装置105Aを管理下に置くよう指示する、すなわち、論理デバイスの再構成を指示する(ステップS906)。
The
当該指示を受信した冗長化処理部151Aは、図4に示す処理と同様の処理を実行する。具体的には、ステップS403では、冗長化処理部151Aは、主系計算機のディスク装置105及び副系計算機のディスク装置105の全てを用いて論理ディスクを生成する。すなわち、障害が発生する前と同一の構成の論理デバイスが生成される。また、ステップS405では、冗長化処理部151Aは、主系計算機のディスク装置105及び副系計算機のディスク装置105のそれぞれに冗長化情報を書き込む。なお、この時点では、論理デバイスを構成する主系計算機のディスク装置105にはデータが反映されていない。
The
以上の処理によって、障害発生前の論理デバイスの構成を回復することができる。図1に示す例では、ステップS706の処理によって、データの二重書き込みが可能となる。 With the above processing, the configuration of the logical device before the failure can be recovered. In the example shown in FIG. 1, the data can be double-written by the processing in step S706.
構成回復部156Aは、論理デバイスが生成された後、冗長化処理部151Aに、副系計算機のディスク装置105に格納されるデータを主系計算機のディスク装置105にコピーするように指示し、処理を終了する(ステップS907、ステップS908)。
After the logical device is generated, the
当該指示を受信した冗長化処理部151Aは、ネットワークディスクドライバ部153Aに対してアクセス要求(読出要求)を出力する。これによって、副系計算機のディスク装置105からデータを取得することができる。また、冗長化処理部151Aは、ディスクドライバ部152Aに対して、取得されたデータのアクセス要求(書込要求)を出力する。これによって、主系計算機のディスク装置105にデータが書き込まれる。
The
ステップS907の処理によって、論理デバイスを構成する全てのディスク装置に同一のデータが反映される。すなわち、主系計算機が停止している間に代替サービス提供部171によって論理デバイスに書き込まれたデータが主系計算機のディスク装置105に書き込まれる。
By the processing in step S907, the same data is reflected in all the disk devices constituting the logical device. That is, the data written to the logical device by the alternative
図10は、本発明の第一の実施形態における構成回復部156B(副系)が実行する処理を説明するフローチャートである。
FIG. 10 is a flowchart illustrating processing executed by the
構成回復部156Bは、構成回復部156Aから呼び出されると処理を開始する(ステップS1001)。構成回復部156Bは、代替サービス提供部171を停止する(ステップS1002)。
The
構成回復部156Bは、ネットワークディスクドライバ部153Bに対して、計算機101Aからディスク装置105Bへのアクセスを許可するよう設定し、処理を終了する(ステップS1003、ステップS1004)。
The
以上の処理によって、他の計算機101からネットワークディスクドライバ部153Bへのアクセスを再開させ、計算機101Aからのアクセスが可能となる。 With the above processing, access from the other computer 101 to the network disk driver unit 153B is resumed, and access from the computer 101A becomes possible.
なお、計算機101Bに障害が発生した場合、計算機101Bの再起動後に構成設定部155Bを起動させる。これによって、ネットワークディスクドライバ部153Aからネットワークディスクドライバ部153Bへのアクセスを回復できる。その後、冗長化処理部151Aが、自動的にディスク装置105Aから105Bへデータをコピーする。
When a failure occurs in the
第一の実施形態では、計算機101Aがサービスを提供する主系計算機、計算機101Bが副系計算機であるものとして説明したが、一例であって、それぞれの計算機101が同一の構成を備えてもよい。これによって、お互いが他方の副系計算機となれるような構成が可能となる。
In the first embodiment, it has been described that the computer 101A is a primary computer that provides a service, and the
第一の実施形態によれば、複数の計算機のディスク装置を用いて共有ストレージを構成した場合に、いずれかの計算機に障害が発生しても、副系計算機の代替サービス提供部171は、共有ストレージを用いてサービスを継続することができる。すなわち、副系計算機の代替サービス提供部171は、共有ストレージの冗長化構成が維持されているものと認識することができる。
According to the first embodiment, when a shared storage is configured using disk devices of a plurality of computers, even if a failure occurs in any computer, the alternative
これによって、専用のストレージシステムを用いることなく、一般的な計算機を用いて共有ストレージを構築することができ、また、障害への耐性も確保することができる。 As a result, it is possible to construct a shared storage using a general computer without using a dedicated storage system, and it is possible to ensure resistance to failures.
(第二の実施形態) (Second embodiment)
第二の実施形態について説明する。第二の実施形態では、具体的な装置構成を用いて実際のシステム構築例を説明する。 A second embodiment will be described. In the second embodiment, an actual system construction example will be described using a specific device configuration.
以下、第一の実施形態との差異を中心に説明する。 Hereinafter, the difference from the first embodiment will be mainly described.
図11は、本発明の第二の実施形態の計算機システムの構成を示したブロック図である。 FIG. 11 is a block diagram showing a configuration of a computer system according to the second embodiment of this invention.
計算機システムの構成は、第一の実施形態と同一であるため説明を省略する。 Since the configuration of the computer system is the same as that of the first embodiment, description thereof is omitted.
第二の実施形態では、計算機101のハードウェア構成が一部異なる。具体的には、第二の実施形態では、ネットワークインタフェース106A、106Bがイーサネットコントローラ1101A、1101Bとなる(イーサネットは登録商標、以下同じ。)。その他のハードウェア構成は、第一の実施形態と同一であるため説明を省略する。
In the second embodiment, the hardware configuration of the computer 101 is partially different. Specifically, in the second embodiment, the network interfaces 106A and 106B are
また第二の実施形態では、各計算機101が備えるソフトウェア構成が異なる。具体的には、第二の実施形態では、冗長化処理部151A、151BはOSが備えるソフトウェアRAID機能部1111A、1111Bとなり、ネットワークディスクドライバ部153AはiSCSIイニシエータ1112となり、ネットワークディスクドライバ部153BはiSCSIターゲット1113となる。また、計算機101Bは、ネットワーク180を介した計算機101からのアクセスを制御する構成としてネットワークフィルタ部1114を備える。
In the second embodiment, the software configuration of each computer 101 is different. Specifically, in the second embodiment, the
構成設定部155Aの処理は、以下の点が異なる。ステップS202では、構成設定部155Aは、副系計算機の名称を取得する。また、ステップS203では、構成設定部155Aは、取得された副系計算機の名称をIPv4のアドレス又はIPv6のアドレスに変換し、変換されたアドレスを用いてiSCSIターゲット1113に接続するように指示する。その他の処理は、第一の実施形態と同一である。
The processing of the
障害制御部170の処理は、以下の点が異なる。
The processing of the
ステップS602では、障害制御部170は、iSCSIターゲット1113を停止させ、又は、ネットワークフィルタ部1114に対してiSCSIターゲット1113に送信されたTCP/IPプロトコルのパケットを破棄するように指示する。その他の処理は、第一の実施形態と同一である。
In step S602, the
構成回復部156Bの処理は、以下の点が異なる。
The processing of the
ステップS803では、構成回復部156Bが、iSCSIターゲット1113を再開させ、又は、ネットワークフィルタ部1114に対してiSCSIターゲット1113に送信されるTCP/IPプロトコルのパケットの破棄を中止するように指示する。その他の処理は、第一の実施形態と同一である。
In step S803, the
第二の実施形態によれば、ソフトウェアRAID、iSCSIターゲット、iSCSIイニシエータ及びイーサネットを用いて、安価に共有ストレージを構築することができる。 According to the second embodiment, a shared storage can be constructed at low cost by using software RAID, iSCSI target, iSCSI initiator, and Ethernet.
なお、本発明は前述した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、前述した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、また、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加、削除、置換をすることが可能である。 In addition, this invention is not limited to embodiment mentioned above, Various modifications are included. For example, the above-described embodiments have been described in detail for easy understanding of the present invention, and are not necessarily limited to those having all the configurations described. Further, a part of the configuration of an embodiment can be replaced with the configuration of another embodiment, and the configuration of another embodiment can be added to the configuration of an embodiment. Moreover, it is possible to add, delete, and replace other configurations for a part of the configuration of each embodiment.
また、前述の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によってハードウェアを用いて実現してもよい。また、前述の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによってソフトウェアを用いて実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、HDD及びSSD等の記録装置、又は、ICカード、SDカード及びDVD等の記録媒体に格納することができる。また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。 Further, each of the above-described configurations, functions, processing units, processing means, and the like may be realized using hardware by designing a part or all of them with, for example, an integrated circuit. In addition, each of the above-described configurations, functions, and the like may be realized using software by the processor interpreting and executing a program that realizes each function. Information such as programs, tables, and files for realizing each function can be stored in a recording device such as a memory, HDD, or SSD, or a recording medium such as an IC card, SD card, or DVD. Further, the control lines and information lines indicate what is considered necessary for the explanation, and not all the control lines and information lines on the product are necessarily shown. Actually, it may be considered that almost all the components are connected to each other.
Claims (12)
前記複数の計算機の各々は、プロセッサと、前記プロセッサに接続されるメモリと、前記プロセッサに接続される記憶媒体と、ネットワークを介して他の装置と接続するためのネットワークインタフェースとを有し、
前記複数の計算機は、サービスを提供する1台の主系計算機と、前記主系計算機に障害が発生した場合に前記サービスを引き継ぐ1台以上の副系計算機とを含み、
前記主系計算機は、
前記複数の計算機の各々の前記記憶媒体が提供する記憶領域を用いて論理記憶領域を生成し、前記生成された論理記憶領域へのアクセスを管理する第1の冗長化処理部と、
前記論理記憶領域を用いて前記サービスを提供する第1のサービス提供部と、を有し、
前記副系計算機は、
前記主系計算機を監視し、前記主系計算機の障害を検知した場合に、前記サービスを引き継ぐための処理を実行する障害制御部と、
前記論理記憶領域を用いて前記サービスを提供する第2のサービス提供部と、を有し、
前記第1の冗長化処理部は、
前記主系計算機の記憶媒体及び前記副系計算機の記憶媒体が提供する記憶領域を用いて第1の論理記憶領域を生成し、
前記第1の論理記憶領域と、当該第1の論理記憶領域を構成する前記主系計算機の記憶媒体及び前記副系計算機の記憶媒体との対応関係を含む第1の冗長化情報を生成し、
前記第1の論理記憶領域を構成する前記主系計算機の記憶媒体及び前記副系計算機の記憶媒体に、前記第1の冗長化情報を書き込み、
前記第1の論理記憶領域を前記第1のサービス提供部に提供して、当該第1のサービス提供部に前記サービスの開始を命令し、
前記第1のサービス提供部からアクセス要求を受信した場合に、前記第1の冗長化情報を参照して、前記第1の論理記憶領域にアクセスし、
前記障害制御部は、前記主系計算機の障害を検知した場合に、前記第2のサービス提供部を起動させ、
前記第2のサービス提供部は、前記第1の論理記憶領域に格納されたデータを用いて前記サービスを継続することを特徴とする計算機システム。A computer system comprising a plurality of computers,
Each of the plurality of computers has a processor, a memory connected to the processor, a storage medium connected to the processor, and a network interface for connecting to another device via a network,
The plurality of computers includes one main computer that provides a service, and one or more sub computers that take over the service when a failure occurs in the main computer,
The main computer is
A first redundancy processing unit that generates a logical storage area using a storage area provided by the storage medium of each of the plurality of computers, and manages access to the generated logical storage area;
A first service providing unit that provides the service using the logical storage area;
The subsystem computer is
A failure control unit that monitors the main computer and executes a process for taking over the service when a failure of the main computer is detected;
A second service providing unit that provides the service using the logical storage area;
The first redundancy processing unit includes:
Generating a first logical storage area using a storage area provided by the storage medium of the main computer and the storage medium of the sub computer;
Generating first redundancy information including a correspondence relationship between the first logical storage area and the storage medium of the primary computer and the storage medium of the secondary computer constituting the first logical storage area;
Writing the first redundancy information to the storage medium of the primary computer and the storage medium of the secondary computer constituting the first logical storage area;
Providing the first logical storage area to the first service providing unit and instructing the first service providing unit to start the service;
When an access request is received from the first service providing unit, referring to the first redundancy information, accessing the first logical storage area,
The failure control unit activates the second service providing unit when detecting a failure of the primary computer,
The computer system according to claim 2, wherein the second service providing unit continues the service using data stored in the first logical storage area.
前記副系計算機は、前記論理記憶領域を生成し、前記生成された論理記憶領域へのアクセスを管理する第2の冗長化処理部を有し、
前記障害制御部は、前記主系計算機の障害を検知した場合に、前記第2の冗長化処理部を呼び出し、
前記第2の冗長化処理部は、
前記主系計算機の記憶媒体を除く、前記副系計算機の記憶媒体のみを用いて新たな第2の論理記憶領域を生成し、
前記第2の論理記憶領域と、当該第2の論理記憶領域を構成する前記副系計算機の記憶媒体との対応関係を含む第2の冗長化情報を生成し、
前記第2の論理記憶領域を構成する前記副系計算機の記憶媒体に前記第2の冗長化情報を書き込み、
前記障害制御部は、前記第2の論理記憶領域を前記第2のサービス提供部に提供して、当該第2のサービス提供部に前記サービスの開始を命令し、
前記第2のサービス提供部からアクセス要求を受信した場合に、前記第2の冗長化情報を参照して、前記第2の論理記憶領域にアクセスすることを特徴とする計算機システム。The computer system according to claim 1,
The secondary computer has a second redundancy processing unit that generates the logical storage area and manages access to the generated logical storage area,
When the failure control unit detects a failure of the main computer, the failure control unit calls the second redundancy processing unit,
The second redundancy processing unit includes:
A new second logical storage area is generated using only the storage medium of the secondary computer, excluding the storage medium of the primary computer,
Generating second redundancy information including a correspondence relationship between the second logical storage area and the storage medium of the secondary computer constituting the second logical storage area;
Writing the second redundancy information to a storage medium of the secondary computer constituting the second logical storage area;
The failure control unit provides the second logical storage area to the second service providing unit, and instructs the second service providing unit to start the service,
When the access request is received from the second service providing unit, the computer system is configured to access the second logical storage area with reference to the second redundancy information.
前記障害制御部は、前記第2の冗長化処理部を呼び出す前に、前記主系計算機からのアクセスを禁止することを特徴とする計算機システム。The computer system according to claim 2,
The failure control unit prohibits access from the main computer before calling the second redundancy processing unit.
前記第1の冗長化処理部は、
前記第1の論理記録領域に対する書込要求を受信した場合に、前記第1の論理記憶領域を構成する前記主系計算機の記憶媒体及び前記副系計算機の記憶媒体に同一のデータを書き込み、
前記第1の論理記憶領域に対する読出要求を受信した場合に、前記第1の論理記憶領域を構成する前記主系計算機の記憶媒体からデータを読み出し、
前記第2の冗長化処理部は、
前記第2の論理記憶領域に対する書込要求を受信した場合に、前記第2の論理記憶領域を構成する前記副系計算機の記憶媒体に同一のデータを書き込み、
前記第2の論理記憶領域に対する読出要求を受信した場合に、前記第2の論理記憶領域を構成し、かつ、前記第2のサービス提供部が実行される前記副系計算機の記憶媒体からデータを読み出すことを特徴とする計算機システム。The computer system according to claim 2,
The first redundancy processing unit includes:
When a write request for the first logical recording area is received, the same data is written to the storage medium of the primary computer and the storage medium of the secondary computer that constitute the first logical storage area,
When a read request for the first logical storage area is received, data is read from the storage medium of the main computer constituting the first logical storage area;
The second redundancy processing unit includes:
When a write request for the second logical storage area is received, the same data is written to the storage medium of the subsystem computer that constitutes the second logical storage area,
When a read request to the second logical storage area is received, data is stored from the storage medium of the subordinate computer that constitutes the second logical storage area and that executes the second service providing unit. A computer system characterized by reading.
前記主系計算機は、当該主系計算機の障害を回復する回復部を有し、
前記回復部は、
前記第2のサービス提供部を停止させ、
前記第2の論理記憶領域を構成する前記副系計算機の記憶媒体から前記第2の冗長化情報を取得し、
前記第2の論理記憶領域を前記第1のサービス提供部に提供して、当該第1のサービス提供部に前記サービスの開始を命令し、
前記第1の冗長化処理部を呼び出し、
前記第1の冗長化処理部は、
前記主系計算機の記憶媒体及び前記副系計算機の記憶媒体が提供する記憶領域を用いて第3の論理記憶領域を生成し、
前記第3の論理記憶領域と、当該第3の論理記憶領域を構成する前記主系計算機の記憶媒体及び前記副系計算機の記憶媒体との対応関係を含む第3の冗長化情報を生成し、
前記第3の論理記憶領域を構成する前記主系計算機の記憶媒体及び前記副系計算機の記憶媒体に、前記第3の冗長化情報を書き込み、
前記回復部は、前記第3の論理記憶領域を構成する前記主系計算機の記憶媒体に、前記第3の論理記憶領域を構成する前記副系計算機の記憶媒体に格納されるデータをコピーすることを特徴とする計算機システム。The computer system according to claim 2,
The main computer has a recovery unit for recovering from a failure of the main computer,
The recovery unit is
Stopping the second service providing unit;
Obtaining the second redundancy information from a storage medium of the secondary computer constituting the second logical storage area;
Providing the second logical storage area to the first service providing unit and instructing the first service providing unit to start the service;
Calling the first redundancy processing unit;
The first redundancy processing unit includes:
A third logical storage area is generated using a storage area provided by the storage medium of the primary computer and the storage medium of the secondary computer,
Generating third redundancy information including a correspondence relationship between the third logical storage area and the storage medium of the primary computer and the storage medium of the secondary computer constituting the third logical storage area;
The third redundancy information is written to the storage medium of the primary computer and the storage medium of the secondary computer constituting the third logical storage area,
The recovery unit copies the data stored in the storage medium of the secondary computer constituting the third logical storage area to the storage medium of the primary computer constituting the third logical storage area. A computer system characterized by
前記主系計算機は、前記副系計算機を選択する選択部を有し、
前記選択部は、
前記計算機システムに含まれる前記複数の計算機の中から1台以上の前記副系計算機を選択し、
前記選択された副系計算機との接続を確立することを特徴とする計算機システム。The computer system according to claim 1,
The main computer has a selection unit for selecting the sub computer,
The selection unit includes:
Selecting one or more secondary computers from the plurality of computers included in the computer system;
A computer system characterized by establishing a connection with the selected sub computer.
前記複数の計算機の各々は、プロセッサと、前記プロセッサに接続されるメモリと、前記プロセッサに接続される記憶媒体と、ネットワークを介して他の装置と接続するためのネットワークインタフェースとを有し、
前記複数の計算機は、サービスを提供する1台の主系計算機と、前記主系計算機に障害が発生した場合に前記サービスを引き継ぐ1台以上の副系計算機とを含み、
前記方法は、
前記主系計算機が、前記主系計算機の記憶媒体及び前記副系計算機の記憶媒体が提供する記憶領域を用いて第1の論理記憶領域を生成する第1のステップと、
前記主系計算機が、前記第1の論理記憶領域と、当該第1の論理記憶領域を構成する前記主系計算機の記憶媒体及び前記副系計算機の記憶媒体との対応関係を含む第1の冗長化情報を生成する第2のステップと、
前記主系計算機が、前記第1の論理記憶領域を構成する前記主系計算機の記憶媒体及び前記副系計算機の記憶媒体に、前記第1の冗長化情報を書き込む第3のステップと、
前記主系計算機が、前記第1の論理記憶領域を用いて前記サービスを開始する第4のステップと、
前記主系計算機が、前記第1の論理記憶領域へのアクセス要求を受信した場合に、前記第1の冗長化情報を参照して、前記第1の論理記憶領域にアクセスする第5のステップと、
前記副系計算機が、前記主系計算機の障害を検知した場合に、前記第1の論理記憶領域に格納されたデータを用いて前記サービスを継続する第6のステップと、を含むことを特徴とする論理記憶領域管理方法。A logical storage area management method in a computer system comprising a plurality of computers,
Each of the plurality of computers has a processor, a memory connected to the processor, a storage medium connected to the processor, and a network interface for connecting to another device via a network,
The plurality of computers includes one main computer that provides a service, and one or more sub computers that take over the service when a failure occurs in the main computer,
The method
A first step in which the main computer generates a first logical storage area using a storage area provided by the storage medium of the main computer and the storage medium of the sub computer;
The primary computer includes a first redundancy including a correspondence relationship between the first logical storage area and the storage medium of the primary computer and the storage medium of the secondary computer constituting the first logical storage area. A second step of generating the conversion information;
A third step in which the main computer writes the first redundancy information to a storage medium of the main computer and a storage medium of the sub computer constituting the first logical storage area;
A fourth step in which the main computer starts the service using the first logical storage area;
A fifth step of accessing the first logical storage area with reference to the first redundancy information when the main computer receives an access request to the first logical storage area; ,
And a sixth step of continuing the service using the data stored in the first logical storage area when the secondary computer detects a failure of the primary computer. Logical storage area management method.
前記第6のステップは、
前記副系計算機が、前記主系計算機の記憶媒体を除く、前記副系計算機の記憶媒体のみを用いて新たな第2の論理記憶領域を生成する第7のステップと、
前記副系計算機が、前記第2の論理記憶領域と、当該第2の論理記憶領域を構成する前記副系計算機の記憶媒体との対応関係を含む第2の冗長化情報を生成する第8のステップと、
前記副系計算機が、前記第2の論理記憶領域を構成する前記副系計算機の記憶媒体に前記第2の冗長化情報を書き込む第9のステップと、
前記副系計算機が、前記第2の論理記憶領域を用いて前記サービスを開始する第10のステップと、を含み、
前記方法は、さらに、
前記副系計算機が、前記第2の論理記憶領域へのアクセス要求を受信した場合に、前記第2の冗長化情報を参照して、前記第2の論理記憶領域にアクセスする第11のステップを含むことを特徴とする論理記憶領域管理方法。The logical storage area management method according to claim 7,
The sixth step includes
A seventh step in which the secondary computer generates a new second logical storage area using only the storage medium of the secondary computer, excluding the storage medium of the primary computer;
The sub system computer generates second redundancy information including a correspondence relationship between the second logical storage area and the storage medium of the sub system composing the second logical storage area. Steps,
A ninth step in which the secondary computer writes the second redundancy information to a storage medium of the secondary computer constituting the second logical storage area;
A tenth step in which the secondary computer starts the service using the second logical storage area;
The method further comprises:
An eleventh step of accessing the second logical storage area with reference to the second redundancy information when the secondary computer receives an access request to the second logical storage area; A logical storage area management method comprising:
前記第7のステップは、前記副系計算機が、前記第2の論理記憶領域を生成する前に、前記主系計算機からのアクセスを禁止するステップを含むことを特徴とする論理記憶領域管理方法。The logical storage area management method according to claim 8, comprising:
The seventh step includes a step of prohibiting access from the primary computer before the secondary computer generates the second logical storage region.
前記第5のステップでは、前記主系計算機が、前記第1の論理記録領域に対する書込要求を受信した場合に、前記第1の論理記憶領域を構成する前記主系計算機の記憶媒体及び前記副系計算機の記憶媒体に同一のデータを書き込み、前記第1の論理記憶領域に対する読出要求を受信した場合に、前記第1の論理記憶領域を構成する前記主系計算機の記憶媒体からデータを読み出し、
前記第11のステップでは、前記副系計算機が、前記第2の論理記憶領域に対する書込要求を受信した場合に、前記第2の論理記憶領域を構成する前記副系計算機の記憶媒体に同一のデータを書き込み、前記第2の論理記憶領域に対する読出要求を受信した場合に、前記第2の論理記憶領域を構成し、かつ、前記サービスを提供する前記副系計算機の記憶媒体からデータを読み出すことを特徴とする論理記憶領域管理方法。The logical storage area management method according to claim 8, comprising:
In the fifth step, when the main computer receives a write request for the first logical recording area, the storage medium of the main computer and the secondary computer constituting the first logical storage area When the same data is written to the storage medium of the system computer, and when a read request for the first logical storage area is received, the data is read from the storage medium of the main computer constituting the first logical storage area,
In the eleventh step, when the secondary computer receives a write request for the second logical storage area, it is the same as the storage medium of the secondary computer that constitutes the second logical storage area. When data is written and a read request for the second logical storage area is received, the second logical storage area is configured and the data is read from the storage medium of the secondary computer that provides the service A logical storage area management method.
前記方法は、さらに、
前記主系計算機が、前記副系計算機において実行される前記サービスを停止させるステップと、
前記主系計算機が、前記第2の論理記憶領域を構成する前記副系計算機の記憶媒体から前記第2の冗長化情報を取得するステップと、
前記主系計算機が、前記第2の論理記憶領域を用いて前記サービスを開始するステップと、
前記主系計算機が、前記主系計算機の記憶媒体及び前記副系計算機の記憶媒体が提供する記憶領域を用いて第3の論理記憶領域を生成するステップと、
前記主系計算機が、前記第3の論理記憶領域と、当該第3の論理記憶領域を構成する前記主系計算機の記憶媒体及び前記副系計算機の記憶媒体との対応関係を含む第3の冗長化情報を生成するステップと、
前記主系計算機が、前記第3の論理記憶領域を構成する前記主系計算機の記憶媒体及び前記副系計算機の記憶媒体に、前記第3の冗長化情報を書き込むステップと、
前記主系計算機が、前記第3の論理記憶領域を構成する前記主系計算機の記憶媒体に、前記第3の論理記憶場領域を構成する前記副系計算機の記憶媒体に格納されるデータをコピーするステップとを含むことを特徴とする論理記憶領域管理方法。The logical storage area management method according to claim 8, comprising:
The method further comprises:
The primary computer stopping the service executed in the secondary computer;
The primary computer obtaining the second redundancy information from a storage medium of the secondary computer constituting the second logical storage area;
The main computer starts the service using the second logical storage area; and
The main computer generates a third logical storage area using a storage area provided by the storage medium of the main computer and the storage medium of the sub computer; and
The main computer includes a third redundancy including a correspondence relationship between the third logical storage area and the storage medium of the main computer and the storage medium of the sub computer constituting the third logical storage area. Generating archiving information; and
The main computer writes the third redundancy information to a storage medium of the main computer and a storage medium of the sub computer constituting the third logical storage area;
The primary computer copies the data stored in the storage medium of the secondary computer constituting the third logical storage area to the storage medium of the primary computer constituting the third logical storage area And a logical storage area management method comprising the steps of:
前記第1のステップは、
前記主系計算機が、前記計算機システムに含まれる前記複数の計算機の中から1台以上の前記副系計算機を選択するステップと、
前記主系計算機が、前記選択された副系計算機との接続を確立するステップと、を含むことを特徴とする論理記憶領域管理方法。The logical storage area management method according to claim 7,
The first step includes
The primary computer selecting one or more secondary computers from the plurality of computers included in the computer system;
And a step of establishing a connection between the main computer and the selected sub computer.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2012/050674 WO2013108351A1 (en) | 2012-01-16 | 2012-01-16 | Computer system and logical storage region management method |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2013108351A1 true JPWO2013108351A1 (en) | 2015-05-11 |
JP6005668B2 JP6005668B2 (en) | 2016-10-12 |
Family
ID=48798802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013554106A Expired - Fee Related JP6005668B2 (en) | 2012-01-16 | 2012-01-16 | Computer system and logical storage area management method |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6005668B2 (en) |
WO (1) | WO2013108351A1 (en) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0222739A (en) * | 1988-07-12 | 1990-01-25 | Nec Corp | Cpu duplex system |
JPH06187184A (en) * | 1992-12-16 | 1994-07-08 | Mitsubishi Electric Corp | Input and output controller for duplex system |
JPH09237226A (en) * | 1995-11-02 | 1997-09-09 | Sun Microsyst Inc | Method for highly reliable disk fencing in multi-computer system and device therefor |
JP2001109642A (en) * | 1999-10-08 | 2001-04-20 | Toshiba Corp | Cluster system and data copying method therefor |
JP2004535012A (en) * | 2001-06-26 | 2004-11-18 | イーエムシー コーポレイション | Network data mirroring for building a virtual storage area network |
JP2007200103A (en) * | 2006-01-27 | 2007-08-09 | Nec Corp | Client-server system and resource control method |
JP2008276281A (en) * | 2007-04-25 | 2008-11-13 | Nec Corp | Data synchronization system, method, and program |
JP2009080569A (en) * | 2007-09-25 | 2009-04-16 | Oki Electric Ind Co Ltd | Data synchronous system, method and program, and server |
JP2009265973A (en) * | 2008-04-25 | 2009-11-12 | Nec Corp | Data synchronization system, failure recovery method, and program |
-
2012
- 2012-01-16 JP JP2013554106A patent/JP6005668B2/en not_active Expired - Fee Related
- 2012-01-16 WO PCT/JP2012/050674 patent/WO2013108351A1/en active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0222739A (en) * | 1988-07-12 | 1990-01-25 | Nec Corp | Cpu duplex system |
JPH06187184A (en) * | 1992-12-16 | 1994-07-08 | Mitsubishi Electric Corp | Input and output controller for duplex system |
JPH09237226A (en) * | 1995-11-02 | 1997-09-09 | Sun Microsyst Inc | Method for highly reliable disk fencing in multi-computer system and device therefor |
JP2001109642A (en) * | 1999-10-08 | 2001-04-20 | Toshiba Corp | Cluster system and data copying method therefor |
JP2004535012A (en) * | 2001-06-26 | 2004-11-18 | イーエムシー コーポレイション | Network data mirroring for building a virtual storage area network |
JP2007200103A (en) * | 2006-01-27 | 2007-08-09 | Nec Corp | Client-server system and resource control method |
JP2008276281A (en) * | 2007-04-25 | 2008-11-13 | Nec Corp | Data synchronization system, method, and program |
JP2009080569A (en) * | 2007-09-25 | 2009-04-16 | Oki Electric Ind Co Ltd | Data synchronous system, method and program, and server |
JP2009265973A (en) * | 2008-04-25 | 2009-11-12 | Nec Corp | Data synchronization system, failure recovery method, and program |
Also Published As
Publication number | Publication date |
---|---|
WO2013108351A1 (en) | 2013-07-25 |
JP6005668B2 (en) | 2016-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9489274B2 (en) | System and method for performing efficient failover and virtual machine (VM) migration in virtual desktop infrastructure (VDI) | |
US8341455B2 (en) | Management method and system for managing replication by taking into account cluster storage accessibility to a host computer | |
JP5068056B2 (en) | Failure recovery method, computer system and management server | |
EP3128720A1 (en) | Post-cluster brain split quorum processing method and quorum storage device and system | |
JP5959733B2 (en) | Storage system and storage system failure management method | |
US8539087B2 (en) | System and method to define, visualize and manage a composite service group in a high-availability disaster recovery environment | |
US20140173330A1 (en) | Split Brain Detection and Recovery System | |
WO2014083598A1 (en) | Hierarchical storage system and file management method | |
JP2005267327A (en) | Storage system | |
JP2007034438A (en) | Redundant path controller, method, program, and disk array system | |
CN103840961A (en) | Dual-computer hot backup system | |
JP2008112399A (en) | Storage virtualization switch and computer system | |
US8683258B2 (en) | Fast I/O failure detection and cluster wide failover | |
EP3648405B1 (en) | System and method to create a highly available quorum for clustered solutions | |
CN113515408A (en) | Data disaster tolerance method, device, equipment and medium | |
JP2009069963A (en) | Multiprocessor system | |
CN114124803B (en) | Device management method and device, electronic device and storage medium | |
JP6005668B2 (en) | Computer system and logical storage area management method | |
WO2016056074A1 (en) | Computer system and memory dump method | |
US10514846B2 (en) | Computer system and management method for computer | |
JP4495248B2 (en) | Information processing apparatus and failure processing method | |
WO2016046951A1 (en) | Computer system and file management method therefor | |
JP2018133005A (en) | Control device and control method | |
JP5947974B2 (en) | Information processing apparatus, information processing apparatus exchange support system, and exchange support method | |
JP6012479B2 (en) | Information processing system, control method, and control program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150512 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150626 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160126 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160304 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160816 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160907 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6005668 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |