JP6654662B2 - Server device and server system - Google Patents

Server device and server system Download PDF

Info

Publication number
JP6654662B2
JP6654662B2 JP2018090500A JP2018090500A JP6654662B2 JP 6654662 B2 JP6654662 B2 JP 6654662B2 JP 2018090500 A JP2018090500 A JP 2018090500A JP 2018090500 A JP2018090500 A JP 2018090500A JP 6654662 B2 JP6654662 B2 JP 6654662B2
Authority
JP
Japan
Prior art keywords
server device
failure
control circuit
server
connection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018090500A
Other languages
Japanese (ja)
Other versions
JP2018147510A (en
Inventor
恒志 仙洞田
恒志 仙洞田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Platforms Ltd
Original Assignee
NEC Platforms Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Platforms Ltd filed Critical NEC Platforms Ltd
Priority to JP2018090500A priority Critical patent/JP6654662B2/en
Publication of JP2018147510A publication Critical patent/JP2018147510A/en
Application granted granted Critical
Publication of JP6654662B2 publication Critical patent/JP6654662B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、複数のサーバ装置により構成されるサーバシステムの可用性に係る技術に関する。   The present invention relates to a technology related to availability of a server system including a plurality of server devices.

図5は、サーバシステムの一種であるクラスタシステムの一構成例を簡略化して表すブロック図である。このクラスタシステム50は、複数のサーバ装置511,512と、データベースシステム52とを備えている。サーバ装置511,512は、互いに、情報通信網53を介して接続している。また、サーバ装置511,512は、データベースシステム52に共通に接続しており、当該データベースシステム52に格納されているデータを共通に利用可能である。 FIG. 5 is a simplified block diagram illustrating a configuration example of a cluster system, which is a type of server system. The cluster system 50 includes a plurality of server devices 51 1, 51 2, and a database system 52. Server device 51 1, 51 2 are connected to each other via the information communication network 53. Further, the server apparatus 51 1, 51 2 are connected in common to the database system 52, it is possible to use data stored in the database system 52 in common.

このクラスタシステム50では、サーバ装置511,512のうちの一方が現用系として稼働し、他方が待機系として稼働する。これにより、現用系のサーバ装置に障害が発生した場合に、当該サーバ装置に代わって待機系のサーバ装置が稼働することによって、クラスタシステム50は、現用系のサーバ装置に障害が発生しても、システムとしての稼働を継続できる。換言すれば、クラスタシステム50は、システムの可用性(システムを継続して稼働できる性能)を高めることができる。 In the cluster system 50, one of the server devices 51 1, 51 2 is operating as the active system and the other to operate as a standby system. Thus, when a failure occurs in the active server device, the standby server device operates in place of the server device, so that the cluster system 50 can operate even if a failure occurs in the active server device. The operation as a system can be continued. In other words, the cluster system 50 can increase the availability of the system (the performance that allows the system to operate continuously).

特開平01−304545号公報JP-A-01-304545 特開2003−076592号公報JP-A-2003-076592

ところで、待機系のサーバ装置は、例えば、引用文献1,2に示されるように、ハートビート信号を利用して現用系のサーバ装置に障害が発生したことを検知する。そのハートビート信号とは、現用系のサーバ装置が定期的に出力する信号である。現用系のサーバ装置が障害発生によりシャットダウンした場合には、ハートビート信号は現用系のサーバ装置から出力されなくなる。待機系のサーバ装置は、そのハートビート信号の出力状況を監視しており、出力予定時間を過ぎてもハートビート信号が出力されていないことを検知した場合に、現用系のサーバ装置が障害発生によりシャットダウンしたと判断(検知)する。   By the way, the standby server device detects that a failure has occurred in the active server device using a heartbeat signal, for example, as described in Patent Documents 1 and 2. The heartbeat signal is a signal that the active server device periodically outputs. When the active server is shut down due to the occurrence of a failure, the heartbeat signal is not output from the active server. The standby server monitors the output status of the heartbeat signal, and if it detects that the heartbeat signal is not output after the scheduled output time, the active server fails. Is determined (detected) as shut down.

待機系のサーバ装置は、そのように現用系のサーバ装置が障害発生によりシャットダウンしたことを検知した以降に、その障害発生のサーバ装置から切り替わって現用系として稼働するために切り替え処理を実行する。   After detecting that the active server device has been shut down due to the occurrence of a failure, the standby server device executes switching processing to switch from the failed server device to operate as the active server device.

また、待機系から現用系に切り替わったサーバ装置は、通常の処理を開始する前に、データベースシステム52のリカバリ処理を実行する。つまり、障害が発生したサーバ装置が、障害発生からシャットダウンするまでの間にデータベースシステム52にアクセスすると、正常にアクセスできない虞がある。この不当なアクセスは、データベースシステム52に格納されているデータの格納状態を複雑化したり、データの一部を破壊してしまう虞がある。このような不当なアクセスに因る事態が継続することを回避すべく、現用系に切り替わったサーバ装置は、通常処理を開始する前に、データベースシステム52のリカバリ処理を実行している。このリカバリ処理に要する時間は長いことから、サーバ装置に障害が発生してから当該サーバ装置に代わって待機系のサーバ装置が現用系として立ち上がるまでの時間が長く掛かってしまうという問題が有る。   Further, the server device switched from the standby system to the active system executes the recovery processing of the database system 52 before starting the normal processing. That is, if the failed server device accesses the database system 52 during a period from the occurrence of the failure to the time of shutdown, the server device may not be able to access normally. This unauthorized access may complicate the storage state of the data stored in the database system 52, or may destroy a part of the data. In order to prevent the situation caused by such unauthorized access from continuing, the server device switched to the active system performs the recovery process of the database system 52 before starting the normal process. Since the time required for the recovery process is long, there is a problem that it takes a long time from when a failure occurs in the server device to when the standby server device starts up as the active system in place of the server device.

本発明は上記課題を解決するために考え出された。すなわち、本発明の主な目的は、現用系のサーバ装置に障害が発生した場合に、当該サーバ装置に代わって待機系のサーバ装置が現用系として迅速に立ち上がる技術を提供することにある。   The present invention has been devised to solve the above-mentioned problems. That is, a main object of the present invention is to provide a technique in which when a failure occurs in an active server device, a standby server device quickly starts up as an active system instead of the server device.

上記目的を達成するために、本発明のサーバ装置は、
他のサーバ装置と共通に接続する共有資源との接続を制御する処理を含むコンピュータプログラムに基づいた処理を実行する制御回路と、
自装置に障害が発生したことを検知する障害検知回路と、
前記障害検知回路が障害発生を検知した場合に、前記共有資源との接続を遮断する接続制御回路と、
前記障害検知回路が障害発生を検知した場合に、前記他のサーバ装置に向けて障害発生を通知する機械制御回路と
を備え、
前記制御回路は、コンピュータプログラムであるミドルウェアに基づいた処理を実行する機能を備え、前記ミドルウェアに基づいた処理の一つとして、前記共有資源との接続を制御する処理を実行し、
前記機械制御回路は、コンピュータプログラムであるファームウェアに基づいた処理を実行する機能を備え、前記ファームウェアに基づいた処理の一つとして、前記障害検知回路が障害発生を検知した場合に、他のサーバ装置に向けて障害発生を通知する処理を実行する。
In order to achieve the above object, a server device of the present invention comprises:
A control circuit that executes a process based on a computer program including a process of controlling a connection with a shared resource commonly connected to another server device;
A failure detection circuit for detecting that a failure has occurred in the own device;
When the failure detection circuit detects the occurrence of a failure, a connection control circuit that disconnects the connection with the shared resource,
A machine control circuit that notifies the other server device of the occurrence of the failure when the failure detection circuit detects the occurrence of the failure,
The control circuit has a function of executing a process based on middleware that is a computer program, and executes a process of controlling connection with the shared resource as one of processes based on the middleware,
The machine control circuit has a function of executing a process based on firmware which is a computer program, and as one of the processes based on the firmware, when the fault detection circuit detects the occurrence of a fault, another server device To notify the occurrence of a failure.

また、本発明のサーバシステムは、
互いに接続している複数のサーバ装置と、
これらサーバ装置が共通に接続している共有資源と
を備え、
前記サーバ装置は、本発明のサーバ装置であり、
複数の前記サーバ装置のうちの少なくとも一つは待機系として機能し、他のサーバ装置は、現用系として稼働し、
現用系として稼働している前記サーバ装置に障害が発生した場合には、待機系の前記サーバ装置おける前記制御回路は、現用系の前記サーバ装置に備えられている前記機械制御回路から障害発生が通知されたことによって待機状態から通常の稼働状態に移行する。
Further, the server system of the present invention includes:
A plurality of server devices connected to each other,
These servers have shared resources connected in common,
The server device is a server device of the present invention,
At least one of the plurality of server devices functions as a standby system, and the other server devices operate as active systems,
When a failure occurs in the server device operating as an active system, the control circuit in the standby system server device generates a failure from the machine control circuit provided in the active server device. The state shifts from the standby state to the normal operation state by being notified.

本発明によれば、現用系のサーバ装置に障害が発生した場合に、当該サーバ装置に代わって待機系のサーバ装置が現用系として迅速に立ち上がる(通常稼働状態に移行する)ことができる。   According to the present invention, when a failure occurs in the active server device, the standby server device can quickly start up (transfer to the normal operation state) as the active server instead of the server device.

本発明に係る第1実施形態のサーバ装置およびそれを備えたサーバシステムの構成を簡略化して表すブロック図である。FIG. 1 is a block diagram illustrating a simplified configuration of a server device according to a first embodiment of the present invention and a server system including the same. 本発明に係る第2実施形態のサーバ装置の構成を簡略化して表すブロック図である。It is a block diagram showing the composition of the server device of a 2nd embodiment concerning the present invention in a simplified form. 第2実施形態のサーバ装置を備えたサーバシステムを説明する図である。It is a figure explaining a server system provided with a server device of a 2nd embodiment. 第2実施形態のサーバ装置における障害発生時の動作例を説明する図である。FIG. 14 is a diagram illustrating an operation example when a failure occurs in the server device according to the second embodiment. サーバシステムの一例を説明する図である。FIG. 2 is a diagram illustrating an example of a server system.

以下に、本発明に係る実施形態を図面を参照しつつ説明する。   An embodiment according to the present invention will be described below with reference to the drawings.

(第1実施形態)
図1(a)は、本発明に係る第1実施形態のサーバ装置の構成を簡略化して表すブロック図である。図1(b)は、その第1実施形態のサーバ装置を備えたサーバシステムを説明する図である。
(1st Embodiment)
FIG. 1A is a simplified block diagram illustrating a configuration of a server device according to a first embodiment of the present invention. FIG. 1B is a diagram illustrating a server system including the server device according to the first embodiment.

この第1実施形態のサーバ装置1は、図1(b)に表されるように、他のサーバ装置1に例えばLAN(Local Area Network)によって接続し、サーバシステム7を構築する。このサーバシステム7では、複数のサーバ装置1は、共有資源8に共通に接続し、当該共有資源8を共通に利用する。   The server device 1 according to the first embodiment is connected to another server device 1 by, for example, a LAN (Local Area Network), as shown in FIG. In the server system 7, the plurality of server devices 1 are connected to the shared resource 8 in common and use the shared resource 8 in common.

この第1実施形態のサーバ装置1は、図1(a)に表されるように、制御回路2と、機械制御回路3と、障害検知回路4と、接続制御回路5とを備えている。制御回路2は、共有資源8との接続を制御する処理を含むコンピュータプログラムに基づいた処理を実行する機能を備えている。   As shown in FIG. 1A, the server device 1 of the first embodiment includes a control circuit 2, a machine control circuit 3, a failure detection circuit 4, and a connection control circuit 5. The control circuit 2 has a function of executing a process based on a computer program including a process of controlling connection with the shared resource 8.

障害検知回路4は、自装置1に障害が発生したことを検知する回路構成を備えている。接続制御回路5は、障害検知回路4が障害発生を検知した場合に、制御回路2が共有資源8との接続遮断を指示する前に、共有資源8との接続を遮断する機能を備えている。機械制御回路3は、障害検知回路4が障害発生を検知した場合に、他のサーバ装置1に向けて障害発生を通知する機能を備えている。   The failure detection circuit 4 has a circuit configuration for detecting that a failure has occurred in the own device 1. The connection control circuit 5 has a function of disconnecting the connection with the shared resource 8 before the control circuit 2 instructs the disconnection of the connection with the shared resource 8 when the failure detection circuit 4 detects the occurrence of the failure. . The machine control circuit 3 has a function of notifying another server device 1 of the occurrence of a failure when the failure detection circuit 4 detects the occurrence of a failure.

なお、図1(b)に表されている例では、サーバシステム7を構成するサーバ装置1の個数は2個であるが、サーバシステム7を構成するサーバ装置1の個数は、複数であれば、2個に限定されない。   In the example shown in FIG. 1B, the number of the server devices 1 constituting the server system 7 is two, but if the number of the server devices 1 constituting the server system 7 is plural, It is not limited to two.

この第1実施形態では、制御回路2とは別に障害検知回路4が設けられている。このため、サーバ装置1は、制御回路2の処理とは別に障害検知回路4によって障害発生を検知することができる。また、この第1実施形態では、障害検知回路4が障害発生を検知することにより、サーバ装置1は、制御回路2が共有資源8との接続遮断を指示する前に、障害発生に起因して、迅速に、共有資源8との接続を遮断することが可能となる。このため、サーバ装置1に障害が発生してから当該サーバ装置1が共有資源8との接続を遮断するまでの時間が長いことに起因して、サーバ装置1が共有資源8に不適切な接続を実行してしまうという事態発生が回避される。   In the first embodiment, a fault detection circuit 4 is provided separately from the control circuit 2. Therefore, the server device 1 can detect the occurrence of a failure by the failure detection circuit 4 separately from the processing of the control circuit 2. Further, in the first embodiment, the failure detection circuit 4 detects the occurrence of a failure, so that the server apparatus 1 can generate the failure before the control circuit 2 instructs the connection to the shared resource 8 to be disconnected. It is possible to quickly cut off the connection with the shared resource 8. For this reason, since the time from when a failure occurs in the server device 1 to when the server device 1 cuts off the connection with the shared resource 8 is long, the server device 1 cannot connect to the shared resource 8 inappropriately. Is prevented from occurring.

また、この第1実施形態では、障害検知回路4が障害発生を検知すると、機械制御回路3が他のサーバ装置1に向けて障害発生を通知する。このため、障害が発生しているサーバ装置1が障害発生により駆動停止する前に、サーバシステム7において待機系として機能しているサーバ装置1は、そのサーバ装置1における障害発生を検知できる。これにより、待機系のサーバ装置1は、障害発生のサーバ装置1が停止する前に、現用系への切り替え処理を開始できる。   In the first embodiment, when the failure detection circuit 4 detects the occurrence of a failure, the machine control circuit 3 notifies the other server devices 1 of the occurrence of the failure. Therefore, the server device 1 functioning as a standby system in the server system 7 can detect the occurrence of the failure in the server device 1 before the server device 1 in which the failure has occurred stops driving due to the failure. Thus, the standby server device 1 can start the switching process to the active system before the server device 1 in which the failure has occurred is stopped.

このように、第1実施形態のサーバ装置1は、障害が発生した場合に、待機系としてのサーバ装置1が迅速に現用系への切り替え処理を開始できるように、障害発生を通知できる。また、当該サーバ装置1は、障害が発生した場合に、前記の如く、迅速に共有資源8との接続を遮断できることから、共有資源8との不適切な接続を回避でき、これにより、不適切な接続に起因した共有資源8のトラブルを防止できる。このことと、待機系のサーバ装置1が切り替え処理を早めに開始できることとが相俟って、この第1実施形態では、待機系のサーバ装置1は、待機状態から現用系として稼働する(立ち上がる)までの時間を短縮できる。   As described above, when a failure occurs, the server device 1 of the first embodiment can notify the occurrence of the failure so that the server device 1 as the standby system can quickly start the process of switching to the active system. Further, when a failure occurs, the server device 1 can promptly cut off the connection with the shared resource 8 as described above, so that an inappropriate connection with the shared resource 8 can be avoided. It is possible to prevent troubles of the shared resource 8 caused by a poor connection. In combination with this and the fact that the standby server device 1 can start the switching process earlier, in the first embodiment, the standby server device 1 operates from the standby state as the active system (starts up). ) Can be shortened.

(第2実施形態)
以下に、本発明に係る第2実施形態を説明する。
(2nd Embodiment)
Hereinafter, a second embodiment according to the present invention will be described.

図2は、第2実施形態のサーバ装置の構成を簡略化して表すブロック図である。図3は、その第2実施形態のサーバ装置を備えたサーバシステムであるクラスタシステムの構成を簡略化して表すブロック図である。   FIG. 2 is a simplified block diagram showing the configuration of the server device of the second embodiment. FIG. 3 is a simplified block diagram showing a configuration of a cluster system which is a server system including the server device of the second embodiment.

第2実施形態におけるクラスタシステム20は、複数のサーバ装置21(211,・・・,21n(ただし、nは2以上の整数)と、データベースシステム22とを備えている。データベースシステム22は、データを格納する記憶媒体を有し、当該記憶媒体に対してデータの読み書きを実行する機能を備えている。この第2実施形態では、データベースシステム22は、複数のサーバ装置21(211,・・・,21n)が共通に接続する共有資源である。データベースシステム22とサーバ装置21は、例えば通信方式の一種であるファイバーチャネル(Fiber Channel (FC))を利用して接続する。 The cluster system 20 according to the second embodiment includes a plurality of server devices 21 (21 1 ,..., 21 n (where n is an integer of 2 or more) and a database system 22. In the second embodiment, the database system 22 includes a plurality of server devices 21 (21 1 , 21 2 , 21 3 , 21 2 , 21 2 , 21 2 , 21 2 , 21 2 , 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21 , 21 n ) are shared resources connected in common.The database system 22 and the server device 21 are connected using, for example, a fiber channel (Fiber Channel (FC)) which is a kind of communication system.

複数のサーバ装置21(211,・・・,21n)は、互いに、LAN等の情報通信網25,26を介して接続している。この第2実施形態では、サーバ装置21(211,・・・,21n)は、次のような共通の構成を備えている。なお、サーバ装置21(211,・・・,21n)は、その共通の構成を備えていれば、それ以外の構成については特に限定されない。 The plurality of server devices 21 (21 1 ,..., 21 n ) are connected to each other via information communication networks 25 and 26 such as LANs. In the second embodiment, the server devices 21 (21 1 ,..., 21 n ) have the following common configuration. The server device 21 (21 1 ,..., 21 n ) is not particularly limited as far as it has the common configuration.

また、複数のサーバ装置21のうちの少なくとも一つは、待機系として機能し、それ以外の現用系として機能するサーバ装置21が障害発生により正常に稼働できなくなった場合に備える。   Also, at least one of the plurality of server devices 21 functions as a standby system, and prepares for a case where the other server devices 21 functioning as an active system cannot operate normally due to a failure.

サーバ装置21は、制御回路31と、BMC(Baseboard Management Controller)33と、基板ユニット34と、I/O(Input / Output)回路35〜37とを備えている。制御回路31は、CPU(Central Processing Unit)を備え、記憶装置(図示せず)に格納されているコンピュータプログラム(プログラム)を読み出し当該プログラムを実行することにより様々な機能を持つことができる。この第2実施形態では、制御回路31は、機能部として、ミドルウェア部32を備えている。当該ミドルウェア部32は、ミドルウェアと呼ばれるコンピュータプログラムに基づいて動作する機能部であり、例えば、データベースシステム22に関係が有る動作を実行する。また、ミドルウェア部32は、待機系として機能している場合に他のサーバ装置21から障害が発生したことを通知された場合には、待機系から現用系に切り替わる切り替え処理を実行する機能を備えている。さらに、この第2実施形態では、ミドルウェア部32は、その切り替え処理の後に、データベースシステム22のリカバリ処理を実行することなく、通常の稼働状態に移行する機能を備えている。   The server device 21 includes a control circuit 31, a BMC (Baseboard Management Controller) 33, a board unit 34, and I / O (Input / Output) circuits 35 to 37. The control circuit 31 includes a CPU (Central Processing Unit), and can have various functions by reading a computer program (program) stored in a storage device (not shown) and executing the program. In the second embodiment, the control circuit 31 includes a middleware unit 32 as a function unit. The middleware unit 32 is a functional unit that operates based on a computer program called middleware, and executes, for example, operations related to the database system 22. Also, the middleware unit 32 has a function of executing a switching process for switching from the standby system to the active system when another server device 21 notifies that a failure has occurred while functioning as the standby system. ing. Further, in the second embodiment, the middleware section 32 has a function of shifting to a normal operation state without executing the recovery processing of the database system 22 after the switching processing.

なお、制御回路31は、機能部として、基本ソフトウェアであるオペレーティングシステム(OS(Operating System))に基づいて動作するOS部(図示せず)をさらに備えている。このOS部は、サーバ装置21に障害が発生した場合に、実行中のアプリケーション処理を終了する処理と、サーバ装置21の稼働を停止するシャットダウン処理とを実行する機能を備えている。   The control circuit 31 further includes, as a functional unit, an OS unit (not shown) that operates based on an operating system (OS) that is basic software. The OS unit has a function of executing a process of terminating the application processing being executed and a shutdown process of stopping the operation of the server device 21 when a failure occurs in the server device 21.

各I/O回路35〜37は、制御回路31に接続し、当該制御回路31を例えば用途に応じて設定の接続相手に接続する回路を備えている。具体的には、例えば、I/O回路35,36は、ネットワークインターフェースカードにより構成され、LAN等の情報通信網25,26によって他のサーバ装置21における制御回路31に接続する。また、I/O回路37は、ファイバチャネルカードにより構成され、データベースシステム22に接続する。   Each of the I / O circuits 35 to 37 includes a circuit that connects to the control circuit 31 and connects the control circuit 31 to a connection partner set according to, for example, an application. Specifically, for example, the I / O circuits 35 and 36 are configured by network interface cards, and are connected to the control circuit 31 in another server device 21 by information communication networks 25 and 26 such as LANs. The I / O circuit 37 is configured by a fiber channel card and connects to the database system 22.

BMC33は、機械制御回路40と接続回路42を含む複数の回路が形成されているユニット(部品)である。機械制御回路40は、ファームウェアと呼ばれるコンピュータプログラムに従って、サーバ装置21を構成するハードウェアを制御する回路である。この機械制御回路40は、ファームウェアに基づいてサーバ装置21内のエラー(異常)を監視する機能を備えている。例えば、サーバ装置21内には、複数のエラー検知レジスタ(図示せず)が設けられている。各エラー検知レジスタは、予め定められた種類のエラー(異常)が検知された場合に、当該エラーが検知されたという情報を一時的に保持する記憶部である。機械制御回路40は、そのようなエラー検知レジスタを予め定められたタイミングでもって順次チェックする動作(処理)を実行し、エラー発生の有無を監視する。   The BMC 33 is a unit (part) in which a plurality of circuits including the machine control circuit 40 and the connection circuit 42 are formed. The machine control circuit 40 is a circuit that controls hardware configuring the server device 21 according to a computer program called firmware. The machine control circuit 40 has a function of monitoring an error (abnormality) in the server device 21 based on the firmware. For example, a plurality of error detection registers (not shown) are provided in the server device 21. Each error detection register is a storage unit that, when an error (abnormality) of a predetermined type is detected, temporarily stores information that the error has been detected. The machine control circuit 40 performs an operation (process) of sequentially checking such an error detection register at a predetermined timing, and monitors whether an error has occurred.

機械制御回路40は、さらに、機能部として、通知部41を備えている。この通知部41は、サーバ装置21に障害が発生したことをミドルウェア部32および待機系のサーバ装置21に通知する機能を備えている。   The machine control circuit 40 further includes a notification unit 41 as a function unit. The notification unit 41 has a function of notifying the middleware unit 32 and the standby server device 21 that a failure has occurred in the server device 21.

接続回路42は、BMC33を情報通信網(LAN)26に接続する回路構成を備えている。この接続回路42によって、通知部41から発せられた通知(障害発生を報知する通知)は、情報通信網(LAN)26を通って待機系のサーバ装置21に伝達される。   The connection circuit 42 has a circuit configuration for connecting the BMC 33 to the information communication network (LAN) 26. The connection circuit 42 transmits the notification (notification for notifying the occurrence of a failure) issued from the notification unit 41 to the standby server device 21 through the information communication network (LAN) 26.

基板ユニット34は、障害検知回路43と接続制御回路44を含む複数の回路が共通の回路基板に形成されているユニット(部品)である。   The board unit 34 is a unit (part) in which a plurality of circuits including the failure detection circuit 43 and the connection control circuit 44 are formed on a common circuit board.

障害検知回路43は、サーバ装置21内に障害が発生したことを検知するハードウェアである。この障害検知回路43が検知する障害は、サーバ装置21の稼働継続を困難にする障害である。具体例を挙げると、その障害としては、電源異常や、装置内の温度が適応範囲を超えてしまう温度異常がある。さらに、障害検知回路43は、トランザクションがタイムアウトした場合や、制御回路31が処理しているデータに、ECC(Error Checking and Correction)等の修正手法により訂正することができない多ビットエラーや、パリティエラーが発生した場合も、障害として検知する。   The failure detection circuit 43 is hardware that detects that a failure has occurred in the server device 21. The failure detected by the failure detection circuit 43 is a failure that makes it difficult for the server device 21 to continue operating. As specific examples, the failures include a power supply abnormality and a temperature abnormality in which the temperature inside the device exceeds an applicable range. Further, the failure detection circuit 43 may provide a multi-bit error that cannot be corrected by a correction method such as ECC (Error Checking and Correction) or a parity error in the data processed by the control circuit 31 when the transaction times out. Is also detected as a failure.

障害検知回路43は、そのような障害を、制御回路31とBMC33から取得する信号に基づいて検知し、障害を検知した場合には障害発生を通知(報告)する障害検知信号を生成する回路構成を備えている。この障害検知回路43が制御回路31から取得する信号は、例えば、障害を検知したことを割り込みとして通知する信号である。また、BMC33から取得する信号は、例えば、エラー監視によりエラー発生を検知した場合に出力される信号である。この第2実施形態では、障害検知回路43が生成した障害検知信号は、BMC33と接続制御回路44に出力される。BMC33は、その障害検知信号を受けると、通知部41によって、前記の如く、障害が発生したことをミドルウェア部32および待機系のサーバ装置21に通知する。   The failure detection circuit 43 detects such a failure based on signals acquired from the control circuit 31 and the BMC 33, and generates a failure detection signal for notifying (reporting) the occurrence of a failure when the failure is detected. It has. The signal that the failure detection circuit 43 acquires from the control circuit 31 is, for example, a signal that notifies that a failure has been detected as an interrupt. The signal acquired from the BMC 33 is, for example, a signal output when an error occurrence is detected by error monitoring. In the second embodiment, the failure detection signal generated by the failure detection circuit 43 is output to the BMC 33 and the connection control circuit 44. When the BMC 33 receives the failure detection signal, the notification unit 41 notifies the middleware unit 32 and the standby server device 21 of the occurrence of the failure as described above.

接続制御回路44は、障害検知信号を受けた場合には、I/O回路(I/Oカード)37に向けてアクセス停止を指示する信号を出力する回路構成を備えている。一般的には、I/O回路(I/Oカード)と、データベースシステム22等のI/Oデバイスとは、PCI(Peripheral Component Interconnect) Express I/F(Interface)と呼ばれる通信方式によって接続される。この場合には、接続制御回路44は、その通信方式により規定されているリセット信号をアサート(有効)にすることにより、データベースシステム22との接続を停止(遮断)することをI/O回路37に指示する。I/O回路37は、その接続停止の指示を受けることにより、データベースシステム22との接続を停止(遮断)する。   The connection control circuit 44 has a circuit configuration that outputs a signal for instructing an I / O circuit (I / O card) 37 to stop access when receiving a failure detection signal. Generally, an I / O circuit (I / O card) and an I / O device such as the database system 22 are connected by a communication method called a PCI (Peripheral Component Interconnect) Express I / F (Interface). . In this case, the connection control circuit 44 asserts (validates) the reset signal defined by the communication method, thereby stopping (cutting off) the connection with the database system 22 to the I / O circuit 37. To instruct. Upon receiving the instruction to stop the connection, the I / O circuit 37 stops (cuts off) the connection with the database system 22.

なお、接続制御回路44は、I/O回路35〜37にそれぞれ対応するコンフィグレーションレジスタ(図示せず)を備えている。各コンフィグレーションレジスタには、対応するI/O回路が、障害検知信号に基づいて接続停止を指示する対象であるか否かを表す情報が格納されている。接続制御回路44は、そのコンフィグレーションレジスタの情報に基づいてI/O回路に向けて接続停止を指示する。そのコンフィグレーションレジスタに格納されている情報はBMC33によって書き換え可能である。このことにより、コンフィグレーションレジスタの情報をBMC33を利用して書き換えることにより、接続制御回路44が接続停止を指示する対象のI/O回路は変更可能である。例えば、接続制御回路44が接続停止を指示するI/O回路は、I/O回路37だけでなく、I/O回路35,36の一方又は両方が加えられていてもよい。   The connection control circuit 44 includes configuration registers (not shown) corresponding to the I / O circuits 35 to 37, respectively. Each configuration register stores information indicating whether or not a corresponding I / O circuit is a target for instructing a connection stop based on a failure detection signal. The connection control circuit 44 instructs the I / O circuit to stop the connection based on the information in the configuration register. The information stored in the configuration register can be rewritten by the BMC 33. As a result, by rewriting the information of the configuration register using the BMC 33, the I / O circuit to which the connection control circuit 44 instructs to stop the connection can be changed. For example, not only the I / O circuit 37 but also one or both of the I / O circuits 35 and 36 may be added to the I / O circuit instructed by the connection control circuit 44 to stop the connection.

以下に、第2実施形態のサーバ装置21における障害発生時の動作例を図4を利用して説明する。図4は、障害が発生した場合にサーバ装置21が実行するサーバ切り替えに関する動作を説明する図である。   Hereinafter, an operation example when a failure occurs in the server device 21 of the second embodiment will be described with reference to FIG. FIG. 4 is a diagram illustrating an operation related to server switching performed by the server device 21 when a failure occurs.

例えば、図4に表す時間T0において、現用系のサーバ装置21の一つが障害の発生を検知したとする。この障害が発生したサーバ装置21(図4では現用系と表す)は、障害対処処理として、例えば、制御回路31が実行中のアプリケーションプログラムに基づいた処理を停止する等の処理を実行する。   For example, suppose that at time T0 shown in FIG. 4, one of the active server devices 21 detects the occurrence of a failure. The server device 21 in which the failure has occurred (in FIG. 4, referred to as the active system) performs, for example, processing such as stopping processing based on the application program being executed by the control circuit 31 as failure handling processing.

この障害対処処理の実行中に、当該現用系のサーバ装置21における障害検知回路43が、障害発生を検知し、これにより、障害検知信号をBMC33および接続制御回路44に出力する。そして、接続制御回路44は、障害検知信号を受けたことにより、制御回路31とデータベースシステム22との接続を停止(遮断)することをI/O回路37に指示する。また、BMC33の通知部41は、接続回路42によって、待機系のサーバ装置21(待機系A)に向けて、現用系のサーバ装置21に障害が発生したことを通知する(例えば時間T1)。   During the execution of the failure handling process, the failure detection circuit 43 in the active server device 21 detects the occurrence of a failure, and outputs a failure detection signal to the BMC 33 and the connection control circuit 44. Then, upon receiving the failure detection signal, the connection control circuit 44 instructs the I / O circuit 37 to stop (cut off) the connection between the control circuit 31 and the database system 22. Further, the notifying unit 41 of the BMC 33 notifies the standby server device 21 (standby A) that the failure has occurred in the active server device 21 by the connection circuit 42 (for example, time T1).

一方、待機系のサーバ装置21(図4では待機系Aと表す)は、現用系のサーバ装置21に障害が発生したことが通知されると、切り替え処理を実行する。この第2実施形態では、当該待機系のサーバ装置21は、その切り替え処理の後に、データベースシステム22のリカバリ処理を実行することなく、図4に表す時間T3において、通常稼働状態に移行する。つまり、この第2実施形態のクラスタシステム20において、障害発生に起因した待機系から現用系への切り替え処理が終了する。   On the other hand, the standby server device 21 (indicated as standby system A in FIG. 4) executes the switching process when notified that a failure has occurred in the active server device 21. In the second embodiment, the server device 21 of the standby system shifts to the normal operation state at the time T3 shown in FIG. 4 without executing the recovery process of the database system 22 after the switching process. That is, in the cluster system 20 of the second embodiment, the process of switching from the standby system to the active system due to the occurrence of a failure is completed.

ところで、ここで、この第2実施形態における切り替え処理に対する比較例としての切り替え処理を説明する。この比較例では、クラスタシステムを構成するサーバ装置は、この第2実施形態における基板ユニット34と、BMC33の通知部41とを備えていない。このため、比較例では、待機系として機能するサーバ装置(図4において待機系Bと表す)は、待機状態において、現用系のサーバ装置から定期的に出力されるハートビート信号の出力状況を監視する。このハートビート信号の監視中に、現用系のサーバ装置における障害発生に起因したハートビート信号の出力停止を検知すると(例えば図4に表す時間T2)、待機系のサーバ装置(待機系B)は、現用系に切り替わる切り替え処理を実行する。さらに、当該待機系のサーバ装置は、切り替え処理に引き続いて、データベースシステム22のリカバリ処理を実行する。このリカバリ処理の後に、当該サーバ装置は、現用系として通常の稼働状態に移行する(図4に表す時間T4)。   Here, a switching process as a comparative example with respect to the switching process in the second embodiment will be described. In this comparative example, the server device configuring the cluster system does not include the board unit 34 in the second embodiment and the notification unit 41 of the BMC 33. For this reason, in the comparative example, the server device functioning as the standby system (indicated as standby system B in FIG. 4) monitors the output status of the heartbeat signal periodically output from the active server device in the standby state. I do. During the monitoring of the heartbeat signal, when the output stop of the heartbeat signal due to the occurrence of a failure in the active server device is detected (for example, time T2 shown in FIG. 4), the standby server device (standby system B) Then, a switching process for switching to the active system is executed. Further, the standby server device performs a recovery process of the database system 22 subsequent to the switching process. After this recovery processing, the server device shifts to a normal operating state as an active system (time T4 shown in FIG. 4).

この第2実施形態におけるサーバ装置21が待機系から現用系に切り替わるために必要な時間は、上記したような比較例のサーバ装置が待機系から現用系に切り替わるために必要な時間よりも短縮されている。例えば、この第2実施形態における現用系のサーバ装置21が障害発生を検知してから待機系のサーバ装置21(待機系A)が切り替え処理を開始するまでに要する時間(T0-T1)が、例えば30秒とする。また、待機系のサーバ装置21(待機系A)が切り替え処理に要する時間(T1-T3)は例えば110秒とする。   The time required for the server device 21 in the second embodiment to switch from the standby system to the active system is shorter than the time required for the server device of the comparative example to switch from the standby system to the active system as described above. ing. For example, the time (T0-T1) required from the time when the active server device 21 detects the failure in the second embodiment to the time when the standby server device 21 (standby A) starts the switching process is: For example, 30 seconds. Further, the time (T1-T3) required for the switching process by the standby server device 21 (standby system A) is, for example, 110 seconds.

これに対し、比較例における待機系のサーバ装置(待機系B)は、現用系のサーバ装置が障害発生を検知してから切り替え処理を開始するまでに、時間T0-T1よりも長い時間T0-T2である例えば90秒を要する。さらに、当該比較例における待機系のサーバ装置(待機系B)は、切り替え処理に時間(T1-T3)と同じ110秒という時間を要し、さらに、リカバリ処理に例えば300秒という時間を要する。つまり、当該待機系のサーバ装置(待機系B)は、切り替え処理を開始してから通常稼働に移行するまでに時間T2-T4である例えば410秒という時間を要する。   On the other hand, the standby server device (standby system B) in the comparative example has a time period T0−T1 that is longer than the time period T0−T1 from when the active server device detects the occurrence of the failure until the switching process starts. It takes T2, for example, 90 seconds. Further, the standby server device (standby system B) in the comparative example requires 110 seconds, which is the same as the time (T1-T3), for the switching process, and 300 seconds, for example, for the recovery process. That is, the standby server device (standby system B) requires a time T2-T4, for example, 410 seconds, from the start of the switching process to the transition to the normal operation.

よって、第2実施形態では、現用系のサーバ装置21が障害発生を検知してから待機系のサーバ装置21(待機系A)が現用系として切り替わって通常の稼働状態に移行するマまでに要する時間(T0-T3)は、上記の如く140秒である。これに対し、比較例では、現用系のサーバ装置が障害発生を検知してから待機系のサーバ装置(待機系B)が現用系として切り替わって通常の稼働状態に移行するまでに要する時間(T0-T4)は、500秒である。すなわち、第2実施形態における構成を備えることにより、障害発生に起因した待機系から現用系へのサーバ切り替えに要する時間は、比較例におけるサーバ切り替えに要する時間の約3分の1に短縮化できる。   Therefore, in the second embodiment, it takes time from when the active server device 21 detects the failure to when the standby server device 21 (standby system A) switches to the active system and shifts to the normal operation state. The time (T0-T3) is 140 seconds as described above. On the other hand, in the comparative example, the time (T0) required from the time when the active server device detects the failure to the time when the standby server device (standby system B) switches to the active system and shifts to the normal operation state. -T4) is 500 seconds. That is, by providing the configuration in the second embodiment, the time required to switch the server from the standby system to the active system due to the occurrence of a failure can be reduced to about one third of the time required to switch the server in the comparative example. .

なお、この第2実施形態におけるサーバ装置21は、ハートビート信号を定期的に出力する機能を備えていてもよいし、前述の如く障害発生を通知する機能を備えたことによりハートビート信号の出力機能を省略してもよい。   The server device 21 according to the second embodiment may have a function of periodically outputting a heartbeat signal, or may have a function of notifying occurrence of a failure as described above, so that the output of the heartbeat signal may be performed. The function may be omitted.

(その他の実施形態)
なお、本発明は第1や第2の実施形態に限定されずに様々な実施形態を採り得る。例えば、第2実施形態では、待機系のサーバ装置21が現用系として切り替わる場合に、当該待機系のサーバ装置21は、切り替え処理の後に、データベースシステム22のリカバリ処理を実行せずに、通常の稼働状態に移行する。これに対し、待機系のサーバ装置21は、切り替え処理の後に、データベースシステム22のリカバリ処理を実行してもよい。この場合に、リカバリ処理を実行するが、第2実施形態の構成を備えることにより、当該リカバリ処理に要する時間は短くて済む。つまり、この第2実施形態では、障害発生が検知されたサーバ装置は迅速にデータベースシステム22との接続を遮断するので、当該障害発生のサーバ装置によるデータベースシステム22への不当な接続(アクセス)を防止できる。このため、データベースシステム22における不当な接続に起因したトラブルの発生が抑制できるから、データベースシステム22のリカバリ処理に要する時間は短くなる。
(Other embodiments)
Note that the present invention is not limited to the first and second embodiments, and can adopt various embodiments. For example, in the second embodiment, when the standby server device 21 is switched to the active system, the standby server device 21 does not execute the recovery process of the database system 22 after the switching process, and performs the normal operation. Move to the operating state. On the other hand, the standby server device 21 may execute the recovery process of the database system 22 after the switching process. In this case, the recovery process is executed, but by providing the configuration of the second embodiment, the time required for the recovery process can be shortened. That is, in the second embodiment, the server device in which the occurrence of the failure is detected quickly disconnects the connection with the database system 22, so that the server device in which the failure has occurred is improperly connected (accessed) to the database system 22. Can be prevented. For this reason, the occurrence of troubles due to improper connection in the database system 22 can be suppressed, and the time required for the recovery processing of the database system 22 is shortened.

さらに、第2実施形態では、複数のサーバ装置21が共通に接続する共有資源がデータベースシステム22である例が表されている。これに対し、共有資源として、さらに、複数のサーバ装置21は、プリンタ等の他の装置に共通に接続していてもよい。   Furthermore, in the second embodiment, an example is shown in which the shared resource to which the plurality of server devices 21 are connected in common is the database system 22. On the other hand, as a shared resource, the plurality of server devices 21 may be commonly connected to another device such as a printer.

1,21 サーバ装置
2,31 制御回路
3,40 機械制御回路
4,43 障害検知回路
5,44 接続制御回路
7 サーバシステム
20 クラスタシステム
1, 21 server device 2, 31 control circuit 3, 40 machine control circuit 4, 43 fault detection circuit 5, 44 connection control circuit 7 server system 20 cluster system

Claims (7)

他のサーバ装置と共通に接続する共有資源との接続を制御する処理を含むコンピュータプログラムに基づいた処理を実行する制御回路と、
自装置に障害が発生したことを検知する障害検知回路と、
前記障害検知回路が障害発生を検知した場合に、前記共有資源との接続を遮断する接続制御回路と、
前記障害検知回路が障害発生を検知した場合に、前記他のサーバ装置に向けて障害発生を通知する機械制御回路とを備え、
前記制御回路は、自装置に障害が発生すると、前記コンピュータプログラムに基づいた処理を停止する処理を実行し、
前記障害検知回路は、前記停止する処理の実行中に、障害発生を検知したことを示す障害検知信号を前記接続制御回路及び前記機械制御回路に通知する
サーバ装置。
A control circuit that executes a process based on a computer program including a process of controlling a connection with a shared resource commonly connected to another server device;
A failure detection circuit for detecting that a failure has occurred in the own device;
When the failure detection circuit detects the occurrence of a failure, a connection control circuit that disconnects the connection with the shared resource,
A machine control circuit that notifies the other server device of the occurrence of the failure when the failure detection circuit detects the occurrence of the failure,
The control circuit, when a failure occurs in its own device, executes processing to stop processing based on the computer program,
The server device notifies the connection control circuit and the machine control circuit of a failure detection signal indicating that a failure has been detected during execution of the stop processing .
前記障害検知回路は、前記制御回路および前記機械制御回路から取得した信号に基づいて障害を検知する回路構成を有する請求項1に記載のサーバ装置。   The server device according to claim 1, wherein the failure detection circuit has a circuit configuration that detects a failure based on signals acquired from the control circuit and the machine control circuit. 前記接続制御回路は、前記障害検知回路からの障害検知信号を受けた場合に前記共有資源に対して接続を遮断することを指示する機能を有する請求項1又は請求項2に記載のサーバ装置。   3. The server device according to claim 1, wherein the connection control circuit has a function of instructing the shared resource to disconnect the connection when receiving a failure detection signal from the failure detection circuit. 4. 前記機械制御回路は、前記障害検知回路が障害発生を検知した場合に、前記制御回路からの指示を受けることなしに、他のサーバ装置に向けて障害発生を通知する機能を有する
請求項1乃至請求項3のいずれか一項に記載のサーバ装置。
4. The machine control circuit according to claim 1, wherein, when the failure detection circuit detects the occurrence of a failure, the machine control circuit notifies another server device of the occurrence of the failure without receiving an instruction from the control circuit. The server device according to claim 3.
前記接続制御回路は、前記障害検知回路からの障害検知信号を受けた場合に、前記制御回路からの指示を受けることなしに、前記共有資源に対して接続を遮断することを指示する機能を有する請求項1乃至請求項4のいずれか一項に記載のサーバ装置。   The connection control circuit has a function of, when receiving a failure detection signal from the failure detection circuit, instructing the shared resource to disconnect the connection without receiving an instruction from the control circuit. The server device according to claim 1. 前記共有資源はデータベースシステムである請求項1乃至請求項5のいずか一項に記載のサーバ装置。   The server device according to claim 1, wherein the shared resource is a database system. 互いに接続している複数のサーバ装置と、
これらサーバ装置が共通に接続している共有資源とを備え、
前記サーバ装置は、請求項1乃至請求項6のいずれか一項に記載のサーバ装置であり、
複数の前記サーバ装置のうちの少なくとも一つは待機系として機能し、他のサーバ装置は、現用系として稼働し、
現用系として稼働している前記サーバ装置に障害が発生した場合には、待機系の前記サーバ装置おける前記制御回路は、現用系の前記サーバ装置に備えられている前記機械制御回路から障害発生が通知されたことによって待機状態から通常の稼働状態に移行するサーバシステム。
A plurality of server devices connected to each other,
These servers have shared resources connected in common,
The server device is the server device according to any one of claims 1 to 6,
At least one of the plurality of server devices functions as a standby system, and the other server devices operate as active systems,
When a failure occurs in the server device operating as an active system, the control circuit in the standby system server device generates a failure from the machine control circuit provided in the active server device. A server system that transitions from a standby state to a normal operating state when notified.
JP2018090500A 2018-05-09 2018-05-09 Server device and server system Active JP6654662B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018090500A JP6654662B2 (en) 2018-05-09 2018-05-09 Server device and server system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018090500A JP6654662B2 (en) 2018-05-09 2018-05-09 Server device and server system

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2014014381A Division JP2015141589A (en) 2014-01-29 2014-01-29 Server device, server system, and failure countermeasure method

Publications (2)

Publication Number Publication Date
JP2018147510A JP2018147510A (en) 2018-09-20
JP6654662B2 true JP6654662B2 (en) 2020-02-26

Family

ID=63591466

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018090500A Active JP6654662B2 (en) 2018-05-09 2018-05-09 Server device and server system

Country Status (1)

Country Link
JP (1) JP6654662B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7040784B2 (en) * 2019-05-20 2022-03-23 Necプラットフォームズ株式会社 Monitoring control device, monitoring control method, computer and program

Also Published As

Publication number Publication date
JP2018147510A (en) 2018-09-20

Similar Documents

Publication Publication Date Title
US7536584B2 (en) Fault-isolating SAS expander
US8972772B2 (en) System and method for duplexed replicated computing
US20150227430A1 (en) Transmission apparatus and control unit
JP4873073B2 (en) Information processing apparatus and failure recovery method for information processing apparatus
EP2518627B1 (en) Partial fault processing method in computer system
WO2018095107A1 (en) Bios program abnormal processing method and apparatus
US20130227333A1 (en) Fault monitoring device, fault monitoring method, and non-transitory computer-readable recording medium
CN111585835A (en) Control method and device for out-of-band management system and storage medium
JP6654662B2 (en) Server device and server system
CN111078454A (en) Cloud platform configuration recovery method and device
JP2008015704A (en) Multiprocessor system
US11954509B2 (en) Service continuation system and service continuation method between active and standby virtual servers
JP2015141589A (en) Server device, server system, and failure countermeasure method
JP6424134B2 (en) Computer system and computer system control method
JP2013254333A (en) Multiple system control system and control method therefor
KR101883251B1 (en) Apparatus and method for determining failover in virtual system
JP6112205B2 (en) Information processing system, apparatus, method, and program
JP6368842B2 (en) Process monitoring program and process monitoring system
JPH10133963A (en) Fault detecting and recovering system for computer
JP3107054B2 (en) Minor fault handling system
JPH1196033A (en) Information processor
CN117112317A (en) Fault processing system, method, electronic device and storage medium
JP5061739B2 (en) Data processing device, redundant device, failure time system switching method and failure time system switching program
JP2001175545A (en) Server system, fault diagnosing method, and recording medium
JP2007026038A (en) Path monitoring system, path monitoring method and path monitoring program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180509

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190702

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200130

R150 Certificate of patent or registration of utility model

Ref document number: 6654662

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150