JP2022185768A - Information processing device and recovery method - Google Patents
Information processing device and recovery method Download PDFInfo
- Publication number
- JP2022185768A JP2022185768A JP2021093594A JP2021093594A JP2022185768A JP 2022185768 A JP2022185768 A JP 2022185768A JP 2021093594 A JP2021093594 A JP 2021093594A JP 2021093594 A JP2021093594 A JP 2021093594A JP 2022185768 A JP2022185768 A JP 2022185768A
- Authority
- JP
- Japan
- Prior art keywords
- information processing
- unit
- interrupt request
- bmc
- management unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 73
- 238000011084 recovery Methods 0.000 title claims description 39
- 238000000034 method Methods 0.000 title claims description 34
- 238000012545 processing Methods 0.000 claims abstract description 101
- 238000012544 monitoring process Methods 0.000 claims abstract description 56
- 230000005856 abnormality Effects 0.000 claims abstract description 47
- 238000001514 detection method Methods 0.000 claims abstract description 26
- 238000004891 communication Methods 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 24
- 230000004044 response Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 description 15
- 230000004913 activation Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Abstract
Description
本発明は、復旧技術に関する。 The present invention relates to recovery technology.
サーバシステムの運用中に、ファームウェア又はハードウェアの問題に起因して、サーバ内のBMC(Baseboard Management Controller)がハングアップする故障が発生することがある。BMCの故障の発生頻度は、例えば、1年に数件程度である。 2. Description of the Related Art During operation of a server system, a failure may occur in which a BMC (Baseboard Management Controller) in the server hangs up due to a firmware or hardware problem. The frequency of BMC failures is, for example, about several per year.
BMCは、リモート端末からサーバを管理するための制御用IC(Integrated Circuit)チップである。リモート端末は、BMCを介して、サーバ内のハードウェアの情報を取得したり、ハードウェアに対するリモート操作を行ったりすることができる。BMCがハングアップしてもサーバの運用に支障はないが、ハードウェアの情報の取得及びリモート操作に支障が生じるため、BMCの復旧作業が行われる。 BMC is a control IC (Integrated Circuit) chip for managing the server from a remote terminal. A remote terminal can acquire information about the hardware in the server and remotely operate the hardware via the BMC. Even if the BMC hangs up, the operation of the server will not be hindered, but it will hinder acquisition of hardware information and remote operation.
BMCの復旧作業に関連して、BMC、又は、サーバシステムの別のコンポーネントをリセットするためのシステムが知られている(例えば、特許文献1を参照)。BMC等のコントローラを二重化することなく、BMC等のコントローラにストールが発生した場合でも、コンピュータシステムを継続して動作させるストール監視装置も知られている(例えば、特許文献2を参照)。 A system for resetting the BMC or another component of the server system is known in connection with the BMC recovery operation (see, for example, Patent Document 1). There is also known a stall monitoring device that allows a computer system to continue operating even when a stall occurs in a controller such as BMC without duplicating a controller such as BMC (see, for example, Patent Document 2).
BMCの復旧作業では、BMCのリセットが行われる。BMCには、オペレーティングシステム(Operating System,OS)が使用するVGA(Video Graphics Array)チップも内蔵されているため、BMCのリセットはOSにも影響して、サーバシステムの動作に異常が発生する。このため、OSを含むサーバシステム全体を停止させてから、BMCのリセットが行われる。 In the BMC recovery work, the BMC is reset. Since the BMC also incorporates a VGA (Video Graphics Array) chip used by the operating system (OS), resetting the BMC affects the OS as well, causing anomalies in server system operations. Therefore, the BMC is reset after stopping the entire server system including the OS.
このように、BMCの復旧作業は大掛かりな作業である。顧客のサーバシステムにおいて、BMCがハングアップした場合、作業者がサーバシステムの設置場所へ出向いて、BMCの復旧作業を実施する。このため、BMCがハングアップする度に作業者が客先へ出向く手間が発生し、かつ、BMCが復旧するまでに長い時間がかかる。復旧作業によりサーバシステムの運用が長時間停止すると、顧客の業務に与える影響が大きくなる。 Thus, the BMC restoration work is a large-scale work. In the customer's server system, when the BMC hangs up, a worker goes to the installation location of the server system and performs the BMC restoration work. Therefore, every time the BMC hangs up, the worker has to go to the customer's site, and it takes a long time to restore the BMC. If the operation of the server system is stopped for a long time due to recovery work, the impact on the customer's business will be great.
なお、かかる問題は、BMCの故障に限らず、情報処理装置(コンピュータ)を管理する様々な管理部の故障が発生したときに生ずるものである。 This problem is not limited to failure of the BMC, but occurs when failure occurs in various management units that manage the information processing apparatus (computer).
1つの側面において、本発明は、情報処理装置を管理する管理部を故障から復旧させる際に、情報処理装置の運用を継続することを目的とする。 An object of the present invention is to continue the operation of an information processing device when restoring a management unit that manages the information processing device from a failure.
1つの案では、情報処理装置は、管理部、監視部、及び情報処理部を含む。管理部は、画像処理を行う画像処理部を含み、情報処理装置を管理する。監視部は、管理部を監視し、管理部の異常を検出した場合、異常検出信号を出力する。情報処理部は、情報処理を行い、監視部から異常検出信号が出力された場合、異常検出信号に基づいて画像処理部を切り離し、管理部を再起動する。 In one scheme, the information processing device includes a management unit, a monitoring unit, and an information processing unit. The management unit includes an image processing unit that performs image processing, and manages the information processing device. The monitoring unit monitors the management unit, and outputs an abnormality detection signal when detecting an abnormality in the management unit. The information processing section performs information processing, and when an abnormality detection signal is output from the monitoring section, disconnects the image processing section based on the abnormality detection signal, and restarts the management section.
1つの側面によれば、情報処理装置を管理する管理部を故障から復旧させる際に、情報処理装置の運用を継続することができる。 According to one aspect, the operation of the information processing device can be continued when the management unit that manages the information processing device recovers from the failure.
以下、図面を参照しながら、実施形態を詳細に説明する。 Hereinafter, embodiments will be described in detail with reference to the drawings.
図1は、比較例のサーバシステムにおけるサーバのハードウェア構成例を示している。図1のサーバ101は、BMC111、チップセット112、及びCPU(Central Processing Unit)113を含み、BMC111は、VGA121を含む。これらの構成要素は、ハードウェアである。VGA121とチップセット112は、PCI-E(Peripheral Component Interconnect-Express)バス122により接続されている。
FIG. 1 shows an example hardware configuration of a server in a server system of a comparative example. The
サーバシステムは、サーバ101に加えて、RAID(Redundant Arrays of Inexpensive Disks)装置、テープ装置等の他の装置を含んでいてもよい。
In addition to the
CPU113は、基本入出力システム(Basic Input/Output System,BIOS)131及びOS132を実行する。OS132は、VGAドライバ141を含む。OS132は、VGAドライバ141を用いてVGA121にアクセスすることで、VGA121にビデオリダイレクション等の画像処理を行わせる。
The
BMC111の復旧作業において、BMC111がリセットされると、VGA121もリセットされる。PCI-Eバス122及びチップセット112を介してVGA121に接続されているCPU113は、VGA121がリセットされると、VGA121に対するアクセスのタイムアウトを検出し、OS132の実行を停止する。このため、リモート端末の表示装置に、OS132の画面が表示されなくなる。
In the recovery work of the BMC 111, when the BMC 111 is reset, the VGA 121 is also reset. When the VGA 121 is reset, the
PCI Hotplugの機能を用いてOS132からVGA121を切り離すことは可能であるが、OS132は、BMC111がハングアップしたことを検知しないため、VGA121を切り離すことはない。また、BMC111は、OS132とは独立にサーバ101を監視する役割を有するため、OS132からBMC111を切り離す仕組みが存在しない。
Although it is possible to disconnect the VGA 121 from the
このため、図1のサーバ101では、以下のような手順でBMC111の復旧作業が実施される。
Therefore, in the
(P1)リモート端末のWeb UI(User Interface)に不具合が発生し、作業者が異常の発生に気付く。 (P1) A problem occurs in the Web UI (User Interface) of the remote terminal, and the operator notices the occurrence of an abnormality.
(P2)作業者は、サーバシステムの設置場所(サーバルーム等)へ出向いて、サーバ101のLED(Light Emitting Diode)を確認する。そして、LEDが点灯から消灯に変化していることから、BMC111の異常であることが判明する。
(P2) The worker goes to the installation place (server room, etc.) of the server system and checks the LED (Light Emitting Diode) of the
(P3)作業者は、サーバ101で実行中の処理をすべて終了させてから、OS132を停止する。
(P3) The operator stops the
(P4)作業者は、サーバ101以外の各装置の電源をオフにすることで、サーバシステムを停止する。
(P4) The operator shuts down the server system by turning off the power of each device other than the
(P5)作業者は、BMC111のリセットを行う。 (P5) The operator resets the BMC 111 .
(P6)作業者は、監視画面上でリセットの結果を確認し、結果が正常であれば、(P7)の作業に進み、結果が異常であれば、保守作業を依頼する。 (P6) The operator confirms the result of resetting on the monitoring screen. If the result is normal, proceed to the work of (P7), and if the result is abnormal, request maintenance work.
(P7)作業者は、各装置の電源をオンにすることで、サーバシステムを起動する。 (P7) The operator activates the server system by turning on the power of each device.
このように、OS132を含むサーバシステム全体を停止させてから、BMC111のリセットが行われるため、作業者がサーバルーム等へ出向く手間が発生し、かつ、BMC111が復旧するまでに長い時間がかかる。
Since the BMC 111 is reset after stopping the entire server system including the
図2は、実施形態の情報処理装置の機能的構成例を示している。図2の情報処理装置201は、管理部211、監視部212、及び情報処理部213を含む。管理部211は、画像処理を行う画像処理部221を含み、情報処理装置201を管理する。
FIG. 2 shows a functional configuration example of the information processing apparatus according to the embodiment. The
図3は、図2の情報処理装置201が行う復旧処理の例を示すフローチャートである。情報処理部213は、情報処理を行う(ステップ301)。そして、監視部212は、管理部211を監視し、管理部211の異常を検出した場合、異常検出信号を出力する。
FIG. 3 is a flowchart showing an example of recovery processing performed by the
監視部212から異常検出信号が出力された場合、情報処理部213は、異常検出信号に基づいて画像処理部221を切り離し(ステップ302)、管理部211を再起動する(ステップ303)。
When the abnormality detection signal is output from the
図2の情報処理装置201によれば、情報処理装置201を管理する管理部211を故障から復旧させる際に、情報処理装置201の運用を継続することができる。
According to the
図4は、実施形態のサーバシステムのハードウェア構成例を示している。図4のサーバシステムは、サーバ401及びRAID装置402を含む。サーバ401は、図2の情報処理装置201に対応する。サーバ401とRAID装置402は、通信ネットワークにより接続されている。
FIG. 4 shows a hardware configuration example of the server system of the embodiment. The server system of FIG. 4 includes a
RAID装置402は、サーバ401が使用するデータを記憶する。RAID装置402は、補助記憶装置の一例である。サーバ401は、RAID装置402が記憶するデータを用いて情報処理を行い、処理結果をRAID装置402に格納する。
図5は、図4のサーバ401のハードウェア構成例を示している。図5のサーバ401は、BMC511、チップセット512、CPU513、監視回路514、メモリ515、及び通信回路516を含む。BMC511は、VGA521を含む。これらの構成要素は、ハードウェアである。CPU513は、プロセッサと呼ばれることもある。
FIG. 5 shows a hardware configuration example of the
BMC511、CPU513、監視回路514、及びVGA521は、図2の管理部211、情報処理部213、監視部212、及び画像処理部221にそれぞれ対応する。監視回路514は、例えば、CPLD(Complex Programmable Logic Device)である。
The
CPU513、メモリ515、及び通信回路516は、チップセット512に接続されており、監視回路514は、BMC511及びチップセット512に接続されている。VGA521とチップセット512は、PCI-Eバス522により接続されている。
The
メモリ515は、例えば、RAM(Random Access Memory)等の半導体メモリであり、情報処理に用いられるプログラム及びデータを記憶する。通信回路516は、通信ネットワークに接続され、RAID装置402と通信する。
The
CPU513は、通信回路516を介して、RAID装置402からデータを取得し、取得されたデータをメモリ515に格納する。そして、CPU513は、メモリ515に格納されたデータを用いてプログラムを実行することにより情報処理を行い、通信回路516を介して、処理結果をRAID装置402へ送信する。
The
BMC511は、サーバ401を管理する。不図示のリモート端末は、BMC511を介して、サーバ401内のハードウェアの情報を取得したり、ハードウェアに対するリモート操作を行ったりすることができる。VGA521は、ビデオリダイレクション等の画像処理を行う。
CPU513は、情報処理を行う際、BIOS531及びOS532を実行する。BIOS531は、第1プログラムの一例であり、OS532は、第2プログラムの一例である。
The
BIOS531は、割り込み処理ルーチン541を含む。割り込み処理ルーチン541は、OS532に対する割り込み要求を生成する処理と、CPU513とVGA521との間の通信状態をチェックする処理とを含む。割り込み処理ルーチン541は、割り込みサービスルーチンと呼ばれることもある。
OS532は、VGAドライバ542を含む。OS532は、VGAドライバ542を用いてVGA521にアクセスすることで、VGA521に画像処理を行わせる。また、OS532は、VGAドライバ542が有するPCI Hotplugの機能を用いて、OS532からVGA521を切り離すことができる。
BIOS531は、OS532と通信することができるため、BMC511がハングアップした場合、BIOS531からOS532へBMC511の異常を通知することが可能である。しかし、BIOS531は、BMC511を監視しているわけではなく、BMC511の状態を認識していない。そこで、BMC511の異常を検出するために、監視回路514が設けられる。
Since the
監視回路514は、ウォッチドッグ機能によりBMC511を監視する。監視回路514は、問合せ信号をBMC511へ送信し、所定期間内にBMC511から応答信号を受信したか否かをチェックする。所定期間内に応答信号を受信しない場合、監視回路514は、BMC511に異常が発生したと判定する。これにより、BMC511の異常を検出することができる。
A
BMC511の異常が検出された場合、監視回路514は、BIOS531に対する割り込み要求を、チップセット512を介してCPU513へ出力する。BIOS531に対する割り込み要求は、第1プログラムに対する第1割り込み要求の一例であり、異常検出信号に対応する。
When an abnormality of the
CPU513は、監視回路514からの割り込み要求に基づいて、BIOS531の割り込み処理ルーチン541を実行することで、OS532に対する割り込み要求を生成する。OS532に対する割り込み要求は、第2プログラムに対する第2割り込み要求の一例である。
The
CPU513は、割り込み処理ルーチン541からの割り込み要求に基づき、OS532のVGAドライバ542を用いて、PCI-Eバス522からVGA521を切り離すことで、CPU513からVGA521を切り離す。
The
CPU513からVGA521を切り離す処理は、CPU513とVGA521との間の通信状態を、通信可能な状態から通信不可の状態に変更する処理を表す。通信可能な状態は、リンクアップに対応し、通信不可の状態は、リンクダウンに対応する。
The process of disconnecting the VGA 521 from the
監視回路514がBIOS531に対する割り込み要求を出力することで、BMC511の異常をBIOS531に通知することができる。また、BIOS531の割り込み処理ルーチン541がOS532に対する割り込み要求を生成することで、BMC511の異常をOS532に通知することができる。
By outputting an interrupt request to the
監視回路514は、BIOS531に対する割り込み要求を出力した後、BIOS531に対する次の割り込み要求を、チップセット512を介してCPU513へ出力する。BIOS531に対する次の割り込み要求は、第1プログラムに対する第3割り込み要求の一例である。
After outputting the interrupt request to the
CPU513は、監視回路514からの次の割り込み要求に基づいて、割り込み処理ルーチン541を実行することで、CPU513とVGA521との間の通信状態をチェックする。そして、通信状態が通信不可である場合、CPU513は、BMC511をリセットすることで、BMC511を再起動する。
The
監視回路514がBIOS531に対する次の割り込み要求を出力することで、VGA521が切り離されたか否かを割り込み処理ルーチン541にチェックさせることができる。そして、VGA521が切り離されている場合にBMC511をリセットすることで、OS532に影響を与えることなく、BMC511を再起動することが可能になる。
When the
図6は、図5のサーバ401におけるBMC511の復旧処理の例を示している。復旧処理は、以下のような手順で行われる。
FIG. 6 shows an example of recovery processing of the
(P11)監視回路514は、定期的にウォッチドッグ機能によりBMC511を監視する。
(P11) The
(P12)BMC511に異常が発生し、BMC511がハングアップする。
(P12) An abnormality occurs in the
(P13)所定期間内にBMC511から応答信号を受信しないため、監視回路514は、BMC511に異常が発生したと判定し、BIOS531に対する最初の割り込み要求をCPU513へ出力する。その後、監視回路514は、定期的に、BIOS531に対する割り込み要求をCPU513へ出力する。
(P13) Since no response signal is received from the
(P14)CPU513は、監視回路514からの最初の割り込み要求に基づいて割り込み処理ルーチン541を実行することで、OS532に対する割り込み要求を生成する。これにより、CPU513は、VGA521の切り離しをOS532に要求する。
(P14) The
(P15)CPU513は、割り込み処理ルーチン541からの割り込み要求に基づき、OS532のVGAドライバ542を用いて、CPU513からVGA521を切り離す。
(P15) The
(P16)CPU513は、監視回路514から定期的に出力される割り込み要求に基づいて、割り込み処理ルーチン541を実行することで、CPU513とVGA521との間の通信がリンクダウンしているか否かをチェックする。
(P16) The
(P17)CPU513とVGA521との間の通信がリンクダウンしている場合、CPU513は、VGA521が切り離されたと判定し、BMC511をリセットすることで、BMC511を再起動する。そして、BMC511は、監視回路514をリセットすることで、割り込み要求の出力を停止させる。
(P17) When the communication between the
(P18)BMC511は、再起動された後、BIOS531に対する割り込み要求をCPU513へ出力する。これにより、BMC511は、VGA521の接続をBIOS531に要求する。
(P18) After being restarted, the
(P19)CPU513は、BMC511からの割り込み要求に基づいて、割り込み処理ルーチン541を実行することで、OS532に対する割り込み要求を生成する。これにより、CPU513は、VGA521の接続をOS532に要求する。
(P19) The
(P20)CPU513は、割り込み処理ルーチン541からの割り込み要求に基づき、OS532のVGAドライバ542を用いて、VGA521をPCI-Eバス522に組み込むことで、VGA521をCPU513に接続する。
(P20) Based on the interrupt request from the interrupt
(P16)において、CPU513は、CPU513とVGA521との間の通信がリンクダウンしているか否かを、以下のような手順でチェックすることができる。
At (P16), the
(P21)CPU513は、lspci、PCI device info等のコマンド、又はライブラリ関数を用いて、PCIデバイスの一覧を取得する。PCIデバイスは、PCI-Eバス522に組み込まれているデバイスを表す。
(P21) The
(P22)CPU513は、PCIデバイスの一覧からVGA521を検索する。
(P22) The
(P23)PCIデバイスの一覧にVGA521が含まれている場合、CPU513は、通信がリンクダウンしていないと判定し、(P21)以降の処理を繰り返す。
(P23) When the VGA 521 is included in the list of PCI devices, the
(P24)PCIデバイスの一覧にVGA521が含まれていない場合、CPU513は、通信がリンクダウンしていると判定する。
(P24) If the VGA 521 is not included in the list of PCI devices, the
図5のサーバ401によれば、監視回路514及び割り込み処理ルーチン541を設けることで、BMC511の異常を検出してOS532に通知することができ、自動的にBMC511を故障から復旧させることが可能になる。
According to the
復旧処理を行う際、作業者がサーバルーム等へ出向いて復旧作業を行う必要がないため、復旧作業開始までの待ち時間が発生しない。また、サーバシステムを停止する必要がなく、BMC511が活性でリセットされるため、復旧処理の間もサーバシステムの運用を継続することができる。
Since it is not necessary for the worker to go to a server room or the like to perform the restoration work when performing the restoration processing, there is no waiting time until the start of the restoration work. In addition, since the server system does not need to be stopped and the
新たなハードウェアとしては監視回路514を追加するだけで済むため、既存のサーバシステムにも容易に図6の復旧処理を適用することができる。また、BIOS531及びOS532の割り込み処理を利用することで、容易に復旧処理を実装することができる。
Since it is enough to add the
次に、図7Aから図10Dまでを参照しながら、図5のサーバ401におけるBMC511の復旧処理について、より詳細に説明する。以下では、CPU513がOS532を実行することで行われる処理を、OS532が行う処理として記述することがある。また、CPU513がBIOS531の割り込み処理ルーチン541を実行することで行われる処理を、割り込み処理ルーチン541が行う処理として記述することがある。
Next, restoration processing of the
図7A~図7Dは、OS532が動作している場合の第1の復旧処理の例を示すフローチャートである。まず、ユーザは、サーバ401の電源をオンにする(ステップ701)。これにより、BMC511が起動し(ステップ702)、サーバ401は、BMC511の起動に失敗したか否かをチェックする(ステップ703)。
7A to 7D are flowcharts showing an example of the first restoration process when the
BMC511の起動に失敗した場合(ステップ703,YES)、サーバ401は、アラームを出力して(ステップ724)、処理を終了する。一方、BMC511の起動に成功した場合(ステップ703,NO)、BMC511は、サーバ401の管理を開始する。そして、BMC511は、監視回路514を起動し(ステップ704)、監視回路514の起動に失敗したか否かをチェックする(ステップ705)。
If the activation of the
監視回路514の起動に失敗した場合(ステップ705,YES)、サーバ401は、アラームを出力して(ステップ724)、処理を終了する。一方、監視回路514の起動に成功した場合(ステップ705,NO)、監視回路514は、ウォッチドッグ機能を開始し(ステップ706)、ウォッチドッグ機能の開始に失敗したか否かをチェックする(ステップ707)。
If the activation of the
ウォッチドッグ機能の開始に失敗した場合(ステップ707,YES)、サーバ401は、アラームを出力して(ステップ724)、処理を終了する。一方、ウォッチドッグ機能の開始に成功した場合(ステップ707,NO)、CPU513は、OS532を起動する(ステップ708)。これにより、OS532が起動し(ステップ731)、CPU513は、OS532の起動に失敗したか否かをチェックする(ステップ732)。
If the watchdog function fails to start (
OS532の起動に失敗した場合(ステップ732,YES)、CPU513は、アラームを出力して(ステップ736)、処理を終了する。一方、OS532の起動に成功した場合(ステップ732,NO)、CPU513は、OS532を実行する。
If the
次に、監視回路514は、問合せ信号をBMC511へ送信し(ステップ709)、所定期間内にBMC511から応答信号を受信したか否かをチェックする(ステップ710)。所定期間内に応答信号を受信した場合(ステップ710,YES)、監視回路514は、ステップ709以降の処理を繰り返す。
Next, monitor
一方、所定期間内に応答信号を受信しない場合(ステップ710,NO)、監視回路514は、BIOS531に対する割り込み要求をCPU513へ出力する(ステップ711)。BIOS531に対する割り込み要求により起動された割り込み処理ルーチン541は、OS532に対する割り込み要求を出力する(ステップ712)。
On the other hand, if the response signal is not received within the predetermined period (
OS532は、OS532に対する割り込み要求を受け付け(ステップ733)、VGAドライバ542を用いて、PCI-Eバス522からVGA521を切り離す(ステップ734)。
The
次に、監視回路514から定期的に出力される割り込み要求により、割り込み処理ルーチン541が起動される。起動された割り込み処理ルーチン541は、タイマを起動して、一定期間の間、CPU513とVGA521との間の通信がリンクダウンしているか否かの判定を繰り返す。
Next, an interrupt
リンクダウンの判定において、割り込み処理ルーチン541は、コマンド又はライブラリ関数を用いてPCIデバイスの一覧を取得し(ステップ713)、タイムアウトしたか否かをチェックする(ステップ714)。
In determining link down, the interrupt
タイムアウトしていない場合(ステップ714,NO)、割り込み処理ルーチン541は、PCIデバイスの一覧からVGA521を検索する(ステップ715)。PCIデバイスの一覧にVGA521が含まれている場合(ステップ715,YES)、割り込み処理ルーチン541は、ステップ713以降の処理を繰り返す。
If it has not timed out (step 714, NO), the interrupt processing routine 541 searches for the VGA 521 from the list of PCI devices (step 715). If the VGA 521 is included in the list of PCI devices (
一方、PCIデバイスの一覧にVGA521が含まれていない場合(ステップ715,NO)、割り込み処理ルーチン541は、CPU513とVGA521との間の通信がリンクダウンしていると判定し、BMC511をリセットする(ステップ716)。そして、サーバ401は、BMC511のリセットに失敗したか否かをチェックする(ステップ717)。
On the other hand, if VGA 521 is not included in the list of PCI devices (
BMC511のリセットに失敗した場合(ステップ717,YES)、サーバ401は、アラームを出力して(ステップ724)、処理を終了する。一方、BMC511のリセットに成功した場合(ステップ717,NO)、BMC511は、監視回路514をリセットし(ステップ718)、監視回路514のリセットに失敗したか否かをチェックする(ステップ719)。
If the reset of the
監視回路514のリセットに失敗した場合(ステップ719,YES)、サーバ401は、アラームを出力して(ステップ724)、処理を終了する。一方、監視回路514のリセットに成功した場合(ステップ719,NO)、監視回路514は、ウォッチドッグ機能を開始し(ステップ720)、ウォッチドッグ機能の開始に失敗したか否かをチェックする(ステップ721)。
If the reset of the
ウォッチドッグ機能の開始に失敗した場合(ステップ721,YES)、サーバ401は、アラームを出力して(ステップ724)、処理を終了する。一方、ウォッチドッグ機能の開始に成功した場合(ステップ721,NO)、BMC511は、BIOS531に対する割り込み要求をCPU513へ出力する(ステップ722)。BIOS531に対する割り込み要求により起動された割り込み処理ルーチン541は、OS532に対する割り込み要求を出力する(ステップ723)。
If the watchdog function fails to start (step 721, YES), the
OS532は、OS532に対する割り込み要求に基づき、VGAドライバ542を用いて、VGA521をPCI-Eバス522に組み込む(ステップ735)。
リンクダウンの判定においてタイムアウトした場合(ステップ714,YES)、サーバ401は、ステップ716以降の処理を行うことで、強制的にBMC511をリセットする。
If a timeout has occurred in determining whether the link is down (
図8A及び図8Bは、OS532が停止している場合の第2の復旧処理の例を示すフローチャートである。ステップ801~ステップ823の処理は、図7Aのステップ701~ステップ707及びステップ709~ステップ715と図7Bのステップ716~ステップ724の処理と同様である。
8A and 8B are flowcharts showing an example of the second recovery process when the
第1の復旧処理とは異なり、ウォッチドッグ機能の開始に成功した場合(ステップ807,NO)、OS532は起動されず、停止したままである。このため、ステップ811において、割り込み処理ルーチン541からOS532に対する割り込み要求が出力された場合、割り込み要求はペンディングされる。そして、OS532が起動されたときに、ペンディングされている割り込み要求が消去される。
Unlike the first recovery process, when the watchdog function has successfully started (step 807, NO), the
同様に、ステップ822において、割り込み処理ルーチン541からOS532に対する割り込み要求が出力された場合も、割り込み要求はペンディングされる。そして、OS532が起動されたときに、ペンディングされている割り込み要求が消去される。
Similarly, when an interrupt request to the
OS532が停止しているため、VGA521の切り離しが行われず、リンクダウンの判定においてタイムアウトが発生する(ステップ813,YES)。したがって、ステップ815以降の処理が行われ、BMC511が強制的にリセットされる。
Since the
図9A~図9Dは、OS532からの応答がない場合の第3の復旧処理の例を示すフローチャートである。ステップ901~ステップ924の処理は、図7Aのステップ701~ステップ715と図7Bのステップ716~ステップ724の処理と同様である。また、ステップ931、ステップ932、及びステップ934の処理は、図7Cのステップ731及びステップ732と図7Dのステップ736の処理と同様である。
9A to 9D are flowcharts showing an example of the third restoration process when there is no response from the
第1の復旧処理とは異なり、OS532の起動に成功した場合(ステップ932,NO)、起動されたOS532がハングアップし(ステップ933)、無応答の状態になる。このため、ステップ912において、割り込み処理ルーチン541からOS532に対する割り込み要求が出力された場合、割り込み要求はペンディングされる。そして、OS532が次に起動されたときに、ペンディングされている割り込み要求が消去される。
Unlike the first recovery process, if the
同様に、ステップ923において、割り込み処理ルーチン541からOS532に対する割り込み要求が出力された場合も、割り込み要求はペンディングされる。そして、OS532が次に起動されたときに、ペンディングされている割り込み要求が消去される。
Similarly, when an interrupt request to the
OS532がハングアップしているため、VGA521の切り離しが行われず、リンクダウンの判定においてタイムアウトが発生する(ステップ914,YES)。したがって、ステップ916以降の処理が行われ、BMC511が強制的にリセットされる。
Since the
図10A~図10Dは、VGA521の切り離しが失敗した場合の第4の復旧処理の例を示すフローチャートである。ステップ1001~ステップ1024の処理は、図7Aのステップ701~ステップ715と図7Bのステップ716~ステップ724の処理と同様である。また、ステップ1031~ステップ1036の処理は、図7Cのステップ731~ステップ734と図7Dのステップ735及びステップ736の処理と同様である。
10A to 10D are flowcharts showing an example of the fourth recovery process when disconnection of the VGA 521 fails. The processing of
第1の復旧処理とは異なり、OS532は、OS532に対する割り込み要求を受け付けた後(ステップ1033)、VGAドライバ542を用いて、PCI-Eバス522からVGA521を切り離そうとするが、切り離しに失敗する(ステップ1034)。このため、リンクダウンの判定においてタイムアウトが発生し(ステップ1014,YES)、ステップ1016以降の処理が行われて、BMC511が強制的にリセットされる。
Unlike the first recovery process,
その後、割り込み処理ルーチン541からOS532に対する割り込み要求が出力された場合(ステップ1023)、OS532は、VGAドライバ542を用いて、VGA521をPCI-Eバス522に組み込もうとする。しかし、VGA521の切り離しが行われていないため、OS532は、VGA521の組み込みに失敗する(ステップ1035)。
After that, when an interrupt request to the
図2の情報処理装置201の構成は一例に過ぎず、情報処理装置201の用途又は条件に応じて一部の構成要素を省略又は変更してもよい。図4のサーバシステムの構成は一例に過ぎず、サーバシステムの用途又は条件に応じて一部の構成要素を省略又は変更してもよい。例えば、サーバシステムは、複数のサーバを含んでいてもよく、テープ装置等の他の装置を含んでいてもよい。
The configuration of the
図1のサーバ101及び図5のサーバ401の構成は一例に過ぎず、サーバシステムの構成又は条件に応じて一部の構成要素を省略又は変更してもよい。例えば、図5のサーバ401がRAID装置402と通信しない場合は、通信回路516を省略することができる。
The configurations of the
図3及び図7A~図10Dのフローチャートは一例に過ぎず、サーバシステムの構成又は条件に応じて一部の処理を省略又は変更してもよい。図6に示したBMC511の復旧処理は一例に過ぎず、サーバシステムの構成又は条件に応じて一部の処理を省略又は変更してもよい。
The flowcharts of FIGS. 3 and 7A to 10D are merely examples, and some of the processes may be omitted or changed according to the configuration or conditions of the server system. The recovery processing of the
開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。 Although the disclosed embodiments and their advantages have been described in detail, those skilled in the art can make various modifications, additions and omissions without departing from the scope of the invention as defined in the claims. deaf.
図1乃至図10Dを参照しながら説明した実施形態に関し、さらに以下の付記を開示する。
(付記1)
情報処理を行う情報処理装置であって、
画像処理を行う画像処理部を含み、前記情報処理装置を管理する管理部と、
前記管理部を監視し、前記管理部の異常を検出した場合、異常検出信号を出力する監視部と、
前記情報処理を行い、前記監視部から前記異常検出信号が出力された場合、前記異常検出信号に基づいて前記画像処理部を切り離し、前記管理部を再起動する情報処理部と、
を備えることを特徴とする情報処理装置。
(付記2)
前記情報処理部は、第1プログラム及び第2プログラムを実行し、
前記監視部は、前記第1プログラムに対する第1割り込み要求を、前記異常検出信号として前記情報処理部へ出力し、
前記情報処理部は、前記第1割り込み要求に基づいて、前記第2プログラムに対する第2割り込み要求を生成し、前記第2割り込み要求に基づいて前記画像処理部を切り離すことを特徴とする付記1記載の情報処理装置。
(付記3)
前記監視部は、前記第1割り込み要求を出力した後、前記第1プログラムに対する第3割り込み要求を前記情報処理部へ出力し、
前記情報処理部は、前記第3割り込み要求に基づいて、前記情報処理部と前記画像処理部との間の通信状態をチェックし、前記通信状態が通信不可である場合、前記管理部を再起動することを特徴とする付記2記載の情報処理装置。
(付記4)
前記第1プログラムは、基本入出力システムであり、前記第2プログラムは、オペレーティングシステムであることを特徴とする付記2又は3記載の情報処理装置。
(付記5)
前記監視部は、問合せ信号を前記管理部へ送信し、所定期間内に前記管理部から応答信号を受信しない場合、前記管理部の異常が発生したと判定して、前記異常検出信号を出力することを特徴とする付記1乃至4の何れか1項に記載の情報処理装置。
(付記6)
情報処理を行い、
画像処理を行う画像処理部を含み、情報処理装置を管理する管理部が、監視部により監視され、前記監視部により前記管理部の異常が検出されて異常検出信号が出力された場合、前記異常検出信号に基づいて前記画像処理部を切り離し、
前記管理部を再起動する、
処理をプロセッサが実行することを特徴とする復旧方法。
(付記7)
前記情報処理を行う処理は、第1プログラム及び第2プログラムを実行する処理を含み、
前記監視部は、前記第1プログラムに対する第1割り込み要求を、前記異常検出信号として出力し、
前記画像処理部を切り離す処理は、
前記第1割り込み要求に基づいて、前記第2プログラムに対する第2割り込み要求を生成する処理と、
前記第2割り込み要求に基づいて前記画像処理部を切り離す処理とを含むことを特徴とする付記6記載の復旧方法。
(付記8)
前記監視部は、前記第1割り込み要求を出力した後、前記第1プログラムに対する第3割り込み要求を出力し、
前記プロセッサは、前記第3割り込み要求に基づいて、前記プロセッサと前記画像処理部との間の通信状態をチェックする処理をさらに実行し、
前記管理部を再起動する処理は、前記通信状態が通信不可である場合、前記管理部を再起動する処理を含むことを特徴とする付記7記載の復旧方法。
(付記9)
前記第1プログラムは、基本入出力システムであり、前記第2プログラムは、オペレーティングシステムであることを特徴とする付記7又は8記載の復旧方法。
(付記10)
前記監視部は、問合せ信号を前記管理部へ送信し、所定期間内に前記管理部から応答信号を受信しない場合、前記管理部の異常が発生したと判定して、前記異常検出信号を出力することを特徴とする付記6乃至9の何れか1項に記載の復旧方法。
The following remarks are further disclosed with respect to the embodiments described with reference to FIGS. 1-10D.
(Appendix 1)
An information processing device that performs information processing,
a management unit that includes an image processing unit that performs image processing and manages the information processing device;
a monitoring unit that monitors the management unit and outputs an abnormality detection signal when an abnormality in the management unit is detected;
an information processing unit that performs the information processing and, when the abnormality detection signal is output from the monitoring unit, disconnects the image processing unit based on the abnormality detection signal and restarts the management unit;
An information processing device comprising:
(Appendix 2)
The information processing unit executes a first program and a second program,
The monitoring unit outputs a first interrupt request for the first program to the information processing unit as the abnormality detection signal,
(Appendix 3)
After outputting the first interrupt request, the monitoring unit outputs a third interrupt request for the first program to the information processing unit,
The information processing unit checks a communication state between the information processing unit and the image processing unit based on the third interrupt request, and restarts the management unit when the communication state indicates that communication is impossible. The information processing apparatus according to
(Appendix 4)
The information processing apparatus according to
(Appendix 5)
The monitoring unit transmits an inquiry signal to the management unit, and if it does not receive a response signal from the management unit within a predetermined period, determines that an abnormality has occurred in the management unit, and outputs the abnormality detection signal. The information processing apparatus according to any one of
(Appendix 6)
process information,
A management unit that manages an information processing apparatus including an image processing unit that performs image processing is monitored by a monitoring unit, and if the monitoring unit detects an abnormality in the management unit and outputs an abnormality detection signal, the abnormality disconnecting the image processing unit based on the detection signal;
restarting the management unit;
A recovery method characterized in that a processor executes processing.
(Appendix 7)
The process of performing information processing includes a process of executing a first program and a second program,
The monitoring unit outputs a first interrupt request to the first program as the abnormality detection signal,
The process of separating the image processing unit includes:
a process of generating a second interrupt request for the second program based on the first interrupt request;
7. The recovery method according to claim 6, further comprising a process of disconnecting the image processing unit based on the second interrupt request.
(Appendix 8)
After outputting the first interrupt request, the monitoring unit outputs a third interrupt request for the first program,
based on the third interrupt request, the processor further performs a process of checking a communication state between the processor and the image processing unit;
The recovery method according to appendix 7, wherein the process of restarting the management unit includes a process of restarting the management unit when the communication state indicates that communication is impossible.
(Appendix 9)
The recovery method according to appendix 7 or 8, wherein the first program is a basic input/output system, and the second program is an operating system.
(Appendix 10)
The monitoring unit transmits an inquiry signal to the management unit, and if it does not receive a response signal from the management unit within a predetermined period, determines that an abnormality has occurred in the management unit, and outputs the abnormality detection signal. 10. The recovery method according to any one of appendices 6 to 9, characterized by:
101、401 サーバ
111、511 BMC
112、512 チップセット
113、513 CPU
121、521 VGA
122、522 PCI-Eバス
131、531 BIOS
132、532 OS
141、542 VGAドライバ
201 情報処理装置
211 管理部
212 監視部
213 情報処理部
221 画像処理部
401 サーバ
402 RAID装置
514 監視回路
515 メモリ
516 通信回路
541 割り込み処理ルーチン
101, 401
112, 512
121, 521 VGA
122, 522 PCI-
132, 532 OS
141, 542
Claims (6)
画像処理を行う画像処理部を含み、前記情報処理装置を管理する管理部と、
前記管理部を監視し、前記管理部の異常を検出した場合、異常検出信号を出力する監視部と、
前記情報処理を行い、前記監視部から前記異常検出信号が出力された場合、前記異常検出信号に基づいて前記画像処理部を切り離し、前記管理部を再起動する情報処理部と、
を備えることを特徴とする情報処理装置。 An information processing device that performs information processing,
a management unit that includes an image processing unit that performs image processing and manages the information processing device;
a monitoring unit that monitors the management unit and outputs an abnormality detection signal when an abnormality in the management unit is detected;
an information processing unit that performs the information processing and, when the abnormality detection signal is output from the monitoring unit, disconnects the image processing unit based on the abnormality detection signal and restarts the management unit;
An information processing device comprising:
前記監視部は、前記第1プログラムに対する第1割り込み要求を、前記異常検出信号として前記情報処理部へ出力し、
前記情報処理部は、前記第1割り込み要求に基づいて、前記第2プログラムに対する第2割り込み要求を生成し、前記第2割り込み要求に基づいて前記画像処理部を切り離すことを特徴とする請求項1記載の情報処理装置。 The information processing unit executes a first program and a second program,
The monitoring unit outputs a first interrupt request for the first program to the information processing unit as the abnormality detection signal,
2. The information processing section generates a second interrupt request for the second program based on the first interrupt request, and disconnects the image processing section based on the second interrupt request. The information processing device described.
前記情報処理部は、前記第3割り込み要求に基づいて、前記情報処理部と前記画像処理部との間の通信状態をチェックし、前記通信状態が通信不可である場合、前記管理部を再起動することを特徴とする請求項2記載の情報処理装置。 After outputting the first interrupt request, the monitoring unit outputs a third interrupt request for the first program to the information processing unit,
The information processing unit checks a communication state between the information processing unit and the image processing unit based on the third interrupt request, and restarts the management unit when the communication state indicates that communication is impossible. 3. The information processing apparatus according to claim 2, wherein:
画像処理を行う画像処理部を含み、情報処理装置を管理する管理部が、監視部により監視され、前記監視部により前記管理部の異常が検出されて異常検出信号が出力された場合、前記異常検出信号に基づいて前記画像処理部を切り離し、
前記管理部を再起動する、
処理をプロセッサが実行することを特徴とする復旧方法。
process information,
A management unit that manages an information processing apparatus including an image processing unit that performs image processing is monitored by a monitoring unit, and if the monitoring unit detects an abnormality in the management unit and outputs an abnormality detection signal, the abnormality disconnecting the image processing unit based on the detection signal;
restarting the management unit;
A recovery method characterized in that a processor executes processing.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021093594A JP2022185768A (en) | 2021-06-03 | 2021-06-03 | Information processing device and recovery method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021093594A JP2022185768A (en) | 2021-06-03 | 2021-06-03 | Information processing device and recovery method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022185768A true JP2022185768A (en) | 2022-12-15 |
Family
ID=84442080
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021093594A Pending JP2022185768A (en) | 2021-06-03 | 2021-06-03 | Information processing device and recovery method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022185768A (en) |
-
2021
- 2021-06-03 JP JP2021093594A patent/JP2022185768A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018095107A1 (en) | Bios program abnormal processing method and apparatus | |
KR101712172B1 (en) | The preliminary diagnosis and analysis and recovery system of computer error, and method thereof | |
US8677177B2 (en) | Apparatus, a recovery method and a program thereof | |
KR20040047209A (en) | Method for automatically recovering computer system in network and recovering system for realizing the same | |
US8819483B2 (en) | Computing device with redundant, dissimilar operating systems | |
TW200426571A (en) | Policy-based response to system errors occurring during os runtime | |
CN114116280A (en) | Interactive BMC self-recovery method, system, terminal and storage medium | |
US20030177224A1 (en) | Clustered/fail-over remote hardware management system | |
JPH09251443A (en) | Processor fault recovery processing method for information processing system | |
US10824517B2 (en) | Backup and recovery of configuration files in management device | |
KR101731422B1 (en) | Restoration apparatus and method for fault over the virtual environment | |
JP2022185768A (en) | Information processing device and recovery method | |
CN109358982B (en) | Hard disk self-healing device and method and hard disk | |
JP2014191491A (en) | Information processor and information processing system | |
JP7435035B2 (en) | PCIe devices, failure recovery methods, programs | |
JP3325785B2 (en) | Computer failure detection and recovery method | |
JP5268820B2 (en) | Rewriting method for monitoring device program | |
JP2015106226A (en) | Dual system | |
CN116701036A (en) | BMC system automatic detection and repair method and device | |
WO2007077604A1 (en) | Information processor and method of monitoring hang-up | |
JP2001175545A (en) | Server system, fault diagnosing method, and recording medium | |
JP7001236B2 (en) | Information processing equipment, fault monitoring method, and fault monitoring computer program | |
JP7351129B2 (en) | Information processing device and control program for the information processing device | |
CN116991637B (en) | Operation control method and device of embedded system, electronic equipment and storage medium | |
JP7181467B2 (en) | Control method, control program, and information processing device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20231024 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240208 |