JP7001236B2 - Information processing equipment, fault monitoring method, and fault monitoring computer program - Google Patents
Information processing equipment, fault monitoring method, and fault monitoring computer program Download PDFInfo
- Publication number
- JP7001236B2 JP7001236B2 JP2019052459A JP2019052459A JP7001236B2 JP 7001236 B2 JP7001236 B2 JP 7001236B2 JP 2019052459 A JP2019052459 A JP 2019052459A JP 2019052459 A JP2019052459 A JP 2019052459A JP 7001236 B2 JP7001236 B2 JP 7001236B2
- Authority
- JP
- Japan
- Prior art keywords
- useful information
- control circuit
- stored
- volatile memory
- bios
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Description
本発明は、情報処理装置、障害監視方法及び障害監視用コンピュータプログラムに関する。 The present invention relates to an information processing apparatus, a fault monitoring method, and a fault monitoring computer program.
サーバ等の情報処理装置において、オペレーティングシステム(OS)から独立して、ソフトウェア、ハードウェアの監視を行うコントローラとして、ベースボードマネジメントコントローラ(BMC)がある。より具体的には、BMCは情報処理装置の電源制御、温度や電圧の監視機能、システムの動作監視機能などを持つ。さらに、近年の情報処理装置は、リモートコンピュータからのシステムの電源制御、リモートメディア制御、マルチタスク化などの機能も備え、それら機能に対応するためBMCの機能も多様化、複雑化してきている。その結果、BMC自身に異常が生じストールして停止状態となる場合も増えてきた。関連する技術において、BMCがストールした場合、BMCがストールした原因を追求する方法が特許文献1に開示されている。
In an information processing device such as a server, there is a baseboard management controller (BMC) as a controller that monitors software and hardware independently of an operating system (OS). More specifically, the BMC has a power supply control of an information processing device, a temperature and voltage monitoring function, a system operation monitoring function, and the like. Further, recent information processing devices are also provided with functions such as system power control from a remote computer, remote media control, and multitasking, and the functions of BMC are becoming more diverse and complicated in order to support these functions. As a result, there are increasing cases where the BMC itself becomes abnormal and stalls to a stopped state. In a related technique, when the BMC stalls, a method for pursuing the cause of the BMC stall is disclosed in
ところで、BMCにおいて、ソフトウェアトラブルの原因の特定が重要な機能の1つである。しかし、BMCがストール中に、OS(Operating System)やBIOS(Basic Input/Output System)がストールする場合もある。この場合、原因を究明するための情報が取れず、BMCの本来の機能を果たすことができない。そこで本発明は、上述の課題を解決する情報処理装置、障害監視方法及び障害監視用コンピュータプログラムを提供することを目的としている。 By the way, in BMC, identification of the cause of software trouble is one of the important functions. However, the OS (Operating System) or BIOS (Basic Input / Output System) may stall while the BMC is stall. In this case, the information for investigating the cause cannot be obtained, and the original function of BMC cannot be fulfilled. Therefore, an object of the present invention is to provide an information processing apparatus, a fault monitoring method, and a fault monitoring computer program that solve the above-mentioned problems.
本発明の第1の態様によれば、情報処理装置は、オペレーティングシステムあるいはBIOSが停止状態となった際の原因解析に利用される情報である有益情報を記憶する不揮発性メモリと、指示に従って前記不揮発性メモリに前記有益情報を保存または削除する有益情報処理部を備えた制御回路と、前記オペレーティングシステムあるいは前記BIOSの一方または双方に備えられ、所定のタイマ期間毎に前記有益情報を前記制御回路に送信して保存を指示するとともに、電源オフ時の処理の際に、前記有益情報の削除の指示を前記制御回路に対して行う制御回路指示部と、前記オペレーティングシステムから独立して情報処理装置の状態監視を行うコントローラと、を備え、前記コントローラは、該コントローラが起動した際、前記不揮発性メモリに前記有益情報が保存されているかを確認するメモリチェック部と、前記不揮発性メモリに前記有益情報が保存されている場合、保存されている前記有益情報に基づきログを登録するログ処理部と、前記制御回路指示部により前記不揮発性メモリに前記有益情報が保存された後、次の所定のタイマ期間の開始前に保存された前記有益情報の削除がなされるよう前記制御回路に対して指示を行う削除処理部とを備える、ことを特徴とする。 According to the first aspect of the present invention, the information processing apparatus includes a non-volatile memory for storing useful information which is information used for cause analysis when the operating system or the BIOS is stopped, and the above-mentioned according to the instruction. A control circuit provided with a useful information processing unit that stores or deletes the useful information in a non-volatile memory, and one or both of the operating system and the BIOS, and the useful information is stored in the control circuit at predetermined timer periods. A control circuit instruction unit that gives an instruction to delete useful information to the control circuit at the time of processing when the power is turned off, and an information processing device independent of the operating system. The controller comprises a controller for monitoring the status of the above, and the controller has a memory check unit for confirming whether the useful information is stored in the non-volatile memory when the controller is started, and the useful for the non-volatile memory. When the information is saved, after the useful information is saved in the non-volatile memory by the log processing unit that registers the log based on the saved useful information and the control circuit instruction unit, the next predetermined It is characterized by including a deletion processing unit for instructing the control circuit to delete the useful information stored before the start of the timer period.
本発明の第2の態様によれば、障害監視方法は、オペレーティングシステムあるいはBIOSが停止状態となった際の原因解析に利用される情報である有益情報を記憶する不揮発性メモリと、指示に従って、前記不揮発性メモリに前記有益情報を保存または削除する有益情報処理部を備えた制御回路と、前記オペレーティングシステムあるいは前記BIOSの一方または双方に備えられ、所定のタイマ期間毎に前記有益情報を前記制御回路に送信して保存を指示するとともに、電源オフ時の処理の際に、前記有益情報の削除の指示を前記制御回路に対して行う制御回路指示部と、を備えた情報処理装置によって、オペレーティングシステムから独立して前記情報処理装置の状態監視を行い、起動した際、前記不揮発性メモリに前記有益情報が保存されているかを確認し、前記不揮発性メモリに前記有益情報が保存されている場合、保存されている前記有益情報に基づきログを登録し、前記制御回路指示部により前記不揮発性メモリに前記有益情報が保存された後、次の所定のタイマ期間の開始前に保存された前記有益情報の削除がなされるよう前記制御回路に対して指示を行う、ことを特徴とする。 According to the second aspect of the present invention, the fault monitoring method includes a non-volatile memory for storing useful information which is information used for cause analysis when the operating system or the BIOS is stopped, and according to instructions. A control circuit provided with a useful information processing unit that stores or deletes the useful information in the non-volatile memory, and one or both of the operating system and the BIOS are provided to control the useful information at predetermined timer periods. An information processing device provided with a control circuit instruction unit that sends an instruction to the circuit to save the information and gives an instruction to delete the useful information to the control circuit at the time of processing when the power is turned off. The state of the information processing apparatus is monitored independently of the operating system, and when the information processing device is started, it is confirmed whether the useful information is stored in the non-volatile memory, and the useful information is stored in the non-volatile memory. In the case, the log is registered based on the stored useful information, and after the useful information is stored in the non-volatile memory by the control circuit indicator, the stored before the start of the next predetermined timer period. It is characterized in that an instruction is given to the control circuit so that useful information is deleted.
本発明の第3の態様によれば、障害監視用コンピュータプログラムは、オペレーティングシステムあるいはBIOSが停止状態となった際の原因解析に利用される情報である有益情報を記憶する不揮発性メモリと、指示に従って前記不揮発性メモリに前記有益情報を保存または削除する有益情報処理部を備えた制御回路と、前記オペレーティングシステムあるいは前記BIOSの一方または双方に備えられ、所定のタイマ期間毎に前記有益情報を前記制御回路に送信して保存を指示するとともに、電源オフ時の処理の際に、前記有益情報の削除の指示を前記制御回路に対して行う制御回路指示部と、を備えた情報処理装置のための障害監視用コンピュータプログラムであって、オペレーティングシステムから独立して前記情報処理装置の状態監視を行い、起動した際、前記不揮発性メモリに前記有益情報が保存されているかを確認し、前記不揮発性メモリに前記有益情報が保存されている場合、保存されている前記有益情報に基づきログを登録し、前記制御回路指示部により前記不揮発性メモリに前記有益情報が保存された後、次の所定のタイマ期間の開始前に保存された前記有益情報の削除がなされるよう前記制御回路に対して指示を行うことをコンピュータに実行させる、ことを特徴とする。 According to the third aspect of the present invention, the fault monitoring computer program has a non-volatile memory for storing useful information which is information used for cause analysis when the operating system or the BIOS is stopped, and an instruction. A control circuit provided with a useful information processing unit that stores or deletes the useful information in the non-volatile memory according to the above, and one or both of the operating system and the BIOS, and the useful information is stored at a predetermined timer period. For an information processing device provided with a control circuit instruction unit that transmits to a control circuit to instruct storage and also gives an instruction to delete useful information to the control circuit at the time of processing when the power is turned off. This is a computer program for fault monitoring, which monitors the status of the information processing apparatus independently of the operating system, and when it is started, it confirms whether the useful information is stored in the non-volatile memory, and the non-volatile memory is used. When the useful information is stored in the memory, a log is registered based on the stored useful information, and after the useful information is stored in the non-volatile memory by the control circuit indicator, the next predetermined value is specified. It is characterized in that the computer is instructed to instruct the control circuit to delete the useful information stored before the start of the timer period.
これにより、BMCがストール中に情報処理装置のOSやBIOSがストールしても、OSやBIOSのストールの原因を究明するための情報を取得することができる、という効果が得られる。 As a result, even if the OS or BIOS of the information processing apparatus stalls while the BMC stalls, it is possible to obtain information for investigating the cause of the stall of the OS or BIOS.
以下、本発明の一実施形態によるサーバについて図面を参照して説明する。図1は本発明の一実施形態によるサーバの機能ブロック図である。図1において、符号1はサーバを示す。符号2は制御回路を、符号3はオペレーティングシステム(OS)を、符号4はBIOS(Basic Input/Output System)を示す。また、符号5はベースボードマネジメントコントローラ(BMC:Baseboard Management Controller)を示す。
Hereinafter, a server according to an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a functional block diagram of a server according to an embodiment of the present invention. In FIG. 1,
サーバ1は、制御回路2、OS・3、BIOS・4、BMC・5を備え、これらはI2C(Inter-Integrated Circuit)のようなシリアルバスの通信路11により接続される。また、サーバ1は、制御回路2から図示しないCPU(Central Processing Unit)に対してNMI(Non Maskable Interrupt)を発行するための通信路12をさらに備える。ここで、NMIとは、CPUに対して外部から要求される割り込みの一種で、どのような場合でも強制的に割り込みが行われ、制御命令によりマスク(禁止)できない割り込みを指す。NMIは、サーバ1の機能に深刻な障害発生した場合など、緊急時や特殊な場合に用いられる。本実施の形態において、NMIは、OS・3またはBIOS・4がストールし、操作を受け付けなくフリーズした状態(停止状態)での復活のために用いられるが、NMIの使用の詳細は別途説明する。以下では、情報処理装置の一例として、サーバ1を用いて説明するが、情報処理装置は、パーソナルコンピュータや、その他、CPU、OS、BIOS等を備えた他の電子機器であってもよい。
The
制御回路2は、OS・3やBIOS・4がストールした際の解析に有益な情報である有益情報の管理を行う。制御回路2は、有益情報処理部21、復活処理部22、不揮発性メモリ23を備える。また、不揮発性メモリ23は、前述の有益情報24を記憶する。有益情報としては、有益情報を取得した時刻に関するタイムスタンプ、OS・3におけるその時点でのシステム構成/システムログ/カーネル情報、BIOS・4におけるその時点でのタスクコード(Task Code)などである。
The
不揮発性メモリ23は、読み書き可能なメモリで、例えば、フラッシュメモリ等である。
有益情報処理部21は、OS・3、BIOS・4、BMC・5からの指示に応じて、不揮発性メモリ23に有益情報24を保存する処理、または、不揮発性メモリ23から有益情報24を削除する処理を行う。
復活処理部22は、不揮発性メモリ23に記憶された有益情報24が一定期間更新されない場合、OS・3あるいはBIOS・4のストールからの復活のためのマスク不可な割り込み命令をサーバ1のCPUに対して発生する処理を行う。
The
The useful
When the
OS・3は、サーバ1の基本的な管理や制御のための機能や、多くのソフトウェアが共通して利用する基本的な機能などを実装した、サーバ1全体を管理するソフトウェアである。OS・3は、制御回路指示部31と、タイマ処理部32をデーモンまたはドライバとして備える。
OS 3 is software that manages the
制御回路指示部31は、所定のタイマ期間毎に、OS・3に関する有益情報を収集して、収集した有益情報を制御回路2に送信し、保存を指示する処理を行う。さらに、制御回路指示部31は、サーバ1の回路に対する直流電源が切られることによる電源オフ(シャットダウン)のための処理をする際に、不揮発性メモリ23に記憶される有益情報24の削除の指示を制御回路2に対して行う処理をする。
The control
タイマ処理部32は、定期的に設けられる所定のタイマ期間に対する応答をする処理を行う。ここで、「定期的に設けられる所定のタイマ期間」は、OS・3やBIOS・4が正常に機能しているかどうかを定期的に監視するためのタイマ期間である。WDT(Watch Dog Timer)は、このタイマ期間の間に所定の応答(リセット信号)の有無を監視する。なお、WDTは、所定のタイマ期間に対して、OS・3やBIOS・4から応答がある際、タイマがリセットされる。一方、OS・3やBIOS・4のストールにより所定期間を経過してもOS・3やBIOS・4からの応答がない場合、タイマがリセットされない。このようにWDTは、タイマがリセットされない期間が長いと、OS・3やBIOS・4がストールしているもとの判断するために用いられる。
The
BIOS・4は、OS・3の起動や、サーバ1とサーバ1に対する接続機器の入出力を制御するソフトウェアである。BIOS・4は、制御回路指示部41と、タイマ処理部42をソフトウェアモジュールとして備える。制御回路指示部41とタイマ処理部42は、OS・3の制御回路指示部31、タイマ処理部32と同等の機能を備える。
The
BMC・5は、OS・3から独立してサーバ1のハード面での監視や、システムの動作監視、OS・3やBIOS・4のストールの原因の特定等をするためのものである。本実施の形態では、BMC・5による、OS・3やBIOS・4のストールの原因の特定に関する機能を説明する。BMC・5に関し、IPMI(Intelligent Platform Management Interface)という情報処理装置の基本コンポーネントの監視や遠隔地からの制御などを行うためのインターフェース仕様がある。BMC・5は、IPMIに基づき、WDTを用いてOS・3やBIOS・4がストールした際の原因解析のための有益情報を収集する。BMC・5は、メモリチェック部51、ログ処理部52、削除処理部53を備える。
The
メモリチェック部51は、起動のためAC電源の投入やサーバ1のリセットで、BMC・5が再起動した際、不揮発性メモリ23に有益情報24が保存されているかを確認する処理を行う。なお、BMC・5が起動した際、不揮発性メモリ23に有益情報24が保存されている場合とは、BMC・5の起動前に、BMC・5がストールし、さらに、OS・3ないしはBIOS・4がストールした状況となる。
The
ログ処理部52は、メモリチェック部51の処理により、不揮発性メモリ23に有益情報24が保存されている場合、保存されている有益情報24に関するログを登録する処理を行う。
When the
削除処理部53は、OS・3の制御回路指示部31やBIOS・4の制御回路指示部41により不揮発性メモリ23に有益情報24が保存された後、次の所定のタイマの期間の開始前に保存された有益情報の削除がなされるよう制御回路2に対して指示を行う処理をする。
After the
図2は本発明の一実施形態によるBMC・5のハードウェア構成を示す図である。BMC・5は、CPU・61、ROM(Read Only Memory)62、RAM(Random Access Memory)63、フラッシュメモリ64、通信モジュール65を備える。
CPU61は、ROM・62またはフラッシュメモリ64等の記録媒体に記憶されるプログラムを実行することで、BMC・5の各機能を実現する。
フラッシュメモリ64には、BMC・5の機能を実現するため必要となる有益情報24やその他のデータ等も記憶する。
FIG. 2 is a diagram showing a hardware configuration of BMC ・ 5 according to an embodiment of the present invention. The BMC ・ 5 includes a
The
The
通信モジュール65は、制御回路2、OS・3、BIOS・4等と通信路11を介した通信が行えるようにする。また、サーバ1の稼動状態に依存せず、基本的なリモート操作ができるようにするための機能も備える。
なお、BMC・5は、これらハードの機能を含んだ、オンボードチップとして提供されるものであってもよい。
The
The BMC / 5 may be provided as an on-board chip including the functions of these hardware.
図3は、本発明の一実施形態によるOS・3、BISO・4の有益情報に関する処理フローを示す図である。OS・3、BISO・4の動作について処理フローを追って説明する。
FIG. 3 is a diagram showing a processing flow regarding useful information of OS · 3 and BISO · 4 according to an embodiment of the present invention. The operation of
サーバ1の起動に伴い、OS・3、BISO・4も起動し、ストール時の解析に利用される有益情報に関する処理が開始する。また、OS・3、BISO・4の起動後、OS・3、BISO・4が正常に機能しているかを監視するため、WDTに関連しシステム・タイマが定期的に発せられる。
With the startup of the
OS・3、BISO・4における有益情報に関する処理は同等である。そこで、以下では、OS・3の処理フローについて説明し、BISO・4における有益情報に関する処理フローに関する説明を省略する。
The processing related to useful information in
OS・3のタイマ処理部32は、所定のタイマ期間毎に、WDTのタイマリセットのための応答(更新処理)をする(ステップS31)。
The
OS・3の制御回路指示部31は、有益情報を収集する(ステップS32)。なお、OS・3における有益情報としては、有益情報を収集した時刻に関するタイムスタンプ、その時点でのシステム構成/システムログ/カーネル情報等となる。なお、BIOS・4における有益情報としては、有益情報を収集した時刻に関するタイムスタンプ、その時点でタスクコード(Task Code)等となる。
The
制御回路指示部31は、収集した有益情報を制御回路2に送信するとともに、制御回路2に対して送信した有益情報の保存を指示する(ステップS33)。
The control
制御回路指示部31は、OS・3のストールがない限り、ステップS31からS33の処理をタイマ期間毎に行う。
The control
さらに、サーバ1の回路に対する直流電源が切られるDC-OFFの状態への移行がなければ(ステップS34:No)、OS・3のストールがない限り、OS・3は、ステップS31からS33の処理を各タイマ期間に行う。
Further, unless there is a transition to the DC-OFF state in which the DC power supply to the circuit of the
サーバ1の回路に対する直流電源が切られるDC-OFFの状態へ移行する場合(ステップS34:Yes)、制御回路指示部31は、不揮発性メモリ23に記憶される有益情報24の削除の指示を制御回路2に対して行う。これにより、OS・3は、ストールすることなく正常終了する場合、不揮発性メモリ23に有益情報24を残すことなく、有益情報に関する処理を終了することができる。
When shifting to the DC-OFF state in which the DC power supply to the circuit of the
図4は、本発明の一実施形態による制御回路2の有益情報に関する処理フローを示す図である。図4のフローは、制御回路2の起動により開始する。
FIG. 4 is a diagram showing a processing flow regarding useful information of the
制御回路2の有益情報処理部21は、OS・3、BIOS・4からの有益情報の保存の指示があるか判断する(ステップS41)。
The useful
保存の指示がある場合(ステップS41:Yes)、有益情報処理部21は、OS・3あるいはBIOS・4から送信された有益情報を、不揮発性メモリ23に保存する(ステップS42)。一方、保存の指示がない場合(ステップS41:No)、有益情報処理部21は処理をステップS43に移す。
When there is an instruction to save (step S41: Yes), the useful
有益情報処理部21は、OS・3、BIOS・4、BMC・5からの削除の指示があるか判断する(ステップS43)。
The useful
削除の指示がある場合(ステップS43:Yes)、有益情報処理部21は、不揮発性メモリ23に保存される有益情報24を不揮発性メモリ23から削除する(ステップS44)。一方、削除の指示がない場合(ステップS43:No)、有益情報処理部21は処理をステップS45に移す。
When there is an instruction to delete (step S43: Yes), the useful
制御回路2は、OS・3またはBIOS・4の一方、あるいは、双方がストールしたか判断する(ステップS45)。この判断は、WDTにおいて、タイマが所定のタイマ期間を超えてリセットされていないか否かで判断する。WDTにおいて、タイマが所定のタイマ期間を超えてリセットされていない場合は、OS・3またはBIOS・4の一方、あるいは、双方がストールしたと判断する。
The
OS・3やBIOS・4がストールしたと判断した場合(ステップS45:Yes)、制御回路2の復活処理部22は、OS・3やBIOS・4におけるストールからの復活のため、NMIをサーバ1のCPUに対して発行する(ステップS46)。これにより、OS・3やBIOS・4の復活のための処理が行われる。この処理により、OS・3やBIOS・4が復活し、正常に機能し始める場合もある。
When it is determined that the
BIOS・4の一方、あるいは、双方がストールしていないと判断した場合(ステップS45:No)、制御回路2は、処理をステップS47に移す。BMC・5は、サーバ1の回路に対する直流電源が切られシャットダウンがなされると(ステップS47:Yes)、有益情報に関する処理を終了する。一方、処理が継続する場合(ステップS47:No)、制御回路2は、ステップS41からS47の有益情報に関する処理を繰り返す。
When it is determined that one or both of the
図5は、本発明の一実施形態によるBMC・5の有益情報に関する処理フローを示す図である。 FIG. 5 is a diagram showing a processing flow regarding useful information of BMC ・ 5 according to an embodiment of the present invention.
起動のためAC電源の投入やサーバ1のリセットによりBMC・5が起動した際、BMC・5のメモリチェック部51は、不揮発性メモリ23に有益情報24が保存されているかを確認する(ステップS51)。不揮発性メモリ23に有益情報24が保存されていない場合(ステップS51:No)、BMC・5は、処理をステップS54に移す。
When the BMC / 5 is started by turning on the AC power or resetting the
一方、不揮発性メモリ23に有益情報24が保存されている場合(ステップS51:Yes)、BMC・5の起動前に、BMC・5がストールし、さらに、OS・3/BIOS・4がストールした状況であったことを示す。
On the other hand, when the
この場合、ログ処理部52は、保存されている有益情報24に基づきログを登録する(ステップS52)。この処理により、BMC・5がストールし、さらに、OS・3ないしはBIOS・4がストールした状況であっても、OS・3ないしはBIOS・4におけるストールの原因を解析するための有益情報を取得することができる。
In this case, the
削除処理部53は、ステップS52の処理の後、有益情報24を不揮発性メモリ23から削除する指示を制御回路2に対して行う(ステップS53)。
After the processing in step S52, the
削除処理部53は、OS・3やBIOS・4からの所定のタイマの期間に対する応答があるか判断する(ステップS54)。なお、この応答は、前述の通り、OS・3やBIOS・4が正常に機能していることを示すためのWDTのタイマリセットのための処理として行われる通知である。
The
OS・3やBIOS・4からの所定のタイマ期間に対する応答がある場合(ステップS54:Yes)、削除処理部53は、不揮発性メモリ23に保存される有益情報24を削除するよう制御回路2に対して指示を行う(ステップS55)。この処理により、OS・3やBIOS・4が正常に動作している際、そのタイマ期間における有益情報24を残すことなく、次の所定のタイマ期間の処理に移行できる。
When there is a response to a predetermined timer period from the
一方、OS・3やBIOS・4からの所定のタイマ期間に対する応答がない場合(ステップS54:No)、OS・3あるいはBIOS・4の一方、または、双方にストールが生じている可能性がある。そこで、削除処理部53は、保存された有益情報24を用いた解析が行えるように、有益情報24を削除することなく、ステップS56に移行する。
On the other hand, if there is no response to the predetermined timer period from
サーバ1の回路に対する直流電源が切られてシャットダウンされると(ステップS56:Yes)、BMC・5は、有益情報に関する処理を終了する。一方、処理が継続する場合(ステップS56:No)、BMC・5は、ステップS54からS56の処理を繰り返す。
When the DC power supply to the circuit of the
図6は、本発明の一実施形態による正常時における各モジュールの動作の一例を示す図である。
図6において、所定のタイマ期間は“00:01”であり、時刻“09:00”から処理が開始している例を示している。図6に示すように、OS・3の制御回路指示部31やBIOS・4の制御回路指示部41が、所定のタイマ期間“00:01”毎に、有益情報の保存を制御回路2に対して指示する。その結果、制御回路2の有益情報処理部21は、受け取った有益情報を不揮発性メモリ23に保存する。
FIG. 6 is a diagram showing an example of the operation of each module in a normal state according to the embodiment of the present invention.
FIG. 6 shows an example in which the predetermined timer period is “00:01” and the processing is started from the time “09: 00”. As shown in FIG. 6, the control
また、OS・3のタイマ処理部32やBIOS・4のタイマ処理部42は、WDTのリセットのための応答を行う。これに対応して、BMC・5の削除処理部53は、不揮発性メモリ23に保存される有益情報24の削除を制御回路2に対して指示する。
Further, the
サーバ1の回路に対する直流電源が切られて電源オフ(DC-OFF)に移行する際、OS・3の制御回路指示部31やBIOS・4の制御回路指示部41は、保存される有益情報24の削除を制御回路2に対して指示する。
When the DC power supply to the circuit of the
このように、OS・3、BIOS・4、BMC・5が正常に動作している際、OS・3やBIOS・4は、WDTの更新時に制御回路2の不揮発性メモリ23に有益情報24を設定するが、BMC・5の処理の処理により有益情報24が直ぐに削除される。また、DC-OFF時に、OS・3の制御回路指示部31やBIOS・4の制御回路指示部41は、保存される有益情報24の削除を制御回路2に対して指示する。
As described above, when the
よって、OS・3、BIOS・4、BMC・5が正常に動作し、処理を終了した際、不揮発性メモリに有益情報は残らない。 Therefore, when OS / 3, BIOS / 4, BMC / 5 operate normally and the processing is completed, no useful information remains in the non-volatile memory.
図7は、本発明の一実施形態によるBMC・5のストール時の各モジュールの動作の一例を示す図である。図7の例では、時刻“10:00”におけるBMC・5による有益情報24の削除の後、符号71に示すタイミングで、BMC・5がストールした例を示す。
FIG. 7 is a diagram showing an example of the operation of each module when the BMC ・ 5 is stalled according to the embodiment of the present invention. The example of FIG. 7 shows an example in which the
図7の例では、OS・3、BIOS・4は正常に動作し、最後にサーバ1の回路に対する直流電源が切られて電源オフとなる(DC-OFF)。この場合、OS・3の制御回路指示部31やBIOS・4の制御回路指示部41は、保存される有益情報24の削除を制御回路2に対して指示する。よって、BMC・5がストールしても、OS・3やBIOS・4が正常に動作していれば、DC-OFF時にOS・3やBIOS・4が不揮発性メモリ23内の有益情報24の削除の処理をするので、DC-OFF時に不揮発性メモリ23に有益情報は残らない。
In the example of FIG. 7,
図8は、本発明の一実施形態によるBMC・5のストール時にOS・3/BIOS・4がストールし、NMIで復活したときの各モジュールの動作の一例を示す図である。図8の例では、時刻“11:00”におけるBMC・5による有益情報24の削除の後、符号81に示すタイミングで、BMC・5がストールする。さらに、時刻“11:02”において、この時刻の有益情報の保存の後、符号82で示すタイミングでOS・3/BIOS・4がストールする。
FIG. 8 is a diagram showing an example of the operation of each module when the OS / 3 / BIOS / 4 stalls when the BMC / 5 is stalled according to the embodiment of the present invention and is restored by NMI. In the example of FIG. 8, after the
この場合、次の所定のタイマ期間“11:03”が開始するまでに、制御回路2の復活処理部22は、OS・3/BIOS・4によるWDTの更新のための通知を確認できない。そのため、復活処理部22は、符号83で示すタイミングで、OS・3/BIOS・4の復活のためNMIを発行する。図8の例では、符号84で示すタイミングで、NMIによる復活処理で、OS・3/BIOS・4が復活する例を示している。
In this case, the
OS・3、BIOS・4は、符号84に示すタイミングでの復活の後、正常に動作する。サーバ1の回路に対する直流電源が切られて電源オフに移行する際(DC-OFF)、OS・3の制御回路指示部31やBIOS・4の制御回路指示部41は、保存される有益情報24の削除を制御回路2に対して指示する。よって、BMC・5がストールしても、OS・3やBIOS・4が正常であれば、DC-OFF時にOS・3やBIOS・4が不揮発性メモリ23に保存される有益情報24の削除の処理をするので、DC-OFF時に不揮発性メモリ23に有益情報24は残らない。なお、NMIにより、OS・3やBIOS・4が復活すれば、OS・3やBIOS・4自身が持つ機能でストールの原因解析のための必要なログを保存することができる。
図9は、本発明の一実施形態によるBMC・5のストール時にOS・3/BIOS・4がストールし、NMIで復活しなかったときの各モジュールの動作の一例を示す図である。図9の例では、時刻“12:00”におけるBMC・5による有益情報24の削除の後、符号91に示すタイミングで、BMC・5がストールする。さらに、時刻“12:02”において、この時刻の有益情報の保存の後、符号92で示すタイミングでOS・3/BIOS・4がストールする。
FIG. 9 is a diagram showing an example of the operation of each module when the OS / 3 / BIOS / 4 stalls when the BMC / 5 is stalled according to the embodiment of the present invention and is not restored by the NMI. In the example of FIG. 9, after the
この場合、次の所定のタイマ期間“12:03”が開始するまでに、制御回路2の復活処理部22は、OS・3/BIOS・4からWDTの更新のための通知を確認できない。そのため、復活処理部22は、符号93で示すタイミングで、OS・3/BIOS・4の復活のためNMIを発行する。図9の例では、符号93で示すタイミングのNMIによる復活ができない状況を示している。そのため、図9に示すように、BMC・5がストールしたときに、OS・3やBIOS・4がストールした場合、NMIでOS・3やBIOS・4が復活しなければ、不揮発性メモリ23にはOS・3/BIOS・4のストール直前の有益情報24が不揮発性メモリ23に保存されている。
In this case, the
図10は、本発明の一実施形態によるBMC・5の起動時の各モジュールの動作の一例を示す図である。図10は、図9に示す状態の後における、サーバ1の再起動時の例を示す。BMC・5のメモリチェック部51は、起動後に不揮発性メモリ23をチェックすると、有益情報24が保存されていることを確認する。BMC・5のログ処理部52は、保存されている有益情報24を、ログとして登録する。
FIG. 10 is a diagram showing an example of the operation of each module at the time of starting BMC ・ 5 according to the embodiment of the present invention. FIG. 10 shows an example when the
これにより、BMC・5がストールして、OS・3やBIOS・4と通信できない時に、OS・3やBIOS・4がストールし復活できない場合でも、OS・3やBIOS・4がストールした直前の情報を取得することができる。しがって、このような場合でも、OS・3やBIOS・4のストールの原因究明を進めることができる。
As a result, even if the
なお、OS・3あるいはBIOS・4はそれぞれ、制御回路指示部31、41、タイマ処理部32,42を備えるものとして説明した。これに限定されるものではなく、OS・3またはBIOS・4の一方のストールの原因の解析のみでよい場合、OS・3あるいはBIOS・4のどちらか一方が、制御回路指示部、タイマ処理部を備えるようにしてもよい。
It should be noted that the
制御回路2が不揮発性メモリ23を備えるものとして説明した。制御回路2が直接、不揮発性メモリ23に対する有益情報24の保存、削除をできる構成であれば、制御回路2が不揮発性メモリ23を内部に備えなくてもよい。
It has been described that the
図11は、本発明の一実施形態による情報処理装置であるサーバ1の最小構成図を示す図である。サーバ1は、制御回路2と、OS・3と、BIOS・4と、コントローラであるBMC・5とを備える。
FIG. 11 is a diagram showing a minimum configuration diagram of a
サーバ1は、OS・3あるいはBIOS・4が停止状態となった際の原因解析に利用される情報である有益情報を記憶する不揮発性メモリ23を備える。
制御回路2は、指示に従って、不揮発性メモリ23に有益情報24を保存または削除する有益情報処理部21を備える。
The
The
OS・3あるいはBIOS・4の一方または双方は、所定のタイマ期間毎に有益情報を制御回路2に送信して保存を指示するとともに、電源オフ時の処理の際に、有益情報24の削除の指示を制御回路2に対して行う制御回路指示部31、41を備える。
One or both of
BMC・5は、OS・3から独立してサーバ1の状態監視を行い、BMC・5が起動した際、不揮発性メモリ23に有益情報24が保存されているかを確認するメモリチェック部51と、不揮発性メモリ23に有益情報24が保存されている場合、保存されている有益情報24に基づきログを登録するログ処理部52と、制御回路指示部31、41により不揮発性メモリ23に有益情報24が保存された後、次の所定のタイマ期間の開始前に保存された有益情報24の削除がなされるよう制御回路2に対して指示を行う削除処理部53とを備える。
The BMC / 5 monitors the status of the
1・・・サーバ
2・・・制御回路
3・・・OS
4・・・BIOS
5・・・BMC
21・・・有益情報処理部
22・・・復活処理部
23・・・不揮発性メモリ
24・・・有益情報
31・・・制御回路指示部
32・・・タイマ処理部
41・・・制御回路指示部
42・・・タイマ処理部
51・・・メモリチェック部
52・・・ログ処理部
53・・・削除処理部
1 ...
4 ... BIOS
5 ... BMC
21 ... Useful
Claims (6)
指示に従って、前記不揮発性メモリに前記有益情報を保存または削除する有益情報処理部を備えた制御回路と、
前記オペレーティングシステムあるいは前記BIOSの一方または双方に備えられ、所定のタイマ期間毎に前記有益情報を前記制御回路に送信して保存を指示するとともに、電源オフ時の処理の際に、前記有益情報の削除の指示を前記制御回路に対して行う制御回路指示部と、
前記オペレーティングシステムから独立して情報処理装置の状態監視を行うコントローラと、
を備え、
前記コントローラは、
該コントローラが起動した際、前記不揮発性メモリに前記有益情報が保存されているかを確認するメモリチェック部と、
前記不揮発性メモリに前記有益情報が保存されている場合、保存されている前記有益情報に基づきログを登録するログ処理部と、
前記制御回路指示部により前記不揮発性メモリに前記有益情報が保存された後、次の所定のタイマ期間の開始前に保存された前記有益情報の削除がなされるよう前記制御回路に対して指示を行う削除処理部と
を備える情報処理装置。 Non-volatile memory that stores useful information that is used for cause analysis when the operating system or BIOS is stopped.
A control circuit including a useful information processing unit that stores or deletes the useful information in the non-volatile memory according to an instruction.
The useful information is provided in one or both of the operating system and the BIOS, and the useful information is transmitted to the control circuit at predetermined timer periods to instruct the control circuit to store the useful information, and when the power is turned off, the useful information is transmitted to the control circuit. A control circuit instruction unit that gives an instruction to delete the control circuit,
A controller that monitors the status of the information processing device independently of the operating system,
Equipped with
The controller
When the controller is started, a memory check unit for confirming whether the useful information is stored in the non-volatile memory, and a memory check unit.
When the useful information is stored in the non-volatile memory, a log processing unit that registers a log based on the stored useful information and a log processing unit.
After the useful information is stored in the non-volatile memory by the control circuit instruction unit, the control circuit is instructed to delete the stored useful information before the start of the next predetermined timer period. An information processing device equipped with a deletion processing unit to perform.
前記不揮発性メモリに記憶された前記有益情報が一定期間更新されない場合、前記オペレーティングシステムあるいは前記BIOSの停止状態からの復活のためのマスク不可な割り込み命令を前記情報処理装置の中央処理装置に対して発生する復活処理部
を備える、請求項1に記載の情報処理装置。 The control circuit is
When the useful information stored in the non-volatile memory is not updated for a certain period of time, an unmaskable interrupt instruction for recovering from the stopped state of the operating system or the BIOS is sent to the central processing unit of the information processing unit. The information processing apparatus according to claim 1, further comprising a generation recovery processing unit.
前記コントローラの削除処理部は、前記タイマ処理部からの応答に対応して、前記次の所定のタイマ期間の開始前に保存された前記有益情報の削除を行う
請求項1または請求項2に記載の情報処理装置。 The operating system or one or both of the BIOS further comprises a timer processing unit that responds during the predetermined timer period.
The deletion processing unit of the controller according to claim 1 or 2, wherein the deletion processing unit of the controller deletes the useful information stored before the start of the next predetermined timer period in response to the response from the timer processing unit. Information processing device.
請求項1から請求項3のいずれか一項に記載の情報処理装置。 After the log is registered by the log processing unit, the deletion processing unit of the controller further performs a process of instructing the control circuit to delete the useful information stored in the non-volatile memory.
The information processing apparatus according to any one of claims 1 to 3.
指示に従って、前記不揮発性メモリに前記有益情報を保存または削除する有益情報処理部を備えた制御回路と、
前記オペレーティングシステムあるいは前記BIOSの一方または双方に備えられ、所定のタイマ期間毎に前記有益情報を前記制御回路に送信して保存を指示するとともに、電源オフ時の処理の際に、前記有益情報の削除の指示を前記制御回路に対して行う制御回路指示部と、を備えた情報処理装置によって、
オペレーティングシステムから独立して前記情報処理装置の状態監視を行い、
起動した際、前記不揮発性メモリに前記有益情報が保存されているかを確認し、
前記不揮発性メモリに前記有益情報が保存されている場合、保存されている前記有益情報に基づきログを登録し、
前記制御回路指示部により前記不揮発性メモリに前記有益情報が保存された後、次の所定のタイマ期間の開始前に保存された前記有益情報の削除がなされるよう前記制御回路に対して指示を行う
障害監視方法。 Non-volatile memory that stores useful information that is used for cause analysis when the operating system or BIOS is stopped.
A control circuit including a useful information processing unit that stores or deletes the useful information in the non-volatile memory according to an instruction.
The useful information is provided in one or both of the operating system and the BIOS, and the useful information is transmitted to the control circuit at predetermined timer periods to instruct the control circuit to store the useful information, and when the power is turned off, the useful information is transmitted to the control circuit. By an information processing device provided with a control circuit instruction unit that gives a deletion instruction to the control circuit.
The status of the information processing device is monitored independently of the operating system.
At startup, check if the useful information is stored in the non-volatile memory,
When the useful information is stored in the non-volatile memory, a log is registered based on the stored useful information.
After the useful information is stored in the non-volatile memory by the control circuit instruction unit, the control circuit is instructed to delete the stored useful information before the start of the next predetermined timer period. Failure monitoring method to be performed.
指示に従って、前記不揮発性メモリに前記有益情報を保存または削除する有益情報処理部を備えた制御回路と、
前記オペレーティングシステムあるいは前記BIOSの一方または双方に備えられ、所定のタイマ期間毎に前記有益情報を前記制御回路に送信して保存を指示するとともに、電源オフ時の処理の際に、前記有益情報の削除の指示を前記制御回路に対して行う制御回路指示部と、を備えた情報処理装置のための障害監視用コンピュータプログラムであって、
オペレーティングシステムから独立して前記情報処理装置の状態監視を行い、
起動した際、前記不揮発性メモリに前記有益情報が保存されているかを確認し、
前記不揮発性メモリに前記有益情報が保存されている場合、保存されている前記有益情報に基づきログを登録し、
前記制御回路指示部により前記不揮発性メモリに前記有益情報が保存された後、次の所定のタイマ期間の開始前に保存された前記有益情報の削除がなされるよう前記制御回路に対して指示を行う
ことをコンピュータに実行させる、障害監視用コンピュータプログラム。 Non-volatile memory that stores useful information that is used for cause analysis when the operating system or BIOS is stopped.
A control circuit including a useful information processing unit that stores or deletes the useful information in the non-volatile memory according to an instruction.
The useful information is provided in one or both of the operating system and the BIOS, and the useful information is transmitted to the control circuit at predetermined timer periods to instruct the control circuit to be stored, and when the power is turned off, the useful information is transmitted. A fault monitoring computer program for an information processing apparatus including a control circuit instruction unit that gives a deletion instruction to the control circuit.
The status of the information processing device is monitored independently of the operating system.
At startup, check if the useful information is stored in the non-volatile memory,
When the useful information is stored in the non-volatile memory, a log is registered based on the stored useful information.
After the useful information is stored in the non-volatile memory by the control circuit instruction unit, the control circuit is instructed to delete the stored useful information before the start of the next predetermined timer period. A fault monitoring computer program that lets a computer do what it does.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019052459A JP7001236B2 (en) | 2019-03-20 | 2019-03-20 | Information processing equipment, fault monitoring method, and fault monitoring computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019052459A JP7001236B2 (en) | 2019-03-20 | 2019-03-20 | Information processing equipment, fault monitoring method, and fault monitoring computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020154705A JP2020154705A (en) | 2020-09-24 |
JP7001236B2 true JP7001236B2 (en) | 2022-01-19 |
Family
ID=72559171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019052459A Active JP7001236B2 (en) | 2019-03-20 | 2019-03-20 | Information processing equipment, fault monitoring method, and fault monitoring computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7001236B2 (en) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001101032A (en) | 1999-09-29 | 2001-04-13 | Hitachi Ltd | Os monitoring system under inter-different kind of os control |
JP2002251300A (en) | 2001-02-22 | 2002-09-06 | Hitachi Ltd | Fault monitoring method and device |
JP2004302731A (en) | 2003-03-31 | 2004-10-28 | Toshiba Corp | Information processor and method for trouble diagnosis |
JP2011210064A (en) | 2010-03-30 | 2011-10-20 | Nec Corp | Log information collection system, device, method and program |
JP2012078948A (en) | 2010-09-30 | 2012-04-19 | Fujitsu Ltd | Termination-log acquiring program, termination-log acquiring device and termination-log acquiring method |
US20140068350A1 (en) | 2012-08-29 | 2014-03-06 | Hon Hai Precision Industry Co., Ltd. | Self-checking system and method using same |
JP2015049552A (en) | 2013-08-30 | 2015-03-16 | 日本電気株式会社 | Information processing device, log processing method, and program |
JP2015130023A (en) | 2014-01-07 | 2015-07-16 | Necプラットフォームズ株式会社 | Information recording device, information processor, information recording method and information recording program |
JP2017078998A (en) | 2015-10-21 | 2017-04-27 | Necプラットフォームズ株式会社 | Information processor, log management method, and computer program |
-
2019
- 2019-03-20 JP JP2019052459A patent/JP7001236B2/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001101032A (en) | 1999-09-29 | 2001-04-13 | Hitachi Ltd | Os monitoring system under inter-different kind of os control |
JP2002251300A (en) | 2001-02-22 | 2002-09-06 | Hitachi Ltd | Fault monitoring method and device |
JP2004302731A (en) | 2003-03-31 | 2004-10-28 | Toshiba Corp | Information processor and method for trouble diagnosis |
JP2011210064A (en) | 2010-03-30 | 2011-10-20 | Nec Corp | Log information collection system, device, method and program |
JP2012078948A (en) | 2010-09-30 | 2012-04-19 | Fujitsu Ltd | Termination-log acquiring program, termination-log acquiring device and termination-log acquiring method |
US20140068350A1 (en) | 2012-08-29 | 2014-03-06 | Hon Hai Precision Industry Co., Ltd. | Self-checking system and method using same |
JP2015049552A (en) | 2013-08-30 | 2015-03-16 | 日本電気株式会社 | Information processing device, log processing method, and program |
JP2015130023A (en) | 2014-01-07 | 2015-07-16 | Necプラットフォームズ株式会社 | Information recording device, information processor, information recording method and information recording program |
JP2017078998A (en) | 2015-10-21 | 2017-04-27 | Necプラットフォームズ株式会社 | Information processor, log management method, and computer program |
Also Published As
Publication number | Publication date |
---|---|
JP2020154705A (en) | 2020-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018095107A1 (en) | Bios program abnormal processing method and apparatus | |
US20100082957A1 (en) | Information processing device | |
CN111045866B (en) | BMC fault processing method and device, electronic equipment and storage medium | |
US8677177B2 (en) | Apparatus, a recovery method and a program thereof | |
JP2012069032A (en) | Information processor | |
JP6130520B2 (en) | MULTISYSTEM SYSTEM AND MULTISYSTEM SYSTEM MANAGEMENT METHOD | |
TW200426571A (en) | Policy-based response to system errors occurring during os runtime | |
TWI723477B (en) | Electronic apparatus, system and method capable of remotely maintaining the operation of electronic apparatus | |
CN114116280A (en) | Interactive BMC self-recovery method, system, terminal and storage medium | |
EP2590072A1 (en) | System control device, information processing system, and data migration and restoration method for information processing system | |
US11073893B2 (en) | System and method capable of remotely controlling electronic apparatus | |
JP4886558B2 (en) | Information processing device | |
JP4836732B2 (en) | Information processing device | |
JP6599725B2 (en) | Information processing apparatus, log management method, and computer program | |
JP7001236B2 (en) | Information processing equipment, fault monitoring method, and fault monitoring computer program | |
CN111078452A (en) | BMC firmware image recovery method and device | |
TWI808362B (en) | Computer system and method capable of self-monitoring and restoring an operation of operating system | |
JP2003256240A (en) | Information processor and its failure recovering method | |
JP3231561B2 (en) | Backup memory control method | |
JP2760367B2 (en) | Information processing device with micro diagnostic device | |
JP2019016218A (en) | Information processing device, control device, and control method of information processing device | |
JP2004094455A (en) | Computer system | |
TWI486770B (en) | System and method for recovering firmware of a baseboard management controller | |
KR101969393B1 (en) | A cctv recorder watchdog system with 2-step control | |
JP4368689B2 (en) | Power failure control program, power failure control device, and power failure control method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200707 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210528 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210601 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210708 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211124 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211216 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7001236 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |