JP7001236B2 - Information processing equipment, fault monitoring method, and fault monitoring computer program - Google Patents

Information processing equipment, fault monitoring method, and fault monitoring computer program Download PDF

Info

Publication number
JP7001236B2
JP7001236B2 JP2019052459A JP2019052459A JP7001236B2 JP 7001236 B2 JP7001236 B2 JP 7001236B2 JP 2019052459 A JP2019052459 A JP 2019052459A JP 2019052459 A JP2019052459 A JP 2019052459A JP 7001236 B2 JP7001236 B2 JP 7001236B2
Authority
JP
Japan
Prior art keywords
useful information
control circuit
stored
volatile memory
bios
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019052459A
Other languages
Japanese (ja)
Other versions
JP2020154705A (en
Inventor
耕一 末木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Platforms Ltd
Original Assignee
NEC Platforms Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Platforms Ltd filed Critical NEC Platforms Ltd
Priority to JP2019052459A priority Critical patent/JP7001236B2/en
Publication of JP2020154705A publication Critical patent/JP2020154705A/en
Application granted granted Critical
Publication of JP7001236B2 publication Critical patent/JP7001236B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明は、情報処理装置、障害監視方法及び障害監視用コンピュータプログラムに関する。 The present invention relates to an information processing apparatus, a fault monitoring method, and a fault monitoring computer program.

サーバ等の情報処理装置において、オペレーティングシステム(OS)から独立して、ソフトウェア、ハードウェアの監視を行うコントローラとして、ベースボードマネジメントコントローラ(BMC)がある。より具体的には、BMCは情報処理装置の電源制御、温度や電圧の監視機能、システムの動作監視機能などを持つ。さらに、近年の情報処理装置は、リモートコンピュータからのシステムの電源制御、リモートメディア制御、マルチタスク化などの機能も備え、それら機能に対応するためBMCの機能も多様化、複雑化してきている。その結果、BMC自身に異常が生じストールして停止状態となる場合も増えてきた。関連する技術において、BMCがストールした場合、BMCがストールした原因を追求する方法が特許文献1に開示されている。 In an information processing device such as a server, there is a baseboard management controller (BMC) as a controller that monitors software and hardware independently of an operating system (OS). More specifically, the BMC has a power supply control of an information processing device, a temperature and voltage monitoring function, a system operation monitoring function, and the like. Further, recent information processing devices are also provided with functions such as system power control from a remote computer, remote media control, and multitasking, and the functions of BMC are becoming more diverse and complicated in order to support these functions. As a result, there are increasing cases where the BMC itself becomes abnormal and stalls to a stopped state. In a related technique, when the BMC stalls, a method for pursuing the cause of the BMC stall is disclosed in Patent Document 1.

特開2011-014075号公報Japanese Unexamined Patent Publication No. 2011-014075

ところで、BMCにおいて、ソフトウェアトラブルの原因の特定が重要な機能の1つである。しかし、BMCがストール中に、OS(Operating System)やBIOS(Basic Input/Output System)がストールする場合もある。この場合、原因を究明するための情報が取れず、BMCの本来の機能を果たすことができない。そこで本発明は、上述の課題を解決する情報処理装置、障害監視方法及び障害監視用コンピュータプログラムを提供することを目的としている。 By the way, in BMC, identification of the cause of software trouble is one of the important functions. However, the OS (Operating System) or BIOS (Basic Input / Output System) may stall while the BMC is stall. In this case, the information for investigating the cause cannot be obtained, and the original function of BMC cannot be fulfilled. Therefore, an object of the present invention is to provide an information processing apparatus, a fault monitoring method, and a fault monitoring computer program that solve the above-mentioned problems.

本発明の第1の態様によれば、情報処理装置は、オペレーティングシステムあるいはBIOSが停止状態となった際の原因解析に利用される情報である有益情報を記憶する不揮発性メモリと、指示に従って前記不揮発性メモリに前記有益情報を保存または削除する有益情報処理部を備えた制御回路と、前記オペレーティングシステムあるいは前記BIOSの一方または双方に備えられ、所定のタイマ期間毎に前記有益情報を前記制御回路に送信して保存を指示するとともに、電源オフ時の処理の際に、前記有益情報の削除の指示を前記制御回路に対して行う制御回路指示部と、前記オペレーティングシステムから独立して情報処理装置の状態監視を行うコントローラと、を備え、前記コントローラは、該コントローラが起動した際、前記不揮発性メモリに前記有益情報が保存されているかを確認するメモリチェック部と、前記不揮発性メモリに前記有益情報が保存されている場合、保存されている前記有益情報に基づきログを登録するログ処理部と、前記制御回路指示部により前記不揮発性メモリに前記有益情報が保存された後、次の所定のタイマ期間の開始前に保存された前記有益情報の削除がなされるよう前記制御回路に対して指示を行う削除処理部とを備える、ことを特徴とする。 According to the first aspect of the present invention, the information processing apparatus includes a non-volatile memory for storing useful information which is information used for cause analysis when the operating system or the BIOS is stopped, and the above-mentioned according to the instruction. A control circuit provided with a useful information processing unit that stores or deletes the useful information in a non-volatile memory, and one or both of the operating system and the BIOS, and the useful information is stored in the control circuit at predetermined timer periods. A control circuit instruction unit that gives an instruction to delete useful information to the control circuit at the time of processing when the power is turned off, and an information processing device independent of the operating system. The controller comprises a controller for monitoring the status of the above, and the controller has a memory check unit for confirming whether the useful information is stored in the non-volatile memory when the controller is started, and the useful for the non-volatile memory. When the information is saved, after the useful information is saved in the non-volatile memory by the log processing unit that registers the log based on the saved useful information and the control circuit instruction unit, the next predetermined It is characterized by including a deletion processing unit for instructing the control circuit to delete the useful information stored before the start of the timer period.

本発明の第2の態様によれば、障害監視方法は、オペレーティングシステムあるいはBIOSが停止状態となった際の原因解析に利用される情報である有益情報を記憶する不揮発性メモリと、指示に従って、前記不揮発性メモリに前記有益情報を保存または削除する有益情報処理部を備えた制御回路と、前記オペレーティングシステムあるいは前記BIOSの一方または双方に備えられ、所定のタイマ期間毎に前記有益情報を前記制御回路に送信して保存を指示するとともに、電源オフ時の処理の際に、前記有益情報の削除の指示を前記制御回路に対して行う制御回路指示部と、を備えた情報処理装置によって、オペレーティングシステムから独立して前記情報処理装置の状態監視を行い、起動した際、前記不揮発性メモリに前記有益情報が保存されているかを確認し、前記不揮発性メモリに前記有益情報が保存されている場合、保存されている前記有益情報に基づきログを登録し、前記制御回路指示部により前記不揮発性メモリに前記有益情報が保存された後、次の所定のタイマ期間の開始前に保存された前記有益情報の削除がなされるよう前記制御回路に対して指示を行う、ことを特徴とする。 According to the second aspect of the present invention, the fault monitoring method includes a non-volatile memory for storing useful information which is information used for cause analysis when the operating system or the BIOS is stopped, and according to instructions. A control circuit provided with a useful information processing unit that stores or deletes the useful information in the non-volatile memory, and one or both of the operating system and the BIOS are provided to control the useful information at predetermined timer periods. An information processing device provided with a control circuit instruction unit that sends an instruction to the circuit to save the information and gives an instruction to delete the useful information to the control circuit at the time of processing when the power is turned off. The state of the information processing apparatus is monitored independently of the operating system, and when the information processing device is started, it is confirmed whether the useful information is stored in the non-volatile memory, and the useful information is stored in the non-volatile memory. In the case, the log is registered based on the stored useful information, and after the useful information is stored in the non-volatile memory by the control circuit indicator, the stored before the start of the next predetermined timer period. It is characterized in that an instruction is given to the control circuit so that useful information is deleted.

本発明の第3の態様によれば、障害監視用コンピュータプログラムは、オペレーティングシステムあるいはBIOSが停止状態となった際の原因解析に利用される情報である有益情報を記憶する不揮発性メモリと、指示に従って前記不揮発性メモリに前記有益情報を保存または削除する有益情報処理部を備えた制御回路と、前記オペレーティングシステムあるいは前記BIOSの一方または双方に備えられ、所定のタイマ期間毎に前記有益情報を前記制御回路に送信して保存を指示するとともに、電源オフ時の処理の際に、前記有益情報の削除の指示を前記制御回路に対して行う制御回路指示部と、を備えた情報処理装置のための障害監視用コンピュータプログラムであって、オペレーティングシステムから独立して前記情報処理装置の状態監視を行い、起動した際、前記不揮発性メモリに前記有益情報が保存されているかを確認し、前記不揮発性メモリに前記有益情報が保存されている場合、保存されている前記有益情報に基づきログを登録し、前記制御回路指示部により前記不揮発性メモリに前記有益情報が保存された後、次の所定のタイマ期間の開始前に保存された前記有益情報の削除がなされるよう前記制御回路に対して指示を行うことをコンピュータに実行させる、ことを特徴とする。 According to the third aspect of the present invention, the fault monitoring computer program has a non-volatile memory for storing useful information which is information used for cause analysis when the operating system or the BIOS is stopped, and an instruction. A control circuit provided with a useful information processing unit that stores or deletes the useful information in the non-volatile memory according to the above, and one or both of the operating system and the BIOS, and the useful information is stored at a predetermined timer period. For an information processing device provided with a control circuit instruction unit that transmits to a control circuit to instruct storage and also gives an instruction to delete useful information to the control circuit at the time of processing when the power is turned off. This is a computer program for fault monitoring, which monitors the status of the information processing apparatus independently of the operating system, and when it is started, it confirms whether the useful information is stored in the non-volatile memory, and the non-volatile memory is used. When the useful information is stored in the memory, a log is registered based on the stored useful information, and after the useful information is stored in the non-volatile memory by the control circuit indicator, the next predetermined value is specified. It is characterized in that the computer is instructed to instruct the control circuit to delete the useful information stored before the start of the timer period.

これにより、BMCがストール中に情報処理装置のOSやBIOSがストールしても、OSやBIOSのストールの原因を究明するための情報を取得することができる、という効果が得られる。 As a result, even if the OS or BIOS of the information processing apparatus stalls while the BMC stalls, it is possible to obtain information for investigating the cause of the stall of the OS or BIOS.

本発明の一実施形態によるサーバの機能ブロック図である。It is a functional block diagram of the server by one Embodiment of this invention. 本発明の一実施形態によるBMCのハードウェア構成を示す図である。It is a figure which shows the hardware composition of BMC by one Embodiment of this invention. 本発明の一実施形態によるOS、BISOの有益情報に関する処理フローを示す図である。It is a figure which shows the processing flow about useful information of OS, BISO by one Embodiment of this invention. 本発明の一実施形態による制御回路の有益情報に関する処理フローを示す図である。It is a figure which shows the processing flow about useful information of the control circuit by one Embodiment of this invention. 本発明の一実施形態によるBMCの有益情報に関する処理フローを示す図である。It is a figure which shows the processing flow about useful information of BMC by one Embodiment of this invention. 本発明の一実施形態による正常時における各モジュールの動作の一例を示す図である。It is a figure which shows an example of the operation of each module in a normal state by one Embodiment of this invention. 本発明の一実施形態によるBMCのストール時の各モジュールの動作の一例を示す図である。It is a figure which shows an example of the operation of each module at the time of a stall of BMC by one Embodiment of this invention. 本発明の一実施形態によるBMCのストール時にOS/BIOSがストールし、NMIで復活したときの各モジュールの動作の一例を示す図である。It is a figure which shows an example of the operation of each module when OS / BIOS stalls at the time of stall of BMC by one Embodiment of this invention, and is restored by NMI. 本発明の一実施形態によるBMCのストール時にOS/BIOSがストールし、NMIで復活しなかったときの各モジュールの動作の一例を示す図である。It is a figure which shows an example of the operation of each module when OS / BIOS stalls at the time of stall of BMC by one Embodiment of this invention, and does not recover by NMI. 本発明の一実施形態によるBMCの起動時の各モジュールの動作の一例を示す図である。It is a figure which shows an example of the operation of each module at the time of starting BMC by one Embodiment of this invention. 本発明の一実施形態による情報処理装置の最小構成図を示す図である。It is a figure which shows the minimum block diagram of the information processing apparatus by one Embodiment of this invention.

以下、本発明の一実施形態によるサーバについて図面を参照して説明する。図1は本発明の一実施形態によるサーバの機能ブロック図である。図1において、符号1はサーバを示す。符号2は制御回路を、符号3はオペレーティングシステム(OS)を、符号4はBIOS(Basic Input/Output System)を示す。また、符号5はベースボードマネジメントコントローラ(BMC:Baseboard Management Controller)を示す。 Hereinafter, a server according to an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a functional block diagram of a server according to an embodiment of the present invention. In FIG. 1, reference numeral 1 indicates a server. Reference numeral 2 indicates a control circuit, reference numeral 3 indicates an operating system (OS), and reference numeral 4 indicates a BIOS (Basic Input / Output System). Reference numeral 5 indicates a baseboard management controller (BMC).

サーバ1は、制御回路2、OS・3、BIOS・4、BMC・5を備え、これらはI2C(Inter-Integrated Circuit)のようなシリアルバスの通信路11により接続される。また、サーバ1は、制御回路2から図示しないCPU(Central Processing Unit)に対してNMI(Non Maskable Interrupt)を発行するための通信路12をさらに備える。ここで、NMIとは、CPUに対して外部から要求される割り込みの一種で、どのような場合でも強制的に割り込みが行われ、制御命令によりマスク(禁止)できない割り込みを指す。NMIは、サーバ1の機能に深刻な障害発生した場合など、緊急時や特殊な場合に用いられる。本実施の形態において、NMIは、OS・3またはBIOS・4がストールし、操作を受け付けなくフリーズした状態(停止状態)での復活のために用いられるが、NMIの使用の詳細は別途説明する。以下では、情報処理装置の一例として、サーバ1を用いて説明するが、情報処理装置は、パーソナルコンピュータや、その他、CPU、OS、BIOS等を備えた他の電子機器であってもよい。 The server 1 includes a control circuit 2, an OS · 3, a BIOS · 4, and a BMC · 5, which are connected by a communication path 11 of a serial bus such as I2C (Inter-Integrated Circuit). Further, the server 1 further includes a communication path 12 for issuing an NMI (Non Maskable Interrupt) from the control circuit 2 to a CPU (Central Processing Unit) (not shown). Here, NMI is a kind of interrupt requested from the outside to the CPU, and refers to an interrupt that is forcibly interrupted in any case and cannot be masked (prohibited) by a control command. NMI is used in emergencies and special cases such as when a serious failure occurs in the function of the server 1. In the present embodiment, the NMI is used for recovery in a state where the OS 3 or the BIOS 4 is stalled and freezes without accepting an operation (stopped state), but the details of the use of the NMI will be described separately. .. Hereinafter, the server 1 will be used as an example of the information processing apparatus, but the information processing apparatus may be a personal computer or other electronic device including a CPU, an OS, a BIOS, and the like.

制御回路2は、OS・3やBIOS・4がストールした際の解析に有益な情報である有益情報の管理を行う。制御回路2は、有益情報処理部21、復活処理部22、不揮発性メモリ23を備える。また、不揮発性メモリ23は、前述の有益情報24を記憶する。有益情報としては、有益情報を取得した時刻に関するタイムスタンプ、OS・3におけるその時点でのシステム構成/システムログ/カーネル情報、BIOS・4におけるその時点でのタスクコード(Task Code)などである。 The control circuit 2 manages useful information which is useful information for analysis when the OS 3 or the BIOS 4 stalls. The control circuit 2 includes a useful information processing unit 21, a restoration processing unit 22, and a non-volatile memory 23. Further, the non-volatile memory 23 stores the above-mentioned useful information 24. The useful information includes a time stamp related to the time when the useful information was acquired, a system configuration / system log / kernel information at that time in OS / 3, a task code at that time in BIOS-4, and the like.

不揮発性メモリ23は、読み書き可能なメモリで、例えば、フラッシュメモリ等である。
有益情報処理部21は、OS・3、BIOS・4、BMC・5からの指示に応じて、不揮発性メモリ23に有益情報24を保存する処理、または、不揮発性メモリ23から有益情報24を削除する処理を行う。
復活処理部22は、不揮発性メモリ23に記憶された有益情報24が一定期間更新されない場合、OS・3あるいはBIOS・4のストールからの復活のためのマスク不可な割り込み命令をサーバ1のCPUに対して発生する処理を行う。
The non-volatile memory 23 is a readable / writable memory, for example, a flash memory or the like.
The useful information processing unit 21 processes to save the useful information 24 in the non-volatile memory 23 or deletes the useful information 24 from the non-volatile memory 23 in response to instructions from the OS 3, BIOS 4, and BMC 5. Perform the processing.
When the useful information 24 stored in the non-volatile memory 23 is not updated for a certain period of time, the recovery processing unit 22 issues an unmaskable interrupt instruction for recovery from the stall of the OS 3 or BIOS 4 to the CPU of the server 1. Performs the processing that occurs.

OS・3は、サーバ1の基本的な管理や制御のための機能や、多くのソフトウェアが共通して利用する基本的な機能などを実装した、サーバ1全体を管理するソフトウェアである。OS・3は、制御回路指示部31と、タイマ処理部32をデーモンまたはドライバとして備える。 OS 3 is software that manages the entire server 1 by implementing functions for basic management and control of the server 1 and basic functions commonly used by many software. The OS / 3 includes a control circuit instruction unit 31 and a timer processing unit 32 as a daemon or a driver.

制御回路指示部31は、所定のタイマ期間毎に、OS・3に関する有益情報を収集して、収集した有益情報を制御回路2に送信し、保存を指示する処理を行う。さらに、制御回路指示部31は、サーバ1の回路に対する直流電源が切られることによる電源オフ(シャットダウン)のための処理をする際に、不揮発性メモリ23に記憶される有益情報24の削除の指示を制御回路2に対して行う処理をする。 The control circuit instruction unit 31 collects useful information about the OS 3 at predetermined timer periods, transmits the collected useful information to the control circuit 2, and performs a process of instructing storage. Further, the control circuit instruction unit 31 gives an instruction to delete useful information 24 stored in the non-volatile memory 23 when performing a process for powering off (shutdown) due to the DC power being turned off for the circuit of the server 1. Is performed for the control circuit 2.

タイマ処理部32は、定期的に設けられる所定のタイマ期間に対する応答をする処理を行う。ここで、「定期的に設けられる所定のタイマ期間」は、OS・3やBIOS・4が正常に機能しているかどうかを定期的に監視するためのタイマ期間である。WDT(Watch Dog Timer)は、このタイマ期間の間に所定の応答(リセット信号)の有無を監視する。なお、WDTは、所定のタイマ期間に対して、OS・3やBIOS・4から応答がある際、タイマがリセットされる。一方、OS・3やBIOS・4のストールにより所定期間を経過してもOS・3やBIOS・4からの応答がない場合、タイマがリセットされない。このようにWDTは、タイマがリセットされない期間が長いと、OS・3やBIOS・4がストールしているもとの判断するために用いられる。 The timer processing unit 32 performs a process of responding to a predetermined timer period provided periodically. Here, the "predetermined timer period provided periodically" is a timer period for periodically monitoring whether or not the OS 3 and the BIOS 4 are functioning normally. The WDT (Watch Dog Timer) monitors the presence or absence of a predetermined response (reset signal) during this timer period. In WDT, the timer is reset when there is a response from OS 3 or BIOS 4 for a predetermined timer period. On the other hand, if there is no response from OS 3 or BIOS 4 even after the predetermined period has elapsed due to the stall of OS 3 or BIOS 4, the timer is not reset. In this way, the WDT is used to determine that the OS 3 and the BIOS 4 are stalled when the timer is not reset for a long period of time.

BIOS・4は、OS・3の起動や、サーバ1とサーバ1に対する接続機器の入出力を制御するソフトウェアである。BIOS・4は、制御回路指示部41と、タイマ処理部42をソフトウェアモジュールとして備える。制御回路指示部41とタイマ処理部42は、OS・3の制御回路指示部31、タイマ処理部32と同等の機能を備える。 The BIOS 4 is software that controls the startup of the OS 3 and the input / output of the connected devices to the server 1 and the server 1. The BIOS 4 includes a control circuit instruction unit 41 and a timer processing unit 42 as software modules. The control circuit instruction unit 41 and the timer processing unit 42 have the same functions as the control circuit instruction unit 31 and the timer processing unit 32 of the OS 3.

BMC・5は、OS・3から独立してサーバ1のハード面での監視や、システムの動作監視、OS・3やBIOS・4のストールの原因の特定等をするためのものである。本実施の形態では、BMC・5による、OS・3やBIOS・4のストールの原因の特定に関する機能を説明する。BMC・5に関し、IPMI(Intelligent Platform Management Interface)という情報処理装置の基本コンポーネントの監視や遠隔地からの制御などを行うためのインターフェース仕様がある。BMC・5は、IPMIに基づき、WDTを用いてOS・3やBIOS・4がストールした際の原因解析のための有益情報を収集する。BMC・5は、メモリチェック部51、ログ処理部52、削除処理部53を備える。 The BMC 5 is intended to monitor the hardware of the server 1 independently of the OS 3, monitor the operation of the system, identify the cause of the stall of the OS 3 and the BIOS 4, and the like. In this embodiment, the function related to the identification of the cause of the stall of the OS 3 and the BIOS 4 by the BMC 5 will be described. Regarding BMC ・ 5, there is an interface specification called IPMI (Intelligent Platform Management Interface) for monitoring the basic components of information processing devices and controlling them from a remote location. Based on IPMI, BMC ・ 5 collects useful information for cause analysis when OS ・ 3 or BIOS ・ 4 stalls using WDT. The BMC / 5 includes a memory check unit 51, a log processing unit 52, and a deletion processing unit 53.

メモリチェック部51は、起動のためAC電源の投入やサーバ1のリセットで、BMC・5が再起動した際、不揮発性メモリ23に有益情報24が保存されているかを確認する処理を行う。なお、BMC・5が起動した際、不揮発性メモリ23に有益情報24が保存されている場合とは、BMC・5の起動前に、BMC・5がストールし、さらに、OS・3ないしはBIOS・4がストールした状況となる。 The memory check unit 51 performs a process of confirming whether useful information 24 is stored in the non-volatile memory 23 when the BMC 5 is restarted by turning on the AC power for starting or resetting the server 1. When the useful information 24 is stored in the non-volatile memory 23 when the BMC 5 is started, the BMC 5 stalls before the BMC 5 is started, and the OS 3 or the BIOS. 4 is in a stalled situation.

ログ処理部52は、メモリチェック部51の処理により、不揮発性メモリ23に有益情報24が保存されている場合、保存されている有益情報24に関するログを登録する処理を行う。 When the useful information 24 is stored in the non-volatile memory 23 by the process of the memory check unit 51, the log processing unit 52 performs a process of registering a log related to the stored useful information 24.

削除処理部53は、OS・3の制御回路指示部31やBIOS・4の制御回路指示部41により不揮発性メモリ23に有益情報24が保存された後、次の所定のタイマの期間の開始前に保存された有益情報の削除がなされるよう制御回路2に対して指示を行う処理をする。 After the useful information 24 is stored in the non-volatile memory 23 by the control circuit instruction unit 31 of the OS 3 and the control circuit instruction unit 41 of the BIOS 4, the deletion processing unit 53 is before the start of the next predetermined timer period. The control circuit 2 is instructed to delete the useful information stored in the control circuit 2.

図2は本発明の一実施形態によるBMC・5のハードウェア構成を示す図である。BMC・5は、CPU・61、ROM(Read Only Memory)62、RAM(Random Access Memory)63、フラッシュメモリ64、通信モジュール65を備える。
CPU61は、ROM・62またはフラッシュメモリ64等の記録媒体に記憶されるプログラムを実行することで、BMC・5の各機能を実現する。
フラッシュメモリ64には、BMC・5の機能を実現するため必要となる有益情報24やその他のデータ等も記憶する。
FIG. 2 is a diagram showing a hardware configuration of BMC ・ 5 according to an embodiment of the present invention. The BMC ・ 5 includes a CPU 61, a ROM (Read Only Memory) 62, a RAM (Random Access Memory) 63, a flash memory 64, and a communication module 65.
The CPU 61 realizes each function of the BMC 5 by executing a program stored in a recording medium such as the ROM 62 or the flash memory 64.
The flash memory 64 also stores useful information 24 and other data necessary for realizing the functions of the BMC 5.

通信モジュール65は、制御回路2、OS・3、BIOS・4等と通信路11を介した通信が行えるようにする。また、サーバ1の稼動状態に依存せず、基本的なリモート操作ができるようにするための機能も備える。
なお、BMC・5は、これらハードの機能を含んだ、オンボードチップとして提供されるものであってもよい。
The communication module 65 enables communication with the control circuits 2, OS, 3, BIOS, 4 and the like via the communication path 11. It also has a function to enable basic remote operation without depending on the operating state of the server 1.
The BMC / 5 may be provided as an on-board chip including the functions of these hardware.

図3は、本発明の一実施形態によるOS・3、BISO・4の有益情報に関する処理フローを示す図である。OS・3、BISO・4の動作について処理フローを追って説明する。 FIG. 3 is a diagram showing a processing flow regarding useful information of OS · 3 and BISO · 4 according to an embodiment of the present invention. The operation of OS 3 and BISO 4 will be described later with respect to the processing flow.

サーバ1の起動に伴い、OS・3、BISO・4も起動し、ストール時の解析に利用される有益情報に関する処理が開始する。また、OS・3、BISO・4の起動後、OS・3、BISO・4が正常に機能しているかを監視するため、WDTに関連しシステム・タイマが定期的に発せられる。 With the startup of the server 1, OS 3 and BISO 4 also start, and processing related to useful information used for analysis at the time of stall starts. Further, after the OS 3 and BISO 4 are started, the system timer related to the WDT is periodically issued in order to monitor whether the OS 3 and BISO 4 are functioning normally.

OS・3、BISO・4における有益情報に関する処理は同等である。そこで、以下では、OS・3の処理フローについて説明し、BISO・4における有益情報に関する処理フローに関する説明を省略する。 The processing related to useful information in OS 3 and BISO 4 is the same. Therefore, in the following, the processing flow of OS / 3 will be described, and the description of the processing flow of useful information in BISO / 4 will be omitted.

OS・3のタイマ処理部32は、所定のタイマ期間毎に、WDTのタイマリセットのための応答(更新処理)をする(ステップS31)。 The timer processing unit 32 of the OS 3 makes a response (update process) for resetting the WDT timer every predetermined timer period (step S31).

OS・3の制御回路指示部31は、有益情報を収集する(ステップS32)。なお、OS・3における有益情報としては、有益情報を収集した時刻に関するタイムスタンプ、その時点でのシステム構成/システムログ/カーネル情報等となる。なお、BIOS・4における有益情報としては、有益情報を収集した時刻に関するタイムスタンプ、その時点でタスクコード(Task Code)等となる。 The control circuit indicator 31 of the OS 3 collects useful information (step S32). The useful information in OS / 3 includes a time stamp related to the time when the useful information was collected, system configuration / system log / kernel information at that time, and the like. The useful information in BIOS 4 is a time stamp related to the time when the useful information is collected, a task code at that time, and the like.

制御回路指示部31は、収集した有益情報を制御回路2に送信するとともに、制御回路2に対して送信した有益情報の保存を指示する(ステップS33)。 The control circuit instruction unit 31 transmits the collected useful information to the control circuit 2 and instructs the control circuit 2 to save the transmitted useful information (step S33).

制御回路指示部31は、OS・3のストールがない限り、ステップS31からS33の処理をタイマ期間毎に行う。 The control circuit instruction unit 31 performs the processes of steps S31 to S33 for each timer period unless the OS 3 is stalled.

さらに、サーバ1の回路に対する直流電源が切られるDC-OFFの状態への移行がなければ(ステップS34:No)、OS・3のストールがない限り、OS・3は、ステップS31からS33の処理を各タイマ期間に行う。 Further, unless there is a transition to the DC-OFF state in which the DC power supply to the circuit of the server 1 is turned off (step S34: No), the OS 3 processes the steps S31 to S33 unless the OS 3 is stalled. Is performed in each timer period.

サーバ1の回路に対する直流電源が切られるDC-OFFの状態へ移行する場合(ステップS34:Yes)、制御回路指示部31は、不揮発性メモリ23に記憶される有益情報24の削除の指示を制御回路2に対して行う。これにより、OS・3は、ストールすることなく正常終了する場合、不揮発性メモリ23に有益情報24を残すことなく、有益情報に関する処理を終了することができる。 When shifting to the DC-OFF state in which the DC power supply to the circuit of the server 1 is turned off (step S34: Yes), the control circuit instruction unit 31 controls an instruction to delete the useful information 24 stored in the non-volatile memory 23. This is done for circuit 2. As a result, when the OS 3 normally terminates without stalling, the processing related to the useful information can be terminated without leaving the useful information 24 in the non-volatile memory 23.

図4は、本発明の一実施形態による制御回路2の有益情報に関する処理フローを示す図である。図4のフローは、制御回路2の起動により開始する。 FIG. 4 is a diagram showing a processing flow regarding useful information of the control circuit 2 according to the embodiment of the present invention. The flow of FIG. 4 is started by activating the control circuit 2.

制御回路2の有益情報処理部21は、OS・3、BIOS・4からの有益情報の保存の指示があるか判断する(ステップS41)。 The useful information processing unit 21 of the control circuit 2 determines whether there is an instruction to save useful information from the OS 3 and the BIOS 4 (step S41).

保存の指示がある場合(ステップS41:Yes)、有益情報処理部21は、OS・3あるいはBIOS・4から送信された有益情報を、不揮発性メモリ23に保存する(ステップS42)。一方、保存の指示がない場合(ステップS41:No)、有益情報処理部21は処理をステップS43に移す。 When there is an instruction to save (step S41: Yes), the useful information processing unit 21 saves the useful information transmitted from the OS 3 or the BIOS 4 in the non-volatile memory 23 (step S42). On the other hand, when there is no instruction for saving (step S41: No), the useful information processing unit 21 shifts the process to step S43.

有益情報処理部21は、OS・3、BIOS・4、BMC・5からの削除の指示があるか判断する(ステップS43)。 The useful information processing unit 21 determines whether or not there is an instruction to delete from OS / 3, BIOS / 4, BMC / 5 (step S43).

削除の指示がある場合(ステップS43:Yes)、有益情報処理部21は、不揮発性メモリ23に保存される有益情報24を不揮発性メモリ23から削除する(ステップS44)。一方、削除の指示がない場合(ステップS43:No)、有益情報処理部21は処理をステップS45に移す。 When there is an instruction to delete (step S43: Yes), the useful information processing unit 21 deletes the useful information 24 stored in the non-volatile memory 23 from the non-volatile memory 23 (step S44). On the other hand, when there is no instruction for deletion (step S43: No), the useful information processing unit 21 shifts the process to step S45.

制御回路2は、OS・3またはBIOS・4の一方、あるいは、双方がストールしたか判断する(ステップS45)。この判断は、WDTにおいて、タイマが所定のタイマ期間を超えてリセットされていないか否かで判断する。WDTにおいて、タイマが所定のタイマ期間を超えてリセットされていない場合は、OS・3またはBIOS・4の一方、あるいは、双方がストールしたと判断する。 The control circuit 2 determines whether one or both of the OS 3 and the BIOS 4 have stalled (step S45). This determination is made based on whether or not the timer has been reset beyond a predetermined timer period in the WDT. In the WDT, if the timer has not been reset beyond the predetermined timer period, it is determined that one or both of OS 3 and BIOS 4 have stalled.

OS・3やBIOS・4がストールしたと判断した場合(ステップS45:Yes)、制御回路2の復活処理部22は、OS・3やBIOS・4におけるストールからの復活のため、NMIをサーバ1のCPUに対して発行する(ステップS46)。これにより、OS・3やBIOS・4の復活のための処理が行われる。この処理により、OS・3やBIOS・4が復活し、正常に機能し始める場合もある。 When it is determined that the OS 3 or the BIOS 4 has stalled (step S45: Yes), the recovery processing unit 22 of the control circuit 2 sets the NMI to the server 1 in order to recover from the stall in the OS 3 or the BIOS 4. Issuance to the CPU of (step S46). As a result, processing for restoring OS 3 and BIOS 4 is performed. By this process, OS 3 and BIOS 4 may be restored and start to function normally.

BIOS・4の一方、あるいは、双方がストールしていないと判断した場合(ステップS45:No)、制御回路2は、処理をステップS47に移す。BMC・5は、サーバ1の回路に対する直流電源が切られシャットダウンがなされると(ステップS47:Yes)、有益情報に関する処理を終了する。一方、処理が継続する場合(ステップS47:No)、制御回路2は、ステップS41からS47の有益情報に関する処理を繰り返す。 When it is determined that one or both of the BIOS 4 have not stalled (step S45: No), the control circuit 2 shifts the process to step S47. When the DC power supply to the circuit of the server 1 is turned off and the BMC 5 is shut down (step S47: Yes), the BMC 5 ends the process related to useful information. On the other hand, when the processing continues (step S47: No), the control circuit 2 repeats the processing related to the useful information in steps S41 to S47.

図5は、本発明の一実施形態によるBMC・5の有益情報に関する処理フローを示す図である。 FIG. 5 is a diagram showing a processing flow regarding useful information of BMC ・ 5 according to an embodiment of the present invention.

起動のためAC電源の投入やサーバ1のリセットによりBMC・5が起動した際、BMC・5のメモリチェック部51は、不揮発性メモリ23に有益情報24が保存されているかを確認する(ステップS51)。不揮発性メモリ23に有益情報24が保存されていない場合(ステップS51:No)、BMC・5は、処理をステップS54に移す。 When the BMC / 5 is started by turning on the AC power or resetting the server 1 for startup, the memory check unit 51 of the BMC / 5 confirms whether the useful information 24 is stored in the non-volatile memory 23 (step S51). ). When the useful information 24 is not stored in the non-volatile memory 23 (step S51: No), the BMC / 5 shifts the process to step S54.

一方、不揮発性メモリ23に有益情報24が保存されている場合(ステップS51:Yes)、BMC・5の起動前に、BMC・5がストールし、さらに、OS・3/BIOS・4がストールした状況であったことを示す。 On the other hand, when the useful information 24 is stored in the non-volatile memory 23 (step S51: Yes), the BMC 5 stalls and the OS 3 / BIOS 4 stalls before the BMC 5 starts. Show that it was a situation.

この場合、ログ処理部52は、保存されている有益情報24に基づきログを登録する(ステップS52)。この処理により、BMC・5がストールし、さらに、OS・3ないしはBIOS・4がストールした状況であっても、OS・3ないしはBIOS・4におけるストールの原因を解析するための有益情報を取得することができる。 In this case, the log processing unit 52 registers the log based on the stored useful information 24 (step S52). By this process, even if the BMC ・ 5 is stalled and the OS ・ 3 or the BIOS ・ 4 is stalled, useful information for analyzing the cause of the stall in the OS ・ 3 or the BIOS ・ 4 is acquired. be able to.

削除処理部53は、ステップS52の処理の後、有益情報24を不揮発性メモリ23から削除する指示を制御回路2に対して行う(ステップS53)。 After the processing in step S52, the deletion processing unit 53 gives an instruction to the control circuit 2 to delete the useful information 24 from the non-volatile memory 23 (step S53).

削除処理部53は、OS・3やBIOS・4からの所定のタイマの期間に対する応答があるか判断する(ステップS54)。なお、この応答は、前述の通り、OS・3やBIOS・4が正常に機能していることを示すためのWDTのタイマリセットのための処理として行われる通知である。 The deletion processing unit 53 determines whether there is a response to a predetermined timer period from the OS 3 or the BIOS 4 (step S54). As described above, this response is a notification performed as a process for resetting the WDT timer to indicate that the OS 3 and the BIOS 4 are functioning normally.

OS・3やBIOS・4からの所定のタイマ期間に対する応答がある場合(ステップS54:Yes)、削除処理部53は、不揮発性メモリ23に保存される有益情報24を削除するよう制御回路2に対して指示を行う(ステップS55)。この処理により、OS・3やBIOS・4が正常に動作している際、そのタイマ期間における有益情報24を残すことなく、次の所定のタイマ期間の処理に移行できる。 When there is a response to a predetermined timer period from the OS 3 or the BIOS 4 (step S54: Yes), the deletion processing unit 53 tells the control circuit 2 to delete the useful information 24 stored in the non-volatile memory 23. An instruction is given to the user (step S55). By this processing, when the OS 3 and the BIOS 4 are operating normally, it is possible to shift to the processing of the next predetermined timer period without leaving the useful information 24 in the timer period.

一方、OS・3やBIOS・4からの所定のタイマ期間に対する応答がない場合(ステップS54:No)、OS・3あるいはBIOS・4の一方、または、双方にストールが生じている可能性がある。そこで、削除処理部53は、保存された有益情報24を用いた解析が行えるように、有益情報24を削除することなく、ステップS56に移行する。 On the other hand, if there is no response to the predetermined timer period from OS 3 or BIOS 4 (step S54: No), there is a possibility that one or both of OS 3 or BIOS 4 has stalled. .. Therefore, the deletion processing unit 53 proceeds to step S56 without deleting the useful information 24 so that the analysis using the stored useful information 24 can be performed.

サーバ1の回路に対する直流電源が切られてシャットダウンされると(ステップS56:Yes)、BMC・5は、有益情報に関する処理を終了する。一方、処理が継続する場合(ステップS56:No)、BMC・5は、ステップS54からS56の処理を繰り返す。 When the DC power supply to the circuit of the server 1 is turned off and shut down (step S56: Yes), the BMC ・ 5 ends the process related to useful information. On the other hand, when the processing continues (step S56: No), BMC ・ 5 repeats the processing of steps S54 to S56.

図6は、本発明の一実施形態による正常時における各モジュールの動作の一例を示す図である。
図6において、所定のタイマ期間は“00:01”であり、時刻“09:00”から処理が開始している例を示している。図6に示すように、OS・3の制御回路指示部31やBIOS・4の制御回路指示部41が、所定のタイマ期間“00:01”毎に、有益情報の保存を制御回路2に対して指示する。その結果、制御回路2の有益情報処理部21は、受け取った有益情報を不揮発性メモリ23に保存する。
FIG. 6 is a diagram showing an example of the operation of each module in a normal state according to the embodiment of the present invention.
FIG. 6 shows an example in which the predetermined timer period is “00:01” and the processing is started from the time “09: 00”. As shown in FIG. 6, the control circuit instruction unit 31 of the OS 3 and the control circuit instruction unit 41 of the BIOS 4 save useful information to the control circuit 2 every predetermined timer period “00:01”. To instruct. As a result, the useful information processing unit 21 of the control circuit 2 stores the received useful information in the non-volatile memory 23.

また、OS・3のタイマ処理部32やBIOS・4のタイマ処理部42は、WDTのリセットのための応答を行う。これに対応して、BMC・5の削除処理部53は、不揮発性メモリ23に保存される有益情報24の削除を制御回路2に対して指示する。 Further, the timer processing unit 32 of the OS 3 and the timer processing unit 42 of the BIOS 4 respond to reset the WDT. Correspondingly, the deletion processing unit 53 of the BMC ・ 5 instructs the control circuit 2 to delete the useful information 24 stored in the non-volatile memory 23.

サーバ1の回路に対する直流電源が切られて電源オフ(DC-OFF)に移行する際、OS・3の制御回路指示部31やBIOS・4の制御回路指示部41は、保存される有益情報24の削除を制御回路2に対して指示する。 When the DC power supply to the circuit of the server 1 is turned off and the power is turned off (DC-OFF), the control circuit indicator 31 of the OS 3 and the control circuit indicator 41 of the BIOS 4 are stored useful information 24. Is instructed to the control circuit 2 to delete.

このように、OS・3、BIOS・4、BMC・5が正常に動作している際、OS・3やBIOS・4は、WDTの更新時に制御回路2の不揮発性メモリ23に有益情報24を設定するが、BMC・5の処理の処理により有益情報24が直ぐに削除される。また、DC-OFF時に、OS・3の制御回路指示部31やBIOS・4の制御回路指示部41は、保存される有益情報24の削除を制御回路2に対して指示する。 As described above, when the OS 3, BIOS 4, and BMC 5 are operating normally, the OS 3 and the BIOS 4 provide useful information 24 to the non-volatile memory 23 of the control circuit 2 when the WDT is updated. Although it is set, the useful information 24 is immediately deleted by the processing of the BMC ・ 5. Further, at the time of DC-OFF, the control circuit instruction unit 31 of the OS 3 and the control circuit instruction unit 41 of the BIOS 4 instruct the control circuit 2 to delete the stored useful information 24.

よって、OS・3、BIOS・4、BMC・5が正常に動作し、処理を終了した際、不揮発性メモリに有益情報は残らない。 Therefore, when OS / 3, BIOS / 4, BMC / 5 operate normally and the processing is completed, no useful information remains in the non-volatile memory.

図7は、本発明の一実施形態によるBMC・5のストール時の各モジュールの動作の一例を示す図である。図7の例では、時刻“10:00”におけるBMC・5による有益情報24の削除の後、符号71に示すタイミングで、BMC・5がストールした例を示す。 FIG. 7 is a diagram showing an example of the operation of each module when the BMC ・ 5 is stalled according to the embodiment of the present invention. The example of FIG. 7 shows an example in which the BMC 5 stalls at the timing indicated by the reference numeral 71 after the useful information 24 is deleted by the BMC 5 at the time “10:00”.

図7の例では、OS・3、BIOS・4は正常に動作し、最後にサーバ1の回路に対する直流電源が切られて電源オフとなる(DC-OFF)。この場合、OS・3の制御回路指示部31やBIOS・4の制御回路指示部41は、保存される有益情報24の削除を制御回路2に対して指示する。よって、BMC・5がストールしても、OS・3やBIOS・4が正常に動作していれば、DC-OFF時にOS・3やBIOS・4が不揮発性メモリ23内の有益情報24の削除の処理をするので、DC-OFF時に不揮発性メモリ23に有益情報は残らない。 In the example of FIG. 7, OS 3 and BIOS 4 operate normally, and finally the DC power supply to the circuit of the server 1 is turned off and the power is turned off (DC-OFF). In this case, the control circuit instruction unit 31 of the OS 3 and the control circuit instruction unit 41 of the BIOS 4 instruct the control circuit 2 to delete the stored useful information 24. Therefore, even if the BMC 5 is stalled, if the OS 3 and the BIOS 4 are operating normally, the OS 3 and the BIOS 4 delete the useful information 24 in the non-volatile memory 23 at the time of DC-OFF. Therefore, no useful information remains in the non-volatile memory 23 at the time of DC-OFF.

図8は、本発明の一実施形態によるBMC・5のストール時にOS・3/BIOS・4がストールし、NMIで復活したときの各モジュールの動作の一例を示す図である。図8の例では、時刻“11:00”におけるBMC・5による有益情報24の削除の後、符号81に示すタイミングで、BMC・5がストールする。さらに、時刻“11:02”において、この時刻の有益情報の保存の後、符号82で示すタイミングでOS・3/BIOS・4がストールする。 FIG. 8 is a diagram showing an example of the operation of each module when the OS / 3 / BIOS / 4 stalls when the BMC / 5 is stalled according to the embodiment of the present invention and is restored by NMI. In the example of FIG. 8, after the useful information 24 is deleted by the BMC 5 at the time “11:00”, the BMC 5 stalls at the timing indicated by the reference numeral 81. Further, at the time "11:02", after saving the useful information at this time, the OS 3 / BIOS 4 stalls at the timing indicated by the reference numeral 82.

この場合、次の所定のタイマ期間“11:03”が開始するまでに、制御回路2の復活処理部22は、OS・3/BIOS・4によるWDTの更新のための通知を確認できない。そのため、復活処理部22は、符号83で示すタイミングで、OS・3/BIOS・4の復活のためNMIを発行する。図8の例では、符号84で示すタイミングで、NMIによる復活処理で、OS・3/BIOS・4が復活する例を示している。 In this case, the recovery processing unit 22 of the control circuit 2 cannot confirm the notification for updating the WDT by the OS / 3 / BIOS / 4 by the time when the next predetermined timer period "11:03" starts. Therefore, the restoration processing unit 22 issues an NMI for restoration of the OS / 3 / BIOS / 4 at the timing indicated by the reference numeral 83. The example of FIG. 8 shows an example in which OS 3 / BIOS 4 is restored by the restoration process by NMI at the timing indicated by reference numeral 84.

OS・3、BIOS・4は、符号84に示すタイミングでの復活の後、正常に動作する。サーバ1の回路に対する直流電源が切られて電源オフに移行する際(DC-OFF)、OS・3の制御回路指示部31やBIOS・4の制御回路指示部41は、保存される有益情報24の削除を制御回路2に対して指示する。よって、BMC・5がストールしても、OS・3やBIOS・4が正常であれば、DC-OFF時にOS・3やBIOS・4が不揮発性メモリ23に保存される有益情報24の削除の処理をするので、DC-OFF時に不揮発性メモリ23に有益情報24は残らない。なお、NMIにより、OS・3やBIOS・4が復活すれば、OS・3やBIOS・4自身が持つ機能でストールの原因解析のための必要なログを保存することができる。 OS 3 and BIOS 4 operate normally after being restored at the timing indicated by reference numeral 84. When the DC power supply to the circuit of the server 1 is turned off and the power is turned off (DC-OFF), the control circuit indicator 31 of the OS 3 and the control circuit indicator 41 of the BIOS 4 are stored useful information 24. Is instructed to the control circuit 2 to delete. Therefore, even if the BMC 5 is stalled, if the OS 3 and the BIOS 4 are normal, the useful information 24 stored in the non-volatile memory 23 by the OS 3 and the BIOS 4 at the time of DC-OFF is deleted. Since the processing is performed, the useful information 24 does not remain in the non-volatile memory 23 at the time of DC-OFF. If OS 3 and BIOS 4 are restored by NMI, the necessary logs for analyzing the cause of the stall can be saved by the function of OS 3 and BIOS 4 itself.

図9は、本発明の一実施形態によるBMC・5のストール時にOS・3/BIOS・4がストールし、NMIで復活しなかったときの各モジュールの動作の一例を示す図である。図9の例では、時刻“12:00”におけるBMC・5による有益情報24の削除の後、符号91に示すタイミングで、BMC・5がストールする。さらに、時刻“12:02”において、この時刻の有益情報の保存の後、符号92で示すタイミングでOS・3/BIOS・4がストールする。 FIG. 9 is a diagram showing an example of the operation of each module when the OS / 3 / BIOS / 4 stalls when the BMC / 5 is stalled according to the embodiment of the present invention and is not restored by the NMI. In the example of FIG. 9, after the useful information 24 is deleted by the BMC 5 at the time “12:00”, the BMC 5 stalls at the timing indicated by the reference numeral 91. Further, at the time "12:02", after saving the useful information at this time, the OS 3 / BIOS 4 stalls at the timing indicated by the reference numeral 92.

この場合、次の所定のタイマ期間“12:03”が開始するまでに、制御回路2の復活処理部22は、OS・3/BIOS・4からWDTの更新のための通知を確認できない。そのため、復活処理部22は、符号93で示すタイミングで、OS・3/BIOS・4の復活のためNMIを発行する。図9の例では、符号93で示すタイミングのNMIによる復活ができない状況を示している。そのため、図9に示すように、BMC・5がストールしたときに、OS・3やBIOS・4がストールした場合、NMIでOS・3やBIOS・4が復活しなければ、不揮発性メモリ23にはOS・3/BIOS・4のストール直前の有益情報24が不揮発性メモリ23に保存されている。 In this case, the recovery processing unit 22 of the control circuit 2 cannot confirm the notification for updating the WDT from the OS 3 / BIOS 4 by the time the next predetermined timer period “12:03” starts. Therefore, the restoration processing unit 22 issues an NMI for restoration of the OS / 3 / BIOS / 4 at the timing indicated by the reference numeral 93. The example of FIG. 9 shows a situation in which the timing indicated by reference numeral 93 cannot be restored by NMI. Therefore, as shown in FIG. 9, when the OS 3 or the BIOS 4 stalls when the BMC 5 stalls, if the OS 3 or the BIOS 4 is not restored by the NMI, the non-volatile memory 23 is used. The useful information 24 immediately before the stall of the OS 3 / BIOS 4 is stored in the non-volatile memory 23.

図10は、本発明の一実施形態によるBMC・5の起動時の各モジュールの動作の一例を示す図である。図10は、図9に示す状態の後における、サーバ1の再起動時の例を示す。BMC・5のメモリチェック部51は、起動後に不揮発性メモリ23をチェックすると、有益情報24が保存されていることを確認する。BMC・5のログ処理部52は、保存されている有益情報24を、ログとして登録する。 FIG. 10 is a diagram showing an example of the operation of each module at the time of starting BMC ・ 5 according to the embodiment of the present invention. FIG. 10 shows an example when the server 1 is restarted after the state shown in FIG. When the memory check unit 51 of the BMC ・ 5 checks the non-volatile memory 23 after startup, it confirms that the useful information 24 is stored. The log processing unit 52 of the BMC ・ 5 registers the stored useful information 24 as a log.

これにより、BMC・5がストールして、OS・3やBIOS・4と通信できない時に、OS・3やBIOS・4がストールし復活できない場合でも、OS・3やBIOS・4がストールした直前の情報を取得することができる。しがって、このような場合でも、OS・3やBIOS・4のストールの原因究明を進めることができる。 As a result, even if the OS 3 or BIOS 4 stalls and cannot be restored when the BMC 5 stalls and cannot communicate with the OS 3 or BIOS 4, just before the OS 3 or BIOS stalls. Information can be obtained. Therefore, even in such a case, it is possible to proceed with the investigation of the cause of the stall of OS 3 and BIOS 4.

なお、OS・3あるいはBIOS・4はそれぞれ、制御回路指示部31、41、タイマ処理部32,42を備えるものとして説明した。これに限定されるものではなく、OS・3またはBIOS・4の一方のストールの原因の解析のみでよい場合、OS・3あるいはBIOS・4のどちらか一方が、制御回路指示部、タイマ処理部を備えるようにしてもよい。 It should be noted that the OS 3 and the BIOS 4 have been described as having the control circuit instruction units 31 and 41 and the timer processing units 32 and 42, respectively. Not limited to this, when only the analysis of the cause of the stall of either OS 3 or BIOS 4 is sufficient, either OS 3 or BIOS 4 is the control circuit indicator unit or timer processing unit. May be provided.

制御回路2が不揮発性メモリ23を備えるものとして説明した。制御回路2が直接、不揮発性メモリ23に対する有益情報24の保存、削除をできる構成であれば、制御回路2が不揮発性メモリ23を内部に備えなくてもよい。 It has been described that the control circuit 2 includes the non-volatile memory 23. If the control circuit 2 can directly store and delete useful information 24 for the non-volatile memory 23, the control circuit 2 does not have to include the non-volatile memory 23 inside.

図11は、本発明の一実施形態による情報処理装置であるサーバ1の最小構成図を示す図である。サーバ1は、制御回路2と、OS・3と、BIOS・4と、コントローラであるBMC・5とを備える。 FIG. 11 is a diagram showing a minimum configuration diagram of a server 1 which is an information processing apparatus according to an embodiment of the present invention. The server 1 includes a control circuit 2, an OS 3, a BIOS 4, and a controller BMC 5.

サーバ1は、OS・3あるいはBIOS・4が停止状態となった際の原因解析に利用される情報である有益情報を記憶する不揮発性メモリ23を備える。
制御回路2は、指示に従って、不揮発性メモリ23に有益情報24を保存または削除する有益情報処理部21を備える。
The server 1 includes a non-volatile memory 23 that stores useful information that is information used for cause analysis when the OS 3 or the BIOS 4 is stopped.
The control circuit 2 includes a useful information processing unit 21 that stores or deletes useful information 24 in the non-volatile memory 23 according to instructions.

OS・3あるいはBIOS・4の一方または双方は、所定のタイマ期間毎に有益情報を制御回路2に送信して保存を指示するとともに、電源オフ時の処理の際に、有益情報24の削除の指示を制御回路2に対して行う制御回路指示部31、41を備える。 One or both of OS 3 or BIOS 4 sends useful information to the control circuit 2 at predetermined timer periods to instruct the control circuit 2 to save the information, and deletes the useful information 24 at the time of processing when the power is turned off. A control circuit instruction unit 31 or 41 that gives an instruction to the control circuit 2 is provided.

BMC・5は、OS・3から独立してサーバ1の状態監視を行い、BMC・5が起動した際、不揮発性メモリ23に有益情報24が保存されているかを確認するメモリチェック部51と、不揮発性メモリ23に有益情報24が保存されている場合、保存されている有益情報24に基づきログを登録するログ処理部52と、制御回路指示部31、41により不揮発性メモリ23に有益情報24が保存された後、次の所定のタイマ期間の開始前に保存された有益情報24の削除がなされるよう制御回路2に対して指示を行う削除処理部53とを備える。 The BMC / 5 monitors the status of the server 1 independently of the OS / 3, and when the BMC / 5 is started, the memory check unit 51 for confirming whether the useful information 24 is stored in the non-volatile memory 23, and the memory check unit 51. When the useful information 24 is stored in the non-volatile memory 23, the log processing unit 52 that registers the log based on the stored useful information 24 and the control circuit instruction units 31 and 41 make the useful information 24 in the non-volatile memory 23. It is provided with a deletion processing unit 53 that gives an instruction to the control circuit 2 so that the useful information 24 stored before the start of the next predetermined timer period is deleted after the storage is performed.

1・・・サーバ
2・・・制御回路
3・・・OS
4・・・BIOS
5・・・BMC
21・・・有益情報処理部
22・・・復活処理部
23・・・不揮発性メモリ
24・・・有益情報
31・・・制御回路指示部
32・・・タイマ処理部
41・・・制御回路指示部
42・・・タイマ処理部
51・・・メモリチェック部
52・・・ログ処理部
53・・・削除処理部
1 ... Server 2 ... Control circuit 3 ... OS
4 ... BIOS
5 ... BMC
21 ... Useful information processing unit 22 ... Recovery processing unit 23 ... Non-volatile memory 24 ... Useful information 31 ... Control circuit instruction unit 32 ... Timer processing unit 41 ... Control circuit instruction Unit 42 ... Timer processing unit 51 ... Memory check unit 52 ... Log processing unit 53 ... Delete processing unit

Claims (6)

オペレーティングシステムあるいはBIOSが停止状態となった際の原因解析に利用される情報である有益情報を記憶する不揮発性メモリと、
指示に従って、前記不揮発性メモリに前記有益情報を保存または削除する有益情報処理部を備えた制御回路と、
前記オペレーティングシステムあるいは前記BIOSの一方または双方に備えられ、所定のタイマ期間毎に前記有益情報を前記制御回路に送信して保存を指示するとともに、電源オフ時の処理の際に、前記有益情報の削除の指示を前記制御回路に対して行う制御回路指示部と、
前記オペレーティングシステムから独立して情報処理装置の状態監視を行うコントローラと、
を備え、
前記コントローラは、
該コントローラが起動した際、前記不揮発性メモリに前記有益情報が保存されているかを確認するメモリチェック部と、
前記不揮発性メモリに前記有益情報が保存されている場合、保存されている前記有益情報に基づきログを登録するログ処理部と、
前記制御回路指示部により前記不揮発性メモリに前記有益情報が保存された後、次の所定のタイマ期間の開始前に保存された前記有益情報の削除がなされるよう前記制御回路に対して指示を行う削除処理部と
を備える情報処理装置。
Non-volatile memory that stores useful information that is used for cause analysis when the operating system or BIOS is stopped.
A control circuit including a useful information processing unit that stores or deletes the useful information in the non-volatile memory according to an instruction.
The useful information is provided in one or both of the operating system and the BIOS, and the useful information is transmitted to the control circuit at predetermined timer periods to instruct the control circuit to store the useful information, and when the power is turned off, the useful information is transmitted to the control circuit. A control circuit instruction unit that gives an instruction to delete the control circuit,
A controller that monitors the status of the information processing device independently of the operating system,
Equipped with
The controller
When the controller is started, a memory check unit for confirming whether the useful information is stored in the non-volatile memory, and a memory check unit.
When the useful information is stored in the non-volatile memory, a log processing unit that registers a log based on the stored useful information and a log processing unit.
After the useful information is stored in the non-volatile memory by the control circuit instruction unit, the control circuit is instructed to delete the stored useful information before the start of the next predetermined timer period. An information processing device equipped with a deletion processing unit to perform.
前記制御回路は、
前記不揮発性メモリに記憶された前記有益情報が一定期間更新されない場合、前記オペレーティングシステムあるいは前記BIOSの停止状態からの復活のためのマスク不可な割り込み命令を前記情報処理装置の中央処理装置に対して発生する復活処理部
を備える、請求項1に記載の情報処理装置。
The control circuit is
When the useful information stored in the non-volatile memory is not updated for a certain period of time, an unmaskable interrupt instruction for recovering from the stopped state of the operating system or the BIOS is sent to the central processing unit of the information processing unit. The information processing apparatus according to claim 1, further comprising a generation recovery processing unit.
記オペレーティングシステムあるいは前記BIOSの一方または双方は、前記所定のタイマ期間に応答を行うタイマ処理部、をさらに備え、
前記コントローラの削除処理部は、前記タイマ処理部からの応答に対応して、前記次の所定のタイマ期間の開始前に保存された前記有益情報の削除を行う
請求項1または請求項2に記載の情報処理装置。
The operating system or one or both of the BIOS further comprises a timer processing unit that responds during the predetermined timer period.
The deletion processing unit of the controller according to claim 1 or 2, wherein the deletion processing unit of the controller deletes the useful information stored before the start of the next predetermined timer period in response to the response from the timer processing unit. Information processing device.
前記コントローラの前記削除処理部は、前記ログ処理部による前記ログの登録の後、前記不揮発性メモリに保存された前記有益情報の削除の指示を前記制御回路に対して行う処理をさらに行う、
請求項1から請求項3のいずれか一項に記載の情報処理装置。
After the log is registered by the log processing unit, the deletion processing unit of the controller further performs a process of instructing the control circuit to delete the useful information stored in the non-volatile memory.
The information processing apparatus according to any one of claims 1 to 3.
オペレーティングシステムあるいはBIOSが停止状態となった際の原因解析に利用される情報である有益情報を記憶する不揮発性メモリと、
指示に従って、前記不揮発性メモリに前記有益情報を保存または削除する有益情報処理部を備えた制御回路と、
前記オペレーティングシステムあるいは前記BIOSの一方または双方に備えられ、所定のタイマ期間毎に前記有益情報を前記制御回路に送信して保存を指示するとともに、電源オフ時の処理の際に、前記有益情報の削除の指示を前記制御回路に対して行う制御回路指示部と、を備えた情報処理装置によって
オペレーティングシステムから独立して前記情報処理装置の状態監視を行い、
起動した際、前記不揮発性メモリに前記有益情報が保存されているかを確認し、
前記不揮発性メモリに前記有益情報が保存されている場合、保存されている前記有益情報に基づきログを登録し、
前記制御回路指示部により前記不揮発性メモリに前記有益情報が保存された後、次の所定のタイマ期間の開始前に保存された前記有益情報の削除がなされるよう前記制御回路に対して指示を行う
障害監視方法。
Non-volatile memory that stores useful information that is used for cause analysis when the operating system or BIOS is stopped.
A control circuit including a useful information processing unit that stores or deletes the useful information in the non-volatile memory according to an instruction.
The useful information is provided in one or both of the operating system and the BIOS, and the useful information is transmitted to the control circuit at predetermined timer periods to instruct the control circuit to store the useful information, and when the power is turned off, the useful information is transmitted to the control circuit. By an information processing device provided with a control circuit instruction unit that gives a deletion instruction to the control circuit.
The status of the information processing device is monitored independently of the operating system.
At startup, check if the useful information is stored in the non-volatile memory,
When the useful information is stored in the non-volatile memory, a log is registered based on the stored useful information.
After the useful information is stored in the non-volatile memory by the control circuit instruction unit, the control circuit is instructed to delete the stored useful information before the start of the next predetermined timer period. Failure monitoring method to be performed.
オペレーティングシステムあるいはBIOSが停止状態となった際の原因解析に利用される情報である有益情報を記憶する不揮発性メモリと、
指示に従って、前記不揮発性メモリに前記有益情報を保存または削除する有益情報処理部を備えた制御回路と、
前記オペレーティングシステムあるいは前記BIOSの一方または双方に備えられ、所定のタイマ期間毎に前記有益情報を前記制御回路に送信して保存を指示するとともに、電源オフ時の処理の際に、前記有益情報の削除の指示を前記制御回路に対して行う制御回路指示部と、を備えた情報処理装置のための障害監視用コンピュータプログラムであって、
オペレーティングシステムから独立して前記情報処理装置の状態監視を行い、
起動した際、前記不揮発性メモリに前記有益情報が保存されているかを確認し、
前記不揮発性メモリに前記有益情報が保存されている場合、保存されている前記有益情報に基づきログを登録し、
前記制御回路指示部により前記不揮発性メモリに前記有益情報が保存された後、次の所定のタイマ期間の開始前に保存された前記有益情報の削除がなされるよう前記制御回路に対して指示を行う
ことをコンピュータに実行させる、障害監視用コンピュータプログラム。
Non-volatile memory that stores useful information that is used for cause analysis when the operating system or BIOS is stopped.
A control circuit including a useful information processing unit that stores or deletes the useful information in the non-volatile memory according to an instruction.
The useful information is provided in one or both of the operating system and the BIOS, and the useful information is transmitted to the control circuit at predetermined timer periods to instruct the control circuit to be stored, and when the power is turned off, the useful information is transmitted. A fault monitoring computer program for an information processing apparatus including a control circuit instruction unit that gives a deletion instruction to the control circuit.
The status of the information processing device is monitored independently of the operating system.
At startup, check if the useful information is stored in the non-volatile memory,
When the useful information is stored in the non-volatile memory, a log is registered based on the stored useful information.
After the useful information is stored in the non-volatile memory by the control circuit instruction unit, the control circuit is instructed to delete the stored useful information before the start of the next predetermined timer period. A fault monitoring computer program that lets a computer do what it does.
JP2019052459A 2019-03-20 2019-03-20 Information processing equipment, fault monitoring method, and fault monitoring computer program Active JP7001236B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019052459A JP7001236B2 (en) 2019-03-20 2019-03-20 Information processing equipment, fault monitoring method, and fault monitoring computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019052459A JP7001236B2 (en) 2019-03-20 2019-03-20 Information processing equipment, fault monitoring method, and fault monitoring computer program

Publications (2)

Publication Number Publication Date
JP2020154705A JP2020154705A (en) 2020-09-24
JP7001236B2 true JP7001236B2 (en) 2022-01-19

Family

ID=72559171

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019052459A Active JP7001236B2 (en) 2019-03-20 2019-03-20 Information processing equipment, fault monitoring method, and fault monitoring computer program

Country Status (1)

Country Link
JP (1) JP7001236B2 (en)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001101032A (en) 1999-09-29 2001-04-13 Hitachi Ltd Os monitoring system under inter-different kind of os control
JP2002251300A (en) 2001-02-22 2002-09-06 Hitachi Ltd Fault monitoring method and device
JP2004302731A (en) 2003-03-31 2004-10-28 Toshiba Corp Information processor and method for trouble diagnosis
JP2011210064A (en) 2010-03-30 2011-10-20 Nec Corp Log information collection system, device, method and program
JP2012078948A (en) 2010-09-30 2012-04-19 Fujitsu Ltd Termination-log acquiring program, termination-log acquiring device and termination-log acquiring method
US20140068350A1 (en) 2012-08-29 2014-03-06 Hon Hai Precision Industry Co., Ltd. Self-checking system and method using same
JP2015049552A (en) 2013-08-30 2015-03-16 日本電気株式会社 Information processing device, log processing method, and program
JP2015130023A (en) 2014-01-07 2015-07-16 Necプラットフォームズ株式会社 Information recording device, information processor, information recording method and information recording program
JP2017078998A (en) 2015-10-21 2017-04-27 Necプラットフォームズ株式会社 Information processor, log management method, and computer program

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001101032A (en) 1999-09-29 2001-04-13 Hitachi Ltd Os monitoring system under inter-different kind of os control
JP2002251300A (en) 2001-02-22 2002-09-06 Hitachi Ltd Fault monitoring method and device
JP2004302731A (en) 2003-03-31 2004-10-28 Toshiba Corp Information processor and method for trouble diagnosis
JP2011210064A (en) 2010-03-30 2011-10-20 Nec Corp Log information collection system, device, method and program
JP2012078948A (en) 2010-09-30 2012-04-19 Fujitsu Ltd Termination-log acquiring program, termination-log acquiring device and termination-log acquiring method
US20140068350A1 (en) 2012-08-29 2014-03-06 Hon Hai Precision Industry Co., Ltd. Self-checking system and method using same
JP2015049552A (en) 2013-08-30 2015-03-16 日本電気株式会社 Information processing device, log processing method, and program
JP2015130023A (en) 2014-01-07 2015-07-16 Necプラットフォームズ株式会社 Information recording device, information processor, information recording method and information recording program
JP2017078998A (en) 2015-10-21 2017-04-27 Necプラットフォームズ株式会社 Information processor, log management method, and computer program

Also Published As

Publication number Publication date
JP2020154705A (en) 2020-09-24

Similar Documents

Publication Publication Date Title
WO2018095107A1 (en) Bios program abnormal processing method and apparatus
US20100082957A1 (en) Information processing device
CN111045866B (en) BMC fault processing method and device, electronic equipment and storage medium
US8677177B2 (en) Apparatus, a recovery method and a program thereof
JP2012069032A (en) Information processor
JP6130520B2 (en) MULTISYSTEM SYSTEM AND MULTISYSTEM SYSTEM MANAGEMENT METHOD
TW200426571A (en) Policy-based response to system errors occurring during os runtime
TWI723477B (en) Electronic apparatus, system and method capable of remotely maintaining the operation of electronic apparatus
CN114116280A (en) Interactive BMC self-recovery method, system, terminal and storage medium
EP2590072A1 (en) System control device, information processing system, and data migration and restoration method for information processing system
US11073893B2 (en) System and method capable of remotely controlling electronic apparatus
JP4886558B2 (en) Information processing device
JP4836732B2 (en) Information processing device
JP6599725B2 (en) Information processing apparatus, log management method, and computer program
JP7001236B2 (en) Information processing equipment, fault monitoring method, and fault monitoring computer program
CN111078452A (en) BMC firmware image recovery method and device
TWI808362B (en) Computer system and method capable of self-monitoring and restoring an operation of operating system
JP2003256240A (en) Information processor and its failure recovering method
JP3231561B2 (en) Backup memory control method
JP2760367B2 (en) Information processing device with micro diagnostic device
JP2019016218A (en) Information processing device, control device, and control method of information processing device
JP2004094455A (en) Computer system
TWI486770B (en) System and method for recovering firmware of a baseboard management controller
KR101969393B1 (en) A cctv recorder watchdog system with 2-step control
JP4368689B2 (en) Power failure control program, power failure control device, and power failure control method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200707

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210601

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211216

R150 Certificate of patent or registration of utility model

Ref document number: 7001236

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150