JP2017207903A - Processor, method and program - Google Patents
Processor, method and program Download PDFInfo
- Publication number
- JP2017207903A JP2017207903A JP2016099624A JP2016099624A JP2017207903A JP 2017207903 A JP2017207903 A JP 2017207903A JP 2016099624 A JP2016099624 A JP 2016099624A JP 2016099624 A JP2016099624 A JP 2016099624A JP 2017207903 A JP2017207903 A JP 2017207903A
- Authority
- JP
- Japan
- Prior art keywords
- failure
- unit
- main processing
- information
- occurrence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
Description
本発明は、処理装置、方法及びプログラムに関するものであり、特に、障害を解析するための情報を出力する監視制御部を含む処理装置、方法及びプログラムに関する。 The present invention relates to a processing apparatus, method, and program, and more particularly, to a processing apparatus, method, and program that include a monitoring control unit that outputs information for analyzing a failure.
サーバなどの処理装置では、信頼性の向上や可用性の向上を目的として、CPU(Central Processing Unit)を有するメイン処理系の動作を、別のCPUを有する監視制御系により監視するのが一般的である。すなわち、処理装置のメイン処理系で障害が発生した場合、処理装置の監視制御系で対応する。例えば、処理装置のメイン処理系においてデッドロックなどの障害が発生した場合、処理装置の監視制御系でこのデッドロックを検出して対処する。しかしながら、メイン処理系においてデッドロックが発生した場合、監視制御系はデッドロックが発生したことは認識できるが、メイン処理系の詳細な状態がわからずに、メイン処理系の障害の解析に支障をきたすという問題があった。 In a processing device such as a server, it is common to monitor the operation of a main processing system having a CPU (Central Processing Unit) by a monitoring control system having another CPU for the purpose of improving reliability and improving availability. is there. That is, when a failure occurs in the main processing system of the processing apparatus, the monitoring control system of the processing apparatus handles it. For example, when a failure such as a deadlock occurs in the main processing system of the processing apparatus, the deadlock is detected and dealt with by the monitoring control system of the processing apparatus. However, if a deadlock occurs in the main processing system, the supervisory control system can recognize that the deadlock has occurred, but it does not know the detailed state of the main processing system, and this may hinder the analysis of the main processing system failure. There was a problem of coming.
処理装置の障害検出に関する技術は、種々提案されている。その一つが特許文献1に開示されている。特許文献1には、内部にウォッチドッグタイマーを備えた情報処理装置において障害が発生した場合、このウォッチドッグタイマーを使用して障害が発生したことを認識することが開示されている。すなわち、情報処理装置において発生した障害を、内部のウォッチドッグタイマーのタイムアウト信号を使用して検出することが開示されている。しかしながら、特許文献1には、処理装置の内部のウォッチドッグタイマーに障害が発生した場合については開示されていない。
Various techniques relating to failure detection of processing devices have been proposed. One of them is disclosed in
また、特許文献1には、情報処理装置において障害が発生した場合、情報処理装置が有するBMC(Baseboard Management Controller)ファームウェアが、BIOS(Basic Input Output System)のストールを検出し、SMI(System Management Interrupt)を発生させてBIOSが採取するCPUのログ情報を収集することが開示されている。しかしながら、特許文献1には、処理装置のSMIに障害が発生した場合については開示されていない。
Further, in
特許文献2には、中央処理装置と、中央処理装置の処理プログラムを格納するメモリーとを有する監視制御装置であって、プログラムにおいて予め定められたチェックポイントを処理した際に、中央処理装置の動作情報を外部処理装置へ出力するポートと、ポートへ出力された中央処理装置の動作情報を格納する記憶手段とを含むことを特徴とする監視制御装置が開示されている。しかしながら、特許文献2には、処理装置に障害が発生した場合、メイン処理系の詳細な状態を監視制御系に伝えることについては開示されていない。
上述のように、処理装置のメイン処理系においてデッドロックが発生した場合、監視制御系はデッドロックが発生したことは認識できるが、メイン処理系の詳細な状態がわからずに、メイン処理系の障害の解析に支障をきたすという問題があった。 As described above, when a deadlock occurs in the main processing system of the processing device, the supervisory control system can recognize that the deadlock has occurred, but the detailed state of the main processing system is not known, and the main processing system There was a problem that the trouble analysis was hindered.
本発明は、このような問題点を解決するためになされたものであり、メイン処理系に障害が発生した場合、メイン処理系の障害の解析を容易に行うことが可能な処理装置、方法及びプログラムを提供することを目的とする。 The present invention has been made to solve such problems, and when a failure occurs in the main processing system, a processing apparatus, a method, and a method capable of easily analyzing the failure of the main processing system, and The purpose is to provide a program.
本発明に係る処理装置は、主要な処理を行うメイン処理部と、前記メイン処理部の外部に設けられ、前記メイン処理部の障害の発生を検出し、前記障害の発生に関係なく通知される前記メイン処理部の状態情報を取得する障害検出部と、前記障害検出部が取得した状態情報から、前記障害の発生時に対応する状態情報を選択し、外部からアクセス可能な状態で保存する監視制御部と、を備える。 A processing apparatus according to the present invention is provided outside a main processing unit that performs main processing and the main processing unit, detects the occurrence of a failure in the main processing unit, and is notified regardless of the occurrence of the failure. A failure detection unit that acquires state information of the main processing unit, and monitoring control that selects state information corresponding to the occurrence of the failure from the state information acquired by the failure detection unit, and saves the state information in an externally accessible state A section.
本発明に係る方法は、メイン処理部の障害を検出するステップと、前記障害の発生に関係なく通知される前記メイン処理部の状態情報を取得するステップと、前記取得した状態情報から、前記障害の発生時に対応する状態情報を選択するステップと、外部からアクセス可能な状態で保存するステップと、を備える。 The method according to the present invention includes a step of detecting a failure of a main processing unit, a step of acquiring state information of the main processing unit that is notified regardless of the occurrence of the failure, and the failure from the acquired state information. Selecting state information corresponding to the occurrence of the error and storing the state information in a state accessible from the outside.
本発明に係るプログラムは、メイン処理部の障害を検出するステップと、前記障害の発生に関係なく通知される前記メイン処理部の状態情報を取得するステップと、前記取得した状態情報から、前記障害の発生時に対応する状態情報を選択するステップと、外部からアクセス可能な状態で保存するステップと、をコンピュータに実現させる。 The program according to the present invention includes a step of detecting a failure of the main processing unit, a step of acquiring the state information of the main processing unit notified regardless of the occurrence of the failure, and the failure from the acquired state information The step of selecting the state information corresponding to the occurrence of the error and the step of storing the state information in a state accessible from the outside is realized by the computer.
本発明によれば、メイン処理系に障害が発生した場合、メイン処理系の障害の解析を容易に行うことが可能な処理装置、方法及びプログラムを提供することができる。 According to the present invention, it is possible to provide a processing apparatus, method, and program capable of easily analyzing a failure in the main processing system when a failure occurs in the main processing system.
[実施の形態1]
以下、図面を参照して本発明の実施の形態について説明する。
[Embodiment 1]
Embodiments of the present invention will be described below with reference to the drawings.
図1は、実施の形態1に係る処理装置を例示するブロック図である。 FIG. 1 is a block diagram illustrating a processing apparatus according to the first embodiment.
図1に示すように、実施の形態1に係る処理装置10は、メイン処理部11と監視制御部12と障害検出部13とを備える。メイン処理部11は、外部に提供する情報の処理などの主要な処理を行う。障害検出部13は、メイン処理部11の外部に設けられ、メイン処理部11の障害を検出する。また、障害検出部13は、障害の発生に関係なくメイン処理部11から通知されるメイン処理部11の状態情報を取得する。監視制御部12は、障害検出部13が取得した状態情報から、障害の発生時に対応する状態情報を選択し、外部からアクセス可能な状態で保存する。
As illustrated in FIG. 1, the
実施の形態1に係る処理装置10について詳細に説明する。
図2は、実施の形態1に係る処理装置を例示するブロック図である。
The
FIG. 2 is a block diagram illustrating the processing apparatus according to the first embodiment.
処理装置10は、表示部115をさらに備える。また、メイン処理部11は、CPU111と記憶部112〜114とを有する。
The
処理装置10は、例えば、ウェブサーバやファイルサーバなどの装置である。CPU111は、CPU(Central Processing Unit)、すなわち中央演算部を有し、処理装置10の主たる機能を実現し、外部に対して出力し提供する情報を処理する。記憶部112は、例えば、ROM(Read-Only Memory)であり、BIOS(Basic Input Output System)などのブートローダが格納される。記憶部113は、例えば、RAM(Randum Access Memory)であり、処理装置10の主記憶部である。記憶部114は、OS(Operating System)やファイルシステム・アプリケーションが格納される。
The
なお、BIOSとは、ファームウェアの一つで、コンピュータ等の処理装置に搭載されたプログラムのうち、ハードウェアとの間で、最も低レベルな入出力を行うためのプログラムである。BIOSは、処理装置の電源投入時に実行される。BIOSの機能には、処理装置のハードウェアの初期化や、記憶部からのブートローダの呼び出しがある。 The BIOS is one of firmware, and is a program for performing the lowest level input / output with hardware among programs installed in a processing device such as a computer. The BIOS is executed when the processing apparatus is powered on. The BIOS function includes initialization of hardware of the processing device and call of a boot loader from the storage unit.
また、ブートとは、処理装置の起動を意味し、電源を投入時のOS(Operating System)等、処理装置の動作環境を立ち上げるまでの処理がこれに該当する。また、ブートローダとは、ブート時に、処理装置の動作環境の立ち上げに必要なプログラムの読み込みを行うプログラムのことである。 The boot means starting of the processing device, and corresponds to processing up to starting up the operating environment of the processing device such as an OS (Operating System) when the power is turned on. The boot loader is a program that reads a program necessary for starting up the operating environment of the processing device at the time of booting.
障害検出部13は、ウォッチドッグタイマ(WDT)制御部131とCPU状態保持部134とアラーム生成部132とアラーム付加情報生成部133とを有する。
The
障害検出部13は、処理装置10の内部であってメイン処理部11の外部に設けられる。障害検出部13のCPU状態保持部134は、メイン処理部11から、例えば、定期的に送信されるメイン処理部11の状態情報を取得する。
The
ここで、メイン処理部11で発生する障害について説明する。メイン処理部11で発生する障害の例としては、デッドロックが挙げられる。このデッドロックを検出する方法としては、ウォッチドッグタイマを使用した方法が挙げられる。ウォッチドッグタイマは、SoC(System-on-a-chip)に含まれるものを使用する場合もあるし、外付けのウォッチドッグタイマを使用する場合もある。SoCが所有する資源や将来的なメンテナンスのし易さから、外付けのウォッチドッグタイマを使用してもよい。
Here, a failure that occurs in the
この例では、外付けのウォッチドッグタイマを使用する。処理装置10は、障害検出部13のウォッチドッグタイマ制御部131内にウォッチドッグタイマ131aを有し、これを外付けのウォッチドッグタイマとして使用する。ウォッチドッグタイマ制御部131は、ウォッチドッグタイマ131aを使用してメイン処理部11のCPU111のデッドロックを検出する。すなわち、メイン処理部11は、障害検出部13に対してメイン処理部11の障害の発生を検出するための検出用信号(リロード要求)を送信する。障害検出部13のウォッチドッグタイマ制御部131は、例えば、所定期間αの間、CPU111がウォッチドッグタイマ131aに対して行う検出用信号が無い場合、CPU111においてデッドロックなどの障害の発生を検出したと判断する。このようにして障害検出部13は、タイムアウト情報などの障害情報を取得する。なお、検出用信号をリロード要求と呼ぶ。また、検出用信号は所定期間α内に送信される。また、検出用信号は、定期的に行われてもよい。
In this example, an external watchdog timer is used. The
ウォッチドッグタイマ制御部131は、障害が発生したと判断した場合、タイムアウト情報などの障害情報をアラーム付加情報生成部133とアラーム生成部132とに通知する。
When the watchdog
なお、デッドロックとは、複数のプロセスが互いに相手の占有している資源の解放を待ち、処理が停止してしまう障害のことである。また、ウォッチドッグタイマは、ウォッチドッグタイマ機能を意味する場合もある。 Note that deadlock is a failure in which a plurality of processes waits for the release of resources occupied by each other and stop processing. The watchdog timer may mean a watchdog timer function.
CPU状態保持部134は、処理装置10の起動時のBIOSのステータス(POST(Power On Self Test)ステータス)などのCPU111から通知されるCPU111の状態情報を保持する。また、CPU状態保持部134は、CPU111の状態情報を表示部115に表示する。
The CPU
アラーム付加情報生成部133は、ウォッチドッグタイマ制御部131から通知されたタイムアウト情報などの障害情報と、CPU状態保持部134に保持されているCPU111の状態情報とを、BMC122に通知するための形式に加工する。なお、加工された障害情報と状態情報とをアラーム付加情報と呼ぶ。アラーム付加情報生成部133は、アラーム付加情報を、BMC122のアラーム付加情報取得部122bに出力する。
The alarm additional
アラーム生成部132は、ウォッチドッグタイマ制御部131から通知されたタイムアウト情報などの障害情報をBMC122のアラーム取得部122cに出力する。なお、アラーム生成部132から出力される情報をアラーム情報と呼ぶ。
The
監視制御部12は、BMC122と記憶部121とを有する。BMC122は、CPU111が有するCPUとは別のCPUを有する。記憶部121は、例えば、EEPROM(Electrically Erasable Programmable Read-Only Memory)である。
The
BMC122は、プラットフォームイベント(PlatformEvent)生成部122aとアラーム付加情報取得部122bとアラーム取得部122cとを有する。プラットフォームイベント(PlatformEvent)生成部122aは、アラーム情報とアラーム付加情報とを、後述するイベント情報に加工する。アラーム付加情報取得部122bは、アラーム付加情報生成部133から出力されたアラーム付加情報を取得し、取得した状態情報から、障害の発生時に対応する状態情報を選択して保存する。アラーム取得部122cは、アラーム生成部132から出力された障害情報を取得する。図2に示す経路L11〜L13を経由して状態情報(ステータス情報)がアラーム付加情報取得部122bに通知され、経路L21〜経路L23を経由してアラーム情報がアラーム取得部122cに通知される。
The
プラットフォームイベント生成部122aが加工したイベント情報は、外部からアクセス可能な状態で記憶部121に記憶される、又は、外部装置20にイベント情報として出力される。なお、監視制御部12から外部装置20へのイベント情報の出力は、例えば、IPMB(Intelligent Platform Management Bus)3を介して出力される。
The event information processed by the platform
表示部115は、例えば、7segLED(7 segment Lazer Emitting Diode)などで構成され、処理装置10の起動時のBIOSのステータスなどを表示する。また、表示部115は、CPU111の状態情報とCPU111の障害情報とを表示する。
The
実施の形態1においては、CPU111の障害の発生を検出するためのウォッチドッグタイマ131aを、CPU111から独立させた障害検出部13内に設けている。ウォッチドッグタイマによる障害の検出を障害検出部13が自発的に行っている。これにより、CPU111に障害が発生し異常動作している場合においても、CPU111の障害を検出し、その障害情報を障害検出部13経由でBMC122に通知することができる。
In the first embodiment, a
また、CPU111の状態情報を、CPU111から独立させ障害検出部13のCPU状態保持部134にステータス通知して保持している。そして、CPU111の状態情報をCPU状態保持部134経由でBMC122に通知している。すなわち、CPU111から障害検出部13に対してステータスを通知し、状態情報(ステータス)をBMC122に通知している。これらの動作を、障害検出部13とBMC122とが自発的に行っている。これにより、CPU111に障害が発生し以上動作している場合においても、CPU111の状態情報を障害検出部13経由でBMC122に出力することができる。
Further, status information of the
次に、実施の形態1に係る処理装置の動作について説明する。
図3は、実施の形態1に係る処理装置の動作を例示するシーケンス図である
Next, the operation of the processing apparatus according to the first embodiment will be described.
FIG. 3 is a sequence diagram illustrating the operation of the processing apparatus according to the first embodiment.
図3に示すように、メイン処理部11のCPU111は、処理装置10の起動時などにBIOSのPOSTステータスの進行具合に応じたPOSTステータスコードであるステータス情報(CPU111の状態情報)を障害検出部13のCPU状態保持部134に通知する(ステップS101)。
As shown in FIG. 3, the
CPU111は、ステップS101と共にウォッチドッグタイマ制御部131に対してウォッチドッグタイマのリロード要求(検出用信号の送信)を行う(ステップS102)。
The
ステップS101により、障害検出部13は、メイン処理部11から障害の発生に関係なく通知されるメイン処理部11の状態情報を取得する。ステップS101とステップS102とは定期的に行われてもよい。ステップS101の通知を略してステータス通知と呼ぶ。
In step S <b> 101, the
CPU状態保持部134は、ステップS101のステータス通知の内容を表示部115に表示させる。なお、ウォッチドッグタイマ制御部131は、ステップS101のステータス通知の前に、CPU111用のウォッチドッグタイマを予め開始しておく(ステップS103)。
The CPU
ステップS102において、定期的にウォッチドッグタイマのリロード要求が行われていれば、メイン処理部11は正常に動作しているとする。
In step S102, it is assumed that the
メイン処理部11においてデッドロックが発生した場合(ステップS105)、ウォッチドッグタイマのリロード要求は滞る。リロード要求が滞り、所定期間αの間、リロード要求が無い場合、障害検出部13のウォッチドッグタイマ制御部131は、CPU111に障害が発生したと判断し、ウォッチドッグタイマをタイムアウトする(ステップS106)。ステップS106により、障害検出部13は、メイン処理部11の障害を検出し、このタイムアウトなどの障害情報を取得する。そして、ウォッチドッグタイマ制御部131は、このタイムアウトに関するタイムアウト情報をアラーム付加情報生成部133とアラーム生成部132とに通知する(ステップS107a、ステップS107c)。タイムアウト情報の通知を略してタイムアウト通知と呼ぶ。
When a deadlock occurs in the main processing unit 11 (step S105), the watch dog timer reload request is delayed. If the reload request is delayed and there is no reload request for a predetermined period α, the watchdog
ステップS107aのタイムアウト通知を受信したアラーム付加情報生成部133は、CPU状態保持部134に、CPU111の現在のステータス情報(CPU111の状態情報)の問い合わせを行い、CPU状態保持部134から現在のステータス情報を取込む(ステップS107b)。また、アラーム付加情報生成部133は、ステータス情報とタイムアウト情報とをBMC122に通知する形式に加工してアラーム付加情報を生成する(ステップS108a)。
The alarm additional
タイムアウト情報を受信したアラーム生成部132は、ウォッチドッグタイマアラームが発生した旨のウォッチドッグタイマアラームフラグを起立する(ステップS108b)。ウォッチドッグタイマアラームフラグを起立するとは、例えば、ウォッチドッグタイマのアラームビットを設け、アラームビットをオンにすることである。アラームビットのオン又はオフの情報をアラーム情報と呼ぶ。アラーム生成部132は、メイン処理部11のCPU111のタイムアウト情報(障害情報)に基づいてアラーム情報を生成する。
Receiving the timeout information, the
監視制御部12のBMC122は、ウォッチドッグタイマアラームフラグを監視する(ステップS104a)と共にアラーム付加情報が生成されているか否かを監視する(ステップS104b)。ステップS104aにおいて、BMC122は、アラーム生成部132に対して、例えば、ポーリングを行うことによりウォッチドッグタイマアラームフラグが起立しているか否かを監視する。また、ステップS104bにおいて、BMC122は、アラーム付加情報生成部133に対して、ポーリングを行うことによりアラーム付加情報が生成されているか否かを監視する。すなわち、監視制御部12は、障害検出部13のアラーム付加情報生成部133に対して障害確認要求を行い、CPU111の状態情報をアラーム付加情報生成部133から取得する。また、監視制御部12は、障害検出部13のアラーム生成部132に対して障害確認要求を行い、障害情報をアラーム生成部132から取得する。ステップS104aとステップS104bとにおける障害確認要求は、定期的に行われる。
The
ウォッチドッグタイマアラームフラグが起立し、ウォッチドッグタイマアラームが発生していることを認識した場合(ステップS109a)、BMC122は、プラットフォームイベント生成部122aにて情報を整形し、記憶部121などにウォッチドッグタイマアラームの情報(SEL(System Event Log))を記憶し登録する(ステップS110a)。
When the watchdog timer alarm flag is raised and it is recognized that the watchdog timer alarm is generated (step S109a), the
また、ウォッチドッグタイマアラームが発生していることを認識した場合(ステップS109a)、BMC122は、外部装置20に対してIPMB3を介してイベント通知を行う(ステップS111a)。
If it is recognized that a watchdog timer alarm has occurred (step S109a), the
アラーム付加情報が生成されていることを認識した場合(ステップS109b)、BMC122は、プラットフォームイベント生成部122aにて情報を整形し、記憶部121などにアラーム付加情報(SEL(System Event Log))を記憶し登録する(ステップS110b)。ステップS110bにおいて、BMC122は、アラーム付加情報生成部133から取得したCPU111の状態情報から、障害の発生時に対応する状態情報を選択し、これを外部からアクセス可能な状態で記憶部121に保存する。
When recognizing that alarm additional information has been generated (step S109b), the
また、アラーム付加情報が生成されていることを認識した場合(ステップS109b)、BMC122は、外部装置20に対してIPMB3を介してイベント通知を行う(ステップS111b)。すなわち、BMC122は、状態情報と障害情報とを関連付けて外部に出力する。
When it is recognized that alarm additional information has been generated (step S109b), the
次に、プラットフォームイベント生成部122aが生成するイベント情報について説明する。
図4は、プラットフォームイベント生成部が生成するイベント情報を例示する図である。
図4は、障害検出部13のアラーム付加情報生成部133と、BMC122のアラーム付加情報取得部122bと、の間でやり取りする情報を示す。
Next, event information generated by the platform
FIG. 4 is a diagram illustrating event information generated by the platform event generation unit.
FIG. 4 shows information exchanged between the alarm additional
図4に示す情報D401(アラーム付加情報)は、アラーム付加情報生成部133とアラーム付加情報取得部122bとがやり取りする情報である。情報D401は、アラーム付加情報生成部133が生成し、アラーム付加情報取得部122bに対して出力するアラーム付加情報である。情報D401は、ステータス発行元とステータスコードとステータスコード(拡張)とを含む。ステータス発行元とステータスコード(拡張)は将来の拡張用である。ステータスコードは、メイン処理部11におけるデッドロック発生時(障害発生時)のCPU111のステータス情報(状態情報)を示す。
Information D401 (alarm additional information) illustrated in FIG. 4 is information exchanged between the alarm additional
図4に示す情報D402は、BMC122のプラットフォームイベント(PlatformEvent)生成部122aが生成するイベント情報である。プラットフォームイベント生成部122aは、アラーム付加情報取得部122bがアラーム付加情報生成部133から取得した情報D401(アラーム付加情報)を、一般的にIPMI(Intelligent Platform Management Interface)で定義されているPlatformEventの形式に加工する。プラットフォームイベント生成部122aが生成したイベント情報は、記憶部121や外部装置20に格納される。
Information D402 illustrated in FIG. 4 is event information generated by the platform event (PlatformEvent)
このようにして、メイン処理部11のCPU111のデッドロック(障害情報)だけでなく、メイン処理部11のステータス情報(状態情報)も、イベント情報として外部装置20などに伝えることができる。
In this way, not only deadlock (failure information) of the
実施の形態1に係る処理装置の特徴は、CPU111の異常を外付けのウォッチドッグタイマ131aにより検出し、例えば、ウォッチドッグタイマアラームなどの障害発生時のCPU111の状態情報をイベント情報情報として外部装置20などに通知する点である。
A feature of the processing apparatus according to the first embodiment is that an abnormality of the
実施の形態1の効果について説明する。
実施の形態1においては、メイン処理部11のCPU111から障害検出部13に対して随時ステータス情報を通知し、ウォッチドックタイマアラームの検出を自発的に行い、BMC122への報告を自発的に行っている。そして、CPU111が有するウォッチドックタイマを使用せずに、外部のウォッチドックタイマを使用してCPU111の障害を検出している。これにより、CPU111に障害が発生している場合でも、CPU111の障害を検出してCPU111の障害状況をBMC122に通知することができる。
The effect of the first embodiment will be described.
In the first embodiment, the
また、実施の形態1においては、CPU111が有するSMI(System Management Interrupt)機能を使用せずに、CPU111の外部に存在する障害検出部13から、CPU111のステータス情報とウォッチドックタイマアラーム情報とを監視制御部12に通知している。これにより、CPU111に障害が発生している場合でも、CPU111のステータスをBMC122に通知することができる。
In the first embodiment, the status information of the
また、実施の形態1に係る処理装置10は、メイン処理部11がデッドロックした際に、その原因解析に必要となるCPU111のステータス情報とアラーム情報とを外部装置20などに伝えることができる。これにより、処理装置10の障害の解析を容易に行うことができる。その結果、メイン処理部に障害が発生した場合、メイン処理部の障害の解析を容易に行うことが可能な処理装置、方法及びプログラムを提供することができる。
Further, when the
なお、この実施例においては、BIOSのステータスコードを例にして説明したが、OS(Operating System)やアプリケーションのプロセス番号に当てはめて応用してもよい。 In this embodiment, the BIOS status code has been described as an example. However, the present invention may be applied to an OS (Operating System) or an application process number.
また、この実施例においては、外付けのウォッチドッグタイマを例にして説明したが、この外付けのウォッチドッグタイマを、監視制御のSoC(System-on-a-Chip)に含めて1チップの構成で実現してもよい。 In this embodiment, the external watchdog timer has been described as an example. However, this external watchdog timer is included in the SoC (System-on-a-Chip) for monitoring and control. You may implement | achieve with a structure.
[実施の形態1の比較例1]
図5は、実施の形態1の比較例1に係る処理装置を例示するブロック図である。
[Comparative Example 1 of Embodiment 1]
FIG. 5 is a block diagram illustrating a processing apparatus according to comparative example 1 of the first embodiment.
図5に示すように、比較例1に係る処理装置10aは、メイン処理部11aと監視制御部12aと障害検出部13aとを有する。
As shown in FIG. 5, the
メイン処理部11aは、例えば、7セグメントLED(Lazer Emitting Diode)などの簡素な表示部115を有し、処理装置10aの起動時のBIOSステータス(POST(Power On Self Test)ステータス)を表示部115に表示させる。
The main processing unit 11a includes a
監視制御部12aは、実施の形態1の監視制御部12と比べてアラーム付加情報取得部122bが設けられていない。
Compared with the
障害検出部13aは、実施の形態1の障害検出部13と比べてCPU状態保持部134とアラーム付加情報生成部133が設けられていない。
The
図6は、実施の形態1の比較例1に係る処理装置の動作を例示するシーケンス図である。 FIG. 6 is a sequence diagram illustrating the operation of the processing apparatus according to the first comparative example of the first embodiment.
図6に示すように、メイン処理部11aのCPU111は、処理装置10aの起動時などにBIOSのPOSTステータスの進行具合に応じたPOSTステータスコードを表示部115に伝える(ステップS101)と共にウォッチドッグタイマ制御部131に対して、定期的にウォッチドッグタイマのリロード要求を行う(ステップS102)。
As shown in FIG. 6, the
メイン処理部11aにデッドロックが発生し(ステップS105)、ウォッチドッグタイマのリロード指示が滞ると、ウォッチドッグタイマ制御部131はタイムアウトし(ステップS106)、その旨をアラーム生成部132に伝える(ステップS107)。
When a deadlock occurs in the main processing unit 11a (step S105) and the watchdog timer reload instruction is delayed, the watchdog
アラーム生成部132は、ウォッチドッグタイマアラームが発生した旨のフラグを起立する(ステップS108)。
The
一方、監視制御部12aのBMC122は、ウォッチドッグタイマアラームフラグを定期的に監視し(ステップS104)、アラームを認識すると(ステップS109)、記憶部121などにアラーム情報(SEL(System Event Log))を記憶し登録し(ステップS110)、外部装置20にIPMB3を通してイベント通知を行う(ステップS111)。
On the other hand, the
しかしながら、実施の形態1の比較例1においては、メイン処理部11aにおいてデッドロックが発生した際、故障が発生したというアラーム情報しか認識することができない。CPU111の状態情報を認識することができない。従って、処理装置10の障害の解析をすることは難しい。
However, in the first comparative example of the first embodiment, when a deadlock occurs in the main processing unit 11a, only alarm information that a failure has occurred can be recognized. The state information of the
[実施の形態1の比較例2]
実施の形態1の比較例2においては、実施の形態1と比較して、CPU111が有するウォッチドッグタイマ機能を使用してCPU111の障害を検出する点が異なる。本比較例2においては、ウォッチドッグタイマ機能に障害が発生しCPU111が異常動作している場合、CPU111の障害を検出することが難しい。
[Comparative Example 2 of Embodiment 1]
The comparative example 2 of the first embodiment is different from the first embodiment in that a failure of the
[実施の形態1の比較例3]
実施の形態1の比較例3においては、実施の形態1と比較して、CPU111が有するSMI(System Management Interrupt)機能を使用してCPUの障害発生の通知を行う点が異なる。本比較例3においては、SMI機能に障害が発生しCPU111が異常動作している場合、CPU111の障害を通知することが難しい。
[Comparative Example 3 of Embodiment 1]
The comparative example 3 of the first embodiment is different from the first embodiment in that a CPU failure notification is made using an SMI (System Management Interrupt) function of the
[実施の形態2]
次に、実施の形態2について説明する。
図7は、実施の形態2に係る処理装置を例示するブロック図である。
[Embodiment 2]
Next, a second embodiment will be described.
FIG. 7 is a block diagram illustrating a processing apparatus according to the second embodiment.
図7に示すように、実施の形態2は、前述の実施の形態1と比べて、障害検出部13に付加情報制御部135を有する点が異なる。付加情報制御部135は、デッドロックが発生後にステータスコードを複数回取得し、取得したステータスコードを一定時間毎に何回、アラーム付加情報取得部122bに対して出力するかを制御する。なお、一定時間の時間間隔及び一定時間毎に出力するステータスコードの回数は、付加情報制御部135により所望の値が設定される。
As shown in FIG. 7, the second embodiment is different from the first embodiment in that the
実施の形態2においては、付加情報制御部135が一定時間の時間間隔と一定時間毎に出力するステータスコードの回数とを設定する。これにより、ウォッチドッグタイマのリロード間隔の長さにより、CPU111において、例えば、ソフトウェアの暴走などの障害が発生しているのか否か、又はソフトウェアはある程度適正に動いているのか否かの判断を行うことができる。
In the second embodiment, the additional
例えば、監視制御部12は、障害の発生前の最後の検出用信号から障害の発生後の最初の検出用信号までの時間に基づいてメイン処理部11の障害の度合いを判断することができる。
For example, the
また、監視制御部12は、障害の発生後の最初の検出用信号から2番目の検出用信号までの時間に基づいてメイン処理部11の障害の度合いを判断してもよい。
Further, the
また、監視制御部12は、障害の発生前の最後の検出用信号とさらに1つ前の検出用信号との間の時間に基づいてメイン処理部11の障害の度合いを判断してもよい。
Further, the
[実施の形態3]
次に、実施の形態3について説明する。
図8は、実施の形態3に係る処理装置を例示するブロック図である。
図9は、実施の形態3に係る処理装置の一部を例示するブロック図である。
[Embodiment 3]
Next,
FIG. 8 is a block diagram illustrating a processing apparatus according to the third embodiment.
FIG. 9 is a block diagram illustrating a part of the processing apparatus according to the third embodiment.
図8に示すように、実施の形態3に係る障害検出部13は、前述の実施の形態1と比べて、異常検出部136と記憶部137とをさらに有する点が異なる。異常検出部136は、ウォッチドッグタイマ制御部131と同様な機能、仕組みであって、CPU111とは別の部位の障害を検出するための機能を有する。異常検出部136は、複数の部位の障害をそれぞれ検出するために、検出機能Fa、検出機能Fb、検出機能Fcなどの複数の検出機能を有する。
As shown in FIG. 8, the
障害検出部13が、例えば、FPGA(Field-Programmable Gate Array)で構成されている場合、FPGAをコンフィグするためのコンフィグ用ファイルは、フラッシュROM(Read Only Memory)などにより構成された記憶部137に格納される。
For example, when the
FPGAをコンフィグする場合、コンフィグ用ファイルが格納された記憶部137にアクセスする。このとき、異常検出部136は、記憶部137へのアクセス異常などを検出し、これをアラーム付加情報としてBMC122に通知する。アラーム付加情報としては、例えば、図4に示す情報D401であるステータス発行元、ステータスコード及びステータスコード(拡張)を使用して情報の判別をする。このようにして、異常検出部136は、障害を検出する。
When configuring the FPGA, the
また、異常検出部136は、記憶部137へのアクセス異常の他にも、別の部位の異常を、検出機能Fa、検出機能Fb及検出機能びFcなどを使用して行う。
Further, the
異常検出部136及びウォッチドッグタイマ制御部131が、複数の部位の異常を同時に検出し、それらの異常が発生した旨をアラーム付加情報生成部133に通知する場合、通知する情報間で競合が起こり、通知する情報が消失する可能性がある。このような情報の消失を避けるため、例えば、図9に示すように、障害検出部13内にFIFO(First In First Out)を設ける。
When the
次に、実施の形態3に係るアラーム付加情報生成部133の動作について説明する。
Next, the operation of the alarm additional
図9に示すように、アラーム付加情報生成部133は、ウォッチドッグタイマ制御部131及び異常検出部136からアラームの書き込み要求があると、FIFOに次々と情報を書き込む。
As shown in FIG. 9, when there is an alarm write request from the watchdog
アラーム付加情報生成部133は、FIFOに情報が書き込まれている場合、アラーム付加情報の有無を示すレジスタR401を確認する。レジスタR401のフラグが立っている場合、FIFOに情報が書き込まれている状態を示す。また、レジスタR401のフラグが立っていない場合、FIFOに情報が書き込まれていない状態を示す。
When the information is written in the FIFO, the alarm additional
アラーム付加情報生成部133は、レジスタR401のフラグが立っている場合、何もしない。また、アラーム付加情報生成部133は、レジスタR401のフラグが立っていない場合、FIFOから情報を取り出し、レジスタR402に取り出した情報を反映すると共にレジスタR401のフラグを立てる。
The alarm additional
一方、BMC122は、レジスタR401を監視し、レジスタR401のフラグが立っていない場合、何もしない。また、BMC122は、レジスタR401のフラグが立っている場合、レジスタR402の内容を読み出すと共にレジスタR401のフラグを落とす。
On the other hand, the
なお、レジスタR402は、ステータス発行元、ステータスコード及びステータスコード(拡張)を示すレジスタである。 The register R402 is a register indicating a status issue source, a status code, and a status code (extended).
また、上記の実施の形態では、本発明を主にハードウェアの構成として説明したが、本発明はこれに限定されるものではない。本発明は、各構成要素の処理を、CPU(Central Processing Unit)にコンピュータプログラムを実行させることにより実現することも可能である。 In the above embodiments, the present invention has been mainly described as a hardware configuration, but the present invention is not limited to this. The present invention can also realize processing of each component by causing a CPU (Central Processing Unit) to execute a computer program.
上記の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実態のある記録媒体(trangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programable ROM)、EPROM(Erasable PROM))、フラッシュROM、RAM(Random Access Memory)を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。 In the above example, the program can be stored using various types of non-transitory computer readable media and supplied to the computer. Non-transitory computer readable media include various types of tangible storage media. Examples of non-transitory computer-readable media include magnetic recording media (for example, flexible disks, magnetic tapes, hard disk drives), magneto-optical recording media (for example, magneto-optical disks), CD-ROMs (Read Only Memory), CD-Rs, CD-R / W, semiconductor memory (for example, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM)), flash ROM, RAM (Random Access Memory) are included. The program may also be supplied to the computer by various types of transitory computer readable media. Examples of transitory computer readable media include electrical signals, optical signals, and electromagnetic waves. The temporary computer-readable medium can supply the program to the computer via a wired communication path such as an electric wire and an optical fiber, or a wireless communication path.
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。 Note that the present invention is not limited to the above-described embodiment, and can be changed as appropriate without departing from the spirit of the present invention.
10、10a…処理装置 11、11a…メイン処理部 12、12a…監視制御部 13、13a…障害検出部 111…CPU 1122〜114…記憶部 115…表示部 121…記憶部 122…BMC 122a…プラットフォームイベント生成部 122b…アラーム付加情報取得部 122c…アラーム取得部 131…ウォッチドッグタイマ制御部 131a…ウォッチドッグタイマ 132…アラーム生成部 133…アラーム付加情報生成部 134…CPU状態保持部 135…付加情報制御部 136…異常検出部 137…記憶部 D401、D402…情報 R401、R402…レジスタ Fa、Fb、Fc…検出機能 L11、L12、L13、L21、L22、L23…経路 α…所定期間
DESCRIPTION OF
Claims (10)
前記メイン処理部の外部に設けられ、前記メイン処理部の障害の発生を検出し、前記障害の発生に関係なく通知される前記メイン処理部の状態情報を取得する障害検出部と、
前記障害検出部が取得した状態情報から、前記障害の発生時に対応する状態情報を選択し、外部からアクセス可能な状態で保存する監視制御部と、
を備えた処理装置。 A main processing unit that performs main processing;
A fault detection unit that is provided outside the main processing unit, detects the occurrence of a fault in the main processing unit, and obtains status information of the main processing unit to be notified regardless of the occurrence of the fault;
From the status information acquired by the fault detection unit, select the status information corresponding to the occurrence of the fault, and save and control in a state accessible from the outside,
A processing apparatus comprising:
前記障害検出部は、所定期間、前記検出用信号が無い場合、前記障害の発生を検出したと判断する、
請求項1に記載の処理装置。 The main processing unit transmits a detection signal for detecting the occurrence of the failure to the failure detection unit,
The failure detection unit determines that the occurrence of the failure has been detected when there is no detection signal for a predetermined period.
The processing apparatus according to claim 1.
請求項2に記載の処理装置。 The monitoring control unit determines the degree of failure of the main processing unit based on the time from the last detection signal before the occurrence of the failure to the first detection signal after the occurrence of the failure.
The processing apparatus according to claim 2.
請求項2又は3に記載の処理装置。 The monitoring control unit determines a degree of failure of the main processing unit based on a time from the first detection signal to the second detection signal after the occurrence of the failure;
The processing apparatus according to claim 2 or 3.
請求項2〜4のいずれか1つに記載の処理装置。 The monitoring control unit determines the degree of failure of the main processing unit based on the time between the last detection signal before the occurrence of the failure and the previous detection signal.
The processing apparatus as described in any one of Claims 2-4.
請求項2に記載の処理装置。 The processing apparatus according to claim 2, wherein the detection signal is transmitted within the predetermined period.
請求項1〜6のいずれか1つに記載の処理装置。 The monitoring control unit makes a failure confirmation request to the failure detection unit, and acquires failure information indicating whether or not the failure has occurred and the state information from the failure detection unit,
The processing apparatus as described in any one of Claims 1-6.
前記障害の発生に関係なく通知される前記メイン処理部の状態情報を取得するステップと、
前記取得した状態情報から、前記障害の発生時に対応する状態情報を選択するステップと、
外部からアクセス可能な状態で保存するステップと、
を備える方法。 Detecting a failure of the main processing unit;
Obtaining status information of the main processing unit to be notified regardless of the occurrence of the failure;
Selecting status information corresponding to the occurrence of the failure from the acquired status information;
A step of saving in an externally accessible state;
A method comprising:
前記障害の発生に関係なく通知される前記メイン処理部の状態情報を取得するステップと、
前記取得した状態情報から、前記障害の発生時に対応する状態情報を選択するステップと、
外部からアクセス可能な状態で保存するステップと、
をコンピュータに実現させるプログラム。 Detecting a failure of the main processing unit;
Obtaining status information of the main processing unit to be notified regardless of the occurrence of the failure;
Selecting status information corresponding to the occurrence of the failure from the acquired status information;
A step of saving in an externally accessible state;
A program that makes a computer realize.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016099624A JP6504610B2 (en) | 2016-05-18 | 2016-05-18 | Processing device, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016099624A JP6504610B2 (en) | 2016-05-18 | 2016-05-18 | Processing device, method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017207903A true JP2017207903A (en) | 2017-11-24 |
JP6504610B2 JP6504610B2 (en) | 2019-04-24 |
Family
ID=60417226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016099624A Active JP6504610B2 (en) | 2016-05-18 | 2016-05-18 | Processing device, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6504610B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851286A (en) * | 2019-11-12 | 2020-02-28 | 北京城市网邻信息技术有限公司 | Thread management method and device, electronic equipment and storage medium |
JP2023504658A (en) * | 2019-12-03 | 2023-02-06 | シーメンス インダストリー ソフトウェア インコーポレイテッド | Cause identification of observed anomalies in integrated circuit chips |
CN116610539A (en) * | 2023-04-07 | 2023-08-18 | 合芯科技有限公司 | Display system, display method, device and medium for startup self-checking information |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04260942A (en) * | 1991-01-21 | 1992-09-16 | Mitsubishi Electric Corp | Watchdog timer |
JP2006023970A (en) * | 2004-07-08 | 2006-01-26 | Oki Electric Ind Co Ltd | Device abnormality restoration system |
JP2007109238A (en) * | 2005-10-14 | 2007-04-26 | Dell Products Lp | System and method for logging recoverable error |
-
2016
- 2016-05-18 JP JP2016099624A patent/JP6504610B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04260942A (en) * | 1991-01-21 | 1992-09-16 | Mitsubishi Electric Corp | Watchdog timer |
JP2006023970A (en) * | 2004-07-08 | 2006-01-26 | Oki Electric Ind Co Ltd | Device abnormality restoration system |
JP2007109238A (en) * | 2005-10-14 | 2007-04-26 | Dell Products Lp | System and method for logging recoverable error |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851286A (en) * | 2019-11-12 | 2020-02-28 | 北京城市网邻信息技术有限公司 | Thread management method and device, electronic equipment and storage medium |
JP2023504658A (en) * | 2019-12-03 | 2023-02-06 | シーメンス インダストリー ソフトウェア インコーポレイテッド | Cause identification of observed anomalies in integrated circuit chips |
US11816016B2 (en) | 2019-12-03 | 2023-11-14 | Siemens Industry Software Inc. | Identifying causes of anomalies observed in an integrated circuit chip |
JP7425871B2 (en) | 2019-12-03 | 2024-01-31 | シーメンス インダストリー ソフトウェア インコーポレイテッド | Identification of causes of abnormalities observed in integrated circuit chips |
CN116610539A (en) * | 2023-04-07 | 2023-08-18 | 合芯科技有限公司 | Display system, display method, device and medium for startup self-checking information |
CN116610539B (en) * | 2023-04-07 | 2024-04-05 | 合芯科技有限公司 | Display system, display method, device and medium for startup self-checking information |
Also Published As
Publication number | Publication date |
---|---|
JP6504610B2 (en) | 2019-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109783262B (en) | Fault data processing method, device, server and computer readable storage medium | |
US11360842B2 (en) | Fault processing method, related apparatus, and computer | |
US9720761B2 (en) | System fault detection and processing method, device, and computer readable storage medium | |
EP2523115B1 (en) | Operation management device, operation management method, and program storage medium | |
US8914488B2 (en) | Method and system for monitoring a monitoring-target process | |
WO2012046293A1 (en) | Fault monitoring device, fault monitoring method and program | |
EP3591485B1 (en) | Method and device for monitoring for equipment failure | |
US20140122931A1 (en) | Performing diagnostic tests in a data center | |
US9210059B2 (en) | Cluster system | |
US20120136970A1 (en) | Computer system and method for managing computer device | |
JP6504610B2 (en) | Processing device, method and program | |
JP6317074B2 (en) | Failure notification device, failure notification program, and failure notification method | |
CN115102838B (en) | Emergency processing method and device for server downtime risk and electronic equipment | |
EP2495660A1 (en) | Information processing device and method for controlling information processing device | |
JP6222759B2 (en) | Failure notification device, failure notification method and program | |
CN109062718B (en) | Server and data processing method | |
JP2009230522A (en) | System monitoring device and program | |
JP2008146148A (en) | Computer system | |
CN116028302A (en) | Server interaction method, device, computer equipment and storage medium | |
CN114356708A (en) | Equipment fault monitoring method, device, equipment and readable storage medium | |
CN116414591A (en) | Fault diagnosis method and device and related equipment | |
JP2011159234A (en) | Fault handling system and fault handling method | |
CN115865634A (en) | Control method and device of functional module and server | |
JP2005108034A (en) | Computer system | |
JP2014211784A (en) | Multiplex control apparatus and multiplex control method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170908 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180629 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180724 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180913 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190320 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6504610 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |