JP7002486B2 - Electronic board and monitoring method - Google Patents
Electronic board and monitoring method Download PDFInfo
- Publication number
- JP7002486B2 JP7002486B2 JP2019026236A JP2019026236A JP7002486B2 JP 7002486 B2 JP7002486 B2 JP 7002486B2 JP 2019026236 A JP2019026236 A JP 2019026236A JP 2019026236 A JP2019026236 A JP 2019026236A JP 7002486 B2 JP7002486 B2 JP 7002486B2
- Authority
- JP
- Japan
- Prior art keywords
- control circuit
- measurement data
- temperature sensor
- lsi
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Semiconductor Integrated Circuits (AREA)
- Debugging And Monitoring (AREA)
Description
本発明は、情報処理装置に接続されている基板の監視技術に関するものであり、特に、基板上の半導体装置の稼動状態の監視に関するものである。 The present invention relates to a technique for monitoring a substrate connected to an information processing apparatus, and more particularly to to monitor an operating state of a semiconductor device on the substrate.
計算機システムは、サーバと、PCIe(PCI Express)スロットを介してサーバに接続されているPCIカード型デバイス(以下、PCIデバイスという)によって構成されていることが多い。計算機システムは、安定した状態で継続して動作することが要求される。そのため、PCIデバイスが接続されたサーバ等の装置は、PCIデバイスが正常に稼動しているかの監視を行う。 A computer system is often composed of a server and a PCI card type device (hereinafter referred to as a PCI device) connected to the server via a PCIe (PCI Express) slot. The computer system is required to operate continuously in a stable state. Therefore, a device such as a server to which the PCI device is connected monitors whether the PCI device is operating normally.
PCIデバイスには、用途に応じたLSI(Large Scale Integration)やPCIデバイスの制御を行うマイクロコントローラ等が用いられている。よって、計算機システムの安定動作のためには、PCIデバイス上のLSIやマイクロコントローラ等の半導体装置の動作制御や稼動状態の監視が適切に行われることが必要となる。そのため、PCIデバイスが接続された装置において、PCIデバイス上の各素子の監視を行う技術が開発されている。そのような、PCIデバイス上の各素子の監視を行う技術としては、例えば、特許文献1のような技術が開示されている。 As the PCI device, an LSI (Large Scale Integration) according to the application, a microcontroller for controlling the PCI device, or the like is used. Therefore, for stable operation of the computer system, it is necessary to appropriately control the operation of semiconductor devices such as LSIs and microcontrollers on the PCI device and monitor the operating state. Therefore, in a device to which a PCI device is connected, a technique for monitoring each element on the PCI device has been developed. As a technique for monitoring each element on the PCI device, for example, a technique such as Patent Document 1 is disclosed.
特許文献1は、バスを介して情報処理装置に接続された複数のデバイスの中からエラーが発生したデバイスを特定する技術に関するものである。特許文献1の情報処理装置は、デバイスごとに試験を実行し、実行結果を不揮発性の記憶素子に保存することでエラーが発生したデイバスの特定を可能にしている。 Patent Document 1 relates to a technique for identifying a device in which an error has occurred from among a plurality of devices connected to an information processing apparatus via a bus. The information processing apparatus of Patent Document 1 executes a test for each device and stores the execution result in a non-volatile storage element, so that it is possible to identify the device in which the error has occurred.
しかしながら、特許文献1の技術は次のような点で十分ではない。特許文献1の技術では、各デバイスの制御を行うマイクロコントローラに異常が生じた際に、デバイス全体が以上として判断される。よって、動作を継続するためには、異常と判断されたデバイスを装置から切り離す必要がある。そのため、他の部位は動作可能であるにも関わらず情報処理装置を停止し、該当するデバイスの交換等を行う必要があるため、稼動を停止しなければならない恐れがある。よって特許文献1の技術は、状態を監視しつつ安定して動作を継続する技術としては十分ではない。 However, the technique of Patent Document 1 is not sufficient in the following points. In the technique of Patent Document 1, when an abnormality occurs in the microcontroller that controls each device, the entire device is judged as described above. Therefore, in order to continue the operation, it is necessary to disconnect the device determined to be abnormal from the device. Therefore, although the other parts can be operated, it is necessary to stop the information processing device and replace the corresponding device, so that the operation may have to be stopped. Therefore, the technique of Patent Document 1 is not sufficient as a technique for continuously operating stably while monitoring the state.
本発明は、機能の一部が停止した場合においても状態の監視を継続しつつ、稼動を継続することができる電子基板を提供することを目的としている。 An object of the present invention is to provide an electronic substrate capable of continuing operation while continuing to monitor the state even when a part of the function is stopped.
上記の課題を解決するため、本発明の電子基板は、第1の制御回路と、第2の制御回路を備えている。第1の制御回路は、温度センサと、記憶素子と、記憶素子に保存されたデータを情報処理装置に出力する出力手段とを有する。第2の制御回路は、温度センサが計測した第1の制御回路の温度の計測データを取得する取得手段と、計測データを記憶素子に書き込む書込手段とを有する。また、第1の制御回路の出力手段は、第2の制御回路に異常が生じた際に、情報処理装置からの要求に応じて温度センサの計測データを情報処理装置に出力する。 In order to solve the above problems, the electronic board of the present invention includes a first control circuit and a second control circuit. The first control circuit includes a temperature sensor, a storage element, and an output means for outputting data stored in the storage element to an information processing device. The second control circuit has an acquisition means for acquiring the temperature measurement data of the first control circuit measured by the temperature sensor, and a writing means for writing the measurement data to the storage element. Further, the output means of the first control circuit outputs the measurement data of the temperature sensor to the information processing device in response to the request from the information processing device when an abnormality occurs in the second control circuit.
本発明の監視方法は、温度センサが計測した第1の制御回路の温度の計測データを第2の制御回路が取得する。本発明の監視方法は、第2の制御回路が計測データを記憶素子に書き込む。本発明の監視方法は、第1の制御回路が記憶素子に保存されたデータを情報処理装置に出力する。本発明の監視方法は、第2の制御回路に異常が生じた際に、情報処理装置からの要求に応じて第1の制御回路が温度センサの計測データを情報処理装置に出力する。 In the monitoring method of the present invention, the second control circuit acquires the temperature measurement data of the first control circuit measured by the temperature sensor. In the monitoring method of the present invention, the second control circuit writes the measurement data to the storage element. In the monitoring method of the present invention, the first control circuit outputs the data stored in the storage element to the information processing apparatus. In the monitoring method of the present invention, when an abnormality occurs in the second control circuit, the first control circuit outputs the measurement data of the temperature sensor to the information processing device in response to a request from the information processing device.
本発明によると、機能の一部が停止した場合においても状態の監視を継続しつつ、稼動を継続することができる。 According to the present invention, even if a part of the function is stopped, the operation can be continued while continuing the monitoring of the state.
(第1の実施形態)
本発明の第1の実施形態について図を参照して詳細に説明する。図1は、本実施形態の電子基板の構成の概要を示したものである。本実施形態の電子基板は、第1の制御回路1と、第2の制御回路2を備えている。第1の制御回路1は、温度センサ3と、記憶素子4と、記憶素子4に保存されたデータを情報処理装置に出力する出力手段5とを有する。第2の制御回路2は、温度センサが計測した第1の制御回路1の温度の計測データを取得する取得手段6と、計測データを記憶素子4に書き込む書込手段7とを有する。また、第1の制御回路1の出力手段5は、第2の制御回路2に異常が生じた際に、情報処理装置からの要求に応じて温度センサ3の計測データを情報処理装置に出力する。
(First Embodiment)
The first embodiment of the present invention will be described in detail with reference to the drawings. FIG. 1 shows an outline of the configuration of the electronic substrate of the present embodiment. The electronic board of the present embodiment includes a first control circuit 1 and a
本実施形態の電子基板は、第2の制御回路2が第1の制御回路1の温度センサの計測データを取得し、第1の制御回路1の記憶素子4に書き込みをおこなっている。電子基板の出力手段5が記憶素子4に書き込まれた計測データを情報処理装置に出力することで、情報処理装置は、第2の制御回路2の稼動の有無を判断することができる。また、第2の制御回路2に異常が生じた際に、出力手段5が温度センサ3の計測データを情報処理装置に出力している。そのような構成とすることで、第2の制御回路2に異常が生じ、電子基板の機能の一部が停止した際にも情報処理装置が監視を継続しつつ、電子基板が動作することが可能になり得る。以上より、本実施形態の電子基板を用いることで、機能の一部が停止した場合においても状態の監視を継続しつつ、稼動を継続することができる。
In the electronic board of the present embodiment, the
(第2の実施形態)
本発明の第2の実施形態について図を参照して詳細に説明する。図2は、本実施形態の情報処理装置の構成の概要を示したものである。本実施形態の情報処理装置は、サーバ10と、PCIデバイス20を備えている。PCIデバイスは、サーバ10のポートに装着されている。PCIデバイスは、1台のサーバ10に複数、装着されていてもよい。
(Second embodiment)
A second embodiment of the present invention will be described in detail with reference to the drawings. FIG. 2 shows an outline of the configuration of the information processing apparatus of the present embodiment. The information processing apparatus of this embodiment includes a
本実施形態の情報処理装置は、正常に稼動しているとき、PCIデバイス上のマイクロコントローラがPCIデバイス上のLSIの温度の監視および動作周波数の制御を行う。また、本実施形態の情報処理装置は、マイクロコントローラに異常が生じているとき、情報処理装置がPCIデバイス上のLSIの温度の監視および動作周波数の制御を行う。 When the information processing apparatus of the present embodiment is operating normally, the microcontroller on the PCI device monitors the temperature of the LSI on the PCI device and controls the operating frequency. Further, in the information processing apparatus of the present embodiment, when an abnormality occurs in the microcontroller, the information processing apparatus monitors the temperature of the LSI on the PCI device and controls the operating frequency.
サーバ10の構成について説明する。図3は、本実施形態のサーバ10の構成を示したものである。サーバ10は、ハードウェア部11と、スロット部12と、診断部13と、デバイスドライバ部14を備えている。
The configuration of the
ハードウェア部11は、診断部13と、デバイスドライバ部14をさらに備えている。ハードウェア部11は、CPU(Central Processing Unit)、メモリおよびハードディスクドライブ等の記憶装置によって形成されている。ハードウェア部11は、CPUが記憶装置に保存されているコンピュータプログラムを読み出し、各処理を実行する。
The
診断部13は、PCIデバイス20の監視を行う機能を有する。診断部13は、PCIデバイス20上のマイクロコントローラの死活監視、すなわち、稼動の有無の監視を行う。診断部13は、マイクロコントローラが正常に稼動しているときに、PCIデバイス20の温度、電圧およびPCIデバイス20に備えられているLSI内の温度を監視する。診断部13は、LSIの温度上昇時に、LSIのサーマルスロットリングを行う。
The
診断部13は、マイクロコントローラの故障を検知した場合に、マイクロコントローラに代わり、PCIデバイス20の温度、電圧およびPCIデバイス20に備えられているLSI内の温度を監視する。また、診断部13は、マイクロコントローラの故障を検知した場合におけるLSIの温度上昇時に、マイクロコントローラに代わってLSIのサーマルスロットリングを行う。診断部13は、ハードウェア部11のCPUが記憶装置に保存されているPCIデバイスの診断用のコンピュータプログラムを実行することで動作する。
When the failure of the microcontroller is detected, the
デバイスドライバ部14は、サーバ10の内部に備えられている各デバイスおよびサーバ10と接続されているPCIデバイス20等の各デバイスとの通信および各デバイスの制御を行う機能を有する。デバイスドライバ部14は、ハードウェア部11のCPUが記憶装置に保存されている各デバイスの制御用のコンピュータプログラムを実行することで動作する。
The
スロット部12は、PCIデバイス20を装着するスロットである。スロット部12は、複数、備えられている。本実施形態のスロット部12は、PCI Express規格に基づいて形成され、ハードウェア部11とPCI Express規格に基づいたバスで接続されている。
The
PCIデバイス20の構成について説明する。図4は、本実施形態のPCIデバイス20の構成を示した図である。PCIデバイス20は、PCIカード型デバイスであり、サーバ10に接続されて、用途に応じた処理を行う。また、本実施形態のPCIデバイス20の各部位間は、I2C(Inter Integrated Circuit)規格に基づいたシリアルバスによって接続されている。
The configuration of the
PCIデバイス20は、ハードウェア部21と、マイクロコントローラ22と、温度センサ23と、電圧センサ24を備えている。ハードウェア部21は、LSI25をさらに備えている。また、LSI25は、内部にLSI制御部26と、LSI温度センサ部27を備えている。PCIデバイス20は、PCI Express規格に基づいて、サーバ10と信号の送受信を行う。
The
ハードウェア部21は、PCIデバイス20の用途に応じた各処理をLSI25等が実行する。LSI25は、PCIデバイス20の用途に応じた各処理および他の機器の制御を行う回路パターンが形成された半導体装置である。LSI制御部26は、LSI25の制御全般を行う機能を有する。
In the
LSI制御部26は、記憶素子を有し、マイクロコントローラ22に要求に基づいて各センサの計測データを保存する。LSI制御部26は、サーバ10の要求に基づいて、記憶素子に保存しているデータをサーバ10に送信する。また、LSI制御部26は、サーバ10の要求に基づいて、各センサの計測データをサーバ10に出力する。
The
LSI制御部26は、サーバ10またはマイクロコントローラ22の要求に基づいてサーマルスロットリングを行う。LSI制御部26は、サーバ10またはマイクロコントローラ22からサーマルスロットリングの開始を要求された際に、LSI25のクロック数を下げ動作周波数を低下させる。また、LSI制御部26は、サーバ10またはマイクロコントローラ22からサーマルスロットリングの停止を要求された際に、LSI25のクロック数を上げ、サーマルスロットリングの開始前の動作周波数でLSI25を動作させる。また、本実施形態のLSI制御部26の機能は、第1の実施形態の記憶素子4と、出力手段5を備える第1の制御回路1に相当する。
The
LSI温度センサ部27は、LSI25の内部の温度を計測する機能を有する。LSI温度センサ部27は、温度の計測データをLSI制御部26またはマイクロコントローラ22に出力する。LSI温度センサ部27は、通常時、すなわち、マイクロコントローラ22が正常に動作しているとき、計測データをマイクロコントローラ22に出力する。また、LSI温度センサ部27は、マイクロコントローラ22の異常時に、計測データをLSI制御部26を介してサーバ10に出力する。また、本実施形態のLSI温度センサ部27の機能は、第1の実施形態の温度センサ3に相当する。
The LSI
マイクロコントローラ22は、PCIデバイス20全般の制御を行う半導体装置である。マイクロコントローラ22は、PCIデバイス上の各センサの計測データの取得と、取得した計測データのLSI制御部26の記憶素子への書き込みを行う。マイクロコントローラ22は、LSI温度センサ部27、温度センサ23および電圧センサ24の計測データをシーケンス番号と関連づけてLSI制御部26の記憶素子のあらかじめ設定された領域に保存する。
The
マイクロコントローラ22は、LSI温度センサ部27において計測された温度が基準値を超えたときに、LSI25のサーマルスロットリングを開始する。マイクロコントローラ22は、LSI25のクロック数を下げ、動作周波数を低下させることでLSI25の温度が上昇しないように制御する。マイクロコントローラ22は、サーマルスロットリングの開始後に、LSI温度センサ部27において計測された温度が基準値以下となったとき、LSI25のサーマルスロットリングを停止する。マイクロコントローラ22は、LSI25のクロック数を上げ、正常時、すなわち、動作周波数をサーマルスロットリングの開始前の設定値に戻すように制御する。また、本実施形態のマイクロコントローラ22の機能は、第1の実施形態の取得手段6と、書込手段7を備える第2の制御回路2に相当する。
The
温度センサ23は、PCIデバイス20の基板の温度を計測し、計測データをLSI制御部26またはマイクロコントローラ22に出力する。温度センサ23は、通常時、すなわち、マイクロコントローラ22が正常に動作しているとき、計測データをマイクロコントローラ22に出力する。温度センサ23は、PCIデバイス20の基板の複数個所に備えられていてもよい。また、温度センサ23は、マイクロコントローラ22の異常時に、計測データをLSI制御部26を介してサーバ10に出力する。
The
電圧センサ24は、LSI25に供給される電圧を計測し、LSI制御部26またはマイクロコントローラ22に出力する。電圧センサ24は、通常時、すなわち、マイクロコントローラ22が正常に動作しているとき、計測データをマイクロコントローラ22に出力する。また、電圧センサ24は、マイクロコントローラ22の異常時に、計測データをLSI制御部26を介してサーバ10に出力する。電圧センサ24は、PCIデバイス20の基板の複数個所に備えられていてもよい。
The
本実施形態の情報処理装置の動作について説明する。図5、図6および図7は、本実施形態の情報処理装置の動作フローの概要を示した図である。図5は、正常動作時の動作フローを示している。図6は、マイクロコントローラ22は、正常に動作している際に、LSI25の温度が基準値以上になった場合の動作フローを示している。また、図7は、マイクロコントローラ22に異常が生じ、サーバ10が各センサの計測データの監視とサーマルスロットリングの制御を行っている場合の動作フローを示している。
The operation of the information processing apparatus of this embodiment will be described. 5, FIG. 6 and FIG. 7 are diagrams showing an outline of the operation flow of the information processing apparatus of the present embodiment. FIG. 5 shows an operation flow during normal operation. FIG. 6 shows an operation flow when the temperature of the LSI 25 becomes equal to or higher than a reference value while the
始めに、マイクロコントローラ22が正常に稼動している際の動作について説明する。情報処理装置が起動すると、サーバ10およびPCIデバイス20が動作を開始する。
First, the operation when the
サーバ10およびPCIデバイス20が動作を開始すると、PCIデバイス20のマイクロコントローラ22は、温度センサ23、電圧センサ24およびLSI温度センサ部27からそれぞれ計測データを読み出す(ステップS11)。各センサから計測データを読み出すと、マイクロコントローラ22は、読み出した各センサの計測データをLSI制御部26の所定の記憶領域に書き込む(ステップS12)。マイクロコントローラ22は、読み出した各センサの計測データをシーケンス番号と関連づけてLSI制御部26に保存する。シーケンス番号は、例えば、書き込みを行うごとに1番ずつ番号が増えるように設定されている。
When the
また、各センサの計測データを読み出すと、マイクロコントローラ22は、各センサの計測データを基準値と比較することで監視する(ステップS16)。計測データの基準値は、センサごとにそれぞれ設定され、マイクロコントローラ22に保存されている。
Further, when the measurement data of each sensor is read out, the
LSI温度センサ部27の計測データが基準値以下のとき、マイクロコントローラ22は、LSI温度センサ部27の計測データの監視を継続する。
When the measurement data of the LSI
LSI温度センサ部27の計測データが基準値を超え、計測データの異常を検知すると(ステップS21)、マイクロコントローラ22は、LSI25のLSI制御部26にサーマルスロットリングの開始の要求を送る。サーマルスロットリングの開始の指示を受け取ると、LSI制御部26は、LSI25の動作周波数を低下させサーマルスロットリングを開始する(ステップS23)。サーマルスロットリングを開始した際の、LSI25のクロック数は、あらかじめ設定されている。
When the measurement data of the LSI
サーマルスロットリングの開始の要求をLSI制御部26に送ると、マイクロコントローラ22は、LSI温度センサ部27の計測データの監視を継続する(ステップS24)。
When a request for starting thermal throttling is sent to the
LSI温度センサ部27の計測データが基準値以下のとき、マイクロコントローラ22は、LSI25のLSI制御部26にサーマルスロットリングを停止の要求を送る(ステップS26)。サーマルスロットリングの停止の要求を受け取ると、LSI制御部26は、LSI25の動作周波数を通常の設定値に戻し、サーマルスロットリングを停止する(ステップS27)。
When the measurement data of the LSI
ステップS16における各センサの計測データの監視において、温度センサ23の計測データが基準値以下のとき、マイクロコントローラ22は、温度センサ23の計測データの監視を継続する。温度センサ23の計測データが基準値を超えているとき、マイクロコントローラ22は、LSI25のLSI制御部26とサーバ10のデバイスドライバ部14を介しサーバ10の診断部13に温度の異常が生じたことを示す情報を送る。
In the monitoring of the measurement data of each sensor in step S16, when the measurement data of the
温度の異常が生じたことを示す情報を受け取ると、サーバ10の診断部13は、異常が生じたことを表示装置に表示し、作業者等に通知する。また、診断部13は、温度の異常が生じたことを示す情報を受け取った際に、サーバ10の稼動を停止させてもよい。
Upon receiving the information indicating that the temperature abnormality has occurred, the
ステップS16における各センサの計測データの監視において、電圧センサ24の計測データが基準値以下のとき、マイクロコントローラ22は、電圧センサ24の計測データの監視を継続する。電圧センサ24の計測データが基準値を超えているとき、マイクロコントローラ22は、LSI25のLSI制御部26とサーバ10のデバイスドライバ部14を介して診断部13に電圧の異常が生じたことを示す情報を送る。
In the monitoring of the measurement data of each sensor in step S16, when the measurement data of the
電圧の異常が生じたことを示す情報を受け取ると、サーバ10の診断部13は、異常が生じたことを表示装置に表示し、作業者等に通知する。また、診断部13は、電圧の異常が生じたことを示す情報を受け取った際に、サーバ10の稼動を停止させてもよい。
Upon receiving the information indicating that the voltage abnormality has occurred, the
サーバ10の診断部13は、PCIデバイス20のLSI制御部26にあらかじめ設定された時間ごとにアクセスする。診断部13は、シーケンス番号を参照し、番号の増加の有無によってマイクロコントローラ22の可動の有無を判断する。診断部13は、シーケンス番号は、基準時間以上、シーケンス番号が増加しなかったときマイクロコントローラ22に異常が生じていると判断する。
The
マイクロコントローラ22が正常に稼動していると判断したとき、サーバ10の診断部13は、マイクロコントローラ22がLSI制御部26に保存するデータを読み出すことでPCIデバイス20の監視を継続する。
When it is determined that the
ステップS15において、マイクロコントローラ22に異常が生じていると判断したとき、サーバ10の診断部13は、PCIデバイス20のLSI制御部26に、各センサの計測データを読み出す要求を送る(ステップS31)。サーバ10の診断部13は、LSI制御部26の記憶素子に保存された計測データに付加されたシーケンス番号があらかじめ決められた時間以上、更新されなかったときにマイクロコントローラ22に稼動停止等の異常が生じていると判断する。
When it is determined in step S15 that an abnormality has occurred in the
各センサのデータを読み出し指示を受け取ると、LSI制御部26は、温度センサ23、電圧センサ24およびLSI温度センサ部27からそれぞれ計測データを読み出す。各センサから計測データを読み出すと、マイクロコントローラ22は、読み出した計測データをサーバ10に出力する(ステップS32)。
Upon receiving the instruction to read the data of each sensor, the
各センサの計測データを受け取ると、サーバ10の診断部13は、各センサの計測データを基準値と比較する。計測データの基準値は、センサごとにそれぞれ設定されている。
Upon receiving the measurement data of each sensor, the
LSI温度センサ部27の計測データが基準値以下のとき(ステップS34でYes)、マイクロコントローラ22は、LSI温度センサ部27の計測データの監視を継続する。
When the measurement data of the LSI
LSI温度センサ部27の計測データが基準値を超えているとき(ステップS34でNo)、診断部13は、LSI25のLSI制御部26にサーマルスロットリングの開始の要求を送る(ステップS35)。サーマルスロットリングの開始の指示を受け取ると、LSI制御部26は、LSI25の動作周波数を低下させ、サーマルスロットリングを開始する(ステップS36)。サーマルスロットリングを開始後の、LSI25のクロック数は、あらかじめ設定されている。
When the measurement data of the LSI
サーマルスロットリングの開始の指示をLSI制御部26に送ると、サーバ10は、診断部13は、LSI温度センサ部27の計測データの監視を継続する。LSI温度センサ部27の計測データが基準値以下のとき(ステップS37でYes)、サーバ10の診断部13は、LSI25のLSI制御部26にサーマルスロットリングの停止の要求を送る(ステップS38)。サーマルスロットリングの停止の共有を受け取ると、LSI制御部26は、LSI25の動作周波数を通常の設定値に戻し、サーマルスロットリングを停止する(ステップS39)。
When an instruction to start thermal throttling is sent to the
サーマルスロットリングを停止する指示を送ると、サーバ10の診断部13は、PCIデバイス20のLSI温度センサ部27の計測データの監視を継続する。
When the instruction to stop the thermal throttling is sent, the
ステップS33において、温度センサ23の計測データが基準値以下のとき、サーバ10の診断部13は、PCIデバイス20の温度センサ23の計測データの監視を継続する。温度センサ23の計測データが基準値を超えているとき、診断部13は、異常が生じたことを表示装置に表示し、作業者等に通知する。また、診断部13は、温度の異常が生じたことを示す情報を受け取った際に、サーバ10の稼動を停止させてもよい。
In step S33, when the measurement data of the
ステップS33において、電圧センサ24の計測データが基準値以下のとき、サーバ10の診断部13は、PCIデバイス20の電圧センサ24の計測データの監視を継続する。電圧センサ24の計測データが基準値を超えているとき、診断部13は、異常が生じたことを表示装置に表示し、作業者等に通知する。また、診断部13は、温度の異常が生じたことを示す情報を受け取った際に、サーバ10の稼動を停止させてもよい。
In step S33, when the measurement data of the
図8および図9は、本実施形態の情報処理装置におけるデータの流れを模式的に示した図である。図8は、マイクロコントローラ22が正常に稼動している際のデータの流れを示している。また、図9は、マイクロコントローラ22の異常が検知され、サーバ10の診断部13がLSI25の監視を行っている際のデータの流れを模式的に示している。
8 and 9 are diagrams schematically showing the flow of data in the information processing apparatus of the present embodiment. FIG. 8 shows the flow of data when the
図8に示すようにマイクロコントローラ22の正常時は、マイクロコントローラ22が各センサの計測データを収集し、LSI制御部26の記憶素子に計測データを保存している。図8に示すマイクロコントローラ22の正常時、サーバ10の診断部13は、LSI制御部26のデータ更新の有無を参照することでマイクロコントローラ22の監視を行っている。また、図8に示すマイクロコントローラ22の正常時、LSI温度センサ部27の計測データが基準値を超えたときにマイクロコントローラ22の制御によってLSI25のサーマルスロットリングを実行している。図8のように、マイクロコントローラ22の制御によって、LSI25の温度の監視およびサーマルスロットリングの実行を行うことで、サーバ10の診断部13やスロット部12の負荷を低減しつつ、監視を行うことができる。
As shown in FIG. 8, when the
図9に示すようにマイクロコントローラ22の異常発生時は、サーバ10の診断部13が、LSI制御部26を介して各センサの計測データを収集している。図8に示すマイクロコントローラ22の正常時、サーバ10の診断部13は、LSI制御部26のデータ更新の有無を参照することでマイクロコントローラ22の監視を行っている。また、図9に示すマイクロコントローラ22の異常発生時時、LSI温度センサ部27の計測データが基準値を超えたときにサーバ10の診断部13の制御によってLSI25のサーマルスロットリングを実行している。図9のように、マイクロコントローラ22の異常発生時にサーバ10の制御によって、LSI25の温度の監視およびサーマルスロットリングの実行を行うことで、PCIデバイス20全体を停止させずに稼動を継続することが可能になり得る。
As shown in FIG. 9, when an abnormality occurs in the
マイクロコントローラのみが、各センサの計測データの監視とサーマルスロットリングの制御を行う場合、PCIデバイスのマイクロコントローラが故障した場合、温度センサと電圧センサの値を読み出すことができない。そのため、PCIデバイスの温度と電圧の異常検知ができなくなる。また、LSIの温度の上昇を防ぐサーマルスロットリングを行うことができなくなる。そのため、情報処理装置からPCIデバイスを切り離して交換しない限り、安定して稼動させつつPCIデバイスの機能に相当する処理を継続することができない。 When only the microcontroller monitors the measurement data of each sensor and controls the thermal throttling, if the microcontroller of the PCI device fails, the values of the temperature sensor and the voltage sensor cannot be read out. Therefore, it becomes impossible to detect abnormalities in the temperature and voltage of the PCI device. Further, it becomes impossible to perform thermal throttling to prevent the temperature of the LSI from rising. Therefore, unless the PCI device is separated from the information processing device and replaced, it is not possible to continue the processing corresponding to the function of the PCI device while operating it stably.
一方で、本実施形態の情報処理装置は、PCIデバイス20において、LSI25内のLSI制御部26およびマイクロコントローラ22をマスタに、各センサをスレーブにして、両マスタから各スレーブの計測データを読み取るマルチマスタ構成を有している。本実施形態の情報処理装置は、サーバ10の診断部13においてマイクロコントローラ22の死活監視を実施し、正常時はマイクロコントローラ22がPCIデバイス20の温度および電圧並びにLSI25の温度を監視している。また、マイクロコントローラ22の正常時、LSI25の温度上昇時に、マイクロコントローラ22の制御によってLSI25のサーマルスロットリングを実行している。
On the other hand, in the information processing apparatus of this embodiment, in the
サーバ10の診断部13がマイクロコントローラ22の異常を検知した場合に、診断部13は、マイクロコントローラ22に代わり、PCIデバイス20の温度、電圧およびLSI25の温度を監視している。また、マイクロコントローラ22の異常が発生している際に、LSI25の温度上昇時に、診断部13の制御によってLSI25のサーマルスロットリングを実行している。このような構成とすることで、本実施形態の情報処理装置は、マイクロコントローラ22に異常が発生した場合でも継続してPCIデバイス20の温度と電圧の監視し、LSI25のスロットリングを実行できるため、PCIデバイス20を切り離すこと無く使用することができる。その結果、本実施形態の情報処理装置は、機能の一部が停止した場合においても状態の監視を継続しつつ、稼動を継続することができる。
When the
第2の実施形態では、PCIデバイス20が1個のみサーバ10に接続されている構成について説明したが、複数のPCIデバイス20が1台のサーバ10に接続されていてもよい。そのような構成とする場合には、サーバ10は、個々のPCIデバイス20ごとにマイクロコントローラ22の監視を行い、異常の生じたPCIデバイス20に対してのみ計測データの監視とサーマルスロットリングの制御を行う。
In the second embodiment, the configuration in which only one
第2の実施形態では、PCIデバイスの温度上昇時にLSIの動作周波数を低下させることで熱の発生を抑制している。そのような構成に代えて、PCIデバイスの温度上昇時にLSIが実行する命令の数を抑制することでLSIの稼動を下げ熱の発生を抑制するこうせいとしてよい。 In the second embodiment, heat generation is suppressed by lowering the operating frequency of the LSI when the temperature of the PCI device rises. Instead of such a configuration, the operation of the LSI may be lowered and the generation of heat may be suppressed by suppressing the number of instructions executed by the LSI when the temperature of the PCI device rises.
1 第1の制御回路
2 第2の制御回路
3 温度センサ
4 記憶素子
5 出力手段
6 取得手段
7 書込手段
10 サーバ
11 ハードウェア部
12 スロット部
13 診断部
14 デバイスドライバ部
20 PCIデバイス
21 ハードウェア部
22 マイクロコントローラ
23 温度センサ
24 電圧センサ
25 LSI
26 LSI制御部
27 LSI温度センサ部
1
26
Claims (10)
前記温度センサが計測した前記第1の制御回路の温度の計測データを取得する取得手段と、計測データを前記記憶素子に書き込む書込手段とを有する第2の制御回路と
を備え、
前記第1の制御回路の前記出力手段は、前記第2の制御回路に異常が生じた際に、情報処理装置からの要求に応じて前記温度センサの計測データを前記情報処理装置に出力することを特徴とする電子基板。 A first control circuit having a temperature sensor, a storage element, and an output means for outputting data stored in the storage element to an information processing device.
A second control circuit having an acquisition means for acquiring the temperature measurement data of the first control circuit measured by the temperature sensor and a writing means for writing the measurement data to the storage element is provided.
The output means of the first control circuit outputs measurement data of the temperature sensor to the information processing device in response to a request from the information processing device when an abnormality occurs in the second control circuit. An electronic board characterized by.
前記第2の制御回路は、前記温度センサの計測データが基準温度以上であったとき、前記第1の制御回路の動作周波数を低下させる第2の周波数制御手段をさらに有することを特徴とする請求項1に記載の電子基板。 The first control circuit further includes a first frequency control means for controlling the operating frequency of the first control circuit.
The second control circuit is further characterized by further comprising a second frequency control means for lowering the operating frequency of the first control circuit when the measurement data of the temperature sensor is equal to or higher than the reference temperature. Item 1. The electronic substrate according to Item 1.
前記第2の制御回路は、前記温度センサの計測データが基準温度以上であったとき、前記第1の制御回路の実行命令数を低下させる第2の命令数制御手段をさらに備えることを特徴とする請求項1に記載の電子基板。 The first control circuit further includes a first instruction number control means for controlling the number of execution instructions of the first control circuit.
The second control circuit is further provided with a second instruction number control means for reducing the number of execution instructions of the first control circuit when the measurement data of the temperature sensor is equal to or higher than the reference temperature. The electronic substrate according to claim 1.
前記電子基板の前記第1の制御回路の前記記憶素子のデータを取得するデータ取得手段と
前記記憶素子に前記第2の制御回路が保存するデータを基に前記第2の制御回路を監視する監視手段と
を備え、
前記監視手段は、前記第2の制御回路の前記書込手段があらかじめ設定された時間以上、前記記憶素子に前記温度センサの計測データを保存しなかったときに前記第2の制御回路に異常が生じていると判断することを特徴とする情報処理装置。 With any of the electronic boards of claims 1 to 5 ,
Monitoring that monitors the second control circuit based on the data acquisition means for acquiring the data of the storage element of the first control circuit of the electronic board and the data stored in the storage element by the second control circuit. Equipped with means,
The monitoring means has an abnormality in the second control circuit when the writing means of the second control circuit does not store the measurement data of the temperature sensor in the storage element for a preset time or longer. An information processing device characterized by determining that it has occurred.
前記第1の制御回路の前記温度センサの計測データを基に、前記第1の制御回路の状態を監視する第2の監視手段と
をさらに備え、
前記第2の監視手段は、前記第2の制御回路が正常であるときは、前記記憶素子に前記第2の制御回路が保存した計測データを基に前記第1の制御回路の状態を監視し、前記第2の制御回路に異常が生じているときは、前記第2のデータ取得手段が取得する前記温度センサの計測データを基に前記第1の制御回路の状態を監視することを特徴とする請求項7に記載の情報処理装置。 A second data acquisition means for acquiring measurement data from the temperature sensor of the first control circuit, and
A second monitoring means for monitoring the state of the first control circuit is further provided based on the measurement data of the temperature sensor of the first control circuit.
When the second control circuit is normal, the second monitoring means monitors the state of the first control circuit based on the measurement data stored in the storage element by the second control circuit. When an abnormality occurs in the second control circuit, the state of the first control circuit is monitored based on the measurement data of the temperature sensor acquired by the second data acquisition means. The information processing apparatus according to claim 7.
前記第2の制御回路が計測データを前記第1の制御回路が有する記憶素子に書き込み、
前記第1の制御回路が前記記憶素子に保存されたデータを情報処理装置に出力し、
記第2の制御回路に異常が生じた際に、情報処理装置からの要求に応じて前記第1の制御回路が前記温度センサの前記計測データを前記情報処理装置に出力することを特徴とする監視方法。 The second control circuit acquires the temperature measurement data of the first control circuit measured by the temperature sensor, and the second control circuit acquires it.
The second control circuit writes the measurement data to the storage element of the first control circuit, and writes the measurement data to the storage element.
The first control circuit outputs the data stored in the storage element to the information processing apparatus, and outputs the data to the information processing apparatus.
When an abnormality occurs in the second control circuit, the first control circuit outputs the measurement data of the temperature sensor to the information processing device in response to a request from the information processing device. Monitoring method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019026236A JP7002486B2 (en) | 2019-02-18 | 2019-02-18 | Electronic board and monitoring method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019026236A JP7002486B2 (en) | 2019-02-18 | 2019-02-18 | Electronic board and monitoring method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020135259A JP2020135259A (en) | 2020-08-31 |
JP7002486B2 true JP7002486B2 (en) | 2022-01-20 |
Family
ID=72263112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019026236A Active JP7002486B2 (en) | 2019-02-18 | 2019-02-18 | Electronic board and monitoring method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7002486B2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004022724A (en) | 2002-06-14 | 2004-01-22 | Konica Minolta Holdings Inc | Semiconductor integrated circuit device and method of constituting semiconductor integrated circuit |
JP2007219846A (en) | 2006-02-16 | 2007-08-30 | Fuji Xerox Co Ltd | Abnormality monitoring/recording method for semiconductor disk device, program, semiconductor disk device and storage system |
JP2013167932A (en) | 2012-02-14 | 2013-08-29 | Hitachi Cable Ltd | Electronic apparatus |
-
2019
- 2019-02-18 JP JP2019026236A patent/JP7002486B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004022724A (en) | 2002-06-14 | 2004-01-22 | Konica Minolta Holdings Inc | Semiconductor integrated circuit device and method of constituting semiconductor integrated circuit |
JP2007219846A (en) | 2006-02-16 | 2007-08-30 | Fuji Xerox Co Ltd | Abnormality monitoring/recording method for semiconductor disk device, program, semiconductor disk device and storage system |
JP2013167932A (en) | 2012-02-14 | 2013-08-29 | Hitachi Cable Ltd | Electronic apparatus |
Also Published As
Publication number | Publication date |
---|---|
JP2020135259A (en) | 2020-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6008070B1 (en) | Operation management apparatus, operation management method, and recording medium on which operation management program is recorded | |
US7363520B1 (en) | Techniques for providing power to a set of powerable devices | |
US8176365B2 (en) | Computer apparatus and processor diagnostic method | |
JP4886558B2 (en) | Information processing device | |
US7774690B2 (en) | Apparatus and method for detecting data error | |
JP7002486B2 (en) | Electronic board and monitoring method | |
JP2016071635A (en) | Abnormality monitoring circuit of ECU | |
JP6880961B2 (en) | Information processing device and log recording method | |
JP2007018034A (en) | Control unit and control method | |
JPH1011319A (en) | Method for maintaining multiprocessor system | |
JP6800935B2 (en) | How to control a fan in an electronic system | |
JP5332257B2 (en) | Server system, server management method, and program thereof | |
WO2017072904A1 (en) | Computer system and failure detection method | |
JP2010187503A (en) | Power supply system, and diagnostic method and program for the same | |
JPH10283767A (en) | Temperature information reporting device for storage device, storage device array, and storage device array system | |
JP2003256240A (en) | Information processor and its failure recovering method | |
JP6094685B2 (en) | Information processing apparatus and information processing apparatus control program | |
JP2022052504A (en) | Bmc, server system, device stabilization determination method, and program | |
JP5733515B2 (en) | Embedded equipment with RAS function | |
JP3040186B2 (en) | Digital controller for control | |
WO2024121939A1 (en) | Pin electronics device, testing device, and method | |
JP6230092B2 (en) | Monitoring system | |
WO2024121938A1 (en) | Pin electronics device, testing device, and method | |
JP6410015B2 (en) | Information processing device | |
US11516029B2 (en) | Process measuring device having a plug-in memory unit |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200615 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210525 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210526 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210720 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20211110 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211227 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7002486 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |