JP7002486B2 - Electronic board and monitoring method - Google Patents

Electronic board and monitoring method Download PDF

Info

Publication number
JP7002486B2
JP7002486B2 JP2019026236A JP2019026236A JP7002486B2 JP 7002486 B2 JP7002486 B2 JP 7002486B2 JP 2019026236 A JP2019026236 A JP 2019026236A JP 2019026236 A JP2019026236 A JP 2019026236A JP 7002486 B2 JP7002486 B2 JP 7002486B2
Authority
JP
Japan
Prior art keywords
control circuit
measurement data
temperature sensor
lsi
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019026236A
Other languages
Japanese (ja)
Other versions
JP2020135259A (en
Inventor
浩司 桐原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Platforms Ltd
Original Assignee
NEC Platforms Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Platforms Ltd filed Critical NEC Platforms Ltd
Priority to JP2019026236A priority Critical patent/JP7002486B2/en
Publication of JP2020135259A publication Critical patent/JP2020135259A/en
Application granted granted Critical
Publication of JP7002486B2 publication Critical patent/JP7002486B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Semiconductor Integrated Circuits (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、情報処理装置に接続されている基板の監視技術に関するものであり、特に、基板上の半導体装置の稼動状態の監視に関するものである。 The present invention relates to a technique for monitoring a substrate connected to an information processing apparatus, and more particularly to to monitor an operating state of a semiconductor device on the substrate.

計算機システムは、サーバと、PCIe(PCI Express)スロットを介してサーバに接続されているPCIカード型デバイス(以下、PCIデバイスという)によって構成されていることが多い。計算機システムは、安定した状態で継続して動作することが要求される。そのため、PCIデバイスが接続されたサーバ等の装置は、PCIデバイスが正常に稼動しているかの監視を行う。 A computer system is often composed of a server and a PCI card type device (hereinafter referred to as a PCI device) connected to the server via a PCIe (PCI Express) slot. The computer system is required to operate continuously in a stable state. Therefore, a device such as a server to which the PCI device is connected monitors whether the PCI device is operating normally.

PCIデバイスには、用途に応じたLSI(Large Scale Integration)やPCIデバイスの制御を行うマイクロコントローラ等が用いられている。よって、計算機システムの安定動作のためには、PCIデバイス上のLSIやマイクロコントローラ等の半導体装置の動作制御や稼動状態の監視が適切に行われることが必要となる。そのため、PCIデバイスが接続された装置において、PCIデバイス上の各素子の監視を行う技術が開発されている。そのような、PCIデバイス上の各素子の監視を行う技術としては、例えば、特許文献1のような技術が開示されている。 As the PCI device, an LSI (Large Scale Integration) according to the application, a microcontroller for controlling the PCI device, or the like is used. Therefore, for stable operation of the computer system, it is necessary to appropriately control the operation of semiconductor devices such as LSIs and microcontrollers on the PCI device and monitor the operating state. Therefore, in a device to which a PCI device is connected, a technique for monitoring each element on the PCI device has been developed. As a technique for monitoring each element on the PCI device, for example, a technique such as Patent Document 1 is disclosed.

特許文献1は、バスを介して情報処理装置に接続された複数のデバイスの中からエラーが発生したデバイスを特定する技術に関するものである。特許文献1の情報処理装置は、デバイスごとに試験を実行し、実行結果を不揮発性の記憶素子に保存することでエラーが発生したデイバスの特定を可能にしている。 Patent Document 1 relates to a technique for identifying a device in which an error has occurred from among a plurality of devices connected to an information processing apparatus via a bus. The information processing apparatus of Patent Document 1 executes a test for each device and stores the execution result in a non-volatile storage element, so that it is possible to identify the device in which the error has occurred.

特開2003-022222号公報Japanese Patent Application Laid-Open No. 2003-022222

しかしながら、特許文献1の技術は次のような点で十分ではない。特許文献1の技術では、各デバイスの制御を行うマイクロコントローラに異常が生じた際に、デバイス全体が以上として判断される。よって、動作を継続するためには、異常と判断されたデバイスを装置から切り離す必要がある。そのため、他の部位は動作可能であるにも関わらず情報処理装置を停止し、該当するデバイスの交換等を行う必要があるため、稼動を停止しなければならない恐れがある。よって特許文献1の技術は、状態を監視しつつ安定して動作を継続する技術としては十分ではない。 However, the technique of Patent Document 1 is not sufficient in the following points. In the technique of Patent Document 1, when an abnormality occurs in the microcontroller that controls each device, the entire device is judged as described above. Therefore, in order to continue the operation, it is necessary to disconnect the device determined to be abnormal from the device. Therefore, although the other parts can be operated, it is necessary to stop the information processing device and replace the corresponding device, so that the operation may have to be stopped. Therefore, the technique of Patent Document 1 is not sufficient as a technique for continuously operating stably while monitoring the state.

本発明は、機能の一部が停止した場合においても状態の監視を継続しつつ、稼動を継続することができる電子基板を提供することを目的としている。 An object of the present invention is to provide an electronic substrate capable of continuing operation while continuing to monitor the state even when a part of the function is stopped.

上記の課題を解決するため、本発明の電子基板は、第1の制御回路と、第2の制御回路を備えている。第1の制御回路は、温度センサと、記憶素子と、記憶素子に保存されたデータを情報処理装置に出力する出力手段とを有する。第2の制御回路は、温度センサが計測した第1の制御回路の温度の計測データを取得する取得手段と、計測データを記憶素子に書き込む書込手段とを有する。また、第1の制御回路の出力手段は、第2の制御回路に異常が生じた際に、情報処理装置からの要求に応じて温度センサの計測データを情報処理装置に出力する。 In order to solve the above problems, the electronic board of the present invention includes a first control circuit and a second control circuit. The first control circuit includes a temperature sensor, a storage element, and an output means for outputting data stored in the storage element to an information processing device. The second control circuit has an acquisition means for acquiring the temperature measurement data of the first control circuit measured by the temperature sensor, and a writing means for writing the measurement data to the storage element. Further, the output means of the first control circuit outputs the measurement data of the temperature sensor to the information processing device in response to the request from the information processing device when an abnormality occurs in the second control circuit.

本発明の監視方法は、温度センサが計測した第1の制御回路の温度の計測データを第2の制御回路が取得する。本発明の監視方法は、第2の制御回路が計測データを記憶素子に書き込む。本発明の監視方法は、第1の制御回路が記憶素子に保存されたデータを情報処理装置に出力する。本発明の監視方法は、第2の制御回路に異常が生じた際に、情報処理装置からの要求に応じて第1の制御回路が温度センサの計測データを情報処理装置に出力する。 In the monitoring method of the present invention, the second control circuit acquires the temperature measurement data of the first control circuit measured by the temperature sensor. In the monitoring method of the present invention, the second control circuit writes the measurement data to the storage element. In the monitoring method of the present invention, the first control circuit outputs the data stored in the storage element to the information processing apparatus. In the monitoring method of the present invention, when an abnormality occurs in the second control circuit, the first control circuit outputs the measurement data of the temperature sensor to the information processing device in response to a request from the information processing device.

本発明によると、機能の一部が停止した場合においても状態の監視を継続しつつ、稼動を継続することができる。 According to the present invention, even if a part of the function is stopped, the operation can be continued while continuing the monitoring of the state.

本発明の第1の実施形態の構成の概要を示す図である。It is a figure which shows the outline of the structure of the 1st Embodiment of this invention. 本発明の第2の実施形態の構成の概要を示す図である。It is a figure which shows the outline of the structure of the 2nd Embodiment of this invention. 本発明の第2の実施形態のサーバの構成を示す図である。It is a figure which shows the structure of the server of the 2nd Embodiment of this invention. 本発明の第2の実施形態のPCIデバイスの構成を示す図である。It is a figure which shows the structure of the PCI device of the 2nd Embodiment of this invention. 本発明の第2の実施形態の動作フローの概要を示す図である。It is a figure which shows the outline of the operation flow of the 2nd Embodiment of this invention. 本発明の第2の実施形態の動作フローの概要を示す図である。It is a figure which shows the outline of the operation flow of the 2nd Embodiment of this invention. 本発明の第2の実施形態の動作フローの概要を示す図である。It is a figure which shows the outline of the operation flow of the 2nd Embodiment of this invention. 本発明の第2の実施形態におけるデータの流れを模式的に示した図である。It is a figure which showed typically the flow of data in the 2nd Embodiment of this invention. 本発明の第2の実施形態におけるデータの流れを模式的に示した図である。It is a figure which showed typically the flow of data in the 2nd Embodiment of this invention.

(第1の実施形態)
本発明の第1の実施形態について図を参照して詳細に説明する。図1は、本実施形態の電子基板の構成の概要を示したものである。本実施形態の電子基板は、第1の制御回路1と、第2の制御回路2を備えている。第1の制御回路1は、温度センサ3と、記憶素子4と、記憶素子4に保存されたデータを情報処理装置に出力する出力手段5とを有する。第2の制御回路2は、温度センサが計測した第1の制御回路1の温度の計測データを取得する取得手段6と、計測データを記憶素子4に書き込む書込手段7とを有する。また、第1の制御回路1の出力手段5は、第2の制御回路2に異常が生じた際に、情報処理装置からの要求に応じて温度センサ3の計測データを情報処理装置に出力する。
(First Embodiment)
The first embodiment of the present invention will be described in detail with reference to the drawings. FIG. 1 shows an outline of the configuration of the electronic substrate of the present embodiment. The electronic board of the present embodiment includes a first control circuit 1 and a second control circuit 2. The first control circuit 1 includes a temperature sensor 3, a storage element 4, and an output means 5 that outputs data stored in the storage element 4 to an information processing device. The second control circuit 2 has an acquisition means 6 for acquiring the temperature measurement data of the first control circuit 1 measured by the temperature sensor, and a writing means 7 for writing the measurement data to the storage element 4. Further, the output means 5 of the first control circuit 1 outputs the measurement data of the temperature sensor 3 to the information processing device in response to a request from the information processing device when an abnormality occurs in the second control circuit 2. ..

本実施形態の電子基板は、第2の制御回路2が第1の制御回路1の温度センサの計測データを取得し、第1の制御回路1の記憶素子4に書き込みをおこなっている。電子基板の出力手段5が記憶素子4に書き込まれた計測データを情報処理装置に出力することで、情報処理装置は、第2の制御回路2の稼動の有無を判断することができる。また、第2の制御回路2に異常が生じた際に、出力手段5が温度センサ3の計測データを情報処理装置に出力している。そのような構成とすることで、第2の制御回路2に異常が生じ、電子基板の機能の一部が停止した際にも情報処理装置が監視を継続しつつ、電子基板が動作することが可能になり得る。以上より、本実施形態の電子基板を用いることで、機能の一部が停止した場合においても状態の監視を継続しつつ、稼動を継続することができる。 In the electronic board of the present embodiment, the second control circuit 2 acquires the measurement data of the temperature sensor of the first control circuit 1 and writes the measurement data to the storage element 4 of the first control circuit 1. By outputting the measurement data written in the storage element 4 to the information processing apparatus by the output means 5 of the electronic board, the information processing apparatus can determine whether or not the second control circuit 2 is in operation. Further, when an abnormality occurs in the second control circuit 2, the output means 5 outputs the measurement data of the temperature sensor 3 to the information processing device. With such a configuration, even if an abnormality occurs in the second control circuit 2 and a part of the functions of the electronic board is stopped, the information processing apparatus can continue to monitor and the electronic board can operate. It can be possible. From the above, by using the electronic board of the present embodiment, it is possible to continue the operation while continuing the monitoring of the state even when a part of the functions is stopped.

(第2の実施形態)
本発明の第2の実施形態について図を参照して詳細に説明する。図2は、本実施形態の情報処理装置の構成の概要を示したものである。本実施形態の情報処理装置は、サーバ10と、PCIデバイス20を備えている。PCIデバイスは、サーバ10のポートに装着されている。PCIデバイスは、1台のサーバ10に複数、装着されていてもよい。
(Second embodiment)
A second embodiment of the present invention will be described in detail with reference to the drawings. FIG. 2 shows an outline of the configuration of the information processing apparatus of the present embodiment. The information processing apparatus of this embodiment includes a server 10 and a PCI device 20. The PCI device is attached to the port of the server 10. A plurality of PCI devices may be mounted on one server 10.

本実施形態の情報処理装置は、正常に稼動しているとき、PCIデバイス上のマイクロコントローラがPCIデバイス上のLSIの温度の監視および動作周波数の制御を行う。また、本実施形態の情報処理装置は、マイクロコントローラに異常が生じているとき、情報処理装置がPCIデバイス上のLSIの温度の監視および動作周波数の制御を行う。 When the information processing apparatus of the present embodiment is operating normally, the microcontroller on the PCI device monitors the temperature of the LSI on the PCI device and controls the operating frequency. Further, in the information processing apparatus of the present embodiment, when an abnormality occurs in the microcontroller, the information processing apparatus monitors the temperature of the LSI on the PCI device and controls the operating frequency.

サーバ10の構成について説明する。図3は、本実施形態のサーバ10の構成を示したものである。サーバ10は、ハードウェア部11と、スロット部12と、診断部13と、デバイスドライバ部14を備えている。 The configuration of the server 10 will be described. FIG. 3 shows the configuration of the server 10 of the present embodiment. The server 10 includes a hardware unit 11, a slot unit 12, a diagnostic unit 13, and a device driver unit 14.

ハードウェア部11は、診断部13と、デバイスドライバ部14をさらに備えている。ハードウェア部11は、CPU(Central Processing Unit)、メモリおよびハードディスクドライブ等の記憶装置によって形成されている。ハードウェア部11は、CPUが記憶装置に保存されているコンピュータプログラムを読み出し、各処理を実行する。 The hardware unit 11 further includes a diagnostic unit 13 and a device driver unit 14. The hardware unit 11 is formed by a storage device such as a CPU (Central Processing Unit), a memory, and a hard disk drive. The hardware unit 11 reads the computer program stored in the storage device by the CPU and executes each process.

診断部13は、PCIデバイス20の監視を行う機能を有する。診断部13は、PCIデバイス20上のマイクロコントローラの死活監視、すなわち、稼動の有無の監視を行う。診断部13は、マイクロコントローラが正常に稼動しているときに、PCIデバイス20の温度、電圧およびPCIデバイス20に備えられているLSI内の温度を監視する。診断部13は、LSIの温度上昇時に、LSIのサーマルスロットリングを行う。 The diagnostic unit 13 has a function of monitoring the PCI device 20. The diagnostic unit 13 monitors the life and death of the microcontroller on the PCI device 20, that is, monitors the presence or absence of operation. The diagnostic unit 13 monitors the temperature and voltage of the PCI device 20 and the temperature in the LSI provided in the PCI device 20 when the microcontroller is operating normally. The diagnostic unit 13 performs thermal throttling of the LSI when the temperature of the LSI rises.

診断部13は、マイクロコントローラの故障を検知した場合に、マイクロコントローラに代わり、PCIデバイス20の温度、電圧およびPCIデバイス20に備えられているLSI内の温度を監視する。また、診断部13は、マイクロコントローラの故障を検知した場合におけるLSIの温度上昇時に、マイクロコントローラに代わってLSIのサーマルスロットリングを行う。診断部13は、ハードウェア部11のCPUが記憶装置に保存されているPCIデバイスの診断用のコンピュータプログラムを実行することで動作する。 When the failure of the microcontroller is detected, the diagnostic unit 13 monitors the temperature and voltage of the PCI device 20 and the temperature in the LSI provided in the PCI device 20 instead of the microcontroller. Further, the diagnostic unit 13 performs thermal throttling of the LSI in place of the microcontroller when the temperature of the LSI rises when a failure of the microcontroller is detected. The diagnostic unit 13 operates by the CPU of the hardware unit 11 executing a computer program for diagnosing a PCI device stored in a storage device.

デバイスドライバ部14は、サーバ10の内部に備えられている各デバイスおよびサーバ10と接続されているPCIデバイス20等の各デバイスとの通信および各デバイスの制御を行う機能を有する。デバイスドライバ部14は、ハードウェア部11のCPUが記憶装置に保存されている各デバイスの制御用のコンピュータプログラムを実行することで動作する。 The device driver unit 14 has a function of communicating with each device provided inside the server 10 and each device such as a PCI device 20 connected to the server 10 and controlling each device. The device driver unit 14 operates by the CPU of the hardware unit 11 executing a computer program for controlling each device stored in the storage device.

スロット部12は、PCIデバイス20を装着するスロットである。スロット部12は、複数、備えられている。本実施形態のスロット部12は、PCI Express規格に基づいて形成され、ハードウェア部11とPCI Express規格に基づいたバスで接続されている。 The slot portion 12 is a slot in which the PCI device 20 is mounted. A plurality of slot portions 12 are provided. The slot portion 12 of the present embodiment is formed based on the PCI Express standard, and is connected to the hardware portion 11 by a bus based on the PCI Express standard.

PCIデバイス20の構成について説明する。図4は、本実施形態のPCIデバイス20の構成を示した図である。PCIデバイス20は、PCIカード型デバイスであり、サーバ10に接続されて、用途に応じた処理を行う。また、本実施形態のPCIデバイス20の各部位間は、I2C(Inter Integrated Circuit)規格に基づいたシリアルバスによって接続されている。 The configuration of the PCI device 20 will be described. FIG. 4 is a diagram showing the configuration of the PCI device 20 of the present embodiment. The PCI device 20 is a PCI card type device, is connected to the server 10, and performs processing according to the application. Further, each part of the PCI device 20 of the present embodiment is connected by a serial bus based on the I2C (Inter Integrated Circuit) standard.

PCIデバイス20は、ハードウェア部21と、マイクロコントローラ22と、温度センサ23と、電圧センサ24を備えている。ハードウェア部21は、LSI25をさらに備えている。また、LSI25は、内部にLSI制御部26と、LSI温度センサ部27を備えている。PCIデバイス20は、PCI Express規格に基づいて、サーバ10と信号の送受信を行う。 The PCI device 20 includes a hardware unit 21, a microcontroller 22, a temperature sensor 23, and a voltage sensor 24. The hardware unit 21 further includes an LSI 25. Further, the LSI 25 includes an LSI control unit 26 and an LSI temperature sensor unit 27 inside. The PCI device 20 transmits and receives signals to and from the server 10 based on the PCI Express standard.

ハードウェア部21は、PCIデバイス20の用途に応じた各処理をLSI25等が実行する。LSI25は、PCIデバイス20の用途に応じた各処理および他の機器の制御を行う回路パターンが形成された半導体装置である。LSI制御部26は、LSI25の制御全般を行う機能を有する。 In the hardware unit 21, the LSI 25 or the like executes each process according to the use of the PCI device 20. The LSI 25 is a semiconductor device in which a circuit pattern for performing each process and control of other devices according to the use of the PCI device 20 is formed. The LSI control unit 26 has a function of performing overall control of the LSI 25.

LSI制御部26は、記憶素子を有し、マイクロコントローラ22に要求に基づいて各センサの計測データを保存する。LSI制御部26は、サーバ10の要求に基づいて、記憶素子に保存しているデータをサーバ10に送信する。また、LSI制御部26は、サーバ10の要求に基づいて、各センサの計測データをサーバ10に出力する。 The LSI control unit 26 has a storage element, and stores the measurement data of each sensor in the microcontroller 22 based on the request. The LSI control unit 26 transmits the data stored in the storage element to the server 10 based on the request of the server 10. Further, the LSI control unit 26 outputs the measurement data of each sensor to the server 10 based on the request of the server 10.

LSI制御部26は、サーバ10またはマイクロコントローラ22の要求に基づいてサーマルスロットリングを行う。LSI制御部26は、サーバ10またはマイクロコントローラ22からサーマルスロットリングの開始を要求された際に、LSI25のクロック数を下げ動作周波数を低下させる。また、LSI制御部26は、サーバ10またはマイクロコントローラ22からサーマルスロットリングの停止を要求された際に、LSI25のクロック数を上げ、サーマルスロットリングの開始前の動作周波数でLSI25を動作させる。また、本実施形態のLSI制御部26の機能は、第1の実施形態の記憶素子4と、出力手段5を備える第1の制御回路1に相当する。 The LSI control unit 26 performs thermal throttling based on the request of the server 10 or the microcontroller 22. When the server 10 or the microcontroller 22 requests the start of thermal throttling, the LSI control unit 26 lowers the number of clocks of the LSI 25 and lowers the operating frequency. Further, when the server 10 or the microcontroller 22 requests to stop the thermal throttling, the LSI control unit 26 increases the number of clocks of the LSI 25 and operates the LSI 25 at the operating frequency before the start of the thermal throttling. Further, the function of the LSI control unit 26 of the present embodiment corresponds to the first control circuit 1 including the storage element 4 and the output means 5 of the first embodiment.

LSI温度センサ部27は、LSI25の内部の温度を計測する機能を有する。LSI温度センサ部27は、温度の計測データをLSI制御部26またはマイクロコントローラ22に出力する。LSI温度センサ部27は、通常時、すなわち、マイクロコントローラ22が正常に動作しているとき、計測データをマイクロコントローラ22に出力する。また、LSI温度センサ部27は、マイクロコントローラ22の異常時に、計測データをLSI制御部26を介してサーバ10に出力する。また、本実施形態のLSI温度センサ部27の機能は、第1の実施形態の温度センサ3に相当する。 The LSI temperature sensor unit 27 has a function of measuring the temperature inside the LSI 25. The LSI temperature sensor unit 27 outputs the temperature measurement data to the LSI control unit 26 or the microcontroller 22. The LSI temperature sensor unit 27 outputs measurement data to the microcontroller 22 during normal operation, that is, when the microcontroller 22 is operating normally. Further, the LSI temperature sensor unit 27 outputs measurement data to the server 10 via the LSI control unit 26 when the microcontroller 22 has an abnormality. Further, the function of the LSI temperature sensor unit 27 of the present embodiment corresponds to the temperature sensor 3 of the first embodiment.

マイクロコントローラ22は、PCIデバイス20全般の制御を行う半導体装置である。マイクロコントローラ22は、PCIデバイス上の各センサの計測データの取得と、取得した計測データのLSI制御部26の記憶素子への書き込みを行う。マイクロコントローラ22は、LSI温度センサ部27、温度センサ23および電圧センサ24の計測データをシーケンス番号と関連づけてLSI制御部26の記憶素子のあらかじめ設定された領域に保存する。 The microcontroller 22 is a semiconductor device that controls the PCI device 20 in general. The microcontroller 22 acquires measurement data of each sensor on the PCI device and writes the acquired measurement data to the storage element of the LSI control unit 26. The microcontroller 22 stores the measurement data of the LSI temperature sensor unit 27, the temperature sensor 23, and the voltage sensor 24 in a preset area of the storage element of the LSI control unit 26 in association with the sequence number.

マイクロコントローラ22は、LSI温度センサ部27において計測された温度が基準値を超えたときに、LSI25のサーマルスロットリングを開始する。マイクロコントローラ22は、LSI25のクロック数を下げ、動作周波数を低下させることでLSI25の温度が上昇しないように制御する。マイクロコントローラ22は、サーマルスロットリングの開始後に、LSI温度センサ部27において計測された温度が基準値以下となったとき、LSI25のサーマルスロットリングを停止する。マイクロコントローラ22は、LSI25のクロック数を上げ、正常時、すなわち、動作周波数をサーマルスロットリングの開始前の設定値に戻すように制御する。また、本実施形態のマイクロコントローラ22の機能は、第1の実施形態の取得手段6と、書込手段7を備える第2の制御回路2に相当する。 The microcontroller 22 starts thermal throttling of the LSI 25 when the temperature measured by the LSI temperature sensor unit 27 exceeds the reference value. The microcontroller 22 controls so that the temperature of the LSI 25 does not rise by lowering the number of clocks of the LSI 25 and lowering the operating frequency. After the start of thermal throttling, the microcontroller 22 stops the thermal throttling of the LSI 25 when the temperature measured by the LSI temperature sensor unit 27 becomes equal to or lower than the reference value. The microcontroller 22 increases the number of clocks of the LSI 25 and controls the normal state, that is, the operating frequency to return to the set value before the start of thermal throttling. Further, the function of the microcontroller 22 of the present embodiment corresponds to the acquisition means 6 of the first embodiment and the second control circuit 2 including the writing means 7.

温度センサ23は、PCIデバイス20の基板の温度を計測し、計測データをLSI制御部26またはマイクロコントローラ22に出力する。温度センサ23は、通常時、すなわち、マイクロコントローラ22が正常に動作しているとき、計測データをマイクロコントローラ22に出力する。温度センサ23は、PCIデバイス20の基板の複数個所に備えられていてもよい。また、温度センサ23は、マイクロコントローラ22の異常時に、計測データをLSI制御部26を介してサーバ10に出力する。 The temperature sensor 23 measures the temperature of the substrate of the PCI device 20, and outputs the measurement data to the LSI control unit 26 or the microcontroller 22. The temperature sensor 23 outputs measurement data to the microcontroller 22 at normal times, that is, when the microcontroller 22 is operating normally. The temperature sensor 23 may be provided in a plurality of places on the substrate of the PCI device 20. Further, the temperature sensor 23 outputs measurement data to the server 10 via the LSI control unit 26 when the microcontroller 22 has an abnormality.

電圧センサ24は、LSI25に供給される電圧を計測し、LSI制御部26またはマイクロコントローラ22に出力する。電圧センサ24は、通常時、すなわち、マイクロコントローラ22が正常に動作しているとき、計測データをマイクロコントローラ22に出力する。また、電圧センサ24は、マイクロコントローラ22の異常時に、計測データをLSI制御部26を介してサーバ10に出力する。電圧センサ24は、PCIデバイス20の基板の複数個所に備えられていてもよい。 The voltage sensor 24 measures the voltage supplied to the LSI 25 and outputs it to the LSI control unit 26 or the microcontroller 22. The voltage sensor 24 outputs measurement data to the microcontroller 22 during normal operation, that is, when the microcontroller 22 is operating normally. Further, the voltage sensor 24 outputs measurement data to the server 10 via the LSI control unit 26 when the microcontroller 22 is abnormal. The voltage sensor 24 may be provided in a plurality of places on the substrate of the PCI device 20.

本実施形態の情報処理装置の動作について説明する。図5、図6および図7は、本実施形態の情報処理装置の動作フローの概要を示した図である。図5は、正常動作時の動作フローを示している。図6は、マイクロコントローラ22は、正常に動作している際に、LSI25の温度が基準値以上になった場合の動作フローを示している。また、図7は、マイクロコントローラ22に異常が生じ、サーバ10が各センサの計測データの監視とサーマルスロットリングの制御を行っている場合の動作フローを示している。 The operation of the information processing apparatus of this embodiment will be described. 5, FIG. 6 and FIG. 7 are diagrams showing an outline of the operation flow of the information processing apparatus of the present embodiment. FIG. 5 shows an operation flow during normal operation. FIG. 6 shows an operation flow when the temperature of the LSI 25 becomes equal to or higher than a reference value while the microcontroller 22 is operating normally. Further, FIG. 7 shows an operation flow when an abnormality occurs in the microcontroller 22 and the server 10 monitors the measurement data of each sensor and controls the thermal throttling.

始めに、マイクロコントローラ22が正常に稼動している際の動作について説明する。情報処理装置が起動すると、サーバ10およびPCIデバイス20が動作を開始する。 First, the operation when the microcontroller 22 is operating normally will be described. When the information processing device is activated, the server 10 and the PCI device 20 start operating.

サーバ10およびPCIデバイス20が動作を開始すると、PCIデバイス20のマイクロコントローラ22は、温度センサ23、電圧センサ24およびLSI温度センサ部27からそれぞれ計測データを読み出す(ステップS11)。各センサから計測データを読み出すと、マイクロコントローラ22は、読み出した各センサの計測データをLSI制御部26の所定の記憶領域に書き込む(ステップS12)。マイクロコントローラ22は、読み出した各センサの計測データをシーケンス番号と関連づけてLSI制御部26に保存する。シーケンス番号は、例えば、書き込みを行うごとに1番ずつ番号が増えるように設定されている。 When the server 10 and the PCI device 20 start operating, the microcontroller 22 of the PCI device 20 reads measurement data from the temperature sensor 23, the voltage sensor 24, and the LSI temperature sensor unit 27, respectively (step S11). When the measurement data is read from each sensor, the microcontroller 22 writes the read measurement data of each sensor in a predetermined storage area of the LSI control unit 26 (step S12). The microcontroller 22 stores the read measurement data of each sensor in the LSI control unit 26 in association with the sequence number. The sequence number is set so that, for example, the number is incremented by 1 each time writing is performed.

また、各センサの計測データを読み出すと、マイクロコントローラ22は、各センサの計測データを基準値と比較することで監視する(ステップS16)。計測データの基準値は、センサごとにそれぞれ設定され、マイクロコントローラ22に保存されている。 Further, when the measurement data of each sensor is read out, the microcontroller 22 monitors the measurement data of each sensor by comparing it with the reference value (step S16). The reference value of the measurement data is set for each sensor and stored in the microcontroller 22.

LSI温度センサ部27の計測データが基準値以下のとき、マイクロコントローラ22は、LSI温度センサ部27の計測データの監視を継続する。 When the measurement data of the LSI temperature sensor unit 27 is equal to or less than the reference value, the microcontroller 22 continues to monitor the measurement data of the LSI temperature sensor unit 27.

LSI温度センサ部27の計測データが基準値を超え、計測データの異常を検知すると(ステップS21)、マイクロコントローラ22は、LSI25のLSI制御部26にサーマルスロットリングの開始の要求を送る。サーマルスロットリングの開始の指示を受け取ると、LSI制御部26は、LSI25の動作周波数を低下させサーマルスロットリングを開始する(ステップS23)。サーマルスロットリングを開始した際の、LSI25のクロック数は、あらかじめ設定されている。 When the measurement data of the LSI temperature sensor unit 27 exceeds the reference value and an abnormality in the measurement data is detected (step S21), the microcontroller 22 sends a request to start thermal throttling to the LSI control unit 26 of the LSI 25. Upon receiving the instruction to start the thermal throttling, the LSI control unit 26 lowers the operating frequency of the LSI 25 and starts the thermal throttling (step S23). The number of clocks of the LSI 25 when the thermal throttling is started is set in advance.

サーマルスロットリングの開始の要求をLSI制御部26に送ると、マイクロコントローラ22は、LSI温度センサ部27の計測データの監視を継続する(ステップS24)。 When a request for starting thermal throttling is sent to the LSI control unit 26, the microcontroller 22 continues to monitor the measurement data of the LSI temperature sensor unit 27 (step S24).

LSI温度センサ部27の計測データが基準値以下のとき、マイクロコントローラ22は、LSI25のLSI制御部26にサーマルスロットリングを停止の要求を送る(ステップS26)。サーマルスロットリングの停止の要求を受け取ると、LSI制御部26は、LSI25の動作周波数を通常の設定値に戻し、サーマルスロットリングを停止する(ステップS27)。 When the measurement data of the LSI temperature sensor unit 27 is equal to or less than the reference value, the microcontroller 22 sends a request to stop the thermal throttling to the LSI control unit 26 of the LSI 25 (step S26). Upon receiving the request to stop the thermal throttling, the LSI control unit 26 returns the operating frequency of the LSI 25 to the normal set value and stops the thermal throttling (step S27).

ステップS16における各センサの計測データの監視において、温度センサ23の計測データが基準値以下のとき、マイクロコントローラ22は、温度センサ23の計測データの監視を継続する。温度センサ23の計測データが基準値を超えているとき、マイクロコントローラ22は、LSI25のLSI制御部26とサーバ10のデバイスドライバ部14を介しサーバ10の診断部13に温度の異常が生じたことを示す情報を送る。 In the monitoring of the measurement data of each sensor in step S16, when the measurement data of the temperature sensor 23 is equal to or less than the reference value, the microcontroller 22 continues to monitor the measurement data of the temperature sensor 23. When the measurement data of the temperature sensor 23 exceeds the reference value, the microcontroller 22 has a temperature abnormality in the diagnostic unit 13 of the server 10 via the LSI control unit 26 of the LSI 25 and the device driver unit 14 of the server 10. Send information indicating.

温度の異常が生じたことを示す情報を受け取ると、サーバ10の診断部13は、異常が生じたことを表示装置に表示し、作業者等に通知する。また、診断部13は、温度の異常が生じたことを示す情報を受け取った際に、サーバ10の稼動を停止させてもよい。 Upon receiving the information indicating that the temperature abnormality has occurred, the diagnosis unit 13 of the server 10 displays the occurrence of the abnormality on the display device and notifies the operator or the like. Further, the diagnostic unit 13 may stop the operation of the server 10 when it receives the information indicating that the temperature abnormality has occurred.

ステップS16における各センサの計測データの監視において、電圧センサ24の計測データが基準値以下のとき、マイクロコントローラ22は、電圧センサ24の計測データの監視を継続する。電圧センサ24の計測データが基準値を超えているとき、マイクロコントローラ22は、LSI25のLSI制御部26とサーバ10のデバイスドライバ部14を介して診断部13に電圧の異常が生じたことを示す情報を送る。 In the monitoring of the measurement data of each sensor in step S16, when the measurement data of the voltage sensor 24 is equal to or less than the reference value, the microcontroller 22 continues to monitor the measurement data of the voltage sensor 24. When the measurement data of the voltage sensor 24 exceeds the reference value, the microcontroller 22 indicates that a voltage abnormality has occurred in the diagnostic unit 13 via the LSI control unit 26 of the LSI 25 and the device driver unit 14 of the server 10. Send information.

電圧の異常が生じたことを示す情報を受け取ると、サーバ10の診断部13は、異常が生じたことを表示装置に表示し、作業者等に通知する。また、診断部13は、電圧の異常が生じたことを示す情報を受け取った際に、サーバ10の稼動を停止させてもよい。 Upon receiving the information indicating that the voltage abnormality has occurred, the diagnostic unit 13 of the server 10 displays the occurrence of the abnormality on the display device and notifies the operator and the like. Further, the diagnostic unit 13 may stop the operation of the server 10 when it receives the information indicating that the voltage abnormality has occurred.

サーバ10の診断部13は、PCIデバイス20のLSI制御部26にあらかじめ設定された時間ごとにアクセスする。診断部13は、シーケンス番号を参照し、番号の増加の有無によってマイクロコントローラ22の可動の有無を判断する。診断部13は、シーケンス番号は、基準時間以上、シーケンス番号が増加しなかったときマイクロコントローラ22に異常が生じていると判断する。 The diagnostic unit 13 of the server 10 accesses the LSI control unit 26 of the PCI device 20 at preset time intervals. The diagnostic unit 13 refers to the sequence number and determines whether or not the microcontroller 22 is movable depending on whether or not the number is increased. The diagnosis unit 13 determines that the sequence number is abnormal in the microcontroller 22 when the sequence number does not increase for the reference time or more.

マイクロコントローラ22が正常に稼動していると判断したとき、サーバ10の診断部13は、マイクロコントローラ22がLSI制御部26に保存するデータを読み出すことでPCIデバイス20の監視を継続する。 When it is determined that the microcontroller 22 is operating normally, the diagnostic unit 13 of the server 10 continues to monitor the PCI device 20 by reading the data stored in the LSI control unit 26 by the microcontroller 22.

ステップS15において、マイクロコントローラ22に異常が生じていると判断したとき、サーバ10の診断部13は、PCIデバイス20のLSI制御部26に、各センサの計測データを読み出す要求を送る(ステップS31)。サーバ10の診断部13は、LSI制御部26の記憶素子に保存された計測データに付加されたシーケンス番号があらかじめ決められた時間以上、更新されなかったときにマイクロコントローラ22に稼動停止等の異常が生じていると判断する。 When it is determined in step S15 that an abnormality has occurred in the microcontroller 22, the diagnostic unit 13 of the server 10 sends a request to read the measurement data of each sensor to the LSI control unit 26 of the PCI device 20 (step S31). .. The diagnostic unit 13 of the server 10 causes an abnormality such as an operation stoppage in the microcontroller 22 when the sequence number added to the measurement data stored in the storage element of the LSI control unit 26 is not updated for a predetermined time or longer. Is determined to have occurred.

各センサのデータを読み出し指示を受け取ると、LSI制御部26は、温度センサ23、電圧センサ24およびLSI温度センサ部27からそれぞれ計測データを読み出す。各センサから計測データを読み出すと、マイクロコントローラ22は、読み出した計測データをサーバ10に出力する(ステップS32)。 Upon receiving the instruction to read the data of each sensor, the LSI control unit 26 reads the measurement data from the temperature sensor 23, the voltage sensor 24, and the LSI temperature sensor unit 27, respectively. When the measurement data is read from each sensor, the microcontroller 22 outputs the read measurement data to the server 10 (step S32).

各センサの計測データを受け取ると、サーバ10の診断部13は、各センサの計測データを基準値と比較する。計測データの基準値は、センサごとにそれぞれ設定されている。 Upon receiving the measurement data of each sensor, the diagnostic unit 13 of the server 10 compares the measurement data of each sensor with the reference value. The reference value of the measurement data is set for each sensor.

LSI温度センサ部27の計測データが基準値以下のとき(ステップS34でYes)、マイクロコントローラ22は、LSI温度センサ部27の計測データの監視を継続する。 When the measurement data of the LSI temperature sensor unit 27 is equal to or less than the reference value (Yes in step S34), the microcontroller 22 continues to monitor the measurement data of the LSI temperature sensor unit 27.

LSI温度センサ部27の計測データが基準値を超えているとき(ステップS34でNo)、診断部13は、LSI25のLSI制御部26にサーマルスロットリングの開始の要求を送る(ステップS35)。サーマルスロットリングの開始の指示を受け取ると、LSI制御部26は、LSI25の動作周波数を低下させ、サーマルスロットリングを開始する(ステップS36)。サーマルスロットリングを開始後の、LSI25のクロック数は、あらかじめ設定されている。 When the measurement data of the LSI temperature sensor unit 27 exceeds the reference value (No in step S34), the diagnostic unit 13 sends a request to start thermal throttling to the LSI control unit 26 of the LSI 25 (step S35). Upon receiving the instruction to start the thermal throttling, the LSI control unit 26 lowers the operating frequency of the LSI 25 and starts the thermal throttling (step S36). The number of clocks of the LSI 25 after starting the thermal throttling is preset.

サーマルスロットリングの開始の指示をLSI制御部26に送ると、サーバ10は、診断部13は、LSI温度センサ部27の計測データの監視を継続する。LSI温度センサ部27の計測データが基準値以下のとき(ステップS37でYes)、サーバ10の診断部13は、LSI25のLSI制御部26にサーマルスロットリングの停止の要求を送る(ステップS38)。サーマルスロットリングの停止の共有を受け取ると、LSI制御部26は、LSI25の動作周波数を通常の設定値に戻し、サーマルスロットリングを停止する(ステップS39)。 When an instruction to start thermal throttling is sent to the LSI control unit 26, the server 10 causes the diagnosis unit 13 to continue monitoring the measurement data of the LSI temperature sensor unit 27. When the measurement data of the LSI temperature sensor unit 27 is equal to or less than the reference value (Yes in step S37), the diagnostic unit 13 of the server 10 sends a request to stop the thermal throttling to the LSI control unit 26 of the LSI 25 (step S38). Upon receiving the sharing of the thermal throttling stop, the LSI control unit 26 returns the operating frequency of the LSI 25 to the normal set value and stops the thermal throttling (step S39).

サーマルスロットリングを停止する指示を送ると、サーバ10の診断部13は、PCIデバイス20のLSI温度センサ部27の計測データの監視を継続する。 When the instruction to stop the thermal throttling is sent, the diagnostic unit 13 of the server 10 continues to monitor the measurement data of the LSI temperature sensor unit 27 of the PCI device 20.

ステップS33において、温度センサ23の計測データが基準値以下のとき、サーバ10の診断部13は、PCIデバイス20の温度センサ23の計測データの監視を継続する。温度センサ23の計測データが基準値を超えているとき、診断部13は、異常が生じたことを表示装置に表示し、作業者等に通知する。また、診断部13は、温度の異常が生じたことを示す情報を受け取った際に、サーバ10の稼動を停止させてもよい。 In step S33, when the measurement data of the temperature sensor 23 is equal to or less than the reference value, the diagnostic unit 13 of the server 10 continues to monitor the measurement data of the temperature sensor 23 of the PCI device 20. When the measurement data of the temperature sensor 23 exceeds the reference value, the diagnostic unit 13 displays on the display device that an abnormality has occurred and notifies the operator and the like. Further, the diagnostic unit 13 may stop the operation of the server 10 when it receives the information indicating that the temperature abnormality has occurred.

ステップS33において、電圧センサ24の計測データが基準値以下のとき、サーバ10の診断部13は、PCIデバイス20の電圧センサ24の計測データの監視を継続する。電圧センサ24の計測データが基準値を超えているとき、診断部13は、異常が生じたことを表示装置に表示し、作業者等に通知する。また、診断部13は、温度の異常が生じたことを示す情報を受け取った際に、サーバ10の稼動を停止させてもよい。 In step S33, when the measurement data of the voltage sensor 24 is equal to or less than the reference value, the diagnostic unit 13 of the server 10 continues to monitor the measurement data of the voltage sensor 24 of the PCI device 20. When the measurement data of the voltage sensor 24 exceeds the reference value, the diagnostic unit 13 displays on the display device that an abnormality has occurred and notifies the operator and the like. Further, the diagnostic unit 13 may stop the operation of the server 10 when it receives the information indicating that the temperature abnormality has occurred.

図8および図9は、本実施形態の情報処理装置におけるデータの流れを模式的に示した図である。図8は、マイクロコントローラ22が正常に稼動している際のデータの流れを示している。また、図9は、マイクロコントローラ22の異常が検知され、サーバ10の診断部13がLSI25の監視を行っている際のデータの流れを模式的に示している。 8 and 9 are diagrams schematically showing the flow of data in the information processing apparatus of the present embodiment. FIG. 8 shows the flow of data when the microcontroller 22 is operating normally. Further, FIG. 9 schematically shows a data flow when an abnormality in the microcontroller 22 is detected and the diagnostic unit 13 of the server 10 monitors the LSI 25.

図8に示すようにマイクロコントローラ22の正常時は、マイクロコントローラ22が各センサの計測データを収集し、LSI制御部26の記憶素子に計測データを保存している。図8に示すマイクロコントローラ22の正常時、サーバ10の診断部13は、LSI制御部26のデータ更新の有無を参照することでマイクロコントローラ22の監視を行っている。また、図8に示すマイクロコントローラ22の正常時、LSI温度センサ部27の計測データが基準値を超えたときにマイクロコントローラ22の制御によってLSI25のサーマルスロットリングを実行している。図8のように、マイクロコントローラ22の制御によって、LSI25の温度の監視およびサーマルスロットリングの実行を行うことで、サーバ10の診断部13やスロット部12の負荷を低減しつつ、監視を行うことができる。 As shown in FIG. 8, when the microcontroller 22 is normal, the microcontroller 22 collects the measurement data of each sensor and stores the measurement data in the storage element of the LSI control unit 26. When the microcontroller 22 shown in FIG. 8 is normal, the diagnostic unit 13 of the server 10 monitors the microcontroller 22 by referring to the presence / absence of data update in the LSI control unit 26. Further, when the microcontroller 22 shown in FIG. 8 is normal and the measurement data of the LSI temperature sensor unit 27 exceeds the reference value, the thermal throttling of the LSI 25 is executed by the control of the microcontroller 22. As shown in FIG. 8, by controlling the temperature of the LSI 25 and executing the thermal throttling under the control of the microcontroller 22, monitoring is performed while reducing the load on the diagnostic unit 13 and the slot unit 12 of the server 10. Can be done.

図9に示すようにマイクロコントローラ22の異常発生時は、サーバ10の診断部13が、LSI制御部26を介して各センサの計測データを収集している。図8に示すマイクロコントローラ22の正常時、サーバ10の診断部13は、LSI制御部26のデータ更新の有無を参照することでマイクロコントローラ22の監視を行っている。また、図9に示すマイクロコントローラ22の異常発生時時、LSI温度センサ部27の計測データが基準値を超えたときにサーバ10の診断部13の制御によってLSI25のサーマルスロットリングを実行している。図9のように、マイクロコントローラ22の異常発生時にサーバ10の制御によって、LSI25の温度の監視およびサーマルスロットリングの実行を行うことで、PCIデバイス20全体を停止させずに稼動を継続することが可能になり得る。 As shown in FIG. 9, when an abnormality occurs in the microcontroller 22, the diagnostic unit 13 of the server 10 collects the measurement data of each sensor via the LSI control unit 26. When the microcontroller 22 shown in FIG. 8 is normal, the diagnostic unit 13 of the server 10 monitors the microcontroller 22 by referring to the presence / absence of data update in the LSI control unit 26. Further, when an abnormality occurs in the microcontroller 22 shown in FIG. 9, and when the measurement data of the LSI temperature sensor unit 27 exceeds the reference value, the thermal throttling of the LSI 25 is executed under the control of the diagnostic unit 13 of the server 10. .. As shown in FIG. 9, when an abnormality occurs in the microcontroller 22, the temperature of the LSI 25 is monitored and thermal throttling is executed under the control of the server 10, so that the operation can be continued without stopping the entire PCI device 20. It can be possible.

マイクロコントローラのみが、各センサの計測データの監視とサーマルスロットリングの制御を行う場合、PCIデバイスのマイクロコントローラが故障した場合、温度センサと電圧センサの値を読み出すことができない。そのため、PCIデバイスの温度と電圧の異常検知ができなくなる。また、LSIの温度の上昇を防ぐサーマルスロットリングを行うことができなくなる。そのため、情報処理装置からPCIデバイスを切り離して交換しない限り、安定して稼動させつつPCIデバイスの機能に相当する処理を継続することができない。 When only the microcontroller monitors the measurement data of each sensor and controls the thermal throttling, if the microcontroller of the PCI device fails, the values of the temperature sensor and the voltage sensor cannot be read out. Therefore, it becomes impossible to detect abnormalities in the temperature and voltage of the PCI device. Further, it becomes impossible to perform thermal throttling to prevent the temperature of the LSI from rising. Therefore, unless the PCI device is separated from the information processing device and replaced, it is not possible to continue the processing corresponding to the function of the PCI device while operating it stably.

一方で、本実施形態の情報処理装置は、PCIデバイス20において、LSI25内のLSI制御部26およびマイクロコントローラ22をマスタに、各センサをスレーブにして、両マスタから各スレーブの計測データを読み取るマルチマスタ構成を有している。本実施形態の情報処理装置は、サーバ10の診断部13においてマイクロコントローラ22の死活監視を実施し、正常時はマイクロコントローラ22がPCIデバイス20の温度および電圧並びにLSI25の温度を監視している。また、マイクロコントローラ22の正常時、LSI25の温度上昇時に、マイクロコントローラ22の制御によってLSI25のサーマルスロットリングを実行している。 On the other hand, in the information processing apparatus of this embodiment, in the PCI device 20, the LSI control unit 26 and the microcontroller 22 in the LSI 25 are used as masters, and each sensor is used as a slave, and the measurement data of each slave is read from both masters. It has a master configuration. In the information processing apparatus of this embodiment, the diagnostic unit 13 of the server 10 monitors the life and death of the microcontroller 22, and normally, the microcontroller 22 monitors the temperature and voltage of the PCI device 20 and the temperature of the LSI 25. Further, when the microcontroller 22 is normal and the temperature of the LSI 25 rises, the thermal throttling of the LSI 25 is executed under the control of the microcontroller 22.

サーバ10の診断部13がマイクロコントローラ22の異常を検知した場合に、診断部13は、マイクロコントローラ22に代わり、PCIデバイス20の温度、電圧およびLSI25の温度を監視している。また、マイクロコントローラ22の異常が発生している際に、LSI25の温度上昇時に、診断部13の制御によってLSI25のサーマルスロットリングを実行している。このような構成とすることで、本実施形態の情報処理装置は、マイクロコントローラ22に異常が発生した場合でも継続してPCIデバイス20の温度と電圧の監視し、LSI25のスロットリングを実行できるため、PCIデバイス20を切り離すこと無く使用することができる。その結果、本実施形態の情報処理装置は、機能の一部が停止した場合においても状態の監視を継続しつつ、稼動を継続することができる。 When the diagnostic unit 13 of the server 10 detects an abnormality in the microcontroller 22, the diagnostic unit 13 monitors the temperature, voltage, and the temperature of the LSI 25 of the PCI device 20 instead of the microcontroller 22. Further, when the temperature of the LSI 25 rises when an abnormality occurs in the microcontroller 22, the thermal throttling of the LSI 25 is executed under the control of the diagnostic unit 13. With such a configuration, the information processing apparatus of the present embodiment can continuously monitor the temperature and voltage of the PCI device 20 and execute throttling of the LSI 25 even if an abnormality occurs in the microcontroller 22. , The PCI device 20 can be used without disconnection. As a result, the information processing apparatus of the present embodiment can continue to operate while continuing to monitor the state even when a part of the functions is stopped.

第2の実施形態では、PCIデバイス20が1個のみサーバ10に接続されている構成について説明したが、複数のPCIデバイス20が1台のサーバ10に接続されていてもよい。そのような構成とする場合には、サーバ10は、個々のPCIデバイス20ごとにマイクロコントローラ22の監視を行い、異常の生じたPCIデバイス20に対してのみ計測データの監視とサーマルスロットリングの制御を行う。 In the second embodiment, the configuration in which only one PCI device 20 is connected to the server 10 has been described, but a plurality of PCI devices 20 may be connected to one server 10. In such a configuration, the server 10 monitors the microcontroller 22 for each individual PCI device 20, monitors measurement data and controls thermal throttling only for the PCI device 20 in which an abnormality has occurred. I do.

第2の実施形態では、PCIデバイスの温度上昇時にLSIの動作周波数を低下させることで熱の発生を抑制している。そのような構成に代えて、PCIデバイスの温度上昇時にLSIが実行する命令の数を抑制することでLSIの稼動を下げ熱の発生を抑制するこうせいとしてよい。 In the second embodiment, heat generation is suppressed by lowering the operating frequency of the LSI when the temperature of the PCI device rises. Instead of such a configuration, the operation of the LSI may be lowered and the generation of heat may be suppressed by suppressing the number of instructions executed by the LSI when the temperature of the PCI device rises.

1 第1の制御回路
2 第2の制御回路
3 温度センサ
4 記憶素子
5 出力手段
6 取得手段
7 書込手段
10 サーバ
11 ハードウェア部
12 スロット部
13 診断部
14 デバイスドライバ部
20 PCIデバイス
21 ハードウェア部
22 マイクロコントローラ
23 温度センサ
24 電圧センサ
25 LSI
26 LSI制御部
27 LSI温度センサ部
1 1st control circuit 2 2nd control circuit 3 Temperature sensor 4 Storage element 5 Output means 6 Acquisition means 7 Writing means 10 Server 11 Hardware part 12 Slot part 13 Diagnosis part 14 Device driver part 20 PCI device 21 Hardware Part 22 Microcontroller 23 Temperature sensor 24 Voltage sensor 25 LSI
26 LSI control unit 27 LSI temperature sensor unit

Claims (10)

温度センサと、記憶素子と、前記記憶素子に保存されたデータを情報処理装置に出力する出力手段とを有する第1の制御回路と、
前記温度センサが計測した前記第1の制御回路の温度の計測データを取得する取得手段と、計測データを前記記憶素子に書き込む書込手段とを有する第2の制御回路と
を備え、
前記第1の制御回路の前記出力手段は、前記第2の制御回路に異常が生じた際に、情報処理装置からの要求に応じて前記温度センサの計測データを前記情報処理装置に出力することを特徴とする電子基板。
A first control circuit having a temperature sensor, a storage element, and an output means for outputting data stored in the storage element to an information processing device.
A second control circuit having an acquisition means for acquiring the temperature measurement data of the first control circuit measured by the temperature sensor and a writing means for writing the measurement data to the storage element is provided.
The output means of the first control circuit outputs measurement data of the temperature sensor to the information processing device in response to a request from the information processing device when an abnormality occurs in the second control circuit. An electronic board characterized by.
前記第1の制御回路は、前記第1の制御回路の動作周波数を制御する第1の周波数制御手段をさらに有し、
前記第2の制御回路は、前記温度センサの計測データが基準温度以上であったとき、前記第1の制御回路の動作周波数を低下させる第2の周波数制御手段をさらに有することを特徴とする請求項1に記載の電子基板。
The first control circuit further includes a first frequency control means for controlling the operating frequency of the first control circuit.
The second control circuit is further characterized by further comprising a second frequency control means for lowering the operating frequency of the first control circuit when the measurement data of the temperature sensor is equal to or higher than the reference temperature. Item 1. The electronic substrate according to Item 1.
前記第1の制御回路の前記第1の周波数制御手段は、前記第2の制御回路に異常が生じた際に、前記温度センサの計測データが前記基準温度以上であったとき、前記情報処理装置からの要求に応じて前記第1の制御回路の動作周波数を低下させることを特徴とする請求項2に記載の電子基板。 The first frequency control means of the first control circuit is the information processing apparatus when the measurement data of the temperature sensor is equal to or higher than the reference temperature when an abnormality occurs in the second control circuit. The electronic substrate according to claim 2, wherein the operating frequency of the first control circuit is lowered in response to a request from the above. 前記第2の制御回路の前記第2の周波数制御手段は、前記第1の制御回路の動作周波数を低下させた後に、前記温度センサの計測データが前記基準温度未満となったとき、前記第1の制御回路の動作周波数を低下させる前の動作周波数に戻すことを特徴とする請求項2または3に記載の電子基板。 The second frequency control means of the second control circuit is the first when the measurement data of the temperature sensor becomes lower than the reference temperature after the operating frequency of the first control circuit is lowered. The electronic substrate according to claim 2 or 3, wherein the operating frequency of the control circuit of the above is returned to the operating frequency before the decrease. 前記基準温度は、複数段階で設定され、前記第1の制御回路の前記動作周波数は、前記基準温度と前記温度センサの計測データに応じて、複数段階で設定されていることを特徴とする請求項2から4いずれかに記載の電子基板。 The claim is characterized in that the reference temperature is set in a plurality of stages, and the operating frequency of the first control circuit is set in a plurality of stages according to the reference temperature and the measurement data of the temperature sensor. Item 2. The electronic substrate according to any one of Items 2 to 4. 前記第1の制御回路は、前記第1の制御回路の実行命令数を制御する第1の命令数制御手段をさらに備え、
前記第2の制御回路は、前記温度センサの計測データが基準温度以上であったとき、前記第1の制御回路の実行命令数を低下させる第2の命令数制御手段をさらに備えることを特徴とする請求項1に記載の電子基板。
The first control circuit further includes a first instruction number control means for controlling the number of execution instructions of the first control circuit.
The second control circuit is further provided with a second instruction number control means for reducing the number of execution instructions of the first control circuit when the measurement data of the temperature sensor is equal to or higher than the reference temperature. The electronic substrate according to claim 1.
請求項1からいずれかの電子基板と、
前記電子基板の前記第1の制御回路の前記記憶素子のデータを取得するデータ取得手段と
前記記憶素子に前記第2の制御回路が保存するデータを基に前記第2の制御回路を監視する監視手段と
を備え、
前記監視手段は、前記第2の制御回路の前記書込手段があらかじめ設定された時間以上、前記記憶素子に前記温度センサの計測データを保存しなかったときに前記第2の制御回路に異常が生じていると判断することを特徴とする情報処理装置。
With any of the electronic boards of claims 1 to 5 ,
Monitoring that monitors the second control circuit based on the data acquisition means for acquiring the data of the storage element of the first control circuit of the electronic board and the data stored in the storage element by the second control circuit. Equipped with means,
The monitoring means has an abnormality in the second control circuit when the writing means of the second control circuit does not store the measurement data of the temperature sensor in the storage element for a preset time or longer. An information processing device characterized by determining that it has occurred.
前記第1の制御回路の前記温度センサから計測データを取得する第2のデータ取得手段と、
前記第1の制御回路の前記温度センサの計測データを基に、前記第1の制御回路の状態を監視する第2の監視手段と
をさらに備え、
前記第2の監視手段は、前記第2の制御回路が正常であるときは、前記記憶素子に前記第2の制御回路が保存した計測データを基に前記第1の制御回路の状態を監視し、前記第2の制御回路に異常が生じているときは、前記第2のデータ取得手段が取得する前記温度センサの計測データを基に前記第1の制御回路の状態を監視することを特徴とする請求項7に記載の情報処理装置。
A second data acquisition means for acquiring measurement data from the temperature sensor of the first control circuit, and
A second monitoring means for monitoring the state of the first control circuit is further provided based on the measurement data of the temperature sensor of the first control circuit.
When the second control circuit is normal, the second monitoring means monitors the state of the first control circuit based on the measurement data stored in the storage element by the second control circuit. When an abnormality occurs in the second control circuit, the state of the first control circuit is monitored based on the measurement data of the temperature sensor acquired by the second data acquisition means. The information processing apparatus according to claim 7.
前記第2の制御回路に異常が生じている際に、前記温度センサの計測データが基準温度以上であったとき、前記第1の制御回路の動作周波数を低下させる制御手段をさらに備えることを特徴とする請求項8に記載の情報処理装置。 It is characterized by further comprising a control means for lowering the operating frequency of the first control circuit when the measurement data of the temperature sensor is equal to or higher than the reference temperature when an abnormality occurs in the second control circuit. The information processing apparatus according to claim 8. 温度センサが計測した第1の制御回路の温度の計測データを第2の制御回路が取得し、
前記第2の制御回路が計測データを前記第1の制御回路が有する記憶素子に書き込み、
前記第1の制御回路が前記記憶素子に保存されたデータを情報処理装置に出力し、
記第2の制御回路に異常が生じた際に、情報処理装置からの要求に応じて前記第1の制御回路が前記温度センサの前記計測データを前記情報処理装置に出力することを特徴とする監視方法。
The second control circuit acquires the temperature measurement data of the first control circuit measured by the temperature sensor, and the second control circuit acquires it.
The second control circuit writes the measurement data to the storage element of the first control circuit, and writes the measurement data to the storage element.
The first control circuit outputs the data stored in the storage element to the information processing apparatus, and outputs the data to the information processing apparatus.
When an abnormality occurs in the second control circuit, the first control circuit outputs the measurement data of the temperature sensor to the information processing device in response to a request from the information processing device. Monitoring method.
JP2019026236A 2019-02-18 2019-02-18 Electronic board and monitoring method Active JP7002486B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019026236A JP7002486B2 (en) 2019-02-18 2019-02-18 Electronic board and monitoring method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019026236A JP7002486B2 (en) 2019-02-18 2019-02-18 Electronic board and monitoring method

Publications (2)

Publication Number Publication Date
JP2020135259A JP2020135259A (en) 2020-08-31
JP7002486B2 true JP7002486B2 (en) 2022-01-20

Family

ID=72263112

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019026236A Active JP7002486B2 (en) 2019-02-18 2019-02-18 Electronic board and monitoring method

Country Status (1)

Country Link
JP (1) JP7002486B2 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004022724A (en) 2002-06-14 2004-01-22 Konica Minolta Holdings Inc Semiconductor integrated circuit device and method of constituting semiconductor integrated circuit
JP2007219846A (en) 2006-02-16 2007-08-30 Fuji Xerox Co Ltd Abnormality monitoring/recording method for semiconductor disk device, program, semiconductor disk device and storage system
JP2013167932A (en) 2012-02-14 2013-08-29 Hitachi Cable Ltd Electronic apparatus

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004022724A (en) 2002-06-14 2004-01-22 Konica Minolta Holdings Inc Semiconductor integrated circuit device and method of constituting semiconductor integrated circuit
JP2007219846A (en) 2006-02-16 2007-08-30 Fuji Xerox Co Ltd Abnormality monitoring/recording method for semiconductor disk device, program, semiconductor disk device and storage system
JP2013167932A (en) 2012-02-14 2013-08-29 Hitachi Cable Ltd Electronic apparatus

Also Published As

Publication number Publication date
JP2020135259A (en) 2020-08-31

Similar Documents

Publication Publication Date Title
JP6008070B1 (en) Operation management apparatus, operation management method, and recording medium on which operation management program is recorded
US7363520B1 (en) Techniques for providing power to a set of powerable devices
US8176365B2 (en) Computer apparatus and processor diagnostic method
JP4886558B2 (en) Information processing device
US7774690B2 (en) Apparatus and method for detecting data error
JP7002486B2 (en) Electronic board and monitoring method
JP2016071635A (en) Abnormality monitoring circuit of ECU
JP6880961B2 (en) Information processing device and log recording method
JP2007018034A (en) Control unit and control method
JPH1011319A (en) Method for maintaining multiprocessor system
JP6800935B2 (en) How to control a fan in an electronic system
JP5332257B2 (en) Server system, server management method, and program thereof
WO2017072904A1 (en) Computer system and failure detection method
JP2010187503A (en) Power supply system, and diagnostic method and program for the same
JPH10283767A (en) Temperature information reporting device for storage device, storage device array, and storage device array system
JP2003256240A (en) Information processor and its failure recovering method
JP6094685B2 (en) Information processing apparatus and information processing apparatus control program
JP2022052504A (en) Bmc, server system, device stabilization determination method, and program
JP5733515B2 (en) Embedded equipment with RAS function
JP3040186B2 (en) Digital controller for control
WO2024121939A1 (en) Pin electronics device, testing device, and method
JP6230092B2 (en) Monitoring system
WO2024121938A1 (en) Pin electronics device, testing device, and method
JP6410015B2 (en) Information processing device
US11516029B2 (en) Process measuring device having a plug-in memory unit

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210525

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210526

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210720

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20211110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211227

R150 Certificate of patent or registration of utility model

Ref document number: 7002486

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150