JP5311473B2 - Computer system and re-installation method of CPU - Google Patents

Computer system and re-installation method of CPU Download PDF

Info

Publication number
JP5311473B2
JP5311473B2 JP2009012547A JP2009012547A JP5311473B2 JP 5311473 B2 JP5311473 B2 JP 5311473B2 JP 2009012547 A JP2009012547 A JP 2009012547A JP 2009012547 A JP2009012547 A JP 2009012547A JP 5311473 B2 JP5311473 B2 JP 5311473B2
Authority
JP
Japan
Prior art keywords
cpu
failure
computer system
voltage
temperature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009012547A
Other languages
Japanese (ja)
Other versions
JP2010170355A (en
Inventor
志保 小酒井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Computertechno Ltd
Original Assignee
NEC Computertechno Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Computertechno Ltd filed Critical NEC Computertechno Ltd
Priority to JP2009012547A priority Critical patent/JP5311473B2/en
Publication of JP2010170355A publication Critical patent/JP2010170355A/en
Application granted granted Critical
Publication of JP5311473B2 publication Critical patent/JP5311473B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)

Description

本発明はコンピュータシステム及びCPUの再組み込み方法に関し、特にCPUに障害が発生した場合に、当該CPUを切り離した後、再組み込みを行うコンピュータシステム及びCPUの再組み込み方法に関する。   The present invention relates to a computer system and a CPU reincorporation method, and more particularly to a computer system and a CPU reincorporation method in which, when a failure occurs in a CPU, the CPU is detached and then reincorporated.

スーパーコンピュータ等の大規模システムでは、CPU(Central Processing Unit)に障害が発生した場合には、該当CPUをシステムから切り離した後に初期化を行い、再度システムに組み込むという処理が行われている。   In a large-scale system such as a supercomputer, when a failure occurs in a CPU (Central Processing Unit), a process is performed in which the CPU is initialized after being disconnected from the system and incorporated into the system again.

関連する技術として、特許文献1乃至5には、CPU障害発生時におけるCPUの再組み込み方法や、その障害内容を分析する技術が開示されている。   As related techniques, Patent Documents 1 to 5 disclose a method of re-installing a CPU when a CPU fault occurs and a technique for analyzing the contents of the fault.

特開平02−129730号公報Japanese Patent Laid-Open No. 02-129730 特開平06−051864号公報JP 06-051864 A 特開平09−034852号公報JP 09-034852 A 特開平09−128258号公報JP 09-128258 A 特許2790204号Patent 2790204

しかしながら、上述したいずれの関連技術においても、障害が発生したCPUについて、その障害内容に対応した障害再発予防処置については開示されていない。このため、障害再発予防処置が行われずにCPUの初期化及び再組み込みがなされていたために、同一の障害が再発する可能性が高いという問題があった。   However, none of the related technologies described above discloses a failure recurrence prevention measure corresponding to the failure content of the CPU in which the failure has occurred. For this reason, there has been a problem that the same failure is likely to recur because the CPU has been initialized and re-installed without performing the failure recurrence prevention measure.

本発明に係るコンピュータシステムは、CPUに障害が発生した場合に、当該CPUを切り離した後、再組み込みを行うコンピュータシステムであって、前記CPUに発生した障害の内容を分析し、当該障害内容の分析結果に応じた障害再発予防処置を行った後に、前記コンピュータシステムに対して前記CPUの再組み込みを行う診断部を備えるものである。   The computer system according to the present invention is a computer system that performs re-installation after disconnecting the CPU when a failure occurs in the CPU, and analyzes the content of the failure that has occurred in the CPU. After performing the failure recurrence prevention treatment according to the analysis result, a diagnostic unit is provided for re-incorporating the CPU into the computer system.

また、本発明に係るCPUの再組み込み方法は、CPUに障害が発生した場合に、当該CPUをコンピュータシステムから切り離した後に、再組み込みを行うCPUの再組み込み方法であって、前記CPUに発生した障害の内容を分析するステップと、前記障害内容の分析結果に応じた障害再発予防処置を行うステップと、を有するものである。   Further, the CPU re-installation method according to the present invention is a CPU re-installation method in which when a failure occurs in a CPU, the CPU is detached from the computer system and then re-installed. A step of analyzing a content of the failure, and a step of performing a failure recurrence prevention treatment according to the analysis result of the failure content.

本発明によれば、障害が発生したCPUを再組み込みする際に、障害内容の分析結果に応じた障害再発予防処置を行うことで、再組み込みしたCPUの障害再発の可能性を低下させるコンピュータシステム及びCPUの再組み込み方法を提供することができる。   According to the present invention, when re-installing a CPU in which a failure has occurred, a computer system that reduces the possibility of re-occurrence of the re-integrated CPU by performing a failure relapse preventive measure according to the analysis result of the failure content. And a CPU re-installation method can be provided.

実施の形態1に係るコンピュータシステムの構成を示すブロック図である。1 is a block diagram illustrating a configuration of a computer system according to a first embodiment. 実施の形態1に係るコンピュータシステムの動作例を示すフローチャート図である。FIG. 6 is a flowchart showing an operation example of the computer system according to the first embodiment. 実施の形態1に係る設定電圧決定方法を説明するための図である。FIG. 3 is a diagram for explaining a set voltage determination method according to the first embodiment.

実施の形態1
以下、図面を参照して本発明の実施の形態について説明する。図1は、本実施の形態1に係るコンピュータシステム1の構成を示すブロック図である。コンピュータシステム1は、診断プロセッサ10と、電源制御部20と、クロック制御部30と、CPU40_1〜CPU40_n(以下、CPU40と総称する場合がある。)と、MMU(Memory Management Unit)70と、冷却装置80とを備えている。
Embodiment 1
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing a configuration of a computer system 1 according to the first embodiment. The computer system 1 includes a diagnostic processor 10, a power control unit 20, a clock control unit 30, a CPU 40_1 to CPU 40_n (hereinafter may be collectively referred to as a CPU 40), an MMU (Memory Management Unit) 70, a cooling device. 80.

診断部としての診断プロセッサ10は、組み込みソフトウェア11を有している。診断プロセッサ10は、診断パスを介してCPU40とMMU70の診断を行う。電源制御部20は、診断プロセッサ10、CPU40、MMU70、冷却装置80などに電源を供給する。クロック制御部30は、診断プロセッサ10、CPU40、MMU70、冷却装置80などに供給するクロックを制御する。   A diagnostic processor 10 as a diagnostic unit has embedded software 11. The diagnosis processor 10 diagnoses the CPU 40 and the MMU 70 through the diagnosis path. The power control unit 20 supplies power to the diagnostic processor 10, the CPU 40, the MMU 70, the cooling device 80, and the like. The clock control unit 30 controls a clock supplied to the diagnostic processor 10, the CPU 40, the MMU 70, the cooling device 80, and the like.

CPU40_1〜CPU40_nは、各CPU40_1〜CPU40_nの温度を測定する温度センサ50_1〜温度センサ50_n(以下、温度センサ50と総称する場合がある。)と、各CPU40_1〜CPU40_nにBIST(Built In Self Test)を実行させるBIST60_1〜BIST60_n(以下、BIST60と総称する場合がある。)と、をそれぞれ有している。   The CPU 40_1 to CPU 40_n includes a temperature sensor 50_1 to a temperature sensor 50_n for measuring the temperature of each of the CPU 40_1 to CPU 40_n (hereinafter may be collectively referred to as the temperature sensor 50), and a BIST (Built In Self Test) to each of the CPU 40_1 to CPU 40_n. BIST 60_1 to BIST 60_n (hereinafter, may be collectively referred to as BIST 60) to be executed.

組み込みソフトウェア11は、後述するように、CPU40に障害が発生した場合に、該当CPU40をシステム1から切り離した後、その障害内容を分析して、障害内容に対応した障害再発予防処置を行う。また、組み込みソフトウェア11は、電源制御部20が供給する電源の電圧を変更することができる。さらに、組み込みソフトウェア11は、クロック制御部30が供給するクロックを変更することができる。   As will be described later, the embedded software 11, when a failure occurs in the CPU 40, disconnects the CPU 40 from the system 1, analyzes the failure content, and performs failure recurrence prevention measures corresponding to the failure content. The embedded software 11 can change the voltage of the power supplied by the power control unit 20. Furthermore, the embedded software 11 can change the clock supplied by the clock control unit 30.

組み込みソフトウェア11は、例えば、障害再発予防処置として、内部ロジック部分の遅延が原因の内部障害であると分析した場合には、該当CPU40に供給する電源の電圧を上昇させる処置を行う。これにより、障害内容に対応した効果的な障害再発予防処置を行うことができる。   For example, as a failure recurrence prevention measure, the embedded software 11 performs a measure of increasing the voltage of the power supply to be supplied to the CPU 40 when it is analyzed that the failure is an internal failure caused by an internal logic portion. As a result, it is possible to perform effective failure recurrence prevention treatment corresponding to the failure content.

ここで、供給する電源の電圧を上昇させすぎた場合には、CPU40に温度障害を引き起こす可能性がある。このため、組み込みソフトウェア11は、CPU40に搭載した温度センサ50により温度状況を判断し、温度が所定の設定値に対して余裕がある場合には電圧を上昇させ、余裕がない場合には冷却を強化した後に電圧を上昇させるなどの対応を行うことで、より適切な障害再発予防処置を行うことできる。尚、後述するように、供給する電源の最適な電圧値は、電圧・温度の関係について予め調査を行い、当該調査結果に基づいて導出した値を設定する。   Here, if the voltage of the power supply to be supplied is increased too much, there is a possibility of causing a temperature failure in the CPU 40. For this reason, the embedded software 11 determines the temperature state by the temperature sensor 50 mounted on the CPU 40, and increases the voltage when the temperature has a margin with respect to a predetermined set value, and cools the temperature when there is no margin. By taking measures such as increasing the voltage after strengthening, it is possible to perform more appropriate failure recurrence prevention treatment. As will be described later, the optimum voltage value of the power supply to be supplied is determined in advance with respect to the relationship between voltage and temperature, and a value derived based on the result of the investigation is set.

また、組み込みソフトウェア11による他の障害再発予防処置としては、ノイズが原因の障害である場合には電圧を低下させる、インタフェースによる障害である場合にはクロックを低下させるなど、障害内容に対応した効果的な障害再発予防処置を行うことができる。   As another failure recurrence prevention measure by the built-in software 11, an effect corresponding to the content of the failure, such as reducing the voltage if the failure is caused by noise, or lowering the clock if the failure is caused by the interface, etc. Relapse prevention treatment can be performed.

さらにまた、障害再発予防処置を行う際には、予め設定されたモードに応じて、CPU40の性能を考慮した障害再発予防処置を行うことができる。ここで、モードとしては、i)CPU40の性能を落とさずに再組み込みを行う(性能が落ちる場合には切り離す)、ii)性能を落としても再組み込みを行う、iii)即、切り離しを行う等のモードが予め設定される。組み込みソフトウェア11は、これらのモードのうちからいずれかのモードを選択して処置を行う。   Furthermore, when performing the failure recurrence prevention treatment, the failure recurrence prevention treatment can be performed in consideration of the performance of the CPU 40 in accordance with a preset mode. Here, as modes, i) re-installation is performed without degrading the performance of the CPU 40 (separate when performance is degraded), ii) re-installation is performed even when performance is degraded, iii) immediate decoupling, etc. These modes are preset. The embedded software 11 performs a treatment by selecting one of these modes.

続いて、図2に示すフローチャート図を参照して、システムの動作例について具体的に説明する。   Next, an example of the operation of the system will be specifically described with reference to the flowchart shown in FIG.

まず、CPU40に障害が発生した場合に、組み込みソフトウェア11は、CPU40の障害割込みを検出すると、該当CPU40をシステム1から切り離す(ステップS101)。次いで、組み込みソフトウェア11は、該当CPU40がシステム1に再組み込みが可能か否かを判断し(ステップS102)、再組み込みが可能である場合には、その障害内容を分析する(ステップS103)。尚、再組み込みが可能でない場合には、該当CPU40をシステム1から切り離して(ステップS119)、システム1の運転を継続する。   First, when a failure occurs in the CPU 40, the embedded software 11 disconnects the CPU 40 from the system 1 when detecting a failure interrupt of the CPU 40 (step S101). Next, the embedded software 11 determines whether or not the corresponding CPU 40 can be reincorporated into the system 1 (step S102), and if reincorporation is possible, analyzes the failure content (step S103). If re-installation is not possible, the CPU 40 is disconnected from the system 1 (step S119), and the operation of the system 1 is continued.

ステップ103における障害内容の分析の結果、例えば、遅延が原因の障害であった場合(ステップS104でYesの場合)には、組み込みソフトウェア11は、該当CPU40についてBISTを実行し(ステップS105)、BIST実行時の温度を測定する(ステップS106)。次いで、組み込みソフトウェア11は、測定した温度を高負荷なJOBの実行時の温度へと変換し(ステップS107)、変換した温度に余裕があるか否かを判断する(ステップS108)。   As a result of the analysis of the failure content in step 103, for example, if the failure is caused by a delay (Yes in step S104), the embedded software 11 executes BIST for the corresponding CPU 40 (step S105), and BIST The temperature at the time of execution is measured (step S106). Next, the embedded software 11 converts the measured temperature into a temperature at the time of execution of a high-load JOB (step S107), and determines whether or not the converted temperature has a margin (step S108).

温度に余裕がある場合(ステップS108でYesの場合)には、組み込みソフトウェア11は、障害再発予防処置として、該当CPU40に供給する電源の電圧を上昇させる(ステップS109)。温度に余裕がない場合には、組み込みソフトウェア11は、さらに、該当CPU40の冷却の強化が可能であるか否かを判断し(ステップS111)、冷却が可能である場合(ステップS111でYesの場合)には、冷却を強化(ステップS112)した後、電圧を上昇させる(ステップS113)。次いで、組み込みソフトウェア11は、該当CPU40の初期化及び再組み込みを行い(ステップS110)、システム1の運転を継続する。   If there is a margin in temperature (Yes in step S108), the embedded software 11 increases the voltage of the power supplied to the CPU 40 as a failure recurrence prevention measure (step S109). If there is no room for the temperature, the embedded software 11 further determines whether or not the cooling of the CPU 40 can be enhanced (step S111). If the cooling is possible (Yes in step S111). ), After enhancing the cooling (step S112), the voltage is increased (step S113). Next, the embedded software 11 initializes and re-incorporates the CPU 40 (step S110), and continues the operation of the system 1.

また、ステップ103における障害内容の分析の結果、遅延が原因の障害でなく(ステップS104でNoの場合)、例えば、ノイズが原因の障害であった場合(ステップS114でYesの場合)には、組み込みソフトウェア11は、電圧を低下させ(ステップS115)、初期化及び再組み込みを行う(ステップS110)。   In addition, as a result of the analysis of the failure content in step 103, if the failure is not caused by delay (in the case of No in step S104), for example, if it is a failure caused by noise (Yes in step S114), The embedded software 11 reduces the voltage (step S115), and performs initialization and re-incorporation (step S110).

ステップ103における障害内容の分析の結果、遅延が原因の障害でなく(ステップS104でNoの場合)、さらに、ノイズが原因の障害でなかった場合(ステップS114でNoの場合)には、組み込みソフトウェア11は、例えば、障害がインタフェース障害であるか否かを判断する(S116)。   As a result of the analysis of the failure content in step 103, if the failure is not a failure caused by delay (No in step S104), and if the failure is not caused by noise (No in step S114), the embedded software 11, for example, determines whether or not the failure is an interface failure (S116).

インタフェース障害であった場合(ステップS116でYesの場合)には、組み込みソフトウェア11は、さらに、設定されたモードが、例えば、システム1の性能低下を認めるモードであるか否かを判断する(ステップS117)。性能低下を認めるモードである場合(ステップS117でYesの場合)には、組み込みソフトウェア11は、CPU40のクロックを低下させ(ステップS118)、初期化及び再組み込みを行う(ステップS110)。尚、インタフェース障害でなかった場合(ステップS116でNoの場合)、または、設定されたモードがシステム1の性能低下を認めるモードでなかった場合(ステップS117でNoの場合)には、クロックを低下させずに、初期化及び再組み込みを行う(ステップS110)   In the case of an interface failure (Yes in step S116), the embedded software 11 further determines whether or not the set mode is, for example, a mode in which performance degradation of the system 1 is recognized (step S1). S117). If the mode is a mode in which performance degradation is recognized (Yes in step S117), the embedded software 11 reduces the clock of the CPU 40 (step S118), and performs initialization and re-incorporation (step S110). If there is no interface failure (No in step S116), or if the set mode is not a mode that recognizes the performance degradation of the system 1 (No in step S117), the clock is decreased. Without initialization, initialization and re-installation are performed (step S110).

続いて、障害再発予防処置として電圧を上昇させる場合に、設定する電圧の決定方法について説明する。設定する電圧は、障害発生後に電圧を上昇させる際に、高負荷なJOBの実行時の温度が、温度障害が発生する温度以下となるように設定することが好ましい。また、各CPU40の温度上昇率には個体差があるため、高負荷なJOBの実行時の温度を推測する方法として、BISTを利用する。   Next, a method for determining the voltage to be set when the voltage is increased as a failure recurrence prevention measure will be described. The voltage to be set is preferably set so that when the voltage is increased after the occurrence of a failure, the temperature at the time of executing a high-load job is equal to or lower than the temperature at which the temperature failure occurs. Further, since there is an individual difference in the temperature increase rate of each CPU 40, BIST is used as a method for estimating the temperature at the time of executing a high-load JOB.

具体的には、まず、BIST実行時と高負荷JOB実行時における、CPU40の電圧及び温度の相関関係を予め調査しておく。調査した相関関係は、図示しない記憶部などに保持しておく。そして、組み込みソフトウェア11は、障害が発生した場合に、システム1から切り離されたCPU40に対してBISTを実行してCPU40の温度を測定する。さらに、組み込みソフトウェア11は、BISTの実行時に測定した温度を、予め調査して保持しておいた相関関係を用いて高負荷JOB実行時の温度へと変換し、変換した温度が温度障害を引き起こさない範囲となるように、電圧値を設定する。すなわち、障害が発生した場合にBISTを実行して、BIST実行時の温度から高負荷JOB実行時の温度を推定して設定電圧を決定することで、システム1を停止することなく、最適な電圧を設定することができる。   Specifically, first, the correlation between the voltage and the temperature of the CPU 40 during the BIST execution and the high-load JOB execution is examined in advance. The investigated correlation is held in a storage unit (not shown). Then, when a failure occurs, the embedded software 11 performs BIST on the CPU 40 disconnected from the system 1 and measures the temperature of the CPU 40. Further, the embedded software 11 converts the temperature measured at the time of executing the BIST into the temperature at the time of executing the high load job using the correlation that has been investigated and held in advance, and the converted temperature causes a temperature failure. Set the voltage so that there is no range. That is, when a failure occurs, the BIST is executed, the temperature at the time of executing the high load job is estimated from the temperature at the time of executing the BIST, and the set voltage is determined, so that the optimum voltage can be obtained without stopping the system 1. Can be set.

図3を参照して、障害再発予防処置として電圧を上昇させる場合の設定電圧決定方法について具体的に説明する。図3は、予め調査しておいた、BIST実行時と高負荷JOB実行時における、CPU40の電圧及び温度の相関関係を示すグラフである。図3(a)は、温度上昇率がAである場合の例を示すグラフである。図3(b)は、温度上昇率がBである場合の例を示すグラフである。   With reference to FIG. 3, the setting voltage determination method in the case of raising a voltage as a failure recurrence prevention measure will be specifically described. FIG. 3 is a graph showing the correlation between the voltage and the temperature of the CPU 40, which has been investigated in advance, when the BIST is executed and when the high-load job is executed. FIG. 3A is a graph showing an example in which the temperature increase rate is A. FIG. FIG. 3B is a graph showing an example in which the temperature increase rate is B.

図3において、設定する電圧は、高負荷JOBの実行時の温度が、障害が発生する温度Tmax以下となるように設定することが好ましい。例えば、電圧V2でBISTを実行した際に測定温度が温度T2である場合には、図3(a)及び図3(b)から、該当CPU40の温度上昇率はAであるものと判断することができる。そして、この場合に、設定する電圧を電圧V4以上としては温度Tmaxを超えてしまうため、電圧V4より小さな電圧に設定することが好ましい。また例えば、電圧V2でBISTを実行した際に測定温度が温度T1である場合には、図3(a)及び図3(b)から、該当CPU40の温度上昇率はBであるものと判断することができる。そしてこの場合には、設定電圧として電圧V4を設定することができる。   In FIG. 3, it is preferable to set the voltage to be set so that the temperature at the time of execution of the high-load job is equal to or lower than the temperature Tmax at which a failure occurs. For example, when the measured temperature is the temperature T2 when the BIST is executed with the voltage V2, it is determined that the temperature increase rate of the CPU 40 is A from FIGS. 3 (a) and 3 (b). Can do. In this case, if the voltage to be set is equal to or higher than the voltage V4, it will exceed the temperature Tmax. Therefore, it is preferable to set the voltage to be lower than the voltage V4. Further, for example, when the measured temperature is the temperature T1 when the BIST is executed with the voltage V2, it is determined from FIGS. 3A and 3B that the temperature increase rate of the CPU 40 is B. be able to. In this case, the voltage V4 can be set as the set voltage.

以上説明したように、本発明によれば、CPU40に障害が発生した場合に、CPU40に発生した障害の内容を分析し、障害内容の分析結果に応じた障害再発予防処置を行った後に、コンピュータシステム1に対してCPU40の再組み込みを行う診断部10を備えることで、再組み込みしたCPU40の障害再発の可能性を低下させることができる。   As described above, according to the present invention, when a failure occurs in the CPU 40, the content of the failure that has occurred in the CPU 40 is analyzed, and after the failure recurrence prevention treatment is performed according to the analysis result of the failure content, the computer Providing the diagnosis unit 10 that re-installs the CPU 40 in the system 1 can reduce the possibility of failure recurrence of the re-installed CPU 40.

尚、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。   Note that the present invention is not limited to the above-described embodiment, and can be modified as appropriate without departing from the spirit of the present invention.

1 コンピュータシステム、
10 診断プロセッサ、
11 組み込みソフトウェア、
20 電源制御部、
30 クロック制御部、
40_1〜40_n CPU、
50_1〜50_n 温度センサ、
60_1〜60_n BIST、
70 MMU、
80 冷却装置
1 computer system,
10 diagnostic processor,
11 Embedded software,
20 power control unit,
30 clock controller,
40_1-40_n CPU,
50_1 to 50_n temperature sensor,
60_1 to 60_n BIST,
70 MMU,
80 Cooling device

Claims (16)

CPU(Central Processing Unit)に障害が発生した場合に、当該CPUを切り離した後、再組み込みを行うコンピュータシステムであって、
前記CPUに発生した障害の内容を分析し、当該障害内容の分析結果に応じた障害再発予防処置を行った後に、前記コンピュータシステムに対して前記CPUの再組み込みを行う診断部を備える
コンピュータシステム。
When a failure occurs in a CPU (Central Processing Unit), it is a computer system that re-installs after disconnecting the CPU,
A computer system comprising: a diagnostic unit that analyzes the content of a failure that has occurred in the CPU and performs re-prevention of the failure according to the analysis result of the failure content, and then re-installs the CPU into the computer system.
前記CPUに供給する電源の電圧を制御する電源制御部を更に備え、
前記診断部は、前記CPUに発生した障害が、前記コンピュータシステムの内部ロジック部分の遅延が原因である場合には、前記障害再発予防処置として、前記CPUに供給する電源の電圧を上昇させる
ことを特徴とする請求項1に記載のコンピュータシステム。
A power control unit for controlling the voltage of the power supplied to the CPU;
When the failure that has occurred in the CPU is caused by a delay in an internal logic portion of the computer system, the diagnostic unit increases the voltage of the power supply to be supplied to the CPU as the failure recurrence prevention measure. The computer system according to claim 1, wherein the computer system is characterized.
前記CPUにBIST(Built In Self Test)を実行させるBIST部と、
前記CPUの温度を測定する温度測定部と、を更に備え、
前記診断部は、前記CPUに発生した障害が、前記コンピュータシステムの内部ロジック部分の遅延が原因である場合に、
前記CPUにBISTを実行させて温度を測定し、当該測定温度に基づいて、前記CPUに供給する電源の電圧を上昇させる際の電圧値を設定する
ことを特徴とする請求項2に記載のコンピュータシステム。
A BIST unit that causes the CPU to execute a BIST (Built In Self Test);
A temperature measuring unit for measuring the temperature of the CPU,
The diagnosis unit, when a failure that occurs in the CPU is caused by a delay in an internal logic part of the computer system,
The computer according to claim 2, wherein the CPU is configured to execute a BIST to measure a temperature, and to set a voltage value for increasing a voltage of a power supply supplied to the CPU based on the measured temperature. system.
前記CPUに供給する電源の電圧変化に対して、前記BIST実行時における前記CPUの温度変化と、高負荷なJOBの実行時における前記CPUの温度変化とを予め測定し、当該測定した前記CPUに供給する電源の電圧変化及び温度変化の相関関係を保持しておき、
前記診断部は、前記CPUに発生した障害が、前記コンピュータシステムの内部ロジック部分の遅延が原因である場合に、
前記CPUにBISTを実行させて温度を測定し、当該BIST実行時における測定温度を、前記保持した電源の電圧変化及び温度変化の相関関係を用いて前記高負荷なJOBの実行時における前記CPUの温度へと変換し、当該変換した温度が、前記CPUに障害が発生する所定の温度よりも小さな電圧値となるように、前記CPUに供給する電源の電圧を上昇させる際の電圧値を設定する
ことを特徴とする請求項3に記載のコンピュータシステム。
In response to the voltage change of the power supplied to the CPU, the CPU temperature change at the time of the BIST execution and the CPU temperature change at the time of execution of the high load JOB are measured in advance, and the measured CPU Keep the correlation between the voltage change and temperature change of the power supply to supply,
The diagnosis unit, when a failure that occurs in the CPU is caused by a delay in an internal logic part of the computer system,
The CPU is caused to execute the BIST to measure the temperature, and the measured temperature at the time of the BIST execution is calculated using the correlation between the voltage change of the held power supply and the temperature change of the CPU at the time of execution of the high load JOB. A voltage value for increasing the voltage of the power source supplied to the CPU is set so that the converted temperature becomes a voltage value smaller than a predetermined temperature at which the failure occurs in the CPU. The computer system according to claim 3.
前記CPUを冷却する冷却装置を更に備え、
前記診断部は、前記CPUに供給する電源の電圧を上昇させる際に、前記BIST実行時における測定温度が所定の設定値に対して余裕があるか否かを判断し、余裕がない場合には、前記CPUの冷却を強化した後、前記CPUに供給する電源の電圧を上昇させる
ことを特徴とする請求項2乃至4いずれか1項に記載のコンピュータシステム。
A cooling device for cooling the CPU;
The diagnostic unit determines whether or not the measured temperature at the time of the BIST execution has a margin with respect to a predetermined set value when increasing the voltage of the power source supplied to the CPU. 5. The computer system according to claim 2, wherein after the cooling of the CPU is enhanced, a voltage of a power source supplied to the CPU is increased.
前記CPUに供給する電源の電圧を制御する電源制御部を更に備え、
前記診断部は、前記CPUに発生した障害が、前記コンピュータシステムのノイズが原因である場合には、前記障害再発予防処置として、前記CPUに供給する電源の電圧を低下させる
ことを特徴とする請求項1に記載のコンピュータシステム。
A power control unit for controlling the voltage of the power supplied to the CPU;
The diagnosis unit, when a failure that has occurred in the CPU is caused by noise in the computer system, lowers the voltage of a power source that is supplied to the CPU as the failure recurrence prevention measure. Item 4. The computer system according to Item 1.
前記CPUに供給するクロックを制御するクロック制御部を更に備え、
前記診断部は、前記CPUに発生した障害が、前記コンピュータシステムのインタフェース障害である場合には、前記障害再発予防処置として、前記CPUに供給するクロックを低下させる
ことを特徴とする請求項1に記載のコンピュータシステム。
A clock control unit for controlling a clock supplied to the CPU;
The said diagnostic part reduces the clock supplied to said CPU as said failure recurrence prevention measure, when the failure which generate | occur | produced in said CPU is the interface failure of said computer system. The computer system described.
前記CPUの再組み込みを行った場合の前記CPUの性能低下と、当該性能低下に応じた前記CPUの再組み込み又は切り離し処置との組合せにより定められたモードが予め設定され、
前記診断部は、前記CPUに発生した障害が、前記コンピュータシステムのインタフェース障害である場合には、前記設定されたモードに応じて、前記CPUに供給するクロックを低下させるか否かを選択する
ことを特徴とする請求項7に記載のコンピュータシステム。
A mode determined in advance by a combination of the CPU performance degradation when the CPU is re-integrated and the CPU re-integration or disconnection treatment according to the performance degradation is preset,
The diagnosis unit selects whether or not to reduce a clock supplied to the CPU according to the set mode when a failure occurring in the CPU is an interface failure of the computer system. The computer system according to claim 7.
CPU(Central Processing Unit)に障害が発生した場合に、当該CPUをコンピュータシステムから切り離した後に、再組み込みを行うCPUの再組み込み方法であって、
前記CPUに発生した障害の内容を分析するステップと、
前記障害内容の分析結果に応じた障害再発予防処置を行うステップと、
を有するCPUの再組み込み方法。
A method of re-installing a CPU that performs re-installation after disconnecting the CPU from a computer system when a failure occurs in a CPU (Central Processing Unit).
Analyzing the content of a failure that has occurred in the CPU;
Performing a failure recurrence prevention treatment according to the analysis result of the failure content;
CPU re-installation method.
前記CPUに発生した障害が、前記コンピュータシステムの内部ロジック部分の遅延が原因である場合に、
前記障害再発予防処置を行うステップが、前記CPUに供給する電源の電圧を上昇させるステップを有する
ことを特徴とする請求項9に記載のCPUの再組み込み方法。
When the failure occurred in the CPU is caused by a delay in the internal logic part of the computer system,
The method of re-installing a CPU according to claim 9, wherein the step of performing the failure recurrence prevention treatment includes a step of increasing a voltage of a power source supplied to the CPU.
前記CPUに発生した障害が、前記コンピュータシステムの内部ロジック部分の遅延が原因である場合に、
前記障害再発予防処置を行うステップが、
前記CPUにBIST(Built In Self Test)を実行させて温度を測定するステップと、
前記測定温度に基づいて、前記CPUに供給する電源の電圧を上昇させる際の電圧値を設定するステップと、を有する
ことを特徴とする請求項10に記載のCPUの再組み込み方法。
When the failure occurred in the CPU is caused by a delay in the internal logic part of the computer system,
The step of performing the failure recurrence prevention treatment comprises:
Causing the CPU to execute a BIST (Built In Self Test) and measuring the temperature;
The method of re-installing a CPU according to claim 10, further comprising: setting a voltage value when increasing a voltage of a power source supplied to the CPU based on the measured temperature.
前記CPUに供給する電源の電圧変化に対して、前記BIST実行時における前記CPUの温度変化と、高負荷なJOBの実行時における前記CPUの温度変化とを予め測定し、当該測定した前記CPUに供給する電源の電圧変化及び温度変化の相関関係を保持するステップを更に有し、
前記CPUに発生した障害が、前記コンピュータシステムの内部ロジック部分の遅延が原因である場合に、
前記障害再発予防処置を行うステップが、
前記CPUにBISTを実行させて温度を測定するステップと、
前記BIST実行時における測定温度を、前記保持した電源の電圧変化及び温度変化の相関関係を用いて前記高負荷なJOBの実行時における前記CPUの温度へと変換するステップと、
前記変換した温度が、前記CPUに障害が発生する所定の温度よりも小さな電圧値となるように、前記CPUに供給する電源の電圧を上昇させる際の電圧値を設定するステップと、を有する
ことを特徴とする請求項11に記載のCPUの再組み込み方法。
In response to the voltage change of the power supplied to the CPU, the CPU temperature change at the time of the BIST execution and the CPU temperature change at the time of execution of the high load JOB are measured in advance, and the measured CPU A step of maintaining a correlation between a voltage change and a temperature change of the power supply to be supplied;
When the failure occurred in the CPU is caused by a delay in the internal logic part of the computer system,
The step of performing the failure recurrence prevention treatment comprises:
Causing the CPU to perform a BIST and measuring the temperature;
Converting the measured temperature at the time of the BIST execution into the temperature of the CPU at the time of executing the high-load JOB using the correlation between the voltage change of the held power supply and the temperature change;
Setting a voltage value at the time of increasing the voltage of the power supply to be supplied to the CPU so that the converted temperature becomes a voltage value lower than a predetermined temperature at which a failure occurs in the CPU. The CPU re-embedding method according to claim 11.
前記障害再発予防処置を行うステップが、
前記CPUに供給する電源の電圧を上昇させる際に、前記BIST実行時における測定温度が所定の設定値に対して余裕があるか否かを判断するステップと、
前記判断の結果、余裕がない場合には、前記CPUの冷却を強化した後、前記CPUに供給する電源の電圧を上昇させるステップと、を有する
ことを特徴とする請求項10乃至12いずれか1項に記載のCPUの再組み込み方法。
The step of performing the failure recurrence prevention treatment comprises:
Determining whether the measured temperature at the time of the BIST execution has a margin with respect to a predetermined set value when raising the voltage of the power source supplied to the CPU;
13. The method according to claim 10, further comprising: increasing the power supply voltage supplied to the CPU after enhancing the cooling of the CPU if there is no room as a result of the determination. The re-installation method of the CPU according to the item.
前記CPUに発生した障害が、前記コンピュータシステムのノイズが原因である場合には、
前記障害再発予防処置を行うステップが、
前記CPUに供給する電源の電圧を低下させるステップを有する
ことを特徴とする請求項9乃至13いずれか1項に記載のCPUの再組み込み方法。
When the failure that occurred in the CPU is caused by noise in the computer system,
The step of performing the failure recurrence prevention treatment comprises:
The method of re-installing a CPU according to claim 9, further comprising a step of reducing a voltage of a power source supplied to the CPU.
前記CPUに発生した障害が、前記コンピュータシステムのインタフェース障害である場合には、
前記障害再発予防処置を行うステップが、
前記CPUに供給するクロックを低下させるステップを有する
ことを特徴とする請求項9乃至14いずれか1項に記載のCPUの再組み込み方法。
When the failure that has occurred in the CPU is an interface failure in the computer system,
The step of performing the failure recurrence prevention treatment comprises:
The method of re-installing a CPU according to claim 9, further comprising a step of reducing a clock supplied to the CPU.
前記CPUの再組み込みを行った場合の前記CPUの性能低下と、当該性能低下に応じた前記CPUの再組み込み又は切り離し処置との組合せにより定められたモードが予め設定されるステップを更に有し、
前記CPUに発生した障害が、前記コンピュータシステムのインタフェース障害である場合には、
前記障害再発予防処置を行うステップが、
前記設定されたモードに応じて、前記CPUに供給するクロックを低下させるか否かを選択するステップを有する
ことを特徴とする請求項15に記載のCPUの再組み込み方法。
The method further includes a step in which a mode determined by a combination of the performance degradation of the CPU when the CPU is re-assembled and the re-installation or separation processing of the CPU according to the performance degradation is preset,
When the failure that has occurred in the CPU is an interface failure in the computer system,
The step of performing the failure recurrence prevention treatment comprises:
The method of re-embedding a CPU according to claim 15, further comprising a step of selecting whether or not to reduce a clock supplied to the CPU according to the set mode.
JP2009012547A 2009-01-23 2009-01-23 Computer system and re-installation method of CPU Active JP5311473B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009012547A JP5311473B2 (en) 2009-01-23 2009-01-23 Computer system and re-installation method of CPU

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009012547A JP5311473B2 (en) 2009-01-23 2009-01-23 Computer system and re-installation method of CPU

Publications (2)

Publication Number Publication Date
JP2010170355A JP2010170355A (en) 2010-08-05
JP5311473B2 true JP5311473B2 (en) 2013-10-09

Family

ID=42702446

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009012547A Active JP5311473B2 (en) 2009-01-23 2009-01-23 Computer system and re-installation method of CPU

Country Status (1)

Country Link
JP (1) JP5311473B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6393628B2 (en) 2015-01-21 2018-09-19 日立オートモティブシステムズ株式会社 Vehicle control device

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07175765A (en) * 1993-10-25 1995-07-14 Mitsubishi Electric Corp Fault recovering method of computer
JP3688217B2 (en) * 2001-04-12 2005-08-24 三菱電機株式会社 Multiprocessor initialization / concurrent diagnosis method

Also Published As

Publication number Publication date
JP2010170355A (en) 2010-08-05

Similar Documents

Publication Publication Date Title
US8595520B2 (en) System and method for determining thermal management policy from leakage current measurement
US7346468B2 (en) Method and apparatus for detecting heat sink faults
US7349762B2 (en) Systems and methods for thermal management
JP4448101B2 (en) Electronic device cooling system, computer and cooling method
JP6360387B2 (en) Processor system, engine control system, and control method
US9516787B2 (en) Cooling device with temperature sensor failure detection
KR20130126647A (en) Maximum current limiting method and apparatus
JP5476238B2 (en) Semiconductor device
JP4572251B2 (en) Computer system, computer system failure sign detection method and program
US20100088545A1 (en) Computer apparatus and processor diagnostic method
US9760071B2 (en) Profile based fan control for an unmanageable component in a computing system
JP2008009616A (en) Touch pad with fingerprint detection function, fingerprint detection method, and fingerprint detection program
WO2013107694A4 (en) In situ processor re-characterization
US9766669B2 (en) Airflow block response in a system
JP5311473B2 (en) Computer system and re-installation method of CPU
US20130191613A1 (en) Processor control apparatus and method therefor
US9990015B2 (en) Information processing apparatus configured to control cooling operation thereof based on variable configuration and cooling method therefor
US8449173B1 (en) Method and system for thermal testing of computing system components
US20140379162A1 (en) Server system and monitoring method
JP4973703B2 (en) Failure detection method and monitoring device
JP5435663B2 (en) Electronic device maintenance apparatus, method, and program
JP2020009398A (en) Method for controlling fan in electronic system
JP2006221308A (en) Abnormality detection method, control apparatus, and control system using the same
US8437985B2 (en) Sensor-based data filtering systems
JP2007102313A (en) Controller and multiprocessor control method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130529

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130627

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5311473

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350