JP3433456B2 - RAS mechanism of cooling monitoring system for computer - Google Patents

RAS mechanism of cooling monitoring system for computer

Info

Publication number
JP3433456B2
JP3433456B2 JP19245092A JP19245092A JP3433456B2 JP 3433456 B2 JP3433456 B2 JP 3433456B2 JP 19245092 A JP19245092 A JP 19245092A JP 19245092 A JP19245092 A JP 19245092A JP 3433456 B2 JP3433456 B2 JP 3433456B2
Authority
JP
Japan
Prior art keywords
fuzzy
cooling
monitoring
unit
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP19245092A
Other languages
Japanese (ja)
Other versions
JPH0635572A (en
Inventor
正 大橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP19245092A priority Critical patent/JP3433456B2/en
Publication of JPH0635572A publication Critical patent/JPH0635572A/en
Application granted granted Critical
Publication of JP3433456B2 publication Critical patent/JP3433456B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 【0001】 【産業上の利用分野】本発明は電子計算機用冷却監視シ
ステムのRAS機構に関する。近年ファジィ理論は「フ
ァジィ理論とその応用」(水本雅晴著)等でよく知られ
るように、あいまいな入力から確定的な出力を求めるた
めの理論として工業的に利用されはじめた。ファジィ理
論では、要するにメンバーシップ関数というものをその
入力に関する専門知識を持った者に定義させてこれを知
識ベースとして保持してこれを用いてあいまいな入力を
判定する。 【0002】ここで、あいまいな入力の代わりにあいま
いな限界が存在する場合にファジィ理論を用いること
が、この問題を解決する手段として考えられる。 【0003】 【従来の技術】近年の大型電子計算機システムにおいて
は、高性能を追求しており、演算回路の高集積化に伴
い、高密度な半導体素子等を採用することになり、回路
の発熱も大きくなり、この解決手段として冷却システム
が不可欠となってきた。 【0004】従来の冷却システムでは各種センサで冷却
システムの異常を検知すると計算機に対して警告を発し
たり、最悪の場合にはシステム全体を停止させたり(以
下システム・ダウンという)していた。 【0005】従来の冷却監視システムについて説明す
る。図4は従来の電子計算機の一例であって、従来の冷
却監視システムの構成図である。 【0006】図において、1は電子計算機であって、冷
却系設備の冷却の対象となる高密度半導体素子2 で構成
される装置である。2は高密度半導体素子であって、演
算を行いそのため電力を消費して発熱するものである。 【0007】3は冷却系設備であって、顧客冷却設備4
と冷媒供給装置5 とから構成されるものである。4は顧
客空調設備であって、顧客の供給する冷却水(以下顧客
冷媒と呼ぶ)を供給する設備である。 【0008】5は冷媒供給装置であって、電子計算機1
の高密度半導体素子2 を冷却するための純水(以下内部
冷媒と呼ぶ)を顧客冷媒を用いて冷却する装置である。
内部冷媒は高価なため閉じた循環系を構成するようにし
ている。 【0009】6は監視センサであって、顧客冷却設備4
、冷媒供給装置5 及び電子計算機1等の冷却系の動作の
監視を行うものであり、流量センサ、温度センサ、ファ
ン回転センサ等からなる。7は環境冷却制御装置であっ
て、中央処理装置(以下CPUと略する)8 、メモリ9
、及び状態監視部10、故障木解析( フォルト・ツリー
・アナリシス:以下FTAと略する)部11、構成制御部
12及び構成制御テーブル13を含むものである。 【0010】8はCPUであって、メモリ9 内のプログ
ラムを実行して環境冷却制御を行うものである。9はメ
モリであって、プログラムやデータを格納するものであ
る。10は状態監視部であって、監視センサ6 の入力の
異常を検出してFTA部11を起動するものである。11
はFTA部であって、故障を解析するFTA手法を用い
て故障を意味する監視センサ6 の入力から故障の原因を
決定する機能であり、メモリ9 内のプログラムをCPU
8 で実行することによって実現される。 【0011】12は構成制御部であって、システムの構
成を記述する構成制御テーブル13を更新してシステム構
成を変更する機能である。13は構成制御テーブルであ
って、電子計算機1 のシステム構成を記述してあるもの
である。 【0012】14は構成制御装置であって、構成制御テ
ーブル13に従って電子計算機1 の装置間の接続を行いシ
ステム構成を変更するものである。従来冷却監視システ
ムでは、監視センサ6 の入力を状態監視部10で監視し
て、若し異常が発生すると、その異常を検出してFTA
部11を起動していた。 【0013】FTA部11では異常現象と故障原因の関係
を予め故障木の形式で記述しておき、異常現象の発生の
通知を受けると、前記故障木記述から故障原因を求め
る。図5は故障木の記述図である。図において、ノード
51は「内部冷媒の温度異常」という異常現象であって、
監視センサ6 で検出された現象である。この現象の原因
はノード52の「センサの故障」とノード53の「ポンブの
故障」のいずれかであるということをノード61のOR記
号による接続によって示す。 【0014】ノード53の「ポンブの故障」の原因はノー
ド64のOR記号の内容とノード55の「電源異常」の何れ
かであることがノード63のOR記号で示される。ノード
64のOR記号の内容はノード56の「ポンブリーク」とノ
ード57の「ポンブ圧力低下」とノード58の「ポンブ能力
低下」のいずれかである。このように異常現象をトップ
ダウン的に分解して原因に分解することが故障解析で用
いられ、故障木解析(フォルト・ツリー・アナリシス:
FTA)と呼ばれている。 【0015】例えば、高速電子計算機においては、図4
の高密度半導体素子2 の冷却が重要問題となっているが
直接に高密度半導体素子2 の冷却を測定することが困難
なため、高密度半導体素子2 の冷却を行う内部冷媒とそ
の内部冷媒の冷却を行う顧客冷媒の温度及び流速等から
間接的に冷却制御を行っている。 【0016】図6は顧客冷媒及び計算機冷媒の温度によ
って決定される電子計算機の動作可能温度範囲を示す図
である。図において、32は実冷却機能許容曲線であっ
て、この範囲内に顧客冷媒及び計算機冷媒の温度が入っ
ていれば高密度半導体素子2の動作、即ち電子計算機1
の動作が可能であることを意味する。31は仮説冷却機
能許容曲線であって、この範囲内に顧客冷媒及び計算機
冷媒の温度が入っていれば電子計算機1 の動作が可能で
あるとして、冷却制御を行うことを意味する。 【0017】しかし、この仮説冷却機能許容曲線の範囲
は仮想的なものであって、実際は実冷却機能許容曲線32
で示される幅をもった限界が動作の限界であり、この幅
の中(図の斜線の領域)では動作の確度は確率的に決定
され、ここから外側では動作させると素子が破壊した
り、正常な動作が出来なかったりすることになる。 【0018】従来の冷却制御システムでは、この監視は
冷却機能許容曲線の範囲内にあるかを冷媒供給装置5 で
の内部冷媒供給温度及び顧客冷却設備4 での顧客冷媒温
度の監視により、その範囲を逸脱して運転していないか
の二値論理に基づき冷却機能の監視を行っていた。 【0019】もし、異常が検出されるとその計測値によ
り、あるレベル以上はシステム・ダウンとさせ、あるレ
ベル以下はウォーニング(警戒)として通信手段を経て
上位計算機に通知していた。 【0020】これらの処理が前記FTA部で行われ、電
子計算機システムの構成を変更して運用する必要がある
ときには、構成制御部12が構成制御テーブル13を書き替
える。図に示してない構成制御装置が構成制御テーブル
13に従って電子計算機システムの接続を変更して構成変
更を行い、障害のある装置を切り放してシステムの運用
を続行する。 【0021】このようなFTAにファジィ推論を利用す
ることが提案されている(「FuzzyFault Tree Analysis
とその応用」(第一回知識工学シンポジウム))。 【0022】 【発明が解決しようとする課題】しかし、上記で説明し
たように、従来の冷却制御では冷却機能許容曲線の範囲
内にあるか否かを二値論理に基づき判定してシステム・
ダウン等の処理を行っていたため、実際は動作可能な環
境温度範囲であっても乃至は対策処理可能な環境温度範
囲であってもシステムの停止処理を行うことになり、計
算機のRAS(リライアビリティ:信頼性、アベイラビ
リティ:可用性、サービサビリティ:保守性)機能を低
下させていた。 【0023】本発明はこのような点にかんがみて、動作
可能な環境温度範囲をファジィ論理で定義することによ
って、システムの停止を決定する許容度を増加させて計
算機のRAS機能を向上させる手段を提供することを目
的とする。 【0024】 【課題を解決するための手段】上記の課題は下記の如く
に構成されたファジィ制御を持つ冷却監視システムによ
って解決される。 【0025】図1は、本発明の原理図である。電子計算
機システムの冷却を行う冷却系の監視を行う監視センサ
6 の出力を受け取り記録する入力記録部20と、該入力を
ファジィ論理を用いて判定して異常を検出し、検出した
ときはファジィ故障木解析部22を起動するファジィ状態
監視部21と、前記入力記録部20に記録された記録と該入
力とから故障木解析を行い故障原因をファジィ論理を用
いて判定するファジィ故障木解析部22と、前記ファジィ
状態監視部21と前記ファジィ故障木解析部22とでの推論
に使用するルールを格納する知識ベース23と、前記電子
計算機システムの構成を規定する構成制御テーブル13
と、判定された該原因から前記構成制御テーブル13を変
更する構成制御部12と、を有するように構成する。 【0026】 【作用】入力記録部20は電子計算機システムの冷却を行
う冷却系の監視を行う監視センサ6 の出力を受け取り記
録する。 【0027】ファジィ状態監視部21は該入力をファジィ
論理を用いて判定して異常を検出する。このとき予め設
けてある知識ベース23を使用して推論を行う。従って専
門家の知識を用いたきめ細かい監視を行うことができ
る。異常を検出した場合にはファジィ故障木解析部22を
起動する。 【0028】ファジィ故障木解析部22は冷却系の監視を
行う監視センサ6 の出力と過去の履歴である前記入力記
録部20に記録された記録とから故障木解析を行い故障原
因をファジィ論理を用いて判定する。このときも前記知
識ベース23を使用して推論を行う。従って専門家の知識
を用いた判定を行うことができる。 【0029】知識ベース23には前記ファジィ状態監視部
21と前記ファジィ故障木解析部22とでの推論に使用する
ルールを予め格納してある。構成制御テーブル13には前
記電子計算機システムの構成が規定してあり、前記電子
計算機システムにある構成制御部がこのテーブルに従い
構成を設定する。 【0030】構成制御部12は前記ファジィ故障木解析部
22で判定された故障原因によってその原因を回避するよ
うに前記構成制御テーブル13を変更する。以上の構成に
より、電子計算機システムの冷却系の異常を検出して、
その原因を判定することによって故障原因を回避するよ
うに電子計算機システムの構成を変更することができ
る。 【0031】 【実施例】図2は本発明の実施例の冷却監視システムの
構成図である。図において、20は入力記録部であっ
て、冷却系等を監視する監視センサ6 の出力を入力とし
て記録するものである。14は構成制御装置であって、
構成制御テーブル13を参照して電子計算機1 の接続構成
を変更するものである。 【0032】21はファジィ状態監視部であって、監視
センサ6 の出力をファジィ論理を用いて判定して異常を
検出し検出したときはファジィ故障木解析部22を起動す
るものである。22はファジィ故障木解析部であって、
冷却系の監視を行う監視センサ6 の出力と過去の履歴で
ある前記入力記録部20に記録された記録とから故障木解
析を行い故障原因をファジィ論理を用いて判定するもの
である。 【0033】23は知識ベースであって、前記ファジィ
状態監視部21と前記ファジィ故障木解析部22とでの推論
に使用するルールを格納するものである。その他、図5
と同一符号の物は同一物である。 【0034】以下に本発明の実施例の動作を説明する。
冷却系の監視を行う監視センサ6 の出力を入力として監
視するのは従来と同様であるが、入力記録部20でこの入
力を履歴として記録する。 【0035】また、前記ファジィ状態監視部21でこの入
力と過去の履歴を知識ベース23を元にファジィ推論で入
力の状態が異常であるか否かを判断する。ファジィ推論
はソフトウェアでも実現することができるし、さらに高
速で実行したいときにはファジィチップと呼ばれるファ
ジィ推論に特に適した構造を持つマイクロプロセッサが
あり、このようなチップを使用することで実現できる。 【0036】温度状態をファジィ推論で判定する理由を
説明する。図3は電子計算機の動作可能な温度範囲の説
明図であって、図に示す冷却機能許容曲線は図6と同一
である。図に示す点Oは顧客冷媒温度と内部冷媒温度と
で指定される状態であって、仮説冷却機能許容曲線31の
範囲外にあり、従来はこの点が示す状態になるとシステ
ム・ダウンとする処理を行っていた。 【0037】しかし、この点は実冷却機能許容曲線32の
枠の幅( 斜線部分) の中にあり、例えば点A→点B→点
Oと変化して点Oになった場合には5分位は動作させて
も良いが、点C→点D→点Oと変化した場合は直ちに動
作を中止して発熱を止めないと素子が破壊されるという
専門家の知識がルールになっている場合がある。 【0038】このような場合には過去の履歴を調べてど
ちらから点Oになったのかによってはただちにシステム
・ダウンとする処理をとる必要は無く、時間的余裕があ
る間にシステム構成を変更して異常現象に対する対策を
行えば、システムの運用を続行できることがある。 【0039】このような専門家の知識を知識ベース23に
記憶させておき、入力状態から異常を検出する際に用い
る。ファジィ状態監視部21で入力状態から異常を検出す
ると、ファジィ故障木解析部22を起動する。 【0040】ファジィ故障木解析部22では、従来のFT
Aと同様に入力状態と過去の履歴から知識ベース23に蓄
えたルールに従い故障原因を判定する。このとき、例え
ば図6において、ノード64から原因が3つ考えられると
き、従来のFTAでは入力状態から3つの原因の何れか
を決定していた。 【0041】しかし、ファジィ故障木解析では各々の原
因に重みを付けた原因決定を行い(例えば、ノード56は
0.2 、ノード57は0.5 、ノード58は0.3 とする) この重
みを持った原因から知識ベース23に蓄えた専門家の知識
(例えば「そのときのモーターの音を聞いて判断する」
というルール)を元にファジィ推論により確定的な原因
決定を行う。 【0042】ここで決定された障害原因は構成制御部12
に通知され、構成制御部12はそれに従って予め定めたル
ールに従って構成制御テーブル13を書き替えてシステム
構成を変更する。システム構成の変更は構成制御装置14
が構成制御テーブル13に従って電子計算機システムの接
続を変更して構成変更を行い、障害のある装置を切り放
す。電子計算機1 のシステムソフトウェアは変更された
システム構成において、システムの運用を続行する。 【0043】上記のシステムで決定された障害原因は専
門家の知識をベースにしており、冷却監視に従来より高
度の判断を行って、システム・ダウンを回避することが
でき電子計算機システムのRAS機能を向上させること
ができる。 【0044】 【発明の効果】以上の説明から明らかなように本発明に
よればファジィ論理を用いて動作環境を記述し、状況判
断を行うことによって、従来と異なり柔軟な判断処理を
行うことができ、システムの停止を回避することがで
き、高速電子計算機のRASの向上に著しい工業的効果
がある。
Description: BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an RAS mechanism of a cooling monitoring system for an electronic computer. In recent years, fuzzy theory has been industrially used as a theory for obtaining deterministic output from ambiguous input, as is well known in “Fuzzy Theory and Its Applications” (by Masaharu Mizumoto). In the fuzzy theory, in short, a person having expertise in inputting a membership function is defined and held as a knowledge base, and an ambiguous input is determined using the knowledge base. Here, the use of fuzzy logic when there is an ambiguous limit instead of an ambiguous input can be considered as a means for solving this problem. 2. Description of the Related Art In recent large-scale computer systems, high performance has been pursued, and high-density semiconductor elements and the like have been adopted with the increase in the degree of integration of arithmetic circuits. The cooling system has become indispensable as a solution to this problem. [0004] In the conventional cooling system, when an abnormality of the cooling system is detected by various sensors, a warning is issued to a computer, or in the worst case, the entire system is stopped (hereinafter, referred to as a system down). A conventional cooling monitoring system will be described. FIG. 4 is an example of a conventional computer, and is a configuration diagram of a conventional cooling monitoring system. In FIG. 1, reference numeral 1 denotes an electronic computer, which is an apparatus composed of high-density semiconductor elements 2 to be cooled by cooling system equipment. Reference numeral 2 denotes a high-density semiconductor element which performs calculations and consumes power to generate heat. Reference numeral 3 denotes a cooling system, which is a customer cooling system 4
And a refrigerant supply device 5. Reference numeral 4 denotes a customer air conditioner, which supplies cooling water (hereinafter referred to as customer refrigerant) supplied by the customer. Reference numeral 5 denotes a refrigerant supply device, which is an electronic computer 1
This is a device for cooling pure water (hereinafter referred to as an internal refrigerant) for cooling the high-density semiconductor element 2 using a customer refrigerant.
Since the internal refrigerant is expensive, it forms a closed circulation system. Reference numeral 6 denotes a monitoring sensor, which is a customer cooling facility 4
It monitors the operation of the cooling system such as the refrigerant supply device 5 and the computer 1, and includes a flow rate sensor, a temperature sensor, a fan rotation sensor, and the like. Reference numeral 7 denotes an environment cooling control unit, which is a central processing unit (hereinafter abbreviated as CPU) 8, a memory 9
, And status monitoring unit 10, fault tree analysis (fault tree analysis: hereinafter abbreviated as FTA) unit 11, configuration control unit
12 and a configuration control table 13. Reference numeral 8 denotes a CPU for executing a program in the memory 9 to perform environmental cooling control. Reference numeral 9 denotes a memory for storing programs and data. Reference numeral 10 denotes a state monitoring unit which detects an abnormality in the input of the monitoring sensor 6 and activates the FTA unit 11. 11
Is a function of determining the cause of the failure from the input of the monitoring sensor 6 indicating the failure by using the FTA method for analyzing the failure. The program in the memory 9 is executed by the CPU.
This is achieved by executing in step 8. Reference numeral 12 denotes a configuration control unit, which has a function of updating the configuration control table 13 describing the configuration of the system and changing the system configuration. A configuration control table 13 describes the system configuration of the computer 1. Reference numeral 14 denotes a configuration control device for connecting the devices of the computer 1 according to the configuration control table 13 to change the system configuration. In the conventional cooling monitoring system, the input of the monitoring sensor 6 is monitored by the state monitoring unit 10, and if an abnormality occurs, the abnormality is detected and the FTA is detected.
Unit 11 had been started. The FTA unit 11 describes in advance the relationship between the abnormal phenomenon and the cause of the failure in the form of a fault tree, and upon receiving the notification of the occurrence of the abnormal phenomenon, finds the cause of the failure from the description of the fault tree. FIG. 5 is a diagram illustrating a fault tree. In the figure, the node
51 is an abnormal phenomenon called "temperature abnormality of internal refrigerant",
This is a phenomenon detected by the monitoring sensor 6. The fact that the cause of this phenomenon is either the “sensor failure” of the node 52 or the “pump failure” of the node 53 is indicated by the connection of the node 61 with the OR symbol. The OR symbol of the node 63 indicates that the cause of the "pump failure" of the node 53 is either the content of the OR symbol of the node 64 or the "power failure" of the node 55. node
The contents of the OR symbol 64 are either “pomb leak” at node 56, “low pump pressure” at node 57, or “low pump capability” at node 58. Decomposition of abnormal phenomena from the top down to the cause is used in failure analysis, and failure tree analysis (fault tree analysis:
FTA). For example, in a high-speed computer, FIG.
Although the cooling of the high-density semiconductor element 2 is an important issue, it is difficult to directly measure the cooling of the high-density semiconductor element 2, so that the internal refrigerant that cools the high-density semiconductor element 2 and the internal refrigerant Cooling control is performed indirectly based on the temperature and flow rate of the customer refrigerant to be cooled. FIG. 6 is a diagram showing an operable temperature range of the electronic computer determined by the temperatures of the customer refrigerant and the computer refrigerant. In the figure, reference numeral 32 denotes an actual cooling function permissible curve. If the temperatures of the customer refrigerant and the computer refrigerant fall within this range, the operation of the high-density semiconductor element 2, ie, the computer 1
Operation is possible. Numeral 31 denotes a hypothetical cooling function allowable curve, which means that if the temperatures of the customer refrigerant and the computer refrigerant fall within this range, the operation of the electronic computer 1 is determined to be possible and the cooling control is performed. However, the range of the hypothetical cooling function permissible curve is virtual, and in fact, the actual cooling function permissible curve 32
The limit having the width indicated by is the limit of operation. Within this width (the shaded area in the figure), the accuracy of the operation is determined stochastically. Normal operation may not be possible. In the conventional cooling control system, this monitoring is performed by monitoring the internal refrigerant supply temperature in the refrigerant supply device 5 and the customer refrigerant temperature in the customer cooling facility 4 to determine whether the temperature is within the range of the cooling function allowable curve. The cooling function was monitored based on the binary logic as to whether or not the operation was deviated. If an abnormality is detected, the system is shut down at a certain level or higher according to the measured value, and a warning is sent to a higher-level computer via a communication means at a certain level or lower as a warning. These processes are performed by the FTA unit, and when it is necessary to change the configuration of the computer system for operation, the configuration control unit 12 rewrites the configuration control table 13. Configuration control device not shown
According to 13, the connection of the computer system is changed to change the configuration, the faulty device is disconnected, and the operation of the system is continued. It has been proposed to use fuzzy inference for such an FTA (see "Fuzzy Fault Tree Analysis").
And its applications ”(1st Knowledge Engineering Symposium)). However, as described above, in the conventional cooling control, it is determined whether or not the temperature is within the range of the cooling function allowable curve based on binary logic.
Since a process such as a down was performed, the system was stopped even if it was in an operable environmental temperature range or an environmental temperature range in which countermeasures could be taken, and the RAS (Reliability: Reliability, availability: availability, serviceability: maintainability). In view of the above, the present invention provides a means for improving the RAS function of a computer by defining the operable environmental temperature range by fuzzy logic, thereby increasing the tolerance for determining system shutdown. The purpose is to provide. The above object is achieved by a cooling monitoring system having fuzzy control configured as described below. FIG. 1 is a diagram showing the principle of the present invention. Monitoring sensor that monitors the cooling system that cools the computer system
6, an input recording unit 20 for receiving and recording the output, a fuzzy state monitoring unit 21 for judging the input using fuzzy logic to detect an abnormality, and when detecting the abnormality, starting a fuzzy fault tree analysis unit 22; A fuzzy fault tree analysis unit 22, which performs a fault tree analysis based on the record recorded in the input recording unit 20 and the input and determines the cause of the fault using fuzzy logic, the fuzzy state monitoring unit 21, and the fuzzy fault tree analysis unit A knowledge base 23 for storing rules used for inference with the configuration 22; and a configuration control table 13 for defining the configuration of the computer system.
And a configuration control unit 12 that changes the configuration control table 13 based on the determined cause. The input recording unit 20 receives and records the output of the monitoring sensor 6 for monitoring the cooling system for cooling the computer system. The fuzzy state monitoring unit 21 determines the input by using fuzzy logic and detects an abnormality. At this time, inference is performed using the knowledge base 23 provided in advance. Therefore, it is possible to perform detailed monitoring using expert knowledge. When an abnormality is detected, the fuzzy fault tree analysis unit 22 is activated. The fuzzy fault tree analysis unit 22 analyzes the fault tree from the output of the monitoring sensor 6 for monitoring the cooling system and the record recorded in the input recording unit 20 which is the past history, and determines the cause of the fault by fuzzy logic. Use and judge. At this time, inference is performed using the knowledge base 23. Therefore, it is possible to make a determination using expert's knowledge. The knowledge base 23 includes the fuzzy state monitoring unit.
The rules used for inference by the fuzzy fault tree analysis unit 21 and the fuzzy fault tree analysis unit 22 are stored in advance. The configuration control table 13 defines the configuration of the computer system, and the configuration control unit in the computer system sets the configuration according to this table. The configuration control unit 12 includes the fuzzy fault tree analysis unit.
The configuration control table 13 is changed so as to avoid the cause of the failure determined in step 22. With the above configuration, the abnormality of the cooling system of the computer system is detected,
By determining the cause, the configuration of the computer system can be changed so as to avoid the cause of the failure. FIG. 2 is a block diagram of a cooling monitoring system according to an embodiment of the present invention. In the figure, reference numeral 20 denotes an input recording unit which records an output of a monitoring sensor 6 for monitoring a cooling system or the like as an input. 14 is a configuration control device,
The configuration of the computer 1 is changed with reference to the configuration control table 13. Reference numeral 21 denotes a fuzzy state monitoring unit which activates a fuzzy fault tree analysis unit 22 when the output of the monitoring sensor 6 is determined using fuzzy logic and an abnormality is detected and detected. 22 is a fuzzy fault tree analysis unit,
The fault tree is analyzed from the output of the monitoring sensor 6 for monitoring the cooling system and the past history recorded in the input recording unit 20 to determine the cause of the failure using fuzzy logic. Reference numeral 23 denotes a knowledge base which stores rules used for inference by the fuzzy state monitoring unit 21 and the fuzzy fault tree analysis unit 22. In addition, FIG.
Items having the same reference numerals as the same are the same. The operation of the embodiment of the present invention will be described below.
Monitoring the output of the monitoring sensor 6 for monitoring the cooling system as an input is the same as in the related art, but the input recording unit 20 records this input as a history. Further, the fuzzy state monitoring section 21 judges whether or not the input state is abnormal by fuzzy inference based on the knowledge and the past history based on the knowledge base 23. The fuzzy inference can be realized by software, and there is a microprocessor called a fuzzy chip having a structure particularly suitable for fuzzy inference when it is desired to execute at a higher speed, and can be realized by using such a chip. The reason why the temperature state is determined by fuzzy inference will be described. FIG. 3 is an explanatory diagram of a temperature range in which the computer can operate, and the cooling function allowable curve shown in FIG. 3 is the same as FIG. A point O shown in the figure is a state specified by the customer refrigerant temperature and the internal refrigerant temperature, is outside the range of the hypothetical cooling function allowable curve 31, and conventionally, when the state shown by this point is reached, the system is brought down. Had gone. However, this point is within the width (shaded area) of the frame of the actual cooling function permissible curve 32. For example, when the point O changes from the point A to the point B to the point O, it takes 5 minutes. The position may be operated, but if the rules are based on expert knowledge that if the operation changes from point C to point D to point O, the operation must be stopped immediately to stop the heat generation and the element will be destroyed. There is. In such a case, it is not necessary to take a process of bringing the system down immediately by checking the past history and depending on the point from which the point O is reached, and change the system configuration while there is sufficient time. If the countermeasures against abnormal phenomena are taken, the operation of the system may be continued. Such expert's knowledge is stored in the knowledge base 23 and used when detecting an abnormality from the input state. When the fuzzy state monitor 21 detects an abnormality from the input state, the fuzzy fault tree analyzer 22 is activated. The fuzzy fault tree analysis unit 22 uses the conventional FT
Like A, the cause of failure is determined from the input state and the past history according to the rules stored in the knowledge base 23. At this time, for example, in FIG. 6, when three causes are considered from the node 64, in the conventional FTA, one of the three causes is determined from the input state. However, in the fuzzy fault tree analysis, each cause is weighted to determine a cause (for example, the node 56
0.2, node 57 is 0.5, and node 58 is 0.3) Expert knowledge stored in the knowledge base 23 based on the cause having this weight (for example, "judgment by listening to the motor sound at that time")
), And a definitive cause determination is made by fuzzy inference. The determined cause is the configuration control unit 12
And the configuration control unit 12 rewrites the configuration control table 13 according to a predetermined rule in accordance with the notification to change the system configuration. Change of the system configuration is performed by the configuration controller 14
Changes the connection of the computer system according to the configuration control table 13 to change the configuration, and disconnects the faulty device. The system software of the computer 1 continues operating the system in the changed system configuration. The cause of the failure determined in the above system is based on the knowledge of an expert, and a more sophisticated judgment can be made for cooling monitoring than before so that the system can be prevented from being down, and the RAS function of the computer system can be avoided. Can be improved. As is clear from the above description, according to the present invention, the operating environment is described using fuzzy logic and the situation is determined, so that a flexible determining process can be performed unlike the conventional one. The system can be prevented from being stopped, and there is a remarkable industrial effect in improving the RAS of the high-speed computer.

【図面の簡単な説明】 【図1】 本発明の原理図 【図2】 本発明の実施例の冷却監視システムの構成図 【図3】 電子計算機の動作可能な温度範囲の説明図 【図4】 従来の冷却システムの構成図 【図5】 故障木の記述図 【図6】 電子計算機の動作可能温度範囲を示す図 【符号の説明】 1 電子計算機 2 高密度半導体素
子 3 冷却系設備 4 顧客冷却設備 5 冷媒供給装置 6 監視センサ 7 環境冷却制御装置 8 CPU 9 メモリ 10 状態監視部 11 FTA部 12 構成制御部 13 構成制御テーブル 14 構成制御装置 20 入力記録部 21 ファジィ状態
監視部 22 ファジィ故障木解析部 23 知識ベース 31 仮説冷却機能許容曲線 32 実冷却機能許
容曲線 51〜58,61〜64 ノード
BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a principle diagram of the present invention; FIG. 2 is a configuration diagram of a cooling monitoring system according to an embodiment of the present invention; FIG. 3 is an explanatory diagram of a temperature range in which an electronic computer can operate; ] Configuration diagram of conventional cooling system [Fig. 5] Descriptive diagram of fault tree [Fig. 6] Diagram showing operable temperature range of electronic computer [Description of symbols] 1 electronic computer 2 high-density semiconductor element 3 cooling system equipment 4 customer Cooling equipment 5 Refrigerant supply device 6 Monitoring sensor 7 Environmental cooling control device 8 CPU 9 Memory 10 State monitoring unit 11 FTA unit 12 Configuration control unit 13 Configuration control table 14 Configuration control device 20 Input recording unit 21 Fuzzy state monitoring unit 22 Fuzzy fault tree Analysis part 23 Knowledge base 31 Hypothesis cooling function permissible curve 32 Actual cooling function permissible curve 51-58, 61-64 nodes

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平3−209533(JP,A) 特開 平4−178841(JP,A) 特開 平3−80338(JP,A) 特開 平3−70035(JP,A) 特開 平2−159635(JP,A) 特開 昭61−18011(JP,A) 特開 昭59−231609(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 1/20 G06F 11/22 - 11/26 ──────────────────────────────────────────────────続 き Continuation of the front page (56) References JP-A-3-209533 (JP, A) JP-A-4-178841 (JP, A) JP-A-3-80338 (JP, A) 70035 (JP, A) JP-A-2-159635 (JP, A) JP-A-61-18011 (JP, A) JP-A-59-231609 (JP, A) (58) Fields investigated (Int. Cl. 7, DB name) G06F 1/20 G06F 11/22 - 11/26

Claims (1)

(57)【特許請求の範囲】 【請求項1】 故障の有無を推論し、故障の原因を故障
木解析により重みを付けて導出し推論するルールを記憶
した知識ベースと、 前記電子計算機の冷却系の監視を行う監視センサの出力
の履歴を記録する入力記録部と、 前記監視センサの出力を前記知識ベースを用いてファジ
ィ論理により故障の有無を判定するファジィ状態監視部
と、 ファジィ状態監視部が故障と判定したとき、前記監視セ
ンサの出力と前記入力記録部に記録された履歴とから前
記知識ベースを用いて故障木解析を行いファジィ論理に
より故障原因を判定するファジィ故障木解析部と、 判定された故障原因の故障機器を切り離す構成制御部と を有することを特徴とする電子計算機用冷却監視システ
ムのRAS機構。
(57) [Claims] [Claim 1] Infer the presence or absence of a failure and determine the cause of the failure
Memorize rules for deriving and inferring weights by tree analysis
Of the knowledge base and the output of the monitoring sensor for monitoring the cooling system of the computer
An input recording unit for recording the history of the monitoring sensor, and fuzzy output of the monitoring sensor using the knowledge base.
Fuzzy state monitoring unit that determines the presence / absence of a failure by using the logic
When the fuzzy state monitoring unit determines that a failure has occurred,
From the output of the sensor and the history recorded in the input recording unit.
Fuzzy logic based on fault tree analysis using knowledge base
A cooling monitoring system for an electronic computer, comprising: a fuzzy fault tree analysis unit for further determining a failure cause; and a configuration control unit for separating a faulty device of the determined failure cause.
RAS mechanism.
JP19245092A 1992-07-20 1992-07-20 RAS mechanism of cooling monitoring system for computer Expired - Fee Related JP3433456B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP19245092A JP3433456B2 (en) 1992-07-20 1992-07-20 RAS mechanism of cooling monitoring system for computer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP19245092A JP3433456B2 (en) 1992-07-20 1992-07-20 RAS mechanism of cooling monitoring system for computer

Publications (2)

Publication Number Publication Date
JPH0635572A JPH0635572A (en) 1994-02-10
JP3433456B2 true JP3433456B2 (en) 2003-08-04

Family

ID=16291509

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19245092A Expired - Fee Related JP3433456B2 (en) 1992-07-20 1992-07-20 RAS mechanism of cooling monitoring system for computer

Country Status (1)

Country Link
JP (1) JP3433456B2 (en)

Also Published As

Publication number Publication date
JPH0635572A (en) 1994-02-10

Similar Documents

Publication Publication Date Title
JP4071449B2 (en) Sensor abnormality detection method and sensor abnormality detection device
JPS6143352A (en) Diagnostic apparatus
WO2006127448A2 (en) Thermal monitoring and response apparatus and method for computer unit
Zad et al. Fault diagnosis in discrete-event systems: Framework and model reduction
WO2008116966A2 (en) Method and apparatus for monitoring condition of electric machines
JP3433456B2 (en) RAS mechanism of cooling monitoring system for computer
JP4763713B2 (en) Sliding mode method for predictive diagnosis
JP2003036115A (en) Method and device for diagnosing equipment
CN115943353A (en) System and method for determining the cause of an operational anomaly of a machine, and computer program and electronically readable data carrier
JP2006221308A (en) Abnormality detection method, control apparatus, and control system using the same
JPH0973321A (en) Electronic device with built-in cooling device and its cooling monitor and control method
JPH0894499A (en) Failure diagnostic system for rotating machine
JP7032124B2 (en) Cooling fan anomaly detector and method
JPH04198868A (en) Detection of revolution drop for cooling fan
Chande et al. Expert-based maintenance: A study of its effectiveness
JP7453049B2 (en) Abnormal sign monitoring system, abnormal sign monitoring method, and program
WO2023243179A1 (en) Abnormality cause estimation device, abnormality cause estimation method, and abnormality cause estimation program
JPH0926819A (en) Plant abnormality diagnostic device
JP2023115998A (en) Monitoring diagnostic device of apparatus, monitoring diagnostic method of the same, and monitoring diagnostic system of apparatus
JP3187246B2 (en) Plant diagnostic system
JP6953249B2 (en) Information processing equipment, information processing system, information processing method and program
Chen et al. Fault estimation in linear dynamic systems
JP2023101241A (en) Cooling control device, cooling system, cooling control method, and cooling control program for electronic component
JP2000132220A (en) Plant diagnosis system
JPH07243876A (en) Abnormality monitoring method of generation plant

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030430

LAPS Cancellation because of no payment of annual fees