JP2009287883A - Temperature anomaly cause portion determining device and temperature anomaly cause portion determining method - Google Patents
Temperature anomaly cause portion determining device and temperature anomaly cause portion determining method Download PDFInfo
- Publication number
- JP2009287883A JP2009287883A JP2008143121A JP2008143121A JP2009287883A JP 2009287883 A JP2009287883 A JP 2009287883A JP 2008143121 A JP2008143121 A JP 2008143121A JP 2008143121 A JP2008143121 A JP 2008143121A JP 2009287883 A JP2009287883 A JP 2009287883A
- Authority
- JP
- Japan
- Prior art keywords
- temperature abnormality
- cause location
- flow path
- cooling air
- server device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
本発明は、機器群に対して供給される冷却空気の流路における温度異常原因箇所を判定する温度異常原因箇所判定装置及び温度異常原因箇所判定方法に関する。 The present invention relates to a temperature abnormality cause location determination apparatus and a temperature abnormality cause location determination method for determining a temperature abnormality cause location in a flow path of cooling air supplied to a device group.
空調機の高圧側圧力の計測結果に基づいて、故障した空調機があるか否かを判定し、該判定結果に基づいて、他の空調機の冷却能力を増加させるように補完制御する空調機監視システムが提案されている(例えば、特許文献1参照)。
サーバ装置等の機器は、稼働可能な温度範囲が決まっており、例えば、多数のサーバ装置が高密度に実装されるデータセンターのような空間では、冷却機能が重要となる。図22に示すように、データセンターにおいて、冷却源である空調機2が冷却空気をラック3に搭載されたサーバ群(複数のサーバ装置31)に対して送って、該サーバ装置31を冷却するシステムを想定する。冷却空気は、図中の矢印で示す流路に従って、空調機2からラック3内のサーバ装置31に送られ、サーバ装置31から排気される。図中のFがサーバ装置31への吸気であり、Gがサーバ装置31からの排気である。なお、以下ではサーバ装置31の冷却について議論するため、吸気に着目する。サーバ装置は、ネットワーク4を通じて監視装置10に接続されている。各サーバ装置31は、温度センサを備える。何らかのミスで障害物(例えばケーブルの束)等が空調機2からサーバ装置31に至るまでの流路内に設置され、サーバ装置31の冷却が十分に行われず、その結果、サーバ装置31への吸気の温度が異常値まで上昇すると、サーバ装置31が備える温度センサが、該吸気の温度が異常値まで上昇したこと(温度異常)を検知する。そして、サーバ装置31は、該温度異常の検知結果を監視装置10に通知する。監視装置10は、サーバ装置31から通知された温度異常の検知結果に基づいて、例えば、どのサーバが温度異常を検知したかを判断する。
Equipment such as a server device has a determined temperature range in which the device can be operated. For example, in a space such as a data center where a large number of server devices are mounted at high density, a cooling function is important. As shown in FIG. 22, in the data center, the
しかし、図22に示すシステムによっては、どのサーバ装置が温度異常を検知したかを判断することはできるが、例えば、障害物が設置された場所等の、サーバ装置の温度異常の原因となる箇所(温度異常原因箇所)を自動で判定することはできない。また、例えば、空調機2が床下等にある場合には、温度異常原因箇所を監視者が目視で特定することは困難である。更に、複数のサーバ装置31が温度異常を検知した場合には、温度異常原因箇所を判定することは困難である。監視カメラや障害物を探知するセンサを設置して、温度異常原因箇所を特定することも考えられるが、監視カメラ等の設置にコストがかかるという問題がある。
However, depending on the system shown in FIG. 22, it is possible to determine which server device has detected a temperature abnormality. For example, a location that causes a temperature abnormality of the server device, such as a place where an obstacle is installed. (Temperature abnormality cause location) cannot be determined automatically. For example, when the
本発明は、機器群に対して供給される冷却空気の流路における温度異常原因箇所を効率良く自動で判定する温度異常原因箇所判定装置の提供を目的とする。 An object of the present invention is to provide a temperature abnormality cause point determination device that efficiently and automatically determines a temperature abnormality cause point in a flow path of cooling air supplied to a device group.
また、本発明は、機器群に対して供給される冷却空気の流路における温度異常原因箇所を効率良く自動で判定する温度異常原因箇所判定方法の提供を目的とする。 It is another object of the present invention to provide a temperature abnormality cause location determination method for efficiently and automatically determining a temperature abnormality cause location in a flow path of cooling air supplied to a device group.
本温度異常原因箇所判定装置は、複数の機器からなる機器群に対して1又は複数の冷却源から供給される冷却空気の流路における温度異常原因箇所を判定する温度異常原因箇所判定装置であって、前記機器の温度異常の検知結果を取得する温度異常検知結果取得手段と、前記機器群に対して供給される冷却空気の流路情報と前記機器の温度異常の検知結果とに基づいて、該冷却空気の流路における温度異常原因箇所を判定する判定手段を備える。 This temperature abnormality cause location determination device is a temperature abnormality cause location determination device that determines a temperature abnormality cause location in a flow path of cooling air supplied from one or more cooling sources to a device group composed of a plurality of devices. Based on the temperature abnormality detection result acquisition means for acquiring the temperature abnormality detection result of the device, the flow path information of the cooling air supplied to the device group, and the temperature abnormality detection result of the device, Judgment means for judging the location of the temperature abnormality in the cooling air flow path is provided.
また、本温度異常原因箇所判定方法は、複数の機器からなる機器群に対して1又は複数の冷却源から供給される冷却空気の流路における温度異常原因箇所を判定する温度異常原因箇所判定方法であって、前記機器の温度異常の検知結果を取得し、前記機器群に対して供給される冷却空気の流路情報と前記機器の温度異常の検知結果とに基づいて、該冷却空気の流路における温度異常原因箇所を判定する。 The temperature abnormality cause location determination method is a temperature abnormality cause location determination method for determining a temperature abnormality cause location in a flow path of cooling air supplied from one or a plurality of cooling sources to a device group including a plurality of devices. A temperature abnormality detection result of the device is obtained, and the flow of the cooling air is determined based on flow path information of the cooling air supplied to the device group and the temperature abnormality detection result of the device. Determine the cause of temperature abnormality on the road.
本温度異常原因箇所判定装置及び本温度異常原因箇所判定方法によれば、複数の機器からなる機器群に対して1又は複数の冷却源から供給される冷却空気の流路における温度異常原因箇所を、機器の温度異常の検知結果と冷却空気の流路情報とに基づいて自動で特定することが可能となる。 According to this temperature abnormality cause location determination apparatus and this temperature abnormality cause location determination method, a temperature abnormality cause location in a flow path of cooling air supplied from one or a plurality of cooling sources to a device group consisting of a plurality of devices is determined. It becomes possible to automatically specify the temperature abnormality detection result of the device and the flow path information of the cooling air.
図1は、本実施形態の温度異常原因箇所判定装置の構成例を示す図である。温度異常原因箇所判定装置1は、複数の機器からなる機器群に対して1又は複数の冷却源から供給される冷却空気の流路における温度異常の原因となる箇所(温度異常原因箇所)を判定する処理装置である。
FIG. 1 is a diagram illustrating a configuration example of a temperature abnormality cause location determination apparatus according to the present embodiment. The temperature abnormality cause
図1では、機器としてサーバ装置を例にとって説明するが、本実施形態の温度異常原因箇所判定装置1は、ネットワーク4を通じて温度異常原因箇所判定装置1に対して温度異常の検知結果を通知する機能を備える任意の機器(例えば、ルーター、ストレージ装置等)に適用可能である。また、図1に示す空調機2、ラック3、該ラック3に格納される複数のサーバ装置31、ネットワーク4は、それぞれ、図22を参照して前述した空調機2、ラック3、サーバ装置31、ネットワーク4と同様である。空調機2とサーバ装置31とがデータセンターを構成し、温度異常原因箇所判定装置1は、該データセンターを監視対象として温度異常原因箇所を判定する。また、図中のFはサーバ装置31への吸気であり、Gはサーバ装置31からの排気である。なお、図1中には複数の空調機2が示されているが、空調機2が1台でもよい。空調機2が冷却空気を送出すると、該冷却空気が図中の矢印で示す流路に従ってラック3内のサーバ装置31に送られ、サーバ装置31から排気される。また、サーバ装置31は、吸気の温度が異常値まで上昇したこと(温度異常)を検知する温度センサを備えており、サーバ装置31は、該温度異常の検知結果をネットワーク4を通じて温度異常原因箇所判定装置1に通知する。
In FIG. 1, a server apparatus is described as an example of the device. However, the temperature abnormality cause
温度異常原因箇所判定装置1は、温度異常検知結果取得部11、判定部12、通知部13、流路情報データベース(DB)14を備える。温度異常検知結果取得部11は、ネットワーク4を通じて、サーバ装置31から温度異常の検知結果(温度異常検知結果)を取得する。判定部12は流路情報DB14に記憶された流路情報と、温度異常検知結果取得部11によって取得されたサーバ装置31の温度異常検知結果とに基づいて、冷却空気の流路における温度異常原因箇所を判定する。流路情報は、空調機2からサーバ群(複数のサーバ装置31)に対して供給される冷却空気の流路の情報である。本実施形態では、空調機2から始まりサーバ装置31に至るまでの、冷却空気が流れる経路(ルート)を冷却空気の流路とする。すなわち、判定部12は、該冷却空気の流路内のどの箇所が原因となってサーバ装置31において温度異常が検知されたかを判定する。通知部13は、判定部12によって判定された温度異常原因箇所を、例えば表示して、温度異常原因箇所判定装置1のユーザに通知する。流路情報DB14には流路情報が記憶される。
The temperature abnormality cause
なお、本実施形態の温度異常原因箇所判定装置1の機能は、CPUとその上で実行されるプログラムにより実現される。該プログラムは、コンピュータが読み取り可能な記録媒体、例えば半導体メモリ、ハードディスク、CD−ROM、DVD等に格納することができ、これらの記録媒体に記録して提供され、又は、通信インタフェースを介してネットワークを利用した送受信により提供される。
In addition, the function of the temperature abnormality cause
以下に、本実施形態の温度異常原因箇所判定装置1による温度異常原因箇所の判定処理の概要について説明する。図2は、本実施形態の温度異常原因箇所判定装置1が温度異常原因箇所判定処理の対象(監視対象)とするデータセンターのモデル図である。データセンター内のサーバ装置を効率よく冷却するためには、空調機は単に近傍の空気を冷やせばよいのではなく、空気を循環させる必要がある。また、各サーバ装置は、動作温度条件が決まっており、環境温度が動作温度条件の範囲外になってはならない。また、空調機の冷却能力が不足するとサーバ装置が十分に冷却されなくなる。このような要素は、データセンター内の増設やレイアウトを変更する時に考慮されるべきものである。従って、本実施形態において、冷却空気の流れについて、予め設計されているものとする。データセンターのサーバ装置は常時稼働するため、冷却空気の流れは定常的であり、冷却空気の流れを、図2に示すモデル図のように、方向付きの経路として表現することができる。
Below, the outline | summary of the determination process of the temperature abnormality cause location by the temperature abnormality cause
図2中の矢印は冷却空気の流れの向きを示す。図2に示すモデル図は2次元の図であるが、温度異常原因箇所判定処理の対象とするデータセンターのモデル図が3次元であってもよい。図2中の矢印は、冷却空気が流れる方向を示している。すなわち、空調機C1からの冷却空気は、サーバ装置A1、A2、A3の各々に対して送出され、サーバ装置A1、A2、A3から排出される。また、空調機C2から送出された冷却空気は、サーバ装置A4、A5、A6の各々に対して送出され、サーバ装置A4、A5、A6から排出される。該モデル図が示す冷却空気の流路の情報(流路情報)は流路情報DB14に予め記憶されている。
The arrows in FIG. 2 indicate the direction of the cooling air flow. The model diagram shown in FIG. 2 is a two-dimensional diagram, but the model diagram of the data center that is the target of the temperature abnormality cause location determination process may be three-dimensional. The arrows in FIG. 2 indicate the direction in which the cooling air flows. That is, the cooling air from the air conditioner C1 is sent to each of the server devices A1, A2, and A3, and is discharged from the server devices A1, A2, and A3. In addition, the cooling air sent from the air conditioner C2 is sent to each of the server devices A4, A5, and A6 and discharged from the server devices A4, A5, and A6. The flow path information (flow path information) of the cooling air indicated by the model diagram is stored in advance in the flow
ここで、例えば、サーバ装置A5とサーバ装置A6とが温度異常を検知したと想定する。図3に示すように、サーバ装置A5とサーバ装置A6とが温度異常検知結果を温度異常原因箇所判定装置1に通知し(図3の#1を参照)、温度異常原因箇所判定装置1の温度異常検知結果取得部11が、該温度異常検知結果を取得する。温度異常原因箇所判定装置1の判定部12が、流路情報DB14から図2に示すモデル図が示す冷却空気の流路情報を抽出し、抽出された流路情報と、上記取得された温度異常抽出結果とに基づいて、以下のようにして、冷却空気の流路における温度異常原因箇所を判定する。
Here, for example, it is assumed that the server device A5 and the server device A6 have detected a temperature abnormality. As shown in FIG. 3, the server apparatus A5 and the server apparatus A6 notify the temperature abnormality cause
まず、空調機2から正常なサーバ装置31(温度異常を検知していないサーバ装置31)に至るルート内には、温度異常原因箇所はないはずである。そこで、判定部12が、図4中の太線で示す、空調機2から正常なサーバ装置31に至るルート(第1ルート)を求める。
First, in the route from the
次に、温度異常原因箇所は、空調機2から温度異常を検知したサーバ装置31に至るルート内にあるはずである。そこで、判定部12が、図5中の太線で示す、空調機C2から温度異常を検知したサーバ装置31に至るルート(第2ルート)を求める。
Next, the temperature abnormality cause location should be in the route from the
判定部12は、上記求めた第2ルートに含まれ、かつ、第1ルートに含まれない部分(図6中の太線で示す部分)を、温度異常原因箇所として判定する。判定部12が、第2ルートに含まれ、かつ、第1ルートに含まれない部分を温度異常原因箇所として判定することによって、監視対象とするデータセンターにおける温度異常原因箇所を効率良く自動で求めることができる。
The
判定部12が、温度異常が検知されたサーバ装置31が複数ある場合に、各々の温度異常が検知されたサーバ装置31から空調機2に至るまでの辺の集合の論理積を上記第2のルートとするようにしてもよい。判定部12が、各々の温度異常が検知されたサーバ装置31から空調機2に至るまでの辺の集合の論理積を上記第2ルートとすることによって、監視対象とするデータセンターにおける温度異常原因箇所を精度良く求めることができる。
When there are a plurality of
以下に、流路情報DB14に記憶される流路情報の例について説明する。例えば、前述した図2に示すようなデータセンターのモデル図が示す、空調機C1、C2から各サーバ装置に至るまでの冷却空気の流れは、図7に示すような有向グラフで表現することができる。図7に示す有向グラフ中の矢印は冷却空気の流れの向きを示す。図7に示す有向グラフは、ノード(Cn,Nn,An)と、隣り合うノード間を結んだルート(以下、辺)とからなる。具体的には、図7中のC1、C2は、それぞれ、図2中の空調機C1を示すノード、C2を示すノードである。また、A1、A2、A3、A4、A5、A6は、それぞれ、図2中のサーバ装置A1を示すノード、サーバ装置A2を示すノード、サーバ装置A3を示すノード、サーバ装置A4を示すノード、サーバ装置A5を示すノード、サーバ装置A6を示すノードである。N1乃至N6は、中間ノードである。中間ノードは、冷却空気が分岐又は結合するポイントを示すノードである。図7に示す有向グラフの例では、N1乃至N6は冷却空気が分岐するポイントを示す中間ノードを示す。 Below, the example of the flow-path information memorize | stored in flow-path information DB14 is demonstrated. For example, the flow of cooling air from the air conditioners C1 and C2 to each server device shown in the model diagram of the data center as shown in FIG. 2 can be expressed as a directed graph as shown in FIG. . The arrows in the directed graph shown in FIG. 7 indicate the direction of the cooling air flow. The directed graph shown in FIG. 7 includes nodes (Cn, Nn, An) and a route (hereinafter referred to as an edge) connecting adjacent nodes. Specifically, C1 and C2 in FIG. 7 are a node indicating the air conditioner C1 and a node indicating C2 in FIG. 2, respectively. A1, A2, A3, A4, A5, and A6 are respectively a node indicating the server device A1, a node indicating the server device A2, a node indicating the server device A3, a node indicating the server device A4, and a server in FIG. A node indicating the device A5 and a node indicating the server device A6. N1 to N6 are intermediate nodes. The intermediate node is a node indicating a point at which the cooling air branches or joins. In the example of the directed graph shown in FIG. 7, N1 to N6 indicate intermediate nodes indicating points where the cooling air branches.
すなわち、図7中の有向グラフが示す情報は、図8に示すようにノードの集合と辺の集合とを含んでいる。図8に示す情報が、図2に示すモデル図が示す冷却空気の流路情報である。図8中、辺は、「始点ノード→終点ノード」の形式で表現される。例えば、C1→N1は、ノードC1とノードN1との間の辺を示し、N1→A1は、ノードN1とノードA1との間の辺を示す。流路情報DB14には、例えば図8に示すような冷却空気の流路情報が、以下に説明するようなプログラム形式で記憶される。
That is, the information indicated by the directed graph in FIG. 7 includes a set of nodes and a set of edges as shown in FIG. The information shown in FIG. 8 is the flow path information of the cooling air shown in the model diagram shown in FIG. In FIG. 8, the side is expressed in the format of “start node → end node”. For example, C1 → N1 indicates a side between the node C1 and the node N1, and N1 → A1 indicates a side between the node N1 and the node A1. In the flow
例えば、流路情報DB14には、ノードの集合(リスト)が、プログラム形式で予め記憶されている。ノードのプログラム表現例として、C言語の構造体を以下に示す。
typedef struct node {
string *indentfier; // 識別子 C1,N1など
string *location; // 位置情報 柱A3など
} node _t;
上記ノードのプログラム表現例において、"indentfier"は、例えば、”C1”、”N1”等の、ノードを一意に特定する、ノードの識別子である。識別子はユニークであることに加え、サーバの場合はホスト名やIPアドレスなど実機情報と対応付けられている。"location"は、例えば柱番号等のノードの位置情報である。ノードの位置を特定できる情報であれば、位置情報として任意の表現を用いることができる。
For example, a set (list) of nodes is stored in advance in a program format in the flow
typedef struct node {
string * indentfier; // identifier C1, N1, etc.
string * location; // location information pillar A3 etc.} node _t;
In the example of the program representation of the node, “indentfier” is a node identifier that uniquely identifies the node, such as “C1” or “N1”. In addition to being unique, in the case of a server, the identifier is associated with actual machine information such as a host name and an IP address. “location” is node position information such as a column number, for example. Any expression can be used as the position information as long as the information can identify the position of the node.
ノードのリストは、例えば、以下に示すように、配列で表現できる。
node_t nodes[];
すなわち、流路情報DB14に記憶されている流路情報に含まれるノードのリストは、例えば図9に示すようなデータ構造を有する。図9中、idはノードの識別子、locはノードの位置情報である。
The list of nodes can be expressed by an array as shown below, for example.
node_t nodes [];
That is, the list of nodes included in the flow path information stored in the flow
辺は、始点ノードと終点ノードのペアで表現できるので、例えばC言語で以下のように表現できる。src 、dst は、それぞれ、辺の始点ノード、終点ノードを意味する。
struct edge {
node_t src; //始点
node_t dst; //終点
};
また、辺の集合(リスト)は、配列を用いて、
struct edge edges[];
と表現できる。
Since an edge can be expressed by a pair of a start point node and an end point node, for example, it can be expressed as follows in C language. src and dst mean the start point node and end point node of the side, respectively.
struct edge {
node_t src; // starting point
node_t dst; // end point};
In addition, the set of edges (list) is an array,
struct edge edges [];
Can be expressed as
すなわち、流路情報DB14に記憶されている流路情報に含まれる辺のリストは、例えば図10に示すようなデータ構造を有する。
That is, the list of sides included in the channel information stored in the
各サーバ装置31は、自装置が備える温度センサによる温度異常の検知結果を有している。すなわち、各サーバ装置31は、温度異常(NG)か正常(OK)かのステータスを示す情報を持つ。従って、サーバ装置31の集合(リスト)の情報を以下のようなプログラムを用いて表現することができる。なお、温度異常原因箇所判定装置1の温度異常検知結果取得部11は、定期的又は任意のタイミングでサーバ装置31から取得した温度異常の検知結果に基づいて、サーバ装置31のステータスに関する情報(ステータス情報)をサーバ装置31のリストの情報中に設定し、該サーバ装置31のリストの情報を流路情報DB14に記憶する。
struct server {
node_t node; //どのノードかを示す
int status; //ステータス( OK or NG )
};
struct server servers[];
上記プログラム表現例において、statusは、サーバ装置31から取得された温度異常検知結果を示す。statusはOK又はNGのうちいずれかである。OKは、サーバ装置31において温度異常が検知されていないことを示し、NGは、サーバ装置31において温度異常が検知されていることを示す。また、nodeは、サーバ装置31を示すノードである。
Each
struct server {
node_t node; // indicate which node
int status; // Status (OK or NG)
};
struct server servers [];
In the program expression example, status indicates a temperature abnormality detection result acquired from the
すなわち、流路情報DB14に記憶される流路情報に含まれる、サーバ装置31のリストは、例えば図11に示すようなデータ構造を有する。図11中のndはサーバ装置31を示すノード、stsはサーバ装置31のステータスを示す。
That is, the list of
判定部12は、例えば、該温度異常原因箇所が存在する辺の始点のノードと終点のノードの情報を温度異常原因箇所として出力する。従って、出力される温度異常原因箇所の情報は、例えば、図12に示すようなデータ構造を有する。
For example, the
図13は、本実施形態の温度異常原因箇所判定装置による温度異常原因箇所の判定処理フローの一例を示す図である。まず、温度異常原因箇所判定装置1の温度異常検知結果取得部11が、各サーバ装置31から温度異常検知結果を、例えば温度情報とともに取得する(ステップS1)。具体的には、温度異常検知結果取得部11が、監視対象のデータセンター内のサーバ装置31から定期的又は温度異常の検知時に送信される温度異常検知結果を取得する。
FIG. 13 is a diagram illustrating an example of a determination process flow of a temperature abnormality cause location by the temperature abnormality cause location determination apparatus of the present embodiment. First, the temperature abnormality detection
判定部12が、取得された温度異常検知結果に基づいて、温度異常があるかを判断する(ステップS2)。なお、判定部12が、各サーバ装置31から取得された温度情報に基づいて、該温度情報が示す温度が所定の閾値を越えるかを判断し、該温度が閾値を超えた場合に、温度異常があると判断するようにしてもよい。
The
判定部12が、温度異常がないと判断した場合は処理を終了する。判定部12が、温度異常があると判断した場合は、監視対象のデータセンター内の全てのサーバ装置31から同時刻の温度異常検知結果を取得するまで待つ(ステップS3)。ステップS3においては、更に、温度異常検知結果取得部11が、各々のサーバ装置31から取得した温度異常検知結果に基づいて、各々のサーバ装置31のステータスに関する情報をサーバ装置31のリストの情報中に設定し、サーバ装置31のリストの情報を流路情報の一部として流路情報DB14に記憶する。次に、判定部12が、温度異常原因箇所(被疑箇所)を絞り込んで決定する(ステップS4)。判定部12は、例えば辺を被疑箇所として決定する。
If the
判定部12が、被疑箇所が見つかったかを判断する(ステップS5)。すなわち、判定部12は、被疑箇所の絞り込みに成功したか失敗したかを判断する。判定部12が、被疑箇所が見つからなかったと判断した場合は、処理を終了する。判定部12が、被疑箇所が見つかったと判断した場合は、通知部13が、被疑箇所を通知する(ステップS6)。通知部13は、例えば、被疑箇所である辺の情報をディスプレイ上に表示したり、電子メール等で通知したりする。通知部13が、グラフィック形式で被疑箇所を表示するようにしてもよいし、被疑箇所である辺の始点ノード、終点ノードの位置情報(柱番号等)を表示するようにしてもよい。
The
図14は、図13のステップS4における被疑箇所の絞り込み処理の詳細を説明する図である。まず、判定部12が、温度異常が検知されていないサーバ装置31から空調機2に至るまでの辺の集合S1(第1の集合)を求める(ステップS41)。次に、判定部12が、温度異常が検知されたサーバ装置31から空調機2に至るまでの辺の集合S2(第2の集合)を求める(ステップS42)。そして、S2に含まれ、かつ、S1に含まれない辺を被疑箇所として判定する(ステップS43)。
FIG. 14 is a diagram illustrating details of the suspected place narrowing-down process in step S4 of FIG. First, the
図15は、図14のステップS41における辺の集合S1を求める処理の詳細を説明する図である。まず、判定部12が、流路情報DB14から流路情報を抽出し、該流路情報に含まれるサーバ装置31のリスト(図11を参照)から、サーバ装置31を示すノードを順番に取り出す(ステップS101)。次に、判定部12が、取り出されたノードのステータスがOKであるかを判断する(ステップS102)。判定部12が、取り出されたノードのステータスがOKでないと判断した場合は、ステップS105に進む。判定部12が、取り出されたノードのステータスがOKであると判断した場合は、判定部12は、該ノードに繋がる辺を全て求め(ステップS103)、求められた辺の集合をAとする。判定部12が、ステップS103で求められる辺の集合AをOR演算し、OR演算結果をS1として求める(ステップS104)。具体的には、S1とAとをOR演算した結果をS1とする。判定部12が、サーバ装置31のリストに次ノードがあるかを判断する(ステップS105)。判定部12が、サーバ装置31のリストに次ノードがあると判断した場合は、ステップS101に戻る。判定部12が、サーバ装置31のリストに次ノードがないと判断した場合は、処理を終了する。
FIG. 15 is a diagram for explaining the details of the processing for obtaining the edge set S1 in step S41 of FIG. First, the
図16は、図14のステップS42における辺の集合S2を求める処理の詳細を説明する図である。まず、判定部12が、流路情報DB14から流路情報を抽出し、該流路情報に含まれるサーバ装置31のリスト(図11を参照)から、サーバ装置31を示すノードを順番に取り出す(ステップS201)。次に、判定部12が、取り出されたノードのステータスがNGであるかを判断する(ステップS202)。判定部12が、取り出されたノードのステータスがNGでないと判断した場合は、ステップS205に進む。判定部12が、取り出されたノードのステータスがNGであると判断した場合は、判定部12は、該ノードに繋がる辺を全て求め、求められた辺の集合をBとする(ステップS203)。判定部12が、ステップS203で求められる辺の集合BをAND演算し、AND演算結果をS2として求める(ステップS204)。具体的には、S2とBとの論理積の結果をS2とする。求められたS2に含まれる辺は、ステータスがNGである各々のサーバ装置31から空調機2に至るまでのルートの共通部分に該当する辺である。判定部12が、サーバ装置31のリストに次ノードがあるかを判断する(ステップS205)。判定部12が、サーバ装置31のリストに次ノードがあると判断した場合は、ステップS201に戻る。判定部12が、サーバ装置31のリストに次ノードがないと判断した場合は、処理を終了する。
FIG. 16 is a diagram for explaining the details of the processing for obtaining the edge set S2 in step S42 of FIG. First, the
図17は、図15のS103における、辺の集合Aを求める処理の詳細を説明する図である。図16のS203における、辺の集合Bを求める処理は、図17に示す辺の集合Aを求める処理と同様の手順に従って行われるので、辺の集合Bを求める処理の詳細については説明を省略する。 FIG. 17 is a diagram for explaining the details of the processing for obtaining the edge set A in S103 of FIG. The process for obtaining the edge set B in S203 of FIG. 16 is performed according to the same procedure as the process for obtaining the edge set A shown in FIG. 17, and thus the description of the details of the process for obtaining the edge set B is omitted. .
まず、判定部12が、図15のステップS101において抽出された流路情報に含まれる辺のリスト(図10を参照)から辺eを取り出す(ステップS301)。判定部12が、辺eの終点ノードがサーバ装置であるかを判断する(ステップS302)。判定部12が、辺eの終点ノードがサーバ装置でない(終点ノードが中間ノードである)と判断した場合、判定部12が、その中間ノードを始点ノードとする辺を探索して求め(ステップS303)、ステップS302に戻る。具体的には、求まった辺を辺eとして、上記S302における処理の対象とする。
First, the
判定部12が、辺eの終点ノードがサーバ装置であると判断した場合、判定部12が、終点ノードが処理対象のサーバ装置であるかを判断する(ステップS304)。処理対象のサーバ装置は、上記図15のステップS103において、繋がる辺を求める対象となるノードが示すサーバ装置である。判定部12が、終点ノードが処理対象のサーバ装置でないと判断した場合は、ステップS306に進む。判定部12が、終点ノードが処理対象のサーバ装置であると判断した場合は、辺eを辺の集合Aに加える(ステップS305)。ステップS305の処理を繰り返すことによって、辺の集合Aが求められる。次に、判定部12が、辺のリストに次の辺があるかを判断する(ステップS306)。判定部12が、辺のリストに次の辺があると判断した場合は、ステップS301に戻る。判定部12が、辺のリストに次の辺がないと判断した場合は、処理を終了する。
When the
図18は、本実施形態の温度異常原因箇所判定装置による温度異常原因箇所の判定処理の第1の適用例を説明する図である。この例では、図18に示すように、監視対象のデータセンターには、1台の空調機C1と1台のサーバ装置A1とが含まれる。また、サーバ装置A1のステータスはNGである。温度異常が検知されていないサーバ装置から空調機に至るまでの辺はないので、温度異常原因箇所判定装置1が求める辺の集合S1は空集合(S1=φ)となる。また、温度異常が検知されたサーバ装置から空調機に至るまでの辺は、e1であるので、温度異常原因箇所判定装置1が求める辺の集合S2に含まれる辺は、e1である(S2={e1})。S2に含まれ、かつS1に含まれない辺はe1である。従って、温度異常原因箇所判定装置1はe1を温度異常原因箇所として決定する。
FIG. 18 is a diagram illustrating a first application example of the determination process of the temperature abnormality cause location by the temperature abnormality cause location determination apparatus of the present embodiment. In this example, as shown in FIG. 18, the data center to be monitored includes one air conditioner C1 and one server device A1. Further, the status of the server device A1 is NG. Since there is no side from the server device in which no temperature abnormality is detected to the air conditioner, the side set S1 obtained by the temperature abnormality cause
図19は、本実施形態の温度異常原因箇所判定装置による温度異常原因箇所の判定処理の第2の適用例を説明する図である。この例では、図19に示すように、監視対象のデータセンターには、1台の空調機C1と2台のサーバ装置A1、A2とが含まれる。また、サーバ装置A1のステータスはNG、サーバ装置A2のステータスはOKである。温度異常が検知されていないサーバ装置から空調機に至るまでの辺は、e1とe3であるので、S1={e1,e3}となる。また、温度異常が検知されたサーバ装置から空調機に至るまでの辺は、e1とe2であるので、S2={e1,e2}である。S2に含まれ、かつS1に含まれない辺はe2である。従って、温度異常原因箇所判定装置1はe2を温度異常原因箇所として決定する。
FIG. 19 is a diagram illustrating a second application example of the temperature abnormality cause location determination process performed by the temperature abnormality cause location determination apparatus according to the present embodiment. In this example, as shown in FIG. 19, the data center to be monitored includes one air conditioner C1 and two server apparatuses A1 and A2. Further, the status of the server apparatus A1 is NG, and the status of the server apparatus A2 is OK. Since the sides from the server device where no temperature abnormality is detected to the air conditioner are e1 and e3, S1 = {e1, e3}. Further, since the sides from the server device where the temperature abnormality is detected to the air conditioner are e1 and e2, S2 = {e1, e2}. The side included in S2 and not included in S1 is e2. Therefore, the temperature abnormality cause
図20は、本実施形態の温度異常原因箇所判定装置による温度異常原因箇所の判定処理の第3の適用例を説明する図である。この例では、図20に示すように、監視対象のデータセンターには、2台の空調機C1、C2と2台のサーバ装置A1、A2とが含まれる。また、サーバ装置A1のステータスはNG、サーバ装置A2のステータスはOKである。温度異常が検知されていないサーバ装置から空調機に至るまでの辺は、e1,e2,e3,e5であるので、S1={e1,e2,e3,e5}となる。また、温度異常が検知されたサーバ装置から空調機に至るまでの辺は、e1,e2,e3,e4であるので、S2={e1,e2,e3,e4}である。S2に含まれ、かつS1に含まれない辺はe4である。従って、温度異常原因箇所判定装置1は、e4を温度異常原因箇所として決定する。
FIG. 20 is a diagram for explaining a third application example of the temperature abnormality cause location determination process performed by the temperature abnormality cause location determination apparatus according to the present embodiment. In this example, as shown in FIG. 20, the data center to be monitored includes two air conditioners C1 and C2 and two server apparatuses A1 and A2. Further, the status of the server apparatus A1 is NG, and the status of the server apparatus A2 is OK. Since the sides from the server device where no temperature abnormality is detected to the air conditioner are e1, e2, e3, e5, S1 = {e1, e2, e3, e5}. Further, since the sides from the server device where the temperature abnormality is detected to the air conditioner are e1, e2, e3, e4, S2 = {e1, e2, e3, e4}. The side included in S2 and not included in S1 is e4. Therefore, the temperature abnormality cause
図21は、本実施形態の温度異常原因箇所判定装置による温度異常原因箇所の判定処理の第4の適用例を説明する図である。この例では、温度異常が検知されていないサーバ装置から空調機に至るまでの辺はないので、S1=φとなる。温度異常が検知されたサーバ装置A1から空調機に至るまでの辺の集合は、{e1,e2,e3,e4}である。温度異常が検知されたサーバ装置A2から空調機に至るまでの辺の集合は、{e1,e2,e3,e5}である。従って、辺の集合S2は、辺の集合{e1,e2,e3,e4}と辺の集合{e1,e2,e3,e5}との論理積の結果得られる、{e1,e2,e3}となる。S2に含まれ、かつS1に含まれない辺はe1とe2とe3である。従って、温度異常原因箇所判定装置1は、e1とe2とe3とを温度異常原因箇所として決定する。
FIG. 21 is a diagram illustrating a fourth application example of the temperature abnormality cause location determination process performed by the temperature abnormality cause location determination apparatus according to the present embodiment. In this example, since there is no side from the server apparatus in which no temperature abnormality is detected to the air conditioner, S1 = φ. A set of sides from the server device A1 where the temperature abnormality is detected to the air conditioner is {e1, e2, e3, e4}. A set of sides from the server device A2 where the temperature abnormality is detected to the air conditioner is {e1, e2, e3, e5}. Therefore, the edge set S2 is obtained as a result of a logical product of the edge set {e1, e2, e3, e4} and the edge set {e1, e2, e3, e5}, and {e1, e2, e3} Become. The sides included in S2 and not included in S1 are e1, e2, and e3. Therefore, the temperature abnormality cause
1 温度異常原因箇所判定装置
2 空調機
3 ラック
4 ネットワーク
10 監視装置
11 温度異常検知結果取得部
12 判定部
13 通知部
14 流路情報DB
31 サーバ装置
DESCRIPTION OF
31 Server device
Claims (6)
前記機器の温度異常の検知結果を取得する温度異常検知結果取得手段と、
前記機器群に対して供給される冷却空気の流路情報と前記機器の温度異常の検知結果とに基づいて、該冷却空気の流路における温度異常原因箇所を判定する判定手段を備える
ことを特徴とする温度異常原因箇所判定装置。 A temperature abnormality cause location determination device that determines a temperature abnormality cause location in a flow path of cooling air supplied from one or a plurality of cooling sources to a device group composed of a plurality of devices,
A temperature abnormality detection result acquisition means for acquiring a temperature abnormality detection result of the device;
And a determination unit that determines a cause of temperature abnormality in the flow path of the cooling air based on flow path information of the cooling air supplied to the device group and a detection result of the temperature abnormality of the device. Temperature abnormality cause location determination device.
ことを特徴とする請求項1に記載の温度異常原因箇所判定装置。 The determination means reaches the cooling source from a device in which no temperature abnormality is detected, with the cooling source, the point where the cooling air branches or joins, and the route connecting the adjacent nodes as a side. Is obtained as a first set, and a set of sides from the device in which the temperature abnormality is detected to the cooling source is obtained as a second set, and is included in the second set, and The temperature abnormality cause location determination apparatus according to claim 1, wherein a side that is not included in the set of 1 is determined as a temperature abnormality cause location in the flow path of the cooling air.
ことを特徴とする請求項2に記載の温度異常原因箇所判定装置。 When there are a plurality of devices in which a temperature abnormality is detected, the determination means uses the logical product of a set of edges from the device in which each temperature abnormality is detected to the cooling source as the second set. The temperature abnormality cause location determination apparatus according to claim 2.
前記機器の温度異常の検知結果を取得し、
前記機器群に対して供給される冷却空気の流路情報と前記機器の温度異常の検知結果とに基づいて、該冷却空気の流路における温度異常原因箇所を判定する
ことを特徴とする温度異常原因箇所判定方法。 A temperature abnormality cause location determination method for determining a temperature abnormality cause location in a flow path of cooling air supplied from one or more cooling sources to a device group consisting of a plurality of devices,
Obtain the temperature abnormality detection result of the device,
Based on flow path information of cooling air supplied to the device group and a detection result of temperature abnormality of the device, a temperature abnormality cause location in the flow path of the cooling air is determined. Cause location determination method.
ことを特徴とする請求項4に記載の温度異常原因箇所判定方法。 The cooling source, the point at which cooling air branches or joins, the set of sides from the device in which no temperature abnormality is detected to the cooling source, with the device as a node and the route connecting adjacent nodes as the side Is obtained as a first set, and a set of sides from the device in which the temperature abnormality is detected to the cooling source is obtained as a second set, and is included in the second set and included in the first set. The temperature abnormality cause location determination method according to claim 4, wherein a side that is not present is determined as a temperature abnormality cause location in the cooling air flow path.
ことを特徴とする請求項5に記載の温度異常原因箇所判定方法。 When there are a plurality of devices in which a temperature abnormality is detected, a logical product of a set of edges from the device in which each temperature abnormality is detected to the cooling source is defined as the second set. Item 6. The method for determining the cause of temperature abnormality according to Item 5.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008143121A JP2009287883A (en) | 2008-05-30 | 2008-05-30 | Temperature anomaly cause portion determining device and temperature anomaly cause portion determining method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008143121A JP2009287883A (en) | 2008-05-30 | 2008-05-30 | Temperature anomaly cause portion determining device and temperature anomaly cause portion determining method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009287883A true JP2009287883A (en) | 2009-12-10 |
Family
ID=41457262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008143121A Withdrawn JP2009287883A (en) | 2008-05-30 | 2008-05-30 | Temperature anomaly cause portion determining device and temperature anomaly cause portion determining method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009287883A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012172912A (en) * | 2011-02-22 | 2012-09-10 | Mitsubishi Electric Corp | Management device, management system, management method, and program |
-
2008
- 2008-05-30 JP JP2008143121A patent/JP2009287883A/en not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012172912A (en) * | 2011-02-22 | 2012-09-10 | Mitsubishi Electric Corp | Management device, management system, management method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6394726B2 (en) | Operation management apparatus, operation management method, and program | |
JP5767617B2 (en) | Network failure detection system and network failure detection device | |
JP5428372B2 (en) | Operation management apparatus, operation management method and program thereof | |
CN108572308B (en) | Fault diagnosis method and system | |
JP6988304B2 (en) | Operation management system, monitoring server, method and program | |
EP3520325B1 (en) | Dynamically identifying criticality of services and data sources | |
JP2009053734A (en) | Method for detecting disconnection and power discontinuity of i/o unit connected to numerical controller | |
JP2005215833A (en) | Status monitoring system and status monitoring method | |
JP2019179400A (en) | Monitoring device, monitoring method and monitoring program | |
JP4967088B2 (en) | Information processing apparatus having failure analysis function, failure analysis method, and failure analysis program | |
JP2009287883A (en) | Temperature anomaly cause portion determining device and temperature anomaly cause portion determining method | |
KR101876629B1 (en) | Apparatus and method for monitoring condition based on bicdata analysis | |
JP6438875B2 (en) | Network monitoring apparatus and network monitoring method | |
JP2010134751A (en) | Multi-partition computer system, failure handling method and program therefor | |
JP2017211806A (en) | Communication monitoring method, security management system, and program | |
JP2020038525A (en) | Abnormality detecting device | |
JP6627258B2 (en) | System model generation support device, system model generation support method, and program | |
JP4905363B2 (en) | Network failure detection program, network failure detection device, and network failure detection method | |
JP2018148408A (en) | Information processing device, information processing method, and program | |
JP5371096B2 (en) | Monitoring system, monitoring method, and program | |
JP4926299B1 (en) | Programmable logic controller | |
JP2009182934A (en) | Fault monitoring apparatus, fault monitoring method, and program therefor | |
JP7367495B2 (en) | Information processing equipment and communication cable log information collection method | |
JP5311027B2 (en) | Fault diagnosis apparatus and fault diagnosis program | |
JPWO2018101070A1 (en) | Abnormality determination device, abnormality determination method, and abnormality determination program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20110802 |