JP7436060B2 - Management device, control method, and program - Google Patents
Management device, control method, and program Download PDFInfo
- Publication number
- JP7436060B2 JP7436060B2 JP2022026468A JP2022026468A JP7436060B2 JP 7436060 B2 JP7436060 B2 JP 7436060B2 JP 2022026468 A JP2022026468 A JP 2022026468A JP 2022026468 A JP2022026468 A JP 2022026468A JP 7436060 B2 JP7436060 B2 JP 7436060B2
- Authority
- JP
- Japan
- Prior art keywords
- server
- temperature
- information
- bmc
- processing device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 16
- 230000010365 information processing Effects 0.000 claims description 44
- 230000005856 abnormality Effects 0.000 claims description 43
- 230000006870 function Effects 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 61
- 238000001514 detection method Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 5
- 230000020169 heat generation Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000008054 signal transmission Effects 0.000 description 3
- 238000004378 air conditioning Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Debugging And Monitoring (AREA)
Description
本発明は、管理装置、制御方法、及びプログラムに関する。 The present invention relates to a management device, a control method, and a program.
サーバなどの情報処理装置に搭載され、情報処理装置を管理する管理装置(例えば、BMC(Baseboard Management Controller))がある。BMCは、自らが搭載された情報処理装置のログのみを採取可能である。 There is a management device (for example, a BMC (Baseboard Management Controller)) that is installed in an information processing device such as a server and manages the information processing device. The BMC can only collect logs from the information processing device on which it is installed.
サーバなどの情報処理装置は、熱により障害が発生することがある。この障害は、自らの発熱によるものだけではなく、他の情報処理装置の発熱により例えば電源ファンが高速となる事象が発生することがある。 Information processing devices such as servers may fail due to heat. This failure is not only caused by the heat generated by the information processing device itself, but also by the heat generated by other information processing devices, for example, an event may occur in which the power supply fan speeds up.
特許文献1には、サーバが管理サーバに温度に関する警告を通知する技術が開示されている。特許文献2には、各ブレードに搭載されたBMCから情報を取得し管理するエンクロージャが故障したり、抜去されたときに、ブレードに搭載されたBMCがエンクロージャの代わりとなる技術が開示されている。
特許文献1に開示された技術では、自らの情報処理装置の温度が正常であるが、他の情報処理装置の発熱により、自らの情報処理装置の電源ファンが高速になった原因を特定することが困難である。また、特許文献2に開示された技術では、エンクロージャが故障してから管理対象のブレードを割り当てるため、発熱の影響を受けないブレードが割り当てられることがある。この場合もやはり原因の特定が困難である。
In the technology disclosed in
このように、上述した関連技術では、発熱による障害の原因の特定が困難になるという課題があった。 As described above, the related technology described above has a problem in that it becomes difficult to identify the cause of a failure due to heat generation.
そこでこの発明は、発熱による障害の原因の特定が容易となる管理装置、制御方法、及びプログラムを提供することを目的としている。 SUMMARY OF THE INVENTION Therefore, an object of the present invention is to provide a management device, a control method, and a program that make it easy to identify the cause of failures caused by heat generation.
本発明の一態様によれば、管理装置は、自らが搭載された情報処理装置と隣接する情報処理装置の温度情報を取得する取得手段であって、隣接する情報処理装置から温度異常を示す信号を受信すると、アサートされたフラグに応じて温度情報の取得を開始し、隣接する情報処理装置から温度が正常に戻ったことを示す信号を受信すると、デアサートされたフラグに応じて温度情報の取得を終了する取得手段と、前記取得手段によって取得された温度情報を記録する記録手段と、を備える。 According to one aspect of the present invention, the management device is an acquisition unit that acquires temperature information of an information processing device adjacent to an information processing device in which the management device is installed, and the management device receives a signal indicating temperature abnormality from the adjacent information processing device. When it receives a signal indicating that the temperature has returned to normal from the adjacent information processing device, it starts acquiring temperature information according to the asserted flag, and when it receives a signal from the adjacent information processing device indicating that the temperature has returned to normal, it starts acquiring temperature information according to the deasserted flag. and recording means for recording the temperature information acquired by the acquisition means .
本発明の別の態様によれば、制御方法は、自らが搭載された情報処理装置と隣接する情報処理装置の温度情報を取得することであって、隣接する情報処理装置から温度異常を示す信号を受信すると、アサートされたフラグに応じて温度情報の取得を開始し、隣接する情報処理装置から温度が正常に戻ったことを示す信号を受信すると、デアサートされたフラグに応じて温度情報の取得を終了し、取得された温度情報を記録する。 According to another aspect of the present invention, the control method is to obtain temperature information of an information processing device adjacent to the information processing device in which the control method is mounted, the control method including receiving a signal indicating temperature abnormality from the adjacent information processing device. When it receives a signal indicating that the temperature has returned to normal from the adjacent information processing device, it starts acquiring temperature information according to the asserted flag, and when it receives a signal from the adjacent information processing device indicating that the temperature has returned to normal, it starts acquiring temperature information according to the deasserted flag. and record the obtained temperature information.
本発明の別の態様によれば、プログラムは、情報処理装置を管理する管理装置のコンピュータを、自らが搭載された情報処理装置と隣接する情報処理装置の温度情報を取得する取得手段であって、隣接する情報処理装置から温度異常を示す信号を受信すると、アサートされたフラグに応じて温度情報の取得を開始し、隣接する情報処理装置から温度が正常に戻ったことを示す信号を受信すると、デアサートされたフラグに応じて温度情報の取得を終了する取得手段、前記取得手段によって取得された温度情報を記録する記録手段、として機能させる。 According to another aspect of the present invention, the program is an acquisition means for causing a computer of a management device that manages an information processing device to acquire temperature information of an information processing device in which the computer is installed and an adjacent information processing device. When a signal indicating temperature abnormality is received from an adjacent information processing device, the acquisition of temperature information is started according to the asserted flag, and when a signal indicating that the temperature has returned to normal is received from an adjacent information processing device. , an acquisition means for terminating the acquisition of temperature information according to the deasserted flag, and a recording means for recording the temperature information acquired by the acquisition means .
本発明によれば、発熱による障害の原因の特定が容易となる管理装置、制御方法、及びプログラムを提供することができる。 According to the present invention, it is possible to provide a management device, a control method, and a program that make it easy to identify the cause of a failure due to heat generation.
以下、本発明の一実施形態によるBMCを図面を参照して説明する。 Hereinafter, a BMC according to an embodiment of the present invention will be described with reference to the drawings.
図1は実施形態によるBMC100の構成を示すブロック図である。BMC100は、管理装置と呼ばれることがある。また、BMC100は、自らが搭載された情報処理装置を管理する。本実施形態では、情報処理装置をサーバとして説明する。BMC100は、信号送受信部101、取得部102、記録部103、温度検出部104、および装置情報記憶部140で構成される。
FIG. 1 is a block diagram showing the configuration of a BMC 100 according to an embodiment. BMC 100 is sometimes called a management device. Further, the BMC 100 manages the information processing device in which it is installed. In this embodiment, an information processing device will be described as a server. The BMC 100 includes a signal transmission/
信号送受信部101は、他のサーバから送信される各種信号を受信したり、他のサーバに各種信号を送信する。本実施形態において、他のサーバとは、自らのサーバに熱により影響を与えるサーバであって、例えば自らと同じラック内に設けられた上下または左右で隣接するサーバが挙げられる。以下の説明において、特に断らない限り、「サーバ」は他のサーバを示すものとする。
The signal transmitting/receiving
信号送受信部101が受信する信号には、温度異常を示す信号(以下、「温度異常信号」ともいう)や、温度情報を示す信号(以下、「温度信号」ともいう)、温度異常の状態から温度が正常に戻ったことを示す信号(以下、「正常復帰信号」ともいう)がある。
The signals received by the signal transmitting/receiving
取得部102は、サーバの温度情報を取得する。取得部102は、サーバから温度異常信号を受信すると温度情報の取得を開始する。取得部102は、隣接するサーバから正常復帰信号を受信すると温度情報の取得を終了する。記録部103は、取得部102によって取得された温度情報を記録する。温度情報の記憶先は、装置情報記憶部140である。温度情報は、サーバの温度を少なくとも含む。温度の単位は、例えば℃であり、温度が50℃の場合の温度情報は50を示す情報である。本実施形態では、温度情報は、温度の他に、温度が検出された日時を示す検出日時情報を含む。また、取得部102は、例えば1分間隔で温度情報を取得する。
The
温度検出部104は、自らのサーバの温度を検出する。検出された温度に応じて、信号送受信部101は温度異常信号、温度信号、および正常復帰信号などを送信する。
The
装置情報記憶部140は、サーバごとにサーバ関連情報150-1、…、150-nが記憶される。図1の例では、サーバがn個ある場合を示している。例えば、サーバが上下の2つのみの場合は、サーバ関連情報150-1、150-2が記憶される。以下の説明において、サーバ関連情報150-1、…、150-nのそれぞれを特に区別しない場合には、サーバ関連情報150と表現することがある。
The device
サーバ関連情報150は、サーバ識別情報151、温度テーブル152、取得識別フラグ153を含む。サーバ識別情報は、サーバを一意に識別する情報である。サーバ識別情報は、例えばサーバのIPアドレスや号機番号である。温度テーブル152は、サーバの温度情報を記憶するテーブルである。温度テーブルは、温度情報が取得された日時と、検出日時と、温度とが記録される。以下の説明では、サーバ識別情報をIPアドレスとして説明するが、号機番号であってもよいし、IPアドレスと号機番号の両方であってもよい。BMC100は、サーバ関連情報150を他装置(例えば、サーバを管理する管理サーバなど)に出力可能である。これにより他装置では、サーバ関連情報150を提供するサーバとは異なるサーバの温度情報を取得できる。なお、装置情報記憶部140には、自らのサーバ関連情報150が設けられる。したがって、自らの温度情報も記録される。
The server
取得識別フラグ153は、サーバ識別情報で特定されるサーバから、現在温度情報を取得中か否かを示すフラグである。取得識別フラグ153がアサートされている場合には、現在温度情報を取得中であることを示す。
The
上記構成において、サーバが稼働中、サーバに設けられた温度センサで温度遷移が発生し、かつその温度が閾値を超えた場合、このサーバのBMCは、他のサーバのBMCに対し、温度異常信号を送信する。上記閾値は、例えば温度センサに設定された警告や異常の閾値より低めに設定された閾値や、FAN制御フローで設定された回転数変更用温度閾値などである。 In the above configuration, when a temperature transition occurs in the temperature sensor installed on the server while the server is in operation and the temperature exceeds the threshold, the BMC of this server sends a temperature abnormality signal to the BMC of other servers. Send. The threshold value is, for example, a threshold value set lower than a warning or abnormality threshold value set in a temperature sensor, or a temperature threshold value for changing the rotation speed set in a FAN control flow.
信号送受信部101は、温度異常信号を受信すると、取得識別フラグ153をアサートする。信号送受信部101は、正常復帰信号を受信すると、取得識別フラグ153をデアサートする。このとき、温度異常信号を送信したサーバのIPアドレスがわかるため、信号送受信部101は、装置情報記憶部140に記憶されたサーバ識別情報151にもとづき、温度異常信号を送信したサーバを特定する。
When the signal transmitting/receiving
取得部102は、特定されたサーバにアクセスし、温度情報を取得する。記録部103は、取得されたサーバに対応するサーバ関連情報の温度テーブル152に、取得した温度情報(取得日時、検出日時、温度)を記録する。このように記録された温度情報を他装置が取得することで、取得日時、検出日時、温度が得られるため、自らの発熱によるものか、それとも隣接するサーバによる発熱かを容易に判断できることから、発熱による障害の原因の特定が容易となる。
The
なお、温度テーブル152に記録可能な温度情報数を超えた場合、記録部103は上書きしてもよい。上書きの例として、検出日時が最も古いものの温度情報だけは上書きせず残しておき、他の温度情報を上書き対象とする方法がある。このように検出日時が最も古いものの温度情報を残すことで、いつから異常が検出されたかを判定可能となる。
Note that if the number of temperature information that can be recorded in the temperature table 152 is exceeded, the
次に、BMC100の2つの通信接続例について説明する。図2は、通信接続例(その1)を示す図である。図2には、ラック500と、サーバ300-1、…、300-N-1、300-N、300-N+1と、BMC100-1、…、100-N-1、100-N、100-N+1と、有線通信部200-1、…、200-N-1、200-N、200-N+1と、通信線400とが示されている。
Next, two communication connection examples of the
kを1~N+1とするとき、サーバ300-kにBMC100-kと有線通信部200-kとが搭載される。有線通信部200-kは、通信線400により互いの通信部に接続可能である。以下の説明において、サーバ300-1、…、300-N-1、300-N、300-N+1を特に区別しない場合には、サーバ300と表現することがある。BMC100-1、…、100-N-1、100-N、100-N+1を特に区別しない場合には、BMC100と表現することがある。有線通信部200-1、…、200-N-1、200-N、200-N+1を特に区別しない場合には、有線通信部200と表現することがある。有線通信部200は、例えばマネージメント用LANコネクタである。
When k is 1 to N+1, a BMC 100-k and a wired communication unit 200-k are installed in the server 300-k. The wired communication units 200-k can be connected to each other via communication lines 400. In the following description, the servers 300-1, . . . , 300-N-1, 300-N, and 300-
通信接続例(その1)は、サーバ300がラック500に設けられ、ラック管理サーバが設けられている場合に好適な通信接続例である。ラック管理サーバにはラックの構成やラックのグループ構成や各サーバ300のIPアドレスなどが管理されている。
The communication connection example (part 1) is a suitable communication connection example when the
BMC同士が通信線400を介してマネージメントLANを構成可能な場合、BMC100は初期化時において、上下に隣接するサーバのIPアドレスを取得して、サーバ識別情報に記録する。例えば、BMC100-Nは、初期化時において、ラック管理サーバから、上に位置するBMC100-N-1のIPアドレスと、下に位置するBMC100-N+1のIPアドレスとを取得して、サーバ識別情報に記録する。ラック管理サーバは、予め、各サーバ300の位置関係が記録されている。ラック管理サーバは、記録されている位置関係に応じて、上に位置するBMC100のIPアドレスと、下に位置するBMC100のIPアドレスを提供する。このように、ラック管理サーバから上に位置するBMC100のIPアドレスと、下に位置するBMC100のIPアドレスとを取得する場合において、「隣接する情報処理装置(サーバ)」とは、ラック管理サーバから取得したIPアドレスのBMCが搭載された情報処理装置である。
If the BMCs can configure a management LAN via the
サーバ300が稼働中に、例えばサーバ300-Nの温度センサで温度遷移が検出され、その温度が閾値を超えた場合、温度遷移がなされたBMC100-Nは、有線通信部200-Nから隣接サーバであるサーバ300-N-1の有線通信部200-N-1を経由して、サーバ300-N-1のBMC100-N-1に温度異常信号を送信する。同様に、BMC100-Nは、有線通信部200-Nから隣接サーバであるサーバ300-N+1の有線通信部200-N+1を経由して、サーバ300-N-1のBMC100-N+1に温度異常信号を送信する。
For example, if a temperature change is detected by the temperature sensor of the server 300-N while the
サーバ300-N-1のBMC100-N-1は、温度異常信号を受信すると、サーバ識別情報から温度異常信号を送信したサーバの特定を行い、該当するサーバのサーバ関連情報150の取得識別フラグ153をアサートする。同様に、サーバ300-N+1のBMC100-N+1は、温度異常信号を受信すると、サーバ識別情報から温度異常信号を送信したサーバの特定を行い、該当するサーバのサーバ関連情報150の取得識別フラグ153をアサートする。
When the BMC 100-N-1 of the server 300-N-1 receives the temperature abnormality signal, it identifies the server that sent the temperature abnormality signal from the server identification information, and obtains the
サーバ300-N-1のBMC100-N-1は、温度異常信号を送信したBMC100-Nにアクセスし、温度情報を取得し、取得した温度情報(取得日時、検出日時、温度)を記録する。同様に、サーバ300-N+1のBMC100-N+1は、温度異常信号を送信したBMC100-Nにアクセスし、温度情報を取得し、取得した温度情報(取得日時、検出日時、温度)を記録する。
The BMC 100-N-1 of the server 300-N-1 accesses the BMC 100-N that sent the temperature abnormality signal, acquires temperature information, and records the acquired temperature information (date and time of acquisition, date and time of detection, and temperature). Similarly, the BMC 100-
サーバ300-Nの温度センサで温度遷移が検出され、その温度が閾値以下となった場合、温度遷移がなされたBMC100-Nは、有線通信部200-Nから隣接サーバであるサーバ300-N-1の有線通信部200-N-1を経由して、サーバ300-N-1のBMC100-N-1に正常復帰信号を送信する。同様に、BMC100-Nは、有線通信部200-Nから隣接サーバであるサーバ300-N+1の有線通信部200-N+1を経由して、サーバ300-N-1のBMC100-N+1に正常復帰信号を送信する。
When a temperature change is detected by the temperature sensor of the server 300-N and the temperature becomes below the threshold value, the BMC 100-N where the temperature change has occurred is sent from the wired communication unit 200-N to the adjacent server 300-N-. A normal return signal is sent to the BMC 100-N-1 of the server 300-N-1 via the wired communication unit 200-N-1 of the server 300-N-1. Similarly, the BMC 100-N sends a normal return signal from the wired communication unit 200-N to the BMC 100-
サーバ300-N-1のBMC100-N-1は、正常復帰信号を受信すると、サーバ識別情報から正常復帰信号を送信したサーバの特定を行い、該当するサーバのサーバ関連情報150の取得識別フラグ153をデアサートする。同様に、サーバ300-N+1のBMC100-N+1は、正常復帰信号を受信すると、サーバ識別情報から正常復帰信号を送信したサーバの特定を行い、該当するサーバのサーバ関連情報150の取得識別フラグ153をデアサートする。
When the BMC 100-N-1 of the server 300-N-1 receives the normal return signal, it identifies the server that sent the normal return signal from the server identification information, and acquires the server-related
図3は、通信接続例(その2)を示す図である。図3に示される通信接続例は、図2に示される通信接続例に加え、近距離無線(例えばBluetooth(登録商標)など)可能な無線通信部600-1、…、600-N-1、600-N、600-N+1を備える例である。無線通信部600-1、…、600-N-1、600-N、600-N+1を特に区別しない場合には、無線通信部600と表現することがある。
FIG. 3 is a diagram showing an example (part 2) of communication connections. In addition to the communication connection example shown in FIG. 2, the communication connection example shown in FIG. 3 includes wireless communication units 600-1, . This is an example including 600-N and 600-
通信接続例(その2)は、ラック管理サーバが設けられていない場合などに好適な通信接続例である。または、通信接続例(その2)ではサーバ300がラックに設けられているが、サーバがラックに設けられていない場合などにも好適な通信接続例である。したがって、図3ではラック500が記載されているが、ラック500はなくてもよい。
The communication connection example (part 2) is a communication connection example suitable for cases where a rack management server is not provided. Alternatively, in the communication connection example (part 2), the
BMC100が無線通信部600を備え、無線通信部600を介して隣接するサーバ300のBMC100と通信可能な場合、BMC100は初期化時において、上下に隣接するサーバのIPアドレスを取得して、サーバ識別情報に記録する。例えば、BMC100-Nは、初期化時において、上に位置するBMC100-N-1のIPアドレスと、下に位置するBMC100-N+1のIPアドレスとを取得して、サーバ識別情報に記録する。このように、通信接続例(その2)の場合、「隣接する情報処理装置(サーバ)」とは、無線通信部600が通信可能なBMCが搭載されたサーバである。
If the
サーバ300が稼働中に、例えばサーバ300-Nの温度センサで温度遷移が検出され、その温度が閾値を超えた場合、温度遷移がなされたBMC100-Nは、無線通信部600-Nから隣接サーバであるサーバ300-N-1の無線通信部600-N-1を経由して、サーバ300-N-1のBMC100-N-1に温度異常信号を送信する。同様に、BMC100-Nは、無線通信部600-Nから隣接サーバであるサーバ300-N+1の無線通信部600-N+1を経由して、サーバ300-N-1のBMC100-N+1に温度異常信号を送信する。
For example, if a temperature change is detected by the temperature sensor of the server 300-N while the
サーバ300-N-1のBMC100-N-1は、温度異常信号を受信すると、サーバ識別情報から温度異常信号を送信したサーバの特定を行い、該当するサーバのサーバ関連情報150の取得識別フラグ153をアサートする。同様に、サーバ300-N+1のBMC100-N+1は、温度異常信号を受信すると、サーバ識別情報から温度異常信号を送信したサーバの特定を行い、該当するサーバのサーバ関連情報150の取得識別フラグ153をアサートする。
When the BMC 100-N-1 of the server 300-N-1 receives the temperature abnormality signal, it identifies the server that sent the temperature abnormality signal from the server identification information, and obtains the
サーバ300-N-1のBMC100-N-1は、温度異常信号を送信したBMC100-Nにアクセスし、温度情報を取得し、取得した温度情報(取得日時、検出日時、温度)を記録する。同様に、サーバ300-N+1のBMC100-N+1は、温度異常信号を送信したBMC100-Nにアクセスし、温度情報を取得し、取得した温度情報(取得日時、検出日時、温度)を記録する。
The BMC 100-N-1 of the server 300-N-1 accesses the BMC 100-N that sent the temperature abnormality signal, acquires temperature information, and records the acquired temperature information (date and time of acquisition, date and time of detection, and temperature). Similarly, the BMC 100-
サーバ300-Nの温度センサで温度遷移が検出され、その温度が閾値以下となった場合、温度遷移がなされたBMC100-Nは、無線通信部600-Nから隣接サーバであるサーバ300-N-1の無線通信部600-N-1を経由して、サーバ300-N-1のBMC100-N-1に正常復帰信号を送信する。同様に、BMC100-Nは、無線通信部600-Nから隣接サーバであるサーバ300-N+1の無線通信部600-N+1を経由して、サーバ300-N-1のBMC100-N+1に正常復帰信号を送信する。
When a temperature change is detected by the temperature sensor of the server 300-N and the temperature becomes equal to or lower than the threshold value, the BMC 100-N where the temperature change has occurred is sent from the wireless communication unit 600-N to the adjacent server 300-N-. A normal return signal is transmitted to the BMC 100-N-1 of the server 300-N-1 via the wireless communication unit 600-N-1 of the server 300-N-1. Similarly, the BMC 100-N sends a normal return signal from the wireless communication unit 600-N to the BMC 100-
サーバ300-N-1のBMC100-N-1は、正常復帰信号を受信すると、サーバ識別情報から正常復帰信号を送信したサーバの特定を行い、該当するサーバのサーバ関連情報150の取得識別フラグ153をデアサートする。同様に、サーバ300-N+1のBMC100-N+1は、正常復帰信号を受信すると、サーバ識別情報から正常復帰信号を送信したサーバの特定を行い、該当するサーバのサーバ関連情報150の取得識別フラグ153をデアサートする。
When the BMC 100-N-1 of the server 300-N-1 receives the normal return signal, it identifies the server that sent the normal return signal from the server identification information, and acquires the server-related
次に、BMC100の処理の流れについて説明する。以下の説明において、「上位サーバ」とは、処理を実行するBMC100が搭載されたサーバに隣接するサーバのうちの上に位置するサーバを示す。例えば、図3において、処理を実行するBMC100が搭載されたサーバをサーバ300-Nとしたとき、上位サーバはサーバ300-N-1である。また、「下位サーバ」とは、処理を実行するBMC100が搭載されたサーバに隣接するサーバのうちの下に位置するサーバを示す。例えば、図3において、処理を実行するBMC100が搭載されたサーバをサーバ300-Nとしたとき、下位サーバはサーバ300-N+1である。また、以下のフローチャートでは、サーバ識別情報としてIPアドレスを取得しているが、上述したように、IPアドレスと号機番号を取得してもよい。
Next, the flow of processing of the
図4は、BMC100の初期化時の処理の流れを示すフローチャートである。なお、初期化時とは、BMC100の電源投入時、またはリセット実行時である。
FIG. 4 is a flowchart showing the process flow when initializing the
BMC100は、自らが搭載されたサーバ300に無線通信部600が搭載されているか否かを判定する(ステップS101)。無線通信部600が搭載されていない場合には(ステップS101:NO)、BMC100は、上位サーバのIPアドレスを取得する(ステップS102)。BMC100は、下位サーバのIPアドレスを取得する(ステップS103)。
The
なお、上記ステップS102において、上位サーバのIPアドレスが取得できない可能性がある。例えば、自らが搭載されたサーバが最上位であれば、上位サーバは存在しない。同様に、上記ステップS103において、下位サーバのIPアドレスが取得できない可能性がある。例えば、自らが搭載されたサーバが最下位であれば、下位サーバは存在しない。このように、上位サーバまたは下位サーバが存在しない場合には、IPアドレスをNULLとするなどして、取得できなかったことを判定可能なIPアドレスとする。なお、ステップS102とステップS103で取得したIPアドレスを保持するメモリを最初からNULLで初期化していてもよい。 Note that there is a possibility that the IP address of the higher-level server cannot be obtained in step S102. For example, if the server on which it is installed is the highest level server, there is no higher level server. Similarly, in step S103 above, there is a possibility that the IP address of the lower server cannot be obtained. For example, if the server on which it is installed is the lowest level server, there are no lower level servers. In this way, if there is no upper server or lower server, the IP address is set to NULL, so that it can be determined that the server could not be acquired. Note that the memory that holds the IP addresses acquired in step S102 and step S103 may be initialized with NULL from the beginning.
BMC100は、取得した上位サーバのIPアドレスを、上位サーバに該当するサーバ関連情報150のサーバ識別情報に記録する(ステップS104)。BMC100は、取得した上位サーバのIPアドレスを、上位サーバに該当するサーバ関連情報150のサーバ識別情報に記録して(ステップS105)、処理を終了する。
The
なお、上位サーバのIPアドレスがNULLの場合には、ステップS104でサーバ識別情報を記録することなく処理を終了する。下位サーバのIPアドレスがNULLの場合には、ステップS105でサーバ識別情報を記録することなく処理を終了する。 Note that if the IP address of the upper server is NULL, the process ends without recording the server identification information in step S104. If the IP address of the lower server is NULL, the process ends without recording the server identification information in step S105.
ステップS101において、無線通信部600が搭載されている場合には(ステップS101:YES)、BMC100は、上位サーバと無線通信可能か否かを判定する(ステップS106)。上位サーバと無線通信不可能な場合には(ステップS106:NO)、BMC100は、ステップS108に進む。上位サーバと無線通信可能な場合には(ステップS106:YES)、BMC100は、上位サーバのIPアドレスを取得する(ステップS107)。
In step S101, if the
BMC100は、下位サーバと無線通信可能か否かを判定する(ステップS108)。下位サーバと無線通信不可能な場合には(ステップS108:NO)、BMC100は、上記ステップS104に進む。下位サーバと無線通信可能な場合には(ステップS108:YES)、BMC100は、下位サーバのIPアドレスを取得して(ステップS109)、上記ステップS104に進む。
The
図5は、BMC100が温度異常信号を受信した場合の処理の流れを示すフローチャートである。BMC100が温度異常信号を受信すると、BMC100は、温度異常信号の送信先が上位サーバか否かを判定する(ステップS201)。温度異常信号の送信先が上位サーバではない場合には(ステップS201:NO)、BMC100は、ステップS203に進む。温度異常信号の送信先が上位サーバである場合には(ステップS201:YES)、BMC100は、上位サーバのサーバ関連情報150の取得識別フラグ153をアサートする(ステップS202)。
FIG. 5 is a flowchart showing the flow of processing when the
BMC100は、温度異常信号の送信先が下位サーバか否かを判定する(ステップS203)。温度異常信号の送信先が下位サーバではない場合には(ステップS203:NO)、BMC100は、ステップS205に進む。温度異常信号の送信先が下位サーバである場合には(ステップS203:YES)、BMC100は、下位サーバのサーバ関連情報150の取得識別フラグ153をアサートする(ステップS204)。
The
BMC100は、上位サーバの取得識別フラグ153がアサートされているか否かを判定する(ステップS205)。上位サーバの取得識別フラグ153がアサートされていない場合には(ステップS205:NO)、BMC100は、ステップS208に進む。上位サーバの取得識別フラグ153がアサートされている場合には(ステップS205:YES)、BMC100は、上位サーバのBMCにアクセスし、温度情報を取得する(ステップS206)。BMC100は、取得した温度情報(取得日時、検出日時、温度)を、上位サーバのサーバ関連情報150の温度テーブルに記録する(ステップS207)。
The
BMC100は、下位サーバの取得識別フラグ153がアサートされているか否かを判定する(ステップS208)。下位サーバの取得識別フラグ153がアサートされていない場合には(ステップS208:NO)、BMC100は、ステップS211に進む。上位サーバの取得識別フラグ153がアサートされている場合には(ステップS208:YES)、BMC100は、下位サーバのBMCにアクセスし、温度情報を取得する(ステップS209)。BMC100は、取得した温度情報(取得日時、検出日時、温度)を、下位サーバのサーバ関連情報150の温度テーブルに記録する(ステップS210)。
The
BMC100は、正常復帰信号を受信したか否かを判定する(ステップS211)。正常復帰信号を受信していない場合には(ステップS211:NO)、BMC100は、ステップS205に戻る。正常復帰信号を受信した場合には(ステップS211:YES)、BMC100は、正常復帰信号の送信先が上位サーバか否かを判定する(ステップS212)。正常復帰信号の送信先が上位サーバではない場合には(ステップS212:NO)、BMC100は、ステップS214に進む。正常復帰信号の送信先が上位サーバである場合には(ステップS212:YES)、BMC100は、上位サーバのサーバ関連情報150の取得識別フラグ153をデアサートする(ステップS213)。
The
BMC100は、正常復帰信号の送信先が下位サーバか否かを判定する(ステップS214)。正常復帰信号の送信先が下位サーバではない場合には(ステップS214:NO)、BMC100は、ステップS216に進む。正常復帰信号の送信先が下位サーバである場合には(ステップS214:YES)、BMC100は、下位サーバのサーバ関連情報150の取得識別フラグ153をデアサートする(ステップS215)。
The
BMC100は、いずれの取得識別フラグ153もデアサートされているか否かを判定する(ステップS216)。すなわち、上位サーバおよび下位サーバも正常か否かを判定する。デアサートされていない取得識別フラグ153がある場合には(ステップS216:NO)、BMC100は、ステップS205に進む。いずれの取得識別フラグ153もデアサートされている場合には(ステップS216:NO)、BMC100は、処理を終了する。
The
以上説明したように、サーバ300が複数台設置された環境において、1つのサーバのサーバ関連情報150を取得するだけで、複数のサーバから温度情報を取得することなく、隣接するサーバ(例えば上位サーバや下位サーバなど)の温度情報を確認可能となる。また、温度情報から、異常に近い状態(例えば断続的に温度異常信号が送信されるなど)で動作をしていることも確認可能となる。これによりサーバ300の保守員やSE(System Engineer)の作業効率化や、サーバ技術者の調査効率化に貢献することができる。例えば、関連技術では、自らのサーバの温度は正常であるが、他のサーバの発熱により、自らのサーバの電源ファンが高速になった原因の特定は、非常に困難であり、また時間を要するものであった。こうした他のサーバから影響を受ける場合であっても、本実施形態により調査の効率化を図ることが可能となる。
As explained above, in an environment where
上述した実施形態では、サーバ関連情報の取得対象先として、上位サーバおよび下位サーバを例にしたが、これに限るものではない。例えば、ラックに設けられた全サーバ、さらには、マシンルームに設けられた全サーバをサーバ関連情報の取得対象先としてもよい。こうして得られたサーバ関連情報を元に、サーバを管理する管理サーバや空調システムとも連携し、マシンルームの空調などを管理してもよい。 In the above-described embodiment, the upper server and the lower server are used as examples of targets for obtaining server-related information, but the present invention is not limited to this. For example, all servers provided in a rack, or furthermore, all servers provided in a machine room may be the targets for obtaining server-related information. Based on the server-related information obtained in this way, it may also cooperate with a management server that manages the server and an air conditioning system to manage the air conditioning of the machine room.
以上説明した実施形態では、他のサーバの温度情報を取得するものであったが、温度以外にも他のサーバから影響を受けるものとして、塵や電力が挙げられる。したがって、BMCは、防塵センサから取得される情報や、電力センサから取得される情報を取得対象としてもよい。 In the embodiment described above, temperature information of other servers is acquired, but in addition to temperature, other factors that are influenced by other servers include dust and electric power. Therefore, the BMC may acquire information acquired from the dustproof sensor or information acquired from the power sensor.
図6は本実施形態による管理装置の最小構成を示す図である。本実施形態による管理装置1000は、取得手段1001、および記録手段1002を備えればよい。
取得手段1001は、自らの情報処理装置と隣接する情報処理装置の温度情報を取得する。記録手段1002は、取得手段1001によって取得された温度情報を記録する。
FIG. 6 is a diagram showing the minimum configuration of the management device according to this embodiment. The
The
上述の管理装置は内部に、コンピュータシステムを有している。そして、上述した処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。 The above-mentioned management device has a computer system inside. The above-described processing steps are stored in a computer-readable recording medium in the form of a program, and the above-mentioned processing is performed by reading and executing this program by the computer. Here, the computer-readable recording medium refers to a magnetic disk, a magneto-optical disk, a CD-ROM, a DVD-ROM, a semiconductor memory, and the like. Alternatively, this computer program may be distributed to a computer via a communication line, and the computer receiving the distribution may execute the program.
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。 Further, the program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in a transmission medium. Here, the "transmission medium" that transmits the program refers to a medium that has a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. Moreover, the above program may be for realizing a part of the above-mentioned functions. Furthermore, it may be a so-called difference file (difference program) that can realize the above-mentioned functions in combination with a program already recorded in the computer system.
101 信号送受信部
102 取得部
103 記録部
104 温度検出部
140 装置情報記憶部
150、150-1、150-n サーバ関連情報
151 サーバ識別情報
152 温度テーブル
153 取得識別フラグ
200、200-1、200-k、200-N 有線通信部
300、300-1、300-N、300-N-1 サーバ
400 通信線
500 ラック
600、600-1、600-N、600-N-1 無線通信部
1000 管理装置
1001 取得手段
1002 記録手段
101 Signal transmission/
Claims (3)
前記取得手段によって取得された温度情報を記録する記録手段と、
を備えた管理装置。 An acquisition means that acquires temperature information of an information processing device adjacent to the information processing device in which it is mounted, and when a signal indicating temperature abnormality is received from the adjacent information processing device, temperature information is acquired according to an asserted flag. an acquisition unit that starts acquiring the temperature information and, upon receiving a signal indicating that the temperature has returned to normal from an adjacent information processing device, finishes acquiring the temperature information in accordance with the deasserted flag;
recording means for recording temperature information acquired by the acquisition means;
A management device equipped with
取得された温度情報を記録する、
制御方法。 The purpose is to acquire temperature information of an information processing device adjacent to the information processing device on which it is installed, and when a signal indicating a temperature abnormality is received from the adjacent information processing device, temperature information is acquired according to an asserted flag. When the acquisition starts and a signal indicating that the temperature has returned to normal is received from the adjacent information processing device, the acquisition of temperature information is finished according to the deasserted flag,
Record the obtained temperature information,
Control method.
自らが搭載された情報処理装置と隣接する情報処理装置の温度情報を取得する取得手段であって、隣接する情報処理装置から温度異常を示す信号を受信すると、アサートされたフラグに応じて温度情報の取得を開始し、隣接する情報処理装置から温度が正常に戻ったことを示す信号を受信すると、デアサートされたフラグに応じて温度情報の取得を終了する取得手段、
前記取得手段によって取得された温度情報を記録する記録手段、
として機能させるプログラム。 The computer of the management device that manages the information processing device,
An acquisition means that acquires temperature information of an information processing device adjacent to the information processing device in which it is mounted, and when a signal indicating temperature abnormality is received from the adjacent information processing device, temperature information is acquired according to an asserted flag. an acquisition unit that starts acquiring the temperature information and, upon receiving a signal indicating that the temperature has returned to normal from an adjacent information processing device, finishes acquiring the temperature information in accordance with the deasserted flag;
recording means for recording temperature information acquired by the acquisition means;
A program that functions as
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022026468A JP7436060B2 (en) | 2022-02-24 | 2022-02-24 | Management device, control method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022026468A JP7436060B2 (en) | 2022-02-24 | 2022-02-24 | Management device, control method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023122776A JP2023122776A (en) | 2023-09-05 |
JP7436060B2 true JP7436060B2 (en) | 2024-02-21 |
Family
ID=87885874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022026468A Active JP7436060B2 (en) | 2022-02-24 | 2022-02-24 | Management device, control method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7436060B2 (en) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010039987A (en) | 2008-08-08 | 2010-02-18 | Hitachi Ltd | Computer system, method for processing failure of hardware, and program |
WO2015015621A1 (en) | 2013-08-01 | 2015-02-05 | 富士通株式会社 | Information processing device, diagnostic method, diagnostic program, and information processing system |
JP2015185059A (en) | 2014-03-26 | 2015-10-22 | 日本電気株式会社 | temperature control device, temperature control method, and temperature control program |
JP2016157296A (en) | 2015-02-25 | 2016-09-01 | Necプラットフォームズ株式会社 | Information processing apparatus and management method therefor |
JP2016206844A (en) | 2015-04-20 | 2016-12-08 | 富士通株式会社 | Electronic device and cooling method thereof |
US20170076575A1 (en) | 2015-09-10 | 2017-03-16 | Dell Products L.P. | Optimized service mode cooling |
JP2019032818A (en) | 2017-08-09 | 2019-02-28 | 廣達電腦股▲ふん▼有限公司 | Multiple-node system fan control switch |
JP2019045948A (en) | 2017-08-30 | 2019-03-22 | 富士通株式会社 | Information processing apparatus, information processing system, and program |
US20210311509A1 (en) | 2020-04-03 | 2021-10-07 | Dell Products L.P. | Data Center Collective Environment Monitoring and Response |
-
2022
- 2022-02-24 JP JP2022026468A patent/JP7436060B2/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010039987A (en) | 2008-08-08 | 2010-02-18 | Hitachi Ltd | Computer system, method for processing failure of hardware, and program |
WO2015015621A1 (en) | 2013-08-01 | 2015-02-05 | 富士通株式会社 | Information processing device, diagnostic method, diagnostic program, and information processing system |
JP2015185059A (en) | 2014-03-26 | 2015-10-22 | 日本電気株式会社 | temperature control device, temperature control method, and temperature control program |
JP2016157296A (en) | 2015-02-25 | 2016-09-01 | Necプラットフォームズ株式会社 | Information processing apparatus and management method therefor |
JP2016206844A (en) | 2015-04-20 | 2016-12-08 | 富士通株式会社 | Electronic device and cooling method thereof |
US20170076575A1 (en) | 2015-09-10 | 2017-03-16 | Dell Products L.P. | Optimized service mode cooling |
JP2019032818A (en) | 2017-08-09 | 2019-02-28 | 廣達電腦股▲ふん▼有限公司 | Multiple-node system fan control switch |
JP2019045948A (en) | 2017-08-30 | 2019-03-22 | 富士通株式会社 | Information processing apparatus, information processing system, and program |
US20210311509A1 (en) | 2020-04-03 | 2021-10-07 | Dell Products L.P. | Data Center Collective Environment Monitoring and Response |
Also Published As
Publication number | Publication date |
---|---|
JP2023122776A (en) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4594750B2 (en) | Method and system for recovering from failure of a blade service processor flash in a server chassis | |
EP2472402B1 (en) | Remote management systems and methods for mapping operating system and management controller located in a server | |
US7844768B2 (en) | Blade server system and method of managing same | |
US7917664B2 (en) | Storage apparatus, storage apparatus control method, and recording medium of storage apparatus control program | |
JP5678717B2 (en) | Monitoring device, monitoring system, and monitoring method | |
US20120136502A1 (en) | Fan speed control system and fan speed reading method thereof | |
US20090024764A1 (en) | Tracking The Physical Location Of A Server In A Data Center | |
JP5413514B2 (en) | Management apparatus, information processing apparatus, control method, and program | |
US20090077166A1 (en) | Obtaining location information of a server | |
TWI638553B (en) | Method for detecting internet protocol address and media access control address | |
US20090024724A1 (en) | Computing System And System Management Architecture For Assigning IP Addresses To Multiple Management Modules In Different IP Configuration | |
JP7436060B2 (en) | Management device, control method, and program | |
JP5651962B2 (en) | RAID apparatus, abnormal device detection apparatus, and abnormal device detection method | |
JP6996602B1 (en) | BMC, server system, device stability determination method and program | |
US8533528B2 (en) | Fault tolerant power sequencer | |
EP1461702A2 (en) | Computer system with dedicated system management buses | |
US7920560B2 (en) | Method for detecting topology of computer systems | |
TWI439856B (en) | Method and multiple computer system with a failover support to manage shared resources | |
US9842070B2 (en) | Storage apparatus, control apparatus and computer-readable recording medium having stored therein control program | |
US8775695B2 (en) | Specific identification information management device, information processing device, and specific identification information setting method | |
CN116303213B (en) | System and method for improving BMC chip computing efficiency | |
EP2458826A2 (en) | Method for managing distinct IP addresses in a system and related system | |
JP5609272B2 (en) | Server apparatus, server system, and server apparatus control method | |
CN108574741B (en) | Method for detecting IP address and physical address | |
US20030189496A1 (en) | Central management of networked computers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230425 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230626 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231010 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231211 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240201 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7436060 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |