JP7436060B2 - Management device, control method, and program - Google Patents

Management device, control method, and program Download PDF

Info

Publication number
JP7436060B2
JP7436060B2 JP2022026468A JP2022026468A JP7436060B2 JP 7436060 B2 JP7436060 B2 JP 7436060B2 JP 2022026468 A JP2022026468 A JP 2022026468A JP 2022026468 A JP2022026468 A JP 2022026468A JP 7436060 B2 JP7436060 B2 JP 7436060B2
Authority
JP
Japan
Prior art keywords
server
temperature
information
bmc
processing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022026468A
Other languages
Japanese (ja)
Other versions
JP2023122776A (en
Inventor
直子 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Platforms Ltd
Original Assignee
NEC Platforms Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Platforms Ltd filed Critical NEC Platforms Ltd
Priority to JP2022026468A priority Critical patent/JP7436060B2/en
Publication of JP2023122776A publication Critical patent/JP2023122776A/en
Application granted granted Critical
Publication of JP7436060B2 publication Critical patent/JP7436060B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明は、管理装置、制御方法、及びプログラムに関する。 The present invention relates to a management device, a control method, and a program.

サーバなどの情報処理装置に搭載され、情報処理装置を管理する管理装置(例えば、BMC(Baseboard Management Controller))がある。BMCは、自らが搭載された情報処理装置のログのみを採取可能である。 There is a management device (for example, a BMC (Baseboard Management Controller)) that is installed in an information processing device such as a server and manages the information processing device. The BMC can only collect logs from the information processing device on which it is installed.

サーバなどの情報処理装置は、熱により障害が発生することがある。この障害は、自らの発熱によるものだけではなく、他の情報処理装置の発熱により例えば電源ファンが高速となる事象が発生することがある。 Information processing devices such as servers may fail due to heat. This failure is not only caused by the heat generated by the information processing device itself, but also by the heat generated by other information processing devices, for example, an event may occur in which the power supply fan speeds up.

特許文献1には、サーバが管理サーバに温度に関する警告を通知する技術が開示されている。特許文献2には、各ブレードに搭載されたBMCから情報を取得し管理するエンクロージャが故障したり、抜去されたときに、ブレードに搭載されたBMCがエンクロージャの代わりとなる技術が開示されている。 Patent Document 1 discloses a technique in which a server notifies a management server of a warning regarding temperature. Patent Document 2 discloses a technology in which the BMC mounted on each blade takes the place of the enclosure when the enclosure that acquires and manages information from the BMC mounted on each blade fails or is removed. .

特開2021-144661号公報Japanese Patent Application Publication No. 2021-144661 特開2016-167213号公報JP2016-167213A

特許文献1に開示された技術では、自らの情報処理装置の温度が正常であるが、他の情報処理装置の発熱により、自らの情報処理装置の電源ファンが高速になった原因を特定することが困難である。また、特許文献2に開示された技術では、エンクロージャが故障してから管理対象のブレードを割り当てるため、発熱の影響を受けないブレードが割り当てられることがある。この場合もやはり原因の特定が困難である。 In the technology disclosed in Patent Document 1, the temperature of the own information processing apparatus is normal, but the cause of the power fan of the own information processing apparatus becoming faster due to heat generation of another information processing apparatus is to be determined. is difficult. Furthermore, in the technique disclosed in Patent Document 2, blades to be managed are assigned after the enclosure fails, so blades that are not affected by heat generation may be assigned. In this case as well, it is difficult to identify the cause.

このように、上述した関連技術では、発熱による障害の原因の特定が困難になるという課題があった。 As described above, the related technology described above has a problem in that it becomes difficult to identify the cause of a failure due to heat generation.

そこでこの発明は、発熱による障害の原因の特定が容易となる管理装置、制御方法、及びプログラムを提供することを目的としている。 SUMMARY OF THE INVENTION Therefore, an object of the present invention is to provide a management device, a control method, and a program that make it easy to identify the cause of failures caused by heat generation.

本発明の態様によれば、管理装置は、自らが搭載された情報処理装置と隣接する情報処理装置の温度情報を取得する取得手段であって、隣接する情報処理装置から温度異常を示す信号を受信すると、アサートされたフラグに応じて温度情報の取得を開始し、隣接する情報処理装置から温度が正常に戻ったことを示す信号を受信すると、デアサートされたフラグに応じて温度情報の取得を終了する取得手段と、前記取得手段によって取得された温度情報を記録する記録手段と、を備える According to one aspect of the present invention, the management device is an acquisition unit that acquires temperature information of an information processing device adjacent to an information processing device in which the management device is installed, and the management device receives a signal indicating temperature abnormality from the adjacent information processing device. When it receives a signal indicating that the temperature has returned to normal from the adjacent information processing device, it starts acquiring temperature information according to the asserted flag, and when it receives a signal from the adjacent information processing device indicating that the temperature has returned to normal, it starts acquiring temperature information according to the deasserted flag. and recording means for recording the temperature information acquired by the acquisition means .

本発明の別の態様によれば、制御方法は、自らが搭載された情報処理装置と隣接する情報処理装置の温度情報を取得することであって、隣接する情報処理装置から温度異常を示す信号を受信すると、アサートされたフラグに応じて温度情報の取得を開始し、隣接する情報処理装置から温度が正常に戻ったことを示す信号を受信すると、デアサートされたフラグに応じて温度情報の取得を終了し、取得された温度情報を記録する。 According to another aspect of the present invention, the control method is to obtain temperature information of an information processing device adjacent to the information processing device in which the control method is mounted, the control method including receiving a signal indicating temperature abnormality from the adjacent information processing device. When it receives a signal indicating that the temperature has returned to normal from the adjacent information processing device, it starts acquiring temperature information according to the asserted flag, and when it receives a signal from the adjacent information processing device indicating that the temperature has returned to normal, it starts acquiring temperature information according to the deasserted flag. and record the obtained temperature information.

本発明のの態様によれば、プログラムは、情報処理装置を管理する管理装置のコンピュータを、自らが搭載された情報処理装置と隣接する情報処理装置の温度情報を取得する取得手段であって、隣接する情報処理装置から温度異常を示す信号を受信すると、アサートされたフラグに応じて温度情報の取得を開始し、隣接する情報処理装置から温度が正常に戻ったことを示す信号を受信すると、デアサートされたフラグに応じて温度情報の取得を終了する取得手段、前記取得手段によって取得された温度情報を記録する記録手段、として機能させる According to another aspect of the present invention, the program is an acquisition means for causing a computer of a management device that manages an information processing device to acquire temperature information of an information processing device in which the computer is installed and an adjacent information processing device. When a signal indicating temperature abnormality is received from an adjacent information processing device, the acquisition of temperature information is started according to the asserted flag, and when a signal indicating that the temperature has returned to normal is received from an adjacent information processing device. , an acquisition means for terminating the acquisition of temperature information according to the deasserted flag, and a recording means for recording the temperature information acquired by the acquisition means .

本発明によれば、発熱による障害の原因の特定が容易となる管理装置、制御方法、及びプログラムを提供することができる。 According to the present invention, it is possible to provide a management device, a control method, and a program that make it easy to identify the cause of a failure due to heat generation.

本発明の実施形態のBMCの構成を示すブロック図である。FIG. 2 is a block diagram showing the configuration of a BMC according to an embodiment of the present invention. 通信接続例を示す図である。FIG. 3 is a diagram showing an example of communication connection. 通信接続例を示す図である。FIG. 3 is a diagram showing an example of communication connection. BMCの初期化時の処理の流れを示すフローチャートである。3 is a flowchart showing the flow of processing when initializing BMC. BMCが温度異常信号を受信した場合の処理の流れを示すフローチャートである。It is a flowchart which shows the flow of processing when BMC receives a temperature abnormality signal. 管理装置の最小構成を示す図である。It is a diagram showing the minimum configuration of a management device.

以下、本発明の一実施形態によるBMCを図面を参照して説明する。 Hereinafter, a BMC according to an embodiment of the present invention will be described with reference to the drawings.

図1は実施形態によるBMC100の構成を示すブロック図である。BMC100は、管理装置と呼ばれることがある。また、BMC100は、自らが搭載された情報処理装置を管理する。本実施形態では、情報処理装置をサーバとして説明する。BMC100は、信号送受信部101、取得部102、記録部103、温度検出部104、および装置情報記憶部140で構成される。 FIG. 1 is a block diagram showing the configuration of a BMC 100 according to an embodiment. BMC 100 is sometimes called a management device. Further, the BMC 100 manages the information processing device in which it is installed. In this embodiment, an information processing device will be described as a server. The BMC 100 includes a signal transmission/reception section 101, an acquisition section 102, a recording section 103, a temperature detection section 104, and a device information storage section 140.

信号送受信部101は、他のサーバから送信される各種信号を受信したり、他のサーバに各種信号を送信する。本実施形態において、他のサーバとは、自らのサーバに熱により影響を与えるサーバであって、例えば自らと同じラック内に設けられた上下または左右で隣接するサーバが挙げられる。以下の説明において、特に断らない限り、「サーバ」は他のサーバを示すものとする。 The signal transmitting/receiving unit 101 receives various signals transmitted from other servers and transmits various signals to other servers. In this embodiment, another server is a server that affects its own server by heat, and includes, for example, a server that is adjacent vertically or horizontally provided in the same rack as itself. In the following description, unless otherwise specified, "server" refers to another server.

信号送受信部101が受信する信号には、温度異常を示す信号(以下、「温度異常信号」ともいう)や、温度情報を示す信号(以下、「温度信号」ともいう)、温度異常の状態から温度が正常に戻ったことを示す信号(以下、「正常復帰信号」ともいう)がある。 The signals received by the signal transmitting/receiving unit 101 include a signal indicating temperature abnormality (hereinafter also referred to as "temperature abnormality signal"), a signal indicating temperature information (hereinafter also referred to as "temperature signal"), and a signal indicating temperature abnormality. There is a signal indicating that the temperature has returned to normal (hereinafter also referred to as a "normal return signal").

取得部102は、サーバの温度情報を取得する。取得部102は、サーバから温度異常信号を受信すると温度情報の取得を開始する。取得部102は、隣接するサーバから正常復帰信号を受信すると温度情報の取得を終了する。記録部103は、取得部102によって取得された温度情報を記録する。温度情報の記憶先は、装置情報記憶部140である。温度情報は、サーバの温度を少なくとも含む。温度の単位は、例えば℃であり、温度が50℃の場合の温度情報は50を示す情報である。本実施形態では、温度情報は、温度の他に、温度が検出された日時を示す検出日時情報を含む。また、取得部102は、例えば1分間隔で温度情報を取得する。 The acquisition unit 102 acquires temperature information of the server. The acquisition unit 102 starts acquiring temperature information upon receiving the temperature abnormality signal from the server. When the acquisition unit 102 receives a normal return signal from an adjacent server, it finishes acquiring the temperature information. The recording unit 103 records the temperature information acquired by the acquisition unit 102. The temperature information is stored in the device information storage section 140. The temperature information includes at least the temperature of the server. The unit of temperature is, for example, °C, and the temperature information when the temperature is 50 °C is information indicating 50. In this embodiment, the temperature information includes, in addition to the temperature, detection date and time information indicating the date and time when the temperature was detected. Further, the acquisition unit 102 acquires temperature information at intervals of, for example, one minute.

温度検出部104は、自らのサーバの温度を検出する。検出された温度に応じて、信号送受信部101は温度異常信号、温度信号、および正常復帰信号などを送信する。 The temperature detection unit 104 detects the temperature of its own server. Depending on the detected temperature, the signal transmitting/receiving unit 101 transmits a temperature abnormality signal, a temperature signal, a normal return signal, and the like.

装置情報記憶部140は、サーバごとにサーバ関連情報150-1、…、150-nが記憶される。図1の例では、サーバがn個ある場合を示している。例えば、サーバが上下の2つのみの場合は、サーバ関連情報150-1、150-2が記憶される。以下の説明において、サーバ関連情報150-1、…、150-nのそれぞれを特に区別しない場合には、サーバ関連情報150と表現することがある。 The device information storage unit 140 stores server related information 150-1, . . . , 150-n for each server. The example in FIG. 1 shows a case where there are n servers. For example, if there are only two servers, upper and lower, server related information 150-1 and 150-2 are stored. In the following description, the server-related information 150-1, . . . , 150-n may be expressed as server-related information 150 when not particularly distinguished from each other.

サーバ関連情報150は、サーバ識別情報151、温度テーブル152、取得識別フラグ153を含む。サーバ識別情報は、サーバを一意に識別する情報である。サーバ識別情報は、例えばサーバのIPアドレスや号機番号である。温度テーブル152は、サーバの温度情報を記憶するテーブルである。温度テーブルは、温度情報が取得された日時と、検出日時と、温度とが記録される。以下の説明では、サーバ識別情報をIPアドレスとして説明するが、号機番号であってもよいし、IPアドレスと号機番号の両方であってもよい。BMC100は、サーバ関連情報150を他装置(例えば、サーバを管理する管理サーバなど)に出力可能である。これにより他装置では、サーバ関連情報150を提供するサーバとは異なるサーバの温度情報を取得できる。なお、装置情報記憶部140には、自らのサーバ関連情報150が設けられる。したがって、自らの温度情報も記録される。 The server related information 150 includes server identification information 151, a temperature table 152, and an acquisition identification flag 153. Server identification information is information that uniquely identifies a server. The server identification information is, for example, the IP address or machine number of the server. The temperature table 152 is a table that stores temperature information of the server. The temperature table records the date and time when temperature information was acquired, the date and time of detection, and the temperature. In the following explanation, the server identification information will be explained as an IP address, but it may be a machine number or both an IP address and a machine number. BMC 100 can output server-related information 150 to other devices (for example, a management server that manages servers). This allows other devices to obtain temperature information of a server different from the server that provides the server-related information 150. Note that the device information storage section 140 is provided with its own server-related information 150. Therefore, its own temperature information is also recorded.

取得識別フラグ153は、サーバ識別情報で特定されるサーバから、現在温度情報を取得中か否かを示すフラグである。取得識別フラグ153がアサートされている場合には、現在温度情報を取得中であることを示す。 The acquisition identification flag 153 is a flag indicating whether temperature information is currently being acquired from the server specified by the server identification information. When the acquisition identification flag 153 is asserted, it indicates that temperature information is currently being acquired.

上記構成において、サーバが稼働中、サーバに設けられた温度センサで温度遷移が発生し、かつその温度が閾値を超えた場合、このサーバのBMCは、他のサーバのBMCに対し、温度異常信号を送信する。上記閾値は、例えば温度センサに設定された警告や異常の閾値より低めに設定された閾値や、FAN制御フローで設定された回転数変更用温度閾値などである。 In the above configuration, when a temperature transition occurs in the temperature sensor installed on the server while the server is in operation and the temperature exceeds the threshold, the BMC of this server sends a temperature abnormality signal to the BMC of other servers. Send. The threshold value is, for example, a threshold value set lower than a warning or abnormality threshold value set in a temperature sensor, or a temperature threshold value for changing the rotation speed set in a FAN control flow.

信号送受信部101は、温度異常信号を受信すると、取得識別フラグ153をアサートする。信号送受信部101は、正常復帰信号を受信すると、取得識別フラグ153をデアサートする。このとき、温度異常信号を送信したサーバのIPアドレスがわかるため、信号送受信部101は、装置情報記憶部140に記憶されたサーバ識別情報151にもとづき、温度異常信号を送信したサーバを特定する。 When the signal transmitting/receiving unit 101 receives the temperature abnormality signal, it asserts the acquisition identification flag 153. Upon receiving the normal return signal, the signal transmitting/receiving unit 101 deasserts the acquisition identification flag 153. At this time, since the IP address of the server that transmitted the temperature abnormality signal is known, the signal transmission/reception unit 101 identifies the server that transmitted the temperature abnormality signal based on the server identification information 151 stored in the device information storage unit 140.

取得部102は、特定されたサーバにアクセスし、温度情報を取得する。記録部103は、取得されたサーバに対応するサーバ関連情報の温度テーブル152に、取得した温度情報(取得日時、検出日時、温度)を記録する。このように記録された温度情報を他装置が取得することで、取得日時、検出日時、温度が得られるため、自らの発熱によるものか、それとも隣接するサーバによる発熱かを容易に判断できることから、発熱による障害の原因の特定が容易となる。 The acquisition unit 102 accesses the specified server and acquires temperature information. The recording unit 103 records the acquired temperature information (date and time of acquisition, date and time of detection, and temperature) in a temperature table 152 of server-related information corresponding to the acquired server. By having another device acquire the temperature information recorded in this way, the date and time of acquisition, date and time of detection, and temperature can be obtained, making it easy to determine whether the heat is generated by the device itself or by an adjacent server. This makes it easier to identify the cause of problems caused by heat.

なお、温度テーブル152に記録可能な温度情報数を超えた場合、記録部103は上書きしてもよい。上書きの例として、検出日時が最も古いものの温度情報だけは上書きせず残しておき、他の温度情報を上書き対象とする方法がある。このように検出日時が最も古いものの温度情報を残すことで、いつから異常が検出されたかを判定可能となる。 Note that if the number of temperature information that can be recorded in the temperature table 152 is exceeded, the recording unit 103 may overwrite the temperature information. As an example of overwriting, there is a method in which only the temperature information with the oldest detection date and time is left without being overwritten, and other temperature information is targeted for overwriting. In this way, by leaving the temperature information of the one with the oldest detection date and time, it becomes possible to determine when the abnormality was detected.

次に、BMC100の2つの通信接続例について説明する。図2は、通信接続例(その1)を示す図である。図2には、ラック500と、サーバ300-1、…、300-N-1、300-N、300-N+1と、BMC100-1、…、100-N-1、100-N、100-N+1と、有線通信部200-1、…、200-N-1、200-N、200-N+1と、通信線400とが示されている。 Next, two communication connection examples of the BMC 100 will be described. FIG. 2 is a diagram showing an example (part 1) of communication connections. FIG. 2 shows a rack 500, servers 300-1, ..., 300-N-1, 300-N, 300-N+1, and BMCs 100-1, ..., 100-N-1, 100-N, 100-N+1. , wired communication units 200-1, . . . , 200-N-1, 200-N, 200-N+1, and a communication line 400.

kを1~N+1とするとき、サーバ300-kにBMC100-kと有線通信部200-kとが搭載される。有線通信部200-kは、通信線400により互いの通信部に接続可能である。以下の説明において、サーバ300-1、…、300-N-1、300-N、300-N+1を特に区別しない場合には、サーバ300と表現することがある。BMC100-1、…、100-N-1、100-N、100-N+1を特に区別しない場合には、BMC100と表現することがある。有線通信部200-1、…、200-N-1、200-N、200-N+1を特に区別しない場合には、有線通信部200と表現することがある。有線通信部200は、例えばマネージメント用LANコネクタである。 When k is 1 to N+1, a BMC 100-k and a wired communication unit 200-k are installed in the server 300-k. The wired communication units 200-k can be connected to each other via communication lines 400. In the following description, the servers 300-1, . . . , 300-N-1, 300-N, and 300-N+1 may be expressed as servers 300 unless they are particularly distinguished. BMC100-1, . . . , 100-N-1, 100-N, 100-N+1 may be expressed as BMC100 when no particular distinction is made. The wired communication units 200-1, . . . , 200-N-1, 200-N, and 200-N+1 may be referred to as the wired communication unit 200 if no particular distinction is made. The wired communication unit 200 is, for example, a management LAN connector.

通信接続例(その1)は、サーバ300がラック500に設けられ、ラック管理サーバが設けられている場合に好適な通信接続例である。ラック管理サーバにはラックの構成やラックのグループ構成や各サーバ300のIPアドレスなどが管理されている。 The communication connection example (part 1) is a suitable communication connection example when the server 300 is provided in the rack 500 and a rack management server is provided. The rack management server manages rack configurations, rack group configurations, IP addresses of each server 300, and the like.

BMC同士が通信線400を介してマネージメントLANを構成可能な場合、BMC100は初期化時において、上下に隣接するサーバのIPアドレスを取得して、サーバ識別情報に記録する。例えば、BMC100-Nは、初期化時において、ラック管理サーバから、上に位置するBMC100-N-1のIPアドレスと、下に位置するBMC100-N+1のIPアドレスとを取得して、サーバ識別情報に記録する。ラック管理サーバは、予め、各サーバ300の位置関係が記録されている。ラック管理サーバは、記録されている位置関係に応じて、上に位置するBMC100のIPアドレスと、下に位置するBMC100のIPアドレスを提供する。このように、ラック管理サーバから上に位置するBMC100のIPアドレスと、下に位置するBMC100のIPアドレスとを取得する場合において、「隣接する情報処理装置(サーバ)」とは、ラック管理サーバから取得したIPアドレスのBMCが搭載された情報処理装置である。 If the BMCs can configure a management LAN via the communication line 400, the BMC 100 acquires the IP addresses of vertically adjacent servers and records them in the server identification information at the time of initialization. For example, at the time of initialization, the BMC100-N obtains the IP address of the upper BMC100-N-1 and the lower BMC100-N+1 from the rack management server, and obtains the server identification information. to be recorded. In the rack management server, the positional relationship of each server 300 is recorded in advance. The rack management server provides the IP address of the BMC 100 located above and the IP address of the BMC 100 located below, depending on the recorded positional relationship. In this way, when acquiring the IP address of the BMC 100 located above and the IP address of the BMC 100 located below from the rack management server, "adjacent information processing device (server)" means This is an information processing device equipped with a BMC of the acquired IP address.

サーバ300が稼働中に、例えばサーバ300-Nの温度センサで温度遷移が検出され、その温度が閾値を超えた場合、温度遷移がなされたBMC100-Nは、有線通信部200-Nから隣接サーバであるサーバ300-N-1の有線通信部200-N-1を経由して、サーバ300-N-1のBMC100-N-1に温度異常信号を送信する。同様に、BMC100-Nは、有線通信部200-Nから隣接サーバであるサーバ300-N+1の有線通信部200-N+1を経由して、サーバ300-N-1のBMC100-N+1に温度異常信号を送信する。 For example, if a temperature change is detected by the temperature sensor of the server 300-N while the server 300 is in operation, and the temperature exceeds a threshold value, the BMC 100-N that has experienced the temperature change is sent to the adjacent server from the wired communication unit 200-N. A temperature abnormality signal is transmitted to the BMC 100-N-1 of the server 300-N-1 via the wired communication unit 200-N-1 of the server 300-N-1. Similarly, the BMC 100-N sends a temperature abnormality signal from the wired communication unit 200-N to the BMC 100-N+1 of the server 300-N-1 via the wired communication unit 200-N+1 of the server 300-N+1, which is an adjacent server. Send.

サーバ300-N-1のBMC100-N-1は、温度異常信号を受信すると、サーバ識別情報から温度異常信号を送信したサーバの特定を行い、該当するサーバのサーバ関連情報150の取得識別フラグ153をアサートする。同様に、サーバ300-N+1のBMC100-N+1は、温度異常信号を受信すると、サーバ識別情報から温度異常信号を送信したサーバの特定を行い、該当するサーバのサーバ関連情報150の取得識別フラグ153をアサートする。 When the BMC 100-N-1 of the server 300-N-1 receives the temperature abnormality signal, it identifies the server that sent the temperature abnormality signal from the server identification information, and obtains the acquisition identification flag 153 of the server related information 150 of the corresponding server. Assert. Similarly, upon receiving the temperature abnormality signal, the BMC 100-N+1 of the server 300-N+1 identifies the server that sent the temperature abnormality signal from the server identification information, and sets the acquisition identification flag 153 of the server related information 150 of the corresponding server. assert.

サーバ300-N-1のBMC100-N-1は、温度異常信号を送信したBMC100-Nにアクセスし、温度情報を取得し、取得した温度情報(取得日時、検出日時、温度)を記録する。同様に、サーバ300-N+1のBMC100-N+1は、温度異常信号を送信したBMC100-Nにアクセスし、温度情報を取得し、取得した温度情報(取得日時、検出日時、温度)を記録する。 The BMC 100-N-1 of the server 300-N-1 accesses the BMC 100-N that sent the temperature abnormality signal, acquires temperature information, and records the acquired temperature information (date and time of acquisition, date and time of detection, and temperature). Similarly, the BMC 100-N+1 of the server 300-N+1 accesses the BMC 100-N that sent the temperature abnormality signal, acquires temperature information, and records the acquired temperature information (date and time of acquisition, date and time of detection, and temperature).

サーバ300-Nの温度センサで温度遷移が検出され、その温度が閾値以下となった場合、温度遷移がなされたBMC100-Nは、有線通信部200-Nから隣接サーバであるサーバ300-N-1の有線通信部200-N-1を経由して、サーバ300-N-1のBMC100-N-1に正常復帰信号を送信する。同様に、BMC100-Nは、有線通信部200-Nから隣接サーバであるサーバ300-N+1の有線通信部200-N+1を経由して、サーバ300-N-1のBMC100-N+1に正常復帰信号を送信する。 When a temperature change is detected by the temperature sensor of the server 300-N and the temperature becomes below the threshold value, the BMC 100-N where the temperature change has occurred is sent from the wired communication unit 200-N to the adjacent server 300-N-. A normal return signal is sent to the BMC 100-N-1 of the server 300-N-1 via the wired communication unit 200-N-1 of the server 300-N-1. Similarly, the BMC 100-N sends a normal return signal from the wired communication unit 200-N to the BMC 100-N+1 of the server 300-N-1 via the wired communication unit 200-N+1 of the server 300-N+1, which is an adjacent server. Send.

サーバ300-N-1のBMC100-N-1は、正常復帰信号を受信すると、サーバ識別情報から正常復帰信号を送信したサーバの特定を行い、該当するサーバのサーバ関連情報150の取得識別フラグ153をデアサートする。同様に、サーバ300-N+1のBMC100-N+1は、正常復帰信号を受信すると、サーバ識別情報から正常復帰信号を送信したサーバの特定を行い、該当するサーバのサーバ関連情報150の取得識別フラグ153をデアサートする。 When the BMC 100-N-1 of the server 300-N-1 receives the normal return signal, it identifies the server that sent the normal return signal from the server identification information, and acquires the server-related information 150 of the corresponding server using the acquisition identification flag 153. deassert. Similarly, upon receiving the normal return signal, the BMC 100-N+1 of the server 300-N+1 identifies the server that sent the normal return signal from the server identification information, and sets the acquisition identification flag 153 of the server related information 150 of the corresponding server. Deassert.

図3は、通信接続例(その2)を示す図である。図3に示される通信接続例は、図2に示される通信接続例に加え、近距離無線(例えばBluetooth(登録商標)など)可能な無線通信部600-1、…、600-N-1、600-N、600-N+1を備える例である。無線通信部600-1、…、600-N-1、600-N、600-N+1を特に区別しない場合には、無線通信部600と表現することがある。 FIG. 3 is a diagram showing an example (part 2) of communication connections. In addition to the communication connection example shown in FIG. 2, the communication connection example shown in FIG. 3 includes wireless communication units 600-1, . This is an example including 600-N and 600-N+1. When the wireless communication units 600-1, . . . , 600-N-1, 600-N, and 600-N+1 are not particularly distinguished, they may be expressed as the wireless communication unit 600.

通信接続例(その2)は、ラック管理サーバが設けられていない場合などに好適な通信接続例である。または、通信接続例(その2)ではサーバ300がラックに設けられているが、サーバがラックに設けられていない場合などにも好適な通信接続例である。したがって、図3ではラック500が記載されているが、ラック500はなくてもよい。 The communication connection example (part 2) is a communication connection example suitable for cases where a rack management server is not provided. Alternatively, in the communication connection example (part 2), the server 300 is installed in a rack, but this communication connection example is also suitable for cases where the server is not installed in a rack. Therefore, although the rack 500 is shown in FIG. 3, the rack 500 may not be provided.

BMC100が無線通信部600を備え、無線通信部600を介して隣接するサーバ300のBMC100と通信可能な場合、BMC100は初期化時において、上下に隣接するサーバのIPアドレスを取得して、サーバ識別情報に記録する。例えば、BMC100-Nは、初期化時において、上に位置するBMC100-N-1のIPアドレスと、下に位置するBMC100-N+1のIPアドレスとを取得して、サーバ識別情報に記録する。このように、通信接続例(その2)の場合、「隣接する情報処理装置(サーバ)」とは、無線通信部600が通信可能なBMCが搭載されたサーバである。 If the BMC 100 includes a wireless communication unit 600 and can communicate with the BMC 100 of an adjacent server 300 via the wireless communication unit 600, the BMC 100 acquires the IP addresses of the vertically adjacent servers at the time of initialization and performs server identification. Record information. For example, at the time of initialization, the BMC 100-N acquires the IP address of the upper BMC 100-N-1 and the IP address of the lower BMC 100-N+1, and records them in the server identification information. As described above, in the case of the communication connection example (part 2), the "adjacent information processing device (server)" is a server equipped with a BMC with which the wireless communication unit 600 can communicate.

サーバ300が稼働中に、例えばサーバ300-Nの温度センサで温度遷移が検出され、その温度が閾値を超えた場合、温度遷移がなされたBMC100-Nは、無線通信部600-Nから隣接サーバであるサーバ300-N-1の無線通信部600-N-1を経由して、サーバ300-N-1のBMC100-N-1に温度異常信号を送信する。同様に、BMC100-Nは、無線通信部600-Nから隣接サーバであるサーバ300-N+1の無線通信部600-N+1を経由して、サーバ300-N-1のBMC100-N+1に温度異常信号を送信する。 For example, if a temperature change is detected by the temperature sensor of the server 300-N while the server 300 is in operation, and the temperature exceeds a threshold, the BMC 100-N that has undergone the temperature change will be sent to the adjacent server from the wireless communication unit 600-N. A temperature abnormality signal is transmitted to the BMC 100-N-1 of the server 300-N-1 via the wireless communication unit 600-N-1 of the server 300-N-1. Similarly, the BMC 100-N sends a temperature abnormality signal from the wireless communication unit 600-N to the BMC 100-N+1 of the server 300-N-1 via the wireless communication unit 600-N+1 of the server 300-N+1, which is an adjacent server. Send.

サーバ300-N-1のBMC100-N-1は、温度異常信号を受信すると、サーバ識別情報から温度異常信号を送信したサーバの特定を行い、該当するサーバのサーバ関連情報150の取得識別フラグ153をアサートする。同様に、サーバ300-N+1のBMC100-N+1は、温度異常信号を受信すると、サーバ識別情報から温度異常信号を送信したサーバの特定を行い、該当するサーバのサーバ関連情報150の取得識別フラグ153をアサートする。 When the BMC 100-N-1 of the server 300-N-1 receives the temperature abnormality signal, it identifies the server that sent the temperature abnormality signal from the server identification information, and obtains the acquisition identification flag 153 of the server related information 150 of the corresponding server. Assert. Similarly, upon receiving the temperature abnormality signal, the BMC 100-N+1 of the server 300-N+1 identifies the server that sent the temperature abnormality signal from the server identification information, and sets the acquisition identification flag 153 of the server related information 150 of the corresponding server. assert.

サーバ300-N-1のBMC100-N-1は、温度異常信号を送信したBMC100-Nにアクセスし、温度情報を取得し、取得した温度情報(取得日時、検出日時、温度)を記録する。同様に、サーバ300-N+1のBMC100-N+1は、温度異常信号を送信したBMC100-Nにアクセスし、温度情報を取得し、取得した温度情報(取得日時、検出日時、温度)を記録する。 The BMC 100-N-1 of the server 300-N-1 accesses the BMC 100-N that sent the temperature abnormality signal, acquires temperature information, and records the acquired temperature information (date and time of acquisition, date and time of detection, and temperature). Similarly, the BMC 100-N+1 of the server 300-N+1 accesses the BMC 100-N that sent the temperature abnormality signal, acquires temperature information, and records the acquired temperature information (date and time of acquisition, date and time of detection, and temperature).

サーバ300-Nの温度センサで温度遷移が検出され、その温度が閾値以下となった場合、温度遷移がなされたBMC100-Nは、無線通信部600-Nから隣接サーバであるサーバ300-N-1の無線通信部600-N-1を経由して、サーバ300-N-1のBMC100-N-1に正常復帰信号を送信する。同様に、BMC100-Nは、無線通信部600-Nから隣接サーバであるサーバ300-N+1の無線通信部600-N+1を経由して、サーバ300-N-1のBMC100-N+1に正常復帰信号を送信する。 When a temperature change is detected by the temperature sensor of the server 300-N and the temperature becomes equal to or lower than the threshold value, the BMC 100-N where the temperature change has occurred is sent from the wireless communication unit 600-N to the adjacent server 300-N-. A normal return signal is transmitted to the BMC 100-N-1 of the server 300-N-1 via the wireless communication unit 600-N-1 of the server 300-N-1. Similarly, the BMC 100-N sends a normal return signal from the wireless communication unit 600-N to the BMC 100-N+1 of the server 300-N-1 via the wireless communication unit 600-N+1 of the server 300-N+1, which is an adjacent server. Send.

サーバ300-N-1のBMC100-N-1は、正常復帰信号を受信すると、サーバ識別情報から正常復帰信号を送信したサーバの特定を行い、該当するサーバのサーバ関連情報150の取得識別フラグ153をデアサートする。同様に、サーバ300-N+1のBMC100-N+1は、正常復帰信号を受信すると、サーバ識別情報から正常復帰信号を送信したサーバの特定を行い、該当するサーバのサーバ関連情報150の取得識別フラグ153をデアサートする。 When the BMC 100-N-1 of the server 300-N-1 receives the normal return signal, it identifies the server that sent the normal return signal from the server identification information, and acquires the server-related information 150 of the corresponding server using the acquisition identification flag 153. deassert. Similarly, upon receiving the normal return signal, the BMC 100-N+1 of the server 300-N+1 identifies the server that sent the normal return signal from the server identification information, and sets the acquisition identification flag 153 of the server related information 150 of the corresponding server. Deassert.

次に、BMC100の処理の流れについて説明する。以下の説明において、「上位サーバ」とは、処理を実行するBMC100が搭載されたサーバに隣接するサーバのうちの上に位置するサーバを示す。例えば、図3において、処理を実行するBMC100が搭載されたサーバをサーバ300-Nとしたとき、上位サーバはサーバ300-N-1である。また、「下位サーバ」とは、処理を実行するBMC100が搭載されたサーバに隣接するサーバのうちの下に位置するサーバを示す。例えば、図3において、処理を実行するBMC100が搭載されたサーバをサーバ300-Nとしたとき、下位サーバはサーバ300-N+1である。また、以下のフローチャートでは、サーバ識別情報としてIPアドレスを取得しているが、上述したように、IPアドレスと号機番号を取得してもよい。 Next, the flow of processing of the BMC 100 will be explained. In the following description, the term "upper server" refers to a server located above the server adjacent to the server in which the BMC 100 that executes processing is installed. For example, in FIG. 3, when the server on which the BMC 100 that executes processing is installed is the server 300-N, the upper level server is the server 300-N-1. Further, the term "lower server" refers to a server located below among the servers adjacent to the server in which the BMC 100 that executes processing is mounted. For example, in FIG. 3, when the server on which the BMC 100 that executes processing is installed is the server 300-N, the lower server is the server 300-N+1. Further, in the flowchart below, an IP address is acquired as the server identification information, but as described above, an IP address and a machine number may be acquired.

図4は、BMC100の初期化時の処理の流れを示すフローチャートである。なお、初期化時とは、BMC100の電源投入時、またはリセット実行時である。 FIG. 4 is a flowchart showing the process flow when initializing the BMC 100. Note that the initialization time is when the BMC 100 is powered on or when a reset is executed.

BMC100は、自らが搭載されたサーバ300に無線通信部600が搭載されているか否かを判定する(ステップS101)。無線通信部600が搭載されていない場合には(ステップS101:NO)、BMC100は、上位サーバのIPアドレスを取得する(ステップS102)。BMC100は、下位サーバのIPアドレスを取得する(ステップS103)。 The BMC 100 determines whether or not the wireless communication unit 600 is installed in the server 300 in which the BMC 100 is installed (step S101). If the wireless communication unit 600 is not installed (step S101: NO), the BMC 100 acquires the IP address of the upper server (step S102). The BMC 100 acquires the IP address of the lower server (step S103).

なお、上記ステップS102において、上位サーバのIPアドレスが取得できない可能性がある。例えば、自らが搭載されたサーバが最上位であれば、上位サーバは存在しない。同様に、上記ステップS103において、下位サーバのIPアドレスが取得できない可能性がある。例えば、自らが搭載されたサーバが最下位であれば、下位サーバは存在しない。このように、上位サーバまたは下位サーバが存在しない場合には、IPアドレスをNULLとするなどして、取得できなかったことを判定可能なIPアドレスとする。なお、ステップS102とステップS103で取得したIPアドレスを保持するメモリを最初からNULLで初期化していてもよい。 Note that there is a possibility that the IP address of the higher-level server cannot be obtained in step S102. For example, if the server on which it is installed is the highest level server, there is no higher level server. Similarly, in step S103 above, there is a possibility that the IP address of the lower server cannot be obtained. For example, if the server on which it is installed is the lowest level server, there are no lower level servers. In this way, if there is no upper server or lower server, the IP address is set to NULL, so that it can be determined that the server could not be acquired. Note that the memory that holds the IP addresses acquired in step S102 and step S103 may be initialized with NULL from the beginning.

BMC100は、取得した上位サーバのIPアドレスを、上位サーバに該当するサーバ関連情報150のサーバ識別情報に記録する(ステップS104)。BMC100は、取得した上位サーバのIPアドレスを、上位サーバに該当するサーバ関連情報150のサーバ識別情報に記録して(ステップS105)、処理を終了する。 The BMC 100 records the obtained IP address of the higher-level server in the server identification information of the server-related information 150 corresponding to the higher-level server (step S104). The BMC 100 records the obtained IP address of the higher-level server in the server identification information of the server-related information 150 corresponding to the higher-level server (step S105), and ends the process.

なお、上位サーバのIPアドレスがNULLの場合には、ステップS104でサーバ識別情報を記録することなく処理を終了する。下位サーバのIPアドレスがNULLの場合には、ステップS105でサーバ識別情報を記録することなく処理を終了する。 Note that if the IP address of the upper server is NULL, the process ends without recording the server identification information in step S104. If the IP address of the lower server is NULL, the process ends without recording the server identification information in step S105.

ステップS101において、無線通信部600が搭載されている場合には(ステップS101:YES)、BMC100は、上位サーバと無線通信可能か否かを判定する(ステップS106)。上位サーバと無線通信不可能な場合には(ステップS106:NO)、BMC100は、ステップS108に進む。上位サーバと無線通信可能な場合には(ステップS106:YES)、BMC100は、上位サーバのIPアドレスを取得する(ステップS107)。 In step S101, if the wireless communication unit 600 is installed (step S101: YES), the BMC 100 determines whether wireless communication with the host server is possible (step S106). If wireless communication with the host server is not possible (step S106: NO), the BMC 100 proceeds to step S108. If wireless communication is possible with the higher-level server (step S106: YES), the BMC 100 acquires the IP address of the higher-level server (step S107).

BMC100は、下位サーバと無線通信可能か否かを判定する(ステップS108)。下位サーバと無線通信不可能な場合には(ステップS108:NO)、BMC100は、上記ステップS104に進む。下位サーバと無線通信可能な場合には(ステップS108:YES)、BMC100は、下位サーバのIPアドレスを取得して(ステップS109)、上記ステップS104に進む。 The BMC 100 determines whether wireless communication with the lower-level server is possible (step S108). If wireless communication with the lower server is not possible (step S108: NO), the BMC 100 proceeds to step S104. If wireless communication is possible with the lower server (step S108: YES), the BMC 100 acquires the IP address of the lower server (step S109), and proceeds to step S104.

図5は、BMC100が温度異常信号を受信した場合の処理の流れを示すフローチャートである。BMC100が温度異常信号を受信すると、BMC100は、温度異常信号の送信先が上位サーバか否かを判定する(ステップS201)。温度異常信号の送信先が上位サーバではない場合には(ステップS201:NO)、BMC100は、ステップS203に進む。温度異常信号の送信先が上位サーバである場合には(ステップS201:YES)、BMC100は、上位サーバのサーバ関連情報150の取得識別フラグ153をアサートする(ステップS202)。 FIG. 5 is a flowchart showing the flow of processing when the BMC 100 receives a temperature abnormality signal. When the BMC 100 receives the temperature abnormality signal, the BMC 100 determines whether the transmission destination of the temperature abnormality signal is an upper server (step S201). If the destination of the temperature abnormality signal is not the upper server (step S201: NO), the BMC 100 proceeds to step S203. If the destination of the temperature abnormality signal is the higher-level server (step S201: YES), the BMC 100 asserts the acquisition identification flag 153 of the server-related information 150 of the higher-level server (step S202).

BMC100は、温度異常信号の送信先が下位サーバか否かを判定する(ステップS203)。温度異常信号の送信先が下位サーバではない場合には(ステップS203:NO)、BMC100は、ステップS205に進む。温度異常信号の送信先が下位サーバである場合には(ステップS203:YES)、BMC100は、下位サーバのサーバ関連情報150の取得識別フラグ153をアサートする(ステップS204)。 The BMC 100 determines whether the destination of the temperature abnormality signal is a lower-level server (step S203). If the destination of the temperature abnormality signal is not the lower server (step S203: NO), the BMC 100 proceeds to step S205. If the destination of the temperature abnormality signal is the lower server (step S203: YES), the BMC 100 asserts the acquisition identification flag 153 of the server related information 150 of the lower server (step S204).

BMC100は、上位サーバの取得識別フラグ153がアサートされているか否かを判定する(ステップS205)。上位サーバの取得識別フラグ153がアサートされていない場合には(ステップS205:NO)、BMC100は、ステップS208に進む。上位サーバの取得識別フラグ153がアサートされている場合には(ステップS205:YES)、BMC100は、上位サーバのBMCにアクセスし、温度情報を取得する(ステップS206)。BMC100は、取得した温度情報(取得日時、検出日時、温度)を、上位サーバのサーバ関連情報150の温度テーブルに記録する(ステップS207)。 The BMC 100 determines whether the acquisition identification flag 153 of the higher-level server is asserted (step S205). If the acquisition identification flag 153 of the upper server is not asserted (step S205: NO), the BMC 100 proceeds to step S208. If the acquisition identification flag 153 of the higher-level server is asserted (step S205: YES), the BMC 100 accesses the BMC of the higher-level server and acquires temperature information (step S206). The BMC 100 records the acquired temperature information (date and time of acquisition, date and time of detection, temperature) in the temperature table of the server-related information 150 of the host server (step S207).

BMC100は、下位サーバの取得識別フラグ153がアサートされているか否かを判定する(ステップS208)。下位サーバの取得識別フラグ153がアサートされていない場合には(ステップS208:NO)、BMC100は、ステップS211に進む。上位サーバの取得識別フラグ153がアサートされている場合には(ステップS208:YES)、BMC100は、下位サーバのBMCにアクセスし、温度情報を取得する(ステップS209)。BMC100は、取得した温度情報(取得日時、検出日時、温度)を、下位サーバのサーバ関連情報150の温度テーブルに記録する(ステップS210)。 The BMC 100 determines whether the acquisition identification flag 153 of the lower server is asserted (step S208). If the lower server acquisition identification flag 153 is not asserted (step S208: NO), the BMC 100 proceeds to step S211. If the acquisition identification flag 153 of the upper server is asserted (step S208: YES), the BMC 100 accesses the BMC of the lower server and acquires temperature information (step S209). The BMC 100 records the acquired temperature information (date and time of acquisition, date and time of detection, temperature) in the temperature table of the server related information 150 of the lower server (step S210).

BMC100は、正常復帰信号を受信したか否かを判定する(ステップS211)。正常復帰信号を受信していない場合には(ステップS211:NO)、BMC100は、ステップS205に戻る。正常復帰信号を受信した場合には(ステップS211:YES)、BMC100は、正常復帰信号の送信先が上位サーバか否かを判定する(ステップS212)。正常復帰信号の送信先が上位サーバではない場合には(ステップS212:NO)、BMC100は、ステップS214に進む。正常復帰信号の送信先が上位サーバである場合には(ステップS212:YES)、BMC100は、上位サーバのサーバ関連情報150の取得識別フラグ153をデアサートする(ステップS213)。 The BMC 100 determines whether a normal return signal has been received (step S211). If the normal return signal has not been received (step S211: NO), the BMC 100 returns to step S205. If the normal return signal is received (step S211: YES), the BMC 100 determines whether the destination of the normal return signal is an upper server (step S212). If the destination of the normal return signal is not the upper server (step S212: NO), the BMC 100 proceeds to step S214. If the destination of the normal return signal is the higher-level server (step S212: YES), the BMC 100 deasserts the acquisition identification flag 153 of the server-related information 150 of the higher-level server (step S213).

BMC100は、正常復帰信号の送信先が下位サーバか否かを判定する(ステップS214)。正常復帰信号の送信先が下位サーバではない場合には(ステップS214:NO)、BMC100は、ステップS216に進む。正常復帰信号の送信先が下位サーバである場合には(ステップS214:YES)、BMC100は、下位サーバのサーバ関連情報150の取得識別フラグ153をデアサートする(ステップS215)。 The BMC 100 determines whether the destination of the normal return signal is a lower server (step S214). If the destination of the normal return signal is not the lower server (step S214: NO), the BMC 100 proceeds to step S216. If the destination of the normal return signal is the lower server (step S214: YES), the BMC 100 deasserts the acquisition identification flag 153 of the server related information 150 of the lower server (step S215).

BMC100は、いずれの取得識別フラグ153もデアサートされているか否かを判定する(ステップS216)。すなわち、上位サーバおよび下位サーバも正常か否かを判定する。デアサートされていない取得識別フラグ153がある場合には(ステップS216:NO)、BMC100は、ステップS205に進む。いずれの取得識別フラグ153もデアサートされている場合には(ステップS216:NO)、BMC100は、処理を終了する。 The BMC 100 determines whether any acquisition identification flag 153 is deasserted (step S216). That is, it is determined whether the upper server and lower server are also normal. If there is an acquisition identification flag 153 that has not been deasserted (step S216: NO), the BMC 100 proceeds to step S205. If any acquisition identification flag 153 is deasserted (step S216: NO), the BMC 100 ends the process.

以上説明したように、サーバ300が複数台設置された環境において、1つのサーバのサーバ関連情報150を取得するだけで、複数のサーバから温度情報を取得することなく、隣接するサーバ(例えば上位サーバや下位サーバなど)の温度情報を確認可能となる。また、温度情報から、異常に近い状態(例えば断続的に温度異常信号が送信されるなど)で動作をしていることも確認可能となる。これによりサーバ300の保守員やSE(System Engineer)の作業効率化や、サーバ技術者の調査効率化に貢献することができる。例えば、関連技術では、自らのサーバの温度は正常であるが、他のサーバの発熱により、自らのサーバの電源ファンが高速になった原因の特定は、非常に困難であり、また時間を要するものであった。こうした他のサーバから影響を受ける場合であっても、本実施形態により調査の効率化を図ることが可能となる。 As explained above, in an environment where multiple servers 300 are installed, by simply acquiring the server-related information 150 of one server, it is possible to obtain temperature information from adjacent servers (for example, a higher-level server) without acquiring temperature information from multiple servers. It is possible to check the temperature information of servers (low-level servers, etc.). Furthermore, from the temperature information, it is also possible to confirm that the device is operating in an almost abnormal state (for example, a temperature abnormality signal is transmitted intermittently). This can contribute to improving the work efficiency of maintenance personnel and SEs (System Engineers) of the server 300, and to improving the investigation efficiency of server engineers. For example, in related technology, the temperature of the own server is normal, but it is extremely difficult and time-consuming to identify the cause of the server's power fan speeding up due to heat generated by other servers. It was something. Even if the server is affected by such other servers, the present embodiment makes it possible to improve the efficiency of the investigation.

上述した実施形態では、サーバ関連情報の取得対象先として、上位サーバおよび下位サーバを例にしたが、これに限るものではない。例えば、ラックに設けられた全サーバ、さらには、マシンルームに設けられた全サーバをサーバ関連情報の取得対象先としてもよい。こうして得られたサーバ関連情報を元に、サーバを管理する管理サーバや空調システムとも連携し、マシンルームの空調などを管理してもよい。 In the above-described embodiment, the upper server and the lower server are used as examples of targets for obtaining server-related information, but the present invention is not limited to this. For example, all servers provided in a rack, or furthermore, all servers provided in a machine room may be the targets for obtaining server-related information. Based on the server-related information obtained in this way, it may also cooperate with a management server that manages the server and an air conditioning system to manage the air conditioning of the machine room.

以上説明した実施形態では、他のサーバの温度情報を取得するものであったが、温度以外にも他のサーバから影響を受けるものとして、塵や電力が挙げられる。したがって、BMCは、防塵センサから取得される情報や、電力センサから取得される情報を取得対象としてもよい。 In the embodiment described above, temperature information of other servers is acquired, but in addition to temperature, other factors that are influenced by other servers include dust and electric power. Therefore, the BMC may acquire information acquired from the dustproof sensor or information acquired from the power sensor.

図6は本実施形態による管理装置の最小構成を示す図である。本実施形態による管理装置1000は、取得手段1001、および記録手段1002を備えればよい。
取得手段1001は、自らの情報処理装置と隣接する情報処理装置の温度情報を取得する。記録手段1002は、取得手段1001によって取得された温度情報を記録する。
FIG. 6 is a diagram showing the minimum configuration of the management device according to this embodiment. The management device 1000 according to this embodiment may include an acquisition means 1001 and a recording means 1002.
The acquisition unit 1001 acquires temperature information of its own information processing device and an adjacent information processing device. Recording means 1002 records the temperature information acquired by acquisition means 1001.

上述の管理装置は内部に、コンピュータシステムを有している。そして、上述した処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。 The above-mentioned management device has a computer system inside. The above-described processing steps are stored in a computer-readable recording medium in the form of a program, and the above-mentioned processing is performed by reading and executing this program by the computer. Here, the computer-readable recording medium refers to a magnetic disk, a magneto-optical disk, a CD-ROM, a DVD-ROM, a semiconductor memory, and the like. Alternatively, this computer program may be distributed to a computer via a communication line, and the computer receiving the distribution may execute the program.

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。 Further, the program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in a transmission medium. Here, the "transmission medium" that transmits the program refers to a medium that has a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. Moreover, the above program may be for realizing a part of the above-mentioned functions. Furthermore, it may be a so-called difference file (difference program) that can realize the above-mentioned functions in combination with a program already recorded in the computer system.

101 信号送受信部
102 取得部
103 記録部
104 温度検出部
140 装置情報記憶部
150、150-1、150-n サーバ関連情報
151 サーバ識別情報
152 温度テーブル
153 取得識別フラグ
200、200-1、200-k、200-N 有線通信部
300、300-1、300-N、300-N-1 サーバ
400 通信線
500 ラック
600、600-1、600-N、600-N-1 無線通信部
1000 管理装置
1001 取得手段
1002 記録手段
101 Signal transmission/reception section 102 Acquisition section 103 Recording section 104 Temperature detection section 140 Device information storage section 150, 150-1, 150-n Server related information 151 Server identification information 152 Temperature table 153 Acquisition identification flag 200, 200-1, 200- k, 200-N Wired communication section 300, 300-1, 300-N, 300-N-1 Server 400 Communication line 500 Rack 600, 600-1, 600-N, 600-N-1 Wireless communication section 1000 Management device 1001 Acquisition means 1002 Recording means

Claims (3)

自らが搭載された情報処理装置と隣接する情報処理装置の温度情報を取得する取得手段であって、隣接する情報処理装置から温度異常を示す信号を受信すると、アサートされたフラグに応じて温度情報の取得を開始し、隣接する情報処理装置から温度が正常に戻ったことを示す信号を受信すると、デアサートされたフラグに応じて温度情報の取得を終了する取得手段と、
前記取得手段によって取得された温度情報を記録する記録手段と、
を備えた管理装置。
An acquisition means that acquires temperature information of an information processing device adjacent to the information processing device in which it is mounted, and when a signal indicating temperature abnormality is received from the adjacent information processing device, temperature information is acquired according to an asserted flag. an acquisition unit that starts acquiring the temperature information and, upon receiving a signal indicating that the temperature has returned to normal from an adjacent information processing device, finishes acquiring the temperature information in accordance with the deasserted flag;
recording means for recording temperature information acquired by the acquisition means;
A management device equipped with
自らが搭載された情報処理装置と隣接する情報処理装置の温度情報を取得することであって、隣接する情報処理装置から温度異常を示す信号を受信すると、アサートされたフラグに応じて温度情報の取得を開始し、隣接する情報処理装置から温度が正常に戻ったことを示す信号を受信すると、デアサートされたフラグに応じて温度情報の取得を終了し、
取得された温度情報を記録する、
制御方法。
The purpose is to acquire temperature information of an information processing device adjacent to the information processing device on which it is installed, and when a signal indicating a temperature abnormality is received from the adjacent information processing device, temperature information is acquired according to an asserted flag. When the acquisition starts and a signal indicating that the temperature has returned to normal is received from the adjacent information processing device, the acquisition of temperature information is finished according to the deasserted flag,
Record the obtained temperature information,
Control method.
情報処理装置を管理する管理装置のコンピュータを、
自らが搭載された情報処理装置と隣接する情報処理装置の温度情報を取得する取得手段であって、隣接する情報処理装置から温度異常を示す信号を受信すると、アサートされたフラグに応じて温度情報の取得を開始し、隣接する情報処理装置から温度が正常に戻ったことを示す信号を受信すると、デアサートされたフラグに応じて温度情報の取得を終了する取得手段、
前記取得手段によって取得された温度情報を記録する記録手段、
として機能させるプログラム。
The computer of the management device that manages the information processing device,
An acquisition means that acquires temperature information of an information processing device adjacent to the information processing device in which it is mounted, and when a signal indicating temperature abnormality is received from the adjacent information processing device, temperature information is acquired according to an asserted flag. an acquisition unit that starts acquiring the temperature information and, upon receiving a signal indicating that the temperature has returned to normal from an adjacent information processing device, finishes acquiring the temperature information in accordance with the deasserted flag;
recording means for recording temperature information acquired by the acquisition means;
A program that functions as
JP2022026468A 2022-02-24 2022-02-24 Management device, control method, and program Active JP7436060B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022026468A JP7436060B2 (en) 2022-02-24 2022-02-24 Management device, control method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022026468A JP7436060B2 (en) 2022-02-24 2022-02-24 Management device, control method, and program

Publications (2)

Publication Number Publication Date
JP2023122776A JP2023122776A (en) 2023-09-05
JP7436060B2 true JP7436060B2 (en) 2024-02-21

Family

ID=87885874

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022026468A Active JP7436060B2 (en) 2022-02-24 2022-02-24 Management device, control method, and program

Country Status (1)

Country Link
JP (1) JP7436060B2 (en)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010039987A (en) 2008-08-08 2010-02-18 Hitachi Ltd Computer system, method for processing failure of hardware, and program
WO2015015621A1 (en) 2013-08-01 2015-02-05 富士通株式会社 Information processing device, diagnostic method, diagnostic program, and information processing system
JP2015185059A (en) 2014-03-26 2015-10-22 日本電気株式会社 temperature control device, temperature control method, and temperature control program
JP2016157296A (en) 2015-02-25 2016-09-01 Necプラットフォームズ株式会社 Information processing apparatus and management method therefor
JP2016206844A (en) 2015-04-20 2016-12-08 富士通株式会社 Electronic device and cooling method thereof
US20170076575A1 (en) 2015-09-10 2017-03-16 Dell Products L.P. Optimized service mode cooling
JP2019032818A (en) 2017-08-09 2019-02-28 廣達電腦股▲ふん▼有限公司 Multiple-node system fan control switch
JP2019045948A (en) 2017-08-30 2019-03-22 富士通株式会社 Information processing apparatus, information processing system, and program
US20210311509A1 (en) 2020-04-03 2021-10-07 Dell Products L.P. Data Center Collective Environment Monitoring and Response

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010039987A (en) 2008-08-08 2010-02-18 Hitachi Ltd Computer system, method for processing failure of hardware, and program
WO2015015621A1 (en) 2013-08-01 2015-02-05 富士通株式会社 Information processing device, diagnostic method, diagnostic program, and information processing system
JP2015185059A (en) 2014-03-26 2015-10-22 日本電気株式会社 temperature control device, temperature control method, and temperature control program
JP2016157296A (en) 2015-02-25 2016-09-01 Necプラットフォームズ株式会社 Information processing apparatus and management method therefor
JP2016206844A (en) 2015-04-20 2016-12-08 富士通株式会社 Electronic device and cooling method thereof
US20170076575A1 (en) 2015-09-10 2017-03-16 Dell Products L.P. Optimized service mode cooling
JP2019032818A (en) 2017-08-09 2019-02-28 廣達電腦股▲ふん▼有限公司 Multiple-node system fan control switch
JP2019045948A (en) 2017-08-30 2019-03-22 富士通株式会社 Information processing apparatus, information processing system, and program
US20210311509A1 (en) 2020-04-03 2021-10-07 Dell Products L.P. Data Center Collective Environment Monitoring and Response

Also Published As

Publication number Publication date
JP2023122776A (en) 2023-09-05

Similar Documents

Publication Publication Date Title
JP4594750B2 (en) Method and system for recovering from failure of a blade service processor flash in a server chassis
EP2472402B1 (en) Remote management systems and methods for mapping operating system and management controller located in a server
US7844768B2 (en) Blade server system and method of managing same
US7917664B2 (en) Storage apparatus, storage apparatus control method, and recording medium of storage apparatus control program
JP5678717B2 (en) Monitoring device, monitoring system, and monitoring method
US20120136502A1 (en) Fan speed control system and fan speed reading method thereof
US20090024764A1 (en) Tracking The Physical Location Of A Server In A Data Center
JP5413514B2 (en) Management apparatus, information processing apparatus, control method, and program
US20090077166A1 (en) Obtaining location information of a server
TWI638553B (en) Method for detecting internet protocol address and media access control address
US20090024724A1 (en) Computing System And System Management Architecture For Assigning IP Addresses To Multiple Management Modules In Different IP Configuration
JP7436060B2 (en) Management device, control method, and program
JP5651962B2 (en) RAID apparatus, abnormal device detection apparatus, and abnormal device detection method
JP6996602B1 (en) BMC, server system, device stability determination method and program
US8533528B2 (en) Fault tolerant power sequencer
EP1461702A2 (en) Computer system with dedicated system management buses
US7920560B2 (en) Method for detecting topology of computer systems
TWI439856B (en) Method and multiple computer system with a failover support to manage shared resources
US9842070B2 (en) Storage apparatus, control apparatus and computer-readable recording medium having stored therein control program
US8775695B2 (en) Specific identification information management device, information processing device, and specific identification information setting method
CN116303213B (en) System and method for improving BMC chip computing efficiency
EP2458826A2 (en) Method for managing distinct IP addresses in a system and related system
JP5609272B2 (en) Server apparatus, server system, and server apparatus control method
CN108574741B (en) Method for detecting IP address and physical address
US20030189496A1 (en) Central management of networked computers

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230425

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231010

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231211

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240201

R151 Written notification of patent or utility model registration

Ref document number: 7436060

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151