JP2022087371A - Monitoring device, monitoring method, and program - Google Patents

Monitoring device, monitoring method, and program Download PDF

Info

Publication number
JP2022087371A
JP2022087371A JP2020199275A JP2020199275A JP2022087371A JP 2022087371 A JP2022087371 A JP 2022087371A JP 2020199275 A JP2020199275 A JP 2020199275A JP 2020199275 A JP2020199275 A JP 2020199275A JP 2022087371 A JP2022087371 A JP 2022087371A
Authority
JP
Japan
Prior art keywords
server
monitoring
failure rate
individual failure
monitoring interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020199275A
Other languages
Japanese (ja)
Inventor
理仁 深沢
Michihito Fukazawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2020199275A priority Critical patent/JP2022087371A/en
Publication of JP2022087371A publication Critical patent/JP2022087371A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

To provide a monitoring device that controls monitoring in consideration of an operating environment of each server.SOLUTION: In a maintenance management system, a monitoring device 100 comprises: acquisition means 101 for acquiring hardware monitoring information for each server, an individual failure rate due to operating time and operating environment; calculation means 102 for calculating the individual failure rate based on the hardware monitoring information for each server, the operating time, and an operating environment temperature of the server; and determination means 103 for determining a monitoring interval for a server based on the individual failure rate.SELECTED DRAWING: Figure 1

Description

本開示は、サーバの監視に関する。 This disclosure relates to server monitoring.

インターネットで介した様々なサービスは、コンピュータにプログラムを導入したサーバを稼働させることで実現されている。しかしコンピュータは、常に安定して稼働しているわけではなく、思わぬ障害の発生によりサーバがダウンしたり動作が重くなることがある。サーバを常時監視して障害発生時に迅速な対応を取ることは安定したサービスを提供する上で重要となっている。 Various services via the Internet are realized by running a server with a program installed in a computer. However, the computer is not always running stably, and the server may go down or slow down due to an unexpected failure. It is important to constantly monitor the server and take prompt action in the event of a failure in order to provide stable services.

電子機器の障害の発生を検知するために、ネットワークを通じた電子機器の監視が行われている。特許文献1には、パーソナルコンピュータやサーバなどの保守管理対象装置、または、監視装置が、保守管理対象装置における障害の発生を通知することが開示されている。特許文献2には、プリンタなどの管理対象機器を使用状況に応じて所定の監視間隔で監視することが開示されている。 In order to detect the occurrence of a failure of an electronic device, the electronic device is monitored through a network. Patent Document 1 discloses that a maintenance-managed device such as a personal computer or a server, or a monitoring device notifies the occurrence of a failure in the maintenance-managed device. Patent Document 2 discloses that a device to be managed such as a printer is monitored at a predetermined monitoring interval according to a usage situation.

なお、本開示に関連する技術として、特許文献3には、機器の累積的な運転状況の情報と、各機器に固有のパラメータを考慮して機器の異常の有無を判断する運用・保守支援システムが開示されている。 As a technique related to the present disclosure, Patent Document 3 describes an operation / maintenance support system for determining the presence or absence of an abnormality in a device in consideration of information on the cumulative operating status of the device and parameters unique to each device. Is disclosed.

特開2016-081374号公報Japanese Unexamined Patent Publication No. 2016-081374 特開2014-053027号公報Japanese Unexamined Patent Publication No. 2014-053027 特開2010-271905号公報Japanese Unexamined Patent Publication No. 2010-271905

電子機器は温度や湿度などの動作環境によって故障率が変化する。しかし、特許文献2において、機器の動作環境を考慮して電子機器の監視の制御を行っていない。 The failure rate of electronic devices changes depending on the operating environment such as temperature and humidity. However, in Patent Document 2, monitoring and control of electronic devices are not performed in consideration of the operating environment of the devices.

本開示は、サーバの動作環境を考慮して監視を制御する監視装置等を提供することを目的とする。 It is an object of the present disclosure to provide a monitoring device or the like that controls monitoring in consideration of the operating environment of the server.

本開示に係る監視装置は、サーバごとのハードウェア、稼働時間、及び、動作環境に起因する個体故障率を取得する取得手段と、前記個体故障率に基づき、前記サーバに対する監視間隔を決定する決定手段と、を備える。 The monitoring device according to the present disclosure determines the monitoring interval for the server based on the acquisition means for acquiring the individual failure rate due to the hardware, operating time, and operating environment for each server, and the individual failure rate. Means and.

本開示に係る監視方法は、サーバごとのハードウェア、稼働時間、及び、動作環境に起因する個体故障率を取得し、前記個体故障率に基づき、前記サーバに対する監視間隔を決定する。 The monitoring method according to the present disclosure acquires the individual failure rate due to the hardware, operating time, and operating environment for each server, and determines the monitoring interval for the server based on the individual failure rate.

本開示に係るプログラムは、サーバごとのハードウェア、稼働時間、及び、動作環境に起因する個体故障率を取得し、前記個体故障率に基づき、前記サーバに対する監視間隔を決定する処理をコンピュータに実行させる。 The program according to the present disclosure acquires the individual failure rate due to the hardware, operating time, and operating environment of each server, and executes a process of determining the monitoring interval for the server on the computer based on the individual failure rate. Let me.

本開示によれば、サーバの動作環境を考慮して監視を制御できる。 According to the present disclosure, monitoring can be controlled in consideration of the operating environment of the server.

第1実施形態に係る保守管理システムの構成を示す概略図である。It is a schematic diagram which shows the structure of the maintenance management system which concerns on 1st Embodiment. サーバ300のハードウェア概略図である。It is a hardware schematic diagram of a server 300. 保守管理システムの動作例を示すシーケンス図である。It is a sequence diagram which shows the operation example of the maintenance management system. 関係モデルの例を示すグラフである。It is a graph which shows an example of a relational model. 関係モデルの他の例を示すグラフである。It is a graph which shows another example of a relational model. 第2実施形態に係る監視装置100の構成を示すブロック図である。It is a block diagram which shows the structure of the monitoring apparatus 100 which concerns on 2nd Embodiment. 算出装置120の配置例を示す概略図である。It is a schematic diagram which shows the arrangement example of the calculation apparatus 120. 個体故障率と決定される監視間隔の関係の他の例を示すグラフである。It is a graph which shows other example of the relationship between an individual failure rate and a determined monitoring interval. 第2実施形態に係る監視装置100の動作例を示すフローチャートである。It is a flowchart which shows the operation example of the monitoring apparatus 100 which concerns on 2nd Embodiment. コンピュータ500のハードウェア構成の例を示すブロック図である。It is a block diagram which shows the example of the hardware composition of the computer 500.

本開示において、大規模システムを構成する複数の電子機器を保守管理のために監視する監視装置について説明する。被監視対象の電子機器の例として、サーバを監視する監視装置を例に、以下実施形態において図面を参照しながら説明する。ただし被監視対象には、サーバ以外の電子機器が含まれてもよい。 In this disclosure, a monitoring device for monitoring a plurality of electronic devices constituting a large-scale system for maintenance management will be described. As an example of the electronic device to be monitored, a monitoring device for monitoring a server will be taken as an example, and the following embodiments will be described with reference to the drawings. However, the monitored target may include electronic devices other than the server.

[第1実施形態]
(構成)
図1は、第1実施形態に係る保守管理システムの構成を示す概略図である。保守管理システムは、監視装置100と被監視対象となる1以上のサーバラック200(200_1、・・・、200_y)を備える。各サーバラック200は、1以上のサーバ300(300_1、300_2、・・・、300_x)と温度センサ400を備える。監視装置100は、ネットワーク010によって各サーバ300及び温度センサ400と、通信可能に接続される。サーバラック200ごとのサーバ300の台数は任意に変更されうる。
[First Embodiment]
(Constitution)
FIG. 1 is a schematic diagram showing a configuration of a maintenance management system according to the first embodiment. The maintenance management system includes a monitoring device 100 and one or more server racks 200 (200_1, ..., 200_y) to be monitored. Each server rack 200 includes one or more servers 300 (300_1, 300_2, ..., 300_x) and a temperature sensor 400. The monitoring device 100 is communicably connected to each server 300 and the temperature sensor 400 by the network 010. The number of servers 300 for each server rack 200 can be changed arbitrarily.

監視装置100は、サーバ300における障害の発生の有無を監視する。第1実施形態において、監視装置100は、取得部101、算出部102、及び決定部103を備える。 The monitoring device 100 monitors the presence or absence of a failure in the server 300. In the first embodiment, the monitoring device 100 includes an acquisition unit 101, a calculation unit 102, and a determination unit 103.

取得部101は、サーバ300ごとのハードウェア監視情報、稼働情報、及び、動作環境に関する情報を取得する。ハードウェア監視情報は、サーバ300内部の各部品の異常傾向を判定するためのハードウェア監視データを示す。稼働情報は、例えば初期配置からの稼働時間、または使用年数など、サーバ300の稼働状況を示す。動作環境に関する情報は、例えばサーバラック200内の温度、または湿度、あるいはサーバ300の温度を示す情報である。さらに、取得部101は、算出部102が算出した、各サーバ300のハードウェア、稼働情報、及び、動作環境に基づく個体故障率を取得する。 The acquisition unit 101 acquires hardware monitoring information, operation information, and information on the operating environment for each server 300. The hardware monitoring information indicates hardware monitoring data for determining an abnormality tendency of each component inside the server 300. The operation information indicates the operation status of the server 300, such as the operation time from the initial arrangement or the number of years of use. The information regarding the operating environment is, for example, information indicating the temperature or humidity in the server rack 200, or the temperature of the server 300. Further, the acquisition unit 101 acquires the individual failure rate based on the hardware, operation information, and operating environment of each server 300 calculated by the calculation unit 102.

算出部102は、取得部101が取得したハードウェア監視情報、稼働情報、及び、動作環境に関する情報に基づいて、サーバ300ごとに個体故障率Pを算出する。個体故障率Pの算出については後述する。 The calculation unit 102 calculates the individual failure rate P for each server 300 based on the hardware monitoring information, the operation information, and the information regarding the operating environment acquired by the acquisition unit 101. The calculation of the individual failure rate P will be described later.

決定部103は、各サーバ300の個体故障率と監視間隔の関係モデルに基づいて、各サーバ300に対する監視間隔を決定する。監視間隔とは、監視装置100がサーバ300に対する障害の監視処理を実行した後、再度監視処理を実行するまでの時間間隔である。監視装置100は、監視処理として、例えば、サーバ300に対して入出力要求を送信し、入出力要求に対する応答時間が正常な範囲内であるか確認してもよい。あるいは、監視装置100は、監視処理として、サーバ300の各部品の監視データが正常な範囲内であるか確認してもよい。 The determination unit 103 determines the monitoring interval for each server 300 based on the relationship model between the individual failure rate of each server 300 and the monitoring interval. The monitoring interval is a time interval after the monitoring device 100 executes the failure monitoring process for the server 300 until the monitoring process is executed again. As a monitoring process, the monitoring device 100 may transmit an input / output request to the server 300, for example, and confirm whether the response time to the input / output request is within a normal range. Alternatively, the monitoring device 100 may confirm whether the monitoring data of each component of the server 300 is within a normal range as a monitoring process.

個体故障率と監視間隔の関係モデルは、個体故障率の増加に対応する監視間隔の減少傾向を示してもよい。関係モデルは、個体故障率と監視間隔の関係式によって表されてもよく、テーブルにより表されてもよい。関係モデルは、目的変数をネットワーク負荷とし、説明変数として例えば、故障率、監視間隔、サーバ台数、及びネットワーク帯域を用いた、機械学習によって得られてもよい。 The relationship model between the individual failure rate and the monitoring interval may show a decreasing tendency of the monitoring interval corresponding to the increase in the individual failure rate. The relational model may be represented by a relational expression between the individual failure rate and the monitoring interval, or may be represented by a table. The relational model may be obtained by machine learning with the objective variable as the network load and, for example, the failure rate, the monitoring interval, the number of servers, and the network bandwidth as the explanatory variables.

第1実施形態において、温度センサ400は、サーバラック200内の温度を測定する。温度センサ400は、測定温度をサーバラック200内のサーバ300_1、・・・、300_xの動作環境に関する情報として、監視装置100に送信する。 In the first embodiment, the temperature sensor 400 measures the temperature inside the server rack 200. The temperature sensor 400 transmits the measured temperature to the monitoring device 100 as information regarding the operating environment of the servers 300_1, ..., 300_x in the server rack 200.

動作環境に関する情報として、各サーバ300の温度を用いる場合、1台のサーバ300ごとに1つの温度センサ400が設置されてもよい。温度センサ400は各サーバの測定温度を監視装置100に送信する。 When the temperature of each server 300 is used as the information regarding the operating environment, one temperature sensor 400 may be installed for each server 300. The temperature sensor 400 transmits the measured temperature of each server to the monitoring device 100.

サーバラック200内には、取得部101が取得する動作環境に関する情報の種類に応じて、他のセンサが設置されうる。動作環境に関する情報として湿度を用いる場合、以下の説明において温度センサ400に関する説明は湿度センサに置き換えることができる。 In the server rack 200, other sensors may be installed depending on the type of information regarding the operating environment acquired by the acquisition unit 101. When humidity is used as information regarding the operating environment, the description regarding the temperature sensor 400 can be replaced with the humidity sensor in the following description.

図2は、サーバ300のハードウェア概略図である。CPU(Central Processing Unit)301、メモリ302、HDD(hard disk drive)303、イーサポート304、及び、BMC(Baseboard Management Controller)309を備える。BMC309は、サーバ300のハードウェア(サーバ300内部に構成する各部品、要素)からの監視データを取得し、ハードウェア監視情報として監視装置100に送信する。 FIG. 2 is a schematic hardware diagram of the server 300. It includes a CPU (Central Processing Unit) 301, a memory 302, an HDD (hard disk drive) 303, an e-support 304, and a BMC (Baseboard Management Controller) 309. The BMC 309 acquires monitoring data from the hardware of the server 300 (each component and element constituting inside the server 300) and transmits it to the monitoring device 100 as hardware monitoring information.

(動作)
図3は、保守管理システムの動作例を示すシーケンス図である。図3において、簡略化のためにサーバ300は1台だけ示されているが、各サーバ300は同様に動作する。
(motion)
FIG. 3 is a sequence diagram showing an operation example of the maintenance management system. In FIG. 3, only one server 300 is shown for simplification, but each server 300 operates in the same manner.

<<ハードウェアに起因する故障率の算出>>
監視装置100の取得部101は、ネットワーク010とBMC309を介して、サーバ300からハードウェア監視情報を取得する。算出部102は、取得部101が取得した監視情報に基づいてハードウェアに起因する故障率Pを算出する(ステップS101)。
<< Calculation of failure rate due to hardware >>
The acquisition unit 101 of the monitoring device 100 acquires hardware monitoring information from the server 300 via the network 010 and the BMC 309. The calculation unit 102 calculates the failure rate Ph due to hardware based on the monitoring information acquired by the acquisition unit 101 (step S101).

ハードウェアに起因する故障率Pとは、個々の装置の故障の起こり得る確率である。故障率Pは、例えば0から1(あるいは0%から100%)の間で算出される。 The failure rate Ph due to hardware is the probability of failure of individual devices. The failure rate Ph is calculated, for example, between 0 and 1 (or 0% to 100%).

ハードウェア監視情報は、CPU301、メモリ302、HDD303、イーサポート304、電源など、複数の監視対象部品に対応するそれぞれの監視データを含む。CPU301に関する監視データは、例えば、CPUの使用率及び温度である。メモリ302に関する監視データとして、例えば、ECC(Error checking and correcting)におけるエラーの回数が用いられる。HDD303に関する監視データとして、例えばSMART(Self-Monitoring, Analysis and Reporting Technology)による検査値が用いられる。電源に関する監視データは、例えば電源の冗長化状態を示す。 The hardware monitoring information includes monitoring data corresponding to a plurality of monitored components such as CPU 301, memory 302, HDD 303, e-support 304, and power supply. The monitoring data regarding the CPU 301 is, for example, the CPU usage rate and the temperature. As the monitoring data related to the memory 302, for example, the number of errors in ECC (Error checking and correcting) is used. As the monitoring data related to the HDD 303, for example, inspection values by SMART (Self-Monitoring, Analysis and Reporting Technology) are used. The monitoring data regarding the power supply indicates, for example, the redundancy state of the power supply.

算出部102は、例えば、ハードウェアの故障対象部品ごとに取得された監視データの値に基づいて異常傾向の有無を判定する。算出部102は、監視データが所定の閾値を超えたとき、部品に異常傾向があると判定する。あるいは、算出部102は、部品の監視データの値に基づいて算出した部品の故障率が所定の閾値以上である場合に、該部品に異常傾向があると判定してもよい。監視情報が100個の部品に関する情報を含む場合、算出部102は、例えば、異常傾向のある部品の数だけ故障率Pを+0.01(あるいは+1%)増加させる。なお、監視情報に含まれる部品の重要度や計測されたデータの値に基づいて、増加させる故障率Pは部品ごとに調整されてもよい。 The calculation unit 102 determines, for example, whether or not there is an abnormality tendency based on the value of the monitoring data acquired for each hardware failure target component. When the monitoring data exceeds a predetermined threshold value, the calculation unit 102 determines that the component has an abnormal tendency. Alternatively, the calculation unit 102 may determine that the component has an abnormality tendency when the failure rate of the component calculated based on the value of the monitoring data of the component is equal to or higher than a predetermined threshold value. When the monitoring information includes information about 100 parts, the calculation unit 102 increases the failure rate Ph by +0.01 (or + 1%) by, for example, the number of parts having a tendency to be abnormal. The failure rate Ph to be increased may be adjusted for each component based on the importance of the component included in the monitoring information and the value of the measured data.

<<動作環境に起因する故障率の算出>>
監視装置100の取得部101は、サーバ300の動作環境に関する情報として、サーバラック200に設置された温度センサ400の測定温度を取得する。算出部102は、取得部101が取得した温度に基づいて動作環境に起因する故障率Pを算出する(ステップS102)。
<< Calculation of failure rate due to operating environment >>
The acquisition unit 101 of the monitoring device 100 acquires the measured temperature of the temperature sensor 400 installed in the server rack 200 as information regarding the operating environment of the server 300. The calculation unit 102 calculates the failure rate Pe due to the operating environment based on the temperature acquired by the acquisition unit 101 (step S102).

動作環境に起因する故障率Pとは、サーバ300が設置される環境と安定稼働条件との差異に基づいて算出される故障の確率である。故障率Pは例えば0から1(0%から100%)の間で算出される。 The failure rate Pe due to the operating environment is the probability of failure calculated based on the difference between the environment in which the server 300 is installed and the stable operating conditions. The failure rate Pe is calculated, for example, between 0 and 1 (0% to 100%).

算出部102は、例えば、温度が稼働想定温度の中央値であれば0(あるいは0%)、温度上限値以上であれば1(あるいは100%)、温度下限値以下であれば1(あるいは100%)と算出する。算出部102は、動作環境温度の変化率、温度の継続時間、または、所定の上限値若しくは下限値を超えた回数を考慮し、故障率Pを算出してもよい。 The calculation unit 102 may, for example, 0 (or 0%) if the temperature is the median of the assumed operating temperature, 1 (or 100%) if the temperature is equal to or higher than the upper limit of the temperature, and 1 (or 100%) if the temperature is equal to or lower than the lower limit of the temperature. %). The calculation unit 102 may calculate the failure rate Pe in consideration of the rate of change in the operating environment temperature, the duration of the temperature, or the number of times the predetermined upper limit value or lower limit value is exceeded.

なお、取得部101は、外部装置からサーバ300が配置されたサーバルームの温度分布を取得してもよい。取得部101は、サーバルームの温度分布とサーバ300の配置に基づいて、各サーバ300の動作環境温度を取得してもよい。 The acquisition unit 101 may acquire the temperature distribution of the server room in which the server 300 is arranged from an external device. The acquisition unit 101 may acquire the operating environment temperature of each server 300 based on the temperature distribution of the server room and the arrangement of the servers 300.

<<稼働時間に起因する故障率の算出>>
サーバ300は初期配置からの合計稼働時間(合計通電時間)を記録、蓄積する。取得部101は、サーバ300からサーバ300の稼働時間を稼働情報として取得する。算出部102は、稼働時間に基づいて故障率Pを算出する(ステップS103)。
<< Calculation of failure rate due to operating time >>
The server 300 records and accumulates the total operating time (total energizing time) from the initial arrangement. The acquisition unit 101 acquires the operating time of the server 300 from the server 300 as operation information. The calculation unit 102 calculates the failure rate Pt based on the operating time (step S103).

稼働時間に起因する故障率Pとは、合計稼働時間に起因するサーバ300の寿命特性を示す装置のバスタブ曲線に基づいて算出される故障の確率である。故障率Pは、未使用状態で0(0%)、稼働時間上限値を1(100%)とする。 The failure rate Pt due to the operating time is the probability of failure calculated based on the bathtub curve of the device showing the life characteristic of the server 300 due to the total operating time. The failure rate Pt is 0 (0%) in the unused state, and the upper limit of the operating time is 1 (100%).

<<個体故障率Pの算出と取得>>
算出部102は、それぞれのサーバ300に対して算出されたハードウェアに起因する故障率P、動作環境に起因する故障率P、及び、稼働時間に起因する故障率Pを総合的に考慮して、個体故障率Pを算出する(ステップS104)。取得部101は、算出部102が算出した個体故障率Pを取得する(ステップS105)。
<< Calculation and acquisition of individual failure rate P >>
The calculation unit 102 comprehensively calculates the failure rate Ph due to the hardware, the failure rate P e due to the operating environment, and the failure rate P t due to the operating time calculated for each server 300. In consideration, the individual failure rate P is calculated (step S104). The acquisition unit 101 acquires the individual failure rate P calculated by the calculation unit 102 (step S105).

ステップS101~103の順番は変更可能である。 The order of steps S101 to 103 can be changed.

個体故障率Pの算出例1:算出部102は、3つの故障率P,P,Pに優先順位や重みづけをつけてもよい。個体故障率Pは例えば以下の式で表される。
P=W×P+W×P+W×P (重み付け定数W,W,W>0)
個体故障率Pの算出例2:算出部102は、故障率P及びPが所定値まで増加したとき、故障率Pの重みWを小さく設定してもよい。つまり、ハードウェアに起因する故障率Pと稼働時間に起因する故障率Pが高いサーバは、動作環境に起因する故障率Pが低くても、個体故障率Pを高く算出してもよい。これによりサーバは短い監視間隔で監視される。
Calculation example of individual failure rate P 1: The calculation unit 102 may give priority or weight to three failure rates Ph , P e , and P t . The individual failure rate P is expressed by, for example, the following equation.
P = W h x P h + We x P e + W t x P t ( weighting constants W h , We , W t > 0)
Calculation Example 2: Individual Failure Rate P: When the failure rates Ph and P t increase to a predetermined value, the calculation unit 102 may set the weight We of the failure rate P e to be small. That is, a server having a high failure rate Ph due to hardware and a high failure rate P t due to operating time can calculate a high individual failure rate P even if the failure rate Pe due to the operating environment is low. good. This allows the server to be monitored at short monitoring intervals.

<<監視間隔の決定>>
決定部103は、サーバ300の個体故障率と監視間隔の関係モデルに基づいて、サーバ300に対する監視間隔を決定する(ステップS106)。図4は、関係モデルの例を示すグラフである。図4において、個体故障率Pと監視間隔Iの関係モデルは直線により表されているが、曲線であってもよい。また図4において、個体故障率の増加に伴い、監視間隔Iは連続した値が設定されているが、監視間隔Iは非連続(離散的)であってもよい。監視間隔Iは個体故障率Pの範囲によって、異なる関係式により表されてもよい。
<< Determination of monitoring interval >>
The determination unit 103 determines the monitoring interval for the server 300 based on the relationship model between the individual failure rate of the server 300 and the monitoring interval (step S106). FIG. 4 is a graph showing an example of a relational model. In FIG. 4, the relational model between the individual failure rate P and the monitoring interval I is represented by a straight line, but may be a curve. Further, in FIG. 4, a continuous value is set for the monitoring interval I as the individual failure rate increases, but the monitoring interval I may be discontinuous (discrete). The monitoring interval I may be expressed by a different relational expression depending on the range of the individual failure rate P.

個体故障率Pが100に近いほど、監視間隔Iは一般的な監視装置の通常の監視間隔よりも短く定められてもよい。また、個体故障率Pが0に近いほど、監視間隔Iは一般的な監視装置の通常の監視間隔よりも長く定められてもよい。 As the individual failure rate P approaches 100, the monitoring interval I may be set shorter than the normal monitoring interval of a general monitoring device. Further, as the individual failure rate P is closer to 0, the monitoring interval I may be set longer than the normal monitoring interval of a general monitoring device.

監視装置100は、サーバ300ごとに決定された監視間隔によりサーバ300を監視する。 The monitoring device 100 monitors the server 300 at a monitoring interval determined for each server 300.

(効果)
第1実施形態によれば、サーバ300の動作環境を考慮して監視を制御できる。その理由は、監視装置100の取得部101がサーバごとのハードウェア、稼働時間、及び、動作環境に起因する個体故障率を取得し、決定部103が個体故障率に基づきサーバ300に対する監視間隔を決定するためである。
(effect)
According to the first embodiment, monitoring can be controlled in consideration of the operating environment of the server 300. The reason is that the acquisition unit 101 of the monitoring device 100 acquires the individual failure rate due to the hardware, operating time, and operating environment of each server, and the determination unit 103 determines the monitoring interval for the server 300 based on the individual failure rate. To decide.

システムの保守管理において、1つの監視装置により多くの電子機器を監視することが行われている。システムの規模が大きくなればなるほど被監視対象の電子機器が増える。また、監視項目が一つ増えるたびに電子機器の台数分のアクセスが増えるためネットワーク負荷、及び、監視装置の負荷が増加する。そのため、大きなシステムでは監視間隔を一律に長くすることにより、ネットワーク負荷、監視装置の負荷を下げることが行われる。 In system maintenance, many electronic devices are monitored by one monitoring device. As the scale of the system increases, the number of electronic devices to be monitored increases. Further, each time the number of monitoring items is increased, the access for the number of electronic devices increases, so that the network load and the load of the monitoring device increase. Therefore, in a large system, the network load and the load of the monitoring device can be reduced by uniformly increasing the monitoring interval.

しかし、監視間隔が長いと、障害発生から監視装置が障害を検出するまでの時間が長くなる。即時に障害を検出できなければ、システム全体の稼働率を下げ、さらには、サービス品質の低下につながる。 However, if the monitoring interval is long, the time from the occurrence of the failure to the detection of the failure by the monitoring device becomes long. If a failure cannot be detected immediately, the utilization rate of the entire system will be reduced, and the quality of service will be reduced.

第1実施形態によれば、決定部103が、所定の故障率の基準より個体故障率Pが低いサーバ300の監視間隔を所定の監視間隔の基準より長く決定することで、多くのサーバを監視する際のネットワーク010の負荷を低減し、監視負荷を低減できる。 According to the first embodiment, the determination unit 103 monitors many servers by determining the monitoring interval of the server 300 whose individual failure rate P is lower than the standard of the predetermined failure rate to be longer than the standard of the predetermined monitoring interval. The load on the network 010 can be reduced and the monitoring load can be reduced.

さらに、第1実施形態によれば、決定部103が、所定の故障率の基準より個体故障率Pが高いサーバ300の監視間隔を所定の監視間隔の基準よりも短くすることで、実際の障害発生から監視装置100が障害を検知するまでの時間を短くし、障害の検知の遅延を防ぐことができる。 Further, according to the first embodiment, the determination unit 103 makes the monitoring interval of the server 300, which has an individual failure rate P higher than the standard of the predetermined failure rate, shorter than the standard of the predetermined monitoring interval, so that the actual failure occurs. The time from the occurrence to the detection of the failure by the monitoring device 100 can be shortened, and the delay in the detection of the failure can be prevented.

(変形例)
図5は、関係モデルの他の例を示すグラフである。図5において、関係モデルは個体故障率Pが基準故障率Pより小さいか、基準故障率P以上であるかによって、異なる関係式により表されている。
(Modification example)
FIG. 5 is a graph showing another example of the relational model. In FIG. 5, the relational model is represented by a different relational expression depending on whether the individual failure rate P is smaller than the reference failure rate P 0 or greater than or equal to the reference failure rate P 0 .

P≦Pのとき、I=I
0<P<Pのとき、I=I
図5の例において、例えば、監視間隔Iは2~3分、監視間隔Iは1時間と定められてもよい。決定部103は、例えば、所定期間における各サーバラック200の各サーバ300_1、300_2、・・・、300_xの個体故障率の平均値、あるいは中央値を基準故障率Pとしてもよい。また、決定部103は、基準故障率Pは上述の機械学習を用いて設定されてよい。
When P ≤ P 0 , I = IA
When 0 <P < P 0 , I = IB
In the example of FIG. 5, for example, the monitoring interval IA may be set to 2 to 3 minutes, and the monitoring interval IB may be set to 1 hour. For example, the determination unit 103 may set the average value or the median of the individual failure rates of the servers 300_1, 300_2, ..., 300_x of each server rack 200 in a predetermined period as the reference failure rate P0. Further, in the determination unit 103, the reference failure rate P 0 may be set by using the above-mentioned machine learning.

[第2実施形態]
第1実施形態において、監視装置100が個体故障率Pを算出する算出部を備える場合について説明した。第2実施形態において、他の装置が第1実施形態に係る算出部102の機能を有し、監視装置100が、算出装置によって算出された個体故障率Pを取得する場合について説明する。第1実施形態と同様の説明は、第2実施形態の説明において省略する。
[Second Embodiment]
In the first embodiment, the case where the monitoring device 100 includes a calculation unit for calculating the individual failure rate P has been described. In the second embodiment, a case where another device has the function of the calculation unit 102 according to the first embodiment and the monitoring device 100 acquires the individual failure rate P calculated by the calculation device will be described. The same description as in the first embodiment will be omitted in the description of the second embodiment.

(構成)
図6は、第2実施形態に係る監視装置100の構成を示すブロック図である。第2実施形態に係る監視装置100は、取得部121と決定部122を備える。第2実施形態に係る監視装置100は、図1における監視装置100と置き換えることができる。
(Constitution)
FIG. 6 is a block diagram showing the configuration of the monitoring device 100 according to the second embodiment. The monitoring device 100 according to the second embodiment includes an acquisition unit 121 and a determination unit 122. The monitoring device 100 according to the second embodiment can be replaced with the monitoring device 100 in FIG.

図7は、算出装置120の配置例を示す、第2実施形態に係る保守管理システムの概略図である。図7に示すように、1台の確率算出装置120が、監視装置100、各サーバラック200の各サーバ300及び温度センサ400と通信可能に接続されてもよい。算出装置120は、各サーバ300からハードウェア監視情報と、稼働情報を取得し、温度センサ400から動作環境に関する情報を取得する。 FIG. 7 is a schematic diagram of the maintenance management system according to the second embodiment, showing an arrangement example of the calculation device 120. As shown in FIG. 7, one probability calculation device 120 may be communicably connected to the monitoring device 100, each server 300 of each server rack 200, and the temperature sensor 400. The calculation device 120 acquires hardware monitoring information and operation information from each server 300, and acquires information on the operating environment from the temperature sensor 400.

監視装置100の取得部121は、外部の算出装置120から、各サーバ300のハードウェア、稼働情報、及び、動作環境に基づく個体故障率を取得する。 The acquisition unit 121 of the monitoring device 100 acquires the hardware of each server 300, the operation information, and the individual failure rate based on the operating environment from the external calculation device 120.

決定部122は、各サーバ300の個体故障率に基づいて、サーバに対する監視間隔を決定する。 The determination unit 122 determines the monitoring interval for the server based on the individual failure rate of each server 300.

決定部122は、個体故障率が所定の基準故障率より高い場合、サーバ300の監視間隔を第1の監視間隔に決定し、個体故障率が該基準故障率より低い場合、サーバ300の監視間隔を第1の監視間隔より長い第2の監視間隔に決定してもよい。個体故障率が基準故障率と等しい場合、決定部122は、監視間隔を第1の監視間隔以上であり第2の監視間隔以下の任意の時間に決定する。 The determination unit 122 determines the monitoring interval of the server 300 as the first monitoring interval when the individual failure rate is higher than the predetermined reference failure rate, and when the individual failure rate is lower than the reference failure rate, the monitoring interval of the server 300. May be determined as a second monitoring interval that is longer than the first monitoring interval. When the individual failure rate is equal to the reference failure rate, the determination unit 122 determines the monitoring interval at any time equal to or greater than the first monitoring interval and equal to or less than the second monitoring interval.

個体故障率と決定部122により決定される監視間隔の関係は、図4、または、図5のグラフにより示されてもよい。図8は、個体故障率と決定される監視間隔の関係の他の例を示すグラフである。図8において、基準故障率P~Pに対応して、監視間隔I~Iが決定される。基準故障率P~Pはそれぞれ、所定の基準故障率の一実施形態である。監視間隔I~Iはそれぞれ第1または第2の監視間隔の一実施形態である。 The relationship between the individual failure rate and the monitoring interval determined by the determination unit 122 may be shown by the graph of FIG. 4 or FIG. FIG. 8 is a graph showing another example of the relationship between the individual failure rate and the determined monitoring interval. In FIG. 8, the monitoring intervals I 1 to I 5 are determined corresponding to the reference failure rates P 1 to P 4 . Each of the reference failure rates P1 to P4 is an embodiment of a predetermined reference failure rate. The monitoring intervals I 1 to I 5 are embodiments of the first or second monitoring interval, respectively.

監視装置100は、決定した監視間隔によりサーバ300を監視する。あるいは、監視装置100は、図示しない他の監視処理実行装置に決定した監視間隔を送信し、監視処理実行装置にサーバ300を監視させる。 The monitoring device 100 monitors the server 300 according to the determined monitoring interval. Alternatively, the monitoring device 100 transmits a determined monitoring interval to another monitoring processing execution device (not shown), and causes the monitoring processing execution device to monitor the server 300.

図7において、1台の算出装置120が配置されているが、算出装置120は1台のサーバラック200ごとに1台配置されてもよい。このとき、算出装置120はサーバラック200内の各サーバ300の個体故障率を算出する。あるいは、算出装置120の機能は、各サーバ300が備えてもよい。このとき、各サーバ300は温度センサ400から動作環境に関する情報を取得し、自装置の個体故障率を算出する。監視装置100は複数の算出装置120のそれぞれから各サーバ300の個体故障率を取得する。 In FIG. 7, one calculation device 120 is arranged, but one calculation device 120 may be arranged for each server rack 200. At this time, the calculation device 120 calculates the individual failure rate of each server 300 in the server rack 200. Alternatively, the function of the calculation device 120 may be provided in each server 300. At this time, each server 300 acquires information on the operating environment from the temperature sensor 400 and calculates the individual failure rate of its own device. The monitoring device 100 acquires the individual failure rate of each server 300 from each of the plurality of calculation devices 120.

(動作)
図9は、第2実施形態に係る監視装置100の動作例を示すフローチャートである。取得部121は、サーバ300ごとのハードウェア、稼働時間、及び、動作環境に起因する個体故障率を取得する(ステップS121)。決定部122は、各サーバ300の個体故障率に基づいて、サーバ300に対する監視間隔を決定する(ステップS122)。
(motion)
FIG. 9 is a flowchart showing an operation example of the monitoring device 100 according to the second embodiment. The acquisition unit 121 acquires the individual failure rate due to the hardware, operating time, and operating environment for each server 300 (step S121). The determination unit 122 determines the monitoring interval for the server 300 based on the individual failure rate of each server 300 (step S122).

(効果)
第2実施形態によれば、サーバ300の動作環境を考慮して監視を制御できる。その理由は、監視装置100の取得部121がサーバごとのハードウェア、稼働時間、及び、動作環境に起因する個体故障率を取得し、決定部122が個体故障率に基づきサーバ300に対する監視間隔を決定するためである。
(effect)
According to the second embodiment, monitoring can be controlled in consideration of the operating environment of the server 300. The reason is that the acquisition unit 121 of the monitoring device 100 acquires the individual failure rate due to the hardware, operating time, and operating environment of each server, and the determination unit 122 sets the monitoring interval for the server 300 based on the individual failure rate. To decide.

(変形例)
決定部122は、個体故障率に加えて、さらに、監視間隔ごとのサーバ300の台数の割合、あるいは上限数に基づいて、サーバに対する監視間隔を決定してもよい。すなわち、決定部122は、例えば、第1の監視間隔で監視するサーバ300が所定の上限数に達した場合、残りのサーバ300はより長い第2の監視間隔で監視されるよう、基準故障率を決定する。
(Modification example)
In addition to the individual failure rate, the determination unit 122 may further determine the monitoring interval for the server based on the ratio of the number of servers 300 for each monitoring interval or the upper limit number. That is, the determination unit 122 has a reference failure rate so that, for example, when the number of servers 300 monitored in the first monitoring interval reaches a predetermined upper limit, the remaining servers 300 are monitored in the longer second monitoring interval. To determine.

本変形例によれば、多くのサーバを監視する際のネットワークの負荷を低減し、監視負荷を低減する要請と、実際の障害発生から監視装置100が障害を検知するまでの時間を短くし、障害の検知の遅延を防ぐ要請の両方に応えることができる。 According to this modification, the request to reduce the network load and the monitoring load when monitoring many servers, and the time from the actual occurrence of the failure to the detection of the failure by the monitoring device 100 are shortened. It can respond to both requests to prevent delays in fault detection.

[ハードウェア構成]
上述した各実施形態において、監視装置100の各構成要素は、機能単位のブロックを示している。各装置の各構成要素の一部又は全部は、コンピュータ500とプログラムとの任意の組み合わせにより実現されてもよい。
[Hardware configuration]
In each of the above-described embodiments, each component of the monitoring device 100 indicates a block of functional units. Some or all of the components of each device may be realized by any combination of the computer 500 and the program.

図10は、コンピュータ500のハードウェア構成の例を示すブロック図である。図10を参照すると、コンピュータ500は、例えば、CPU(Central Processing Unit)501、ROM(Read Only Memory)502、RAM(Random Access Memory)503、プログラム504、記憶装置505、ドライブ装置507、通信インタフェース508、入力装置509、入出力インタフェース511、及び、バス512を含む。 FIG. 10 is a block diagram showing an example of the hardware configuration of the computer 500. Referring to FIG. 10, the computer 500 includes, for example, a CPU (Central Processing Unit) 501, a ROM (Read Only Memory) 502, a RAM (Random Access Memory) 503, a program 504, a storage device 505, a drive device 507, and a communication interface 508. , Input device 509, input / output interface 511, and bus 512.

プログラム504は、各装置の各機能を実現するための命令(instruction)を含む。プログラム504は、予め、ROM502やRAM503、記憶装置505に格納される。CPU501は、プログラム504に含まれる命令を実行することにより、各装置の各機能を実現する。例えば、監視装置100のCPU501がプログラム504に含まれる命令を実行することにより、監視装置100の機能を実現する。また、RAM503は、各装置の各機能において処理されるデータを記憶してもよい。例えば、コンピュータ500のRAM503に、監視装置100の算出部102が用いるハードウェア監視情報、動作環境温度を記憶してもよい。 The program 504 includes an instruction for realizing each function of each device. The program 504 is stored in the ROM 502, the RAM 503, and the storage device 505 in advance. The CPU 501 realizes each function of each device by executing the instruction included in the program 504. For example, the function of the monitoring device 100 is realized by the CPU 501 of the monitoring device 100 executing the instruction included in the program 504. Further, the RAM 503 may store data processed in each function of each device. For example, the hardware monitoring information and the operating environment temperature used by the calculation unit 102 of the monitoring device 100 may be stored in the RAM 503 of the computer 500.

ドライブ装置507は、記録媒体506の読み書きを行う。通信インタフェース508は、通信ネットワークとのインタフェースを提供する。入力装置509は、例えば、マウスやキーボード等であり、保守管理システムの管理者からの情報の入力を受け付ける。出力装置510は、例えば、ディスプレイであり、管理者へ情報を出力(表示)する。入出力インタフェース511は、周辺機器とのインタフェースを提供する。バス512は、これらハードウェアの各構成要素を接続する。なお、プログラム504は、通信ネットワークを介してCPU501に供給されてもよいし、予め、記録媒体506に格納され、ドライブ装置507により読み出され、CPU501に供給されてもよい。 The drive device 507 reads and writes the recording medium 506. The communication interface 508 provides an interface with a communication network. The input device 509 is, for example, a mouse, a keyboard, or the like, and receives input of information from the administrator of the maintenance management system. The output device 510 is, for example, a display, and outputs (displays) information to the administrator. The input / output interface 511 provides an interface with peripheral devices. Bus 512 connects each component of these hardware. The program 504 may be supplied to the CPU 501 via the communication network, or may be stored in the recording medium 506 in advance, read by the drive device 507, and supplied to the CPU 501.

なお、図10に示されているハードウェア構成は例示であり、これら以外の構成要素が追加されていてもよく、一部の構成要素を含まなくてもよい。 The hardware configuration shown in FIG. 10 is an example, and components other than these may be added or may not include some components.

各装置の実現方法には、様々な変形例がある。例えば、各装置は、構成要素毎にそれぞれ異なるコンピュータとプログラムとの任意の組み合わせにより実現されてもよい。また、各装置が備える複数の構成要素が、一つのコンピュータとプログラムとの任意の組み合わせにより実現されてもよい。 There are various modifications in the method of realizing each device. For example, each device may be realized by any combination of a computer and a program, which are different for each component. Further, a plurality of components included in each device may be realized by any combination of one computer and a program.

また、各装置の各構成要素の一部又は全部は、プロセッサ等を含む汎用又は専用の回路(circuitry)や、これらの組み合わせによって実現されてもよい。これらの回路は、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。 Further, a part or all of each component of each device may be realized by a general-purpose or dedicated circuitry including a processor or the like, or a combination thereof. These circuits may be composed of a single chip or a plurality of chips connected via a bus. A part or all of each component of each device may be realized by the combination of the circuit or the like and the program described above.

また、各装置の各構成要素の一部又は全部が複数のコンピュータや回路等により実現される場合、複数のコンピュータや回路等は、集中配置されてもよいし、分散配置されてもよい。 Further, when a part or all of each component of each device is realized by a plurality of computers, circuits, etc., the plurality of computers, circuits, etc. may be centrally arranged or distributed.

また、監視装置100の少なくとも一部がSaaS(Software as a Service)形式で提供されてよい。すなわち、監視装置100を実現するための機能の少なくとも一部が、ネットワーク経由で実行されるソフトウェアによって実行されてよい。 Further, at least a part of the monitoring device 100 may be provided in the SaaS (Software as a Service) format. That is, at least a part of the functions for realizing the monitoring device 100 may be executed by software executed via the network.

以上、実施形態を参照して本開示を説明したが、本開示は上記実施形態に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。また、各実施形態における構成は、本開示のスコープを逸脱しない限りにおいて、互いに組み合わせることが可能である。 Although the present disclosure has been described above with reference to the embodiments, the present disclosure is not limited to the above embodiments. Various changes that can be understood by those skilled in the art can be made to the structure and details of the present disclosure within the scope of the present disclosure. Also, the configurations in each embodiment can be combined with each other as long as they do not deviate from the scope of the present disclosure.

100 監視装置
101、121 取得部
102 算出部
103、122 決定部
120 算出装置
200 サーバラック
300 サーバ
400 温度センサ
500 コンピュータ
100 Monitoring device 101, 121 Acquisition unit 102 Calculation unit 103, 122 Decision unit 120 Calculation device 200 Server rack 300 Server 400 Temperature sensor 500 Computer

Claims (8)

サーバごとのハードウェア、稼働時間、及び、動作環境に起因する個体故障率を取得する取得手段と、
前記個体故障率に基づき、前記サーバに対する監視間隔を決定する決定手段と、
を備える監視装置。
An acquisition method for acquiring the individual failure rate due to the hardware, operating time, and operating environment of each server, and
A determination means for determining the monitoring interval for the server based on the individual failure rate, and
A monitoring device equipped with.
前記取得手段は、前記サーバごとのハードウェア監視情報、稼働時間、及び、サーバラック内の前記サーバの動作環境温度に基づく前記個体故障率を取得する、
請求項1に記載の監視装置。
The acquisition means acquires the individual failure rate based on the hardware monitoring information for each server, the operating time, and the operating environment temperature of the server in the server rack.
The monitoring device according to claim 1.
前記サーバごとのハードウェア監視情報、稼働時間、及び、前記サーバの動作環境温度に基づいて、前記個体故障率を算出する算出手段をさらに備える、
請求項1または2に記載の監視装置。
Further provided with a calculation means for calculating the individual failure rate based on the hardware monitoring information for each server, the operating time, and the operating environment temperature of the server.
The monitoring device according to claim 1 or 2.
前記決定手段は、前記個体故障率の増加に対応する前記監視間隔の減少傾向を示す関係モデルに基づいて、前記サーバごとに前記監視間隔を決定する、
請求項1乃至3のいずれか1項に記載の監視装置。
The determination means determines the monitoring interval for each server based on a relational model showing a decreasing tendency of the monitoring interval corresponding to an increase in the individual failure rate.
The monitoring device according to any one of claims 1 to 3.
前記決定手段は、
前記個体故障率が所定の基準故障率より高い場合、前記サーバの監視間隔を第1の監視間隔に決定し、
前記個体故障率が前記基準故障率より低い場合、前記サーバの監視間隔を第1の監視間隔より長い第2の監視間隔に決定する、
請求項1乃至4のいずれか1項に記載の監視装置。
The determination means is
When the individual failure rate is higher than a predetermined reference failure rate, the monitoring interval of the server is determined to be the first monitoring interval.
When the individual failure rate is lower than the reference failure rate, the monitoring interval of the server is determined to be a second monitoring interval longer than the first monitoring interval.
The monitoring device according to any one of claims 1 to 4.
前記決定手段は、さらに、前記監視間隔で監視する前記サーバの上限数に基づいて、前記監視間隔を決定する
請求項1乃至5のいずれか1項に記載の監視装置。
The monitoring device according to any one of claims 1 to 5, wherein the determination means further determines the monitoring interval based on the upper limit number of the servers monitored at the monitoring interval.
サーバごとのハードウェア、稼働時間、及び、動作環境に起因する個体故障率を取得し、
前記個体故障率に基づき、前記サーバに対する監視間隔を決定する、
監視方法。
Obtain the individual failure rate due to the hardware, operating time, and operating environment of each server.
The monitoring interval for the server is determined based on the individual failure rate.
Monitoring method.
サーバごとのハードウェア、稼働時間、及び、動作環境に起因する個体故障率を取得し、
前記個体故障率に基づき、前記サーバに対する監視間隔を決定する
処理をコンピュータに実行させるプログラム。
Obtain the individual failure rate due to the hardware, operating time, and operating environment of each server.
A program that causes a computer to execute a process of determining a monitoring interval for the server based on the individual failure rate.
JP2020199275A 2020-12-01 2020-12-01 Monitoring device, monitoring method, and program Pending JP2022087371A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020199275A JP2022087371A (en) 2020-12-01 2020-12-01 Monitoring device, monitoring method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020199275A JP2022087371A (en) 2020-12-01 2020-12-01 Monitoring device, monitoring method, and program

Publications (1)

Publication Number Publication Date
JP2022087371A true JP2022087371A (en) 2022-06-13

Family

ID=81975664

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020199275A Pending JP2022087371A (en) 2020-12-01 2020-12-01 Monitoring device, monitoring method, and program

Country Status (1)

Country Link
JP (1) JP2022087371A (en)

Similar Documents

Publication Publication Date Title
US6480809B1 (en) Computer system monitoring
JP4756675B2 (en) System, method and program for predicting computer resource capacity
JP6323821B2 (en) Server rack power management
US9870159B2 (en) Solid-state disk (SSD) management
JP4912127B2 (en) THROTTLE ADJUSTING METHOD AND SYSTEM IN BREAT COMPUTER SYSTEM
US9304565B2 (en) Information handling system power supply automated de-rating for power output and thermal constraints
US7181651B2 (en) Detecting and correcting a failure sequence in a computer system before a failure occurs
US10410502B2 (en) Method and apparatus for providing environmental management using smart alarms
EP3734413A1 (en) Method and system for supervising a health of a server infrastructure
US7349828B1 (en) Estimating an electronic device condition
US20090234484A1 (en) Method and apparatus for detecting multiple anomalies in a cluster of components
US20150120636A1 (en) Deriving an operational state of a data center using a predictive computer analysis model
US10860071B2 (en) Thermal excursion detection in datacenter components
US20190266037A1 (en) System and Method to Control Memory Failure Handling on Double-Data Rate Dual In-Line Memory Modules via Suspension of the Collection of Correctable Read Errors
KR20200068017A (en) Method for system power management and computing system thereof
CN116382439A (en) Control method and device of server fan, computer equipment and storage medium
CN111913656A (en) Computer storage node and method in distributed shared storage system
US20190266036A1 (en) System and Method to Control Memory Failure Handling on Double-Data Rate Dual In-Line Memory Modules
JP2022087371A (en) Monitoring device, monitoring method, and program
US10846184B2 (en) System and method to predict and prevent power supply failures based on data center environmental behavior
US10877539B2 (en) System and method to prevent power supply failures based on data center environmental behavior
JP2017037600A (en) Fault handling determination program, fault handling determination method, and state management apparatus
JP2013156942A (en) Information processing device
JP6206525B2 (en) Monitoring device, monitoring method and monitoring program
CN117312094A (en) Server hardware monitoring and collecting method based on time sequence analysis algorithm

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20211022

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231115