JP2022087371A - Monitoring device, monitoring method, and program - Google Patents
Monitoring device, monitoring method, and program Download PDFInfo
- Publication number
- JP2022087371A JP2022087371A JP2020199275A JP2020199275A JP2022087371A JP 2022087371 A JP2022087371 A JP 2022087371A JP 2020199275 A JP2020199275 A JP 2020199275A JP 2020199275 A JP2020199275 A JP 2020199275A JP 2022087371 A JP2022087371 A JP 2022087371A
- Authority
- JP
- Japan
- Prior art keywords
- server
- monitoring
- failure rate
- individual failure
- monitoring interval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 120
- 238000012806 monitoring device Methods 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims description 8
- 238000004364 calculation method Methods 0.000 claims abstract description 41
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 238000012423 maintenance Methods 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 5
- 230000005856 abnormality Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
Description
本開示は、サーバの監視に関する。 This disclosure relates to server monitoring.
インターネットで介した様々なサービスは、コンピュータにプログラムを導入したサーバを稼働させることで実現されている。しかしコンピュータは、常に安定して稼働しているわけではなく、思わぬ障害の発生によりサーバがダウンしたり動作が重くなることがある。サーバを常時監視して障害発生時に迅速な対応を取ることは安定したサービスを提供する上で重要となっている。 Various services via the Internet are realized by running a server with a program installed in a computer. However, the computer is not always running stably, and the server may go down or slow down due to an unexpected failure. It is important to constantly monitor the server and take prompt action in the event of a failure in order to provide stable services.
電子機器の障害の発生を検知するために、ネットワークを通じた電子機器の監視が行われている。特許文献1には、パーソナルコンピュータやサーバなどの保守管理対象装置、または、監視装置が、保守管理対象装置における障害の発生を通知することが開示されている。特許文献2には、プリンタなどの管理対象機器を使用状況に応じて所定の監視間隔で監視することが開示されている。
In order to detect the occurrence of a failure of an electronic device, the electronic device is monitored through a network.
なお、本開示に関連する技術として、特許文献3には、機器の累積的な運転状況の情報と、各機器に固有のパラメータを考慮して機器の異常の有無を判断する運用・保守支援システムが開示されている。
As a technique related to the present disclosure,
電子機器は温度や湿度などの動作環境によって故障率が変化する。しかし、特許文献2において、機器の動作環境を考慮して電子機器の監視の制御を行っていない。
The failure rate of electronic devices changes depending on the operating environment such as temperature and humidity. However, in
本開示は、サーバの動作環境を考慮して監視を制御する監視装置等を提供することを目的とする。 It is an object of the present disclosure to provide a monitoring device or the like that controls monitoring in consideration of the operating environment of the server.
本開示に係る監視装置は、サーバごとのハードウェア、稼働時間、及び、動作環境に起因する個体故障率を取得する取得手段と、前記個体故障率に基づき、前記サーバに対する監視間隔を決定する決定手段と、を備える。 The monitoring device according to the present disclosure determines the monitoring interval for the server based on the acquisition means for acquiring the individual failure rate due to the hardware, operating time, and operating environment for each server, and the individual failure rate. Means and.
本開示に係る監視方法は、サーバごとのハードウェア、稼働時間、及び、動作環境に起因する個体故障率を取得し、前記個体故障率に基づき、前記サーバに対する監視間隔を決定する。 The monitoring method according to the present disclosure acquires the individual failure rate due to the hardware, operating time, and operating environment for each server, and determines the monitoring interval for the server based on the individual failure rate.
本開示に係るプログラムは、サーバごとのハードウェア、稼働時間、及び、動作環境に起因する個体故障率を取得し、前記個体故障率に基づき、前記サーバに対する監視間隔を決定する処理をコンピュータに実行させる。 The program according to the present disclosure acquires the individual failure rate due to the hardware, operating time, and operating environment of each server, and executes a process of determining the monitoring interval for the server on the computer based on the individual failure rate. Let me.
本開示によれば、サーバの動作環境を考慮して監視を制御できる。 According to the present disclosure, monitoring can be controlled in consideration of the operating environment of the server.
本開示において、大規模システムを構成する複数の電子機器を保守管理のために監視する監視装置について説明する。被監視対象の電子機器の例として、サーバを監視する監視装置を例に、以下実施形態において図面を参照しながら説明する。ただし被監視対象には、サーバ以外の電子機器が含まれてもよい。 In this disclosure, a monitoring device for monitoring a plurality of electronic devices constituting a large-scale system for maintenance management will be described. As an example of the electronic device to be monitored, a monitoring device for monitoring a server will be taken as an example, and the following embodiments will be described with reference to the drawings. However, the monitored target may include electronic devices other than the server.
[第1実施形態]
(構成)
図1は、第1実施形態に係る保守管理システムの構成を示す概略図である。保守管理システムは、監視装置100と被監視対象となる1以上のサーバラック200(200_1、・・・、200_y)を備える。各サーバラック200は、1以上のサーバ300(300_1、300_2、・・・、300_x)と温度センサ400を備える。監視装置100は、ネットワーク010によって各サーバ300及び温度センサ400と、通信可能に接続される。サーバラック200ごとのサーバ300の台数は任意に変更されうる。
[First Embodiment]
(Constitution)
FIG. 1 is a schematic diagram showing a configuration of a maintenance management system according to the first embodiment. The maintenance management system includes a
監視装置100は、サーバ300における障害の発生の有無を監視する。第1実施形態において、監視装置100は、取得部101、算出部102、及び決定部103を備える。
The
取得部101は、サーバ300ごとのハードウェア監視情報、稼働情報、及び、動作環境に関する情報を取得する。ハードウェア監視情報は、サーバ300内部の各部品の異常傾向を判定するためのハードウェア監視データを示す。稼働情報は、例えば初期配置からの稼働時間、または使用年数など、サーバ300の稼働状況を示す。動作環境に関する情報は、例えばサーバラック200内の温度、または湿度、あるいはサーバ300の温度を示す情報である。さらに、取得部101は、算出部102が算出した、各サーバ300のハードウェア、稼働情報、及び、動作環境に基づく個体故障率を取得する。
The
算出部102は、取得部101が取得したハードウェア監視情報、稼働情報、及び、動作環境に関する情報に基づいて、サーバ300ごとに個体故障率Pを算出する。個体故障率Pの算出については後述する。
The
決定部103は、各サーバ300の個体故障率と監視間隔の関係モデルに基づいて、各サーバ300に対する監視間隔を決定する。監視間隔とは、監視装置100がサーバ300に対する障害の監視処理を実行した後、再度監視処理を実行するまでの時間間隔である。監視装置100は、監視処理として、例えば、サーバ300に対して入出力要求を送信し、入出力要求に対する応答時間が正常な範囲内であるか確認してもよい。あるいは、監視装置100は、監視処理として、サーバ300の各部品の監視データが正常な範囲内であるか確認してもよい。
The
個体故障率と監視間隔の関係モデルは、個体故障率の増加に対応する監視間隔の減少傾向を示してもよい。関係モデルは、個体故障率と監視間隔の関係式によって表されてもよく、テーブルにより表されてもよい。関係モデルは、目的変数をネットワーク負荷とし、説明変数として例えば、故障率、監視間隔、サーバ台数、及びネットワーク帯域を用いた、機械学習によって得られてもよい。 The relationship model between the individual failure rate and the monitoring interval may show a decreasing tendency of the monitoring interval corresponding to the increase in the individual failure rate. The relational model may be represented by a relational expression between the individual failure rate and the monitoring interval, or may be represented by a table. The relational model may be obtained by machine learning with the objective variable as the network load and, for example, the failure rate, the monitoring interval, the number of servers, and the network bandwidth as the explanatory variables.
第1実施形態において、温度センサ400は、サーバラック200内の温度を測定する。温度センサ400は、測定温度をサーバラック200内のサーバ300_1、・・・、300_xの動作環境に関する情報として、監視装置100に送信する。
In the first embodiment, the
動作環境に関する情報として、各サーバ300の温度を用いる場合、1台のサーバ300ごとに1つの温度センサ400が設置されてもよい。温度センサ400は各サーバの測定温度を監視装置100に送信する。
When the temperature of each
サーバラック200内には、取得部101が取得する動作環境に関する情報の種類に応じて、他のセンサが設置されうる。動作環境に関する情報として湿度を用いる場合、以下の説明において温度センサ400に関する説明は湿度センサに置き換えることができる。
In the server rack 200, other sensors may be installed depending on the type of information regarding the operating environment acquired by the
図2は、サーバ300のハードウェア概略図である。CPU(Central Processing Unit)301、メモリ302、HDD(hard disk drive)303、イーサポート304、及び、BMC(Baseboard Management Controller)309を備える。BMC309は、サーバ300のハードウェア(サーバ300内部に構成する各部品、要素)からの監視データを取得し、ハードウェア監視情報として監視装置100に送信する。
FIG. 2 is a schematic hardware diagram of the
(動作)
図3は、保守管理システムの動作例を示すシーケンス図である。図3において、簡略化のためにサーバ300は1台だけ示されているが、各サーバ300は同様に動作する。
(motion)
FIG. 3 is a sequence diagram showing an operation example of the maintenance management system. In FIG. 3, only one
<<ハードウェアに起因する故障率の算出>>
監視装置100の取得部101は、ネットワーク010とBMC309を介して、サーバ300からハードウェア監視情報を取得する。算出部102は、取得部101が取得した監視情報に基づいてハードウェアに起因する故障率Phを算出する(ステップS101)。
<< Calculation of failure rate due to hardware >>
The
ハードウェアに起因する故障率Phとは、個々の装置の故障の起こり得る確率である。故障率Phは、例えば0から1(あるいは0%から100%)の間で算出される。 The failure rate Ph due to hardware is the probability of failure of individual devices. The failure rate Ph is calculated, for example, between 0 and 1 (or 0% to 100%).
ハードウェア監視情報は、CPU301、メモリ302、HDD303、イーサポート304、電源など、複数の監視対象部品に対応するそれぞれの監視データを含む。CPU301に関する監視データは、例えば、CPUの使用率及び温度である。メモリ302に関する監視データとして、例えば、ECC(Error checking and correcting)におけるエラーの回数が用いられる。HDD303に関する監視データとして、例えばSMART(Self-Monitoring, Analysis and Reporting Technology)による検査値が用いられる。電源に関する監視データは、例えば電源の冗長化状態を示す。
The hardware monitoring information includes monitoring data corresponding to a plurality of monitored components such as
算出部102は、例えば、ハードウェアの故障対象部品ごとに取得された監視データの値に基づいて異常傾向の有無を判定する。算出部102は、監視データが所定の閾値を超えたとき、部品に異常傾向があると判定する。あるいは、算出部102は、部品の監視データの値に基づいて算出した部品の故障率が所定の閾値以上である場合に、該部品に異常傾向があると判定してもよい。監視情報が100個の部品に関する情報を含む場合、算出部102は、例えば、異常傾向のある部品の数だけ故障率Phを+0.01(あるいは+1%)増加させる。なお、監視情報に含まれる部品の重要度や計測されたデータの値に基づいて、増加させる故障率Phは部品ごとに調整されてもよい。
The
<<動作環境に起因する故障率の算出>>
監視装置100の取得部101は、サーバ300の動作環境に関する情報として、サーバラック200に設置された温度センサ400の測定温度を取得する。算出部102は、取得部101が取得した温度に基づいて動作環境に起因する故障率Peを算出する(ステップS102)。
<< Calculation of failure rate due to operating environment >>
The
動作環境に起因する故障率Peとは、サーバ300が設置される環境と安定稼働条件との差異に基づいて算出される故障の確率である。故障率Peは例えば0から1(0%から100%)の間で算出される。
The failure rate Pe due to the operating environment is the probability of failure calculated based on the difference between the environment in which the
算出部102は、例えば、温度が稼働想定温度の中央値であれば0(あるいは0%)、温度上限値以上であれば1(あるいは100%)、温度下限値以下であれば1(あるいは100%)と算出する。算出部102は、動作環境温度の変化率、温度の継続時間、または、所定の上限値若しくは下限値を超えた回数を考慮し、故障率Peを算出してもよい。
The
なお、取得部101は、外部装置からサーバ300が配置されたサーバルームの温度分布を取得してもよい。取得部101は、サーバルームの温度分布とサーバ300の配置に基づいて、各サーバ300の動作環境温度を取得してもよい。
The
<<稼働時間に起因する故障率の算出>>
サーバ300は初期配置からの合計稼働時間(合計通電時間)を記録、蓄積する。取得部101は、サーバ300からサーバ300の稼働時間を稼働情報として取得する。算出部102は、稼働時間に基づいて故障率Ptを算出する(ステップS103)。
<< Calculation of failure rate due to operating time >>
The
稼働時間に起因する故障率Ptとは、合計稼働時間に起因するサーバ300の寿命特性を示す装置のバスタブ曲線に基づいて算出される故障の確率である。故障率Ptは、未使用状態で0(0%)、稼働時間上限値を1(100%)とする。
The failure rate Pt due to the operating time is the probability of failure calculated based on the bathtub curve of the device showing the life characteristic of the
<<個体故障率Pの算出と取得>>
算出部102は、それぞれのサーバ300に対して算出されたハードウェアに起因する故障率Ph、動作環境に起因する故障率Pe、及び、稼働時間に起因する故障率Ptを総合的に考慮して、個体故障率Pを算出する(ステップS104)。取得部101は、算出部102が算出した個体故障率Pを取得する(ステップS105)。
<< Calculation and acquisition of individual failure rate P >>
The
ステップS101~103の順番は変更可能である。 The order of steps S101 to 103 can be changed.
個体故障率Pの算出例1:算出部102は、3つの故障率Ph,Pe,Ptに優先順位や重みづけをつけてもよい。個体故障率Pは例えば以下の式で表される。
P=Wh×Ph+We×Pe+Wt×Pt (重み付け定数Wh,We,Wt>0)
個体故障率Pの算出例2:算出部102は、故障率Ph及びPtが所定値まで増加したとき、故障率Peの重みWeを小さく設定してもよい。つまり、ハードウェアに起因する故障率Phと稼働時間に起因する故障率Ptが高いサーバは、動作環境に起因する故障率Peが低くても、個体故障率Pを高く算出してもよい。これによりサーバは短い監視間隔で監視される。
Calculation example of individual failure rate P 1: The
P = W h x P h + We x P e + W t x P t ( weighting constants W h , We , W t > 0)
Calculation Example 2: Individual Failure Rate P: When the failure rates Ph and P t increase to a predetermined value, the
<<監視間隔の決定>>
決定部103は、サーバ300の個体故障率と監視間隔の関係モデルに基づいて、サーバ300に対する監視間隔を決定する(ステップS106)。図4は、関係モデルの例を示すグラフである。図4において、個体故障率Pと監視間隔Iの関係モデルは直線により表されているが、曲線であってもよい。また図4において、個体故障率の増加に伴い、監視間隔Iは連続した値が設定されているが、監視間隔Iは非連続(離散的)であってもよい。監視間隔Iは個体故障率Pの範囲によって、異なる関係式により表されてもよい。
<< Determination of monitoring interval >>
The
個体故障率Pが100に近いほど、監視間隔Iは一般的な監視装置の通常の監視間隔よりも短く定められてもよい。また、個体故障率Pが0に近いほど、監視間隔Iは一般的な監視装置の通常の監視間隔よりも長く定められてもよい。 As the individual failure rate P approaches 100, the monitoring interval I may be set shorter than the normal monitoring interval of a general monitoring device. Further, as the individual failure rate P is closer to 0, the monitoring interval I may be set longer than the normal monitoring interval of a general monitoring device.
監視装置100は、サーバ300ごとに決定された監視間隔によりサーバ300を監視する。
The
(効果)
第1実施形態によれば、サーバ300の動作環境を考慮して監視を制御できる。その理由は、監視装置100の取得部101がサーバごとのハードウェア、稼働時間、及び、動作環境に起因する個体故障率を取得し、決定部103が個体故障率に基づきサーバ300に対する監視間隔を決定するためである。
(effect)
According to the first embodiment, monitoring can be controlled in consideration of the operating environment of the
システムの保守管理において、1つの監視装置により多くの電子機器を監視することが行われている。システムの規模が大きくなればなるほど被監視対象の電子機器が増える。また、監視項目が一つ増えるたびに電子機器の台数分のアクセスが増えるためネットワーク負荷、及び、監視装置の負荷が増加する。そのため、大きなシステムでは監視間隔を一律に長くすることにより、ネットワーク負荷、監視装置の負荷を下げることが行われる。 In system maintenance, many electronic devices are monitored by one monitoring device. As the scale of the system increases, the number of electronic devices to be monitored increases. Further, each time the number of monitoring items is increased, the access for the number of electronic devices increases, so that the network load and the load of the monitoring device increase. Therefore, in a large system, the network load and the load of the monitoring device can be reduced by uniformly increasing the monitoring interval.
しかし、監視間隔が長いと、障害発生から監視装置が障害を検出するまでの時間が長くなる。即時に障害を検出できなければ、システム全体の稼働率を下げ、さらには、サービス品質の低下につながる。 However, if the monitoring interval is long, the time from the occurrence of the failure to the detection of the failure by the monitoring device becomes long. If a failure cannot be detected immediately, the utilization rate of the entire system will be reduced, and the quality of service will be reduced.
第1実施形態によれば、決定部103が、所定の故障率の基準より個体故障率Pが低いサーバ300の監視間隔を所定の監視間隔の基準より長く決定することで、多くのサーバを監視する際のネットワーク010の負荷を低減し、監視負荷を低減できる。
According to the first embodiment, the
さらに、第1実施形態によれば、決定部103が、所定の故障率の基準より個体故障率Pが高いサーバ300の監視間隔を所定の監視間隔の基準よりも短くすることで、実際の障害発生から監視装置100が障害を検知するまでの時間を短くし、障害の検知の遅延を防ぐことができる。
Further, according to the first embodiment, the
(変形例)
図5は、関係モデルの他の例を示すグラフである。図5において、関係モデルは個体故障率Pが基準故障率P0より小さいか、基準故障率P0以上であるかによって、異なる関係式により表されている。
(Modification example)
FIG. 5 is a graph showing another example of the relational model. In FIG. 5, the relational model is represented by a different relational expression depending on whether the individual failure rate P is smaller than the reference failure rate P 0 or greater than or equal to the reference failure rate P 0 .
P≦P0のとき、I=IA
0<P<P0のとき、I=IB
図5の例において、例えば、監視間隔IAは2~3分、監視間隔IBは1時間と定められてもよい。決定部103は、例えば、所定期間における各サーバラック200の各サーバ300_1、300_2、・・・、300_xの個体故障率の平均値、あるいは中央値を基準故障率P0としてもよい。また、決定部103は、基準故障率P0は上述の機械学習を用いて設定されてよい。
When P ≤ P 0 , I = IA
When 0 <P < P 0 , I = IB
In the example of FIG. 5, for example, the monitoring interval IA may be set to 2 to 3 minutes, and the monitoring interval IB may be set to 1 hour. For example, the
[第2実施形態]
第1実施形態において、監視装置100が個体故障率Pを算出する算出部を備える場合について説明した。第2実施形態において、他の装置が第1実施形態に係る算出部102の機能を有し、監視装置100が、算出装置によって算出された個体故障率Pを取得する場合について説明する。第1実施形態と同様の説明は、第2実施形態の説明において省略する。
[Second Embodiment]
In the first embodiment, the case where the
(構成)
図6は、第2実施形態に係る監視装置100の構成を示すブロック図である。第2実施形態に係る監視装置100は、取得部121と決定部122を備える。第2実施形態に係る監視装置100は、図1における監視装置100と置き換えることができる。
(Constitution)
FIG. 6 is a block diagram showing the configuration of the
図7は、算出装置120の配置例を示す、第2実施形態に係る保守管理システムの概略図である。図7に示すように、1台の確率算出装置120が、監視装置100、各サーバラック200の各サーバ300及び温度センサ400と通信可能に接続されてもよい。算出装置120は、各サーバ300からハードウェア監視情報と、稼働情報を取得し、温度センサ400から動作環境に関する情報を取得する。
FIG. 7 is a schematic diagram of the maintenance management system according to the second embodiment, showing an arrangement example of the
監視装置100の取得部121は、外部の算出装置120から、各サーバ300のハードウェア、稼働情報、及び、動作環境に基づく個体故障率を取得する。
The
決定部122は、各サーバ300の個体故障率に基づいて、サーバに対する監視間隔を決定する。
The
決定部122は、個体故障率が所定の基準故障率より高い場合、サーバ300の監視間隔を第1の監視間隔に決定し、個体故障率が該基準故障率より低い場合、サーバ300の監視間隔を第1の監視間隔より長い第2の監視間隔に決定してもよい。個体故障率が基準故障率と等しい場合、決定部122は、監視間隔を第1の監視間隔以上であり第2の監視間隔以下の任意の時間に決定する。
The
個体故障率と決定部122により決定される監視間隔の関係は、図4、または、図5のグラフにより示されてもよい。図8は、個体故障率と決定される監視間隔の関係の他の例を示すグラフである。図8において、基準故障率P1~P4に対応して、監視間隔I1~I5が決定される。基準故障率P1~P4はそれぞれ、所定の基準故障率の一実施形態である。監視間隔I1~I5はそれぞれ第1または第2の監視間隔の一実施形態である。
The relationship between the individual failure rate and the monitoring interval determined by the
監視装置100は、決定した監視間隔によりサーバ300を監視する。あるいは、監視装置100は、図示しない他の監視処理実行装置に決定した監視間隔を送信し、監視処理実行装置にサーバ300を監視させる。
The
図7において、1台の算出装置120が配置されているが、算出装置120は1台のサーバラック200ごとに1台配置されてもよい。このとき、算出装置120はサーバラック200内の各サーバ300の個体故障率を算出する。あるいは、算出装置120の機能は、各サーバ300が備えてもよい。このとき、各サーバ300は温度センサ400から動作環境に関する情報を取得し、自装置の個体故障率を算出する。監視装置100は複数の算出装置120のそれぞれから各サーバ300の個体故障率を取得する。
In FIG. 7, one
(動作)
図9は、第2実施形態に係る監視装置100の動作例を示すフローチャートである。取得部121は、サーバ300ごとのハードウェア、稼働時間、及び、動作環境に起因する個体故障率を取得する(ステップS121)。決定部122は、各サーバ300の個体故障率に基づいて、サーバ300に対する監視間隔を決定する(ステップS122)。
(motion)
FIG. 9 is a flowchart showing an operation example of the
(効果)
第2実施形態によれば、サーバ300の動作環境を考慮して監視を制御できる。その理由は、監視装置100の取得部121がサーバごとのハードウェア、稼働時間、及び、動作環境に起因する個体故障率を取得し、決定部122が個体故障率に基づきサーバ300に対する監視間隔を決定するためである。
(effect)
According to the second embodiment, monitoring can be controlled in consideration of the operating environment of the
(変形例)
決定部122は、個体故障率に加えて、さらに、監視間隔ごとのサーバ300の台数の割合、あるいは上限数に基づいて、サーバに対する監視間隔を決定してもよい。すなわち、決定部122は、例えば、第1の監視間隔で監視するサーバ300が所定の上限数に達した場合、残りのサーバ300はより長い第2の監視間隔で監視されるよう、基準故障率を決定する。
(Modification example)
In addition to the individual failure rate, the
本変形例によれば、多くのサーバを監視する際のネットワークの負荷を低減し、監視負荷を低減する要請と、実際の障害発生から監視装置100が障害を検知するまでの時間を短くし、障害の検知の遅延を防ぐ要請の両方に応えることができる。
According to this modification, the request to reduce the network load and the monitoring load when monitoring many servers, and the time from the actual occurrence of the failure to the detection of the failure by the
[ハードウェア構成]
上述した各実施形態において、監視装置100の各構成要素は、機能単位のブロックを示している。各装置の各構成要素の一部又は全部は、コンピュータ500とプログラムとの任意の組み合わせにより実現されてもよい。
[Hardware configuration]
In each of the above-described embodiments, each component of the
図10は、コンピュータ500のハードウェア構成の例を示すブロック図である。図10を参照すると、コンピュータ500は、例えば、CPU(Central Processing Unit)501、ROM(Read Only Memory)502、RAM(Random Access Memory)503、プログラム504、記憶装置505、ドライブ装置507、通信インタフェース508、入力装置509、入出力インタフェース511、及び、バス512を含む。
FIG. 10 is a block diagram showing an example of the hardware configuration of the
プログラム504は、各装置の各機能を実現するための命令(instruction)を含む。プログラム504は、予め、ROM502やRAM503、記憶装置505に格納される。CPU501は、プログラム504に含まれる命令を実行することにより、各装置の各機能を実現する。例えば、監視装置100のCPU501がプログラム504に含まれる命令を実行することにより、監視装置100の機能を実現する。また、RAM503は、各装置の各機能において処理されるデータを記憶してもよい。例えば、コンピュータ500のRAM503に、監視装置100の算出部102が用いるハードウェア監視情報、動作環境温度を記憶してもよい。
The
ドライブ装置507は、記録媒体506の読み書きを行う。通信インタフェース508は、通信ネットワークとのインタフェースを提供する。入力装置509は、例えば、マウスやキーボード等であり、保守管理システムの管理者からの情報の入力を受け付ける。出力装置510は、例えば、ディスプレイであり、管理者へ情報を出力(表示)する。入出力インタフェース511は、周辺機器とのインタフェースを提供する。バス512は、これらハードウェアの各構成要素を接続する。なお、プログラム504は、通信ネットワークを介してCPU501に供給されてもよいし、予め、記録媒体506に格納され、ドライブ装置507により読み出され、CPU501に供給されてもよい。
The
なお、図10に示されているハードウェア構成は例示であり、これら以外の構成要素が追加されていてもよく、一部の構成要素を含まなくてもよい。 The hardware configuration shown in FIG. 10 is an example, and components other than these may be added or may not include some components.
各装置の実現方法には、様々な変形例がある。例えば、各装置は、構成要素毎にそれぞれ異なるコンピュータとプログラムとの任意の組み合わせにより実現されてもよい。また、各装置が備える複数の構成要素が、一つのコンピュータとプログラムとの任意の組み合わせにより実現されてもよい。 There are various modifications in the method of realizing each device. For example, each device may be realized by any combination of a computer and a program, which are different for each component. Further, a plurality of components included in each device may be realized by any combination of one computer and a program.
また、各装置の各構成要素の一部又は全部は、プロセッサ等を含む汎用又は専用の回路(circuitry)や、これらの組み合わせによって実現されてもよい。これらの回路は、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。 Further, a part or all of each component of each device may be realized by a general-purpose or dedicated circuitry including a processor or the like, or a combination thereof. These circuits may be composed of a single chip or a plurality of chips connected via a bus. A part or all of each component of each device may be realized by the combination of the circuit or the like and the program described above.
また、各装置の各構成要素の一部又は全部が複数のコンピュータや回路等により実現される場合、複数のコンピュータや回路等は、集中配置されてもよいし、分散配置されてもよい。 Further, when a part or all of each component of each device is realized by a plurality of computers, circuits, etc., the plurality of computers, circuits, etc. may be centrally arranged or distributed.
また、監視装置100の少なくとも一部がSaaS(Software as a Service)形式で提供されてよい。すなわち、監視装置100を実現するための機能の少なくとも一部が、ネットワーク経由で実行されるソフトウェアによって実行されてよい。
Further, at least a part of the
以上、実施形態を参照して本開示を説明したが、本開示は上記実施形態に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。また、各実施形態における構成は、本開示のスコープを逸脱しない限りにおいて、互いに組み合わせることが可能である。 Although the present disclosure has been described above with reference to the embodiments, the present disclosure is not limited to the above embodiments. Various changes that can be understood by those skilled in the art can be made to the structure and details of the present disclosure within the scope of the present disclosure. Also, the configurations in each embodiment can be combined with each other as long as they do not deviate from the scope of the present disclosure.
100 監視装置
101、121 取得部
102 算出部
103、122 決定部
120 算出装置
200 サーバラック
300 サーバ
400 温度センサ
500 コンピュータ
100
Claims (8)
前記個体故障率に基づき、前記サーバに対する監視間隔を決定する決定手段と、
を備える監視装置。 An acquisition method for acquiring the individual failure rate due to the hardware, operating time, and operating environment of each server, and
A determination means for determining the monitoring interval for the server based on the individual failure rate, and
A monitoring device equipped with.
請求項1に記載の監視装置。 The acquisition means acquires the individual failure rate based on the hardware monitoring information for each server, the operating time, and the operating environment temperature of the server in the server rack.
The monitoring device according to claim 1.
請求項1または2に記載の監視装置。 Further provided with a calculation means for calculating the individual failure rate based on the hardware monitoring information for each server, the operating time, and the operating environment temperature of the server.
The monitoring device according to claim 1 or 2.
請求項1乃至3のいずれか1項に記載の監視装置。 The determination means determines the monitoring interval for each server based on a relational model showing a decreasing tendency of the monitoring interval corresponding to an increase in the individual failure rate.
The monitoring device according to any one of claims 1 to 3.
前記個体故障率が所定の基準故障率より高い場合、前記サーバの監視間隔を第1の監視間隔に決定し、
前記個体故障率が前記基準故障率より低い場合、前記サーバの監視間隔を第1の監視間隔より長い第2の監視間隔に決定する、
請求項1乃至4のいずれか1項に記載の監視装置。 The determination means is
When the individual failure rate is higher than a predetermined reference failure rate, the monitoring interval of the server is determined to be the first monitoring interval.
When the individual failure rate is lower than the reference failure rate, the monitoring interval of the server is determined to be a second monitoring interval longer than the first monitoring interval.
The monitoring device according to any one of claims 1 to 4.
請求項1乃至5のいずれか1項に記載の監視装置。 The monitoring device according to any one of claims 1 to 5, wherein the determination means further determines the monitoring interval based on the upper limit number of the servers monitored at the monitoring interval.
前記個体故障率に基づき、前記サーバに対する監視間隔を決定する、
監視方法。 Obtain the individual failure rate due to the hardware, operating time, and operating environment of each server.
The monitoring interval for the server is determined based on the individual failure rate.
Monitoring method.
前記個体故障率に基づき、前記サーバに対する監視間隔を決定する
処理をコンピュータに実行させるプログラム。 Obtain the individual failure rate due to the hardware, operating time, and operating environment of each server.
A program that causes a computer to execute a process of determining a monitoring interval for the server based on the individual failure rate.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020199275A JP2022087371A (en) | 2020-12-01 | 2020-12-01 | Monitoring device, monitoring method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020199275A JP2022087371A (en) | 2020-12-01 | 2020-12-01 | Monitoring device, monitoring method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022087371A true JP2022087371A (en) | 2022-06-13 |
Family
ID=81975664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020199275A Pending JP2022087371A (en) | 2020-12-01 | 2020-12-01 | Monitoring device, monitoring method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022087371A (en) |
-
2020
- 2020-12-01 JP JP2020199275A patent/JP2022087371A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6480809B1 (en) | Computer system monitoring | |
JP4756675B2 (en) | System, method and program for predicting computer resource capacity | |
JP6323821B2 (en) | Server rack power management | |
US20200379529A1 (en) | Method and system for supervising a health of a server infrastructure | |
US9870159B2 (en) | Solid-state disk (SSD) management | |
JP4912127B2 (en) | THROTTLE ADJUSTING METHOD AND SYSTEM IN BREAT COMPUTER SYSTEM | |
US9304565B2 (en) | Information handling system power supply automated de-rating for power output and thermal constraints | |
US10410502B2 (en) | Method and apparatus for providing environmental management using smart alarms | |
US7181651B2 (en) | Detecting and correcting a failure sequence in a computer system before a failure occurs | |
US7349828B1 (en) | Estimating an electronic device condition | |
US20090234484A1 (en) | Method and apparatus for detecting multiple anomalies in a cluster of components | |
US10860071B2 (en) | Thermal excursion detection in datacenter components | |
KR102140219B1 (en) | Method for system power management and computing system thereof | |
US20190266037A1 (en) | System and Method to Control Memory Failure Handling on Double-Data Rate Dual In-Line Memory Modules via Suspension of the Collection of Correctable Read Errors | |
CN116382439A (en) | Control method and device of server fan, computer equipment and storage medium | |
CN111913656A (en) | Computer storage node and method in distributed shared storage system | |
US10761919B2 (en) | System and method to control memory failure handling on double-data rate dual in-line memory modules | |
JP2022087371A (en) | Monitoring device, monitoring method, and program | |
US10846184B2 (en) | System and method to predict and prevent power supply failures based on data center environmental behavior | |
US10877539B2 (en) | System and method to prevent power supply failures based on data center environmental behavior | |
JP2017037600A (en) | Fault handling determination program, fault handling determination method, and state management apparatus | |
JP2013156942A (en) | Information processing device | |
CN117312094A (en) | Server hardware monitoring and collecting method based on time sequence analysis algorithm | |
WO2024091559A1 (en) | Neural point process-based event prediction for medical decision making | |
JP6209138B2 (en) | Operation management server, operation program, and server operation method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20211022 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231115 |