JP2019158617A - 異常検出装置、情報処理装置、監視システム、異常検出方法及びプログラム - Google Patents

異常検出装置、情報処理装置、監視システム、異常検出方法及びプログラム Download PDF

Info

Publication number
JP2019158617A
JP2019158617A JP2018045960A JP2018045960A JP2019158617A JP 2019158617 A JP2019158617 A JP 2019158617A JP 2018045960 A JP2018045960 A JP 2018045960A JP 2018045960 A JP2018045960 A JP 2018045960A JP 2019158617 A JP2019158617 A JP 2019158617A
Authority
JP
Japan
Prior art keywords
vibration
vibration data
abnormality detection
abnormality
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018045960A
Other languages
English (en)
Inventor
貴史 大平
Takashi Ohira
貴史 大平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Platforms Ltd
Original Assignee
NEC Platforms Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Platforms Ltd filed Critical NEC Platforms Ltd
Priority to JP2018045960A priority Critical patent/JP2019158617A/ja
Publication of JP2019158617A publication Critical patent/JP2019158617A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Testing Of Devices, Machine Parts, Or Other Structures Thereof (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

【課題】情報処理装置が故障する前に、その予兆を検出する異常検出装置を提供する。【解決手段】異常検出装置は、情報処理装置が備える振動発生源となる第1部品の振動状態を示す第1振動データと、振動発生源ではない第2部品の振動状態を示す第2振動データと、に基づいて前記第1部品の異常を検出する異常検出部、を備える。【選択図】図1

Description

本発明は、異常検出装置、情報処理装置、監視システム、異常検出方法及びプログラムに関する。
装置の部品にセンサを設け、各センサが検出したセンサ情報に基づいて、装置の故障などを監視する監視端末装置が提供されている。例えば、特許文献1には、監視対象に設けられた温度センサや照明センサなどの各種センサが検出した結果を、センサ別に設定された所定の閾値に基づいて判定し、監視対象の状態を特定する監視端末装置が開示されている。特許文献1の監視端末装置は、センサが異常値を検出すると、例えば、計測間隔を短くするなどセンサの計測条件を変更する。特許文献1の監視端末装置では、各センサと監視対象の状態とがパターン化されて予め対応付けられている。そして、あるセンサの検出結果が閾値を超えていれば、監視端末装置は、監視対象がそのセンサに対応付けられた状態にあると判定する。
また、特許文献2には、複数の振動センサが検出した振動データを所定の時間分保存し、振動データが所定の判定値を超えた場合に振動センサへ振動データの保存を要求し、保存された振動データを解析する遠隔振動監視端末装置が記載されている。この遠隔振動監視端末装置では、振動データの保存を要求する際に、保存要求を行う解析装置から各振動センサへの通信時間を考慮し、その通信時間分手前の振動データを保存するよう各振動センサへ要求する。特許文献2に記載の遠隔振動監視端末装置を用いると、例えば、複数の振動センサが広範囲にわたって設置されていて、各振動センサと解析装置との間の通信時間が異なる場合でも、各振動センサから異常発生時刻と同期した振動データを収集することができ、振動発生の分析が可能となる。
特開2011−059873号公報 特許第4257305号公報
サーバ等の情報処理装置は、故障が生じてから対処する運用となっていることが多い。搭載部品に故障が生じると、サーバは停止する。サーバが停止すると、業務上の損失やデータ破壊などが生じるおそれがある。その為、実際に故障が生じる前に故障の予兆を検出する方法が求められている。なお、特許文献1、特許文献2には、サーバの搭載部品に関する故障の予兆を検出する技術が開示されていない。
そこでこの発明は、上述の課題を解決する異常検出装置、情報処理装置、監視システム、異常検出方法及びプログラムを提供することを目的としている。
本発明の一態様によれば、情報処理装置が備える振動発生源となる第1部品の振動状態を示す第1振動データと、振動発生源ではない第2部品の振動状態を示す第2振動データと、に基づいて前記第1部品の異常を検出する異常検出部、を備える異常検出装置である。
本発明の一態様によれば、上記の異常検出装置を備える情報処理装置である。
本発明の一態様によれば、上記の異常検出装置を少なくとも1台と、前記異常検出装置が送信した異常情報を受信する監視端末装置と、を備える監視システムである。
本発明の一態様によれば、情報処理装置が備える振動発生源となる第1部品の振動状態を示す第1振動データと、振動発生源ではない第2部品の振動状態を示す第2振動データと、に基づいて前記第1部品の異常を検出するステップ、を有する異常検出方法である。
本発明の一態様によれば、コンピュータを、情報処理装置が備える振動発生源となる第1部品の振動状態を示す第1振動データと、振動発生源ではない第2部品の振動状態を示す第2振動データと、に基づいて前記第1部品の異常を判定する手段、として機能させるためのプログラムである。
本発明の異常検出装置によれば、情報処理装置が故障する前に、その予兆を検出することができる。
本発明の第一実施形態による異常検出装置の最小構成を示す図である。 本発明の第一実施形態による異常検出装置の一例を示す概要図である。 本発明の第一実施形態による情報処理装置の一例を示す機能ブロック図である。 本発明の第一実施形態による1台の情報処理装置についての異常検出処理の一例を示すフローチャートである。 本発明の第一実施形態による振動センサの検出結果の一例を示す図である。 本発明の第二実施形態による監視システムの一例を示す第1の図である。 本発明の第二実施形態による監視システムの一例を示す第2の図である。 本発明の第二実施形態による複数台の情報処理装置についての異常検出処理の一例を示すフローチャートである。 本発明の各実施形態における異常検出装置および監視端末装置のハードウェア構成の一例を示す図である。
以下、本発明の実施形態による異常検出方法について図1〜図9を参照して説明する。
<第一実施形態>
図1は、本発明の第一実施形態による異常検出装置の最小構成を示す図である。
図示するように異常検出装置20は、少なくとも異常検出部22を備える。
異常検出部22は、サーバ等の情報処理装置が備える振動発生源となる第1部品の振動状態を示す第1振動データと、振動発生源ではない第2部品の振動状態を示す第2振動データと、に基づいて前記第1部品の異常を検出する。
振動発生源となる第1部品とは、情報処理装置の筐体に格納される、例えば、HDD(hard disk drive)、ファン(FAN)モジュール、電源ユニット等である。これらは、回転機構を備えており、回転による振動を発生させる部品である。電源ユニットにはファンが設けられ、ファンやファンを回転駆動するモータが回転する。また、第1部品は、これらに限らず振動を生じる部品であれば、どのような部品であってもかまわない。また、第1部品は、上記した部品やDVDドライブ等の回転機構を備える部品に限らず、ばね等の弾性体を備える部品、可動機構を備える部品であってもよい。
振動発生源ではない第2部品とは、それ自体が振動を発生させない部品である。第2部品は、例えば、マザーボード、LAN(local area network)カード等の通信モジュール、筐体等である。
異常検出部22は、第1部品および第2部品に設けられた振動センサが検出した振動データを監視して、第1部品に生じる異常を検出する。第1部品の故障や寿命の前段階では、回転数のばらつき、回転軸の振動、振動が大きくなる等により、その兆候が表れることが多い。異常検出部22は、これらの兆候のうち振動状態に基づいて、第1部品の異常を検出する。また、異常検出部22は、第1部品の異常な振動状態を検出すると、他の第1部品や第2部品の振動状態と比較する。異常検出部22は、他の第1部品や第2部品の振動状態が異常でなければ、異常な振動状態を検出した第1部品が異常であると判定する。他の第1部品や第2部品の振動状態も異常であれば、異常な振動状態の原因が、情報処理装置の外に存在すると判定する。
このような判定により、異常検出装置20は、第1部品に故障が生じる前に保守の必要性や交換等が必要な部品を保守担当者に通知することができる。また、情報処理装置が設置された環境で生じた振動が原因で、情報処理装置に振動が生じた場合、例えば、HDDへのリード/ライト処理に不具合が生じることがあるが、振動の原因が外部にあると検出することで、情報処理装置の不具合の原因を特定できる可能性がある。
(1台のサーバの監視)
次に図2、図3を参照して、本実施形態に係る監視コントローラ(異常検出装置)20およびサーバ(情報処理装置)100の構成、機能について説明する。
図2は、本発明の第一実施形態による情報処理装置の一例を示す概要図である。
図2に示すようにサーバ100は、HDDベイ1と、HDDベイ2と、HDDベイ3と、FANモジュール4と、電源ユニット5と、基盤(MB:マザーボード)6とを備える。図2は、サーバ100を上方から見た図である。紙面左側をサーバ100の前方、紙面上側をサーバ100の右方とする。HDDベイ1、HDDベイ2、HDDベイ3は、サーバ100の前方の右方からこの順番で配置されている。FANモジュール4は、サーバ100の中央に配置され、MB6は、その後方に配置される。電源ユニット5は、MB6の右方に隣接して配置されている。
振動を検出するために、例えば、以下の要領で部品に振動センサを取り付ける。HDDベイには、各1個ずつ振動センサを取り付ける。FANモジュールには、モジュール単位で振動センサを取り付ける。電源ユニットについては、電源ユニット単位で電源ユニット近傍のMB上に振動センサを取り付ける。MBには装置中央と後方に振動センサを取り付ける。
HDDベイ1には振動センサ11が設けられている。HDDベイ2には振動センサ12が設けられている。HDDベイ3には振動センサ13が設けられている。FANモジュール4には振動センサ14が設けられている。MB6には振動センサ15,振動センサ16a,振動センサ16bが設けられている。振動センサ15は、MB6上の電源ユニット5の近くに設けられている。振動センサ16aは、サーバ100の中央付近に設けられている。振動センサ16bは、サーバ100の後方に設けられている。これらの振動センサ11〜16bは、監視コントローラ20に接続されている。
なお、HDDベイ1〜3、FANモジュール4、電源ユニット5は、第1部品の一例である。MB6は、第2部品の一例である。監視コントローラ20は異常検出装置の一例、サーバ100は情報処理装置の一例である。
図3は、本発明の第一実施形態による異常検出装置の一例を示す機能ブロック図である。
図3に示すように監視コントローラ20は、センサ情報取得部21と、異常検出部22と、出力部23と、記憶部24と、通信部25と、を備える。
センサ情報取得部21は、第1部品および第2部品に設けられた振動センサから、各々の振動センサが検出した振動データ取得する。図5の例では、センサ情報取得部21は、振動センサ11〜16bから振動データを取得する。
異常検出部22については、図1を用いて説明したとおりである。異常検出部22は、センサ情報取得部21が取得した振動センサ11〜16bの振動データに基づいて、HDDベイ1〜3、FANモジュール4、電源ユニット5の異常を検出する。また、異常検出部22は、振動センサ11〜16bの振動データに基づいて、サーバ100の外部に原因がある振動を検出する。
出力部23は、異常検出部22が異常を検出すると、その検出結果を出力する。
記憶部24は、様々なデータを記憶する。例えば、記憶部24は、振動データの異常を検出するための閾値や、センサ情報取得部21が取得した振動データを記憶する。
通信部25は、他の装置との通信を行う。例えば、通信部25は、出力部23が出力した異常の検出結果を、ユーザが監視に用いる監視端末装置へ送信する。
なお、監視コントローラ20は、サーバ100の外部に設けられてもよい。
次に本実施形態の異常検出処理について図4、図5を用いて説明する。
図4は、本発明の第一実施形態による1台の情報処理装置についての異常検出処理の一例を示すフローチャートである。
前提として、振動センサ11〜16bは、所定の時間間隔で振動を検出し、検出した振動データを監視コントローラ20へ送信しているとする。また、HDDベイ1〜3、FANモジュール4、電源ユニット5など、部品が異なれば、それぞれの振動状態(周波数や振幅の大きさ)が異なるため、記憶部24には、異常を検出するための閾値が部品別に設定されている。また、同じ部品であっても回転数により、振動の状態が異なるため、記憶部24には、必要に応じて部品別の閾値が回転数に応じて設定されている。また、この閾値は、各部品の異常の予兆を検出するための値であって、実際に故障した後の振動データの値(例えば、回転が停止し、振動がほぼ検出されなくなる等)とは異なる。例えば、部品が回転機構を備える場合、回転機構が故障する前の段階では、軸のぶれ、ファンの欠け、ごみやホコリの付着などの事象が発生することが多い。すると、これらの事象の影響により、回転のふらつきや回転数の変動などが生じ、回転が不安定になる。その結果、部品の振動状態にも異変が生じる。異常(故障の予兆)を検出するための閾値には、部品がこのような状態に陥ったときの振動データに対応する値が設定されている。
まず、センサ情報取得部21が、振動センサ11〜16bから各センサが検出した振動データを取得する(ステップS11)。振動データには、例えば、振動の加速度(振動レベル)、または、振動の速度、または、変位量などの検出値が含まれる。センサ情報取得部21は、取得した振動データと振動センサの識別情報と検出時間とを対応付けて記憶部24に記録する。
次に異常検出部22が、各振動センサ11等の振動データについて、異常の可能性があるか否かを判定する(ステップS12)。(1)例えば、異常検出部22は、振動センサ11の振動データと、振動センサ11用の閾値とを比較して、振動データが閾値を上回っていれば(あるいは下回っていれば)、振動センサ11が設けられたHDDベイ1の振動データは異常を示す可能性があると判定する。あるいは、異常検出部22は、所定の期間に振動データが閾値を上回る(下回る)回数が、ある値以上になると、その振動データは異常を示す可能性があると判定してもよい。(2)また、例えば、異常検出部22は、振動センサ11の振動データが、振動センサ11用の閾値が規定する許容範囲内であったとしても、振動の周期や振幅が一定でなく、変動する場合、その振動データは異常を示す可能性があると判定してもよい。(3)また、例えば、異常検出部22は、振動センサ11の振動データの振幅や振動数が、所定時間前に記録された同じセンサの振動データ(通常の稼働状態で検出された振動データ)と乖離していれば、その振動データは異常を示す可能性があると判定してもよい。
異常検出部22は、全ての振動センサ11〜16bの各々について、(1)〜(3)に例示した基準によって判定を行う。すべての振動センサ11〜16bについて異常なしと判定した場合(ステップS12;No)、ステップS17の処理に進む。つまり、異常検出部22は、出力部23に異常なしとの判定結果を出力する。出力部23は、異常なしの判定結果を、通信部25を介して監視端末装置へ出力(送信)する(ステップS17)。監視端末装置では、異常なしの判定結果を表示する。
一方、異常検出部22が、異常の可能性ありと判定した場合(ステップS12;Yes)、続いて異常検出部22は、異常が発生した部品の特定、振動の原因が外部に存在するかどうかの判定などを行う。ここで、図5を参照する。図5は、本発明の第一実施形態による振動センサの検出結果の一例を示す図である。図5には、振動センサごとに検出した振動レベルの大きさが示されている。各部品の名称の下に表示された矩形の領域は、許容できる振動レベルの最大値を示し、網掛けで表示された領域が実際に検出された振動レベルに対応する。図5によると、HDDベイ2の振動レベルが大きく最大値に迫り、他の部品の振動レベルは、余裕をもって許容範囲内に収まっている。
図5の例の場合、異常検出部22は、HDDベイ2の振動データを異常の可能性ありと判定する。すると、異常検出部22は、異常の可能性があると判定した部品の振動データと、その部品と左右方向の関係にある他の部品の振動データとを比較する(ステップS13)。図5の例では、異常検出部22は、HDDベイ2の振動データと、右方のHDDベイ1の振動データとを比較する。また、異常検出部22は、HDDベイ2の振動データと、左方のHDDベイ3の振動データとを比較する。比較の結果、HDDベイ1およびHDDベイ3の振動データが正常であることから、異常検出部22は、振動は、振動センサ12が位置するサーバ100の中心線付近で生じていると判定する。
次に異常検出部22は、異常の可能性があると判定した部品の振動データと、その部品と前後方向の関係にある他の部品の振動データとを比較する(ステップS14)。図5の例では、異常検出部22は、HDDベイ2の振動データと、後方のFANモジュール4の振動データとを比較する。また、異常検出部22は、HDDベイ2の振動データと、振動センサ16a、16bが検出したMB6(後方)の振動データとを比較する。比較の結果、FANモジュール4およびMB6の前方(サーバ100の中央)と後方の振動データが正常であることから、異常検出部22は、振動は、振動センサ12が位置するサーバ100の前方で生じていると判定する。
次に異常検出部22は、異常の可能性があると判定した部品の振動データと、その他の部品の振動データとを比較する(ステップS15)。図5の例では、HDDベイ2の振動データ以外は、全て正常である。異常検出部22は、HDDベイ2の振動データの振動レベルだけが突出して大きいことから、振動は外部の原因によって印加されたものではなく、内部で生じていると判定する。
次に異常検出部22は、ステップS13〜ステップS15の比較結果に基づいて、異常の検出を行う(ステップS16)。図5の例では、異常検出部22は、振動は中心線上で生じていること、前方で生じていること、振動は内部で生じていること、HDDベイ2の振動データだけが突出して大きいことに基づいて、HDDベイ2を異常な振動が生じている被疑部品であると判定する。異常検出部22は、判定結果を出力部23に出力する。出力部23は、HDDベイ2の振動データが異常との判定結果を、振動センサ12の振動データ等と共に、通信部25を介して監視端末装置へ出力(送信)する(ステップS17)。監視端末装置では、HDDベイ2が異常と判定されたことを示す表示を行う。例えば、出力部23は、HDDベイ2の識別情報と、HDDベイ2の振動レベルと、検出時間とを出力し、監視端末装置がこれらの情報を表示してもよい。あるいは、出力部23は、図5に例示する各部品の設置位置と、各部品について検出された振動データとを対応付けた画像を出力し、監視端末装置がこの画像(例えば、図5)を表示してもよい。保守担当者は、どの部品が故障の可能性が高いかを把握することができる。故障の発生が予測できるので、保守担当者は、保守計画を立て、前もって交換部品などを準備することができる。保守作業を行う際には、保守担当者は、点検対象が分かっているので、速やかにHDDベイ2に搭載されている各HDDの状態を確認し、対象部品を交換することができる。
なお、ステップS13で左右方向の部品の振動データを比較するのは、例えば、HDDベイ1〜3の全てで異常の可能性があると判定され、その異常の程度があまり大きくない場合(振動レベルが通常の運転時よりも若干大きい等)、隣接する他のサーバや機器が発する振動の影響で振動している可能性があり、部品単体の振動データのみに基づいて、このような状態を直ちに部品の異常と判定しないようにするためである。HDDベイ1〜3の全てで異常の可能性があると判定した場合、異常検出部22は、例えば、各々の振動レベルが閾値を上回っていれば、HDDベイ1〜3の全てについて異常の可能性があると判定してもよい。各々の振動レベルが正常稼働時の振動レベルを少し上回る程度であれば、異常検出部22は、サーバ100の前方向に振動発生原因あると判定してもよい。
同様にステップS14で前後方向の部品の振動データを比較するのは、例えば、HDDベイ2、FANモジュール4、MB6の全てで異常の可能性があると判定され、その異常の程度があまり大きくない場合(振動レベルが通常の運転時よりも若干大きい等)、隣接する他のサーバや機器が発する振動の影響で振動している可能性があり、これを誤って部品の異常と判定することを避けるためである。例えば、図5の例の場合、HDDベイ2で発生した振動が、FANモジュール4、MB6の振動データに大きく影響することが考えにくい。一方、サーバ100の前後方向に伸びる中心線上の振動となって表れやすい外部の原因が存在する場合、前後方向の部品の振動データを比較することにより、そのような外部の原因の存在を推定できる可能性がある。
また、ステップS15で全ての部品の振動データを比較するのは、外部の原因で振動しているかどうかを判定するためである。特に振動発生源を備えないMB6で異常な振動状態が検出された場合、振動の原因が、外部に存在することを強く示していると考えられる。
また、HDDを4台、8台など組み合わせて1つのユニットとして構成する場合がある(RAID等)。このような場合に、1つのユニットの一部をメーカα製のHDDで揃え、他をメーカβ製のHDDで揃えることがある。メーカα製のHDDの回転数とメーカβ製のHDDの回転数は、仕様上は同じ回転数であっても若干異なることがある。このような場合に1ユニット内にこれらのHDDを近距離で並べて使用すると、HDD同士の共振が起きることがある。共振が発生すると、その振動によるヘッド位置決め不良が起こる場合があるが、一般的に共振振動が生じていることを検出することができず、不良の原因究明には時間がかかる。本実施形態では、HDDベイ(1つのユニット)ごとに振動センサを設け、監視を行うので、1ユニット内のHDD群に生じる振動状態の異常を速やかに検出することができる。これにより共振振動の発生を検出し、異なる製品の組み合わせによる不具合の発見、対策が容易になる。
情報処理装置の運用保守の場面では、HDDやファンなどモータを備える部品で異常が発生し始めた初期には、回転数のばらつきや振動が出始めるが、一般的には検出手段が無く、故障してから検出、対処がなされている。そのため、予定外のサーバ停止が発生し、損失発生やデータ破損が生じている。これに対して、本実施形態の監視コントローラ20によれば、故障の予兆をとらえることができるので、故障が発生する前の段階で保守や対処を行うことが可能になる。計画的かつ効率的な保守作業により、サーバ停止時間を短縮し、サーバ停止による損失の拡大を防ぐ事ができる。また、1つまたは複数の部品について異常な振動状態が検出された場合、その検出によって直ちに当該部品を異常と判定するのではなく、前後左右に存在する他の部品の振動の状態と比較しながら、異常な部品を特定するので、誤検出のリスクを低減することができる。また、前後左右に存在する部品の振動の状態と比較(特に振動発生源ではない部品の振動状態との比較)により、外部の振動を原因とする振動と部品の不良による振動とを区別して検出することができるので、外部振動によって引き起こされたサーバ100における一時的な処理の不具合によって、実際には故障の予兆が検出されていないにもかかわらず、不必要に部品を交換することを防ぐことができる。また、処理の不具合の原因が、外部の振動であると特定することができるので、対策(防振材の導入など)を検討することができる。
<第二実施形態>
第一実施形態では、1台のサーバ100の異常検出処理について説明した。次に複数のサーバが1つの収納装置に収納されている状況で、異常な振動を発生させた部品を備えるサーバを特定する処理、収納装置の振動を検出する処理について説明する。収納装置とは、例えば、サーバがラックマウント型サーバの場合のラック、ブレードサーバの場合の収納ユニット(シャーシ、エンクロージャ)である。
図6は、本発明の第二実施形態による監視システムの一例を示す第1の図である。
監視システム200は、監視端末装置30と、ラック40Aと、ラック40Bと、ラック40Aに収納されたサーバ100A〜100Gと、ラック40Bに収納されたサーバ100H〜100Nと、を含んで構成される。サーバ100Aは、監視コントローラ20Aを備えている、同様に、サーバ100B〜100Nの各々は、監視コントローラ20X(X:B〜N)を備えている。
図示するように監視端末装置30は、検出情報取得部31と、判定部32と、出力部33と、記憶部34と、通信部35と、を備える。
検出情報取得部31は、監視コントローラ20A〜20Nから異常情報を取得する。異常情報は、監視コントローラ20Aの場合であれば異常検出部22Aが異常を検出した1つ又は複数の部品の振動データと、その振動データの検出時刻と、判定結果を含む。判定結果とは、例えば、異常が生じている被疑部品の識別情報、外部を原因とする振動であるとの判定結果等である。
判定部32は、各監視コントローラ20A等から取得した異常情報に基づいて、異常が発生したサーバ100A等を判定する。例えば、監視コントローラ20A、20B、20Cから異常情報が送信された場合、判定部32は、それらの異常情報の内容に基づいて、サーバ100A、100B、100Cの各々で異常が生じていると判定する。あるいは、判定部32は、異常情報の内容に基づいて、サーバ100Bに異常が生じていて、サーバ100A、100Cは、その影響で振動しているだけであると判定する。
出力部33は、判定部32による判定結果を出力する。
記憶部34は、監視コントローラ20A、監視コントローラ20H等から送信された異常情報など、各種データを記憶する。
通信部35は、他の装置との通信を行う。例えば、通信部35は、監視コントローラ20A〜20Nとデータの送受信を行う。
ここで、判定部32の判定処理の一例を説明する。図6に監視コントローラ20A,20B、20Cが異常を検出し、異常情報を送信した様子を示す。このとき、実際に部品に異常が生じているのがサーバ100Bで、サーバ100A、100Cの部品は、サーバ100Bの部品の影響で振動しているとする。監視コントローラ20Aが送信する異常情報に含まれる部品の振動レベルは、例えば閾値程度に大きく、監視コントローラ20B、20Cが送信する異常情報に含まれる部品の振動レベルは、監視コントローラ20Aが送信したものに比べ小さい。また、監視コントローラ20B、20Cが送信する異常情報には、例えば、サーバ100Bと接する方向の外部に振動発生原因がある等の情報が含まれていてもよい。すると、判定部32は、監視コントローラ20A,20B、20Cから受信した振動レベルの比較や、監視コントローラ20B、20Cから受信した異常情報に含まれる外部に振動発生原因があるとの情報に基づき、サーバ100Bで異常が発生し、サーバ100A、100Cはサーバ100Bが原因で異常が検出されたと判定する。出力部33は、この判定結果を監視端末装置30のディスプレイに表示する。これにより、保守作業を必要とする対象(サーバ100B)を特定し、サーバ100A、100Cに対する不要な保守作業を防ぐことができる。
第二実施形態では、同一ラック内の複数サーバの異常情報を監視端末装置30で収集し、分析する。これにより同一ラック内の振動の傾向の把握や、サーバの固定不良の検出などを行うことができる。例えば、ラック40Aへのサーバ100Bの固定が不良な場合、サーバ100Bで断続的に異常な振動が検出される可能性がある。そのような場合、判定部32の判定によって、サーバ100Bの固定不良の特定が容易になる。
図7は、本発明の第二実施形態による監視システムの一例を示す第2の図である。
図7を用いて、判定部32によってラック40A等が設置されたフロアを対象として、ラック単位で生じる異常な振動を判定する例を説明する。監視システム200は、監視端末装置30と、ラック40Aと、ラック40Bと、ラック40Cと、ラック40Aに収納されたサーバ100A〜100Gと、ラック40Bに収納されたサーバ100H〜100Nと、ラック40Cに収納されたサーバ100O〜100Uとを含んで構成される。サーバ100Aは、監視コントローラ20Aを備えている。同様にサーバ100B〜100Uの各々は、監視コントローラ20X(X:B〜U)を備えている。
図7に示すように監視コントローラ20H〜20Nが異常を検出し、異常情報を送信する。ラック40Aの監視コントローラ20A〜20Gおよびラック40Cの監視コントローラ20O〜20Uは異常を検出していない。監視端末装置30では、検出情報取得部31が、監視コントローラ20H〜20Nから異常情報を取得する。監視コントローラ20H〜20Nから送信された異常情報に含まれる振動データは、例えば、各サーバ100H〜100Nが備える全ての部品で大きな値の振動レベルが検出されたことを示しているとする。判定部32は、サーバ100H〜100Nで同時に大きな振動が検出されたこと、ラック40Aおよびラック40Cの監視コントローラ20A等からは異常情報が送信されていないこと等に基づいて、ラック40Bのみに大きな衝撃が加わったと判定する。
このような判定を行うことで、例えば、サーバ100H〜100Nのうちの複数台で、異常な振動が検出された時刻と同じ時間帯に不具合(HDDへのリード/ライト処理等)が生じた場合、監視担当者は、判定部32によるラック40Bに衝撃が加わったとの判定結果を、不具合の原因究明の手掛かりとすることができる。
また、ラック40Bが設置された床面が強度不足の場合、ラック40Bに収納されたサーバ100H等のみから断続的に同様の異常を検出する可能性がある。そのような場合、監視担当者は、判定部32によるラック40Bに衝撃が加わったとの判定結果を参考にすると、速やかに原因が床面にあることを突き止められる可能性がある。
同様に、ラック40B等の設置不良、二重床の床板の固定不良、ラック40Bを用いた作業中のミスなどによっても、1つのラックが収納するサーバ100H等の全体で異常が検出されるため、原因の特定が容易になる。
第二実施形態では、複数のラックから送信される異常情報を監視端末装置30で収集し、分析する。これによりフロア内全体での振動の傾向を把握することができる。例えば、ラック40Aが設置されたフロアで重量のある台車が移動したり、地震が発生したりしたときには、複数のラック40A,40B,40Cで同時間帯に異常な振動が検出される可能性がある。そのような場合、判定部32は、ラック40A,40B,40Cに同時に衝撃が加わったと判定する。この衝撃による振動により同時間帯に複数のサーバ100A,100H,100O等でHDDへの書き込みエラーなどが生じた場合、監視担当者は、判定部32による複数のラック40A,40B,40Cに衝撃が加わったとの判定結果を、不具合の原因究明の手掛かりとすることができる。
なお、監視端末装置30が監視対象とするラックは複数フロアにまたがっていてもよい。
図8は、本発明の第二実施形態による複数台の情報処理装置についての異常検出処理の一例を示すフローチャートである。
まず、検出情報取得部31が、通信部35を介して、複数の監視コントローラ20A等から異常情報を取得する(ステップS21)。検出情報取得部31は、異常情報を記憶部34に記録する。判定部32は、所定の時間内に取得した異常情報について、1つのラック40A等に収納された全ての監視コントローラ20A等から異常情報を取得したかどうかを判定する(ステップS22)。図7に示す例のように1つのラック40Bの全ての監視コントローラ20H等から異常情報を取得した場合(ステップS22;Yes)、判定部32は、異常の原因がラック40B等の外部に存在すると判定する(ステップS23)。判定部32は、判定結果を出力部33へ出力する。
1つのラック40A等に収納された一部の監視コントローラ20A等のみから異常情報を取得した場合(ステップS22;No)、判定部32は、取得した異常情報の一つ(例えば、監視コントローラ20Aから取得した異常時情報)について、他のサーバ100B等の監視コントローラ20B等から取得した異常情報と比較する(ステップS24)。そして、判定部32は、異常が生じたサーバを特定する(ステップS25)。例えば、監視コントローラ20A,20B,20Cから異常情報を取得し、それらの異常情報に含まれる振動レベルが全て閾値以上であれば、判定部32は、異常が生じているサーバをサーバ100A,100B,100Cと特定する。あるいは、図6を用いて説明したように、例えば、サーバ100Bの振動レベルが大きく、サーバ100A,100Cの振動レベルがサーバ100Bに比べ所定の設定値より小さい場合、判定部32は、異常が発生したサーバをサーバ100Bと特定する。判定部32は、判定結果を出力部33へ出力する。出力部33は、判定結果を監視端末装置30のディスプレイに出力する。例えば、出力部33は、異常情報に含まれる振動データをグラフ表示し、その中で異常があると特定されたサーバ100A等のグラフを、他のグラフと異なる態様で強調して表示してもよい。あるいは、出力部33は、図6、図7で例示したようなシステムの構成図に対し、異常と判定したサーバ100A等やラック40A等のみを強調して表示する画像を生成し、この画像を出力してもよい。
本実施形態の監視システム200によれば、同一ラック40A等に搭載される複数のサーバ100A等で異常を検出した場合、特定のサーバでの異常なのかラック全体での異常なのかを判定することができる。異常が発生したサーバが特定できた場合、速やかに保守点検を行って、不意のサーバ停止などを防ぐことができる。また、異常な振動が検出されたが、異常が発生したと特定されないサーバについては、不要な部品交換などを行わなくてよい。また、ラック全体で異常な振動が検出されると、異常な振動の原因が外部に存在すると判定される。その為、不要な部品交換等を防止し、異常な振動が検出された時間帯にサーバ100A等に生じる不具合の原因究明に役立てることができる。また、複数のラック40A等が設置されている場合、それぞれのラック40A等に収納されるサーバ100A等の振動データに基づいて、フロア全体の振動傾向(ラックを設置するのに適した一かどうか等)の把握や、特定のラック40B等の設置状況(床や固定方法)の判断に役立てることができる。
図9は、本発明の各実施形態における異常検出装置および監視端末装置のハードウェア構成の一例を示す図である。
コンピュータ900は、CPU901、主記憶装置902、補助記憶装置903、入出力インタフェース904、通信インタフェース905を備える。上述の異常検出装置20等、監視端末装置30は、コンピュータ900に実装される。そして、上述した各処理部の動作は、プログラムの形式で補助記憶装置903に記憶されている。CPU901は、プログラムを補助記憶装置903から読み出して主記憶装置902に展開し、当該プログラムに従って上記処理を実行する。また、CPU901は、プログラムに従って、記憶部24,34に対応する記憶領域を主記憶装置902に確保する。また、CPU901は、プログラムに従って、処理中のデータを記憶する記憶領域を補助記憶装置903に確保する。
なお、少なくとも1つの実施形態において、補助記憶装置903は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、入出力インタフェース904を介して接続される磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ900に配信される場合、配信を受けたコンピュータ900が当該プログラムを主記憶装置902に展開し、上記処理を実行しても良い。また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置903に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であっても良い。
上記の上述の異常検出装置20、監視端末装置30の各機能部の全て又は一部は、マイコン、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field-Programmable Gate Array)等のハードウェアを用いて実現されてもよい。
その他、本発明の趣旨を逸脱しない範囲で、上記した実施の形態における構成要素を周知の構成要素に置き換えることは適宜可能である。また、この発明の技術範囲は上記の実施形態に限られるものではなく、本発明の趣旨を逸脱しない範囲において種々の変更を加えることが可能である。例えば、なお、情報処理装置は、サーバに限定されず、同様な構成を備えるワークステーション、PC(personal computer)、メインフレーム、その他コンピュータであってもよい。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
情報処理装置が備える振動発生源となる第1部品の振動状態を示す第1振動データと、振動発生源ではない第2部品の振動状態を示す第2振動データと、に基づいて前記第1部品の異常を検出する異常検出部、
を備える異常検出装置。
(付記2)
前記異常検出部は、複数の前記第1部品の各々についての前記第1振動データと、前記第2振動データと、を比較して、複数の前記第1振動データの一部が異常な振動状態を示す場合、当該異常な振動状態を示す前記第1振動データが検出された前記部品が異常であると判定する、
付記1に記載の異常検出装置。
(付記3)
前記異常検出部は、複数の前記第1部品の各々についての前記第1振動データと、前記第2振動データと、を比較して、複数の前記第1振動データの少なくとも一部と、前記第2振動データとが異常な振動状態を示す場合、当該異常な振動状態の原因が、前記情報処理装置の外に存在すると判定する、
付記1または付記2に記載の異常検出装置。
(付記4)
前記異常検出部は、前記第1振動データまたは前記第2振動データが示す振動の振動レベルが所定の許容範囲内に収まらない場合、前記許容範囲内に収まらない振動レベルを示す前記第1振動データまたは前記許容範囲内に収まらない振動レベルを示す前記第2振動データを、異常な振動状態にあると判定する、
付記1から付記3の何れか1つに記載の異常検出装置。
(付記5)
異常と検出された前記第1部品の識別情報と、当該第1部品の前記第1振動データを出力する出力部、
をさらに備える付記1から付記4の何れか1つに記載の異常検出装置。
(付記6)
前記情報処理装置は複数の前記第1部品を備え、前記第1部品がハードディスクドライブである場合、
前記異常検出部は、複数の前記第1部品の異常を検出することにより前記ハードディスクドライブの共振を判定する、
付記1から付記5の何れか1つに記載の異常検出装置。
(付記7)
前記情報処理装置が備える全ての前記第1部品の前記第1振動データと、前記情報処理装置が備える全ての前記第2部品の前記第2振動データと、を前記第1部品および前記第2部品の設置位置の情報と共に出力する出力部、
をさらに備える付記1から付記6の何れか1つに記載の異常検出装置。
(付記8)
付記1から付記7の何れか1つに記載の異常検出装置、を備える情報処理装置。
(付記9)
付記1から付記8の何れか1つに記載の異常検出装置を少なくとも1台と、
前記異常検出装置から前記第1振動データと前記第2振動データとを受信する監視端末装置と、
を備える監視システム。
(付記10)
付記8に記載の情報処理装置を複数と、
前記情報処理装置が備える前記異常検出装置の各々から前記第1振動データと前記第2振動データとを受信する監視端末装置と、を備え、
複数の前記情報処理装置が1つの収納装置に収納された、
監視システム。
(付記11)
前記監視システムが、複数の前記異常検出装置を備える場合、
前記監視システムは、第1の前記異常検出装置から受信した前記第1振動データおよび前記第2振動データと、他の前記異常検出装置から受信した前記第1振動データおよび前記第2振動データとを比較して、第1の前記異常検出装置を備える前記情報処理装置の異常を検出する、
付記10に記載の監視システム。
(付記12)
前記監視システムは、1つの収納装置に収納された複数の前記情報処理装置の異常検出装置の全てが同時に異常を検出した場合、当該異常の原因は、前記収納装置が設置された環境の振動であると判定する、付記10に記載の監視システム。
(付記13)
前記監視システムが、複数の前記異常検出装置を備える場合、
前記監視システムは、複数の前記異常検出装置の全てが同時に異常を検出した場合、当該異常の原因は、複数の前記異常検出装置が設置された環境の振動であると判定する、付記9から付記12の何れか1つに記載の監視システム。
(付記14)
情報処理装置が備える振動発生源となる第1部品の振動状態を示す第1振動データと、振動発生源ではない第2部品の振動状態を示す第2振動データと、に基づいて前記第1部品の異常を検出するステップ、
を有する異常検出方法。
(付記15)
コンピュータを、
情報処理装置が備える振動発生源となる第1部品の振動状態を示す第1振動データと、振動発生源ではない第2部品の振動状態を示す第2振動データと、に基づいて前記第1部品の異常を判定する手段、
として機能させるためのプログラム。
1、2、3・・・HDDベイ
4・・・FANモジュール
5・・・電源ユニット
6・・・MB
11〜15、16a,16b・・・振動センサ
20,20A〜20U・・・監視コントローラ(異常検出装置)
21・・・センサ情報取得部
22・・・異常検出部
23・・・出力部
24・・・記憶部
25・・・通信部
30・・・監視端末装置
31・・・検出情報取得部
32・・・判定部
33・・・出力部
34・・・記憶部
35・・・通信部
40A〜40C・・・ラック
100、100A〜100U・・・サーバ
200・・・監視システム
900・・・コンピュータ
901・・・CPU
902・・・主記憶装置
903・・・補助記憶装置
904・・・入出力インタフェース
905・・・通信インタフェース

Claims (10)

  1. 情報処理装置が備える振動発生源となる第1部品の振動状態を示す第1振動データと、振動発生源ではない第2部品の振動状態を示す第2振動データと、に基づいて前記第1部品の異常を検出する異常検出部、
    を備える異常検出装置。
  2. 前記異常検出部は、複数の前記第1部品の各々についての前記第1振動データと、前記第2振動データと、を比較して、複数の前記第1振動データの一部が異常な振動状態を示す場合、当該異常な振動状態を示す前記第1振動データが検出された前記第1部品が異常であると判定する、
    請求項1に記載の異常検出装置。
  3. 前記異常検出部は、複数の前記第1部品の各々についての前記第1振動データと、前記第2振動データと、を比較して、複数の前記第1振動データの少なくとも一部と、前記第2振動データとが異常な振動状態を示す場合、当該異常な振動状態の原因が、前記情報処理装置の外に存在すると判定する、
    請求項1または請求項2に記載の異常検出装置。
  4. 前記異常検出部は、前記第1振動データまたは前記第2振動データが示す振動の振動レベルが所定の許容範囲内に収まらない場合、前記許容範囲内に収まらない振動レベルを示す前記第1振動データまたは前記許容範囲内に収まらない振動レベルを示す前記第2振動データを、異常な振動状態にあると判定する、
    請求項1から請求項3の何れか1項に記載の異常検出装置。
  5. 異常と検出された前記第1部品の識別情報と、当該第1部品の前記第1振動データを出力する出力部、
    をさらに備える請求項1から請求項4の何れか1項に記載の異常検出装置。
  6. 請求項1から請求項5の何れか1項に記載の異常検出装置、を備える情報処理装置。
  7. 請求項1から請求項5の何れか1項に記載の異常検出装置を少なくとも1台と、
    前記異常検出装置が送信した異常情報を受信する監視端末装置と、
    を備える監視システム。
  8. 前記監視システムが、複数の前記異常検出装置を備える場合、
    前記監視システムは、1つの前記異常検出装置から受信した前記第1振動データおよび前記第2振動データと、他の前記異常検出装置から受信した前記第1振動データおよび前記第2振動データとを比較して、第1の前記異常検出装置を備える前記情報処理装置の異常を検出する、
    請求項7に記載の監視システム。
  9. 情報処理装置が備える振動発生源となる第1部品の振動状態を示す第1振動データと、振動発生源ではない第2部品の振動状態を示す第2振動データと、に基づいて前記第1部品の異常を検出するステップ、
    を有する異常検出方法。
  10. コンピュータを、
    情報処理装置が備える振動発生源となる第1部品の振動状態を示す第1振動データと、振動発生源ではない第2部品の振動状態を示す第2振動データと、に基づいて前記第1部品の異常を判定する手段、
    として機能させるためのプログラム。
JP2018045960A 2018-03-13 2018-03-13 異常検出装置、情報処理装置、監視システム、異常検出方法及びプログラム Pending JP2019158617A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018045960A JP2019158617A (ja) 2018-03-13 2018-03-13 異常検出装置、情報処理装置、監視システム、異常検出方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018045960A JP2019158617A (ja) 2018-03-13 2018-03-13 異常検出装置、情報処理装置、監視システム、異常検出方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2019158617A true JP2019158617A (ja) 2019-09-19

Family

ID=67996130

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018045960A Pending JP2019158617A (ja) 2018-03-13 2018-03-13 異常検出装置、情報処理装置、監視システム、異常検出方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2019158617A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021124350A (ja) * 2020-02-04 2021-08-30 沖電気工業株式会社 測定タイミング制御装置、測定タイミング制御方法、測定タイミング制御プログラム及び監視装置
CN115139982A (zh) * 2022-07-12 2022-10-04 郑州森鹏电子技术股份有限公司 一种车辆权限授权方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021124350A (ja) * 2020-02-04 2021-08-30 沖電気工業株式会社 測定タイミング制御装置、測定タイミング制御方法、測定タイミング制御プログラム及び監視装置
CN115139982A (zh) * 2022-07-12 2022-10-04 郑州森鹏电子技术股份有限公司 一种车辆权限授权方法

Similar Documents

Publication Publication Date Title
US7581137B2 (en) Storage apparatus and storage apparatus power supply failure management method
JP4910766B2 (ja) ファン故障診断装置、ファン故障診断方法及びプログラム
US7589624B2 (en) Component unit monitoring system and component unit monitoring method
WO2004072809A2 (en) Computer condition detection system
US7669084B2 (en) Method for self-diagnosing remote I/O enclosures with enhanced FRU callouts
US20090161243A1 (en) Monitoring Disk Drives To Predict Failure
US8340923B2 (en) Predicting remaining useful life for a computer system using a stress-based prediction technique
US10860071B2 (en) Thermal excursion detection in datacenter components
JP2018196209A (ja) 電源監視装置、ストレージ装置及び電源監視方法
JP2019158617A (ja) 異常検出装置、情報処理装置、監視システム、異常検出方法及びプログラム
JP4356634B2 (ja) 故障診断回路とこの故障診断回路を備えた情報処理装置、故障診断システム及び故障診断プログラム
JP2020004338A (ja) 監視装置,監視制御方法および情報処理装置
JP5640561B2 (ja) 振動対応システム、監視部品、制御方法及びプログラム
JP2014021577A (ja) 故障予測装置、故障予測システム、故障予測方法、及び、故障予測プログラム
US20100011100A1 (en) Health Check System, Server Apparatus, Health Check Method, and Storage Medium
JPWO2018154845A1 (ja) 管理装置、管理方法及びプログラム
US20030115397A1 (en) Computer system with dedicated system management buses
US9411666B2 (en) Anticipatory protection of critical jobs in a computing system
US9384077B2 (en) Storage control apparatus and method for controlling storage apparatus
CN115982789A (zh) 硬盘防震方法、装置、设备及计算机可读存储介质
US20220091920A1 (en) Bmc, server system, device stability determination method, and non-transitory computer-readable recording medium
JP2014182743A (ja) ディスクアレイ装置および故障検出方法
US20230337390A1 (en) Air mover health check
JP6599794B2 (ja) 振動及び衝撃に対する動作制御装置、振動及び衝撃に対する動作制御方法、及び、振動及び衝撃に対する動作制御プログラム
JP5206463B2 (ja) 冷却装置、電子機器の冷却方法、プログラム及び記録媒体