JP7135969B2 - 情報処理方法及び情報処理装置 - Google Patents

情報処理方法及び情報処理装置 Download PDF

Info

Publication number
JP7135969B2
JP7135969B2 JP2019061473A JP2019061473A JP7135969B2 JP 7135969 B2 JP7135969 B2 JP 7135969B2 JP 2019061473 A JP2019061473 A JP 2019061473A JP 2019061473 A JP2019061473 A JP 2019061473A JP 7135969 B2 JP7135969 B2 JP 7135969B2
Authority
JP
Japan
Prior art keywords
failure
cause
parameters
unit
estimated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019061473A
Other languages
English (en)
Other versions
JP2020162055A (ja
Inventor
愛 矢野
武 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2019061473A priority Critical patent/JP7135969B2/ja
Priority to US16/812,002 priority patent/US20200310898A1/en
Publication of JP2020162055A publication Critical patent/JP2020162055A/ja
Application granted granted Critical
Publication of JP7135969B2 publication Critical patent/JP7135969B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0781Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • G06F11/3075Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting the data filtering being achieved in order to maintain consistency among the monitored data, e.g. ensuring that the monitored data belong to the same timeframe, to the same system or component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)

Description

本発明は、情報処理方法及び情報処理装置に関する。
最近、IoT(Internet of Things)の拡大に伴い、情報処理装置に対して、多種多様なデバイスが多種多様な通信方式で接続されるようになっている。このような状況においては、接続されるデバイスの種別、通信方式、周辺の無線状況、利用アプリ等により、発生する障害(例えば、デバイスのハードウェア障害やソフトウェア障害、通信障害)は様々となる。このため、時々刻々と変化するIoT環境においては、デバイスのハードウェア性能、ソフトウェア性能、通信性能等を監視し、障害原因を特定し、運用管理者に通知することが重要である。
障害原因を特定する際には、デバイスやネットワークから、運用管理情報(通信性能、端末性能等)やセンサ(温湿度等)の計測値(データ)を収集し、収集したデータを分析して、障害原因を特定する。ここで、運用管理情報には、通信性能情報として、受信信号強度(RSSI)、パケットエラー率(PER)、リンク品質(Link Quality)、応答時間、再送回数、チャネル利用率、アクティブノード数等が含まれる。また、運用管理情報には、端末性能情報として、CPU使用率、メモリ使用率、HDD使用率、バッテリ残量、デバイス内温度、内部処理時間等が含まれる。また、障害原因を特定するために収集したデータを分析する手法としては、ルールベース(閾値、ツリーモデル等を用いた方法)や、機械学習(相関/回帰/周期特性分析、クラスタリング、学習モデル等)が含まれる。
特開2009-147183号公報 特開2013-065084号公報
上述した分析方法においては、共通して、分析用のパラメータや学習モデルが必要である。分析用パラメータには、例えば、閾値、有意差、ウィンドウサイズ、ウィンドウ移動量等があり、従来は、収集するデータと判定する障害原因を予め想定して分析用パラメータを設定している。また、例えば、学習モデルの場合は、“正常時”や、ある障害Aを人為的に発生させた際の“障害A発生時”等、収集データにラベルを付けて、学習モデルを生成している。
しかしながら、設置デバイスが様々であり、かつ無線使用状況等、周辺環境が時々刻々と変化するIoTの現場においては、どのような異常や障害が発生するのか不明であるため、予め設定した分析用パラメータを使用すると判定精度が低くなる可能性が高い。また、予め生成した学習モデルも使えない可能性が高い。
例えば、上記特許文献1では、予め目視で決定された異常発生数と等しくなるかでパラメータを評価しているが、どのような異常や障害が発生するのかが不明な現場には適用することはできない。
1つの側面では、本発明は、障害原因の特定に用いる分析用のパラメータを必要に応じて自動的に変更することが可能な情報処理方法及び情報処理装置を提供することを目的とする。
一つの態様では、情報処理方法は、管理対象装置から定期的に収集した前記管理対象装置の性能に関する運用管理情報を含む情報に基づいて異常発生を検出するとともに、異常内容に基づいて障害種別を推定し、分析用のパラメータを用いて前記運用管理情報を分析して、前記管理対象装置の障害原因を特定し、推定した前記障害種別に対応する障害原因が特定されたか、又は特定した前記障害原因に対応する障害種別が推定されたかを判定し、前記判定の結果、推定した前記障害種別に対応する障害原因が特定されなかった、又は特定した前記障害原因に対応する障害種別が推定されなかった場合に、推定した前記障害種別又は特定した前記障害原因に対応するパラメータの優先順位に従って、前記分析用のパラメータを変更する、処理をコンピュータが実行する情報処理方法である。
障害原因の特定に用いる分析用のパラメータを必要に応じて自動的に変更することができる。
第1の実施形態に係る情報処理システムの構成を概略的に示す図である。 ゲートウェイのハードウェア構成を示す図である。 センサノード及びゲートウェイ等の機能ブロック図である。 運用管理情報DBを示す図である。 計測値DBを示す図である。 図6(a)、図6(b)は、異常発生の検出方法について説明するための図である。 異常内容-障害種別対応表を示す図である。 パラメータ管理DBを示す図である。 異常-障害原因特定対応表を示す図である。 障害種別-障害原因対応表を示す図である。 パラメータ変更部の処理を示すフローチャートである。 図12(a)は、端末用の変更順を示す図であり、図12(b)は、通信用の変更順を示す図である。 第2の実施形態に係る異常-障害原因特定対応表を示す図である。 図14(a)は、第2の実施形態に係る端末用の変更順を示す図であり、図14(b)は、第2の実施形態に係る通信用の変更順を示す図である。 第3の実施形態に係る異常内容-障害種別対応表を示す図である。 第4の実施形態に係る効果管理テーブルを示す図である。
≪第1の実施形態≫
以下、情報処理システムの第1の実施形態について、図1~図12に基づいて詳細に説明する。
図1には、第1の実施形態に係る情報処理システム100の構成が概略的に示されている。情報処理システム100は、インターネットなどのネットワーク80に接続されたルータ10及びサーバ60と、ハブ120を介してルータ10に有線接続されたWi-Fiアクセスポイント130、センサノード70、情報処理装置としてのゲートウェイ110と、Wi-Fiアクセスポイント130及びハブ120経由でルータ10と無線通信可能なセンサノード70と、を備える。
サーバ60は、ネットワーク80上に存在している複数のゲートウェイ110から送信されてくる情報を取得して、管理する装置である。
センサノード70は、センサと、データ処理機能や通信機能を実装した装置である。例えば、センサノード70は、製造工場内に設置され、温度、湿度、振動などを計測し、計測値をゲートウェイ110に対して有線通信にて送信したり、Wi-Fiアクセスポイント130経由でゲートウェイ110に対して無線通信にて送信する。また、センサノード70は、センサノード70の性能(ハードウェア性能、ソフトウェア性能)やゲートウェイ110とセンサノードとの間の通信品質を示す性能値を計測する。
図3には、センサノード70及びゲートウェイ110の機能ブロック図が示されている。なお、図3には、ルータ10、ハブ120、Wi-Fiアクセスポイント130の性能値計測に関する機能についても図示されている。
(センサノード70)
センサノード70は、図3に示すように、1又は複数のセンサ72と、制御部74と、を備える。
センサ72は、温度や湿度などを計測するセンサや、振動を計測するセンサなどを含む。
制御部74は、CPU(Central Processing Unit)がプログラムを実行することにより、性能値計測部75、センサ計測部76、通信部77の機能を有する。
性能値計測部75は、通信部77を介してゲートウェイ110(運用管理情報取得部12)から通知されたサンプリング間隔と取得コマンドに基づいて、センサノード70のハードウェアやソフトウェアの性能を示す性能データの値(性能値)を計測する。なお、ハードウェアやソフトウェアの性能を示す性能データには、例えば、CPU使用率、メモリ使用率、HDD(Hard Disk Drive)使用率、バッテリ残量、センサノード内温度、内部処理時間などが含まれる。
また、性能値計測部75は、ゲートウェイ110(運用管理情報取得部12)から通信性能を示す性能データの値(性能値)を取得するためのコマンド(サンプリングコマンド)を受信したときに、通信性能を示す性能値を計測する。なお、通信性能を示す性能データには、電波強度(RSSI:Received Signal Strength Indicator)、リンク品質(LQ:Link Quality)、パケットエラー率(PER:Packet Error Rate)、ビットエラー率(BER:Bit Error Rate)、応答時間、再送回数、チャネル利用率、アクティブノード数などが含まれる。
センサ計測部76は、ゲートウェイ110(センサ計測値取得部13)から通知されたサンプリング間隔と取得コマンドで、センサ72により計測された値(センサ計測値)を取得する。
性能値計測部75及びセンサ計測部76は、運用管理情報取得部12やセンサ計測値取得部13から通知されたデータ送信間隔ごとに、未送信のデータをまとめて通信部77を介して送信する。なお、性能値計測部75及びセンサ計測部76は、運用管理情報取得部12やセンサ計測値取得部13からデータ要求コマンドを受信したときに、未送信のデータをまとめて、通信部77を介してゲートウェイ110に向けて送信することとしてもよい。
なお、ルータ10、ハブ120、Wi-Fiアクセスポイント130は、CPUがプログラムを実行することにより、性能値計測部122及び通信部124としての機能を有する。これら性能値計測部122と通信部124は、センサノード70が有する性能値計測部75及び通信部77と同様である。したがって、性能値計測部122は、各装置の性能データの値(性能値)を計測し、通信部124を介してゲートウェイ110に送信する。なお、各装置の性能値には、装置の性能(ハードウェア性能、ソフトウェア性能)を示す性能値や、他の装置との間の通信品質を示す性能値が含まれる。
(ゲートウェイ110)
ゲートウェイ110は、例えば、製造工場内などに設置されるネットワークノードである。ゲートウェイ110は、センサノード70や、ルータ10、ハブ120、Wi-Fiアクセスポイント130において計測された性能値や、センサノード70で計測されたセンサ計測値を受信する。そして、ゲートウェイ110は、受信した情報に基づいて、センサノード70やネットワークの異常有無を判定する。すなわち、センサノード70、ルータ10、ハブ120、Wi-Fiアクセスポイント130は、ゲートウェイ110における管理対象装置であるといえる。また、ゲートウェイ110は、異常が発生したと判定した場合に、異常内容から障害種別を推定するとともに、障害原因を特定し、その旨をサーバ60や運用管理者が利用する端末(不図示)に通知する。更に、ゲートウェイ110は、必要に応じて障害原因を特定する際に用いる分析用のパラメータを変更する。
図2には、ゲートウェイ110のハードウェア構成が示されている。図2に示すように、ゲートウェイ110は、CPU90、ROM(Read Only Memory)92、RAM(Random Access Memory)94、記憶部(ここではHDD)96、通信インタフェース97、及び可搬型記憶媒体用ドライブ99等を備えている。ゲートウェイ110の構成各部は、バス98に接続されている。ゲートウェイ110では、ROM92あるいはHDD96に格納されているプログラム、或いは可搬型記憶媒体用ドライブ99が可搬型記憶媒体91から読み取ったプログラムをCPU90が実行することにより、図3に示す各部の機能が実現される。なお、図3の各部の機能は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
ゲートウェイ110は、図3に示すように、CPU90がプログラムを実行することで、通信部11、運用管理情報取得部12、センサ計測値取得部13、推定部としての異常有無判定部14、特定部としての障害原因特定部15、判定部としてのパラメータ変更必要性判定部16、変更部としてのパラメータ変更部17、通知部18として機能する。なお、図3において図示されている、運用管理情報DB30、計測値DB32、パラメータ管理DB34は、HDD96等に格納されている。なお、ゲートウェイ110は、定期的に又は不定期に外部から送信されてくるネットワークの設計情報を受信して、管理しているものとする。設計情報には、情報処理システム100に含まれる各装置(デバイス)のデバイスIDや各デバイスが接続されているデバイスのデバイスID(親デバイスID)、設置位置、受信信号強度(RSSI:Received Signal Strength Indicator)の設計値の設計範囲(上限及び下限)等が含まれる。なお、設計情報には、RSSI以外の設計範囲の情報が含まれていてもよい。例えば、RSSI以外の設計範囲としては、通信性能情報(リンク品質(LQ)、パケットエラー率(PER)、ビットエラー率(BER)、応答時間、再送回数、チャネル利用率、アクティブノード数)などが含まれてもよい。また、設計範囲としては、端末性能情報(CPU使用率、メモリ使用率、HDD使用率、バッテリ残量、センサノード内温度、内部処理時間)などが含まれてもよい。
運用管理情報取得部12は、各管理対象装置(70、10、120、130)において計測された性能値を取得し、運用管理情報として運用管理情報DB30に格納する。ここで、運用管理情報取得部12は、性能値を取得する場合に、通信部11を介して、センサノード70にサンプリング間隔(性能値の計測間隔)等を通知する。そして、運用管理情報取得部12は、通知したサンプリング間隔等に従ってセンサノード70において計測された各種性能値が送信されてくると、該性能値を取得し、運用管理情報として運用管理情報DB30に格納する。また、運用管理情報取得部12は、運用管理情報DB30を更新した場合には、異常有無判定部14に対して運用管理情報DB30の更新を通知する。
図4には、運用管理情報DB30のデータ構造が示されている。図4に示すように、運用管理情報DB30においては、あるエンドデバイス(ED01001)の運用管理情報として、「デバイスID」、「タイムスタンプ」、「RSSI」、「LQ」、「応答時間」、「再送回数」、「バッテリ残量」などを管理している。また、運用管理情報DB30においては、あるアクセスポイント(AP12345)の運用管理情報として、「デバイスID」、「タイムスタンプ」、「RSSI」、「LQ」、「応答時間」、「CPU使用率」、「メモリ使用率」などを管理している。「デバイスID」は、運用管理情報の取得先であるデバイス(センサノード70やWi-Fiアクセスポイント130等)の識別情報である。「タイムスタンプ」は、運用管理情報の取得日時である。「RSSI」、「LQ」などその他の情報は、各デバイスから取得された性能値である。
センサ計測値取得部13は、センサノード70から、センサ72が計測したデータ(センサ計測値)を受信する。また、センサ計測値取得部13は、受信したセンサ計測値を計測値DB32に格納する。計測値DB32においては、図5に示すように、運用管理情報DB30と同様、「デバイスID」及び「タイムスタンプ」が管理されるとともに、各種センサ計測値(「温度」、「湿度」、「振動」…等)が管理される。センサ計測値取得部13は、計測値DB32を更新した場合には、異常有無判定部14に対して計測値DB32の更新を通知する。
異常有無判定部14は、センサ計測値取得部13から計測値DB32の更新通知を受信するか、運用管理情報取得部12から運用管理情報DB30の更新通知を受信すると、異常有無判定処理を実行する。具体的には、異常有無判定部14は、計測値DB32又は運用管理情報DB30から直近データを取得して、異常の有無を判定する。そして、異常有無判定部14は、異常発生を検知すると、異常内容に基づいて障害種別を推定する。
ここで、異常有無判定部14は、例えば、センサ計測値や運用管理情報の取得失敗(データの欠落)、運用管理情報の閾値超え、エラーメッセージ受信などがあった場合に、異常発生を検知する(判定する)。例えば、図6(a)の太線枠内のように、RSSIの値が閾値(例えば-60)未満である場合や、図6(b)の太線枠内のように、RSSI、LQ、応答時間を取得できなかった(取得に失敗した)場合などにおいて、異常有無判定部14は異常発生を検知する。なお、異常有無判定部14は抽出した直近の複数のセンサ計測値や運用管理情報から平均値や分散値を算出し、算出した平均値や分散値が閾値を超えるか否かにより、異常の発生を判定してもよい(例えば、国際公開第2018/066041参照)。
また、異常有無判定部14は、障害種別を推定する場合、図7に示すような異常内容-障害種別対応表を参照する。ここで、異常内容-障害種別対応表においては、異常内容と、障害種別とが対応付けられている。例えば、異常内容-障害種別対応表からは、異常を検出した際の異常内容がデータ取得失敗であり、その後の自然復旧が無かった場合には、障害種別を「端末」と推定することができる。また、異常内容-障害種別対応表からは、例えば、異常を検出した際の異常内容がデータ取得失敗であり、その後の自然復旧が有った場合には、障害種別を「通信」と推定することができる。また、異常内容-障害種別対応表からは、例えば、異常内容が、ある性能値が閾値を超えていたことであった場合には、障害種別をその性能値に対応するものと推定することができる。すなわち、閾値を超えていた性能値がRSSIやLQであれば、障害種別を「通信」と推定することができ、閾値を超えていた性能値がCPU使用率やメモリ使用率であれば、障害種別を「端末」と推定することができる。
異常有無判定部14は、異常発生を検知するとともに障害種別を推定すると、障害原因特定部15に対して、異常発生と判定した元データ(デバイスID、タイムスタンプ、データ名、データ値)を通知する。また、異常有無判定部14は、パラメータ変更必要性判定部16に、推定した障害種別を通知する。
例えば、異常有無判定部14が、図6(a)のデータから障害種別を「通信」と推定した場合、障害原因特定部15に対して、異常発生と判定した元データ(デバイスID=「ED01001」、タイムスタンプ=「2019/1/1 00:00:00.400」、データ名=「RSSI」、データ値=「-65」)を通知する。また、異常有無判定部14は、パラメータ変更必要性判定部16に対して、障害種別=「通信」を通知する。
また、例えば、異常有無判定部14が、図6(b)のデータから障害種別を「通信」と推定した場合、障害原因特定部15に対して、異常発生と判定した元データ(デバイスID=「AP12345」、タイムスタンプ=「2019/1/1 00:00:00.500」、データ名=「RSSI」、「LQ」、「応答時間」、データ値=「null」)を通知する。また、異常有無判定部14は、パラメータ変更必要性判定部16に対して、障害種別=「通信」を通知する。
図3に戻り、障害原因特定部15は、異常有無判定部14から異常発生検知時の通知を受信すると、通知されたデバイスIDの通知されたタイムスタンプの直近データを運用管理情報DB30から1個以上取得する。そして、障害原因特定部15は、パラメータ管理DB34に登録されている分析用のパラメータを利用して、取得した情報を分析して、障害原因を判定する。障害原因が判定できた場合、障害原因特定部15は、通知部18とパラメータ変更必要性判定部16に障害原因の情報(デバイスID、障害発生日時、障害原因)を通知する。
なお、障害原因の分析については種々の分析手法を利用することができる。例えば、分析手法として平均値、中央値、分散値などを利用したり、特徴量の比較や閾値超えの有無を利用したりしてもよい。また、クラスタ分析やトレンド分析、正常時の学習パターンやクラスタとの比較を利用してもよい。クラスタ分析としては例えばK-Means法、X-Means法などがある。トレンド分析としては例えば最小二乗法や近似1次直線などがある。(例えば、特開2017-123124号公報、国際公開第2018/066041参照)。
ここで、製造工場内においては、製造ラインが変更されることが多いため、用いるセンサノードは無線通信できるものが多い。このような無線通信可能なセンサノードにおいては、障害原因として、大きな装置による「無線遮蔽」や、周辺からの「無線干渉」といった通信障害が特定されることがある。また、安価なセンサノードやデータ集中用ゲートウェイデバイスを利用している場合、障害原因として、ハードウェアやソフトウェアのスペック不足(「CPU負荷」や「HDD不足」など)や「故障」といった端末起因の障害が特定されることがある。
図8には、パラメータ管理DB34のデータ構造の一例が示されている。図8に示すように、パラメータ管理DB34には、デバイスID及びデータ名の組み合わせごとに、障害原因の分析に用いるパラメータの情報が格納されている。
パラメータ変更必要性判定部16は、異常有無判定部14から、異常発生時の通知(異常有り通知)と、推定した障害種別を受信する。また、パラメータ変更必要性判定部16は、障害原因特定部15から障害原因の通知を受信する。パラメータ変更必要性判定部16は、異常有り通知を受信後の一定期間内において、対応する障害原因の情報の通知を受信しなかった場合に、パラメータ変更部17に異常発生日時と障害種別とを通知する。なお、異常有り通知を受信した後の一定期間としては、デフォルト値(例えば10分)を用いることができる。ただし、これに限らず、一定期間としては、異常有り通知において通知された障害種別に応じた期間を用いることとしてもよい。例えば、障害種別が「端末」の場合であれば、1時間など、比較的長い時間を用いることとし、例えば、障害種別が「通信」の場合であれば、1分など、比較的短い時間を用いることとしてもよい。このように、障害種別が「端末」の場合の一定期間を比較的長い時間とするのは、障害が端末に発生している場合には、比較的長い時間に得られる大量のデータを分析しないと、障害原因がわからない場合が多いからである。また、障害種別が「通信」の場合の一定期間を比較的短い時間とするのは、通信に関する運用管理情報は、値の変化が激しいものが多く、比較的短時間に得られるデータから障害原因を特定できる場合が多いからである。
なお、上述した例では、パラメータ変更必要性判定部16は、対応する障害原因の通知を、異常有り通知受信後の一定期間内に受信したか判断することとしたが、これに限られるものではない。例えば、パラメータ変更必要性判定部16は、異常有り通知を受信した前後の一定期間内において、対応する障害原因の情報の通知を受信したかを判断することとしてもよい。
図9には、パラメータ変更必要性判定部16が管理している異常-障害原因特定対応表が示されている。パラメータ変更必要性判定部16は、異常有無判定部14から異常発生日時と障害種別が通知されると、異常-障害原因特定対応表に格納する。また、パラメータ変更必要性判定部16は、格納した異常発生日時を基準とする一定時間の間に障害原因特定部15から障害原因が通知されると、対応する行に障害原因特定日時と障害原因の情報を格納する。そして、パラメータ変更必要性判定部16は、一定時間内に障害原因が入力されなかった場合や、一定時間内に障害原因が入力されたものの、障害種別と障害原因が対応していない場合に、パラメータ変更部17に対して異常発生日時と障害種別とを通知する。なお、パラメータ変更必要性判定部16は、障害種別と障害原因が対応するか否かは、図10に示す障害種別-障害原因対応表を参照して判断する。図10の障害種別-障害原因対応表においては、障害種別(端末、通信、…)と当該障害種別を引き起こす障害原因とが対応付けられている。
パラメータ変更部17は、パラメータ変更必要性判定部16から、通知を受信すると、異常発生日時付近の運用管理情報を運用管理情報DB30から取得し、障害種別に対応する障害原因が特定されるように、分析用のパラメータを変更する。なお、分析用のパラメータの変更方法の詳細については後述する。
パラメータ変更部17は、パラメータを変更すると、変更後のパラメータを障害原因特定部15に通知する。通知を受けた障害原因特定部15は、変更後のパラメータをパラメータ管理DB34に登録(更新)する。
通知部18は、障害原因特定部15から障害原因の情報の通知を受け付けると、受け付けた障害原因の情報をサーバ60や運用管理者が利用する端末等に送信する。
(パラメータ変更部17の処理について)
次に、パラメータ変更部17の処理について、図11のフローチャートに沿って、その他図面を適宜参照しつつ詳細に説明する。
図11の処理が開始されると、まず、ステップS10において、パラメータ変更部17は、パラメータ変更必要性判定部16から異常発生日時と障害種別の通知を受信するまで待機する。なお、パラメータ変更必要性判定部16は、前述のように、異常発生日時を基準とする一定時間内に障害原因が入力されなかった場合や、一定時間内に障害原因が入力されたが、障害種別と障害原因が対応していなかった場合に、パラメータ変更部17に対して上記通知を行う。
パラメータ変更部17は、上記通知を受信すると、ステップS12に移行し、障害種別が「端末」であるか否かを判断する。このステップS12の判断が肯定された場合には、ステップS14に移行する。
ステップS14に移行すると、パラメータ変更部17は、変更順を端末用とする。ここで、パラメータの変更順には、図12(a)に示すような端末用の変更順と、図12(b)に示すような通信用の変更順があるものとする。障害種別が「端末」の場合には、図12(a)の端末用の変更順(優先順位)に従ってパラメータを変更することで、適切な障害原因が特定されやすくなる。また、障害種別が「通信」の場合には、図12(b)の通信用の変更順(優先順位)に従ってパラメータを変更することで、適切な障害原因が特定されやすくなる。このステップS14では、パラメータ変更部17は、図12(a)の変更順を以下において用いるように設定する。
次いで、ステップS16では、パラメータ変更部17は、同タイミングで複数デバイスに異常が発生したか否かを判断する。このステップS16の判断が否定された場合、すなわち、1つのデバイスで異常が発生した場合には、ステップS18に移行し、パラメータを変更する対象のデバイスを、異常が発生したデバイスとする。一方、ステップS16の判断が肯定された場合、すなわち、同タイミングにおいて複数のデバイスに異常が発生した場合には、ステップS20に移行し、パラメータ変更部17は、パラメータを変更する対象のデバイスを、異常が発生した複数のデバイスの上位デバイスとする。この場合、例えば、Wi-Fiアクセスポイント130に接続されている複数のセンサノード70において異常が同タイミングで発生した場合には、複数のセンサノード70の上位デバイスであるWi-Fiアクセスポイント130に原因がある可能性が高い。したがって、上位デバイスをパラメータ変更の対象デバイスとする。ステップS18又はS20の処理が実行された後は、ステップS22に移行する。
ステップS22に移行すると、パラメータ変更部17は、変更順に並ぶパラメータのうち先頭の未選択パラメータを選択する。例えば、図12(a)の変更順が設定されている場合、パラメータ変更部17は、「1-1.CPU負荷」を選択する。
次いで、ステップS24では、パラメータ変更部17は、選択したパラメータの値を障害原因が特定される値まで変更する。「1-1.CPU負荷」が選択されている場合には、パラメータ変更部17は、障害原因が特定されるように、CPU負荷の閾値を減らす。
次いで、ステップS26では、パラメータ変更部17は、パラメータを変更した結果、異常発生無しの日時に障害原因が特定されたか否かを判断する。すなわち、パラメータ変更部17は、障害発生日時を基準とした所定時間内に得られた運用管理情報を運用管理情報DB30から取得して、障害原因を特定する。この結果、異常が発生していない日時に障害原因が新たに特定されなかった場合には、パラメータ変更が適切に行われたことを意味する。この場合、ステップS26の判断は否定されて、ステップS46に移行する。ステップS46では、パラメータ変更部17は、障害原因特定部15にパラメータ変更を通知して、障害原因特定部15にパラメータ管理DB34を更新させる。すなわち、パラメータの変更を確定する。その後は、図11の全処理を終了する。
これに対し、ステップS26において、異常が発生していない日時に障害原因が新たに特定されたため、判断が肯定されると、ステップS28に移行する。ステップS28に移行する場合とは、パラメータ変更が適切でなかったことを意味する。このステップS28においては、パラメータ変更部17は、未選択のパラメータがあるか否かを判断する。このステップS28の判断が肯定されると、ステップS30に移行し、パラメータ変更部17は、変更したパラメータを元に戻し、ステップS22に移行する。
ステップS22に移行すると、パラメータ変更部17は、次のパラメータを選択する。例えば、前回「1-1.CPU負荷」を選択していた場合には、パラメータ変更部17は、次の「1-2.メモリ/HDD使用率」を選択する。その後は、ステップS24以降の処理を繰り返す。そして、繰り返しの間にステップS26の判断が否定されることなく、ステップS28の判断が否定された場合には、ステップS32に移行する。この場合、パラメータの変更ができなかったことを意味するため、パラメータ変更部17は、パラメータ変更不可を障害原因特定部15に通知する。この通知を受けた障害原因特定部15は、通知部18を介して、サーバ60や運用管理者が利用する端末等へパラメータの変更ができなかったこと等を通知する。
ところで、障害種別が「端末」ではなかった場合には、ステップS12の判断が否定され、ステップS34に移行する。ステップS34に移行すると、パラメータ変更部17は、障害種別が「通信」であるか否かを判断する。このステップS34の判断が肯定された場合には、ステップS36に移行し、パラメータ変更部17は、変更順を通信用とする。すなわち、パラメータ変更部17は、図12(b)の変更順を以下において用いるように設定する。
次いで、ステップS40では、パラメータ変更部17は、同タイミングで複数デバイスに異常が発生したか否かを判断する。このステップS40の判断が否定された場合、すなわち、1つのデバイスで異常が発生した場合には、ステップS42に移行し、パラメータを変更する対象のデバイスを、異常が発生したデバイスとする。一方、ステップS40の判断が肯定された場合、すなわち、同タイミングにおいて複数のデバイスに異常が発生した場合には、パラメータを変更する対象のデバイスを、同タイミングにおいて異常が発生した複数のデバイスとする。このようにするのは、同タイミングで複数のデバイスに通信に関する異常が発生した場合、各デバイスに障害原因がある可能性が高いからである。
その後は、ステップS22に移行し、上述したようにステップS22以降の処理を実行する。この場合、パラメータ変更部17は、図12(b)の変更順に沿ってパラメータを変更するものとする。
ステップS34において判断が否定された場合、すなわち、障害種別が「該性能」であった場合には、パラメータ変更部17は、ステップS38に移行し、パラメータの変更順を対応する性能値のパラメータのみとする。その後は、ステップS40以降の処理を上記と同様に実施する。なお、障害種別が「該性能」の場合、変更すべきパラメータが1つしかないため、ステップS26の判断が肯定された場合には、ステップS28をスキップして、ステップS32に移行するようにしてもよい。
以上のように図11の処理が実行されることで、障害原因の分析用のパラメータを適切に変更することが可能となっている。なお、図11の処理は、繰り返し実行されるようになっている。
なお、図11のフローチャートは、障害種別が「端末」、「通信」、「該性能」の3つである場合の処理を示している。ただし、本実施形態がこれに限られるものではなく、実際の障害種別の数に合わせて、図11のフローチャートを適宜変更することができる。
以上、詳細に説明したように、本第1の実施形態によると、異常有無判定部14は、センサノード70やルータ10などの管理対象装置から定期的に収集した運用管理情報やセンサ計測値に基づいて、異常を検出するとともに、異常内容から障害種別を推定する。また、障害原因特定部15は、分析用のパラメータを用いて運用管理情報を分析して、管理対象装置の障害原因を特定する。また、パラメータ変更必要性判定部16は、異常発生が検出された日時を基準とする一定時間内に、障害種別に対応する障害原因が特定されたかを判定する。そして、パラメータ変更部17は、当該判定の結果、対応する障害原因が特定できていなければ、推定した障害種別に応じたパラメータの優先順位(変更順)に従って、分析用のパラメータを変更する。これにより、本実施形態では、どのような異常や障害が発生するのかが不明なIoT環境であっても、システム運用中に収集される運用管理情報に基づいて、適切に障害原因を特定することができるパラメータを自動的に決定することができる。したがって、時々刻々と変化するIoT環境において高い精度で障害原因を特定することができる。この場合、推定した障害種別に応じたパラメータの変更順(図12(a)、図12(b))に従ってパラメータを変更するため、障害種別に合った適切な順番でパラメータを効率的に変更することができる。
また、本実施形態では、パラメータ変更部17は、対応する障害原因の特定結果が得られるように分析用のパラメータを変更する。そして、パラメータ変更部17は、変更後の分析用のパラメータを用いて、過去の所定期間に得られた運用管理情報を分析し、異常が検出されなかった日時において障害原因が特定されなければ、分析用のパラメータの変更を確定する(S26:否定、S46)。これにより、誤った障害原因の特定が行われないように、パラメータ変更を適切に行うことができる。
《第2の実施形態》
次に、第2の実施形態について、図13~図14(b)に基づいて、詳細に説明する。本第2の実施形態では、障害原因特定部15が、常時障害原因を特定する処理を実行する。この場合、異常有無判定部14によって異常が検出されないタイミングにおいても、障害原因特定部15が障害原因を特定することがある。このような場合には、異常が発生する前の段階で、障害予兆が行われていると考えることもできる。
しかし、同じ障害原因が短期間に何度も判定されるにもかかわらず、異常発生有と検知されないような場合は、障害原因が誤って特定されている可能性が高い。本第2の実施形態は、このような障害原因が誤って特定されることを抑制するために、パラメータ変更部17がパラメータを変更する。
本第2の実施形態においては、パラメータ変更必要性判定部16は、障害原因に対応する障害種別の異常が発生していないことが、所定回数以上(例えば1回以上)繰り返されたことを検出すると、パラメータ変更部17に対して通知を行う。具体的には、パラメータ変更必要性判定部16は、図13に示すように、異常-障害原因特定対応表において障害原因が格納されているにも関わらず、対応する障害種別が一定期間以上格納されていない行がある場合に、パラメータ変更部17に通知する。
ここで、一定期間はデフォルト値(例えば1時間)であってもよいし、障害原因に対応する障害種別に応じて異なる値を用いてもよい。例えば、障害原因に対応する障害種別が「端末」の場合には、例えば2時間等と比較的長く設定し、障害原因に対応する障害種別が「通信」の場合には、例えば30分等と比較的短くしてもよい。障害原因に対応する障害種別が「端末」の場合と「通信」の場合とで上記のように一定時間の長さを異ならせる理由については、上記第1の実施形態において説明したとおりである。なお、一定期間は、障害原因を受信した後の時間であってもよいし、障害原因の前後の時間であってもよい。
なお、所定回数は、1回に限らず、2回や3回などであってもよい。また、所定回数は障害原因に対応する障害種別に応じて異なる回数を用いてもよい。たとえば、障害原因に対応する障害種別が「端末」の場合、比較的回数を少なく(例えば1回)し、障害原因に対応する障害種別が「通信」の場合、比較的回数を多く(例えば5回)してもよい。このようにすることで、障害種別に応じた障害予兆の出方を考慮して、所定回数を適切な値とすることができる。
パラメータ変更部17は、第1の実施形態と同様、図11のフローチャートに沿った処理を実行する。ここで、ステップS12、S34では、障害種別が端末か通信かを判断するが、本第2の実施形態では障害種別が推定されていない。したがって、パラメータ変更部17は、特定されている障害原因に対応する障害種別を図10の障害種別-障害原因対応表に基づいて特定する。そして、特定した障害種別に基づいて、ステップS12、S34を実行する。本第2の実施形態では、端末用の変更順が図14(a)に示すような順であり、通信用の変更順が図14(b)に示すような順であるものとする。
図14(a)と図12(a)とは、変更順については同一であるが、パラメータ(閾値等)を減らすか増やすかが逆となっている。図14(b)と図12(b)についても同様であり、パラメータ(閾値等)を増やすか減らすかが逆となっている。
なお、第1の実施形態では、図11のステップS26において、パラメータ変更部17は、パラメータを変更した結果、過去の所定時間内の異常発生無しの日時に障害原因が特定されたか否かを判断することとしていた。これに対し、本第2の実施形態では、パラメータ変更部17は、パラメータを変更した結果、過去の所定時間内の異常発生有りの日時に障害原因が特定されなくなったか否かを判断することとする。このようにすることで、パラメータを変更した結果、障害原因が特定されなくなった場合に、そのパラメータの変更を採用しないようにすることができる。
以上説明したように、本第2の実施形態によると、異常有無判定部14は、センサノード70やルータ10などの管理対象装置から定期的に収集した運用管理情報やセンサ計測値に基づいて、異常発生を検出するとともに、異常内容から障害種別を推定する。また、障害原因特定部15は、分析用のパラメータを用いて運用管理情報を分析して、管理対象装置の障害原因を特定する。また、パラメータ変更必要性判定部16は、障害原因が特定されたタイミングを基準とする一定時間内に、障害原因に対応する障害種別が推定されたかを判定する。そして、パラメータ変更部17は、判定の結果、対応する障害種別が推定されていなければ、障害原因に対応する障害種別に応じたパラメータの優先順位に従って、分析用のパラメータを変更する。これにより、どのような異常や障害が発生するのかが不明なIoT環境であっても、システム運用中に収集される運用管理情報に基づいて、適切に障害原因を特定可能なパラメータを自動的に決定することができる。したがって、時々刻々と変化するIoT環境において高い精度で障害原因を特定することができる。この場合、特定した障害原因に対応する障害種別に応じたパラメータの変更順(図14(a)、図14(b))に従ってパラメータを変更するため、障害種別に合った適切な順番でパラメータを効率的に変更することができる。
《第3の実施形態》
以下、第3の実施形態について、図15に基づいて説明する。上記第1、第2の実施形態では、異常有無判定部14が利用する異常内容-障害種別対応表が図7に示すような表である場合について説明したが、本実施形態では、図15に示すような異常内容-障害種別対応表を用いる。
図7の異常内容-障害種別対応表は、異常内容に対応付けて異常種別が格納されていたが、本第3の実施形態の異常内容-障害種別対応表(図15)は、異常内容と、デバイス種別と、通信方式との組み合わせに対応付けて、障害種別が定義されている。すなわち、異常内容が、デバイス種別(エンドデバイス、中継器、ゲートウェイ)により場合分けされるとともに、通信方式(有線LAN、Wi-Fi、…)により場合分けされ、各場合に対して障害種別が定められている。なお、本第3の実施形態において利用する図15以外の対応表についても、図15と同様に細分化した障害種別が用いられるものとする。このように、障害種別を細分化して定義することにより、より精度よく障害原因判定を行うことが可能となる。
以上説明したように、本第3の実施形態によれば、異常内容とデバイス種別、通信方式に基づいて、障害種別を決定するため、より精度よく障害判定を行うことができる。
《第4の実施形態》
次に、第4の実施形態について、図16に基づいて説明する。本第4の実施形態では、上記第1の実施形態においてパラメータ変更部17がパラメータを変更した場合に、その変更の効果の履歴を記録し、変更の効果の履歴に基づいてパラメータの変更順を調整する。
なお、本第4の実施形態では、一例として、異常有無判定部14は、第3の実施形態で説明した障害内容-障害種別対応表を利用する。このため、異常有無判定部14では、図15に示すような細分化された障害種別が推定される。また、パラメータ変更部17の処理は、上記第1の実施形態(図11)と同様である。
本第4の実施形態では、パラメータ変更部17は、図11のステップS46においてパラメータ変更を障害原因特定部15に通知する際、及びステップS30において変更したパラメータを元に戻す際に、図16に示す効果管理テーブルを更新する。
ここで、図16の効果管理テーブルには、障害種別と、デバイスIDの組み合わせごとに、「効果無」のパラメータ変更と、「効果有」のパラメータ変更と、効果があったときのパラメータの「変更量」と、が格納される。すなわち、パラメータ変更部17は、ステップS30の処理が行われた場合に、元に戻したパラメータの情報(図12(a)、図12(b)におけるパラメータの番号)を、対応する「効果無」の欄に格納する。また、パラメータ変更部17は、ステップS46の処理が行われた場合に、変更したパラメータの情報(図12(a)、図12(b)におけるパラメータの番号)を、対応する「効果有」の欄に格納するとともに、パラメータの変更量を「変更量」の欄に格納する。
そして、パラメータ変更部17は、同じ障害種別において、各デバイスの「効果有」のパラメータが共通している場合には、「効果有」のパラメータの優先順位(変更順)を上げるように、図12(a)、図12(b)の変更順を更新する。これにより、どのパラメータを優先的に変更すればよいかを学習した結果に基づいて作成された変更順(図12(a)、図12(b))を用いることで、変更効果の高いパラメータを優先的に変更することができるため、効率的なパラメータ変更が可能となる。
また、同じ障害種別において、各デバイスの「変更量」が共通するような場合には、当該共通する変更量を変更順(図12(a)、図12(b))において定義することとしてもよい。また、同じ障害種別において、各デバイスの「変更量」が共通しなければ、同じ障害種別における各デバイスの「変更量」のうちで最小の値を変更順(図12(a)、図12(b))において定義してもよいし、「変更量」の平均値を変更順において定義してもよい。
また、図12(a)、図12(b)において変更量を定義する場合、時間帯ごとに変更量を定義してもよいし、平日/休日ごとに変更量を定義してもよいし、曜日ごとに定義してもよい。
また、障害種別が「端末」に関連するものであり、効果があったパラメータ変更が「通信性能情報」だった場合には、パラメータ変更部17は、異常有無判定部14に対して、該障害種別を「通信」に関連するものと変更するよう通知してもよい。同様に、障害種別が「通信」に関連するものであり、効果があったパラメータ変更が「端末性能情報」だった場合には、パラメータ変更部17は、異常有無判定部14に対して、該障害種別を「端末」に関連するものと変更するよう通知してもよい。
なお、上記第4の実施形態では、第1の実施形態において、パラメータの変更の効果の履歴を効果管理テーブル(図16)に記録しておき、図12(a)、図12(b)の変更順を効果管理テーブルに基づいて変更する場合について説明した。しかしながら、これに限られるものではなく、第2の実施形態において、パラメータの変更の効果の履歴を効果管理テーブル(図16)に記録しておき、図14(a)、図14(b)の変更順を効果管理テーブルに基づいて変更することとしてもよい。
なお、上記各実施形態では、図3のゲートウェイ110の機能をサーバ60が有していてもよい。また、図3のゲートウェイ110の機能を複数の装置で分担して有するようにしてもよい。
なお、上記各実施形態では、パラメータ変更部17は、分析用のパラメータを変更する際に、図11の処理を行う場合について説明したが、これに限られるものではない。パラメータ変更部17は、機械学習において利用する学習モデルを生成する際に、収集データに正常/異常のラベルを付与するために用いるパラメータを図11の処理により変更することしてもよい。すなわち、図11の処理により、学習モデルを変更することとしてもよい。
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、処理装置が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記憶媒体(ただし、搬送波は除く)に記録しておくことができる。
プログラムを流通させる場合には、例えば、そのプログラムが記録されたDVD(Digital Versatile Disc)、CD-ROM(Compact Disc Read Only Memory)などの可搬型記憶媒体の形態で販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
プログラムを実行するコンピュータは、例えば、可搬型記憶媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記憶媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。
上述した実施形態は本発明の好適な実施の例である。但し、これに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変形実施可能である。
なお、以上の第1~第4の実施形態の説明に関して、更に以下の付記を開示する。
(付記1) 管理対象装置から定期的に収集した前記管理対象装置の性能に関する運用管理情報を含む情報に基づいて異常発生を検出するとともに、異常内容に基づいて障害種別を推定し、
分析用のパラメータを用いて前記運用管理情報を分析して、前記管理対象装置の障害原因を特定し、
推定した前記障害種別に対応する障害原因が特定されたか、又は特定した前記障害原因に対応する障害種別が推定されたかを判定し、
前記判定の結果、推定した前記障害種別に対応する障害原因が特定されなかった、又は特定した前記障害原因に対応する障害種別が推定されなかった場合に、推定した前記障害種別又は特定した前記障害原因に対応するパラメータの優先順位に従って、前記分析用のパラメータを変更する、
処理をコンピュータが実行することを特徴とする情報処理方法。
(付記2) 前記判定する処理では、前記異常発生の検出と前記障害原因の特定のタイミングが合っており、特定した前記障害原因が推定した前記障害種別を引き起こすものであるかを判定する、ことを特徴とする付記1に記載の情報処理方法。
(付記3) 前記変更する処理では、
推定した前記障害種別に対応する障害原因が特定されるように、又は特定した前記障害原因に対応する障害種別が推定されるように、前記分析用のパラメータを変更し、
変更後の前記分析用のパラメータを用いて、過去における異常発生の検出及び過去における障害原因の特定結果に変更が生じなければ、前記分析用のパラメータの変更を確定する、ことを特徴とする付記1又は2に記載の情報処理方法。
(付記4) 前記変更する処理において、前記分析用のパラメータを変更したことによる効果に関する情報を記憶部に記憶し、
前記記憶部に記憶した情報に基づいて、前記優先順位を決定する、処理を前記コンピュータが更に実行することを特徴とする付記1~3のいずれかに記載の情報処理方法。
(付記5) 管理対象装置から定期的に収集した前記管理対象装置の性能に関する運用管理情報を含む情報に基づいて異常発生を検出するとともに、異常内容に基づいて障害種別を推定する推定部と、
分析用のパラメータを用いて前記運用管理情報を分析して、前記管理対象装置の障害原因を特定する特定部と、
推定した前記障害種別に対応する障害原因が特定されたか、又は特定した前記障害原因に対応する障害種別が推定されたかを判定する判定部と、
前記判定の結果、推定した前記障害種別に対応する障害原因が特定されなかった、又は特定した前記障害原因に対応する障害種別が推定されなかった場合に、推定した前記障害種別又は特定した前記障害原因に対応するパラメータの優先順位に従って、前記分析用のパラメータを変更する変更部と、
を備える情報処理装置。
(付記6) 前記判定部は、前記異常発生の検出と前記障害原因の特定のタイミングが合っており、特定した前記障害原因が推定した前記障害種別を引き起こすものであるかを判定する、ことを特徴とする付記5に記載の情報処理装置。
(付記7) 前記変更部は、
推定した前記障害種別に対応する障害原因が特定されるように、又は特定した前記障害原因に対応する障害種別が推定されるように、前記分析用のパラメータを変更し、
変更後の前記分析用のパラメータを用いて、過去における異常発生の検出及び過去における障害原因の特定結果に変更が生じなければ、前記分析用のパラメータの変更を確定する、ことを特徴とする付記5又は6に記載の情報処理装置。
(付記8) 前記変更部は、前記分析用のパラメータを変更したことによる効果に関する情報を記憶部に記憶し、前記記憶部に記憶した情報に基づいて、前記優先順位を決定する、ことを特徴とする付記5~7のいずれかに記載の情報処理装置。
10 ルータ(管理対象装置)
14 異常有無判定部(推定部)
15 障害原因特定部(特定部)
16 パラメータ変更必要性判定部(判定部)
17 パラメータ変更部(変更部)
70 センサノード(管理対象装置)
110 ゲートウェイ(情報処理装置)
120 ハブ(管理対象装置)
130 Wi-Fiアクセスポイント(管理対象装置)

Claims (5)

  1. 管理対象装置から定期的に収集した前記管理対象装置の性能に関する運用管理情報を含む情報に基づいて異常発生を検出するとともに、異常内容に基づいて障害種別を推定し、
    分析用のパラメータを用いて前記運用管理情報を分析して、前記管理対象装置の障害原因を特定し、
    推定した前記障害種別に対応する障害原因が特定されたか、又は特定した前記障害原因に対応する障害種別が推定されたかを判定し、
    前記判定の結果、推定した前記障害種別に対応する障害原因が特定されなかった、又は特定した前記障害原因に対応する障害種別が推定されなかった場合に、推定した前記障害種別又は特定した前記障害原因に対応するパラメータの優先順位に従って、前記分析用のパラメータを変更する、
    処理をコンピュータが実行することを特徴とする情報処理方法。
  2. 前記判定する処理では、前記異常発生の検出と前記障害原因の特定のタイミングが合っており、特定した前記障害原因が推定した前記障害種別を引き起こすものであるかを判定する、ことを特徴とする請求項1に記載の情報処理方法。
  3. 前記変更する処理では、
    推定した前記障害種別に対応する障害原因が特定されるように、又は特定した前記障害原因に対応する障害種別が推定されるように、前記分析用のパラメータを変更し、
    変更後の前記分析用のパラメータを用いて、過去における異常発生の検出及び過去における障害原因の特定結果に変更が生じなければ、前記分析用のパラメータの変更を確定する、ことを特徴とする請求項1又は2に記載の情報処理方法。
  4. 前記変更する処理において、前記分析用のパラメータを変更したことによる効果に関する情報を記憶部に記憶し、
    前記記憶部に記憶した情報に基づいて、前記優先順位を決定する、処理を前記コンピュータが更に実行することを特徴とする請求項1~3のいずれか一項に記載の情報処理方法。
  5. 管理対象装置から定期的に収集した前記管理対象装置の性能に関する運用管理情報を含む情報に基づいて異常発生を検出するとともに、異常内容に基づいて障害種別を推定する推定部と、
    分析用のパラメータを用いて前記運用管理情報を分析して、前記管理対象装置の障害原因を特定する特定部と、
    推定した前記障害種別に対応する障害原因が特定されたか、又は特定した前記障害原因に対応する障害種別が推定されたかを判定する判定部と、
    前記判定の結果、推定した前記障害種別に対応する障害原因が特定されなかった、又は特定した前記障害原因に対応する障害種別が推定されなかった場合に、推定した前記障害種別又は特定した前記障害原因に対応するパラメータの優先順位に従って、前記分析用のパラメータを変更する変更部と、
    を備える情報処理装置。
JP2019061473A 2019-03-27 2019-03-27 情報処理方法及び情報処理装置 Active JP7135969B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019061473A JP7135969B2 (ja) 2019-03-27 2019-03-27 情報処理方法及び情報処理装置
US16/812,002 US20200310898A1 (en) 2019-03-27 2020-03-06 Information processing method and information processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019061473A JP7135969B2 (ja) 2019-03-27 2019-03-27 情報処理方法及び情報処理装置

Publications (2)

Publication Number Publication Date
JP2020162055A JP2020162055A (ja) 2020-10-01
JP7135969B2 true JP7135969B2 (ja) 2022-09-13

Family

ID=72605729

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019061473A Active JP7135969B2 (ja) 2019-03-27 2019-03-27 情報処理方法及び情報処理装置

Country Status (2)

Country Link
US (1) US20200310898A1 (ja)
JP (1) JP7135969B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11126492B1 (en) 2019-11-05 2021-09-21 Express Scripts Stategic Development, Inc. Systems and methods for anomaly analysis and outage avoidance in enterprise computing systems
US11775042B2 (en) * 2020-08-25 2023-10-03 University-Industry Cooperation Group Of Kyung Hee University Method, apparatus and system for managing energy in self-powered network
US20220096109A1 (en) 2020-09-28 2022-03-31 Mani, Inc. Medical forceps
CN112383421B (zh) * 2020-11-03 2023-03-24 中国联合网络通信集团有限公司 一种故障定位方法及装置
JP2022131053A (ja) * 2021-02-26 2022-09-07 キヤノン株式会社 ゲートウェイ装置、ノード装置、情報処理システム、生産システム、物品の製造方法、ゲートウェイ装置の制御方法、ノード装置の制御方法、制御プログラム、記録媒体
CN114760317A (zh) * 2022-03-18 2022-07-15 中国建设银行股份有限公司 虚拟网关集群的故障检测方法及相关设备
CN117353966A (zh) * 2022-06-29 2024-01-05 华为技术有限公司 网络风险评估方法及相关装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006340050A (ja) 2005-06-02 2006-12-14 Nec Corp 異常検出システムおよび保全システム
US20070192065A1 (en) 2006-02-14 2007-08-16 Sun Microsystems, Inc. Embedded performance forecasting of network devices
WO2014132612A1 (ja) 2013-02-26 2014-09-04 日本電気株式会社 システム分析装置、及び、システム分析方法
CN105871879A (zh) 2016-05-06 2016-08-17 中国联合网络通信集团有限公司 网元异常行为自动检测方法及装置
WO2018066041A1 (ja) 2016-10-03 2018-04-12 富士通株式会社 性能異常検出装置、性能異常検出方法、及び性能異常検出プログラム
JP2018064160A (ja) 2016-10-12 2018-04-19 日本電信電話株式会社 故障位置特定装置、故障位置特定方法、および、故障位置特定プログラム
US20180211171A1 (en) 2017-01-25 2018-07-26 Centurylink Intellectual Property Llc Machine Discovery of Aberrant Operating States
JP2018148350A (ja) 2017-03-03 2018-09-20 日本電信電話株式会社 閾値決定装置、閾値決定方法及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3116162A4 (en) * 2014-04-08 2017-03-29 Huawei Device Co., Ltd. Failure detection method and device

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006340050A (ja) 2005-06-02 2006-12-14 Nec Corp 異常検出システムおよび保全システム
US20070192065A1 (en) 2006-02-14 2007-08-16 Sun Microsystems, Inc. Embedded performance forecasting of network devices
WO2014132612A1 (ja) 2013-02-26 2014-09-04 日本電気株式会社 システム分析装置、及び、システム分析方法
CN105871879A (zh) 2016-05-06 2016-08-17 中国联合网络通信集团有限公司 网元异常行为自动检测方法及装置
WO2018066041A1 (ja) 2016-10-03 2018-04-12 富士通株式会社 性能異常検出装置、性能異常検出方法、及び性能異常検出プログラム
JP2018064160A (ja) 2016-10-12 2018-04-19 日本電信電話株式会社 故障位置特定装置、故障位置特定方法、および、故障位置特定プログラム
US20180211171A1 (en) 2017-01-25 2018-07-26 Centurylink Intellectual Property Llc Machine Discovery of Aberrant Operating States
JP2018148350A (ja) 2017-03-03 2018-09-20 日本電信電話株式会社 閾値決定装置、閾値決定方法及びプログラム

Also Published As

Publication number Publication date
US20200310898A1 (en) 2020-10-01
JP2020162055A (ja) 2020-10-01

Similar Documents

Publication Publication Date Title
JP7135969B2 (ja) 情報処理方法及び情報処理装置
US11570038B2 (en) Network system fault resolution via a machine learning model
JP6847591B2 (ja) 異常検知システム、モデル生成装置、異常検知装置、異常検知方法、モデル生成プログラム、および、異常検知プログラム
WO2017215647A1 (en) Root cause analysis in a communication network via probabilistic network structure
CN113424493A (zh) 故障检测方法
US20160191357A1 (en) Systems and methods for mapping and visualizing a wireless mesh network
JP2015530851A (ja) セルラシステムにおけるセル停止補償のシステム及び方法
US20160283307A1 (en) Monitoring system, monitoring device, and test device
US11115843B2 (en) Method and device for managing multiple remote radio heads in communication network
CN108282355B (zh) 云桌面系统中设备巡检装置
CN107533492B (zh) 中继装置和程序
US11652682B2 (en) Operations management apparatus, operations management system, and operations management method
CN110521233B (zh) 标识中断的方法、接入点、远程配置的方法、系统和介质
US10397065B2 (en) Systems and methods for characterization of transient network conditions in wireless local area networks
EP3829210A1 (en) Access point fault detection based on operational parameter values received from neighboring access points
KR101556781B1 (ko) 네트웍 장비 예측 장애 및 수명 정보 서비스 시스템
CN113938844A (zh) 网络连接监控方法、系统、计算机设备和存储介质
JP2021057650A (ja) サーバ、無線通信システム、及び、制御方法
JP7295370B2 (ja) 情報処理装置、情報処理プログラム及び情報処理方法
US20230269127A1 (en) Information processing device, information processing method, and information processing system
US20240187302A1 (en) Network anomaly detection and mitigation
GB2561181A (en) Network Fault Discovery
JP2023131537A (ja) ローカル5g監視システムとその状態表示方法
US20190158602A1 (en) Data collecting system based on distributed architecture and operation method thereof
CN117692504A (zh) 一种物联网设备的状态识别方法、系统、设备及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210909

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220613

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220815

R150 Certificate of patent or registration of utility model

Ref document number: 7135969

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150