JP2022136708A - 情報処理方法、および情報処理プログラム - Google Patents

情報処理方法、および情報処理プログラム Download PDF

Info

Publication number
JP2022136708A
JP2022136708A JP2021036448A JP2021036448A JP2022136708A JP 2022136708 A JP2022136708 A JP 2022136708A JP 2021036448 A JP2021036448 A JP 2021036448A JP 2021036448 A JP2021036448 A JP 2021036448A JP 2022136708 A JP2022136708 A JP 2022136708A
Authority
JP
Japan
Prior art keywords
series data
time
information processing
aggregated
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021036448A
Other languages
English (en)
Inventor
真司 山下
Shinji Yamashita
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2021036448A priority Critical patent/JP2022136708A/ja
Priority to EP21208451.1A priority patent/EP4057146A1/en
Priority to US17/527,334 priority patent/US11616704B2/en
Publication of JP2022136708A publication Critical patent/JP2022136708A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports
    • H04L43/067Generation of reports using time frame reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3419Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • H04L41/0622Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time based on time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • H04L43/045Processing captured monitoring data, e.g. for logfile generation for graphical visualisation of monitoring data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Environmental & Geological Engineering (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】時系列データの解析精度を向上すること。【解決手段】情報処理装置は、ユーザ単位の複数の時系列データを取得する。情報処理装置は、ユーザ単位の複数の時系列データを、集約単位に合わせて分割して集約し、複数の集約時系列データを生成する。情報処理装置は、生成した複数の集約時系列データのそれぞれの集約時系列データについて、周期性があるか否かを判定する。周期性がある場合、情報処理装置は、それぞれの集約時系列データに基づいて、異常判定を実施する。【選択図】図14

Description

本発明は、情報処理方法、および情報処理プログラムに関する。
従来、クラウドシステムの運用者は、クラウドシステムが正常に動作しているのかを把握することを望む。このため、クラウドシステムの監視ログ情報を収集し、収集した監視ログ情報に基づいて、クラウドシステムに何らかの異常が発生したことを検知可能にすることが望まれる。監視ログ情報は、例えば、何らかの特徴量の時間変化を示す時系列データである。特徴量は、例えば、トラフィック量である。
先行技術としては、例えば、トラフィックモデルからトラフィック量の予測値を算出し、トラフィック量の実測値との差分に基づいて、トラフィック異常を算出し、予め設定した閾値と比較することにより、異常判定処理を実施するものがある。
特開2018-195929号公報
しかしながら、従来技術では、時系列データの解析精度が悪い場合がある。例えば、複数の監視ログ情報を集約して得られた集約監視ログ情報に基づいて、クラウドシステムに何らかの異常が発生したか否かを判断する手法が考えられる。この手法では、集約する監視ログ情報の数が不適切であると、クラウドシステムに何らかの異常が発生したか否かを判断する精度が悪化する。
1つの側面では、本発明は、時系列データの解析精度を向上することを目的とする。
1つの実施態様によれば、複数の時系列データを取得し、取得した前記複数の時系列データを、所定の集約単位に合わせて分割して集約することにより得られる、1以上の集約時系列データのそれぞれの集約時系列データについて、所定の時間間隔における周期性に関する指標値を算出し、算出した前記指標値が所定の条件を満たす場合に、前記それぞれの集約時系列データを、解析対象に決定する情報処理方法、および情報処理プログラムが提案される。
一態様によれば、時系列データの解析精度を向上することが可能になる。
図1は、実施の形態にかかる情報処理方法の一実施例を示す説明図である。 図2は、解析処理システム200の一例を示す説明図である。 図3は、情報処理装置100のハードウェア構成例を示すブロック図である。 図4は、情報処理装置100の機能的構成例を示すブロック図である。 図5は、情報処理装置100の動作の流れを示す説明図である。 図6は、情報処理装置100の動作の一例を示す説明図(その1)である。 図7は、情報処理装置100の動作の一例を示す説明図(その2)である。 図8は、情報処理装置100の動作の一例を示す説明図(その3)である。 図9は、自己相関度と統計多重効果との関係性を示す説明図である。 図10は、集約時系列データの自己相関度を算出する一例を示す説明図(その1)である。 図11は、集約時系列データの自己相関度を算出する一例を示す説明図(その2)である。 図12は、集約時系列データの自己相関度を算出する一例を示す説明図(その3)である。 図13は、集約時系列データの自己相関度を算出する一例を示す説明図(その4)である。 図14は、全体処理手順の一例を示すフローチャートである。 図15は、全体処理手順の具体例1を示すフローチャートである。 図16は、全体処理手順の具体例2を示すフローチャートである。 図17は、全体処理手順の具体例3を示すフローチャートである。 図18は、周期性判定処理手順の一例を示すフローチャート(その1)である。 図19は、周期性判定処理手順の一例を示すフローチャート(その2)である。
以下に、図面を参照して、本発明にかかる情報処理方法、および情報処理プログラムの実施の形態を詳細に説明する。
(実施の形態にかかる情報処理方法の一実施例)
図1は、実施の形態にかかる情報処理方法の一実施例を示す説明図である。図1において、情報処理装置100は、時系列データの解析精度を向上するためのコンピュータである。時系列データは、何らかの特徴量の時間変化を示す。
解析は、例えば、複数の時系列データを集約して得られる集約時系列データに基づき実施される。解析は、具体的には、何らかのシステムに関する異常検知などが考えられる。集約時系列データは、例えば、特徴量の統計量の時間変化を示す。特徴量の統計量は、例えば、複数の特徴量における、最大値、最小値、平均値、中央値、最頻値、または、分散などである。
従来、システムの監視ログ情報を収集し、収集した監視ログ情報に基づいて、システムに何らかの異常が発生したことを検知可能にする手法が考えられる。例えば、複数の監視ログ情報を集約して得られた集約監視ログ情報に基づいて、システムに何らかの異常が発生したか否かを判断する手法が考えられる。具体的には、集約監視ログ情報に対して統計的手法を適用することにより、特徴量の統計量が取り得る正常範囲を特定し、特徴量の統計量の実測値が正常範囲から外れたか否かに基づいて、システムに何らかの異常が発生したか否かを判断する手法が考えられる。
しかしながら、従来では、時系列データの解析精度が悪い場合がある。例えば、上記手法では、集約する監視ログ情報の数が不適切であると、システムに何らかの異常が発生したか否かを判断する精度が悪化する。具体的には、集約する監視ログ情報の数が少なすぎると、統計多重効果が小さくなり、システムに何らかの異常が発生したか否かを判断する精度の悪化を招くことになる。一方で、集約する監視ログ情報の数が多すぎると、システムのうち、異常が発生した箇所が、集約した監視ログ情報のうち、いずれの監視ログ情報に関する箇所であるのかを切り分けることが難しくなる。このため、システムに何らかの異常が発生したか否かを判断する精度の悪化を招くことになる。
そこで、本実施の形態では、集約時系列データにおける特徴量の統計量の周期性を基に、集約時系列データに集約された時系列データの数が適切であるか否かを評価することにより、時系列データの解析精度を向上することができる情報処理方法について説明する。
(1-1)情報処理装置100は、複数の時系列データ110を取得する。それぞれの時系列データ110は、例えば、異なるユーザに関するデータである。それぞれの時系列データ110は、例えば、同じ種類の特徴量の時間変化を示すデータである。
(1-2)情報処理装置100は、取得した複数の時系列データ110を、所定の集約単位に合わせて分割して集約することにより、1以上の集約時系列データ120を生成する。集約単位は、複数の時系列データ110のうち、いずれの時系列データ110を集約するのかを規定する。集約単位は、例えば、集約する時系列データの数を規定する。情報処理装置100は、例えば、取得した複数の時系列データ110を、規定の数ごとに分割して集約することにより、1以上の集約時系列データ120を生成する。
情報処理装置100は、生成した1以上の集約時系列データ120のそれぞれの集約時系列データ120について、所定の時間間隔における周期性に関する指標値を算出する。所定の時間間隔は、例えば、予め設定された一定時間の時間間隔である。指標値は、例えば、集約時系列データ120と、時間軸方向に一定時間ずらした集約時系列データ120との差分に基づいて算出される。指標値は、例えば、周期性が強いほど、値が大きくなる。指標値は、例えば、集約時系列データ120と、時間軸方向に一定時間ずらした集約時系列データ120との差分が小さいほど、値が大きくなる。
(1-3)情報処理装置100は、算出した指標値が所定の条件を満たす場合に、それぞれの集約時系列データ120を、解析対象に決定する。解析は、例えば、集約時系列データ120に基づき、何らかのシステムに異常が発生しているか否かを判断することである。所定の条件は、例えば、算出した指標値が所定の閾値以上であることである。情報処理装置100は、例えば、算出した指標値のすべてが所定の条件を満たす場合に、それぞれの集約時系列データ120を、解析対象に決定する。
情報処理装置100は、例えば、算出した指標値のすべてが所定の閾値以上である場合に、それぞれの集約時系列データ120を、解析対象に決定する。情報処理装置100は、具体的には、算出した指標値のすべてが所定の閾値以上である場合に、それぞれの集約時系列データ120に基づいて、何らかのシステムに異常が発生しているか否かを判断する。
これにより、情報処理装置100は、時系列データ110の解析精度の向上を図ることができる。情報処理装置100は、例えば、集約時系列データ120に集約された時系列データ110の数が適切であるか否かを評価することができ、時系列データ110に基づく解析処理を精度よく実施することができる。情報処理装置100は、具体的には、統計多重効果が比較的大きい状態で、時系列データ110に基づく解析処理を実施することができる。また、情報処理装置100は、具体的には、システムのうち、異常が発生した箇所が、集約した時系列データ110のうち、いずれの時系列データ110に関する箇所であるのかを切り分け易くすることができる。
(1-4)情報処理装置100は、算出した指標値が所定の条件を満たさない場合に、所定の集約単位を変更する場合があってもよい。例えば、所定の集約単位は、初期状態で、最小の集約単位に設定される。変更は、例えば、所定の集約単位を大きくすることである。この場合、情報処理装置100は、複数の時系列データ110を、変更した後の所定の集約単位に合わせて分割して集約することにより得られる、1以上の集約時系列データ120のそれぞれの集約時系列データ120について、指標値を算出する。そして、情報処理装置100は、算出した指標値が所定の条件を満たす場合に、それぞれの集約時系列データ120を、解析対象に決定する。
これにより、情報処理装置100は、時系列データ110の解析精度の向上を図ることができる。情報処理装置100は、例えば、集約時系列データ120に集約された時系列データ110の数が不適切であれば、集約時系列データ120に集約される時系列データ110の数を変更することができる。そして、情報処理装置100は、集約時系列データ120に集約された時系列データ110の数が適切になれば、時系列データ110に基づく解析処理を実施することができる。このため、情報処理装置100は、時系列データ110に基づく解析処理を精度よく実施することができる。
ここでは、所定の集約単位が、初期状態で、最小の集約単位に設定され、情報処理装置100が、算出した指標値が所定の条件を満たさない場合に、所定の集約単位が大きくなるよう、所定の集約単位を変更する場合について説明したが、これに限らない。
例えば、所定の集約単位が、初期状態で、最小の集約単位に設定されていない場合があってもよい。具体的には、所定の集約単位が、初期状態で、最大の集約単位に設定されている場合があってもよい。この場合、情報処理装置100は、具体的には、最大の集約単位から順に、当該集約単位での1以上の集約時系列データ120のそれぞれの集約時系列データ120についての指標値を算出する場合があってもよい。そして、情報処理装置100は、具体的には、算出した指標値が所定の条件を満たす集約単位の中で最小の集約単位を選択し、選択した集約単位での集約時系列データ120を、解析対象に決定する。
また、具体的には、情報処理装置100が、一度に、複数の集約単位のそれぞれの集約単位での1以上の集約時系列データ120のそれぞれの集約時系列データ120についての指標値を算出する場合があってもよい。この場合、情報処理装置100は、具体的には、複数の集約単位のうち、算出した指標値が所定の条件を満たす集約単位の中で最小の集約単位を選択し、選択した集約単位での集約時系列データ120を、解析対象に決定する。
また、具体的には、情報処理装置100が、ランダムに集約単位を設定し、当該集約単位での1以上の集約時系列データ120のそれぞれの集約時系列データ120についての指標値を算出する場合があってもよい。そして、情報処理装置100は、具体的には、最初に発見した、算出した指標値が所定の条件を満たす集約単位での集約時系列データ120を、解析対象に決定する。
ここでは、情報処理装置100が、算出した指標値のすべてが所定の条件を満たす場合に、それぞれの集約時系列データ120を、解析対象に決定する場合について説明したが、これに限らない。例えば、情報処理装置100が、算出した指標値の少なくともいずれかが所定の条件を満たす場合に、それぞれの集約時系列データ120を、解析対象に決定する場合があってもよい。
また、例えば、情報処理装置100が、1以上の集約時系列データ120のうち、算出した指標値が所定の条件を満たす集約時系列データ120を、解析対象に決定する場合があってもよい。この場合、情報処理装置100は、集約単位を変更し、解析対象に決定しなかったそれぞれの集約時系列データ120に集約された時系列データ110について、指標値を算出し直す。そして、情報処理装置100は、算出した指標値が所定の条件を満たす集約時系列データ120を、解析対象に決定する。
(解析処理システム200の一例)
次に、図2を用いて、図1に示した情報処理装置100を適用した、解析処理システム200の一例について説明する。
図2は、解析処理システム200の一例を示す説明図である。図2において、解析処理システム200は、情報処理装置100と、端末装置201とを含む。
解析処理システム200において、情報処理装置100と端末装置201とは、有線または無線のネットワーク210を介して接続される。ネットワーク210は、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、インターネットなどである。
情報処理装置100は、何らかのシステムの管理者によって用いられるコンピュータである。当該システムは、例えば、1以上の端末装置201によって形成される。情報処理装置100は、複数の時系列データを取得する。情報処理装置100は、例えば、複数の時系列データを、端末装置201から受信することにより取得する。情報処理装置100は、取得した複数の時系列データを用いて、適切と判断される集約単位を探索する。
情報処理装置100は、例えば、集約単位を変更しつつ、時系列データを集約した集約時系列データについての所定の時間間隔における周期性に関する指標値が、所定の条件を満たすか否かを判定する。情報処理装置100は、指標値が所定の条件を満たす集約単位を適切と判断し、当該集約単位に従って、複数の時系列データを用いた解析処理を実施する。情報処理装置100は、解析処理を実施した結果を、管理者が参照可能に出力する。情報処理装置100は、例えば、サーバ、または、PC(Personal Computer)などである。
端末装置201は、何らかのシステムを形成するコンピュータである。端末装置201は、時系列データを生成する。端末装置201は、例えば、自装置におけるトラフィック量を計測し、トラフィック量の時間変化を示す時系列データを生成する。端末装置201は、時系列データを、情報処理装置100に送信する。端末装置201は、例えば、PC、タブレット端末、または、スマートフォンなどである。
(解析処理システム200の具体例)
解析処理システム200は、例えば、1以上の端末装置201で形成される何らかのシステムの異常検知に適用される場合がある。この場合、情報処理装置100は、適切と判断した集約単位に合わせて、複数の時系列データを分割して集約することにより、1以上の集約時系列データを生成する。集約時系列データは、例えば、トラフィック量の統計量の時間変化を示す。統計量は、具体的には、最大値である。そして、情報処理装置100は、生成した1以上の集約時系列データに基づいて、1以上の端末装置201で形成される何らかのシステムの異常検知を実施する。
情報処理装置100は、例えば、生成した1以上の集約時系列データのそれぞれの集約時系列データに対して、統計的手法を適用することにより、トラフィック量の統計量が取り得る正常範囲を特定する。そして、情報処理装置100は、例えば、それぞれの集約時系列データにおいて、トラフィック量の統計量の実測値が、特定した正常範囲から外れるか否かを判定する。情報処理装置100は、判定した結果に基づいて、1以上の端末装置201で形成される何らかのシステムに、何らかの異常が発生したか否かを判断する。
情報処理装置100は、具体的には、1以上の集約時系列データのうち、トラフィック量の統計量の実測値が、特定した正常範囲から外れている集約時系列データを特定する。そして、情報処理装置100は、具体的には、1以上の端末装置201で形成される何らかのシステムのうち、特定した集約時系列データに集約された1以上の時系列データのいずれかの時系列データに対応する箇所に異常が発生したと判断する。これにより、情報処理装置100は、1以上の端末装置201で形成される何らかのシステムの異常検知を精度よく実施することができる。
(情報処理装置100のハードウェア構成例)
次に、図3を用いて、情報処理装置100のハードウェア構成例について説明する。
図3は、情報処理装置100のハードウェア構成例を示すブロック図である。図3において、情報処理装置100は、CPU(Central Processing Unit)301と、メモリ302と、ネットワークI/F(Interface)303と、記録媒体I/F304と、記録媒体305とを有する。また、各構成部は、バス300によってそれぞれ接続される。
ここで、CPU301は、情報処理装置100の全体の制御を司る。メモリ302は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)およびフラッシュROMなどを有する。具体的には、例えば、フラッシュROMやROMが各種プログラムを記憶し、RAMがCPU301のワークエリアとして使用される。メモリ302に記憶されるプログラムは、CPU301にロードされることにより、コーディングされている処理をCPU301に実行させる。
ネットワークI/F303は、通信回線を通じてネットワーク210に接続され、ネットワーク210を介して他のコンピュータに接続される。そして、ネットワークI/F303は、ネットワーク210と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。ネットワークI/F303は、例えば、モデムやLANアダプタなどである。
記録媒体I/F304は、CPU301の制御に従って記録媒体305に対するデータのリード/ライトを制御する。記録媒体I/F304は、例えば、ディスクドライブ、SSD(Solid State Drive)、USB(Universal Serial Bus)ポートなどである。記録媒体305は、記録媒体I/F304の制御で書き込まれたデータを記憶する不揮発メモリである。記録媒体305は、例えば、ディスク、半導体メモリ、USBメモリなどである。記録媒体305は、情報処理装置100から着脱可能であってもよい。
情報処理装置100は、上述した構成部の他、例えば、キーボード、マウス、ディスプレイ、プリンタ、スキャナ、マイク、スピーカーなどを有してもよい。また、情報処理装置100は、記録媒体I/F304や記録媒体305を複数有していてもよい。また、情報処理装置100は、記録媒体I/F304や記録媒体305を有していなくてもよい。
(端末装置201のハードウェア構成例)
端末装置201のハードウェア構成例は、具体的には、図3に示した情報処理装置100のハードウェア構成例と同様であるため、説明を省略する。
(情報処理装置100の機能的構成例)
次に、図4を用いて、情報処理装置100の機能的構成例について説明する。
図4は、情報処理装置100の機能的構成例を示すブロック図である。情報処理装置100は、記憶部400と、取得部401と、算出部402と、判断部403と、決定部404と、出力部405とを含む。
記憶部400は、例えば、図3に示したメモリ302や記録媒体305などの記憶領域によって実現される。以下では、記憶部400が、情報処理装置100に含まれる場合について説明するが、これに限らない。例えば、記憶部400が、情報処理装置100とは異なる装置に含まれ、記憶部400の記憶内容が情報処理装置100から参照可能である場合があってもよい。
取得部401~出力部405は、制御部の一例として機能する。取得部401~出力部405は、具体的には、例えば、図3に示したメモリ302や記録媒体305などの記憶領域に記憶されたプログラムをCPU301に実行させることにより、または、ネットワークI/F303により、その機能を実現する。各機能部の処理結果は、例えば、図3に示したメモリ302や記録媒体305などの記憶領域に記憶される。
記憶部400は、各機能部の処理において参照され、または更新される各種情報を記憶する。記憶部400は、時系列データを記憶する。時系列データは、例えば、解析対象となる。時系列データは、何らかの特徴量の時間変化を示す。特徴量は、例えば、トラフィック量、または、通信遅延量などである。時系列データは、例えば、何らかの属性を有する。時系列データの属性には、例えば、ネットワークアドレスが含まれる。時系列データの属性には、例えば、HTTP(Hyper Text Transfer Protocol)コマンドのURL(Uniform Resource Locator)階層が含まれる。時系列データは、例えば、取得部401によって取得され、記憶部400によって記憶される。
記憶部400は、集約単位に設定し得る複数の単位候補を記憶する。集約単位は、複数の時系列データのうち、いずれの時系列データを集約するのかを特定可能にする。集約単位は、例えば、ネットワークアドレスの範囲を規定する。集約単位は、例えば、ネットワークアドレスの範囲を規定することにより、1つの集約時系列データに集約される時系列データのグループを特定可能にする。
集約時系列データは、例えば、何らかの特徴量の統計量の時間変化を示す。統計量は、例えば、最大値、最小値、平均値、中央値、最頻値、または、分散などである。トラフィック量の統計量は、例えば、最大トラフィック量である。通信遅延量の統計量は、例えば、平均通信遅延量である。記憶部400は、例えば、集約単位に設定し得るネットワークアドレスの範囲についての複数の候補を記憶する。記憶部400は、具体的には、段階的に広くなる複数の候補を記憶してもよい。いずれかの候補は、例えば、他の候補を複数包含していてもよい。
集約単位は、例えば、集約する時系列データの数を規定する。集約単位は、集約する時系列データの数を規定することにより、1つの集約時系列データに集約される時系列データのグループを特定可能にする。記憶部400は、例えば、集約単位に設定し得る、1つの集約時系列データに集約される時系列データの数についての複数の候補を記憶する。
集約単位は、例えば、URL階層の深さを規定する。集約単位は、例えば、URL階層の深さを規定することにより、1つの集約時系列データに集約される時系列データのグループを特定可能にする。記憶部400は、例えば、集約単位に設定し得るURL階層の深さについての複数の候補を記憶する。記憶部400は、具体的には、段階的に深くなる複数の候補を記憶してもよい。いずれかの候補は、例えば、他の候補より深くてもよい。
集約単位は、例えば、集約する時系列データのデータ量を規定してもよい。集約単位は、集約する時系列データのデータ量を規定することにより、1つの集約時系列データに集約される時系列データのグループを特定可能にする。記憶部400は、例えば、集約単位に設定し得る、1つの集約時系列データに集約される時系列データのデータ量についての複数の候補を記憶する。集約単位は、例えば、管理者によって予め設定される。集約単位は、例えば、取得部401によって取得され、記憶部400によって記憶されてもよい。
記憶部400は、所定の条件を記憶する。所定の条件は、1以上の時系列データを集約した集約時系列データについての、所定の時間間隔における周期性に関する指標値に対して設定される。所定の時間間隔は、例えば、予め設定された一定時間の時間間隔である。指標値は、例えば、集約時系列データと、時間軸方向に一定時間ずらした集約時系列データとの差分に基づいて算出される。指標値は、例えば、周期性が強いほど、値が大きくなる。指標値は、例えば、集約時系列データと、時間軸方向に一定時間ずらした集約時系列データとの差分が小さいほど、値が大きくなる。
所定の条件は、例えば、算出した指標値が所定の閾値以上であるという条件である。所定の条件は、具体的には、周期性が一定以上に強いことを示す条件である。所定の条件は、例えば、管理者によって予め設定される。所定の条件は、例えば、取得部401によって取得され、記憶部400によって記憶されてもよい。
取得部401は、各機能部の処理に用いられる各種情報を取得する。取得部401は、取得した各種情報を、記憶部400に記憶し、または、各機能部に出力する。また、取得部401は、記憶部400に記憶しておいた各種情報を、各機能部に出力してもよい。取得部401は、例えば、管理者の操作入力に基づき、各種情報を取得する。取得部401は、例えば、情報処理装置100とは異なる装置から、各種情報を受信してもよい。
取得部401は、複数の時系列データを取得する。取得部401は、例えば、複数の時系列データを、1以上の端末装置201から受信することにより取得する。それぞれの時系列データは、例えば、異なるユーザに関するデータである。それぞれの時系列データは、例えば、何らかのシステムのうち、異なる箇所に関するデータであってもよい。それぞれの時系列データは、例えば、同じ種類の特徴量の時間変化を示すデータである。取得部401は、集約単位を取得してもよい。取得部401は、例えば、管理者の操作入力に基づき、集約単位の入力を受け付けることにより、集約単位を取得する。
取得部401は、いずれかの機能部の処理を開始する開始トリガーを受け付けてもよい。開始トリガーは、例えば、管理者による所定の操作入力があったことである。開始トリガーは、例えば、他のコンピュータから、所定の情報を受信したことであってもよい。開始トリガーは、例えば、いずれかの機能部が所定の情報を出力したことであってもよい。取得部401は、例えば、複数の時系列データを取得したことを、算出部402と、判断部403と、決定部404との処理を開始する開始トリガーとして受け付ける。
算出部402は、取得した複数の時系列データを、所定の集約単位に合わせて分割して集約することにより得られる、1以上の集約時系列データのそれぞれの集約時系列データについて、所定の時間間隔における周期性に関する指標値を算出する。所定の集約単位は、例えば、初期状態で、最小の集約単位に設定されている。所定の集約単位は、例えば、初期状態で、最小の集約単位以外に設定されていてもよい。所定の集約単位は、例えば、初期状態で、最大の集約単位に設定されていてもよい。所定の集約単位は、例えば、初期状態で、ランダムな集約単位に設定されていてもよい。
算出部402は、例えば、取得した複数の時系列データを、所定の集約単位に合わせて分割して集約することにより、1以上の集約時系列データを生成する。算出部402は、例えば、生成した1以上の集約時系列データのそれぞれの集約時系列データについて、所定の時間間隔における周期性に関する指標値を算出する。
算出部402は、具体的には、取得した複数の時系列データのうち、集約単位に設定されたネットワークアドレスの範囲に対応する1以上の時系列データを集約した集約時系列データを生成する。算出部402は、具体的には、生成した集約時系列データについて、所定の時間間隔における周期性に関する指標値を算出する。これにより、算出部402は、集約単位が適切か否かを判断する指針となる指標値を得ることができる。また、算出部402は、時系列データの属性に、ネットワークアドレスが含まれる状況に適用することができる。
算出部402は、具体的には、取得した複数の時系列データのうち、集約単位に設定された数分の時系列データを集約した集約時系列データを生成する。算出部402は、具体的には、生成した集約時系列データについて、所定の時間間隔における周期性に関する指標値を算出する。これにより、算出部402は、集約単位が適切か否かを判断する指針となる指標値を得ることができる。また、算出部402は、例えば、時系列データの属性に依らず、集約単位が適切か否かを判断する指針となる指標値を得ることができる。
算出部402は、具体的には、取得した複数の時系列データのうち、集約単位に設定されたURL階層の深さに対応する1以上の時系列データを集約した集約時系列データを生成する。算出部402は、具体的には、生成した集約時系列データについて、所定の時間間隔における周期性に関する指標値を算出する。これにより、算出部402は、集約単位が適切か否かを判断する指針となる指標値を得ることができる。また、算出部402は、時系列データの属性に、URL階層が含まれる状況に適用することができる。
算出部402は、所定の集約単位が変更される都度、複数の時系列データを、変更した後の所定の集約単位に合わせて分割して集約することにより得られる、1以上の集約時系列データのそれぞれの集約時系列データについて、指標値を算出する。これにより、算出部402は、複数の集約単位のそれぞれの集約単位について、当該集約単位が適切か否かを判断する指針となる指標値を得ることができる。このため、算出部402は、適切な集約単位を発見し易くすることができる。
算出部402は、一度に、複数の集約単位のそれぞれの集約単位での1以上の集約時系列データのそれぞれの集約時系列データについての指標値を算出する場合があってもよい。これにより、算出部402は、複数の集約単位のそれぞれの集約単位について、当該集約単位が適切か否かを判断する指針となる指標値を得ることができる。このため、算出部402は、適切な集約単位を発見し易くすることができる。
判断部403は、算出した指標値が、所定の条件を満たすか否かを判断する。判断部403は、例えば、算出した指標値が、所定の閾値以上であるか否かを判断する。これにより、判断部403は、集約時系列データの周期性が比較的強いか否かを判断することができ、いずれの集約単位が適切であり、いずれの集約単位での集約時系列データを、解析対象に決定することが好ましいのかを判断可能にすることができる。
判断部403は、判断した結果に基づいて、所定の集約単位を変更してもよい。ここで、所定の集約単位が、初期状態で、最小の集約単位に設定されていることが考えられる。これに対し、判断部403は、算出した指標値が、所定の条件を満たさない場合には、所定の集約単位が大きくなるよう、所定の集約単位を変更する。これにより、判断部403は、所定の集約単位を、最小の集約単位から順に大きくしつつ、それぞれの集約単位に関し、算出した指標値が所定の条件を満たすか否かを判断することができる。このため、判断部403は、複数の集約単位のうち、所定の条件を満たす指標値に対応し、かつ、最小の集約単位を特定可能にすることができる。従って、判断部403は、適切な集約単位を発見し易くすることができ、適切な集約単位を発見する際にかかる処理負担の低減化を図ることができる。
ここで、所定の集約単位が、初期状態で、最大の集約単位に設定されていることが考えられる。これに対し、判断部403は、算出した指標値が、所定の条件を満たしているうちは、所定の条件を満たさなくなるまで、所定の集約単位が小さくなるよう、所定の集約単位を変更する。これにより、判断部403は、複数の集約単位のうち、所定の条件を満たす指標値に対応し、かつ、最小の集約単位を特定可能にすることができるため、適切な集約単位を発見し易くすることができる。
ここで、所定の集約単位が、ランダムに設定されていることが考えられる。これに対し、判断部403は、算出した指標値が、所定の条件を満たさない場合には、所定の集約単位が大きくなるよう、所定の集約単位を変更する。また、判断部403は、算出した指標値が、所定の条件を満たさない場合には、所定の集約単位をランダムに変更してもよい。これにより、判断部403は、複数の集約単位のそれぞれの集約単位に関し、算出した指標値が、所定の条件を満たすか否かを判断することができる。このため、判断部403は、複数の集約単位のうち、所定の条件を満たす指標値に対応し、かつ、最小の集約単位を特定可能にすることができる。従って、判断部403は、適切な集約単位を発見し易くすることができ、適切な集約単位を発見する際にかかる処理負担の低減化を図ることができる。
決定部404は、算出した指標値が所定の条件を満たす場合に、それぞれの集約時系列データを、解析対象に決定する。決定部404は、例えば、ある集約単位に関し、算出した指標値のすべてが所定の条件を満たす場合に、当該集約単位が適切と判断し、当該集約単位でのそれぞれの集約時系列データを、解析対象に決定する。決定部404は、具体的には、ある集約単位に関し、算出した指標値のすべてが所定の閾値以上である場合に、当該集約単位が適切と判断し、当該集約単位でのそれぞれの集約時系列データを、解析対象に決定する。これにより、決定部404は、適切な集約単位を発見することができ、適切な集約単位での集約時系列データを、解析対象に決定することができる。
決定部404は、例えば、ある集約単位に関し、算出した指標値の少なくともいずれかが所定の条件を満たす場合に、当該集約単位が適切と判断し、当該集約単位でのそれぞれの集約時系列データを、解析対象に決定する。決定部404は、具体的には、ある集約単位に関し、算出した指標値の少なくともいずれかが所定の閾値以上である場合に、当該集約単位が適切と判断し、当該集約単位でのそれぞれの集約時系列データを、解析対象に決定する。これにより、決定部404は、適切な集約単位を発見することができ、適切な集約単位での集約時系列データを、解析対象に決定することができる。
ここで、例えば、算出した指標値が、所定の条件を満たさない場合に、判断部403が、所定の集約単位が大きくなるよう、所定の集約単位を変更している場合が考えられる。この場合、決定部404は、最初に発見した、算出した指標値が所定の条件を満たした集約単位を、適切な集約単位に選択し、選択した集約単位での集約時系列データを、解析対象に決定する。これにより、決定部404は、適切な集約単位を発見することができる。
ここで、例えば、算出した指標値が、所定の条件を満たさない場合に、判断部403が、所定の集約単位が小さくなるよう、所定の集約単位を変更している場合が考えられる。この場合、決定部404は、複数の集約単位のうち、算出した指標値が所定の条件を満たす集約単位の中で、最小の集約単位を、適切な集約単位に選択し、選択した集約単位での集約時系列データを、解析対象に決定する。これにより、決定部404は、適切な集約単位を発見することができる。
ここで、例えば、算出した指標値が、所定の条件を満たさなくなるまで、判断部403が、所定の集約単位が小さくなるよう、所定の集約単位を変更している場合が考えられる。この場合、決定部404は、複数の集約単位のうち、算出した指標値が所定の条件を満たす集約単位の中で、最小の集約単位を、適切な集約単位に選択し、選択した集約単位での集約時系列データを、解析対象に決定する。これにより、決定部404は、適切な集約単位を発見することができる。
ここで、例えば、所定の集約単位が、ランダムに設定されており、算出した指標値が、所定の条件を満たさない場合に、判断部403が、所定の集約単位が大きくなるよう、所定の集約単位を変更している場合が考えられる。この場合、決定部404は、最初に発見した、算出した指標値が所定の条件を満たした集約単位を、適切な集約単位に選択し、選択した集約単位での集約時系列データを、解析対象に決定する。これにより、決定部404は、適切な集約単位を発見することができる。
ここで、例えば、算出部402が、一度に、複数の集約単位のそれぞれの集約単位での1以上の集約時系列データのそれぞれの集約時系列データについての指標値を算出している場合が考えられる。この場合、決定部404は、複数の集約単位のうち、算出した指標値が所定の条件を満たす集約単位の中で、最小の集約単位を、適切な集約単位に選択し、選択した集約単位での集約時系列データを、解析対象に決定する。これにより、決定部404は、適切な集約単位を発見することができる。
決定部404は、解析対象に決定したそれぞれの集約時系列データに対して、所定の解析処理を実施する。解析は、具体的には、何らかのシステムに関する異常検知などである。決定部404は、例えば、解析対象に決定したそれぞれの集約時系列データに基づいて、何らかのシステムに関する異常検知を実施する。決定部404は、具体的には、それぞれの集約時系列データに対して、統計的手法を適用することにより、特徴量の統計量が取り得る正常範囲を特定する。そして、決定部404は、例えば、それぞれの集約時系列データにおいて、特徴量の統計量の実測値が、特定した正常範囲から外れるか否かに基づいて、何らかのシステムに関する異常検知を実施する。これにより、決定部404は、所定の解析処理を精度よく実施することができる。
出力部405は、少なくともいずれかの機能部の処理結果を出力する。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、ネットワークI/F303による外部装置への送信、または、メモリ302や記録媒体305などの記憶領域への記憶である。これにより、出力部405は、少なくともいずれかの機能部の処理結果を管理者に通知可能にし、情報処理装置100の利便性の向上を図ることができる。
出力部405は、適切な集約単位を出力する。出力部405は、例えば、適切な集約単位を、管理者が把握可能に出力する。出力部405は、具体的には、適切な集約単位を、管理者が把握可能に、ディスプレイに表示する。これにより、出力部405は、管理者が、適切な集約単位に基づいて、複数の時系列データに基づく解析処理を精度よく実施可能にすることができる。
出力部405は、適切な集約単位での集約時系列データを出力する。出力部405は、例えば、適切な集約単位での集約時系列データを、管理者が把握可能に出力する。出力部405は、具体的には、適切な集約単位での集約時系列データを、管理者が把握可能に、ディスプレイに表示する。出力部405は、具体的には、適切な集約単位と対応付けて、当該適切な集約単位での集約時系列データを、管理者が把握可能に、ディスプレイに表示してもよい。これにより、出力部405は、管理者が、複数の時系列データから得た、適切な集約単位での集約時系列データに基づいて、解析処理を精度よく実施可能にすることができる。
出力部405は、解析処理を実施した結果を出力する。出力部405は、例えば、解析処理を実施した結果を、管理者が把握可能に出力する。出力部405は、具体的には、解析処理を実施した結果を、管理者が把握可能に、ディスプレイに表示する。これにより、出力部405は、管理者が、複数の時系列データに基づく解析処理を把握可能にすることができる。
(情報処理装置100の動作の流れ)
次に、図5を用いて、情報処理装置100の動作の流れについて説明する。
図5は、情報処理装置100の動作の流れを示す説明図である。図5において、時系列データは、時点ごとのトラフィック量を示す。1以上の時系列データを集約して得られた集約時系列データは、時点ごとの最大トラフィック量を示す。最大トラフィック量は、集約した時系列データが示すトラフィック量のうちの最大値に対応する。
情報処理装置100は、ある集約単位での集約時系列データにおける最大トラフィック量の周期性に関する指標値として、日ごとの自己相関度を算出する。自己相関度は、例えば、集約時系列データと、当該集約時系列データを時間軸方向に、ある量だけずらして得られた集約時系列データとの類似度である。以下の説明では、集約時系列データを時間軸方向にずらした量を、「ラグ」と表記する場合がある。
図5に示すように、周期性が比較的弱い集約時系列データ501における、ラグの変化に対する自己相関度の変化は、グラフ511に示す変化となる。グラフ511に示すように、周期性が比較的弱い集約時系列データ501では、自己相関度が比較的小さくなる傾向がある。ラグ0周辺での自己相関度が比較的大きい理由は、周期性が強いためではないため、ラグ0周辺での自己相関度は、周期性の強さを意味しないと扱うことが好ましい。
一方で、図5に示すように、周期性が比較的強い集約時系列データ502における、ラグの変化に対する自己相関度の変化は、グラフ512に示す変化となる。グラフ512に示すように、周期性が比較的強い集約時系列データ502では、自己相関度が比較的大きくなる傾向がある。ラグ0周辺での自己相関度が比較的大きい理由は、周期性が強いためではないため、ラグ0周辺での自己相関度は、周期性の強さを意味しないと扱うことが好ましい。
このため、情報処理装置100は、ある集約単位での集約時系列データにおける、日ごとの自己相関度を算出するにあたっては、ラグ0周辺以外の自己相関度を算出することが好ましい。情報処理装置100は、例えば、ラグを少しずつ大きくしながら、ラグごとの自己相関度を算出した後、ラグ0周辺以外で最大となる自己相関度を、集約時系列データにおける、日ごとの自己相関度に採用する。情報処理装置100が、自己相関度を算出する具体例については、例えば、図10~図13を用いて後述する。
ここで、自己相関度が大きいほど、最大トラフィック量の周期性が強く、統計多重効果が大きいことを示す。自己相関度と統計多重効果との関係性については、具体的には、例えば、図9を用いて後述する。情報処理装置100は、ある集約単位に関し、算出した自己相関度が所定の閾値以上であれば、周期性が一定以上に強く、統計多重効果が比較的大きいと判断し、当該集約単位を適切と判断する。情報処理装置100は、適切な集約単位での集約時系列データに基づいて、システムの異常検知を実施する。
情報処理装置100は、具体的には、最小の集約単位から順に、自己相関度が所定の閾値以上になるまで、集約単位を大きくしつつ、当該集約単位での集約時系列データにおける、日ごとの自己相関度が所定の閾値以上であるか否かを判定することを繰り返す。そして、情報処理装置100は、具体的には、最初に自己相関度が所定の閾値以上になった集約単位を適切と判断する。情報処理装置100は、具体的には、適切な集約単位での集約時系列データに基づいて、システムの異常検知を実施する。これにより、情報処理装置100は、適切な集約単位に従って、システムの異常検知を、精度よく実施することができる。
(情報処理装置100の動作の一例)
次に、図6~図8を用いて、情報処理装置100の動作の一例について説明する。
図6~図8は、情報処理装置100の動作の一例を示す説明図である。図6において、情報処理装置100は、複数の時系列データを取得しているとする。時系列データは、時点ごとのトラフィック量を示す。それぞれの時系列データは、ユーザ単位である。時系列データの属性には、ネットワークアドレスが含まれるとする。
集約単位の初期値は、ネットワークアドレスのマスク“/24”であるとする。マスク“/n”は、ネットワークアドレスの上位n桁の値を固定することを示す。nは、整数である。ネットワークアドレスに含まれる“0”は、1~254の範囲を示す。
(6-1)情報処理装置100は、ユーザ単位の時系列データを、ネットワークアドレスのマスク“/24”に合わせて集約し、集約時系列データ600を生成する。集約時系列データ600は、時点ごとの最大トラフィック量を示す。例えば、ネットワークアドレス“10.10.10.0/24”の時系列データを集約した集約時系列データ600、および、ネットワークアドレス“10.10.20.0/24”の時系列データを集約した集約時系列データ600などが生成される。
(6-2)情報処理装置100は、それぞれの集約時系列データ600における自己相関度を算出し、所定の閾値以上であるか否かを判定する。図6の例では、情報処理装置100は、少なくともいずれかの集約時系列データ600における自己相関度が、所定の閾値未満であると判定し、ネットワークアドレスのマスク“/24”が、適切な集約単位ではないと判断する。
これにより、情報処理装置100は、集約単位が適切でなく、統計多重効果が比較的小さい集約時系列データ600を用いて、異常検知を実施してしまうことを防止することができる。このため、情報処理装置100は、異常検知の精度の向上を図ることができる。次に、図7の説明に移行する。
図7において、(7-1)情報処理装置100は、少なくともいずれかの集約時系列データ600における自己相関度が、所定の閾値未満であったため、集約単位が大きくなるよう、集約単位を変更する。図7の例では、情報処理装置100は、集約単位を、ネットワークアドレスのマスク“/16”に変更する。
(7-2)情報処理装置100は、ユーザ単位の時系列データを、ネットワークアドレスのマスク“/16”に合わせて集約し、集約時系列データ700を生成する。集約時系列データ700は、時点ごとの最大トラフィック量を示す。例えば、ネットワークアドレス“10.10.0.0/16”の時系列データを集約した集約時系列データ700、および、ネットワークアドレス“10.20.0.0/16”の時系列データを集約した集約時系列データ700などが生成される。
(7-3)情報処理装置100は、それぞれの集約時系列データ700における自己相関度を算出し、所定の閾値以上であるか否かを判定する。図7の例では、情報処理装置100は、すべての集約時系列データ700における自己相関度が、所定の閾値以上であると判定し、ネットワークアドレスのマスク“/16”が、適切な集約単位であると判断する。また、情報処理装置100は、少なくともいずれかの集約時系列データ700における自己相関度が、所定の閾値未満であれば、適切な集約単位ではないと判断し、集約単位を変更し、図7と同様の動作を再び実施してもよい。次に、図8の説明に移行する。
図8において、(8-1)情報処理装置100は、それぞれの集約時系列データ700に基づいて、異常検知を実施する。情報処理装置100は、例えば、集約時系列データ700に対して、統計的手法を適用することにより、最大トラフィック量の予測値の変化を特定する。図8の例では、予測値は、細線で示される。
そして、情報処理装置100は、例えば、集約時系列データ700が示す最大トラフィック量の実測値が、予測値と一定以上乖離している場合、異常が発生したと判断する。図8の例では、実測値は、太線で示される。図8の例では、情報処理装置100は、ネットワークアドレス“10.10.0.0/16”の時系列データを集約した集約時系列データ700について、異常が発生したと判断する。換言すれば、情報処理装置100は、ネットワークアドレス“10.10.0.0/16”に対応する箇所で、異常が発生したと判断する。
(8-2)情報処理装置100は、異常が発生したと判断すると、異常が発生したネットワークアドレス“10.10.0.0/16”を、管理者が把握可能に出力する。これにより、情報処理装置100は、異常検知を精度よく実施することができる。情報処理装置100は、例えば、統計多重効果が比較的強い状態で異常検知を実施することができ、異常検知を誤ってしまう確率の低減化を図ることができる。また、情報処理装置100は、例えば、集約単位を比較的小さくすることができ、異常が発生した箇所を切り分け易くすることができる。また、情報処理装置100は、異常検知を実施した結果を、管理者が把握可能にすることができる。
ここでは、情報処理装置100が、ある集約単位で、すべての集約時系列データにおける自己相関度が所定の閾値以上であれば、当該集約単位を適切と判断し、集約時系列データに基づき解析処理を実施するとした場合について説明したが、これに限らない。例えば、情報処理装置100が、ある集約単位で、算出される自己相関度が所定の閾値以上である集約時系列データを、解析対象とし、算出される自己相関度が所定の閾値未満である集約時系列データを、異なる集約単位で、再集約する場合があってもよい。
(自己相関度と統計多重効果との関係性)
次に、図9を用いて、自己相関度と統計多重効果との関係性について説明する。
図9は、自己相関度と統計多重効果との関係性を示す説明図である。図9において、集約時系列データ900は、比較的小さい集約単位に対応し、集約時系列データ900にサンプルとして集約した時系列データの数が比較的少ない場合に対応する。この場合、集約時系列データ900の性質は、ユーザ個々の挙動に支配され易くなる。挙動は、トラフィック量の変化に対応する。例えば、集約単位が比較的小さいと、集約時系列データ900のうち、ユーザ個々に対応する成分が占める割合が比較的大きくなる。
具体的には、ユーザが休暇を取った日があると、当該日におけるトラフィック量は0となり、集約時系列データ900に含まれる成分に比較的大きな変化が生じる。このため、集約時系列データ900において、最大トラフィック量の周期性が弱くなり、統計多重効果が小さくなると共に、自己相関度が小さくなる傾向がある。
また、集約時系列データ910は、集約時系列データ900に比べて、比較的大きい集約単位に対応し、集約時系列データ910にサンプルとして集約した時系列データの数が比較的多い場合に対応する。集約時系列データ910は、例えば、2以上の集約時系列データ900を再集約した結果に対応する。この場合、集約時系列データ910の性質は、集約時系列データ900に比べて、ユーザ個々の挙動に支配され辛くなる。例えば、集約単位が比較的大きいと、集約時系列データ910のうち、ユーザ個々に対応する成分が占める割合が比較的小さくなる。
このため、集約時系列データ910は、巨視的なユーザの挙動を示すようになる。具体的には、集約時系列データ910は、始業時間帯から最大トラフィック量が増加し、就業時間帯に最大トラフィック量が減少するといった、統計的な挙動を示すようになり、統計多重効果が比較的大きくなる。従って、集約時系列データ910において、最大トラフィック量の周期性が強くなり、統計多重効果が大きくなると共に、自己相関度が大きくなる傾向がある。
また、集約時系列データ920は、比較的大きい集約単位に対応し、集約時系列データ920にサンプルとして集約した時系列データの数が比較的多い場合に対応する。集約時系列データ920は、例えば、2以上の集約時系列データ910を再集約した結果に対応する。この場合、集約時系列データ920の性質は、ユーザ個々の挙動に支配され辛くなる。例えば、集約単位が比較的大きいと、集約時系列データ920のうち、ユーザ個々に対応する成分が占める割合が比較的小さくなる。
このため、集約時系列データ920は、巨視的なユーザの挙動を示すようになる。従って、集約時系列データ920において、最大トラフィック量の周期性が強くなり、統計多重効果が大きくなると共に、自己相関度が大きくなる傾向がある。しかしながら、集約時系列データ920では、異常検知において、異常が発生した箇所を切り分けることが難しくなる傾向がある。集約した時系列データの数が比較的多いため、いずれの時系列データに対応する箇所で、異常が発生したのかを切り分けることが難しくなる。
これらのことから、異常検知の精度向上のためには、統計多重効果が比較的大きく、誤って正常な箇所を異常と検知する確率の低減化を図ると共に、異常が発生した箇所を切り分け易くすることが好ましい。換言すれば、統計多重効果が比較的大きく、かつ、集約する時系列データの数が比較的少なくなるよう適切な集約単位を発見することが望まれる。
これに対し、情報処理装置100は、図5~図8に上述した通り、統計多重効果が比較的大きく、かつ、集約する時系列データの数が比較的少なくなるよう、適切な集約単位を発見することができる。このため、情報処理装置100は、適切な集約単位に従って、異常検知を精度よく実施することができる。
(集約時系列データの自己相関度を算出する一例)
次に、図10~図13を用いて、情報処理装置100が、集約時系列データの自己相関度を算出する一例について説明する。
図10~図13は、集約時系列データの自己相関度を算出する一例を示す説明図である。図10において、情報処理装置100は、グラフ1000に示す集約時系列データ(Ti)を取得する。グラフ1000の横軸は、時点を示す。グラフ1000の縦軸は、トラフィック量を示す。次に、図11の説明に移行する。
図11において、情報処理装置100は、集約時系列データ(Ti)内の最大トラフィック量に基づいて、集約時系列データ(Ti)を正規化し、グラフ1100に示す正規化時系列データ(N-Ti)を生成する。そして、情報処理装置100は、正規化時系列データ(N-Ti)における回帰直線の傾き(Ri)を算出する。次に、図12の説明に移行する。
図12において、情報処理装置100は、正規化時系列データ(N-Ti)から、回帰直線の傾き成分を差し引いて、グラフ1200に示す差分時系列データ(D-Ti)を生成する。次に、図13の説明に移行する。
図13において、情報処理装置100は、差分時系列データ(D-Ti)について、ラグ(Li)ごとの自己相関度(Ci)を算出する。情報処理装置100は、具体的には、ラグを0から微小量ずつ変化させながら、差分時系列データ(D-Ti)と、差分時系列データ(D-Ti)を当該ラグ分ずらした加工時系列データとの類似度を、自己相関度(Ci)として算出する。ラグ(Li)の変化に対する自己相関度(Ci)の変化は、グラフ1300に示される。
情報処理装置100は、差分時系列データ(D-Ti)において、算出される自己相関度(Ci)が最大となるラグ(Li)を特定する。この際、情報処理装置100は、ラグ(Li)=0付近以外で、差分時系列データ(D-Ti)の自己相関度(Ci)が最大となるラグ(Li)を特定することが好ましい。情報処理装置100は、例えば、自己相関度(Ci)が極大となるラグ(Li)のうち、ラグ(Li)=0の側に最も近いラグ(Li)以外で、自己相関度(Ci)が最大となるラグ(Li)を特定する。
情報処理装置100は、例えば、ラグ(Li)=0の側に最も近く、自己相関度(Ci)が極小となるラグ(Li)よりも大きい範囲で、自己相関度(Ci)が最大となるラグ(Li)を特定する。図13の例では、情報処理装置100は、自己相関度(Ci)が最大となるラグ=24を特定する。情報処理装置100は、特定したラグ=24における自己相関度(Ci)を、集約時系列データ(Ti)の自己相関度(Ci)に採用する。これにより、情報処理装置100は、自己相関度(Ci)を精度よく算出することができる。
ここでは、情報処理装置100が、自己相関度(Ci)が最大となるラグ(Li)を特定する場合について説明したが、これに限らない。例えば、情報処理装置100が、差分時系列データ(D-Ti)について、予め設定された所定のラグ(Li)での自己相関度(Ci)を算出する場合があってもよい。この場合、情報処理装置100は、処理量の低減化を図ることができる。所定のラグ(Li)は、例えば、管理者によって設定される。所定のラグ(Li)は、例えば、差分時系列データ(D-Ti)の周期の推定値に対応することが好ましい。
(全体処理手順の一例)
次に、図14を用いて、情報処理装置100が実行する、全体処理手順の一例について説明する。全体処理は、例えば、図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。
図14は、全体処理手順の一例を示すフローチャートである。図14において、情報処理装置100は、ユーザ単位の複数の時系列データを取得する(ステップS1401)。そして、情報処理装置100は、集約単位の初期値を設定する(ステップS1402)。初期値は、例えば、最小の集約単位である。
次に、情報処理装置100は、ユーザ単位の複数の時系列データを、集約単位に合わせて分割して集約し、複数の集約時系列データを生成する(ステップS1403)。そして、情報処理装置100は、生成した複数の集約時系列データのそれぞれの集約時系列データについて、図18に後述する周期性判定処理を実行する(ステップS1404)。
次に、情報処理装置100は、周期性判定処理を実行した結果に基づいて、それぞれの集約時系列データにおいて周期性があるか否かを判定する(ステップS1405)。ここで、周期性がある場合(ステップS1405:Yes)、情報処理装置100は、ステップS1407の処理に移行する。一方で、周期性がない場合(ステップS1405:No)、情報処理装置100は、ステップS1406の処理に移行する。
ステップS1406では、情報処理装置100は、集約単位が現在よりも大きくなるよう、集約単位を変更する(ステップS1406)。そして、情報処理装置100は、ステップS1403の処理に戻る。
ステップS1407では、情報処理装置100は、それぞれの集約時系列データに基づいて、異常判定を実施する(ステップS1407)。次に、情報処理装置100は、異常判定を実施した結果を出力する(ステップS1408)。そして、情報処理装置100は、全体処理を終了する。これにより、情報処理装置100は、適切な集約単位を発見することができ、適切な集約単位に従って、異常判定を精度よく実施することができる。
(全体処理手順の具体例1)
次に、図15を用いて、情報処理装置100が実行する、全体処理手順の具体例1について説明する。全体処理は、例えば、図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。具体例1は、情報処理装置100が、時系列データの属性であるIP(Internet Protocol)アドレスを利用する場合に対応する。
図15は、全体処理手順の具体例1を示すフローチャートである。図15において、情報処理装置100は、/32のIPアドレスを属性として有するユーザ単位の複数の時系列データを取得する(ステップS1501)。そして、情報処理装置100は、ネットワークアドレスのマスクの初期値(x)を設定する(ステップS1502)。
次に、情報処理装置100は、ユーザ単位の複数の時系列データを、/xのネットワークアドレスに合わせて集約し、複数の集約時系列データを生成する(ステップS1503)。そして、情報処理装置100は、複数の集約時系列データのそれぞれの集約時系列データについて、図18に後述する周期性判定処理を実行する(ステップS1504)。
次に、情報処理装置100は、周期性判定処理を実行した結果に基づいて、それぞれの集約時系列データにおいて周期性があるか否かを判定する(ステップS1505)。ここで、周期性がある場合(ステップS1505:Yes)、情報処理装置100は、ステップS1507の処理に移行する。一方で、周期性がない場合(ステップS1505:No)、情報処理装置100は、ステップS1506の処理に移行する。
ステップS1506では、情報処理装置100は、ネットワークアドレスのマスクを、現在よりも左方向に4ビットずらした値(x→x-4)に変更する(ステップS1506)。そして、情報処理装置100は、ステップS1503の処理に戻る。
ステップS1507では、情報処理装置100は、それぞれの集約時系列データに基づいて、異常判定を実施する(ステップS1507)。次に、情報処理装置100は、異常判定を実施した結果を出力する(ステップS1508)。そして、情報処理装置100は、全体処理を終了する。これにより、情報処理装置100は、集約単位として適切なネットワークアドレスのマスクを発見することができ、適切なネットワークアドレスのマスクに従って、異常判定を精度よく実施することができる。
(全体処理手順の具体例2)
次に、図16を用いて、情報処理装置100が実行する、全体処理手順の具体例2について説明する。全体処理は、例えば、図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。具体例2は、情報処理装置100が、集約単位としてクラスタ数を利用する場合に対応する。
図16は、全体処理手順の具体例2を示すフローチャートである。図16において、情報処理装置100は、ユーザ単位の複数の時系列データを取得する(ステップS1601)。そして、情報処理装置100は、クラスタ数の初期値(x)を設定する(ステップS1602)。
次に、情報処理装置100は、ユーザ単位の複数の時系列データを、クラスタ数=xに合わせて分割して集約し、複数の集約時系列データを生成する(ステップS1603)。そして、情報処理装置100は、複数の集約時系列データのそれぞれの集約時系列データについて、図18に後述する周期性判定処理を実行する(ステップS1604)。
次に、情報処理装置100は、周期性判定処理を実行した結果に基づいて、それぞれの集約時系列データにおいて周期性があるか否かを判定する(ステップS1605)。ここで、周期性がある場合(ステップS1605:Yes)、情報処理装置100は、ステップS1607の処理に移行する。一方で、周期性がない場合(ステップS1605:No)、情報処理装置100は、ステップS1606の処理に移行する。
ステップS1606では、情報処理装置100は、クラスタ数を、現在よりも1つ小さい数(x→x-1)に変更する(ステップS1606)。そして、情報処理装置100は、ステップS1603の処理に戻る。
ステップS1607では、情報処理装置100は、それぞれの集約時系列データに基づいて、異常判定を実施する(ステップS1607)。次に、情報処理装置100は、異常判定を実施した結果を出力する(ステップS1608)。そして、情報処理装置100は、全体処理を終了する。これにより、情報処理装置100は、集約単位として適切なクラスタ数を発見することができ、適切なクラスタ数に従って、異常判定を精度よく実施することができる。
(全体処理手順の具体例3)
次に、図17を用いて、情報処理装置100が実行する、全体処理手順の具体例3について説明する。全体処理は、例えば、図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。具体例3は、情報処理装置100が、時系列データの属性であるURL階層を利用する場合に対応する。
図17は、全体処理手順の具体例3を示すフローチャートである。図17において、情報処理装置100は、HTTPコマンドのURL階層を属性として有するユーザ単位の複数の時系列データを取得する(ステップS1701)。そして、情報処理装置100は、URL階層の深さの初期値(x)を設定する(ステップS1702)。
次に、情報処理装置100は、ユーザ単位の複数の時系列データを、URL階層の深さ=xに合わせて集約し、複数の集約時系列データを生成する(ステップS1703)。そして、情報処理装置100は、複数の集約時系列データのそれぞれの集約時系列データについて、図18に後述する周期性判定処理を実行する(ステップS1704)。
次に、情報処理装置100は、周期性判定処理を実行した結果に基づいて、それぞれの集約時系列データにおいて周期性があるか否かを判定する(ステップS1705)。ここで、周期性がある場合(ステップS1705:Yes)、情報処理装置100は、ステップS1707の処理に移行する。一方で、周期性がない場合(ステップS1705:No)、情報処理装置100は、ステップS1706の処理に移行する。
ステップS1706では、情報処理装置100は、URL階層の深さを、現在よりも1つ浅い深さ(x→x-1)に変更する(ステップS1706)。そして、情報処理装置100は、ステップS1703の処理に戻る。
ステップS1707では、情報処理装置100は、それぞれの集約時系列データに基づいて、異常判定を実施する(ステップS1707)。次に、情報処理装置100は、異常判定を実施した結果を出力する(ステップS1708)。そして、情報処理装置100は、全体処理を終了する。これにより、情報処理装置100は、集約単位として適切なURL階層の深さを発見することができ、適切なURL階層の深さに従って、異常判定を精度よく実施することができる。
(周期性判定処理手順の一例)
次に、図18および図19を用いて、情報処理装置100が実行する、周期性判定処理手順の一例について説明する。周期性判定処理は、例えば、図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。
図18および図19は、周期性判定処理手順の一例を示すフローチャートである。図18において、情報処理装置100は、集約時系列データ(Ti)を取得する(ステップS1801)。
次に、情報処理装置100は、集約時系列データ(Ti)内の最大トラフィック量に基づいて、集約時系列データ(Ti)を正規化し、正規化時系列データ(N-Ti)を生成する(ステップS1802)。そして、情報処理装置100は、正規化時系列データ(N-Ti)における回帰直線の傾き(Ri)を算出する(ステップS1803)。
次に、情報処理装置100は、傾き(Ri)が所定の閾値以上であるか否かを判定する(ステップS1804)。ここで、傾き(Ri)が所定の閾値以上ではない場合(ステップS1804:No)、情報処理装置100は、図19のステップS1901の処理に移行する。一方で、傾き(Ri)が所定の閾値以上である場合(ステップS1804:Yes)、情報処理装置100は、ステップS1805の処理に移行する。
ステップS1805では、情報処理装置100は、正規化時系列データ(N-Ti)から、回帰直線の成分を差し引いて、差分時系列データ(D-Ti)を生成する(ステップS1805)。次に、情報処理装置100は、差分時系列データ(D-Ti)の自己相関度(Ci)が最大となるラグ(Li)を算出する(ステップS1806)。この際、情報処理装置100は、ラグ(Li)=0付近以外で、自己相関度(Ci)が最大となるラグ(Li)を算出することが好ましい。
そして、情報処理装置100は、自己相関度(Ci)が所定の閾値以上であるか否かを判定する(ステップS1807)。ここで、自己相関度(Ci)が所定の閾値以上である場合(ステップS1807:Yes)、情報処理装置100は、ステップS1808の処理に移行する。一方で、自己相関度(Ci)が所定の閾値以上ではない場合(ステップS1807:No)、情報処理装置100は、ステップS1809の処理に移行する。
ステップS1808では、情報処理装置100は、集約時系列データ(Ti)について、周期性ありと決定する(ステップS1808)。そして、情報処理装置100は、周期性判定処理を終了する。
ステップS1809では、情報処理装置100は、集約時系列データ(Ti)について、周期性なしと決定する(ステップS1809)。そして、情報処理装置100は、周期性判定処理を終了する。
図19において、情報処理装置100は、正規化時系列データ(N-Ti)の自己相関度(Ci)が最大となるラグ(Li)を算出する(ステップS1901)。この際、情報処理装置100は、ラグ(Li)=0付近以外で、自己相関度(Ci)が最大となるラグ(Li)を算出することが好ましい。
そして、情報処理装置100は、自己相関度(Ci)が所定の閾値以上であるか否かを判定する(ステップS1902)。ここで、自己相関度(Ci)が所定の閾値以上である場合(ステップS1902:Yes)、情報処理装置100は、ステップS1903の処理に移行する。一方で、自己相関度(Ci)が所定の閾値以上ではない場合(ステップS1902:No)、情報処理装置100は、ステップS1904の処理に移行する。
ステップS1903では、情報処理装置100は、集約時系列データ(Ti)について、周期性ありと決定する(ステップS1903)。そして、情報処理装置100は、周期性判定処理を終了する。
ステップS1904では、情報処理装置100は、集約時系列データ(Ti)について、周期性なしと決定する(ステップS1904)。そして、情報処理装置100は、周期性判定処理を終了する。これにより、情報処理装置100は、集約時系列データ(Ti)の周期性を正しく表す自己相関度(Ci)を精度よく算出することができ、周期性の有無を精度よく判定することができる。
ここで、情報処理装置100は、図14~図19の各フローチャートの一部ステップの処理の順序を入れ替えて実行してもよい。例えば、ステップS1802,S1803の処理の順序は入れ替え可能である。また、情報処理装置100は、図14~図19の各フローチャートの一部ステップの処理を省略してもよい。例えば、ステップS1802~S1805の処理は省略可能である。
以上説明したように、情報処理装置100によれば、複数の時系列データを取得することができる。情報処理装置100によれば、取得した複数の時系列データを、所定の集約単位に合わせて分割して集約することにより得られるそれぞれの集約時系列データについて、所定の時間間隔における周期性に関する指標値を算出することができる。情報処理装置100によれば、算出した指標値が所定の条件を満たす場合に、それぞれの集約時系列データを、解析対象に決定することができる。これにより、情報処理装置100は、集約単位が適切か否かを評価することができ、解析処理を精度よく実施可能にすることができる。
情報処理装置100によれば、算出した指標値が、所定の条件を満たさない場合には、所定の集約単位を変更することができる。情報処理装置100によれば、取得した複数の時系列データを、変更した後の所定の集約単位に合わせて分割して集約することにより得られるそれぞれの集約時系列データについて、所定の時間間隔における周期性に関する指標値を算出することができる。これにより、情報処理装置100は、複数の集約単位の中から、適切な集約単位を発見することができる。
情報処理装置100によれば、所定の集約単位は、最小の集約単位に設定されていれば、算出した指標値が、所定の条件を満たさない場合には、所定の集約単位が大きくなるよう、所定の集約単位を変更することができる。これにより、情報処理装置100は、適切な集約単位を効率よく発見することができる。
情報処理装置100によれば、解析対象に決定したそれぞれの集約時系列データに対して、所定の解析処理を実施することができる。これにより、情報処理装置100は、適切な集約範囲に従って、解析処理を精度よく実施することができる。
情報処理装置100によれば、時系列データの属性に、ネットワークアドレスが含まれていれば、所定の集約単位に、ネットワークアドレスの範囲を採用することができる。これにより、情報処理装置100は、ネットワークアドレスの範囲が、集約時系列データについての周期性に関わる場合に適用することができる。
情報処理装置100によれば、所定の集約単位に、集約する時系列データの数を採用することができる。これにより、情報処理装置100は、時系列データの属性に依らず、1以上の時系列データを集約可能にすることができる。
情報処理装置100によれば、時系列データの属性に、HTTPコマンドのURL階層が含まれていれば、所定の集約単位に、URL階層の深さを採用することができる。これにより、情報処理装置100は、URL階層の深さが、集約時系列データについての周期性に関わる場合に適用することができる。
情報処理装置100によれば、所定の条件に、算出した指標値が所定の閾値以上であるという条件を採用することができる。これにより、情報処理装置100は、集約時系列データについての周期性が比較的強く、統計多重効果が比較的大きいことを、精度よく評価可能にすることができる。
なお、本実施の形態で説明した情報処理方法は、予め用意されたプログラムをPCやワークステーションなどのコンピュータで実行することにより実現することができる。本実施の形態で説明した情報処理プログラムは、コンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。記録媒体は、ハードディスク、フレキシブルディスク、CD(Compact Disc)-ROM、MO(Magneto Optical disc)、DVD(Digital Versatile Disc)などである。また、本実施の形態で説明した情報処理プログラムは、インターネットなどのネットワークを介して配布してもよい。
上述した実施の形態に関し、さらに以下の付記を開示する。
(付記1)複数の時系列データを取得し、
取得した前記複数の時系列データを、所定の集約単位に合わせて分割して集約することにより得られる、1以上の集約時系列データのそれぞれの集約時系列データについて、所定の時間間隔における周期性に関する指標値を算出し、
算出した前記指標値が所定の条件を満たす場合に、前記それぞれの集約時系列データを、解析対象に決定する、
処理をコンピュータが実行することを特徴とする情報処理方法。
(付記2)算出した前記指標値が、前記所定の条件を満たさない場合には、前記所定の集約単位を変更する、処理を前記コンピュータが実行し、
前記算出する処理は、
取得した前記複数の時系列データを、変更した後の前記所定の集約単位に合わせて分割して集約することにより得られる、1以上の集約時系列データのそれぞれの集約時系列データについて、前記所定の時間間隔における周期性に関する指標値を算出する、ことを特徴とする付記1に記載の情報処理方法。
(付記3)前記所定の集約単位は、最小の集約単位に設定されており、
前記変更する処理は、
算出した前記指標値が、前記所定の条件を満たさない場合には、前記所定の集約単位が大きくなるよう、前記所定の集約単位を変更する、ことを特徴とする付記2に記載の情報処理方法。
(付記4)前記解析対象に決定した前記それぞれの集約時系列データに対して、所定の解析処理を実施する、処理を前記コンピュータが実行することを特徴とする付記1~3のいずれか一つに記載の情報処理方法。
(付記5)前記時系列データの属性には、ネットワークアドレスが含まれており、
前記所定の集約単位は、前記ネットワークアドレスの範囲を規定する、ことを特徴とする付記1~4のいずれか一つに記載の情報処理方法。
(付記6)前記所定の集約単位は、集約する前記時系列データの数を規定する、ことを特徴とする付記1~5のいずれか一つに記載の情報処理方法。
(付記7)前記時系列データの属性には、HTTPコマンドのURL階層が含まれており、
前記所定の集約単位は、前記URL階層の深さを規定する、ことを特徴とする付記1~6のいずれか一つに記載の情報処理方法。
(付記8)前記所定の条件は、算出した前記指標値が所定の閾値以上であるという条件である、ことを特徴とする付記1~7のいずれか一つに記載の情報処理方法。
(付記9)複数の時系列データを取得し、
取得した前記複数の時系列データを、所定の集約単位に合わせて分割して集約することにより得られる、1以上の集約時系列データのそれぞれの集約時系列データについて、所定の時間間隔における周期性に関する指標値を算出し、
算出した前記指標値が所定の条件を満たす場合に、前記それぞれの集約時系列データを、解析対象に決定する、
処理をコンピュータに実行させることを特徴とする情報処理プログラム。
100 情報処理装置
110 時系列データ
120,501,502,600,700,900,910,920 集約時系列データ
200 解析処理システム
201 端末装置
210 ネットワーク
300 バス
301 CPU
302 メモリ
303 ネットワークI/F
304 記録媒体I/F
305 記録媒体
400 記憶部
401 取得部
402 算出部
403 判断部
404 決定部
405 出力部
511,512,1000,1100,1200,1300 グラフ

Claims (8)

  1. 複数の時系列データを取得し、
    取得した前記複数の時系列データを、所定の集約単位に合わせて分割して集約することにより得られる、1以上の集約時系列データのそれぞれの集約時系列データについて、所定の時間間隔における周期性に関する指標値を算出し、
    算出した前記指標値が所定の条件を満たす場合に、前記それぞれの集約時系列データを、解析対象に決定する、
    処理をコンピュータが実行することを特徴とする情報処理方法。
  2. 算出した前記指標値が、前記所定の条件を満たさない場合には、前記所定の集約単位を変更する、処理を前記コンピュータが実行し、
    前記算出する処理は、
    取得した前記複数の時系列データを、変更した後の前記所定の集約単位に合わせて分割して集約することにより得られる、1以上の集約時系列データのそれぞれの集約時系列データについて、前記所定の時間間隔における周期性に関する指標値を算出する、ことを特徴とする請求項1に記載の情報処理方法。
  3. 前記所定の集約単位は、最小の集約単位に設定されており、
    前記変更する処理は、
    算出した前記指標値が、前記所定の条件を満たさない場合には、前記所定の集約単位が大きくなるよう、前記所定の集約単位を変更する、ことを特徴とする請求項2に記載の情報処理方法。
  4. 前記解析対象に決定した前記それぞれの集約時系列データに対して、所定の解析処理を実施する、処理を前記コンピュータが実行することを特徴とする請求項1~3のいずれか一つに記載の情報処理方法。
  5. 前記時系列データの属性には、ネットワークアドレスが含まれており、
    前記所定の集約単位は、前記ネットワークアドレスの範囲を規定する、ことを特徴とする請求項1~4のいずれか一つに記載の情報処理方法。
  6. 前記所定の集約単位は、集約する前記時系列データの数を規定する、ことを特徴とする請求項1~5のいずれか一つに記載の情報処理方法。
  7. 前記時系列データの属性には、HTTPコマンドのURL階層が含まれており、
    前記所定の集約単位は、前記URL階層の深さを規定する、ことを特徴とする請求項1~6のいずれか一つに記載の情報処理方法。
  8. 複数の時系列データを取得し、
    取得した前記複数の時系列データを、所定の集約単位に合わせて分割して集約することにより得られる、1以上の集約時系列データのそれぞれの集約時系列データについて、所定の時間間隔における周期性に関する指標値を算出し、
    算出した前記指標値が所定の条件を満たす場合に、前記それぞれの集約時系列データを、解析対象に決定する、
    処理をコンピュータに実行させることを特徴とする情報処理プログラム。
JP2021036448A 2021-03-08 2021-03-08 情報処理方法、および情報処理プログラム Pending JP2022136708A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021036448A JP2022136708A (ja) 2021-03-08 2021-03-08 情報処理方法、および情報処理プログラム
EP21208451.1A EP4057146A1 (en) 2021-03-08 2021-11-16 Information processing method, information processing program, and information processing device
US17/527,334 US11616704B2 (en) 2021-03-08 2021-11-16 Information processing method, storage medium, and information processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021036448A JP2022136708A (ja) 2021-03-08 2021-03-08 情報処理方法、および情報処理プログラム

Publications (1)

Publication Number Publication Date
JP2022136708A true JP2022136708A (ja) 2022-09-21

Family

ID=78822305

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021036448A Pending JP2022136708A (ja) 2021-03-08 2021-03-08 情報処理方法、および情報処理プログラム

Country Status (3)

Country Link
US (1) US11616704B2 (ja)
EP (1) EP4057146A1 (ja)
JP (1) JP2022136708A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11755398B2 (en) * 2022-01-26 2023-09-12 Dell Products L.P. Time series clustering to troubleshoot device problems based on missed and delayed data

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9729412B2 (en) * 2013-02-28 2017-08-08 Nec Corporation Periodicity detection method, periodicity detection device, and periodicity detection program
US11082439B2 (en) * 2016-08-04 2021-08-03 Oracle International Corporation Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems
US11310247B2 (en) * 2016-12-21 2022-04-19 Micro Focus Llc Abnormal behavior detection of enterprise entities using time-series data
WO2018200757A1 (en) * 2017-04-25 2018-11-01 Nutanix, Inc. Systems and methods for networked microservice modeling
JP6993559B2 (ja) * 2017-05-16 2022-01-13 富士通株式会社 トラフィック管理装置、トラフィック管理方法およびプログラム
JP6863091B2 (ja) 2017-05-31 2021-04-21 富士通株式会社 管理装置、管理方法及び管理プログラム
CN107481090A (zh) * 2017-07-06 2017-12-15 众安信息技术服务有限公司 一种用户异常行为检测方法、装置和系统
WO2019176997A1 (ja) * 2018-03-14 2019-09-19 日本電気株式会社 トラヒック分析装置、方法及びプログラム
US10776196B2 (en) * 2018-08-29 2020-09-15 International Business Machines Corporation Systems and methods for anomaly detection in a distributed computing system
US20220138624A1 (en) * 2019-02-15 2022-05-05 Nec Corporation Time-series data processing method
JP7030072B2 (ja) * 2019-03-14 2022-03-04 株式会社日立製作所 時系列データ監視システム、および時系列データ監視方法
US20220188570A1 (en) * 2019-03-19 2022-06-16 Nec Corporation Learning apparatus, learning method, computer program and recording medium
WO2020245980A1 (ja) * 2019-06-06 2020-12-10 日本電気株式会社 時系列データ処理方法
CN114365094A (zh) * 2019-09-23 2022-04-15 谷歌有限责任公司 使用倒排索引的时序异常检测
US11586609B2 (en) * 2020-09-15 2023-02-21 International Business Machines Corporation Abnormal event analysis
US20220124110A1 (en) * 2020-10-20 2022-04-21 Amazon Technologies, Inc. Anomaly detection using an ensemble of detection models

Also Published As

Publication number Publication date
US11616704B2 (en) 2023-03-28
EP4057146A1 (en) 2022-09-14
US20220286372A1 (en) 2022-09-08

Similar Documents

Publication Publication Date Title
CN113454600B (zh) 使用跟踪数据在分布式系统中进行自动根因分析
US20190311278A1 (en) Application performance analyzer and corresponding method
EP3117321B1 (en) Service metric analysis from structured logging schema of usage data
US9229994B2 (en) Server-side tracing of requests
US20150046512A1 (en) Dynamic collection analysis and reporting of telemetry data
US8531984B2 (en) Recording medium storing analysis program, analyzing method, and analyzing apparatus
TW201734858A (zh) 基於雲端平臺的用戶端應用的資訊統計方法和裝置
US9965327B2 (en) Dynamically scalable data collection and analysis for target device
JP5434562B2 (ja) 運用管理プログラム、運用管理装置および運用管理方法
WO2014132612A1 (ja) システム分析装置、及び、システム分析方法
JP6196196B2 (ja) ログ間因果推定装置、システム異常検知装置、ログ分析システム、及びログ分析方法
JP5677592B2 (ja) データ処理方法、データ処理システム、及びデータ処理装置
JP2022136708A (ja) 情報処理方法、および情報処理プログラム
US20200042373A1 (en) Device operation anomaly identification and reporting system
CN116244131A (zh) 服务器接口测试方法、装置、电子设备和介质
JP6904331B2 (ja) 要因分析装置、要因分析方法、およびプログラム
US11700192B2 (en) Apparatuses, methods, and computer program products for improved structured event-based data observability
CN111506422B (zh) 事件分析方法及系统
CN113778831A (zh) 一种数据应用性能分析方法、装置、设备和介质
EP3764232B1 (en) Business transactions impact analysis
WO2017051518A1 (ja) 通信情報算出装置、通信情報算出方法、記録媒体、及び、通信管理システム
US9678982B2 (en) Accessibility advisement system for digital assets
US9396083B2 (en) Computer system processes
US11416506B2 (en) Facilitating temporal data management for anomalous state detection in data centers
CN117693747A (zh) 多变量异常检测中信号跟随的被动推断