JP2021033711A - 異常検知装置、異常検知方法、及びプログラム - Google Patents

異常検知装置、異常検知方法、及びプログラム Download PDF

Info

Publication number
JP2021033711A
JP2021033711A JP2019154065A JP2019154065A JP2021033711A JP 2021033711 A JP2021033711 A JP 2021033711A JP 2019154065 A JP2019154065 A JP 2019154065A JP 2019154065 A JP2019154065 A JP 2019154065A JP 2021033711 A JP2021033711 A JP 2021033711A
Authority
JP
Japan
Prior art keywords
data
time
approximation
observation data
perron
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019154065A
Other languages
English (en)
Other versions
JP7351480B2 (ja
Inventor
悠香 橋本
Yuka Hashimoto
悠香 橋本
松尾 洋一
Yoichi Matsuo
洋一 松尾
勲 石川
Isao Ishikawa
勲 石川
正弘 池田
Masahiro Ikeda
正弘 池田
吉伸 河原
Yoshinobu Kawahara
吉伸 河原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
RIKEN Institute of Physical and Chemical Research
Original Assignee
Nippon Telegraph and Telephone Corp
RIKEN Institute of Physical and Chemical Research
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, RIKEN Institute of Physical and Chemical Research filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2019154065A priority Critical patent/JP7351480B2/ja
Priority to PCT/JP2020/031316 priority patent/WO2021039545A1/ja
Priority to US17/636,635 priority patent/US20220284332A1/en
Publication of JP2021033711A publication Critical patent/JP2021033711A/ja
Application granted granted Critical
Publication of JP7351480B2 publication Critical patent/JP7351480B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/08Computing arrangements based on specific mathematical models using chaos models or non-linear system models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/17Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Nonlinear Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】ランダムなノイズを含む時系列データの振る舞いを近似し、異常検知を行う。【解決手段】異常検知装置において、観測データに基づいて、当該観測データを生成する数学モデルを表現するRKHS上のPerron-Frobenius作用素の近似を作成する近似部と、前記Perron-Frobenius作用素の近似と、時刻tの観測データを用いて、時刻t+1におけるデータを予測し、予測したデータと、時刻t+1の観測データとの乖離に基づいて、時刻t+1の観測データが異常か否かを判断する検知部とを備える。【選択図】図1

Description

本発明は、時系列データの解析技術に関連するものである。
ランダムなノイズを含む時系列データとして、通信トラヒック・株価・気象データなどがあり、これらのデータの振る舞いを近似することで、特徴理解・予測・異常検知などの解析を行う技術が検討されている。
これらの手法は大きく2つに分けられる。1つ目は、Neural Networkを用いる手法であり、2つ目は、時系列データが数学的モデルから生成されると考える手法である。2つ目に関しては、古典的な方法は、データ間に線形な関係性を仮定するが、近年、非線形な関係性に対してもモデルを表現できるTransfer作用素と呼ばれる数学的対象を用いることで時系列データを解析する技術が検討されている(非特許文献1〜3)。
非特許文献1には、ランダム性のある時系列データの特徴を、Transfer作用素の固有値・固有関数を近似することで理解する技術が開示されている。非特許文献3には、ランダム性のない時系列データ同士の類似度を、Reproducing kernel Hilbert space(RKHS)と呼ばれる空間の上で定まるTransfer作用素を用いて計算する技術が開示されている。非特許文献2には、ランダム性のある時系列データの特徴を、RKHS上で定まるTransfer作用素の固有値・固有関数を近似することで理解する技術が開示されている。
Crnjaric-Zic, N., Macesic, S., and Mezic, I., Koopman Operator Spectrum for Random Dynamical Systems, arXiv:1711.03146, 2019. Klus, S., Schuster, I., and Muandet, K., Eigendecompositions of Transfer Operators in Reproducing kernel Hilbert spaces, arXiv:1712.01572, 2017. Ishikawa, I., Fujii, K., Ikeda, M., Hashimoto, Y., and Kawahara, Y., Metric on Nonlinear Dynamical Systems with Perron-Frobenius Operators, In Advances in Neural Information Processing Systems 31, p.p. 2856-2866, Curran Associates, Inc., 2018.
Neural Networkはモデルを仮定せずにデータの関係性を近似する方法であるため、この近似の中にランダム性の情報を組み込むことは困難である。
数学モデルを考えることにより、ランダム性を考慮しながらデータの関係性を近似することができると期待される。しかし、数理モデルを用いた古典的な方法は、データ間に線形な関係性を仮定しているため、非線形な振る舞いをするデータに対しては解析の精度が落ちる。
そこで、非線形な振る舞いを仮定したモデルをTransfer作用素を用いて表現し、解析する技術が研究されている。Transfer作用素を用いた従来技術は、Transfer作用素が「離散スペクトラムしか持たない」や、「有界である」という良い性質を持つ場合のみ有効である。
しかし、実際の時系列データを生成するモデルを表現したTransfer作用素がこれらの性質を持つとは限らない。また、従来技術は、Transfer作用素の固有値の近似や、時系列データ間の類似度を計算することを目的としており、異常検知を目的とはしていない。
本発明は上記の点に鑑みてなされたものであり、ランダムなノイズを含む時系列データの振る舞いを近似し、異常検知を行うことを可能とする技術を提供することを目的とする。
開示の技術によれば、観測データに基づいて、当該観測データを生成する数学モデルを表現するRKHS上のPerron-Frobenius作用素の近似を作成する近似部と、
前記Perron-Frobenius作用素の近似と、時刻tの観測データを用いて、時刻t+1におけるデータを予測し、予測したデータと、時刻t+1の観測データとの乖離に基づいて、時刻t+1の観測データが異常か否かを判断する検知部と
を備える異常検知装置が提供される。
開示の技術によれば、ランダムなノイズを含む時系列データの振る舞いを近似し、異常検知を行うことを可能とする技術が提供される。本技術は、Transfer作用素が「離散スペクトラムしか持たない」や、「有界である」という性質を持たない場合にも適用可能である。
時系列データ異常検知装置の構成図である。 時系列データ異常検知装置のハードウェア構成の例を示す図である。 近似の手順を示すフローチャートである。 異常検知の手順を示すフローチャートである。 近似と異常検知の手順を示すフローチャートである。 予測の散らばりの評価結果を示す図である。 評価で使用したデータを示す図である。 評価で使用したデータを示す図である。 異常度の計算結果を示す図である。 異常度の計算結果を示す図である。 異常度の計算結果を示す図である。
以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
(システム構成)
本実施の形態では、RKHS上のPerron-Frobenius作用素と呼ばれるTransfer作用素を近似する手法と、それを用いた応用例として、異常検知を達成するシステムである時系列データ異常検知装置について説明する。本時系列データ異常検知装置は、Transfer作用素が「離散スペクトラムしか持たない」や、「有界である」という性質を持たない場合にも適用可能である。
図1に、本実施の形態における時系列データ異常検知装置100の構成図を示す。図1に示すように、時系列データ異常検知装置100は、観測データ取得部110、近似部120、及び検知部130を有する。近似部120は、Perron-Frobenius作用素近似部121と散らばり具合計算部122を有する。時系列データ異常検知装置100の処理動作については後述する。なお、時系列データ異常検知装置100を異常検知装置と称してもよい。
(ハードウェア構成例)
時系列データ異常検知装置100は、例えば、コンピュータにプログラムを実行させることにより実現できる。
すなわち、時系列データ異常検知装置100は、コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、時系列データ異常検知装置100で実施される処理に対応するプログラムを実行することによって実現することが可能である。すなわち、後述するPerron-Frobenius作用素の近似の計算、予測の計算、散らばり具合の指標計算等は、CPUがプログラムに従って、これらの計算に対応する数式に示す処理を実行することで実現される。数式に対応するパラメータ、計算対象のデータ等がメモリ等の記憶手段に格納されており、CPUでの処理実行の際には、CPUが記憶手段からデータ等を読み出すことで処理を実行する。
上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
図2は、上記コンピュータのハードウェア構成例を示す図である。図2のコンピュータは、それぞれバスBで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、及び入力装置1007等を有する。
当該コンピュータでの処理を実現するプログラムは、例えば、CD−ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、時系列データ異常検知装置100に係る機能を実現する。インタフェース装置1005は、ネットワークに接続するためのインタフェースとして用いられ、ネットワークを介した入力手段及び出力手段として機能する。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。
(時系列データ異常検知装置100の動作概要)
時系列データ異常検知装置100の動作の概要は下記のとおりである。時系列データ異常検知装置100は、下記の近似ステップと異常検知ステップを実行することで時系列データの異常検知を行う。
<近似ステップ>
ステップ0:観測データ取得部110が、時刻Tまでの時系列の観測データを取得する。観測データは、例えば、ネットワークを構成するルータ等から取得されるトラヒック量のデータである。
ステップ1:Perron-Frobenius作用素近似部121が、得られている観測データを用いて、そのデータを生成する数学モデルを表現するRKHS上のPerron-Frobenius作用素を近似する。
ステップ2:散らばり具合計算部122が、近似したPerron-Frobenius作用素を用いて各観測データにおける予測から、予測の散らばり具合を計算する。
<異常検知実行ステップ>
ステップ3:観測データ取得部110は、時刻tにおける観測データと時刻t+1における観測データを取得する。
ステップ4:検知部130は、近似ステップにおいて近似したPerron-Frobenius作用素を用いて、時刻tにおける観測データから、時刻t+1におけるデータを予測する。
ステップ5:検知部130は、時刻t+1における観測データと時刻t+1における予測データとの乖離を計算する。
ステップ6:検知部130は、ステップ2で計算した予測の散らばり具合を考慮した上で異常の閾値を決定し、ステップ5で計算した乖離が閾値より大きければ、時刻t+1における観測データは異常とみなす。
(時系列データ異常検知装置100の動作詳細)
時系列データ異常検知装置100の動作の詳細を図3〜図5のフローチャートを参照して説明する。
図3、図4は、Tを固定して近似ステップを1度だけ行い、t>Tに対して異常検知実行ステップを継続的に実行する方法を示す(方法1とする)。図5は、Tを増加させ、そのたびにt=T+1として異常検知を行う方法を示す(方法2とする)。
方法2は方法1に比べ最新の情報を反映できるため、長期間にわたって少しずつトレンドが変化する場合などは、こちらのほうが適する。ただし、方法2は方法1に比べて計算量は多くなるため、時間幅が小さい時系列データに対してリアルタイムで検知する必要がある場合は、方法1のほうが適する。以下、方法1、方法2のそれぞれについて説明する。なお、以下で説明する観測データは、リアルタイムに取得されるデータであってもよいし、サーバ等から取得した過去の観測データであってもよい。いずれの場合も、時系列データ異常検知装置100においては、観測データはメモリ等の記憶手段に格納され、記憶手段から読み出されて使用される。
<方法1>
時系列データ異常検知装置100の近似部120が近似を開始する。
図3のステップ101において、Perron-Frobenius作用素近似部121は、観測データ取得部110により取得された時刻Tまでの観測データをS組(Sは0以上の整数)のデータセットに分割する。
ステップ102において、Perron-Frobenius作用素近似部121は、直交化と呼ばれる操作により、S組のデータセットからS次元の空間を作成する。
ステップ103において、Perron-Frobenius作用素近似部121は、作成したS次元の空間に、得られている観測データを生成する数学モデルを表現するRKHS上のPerron-Frobenius作用素の振る舞いを制限する機能によりPerron-Frobenius作用素の近似を作成する。
ステップ104において、散らばり具合計算部122は、作成された作用素の近似を用いて、各観測値における予測の散らばり具合を計算する機能により、データの散らばり具合を表す指標を計算し、この指標の値が小さいほど閾値を大きく設定する。
近似部120は、Perron-Frobenius作用素の近似と異常の閾値を出力し、処理を終了する。
図4において、検知部130が異常検知を開始する。
ステップ201において観測データ取得部110が時刻t(t>T)と時刻t+1における観測データを得る。
ステップ202において、検知部130は、図3に示した近似ステップの最後で出力されたPerron-Frobenius作用素の近似を用いて、時刻tにおける観測データから時刻t+1におけるデータを予測する機能を用いることで、時刻t+1におけるデータを予測する。
ステップ203において、検知部130は、時刻t+1における予測データと観測データとの乖離を計算する機能により、時刻t+1における異常度を決定する。
ステップ204において、検知部130は、t+1における異常度が閾値より小さいか否かを判定し、Yesであればt+1をtとして、最初に戻る。Noであれば、異常と判断し、異常検知を終了する。なお、異常と判断した場合でも。最初に戻って処理を繰り返し行ってもよい。
<方法2>
図5において、時系列データ異常検知装置100の近似部120が近似を開始する。
ステップ301において、Perron-Frobenius作用素近似部121は、観測データ取得部110により取得された時刻T−U(U>0)から時刻Tまでの観測データをS組のデータセットに分割する。
ステップ302において、Perron-Frobenius作用素近似部121は、直交化と呼ばれる操作により、S組のデータセットからS次元の空間を作成する。
ステップ303において、Perron-Frobenius作用素近似部121は、作成したS次元の空間に、得られている観測データを生成する数学モデルを表現するRKHS上のPerron-Frobenius作用素の振る舞いを制限する機能によりPerron-Frobenius作用素の近似を作成する。
ステップ304において、散らばり具合計算部122は、作成された作用素の近似を用いて、各観測値における予測の散らばり具合を計算する機能により、データの散らばり具合を表す指標を計算する。この指標の値が小さいほど閾値を大きく設定する。
近似部120は、Perron-Frobenius作用素の近似と異常の閾値を出力し、学習を終了する。
続いて、検知部130が異常検知を開始する。
ステップ305において、観測データ取得部110が時刻t=T+1と時刻t+1における観測データを取得する。
ステップ306において、検知部130は、学習ステップの最後で出力されたPerron-Frobenius作用素の近似を用いて、時刻tにおける観測データから時刻t+1におけるデータを予測する機能を用いることで、時刻t+1におけるデータを予測する。
ステップ307において、検知部130は、時刻t+1における予測データと観測データとの乖離を計算する機能により、時刻t+1における異常度を決定する。
ステップ308において、検知部130は、t+1における異常度が閾値より小さいか否かを判定し、YesであればT+1をTとして、最初に戻る。Noであれば、異常と判断し、異常検知を終了する。なお、異常と判断した場合でも。最初に戻って処理を繰り返し行ってもよい。
(計算方法の説明)
以下、時系列データ異常検知装置100が実行する計算方法について詳細に説明する。また、評価結果についても説明する。なお、以下の説明において、明細書の使用可能文字の制限から、文字の頭につく〜を文字の前に記載する場合がある(例:K)。また、文字の頭につく^を文字の前に記載する場合がある(例:^K)。
<0.問題設定>
ここでの説明にあたって、時系列データは、以下のような数学モデルから生成されるとする。
t+1=h(X)+ξ (1)
ただし、X、ξは状態空間χ(コンパクトな距離空間)から確率空間(Ω,F)への確率変数とし、hはχからχへの非線形な写像とする。Ω上に、確率測度Pが定まるとする。ξ(t=0,1,…)はノイズを表す独立同分布な確率変数で、ξとXも独立とする。
kを、χに関する2変数関数で、可測で有界連続な関数で次の2つの条件を満たすとする。
条件1.任意のx,y∈χに対して、k(x,y)=k(y,x)
条件2.任意のx,…,x∈χとc,…,c∈Rに対してΣ i,j=1k(xi,x)≧0
kはカーネルと呼ばれる。x∈χに対して、φ(x)を、yに関する関数k(x,y)とする。kに関するReproducing kernel Hilbert space(RKHS)とは、φ(x)の全ての線形結合とその極限から成る、無限次元の関数空間である。
ここでは、kに関するRKHSをHと表す。Hにおいて、φ(x)とφ(y)の内積をk(x,y)で定めることで、Hの要素に内積という概念を適用することができる。
この内積という概念により、Hにおいて線形代数の理論を用いることができるようになる。Hは、全ての有界連続関数からなる空間において稠密であるとする。
上記の条件を満たすkとして、Gaussian kernel k(x,y)=e−c||x−y||^2やLaplacian kernel k(x,y)=e−c|x−y|などがあり、これらは多くの応用において用いられている。
確率変数を確率測度へ変換することで、(1)式の関係性を、確率測度を用いた関係性に変換すると、以下のようになる。
Figure 2021033711
ただし、確率変数Xに対してXPとは、集合Aに対して、XP(A)=P(X−1(A))により定まる確率測度であり、F(x、ω)=h(x)+ξ(ω)である。確率変数を確率測度へ変換することで、kernel mean embedding(Krikamol Muandet, Kenji Fukumizu, Bharath Sriperumbudur, and Bernhard Scholkopf. Kernel mean embedding of distributions: A review and beyond. Foundations and Trends in Machine Learning, 10(1-2), p.p. 1-141, 2017.)と呼ばれる概念により、確率測度をHへ埋め込むことができる。
符号付測度μに対するkernel mean embeddingとは、Φ(μ)=∫x∈χφ(x)dμ(x)により定まる、符号付測度からHへの写像Φである。Φは連続で線形であることが示せる。RKHS H上のPerron-Frobenius作用素Kとは、以下により定義される作用素である。
Figure 2021033711
Kは写像として定義できていること、Kはtに依存しないこと、Kは線形であることが示せる。
<1.RKHS上のPerron-Frobenius作用素の近似>
Perron-Frobenius作用素近似部121が実行するPerron-Frobenius作用素の近似方法を説明する。
1.1. Arnoldi法
{x,x,…,xT−1}を観測データとする。この観測データを{x,x,…,x(N−1)S},{x,x1+S,…,x1+(N−1)S)},…,{xS−1,xS−1+S,…,xS−1+(N−1)S}というS組のデータセットに分ける。
Figure 2021033711
とおく。ただし、χの要素xに対してδとは、集合Aに対してx∈Aならばδ(A)=1、
Figure 2021033711
を返す確率測度とする。μt,Nは、観測データのみから計算できる。Ψ0,N=[Φ(μ0,N),…,Φ(μS−1,N)]とおく。以下の関係が成立する。
Figure 2021033711
式(2)を用いて、KをΦ(μ0,N),…,Φ(μS−1,N)から構成される空間に制限した作用素を計算する。しかし、実際には
Figure 2021033711
を計算することはできないため、有限個の観測データから近似する。以下のような、空間平均と時間平均が一致するという条件を仮定する。
Figure 2021033711
ただし、ω∈Ωは、観測データにおける潜在状態である。式(3)の左辺は
Figure 2021033711
と一致し、右辺は
Figure 2021033711
に一致する。Φ(μt+1,N)は観測データのみから計算できるから、
Figure 2021033711
をΦ(μt+1,N)で近似する。
Kが有界という良い性質を持つ場合、(2)式においてN→∞とした際に
Figure 2021033711
が成立するから、以下が成立する。
[Φ(μ),…,Φ(μ)]=K[Φ(μ),…,Φ(μS−1)] (4)
ただし、
Figure 2021033711
である。これにより、各t=0,…,Sに対してΦ(μ)をΦ(μt,N)で近似することで、有限個のデータからKをΦ(μ),…,Φ(μS−1)の線形結合全体を含む空間に近似的に制限することができる。[Φ(μ0,N),…,Φ(μS−1,N)]=QS,NS,NとQR分解する。QS,N・RS,Nの計算方法は1.1.1節で説明する。制限した作用素をS,N Arnoldiとすると、以下のように計算できる。
Figure 2021033711
Φ(μ),…,Φ(μS−1)の線形結合全体を含む空間は、Arnoldi法と呼ばれる最も標準的なKrylov部分空間法で用いられるKrylov部分空間と呼ばれる空間と同じであることが式(4)からわかる。よって、本手法は、Arnoldi法を観測データによって近似的に実行しているとみなすことができる。
1.1.1. 具体的な計算方法
Ψ0,N=QS,NS,Nと、Ψ0,NをQR分解することで、Φ(μ0,N),…,Φ(μS−1,N)の線形結合全体を含む空間の正規直交基底を用いた表現への変換、QS,Nを得ることができる。
具体的には,正規直交基底q0,N,…,qt−1,Nが得られている時、Φ(μt,N)をq0,N,…,qt−1,Nに正規直交化させることでqt,Nを得て、QS,NというCからHへの変換を、
Figure 2021033711
という変換とする。qt,Nは、以下の式により計算する。
Figure 2021033711
ただし,〈・,・〉はRKHS上の内積を表し、以下で計算方法を説明する。RS,NはS×Sの行列で、RS,Nの(i,t)成分をri,tと表し、i<tに対して〈Φ(μt,N),q,i=tに対して
Figure 2021033711
、i>tに対して0で定める。このとき、
Figure 2021033711
と表せる。すると、i<tに対してri,tは以下のように計算できる。
Figure 2021033711
ただし、〈Φ(μi,N),Φ(μt,N)〉は以下のように計算できる。
Figure 2021033711
また、||・||はRKHSにおけるノルムであり、
Figure 2021033711
により計算する。i=jのとき〈qi,N,qj,N=1,i≠jのとき〈qi,N,qj,N=1だから、rt,tは以下のようにして計算できる。
Figure 2021033711
式(5)において,[Φ(μ1,N),…,Φ(μS,N)]はCからHへの、
Figure 2021033711
という変換、Q S,NはHからCへの、
Figure 2021033711
という変換を表す。よって,Q S,N[Φ(μ1,N),…,Φ(μS,N)]は(i,t)成分が〈Φ(μt+1,N),qであるS×S行列になるから,ri,t同様に計算する。
1.2.Shift-invert Arnoldi法
Kが有界でない場合、N→∞とした極限状態を考えることができないため、観測データによる近似の正当性を示すことができない。そこで、(γI−K)−1が有界で全単射になるような複素数γを選び、(γI−K)−1を近似することで、この課題を解決する。(γI−K)−1は有界であるから、
Figure 2021033711
が成立し、式(3)を仮定すると以下が成立する。
Figure 2021033711
よって、j=0,…,Sに対して以下が成立する。
Figure 2021033711
よって、以下が成立する。
Figure 2021033711
各t=0,…,Sに対してΦ(μ)をΦ(μt,N)で近似することで、有限個のデータから、(γI−K)−1
Figure 2021033711
の線形結合全体を含む空間へ近似的に制限することができる。
Figure 2021033711
とおき、Ψ0,N=QS,NS,NとQR分解する。QS,N・RS,Nの計算方法は1.1.1節において、Φ(μj,N)を
Figure 2021033711
に置き換えれば良い。これを用いて、(γI−K)−1の振る舞いを,上記線形結合全体を含む空間に制限することができる。
Figure 2021033711
とおく。1.1節と同様に、有限個の観測データから、(γI−K)−1を以下で定める^KS,Nによって近似する。
Figure 2021033711
Kが有界でない場合でも(γI−K)−1は有界であるから、1.1節と同様に、本手法は、(γI−K)−1に対するArnoldi法を観測データによって近似的に実行しているとみなすことができる。(γI−K)−1に対するArnoldi法は、Shift-invert Arnoldi法と呼ばれる。K=γI−((γI−K)−1−1であるから、
Figure 2021033711
とおき、S,N SIAによりKを近似する。
1.3. 1.1節・1.2節の近似手法の正当性
以下、1.1節・1.2節の近似手法の正当性について説明する。
1.1節・1.2節の近似手法において現れたQS,N・RS,Nに関して,次の命題が成立する。
命題1
1.1節において、Ψ=[(μ),…,Φ(μS−1)]、1.2節において、
Figure 2021033711
とおき、Ψ=Qを、ΨのQR分解とする。=Q Ψ −1とおく。S,N ArnoldiS,N SIAをまとめて、S,Nと表す。このとき,1.1節・1.2節のそれぞれで定義されたQS,NS,Nに関して,QS,N→Q(strongly),が成立する。
<2.異常検知>
次に、異常検知のための計算方法について説明する。
1.1節・1.2節で作成したS,N ArnoldiS,N SIAを用いて、時刻t−1の観測データφ(xt−1)から、時刻tの観測データを予測し、実際の時刻tの観測データとの乖離を計算することで異常検知を行う。以下では、S,N ArnoldiS,N SIAをまとめて、S,Nと表す。予測は、
Figure 2021033711
によって作成する。よって、実際の時刻tの観測との乖離を表す異常度aを、以下のように定める。
Figure 2021033711
ただし、
Figure 2021033711
は、φ(xt−1)=p((γI−K)−1)uを満たすS−1次多項式で、
Figure 2021033711
とし、Γはs≦rに対してΓ⊇Γ⊇W((γI−K)−1)を満たす集合、W((γI−K)−1)={z=v(γI−K)−1v|v∈H,||v||=1}である。異常度aに対して、以下の命題が成立する。
命題2
1.2節において、
Figure 2021033711
とおく。Rを、γΦ(μ)−Φ(μ),γ(γΦ(μ)−Φ(μ))−(γΦ(μ)−Φ(μ)),…,γS−1(γΦ(μ)−Φ(μ))−…+(−1)S−1(γΦ(μS−1)−Φ(μ))の線形結合全体を含む空間とする。φ(xt−1)がRに十分近ければ、C,C,C>0と0<θ<1が存在して、以下が成立する。
Figure 2021033711
式(6)の右辺第1項は、xt−1とxが式(1)のモデルに従っているとすると、観測の期待値と実際の観測との乖離を表している。第2項はφ(xt−1)がRに十分近ければ、0に近い値になる。0<θ<1より、Sが十分大きければ、第3項は0に近い値になる。よって、xt−1とxが式(1)のモデルに従っていて、かつ、φ(xt−1)がRに十分近ければ、aは小さな値になる。よって、aが大きければ、xt−1とxが式(1)のモデルに従っていない、または、φ(xt−1)がRに近くない、つまり、異常であることがいえる。
しかし、実際にはG(r)やQを計算することはできないので、以下のような値を代わりに用いる。
Figure 2021033711
あるCが存在して、
Figure 2021033711
が成立することが示せるから、aが大きいときには^at,Nが大きくなる。
よって、^at,S,Nが閾値より大きければ異常、小さければ正常とみなす。
異常かどうかの閾値の設定には、予測のランダム性を考慮することが必要である。そこで、予測のRKHSにおける大きさである、
Figure 2021033711
の値を用いる。d(x,y)で、x,y∈χの上の距離を表すとする。カーネルkは距離に関する関数で、k(x,y)=f(d(x,y))と表せるとする。さらに、fは単調に減少する関数とする。0.節で示した例、Gaussian kernel k(x,y)=e−c||x−y||^2やLaplacian kernel k(x,y)=e−c|x−y|はこの条件を満たす。
任意の確率測度μは、
Figure 2021033711
という形で表せることが示せる。μに対して、Φ(μ)のRKHSにおける大きさは以下のように表される。
Figure 2021033711
上記のf(d(x,x))の重み付き和が小さい程x,xの距離が大きいため、
Figure 2021033711
の散らばりは広範囲にわたる。
Figure 2021033711
は時刻tおける確率測度の情報に対する予測であるため、正しく予測できた場合、
Figure 2021033711
が小さい程、予測の散らばりは大きいとみなすことができる。そこで、正常データに対して
Figure 2021033711
の値を計算しておくことで、データのランダム性の情報が抽出できる。ランダム性が大きい場合は異常かどうかの閾値は大きくし、ランダム性が小さい場合は異常かどうかの閾値を小さくするなど、閾値の設定に用いることができる。
<3.評価結果>
以下、評価結果について説明する。
3.1. 予測の散らばりについて
次のような時系列データ{x,x,…,xT−1}を作成した。
Figure 2021033711
ただし、ξは平均0、標準偏差σの正規分布からランダムにサンプルされた値である。予測の散らばりと指標
Figure 2021033711
の関係性を確かめるため、σ=1,3,5,N=60,S=30に対してKの近似S,Nを計算し、各σの各tに対する
Figure 2021033711
の値を計算した。カーネルは、Laplacian kernel k(x,y)=e−|x−y|を用いた。結果は図6のようになり、データの散らばりが大きい程
Figure 2021033711
の大きさが小さくなっている。データの散らばりが大きい程予測の散らばりも大きくなると考えられるため、
Figure 2021033711
の大きさが、予測の散らばり具合の指標として使用可能であることが分かる。
3.2.Arnoldi法,Shift-invert Arnoldi法,及び既存手法との比較
http://totem.info.ucl.ac.be/dataset.htmlで公開されているトラヒックデータに対して、Arnoldi法,Shift-invert Arnoldi法,および既存手法の異常度を計算した。このデータは、23個のルータと、その間の38個のリンク、及び外部との53個のリンクから構成されるネットワークにおいて、各ルータにおけるトラヒック量を15分おきに測定したものである。
特定の1つのルータから送り出されるトラヒック量のみを876単位時間分取り出し、前半の780個のデータを学習用データ、残りの96個(1日分)のデータをテスト用正常データとした。
テスト用異常データとしては、{10,10,…,10}を使用した。使用したデータを図7・図8に示す。図8は、データを1日ごとに区切って重ねて表示したもので、細線が学習データ、太線が正常データとして使用したデータを表す。
Arnoldi法,Shift-invert Arnoldi法においては、学習用データを用いてKの近似S,Nを計算し、これを用いて正常データと異常データの異常度を計算した。N=60,S=13とした。Shift-invert Arnoldi法ではγ=1.25とした。カーネルは、Laplacian kernel k(x,y)=e−|x−y|を用いた。
ここでは、データ{z,z,…,zT−1}に対して、x=[z,zi+1,zi+2]とした3次元ベクトルの列{x,x,…,xT−1}を観測データとみなすことで、3単位時間前までの情報を利用して予測を作成し、異常度を計算した。
既存法として、文献(Pankaj Malhotra, Lovekesh Vig, Gautam Shroff, and Puneet Agarwal. Long short term memory networks for anomaly detection in time series. In European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning, p.p. 89-94, 2015.)で提案されている、LSTMを用いる方法を用いた。3単位時間前までの情報を利用して予測を作成するようなLSTMを、学習データを用いて学習させ、正常データと異常データに対して、文献(Pankaj Malhotra, Lovekesh Vig, Gautam Shroff, and Puneet Agarwal. Long short term memory networks for anomaly detection in time series. In European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning, p.p. 89-94, 2015.)の方法で提案されている異常度を計算した。
正常データに関する結果を図9〜図11に示す。図9がArnoldi法であり、図10がShift-invert Arnoldi法であり、図11がLSTM法である。
異常データは全ての時刻において一定の値をとるため、異常度も一定である。異常データの異常度は、Arnoldi法は77.2、Shift-invert Arnoldi法は74.7、LSTMは−4.5であった。
Arnoldi法とShift-invert Arnoldi法は、既存法に比べて正常データと異常データを明確に区別できている。図8を見ると、正常データとはいえ、時刻60〜80付近は、学習データから多少乖離している。一方で、時刻0〜10付近は、学習データから乖離はない。Arnoldi法やShift-invert Arnoldi法では、時刻60〜80付近における異常度は高くなっているが、時刻0〜10付近の異常度は低くなっていることから、ランダム性を考慮した適切な異常度を算出できていることが分かる。
(実施の形態のまとめ、効果)
以上説明したように、本実施の形態で説明した技術により、Reproducing kernel Hilbert space上のPerron-Frobenius作用素を近似することで、時系列データのランダム性を捉えた予測を作成することができる。これにより、データのランダム性を考慮した異常検知を達成することができる。
より詳細には、RKHSという空間を考えることにより、内積という概念を用いることができる。また、有限個のデータからKrylov部分空間を近似的に作成することができる。これにより、Krylov部分空間法によるPerron-Frobenius作用素の近似を行うことができる。
Shift-invert Arnoldi法を用いることで、有界という性質を持たないPerron-Frobenius作用素も近似することができる。近似した作用素を用いて予測を作成することで、予測と観測との乖離により異常度を定義し、異常検知を行うことができる。
Perron-Frobenius作用素にランダム性の情報が組み込まれているため、ランダム性を考慮した異常検知を達成することができる。予測の、RKHSにおける大きさは、予測の散らばり具合を表すため、異常とみなす異常度の閾値設定に利用することができる。
本明細書には、少なくとも下記各項の異常検知装置、異常検知方法、及びプログラムが記載されている。
(第1項)
観測データに基づいて、当該観測データを生成する数学モデルを表現するRKHS上のPerron-Frobenius作用素の近似を作成する近似部と、
前記Perron-Frobenius作用素の近似と、時刻tの観測データを用いて、時刻t+1におけるデータを予測し、予測したデータと、時刻t+1の観測データとの乖離に基づいて、時刻t+1の観測データが異常か否かを判断する検知部と
を備える異常検知装置。
(第2項)
前記近似部は、前記Perron-Frobenius作用素の近似を用いて、各観測データにおける予測の散らばり具合の指標を計算し、
前記検知部は、前記散らばり具合の指標に応じた閾値を用いて観測データが異常か否かを判断する
第1項に記載の異常検知装置。
(第3項)
前記散らばり具合の指標は、前記Perron-Frobenius作用素の近似を用いて得られた予測のRKHSにおける大きさである
第1項に記載の異常検知装置。
(第4項)
前記近似部は、観測データをS組のデータセットに分け、当該S組のデータセットから、直交化の操作により、S次元の空間に制限した前記Perron-Frobenius作用素の近似を作成する
第1項ないし第3項のうちいずれか1項に記載の異常検知装置。
(第5項)
前記近似部は、Shift-invert Arnoldi法により、前記Perron-Frobenius作用素の近似を作成する
第4項に記載の異常検知装置。
(第6項)
異常検知装置が実行する異常検知方法であって、
観測データに基づいて、当該観測データを生成する数学モデルを表現するRKHS上のPerron-Frobenius作用素の近似を作成するステップと、
前記Perron-Frobenius作用素の近似と、時刻tの観測データを用いて、時刻t+1におけるデータを予測し、予測したデータと、時刻t+1の観測データとの乖離に基づいて、時刻t+1の観測データが異常か否かを判断するステップと
を備える異常検知方法。
(第7項)
コンピュータを、第1項ないし第5項のうちいずれか1項に記載の異常検知装置における各部として機能させるためのプログラム。
以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
100 時系列データ異常検知装置
110 観測データ取得部
120 近似部
121 Perron-Frobenius作用素近似部
122 散らばり具合計算部
130 検知部
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置

Claims (7)

  1. 観測データに基づいて、当該観測データを生成する数学モデルを表現するRKHS上のPerron-Frobenius作用素の近似を作成する近似部と、
    前記Perron-Frobenius作用素の近似と、時刻tの観測データを用いて、時刻t+1におけるデータを予測し、予測したデータと、時刻t+1の観測データとの乖離に基づいて、時刻t+1の観測データが異常か否かを判断する検知部と
    を備える異常検知装置。
  2. 前記近似部は、前記Perron-Frobenius作用素の近似を用いて、各観測データにおける予測の散らばり具合の指標を計算し、
    前記検知部は、前記散らばり具合の指標に応じた閾値を用いて観測データが異常か否かを判断する
    請求項1に記載の異常検知装置。
  3. 前記散らばり具合の指標は、前記Perron-Frobenius作用素の近似を用いて得られた予測のRKHSにおける大きさである
    請求項2に記載の異常検知装置。
  4. 前記近似部は、観測データをS組のデータセットに分け、当該S組のデータセットから、直交化の操作により、S次元の空間に制限した前記Perron-Frobenius作用素の近似を作成する
    請求項1ないし3のうちいずれか1項に記載の異常検知装置。
  5. 前記近似部は、Shift-invert Arnoldi法により、前記Perron-Frobenius作用素の近似を作成する
    請求項4に記載の異常検知装置。
  6. 異常検知装置が実行する異常検知方法であって、
    観測データに基づいて、当該観測データを生成する数学モデルを表現するRKHS上のPerron-Frobenius作用素の近似を作成するステップと、
    前記Perron-Frobenius作用素の近似と、時刻tの観測データを用いて、時刻t+1におけるデータを予測し、予測したデータと、時刻t+1の観測データとの乖離に基づいて、時刻t+1の観測データが異常か否かを判断するステップと
    を備える異常検知方法。
  7. コンピュータを、請求項1ないし5のうちいずれか1項に記載の異常検知装置における各部として機能させるためのプログラム。
JP2019154065A 2019-08-26 2019-08-26 異常検知装置、異常検知方法、及びプログラム Active JP7351480B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019154065A JP7351480B2 (ja) 2019-08-26 2019-08-26 異常検知装置、異常検知方法、及びプログラム
PCT/JP2020/031316 WO2021039545A1 (ja) 2019-08-26 2020-08-19 異常検知装置、異常検知方法、及びプログラム
US17/636,635 US20220284332A1 (en) 2019-08-26 2020-08-19 Anomaly detection apparatus, anomaly detection method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019154065A JP7351480B2 (ja) 2019-08-26 2019-08-26 異常検知装置、異常検知方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2021033711A true JP2021033711A (ja) 2021-03-01
JP7351480B2 JP7351480B2 (ja) 2023-09-27

Family

ID=74676604

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019154065A Active JP7351480B2 (ja) 2019-08-26 2019-08-26 異常検知装置、異常検知方法、及びプログラム

Country Status (3)

Country Link
US (1) US20220284332A1 (ja)
JP (1) JP7351480B2 (ja)
WO (1) WO2021039545A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113093135A (zh) * 2021-03-23 2021-07-09 南京邮电大学 基于f范数归一化距离的目标检测方法及装置
JPWO2021177082A1 (ja) * 2020-03-02 2021-09-10

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12102923B2 (en) * 2021-02-05 2024-10-01 Unity Technologies ApS Method and system for automatic normal map detection and correction

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018195929A (ja) * 2017-05-16 2018-12-06 富士通株式会社 トラフィック管理装置、トラフィック管理方法およびプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018195929A (ja) * 2017-05-16 2018-12-06 富士通株式会社 トラフィック管理装置、トラフィック管理方法およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石川勲 ほか: "RKHS上のPerron-Frobenius作用素を用いた力学系間の比較について", 電子情報通信学会技術研究報告, vol. 118, no. 284, JPN6020044572, 29 October 2018 (2018-10-29), JP, pages 175 - 182, ISSN: 0005138161 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021177082A1 (ja) * 2020-03-02 2021-09-10
CN113093135A (zh) * 2021-03-23 2021-07-09 南京邮电大学 基于f范数归一化距离的目标检测方法及装置
CN113093135B (zh) * 2021-03-23 2023-05-26 南京邮电大学 基于f范数归一化距离的目标检测方法及装置

Also Published As

Publication number Publication date
WO2021039545A1 (ja) 2021-03-04
JP7351480B2 (ja) 2023-09-27
US20220284332A1 (en) 2022-09-08

Similar Documents

Publication Publication Date Title
WO2021039545A1 (ja) 異常検知装置、異常検知方法、及びプログラム
KR102208210B1 (ko) 동적 특이치 바이어스 감소 시스템 및 방법
EP2814218B1 (en) Detecting anomalies in work practice data by combining multiple domains of information
GB2617045A (en) Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
Seo et al. On the value of outlier elimination on software effort estimation research
JP2011198191A (ja) カーネル回帰システム、方法及びプログラム
Gencer et al. Time series forecast modeling of vulnerabilities in the android operating system using ARIMA and deep learning methods
US20210117840A1 (en) Causation learning apparatus, causation estimation apparatus, causation learning method, causation estimation method and program
Delatola et al. A Bayesian semiparametric model for volatility with a leverage effect
Masabo et al. Big data: deep learning for detecting malware
Alsolai et al. Application of ensemble techniques in predicting object-oriented software maintainability
US20090138237A1 (en) Run-Time Characterization of On-Demand Analytical Model Accuracy
Taghipour et al. Maximum likelihood estimation from interval censored recurrent event data
JP2020139914A (ja) 物質構造分析装置、方法及びプログラム
CN114450645A (zh) 智能过程异常检测和趋势预估系统
Shawky et al. Modeling clones evolution in open source systems through chaos theory
JP6629682B2 (ja) 学習装置、分類装置、分類確率計算装置、及びプログラム
Burger et al. Deriving correlation matrices for missing financial time-series data
Lymperopoulos CovidCurve: curve fitting modeling and early forecasting of the size and duration of Covid-19 outbreaks
JP7367843B2 (ja) 関係性抽出装置、関係性抽出方法、及びプログラム
RU2813245C1 (ru) Компьютерные системы, вычислительные компоненты и вычислительные объекты, выполненные с возможностью реализации уменьшения обусловленного выбросовыми значениями динамического отклонения в моделях машинного обучения
Billio et al. Bayesian inference in dynamic models with latent factors
Alsharef Sonia; Kumar, K.; Iwendi, C. Time Series Data Modeling Using Advanced Machine Learning and AutoML. Sustainability 2022, 14, 15292
Yan et al. User Preference Learning based on Automatic Environment Classification for General Debiasing in Recommendation Systems
Contreras Bayesian methods to treat geotechnical uncertainty in risk‑based design of open pit slopes

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20190827

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20190827

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220606

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230829

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230906

R150 Certificate of patent or registration of utility model

Ref document number: 7351480

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150