JP7424474B2

JP7424474B2 - 学習装置、異常検知装置、学習方法及び異常検知方法

Info

Publication number: JP7424474B2
Application number: JP2022516488A
Authority: JP
Inventors: 兼悟田尻; 具治岩田; 敬志郎渡辺
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2024-01-30
Anticipated expiration: 2040-04-20
Also published as: WO2021214833A1; JPWO2021214833A1

Description

本発明は、学習装置、異常検知装置、学習方法及び異常検知方法に関する。

機械学習の手法を利用した異常検知技術が従来から知られている（非特許文献１～５）。これらの異常検知技術では、一般に、正常データに存在する特徴を教師なし学習により学習した上で、検知対象のデータが正常又は異常のいずれであるかを判定することで異常検知を行う。この際、学習に使用される正常データや検知対象のデータは、欠損値を含まないデータであることが要求される。

しかしながら、異常検知技術を実環境で用いる場合には、データ収集の際に一部の数値に欠損が発生する場合がある。この場合、（ａ）欠損が存在するデータは学習や異常検知に使用しない、（ｂ）欠損値を何等かの手法で補完する、という２種類の対応が考えられる。なお、データの欠損値を補完する技術としては、例えば、非特許文献６に記載されている技術が知られている。

M. M Breunig, H. Kriegel, R. T Ng, and J. Sander. "Lof: identifying density-based local outliers." In ACM sigmod record, volume 29, pages 93-104. ACM, 2000. L. M Manevitz and M. Yousef, "One-class SVMs for document classification", Journal of machine Learning research, 2, 139-154, 2001. F. T Liu, K. M. Ting and Zhi-Hua Zhou, "Isolation forest", 2008 Eighth IEEE International Conference on Data Mining, 413-422, 2008. M.Sakurada and T. Yairi, "Anomaly detection using autoencoders with nonlinear dimensionality reduction", Proceedings of the MLSDA 2014 2nd Workshop on Machine Learning for Sensory Data Analysis, 2014. P. Vincent, H. Larochelle, Y. Bengio, and P. Manzagol. "Extracting and composing robust features with denoising autoencoders." In Proceedings of the 25th international conference on Machine learning, pages 1096-1103. ACM, 2008. M. J Azur, E. A Stuart, C. Frangakis, and P. J Leaf. "Multiple imputation by chained equations: what is it and how does it work?" International journal of methods in psychiatric research, 20(1):40-49, 2011.

しかしながら、上記の（ａ）の場合には、学習に使用するデータが不足したり、異常検知を行わないことによって重大な異常の見逃しが発生したりする可能性がある。一方で、上記の（ｂ）の場合には、欠損を補完することによって実際のデータとは異なるデータで学習や異常検知が行われることになり、異常検知の精度低下に繋がる可能性がある。

本発明の一実施形態は、上記の点に鑑みてなされたもので、欠損が含まれ得るデータを用いて精度の良い異常検知を実現することを目的とする。

上記目的を達成するため、一実施形態に係る学習装置は、属性値と属性情報との組で構成される集合を表すデータのデータセットを入力する入力部と、前記属性値と前記属性情報が埋め込まれた埋め込みベクトルとを組み合わせたベクトルの集合を用いて、前記データセットに含まれる各データの属性値に対応する予測値を算出する演算部と、前記属性値と、前記属性値に対応する予測値との差を最小化するように、前記埋め込みベクトルを含むパラメータを更新する学習部と、を有することを特徴とする。

欠損が含まれ得るデータを用いて精度の良い異常検知を実現することができる。

学習フェーズにおける異常検知装置の機能構成の一例を示す図である。本実施形態に係る学習処理の流れの一例を示すフローチャートである。異常検知フェーズにおける異常検知装置の機能構成の一例を示す図である。本実施形態に係る異常検知処理の流れの一例を示すフローチャートである。本実施形態に係る異常検知装置のハードウェア構成の一例を示す図である。

以下、本発明の一実施形態について説明する。本実施形態では、欠損が含まれ得るデータを用いて、欠損の補完やデータの破棄を行うことなく、精度の良い異常検知を実現することが可能な異常検知装置１０について説明する。ここで、本実施形態に係る異常検知装置１０は、正常データに存在する特徴を教師なし学習により学習した上で、検知対象のデータが正常又は異常のいずれであるかを判定することで異常検知を行う。このため、本実施形態に係る異常検知装置１０には、正常データから機械学習モデルのパラメータを学習する「学習フェーズ」と、学習済みパラメータを設定した機械学習モデルによって検知対象データが正常又は異常のいずれであるかを判定する「異常検知フェーズ」とがある。

また、一般に、機械学習モデルに入力されるデータは、例えば、（属性１の値，属性２の値，・・・，属性Ｎ'の値）というように、各属性の値を並べたベクトルとして取り扱われる。一方で、本実施形態では、後述するように、｛（属性１の値，属性１の情報），（属性２の値，属性２の情報），・・・，（属性Ｎ'の値，属性Ｎ'の情報）｝というように、各属性の値と当該属性の情報との組の集合として取り扱う。属性の値は各データによって異なり得るが、属性の情報は各データ間で共通である。なお、本実施形態では、ベクトルは行ベクトルであるものとする。

機械学習モデルに入力される各データをベクトルと取り扱った場合、各属性はベクトルの各次元にそれぞれ対応するため、以降では、欠損がないデータに含まれる属性のインデックス（以下、「属性インデックス」ともいう。）と、欠損がないデータをベクトルとして取り扱った場合におけるベクトルの次元とを同一視して、属性の情報は、この属性の次元（属性インデックス）を表すものとする。

また、本実施形態では、異常検知に用いられる機械学習モデルとして、DeepSets等に代表される集合に対する深層学習モデルを用いる。集合に対する深層学習モデルは、入力される集合の要素の数が変動してもよいという特性がある。このため、集合に対する深層学習モデルを異常検知に用いることで、各データに存在する属性に関する組（つまり、欠損していない属性の値と当該属性の情報との組）だけを持つ集合を入力することが可能となり、欠損を含むデータの欠損値を補完したり欠損を含むデータを破棄したりすることなく、当該データをそのまま扱うことが可能となる。なお、DeepSetsについては、例えば、参考文献１「M. Zaheer, S. Kottur, S. Ravanbakhsh, B.Poczos, R. R Salakhutdinov, and A. J Smola. "Deep sets. In Advances in neural information processing systems" pages 3391-3401, 2017.」等を参照されたい。

［学習フェーズ］
まず、学習フェーズにおける異常検知装置１０につい説明する。

＜機能構成＞
学習フェーズにおける異常検知装置１０の機能構成について、図１を参照しながら説明する。図１は、学習フェーズにおける異常検知装置１０の機能構成の一例を示す図である。

図１に示すように、学習フェーズにおける異常検知装置１０は、入力部１０１と、演算部１０２と、学習部１０３と、記憶部１０４とを有する。

記憶部１０４には、異常検知に用いられる機械学習モデルのパラメータ（以下、「モデルパラメータ」という。）と、このモデルパラメータの学習に使用される正常データとが記憶されている。以降では、各正常データを識別するインデックスをｍとして、モデルパラメータの学習に使用される正常データをｕ_ｍと表し、記憶部１０４には、Ｍ個の正常データで構成されるデータセットＵ＝｛ｕ_１，・・・，ｕ_Ｍ｝が記憶されているものとする。なお、以降では、正常データｕ_ｍのことを「レコードｍ」とも表す。

また、レコードｍは、

と表されるものとする。ここで、ｎはレコードｍにおいて欠損していないｎ番目の属性を表す。また、ｘ_ｍｎはｎ番目の属性の値（属性値）、ｒ_ｍｎはｎ番目の属性の情報（属性情報）、Ｎ_ｍはレコードｍにおいて欠損していない属性の総数を表す。

例えば、欠損していないレコードｍには１０個の属性値が含まれる場合、このレコードｍの属性情報はｒ_ｍ１＝１，ｒ_ｍ２＝２，・・・，ｒ_ｍ１０＝１０となる。一方で、この場合に、例えば、３次元目の属性値が欠損しているとき（つまり、属性インデックスが３の属性値が欠損しているとき）は、ｒ_ｍ１＝１，ｒ_ｍ２＝２，ｒ_ｍ３＝４，ｒ_ｍ４＝５，・・・，ｒ_ｍ９＝１０となる。同様に、例えば、２次元目の属性値と４次元目の属性値とが欠損しているとき（つまり、属性インデックスが２の属性値と属性インデックスが４の属性値とが欠損しているとき）は、ｒ_ｍ１＝１，ｒ_ｍ２＝３，ｒ_ｍ３＝５，ｒ_ｍ４＝６，・・・，ｒ_ｍ８＝１０となる。このように、属性値と属性情報との組（ｘ_ｍｎ，ｒ_ｍｎ）は、ｒ_ｍｎ次元目の属性値（つまり、属性インデックスがｒ_ｍｎの属性値）がｘ_ｍｎであることを表している。

入力部１０１は、記憶部１０４に記憶されているデータセットＵ、つまり、

を入力する。

演算部１０２は、データセットＵを入力として、モデルパラメータを用いて、ｍ＝１，・・・，Ｍに対して、属性値集合

に対応する予測値集合

を算出する。なお、以降の明細書のテキスト中では、記号の真上に付与されるハット「＾」を、当該記号の左上に付与して表記する。例えば、明細書のテキスト中では、属性値ｘ_ｍｎに対応する予測値を「＾ｘ_ｍｎ」と表記する。

ここで、演算部１０２には、エンコード部１１１と、デコード部１１２とが含まれる。エンコード部１１１は、レコードｍの特徴Ｚ_ｍを抽出する。デコード部１１２は、レコードｍの属性値集合を復元した予測値集合をＺ_ｍから得る。

学習部１０３は、属性値集合と、演算部１０２によって算出された予測値集合とを用いて、既知の最適化手法によりモデルパラメータを更新（学習）する。ここで、学習部１０３は、以下に示すＬ（Ｕ）を最小化するように、モデルパラメータを学習する。

すなわち、全てのレコードｍ（ｍ＝１，・・・，Ｍ）に関して属性値と予測値との差の二乗の平均をＬ（Ｕ）として、このＬ（Ｕ）を最小化するように、モデルパラメータが学習される。なお、学習対象のモデルパラメータについては後述する。

＜演算部１０２による計算の詳細及び機械学習モデル＞
次に、演算部１０２による計算の詳細と、エンコード部１１１及びデコード部１１２を実現する機械学習モデルの詳細とについて説明する。

本実施形態では、データセットＵ中の各属性情報を埋め込みベクトルとして表現する。具体的には、Ｎ個のｄ次元ベクトルをｗ_ｉとして、

を用意する。ここで、Ｎは、データセットＵ中の属性数（つまり、属性インデックスが互いに異なる属性の総数）である。ベクトルｗ_ｉ（ｉ＝１，・・・，Ｎ）はそれぞれ属性ｉ（属性インデックスがｉの属性）の属性情報を持つ埋め込みベクトルとなる。

このベクトルｗ_ｉと、各レコードｍの属性情報ｒ_ｍｎの属性値ｘ_ｍｎとを組み合わせることで、集合の要素をベクトルとして表現する。この組み合わせ方としては、例えば、ベクトル

の次元数を１次元追加した上で、この追加した次元の値を属性値ｘ_ｍｎとしたｙ_ｍｎ、つまり、

とすることが考えられる。ここで、ａをスカラー又はベクトル、ｂをスカラー又はベクトルとして、concat（ａ，ｂ）は、ａとｂを連結したベクトルを作成する操作を表す。ただし、ａをｂの先頭に連結する場合に限られず、例えば、ａをｂの末尾に連結してもよいし、ａをｂの途中に挿入してもよい。

又は、上記の組み合わせ方の他の例としては、例えば、ベクトル

の各要素に対して属性値ｘ_ｍｎを掛け合わせたｙ_ｍｎ、つまり、

とすることが考えられる。

なお、以降では、レコードｍに対するｙ_ｍｎ全体の集合をＹ_ｍと表す。すなわち、

である。

≪実施例１≫
以降では、エンコード部１１１及びデコード部１１２を実現する機械学習モデルの実施例１について説明する。

・エンコード部１１１
エンコード部１１１は、Ｙ_ｍを入力として、レコードｍの特徴

を生成する。ここで、Ｎ'_ｍは特徴ベクトルｚ_ｍｊの総数であり、このＮ'_ｍはｍ毎に固定であってもよいし変動してもよい。

エンコード部１１１は、DeepSets等の集合に対する深層学習モデルにより実現される。集合に対する深層学習モデルでは、入力された集合の要素の順序の入れ替えに対して、（Ａ）出力が不変、又は、（Ｂ）入力の順序に応じて出力の順序が変化、のいずれかの性質を持つことが要請される。このような性質を持つような深層学習モデルの構成例としては、例えば、以下の式（１）に示すモデル等が考えられる。

Ｚ_ｍ＝α×rFF（Ｙ_ｍ）＋β×pool（rFF（Ｙ_ｍ））（１）
ここで、上記の式（１）に示すモデルでは、Ｙ_ｍ及びＺ_ｍはその要素の行ベクトルを縦に並べた行列として扱われている。rFF（・）は各行をそれぞれ独立に変形させるニューラルネットワーク（Row-wise Neural Network）、α及びβは定数である。また、pool（・）はsumやmean、max等の要素の順番（この場合では行列の行ベクトルの順番）によらない１行ベクトルを出力する関数である。

上記の式（１）は、αが０である場合は（Ａ）の性質を満たし、それ以外の場合は（Ｂ）の性質を満たす。なお、上記の式（１）以外の集合に対する深層学習モデルとしては、実施例２で説明するアテンション機構を使用したモデル等も考えられる。

・デコード部１１２
デコード部１１２は、エンコード部１１１で抽出（生成）された特徴Ｚ_ｍから、レコードｍの各属性値（つまり、レコードｍの、欠損していない属性の属性値）を復元するために、欠損していない属性の属性情報

の埋め込みベクトルを用いる。この埋め込みベクトルを

と表す。この埋め込みベクトルｓ_ｉはデコード用の埋め込みベクトルであり、例えば、上述したｗ_ｉを用いてもよい（つまり、各ｉに対して、ｓ_ｉ＝ｗ_ｉでもよい）し、ｗ_ｉと異なるベクトルを用いてもよい。

デコード部１１２もエンコード部１１１と同様に、集合に対する深層学習モデルにより実現される。デコード部１１２を実現する深層学習モデルであって、上記の（Ａ）又は（Ｂ）の性質を満たすものとしては、以下の式（２）に示すモデル等が考えられる。

ここで、＾ｘ_ｍは

をまとめてベクトルとして扱ったものであり、Ｓ_ｍ ^ＴはＺ_ｍを構成する各ベクトルｚ_ｍｊと同じ次元数を持つ埋め込みベクトルｓ_ｉを縦に並べた行列Ｓ_ｍの転置行列である。また、演算子「・」は内積を意味する。

上記の式（２）に示すモデルでは、

の要素の並び替えはＳ_ｍの行の並び替えに対応し、これに伴って＾ｘ_ｍの並び替えが発生するため、上記の（Ｂ）の性質を満たす。なお、上記の式（２）以外の集合に対する深層学習モデルとしては、エンコード部１１１と同様に、実施例２で説明するアテンション機構を使用したモデル等も考えられる。

≪実施例２≫
以降では、エンコード部１１１及びデコード部１１２を実現する機械学習モデルの実施例２について説明する。実施例２では、アテンション機構を使用したモデル（集合に対する深層学習モデル）によりエンコード部１１１及びデコード部１１２を実現する場合について説明する。

アテンション機構は、クエリ行列

と、キー行列

と、バリュー行列

との３つの行列を入力として、Att（Ｑ，Ｋ，Ｖ；ω）＝ω（ＱＫ^Ｔ）Ｖと表記される。ここで、ω（・）は一般的にスケール化されたソフトマックス関数である。このようなソフトマックス関数は、例えば、

等と定義される場合が多い。ここで、ｄ_ｑはクエリ行列Ｑ及びキー行列Ｋの列方向の次元数（つまり、クエリ行列Ｑ及びキー行列Ｋを行ベクトルの集合と考えた場合、その行ベクトルの次元数）である。なお、上記のソフトマックス関数の定義については、例えば、参考文献２「J. Lee, Y. Lee, J. Kim, A. R Kosiorek, S. Choi, and Y. W. Teh. "Set transformer." arXiv preprint arXiv:1810.00825, 2018.」や参考文献３「A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N Gomez, L. Kaiser, and I. Polosukhin. "Attention is all you need. " In Advances in neural information processing systems, pages 5998-6008.」等を参照されたい。

上記のアテンション機構の拡張としてマルチヘッドアテンションとショートカットコネクトを導入したTransformerがあり、以下、これについても説明する。

マルチヘッドアテンションは、クエリ行列Ｑ、キー行列Ｋ及びバリュー行列Ｖをそれぞれｈ個の別々の空間に射影したもので、ｈ個のアテンションを計算するものである。具体的には、学習対象のモデルパラメータ

を用いて、Multihead（Ｑ，Ｋ，Ｖ；λ，ω）＝concat（Ｏ_１，・・・，Ｏ_ｈ）と表記される。ここで、

である。また、ｉによらず、

である。

更に、上記の参考文献２ではマルチヘッドアテンションにショートカットコネクションを加えてひとまとまりにしたものがMultihead Attention Block（ＭＡＢ）と呼ばれており、ＭＡＢ（Ｘ，Ｙ）＝Ｈ＋rFF（Ｈ）と表記されている。ここで、Ｈ＝Multihead（Ｘ，Ｙ，Ｙ；λ，ω）＋Ｘである。

ＸとＹが行ベクトルを要素とする集合で構成される行列であると考えると、ＭＡＢ（・）の出力はＹの要素の並び替えに関して不変であり、またＸの要素の並び替えに関してはその並び替えに対応して出力の行の順番が変化することがわかる。したがって、ＭＡＢ（・）も集合に対する深層学習モデルとして用いることが可能である。

また、上記の参考文献２ではＸとＹに同じものを代入したＭＡＢはSet Attention Block（ＳＡＢ）と呼ばれており、ＳＡＢ（Ｘ）＝ＭＡＢ（Ｘ，Ｘ）と表記されている。このとき、ＳＡＢ（Ｘ）はＸの要素の順序変化に対応して出力の順序が変化する。

・エンコード部１１１
エンコード部１１１は、まず、上述したように、属性情報の埋め込みベクトル｛ｗ_１，・・・，ｗ_Ｎ｝を用いてＹ_ｍを構成する。その後、エンコード部１１１は、ＳＡＢ（・）又はＭＡＢ（・）を繰り返し用いることで、レコードｍの特徴Ｚ_ｍを構成する。ＳＡＢ（・）とＭＡＢ（・）の使用順序及び使用回数は任意の順序及び任意の回数でよく、特に限定されない。

具体的には、Ｙ_ｍ ^（０）＝Ｙ_ｍ、ＳＡＢ（・）又はＭＡＢ（・）をｋ回作用させた出力行列をＹ_ｍ ^（ｋ）として、ｋ＋１回目にＳＡＢ（・）を作用させる場合は、

と定義される。同様に、ｋ＋１回目にＭＡＢ（・）を作用させる場合は、

と定義される。ここで、Ｃ^（ｋ）はＹ_ｍ ^（ｋ）の列次元数と同じ列次元数を持つ行列（つまり、Ｃ^（ｋ）はＹ_ｍ ^（ｋ）と同じ列数の行列）であり、行数は特に限定されない。

上記の操作を繰り返すことで、エンコード部１１１は、最終的にＺ_ｍを構成する。すなわち、例えば、ＳＡＢ（・）又はＭＡＢ（・）を作用させる総回数をＫとすれば、Ｙ_ｍ ^（Ｋ）＝Ｚ_ｍである。

・デコード部１１２
デコード部１１２は、まず、デコード用の埋め込みベクトルｓ_ｉの集合Ｓ_ｍを用いて、Ｓ'_ｍ＝ＭＡＢ（Ｓ_ｍ，Ｚ_ｍ）を計算する。その後、デコード部１１２は、ＳＡＢ（・）を繰り返し用いて、最後に各行を１次元にするニューラルネットワークrFF（・）を作用させることで、最終的に＾ｘ_ｍを得る。ＳＡＢ（・）の仕様回数は任意の回数でよく、特に限定されない。

＜学習対象のモデルパラメータ＞
エンコード部１１１及びデコード部１１２を実現する機械学習モデルとして実施例１で説明した機械学習モデルを用いる場合、学習対象のモデルパラメータは、埋め込みベクトル｛ｗ_１，・・・，ｗ_Ｎ｝、デコード用の埋め込みベクトル｛ｓ_１，・・・，ｓ_Ｎ｝、並びにrFF（・）で表されるニューラルネットワークの重み及びバイアスである。

一方で、実施例２で説明した機械学習モデルを用いる場合、上記の学習対象のモデルパラメータに加えて、Multihead（・）中のλ、エンコード部１１１によるエンコードに使用されるＭＡＢ（・）中のクエリ行列Ｃ^（ｋ）も学習対象のモデルパラメータである。

＜学習処理＞
次に、学習対象のモデルパラメータを学習するための学習処理について、図２を参照しながら説明する。図２は、本実施形態に係る学習処理の流れの一例を示すフローチャートである。

まず、入力部１０１は、記憶部１０４に記憶されているデータセットＵを入力する（ステップＳ１０１）。

次に、演算部１０２は、記憶部１０４に記憶されているモデルパラメータを用いて、データセットＵ中の各レコードｍに対して、その属性値ｘ_ｍｎに対応する予測値＾ｘ_ｍｎを算出する（ステップＳ１０２）。すなわち、演算部１０２は、エンコード部１１１によってレコードｍの特徴Ｚ_ｍを抽出した上で、デコード部１１２によって当該特徴Ｚ_ｍから予測値＾ｘ_ｍｎを復元する。

そして、学習部１０３は、属性値集合と、上記のステップＳ１０２で算出された予測値集合とを用いて、上記のＬ（Ｕ）を既知の最適化手法により最小化することで、記憶部１０４に記憶されているモデルパラメータを学習する（ステップＳ１０３）。

［異常検知フェーズ］
次に、異常検知フェーズにおける異常検知装置１０について説明する。

＜機能構成＞
異常検知フェーズにおける異常検知装置１０の機能構成について、図３を参照しながら説明する。図３は、異常検知フェーズにおける異常検知装置１０の機能構成の一例を示す図である。

図３に示すように、異常検知フェーズにおける異常検知装置１０は、入力部１０１と、演算部１０２と、記憶部１０４と、異常検知部１０５と、出力部１０６とを有する。

記憶部１０４には、学習フェーズで学習された学習済みモデルパラメータが記憶されている。また、記憶部１０４には、異常検知の対象となる検知対象データｕ_ｍが記憶されている。

入力部１０１は、記憶部１０４に記憶されている検知対象データｕ_ｍを入力する。

演算部１０２は、検知対象データｕ_ｍを入力として、学習済みモデルパラメータを用いて、当該検知対象データｕ_ｍの属性値ｘ_ｍｎに対応する予測値＾ｘ_ｍｎを算出する。

異常検知部１０５は、検知対象データｕ_ｍの属性値ｘ_ｍｎと、演算部１０２によって算出された予測値＾ｘ_ｍｎとを入力として、異常度を算出する。ここで、異常検知部１０５は、例えば、

を異常度として算出する。すなわち、異常検知部１０５は、属性値ｘ_ｍｎと予測値＾ｘ_ｍｎとの差の二乗平均を異常度として算出する。

また、異常検知部１０５は、算出した異常度が所定の閾値を超えているか否かを判定する。異常度が所定の閾値を超えている場合は検知対象データｕ_ｍが異常データであると判定され、そうでない場合には検知対象データｕ_ｍが正常データであると判定される。これにより異常検知が行われる。

出力部１０６は、検知対象データｕ_ｍが異常データ又は正常データのいずれであるかを示す情報を出力する。なお、出力部１０６の出力先は任意としてよいが、例えば、ディスプレイに表示する、記憶部１０４に保存する、スピーカ等から音声で出力する、通信ネットワークを介して接続される他の装置に送信する、等が考えられる。

＜異常検知処理＞
次に、異常検知を行うための異常検知処理について、図４を参照しながら説明する。図４は、本実施形態に係る異常検知処理の流れの一例を示すフローチャートである。なお、複数の検知対象データが存在する場合には、各検知対象データに対して異常検知処理を行えばよい。

まず、入力部１０１は、記憶部１０４に記憶されている検知対象データｕ_ｍを入力する（ステップＳ２０１）。

次に、演算部１０２は、記憶部１０４に記憶されている学習済みモデルパラメータを用いて、検知対象データｕ_ｍの属性値ｘ_ｍｎに対応する予測値＾ｘ_ｍｎを算出する（ステップＳ２０２）。すなわち、演算部１０２は、エンコード部１１１によって検知対象データｕ_ｍの特徴Ｚ_ｍを抽出した上で、デコード部１１２によって当該特徴Ｚ_ｍから予測値＾ｘ_ｍｎを復元する。

次に、異常検知部１０５は、検知対象データｕ_ｍの属性値ｘ_ｍｎと、上記のステップＳ２０２で算出された予測値＾ｘ_ｍｎとを用いて、異常度を算出する（ステップＳ２０３）。

次に、異常検知部１０５は、上記のステップＳ２０３で算出された異常度が、予め設定された所定の閾値を超えているか否かを判定する（ステップＳ２０４）。

上記のステップＳ２０４で異常度が所定の閾値を超えていると判定された場合、出力部１０６は、検知対象データｕ_ｍが異常データであることを示す情報を出力する（ステップＳ２０５）。一方で、上記のステップＳ２０４で異常度が所定の閾値を超えていないと判定された場合、出力部１０６は、検知対象データｕ_ｍが正常データであることを示す情報を出力する（ステップＳ２０６）。

＜評価＞
次に、本実施形態に係る異常検知装置１０による異常検知手法の評価について説明する。

参考文献４「G. O Campos, A. Zimek, J. Sander, R. JGB Campello, B. Micenkov´a, E. Schubert, I. Assent, and M. E Houle. "On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study. Data Mining and Knowledge Discovery," 30(4):891-927, 2016.」に記載されている２２種類の異常検知用ベンチマークデータを用いて実験を行った。ベンチマークデータ中の正常データのうち８割を学習用の正常データ、１割をバリデーション用の正常データ、残りの１割と全異常データを検知対象データとし、ＡＵＲＯＣを指標として評価を行った。

全てのレコードに対して全次元の２割をランダムでそれぞれ選択し、欠損させた。本実施形態に係る異常検知装置１０では、これらのレコードをそのまま学習と異常検知に使用することが可能である。一方で、比較対象となる異常検知手法では、欠損のあるレコードを用いることはできないため、欠損を２種類の方法で補完した。１つは学習用の正常データ中の各次元の残存する属性値の平均で欠損を埋める方法（mean）、もう１つは学習用の正常データ中の各次元の残存する属性値を用いた多重代入法（MICE）である。なお、MICEについては、例えば、上記の非特許文献６等を参照されたい。

比較対象の異常検知手法としては、教師なしの手法であるＬＯＦ（Local Outlier Factor）、ＯＣＳＶＭ（One Class Support Vector Machine）、ＩＦ（Isolation Forest）、ＡＥ（Autoencoder）、ＤＡＥ（Denoising Autoencoder）を用いた。

実験結果を以下の表１に示す。なお、Proposedが、本実施形態に係る異常検知装置１０による異常検知手法の実験結果である。

上記の表１では、データセット（ベンチマークデータ）の切り分けを変えて５回実験を繰り返し、ｔ検定を行いｐ値０．０５で最も良い値と有意差が無かったものを太字で表している。

また、本実施形態に係る異常検知装置１０による異常検知手法（Proposed）では実施例２のエンコード部１１１及びデコード部１１２を用い、エンコード部１１１ではＹ_ｍに対してＳＡＢ（・）を１回作用させることで特徴Ｚ_ｍを構成し、デコード部１１２ではＳ'_ｍに対してＳＡＢ（・）を１回作用させることで＾ｘ_ｍを構成した。

上記の表１に示すように、全データセットでの平均、最大精度になるデータセット数、統計的に最大精度となり得るデータセット数のいずれにおいてもProposedが、mean又はMICEを利用した他の異常検知手法を上回っていることがわかる。

また、本実施形態に係る異常検知装置１０による異常検知手法を欠損のないデータセットに対して適用し実験を行った場合の結果を以下の表２に示す。

上記の表２に示すように、欠損のないデータセットを用いた場合であっても、全データセットでの平均、最大精度になるデータセット数、統計的に最大精度となり得るデータセット数のいずれにおいてもProposedが他の異常検知手法を上回っていることがわかる。

＜ハードウェア構成＞
最後に、本実施形態に係る異常検知装置１０のハードウェア構成について、図５を参照しながら説明する。図５は、本実施形態に係る異常検知装置１０のハードウェア構成の一例を示す図である。

図５に示すように、本実施形態に係る異常検知装置１０は一般的なコンピュータ又はコンピュータシステムで実現され、入力装置２０１と、表示装置２０２と、外部Ｉ／Ｆ２０３と、通信Ｉ／Ｆ２０４と、プロセッサ２０５と、メモリ装置２０６とを有する。これら各ハードウェアは、それぞれがバス２０７を介して通信可能に接続されている。

入力装置２０１は、例えば、キーボードやマウス、タッチパネル等である。表示装置２０２は、例えば、ディスプレイ等である。なお、異常検知装置１０は、入力装置２０１及び表示装置２０２のうちの少なくとも一方を有していなくてもよい。

外部Ｉ／Ｆ２０３は、記録媒体２０３ａ等の外部装置とのインタフェースである。異常検知装置１０は、外部Ｉ／Ｆ２０３を介して、記録媒体２０３ａの読み取りや書き込み等を行うことができる。記録媒体２０３ａには、例えば、異常検知装置１０が有する各機能部（入力部１０１、演算部１０２、学習部１０３、異常検知部１０５及び出力部１０６）を実現する１以上のプログラムが格納されていてもよい。なお、記録媒体２０３ａには、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等がある。

通信Ｉ／Ｆ２０４は、異常検知装置１０を通信ネットワークに接続するためのインタフェースである。なお、異常検知装置１０が有する各機能部を実現する１以上のプログラムは、通信Ｉ／Ｆ２０４を介して、所定のサーバ装置等から取得（ダウンロード）されてもよい。

プロセッサ２０５は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等の各種演算装置である。異常検知装置１０が有する各機能部は、例えば、メモリ装置２０６に格納されている１以上のプログラムがプロセッサ２０５に実行させる処理により実現される。

メモリ装置２０６は、例えば、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ等の各種記憶装置である。異常検知装置１０が有する記憶部１０４は、例えば、メモリ装置２０６を用いて実現可能である。なお、記憶部１０４は、例えば、異常検知装置１０と通信ネットワークを介して接続される記憶装置（例えば、データベースサーバ等）を用いて実現されていてもよい。

本実施形態に係る異常検知装置１０は、図５に示すハードウェア構成を有することにより、上述した学習処理や異常検知処理を実現することができる。なお、図５に示すハードウェア構成は一例であって、異常検知装置１０は、他のハードウェア構成を有していてもよい。例えば、異常検知装置１０は、複数のプロセッサ２０５を有していてもよいし、複数のメモリ装置２０６を有していてもよい。

本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。

１０異常検知装置
１０１入力部
１０２演算部
１０３学習部
１０４記憶部
１０５異常検知部
１０６出力部
１１１エンコード部
１１２デコード部
２０１入力装置
２０２表示装置
２０３外部Ｉ／Ｆ
２０３ａ記録媒体
２０４通信Ｉ／Ｆ
２０５プロセッサ
２０６メモリ装置
２０７バス

Claims

欠損していない属性の値を表す属性値と前記欠損していない属性のインデックスを表す第１の属性情報との組で構成される集合を表すデータのデータセットを入力する入力部と、
前記属性のインデックスを表す第２の属性情報が埋め込まれた埋め込みベクトルが含まれるパラメータを用いて、前記属性値と前記埋め込みベクトルとを組み合わせたベクトルの集合から、前記属性値に対応する予測値を算出する演算部と、
前記属性値と、前記属性値に対応する予測値との差を最小化するように、所定の最適化手法により前記パラメータを更新する学習部と、
を有し、
前記演算部には、
前記組み合わせたベクトルの集合を入力として、前記データの特徴を表す特徴ベクトルの集合を生成するエンコード部と、
前記特徴ベクトルの集合を入力として、前記属性値を復元した予測値の集合を生成するデコード部と、が含まれる、ことを特徴とする学習装置。
前記エンコード部及び前記デコード部は、それぞれ、集合に対する深層学習モデルで実現され、
前記パラメータは、前記集合に対する深層学習モデルのパラメータである、ことを特徴とする請求項１に記載の学習装置。
前記集合に対する深層学習モデルは、属性間の関係性を学習可能なアテンション機構を用いたモデルである、ことを特徴とする請求項２に記載の学習装置。
欠損していない属性の値を表す属性値と前記欠損していない属性のインデックスを表す第１の属性情報との組で構成される集合を表すデータを入力する入力部と、
集合に対する深層学習モデルの学習済みパラメータであって、前記属性のインデックスを表す第２の属性情報が埋め込まれた埋め込みベクトルが含まれるパラメータを用いて、前記属性値と前記埋め込みベクトルとを組み合わせたベクトルの集合から、前記属性値に対応する予測値を算出する演算部と、
前記属性値と、前記属性値に対応する予測値との差を用いて、前記データの異常度を算出する異常度算出部と、
前記異常度が所定の閾値を超えているか否かにより、前記データが異常データ又は正常データのいずれであるかを判定する判定部と、
を有し、
前記演算部には、
前記組み合わせたベクトルの集合を入力として、前記データの特徴を表す特徴ベクトルを生成するエンコード部と、
前記特徴ベクトルを入力として、前記属性値を復元した予測値の集合を生成するデコード部と、が含まれる、ことを特徴とする異常検知装置。
欠損していない属性の値を表す属性値と前記欠損していない属性のインデックスを表す第１の属性情報との組で構成される集合を表すデータのデータセットを入力する入力手順と、
前記属性のインデックスを表す第２の属性情報が埋め込まれた埋め込みベクトルが含まれるパラメータを用いて、前記属性値と前記埋め込みベクトルとを組み合わせたベクトルの集合から、前記属性値に対応する予測値を算出する演算手順と、
前記属性値と、前記属性値に対応する予測値との差を最小化するように、所定の最適化手法により前記パラメータを更新する学習手順と、
をコンピュータが実行し、
前記演算手順には、
前記組み合わせたベクトルの集合を入力として、前記データの特徴を表す特徴ベクトルの集合を生成するエンコード手順と、
前記特徴ベクトルの集合を入力として、前記属性値を復元した予測値の集合を生成するデコード手順と、が含まれる、ことを特徴とする学習方法。
欠損していない属性の値を表す属性値と前記欠損していない属性のインデックスを表す第１の属性情報との組で構成される集合を表すデータを入力する入力手順と、
集合に対する深層学習モデルの学習済みパラメータであって、前記属性のインデックスを表す第２の属性情報が埋め込まれた埋め込みベクトルが含まれるパラメータを用いて、前記属性値と前記埋め込みベクトルとを組み合わせたベクトルの集合から、前記属性値に対応する予測値を算出する演算手順と、
前記属性値と、前記属性値に対応する予測値との差を用いて、前記データの異常度を算出する異常度算出手順と、
前記異常度が所定の閾値を超えているか否かにより、前記データが異常データ又は正常データのいずれであるかを判定する判定手順と、
をコンピュータが実行し、
前記演算手順には、
前記組み合わせたベクトルの集合を入力として、前記データの特徴を表す特徴ベクトルを生成するエンコード手順と、
前記特徴ベクトルを入力として、前記属性値を復元した予測値の集合を生成するデコード手順と、が含まれる、ことを特徴とする異常検知方法。