JP7165830B2

JP7165830B2 - 異常判定システム、異常判定方法及びプログラム

Info

Publication number: JP7165830B2
Application number: JP2021543457A
Authority: JP
Inventors: ディネシュドルタニ; ブリューノアンドレシャロン
Original assignee: Rakuten Group Inc
Current assignee: Rakuten Group Inc
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2022-11-04
Anticipated expiration: 2040-09-29
Also published as: TW202213140A; EP4006760A4; TWI824261B; EP4006760B1; WO2022070278A1; US20220311790A1; JPWO2022070278A1; JP2022097617A; EP4006760A1

Description

本発明は、異常判定システム、異常判定方法及びプログラムに関する。

近年、コンピュータリソースに対するユーザの行動を分析するＵＥＢＡ（User and Entity Behavior Analytics）技術が注目されてきている。ＵＥＢＡ技術を用いることで、例えば、悪意のあるハッカーによるサイバー攻撃や、悪意のある従業員によるデータ漏洩等の内部脅威などを検出することができる。

このようなＵＥＢＡ技術の一例として、特許文献１には、ネットワークを介したアクセスの正当性を判別するアクセス分析システムが記載されている。特許文献１に記載の技術では、ネットワークを介したアクセスに関するユーザによる端末の操作の特徴に基づくユーザの正当性の分析結果と、通信の正常性の分析結果と、に基づいて、ネットワークを介したアクセスの正当性が判別される。

また、非特許文献１には、複数のユーザ、及び、複数のプロトコルについての、毎分における当該ユーザの当該プロトコルでのアクセス頻度を可視化したヒートマップをＣＮＮ（Convolutional Neural Network）に学習させることが示されている。また、非特許文献１には、ヒートマップの入力に応じた学習済の当該ＣＮＮからの出力に基づいて、ユーザの行動における異常の発生を検出することが示されている。

特開２０１９－１４４６９３号公報

Jisheng Wang、"Deep Learning In Security ‐ An Empirical Example in User & Entity Behavior Analytics (UEBA)"、[online]、平成２９年６月１３日、Databricks、［令和２年９月２３日検索］、インターネット <URL ： https://www.youtube.com/watch?v=aAhAJFk1OVc&t=19s＞

ユーザが日々コンピュータリソースを使っている中で、ユーザの行動が次第にゆるやかに変化することは自然に起こり得る。

しかし、非特許文献１に記載の技術では、学習済のＣＮＮからの単発の出力に基づいてユーザの行動における異常が発生したか否かが判定されている。そして、この判定において、ユーザの行動の急激な変化によって当該出力が生じたのか、ユーザの行動が次第にゆるやかに変化した結果として最終的に当該出力に至ったのかは考慮されない。

そのため、非特許文献１に記載の技術では、ユーザの行動が次第にゆるやかに変化した状況であるにも関わらず、ユーザの行動における異常が発生したと誤って判定されるおそれがある。なお、特許文献１に記載の技術を用いてもこの課題は解決できない。

本発明は上記課題に鑑みてなされたものであって、その目的の１つは、ユーザの行動における異常の発生を的確に判定できる異常判定システム、異常判定方法及びプログラムを提供することにある。

本発明に係る異常判定システムは、複数の期間のそれぞれについて、当該期間における所与のコンピュータリソースに対するユーザの行動のログを示すログデータに基づいて、当該ログデータに対応付けられる、当該期間における入力データを生成する入力データ生成手段と、学習済モデルに前記入力データを入力した際の当該学習済モデルからの出力に基づいて、当該入力データに対応付けられる前記ログデータが前記ユーザの行動のログを示すものである確率の確率値を示すユーザ確率データを生成するユーザ確率データ生成手段と、最新の期間における前記入力データに基づいて生成される前記ユーザ確率データと、当該期間よりも前の期間における前記入力データに基づいて生成される前記ユーザ確率データと、に基づいて、当該最新の期間における前記ユーザの行動において異常が発生したか否かを判定する異常判定手段と、を含む。

本発明の一態様では、前記異常判定手段は、前記最新の期間についての前記ユーザ確率データが示す確率値と、当該期間の直前の期間についての前記ユーザ確率データが示す確率値、との差が、所定の閾値よりも大きいか否かに基づいて、前記ユーザの行動における異常が発生したか否かを判定する。

あるいは、前記異常判定手段は、前記最新の期間についての前記ユーザ確率データが示す確率値と、当該期間よりも前の所定数の期間についての前記ユーザ確率データが示す確率値の代表値と、に基づいて、前記ユーザの行動における異常が発生したか否かを判定する。

この態様では、前記異常判定手段は、前記最新の期間についての前記ユーザ確率データが示す確率値と、前記代表値と、の差が、所定の閾値よりも大きいか否かに基づいて、前記ユーザの行動における異常が発生したか否かを判定してもよい。

また、本発明の一態様では、当該期間における前記ログデータに基づいて、当該期間における前記ユーザの行動の統計を示す統計データを生成する統計データ生成手段と、当該期間までの複数の前記期間における前記統計データが含まれる、当該期間における時系列入力データを生成する時系列入力データ生成手段と、をさらに含み、前記入力データ生成手段は、当該期間における前記時系列入力データが含まれる、当該期間における前記入力データを生成する。

この態様では、前記統計データ生成手段は、少なくとも１つの所与のＵＲＬのそれぞれについての当該期間におけるアクセス回数を示すアクセス頻度データ、前記コンピュータリソースに対する当該期間における最初のアクセス時刻を示す最初アクセス時刻データ、前記コンピュータリソースに対する当該期間における最終のアクセス時刻を示す最終アクセス時刻データ、前記コンピュータリソースに対する当該期間におけるアクセス期間を示すアクセス期間データ、前記コンピュータリソースへの当該期間における総アップロードデータサイズを示す総アップロードデータサイズデータ、又は、前記コンピュータリソースからの当該期間における総ダウンロードデータサイズを示す総ダウンロードデータサイズデータ、のうちの少なくとも１つを示す前記統計データを生成してもよい。

また、前記入力データ生成手段は、当該期間における前記ログデータに基づいて生成される、当該ログデータが示すユーザの行動を可視化した入力画像がさらに含まれる、当該期間における前記入力データを生成する。

この態様では、前記入力画像は、所与のアプリケーション又は所与のプロトコルのうちの少なくとも一方についての前記ユーザの使用状況を可視化した画像であってもよい。

さらに、前記入力画像は、１日における毎分の前記使用状況を可視化したヒートマップであってもよい。

さらに、前記入力画像は、縦又は横の一方の軸で毎時の前記使用状況が表現され、他方の軸で当該時における毎分の前記使用状況が表現された前記ヒートマップであってもよい。

また、前記学習済モデルは、学習済の第１のニューラルネットワークと、学習済の第２のニューラルネットワークと、を含み、前記ユーザ確率データ生成手段は、前記学習済の第１のニューラルネットワークに前記入力画像を入力するとともに、前記学習済の第２のニューラルネットワークに前記時系列入力データを入力した際の、前記学習済モデルからの出力に基づいて、前記ユーザ確率データを生成してもよい。

この態様では、前記第１のニューラルネットワークは、畳み込みニューラルネットワークであってもよい。

また、前記第２のニューラルネットワークは、再帰的ニューラルネットワーク（ＲＮＮ）であってもよい。

また、本発明の一態様では、前記ユーザの行動における異常が発生したと判定された際に当該ユーザに関するアラートを生成するアラート生成手段、をさらに含む。

また、本発明の一態様では、前記ユーザの行動における異常が発生したと判定された際に通知を行う通知手段、をさらに含む。

また、本発明に係る異常判定方法は、複数の期間のそれぞれについて、当該期間における所与のコンピュータリソースに対するユーザの行動のログを示すログデータに基づいて、当該ログデータに対応付けられる、当該期間における入力データを生成するステップと、学習済モデルに前記入力データを入力した際の当該学習済モデルからの出力に基づいて、当該入力データに対応付けられる前記ログデータが前記ユーザの行動のログを示すものである確率の確率値を示すユーザ確率データを生成するステップと、最新の期間における前記入力データに基づいて生成される前記ユーザ確率データと、当該期間よりも前の期間における前記入力データに基づいて生成される前記ユーザ確率データと、に基づいて、当該最新の期間における前記ユーザの行動において異常が発生したか否かを判定するステップと、を含む。

また、本発明に係るプログラムは、複数の期間のそれぞれについて、当該期間における所与のコンピュータリソースに対するユーザの行動のログを示すログデータに基づいて、当該ログデータに対応付けられる、当該期間における入力データを生成する手順、学習済モデルに前記入力データを入力した際の当該学習済モデルからの出力に基づいて、当該入力データに対応付けられる前記ログデータが前記ユーザの行動のログを示すものである確率の確率値を示すユーザ確率データを生成する手順、最新の期間における前記入力データに基づいて生成される前記ユーザ確率データと、当該期間よりも前の期間における前記入力データに基づいて生成される前記ユーザ確率データと、に基づいて、当該最新の期間における前記ユーザの行動において異常が発生したか否かを判定する手順、をコンピュータに実行させる。

本発明の一実施形態に係る異常判定システムの全体構成の一例を示す図である。機械学習モデルの一例を示す図である。本発明の一実施形態に係る異常判定システムの機能の一例を示す機能ブロック図である。統計データのデータ構造の一例を示す図である。時系列入力データのデータ構造の一例を示す図である。入力画像群のデータ構造の一例を示す図である。入力画像の一例を模式的に示す図である。訓練データのデータ構造の一例を示す図である。ユーザ確率データの一例を示す図である。本発明の一実施形態に係る異常判定システムで行われる学習処理の流れの一例を示すフロー図である。本発明の一実施形態に係る異常判定システムで行われる異常判定処理の流れの一例を示すフロー図である。

以下、本発明の一実施形態について図面に基づき詳細に説明する。

図１は、本発明の一実施形態に係る異常判定システム１の全体構成の一例を示す図である。図１に示すように、本実施形態に係る異常判定システム１は、例えば、サーバコンピュータやパーソナルコンピュータなどのコンピュータであり、プロセッサ１０、記憶部１２、通信部１４、操作部１６、及び、出力部１８を含む。なお、本実施形態に係る異常判定システム１に、複数台のコンピュータが含まれていてもよい。

プロセッサ１０は、例えば、異常判定システム１にインストールされるプログラムに従って動作するマイクロプロセッサ等のプログラム制御デバイスである。記憶部１２は、例えばＲＯＭやＲＡＭ等の記憶素子や、ソリッドステートドライブ（ＳＳＤ）などである。記憶部１２には、プロセッサ１０によって実行されるプログラムなどが記憶される。通信部１４は、例えば、有線通信又は無線通信用の通信インタフェースであり、インターネット等のコンピュータネットワークを介して、他のコンピュータや端末との間でデータを授受する。

操作部１６は、入力デバイスであり、例えば、タッチパネルやマウス等のポインティングデバイスやキーボード等を含む。操作部１６は、操作内容をプロセッサ１０に伝達する。出力部１８は、例えば、液晶表示部又は有機ＥＬ表示部等のディスプレイや、スピーカ等の音声出力デバイス等の出力デバイスである。

なお、記憶部１２に記憶されるものとして説明するプログラム及びデータは、ネットワークを介して他のコンピュータから供給されるようにしてもよい。また、異常判定システム１のハードウェア構成は、上記の例に限られず、種々のハードウェアを適用可能である。例えば、異常判定システム１に、コンピュータ読み取り可能な情報記憶媒体を読み取る読取部（例えば、光ディスクドライブやメモリカードスロット）や外部機器とデータの入出力をするための入出力部（例えば、ＵＳＢポート）が含まれていてもよい。例えば、情報記憶媒体に記憶されたプログラムやデータが読取部や入出力部を介して異常判定システム１に供給されるようにしてもよい。

本実施形態では例えば、様々なユーザが、ユーザ端末を用いて、社内ネットワーク内のファイルサーバなどの所与のコンピュータリソースに対するアクセス等の行動を行う。ここで、ユーザ端末の例としては、パーソナルコンピュータ、携帯電話、スマートフォン、タブレット端末、サーバなどが挙げられる。

そして、所与のコンピュータリソースに対するアクセスログなどといった、所与のコンピュータリソースに対するユーザの行動のログを示すログデータが、例えば、ネットワークファイヤウォールに記録される。そして、本実施形態では、異常判定システム１が、通信部１４を介してネットワークファイヤウォールにアクセスして、ネットワークファイヤウォールに記録されているログデータを収集する。

ここで、異常判定システム１にインストールされた、ＣＲＯＷＤＳＴＲＩＫＥ（登録商標）などのソフトウェアやユーザエージェントを使用して、ログデータの収集が行われてもよい。

なお本実施形態では、異常判定システム１にインストールされた、テキスト解析スクリプトなどの既存のプログラムを用いることで、各ログデータについて、当該ログデータがどの日時のどのユーザの行動を示すものであるのかを特定可能であることとする。

また、本実施形態に係る各ユーザには、予め、識別情報（ユーザＩＤ）が割り当てられていることとする。すなわち、本実施形態では、ログデータに基づいて、当該ログデータに示されている行動を行ったユーザのユーザＩＤ及び当該行動の行動日時が特定できることとする。

そして本実施形態では例えば、図２に示す機械学習モデル２０を用いて、収集されたログデータに基づいて、ユーザの行動において異常が発生したか否かが判定される。図２に示すように、本実施形態に係る機械学習モデル２０には、畳み込みニューラルネットワーク（ＣＮＮ）２２、長・短期記憶（ＬＳＴＭ）２４、及び、順伝播型ニューラルネットワーク（ＦＦＮＮ）２６が含まれている。そして、ユーザの行動において異常が発生したと判定された際に、例えば、当該ユーザに関するアラートが生成される。

また、本実施形態では上述の判定を行うにあたって、事前に、機械学習モデル２０のマルチモーダル学習が行われる。そして、学習済の機械学習モデル２０（学習済モデル）を用いて、ユーザの行動において異常が発生したか否かが判定される。

以下、本実施形態に係る異常判定システム１の機能、及び、異常判定システム１で実行される処理についてさらに説明する。

図３は、本実施形態に係る異常判定システム１で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係る異常判定システム１で、図３に示す機能のすべてが実装される必要はなく、また、図３に示す機能以外の機能が実装されていても構わない。

図３に示すように、本実施形態に係る異常判定システム１には、機能的には例えば、機械学習モデル２０、ログ記憶部３０、ログ分類部３２、統計データ生成部３４、統計データ記憶部３６、時系列入力データ生成部３８、入力画像生成部４０、入力データ生成部４２、訓練データ記憶部４４、学習部４６、ユーザ確率データ生成部４８、ユーザ確率データ記憶部５０、異常判定部５２、アラート生成部５４、が含まれる。

機械学習モデル２０は、プロセッサ１０及び記憶部１２を主として実装される。ログ記憶部３０、統計データ記憶部３６、訓練データ記憶部４４、ユーザ確率データ記憶部５０は、記憶部１２を主として実装される。ログ分類部３２、統計データ生成部３４、時系列入力データ生成部３８、入力画像生成部４０、入力データ生成部４２、学習部４６、ユーザ確率データ生成部４８、異常判定部５２は、プロセッサ１０を主として実装される。アラート生成部５４は、プロセッサ１０、記憶部１２、出力部１８を主として実装される。

上述のように、本実施形態では、ユーザの行動において異常が発生したか否かの判定を行うにあたって、事前に、機械学習モデル２０の学習が実行される。機械学習モデル２０、ログ記憶部３０、ログ分類部３２、統計データ生成部３４、統計データ記憶部３６、時系列入力データ生成部３８、入力画像生成部４０、入力データ生成部４２、訓練データ記憶部４４、及び、学習部４６が、機械学習モデル２０の学習に係る機能に相当する。

そして、機械学習モデル２０、ログ記憶部３０、ログ分類部３２、統計データ生成部３４、統計データ記憶部３６、時系列入力データ生成部３８、入力画像生成部４０、入力データ生成部４２、ユーザ確率データ生成部４８、ユーザ確率データ記憶部５０、異常判定部５２、アラート生成部５４が、学習済の機械学習モデル２０（学習済モデル）を用いた異常判定に係る機能に相当する。

以上の機能は、コンピュータである異常判定システム１にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ１０で実行することにより実装されてもよい。また、このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して異常判定システム１に供給されてもよい。

機械学習モデル２０は、本実施形態では例えば、図２に示すように、ＣＮＮ２２、ＬＳＴＭ２４、及び、ＦＦＮＮ２６を含む機械学習モデルである。

図２に示すように、本実施形態では例えば、ログデータに基づいて生成される後述の入力画像群が、ＣＮＮ２２に入力されるとともに、当該ログデータに基づいて生成される後述の時系列入力データがＬＳＴＭ２４に入力される。

そして、ＣＮＮ２２からの出力である第１特徴量データと、ＬＳＴＭ２４からの出力である第２特徴量データと、を結合した結合特徴量データが生成される。そして、結合特徴量データが、ＦＦＮＮ２６に入力される。

ＦＦＮＮ２６の出力層の活性化関数としては、ソフトマックス関数が実装されており、結合特徴量データの入力に応じたＦＦＮＮ２６からの出力をユーザ確率ベクトルと呼ぶこととする。ユーザ確率ベクトルは、異常判定の対象であるユーザ数と同じ数の要素を持つベクトルである。各要素は、予めユーザＩＤに対応付けられている。そして、各要素には、当該ログデータが当該要素に対応付けられるユーザの行動のログを示すものである確率を示す０以上１以下の値をとる確率値が設定される。

以下、機械学習モデル２０の学習に係る機能について説明する。

ログ記憶部３０は、本実施形態では、ネットワークファイヤウォールから収集されたログデータを複数記憶する。

ログ分類部３２は、本実施形態では例えば、ログ記憶部３０に記憶されている複数のログデータを、ユーザごと、及び、行動日毎に分類する。ログ分類部３２は、例えば、各ログデータについて、当該ログデータに示されている行動を行ったユーザのユーザＩＤ及び当該行動の行動日を特定する。そして、ログ分類部３２は、例えば、当該ログデータに、特定されたユーザＩＤ、及び、特定された行動日を示す行動日データを関連付ける。

統計データ生成部３４は、本実施形態では例えば、複数のユーザのそれぞれについて、所定の期間（例えば、１日）における当該ユーザの行動を示すログデータに基づいて、当該期間における当該ユーザの行動の統計を示す統計データを生成する。

図４は、統計データのデータ構造の一例を示す図である。図４に示すように、統計データには、例えば、複数のアクセス頻度データ（図４の例では、第１アクセス頻度データ～第５００アクセス頻度データ）、最初アクセス時刻データ、最終アクセスデータ、アクセス期間データ、総アップロードデータサイズデータ、総ダウンロードデータサイズデータ、が含まれる。

アクセス頻度データは、例えば、少なくとも１つの所与のＵＲＬのそれぞれについての当該期間におけるアクセス回数を示すデータである。ここでは例えば、一般的にアクセスされる所与のＵＲＬが５００個予め定められており、それぞれのＵＲＬに対するアクセス回数を示すアクセス頻度データが生成される。その結果、生成される統計データには、５００個のアクセス頻度データが含まれることとなる。

最初アクセス時刻データは、例えば、当該ユーザによる、所与のコンピュータリソースに対する当該期間（例えば当該日）における最初のアクセス時刻を示すデータである。

最終アクセス時刻データは、例えば、当該ユーザによる、所与のコンピュータリソースに対する当該期間（例えば当該日）における最終のアクセス時刻を示すデータである。

アクセス期間データは、例えば、当該ユーザによる、所与のコンピュータリソースに対する当該期間（例えば当該日）におけるアクセス期間を示すデータである。アクセス期間データには、例えば、所与のコンピュータリソースに対して当該期間において当該ユーザが最初にアクセスした時刻（最初のアクセス時刻）から最後にアクセスした時刻（最終のアクセス時刻）までの期間が示される。

総アップロードデータサイズデータは、例えば、当該ユーザによる、所与のコンピュータリソースへの当該期間（例えば当該日）における総アップロードデータサイズを示すデータである。

総ダウンロードデータサイズデータは、例えば、当該ユーザによる、所与のコンピュータリソースからの当該期間（例えば当該日）における総ダウンロードデータサイズを示すデータである。

統計データ生成部３４は、例えば、あるユーザＩＤとある行動日を示す行動日データとの組合せに関連付けられた少なくとも１つのログデータを特定する。そして、統計データ生成部３４は、例えば、特定されたログデータに基づいて、統計データを生成する。そして、統計データ生成部３４は、例えば、生成された統計データに、当該ユーザＩＤ及び当該行動日データを関連付ける。そして、統計データ生成部３４は、例えば、ユーザＩＤ及び行動日データが関連付けられた統計データを、統計データ記憶部３６に記憶させる。

統計データ記憶部３６は、本実施形態では例えば、統計データ生成部３４が生成する統計データを記憶する。

時系列入力データ生成部３８は、本実施形態では例えば、統計データ記憶部３６に記憶されている統計データに基づいて、当該期間までの複数の期間における統計データが含まれる、当該期間における時系列入力データを生成する。ここでは例えば、３～５個の連続する期間における統計データが含まれる時系列入力データが生成される。図５は、時系列入力データのデータ構造の一例を示す図である。ここでは一例として、３日間についてのユーザの行動の統計を示す時系列入力データが生成されることとする。

時系列入力データ生成部３８は、本実施形態では例えば、あるユーザＩＤとある行動日を示す行動日データとの組合せに関連付けられた統計データを特定する。このようにして特定される統計データを当日統計データと呼ぶこととする。

そして、時系列入力データ生成部３８は、例えば、当該ユーザＩＤと当日統計データに対応付けられる行動日の前日を示す行動日データとの組合せに関連付けられた統計データを特定する。このようにして特定される統計データを１日前統計データと呼ぶこととする。

そして、時系列入力データ生成部３８は、例えば、当該ユーザＩＤと１日前統計データに対応付けられる行動日の前日を示す行動日データとの組合せに関連付けられた統計データを特定する。このようにして特定される統計データを２日前統計データと呼ぶこととする。

そして、時系列入力データ生成部３８は、例えば、特定された２日前統計データ、特定された１日前統計データ、及び、特定された当日統計データ、を含む時系列入力データを生成する。そして、時系列入力データ生成部３８は、生成された時系列入力データに、当該ユーザＩＤ及び当該時系列入力データに含まれる当日統計データに対応付けられる行動日を示す行動日データを関連付ける。

入力画像生成部４０は、本実施形態では例えば、所定の期間（例えば、１日）におけるあるユーザのログデータに基づいて、当該ログデータが示すユーザの行動を可視化した入力画像を生成する。ここで、入力画像生成部４０は、所与のアプリケーション又は所与のプロトコルのうちの少なくとも一方についてのユーザの使用状況（例えば、使用回数やアクセス回数）を可視化した画像である入力画像を生成してもよい。

なお、本実施形態では、ネットワークファイヤウォールによって、使用されたアプリケーションやプロトコルを示すラベルがログデータに付与される。そのため本実施形態では、当該ラベルに基づいて、入力画像を生成できるようになっている。ここで、ラベルが付与されていない（すなわち、ネットワークファイヤウォールで分類不能な）ログデータに基づいて、「その他」に相当する入力画像が生成されるようにしてもよい。

また、入力画像生成部４０は、複数のアプリケーションやプロトコルについて、当該アプリケーション、又は、当該プロトコルの使用状況を可視化した入力画像を生成してもよい。そして、入力画像生成部４０は、それぞれ互いに異なる複数のアプリケーションやプロトコルについて生成された入力画像を含む、図６にデータ構造が示されている入力画像群を生成してもよい。図６に示すように、生成される入力画像群には、ｎ個のアプリケーションやプロトコルについてそれぞれ生成された、ｎ個の入力画像が含まれる。また、入力画像群における入力画像に対応付けられるアプリケーション又はプロトコルの順序は予め定められていることとする。

入力画像生成部４０は、本実施形態では例えば、あるユーザＩＤとある行動日を示す行動日データとの組合せに関連付けられたログデータを特定する。そして、入力画像生成部４０は、これらのログデータに基づいて、所定の複数のアプリケーションやプロトコルについての使用状況を特定する。そして、入力画像生成部４０は、特定された使用状況に基づいて、入力画像群を生成する。そして、入力画像生成部４０は、生成された入力画像群に、当該ユーザＩＤ及び当該行動日データを関連付ける。

ここで、入力画像に使用状況が示されるアプリケーションの例としては、ＭｉｃｒｏｓｏｆｔＴｅａｍｓ（登録商標）等のチャットアプリケーション、ＭｉｃｒｏｓｏｆｔＯｕｔｌｏｏｋ（登録商標）等のメールアプリケーション、Ｍｉｃｒｏｓｏｆｔ（登録商標）Ｕｐｄａｔｅ、Ｓｈａｒｅｐｏｉｎｔ（登録商標）、Ｓｌａｃｋ（登録商標）、Ｄｒｏｐｂｏｘ（登録商標）、Ｖｉｂｅｒ（登録商標）、などが挙げられる。

また、入力画像に使用状況が示されるプロトコルの例としては、ＳＳＬ(ＳｅｃｕｒｅＳｏｃｋｅｔｓＬａｙｅｒ)、ＤＮＳ（ＤｏｍａｉｎＮａｍｅＳｙｓｔｅｍ）、ＨＴＴＰ（ＨｙｐｅｒＴｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ）、ＳＭＴＰ（ＳｉｍｐｌｅＭａｉｌＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ）などが挙げられる。

図７は、本実施形態に係る入力画像の一例を模式的に示す図である。図７に例示されている入力画像は、特定のアプリケーション若しくは特定のプロトコルについての、１日における毎分の使用状況を可視化したヒートマップである。

図７に示す入力画像には、縦２４×横６０の計１４４０個の小画像が含まれている。なお、小画像は、１画素からなる画像（すなわち画素）であってもよい。また、各小画像の大きさや形状は同じであってもよい。それぞれの小画像は、１分に対応付けられる。例えば、入力画像に含まれる最も左上の小画像は、０時０分に対応付けられ、上から７番目であり左から１１番目である小画像は、６時１０分に対応付けられる。このように、本実施形態に係る入力画像が、縦又は横の一方の軸で毎時の使用状況が表現され、他方の軸で当該時における毎分の使用状況が表現されたヒートマップであってもよい。

なお、入力画像において、縦の軸で毎時の使用状況が表現され、横の軸で当該時における毎分の使用状況が表現される必要はなく、横の軸で毎時の使用状況が表現され、縦の軸で当該時における毎分の使用状況が表現されてもよい。

そして、当該小画像の画素値は、当該小画像に対応付けられる１分における使用状況に対応するものとなっている。ここでは例えば、使用状況が高い１分に対応する小画像であるほど当該小画像の色は黒に近いものとなっており、使用状況が低い１分に対応する小画像であるほど当該小画像の色は白に近いものとなっている。なお、入力画像はモノクロの画像であってもよいし、カラーの画像であってもよい。入力画像がカラーの画像である場合、小画像の濃淡ではなく小画像の色が、使用状況に対応するものとなっていてもよい。

入力データ生成部４２は、本実施形態では例えば、複数の期間のそれぞれについて、当該期間におけるログデータに基づいて、当該ログデータに対応付けられる、当該期間における訓練データを生成する。

図８は、機械学習モデル２０の学習の際に生成される訓練データのデータ構造の一例を示す図である。本実施形態では例えば、ユーザＩＤと行動日との組合せにそれぞれ対応付けられる訓練データが複数生成される。ユーザＩＤと行動日との組合せに対応付けられる訓練データには、例えば、当該ユーザＩＤ、当該行動日を示す行動日データ、及び、入力データが含まれる。そして、入力データには、当該ユーザＩＤと当該行動日データとに関連付けられている入力画像群、及び、当該ユーザＩＤと当該行動日データとに関連付けられている時系列入力データが含まれる。

機械学習モデル２０の学習の際には、入力データ生成部４２は、生成された訓練データを訓練データ記憶部４４に記憶させる。

本実施形態では例えば、様々なユーザＩＤと様々な行動日とに関連付けられた多くの訓練データが訓練データ記憶部４４に記憶されることとなる。

学習部４６は、本実施形態では例えば、訓練データ記憶部４４に記憶されている訓練データを用いて、機械学習モデル２０の学習を実行する。

学習部４６は、例えば、訓練データに含まれる入力画像群をＣＮＮ２２に入力するとともに、当該訓練データに含まれる時系列入力データをＬＳＴＭ２４に入力する。

そして、学習部４６は、当該入力画像群の入力に応じたＣＮＮ２２からの出力である第１特徴量データと、当該時系列入力データの入力に応じたＬＳＴＭ２４からの出力である第２特徴量データを結合した結合特徴量データを生成する。

そして、学習部４６は、結合特徴量データをＦＦＮＮ２６に入力する。

そして、学習部４６は、当該訓練データに含まれるユーザＩＤに対応付けられる教師ベクトルを生成する。教師ベクトルは、ユーザ確率ベクトルと同じ数の要素を持つベクトルである。そして、当該訓練データに含まれるユーザＩＤに対応付けられる要素には値１が設定され、他の要素には値０が設定された教師ベクトルが生成される。

そして、学習部４６は、例えば、結合特徴量データの入力に応じたＦＦＮＮ２６からの出力であるユーザ確率ベクトルと生成された教師ベクトルとの差を特定する。そして、学習部４６は、特定された差に対応付けられるロス関数の値が最小となるよう、誤差逆伝搬法により機械学習モデルの各層のパラメータの値を更新する教師あり学習を実行する。

以上の学習を複数の訓練データについて実行することで、本実施形態に係る機械学習モデル２０の学習は実行される。そして、このようにして生成される学習済の機械学習モデル２０には、学習済のＣＮＮ２２と、学習済のＬＳＴＭ２４と、学習済のＦＦＮＮ２６と、が含まれることとなる。

以下、学習済の機械学習モデル２０（学習済モデル）を用いた、ユーザの行動において異常が発生したか否かの判定に係る機能について説明する。

以下の説明では、一例として、ユーザＩＤが０００１であるユーザの行動に異常が発生したか否かについての判定について説明するが、他のユーザについても同様の判定を行うことは当然可能である。

また、本実施形態では、ユーザの行動に異常が発生したか否かについての判定は、複数の判定対象期間（例えば、複数の判定対象日）について、繰り返し行われる。

なお、ログ記憶部３０には、例えば、各判定が行われる際に、当該判定における判定対象日の２日前から判定対象日までにおけるログデータが少なくとも記憶されていることとする。

ログ分類部３２は、ログ記憶部３０に記憶されているログデータのうちから、ユーザＩＤが０００１であるユーザの行動を示すログデータを抽出する。そして、ログ分類部３２は、これらのログデータのうちから、判定対象日の２日前から判定対象日までの行動が示されているログデータを抽出する。

そして、統計データ生成部３４は、判定対象日の２日前から判定対象日までの３日にそれぞれ対応付けられる統計データを生成する。

そして、時系列入力データ生成部３８は、判定対象日の２日前の統計データを２日前統計データとして含み、判定対象日の１日前の統計データを１日前統計データとして含み、判定対象日の統計データを当日統計データとして含む時系列入力データを生成する。

そして、入力画像生成部４０は、判定対象日のログデータに基づいて、入力画像群を生成する。

そして、入力データ生成部４２は、生成された時系列入力データと、生成された入力画像群とを含む、入力データを生成する。

ユーザ確率データ生成部４８は、本実施形態では例えば、学習済モデルに入力データを入力した際の当該学習済モデルからの出力に基づいて、当該入力データに対応付けられるログデータがユーザの行動のログを示すものである確率の確率値を示すユーザ確率データを生成する。

例えば、ユーザ確率データ生成部４８は、生成された入力データに含まれる入力画像群を学習済のＣＮＮ２２に入力するとともに、当該入力データに含まれる時系列入力データを学習済のＬＳＴＭ２４に入力する。

そして、ユーザ確率データ生成部４８は、当該入力画像群の入力に応じたＣＮＮ２２からの出力である第１特徴量データと、当該時系列入力データの入力に応じたＬＳＴＭ２４からの出力である第２特徴量データと、を結合した結合特徴量データを生成する。

そして、ユーザ確率データ生成部４８は、結合特徴量データをＦＦＮＮ２６に入力する。

そして、ユーザ確率データ生成部４８は、例えば、結合特徴量データの入力に応じたＦＦＮＮ２６からの出力であるユーザ確率ベクトルに基づいて、図９に例示されているユーザ確率データを生成する。

ユーザ確率データには、当該ユーザのユーザＩＤ、当該判定対象日を示す行動日データ、ユーザ確率ベクトルにおける当該ユーザに対応付けられる要素の値（確率値）を示す確率値データ、が含まれる。なお、図９に示す確率値データでは、確率値が、０以上１以下の値ではなく、百分率で表現されている。

そして、ユーザ確率データ生成部４８は、生成されたユーザ確率データをユーザ確率データ記憶部５０に記憶させる。

本実施形態では、上述の通り、入力データ生成部４２が、複数の判定対象期間のそれぞれについて、当該判定対象期間におけるログデータに基づいて、当該ログデータに対応付けられる、当該判定対象期間における入力データを生成する。そして、ユーザ確率データ生成部４８は、当該複数の判定対象期間のそれぞれについて、学習済モデルに当該判定対象期間における入力データを入力した際の当該学習済モデルからの出力に基づいて、当該入力データに対応付けられるログデータが当該ユーザの行動のログを示すものである確率の確率値を示すユーザ確率データを生成する。そして、生成されたユーザ確率データはユーザ確率データ記憶部５０に蓄積される。

このようにして、例えば、複数の判定対象期間（例えば複数の判定対象日）のそれぞれについての、当該判定対象期間（例えば当該判定対象日）のログデータに基づいて生成されるユーザ確率データが、ユーザ確率データ記憶部５０に蓄積されていく。

異常判定部５２は、本実施形態では例えば、最新の期間における入力データに基づいて生成されるユーザ確率データと、当該期間よりも前の期間における入力データに基づいて生成されるユーザ確率データと、に基づいて、当該最新の期間における当該ユーザの行動において異常が発生したか否かを判定する。

ここで、異常判定部５２が、最新の期間についてのユーザ確率データが示す確率値と、当該期間の直前の期間についてのユーザ確率データが示す確率値、との差が、所定の閾値よりも大きいか否かに基づいて、当該ユーザの行動における異常が発生したか否かを判定してもよい。

例えば、所定の閾値が１５％であり、最新の期間が２０２０年９月１０日であることとする。この場合、ユーザＩＤが０００１であるユーザについての、２０２０年９月９日のユーザ確率データに含まれる確率値データの値が６０％であるとする。そして、９月１０日のユーザ確率データに含まれる確率値データの値が４０％であるとする。この場合は、ユーザＩＤが０００１であるユーザの２０２０年９月１０日の行動における異常が発生したと判定される。

一方、２０２０年９月９日のユーザ確率データに含まれる確率値データの値が６０％であるとする。そして、９月１０日～９月１３日のユーザ確率データに含まれる確率値データの値が、それぞれ、５５％、５０％、４５％、４０％であるとする。この場合、２０２０年９月１０日～１３日のいずれについても、ユーザＩＤが０００１であるユーザの行動における異常が発生していないと判定される。

また、異常判定部５２は、最新の期間についてのユーザ確率データが示す確率値と、当該期間よりも前の所定数の期間についてのユーザ確率データが示す確率値の代表値と、に基づいて、当該ユーザの行動における異常が発生したか否かを判定してもよい。例えば、最新の期間についてのユーザ確率データが示す確率値と、上述の代表値と、の差が、所定の閾値よりも大きいか否かに基づいて、当該ユーザの行動における異常が発生したか否かが判定されてもよい。

例えば、ここでも、所定の閾値が１５％であることとする。この場合、ユーザＩＤが０００１であるユーザについての、２０２０年９月７日～９日のユーザ確率データに含まれる確率値データの値の平均値が６０％であるとする。そして、９月１０日のユーザ確率データに含まれる確率値データの値が４０％であるとする。この場合は、ユーザＩＤが０００１であるユーザの２０２０年９月１０日の行動における異常が発生したと判定される。

一方、２０２０年９月７日～９日のユーザ確率データに含まれる確率値データの値の平均値が５０％であるとする。そして、９月１０日のユーザ確率データに含まれる確率値データの値が４０％であるとする。この場合は、ユーザＩＤが０００１であるユーザの２０２０年９月１０日の行動における異常が発生していないと判定される。

なお、上述の例では所定数の期間は、３つの期間であるが、当該所定数は３には限定されない。また、上述の例では、平均値に基づいて、当該ユーザの行動における異常が発生したか否かが判定されているが、その他の代表値（最大値、最小値、中央値、最頻値など）に基づいて、当該ユーザの行動における異常が発生したか否かが判定されてもよい。

また、単純移動平均、指数移動平均、減衰移動平均等の様々な統計的手法を用いて、代表値が算出されるようにしてもよい。

また、最新の期間の直前の期間についてのユーザ確率データが示す確率値に基づいて、当該ユーザの行動における異常が発生したか否かが判定される必要はない。例えば、最新の期間のｍ個前の期間からｎ個前の期間までのユーザ確率データに含まれる確率値データの値の代表値に基づいて、当該ユーザの行動における異常が発生したか否かが判定されてもよい。また、確率値の比較において、移動窓（ｍｏｖｉｎｇｗｉｎｄｏｗ）、増加移動窓（ｉｎｃｒｅｓｉｎｇｍｏｖｉｎｇｗｉｎｄｏｗ）、又は、同様の手法が用いられても構わない。

以上の例では、入力画像や時系列入力データの集計単位の期間（例えば１日）と判定間隔の期間（例えば１日）とが一致しているが、集計単位の期間と判定間隔の期間が一致している必要はない。例えば、複数の判定対象期間について、入力画像や時系列入力データの集計期間の少なくとも一部が重複していても構わない。例えば、入力画像や当日統計データは異常判定が行われるタイミングの直近１日のログデータに基づいて生成されるが、異常判定の間隔は、１日より短い期間（例えば１時間）、あるいは、１日より長い期間（例えば、３日）であっても構わない。

アラート生成部５４は、本実施形態では例えば、ユーザの行動における異常が発生したと判定された際に当該ユーザに関するアラートを生成する。例えば、ユーザＩＤが０００１であるユーザの２０２０年９月１０日の行動における異常が発生したと判定された際には、当該ユーザＩＤ、及び、当該行動日（２０２０年９月１０日）を示す行動日データを含むアラートデータが生成されてもよい。そして、アラート生成部５４は、生成されたアラートデータを記憶部１２に記憶させてもよい。

また、アラート生成部５４は、ユーザの行動における異常が発生したと判定された際に通知を行ってもよい。ここで、アラート生成部５４は、例えば、アラートデータが生成された際に、出力部１８を介して、アラートの表示やアラート音の出力などといったその旨の通知を行ってもよい。

ここで、本実施形態に係る異常判定システム１で行われる学習処理の流れの一例を、図１０に例示するフロー図を参照しながら説明する。本処理例では、予め、機械学習モデル２０の学習に用いられるログデータがログ記憶部３０に記憶されていることとする。

まず、ログ分類部３２が、ログ記憶部３０に記憶されているログデータを分類し、各ログデータに、ユーザＩＤ及び行動日データを関連付ける（Ｓ１０１）。

そして、統計データ生成部３４が、Ｓ１０１に示す処理が実行されたログデータに基づいて、それぞれ、ユーザＩＤ及び行動日データに関連付けられている統計データを複数生成して、生成された統計データを統計データ記憶部３６に記憶させる（Ｓ１０２）。

そして、時系列入力データ生成部３８が、Ｓ１０２に示す処理で統計データ記憶部３６に記憶された統計データに基づいて、それぞれ、ユーザＩＤ及び行動日データに関連付けられている時系列入力データを複数生成する（Ｓ１０３）。

そして、入力画像生成部４０が、Ｓ１０１に示す処理が実行されたログデータに基づいて、それぞれ、ユーザＩＤ及び行動日データに関連付けられている入力画像群を複数生成する（Ｓ１０４）。

そして、入力データ生成部４２が、Ｓ１０３に示す処理で生成された時系列入力データと、Ｓ１０４に示す処理で生成された入力画像群と、に基づいて、訓練データを複数生成して、生成された訓練データを訓練データ記憶部４４に記憶させる（Ｓ１０５）。

そして、学習部４６が、訓練データ記憶部４４に記憶されている訓練データのうちから、Ｓ１０７に示す処理が実行されていないものを１つ選択する（Ｓ１０６）。

そして、学習部４６が、Ｓ１０６に示す処理で選択された訓練データを機械学習モデル２０に学習させる学習処理を実行する（Ｓ１０７）。

そして、学習部４６が、訓練データ記憶部４４に記憶されているすべての訓練データについてＳ１０７に示す処理が実行されたか否かを確認する（Ｓ１０８）。

すべての訓練データについてＳ１０７に示す処理が実行されていないことが確認された場合は（Ｓ１０８：Ｎ）、Ｓ１０６に示す処理に戻る。

すべての訓練データについてＳ１０７に示す処理が実行されたことが確認された場合は（Ｓ１０８：Ｙ）、本処理例に示す処理は終了される。

なお、図１０に示されている処理の順序は特に問わない。例えば、Ｓ１０４に示す処理が、Ｓ１０２及びＳ１０３に示す処理の前に実行されてもよい。

次に、本実施形態に係る異常判定システム１で行われる、あるユーザについての異常判定処理の流れの一例を、図１１に例示するフロー図を参照しながら説明する。本処理例では、予め、機械学習モデル２０は学習済であり、最新のユーザ確率データと比較されるユーザ確率データは、既に、ユーザ確率データ記憶部５０に記憶されていることとする。また、本処理例では、ログデータの収集が適宜行われていることとする。

まず、ログ分類部３２は、異常判定を行うタイミングの到来を監視する（Ｓ２０１）。例えば、異常判定を行うタイミングの例としては、毎日の所定の時刻などが挙げられる。

異常判定を行うタイミングが到来すると、ログ分類部３２は、ログ記憶部３０に記憶されているログデータを分類し、各ログデータに、ユーザＩＤ及び行動日データを関連付ける（Ｓ２０２）。ここで、ユーザＩＤ及び行動日データが関連付けられていないログデータについて、ユーザＩＤ及び行動日データが関連付けられるようにしてもよい。あるいは、このタイミングでログ分類部３２が、最新のログデータを収集して、収集されたログデータにユーザＩＤ及び行動日データを関連付けてもよい。

そして、ログ分類部３２が、所定の条件を満足するログデータを抽出する（Ｓ２０３）。ここで例えば、異常判定の対象となるユーザのユーザＩＤ、及び、２日前から当日までのいずれかの行動日を示す行動日データに関連付けられているログデータが抽出される。

そして、統計データ生成部３４が、Ｓ２０３に示す処理で抽出されたログデータに基づいて、３日分の統計データを生成して、生成された統計データを統計データ記憶部３６に記憶させる（Ｓ２０４）。

そして、時系列入力データ生成部３８が、Ｓ２０４に示す処理で統計データ記憶部３６に記憶された統計データに基づいて、ユーザＩＤ及び行動日データに関連付けられている時系列入力データを生成する（Ｓ２０５）。

そして、入力画像生成部４０が、Ｓ２０３に示す処理で抽出されたログデータのうちの、当日を示す行動日データに関連付けられているログデータに基づいて、入力画像群を生成する（Ｓ２０６）。

そして、入力データ生成部４２が、Ｓ２０５に示す処理で生成された時系列入力データと、Ｓ２０６に示す処理で生成された入力画像群とを含む、入力データを生成する（Ｓ２０７）。

そして、ユーザ確率データ生成部４８が、ユーザ確率データを生成し、生成されたユーザ確率データをユーザ確率データ記憶部５０に記憶させる（Ｓ２０８）。Ｓ２０８に示す処理では、例えば、ユーザ確率データ生成部４８が、Ｓ２０７に示す処理で生成された入力データを学習済の機械学習モデル２０に入力する。そして、ユーザ確率データ生成部４８が、当該入力に応じた機械学習モデル２０からの出力であるユーザ確率ベクトルを取得する。そして、ユーザ確率データ生成部４８が、取得されたユーザ確率ベクトルに基づいて、ユーザ確率データを生成する。そして、ユーザ確率データ生成部４８が、生成されたユーザ確率データをユーザ確率データ記憶部５０に記憶させる。

そして、異常判定部５２が、Ｓ２０８に示す処理で新たに生成されたユーザ確率データと、ユーザ確率データ記憶部５０に既に記憶されていたユーザ確率データと、に基づいて、当該ユーザの行動において異常が発生したか否かを判定する（Ｓ２０９）。

そして、アラート生成部５４が、Ｓ２０９に示す処理で異常が発生したと判定されたか否かを確認する（Ｓ２１０）。

異常が発生したと判定された場合は（Ｓ２１０：Ｙ）、アラート生成部５４が、当該ユーザに関するアラートを生成する（Ｓ２１１）。

Ｓ２１１に示す処理が終了した場合、又は、Ｓ２１０に示す処理で異常が発生していないと判定された場合は（Ｓ２１０：Ｎ）、Ｓ２０１に示す処理に戻る。

なお、図１１に示されている処理の順序は特に問わない。例えば、Ｓ２０６に示す処理が、Ｓ２０４及びＳ２０５に示す処理の前に実行されてもよい。

図１１には、あるユーザについての異常判定処理の流れの一例が示されているが、本実施形態では例えば、この異常判定処理が、判定の対象となるすべてのユーザについて同様に実行される。このようにして、本実施形態では、所与のコンピュータリソースを利用する様々なユーザについて、当該ユーザの行動における異常の発生を判定できることとなる。

本実施形態において、例えば、単独のユーザ確率データが示す確率値に基づいて、ユーザの行動において異常が発生したか否かを判定することが考えられる。

しかし、ユーザが日々コンピュータリソースを使っている中で、ユーザの行動が次第にゆるやかに変化することは自然に起こり得る。

そして、単独のユーザ確率データが示す確率値に基づく判定では、ユーザの行動の急激な変化によって当該出力が生じたのか、ユーザの行動が次第にゆるやかに変化した結果として最終的に当該出力に至ったのかは考慮されない。

そのため、ユーザの行動が次第にゆるやかに変化した状況であるにも関わらず、ユーザの行動における異常が発生したと誤って判定されるおそれがある。例えば、ユーザの行動が次第にゆるやかに変化した結果、当該ユーザの確率値が３０％に至ったとする。ここで、例えば、単独のユーザ確率データが示す確率値が５０％未満であれば異常であると判定される場合は、当該ユーザの行動に異常が発生したと誤判定されてしまうおそれがある。一方、本実施形態では、このような状況であれば、異常が発生したとは判定されないため、当該ユーザについての行動の異常を的確に判定できる可能性が高まることとなる。

このようにして、本実施形態によれば、ユーザの行動における異常の発生を的確に判定できることとなる。

なお、本発明は上述の実施形態に限定されるものではない。

例えば、本実施形態において、上述のログデータが、例えば、ネットワークファイヤウォール、ルータ、スイッチなどの様々な機器に記録されてもよい。そして、本実施形態では、異常判定システム１が、通信部１４を介してこれらの機器にアクセスして、これらの機器に記録されているログデータを収集してもよい。そして、ログ記憶部３０が、様々な機器から収集されたログデータを記憶してもよい。そして、様々な機器から収集されたログデータに基づいて、ユーザの行動において異常が発生したか否かが判定されてもよい。

また、アクセス頻度データによってアクセス回数が示されるＵＲＬは、一般的にアクセスされるＵＲＬではない、特定のＵＲＬや一般的にはアクセスされない（稀にアクセスされる）ＵＲＬであってもよい。また、アクセス頻度データによってアクセス回数が示されるＵＲＬが、一般的にアクセスされるＵＲＬ、及び、特定のＵＲＬや一般的にはアクセスされない（稀にアクセスされる）ＵＲＬであってもよい。

また、時系列入力データや入力画像とは異なる特徴量が、機械学習モデル２０に入力されてもよい。この場合、ＦＦＮＮ２６等のマルチモーダルパイプラインに、他のニューラルネットワークが結合されてもよい。

また、ログデータの収集は、異常判定システム１が実行してもよいし、異常判定システム１以外のコンピュータシステムが実行してもよい。

また、ＦＦＮＮ２６の出力層の活性化関数として、シグモイド関数が実装されてもよい。この場合、異常判定の対象となるユーザ数に対応する数のシグモイド関数が必要であるため、複数のシグモイド関数がそれぞれ実装された複数のニューラルネットワークが、機械学習モデル２０に含まれるようにしてもよい。

また、機械学習モデル２０が、ＬＳＴＭの代わりに、ＬＳＴＭ以外のニューラルネットワーク（例えば、ゲート付き回帰型ユニット（ＧＲＵ）などの再帰的ニューラルネットワーク（ＲＮＮ）、あるいは、単純なＦＦＮＮ、など）を含んでいてもよい。そして、当該ニューラルネットワークに時系列入力データが入力されるようにしてもよい。

また、入力画像に含まれる１４４０の小画像（あるいは画素）に相当する情報が、２次元の画像ではなく１×１４４０の１次元のベクトルとして表現されてもよい。そして、機械学習モデル２０が、ＣＮＮの代わりに、ＣＮＮ以外のニューラルネットワークを含んでいてもよい。そして、当該ニューラルネットワークに１×１４４０の１次元のベクトルが入力されてもよい。また、自然言語処理（ＮＬＰ）でよく使われる埋め込み表現を用いることにより、入力画像の情報が１次元の情報に埋め込まれるようにしてもよい。

また、機械学習モデル２０が１種類のニューラルネットワークから構成されており、当該ニューラルネットワークに時系列入力データ及び入力画像が入力されてもよい。例えば、入力画像に相当する１次元ベクトルの情報が時系列入力データとともにＬＳＴＭに入力されてもよい。また、時系列入力データに示されている情報を画像で表現した上で、当該画像が入力画像とともにＣＮＮに入力されてもよい。このように、本実施形態に係る機械学習モデル２０は、必ずしもマルチモーダルな機械学習モデルには限定されない。ただし、機械学習モデル２０が、マルチモーダルな機械学習モデルである方が、そうでない場合よりも高い精度で、異常判定を行うことができる。

また、本実施形態において、異常判定システム１で機械学習モデル２０の学習が行われる必要はなく、学習済モデルを異常判定システム１にインストールすることで、当該学習済モデルを用いた異常判定システム１における異常判定が行われるようにしてもよい。

また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。

Claims

複数の期間のそれぞれについて、当該期間における所与のコンピュータリソースに対するユーザの行動のログを示すログデータに基づいて、当該ログデータに対応付けられる、当該期間における入力データを生成する入力データ生成手段と、
学習済モデルに前記入力データを入力した際の当該学習済モデルからの出力に基づいて、当該入力データに対応付けられる前記ログデータが前記ユーザの行動のログを示すものである確率の確率値を示すユーザ確率データを生成するユーザ確率データ生成手段と、
最新の期間における前記入力データに基づいて生成される前記ユーザ確率データが示す確率値と、当該期間の直前の期間における前記入力データに基づいて生成される前記ユーザ確率データが示す確率値と、の差が、所定の閾値よりも大きいか否かに基づいて、当該最新の期間における前記ユーザの行動において異常が発生したか否かを判定する異常判定手段と、
を含むことを特徴とする異常判定システム。
複数の期間のそれぞれについて、当該期間における所与のコンピュータリソースに対するユーザの行動のログを示すログデータに基づいて、当該ログデータに対応付けられる、当該期間における入力データを生成する入力データ生成手段と、
学習済モデルに前記入力データを入力した際の当該学習済モデルからの出力に基づいて、当該入力データに対応付けられる前記ログデータが前記ユーザの行動のログを示すものである確率の確率値を示すユーザ確率データを生成するユーザ確率データ生成手段と、
最新の期間における前記入力データに基づいて生成される前記ユーザ確率データが示す確率値と、当該期間よりも前の所定数の期間についての前記入力データに基づいて生成される前記ユーザ確率データが示す確率値の代表値と、の差が、所定の閾値よりも大きいか否かに基づいて、前記ユーザの行動における異常が発生したか否かを判定する異常判定手段と、
を含むことを特徴とする異常判定システム。
当該期間における前記ログデータに基づいて、当該期間における前記ユーザの行動の統計を示す統計データを生成する統計データ生成手段と、
当該期間までの複数の前記期間における前記統計データが含まれる、当該期間における時系列入力データを生成する時系列入力データ生成手段と、をさらに含み、
前記入力データ生成手段は、当該期間における前記時系列入力データが含まれる、当該期間における前記入力データを生成する、
ことを特徴とする請求項１又は２に記載の異常判定システム。
前記統計データ生成手段は、少なくとも１つの所与のＵＲＬのそれぞれについての当該期間におけるアクセス回数を示すアクセス頻度データ、前記コンピュータリソースに対する当該期間における最初のアクセス時刻を示す最初アクセス時刻データ、前記コンピュータリソースに対する当該期間における最終のアクセス時刻を示す最終アクセス時刻データ、前記コンピュータリソースに対する当該期間におけるアクセス期間を示すアクセス期間データ、前記コンピュータリソースへの当該期間における総アップロードデータサイズを示す総アップロードデータサイズデータ、又は、前記コンピュータリソースからの当該期間における総ダウンロードデータサイズを示す総ダウンロードデータサイズデータ、のうちの少なくとも１つを示す前記統計データを生成する、
ことを特徴とする請求項３に記載の異常判定システム。
前記入力データ生成手段は、当該期間における前記ログデータに基づいて生成される、当該ログデータが示すユーザの行動を可視化した入力画像がさらに含まれる、当該期間における前記入力データを生成する、
ことを特徴とする請求項３又は４に記載の異常判定システム。
前記入力画像は、所与のアプリケーション又は所与のプロトコルのうちの少なくとも一方についての前記ユーザの使用状況を可視化した画像である、
ことを特徴とする請求項５に記載の異常判定システム。
前記入力画像は、１日における毎分の前記使用状況を可視化したヒートマップである、
ことを特徴とする請求項６に記載の異常判定システム。
前記入力画像は、縦又は横の一方の軸で毎時の前記使用状況が表現され、他方の軸で当該時における毎分の前記使用状況が表現された前記ヒートマップである、
ことを特徴とする請求項７に記載の異常判定システム。
前記学習済モデルは、学習済の第１のニューラルネットワークと、学習済の第２のニューラルネットワークと、を含み、
前記ユーザ確率データ生成手段は、前記学習済の第１のニューラルネットワークに前記入力画像を入力するとともに、前記学習済の第２のニューラルネットワークに前記時系列入力データを入力した際の、前記学習済モデルからの出力に基づいて、前記ユーザ確率データを生成する、
ことを特徴とする請求項５から８のいずれか一項に記載の異常判定システム。
前記第１のニューラルネットワークは、畳み込みニューラルネットワークである、
ことを特徴とする請求項９に記載の異常判定システム。
前記第２のニューラルネットワークは、再帰的ニューラルネットワーク（ＲＮＮ）である、
ことを特徴とする請求項９又は１０に記載の異常判定システム。
前記ユーザの行動における異常が発生したと判定された際に当該ユーザに関するアラートを生成するアラート生成手段、をさらに含む、
ことを特徴とする請求項１から１１のいずれか一項に記載の異常判定システム。
前記ユーザの行動における異常が発生したと判定された際に通知を行う通知手段、をさらに含む、
ことを特徴とする請求項１から１２のいずれか一項に記載の異常判定システム。
入力データ生成手段が、複数の期間のそれぞれについて、当該期間における所与のコンピュータリソースに対するユーザの行動のログを示すログデータに基づいて、当該ログデータに対応付けられる、当該期間における入力データを生成するステップと、
ユーザ確率データ生成手段が、学習済モデルに前記入力データを入力した際の当該学習済モデルからの出力に基づいて、当該入力データに対応付けられる前記ログデータが前記ユーザの行動のログを示すものである確率の確率値を示すユーザ確率データを生成するステップと、
異常判定手段が、最新の期間における前記入力データに基づいて生成される前記ユーザ確率データが示す確率値と、当該期間の直前の期間における前記入力データに基づいて生成される前記ユーザ確率データが示す確率値と、の差が、所定の閾値よりも大きいか否かに基づいて、当該最新の期間における前記ユーザの行動において異常が発生したか否かを判定するステップと、
を含むことを特徴とする異常判定方法。
入力データ生成手段が、複数の期間のそれぞれについて、当該期間における所与のコンピュータリソースに対するユーザの行動のログを示すログデータに基づいて、当該ログデータに対応付けられる、当該期間における入力データを生成するステップと、
ユーザ確率データ生成手段が、学習済モデルに前記入力データを入力した際の当該学習済モデルからの出力に基づいて、当該入力データに対応付けられる前記ログデータが前記ユーザの行動のログを示すものである確率の確率値を示すユーザ確率データを生成するステップと、
異常判定手段が、最新の期間における前記入力データに基づいて生成される前記ユーザ確率データが示す確率値と、当該期間よりも前の所定数の期間についての前記入力データに基づいて生成される前記ユーザ確率データが示す確率値の代表値と、の差が、所定の閾値よりも大きいか否かに基づいて、前記ユーザの行動における異常が発生したか否かを判定するステップと、
を含むことを特徴とする異常判定方法。
複数の期間のそれぞれについて、当該期間における所与のコンピュータリソースに対するユーザの行動のログを示すログデータに基づいて、当該ログデータに対応付けられる、当該期間における入力データを生成する手順、
学習済モデルに前記入力データを入力した際の当該学習済モデルからの出力に基づいて、当該入力データに対応付けられる前記ログデータが前記ユーザの行動のログを示すものである確率の確率値を示すユーザ確率データを生成する手順、
最新の期間における前記入力データに基づいて生成される前記ユーザ確率データが示す確率値と、当該期間の直前の期間における前記入力データに基づいて生成される前記ユーザ確率データが示す確率値と、の差が、所定の閾値よりも大きいか否かに基づいて、当該最新の期間における前記ユーザの行動において異常が発生したか否かを判定する手順、
をコンピュータに実行させることを特徴とするプログラム。
複数の期間のそれぞれについて、当該期間における所与のコンピュータリソースに対するユーザの行動のログを示すログデータに基づいて、当該ログデータに対応付けられる、当該期間における入力データを生成する手順、
学習済モデルに前記入力データを入力した際の当該学習済モデルからの出力に基づいて、当該入力データに対応付けられる前記ログデータが前記ユーザの行動のログを示すものである確率の確率値を示すユーザ確率データを生成する手順、
最新の期間における前記入力データに基づいて生成される前記ユーザ確率データが示す確率値と、当該期間よりも前の所定数の期間についての前記入力データに基づいて生成される前記ユーザ確率データが示す確率値の代表値と、の差が、所定の閾値よりも大きいか否かに基づいて、前記ユーザの行動における異常が発生したか否かを判定する手順、
をコンピュータに実行させることを特徴とするプログラム。