JP7420278B2

JP7420278B2 - 情報処理装置、情報処理方法、及び、記録媒体

Info

Publication number: JP7420278B2
Application number: JP2022553259A
Authority: JP
Inventors: 聡池田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2024-01-23
Anticipated expiration: 2040-09-29
Also published as: WO2022070256A1; JPWO2022070256A1; US20240004878A1

Description

本発明は、ベクトル空間内での二つのデータの間の距離に対して影響を与えている要因に関する情報を算出可能な情報処理装置、情報処理方法及び記録媒体の技術分野に関する。

二つのデータの間の距離（具体的には、二つのデータの特徴量を夫々示す二つの特徴ベクトルの間の距離）を算出する方法の一例として、計量学習（言い換えれば、メトリック学習）を用いる方法が知られている（特許文献１参照）。計量学習は、ベクトル空間内において、類似する二つ以上のデータの間の距離が短くなり且つ類似しない二つ以上のデータの間の距離が長くなるように各データの特徴ベクトルを変換可能な変換モデルを生成するための方法である。この場合、二つのデータの特徴量を夫々示す二つの特徴ベクトルが変換モデルによって変換され、変換された二つの特徴ベクトルの間の距離が、二つのデータの間の距離として算出される。

その他、本願発明に関連する先行技術文献として、特許文献２から特許文献７があげられる。

特表２０１９－５０９５５１号公報特開２００３－１４１０７７号公報特開２００４－１２７０５５号公報特開２００７－１８３９２７号公報特開２０１２－０７３８５２号公報特開２０１９－０５６９８３号公報国際公開第２０１３／１２９５８０号パンフレット

計量学習によって生成される変換モデルは、一般的には、特徴ベクトルを変換する過程がユーザには理解できないブラックボックスなモデルである。その結果、ユーザは、二つのデータの間の距離に対して影響を与えている要因を理解することができない。このため、ユーザの利便性を向上させるという観点から言えば、二つのデータの間の距離に対して影響を与えている要因に関する情報を算出することが望まれる。

本発明は、上述した技術的問題を解決可能な情報処理装置、情報処理方法、及び、記録媒体を提供することを課題とする。一例として、本発明は、二つのデータの間の距離に対して影響を与えている要因に関する情報を算出可能な情報処理装置、情報処理方法、及び、記録媒体を提供することを課題とする。

情報処理装置の一態様は、複数のサンプルデータ群の特徴量を表現空間内で夫々示す複数の特徴ベクトルデータを、前記表現空間とは異なる潜在空間内で前記複数のサンプルデータ群の特徴量を夫々示す複数の潜在ベクトルデータに変換する変換手段と、前記複数の潜在ベクトルデータに基づいて、前記複数の特徴ベクトルデータから、前記潜在空間内において所望のクエリデータからの距離が他の特徴ベクトルデータと比較して短い少なくとも一つの特徴ベクトルデータを、近傍データとして抽出する抽出手段と、前記近傍データに基づいて、前記表現空間内での前記クエリデータと前記近傍データとの特徴量の要素毎の差分に関する差分情報が入力された場合に、前記潜在空間内での前記クエリデータと前記近傍データとの間の距離である潜在距離の推定値を出力する局所モデルを生成する生成手段と、前記局所モデルと前記差分情報とに基づいて、前記潜在距離に対して前記近傍データの特徴量の各要素が与える影響の大きさを表す要素貢献度を算出する算出手段とを備える。

情報処理方法の一態様は、複数のサンプルデータ群の特徴量を表現空間内で夫々示す複数の特徴ベクトルデータを、前記表現空間とは異なる潜在空間内で前記複数のサンプルデータ群の特徴量を夫々示す複数の潜在ベクトルデータに変換することと、前記複数の潜在ベクトルデータに基づいて、前記複数の特徴ベクトルデータから、前記潜在空間内において所望のクエリデータからの距離が他の特徴ベクトルデータと比較して短い少なくとも一つの特徴ベクトルデータを、近傍データとして抽出することと、前記近傍データに基づいて、前記表現空間内での前記クエリデータと前記近傍データとの特徴量の要素毎の差分に関する差分情報が入力された場合に、前記潜在空間内での前記クエリデータと前記近傍データとの間の距離である潜在距離の推定値を出力する局所モデルを生成すること、前記局所モデルと前記差分情報とに基づいて、前記潜在距離に対して前記近傍データの特徴量の各要素が与える影響の大きさを表す要素貢献度を算出することとを含む。

記録媒体の一態様は、コンピュータに、複数のサンプルデータ群の特徴量を表現空間内で夫々示す複数の特徴ベクトルデータを、前記表現空間とは異なる潜在空間内で前記複数のサンプルデータ群の特徴量を夫々示す複数の潜在ベクトルデータに変換することと、前記複数の潜在ベクトルデータに基づいて、前記複数の特徴ベクトルデータから、前記潜在空間内において所望のクエリデータからの距離が他の特徴ベクトルデータと比較して短い少なくとも一つの特徴ベクトルデータを、近傍データとして抽出することと、前記近傍データに基づいて、前記表現空間内での前記クエリデータと前記近傍データとの特徴量の要素毎の差分に関する差分情報が入力された場合に、前記潜在空間内での前記クエリデータと前記近傍データとの間の距離である潜在距離の推定値を出力する局所モデルを生成すること、前記局所モデルと前記差分情報とに基づいて、前記潜在距離に対して前記近傍データの特徴量の各要素が与える影響の大きさを表す要素貢献度を算出することとを含む情報処理方法を実行させるコンピュータプログラムが記録された記録媒体である。

上述した情報処理装置、情報処理方法、及び、記録媒体のそれぞれの一の態様によれば、二つのデータの間の距離に対して影響を与えている要因に関する情報が算出可能となる。

図１は、本実施形態の通信システムの構成を示すブロック図である。図２は、本実施形態の情報処理装置の構成を示すブロック図である。図３は、本実施形態のプロキシログＤＢのデータ構造を示すデータ構造図である。図４は、本実施形態の特徴データセットのデータ構造を示すデータ構造図である。図５は、情報処理装置が行うモデル生成動作の流れを示すフローチャートである。図６は、本実施形態の教師データセットのデータ構造を示すデータ構造図である。図７は、情報処理装置が行う脅威検出動作の流れを示すフローチャートである。図８は、ｎ個の近傍データを抽出する動作の流れを示すフローチャートである。図９は、要素貢献度の表示例を示す平面図である。図１０は、ベクトル成分が特徴グループに所属する所属率を示すテーブルである。図１１は、グループ貢献度の表示例を示す平面図である。図１２は、第２変形例における通信システムの構成を示すブロック図である。図１３は、第３変形例における情報処理装置の構成を示すブロック図である。

以下、図面を参照しながら、情報処理装置、情報処理方法、及び、記録媒体の実施形態について説明する。以下では、情報処理装置、情報処理方法、及び、記録媒体の実施形態が適用された通信システムＳＹＳを用いて、情報処理装置、情報処理方法、及び、記録媒体の実施形態について説明する。

（１）通信システムＳＹＳの構成
（１－１）通信システムＳＹＳの全体構成
初めに、図１を参照しながら、本実施形態における通信システムＳＹＳの全体構成について説明する。図１は、本実施形態における通信システムＳＹＳの全体構成を示すブロック図である。

図１に示すように、通信システムＳＹＳは、プロキシサーバ１と、複数のクライアント２と、複数のサーバ３と、情報処理装置４とを備えている。但し、通信システムＳＹＳは、単一のクライアント２を備えていてもよい。通信システムＳＹＳは、単一のサーバ３を備えていてもよい。プロキシサーバ１と、複数のサーバ３の夫々とは、ネットワーク５を介して通信可能である。ネットワーク５は、有線のネットワークを含んでいてもよいし、無線のネットワークを含んでいてもよい。

プロキシサーバ１は、クライアント２とサーバ３との通信を中継する装置である。例えば、プロキシサーバ１は、クライアント２から取得したリクエストを、ネットワーク５を介して、取得したリクエストで指定されたサーバ３へと送信してもよい。リクエストは、例えば、ＨＴＴＰ（ＨｙｐｅｒＴｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｃｏｌ）リクエストを含んでいてもよい。但し、リクエストは、ＨＴＴＰリクエストに限定されることはない。例えば、プロキシサーバ１は、ネットワーク５を介してサーバ３から取得したレスポンスを、レスポンスで指定されたクライアント２へと送信してもよい。レスポンスは、例えば、ＨＴＴＰレスポンスを含んでいてもよい。但し、レスポンスは、ＨＴＴＰレスポンスに限定されることはない。

プロキシサーバ１と複数のクライアント２とを含むシステムは、ローカルシステムＬと称されてもよい。この場合、プロキシサーバ１は、ローカルシステムＬと、ローカルシステムＬの外部の広域ネットワークとの境界に配置されているとも言える。プロキシサーバ１は、ローカルシステムＬと広域ネットワークとの間の通信を中継するとも言える。

クライアント２は、プロキシサーバ１を介してサーバ３と通信する。例えば、クライアント２は、プロキシサーバ１を介して、所望のデータをサーバ３に送信してもよい。例えば、クライアント２は、プロキシサーバ１を介して、所望のデータをサーバ３から受信してもよい。

サーバ３は、プロキシサーバ１を介してクライアント２と通信する。例えば、サーバ３は、プロキシサーバ１を介して、所望のデータをクライアント２に送信してもよい。例えば、サーバ３は、プロキシサーバ１を介して、所望のデータをクライアント２から受信してもよい。サーバ３は、例えば、ＨＴＴＰサーバである。但し、サーバ３は、ＨＴＴＰサーバ以外のサーバであってもよい。

情報処理装置４は、ネットワーク５を介してローカルシステムＬに既に侵入している脅威を検出するための脅威検出動作を行う。以下、このような脅威検出動作を行う情報処理装置４の構成について更に説明する。

（１－２）情報処理装置４の構成
図２を参照しながら、本実施形態における情報処理装置４の構成について説明する。図２は、本実施形態における情報処理装置４の構成を示すブロック図である。

図２に示すように、情報処理装置４は、記憶装置４１と、演算装置４２とを備えている。更に、情報処理装置４は、入力装置４３と、出力装置４４とを備えていてもよい。但し、情報処理装置４は、入力装置４３及び出力装置４４の少なくとも一方を備えていなくてもよい。記憶装置４１と、演算装置４２と、入力装置４３と、出力装置４４とは、データバス４５を介して接続されていてもよい。

記憶装置４１は、所望のデータを記憶可能である。例えば、記憶装置４１は、演算装置４２が実行するコンピュータプログラムを一時的に記憶していてもよい。記憶装置４１は、演算装置４２がコンピュータプログラムを実行している際に演算装置４２が一時的に使用するデータを一時的に記憶してもよい。記憶装置４１は、情報処理装置４が長期的に保存するデータを記憶してもよい。尚、記憶装置４１は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ハードディスク装置、光磁気ディスク装置、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。つまり、記憶装置４１は、一時的でない記録媒体を含んでいてもよい。

本実施形態では、記憶装置４１は、脅威検出動作を行うために情報処理装置４が利用するデータを記憶する。図１には、脅威検出動作を行うために情報処理装置４が利用するデータの一例として、プロキシログＤＢ（Ｄａｔａｂａｓｅ：データベース）４１１と、特徴データセット４１２と、教師データセット４１３と、変換モデルＴＭと、局所モデルＬＭとが記載されている。つまり、図４は、記憶装置４１がプロキシログＤＢ４１１と、特徴データセット４１２と、教師データセット４１３と、変換モデルＴＭと、局所モデルＬＭとを記憶する例を示している。

プロキシログＤＢ４１１は、複数のプロキシログデータ４１１１（図３参照）を格納する。プロキシログデータ４１１１は、プロキシサーバ１が中継した通信（つまり、クライアント２とサーバ３との間の通信）の履歴を示すログデータである。このような複数のプロキシログデータ４１１１を格納するプロキシログＤＢ４１１のデータ構造が図３に示されている。図３に示すように、プロキシログデータ４１１１は、例えば、（ｉ）サーバ３と通信したクライアント２を示すログ情報（クライアント情報）と、（ｉｉ）クライアント２と通信したサーバ３を示すログ情報（サーバ情報）と、（ｉｉｉ）クライアント２とサーバ３とが通信した日時を示すログ情報（通信日時情報）と、（ｉｖ）クライアント２がサーバ３と通信する際に利用したメソッドを示すログ情報（メソッド情報）と、（ｖ）クライアント２がサーバ３に送信したリクエストで指定されていたパス（リクエストパス）を示すログ情報（リクエストパス情報）と、（ｖｉ）クライアント２がサーバ３から受信したデータのサイズを示すログ情報（受信サイズ情報）と、（ｖｉｉ）クライアント２がサーバ３に送信したデータのサイズを示すログ情報（送信サイズ情報）とを含んでいてもよい。但し、プロキシログデータ４１１１は、図３に示す複数のログ情報のうちの少なくとも一つを含んでいなくてもよい。プロキシログデータ４１１１は、図３に示す複数のログ情報とは異なる他のログ情報を含んでいてもよい。尚、プロキシログデータ４１１１は、サンプルデータと称されてもよい。また、プロキシログデータ４１１１に含まれるログ情報は、サンプル情報と称されてもよい。

尚、特徴データセット４１２と、教師データセット４１３と、変換モデルＴＭと、局所モデルＬＭとについては、後に詳述する。

再び図２において、演算装置４２は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｅｃｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）及びＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）のうちの少なくとも一つを含む。演算装置４２は、コンピュータプログラムを読み込む。例えば、演算装置４２は、記憶装置４１が記憶しているコンピュータプログラムを読み込んでもよい。例えば、演算装置４２は、コンピュータで読み取り可能であって且つ一時的でない記録媒体が記憶しているコンピュータプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。演算装置４２は、通信装置として機能可能な入力装置４３を介して、情報処理装置４の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい（つまり、ダウンロードしてもよい又は読み込んでもよい）。演算装置４２は、読み込んだコンピュータプログラムを実行する。その結果、演算装置４２内には、情報処理装置４が行うべき動作（例えば、上述した脅威検出動作）を実行するための論理的な機能ブロックが実現される。つまり、演算装置４２は、情報処理装置４が行うべき動作を実行するための論理的な機能ブロックを実現するためのコントローラとして機能可能である。

図２には、脅威検出動作を実行するために演算装置４２内に実現される論理的な機能ブロックの一例が示されている。図２に示すように、演算装置４２内には、特徴抽出部４２１と、計量学習部４２２と、「変換手段」及び「抽出手段」の夫々の一具体例である検索部４２３と、「生成手段」の一具体例である局所モデル学習部４２４と、「算出手段」の一具体例である貢献度算出部４２５と、出力制御部４２６とが実現される。

特徴抽出部４２１は、プロキシログＤＢ４１１から、所定のログ分類基準に基づいて、同一のログデータ群に分類される複数の（或いは、少なくとも一つの）プロキシログデータ４１１１を抽出する。所定のログ分類基準は、クライアント情報が同一であり、サーバ情報が同一であり且つ通信日時情報が所定の日時基準を満たす複数のプロキシログデータ４１１１が同一のログデータ群に分類されるというログ分類基準を含んでいてもよい。所定の日時基準を満たす複数のプロキシログデータ４１１１は、通信日時情報が示す通信日が同一になるという複数のプロキシログデータ４１１１を含んでいてもよい。所定の日時基準を満たす複数のプロキシログデータ４１１１は、は、通信日時情報が示す通信時刻（或いは、通信日時）の間の間隔が所定値未満で連続している複数のプロキシログデータ４１１１を含んでいてもよい。尚、同一のログデータ群に分類されたプロキシログデータ４１１１は、サンプルデータ群と称されてもよい。この場合、例えば、特徴抽出部４２１は、図３に示すプロキシログＤＢ４１１から、Ｃ１という識別子に対応するクライアント２とＳ１という識別子に対応するサーバ３との間で２０１９年１月１日に行われた通信の履歴を示す三つのプロキシログデータ４１１１の夫々を、第１のログデータ群に分類されるプロキシログデータ４１１１として抽出してもよい。同様に、例えば、特徴抽出部４２１は、図３に示すプロキシログＤＢ４１１から、Ｃ２という識別子に対応するクライアント２とＳ２という識別子に対応するサーバ３との間で２０１９年１月１日に行われた通信の履歴を示す三つのプロキシログデータ４１１１の夫々を、第１のログデータ群とは異なる第２のログデータ群に分類されるプロキシログデータ４１１１として抽出してもよい。

特徴抽出部４２１は更に、抽出した複数のプロキシログデータ４１１１（つまり、同一のログデータ群に分類される複数のプロキシログデータ４１１１）の特徴量を示す特徴ベクトルＸＶを生成する。特徴抽出部４２１は、同一のログデータ群に分類される複数のプロキシログデータ４１１１から、一つの特徴ベクトルＸＶを生成する。このため、特徴抽出部４２１は、特徴ベクトルＸＶを、ログデータ群の数だけ生成する。以下の説明では、ログデータ群の数がＫ（Ｋは、１以上の整数を示す定数）であり、特徴抽出部４２１がＫ個の特徴ベクトルＸＶ（以降、Ｋ個の特徴ベクトルＸＶを、夫々、下付き文字を“インデックスとする特徴ベクトルＸＶ_１からＸＶ_Ｋ”と称する）を生成する例について説明する。また、以下の説明では、Ｋ個のログデータ群のうちのインデックスがｖ（ｖは、１≦ｖ≦Ｋを満たす変数）となる一のログデータ群から生成される特徴ベクトルＸＶを、特徴ベクトルＸＶ_ｖと称する。尚、特徴ベクトルＸＶは、特徴ベクトルデータＸＶと称されてもよい。特徴抽出部４２１は、抽出した複数のプロキシログデータ４１１１を解析することで、特徴ベクトルＸＶを生成してもよい。特徴抽出部４２１は、例えば、複数のプロキシログデータ４１１１の統計量を算出する演算処理を行うことで、特徴ベクトルＸＶを生成してもよい。

特徴ベクトルＸＶは、例えば、送信サイズ情報に関する特徴量を示す要素（つまり、ベクトル成分、以下同じ）を含んでいてもよい。送信サイズ情報に関する特徴量は、送信サイズ情報が示す送信サイズの統計量（例えば、最小値、最大値、平均値、分散及び平均値等の少なくとも一つ）に関する特徴量を含んでいてもよい。特徴ベクトルＸＶは、例えば、受信サイズ情報に関する特徴量を示す要素を含んでいてもよい。受信サイズ情報に関する特徴量は、受信サイズ情報が示す受信サイズの統計量（例えば、最小値、最大値、平均値、分散及び合計値等の少なくとも一つ）に関する特徴量を含んでいてもよい。特徴ベクトルＸＶは、例えば、パス情報に関する特徴量を示す要素を含んでいてもよい。パス情報に関する特徴量は、パス情報が示すリクエストパスのデータ長の統計量（例えば、最小値、最大値、平均値及び分散等の少なくとも一つ）に関する特徴量を含んでいてもよい。パス情報に関する特徴量は、パス情報が示すリクエストパスの拡張子の頻度（例えば、拡張子毎のリクエストの頻度）に関する特徴量を含んでいてもよい。特徴ベクトルＸＶは、例えば、メソッド情報に関する特徴量を示す要素を含んでいてもよい。メソッド情報に関する特徴量は、メソッド情報が示すメソッドの頻度（例えば、ＧＥＴメソッドの割合、ＰＯＳＴメソッドの割合及びその他のメソッドの割合等の少なくとも一つ）に関する特徴量を含んでいてもよい。特徴ベクトルＸＶは、例えば、アクセス時刻の分布（例えば、単位時間（例えば、１時間）当たりに送信されたリクエストの割合）に関する特徴量を示す要素を含んでいてもよい。特徴ベクトルＸＶは、例えば、リクエストが送信された回数に関する特徴量を示す要素を含んでいてもよい。尚、プロキシログデータ４１１１にヘッダ情報が含まれている場合には、特徴ベクトルＸＶは、例えば、ヘッダ情報に関する特徴量を示す要素を含んでいてもよい。

特徴抽出部４２１が生成した特徴ベクトルＸＶは、記憶装置４１によって、特徴データセット４１２の少なくとも一部として記憶される。特徴データセット４１２のデータ構造の一例が図４に示されている。上述したように、特徴抽出部４２１は、同一のログデータ群に分類される複数のプロキシログデータ４１１１から、一つの特徴ベクトルＸＶを生成する。このため、記憶装置４１は、特徴抽出部４２１が生成した特徴ベクトルＸＶを、特徴ベクトルＸＶに対応するログデータ群を識別するためのデータ識別子と特徴ベクトルＸＶとが関連付けられた特徴データＤＶとして記憶してもよい。この場合、図４に示すように、特徴データセット４１２は、特徴データＤＶ（つまり、特徴ベクトルＸＶ）を、所定のログ分類基準によって分類されるログデータ群の数だけ含む。つまり、特徴データセット４１２は、Ｋ個の特徴データＤＶ（以降、Ｋ個の特徴データＤＶを、夫々、下付き文字をインデックスとする“特徴データＤＶ_１からＤＶ_Ｋ”と称する）を含んでいてもよい。尚、以下の説明では、特徴ベクトルＸＶ_ｖを含む特徴データＤＶを、特徴データＤＶ_ｖと称する。上述した説明では、所定のログ分類基準が、クライアント情報、サーバ情報及び通信日時情報が同一になる複数のプロキシログデータ４１１１が同一のログデータ群に分類されるというログ分類基準を含んでいる。この場合には、図４に示すように、記憶装置４１は、生成した特徴ベクトルＸＶを、クライアント情報、サーバ情報及び通信日時情報を一意に示すデータ識別子と特徴ベクトルＸＶとが関連付けられた特徴データＤＶとして記憶してもよい。

計量学習部４２２は、特徴ベクトルＸＶを変換するために用いる変換モデルＴＭを生成する。特徴ベクトルＸＶは、表現空間（つまり、ベクトル空間）内で、プロキシログデータ４１１１の特徴量を示している。変換モデルＴＭは、このような表現空間内でプロキシログデータ４１１１の特徴量を示す特徴ベクトルＸＶを、表現空間とは異なるベクトル空間である潜在空間内でプロキシログデータ４１１１の特徴量を示す潜在ベクトルＺＶに変換するモデルである。上述したようにＫ個の特徴ベクトルＸＶ_１からＸＶ_Ｋが生成されるため、変換モデルＴＭは、Ｋ個の特徴ベクトルＸＶ_１からＸＶ_Ｋを、夫々、Ｋ個の潜在ベクトルＺＶ_１からＺＶ_Ｋに変換してもよい。つまり、変換モデルＴＭは、特徴ベクトルＸＶ_ｖを、潜在ベクトルＺＶ_ｖに変換してもよい。尚、潜在ベクトルＺＶは、潜在ベクトルデータＺＶと称されてもよい。計量学習部４２２が生成した変換モデルＴＭは、例えば、記憶装置４１によって記憶される。尚、変換モデルＴＭを生成する動作については、図５等を参照しながら後に詳述する。

潜在ベクトルＺＶのベクトル成分の要素数（つまり、潜在ベクトルＺＶが示す特徴量の要素数であり、潜在空間の次元数）は、典型的には、特徴ベクトルＸＶのベクトル成分の要素数（つまり、特徴ベクトルＸＶが示す特徴量の要素数であり、表現空間の次元数）よりも少なくなることが好ましい。このため、潜在ベクトルＺＶは、低次元ベクトルと称されてもよいし、特徴ベクトルＸＶは、高次元ベクトルと称されてもよい。このように特徴ベクトルＸＶが特徴ベクトルＸＶよりも低次元の潜在ベクトルＺＶに変換される場合には、特徴ベクトルＸＶが潜在ベクトルＺＶに変換されない場合と比較して、脅威検出動作に対して人の感覚が相対的に強く反映される（つまり、人の感覚が相対的に強く考慮された上で、脅威が検出される）というメリットがある。但し、潜在ベクトルＺＶのベクトル成分の要素数は、特徴ベクトルＸＶのベクトル成分の要素数と同一であってもよい。潜在ベクトルＺＶのベクトル成分の要素数は、特徴ベクトルＸＶのベクトル成分の要素数よりも多くてもよい。

検索部４２３は、脅威検出動作によって検出したい脅威（以降、“検出ターゲット脅威”と称する）を指定するクエリデータＤＱに基づいて、特徴データセット４１２から、クエリデータＤＱに対する類似度が他の特徴データＤＶと比較して高い少なくとも一つの特徴データＤＶを検索する。本実施形態では、クエリデータＤＱと特徴データＤＶとの類似度と示す指標値として、潜在空間におけるクエリデータＤＱと特徴データＤＶとの間の距離が用いられる例について説明する。尚、潜在空間におけるクエリデータＤＱと特徴データＤＶとの間の距離は、クエリデータＤＱが示す特徴ベクトルＸＱ（つまり、検出ターゲット脅威の特徴量を示す特徴ベクトル）を変換モデルＴＭで変換することで得られる潜在ベクトルＺＱと、特徴データＤＶが示す特徴ベクトルＸＶを変換モデルＴＭで変換することで得られる潜在ベクトルＺＶとの間の距離を意味する。このため、本実施形態では、検索部４２３は、特徴データセット４１２から、潜在空間におけるクエリデータＤＱからの距離が他の特徴データＤＶと比較して短い少なくとも一つの特徴データＤＶを検索する。

クエリデータＤＱは、検出ターゲット脅威の特徴量を示す特徴ベクトルＸＱを含んでいてもよい。この際、クエリデータＤＱの特徴ベクトルＸＱの次元数は、特徴データＤＶの特徴ベクトルＸＶの次元数と同じであることが好ましい。つまり、特徴ベクトルＸＶの次元数がＦ（但し、Ｆは、１以上の整数を示す定数）である場合には、特徴ベクトルＸＱの次元数もまたＦであることが好ましい。特に、特徴ベクトルＸＶのＦ個のベクトル成分が夫々示すＦ個の特徴量の種類は、特徴ベクトルＸＱのＦ個のベクトル成分が夫々示すＦ個の特徴量の種類と同一であることが好ましい。例えば、特徴ベクトルＸＶが、受信サイズに関する特徴量を示すベクトル成分と送信サイズに関する特徴量を示すベクトル成分とを含む場合には、特徴ベクトルＸＱもまた、受信サイズに関する特徴量を示すベクトル成分と送信サイズに関する特徴量を示すベクトル成分とを含むことが好ましい。

本実施形態では、検索部４２３が、特徴データセット４１２から、潜在空間におけるクエリデータＤＱからの距離が他の特徴データＤＶと比較して短いｎ（尚、ｎは、１≦ｎ≦特徴データＤＶの総数Ｋを満たす整数を示す定数）個の特徴データＤＶを検索する例について説明する。この場合、検索部４２３は、検索されたｎ個の特徴データＤＶを、夫々、ｎ個の近傍データＤＮ（以下、ｎ個の近傍データＤＮを、夫々、“近傍データＤＮ_１からＤＮ_ｎ”と称する）として抽出する。

近傍データＤＮ_ｉ（尚、ｉは、１≦ｉ≦ｎを満たす整数を示す変数である）は、潜在空間においてクエリデータＤＱの近傍に位置するデータに相当する。つまり、近傍データＤＮ_ｉは、クエリデータＤＱが指定する検出ターゲット脅威と同じ又は類似する脅威の痕跡を示すプロキシログデータ４１１１の特徴量を示す特徴データＤＶに相当する。このため、近傍データＤＮ_ｉが検出された場合には、検出ターゲット脅威と同じ又は類似する脅威がローカルシステムＬに既に侵入した可能性があると想定される。このため、抽出された近傍データＤＮ_ｉ（或いは、近傍データＤＮ_ｉに対応するプロキシログデータ４１１１）は、ローカルシステムＬに実際に脅威が侵入したか否かを判定するために、更に解析されてもよい。

局所モデル学習部４２４は、近傍データＤＮ_１からＤＮ_ｎに基づいて、局所モデルＬＭを生成する。局所モデルＬＭは、表現空間におけるクエリデータＤＱと近傍データＤＮ_ｉとの差分に関する差分情報Ｖ_ｉが入力された場合に、潜在空間内におけるクエリデータＤＱと近傍データＤＮ_ｉとの間の距離ｄ_ｉの推定値ｄｐ_ｉを出力するモデルである。尚、局所モデルＬＭを生成する動作については、図７等を参照しながら後に詳述する。

差分情報Ｖ_ｉは、例えば、クエリデータＤＱと近傍データＤＮ_ｉとのベクトル成分毎の（つまり、ベクトル成分に対応する特徴量の要素（種類）毎の）差分を示す差分情報ｖ_ｉ，ｆを含んでいてもよい。つまり、差分情報Ｖ_ｉは、クエリデータＤＱの特徴ベクトルＸＱと近傍データＤＮ_ｉの特徴ベクトルＸＮ_ｉとのベクトル成分毎の差分を示す差分情報ｖ_ｉ，ｆを含んでいてもよい。尚、特徴ベクトルＸＮ_ｉのｆ（但し、ｆは、１≦ｆ≦Ｆを満たす整数を示す変数）番目のベクトル成分（つまり、近傍データＤＮ_ｉのｆ番目の要素に相当する特徴量）がｘｎ_ｉ，ｆであり、特徴ベクトルＸＱのｆ番目のベクトル成分がｘｑ_ｆである場合には、差分情報ｖ_ｉ，ｆは、ベクトル成分ｘｎ_ｉ，ｆとベクトル成分ｘｑ_ｆとの差分に基づく値であってもよい。例えば、差分情報ｖ_ｉ，ｆとして、ベクトル成分ｘｎ_ｉ，ｆとベクトル成分ｘｑ_ｆとの差分の絶対値（＝｜ｘｑ_ｆ－ｘｎ_ｉ，ｆ｜）又はベクトル成分ｘｎ_ｉ，ｆとベクトル成分ｘｑ_ｆとの差分の二乗（＝（ｘｑ_ｆ－ｘｎ_ｉ，ｆ）^２）が用いられてもよい。上述したように、特徴ベクトルＸＱ及びＸＮ_ｉの夫々の次元数がＦであるため、差分情報Ｖ_ｉは、差分情報ｖ_ｉ，１と、差分情報ｖ_ｉ，２と、・・・、差分情報ｖ_ｉ，ｆと、・・・、差分情報ｖ_ｉ，Ｆとを含んでいてもよい。

貢献度算出部４２５は、潜在空間内におけるあるクエリデータとある近傍データとの間の距離に対して、当該近傍データの特徴ベクトルの各ベクトル成分が与える影響の大きさを表す要素貢献度ｃを算出する。具体的には、貢献度算出部４２５は、潜在空間内におけるクエリデータＤＱと近傍データＤＮ_ｉとの間の距離ｄ_ｉに対して、特徴ベクトルＸＮ_ｉのｆ番目のベクトル成分（つまり、近傍データＤＮ_ｉのｆ番目の要素に相当する特徴量）が与える影響の大きさを表す要素貢献度ｃを算出する。尚、以下の説明では、距離ｄ_ｉに対して特徴ベクトルＸＮ_ｉのｆ番目のベクトル成分が与える影響の大きさを表す要素貢献度ｃを、“要素貢献度ｃ_ｉ、ｆ”と称する。言い換えれば、貢献度算出部４２５は、距離ｄ_ｉを算出する際の特徴ベクトルＸＮ_ｉのｆ番目のベクトル成分の重要度の大きさを表す要素貢献度ｃ_ｉ、ｆを算出する。具体的には、貢献度算出部４２５は、差分情報ｖ_ｉ、ｆと局所モデル学習部４２４が生成した局所モデルＬＭとに基づいて、要素貢献度ｃ_ｉ、ｆを算出する。尚、要素貢献度ｃ_ｉ、ｆの算出動作については、図７等を参照しながら後に詳述する。

出力制御部４２６は、検索部４２３が抽出したｎ個の近傍データＤＮ_１からＤＮ_ｎの少なくとも一つに関する情報を出力するように、後述する出力装置４４を制御してもよい。出力制御部４２６は、ｎ個の近傍データＤＮ_１からＤＮ_ｎの少なくとも一つに関する情報に加えて又は代えて、貢献度算出部４２５が算出した要素貢献度ｃ_ｉ、ｆを出力するように、後述する出力装置４４を制御してもよい。

入力装置４３は、情報処理装置４の外部からの情報処理装置４に対する情報の入力を受け付ける装置である。例えば、入力装置４３は、情報処理装置４のユーザが操作可能な操作装置（例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つ）を含んでいてもよい。例えば、入力装置４３は、情報処理装置４の外部から通信ネットワークを介して情報処理装置４にデータとして送信される情報を受信可能な受信装置（つまり、通信装置）を含んでいてもよい。

出力装置４４は、情報を出力する装置である。例えば、出力装置４４は、情報処理装置４が行う脅威検出動作に関する情報（例えば、検出された脅威に関する情報）を出力してもよい。このような出力装置４４の一例として、情報を画像として出力可能な（つまり、表示可能な）ディスプレイ（表示装置）があげられる。出力装置４４の一例として、情報を音声として出力可能なスピーカ（音声出力装置）があげられる。出力装置４４の一例として、情報が印刷された文書を出力可能なプリンタがあげられる。出力装置４４の一例として、通信ネットワーク又はデータバスを介して情報をデータとして送信可能な送信装置（つまり、通信装置）があげられる。

（２）情報処理装置４が行う動作
続いて、情報処理装置４が行う動作について説明する。上述したように、情報処理装置４は、ローカルシステムＬに既に侵入している脅威を検出するための脅威検出動作を行う。更に、情報処理装置４は、脅威検出動作を行う前に、脅威検出動作で用いる変換モデルＴＭを生成するためのモデル生成動作を行ってもよい。このため、以下では、モデル生成動作と脅威検出動作とについて順に説明する。

（２－１）モデル生成動作
初めに、図５を参照しながら、情報処理装置４が行うモデル生成動作について説明する。図５は、情報処理装置４が行うモデル生成動作の流れを示すフローチャートである。

図５に示すように、計量学習部４２２は、教師データセット４１３から少なくとも一つの教師データ４１３１を取得する（ステップＳ１１）。

教師データセット４１３のデータ構造の一例が、図６に示されている。図６に示すように、教師データセット４１３は、複数の教師データ４１３１を含む。計量学習部４２２は、教師データセット４１３に含まれる複数の教師データ４１３１の全てを取得してもよい。或いは、計量学習部４２２は、教師データセット４１３に含まれる複数の教師データ４１３１の一部を取得する一方で、教師データセット４１３に含まれる複数の教師データ４１３１の他の一部を取得しなくてもよい。

各教師データ４１３１は、特徴データセット４１２に含まれている複数の特徴データＤＶ（つまり、特徴データＤＶ_１からＤＶ_Ｋ）のうちの二つを指定するデータ指定情報を含む。上述したように、特徴データＤＶは、特徴データＤＶに含まれる特徴ベクトルＸＶに対応するログデータ群を識別するためのデータ識別子によって一意に区別可能である。このため、図６に示すように、データ指定情報は、二つの特徴データＤＶのデータ識別子を含んでいてもよい。

各教師データ４１３１は更に、データ指定情報が指定する二つの特徴データＤＶが、正例に相当するのか又は負例に相当するのかを示すラベル情報を含む。図６に示す例では、「０」を表すラベル情報は、データ指定情報が指定する二つの特徴データＤＶが負例に相当することを示し、「１」を表すラベル情報は、データ指定情報が指定する二つの特徴データＤＶが正例に相当することを示すものとする。本実施形態では、正例に相当する二つの特徴データＤＶは、特徴が似ている二つの特徴データＤＶを意味していてもよい。ここで、特徴が似ている二つの特徴データＤＶは、二つの特徴データＤＶの間の潜在空間における距離が所定の第１閾値未満になる二つの特徴データＤＶであってもよい。一方で、負例に相当する二つの特徴データＤＶは、特徴が似ていない二つの特徴データＤＶを意味していてもよい。ここで、特徴が似ていない二つの特徴データＤＶは、二つの特徴データＤＶの間の潜在空間における距離が所定の第２閾値（但し、第２閾値は、上述した第１閾値以上）より大きくなる二つの特徴データＤＶであってもよい。

再び図５において、計量学習部４２２は、ステップＳ１１で取得した教師データ４１３１に基づいて、変換モデルＴＭを生成する（ステップＳ１２）。具体的には、例えば、計量学習部４２２は、変換モデルＴＭを学習するための学習動作を行うことで、変換モデルＴＭを生成してもよい。このため、変換モデルＴＭは、学習可能なモデルであってもよい。例えば、変換モデルＴＭは、パラメータ（例えば、重み及びバイアスの少なくとも一つ）を学習可能なニューラルネットワークを含むモデルであってもよい。

本実施形態では、計量学習部４２２は、計量学習（言い換えれば、メトリック学習）を行うことで、変換モデルＴＭを生成してもよい。計量学習は、一般的には、ベクトル空間内において、類似する二つ以上のデータの間の距離が相対的に短くなり且つ類似しない二つ以上のデータの間の距離が相対的に長くなるように各データの特徴ベクトルを変換可能な変換モデルを生成するための学習方法である。このため、本実施形態では、計量学習部４２２は、計量学習を行うことで、類似する二つ以上の特徴データＤＶの間の潜在空間内での距離（つまり、類似する二つ以上の特徴データＤＶに夫々対応する二つ以上の潜在ベクトルＺＶの間の距離）が相対的に短くなり、且つ、類似しない二つ以上の特徴データＤＶの間の距離（つまり、類似しない二つ以上の特徴データＤＶに夫々対応する二つ以上の潜在ベクトルＺＶの間の距離）が相対的に長くなるように、複数の特徴ベクトルＸＶを夫々複数の潜在ベクトルＺＶに変換可能な変換モデルＴＭを生成してもよい。例えば、計量学習部４２２は、計量学習を行うことで、類似する二つ以上の特徴データＤＶの間の潜在空間内での距離が、類似しない二つ以上の特徴データＤＶの間の潜在空間内での距離以上になるように、複数の特徴ベクトルＸＶを夫々複数の潜在ベクトルＺ_ｖに変換可能な変換モデルＴＭを生成してもよい。例えば、計量学習部４２２は、計量学習を行うことで、（ｉ）類似する二つ以上の特徴データＤＶの間の潜在空間内での距離が、類似する二つ以上の特徴データＤＶの間の表現空間内での距離（つまり、類似する二つ以上の特徴データＤＶに夫々対応する二つ以上の特徴ベクトルＸＶの間の距離）以下になり、且つ、（ｉｉ）類似しない二つ以上の特徴データＤＶの間の潜在空間内での距離が、類似しない二つ以上の特徴データＤＶの間の表現空間内での距離（つまり、類似しない二つ以上の特徴データＤＶに夫々対応する二つ以上の特徴ベクトルＸＶの間の距離）以上になるように、複数の特徴ベクトルＸＶを夫々複数の潜在ベクトルＺＶに変換可能な変換モデルＴＭを生成してもよい。

計量学習部４２２は、例えば、計量学習を行うために用いられるニューラルネットワークを用いて、計量学習を行ってもよい。計量学習を行うために用いられるニューラルネットワークの一例として、シャムネットワーク（ＳｉａｍｅｓｅＮｅｔｗｏｒｋ）及びトリプレットネットワーク（ＴｒｉｐｌｅｔＮｅｔｗｏｒｋ）の少なくとも一つがあげられる。

教師データ４１３１を用いて行われる計量学習の一例について以下に説明する。計量学習部４２２は、教師データ４１３１に基づいて、正例に相当するラベル情報が付与された二つの特徴ベクトルＸＶを含むデータセットを、特徴データセット４１２から少なくとも一組抽出する。更に、計量学習部４２２は、教師データ４１３１に基づいて、負例に相当するラベル情報が付与された二つの特徴ベクトルＸＶを、特徴データセット４１２から少なくとも一組抽出する。計量学習部４２２は、抽出した二つの特徴ベクトルＸＶを変換モデルＴＭに入力することで、二つの特徴ベクトルＸＶに対応する二つの潜在ベクトルＺＶを取得する。その後、計量学習部４２２は、二つの潜在ベクトルＺＶの間の距離を算出する。計量学習部４２２は、正例に相当するラベル情報が付与された二つ特徴ベクトルＸＶを変換することで得られた二つの潜在ベクトルＺＶの間の距離が相対的に短くなり、且つ、負例に相当するラベル情報が付与された二つ特徴ベクトルＸＶを変換することで得られた二つの潜在ベクトルＺＶの間の距離が相対的に長くなるように、計量学習を行う。このため、計量学習部４２２は、潜在空間内での二つの潜在ベクトルＺＶの間の距離に基づいて定まる損失関数を用いて、計量学習を行ってもよい。例えば、上述したように、計量学習部４２２がシャムネットワークを用いて計量学習を行う場合には、計量学習部４２２は、ＣｏｎｔｒａｓｔｉｖｅＬｏｓｓに基づく損失関数を用いてもよい。

その後、記憶装置４１は、ステップＳ１２で生成された変換モデルＴＭを記憶する（ステップＳ１３）。記憶装置４１が記憶している変換モデルＴＭは、後述する脅威検出動作において用いられる。

（２－２）脅威検出動作
続いて、図７を参照しながら、情報処理装置４が行う脅威検出動作について説明する。図７は、情報処理装置４が行う脅威検出動作の流れを示すフローチャートである。尚、図７に示す脅威検出動作は、情報処理装置４に対するクエリデータＤＱの入力をトリガに開始されてもよい。複数のクエリデータＤＱが情報処理装置４に入力された場合には、各クエリデータＤＱを対象に脅威検出動作が行われる。例えば、第１のクエリデータＤＱと第２のクエリデータＤＱとが情報処理装置４に入力された場合には、第１のクエリデータＤＱを対象に脅威検出動作と、第２のクエリデータＤＱを対象とする脅威検出動作とが行われる。

図７に示すように、まず、検索部４２３は、クエリデータＤＱを取得する（ステップＳ２１）。例えば、検索部４２３は、ユーザが操作可能な操作装置として機能可能な入力装置４３を介して情報処理装置４に入力される、検出ターゲット脅威（或いは、特徴ベクトルＸＱ）を直接的に又は間接的に指定する情報を、クエリデータＤＱとして取得してもよい。例えば、検索部４２３は、通信装置として機能可能な入力装置４３を介して情報処理装置４に送信される、検出ターゲット脅威（或いは、特徴ベクトルＸＱ）を直接的に又は間接的に指定するための情報を、クエリデータＤＱとして取得してもよい。

その後、検索部４２３は、ステップＳ２１で取得したクエリデータＤＱに基づいて、特徴データセット４１２から、ｎ個の近傍データＤＮ_１からＤＮ_ｎを抽出する（ステップＳ２２）。以下、図８を参照しながら、ｎ個の近傍データＤＮ_１からＤＮ_ｎを抽出する動作について説明する。図８は、ｎ個の近傍データＤＮ_１からＤＮ_ｎを抽出する動作の流れを示すフローチャートである。

図８に示すように、検索部４２３は、記憶装置４１が記憶している変換モデルＴＭを用いて、ステップ２１で取得したクエリデータＤＱの特徴ベクトルＸＱを、潜在空間内で検出ターゲット脅威の特徴量を示す潜在ベクトルＺＱに変換する（ステップＳ２２１）。

ステップＳ２２１の動作と並行して又は相前後して、検索部４２３は、特徴データセット４１２に含まれる複数の特徴データＤＶのうちの一の特徴データＤＶ_ｖを抽出する（ステップＳ２２２）。その後、検索部４２３は、変換モデルＴＭを用いて、抽出した一の特徴データＤＶ_ｖの特徴ベクトルＸＶ_ｖを、潜在ベクトルＺＶ_ｖに変換する（ステップＳ２２２）。その後、検索部４２３は、ステップＳ２２１で生成された潜在ベクトルＺＱとステップＳ２２２で生成された潜在ベクトルＺＶ_ｖとの間の距離（つまり、潜在空間での距離）を算出する（ステップＳ２２３）。

検索部４２３は、ステップＳ２２２からステップＳ２２３までの動作を、特徴データセット４１２に含まれる複数の特徴データＤＶを対象に繰り返す（ステップＳ２２４）。上述したように、特徴データセット４１２には、Ｋ個の特徴データＤＶ_１からＤＶ_Ｋが含まれている。このため、検索部４２３は、Ｋ個の特徴データＤＶ_１からＤＶ_Ｋに夫々対応するＫ個の潜在ベクトルＺＶ_１からＺＶ_Ｋと潜在ベクトルＺＱとの間のＫ個の距離の算出が完了するまで、特徴データセット４１２に含まれる複数の特徴データＤＶの中から、ステップＳ２２２において未だ抽出されたことがない一の特徴データＤＶ_ｖを新たに抽出した上で、ステップＳ２２２からステップＳ２２３までの動作を繰り返す。具体的には、検索部４２３は、特徴データＤＶ_１に対応する潜在ベクトルＺＶ_１と潜在ベクトルＺＱとの間の距離と、特徴データＤＶ_２に対応する潜在ベクトルＺＶ_２と潜在ベクトルＺＱとの間の距離と、・・・、特徴データＤＶ_Ｋに対応する潜在ベクトルＺＶ_Ｋと潜在ベクトルＺＱとの間の距離との算出が完了するまで、ステップＳ２２２からステップＳ２２３までの動作を繰り返す。

その後、検索部４２３は、ステップＳ２２３で算出した距離に基づいて、特徴データセット４１２に含まれる複数の特徴データＤＶのうちのｎ個の特徴データＤＶを、夫々、ｎ個の近傍データＤＮ_１からＤＮ_ｎとして抽出する（ステップＳ２２５）。具体的には、検索部４２３は、Ｋ個の特徴データＤＶの中から、他のＫ－ｎ個の特徴データＤＶと比較して、潜在空間におけるクエリデータＤＱからの距離が短いｎ個の特徴データＤＶを、夫々、ｎ個の近傍データＤＮ_１からＤＮ_ｎとして抽出する。つまり、検索部４２３は、Ｋ個の特徴データＤＶの中から、算出した距離が短い順にｎ個の特徴データＤＶを抽出し、抽出したｎ個の特徴データＤＶを夫々ｎ個の近傍データＤＮ_１からＤＮ_ｎに設定する。

再び図７において、その後、局所モデル学習部４２４は、ステップＳ２２において抽出されたｎ個の近傍データＤＮ_１からＤＮ_ｎに基づいて、局所モデルＬＭを生成する（ステップＳ２３）。

本実施形態では、説明の便宜上、局所モデルＬＭが線形回帰モデルである例について説明する。上述したように、局所モデルＬＭは、表現空間におけるクエリデータＤＱと近傍データＤＮ_ｉとの差分に関する差分情報Ｖ_ｉ（＝ｖ_ｉ，１からｖ_ｉ，Ｆ）が入力された場合に、潜在空間内におけるクエリデータＤＱと近傍データＤＮ_ｉとの間の距離ｄ_ｉの推定値ｄｐ_ｉを出力するモデルである。このため、局所モデルＬＭは、差分情報Ｖ_ｉ（＝ｖ_ｉ，１からｖ_ｉ，Ｆ）が説明変数として用いられ、且つ、距離ｄ_ｉの推定値ｄｐ_ｉが目的変数として用いられる線形回帰モデルであってもよい。このような局所モデルＬＭの一例が数式１に示されている。尚、数式１におけるｗ_ｆは、差分情報ｖ_ｉ、ｆに掛け合わせられる重みである。重みｗ_ｆ（具体的には、ｗ_１からｗ_Ｆの夫々）は、０以上の重みである。つまり、重みｗ_ｆ（具体的には、ｗ_１からｗ_Ｆの夫々）は、負値とならない重みである。また、数式１に示すように、局所モデルＬＭは、バイアス項を含まない（つまり、バイアス項がゼロになる）回帰式で特定される線形回帰モデルである。

但し、局所モデルＬＭが、数式１に示す線形回帰モデルに限定されることはない。例えば、局所モデルＬＭは、重みｗ_ｆ（具体的には、ｗ_１からｗ_Ｆの少なくとも一つ）が負値となる回帰式で特定される線形回帰モデルであってもよい。例えば、局所モデルＬＭは、バイアス項を含む（つまり、バイアス項がゼロにならない）回帰式で特定される線形回帰モデルであってもよい。或いは、局所モデルＬＭが、線形回帰モデルに限定されることはない。例えば、局所モデルＬＭは、非線形回帰モデルであってもよい。例えば、局所モデルＬＭは、その他の任意のモデルであってもよい。

局所モデルＬＭを生成するために、局所モデル学習部４２４は、差分情報Ｖ_ｉ（＝ｖ_ｉ，１からｖ_ｉ，Ｆ）を生成する。つまり、局所モデル学習部４２４は、差分情報Ｖ_１（＝ｖ_１，１からｖ_１，Ｆ）、差分情報Ｖ_２（＝ｖ_２，１からｖ_２，Ｆ）、・・・、及び、差分情報Ｖ_ｎ（＝ｖ_ｎ，１からｖ_ｎ，Ｆ）を生成する。尚、以下の説明では、差分情報ｖ_ｉ，ｆが、ｖ_ｉ，ｆ＝｜ｘｑ_ｆ－ｘｎ_ｉ，ｆ｜又はｖ_ｉ，ｆ＝（ｘｑ_ｆ－ｘｎ_ｉ，ｆ）^２という上述した数式で特定される例について説明する。従って、局所モデル学習部４２４は、ｖ_ｉ，ｆ＝｜ｘｑ_ｆ－ｘｎ_ｉ，ｆ｜又はｖ_ｉ，ｆ＝（ｘｑ_ｆ－ｘｎ_ｉ，ｆ）^２という数式を用いて、差分情報Ｖ_ｉを生成する。

その後、局所モデル学習部４２４は、ステップＳ２２で抽出した近傍データＤＮ_１からＤＮ_ｎと、ステップＳ２３において算出した差分情報Ｖ_１からＶ_ｎとに基づいて、局所モデルＬＭを生成する。

具体的には、局所モデル学習部４２４は、生成済みの又はデフォルトの局所モデルＬＭに対して、差分情報Ｖ_１からＶ_ｎを順に入力する。その結果、局所モデル学習部４２４は、潜在空間内におけるクエリデータＤＱと近傍データＤＮ_１との間の距離ｄ_１の推定値ｄｐ_１と、潜在空間内におけるクエリデータＤＱと近傍データＤＮ_２との間の距離ｄ_２の推定値ｄｐ_２と、・・・、潜在空間内におけるクエリデータＤＱと近傍データＤＮ_ｎとの間の距離ｄ_ｎの推定値ｄｐ_ｎとを取得する。

その後、局所モデル学習部４２４は、実際の距離ｄ_ｉと距離ｄ_ｉの推定値ｄｐ_ｉとの間の誤差に基づく損失関数Ｌｏｓｓを用いて、局所モデルＬＭを規定する重みｗ_ｆ（＝ｗ_１からｗ_Ｆ）を更新する。尚、実際の距離ｄ_ｉ（つまり、距離ｄ_ｉの実際の算出値）は、図８のステップＳ２２３において近傍データＤＮ_ｉを抽出するために潜在ベクトルＺＱと潜在ベクトルＺＶ（つまり、近傍データＤＮ_ｉの特徴ベクトルＸＮ_ｉを変換モデルＴＭで変換することで生成される潜在ベクトルＺＮ_ｉ）とに基づいて算出された距離に相当する。損失関数Ｌｏｓｓは、距離ｄ_ｉの実際の算出値と距離ｄ_ｉの推定値ｄｐ_ｉとの間の誤差が小さくなるほど小さくなる損失関数であってもよい。この場合、局所モデル学習部４２４は、損失関数Ｌｏｓｓが最小になるように、局所モデルＬＭを規定する重みｗ_ｆ（＝ｗ_１からｗ_Ｆ）を更新してもよい。このような損失関数Ｌｏｓｓの一例が、数式２に示されている。但し、損失関数Ｌｏｓｓが数式２に示される損失関数に限定されることはない。

その後、貢献度算出部４２５は、潜在空間内におけるクエリデータＤＱと近傍データＤＮ_ｉとの間の距離ｄ_ｉに対して、特徴ベクトルＸＮ_ｉのｆ番目のベクトル成分（つまり、近傍データＤＮ_ｉのＦ個の要素に相当する特徴量）が与える影響の大きさを表す要素貢献度ｃ_ｉ、ｆを算出する（ステップＳ２４）。特徴ベクトルＸＮ_ｉのｐ（但し、ｐは、１≦ｐ≦Ｆを満たす整数を示す変数）番目のベクトル成分が一定量変化した場合の距離ｄ_ｉの変動量が、特徴ベクトルＸＮ_ｉのｒ（但し、ｒは、１≦ｒ≦Ｆ且つｒ≠ｐを満たす整数を示す変数）番目のベクトル成分が同じ一定量変化した場合の距離ｄ_ｉの変動量よりも大きい場合には、距離ｄ_ｉに対して特徴ベクトルＸＮ_ｉのｐ番目のベクトル成分が与える影響は、距離ｄ_ｉに対して特徴ベクトルＸＮ_ｉのｒ番目のベクトル成分が与える影響よりも大きい。このため、要素貢献度ｃ_ｉ、ｐは、要素貢献度ｃ_ｉ、ｒよりも大きくなる。

このような要素貢献度ｃ_ｉ、ｆを算出するために、貢献度算出部４２５は、ステップＳ２３で生成した局所モデルＬＭと、差分情報ｖ_ｉ，ｆとに基づいて、要素貢献度ｃ_ｉ、ｆを算出する。例えば、貢献度算出部４２５は、数式３を用いて、要素貢献度ｃ_ｉ、ｆを算出してもよい。数式３は、局所モデルＬＭを規定するパラメータ（この場合、重みｗ_ｆ）と差分情報ｖ_ｉ，ｆとに基づいて要素貢献度ｃ_ｉ、ｆを算出するために用いられる数式である。

貢献度算出部４２５は、変数ｆを１からＦの間で変化させ且つ変数ｉを１からｎの間で変化させながら要素貢献度ｃ_ｉ、ｆを算出することで、要素貢献度ｃ_１、１、ｃ_１、２、・・・、及びｃ_１、Ｆ、要素貢献度ｃ_２、１、ｃ_２、２、・・・、及びｃ_２、Ｆ、・・・、並びに、要素貢献度ｃ_ｎ、１、ｃ_ｎ、２、・・・、及びｃ_ｎ、Ｆを算出する。尚、上述した数式３を用いて要素貢献度ｃ_ｉ、ｆが算出される場合には、要素貢献度ｃ_ｉ、１からｃ_ｉ、Ｆの総和は、１になる。

その後、出力制御部４２６は、ステップＳ２３で検索部４２３が抽出したｎ個の近傍データＤＮ_１からＤＮ_ｎの少なくとも一つに関する情報を出力するように、出力装置４４を制御してもよい（ステップＳ２５）。尚、近傍データＤＮ_ｉに関する情報は、近傍データＤＮ_ｉの特徴ベクトルＸＮ_ｉを算出する根拠となったプロキシログデータ４１１１に関する情報を含んでいてもよい。つまり、出力制御部４２６は、ステップＳ２３で検索部４２３が抽出したｎ個の近傍データＤＮ_１からＤＮ_ｎの少なくとも一つに対応するプロキシログデータ４１１１に関する情報を出力するように、出力装置４４を制御してもよい。

或いは、出力制御部４２６は、ｎ個の近傍データＤＮ_１からＤＮ_ｎの少なくとも一つに関する情報に加えて又は代えて、ステップＳ２４で貢献度算出部４２５が算出した要素貢献度ｃ_１、１からｃ_ｎ、Ｆの少なくとも一つを出力するように、出力装置４４を制御してもよい（ステップＳ２５）。

一例として、出力制御部４２６は、図９に示すように、要素貢献度ｃ_１、１からｃ_ｎ、Ｆのリストを出力するように、出力装置４４を制御してもよい。尚、図９は、出力装置４４が表示装置である場合に出力装置４４が出力する（つまり、表示装置が表示する）要素貢献度ｃ_１、１からｃ_ｎ、Ｆのリストの一例を示している。図９に示す例では、近傍データＤＮ_ｉは、受信サイズの最小値に関する特徴量を示す１番目のベクトル成分と、受信サイズの最大値に関する特徴量を示す２番目のベクトル成分と、送信サイズの最小値に関する特徴量を示す３番目のベクトル成分と、送信サイズの最大値に関する特徴量を示す４番目のベクトル成分と、受信サイズと送信サイズとの総和に関する特徴量を示す５番目のベクトル成分と、メソッド（ＧＥＴ）に関する特徴量を示す６番目のベクトル成分と、メソッド（ＰＯＳＴ）に関する特徴量を示す７番目のベクトル成分と、メソッド（その他）に関する特徴量を示す８番目のベクトル成分とを含む。この場合、出力制御部４２６は、距離ｄ_ｉに対して受信サイズの最小値に関する特徴量が与える影響を示す要素貢献度ｃ_ｉ、１と、距離ｄ_ｉに対して受信サイズの最大値に関する特徴量が与える影響を示す要素貢献度ｃ_ｉ、２と、距離ｄ_ｉに対して送信サイズの最小値に関する特徴量が与える影響を示す要素貢献度ｃ_ｉ、３と、距離ｄ_ｉに対して送信サイズの最大値に関する特徴量が与える影響を示す要素貢献度ｃ_ｉ、４と、距離ｄ_ｉに対して受信サイズと送信サイズとの総和に関する特徴量が与える影響を示す要素貢献度ｃ_ｉ、５と、距離ｄ_ｉに対してメソッド（ＧＥＴ）に関する特徴量が与える影響を示す要素貢献度ｃ_ｉ、６と、距離ｄ_ｉに対してメソッド（ＰＯＳＴ）に関する特徴量が与える影響を示す要素貢献度ｃ_ｉ、７と、距離ｄ_ｉに対してメソッド（その他）に関する特徴量が与える影響を示す要素貢献度ｃ_ｉ、８とのリストを出力するように、出力装置４４を制御してもよい。

図９に示す例では、要素貢献度ｃ_１、１からｃ_１、４が相対的に大きい。このため、潜在空間におけるクエリデータＤＱと近傍データＤＮ_１との間の距離ｄ_ｉに対して、受信サイズ及び送信サイズの夫々に関する特徴量が与える影響が相対的に大きいことが分かる。また、図９に示す例では、要素貢献度ｃ_２、１からｃ_２、１が相対的に大きい。このため、潜在空間におけるクエリデータＤＱと近傍データＤＮ_２との間の距離ｄ_２に対して、受信サイズに関する特徴量が与える影響が相対的に大きいことが分かる。また、図９に示す例では、要素貢献度ｃ_３、１からｃ_３、１が相対的に大きい。このため、潜在空間におけるクエリデータＤＱと近傍データＤＮ_３との間の距離ｄ_３に対して、受信サイズに関する特徴量が与える影響が相対的に大きいことが分かる。

（３）情報処理装置１の技術的効果
以上説明したように、本実施形態の情報処理装置４は、潜在空間内におけるクエリデータＤＱと近傍データＤＮ_ｉとの間の距離ｄ_ｉに対して、近傍データＤＮ_ｉのｆ番目の要素に相当する特徴量が与える影響の大きさを表す要素貢献度ｃ_ｉ、ｆを算出することができる。このため、情報処理装置４のユーザは、要素貢献度ｃ_ｉ、ｆに基づいて、距離ｄ_ｉに対して相対的に大きな影響を与えている（つまり、距離ｄ_ｉの算出に対して相対的に大きく寄与している）特徴量を把握することができる。

また、情報処理装置４は、局所モデルＬＭを生成し、生成した局所モデルＬＭ（例えば、局所モデルＬＭを規定する重みｗ_ｆ）を用いて要素貢献度ｃ_ｉ、ｆを算出することができる。このため、情報処理装置４は、比較的容易に要素貢献度ｃ_ｉ、ｆを算出することができる。

また、情報処理装置４は、生成した局所モデルＬＭを規定する重みｗ_ｆを用いて要素貢献度ｃ_ｉ、ｆを算出することができる。このため、情報処理装置４は、上述した数式１のような比較的簡易的な数式（特に、行列演算を行う装置にとって扱いやすい数式）を用いて、要素貢献度ｃ_ｉ、ｆを算出することができる。

また、上述した例では、局所モデルＬＭは、バイアス項を含まない回帰式で特定される線形回帰モデルである。仮に局所モデルＬＭが、バイアス項を含む回帰式で特定される線形回帰モデルである場合には、情報処理装置４は、局所モデルＬＭを算出する際に及び／又は要素貢献度ｃ_ｉ、ｆを算出する際に、バイアス項に起因して生ずる原点からのずれ（つまり、表現空間及び／又は潜在空間内でのオフセット量）を考慮する必要がある。つまり、情報処理装置４は、局所モデルＬＭを算出する及び／又は要素貢献度ｃ_ｉ、ｆを算出するための行列演算を行う際に、行列同士の内積のみならず、行列成分のオフセット量（つまり、加減算）を考慮する必要がある。しかるに、本実施形態では、局所モデルＬＭが、バイアス項を含まない回帰式で特定される線形回帰モデルであるため、情報処理装置４は、局所モデルＬＭを算出する際に及び／又は要素貢献度ｃ_ｉ、ｆを算出する際に、バイアス項に起因して生ずる原点からのずれ（つまり、表現空間及び／又は潜在空間内でのオフセット量）を考慮しなくてもよくなる。このため、情報処理装置４は、比較的容易に、局所モデルＬＭを算出する及び／又は要素貢献度ｃ_ｉ、ｆを算出することができる。

また、上述した例では、局所モデルＬＭは、重みｗ_ｆが０以上になる回帰式で特定される線形回帰モデルである。仮に局所モデルＬＭが、重みｗ_ｆが０未満となることを許容する回帰式で特定される線形回帰モデルである場合には、要素貢献度ｃ_ｉ、ｆが負の値になる可能性がある。しかしながら、情報処理装置４のユーザにとっては、負の要素貢献度ｃ_ｉ、ｆは、直感的に分かりづらい指標であると想定される。一方で、本実施形態では、局所モデルＬＭが、重みｗ_ｆが０以上になる回帰式で特定される線形回帰モデルであるため、要素貢献度ｃ_ｉ、ｆが負の値になることはない。このため、情報処理装置４は、情報処理装置４のユーザにとって直感的に分かりやすい要素貢献度ｃ_ｉ、ｆを算出することができる。

尚、情報処理装置４は、要素貢献度ｃ_ｉ、ｆに基づいて、潜在空間におけるクエリデータＤＱと近傍データＤＮ_ｉとの間の距離ｄ_ｉが相対的に小さくなった要因を特定してもよい。つまり、情報処理装置４は、要素貢献度ｃ_ｉ、ｆに基づいて、クエリデータＤＱと近傍データＤＮ_ｉとが類似すると判定されることになった要因を特定してもよい。例えば、上述した図９に示す例では、要素貢献度ｃ_３、１からｃ_３、２が相対的に大きい。この場合、情報処理装置４は、クエリデータＤＱと近傍データＤＮ_３とが類似すると判定される要因が、受信サイズに起因していると特定してもよい。尚、上述したように、クエリデータＤＱと近傍データＤＮ_３とが類似している場合には、クエリデータＤＱが指定する検出ターゲット脅威と同じ又は類似する脅威がローカルシステムＬに既に侵入した可能性があると想定される。この場合、クエリデータＤＱと近傍データＤＮ_３とが類似すると判定される要因は、近傍データＤＮ_３に対応するプロキシログデータ４１１１が、検出ターゲット脅威と同じ又は類似する脅威の痕跡を示すと判定される要因と等価であるとも言える。

また、情報処理装置４は、要素貢献度ｃ_ｉ、ｆに基づいて、検索部４２３が抽出したｎ個の近傍データＤＮ_１からＤＮ_ｎを分類してもよい。具体的には、情報処理装置４は、要素貢献度ｃ_ｉ、ｆが類似する近傍データＤＮ_ｉが同じ貢献データ群に分類されるように、ｎ個の近傍データＤＮ_１からＤＮ_ｎを分類してもよい。この場合、情報処理装置４は、同じ貢献データ群に分類された近傍データＤＮ_ｉを用いて、局所モデルＬＭの重みｗ_ｆを更新するための学習動作を行ってもよい。

また、情報処理装置４は、要素貢献度ｃ_ｉ，ｆに基づいて、検索部４２３がｎ個の近傍データＤＮ_１からＤＮ_ｎのうちの少なくとも一つを誤って抽出してしまったか否かを判定してもよい。例えば、ｎ個の近傍データＤＮ_１からＤＮ_ｎがそもそもクエリデータＤＱに類似するがゆえに、通常は、近傍データＤＮ_１に対応するＦ個の要素貢献度ｃ_１、１からｃ_１、Ｆから構成されるベクトルと、近傍データＤＮ_２に対応するＦ個の要素貢献度ｃ_２、１からｃ_２、Ｆから構成されるベクトルと、・・・、近傍データＤＮ_ｎに対応するＦ個の要素貢献度ｃ_ｎ，１からｃ_ｎ、Ｆから構成されるベクトルとが互いに大きく異なるものになる可能性は高くはない。このような状況下で、近傍データＤＮ_ｊ（但し、ｊは、１≦ｊ≦ｎを満たす整数を示す変数）に対応するＦ個の要素貢献度ｃ_ｊ、ｆから構成されるベクトルと、近傍データＤＮ_ｊ以外の他の近傍データＤＮに対応するＦ個の要素貢献度ｃ_ｉ、ｆから構成されるベクトル（つまり、近傍データＤＮ_１に対応するＦ個の要素貢献度ｃ_１、ｆから構成されるベクトル、・・・、近傍データＤＮ_ｊ－１に対応するＦ個の要素貢献度ｃ_{ｊ－１、ｆ}から構成されるベクトル、近傍データＤＮ_ｊ＋１に対応するＦ個の要素貢献度ｃ_{ｊ＋１、ｆ}から構成されるベクトル、・・・、及び、近傍データＤＮ_ｎに対応するＦ個の要素貢献度ｃ_ｎ、ｆから構成されるベクトルの夫々）との間の差分が、許容量を超えるほどに大きくなっている場合には、検索部４２３が、近傍データＤＮ_ｊを、クエリデータＤＱに類似するデータとして誤って抽出してしまった可能性があると想定される。このような観点から、情報処理装置４は、要素貢献度ｃ_ｉ、ｆに基づいて、検索部４２３がｎ個の近傍データＤＮ_１からＤＮ_ｎのうちの少なくとも一つを誤って抽出してしまったか否かを判定してもよい。

（４）変形例
続いて、通信システムＳＹＳ（特に、情報処理装置４）の変形例について説明する。

（４－１）第１変形例

第１変形例では、情報処理装置４（特に、貢献度算出部４２５）は、要素貢献度ｃ_ｉ，ｆに加えて、グループ貢献度ｅを算出してもよい。グループ貢献度ｅは、ある近傍データの特徴ベクトルの各ベクトル成分（つまり、近傍データが示す特徴量の各要素）が複数の特徴グループの少なくとも一つに所属する（言い換えれば、分類される）という状況下で算出される指標値である。具体的には、グループ貢献度ｅは、潜在空間内におけるあるクエリデータとある近傍データとの間の距離に対して、各特徴グループが与える影響の大きさを表す。つまり、グループ貢献度ｅは、潜在空間内におけるあるクエリデータとある近傍データとの間の距離に対して、各特徴グループに所属する少なくとも一つのベクトル成分（つまり、一の特徴グループに分類される少なくとも一つの特徴量の要素）が与える影響の大きさを表す。

一例として、複数の特徴グループは、特徴ベクトルＸＮ_ｉを算出する元となったプロキシログデータ４１１１が含む複数のログ情報の種類に夫々対応するグループであってもよい。具体的には、上述した例では、プロキシログデータ４１１１は、複数種類のログ情報として、受信サイズ情報、送信サイズ情報及びメソッド情報を含む。この場合、複数の特徴グループとして、受信サイズに関する特徴グループと、送信サイズに関する特徴グループと、メソッドに関する特徴グループとが用いられてもよい。また、上述した例では、図９に示すように、近傍データＤＮ_ｉは、受信サイズの最小値に関する特徴量を示す１番目のベクトル成分と、受信サイズの最大値に関する特徴量を示す２番目のベクトル成分と、送信サイズの最小値に関する特徴量を示す３番目のベクトル成分と、送信サイズの最大値に関する特徴量を示す４番目のベクトル成分と、受信サイズと送信サイズとの総和に関する特徴量を示す５番目のベクトル成分と、メソッド（ＧＥＴ）に関する特徴量を示す６番目のベクトル成分と、メソッド（ＰＯＳＴ）に関する特徴量を示す７番目のベクトル成分と、メソッド（その他）に関する特徴量を示す８番目のベクトル成分とを含む。この場合、受信サイズの最小値に関する特徴量を示す１番目のベクトル成分と、受信サイズの最大値に関する特徴量を示す２番目のベクトル成分と、受信サイズと送信サイズとの総和に関する特徴量を示す５番目のベクトル成分とは、受信サイズに関する特徴グループに所属してもよい。送信サイズの最小値に関する特徴量を示す３番目のベクトル成分と、送信サイズの最大値に関する特徴量を示す４番目のベクトル成分と、受信サイズと送信サイズとの総和に関する特徴量を示す５番目のベクトル成分とは、送信サイズに関する特徴グループに所属してもよい。メソッド（ＧＥＴ）に関する特徴量を示す６番目のベクトル成分と、メソッド（ＰＯＳＴ）に関する特徴量を示す７番目のベクトル成分と、メソッド（その他）に関する特徴量を示す８番目のベクトル成分とは、受信サイズに関する特徴グループに所属してもよい。

近傍データＤＮ_ｉの特徴ベクトルＸＮ_ｉの各ベクトル成分がＧ（但し、Ｇは１以上の整数を示す定数）個の特徴グループの少なくとも一つに所属する場合には、貢献度算出部４２５は、潜在空間内におけるクエリデータＤＱと近傍データＤＮ_ｉとの間の距離ｄ_ｉに対して、ｇ（但し、ｇは、１≦ｇ≦Ｇを満たす整数を示す変数）番目の特徴グループが与える影響の大きさを表すグループ貢献度ｅを算出してもよい。尚、以下の説明では、距離ｄ_ｉに対してｇ番目の特徴グループが与える影響の大きさを表すグループ貢献度ｅを、“グループ貢献度ｅ_ｉ，ｇ”と称する。言い換えれば、貢献度算出部４２５は、距離ｄ_ｉに対して、ｇ番目の特徴グループに所属する少なくとも一つのベクトル成分が与える影響の大きさを表すグループ貢献度ｅ_ｉ，ｇを算出してもよい。この場合、貢献度算出部４２５は、変数ｇを１からＧの間で変化させながらグループ貢献度ｅ_ｉ，ｇを算出することで、距離ｄ_ｉに対して１番目の特徴グループに所属する少なくとも一つのベクトル成分が与える影響の大きさを表すグループ貢献度ｅ_ｉ，１と、距離ｄ_ｉに対して２番目の特徴グループに所属する少なくとも一つのベクトル成分が与える影響の大きさを表すグループ貢献度ｅ_ｉ，２と、・・・、距離ｄ_ｉに対してＧ番目の特徴グループに所属する少なくとも一つのベクトル成分が与える影響の大きさを表すグループ貢献度ｅ_ｉ，Ｇとを算出してもよい。

貢献度算出部４２５は、要素貢献度ｃ_ｉ，ｆに基づいて、グループ貢献度ｅ_ｉ，ｇを算出してもよい。例えば、貢献度算出部４２５は、数式４を用いて算出してもよい。数式４を用いて算出されたグループ貢献度ｅ_ｉ，ｇは、後述する所属率ｂ_ｇ，ｆで重み付けされた要素貢献度ｃ_ｉ，ｆの総和となる。

ここで、数式４におけるｂ_ｇ，ｆは、近傍データＤＮ_ｉのｆ番目のベクトル成分がｇ番目の特徴グループに所属する所属率を示す。尚、所属率ｂ_ｇ，ｆは、各ベクトル成分の所属率ｂ_ｇ，ｆの総和（つまり、ｂ_１，ｆ＋ｂ_２，ｆ＋・・・＋ｂ_Ｇ，ｆ）が１になるように設定される。例えば、ｆ番目のベクトル成分がｇ番目の特徴グループにのみ所属する場合には、ｆ番目のベクトル成分がｇ番目の特徴グループに所属する所属率ｂ_ｇ，ｆは、１（つまり、１００％）に設定されていてもよい。一方で、例えば、ｆ番目のベクトル成分がｇ１（但し、ｇ１は、１≦ｇ１≦Ｇを満たす整数を示す変数）番目の特徴グループ及びｇ２（但し、ｇ２は、１≦ｇ２≦Ｇ且つｇ２≠ｇ１を満たす整数を示す変数）番目の特徴グループの双方に所属する場合には、ｆ番目のベクトル成分がｇ１番目の特徴グループに所属する所属率ｂ_ｇ１，ｆは、１／２（＝５０％）に設定され、ｆ番目のベクトル成分がｇ２番目の特徴グループに所属する所属率ｂ_ｇ２，ｆは、１／２（＝５０％）に設定されていてもよい。つまり、一のベクトル成分がＨ（但し、Ｈは２以上の整数を示す定数）個の特徴グループに所属する場合には、一のベクトル成分がＨ個の特徴グループの夫々に所属する所属率ｂ_ｇ，ｆは、１／Ｎ（＝１００／Ｎ％）に設定されていてもよい。尚、所属率ｂ_ｇ，ｆは、予め設定されていてもよいし、情報処理装置４（特に、貢献度算出部４２５）によって設定されてもよい。

グループ貢献度ｅ_ｉ，ｇが算出された場合には、出力制御部４２６は、グループ貢献度ｅ_ｉ，ｇを出力するように、出力装置４４を制御してもよい。例えば、上述したように、グループ貢献度ｅ_ｉ，１からｅ_ｉ，Ｇは、プロキシログデータ４１１１が含むＧ種類のログ情報に夫々対応するＧ個の特徴グループに夫々対応する。このため、出力制御部４２６は、近傍データＤＮ_ｉに対応するプロキシログデータ４１１１に含まれるＧ種類のログ情報の少なくとも一部とＧ個のグループ貢献度ｅ_ｉ，１からｅ_ｉ，Ｇの少なくとも一部とを夫々関連付けた出力態様で、プロキシログデータ４１１１を出力するように、出力装置４４を制御してもよい。

Ｇ種類のログ情報の少なくとも一部とＧ個のグループ貢献度ｅ_ｉ，１からｅ_ｉ，Ｇの少なくとも一部とを夫々関連付けた表示態様は、ｇ番目の特徴グループに対応するｇ番目のログ情報とｇ番目の特徴グループのグループ貢献度ｅ_ｉ，ｇとを関連付けた表示態様を含んでいてもよい。具体的には、例えば、Ｇ種類のログ情報の少なくとも一部とＧ個のグループ貢献度ｅ_ｉ，１からｅ_ｉ，Ｇの少なくとも一部とを夫々関連付けた表示態様は、（ｉ）受信サイズに関するログ情報と受信サイズに関する特徴グループのグループ貢献度ｅ_ｉ，ｇとを関連付けた表示態様、（ｉｉ）送信サイズに関するログ情報と送信サイズに関する特徴グループのグループ貢献度ｅ_ｉ，ｇとを関連付けた表示態様、及び、（ｉｉｉ）メソッドに関するログ情報とメソッドに関する特徴グループのグループ貢献度ｅ_ｉ，ｇとを関連付けた表示態様を含んでいてもよい。ｇ番目のログ情報とグループ貢献度ｅ_ｉ，ｇとを関連付けた表示態様は、図１１（ａ）に示すように、ｇ番目のログ情報と共にグループ貢献度ｅ_ｉ，ｇを表示する表示態様を含んでいてもよい。ｇ番目のログ情報とグループ貢献度ｅ_ｉ，ｇとを関連付けた表示態様は、図１１（ｂ）に示すように、ｇ番目のログ情報の表示態様（例えば、色、明るさ、輝度及びハイライトの少なくとも一つ）をグループ貢献度ｅ_ｉ，ｇに応じて変更する表示態様を含んでいてもよい。例えば、図１１（ｂ）は、グループ貢献度ｅ_ｉ，ｇが相対的に高いログ情報をハイライト表示する例を示している。ｇ番目のログ情報とグループ貢献度ｅ_ｉ，ｇとを関連付けた表示態様は、ｇ番目のログ情報を表示するか否かがグループ貢献度ｅ_ｉ，ｇに応じて決定される表示態様を含んでいてもよい。例えば、グループ貢献度ｅ_ｉ，ｇが所定の表示閾値を下回る場合には、ｇ番目のログ情報は表示されなくてもよい。一方で、例えば、グループ貢献度ｅ_ｉ，ｇが所定の表示閾値を上回る場合には、ｇ番目のログ情報が表示されてもよい。

以上説明した第１変形例によれば、情報処理装置４は、グループ貢献度ｅ_ｉ，ｇを算出することができる。ここで、グループ貢献度ｅ_ｉ，ｇは、例えば、同じ特徴グループに対応する複数の要素貢献度ｃ_ｉ，ｆの総和である。このため、グループ貢献度ｅ_ｉ，ｇのばらつきは、各要素貢献度ｃ_ｉ，ｆのばらつきよりも小さくなる。このため、情報処理装置４は、要素貢献度ｃ_ｉ，ｆと比較して、より安定した貢献度とみなせるグループ貢献度ｅ_ｉ，ｇを算出することができる。

また、複数の特徴グループは、プロキシログデータ４１１１の複数のログ情報の種類に夫々対応している。このため、情報処理装置４は、近傍データＤＮ_ｉを表示する際に（つまり、近傍データＤＮ_ｉに対応するプロキシログデータ４１１１を表示する際に）、グループ貢献度ｅ_ｉ，ｇを近傍データＤＮ_ｉに関連付けた表示態様で近傍データＤＮ_ｉを比較的容易に表示することができる。

（４－２）第２変形例
上述した説明では、通信システムＳＹＳは、プロキシサーバ１を備えている。しかしながら、第２変形例では、図１２に示すように、通信システムＳＹＳは、プロキシサーバ１を備えていなくてもよい。つまり、クライアント２は、プロキシサーバ１を介することなく、サーバ３と通信してもよい。サーバ３は、プロキシサーバ１を介することなく、クライアント２と通信してもよい。この場合であっても、情報処理装置４は、クライアント２とサーバ３との間の通信の履歴を示すログデータを用いて、上述した脅威検出動作を行ってもよい。

（４－３）第３変形例
上述した説明では、情報処理装置４は、特徴抽出部４２１を備えている。しかしながら、第３変形例では、図１３に示すように、情報処理装置４は、特徴抽出部４２１を備えていなくてもよい。この場合、記憶装置４１は、プロキシログＤＢ４１１に含まれるプロキシログデータ４１１１から任意の方法で生成された特徴ベクトルＸＶを含む特徴データセット４１２を記憶していてもよい。尚、この場合には、図１３に示すように、記憶装置４１は、プロキシログＤＢ４１１を記憶していなくてもよい。

上述した説明では、情報処理装置４は、計量学習部４２２を備えている。しかしながら、第３変形例では、図１３に示すように、情報処理装置４は、計量学習部４２２を備えていなくてもよい。この場合、記憶装置４１は、情報処理装置４とは異なる装置によって生成された変換モデルＴＭを記憶していてもよい。尚、この場合には、図１３に示すように、記憶装置４１は、教師データセット４１３を記憶していなくてもよい。

上述した説明では、情報処理装置４は、出力制御部４２６を備えている。しかしながら、第３変形例では、図１３に示すように、情報処理装置４は、出力制御部４２６を備えていなくてもよい。この場合、出力制御部４２６が行っていた近傍データＤＮ_１からＤＮ_ｎ及び要素貢献度ｃ_ｉ、ｆを出力する動作は、情報処理装置４の外部の装置によって行われてもよい。

（４－４）第４変形例
上述した説明では、脅威検出動作を行う通信システムＳＹＳに対して、情報処理装置、情報処理方法、及び、記録媒体の実施形態が適用されている。しかしながら、第４変形例では、任意のデータを取り扱う任意のデータ処理装置に対して、情報処理装置、情報処理方法、及び、記録媒体の実施形態が適用されてもよい。この場合であっても、データ処理装置が取り扱う複数のデータの間の距離をベクトル空間内で定義可能である限りは、データ処理装置は、上述したモデル生成動作を行ってもよい。同様に、データ処理装置が取り扱う複数のデータの間の距離をベクトル空間内で定義可能である限りは、データ処理装置は、上述した脅威検出動作に準じたデータ検出動作を行ってもよい。尚、データ検出動作は、潜在空間内でクエリデータＤＱの近傍に位置するデータに相当する近傍データＤＮ_ｉを検出する処理と、潜在空間内でのクエリデータＤＱと近傍データＤＮ_ｉとの間の距離ｄ_ｉに対して近傍データＤＮ_ｉの特徴ベクトルＸＮ_ｉの各ベクトル成分が与える影響の大きさを表す要素貢献度ｃ_ｉ、ｆを算出する処理との少なくとも一つを含んでいてもよい。このようなデータ処理装置が取り扱うデータの一例として、リスト化可能なデータ、データベース化可能なデータ、及び、テーブル化可能なデータのうちの少なくとも一つがあげられる。

本発明は、請求の範囲及び明細書全体から読み取るこのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴う情報処理装置、情報処理方法、及び、記録媒体もまた本発明の技術思想に含まれる。

ＳＹＳ通信システム
１プロキシサーバ
２サーバ
３クライアント
４情報処理装置
４１記憶装置
４１１プロキシログＤＢ
４１１１プロキシログデータ
４１２特徴データセット
４１３教師データセット
４１３１教師データ
４２演算装置
４２１特徴抽出部
４２２計量学習部
４２３検索部
４２４局所モデル学習部
４２５貢献度算出部
ＴＭ変換モデル
ＬＭ局所モデル
ＤＱクエリデータ
ＤＶ特徴データ
ＤＮ近傍データ
ＸＱ、ＸＶ、ＸＮ特徴ベクトル
ＺＱ、ＺＶ、ＺＮ潜在ベクトル

Claims

複数のサンプルデータ群の特徴量を表現空間内で夫々示す複数の特徴ベクトルデータを、前記表現空間とは異なる潜在空間内で前記複数のサンプルデータ群の特徴量を夫々示す複数の潜在ベクトルデータに変換する変換手段と、
前記複数の潜在ベクトルデータに基づいて、前記複数の特徴ベクトルデータから、前記潜在空間内において所望のクエリデータからの距離が他の特徴ベクトルデータと比較して短い少なくとも一つの特徴ベクトルデータを、近傍データとして抽出する抽出手段と、
前記近傍データに基づいて、前記表現空間内での前記クエリデータと前記近傍データとの特徴量の要素毎の差分に関する差分情報が入力された場合に、前記潜在空間内での前記クエリデータと前記近傍データとの間の距離である潜在距離の推定値を出力する局所モデルを生成する生成手段と、
前記局所モデルと前記差分情報とに基づいて、前記潜在距離に対して前記近傍データの特徴量の各要素が与える影響の大きさを表す要素貢献度を算出する算出手段と
を備える情報処理装置。
前記算出手段は、前記局所モデルを規定するパラメータと前記差分情報とに基づいて、前記要素貢献度を算出する
請求項１に記載の情報処理装置。
前記局所モデルは、前記差分情報を説明変数として用い、且つ、前記潜在距離を目的変数として用いる線形回帰モデルを含み、
前記パラメータは、前記説明変数に掛け合わせられる重みを含む
請求項２に記載の情報処理装置。
前記線形回帰モデルは、バイアス項を含まない
請求項３に記載の情報処理装置。
前記重みは、０以上である
請求項３又は４に記載の情報処理装置。
前記近傍データ及び前記クエリデータの夫々の特徴量の要素数がＦ（但し、Ｆは、１以上の整数を示す定数）であり、前記近傍データの第ｆ（但し、ｆは、１≦ｆ≦Ｆを満たす整数を示す変数）番目の要素に相当する特徴量と前記クエリデータの第ｆ番目の要素に相当する特徴量との差分に関する前記差分情報がｖ_ｉ、ｆであり、前記差分情報ｖ_ｉ、ｆに掛け合わせられる重みがｗ_ｆであり、前記局所モデルが出力する前記潜在距離の推定値がｄｐ_ｉである場合に、前記生成手段は、数式１で表される前記線形回帰モデルを生成し、
前記潜在距離に対して前記近傍データの第ｆ番目の要素に相当する特徴量が与える影響の大きさを表す前記要素貢献度がｃ_ｉ、ｆである場合に、前記算出手段は、数式２を用いて、前記要素貢献度を算出する
請求項３から５のいずれか一項に記載の情報処理装置。
前記特徴ベクトルデータが示す特徴量の各要素は、異なる複数の特徴グループの少なくとも一つに所属可能であり、
前記算出手段は、前記要素貢献度に基づいて、前記潜在距離に対して各特徴グループが与える影響の大きさを示すグループ貢献度を算出する
請求項１から６のいずれか一項に記載の情報処理装置。
前記複数の特徴グループは、夫々、前記サンプルデータ群が含む複数のサンプル情報の種類に夫々対応しており、
前記近傍データが特徴量を示す前記サンプルデータ群に含まれる前記複数のサンプル情報の少なくとも一部と前記グループ貢献度と関連付けた表示態様で、前記サンプルデータ群を表示する表示手段を更に備える
請求項７に記載の情報処理装置。
複数のサンプルデータ群の特徴量を表現空間内で夫々示す複数の特徴ベクトルデータを、前記表現空間とは異なる潜在空間内で前記複数のサンプルデータ群の特徴量を夫々示す複数の潜在ベクトルデータに変換することと、
前記複数の潜在ベクトルデータに基づいて、前記複数の特徴ベクトルデータから、前記潜在空間内において所望のクエリデータからの距離が他の特徴ベクトルデータと比較して短い少なくとも一つの特徴ベクトルデータを、近傍データとして抽出することと、
前記近傍データに基づいて、前記表現空間内での前記クエリデータと前記近傍データとの特徴量の要素毎の差分に関する差分情報が入力された場合に、前記潜在空間内での前記クエリデータと前記近傍データとの間の距離である潜在距離の推定値を出力する局所モデルを生成すること、
前記局所モデルと前記差分情報とに基づいて、前記潜在距離に対して前記近傍データの特徴量の各要素が与える影響の大きさを表す要素貢献度を算出することと
を含む情報処理方法。
コンピュータに、
複数のサンプルデータ群の特徴量を表現空間内で夫々示す複数の特徴ベクトルデータを、前記表現空間とは異なる潜在空間内で前記複数のサンプルデータ群の特徴量を夫々示す複数の潜在ベクトルデータに変換することと、
前記複数の潜在ベクトルデータに基づいて、前記複数の特徴ベクトルデータから、前記潜在空間内において所望のクエリデータからの距離が他の特徴ベクトルデータと比較して短い少なくとも一つの特徴ベクトルデータを、近傍データとして抽出することと、
前記近傍データに基づいて、前記表現空間内での前記クエリデータと前記近傍データとの特徴量の要素毎の差分に関する差分情報が入力された場合に、前記潜在空間内での前記クエリデータと前記近傍データとの間の距離である潜在距離の推定値を出力する局所モデルを生成すること、
前記局所モデルと前記差分情報とに基づいて、前記潜在距離に対して前記近傍データの特徴量の各要素が与える影響の大きさを表す要素貢献度を算出することと
を含む情報処理方法を実行させるコンピュータプログラム。