JP7170955B1

JP7170955B1 - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: JP7170955B1
Application number: JP2022553624A
Authority: JP
Inventors: 匠山本; 清人河内
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2022-11-14
Anticipated expiration: 2040-12-07
Also published as: JPWO2022123623A1; DE112020007653T5; CN116569168A; WO2022123623A1; US20230262075A1

Abstract

正常分類部（１０１）は、攻撃目的のアクセスであることが判明しており検知部（１０２）が攻撃目的のアクセスであると判定した真陽性アクセスを抽出する。修正部（１０７）は、正常なアクセスであることが判明しており検知部（１０２）が正常なアクセスであると判定した真陰性アクセスの特徴を用いて、真陽性アクセスの特徴を修正する。

Description

本開示は、攻撃検知技術に関する。

近年、特定の企業又は組織を狙った標的型攻撃が増加している。制御システムのネットワーク化に伴い、発電プラント、ガスプラント等の重要インフラストラクチャーへのサイバー攻撃が脅威となり、国家の安全保障を揺るがす重大な懸念事項となっている。
一方、セキュリティ監視の現場においては、専門的な知識を必要とするスタッフが不足していることが常態化してしまっている。そのため、少ないスタッフでもサイバー攻撃を高精度かつ効率よく検知することができる技術が必要である。

サイバー攻撃を監視する技術としては、ルールベースの検知技術が従来からよく知られている。ルールベースの検知技術では、既知の不正なパターンを検出するルール（シグネチャ）、又は攻撃手口又は攻撃者のふるまいを検知するルールが用いられる。
しかし、攻撃の高度化及び未知攻撃の増加により、あらかじめルールを定義することが困難となり、ＳＯＣ（ＳｅｃｕｒｉｔｙＯｐｅｒａｔｉｏｎＣｅｎｔｅｒ）のスタッフを悩ましている。また、監視対象システムごとにルールを手作業で調整する必要があり、ルールベースの検知技術の限界が近づいている。このため、あらかじめルールを定義する必要のない、もしくは、正常と異常とを識別する境界が自動的に決められる高度な検知技術が望まれる。このような高度な検知技術を実現する技術として機械学習などのＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ（以下、ＡＩと略す）が考えられる。ＡＩはあらかじめ用意された複数のクラスのデータを学習し、クラス間を切り分ける境界を自動的に見つけ出す。クラスごとのデータを大量に用意することができれば、ＡＩは適切に境界を見つけることができる。ＡＩをサイバー攻撃の監視に応用することができれば、これまで専門的な知識やスキルを持つスタッフが行ってきたルールの定義及び更新をＡＩが代替してくれると期待される。
しかし、ネットワークセキュリティにおいては、ＡＩで最も重要なクラスごとのデータを大量に用意することが困難であるという課題がある。攻撃の発生は稀であり、攻撃データを学習用に大量に用意することは非常に難しい。そのため攻撃データを何らかの方法で増やし学習に利用していく必要がある。
また、攻撃者の能力は日々高まっている。昨今の攻撃者は、攻撃対象の組織の情報をよく調査し、理解した上で、攻撃検知システムに気づかれないように攻撃を仕掛けてくる。内部犯行も増えており、攻撃対象の組織の情報を活用した巧妙な攻撃が今後増えてくると考えられる。検知を回避するために正常な状態によく似た特徴を持つよう巧妙に設計および開発された攻撃にも対応できるよう、攻撃データの巧妙さも必要となってくる。
検知を回避するような異常（攻撃）データを大量に用意することが困難であるという課題を解決するための技術として、検知を回避する攻撃サンプルを数多く自動生成することで、攻撃検知技術の精度向上につなげる技術が存在する。

検知を回避する攻撃サンプルを生成する既存の技術として、特許文献１の技術および特許文献２の技術がある。
特許文献１では、セキュリティ製品の評価のために、正常な状態によく似た特徴を持つよう作られた巧妙な攻撃サンプルを自動的に生成する技術が開示されている。特許文献２では、セキュリティ製品の評価のために、本来検知すべきではない正常な事象を検知してしまう誤検知（ＦａｌｓｅＰｏｓｉｔｉｖｅ：ＦＰ）と、本来検知すべき事象を検知しない検知漏れ（ＦａｌｓｅＮｅｇａｔｉｖｅ：ＦＮ）を自動生成する技術が開示されている。
両技術では、ともに、正常データのふるまいを学習した正常モデルの決定境界を越えるように攻撃の特徴ベクトルを変更していく。また、両技術では、境界を越えた特徴ベクトルに対応する特徴を持つように模擬環境上で攻撃を生成する。両技術によれば、環境、攻撃等の制約及び攻撃機能の有無等を確認することでリアリティのある巧妙な攻撃を生成することができる。

特許６５４８８３７号特許６６９８９５６号

特許文献１の技術及び特許文献２の技術では、特徴空間上で検知システムの決定境界をまたぐように特徴ベクトルを修正し、検知を回避するサンプルを探索する。このため、特徴空間が非線形かつ高次元な攻撃検知技術には、これら技術を効率的に適用することが困難であった。
一般的に、高精度な攻撃検知システムになればなるほど、特徴空間が超高次元かつ非線形であり、特徴空間上の表現から実空間の情報に逆変換することは困難になる。それゆえ、特徴空間上で発見した検知を回避する攻撃サンプルから実空間上に存在するサンプルを取得することが困難であり、場当たり的で非効率な探索になると予想される。

本開示は、以上に鑑み、実空間で実際に存在し得る、検知を回避する攻撃を効率的に探索できるようにすることを主な目的とする。

本開示に係る情報処理装置は、
攻撃目的のアクセスであることが判明しており攻撃検知システムが攻撃目的のアクセスであると判定した真陽性アクセスを抽出する抽出部と、
正常なアクセスであることが判明しており前記攻撃検知システムが正常なアクセスであると判定した真陰性アクセスの特徴を用いて、前記真陽性アクセスの特徴を修正する修正部とを有する。

本開示によれば、実空間で実際に存在し得る、検知を回避する攻撃を効率的に探索することができる。

実施の形態１に係る攻撃ログ生成装置のハードウェア構成例を示す図。実施の形態１に係る攻撃ログ生成装置の機能構成例を示す図。実施の形態１に係る攻撃ログ生成装置の動作例を示すフローチャート。実施の形態１に係る攻撃生成部の内部構成例を示す図。実施の形態１に係る模擬環境の構成例を示す図。実施の形態１に係る近傍抽出部の内部構成例を示す図。実施の形態１に係る傾向抽出部の内部構成例を示す図。実施の形態１に係る特徴修正部の内部構成例を示す図。実施の形態１に係る特徴修正部の動作例を示すフローチャート。実施の形態１に係る特徴修正部の動作例を示すフローチャート。実施の形態１に係る特徴修正部の動作例を示すフローチャート。実施の形態２に係る攻撃ログ生成装置の機能構成例を示す図。実施の形態２に係る攻撃ログ生成装置の動作例を示すフローチャート。実施の形態２に係る近傍抽出部の内部構成例を示す図。実施の形態２に係る傾向抽出部の内部構成例を示す図。実施の形態２に係る特徴修正部の内部構成例を示す図。実施の形態２に係る特徴修正部の動作例を示すフローチャート。実施の形態２に係る特徴修正部の動作例を示すフローチャート。実施の形態２に係る特徴修正部の動作例を示すフローチャート。

以下、実施の形態を図を用いて説明する。以下の実施の形態の説明及び図面において、同一の符号を付したものは、同一の部分又は相当する部分を示す。

実施の形態１．
＊＊＊概要＊＊＊

以下では、正常なアクセスである正常アクセスであることが判明しており、攻撃検知システムが正常アクセスであると判定したアクセスを真陰性アクセスという。
また、攻撃アクセスであることが判明しており、攻撃検知システムが攻撃アクセスであると判定したアクセスを真陽性アクセスという。
また、攻撃目的の攻撃アクセスであることが判明しているが、攻撃検知システムが誤って正常アクセスであると判定したアクセスを偽陰性アクセスという。偽陰性アクセスは、検知漏れを生じさせるアクセスである。
また、正常アクセスであることが判明しているが、攻撃検知システムが誤って攻撃アクセスであると判定したアクセスを偽陽性アクセスという。偽陽性アクセスは、誤検知を生じさせるアクセスである。

本実施の形態では、正常アクセスの特徴が示される正常ログと、攻撃アクセスの特徴が示される攻撃ログが用いられる。正常ログには、複数のフィールドが含まれており、各フィールドに正常アクセスの特徴を表す値が記述されている。同様に、攻撃ログには、正常ログと同じ複数のフィールドが含まれており、各フィールドに攻撃アクセスの特徴を表す値が記述されている。
そして、本実施の形態では、正常ログから真陰性アクセスのログを抽出し、攻撃ログから真陽性アクセスのログを抽出する。更に、本実施の形態では、真陰性アクセスの特徴を用いて、真陽性アクセスの特徴を修正する。本実施の形態では、特徴が修正された後の真陽性アクセスである修正真陽性アクセスを攻撃検知システムが正常なアクセスであると判定するように、真陽性アクセスの特徴を修正する。つまり、本実施の形態では、真陽性アクセスが偽陰性アクセスとなるように真陽性アクセスの特徴を修正する。このように、本実施の形態では、真陽性アクセスの特徴を修正することにより、攻撃検知システムによる検知を回避できる偽陰性アクセスの攻撃サンプルを得る。

＊＊＊構成の説明＊＊＊
図１は、本実施の形態に係る攻撃ログ生成装置１００のハードウェア構成例を示す。また、図２は、本実施の形態に係る攻撃ログ生成装置１００の機能構成例を示す。
本実施の形態に係る攻撃ログ生成装置１００は、コンピュータである。攻撃ログ生成装置１００は、情報処理装置に相当する。また、攻撃ログ生成装置１００の動作手順は、情報処理方法に相当する。また、攻撃ログ生成装置１００の動作を実現するプラグラムは、情報処理プログラムに相当する。

図１に示すように、攻撃ログ生成装置１００は、ハードウェアとして、プロセッサ９０１、主記憶装置９０２、補助記憶装置９０３、キーボード９０４、マウス９０５及びディスプレイ装置９０６を備える。
補助記憶装置９０３には、図２に示す正常分類部１０１、検知部１０２、攻撃生成部１０３、近傍抽出部１０４、傾向抽出部１０５及び特徴修正部１０６の機能を実現するプログラムが記憶されている。
これらプログラムは、補助記憶装置９０３から主記憶装置９０２にロードされる。そして、プロセッサ９０１がこれらプログラムを実行して、後述する正常分類部１０１、検知部１０２、攻撃生成部１０３、近傍抽出部１０４、傾向抽出部１０５及び特徴修正部１０６の動作を行う。
図３では、プロセッサ９０１が正常分類部１０１、検知部１０２、攻撃生成部１０３、近傍抽出部１０４、傾向抽出部１０５及び特徴修正部１０６の機能を実現するプログラムを実行している状態を模式的に表している。
また、図２に示す検知回避攻撃ログＤＢ（Ｄａｔａｂａｓｅ）１１１、正常ログＤＢ１１２、攻撃ログＤＢ１１３、正常ログ統計情報ＤＢ１１４、真陰性正常ログＤＢ１１５、近傍真陰性正常ログＤＢ１１６及び真陰性正常ログ傾向ＤＢ１１７は、主記憶装置９０２又は補助記憶装置９０３により実現される。
キーボード９０４及びマウス９０５は、攻撃ログ生成装置１００のユーザからの指示を受け付ける。ディスプレイ装置９０６は、攻撃ログ生成装置１００のユーザに各種情報を表示する。
なお、図１には示していないが、攻撃ログ生成装置１００は通信装置を備えていてもよい。

図２において、正常分類部１０１は、真陰性アクセスを抽出する。より具体的には、正常分類部１０１は、正常ログＤＢ１１２内の正常ログから、検知部１０２により正常と判定された真陰性の正常ログを抽出する。正常ログには、複数のフィールドにおいて正常アクセスの特徴が記述されている。つまり、正常ログにより、正常アクセスが定義づけられる。このため、正常分類部１０１により抽出された真陰性の正常ログ（以下、真陰性正常ログという）により、真陰性アクセスが定義づけられる。正常分類部１０１は、抽出した真陰性正常ログを真陰性正常ログＤＢ１１５に格納する。
また、正常分類部１０１は、攻撃ログから真陽性アクセスを抽出する。より具体的には、正常分類部１０１は、攻撃ログＤＢ１１３内の攻撃ログから、検知部１０２により攻撃と判定された真陽性の攻撃ログを抽出する。攻撃ログには、攻撃生成部１０３により生成された攻撃アクセスの特徴が複数のフィールドにおいて記述されている。つまり、攻撃ログにより、攻撃アクセスが定義づけられる。このため、正常分類部１０１により抽出される真陽性の攻撃ログ（以下、真陽性攻撃ログという）により、真陽性アクセスが定義づけられる。正常分類部１０１は、抽出した真陽性攻撃ログを近傍抽出部１０４に出力する。
正常分類部１０１は、抽出部に相当する。また、正常分類部１０１により行われる処理は抽出処理に相当する。

検知部１０２は、攻撃検知システムとして機能する。
より具体的には、検知部１０２は、機械学習を利用して攻撃アクセスを検知する。前述したように、検知部１０２により正常と判定された正常ログは正常分類部１０１により真陰性正常ログとして真陰性正常ログＤＢ１１５に格納される。また、検知部１０２により攻撃と判定された攻撃ログは正常分類部１０１により真陽性攻撃ログとして近傍抽出部１０４に出力される。

攻撃生成部１０３は、攻撃シナリオに従って攻撃アクセスを生成する。そして、攻撃生成部１０３は、攻撃アクセスの特徴を表すログを攻撃ログとして攻撃ログＤＢ１１３に格納する。

近傍抽出部１０４、傾向抽出部１０５及び特徴修正部１０６をまとめて修正部１０７という。
修正部１０７は、正常分類部１０１により抽出された真陰性アクセスの特徴を用いて、正常分類部１０１により抽出された真陽性アクセスの特徴を修正する。より具体的には、修正部１０７は、特徴が修正された後の真陽性アクセスである修正真陽性アクセスを検知部１０２が正常アクセスであると判定するように、真陽性アクセスの特徴を修正する。また、修正部１０７は、修正真陽性アクセスを検知部１０２が攻撃アクセスであると判定した場合には、真陰性アクセスの特徴を用いて、修正真陽性アクセスの特徴を修正する。
修正部１０７により行われる処理は、修正処理に相当する。

近傍抽出部１０４は、真陰性正常ログＤＢ１１５から、正常分類部１０１により抽出された真陽性攻撃ログの近傍の真陰性正常ログ（以下、近傍真陰性正常ログという）を抽出する。
より具体的には、近傍抽出部１０４は、真陰性正常ログＤＢ１１５に含まれる真陰性正常ログのうち真陽性攻撃ログの特徴に近似する特徴を有する真陰性正常ログを近傍真陰性正常ログとして抽出する。

傾向抽出部１０５は、真陽性攻撃ログに複数の特徴がある場合に、真陽性攻撃ログの複数の特徴の各々の重要度（ｆｅａｔｕｒｅｉｍｐｏｒｔａｎｃｅ）を算出する。傾向抽出部１０５は、真陰性アクセスと真陽性アクセスとを区別する度合いが高い特徴の重要度が高くなるように真陽性攻撃ログの複数の特徴の各々の重要度を算出する。
また、傾向抽出部１０５は、真陽性攻撃ログの複数の特徴から、重要度が選択条件に合致する特徴を選択する。

特徴修正部１０６は、傾向抽出部１０５により選択された真陽性攻撃ログの特徴を、真陰性正常ログの対応する特徴を用いて修正する。
そして、特徴修正部１０６は、修正後の真陽性攻撃ログを検知回避攻撃ログとして検知回避攻撃ログＤＢ１１１に格納する。

検知回避攻撃ログＤＢ１１１は、検知回避攻撃ログを記憶する。

正常ログＤＢ１１２は、正常ログを記憶する。

攻撃ログＤＢ１１３は、攻撃ログを記憶する。

正常ログ統計情報ＤＢ１１４は、正常ログの統計情報（以下、正常ログ統計情報という）を記憶する。

真陰性正常ログＤＢ１１５は、真陰性正常ログを記憶する。

近傍真陰性正常ログＤＢ１１６は、近傍抽出部１０４により抽出された、近傍真陰性正常ログを記憶する。

真陰性正常ログ傾向ＤＢ１１７は、近傍抽出部１０４により抽出された近傍真陰性正常ログの傾向（以下、真陰性正常ログ傾向という）を記憶する。

＊＊＊動作の説明＊＊＊
次に、図３を参照して、本実施の形態に係る攻撃ログ生成装置１００の動作例を説明する。

先ず、正常分類部１０１が正常ログから真陰性正常ログを抽出する（ステップＳ１＿１）。
具体的には、正常ログＤＢ１１２にあらかじめ蓄積されている大量の正常ログを検知部１０２が解析し、検知部１０２が、正常ログで定義されるアクセスが正常アクセスに該当するか攻撃アクセスに該当するかを判定する。そして、正常分類部１０１は、検知部１０２が正常アクセスと判定した正常ログを真陰性正常ログとして抽出する。
そして、正常分類部１０１は、抽出した真陰性正常ログを真陰性正常ログＤＢ１１５に格納する。

次に、攻撃生成部１０３が攻撃を実行し、攻撃ログを生成する（ステップＳ１＿２）。
つまり、攻撃生成部１０３が攻撃アクセスを行い、攻撃アクセスの特徴が示される攻撃ログを生成する。そして、攻撃生成部１０３は、生成した攻撃ログを攻撃ログＤＢ１１３に格納する。

次に、検知部１０２が、攻撃ログを解析し、攻撃ログで定義されるアクセスが正常アクセスに該当するか攻撃アクセスに該当するかを判定する（ステップＳ１＿３）。

検知部１０２が攻撃ログで定義されるアクセスを正常アクセスに該当すると判定した場合（ステップＳ１＿３でＮＯ）は、処理がステップＳ１＿８に進む。

ステップＳ１＿８では、検知部１０２が正常アクセスに該当すると判定したアクセスは、検知部１０２の検知を回避できる攻撃アクセス（偽陰性アクセス）であるため、正常分類部１０１が、該当する真陽性攻撃ログを検知回避攻撃ログとして検知回避攻撃ログＤＢ１１１に格納する。

一方、検知部１０２が攻撃ログで定義されるアクセスを攻撃アクセスに該当すると判定した場合（ステップＳ１＿３でＹＥＳ）は、処理がステップＳ１＿４に進む。つまり、検知部１０２が攻撃アクセスに該当すると判定したアクセスは、検知部１０２で検知される攻撃アクセス（真陽性アクセス）である。このため、検知部１０２の検知を回避できるように真陽性攻撃ログの特徴を修正する必要がある。

ステップＳ１＿４では、近傍抽出部１０４が、近傍真陰性正常ログを抽出する。つまり、近傍抽出部１０４が、ステップＳ１＿３により得られた攻撃ログ（真陽性攻撃ログ）の近傍の真陰性正常ログを真陰性正常ログＤＢ１１５から抽出する。
ステップＳ１＿４の詳細は後述する。

次に、傾向抽出部１０５が、ステップＳ１＿４で取得された近傍真陰性正常ログの特徴の傾向を算出する（ステップＳ１＿５）。

次に、特徴修正部１０６が、真陽性攻撃ログに近傍真陰性正常ログの特徴の傾向が含まれるように真陽性攻撃ログを修正する（ステップＳ１＿６）。
つまり、特徴修正部１０６は、傾向抽出部１０５により算出された近傍真陰性正常ログの特徴の傾向が多く含まれるように真陽性攻撃ログの各フィールドを修正する。

次に、検知部１０２が、特徴修正部１０６により修正された後の真陽性攻撃ログ（修正真陽性攻撃ログ）で定義されるアクセス（修正真陽性アクセス）が正常アクセスに該当するか攻撃アクセスに該当するかを判定する（ステップＳ１＿７）。

検知部１０２が修正真陽性アクセスが正常アクセスに該当すると判定した場合（ステップＳ１＿７でＮＯ）は、正常分類部１０１が修正真陽性攻撃ログを検知回避攻撃ログとして検知回避攻撃ログＤＢ１１１に格納する（ステップＳ１＿８）。
修正真陽性攻撃ログに基づく修正真陽性アクセスを検知部１０２は攻撃として検知できないので、修正真陽性アクセスは攻撃検知システムの検知を回避可能な攻撃アクセスである。このため、正常分類部１０１は、修正真陽性攻撃ログを検知回避攻撃ログとして検知回避攻撃ログＤＢ１１１に格納する。

一方、検知部１０２が修正真陽性アクセスが攻撃アクセスに該当すると判定した場合（ステップＳ１＿７でＹＥＳ）は、処理がステップＳ１＿６に戻る。そして、特徴修正部１０６が更に修正真陽性攻撃ログを近傍真陰性正常ログの特徴を用いて修正する（ステップＳ１＿６）。

以上が攻撃ログ生成装置１００の動作のおおまかな流れである。
以下では、正常分類部１０１、検知部１０２、攻撃生成部１０３、近傍抽出部１０４、傾向抽出部１０５及び特徴修正部１０６の動作の詳細を説明する。

正常分類部１０１は、正常ログＤＢ１１２にあらかじめ用意している大量の正常ログの正常／異常を検知部１０２に判定させる。検知部１０２は、正常ログが正常か異常かを判定する。つまり、検知部１０２は、正常ログに記述される特徴が正常アクセスの特徴に該当するか、攻撃アクセスの特徴に該当するかを判定する。
正常分類部１０１は、検知部１０２による判定において正常と判定された正常ログを真陰性正常ログとして抽出する。そして、正常分類部１０１は、抽出した真陰性正常ログを真陰性正常ログＤＢ１１５に格納する。このとき、正常分類部１０１は、正常ログのカテゴリデータ（ドメイン、メソッド、ステータスコードなど）に対し、カテゴリデータごとに、ユニークな値の出現頻度及びパーセンタイルを算出する。そして、正常分類部１０１は、ユニークな値とパーセンタイルとのペアで構成される辞書を正常ログ統計情報として正常ログ統計情報ＤＢ１１４に格納する。パーセンタイルは、ユニークな値の出現頻度を小さいほうから順番に並べ、当該ユニークな値が何パーセント目にあたるかを示す指標である。正常分類部１０１は、ユニークな値とパーセンタイルとのペアに代えて、ユニークな値と出現頻度のペアで構成される辞書を正常ログ統計情報として正常ログ統計情報ＤＢ１１４に格納してもよい。

検知部１０２は、正常分類部１０１からログ（正常ログ又は攻撃ログ）を取得する。そして、検知部１０２は、ログから特徴を抽出し、抽出した特徴を機械学習アルゴリズムに入力するための表現（特徴ベクトル）に変換する。そして、検知部１０２は、特徴ベクトルを学習済みの検知モデルに適用する。これにより、検知部１０２は、ログが属するクラスを推測する。
学習データが正常アクセス及び攻撃アクセスのいずれのクラスに属するかが示される教師情報（ラベル）を与えた学習データを用いて検知モデルを学習する手法を教師有学習と呼ぶ。教師有学習が用いられる場合は、検知部１０２は、学習済みの検知モデルを利用して特徴ベクトルが正常アクセスと攻撃アクセスのどちらのクラスに属するかを推測する。
教師情報は用意せず、正常データのみを学習データとして用いて検知モデルを学習する手法を教師無学習と呼ぶ。教師無学習が用いられる場合は、検知部１０２は、学習済みの検知モデルを利用して特徴ベクトルが正常アクセスのクラスに属するか否かを推測する。

図４は、攻撃生成部１０３の内部構成例を示す。
図４に示すように、攻撃生成部１０３は、模擬環境１０３１、攻撃実行部１０３２、攻撃モジュール１０３３、攻撃シナリオＤＢ１０３４及びログ収集部１０３５から構成される。

模擬環境１０３１の構成例を図５に示す。
模擬環境１０３１は、企業又は組織の業務ネットワークを模擬した仮想環境である。
模擬環境１０３１は、例えば、プロキシサーバ、ファイアウォール、ファイルサーバ、ＡＤ（ＡｃｔｉｖｅＤｉｒｅｃｔｏｒｙ）サーバ、社内Ｗｅｂサーバ、ユーザ端末、踏み台端末及び疑似インターネットから構成される。疑似インターネットには攻撃者のコマンド＆コントロール（ＣｏｍｍａｎｄａｎｄＣｏｎｔｒｏｌ）サーバが含まれる。

攻撃モジュール１０３３は、ＣｙｂｅｒＫｉｌｌＣｈａｉｎにおける、偵察（Ｒｅｃｏｎｎａｉｓｓａｎｃｅ）、武器化（Ｗｅａｐｏｎｉｚａｔｉｏｎ）、デリバリー（Ｄｅｌｉｖｅｒｙ）、エクスプロイト（Ｅｘｐｌｏｉｔａｔｉｏｎ）、インストール（Ｉｎｓｔａｌｌａｔｉｏｎ）、コマンド＆コントロール（ＣｏｍｍａｎｄａｎｄＣｏｎｔｒｏｌ）、侵入拡大（ＬａｔｅｒａｌＭｏｖｅｍｅｎｔ）、目的の実行（ＡｃｔｉｏｎｓｏｎＯｂｊｅｃｔｉｖｅ）の各ステップを実現する、複数の基本モジュールである。
偵察は、公開情報などから、標的の情報（メールアドレスなど）を収集するステップである。
武器化は、攻撃のためのエクスプロイトキットやマルウェア等を生成するステップである。
デリバリーは、マルウェアを添付したメール又は悪意あるリンク付きメールを標的に送信する、標的のシステムへ直接アクセスする等のステップである。
エクスプロイトは、標的にマルウェアなどの攻撃ファイルを実行させる、標的に悪意あるリンクにアクセスさせる等のステップである。
インストールは、エクスプロイトを成功させ、標的にマルウェアに感染させるステップである。
コマンド＆コントロール（Ｃ＆Ｃ）は、マルウェアとＣ＆Ｃサーバが通信可能となり、Ｃ＆Ｃサーバがリモートから標的への操作を行うステップである。
侵入拡大は、Ｃ＆Ｃサーバがローカルのパスワードハッシュを使い他のコンピュータに侵入するステップである。
目的の実行は、情報搾取、改ざん、データ破壊、サービス停止等、攻撃者の目的が実行されるステップである。
攻撃モジュール１０３３は、これらの機能を実現するプログラムである。

攻撃シナリオＤＢ１０３４は、攻撃シナリオを記憶する。
攻撃シナリオは、一般的な標的型攻撃に合わせて、攻撃モジュール１０３３の組合せ及びパラメータ（例えば、通信頻度、通信先ドメイン、感染端末など）が定義された情報である。攻撃にバリエーションを持たすために数多くの攻撃シナリオが攻撃シナリオＤＢ１０３４に用意される。

攻撃実行部１０３２は、攻撃シナリオＤＢ１０３４で記憶されている攻撃シナリオを１つ選択する。そして、攻撃実行部１０３２は、選択した攻撃シナリオに従い、模擬環境１０３１上で攻撃モジュール１０３３を実行する。

ログ収集部１０３５は、攻撃実行時の模擬環境１０３１上のログを収集し、収集したログを攻撃ログとして攻撃ログＤＢ１１３に格納する。
攻撃ログには、例えば、プロキシサーバログ、ＡＤサーバログ、ファイルサーバログ、ファイアウォールログ等が含まれる。

図６は、近傍抽出部１０４の内部構成例を示す。
近傍抽出部１０４は、特徴抽出部１０４１、特徴表現部１０４２、近傍算出部１０４３から構成される。また、近傍抽出部１０４は、正常ログＤＢ１１２、真陰性正常ログＤＢ１１５及び近傍真陰性正常ログＤＢ１１６を用いる。

特徴抽出部１０４１は、ｘ個（仮に１つとする）の真陽性攻撃ログ及びｙ個の真陰性正常ログから規定の特徴を抽出する。ｙはｘよりも十分大きな数である。

特徴表現部１０４２は、真陽性攻撃ログ及び真陰性正常ログから抽出した特徴を機械学習アルゴリズムで処理しやすい形式（特徴ベクトル）に変換する。特徴表現部１０４２は、ドメイン、メソッド、ステータスコードなどのカテゴリデータを、例えば、Ｏｎｅ－ｈｏｔエンコーディング又は、以下の参考文献に記載されているＦｒｅｑｕｅｎｃｙＥｎｃｏｄｉｎｇに変換する。
参考文献：ＳｔｅｖｅＴ．Ｋ．Ｊａｎ、ｅｔａｌ、ＴｈｒｏｗｉｎｇＤａｒｔｓｉｎｔｈｅＤａｒｋ？ＤｅｔｅｃｔｉｎｇＢｏｔｓｗｉｔｈＬｉｍｉｔｅｄＤａｔａｕｓｉｎｇＮｅｕｒａｌＤａｔａＡｕｇｍｅｎｔａｔｉｏｎ，Ｓｅｃｕｒｉｔｙ＆Ｐｒｉｖａｃｙ２０２０（ｈｔｔｐｓ：／／ｐｅｏｐｌｅ．ｃｓ．ｖｔ．ｅｄｕ／ｖｂｉｍａｌ／ｐｕｂｌｉｃａｔｉｏｎｓ／ｓｙｎｔｈｅｔｉｃｄａｔａ－ｓｐ２０．ｐｄｆ）

また、特徴表現部１０４２は、数値データを正規化又は標準化する。数値データを正規化又は標準化することで、特徴表現部１０４２は、特徴の種別間で数値データの大きさをそろえる。

更に、近傍算出部１０４３は、真陽性攻撃ログの特徴ベクトルと真陰性正常ログの特徴ベクトルを用い、真陽性攻撃ログそれぞれの近傍Ｋ_０個の近傍真陰性正常ログを特定する。ｘ個の真陽性攻撃ログの近傍の真陰性正常ログの総数をＫ_１個とする。Ｋ_１≧Ｋ_０である。そして、近傍算出部１０４３は、特定したＫ_１個の近傍真陰性正常ログを近傍真陰性正常ログＤＢ１１６に格納する。
近傍算出部１０４３は、例えば、ＫＮＮ（Ｋ－ｎｅａｒｅｓｔｎｅｉｇｈｂｏｒ）法を利用して、Ｋ_１個の近傍真陰性正常ログを特定する。近傍算出部１０４３がＫ_１個の近傍真陰性正常ログを特定する際に利用する特徴又は特徴表現は検知部１０２が用いる特徴又は特徴表現と異なっていてもよい。また、近傍算出部１０４３は、距離尺度としてＥｕｃｌｉｄ距離などを用いる。

図７は、傾向抽出部１０５の内部構成例を示す。
傾向抽出部１０５は、特徴抽出部１０５１、特徴表現部１０５２、重要度算出部１０５３、傾向算出部１０５４から構成される。また、傾向抽出部１０５は、近傍真陰性正常ログＤＢ１１６と真陰性正常ログ傾向ＤＢ１１７を用いる。

特徴抽出部１０５１は、近傍真陰性正常ログＤＢ１１６からＫ_１個の近傍真陰性正常ログを取得する。また、特徴抽出部１０５１は、例えば、近傍抽出部１０４からｘ個（仮に１つとする）真陽性攻撃ログを取得する。
そして、特徴抽出部１０５１は、特徴抽出部１０４１と同様に、Ｋ_１個の近傍真陰性正常ログと、ｘ個の真陽性攻撃ログとから、規定の特徴を抽出する。

特徴表現部１０５２も、特徴表現部１０４２と同様に、Ｋ_１個の近傍真陰性正常ログとｘ個の真陽性攻撃ログから抽出した特徴を機械学習アルゴリズムで処理しやすい形式（特徴ベクトル）に変換する。特徴表現部１０５２が特徴ベクトルに変換する特徴又は特徴表現は検知部１０２が用いる特徴又は特徴表現と異なっていてもよい。

重要度算出部１０５３は、特徴表現部１０５２により得られた特徴ベクトルを用いて、Ｋ_１個の近傍真陰性正常ログと、ｘ個の真陽性攻撃ログとを区別する識別器（Ｃ_１）を学習する。重要度算出部１０５３は、識別器（Ｃ_１）がＫ_１個の近傍真陰性正常ログとｘ個（例えば１個）の真陽性攻撃ログとを区別する度合いである特徴の重要度（ｆｅａｔｕｒｅｉｍｐｏｒｔａｎｃｅ）を真陽性攻撃ログの特徴ベクトルの各々について算出する。重要度算出部１０５３は、近傍真陰性正常ログと真陽性攻撃ログとを区別する度合いが高い特徴の重要度が高くなるように特徴ベクトルの各々の重要度を算出する。
そして、重要度算出部１０５３は、重要度の大きい上位ｎ_１件の特徴Ｆ_１１～Ｆ_１ｎ１を抽出する。ｎ_１は１以上である。重要度算出部１０５３は、例えば、ランダムフォレストを用いて重要度を算出する。

傾向算出部１０５４は、Ｋ_１個の近傍真陰性正常ログにおける特徴Ｆ_１１～Ｆ_１ｎ１についての統計情報を取得する。傾向算出部１０５４は、カテゴリデータである特徴については、カテゴリデータのパーセンタイルの中央値（メディアン、ｍｅｄ_１）と最頻値（モード、ｍｏｄ_１）を統計情報として取得する。また、傾向算出部１０５４は、数値データである特徴については、数値データの平均（μ_１）と標準偏差（σ_１）を統計情報として取得する。
そして、傾向算出部１０５４は、統計情報を真陰性正常ログ傾向ＤＢ１１７に格納する。

図８は、特徴修正部１０６の内部構成例を示す。
特徴修正部１０６は、データ修正部１０６１及び検証部１０６２から構成される。特徴修正部１０６は、検知回避攻撃ログＤＢ１１１を用いる。

図９はデータ修正部１０６１及び検証部１０６２の動作例を示す。

先ず、データ修正部１０６１は、特徴Ｆ_１１～Ｆ_１ｎ１の中で未確認の特徴があるかを確認する（ステップＳ２＿１）。

未確認の特徴がある場合（ステップＳ２＿１でＹＥＳ）は、データ修正部１０６１は、未確認の特徴Ｆ_１ｉ（ｉは１～ｎ１のうちのいずれか）を選択する（ステップＳ２＿２）。
以下では、特徴Ｆ_１ｉが特徴Ｆ_１１である場合を例にしてデータ修正部１０６１の動作を記載する。

データ修正部１０６１は、次に、真陽性攻撃ログの対応するフィールドから特徴Ｆ_１１の実際の値を取得する（ステップＳ２＿３）。
そして、データ修正部１０６１は、リスト_１１を生成する（ステップＳ２＿４）。リスト_１１には、真陽性攻撃ログの特徴Ｆ_１１の実際の値を、近傍真陰性正常ログの特徴Ｆ_１１の実際の値で修正した後の修正値が含まれる。つまり、リスト_１１には、Ｋ_１個の近傍真陰性正常ログの特徴Ｆ_１１の値が反映された複数の修正値が含まれる。
なお、リスト_１１の生成方法は後述する。

データ修正部１０６１は、他の特徴Ｆ_１２～Ｆ_１ｎ１についてもステップＳ２＿２からステップＳ２＿４の処理を行う。

特徴Ｆ_１１～Ｆ_１ｎ１の全てにステップＳ２＿２からステップＳ２＿４の処理が行われると（ステップＳ２＿１でＮＯ）、データ修正部１０６１は、特徴Ｆ_１１～Ｆ_１ｎ１のリスト_１１～リスト_１ｎ１に含まれる修正値を全て組合せ、組合せごとに対応する攻撃ログ（修正真陽性攻撃ログ）を生成する（ステップＳ２＿５）。リスト_１１～リスト_１ｎ１の各リストに含まれる修正値の数がｒ_１ｊ（ｊは１～ｎ１）の場合、生成される攻撃ログ（修正真陽性攻撃ログ）の種類はＮ＝Πｒ_１ｊとなる。特徴Ｆ_１１～Ｆ_１ｎ１に対応しないフィールドでは真陽性攻撃ログの実際の値が保持される。

次に、検証部１０６２が、各修正真陽性攻撃ログを検証する（ステップＳ２＿６）。
具体的には、検証部１０６２は、検知部１０２に各修正真陽性攻撃ログで定義されるアクセスが正常アクセス及び攻撃アクセスのいずれに該当するかを判定させる。

そして、検証部１０６２は、検知部１０２により正常アクセスと判定された修正真陽性攻撃ログを検知回避攻撃ログとして検知回避攻撃ログＤＢ１１１に格納する（ステップＳ２＿７）。検証部１０６２は、Ｘ＞１の場合、全ての真陽性攻撃ログに対して同じ方法で検知回避攻撃ログを作成する。

次に、図９のステップＳ２＿４に示されるリスト（リスト_１１～リスト_１ｎ１）の生成方法を図１０及び図１１を用いて説明する。ここでも、特徴Ｆ_１１についてのリスト_１１を生成する例を説明する。

データ修正部１０６１は、特徴Ｆ_１１がカテゴリデータであるか、数値データであるかを判定する（ステップＳ３＿１）。
カテゴリデータは、ドメイン、メソッド、ステータスコード等である。数値データは、リクエストサイズ、時間間隔等である。

特徴Ｆ_１１がカテゴリデータである場合は、データ修正部１０６１は、正常ログ統計情報の辞書から特徴Ｆ_１１のカテゴリデータのパーセンタイルの値を取得し、取得したパーセンタイルの値をｃａｔ_１１に設定する（ステップＳ３＿２）。また、データ修正部１０６１は、真陰性正常ログ傾向ＤＢ１１７からＫ_１個の近傍真陰性正常ログにおける特徴Ｆ_１１の統計情報として最頻値ｍｏｄ_１１を参照する（ステップＳ３＿２）。

次に、データ修正部１０６１は、ｃａｔ_１１の値とｍｏｄ_１１の値とを比較する（ステップＳ３＿３）。
ｃａｔ_１１の値がｍｏｄ_１１の値より大きい場合（ステップＳ３＿３でＮＯ、ステップＳ３＿４でＮＯ、ステップＳ３＿５でＹＥＳ）は、データ修正部１０６１は、ｃａｔ_１１の値がｍｏｄ_１１の値にΔ_１１ずつ近づくよう（小さくなるよう）にｃａｔ_１１の値を更新し、更新後のｃａｔ_１１の値をリスト_１１に追加する（ステップＳ３＿６）。既にリスト_１１にｃａｔ_１１の値が記載されている場合は、データ修正部１０６１は、既に記載されているｃａｔ_１１の値を新たなｃａｔ_１１の値で上書きする。なお、Δ_１１は規定の値である。
データ修正部１０６１は、ｃａｔ_１１の値がｍｏｄ_１１の値以上である間（ステップＳ３＿５でＹＥＳ）、ステップＳ３＿６の処理を繰り返す。
ｃａｔ_１１の値がｍｏｄ_１１の値未満になったら（ステップＳ３＿４でＮＯ）、処理がステップＳ３＿９に進む。

ｃａｔ_１１の値がｍｏｄ_１１の値と等しい場合（ステップＳ３＿３でＮＯ、ステップＳ３＿４でＹＥＳ）は、処理がステップＳ３＿９に進む。

また、ｃａｔ_１１の値がｍｏｄ_１１の値よりも小さい場合（ステップＳ３＿３でＹＥＳ、ステップＳ３＿７でＹＥＳ）、データ修正部１０６１は、ｃａｔ_１１の値がｍｏｄ_１１の値にΔ_１１ずつ近づくよう（大きくなるよう）にｃａｔ_１１の値を更新し、更新後のｃａｔ_１１の値をリスト_１１に追加する（ステップＳ３＿８）。既にリスト_１１にｃａｔ_１１の値が記載されている場合は、データ修正部１０６１は、既に記載されているｃａｔ_１１の値を新たなｃａｔ_１１の値で上書きする。
データ修正部１０６１は、ｃａｔ_１１の値がｍｏｄ_１１の値以下である間（ステップＳ３＿７でＮＯ）、ステップＳ３＿８の処理を繰り返す。
ｃａｔ_１１の値がｍｏｄ_１１の値よりも大きくなったら（ステップＳ３＿７でＹＥＳ）、処理がステップＳ３＿９に進む。

ステップＳ３＿９では、データ修正部１０６１は、リスト_１１を確定する。

ステップＳ３＿１において特徴Ｆ_１１が数値データである場合は、データ修正部１０６１は、特徴Ｆ_１１の数値データの値をｎｕｍ_１１に設定する（ステップＳ３＿１０）。更に、データ修正部１０６１は、真陰性正常ログ傾向ＤＢ１１７からＫ_１個の近傍真陰性正常ログにおける特徴Ｆ_１１の統計情報として平均μ_１１と標準偏差σ_１１を参照する（ステップＳ３＿１０）。

次に、データ修正部１０６１は、ｎｕｍ_１１の値とμ_１１の値とを比較する（ステップＳ３＿１１）。
ｎｕｍ_１１の値がμ_１１の値よりも大きい場合（ステップＳ３＿１１でＮＯ、ステップＳ３＿１２でＮＯ、ステップＳ３＿１３でＹＥＳ）に、データ修正部１０６１は、ｎｕｍ_１１の値がμ_１１の値にΔ_１１ずつ近づくよう（小さくなるよう）にｎｕｍ_１１値を更新し、更新後のｎｕｍ_１１の値をリスト_１１に追加する（ステップＳ３＿１４）。既にリスト_１１にｎｕｍ_１１の値が記載されている場合は、データ修正部１０６１は、既に記載されているｎｕｍ_１１の値を新たなｎｕｍ_１１の値で上書きする。
なお、Δ_１１は規定の値である。このΔ_１１は、特徴Ｆ_１１がカテゴリデータである場合に用いるΔ_１１と同じ値でもよいし、異なる値でもよい。
データ修正部１０６１は、ｎｕｍ_１１の値が（μ_１１－τ_１１）の値以上である間（ステップＳ３＿１３でＹＥＳ）、ステップＳ３＿１４の処理を繰り返す。τ_１１も規定の値である。τ_１１は、例えば、３×σ_１１ように特徴Ｆ_１１に関わる統計値から定義することが考えられる。
ｎｕｍ_１１の値が（μ_１１－τ_１１）未満になったら（ステップＳ３＿１３でＮＯ）、処理がステップＳ３＿１７に進む。

ｎｕｍ_１１の値がμ_１１の値と等しい場合（ステップＳ３＿１１でＮＯ、ステップＳ３＿１２でＹＥＳ）は、処理がステップＳ３＿１７に進む。

また、ｎｕｍ_１１の値がμ_１１の値より小さい場合（ステップＳ３＿１１でＹＥＳ、ステップＳ３＿１５でＹＥＳ）は、データ修正部１０６１は、ｎｕｍ_１１の値がμ_１の値_１に近づくよう（大きくなるよう）にΔ_１１ずつｎｕｍ_１１を更新し、更新後のｎｕｍ_１１の値をリスト_１１に追加する（ステップＳ３＿１６）。既にリスト_１１にｎｕｍ_１１の値が記載されている場合は、データ修正部１０６１は、既に記載されているｎｕｍ_１１の値を新たなｎｕｍ_１１の値で上書きする。
データ修正部１０６１は、ｎｕｍ_１１の値が（μ_１１＋τ_１１）の値以下である間（ステップＳ３＿１５でＹＥＳ）、ステップＳ３＿１６の処理を繰り返す。
ｎｕｍ_１１の値が（μ_１１－τ_１１）よりも大きくなったら（ステップＳ３＿１５でＮＯ）、処理がステップＳ３＿１７に進む。

ステップＳ３＿１７では、データ修正部１０６１は、リスト_１１を確定する。

その後、データ修正部１０６１は、特徴Ｆ_１２～Ｆ_１ｎ１についても同様の手順にて、リスト_１２～リスト_１ｎ１を生成する。リスト_１１～リスト_１ｎ１の生成が完了したら、データ修正部１０６１は、図９のステップＳ２＿５を行う。

なお、図１０では、カテゴリデータの最頻値（ｍｏｄ）を用いる例を示したが、最頻値（ｍｏｄ）の代わりに中央値（ｍｅｄ）等の他の統計情報を利用してもよい。

＊＊＊実施の形態の効果の説明＊＊＊
以上のように、本実施の形態では、特徴が修正された後の真陽性アクセスである修正真陽性アクセスを攻撃検知システムが正常アクセスであると判定するように、真陰性アクセスの特徴を用いて、真陽性アクセスの特徴を修正する。このため、本実施の形態によれば、攻撃検知システムによる検知を回避できる偽陰性アクセスの攻撃サンプルを得ることができる。従って、本実施の形態によれば、実空間で実際に存在し得る、検知を回避する攻撃を効率的に探索することができる。

また、本実施の形態では、特徴空間上での特徴ベクトルの修正ではなく、実空間上でログの項目を修正し、修正後のログの項目を特徴ベクトルに変換する。そして、変換により得られた特徴ベクトルを用いて特徴空間上で攻撃が検知を回避する否かを確認する。しかし、このままでは場当たり的な探索になる。このため、本実施の形態では、新たに生成する特徴空間上で真陽性攻撃ログの近傍の真陰性正常ログを特定し、真陰性正常ログに多く見られる特徴の値を持つように真陽性攻撃ログを修正する。このようにすることで、場当たり的な探索になることを防ぐ。

実施の形態２．
実施の形態１では、真陽性攻撃ログの近傍の真陰性正常ログに多く見られる特徴の値を持つように真陽性攻撃ログを修正して、検知を回避することができる攻撃ログを効率的に生成している。実施の形態２では、真陰性正常ログに加えて、偽陽性の正常ログ（以下、偽陽性正常ログという）も用いて、検知を回避することができる攻撃ログを効率的に生成する例を説明する。
なお、偽陽性正常ログは、偽陽性アクセスの特徴が複数のフィールドに記述される正常ログである。偽陽性アクセスとは、前述したとおり、正常アクセスであることが判明しているが、攻撃検知システムが誤って攻撃アクセスであると判定したアクセスである。偽陽性アクセスは、攻撃検知システムでの誤検知を生じさせるアクセスである。

本実施の形態では、主に実施の形態１との差異を説明する。
なお、以下で説明していない事項は、実施の形態１と同様である。

＊＊＊構成の説明＊＊
図１２は、本実施の形態に係る攻撃ログ生成装置１００の機能構成例を示す。
図１２では、図２と比較して、偽陽性正常ログＤＢ１１８、近傍偽陽性正常ログＤＢ１１９及び偽陽性正常ログ傾向ＤＢ１２０が追加されている。

偽陽性正常ログＤＢ１１８は、偽陽性正常ログを記憶する。
近傍偽陽性正常ログＤＢ１１９は、真陽性攻撃ログの近傍の偽陽性正常ログである近傍偽陽性正常ログを記憶する。
偽陽性正常ログ傾向ＤＢ１２０は、偽陽性正常ログの統計情報（以下、偽陽性正常ログ統計情報という）を記憶する。
偽陽性正常ログＤＢ１１８、近傍偽陽性正常ログＤＢ１１９及び偽陽性正常ログ傾向ＤＢ１２０は、例えば、主記憶装置９０２又は補助記憶装置９０３により実現される。

本実施の形態では、正常分類部１０１は、正常ログＤＢ１１２に蓄積されている正常ログを真陰性正常ログと偽陽性正常ログに分類する。

また、本実施の形態では、修正部１０７は、真陰性アクセスの特徴と偽陽性アクセスの特徴とを用いて真陽性アクセスの特徴を修正する。つまり、修正部１０７は、近傍真陰性正常ログの特徴と近傍偽陽性正常ログの特徴を用いて、真陽性攻撃ログの特徴を修正する。より具体的には、修正部１０７は、近傍真陰性正常ログの特徴のうち近傍偽陽性正常ログの特徴と重複する特徴を排除した後の近傍真陰性正常ログの特徴を用いて、真陽性攻撃ログの特徴を修正する。
本実施の形態でも、修正部１０７は、修正真陽性攻撃ログで定義される修正真陽性アクセスを検知部１０２（攻撃検知システム）が攻撃アクセスであると判定した場合に、近傍真陰性正常ログの特徴と近傍偽陽性正常ログの特徴とを用いて、修正真陽性攻撃ログの特徴を修正する。
図１２に示す他の構成要素は図２に示すものと同様であるため、説明を省略する。

＊＊＊動作の説明＊＊＊
図１３を用いて、本実施の形態に係る攻撃ログ生成装置１００の動作例を説明する。

先ず、正常分類部１０１が正常ログを真陰性正常ログと偽陽性正常ログに分類する（ステップＳ４＿１）。
具体的には、正常ログＤＢ１１２にあらかじめ蓄積されている大量の正常ログを検知部１０２が解析し、検知部１０２が、正常ログで定義されるアクセスが正常アクセスに該当するか攻撃アクセスに該当するかを判定する。そして、正常分類部１０１は、検知部１０２が正常アクセスと判定した正常ログを真陰性正常ログに分類する。また、正常分類部１０１は、検知部１０２が攻撃アクセスと判定した正常ログを偽陽性正常ログに分類する。
そして、正常分類部１０１は、真陰性正常ログを真陰性正常ログＤＢ１１５に格納し、偽陽性正常ログを偽陽性正常ログＤＢ１１８に格納する。

次に、攻撃生成部１０３が攻撃を実行し、攻撃ログを生成する（ステップＳ４＿２）。
つまり、攻撃生成部１０３が攻撃アクセスを行い、攻撃アクセスの特徴が示される攻撃ログを生成する。そして、攻撃生成部１０３は、生成した攻撃ログを攻撃ログＤＢ１１３に格納する。

次に、検知部１０２が、攻撃ログを解析し、攻撃ログで定義されるアクセスが正常アクセスに該当するか攻撃アクセスに該当するかを判定する（ステップＳ４＿３）。

検知部１０２が攻撃ログで定義されるアクセスを正常アクセスに該当すると判定した場合（ステップＳ４＿３でＮＯ）は、処理がステップＳ４＿８に進む。

ステップＳ４＿８では、検知部１０２が正常アクセスに該当すると判定したアクセスは、検知部１０２の検知を回避できる攻撃アクセス（偽陰性アクセス）であるため、正常分類部１０１が、該当する攻撃ログを検知回避攻撃ログとして検知回避攻撃ログＤＢ１１１に格納する。

一方、検知部１０２が攻撃ログで定義されるアクセスを攻撃アクセスに該当すると判定した場合（ステップＳ４＿３でＹＥＳ）は、処理がステップＳ４＿４に進む。

ステップＳ４＿４では、近傍抽出部１０４が、ステップＳ４＿３により得られた攻撃ログ（真陽性攻撃ログ）近傍の真陰性正常ログと偽陽性正常ログを真陰性正常ログＤＢ１１５と偽陽性正常ログＤＢ１１８から抽出する（ステップＳ４＿４）。

次に、傾向抽出部１０５が、ステップＳ４＿４で抽出された近傍真陰性正常ログと近傍偽陽性正常ログの特徴の傾向を算出する（ステップＳ４＿５）。

次に、特徴修正部１０６が、真陽性攻撃ログに近傍真陰性正常ログの特徴の傾向が多く含まれるが近傍偽陽性正常ログの特徴の傾向は含まれないように真陽性攻撃ログを修正する（ステップＳ４＿６）。
つまり、特徴修正部１０６は、近傍真陰性正常ログの特徴のうち近傍偽陽性正常ログの特徴と重複する特徴を排除した後の近傍真陰性正常ログの特徴を用いて真陽性攻撃ログの各フィールドを修正する。

次に、検知部１０２が、特徴修正部１０６により修正された後の真陽性攻撃ログ（修正真陽性攻撃ログ）で定義されるアクセス（修正真陽性アクセス）が正常アクセスに該当するか攻撃アクセスに該当するかを判定する（ステップＳ４＿７）。

検知部１０２が修正真陽性アクセスが正常アクセスに該当すると判定した場合（ステップＳ４＿７でＮＯ）は、正常分類部１０１が修正真陽性攻撃ログを検知回避攻撃ログとして検知回避攻撃ログＤＢ１１１に格納する（ステップＳ４＿８）。
修正真陽性攻撃ログに基づく修正真陽性アクセスを検知部１０２は攻撃として検知できないので、修正真陽性アクセスは攻撃検知システムの検知を回避可能な攻撃アクセスである。このため、正常分類部１０１は、修正真陽性攻撃ログを検知回避攻撃ログとして検知回避攻撃ログＤＢ１１１に格納する。

一方、検知部１０２が修正真陽性アクセスが攻撃アクセスに該当すると判定した場合（ステップＳ４＿７でＹＥＳ）は、処理がステップＳ４＿６に戻る。そして、特徴修正部１０６が更に修正真陽性攻撃ログを近傍真陰性正常ログの特徴と近傍偽陽性正常ログの特徴を用いて修正する（ステップＳ４＿６）。

以上が本実施の形態に係る攻撃ログ生成装置１００の動作のおおまかな流れである。
以下では、本実施の形態に係る正常分類部１０１、攻撃生成部１０３、近傍抽出部１０４、傾向抽出部１０５及び特徴修正部１０６の動作の詳細を説明する。

正常分類部１０１は、正常ログＤＢ１１２にあらかじめ用意している大量の正常ログの正常／異常を検知部１０２に判定させる。検知部１０２は、正常ログが正常か異常かを判定する。つまり、検知部１０２は、正常ログに記述される特徴が正常アクセスの特徴に該当するか、攻撃アクセスの特徴に該当するかを判定する。
正常分類部１０１は、検知部１０２による判定において正常と判定された正常ログを真陰性正常ログとして抽出する。そして、正常分類部１０１は、抽出した真陰性正常ログを真陰性正常ログＤＢ１１５に格納する。また、正常分類部１０１は、検知部１０２による判定において異常と判定された正常ログを偽陽性正常ログとして抽出する。そして、正常分類部１０１は、抽出した偽陽性正常ログを偽陽性正常ログＤＢ１１８に格納する。
また、正常分類部１０１は、実施の形態１と同様に、正常ログ統計情報を正常ログ統計情報ＤＢ１１４に格納する。正常ログ統計情報の生成手順及び格納手順は実施の形態１に示した通りなので、説明を省略する。

図１４は、近傍抽出部１０４の内部構成例を示す。
近傍抽出部１０４は、実施の形態１と同様に、特徴抽出部１０４１、特徴表現部１０４２、近傍算出部１０４３から構成される。本実施の形態では、近傍抽出部１０４は、正常ログＤＢ１１２、真陰性正常ログＤＢ１１５、近傍真陰性正常ログＤＢ１１６、偽陽性正常ログＤＢ１１８及び近傍偽陽性正常ログＤＢ１１９を用いる。

特徴抽出部１０４１は、真陽性攻撃ログ、真陰性正常ログ及び偽陽性正常ログから規定の特徴を抽出する。

特徴表現部１０４２は、ｘ個の真陽性攻撃ログ、ｙ_０個の真陰性正常ログ及びｙ_１個の偽陽性正常ログから抽出した特徴を機械学習アルゴリズムで処理しやすい形式（特徴ベクトル）に変換する。ｙ_０およびｙ_１はｘよりも十分大きな数である。特徴ベクトルへの変換手法は実施の形態１に示した通りなので説明を省略する。

近傍算出部１０４３は、真陽性攻撃ログの特徴ベクトルと真陰性正常ログの特徴ベクトルを用い、真陽性攻撃ログそれぞれの近傍Ｋ_０個の近傍真陰性正常ログを特定する。ｘ個の真陽性攻撃ログの近傍の真陰性正常ログの総数をＫ_１個とする。Ｋ_１≧Ｋ_０である。そして、近傍算出部１０４３は、特定したＫ_１個の近傍真陰性正常ログを近傍真陰性正常ログＤＢ１１６に格納する。
また、近傍算出部１０４３は、真陽性攻撃ログの特徴ベクトルと偽陽性正常ログの特徴ベクトルを用い、真陽性攻撃ログそれぞれの近傍Ｋ_０個の近傍偽陽性正常ログを特定する。ｘ個の真陽性攻撃ログの近傍の偽陽性正常ログの総数をＫ_２個とする。Ｋ_２≧Ｋ_０である。そして、近傍算出部１０４３は、特定したＫ_２個の近傍偽陽性正常ログを近傍偽陽性正常ログＤＢ１１９に格納する。
近傍を特定する手法として、実施の形態１と同様に、近傍算出部１０４３は、例えば、ＫＮＮ法を利用することができる。

図１５は、傾向抽出部１０５の内部構成例を示す。
傾向抽出部１０５は、実施の形態１と同様に、特徴抽出部１０５１、特徴表現部１０５２、重要度算出部１０５３、傾向算出部１０５４から構成される。本実施の形態では、傾向抽出部１０５は、近傍真陰性正常ログＤＢ１１６、真陰性正常ログ傾向ＤＢ１１７、近傍偽陽性正常ログＤＢ１１９及び偽陽性正常ログ傾向ＤＢ１２０を用いる。

特徴抽出部１０５１は、近傍真陰性正常ログＤＢ１１６からＫ_１個の近傍真陰性正常ログを取得する。また、特徴抽出部１０５１は、例えば、近傍抽出部１０４からｘ個（仮に１つとする）真陽性攻撃ログを取得する。
特徴抽出部１０５１は、実施の形態１に、Ｋ_１個の近傍真陰性正常ログと、ｘ個の真陽性攻撃ログとから、規定の特徴を抽出する。
更に、特徴抽出部１０５１は、近傍偽陽性正常ログＤＢ１１９からＫ_２個の近傍偽陽性正常ログを取得する。また、特徴抽出部１０５１は、例えば、近傍抽出部１０４からｘ個（仮に１つとする）真陽性攻撃ログを取得する。
そして、特徴抽出部１０５１は、Ｋ_２個の近傍偽陽性正常ログと、ｘ個の真陽性攻撃ログとから、規定の特徴を抽出する。

特徴表現部１０５２は、実施の形態１と同様に、Ｋ_１個の真陰性正常ログとｘ個の真陽性攻撃ログから抽出した特徴を機械学習アルゴリズムで処理しやすい形式（特徴ベクトル）に変換する。
更に、特徴表現部１０５２は、Ｋ_２個の偽陽性正常ログとｘ個の真陽性攻撃ログから抽出した特徴を機械学習アルゴリズムで処理しやすい形式（特徴ベクトル）に変換する。

重要度算出部１０５３は、実施の形態１と同様に、識別器（Ｃ_１）を学習して特徴の重要度を算出し、重要度の大きい上位ｎ_１件の特徴Ｆ_１１～Ｆ_１ｎ１を抽出する。
更に、重要度算出部１０５３は、特徴表現部１０５２により得られた特徴ベクトルを用いて、Ｋ_２個の近傍偽陽性正常ログと、ｘ個の真陽性攻撃ログとを区別する識別器（Ｃ_２）を学習する。重要度算出部１０５３は、識別器（Ｃ_２）がＫ_２個の近傍偽陽性正常ログとｘ個（例えば１個）の真陽性攻撃ログとを区別する度合いである特徴の重要度を真陽性攻撃ログの特徴ベクトルの各々について算出する。重要度算出部１０５３は、近傍偽陽性正常ログと真陽性攻撃ログとを区別する度合いが高い特徴の重要度が高くなるように特徴ベクトルの各々の重要度を算出する。
そして、重要度算出部１０５３は、重要度の大きい上位ｎ_２件の特徴Ｆ_２１～Ｆ_２ｎ１を抽出する。Ｎ_２は１以上である。重要度算出部１０５３は、例えば、ランダムフォレストを用いて重要度を算出する。

傾向算出部１０５４は、実施の形態１と同様に、Ｋ_１個の近傍真陰性正常ログにおける特徴Ｆ_１１～Ｆ_１ｎ１についての統計情報を取得する。傾向算出部１０５４は、統計情報を真陰性正常ログ傾向ＤＢ１１７に格納する。
更に、傾向算出部１０５４は、Ｋ_２個の近傍偽陽性正常ログにおける特徴Ｆ_２１～Ｆ_２ｎ１についての統計情報を取得する。傾向算出部１０５４は、統計情報を偽陽性正常ログ傾向ＤＢ１２０に格納する。
実施の形態１と同様に、傾向算出部１０５４は、カテゴリデータである特徴については、カテゴリデータのパーセンタイルの中央値（メディアン、ｍｅｄ_２）と最頻値（モード、ｍｏｄ_２）を統計情報として取得する。また、傾向算出部１０５４は、数値データである特徴については、数値データの平均（μ_２）と標準偏差（σ_２）を統計情報として取得する。

図１６は、特徴修正部１０６の内部構成例を示す。
特徴修正部１０６は、実施の形態１と同様に、データ修正部１０６１及び検証部１０６２から構成される。本実施の形態では、特徴修正部１０６は、検知回避攻撃ログＤＢ１１１、真陰性正常ログ傾向ＤＢ１１７及び偽陽性正常ログ傾向ＤＢ１２０を用いる。

図１７はデータ修正部１０６１及び検証部１０６２の動作例を示す。

ステップＳ５＿１～ステップＳ５＿４は、図９のステップＳ２＿１～ステップＳ２＿４と同様であるため、説明を省略する。また、ステップＳ５＿４のリスト_１ｉの生成方法は図１０及び図１１に示す通りである。

次に、データ修正部１０６１は、特徴Ｆ_１２～Ｆ_１ｎ１についても特徴Ｆ_１１～Ｆ_１ｎ１と同様の処理を行って、リスト_２１～リスト_２ｎ１を生成する。

具体的には、先ず、データ修正部１０６１は、特徴Ｆ_２１～Ｆ_２ｎ１の中で未確認の特徴があるかを確認する（ステップＳ５＿５）。

未確認の特徴がある場合（ステップＳ５＿５でＹＥＳ）は、データ修正部１０６１は、未確認の特徴Ｆ_２ｉ（ｉは１～ｎ１のうちのいずれか）を選択する（ステップＳ５＿６）。以下では、特徴Ｆ_２ｉが特徴Ｆ_２１である場合を例にしてデータ修正部１０６１の動作を記載する。

データ修正部１０６１は、次に、真陽性攻撃ログの対応するフィールドから特徴Ｆ_２１の実際の値を取得する（ステップＳ５＿７）。
そして、データ修正部１０６１は、リスト_２１を生成する（ステップＳ５＿８）。リスト_２１には、真陽性攻撃ログの特徴Ｆ_２１の実際の値を、近傍偽陽性正常ログの特徴Ｆ_２１の実際の値で修正した後の修正値が含まれる。つまり、リスト_２１には、Ｋ_２個の近傍偽陽性正常ログの特徴Ｆ_２１の値が反映された複数の修正値が含まれる。
なお、リスト_２１の生成方法は後述する。

データ修正部１０６１は、他の特徴Ｆ_２２～Ｆ_２ｎ１についてもステップＳ５＿５からステップＳ５＿８の処理を行う。

次に、データ修正部１０６１は、特徴Ｆ_１１～Ｆ_１ｎ１のリストＦ_１１～リストと、特徴Ｆ_２１～Ｆ_２ｎ２のリスト_２１～リスト_２ｎ１をマージする（ステップＳ５＿９）。マージの方法は後述する。

次に、データ修正部１０６１は、マージ後のリストＦ_１１～リスト_１ｎ１に含まれる修正値を全て組合せ、組合せごとに対応する攻撃ログ（修正真陽性攻撃ログ）を生成する（ステップＳ５＿１０）。特徴Ｆ_１１～Ｆ_１ｎ１及び特徴Ｆ_２１～Ｆ_２ｎ２に対応しないフィールドでは真陽性攻撃ログの実際の値が保持される。

次に、検証部１０６２が、各修正真陽性攻撃ログを検証する（ステップＳ５＿１１）。
具体的には、検証部１０６２は、検知部１０２に各修正真陽性攻撃ログで定義されるアクセスが正常アクセス及び攻撃アクセスのいずれに該当するかを判定させる。

そして、検証部１０６２は、検知部１０２により正常アクセスと判定された修正真陽性攻撃ログを検知回避攻撃ログとして検知回避攻撃ログＤＢ１１１に格納する（ステップＳ５＿１２）。検証部１０６２は、Ｘ＞１の場合、全ての真陽性攻撃ログに対して同じ方法で検知回避攻撃ログを作成する。

次に、図１７のステップＳ５＿８に示されるリスト（リスト_２１～リスト_２ｎ１）の生成方法を図１８及び図１９を用いて説明する。ここでも、特徴Ｆ_２１についてのリスト_２１を生成する例を説明する。

データ修正部１０６１は、特徴Ｆ_２１がカテゴリデータであるか、数値データであるかを判定する（ステップＳ６＿１）。
カテゴリデータは、ドメイン、メソッド、ステータスコード等である。数値データは、リクエストサイズ、時間間隔等である。

特徴Ｆ_２１がカテゴリデータである場合は、データ修正部１０６１は、正常ログ統計情報の辞書から特徴Ｆ_２１のカテゴリデータのパーセンタイルの値を取得し、取得したパーセンタイルの値をｃａｔ_２１に設定する（ステップＳ６＿２）。また、データ修正部１０６１は、偽陽性正常ログ傾向ＤＢ１２０からＫ_２個の近傍偽陽性正常ログにおける特徴Ｆ_２１の統計情報として最頻値をｍｏｄ_２１を参照する（ステップＳ６＿２）。

次に、データ修正部１０６１は、ｃａｔ_２１の値とｍｏｄ_２１の値とを比較する（ステップＳ６＿３）。

ｃａｔ_２１の値がｍｏｄ_２１の値以上である場合に（ステップＳ６＿３でＮＯ）、データ修正部１０６１は、ｃａｔ_２１の値と（ｍｏｄ_２１＋τ_２１）を比較する（ステップＳ６＿４）。τ_２１は規定の値である。

ｃａｔ_２１の値が（ｍｏｄ_２１＋τ_２１）以下である場合は、データ修正部１０６１は、ｃａｔ_２１の値がｍｏｄ_２１の値にΔ_２１ずつ遠ざかるよう（大きくなるよう）にｃａｔ_２１の値を更新し、更新後のｃａｔ_２１の値をリスト_２１に追加する（ステップＳ６＿５）。既にリスト_２１にｃａｔ_２１の値が記載されている場合は、データ修正部１０６１は、既に記載されているｃａｔ_２１の値を新たなｃａｔ_２１の値で上書きする。なお、Δ_２１は規定の値である。
データ修正部１０６１は、ｃａｔ_２１の値が（ｍｏｄ_２１＋τ_２１）の値以下である間（ステップＳ６＿４でＹＥＳ）、ステップＳ６＿５の処理を繰り返す。
ｃａｔ_２１の値が（ｍｏｄ_２１＋τ_２１）よりも大きくなったら（ステップＳ６＿４でＮＯ）、処理がステップＳ６＿８に進む。

また、ｃａｔ_２１の値がｍｏｄ_２１の値よりも小さい場合（ステップＳ６＿３でＹＥＳ）は、データ修正部１０６１は、ｃａｔ_２１の値と（ｍｏｄ_２１－τ_２１）を比較する（ステップＳ６＿６）。

ｃａｔ_２１の値が（ｍｏｄ_２１－τ_２１）以上である場合は、データ修正部１０６１は、ｃａｔ_２１の値がｍｏｄ_２１の値にΔ_２１ずつ遠ざかるよう（小さくなるよう）にｃａｔ_２１の値を更新し、更新後のｃａｔ_２１の値をリスト_２１に追加する（ステップＳ６＿７）。既にリスト_２１にｃａｔ_２１の値が記載されている場合は、データ修正部１０６１は、既に記載されているｃａｔ_２１の値を新たなｃａｔ_２１の値で上書きする。
データ修正部１０６１は、ｃａｔ_２１の値が（ｍｏｄ_２１－τ_２１）の値以上である間（ステップＳ６＿６でＹＥＳ）、ステップＳ６＿７の処理を繰り返す。
ｃａｔ_２１の値が（ｍｏｄ_２１－τ_２１）よりも小さくなったら（ステップＳ６＿６でＮＯ）、処理がステップＳ６＿８に進む。

ステップＳ６＿８では、データ修正部１０６１は、リスト_２１を確定する。

ステップＳ６＿１において特徴Ｆ_２１が数値データである場合は、データ修正部１０６１は、特徴Ｆ_２１の数値データの値をｎｕｍ_２１に設定する（ステップＳ６＿９）。更に、データ修正部１０６１は、偽陽性正常ログ傾向ＤＢ１２０からＫ_２個の近傍偽陽性正常ログにおける特徴Ｆ_２１の統計情報として平均μ_２１と標準偏差σ_２１を参照する（ステップＳ６＿９）。

次に、データ修正部１０６１は、ｎｕｍ_２１の値とμ_２１の値とを比較する（ステップＳ６＿１０）。

ｎｕｍ_２１の値がμ_２１の値以上である場合（ステップＳ６＿１０でＮＯ）は、データ修正部１０６１は、ｎｕｍ_２１の値と（μ_２１＋τ_２１）を比較する（ステップＳ６＿１１）。

ｎｕｍ_２１の値が（μ_２１＋τ_２１）以下である場合（ステップＳ６＿１１でＹＥＳ）は、データ修正部１０６１は、ｎｕｍ_２１の値がμ_２１の値にΔ_２１ずつ遠ざかるよう（大きくなるよう）にｎｕｍ_２１の値を更新し、更新後のｎｕｍ_２１の値をリスト_２１に追加する（ステップＳ６＿１２）。既にリスト_２１にｎｕｍ_２１の値が記載されている場合は、データ修正部１０６１は、既に記載されているｎｕｍ_２１の値を新たなｎｕｍ_２１の値で上書きする。なお、Δ_２１は規定の値である。このΔ_２１は、特徴Ｆ_２１がカテゴリデータである場合に用いるΔ_２１と同じ値でもよいし、異なる値でもよい。τ_２１も規定の値である。τ_２１は、例えば、３×σ_２１ように特徴Ｆ_２１に関わる統計値から定義することが考えられる。
データ修正部１０６１は、ｎｕｍ_２１の値が（μ_２１＋τ_２１）以下である間（ステップＳ６＿１１でＹＥＳ）、ステップＳ６＿１２の処理を繰り返す。

ｎｕｍ_２１の値が（μ_２１＋τ_２１）よりも大きくなったら（ステップＳ６＿１１でＮＯ）、処理がステップＳ６＿１５に進む。

また、ｎｕｍ_２１の値がμ_２１の値より小さい場合（ステップＳ６＿１０でＹＥＳ）は、データ修正部１０６１は、ｎｕｍ_２１の値と（μ_２１－τ_２１）を比較する（ステップＳ６＿１３）。

ｎｕｍ_２１の値が（μ_２１－τ_２１）以上である場合（ステップＳ６＿１３でＹＥＳ）は、データ修正部１０６１は、ｎｕｍ_２１の値がμ_２の値_１に遠ざかるよう（小さくなるよう）にΔ_２１ずつｎｕｍ_２１を更新し、更新後のｎｕｍ_２１の値をリスト_２１に追加する（ステップＳ６＿１４）。既にリスト_２１にｎｕｍ_２１の値が記載されている場合は、データ修正部１０６１は、既に記載されているｎｕｍ_２１の値を新たなｎｕｍ_２１の値で上書きする。
データ修正部１０６１は、ｎｕｍ_２１の値が（μ_２１－τ_２１）以上である間（ステップＳ６＿１３でＹＥＳ）、ステップＳ６＿１４の処理を繰り返す。

ｎｕｍ_２１の値が（μ_２１－τ_２１）未満になったら（ステップＳ６＿１３でＮＯ）、処理がステップＳ６＿１５に進む。

ステップＳ６＿１５では、データ修正部１０６１は、リスト_２１を確定する。

その後、データ修正部１０６１は、特徴Ｆ_２２～Ｆ_２ｎ１についても同様の手順にて、リスト_２２～リスト_２ｎ１を生成する。

なお、図１８では、カテゴリデータの最頻値（ｍｏｄ）を用いる例を示したが、最頻値（ｍｏｄ）のっ代わりに中央値（ｍｅｄ）等の他の統計情報を利用してもよい。

次に、特徴Ｆ_１１～Ｆ_１ｎ１のリストＦ_１１～リストと、特徴Ｆ_２１～Ｆ_２ｎ２のリスト_２１～リスト_２ｎ１をマージする手順を説明する。以下は真陽性攻撃ログの数（Ｘ）が１の場合を想定して説明するが、Ｘ＞１の場合についても、全ての真陽性攻撃ログに対して同じ方法でマージを行う。つまり、同一の真陽性攻撃ログから生成された特徴Ｆ_１１～Ｆ_１ｎ１のリストＦ_１１～リストＦ_１ｎ１と、特徴Ｆ_２１～Ｆ_２ｎ２のリスト_２１～リスト_２ｎ１をマージする。

先ず、データ修正部１０６１は、特徴Ｆ_１１～Ｆ_１ｎ１と特徴Ｆ_２１～Ｆ_２ｎ２とで共通する特徴を探す。ここでは、特徴Ｆ_１１と特徴Ｆ_２３が共通しているものとする。

Ｆ_１１およびＦ_２３がカテゴリデータの場合、データ修正部１０６１は、偽陽性正常ログ傾向ＤＢ１２０からＦ_２３に対応する最頻値（ｍｏｄ_２３）を参照する。Ｆ_２３の特徴リストｌｉｓｔ_２３の要素の最小値および最大値をそれぞれｍｉｎ（ｌｉｓｔ_２３）とｍａｘ（ｌｉｓｔ_２３）と表現する。ｍｏｄ_２３がｍｉｎ（ｌｉｓｔ_２３）より小さい場合、データ修正部１０６１は、ｌｉｓｔ_１１の要素のうち、ｍｏｄ_２３－α以上かつｍｉｎ（ｌｉｓｔ_２３）＋α以下の要素をリストｌｉｓｔ_１１から削除する。ｍｏｄ_２３がｍａｘ（ｌｉｓｔ_２３）より大きい場合、データ修正部１０６１は、ｌｉｓｔ_１１の要素のうち、ｍａｘ（ｌｉｓｔ_２３）－α以上かつｍｏｄ_２３＋α以下の要素をリストｌｉｓｔ_１１から削除する。αは規定の値である。
Ｆ_１１およびＦ_２３が数値データの場合、データ修正部１０６１は、偽陽性正常ログ傾向ＤＢ１２０からＦ_２３に対応する平均値（μ_２３）を参照する。Ｆ_２３の特徴リストｌｉｓｔ_２３の要素の最小値および最大値をそれぞれｍｉｎ（ｌｉｓｔ_２３）とｍａｘ（ｌｉｓｔ_２３）と表現する。μ_２３がｍｉｎ（ｌｉｓｔ_２３）より小さい場合、データ修正部１０６１は、ｌｉｓｔ_１１の要素のうち、ｍｏｄ_２３－β以上かつｍｉｎ（ｌｉｓｔ_２３）＋β以下の要素をリストｌｉｓｔ_１１から削除する。μ_２３がｍａｘ（ｌｉｓｔ_２３）より大きい場合、データ修正部１０６１は、ｌｉｓｔ_１１の要素のうち、ｍａｘ（ｌｉｓｔ_２３）－α以上かつｍｏｄ_２３＋α以下の要素をリストｌｉｓｔ_１１から削除する。βは規定の値であり、例えば、３×σ_２３ようにＦ_２３に関わる統計値から定義しても良い。
データ修正部１０６１は、共通しない特徴Ｆ_１ｉのリスト_１ｉと特徴Ｆ_２ｉのリスト_２ｉは、単純にマージ（結合）する。

＊＊＊実施の形態の効果の説明＊＊＊
本実施の形態でも、攻撃検知システムによる検知を回避できる偽陰性アクセスの攻撃サンプルを得ることができる。また、本実施の形態では、近傍真陰性正常ログの特徴のうち近傍偽陽性正常ログの特徴と重複する特徴を排除した後の近傍真陰性正常ログの特徴を用いて、真陽性攻撃ログの特徴を修正する。このため、実施の形態１に比べて、より巧妙に検知を回避できる偽陰性アクセスの攻撃サンプルを得ることができる。

以上、実施の形態１及び２を説明したが、これら２つの実施の形態を組み合わせて実施しても構わない。
あるいは、これら２つの実施の形態のうち、１つを部分的に実施しても構わない。
あるいは、これら２つの実施の形態を部分的に組み合わせて実施しても構わない。
また、これら２つの実施の形態に記載された構成及び手順を必要に応じて変更してもよい。

＊＊＊ハードウェア構成の補足説明＊＊＊
最後に、攻撃ログ生成装置１００のハードウェア構成の補足説明を行う。
図１に示すプロセッサ９０１は、プロセッシングを行うＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）である。
プロセッサ９０１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）等である。
図１に示す主記憶装置９０２は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）である。
図１に示す補助記憶装置９０３は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等である。

また、補助記憶装置９０３には、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）も記憶されている。
そして、ＯＳの少なくとも一部がプロセッサ９０１により実行される。
プロセッサ９０１はＯＳの少なくとも一部を実行しながら、正常分類部１０１、検知部１０２、攻撃生成部１０３、近傍抽出部１０４、傾向抽出部１０５及び特徴修正部１０６の機能を実現するプログラムを実行する。
プロセッサ９０１がＯＳを実行することで、タスク管理、メモリ管理、ファイル管理、通信制御等が行われる。
また、正常分類部１０１、検知部１０２、攻撃生成部１０３、近傍抽出部１０４、傾向抽出部１０５及び特徴修正部１０６の処理の結果を示す情報、データ、信号値及び変数値の少なくともいずれかが、主記憶装置９０２、補助記憶装置９０３、プロセッサ９０１内のレジスタ及びキャッシュメモリの少なくともいずれかに記憶される。
また、正常分類部１０１、検知部１０２、攻撃生成部１０３、近傍抽出部１０４、傾向抽出部１０５及び特徴修正部１０６の機能を実現するプログラムは、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ブルーレイ（登録商標）ディスク、ＤＶＤ等の可搬記録媒体に格納されていてもよい。そして、正常分類部１０１、検知部１０２、攻撃生成部１０３、近傍抽出部１０４、傾向抽出部１０５及び特徴修正部１０６の機能を実現するプログラムが格納された可搬記録媒体を流通させてもよい。

また、正常分類部１０１、検知部１０２、攻撃生成部１０３、近傍抽出部１０４、傾向抽出部１０５及び特徴修正部１０６の「部」を、「回路」又は「工程」又は「手順」又は「処理」又は「サーキットリー」に読み替えてもよい。
また、攻撃ログ生成装置１００は、処理回路により実現されてもよい。処理回路は、例えば、ロジックＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＧＡ（ＧａｔｅＡｒｒａｙ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）である。
この場合は、正常分類部１０１、検知部１０２、攻撃生成部１０３、近傍抽出部１０４、傾向抽出部１０５及び特徴修正部１０６は、それぞれ処理回路の一部として実現される。
なお、本明細書では、プロセッサと処理回路との上位概念を、「プロセッシングサーキットリー」という。
つまり、プロセッサと処理回路とは、それぞれ「プロセッシングサーキットリー」の具体例である。

１００攻撃ログ生成装置、１０１正常分類部、１０２検知部、１０３攻撃生成部、１０４近傍抽出部、１０５傾向抽出部、１０６特徴修正部、１０７修正部、１１１検知回避攻撃ログＤＢ、１１２正常ログＤＢ、１１３攻撃ログＤＢ、１１４正常ログ統計情報ＤＢ、１１５真陰性正常ログＤＢ、１１６近傍真陰性正常ログＤＢ、１１７真陰性正常ログ傾向ＤＢ、１１８偽陽性正常ログＤＢ、１１９近傍偽陽性正常ログＤＢ、１２０偽陽性正常ログ傾向ＤＢ、９０１プロセッサ、９０２主記憶装置、９０３補助記憶装置、９０４キーボード、９０５マウス、１０３１模擬環境、１０３２攻撃実行部、１０３３攻撃モジュール、１０３４攻撃シナリオＤＢ、１０３５ログ収集部、１０４１特徴抽出部、１０４２特徴表現部、１０４３近傍算出部、１０５１特徴抽出部、１０５２特徴表現部、１０５３重要度算出部、１０５４傾向算出部、１０６１データ修正部、１０６２検証部。

Claims

攻撃目的のアクセスであることが判明しており攻撃検知システムが攻撃目的のアクセスであると判定した真陽性アクセスを抽出する抽出部と、
正常なアクセスであることが判明しており前記攻撃検知システムが正常なアクセスであると判定した真陰性アクセスの特徴を用いて、前記真陽性アクセスの特徴を修正する修正部とを有する情報処理装置。
前記修正部は、
特徴が修正された後の前記真陽性アクセスである修正真陽性アクセスを前記攻撃検知システムが正常なアクセスであると判定するように、前記真陽性アクセスの特徴を修正する請求項１に記載の情報処理装置。
前記修正部は、
特徴が修正された後の前記真陽性アクセスである修正真陽性アクセスを前記攻撃検知システムが攻撃目的のアクセスであると判定した場合に、前記真陰性アクセスの特徴を用いて、前記修正真陽性アクセスの特徴を修正する請求項１に記載の情報処理装置。
前記修正部は、
正常なアクセスであることが判明しており前記攻撃検知システムが正常なアクセスであると判定したアクセスのうち前記真陽性アクセスの特徴に近似する特徴を有するアクセスを前記真陰性アクセスとして抽出し、
抽出した前記真陰性アクセスの特徴を用いて、前記真陽性アクセスの特徴を修正する請求項１に記載の情報処理装置。
前記修正部は、
前記真陽性アクセスに複数の特徴がある場合に、前記複数の特徴から選択条件に合致する特徴を選択し、
選択した特徴を、前記真陰性アクセスの特徴を用いて修正する請求項１に記載の情報処理装置。
前記修正部は、
前記真陽性アクセスと前記真陰性アクセスとを区別する度合いである特徴の重要度を、前記複数の特徴の各々について算出し、
前記複数の特徴から、重要度が前記選択条件に合致する特徴を選択する請求項５に記載の情報処理装置。
前記修正部は、
前記真陽性アクセスと前記真陰性アクセスとを区別する度合いが高い特徴の重要度が高くなるように前記複数の特徴の各々の重要度を算出する請求項６に記載の情報処理装置。
前記修正部は、
正常なアクセスであることが判明しているが前記攻撃検知システムが誤って攻撃目的のアクセスであると判定した偽陽性アクセスの特徴と、前記真陰性アクセスの特徴とを用いて、前記真陽性アクセスの特徴を修正する請求項１に記載の情報処理装置。
前記修正部は、
特徴が修正された後の前記真陽性アクセスである修正真陽性アクセスを前記攻撃検知システムが攻撃目的のアクセスであると判定した場合に、前記偽陽性アクセスの特徴と前記真陰性アクセスの特徴とを用いて、前記修正真陽性アクセスの特徴を修正する請求項８に記載の情報処理装置。
前記修正部は、
前記真陰性アクセスの特徴のうち前記偽陽性アクセスの特徴と重複する特徴を排除した後の前記真陰性アクセスの特徴を用いて、前記真陽性アクセスの特徴を修正する請求項８に記載の情報処理装置。
コンピュータが、攻撃目的のアクセスであることが判明しており攻撃検知システムが攻撃目的のアクセスであると判定した真陽性アクセスを抽出し、
前記コンピュータが、正常なアクセスであることが判明しており前記攻撃検知システムが正常なアクセスであると判定した真陰性アクセスの特徴を用いて、前記真陽性アクセスの特徴を修正する情報処理方法。
攻撃目的のアクセスであることが判明しており攻撃検知システムが攻撃目的のアクセスであると判定した真陽性アクセスを抽出する抽出処理と、
正常なアクセスであることが判明しており前記攻撃検知システムが正常なアクセスであると判定した真陰性アクセスの特徴を用いて、前記真陽性アクセスの特徴を修正する修正処理とをコンピュータに実行させる情報処理プログラム。