JP2019049783A

JP2019049783A - 機械学習プログラム、機械学習方法、および機械学習装置

Info

Publication number: JP2019049783A
Application number: JP2017172626A
Authority: JP
Inventors: 弘治丸橋; Hiroharu Maruhashi
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-09-08
Filing date: 2017-09-08
Publication date: 2019-03-28
Anticipated expiration: 2037-09-08
Also published as: JP6898562B2; US20190080236A1; US11514308B2

Abstract

【課題】ニューラルネットワークによる分類精度を向上させる。【解決手段】機械学習装置１０は、複数の項目それぞれの変数値と、ニューラルネットワーク１の入力層の次の層のニューロンとの組ごとに設定された第１パラメータ値に基づいて、組み合わせパタンと次の層のニューロンとの組ごとの第２パラメータ値を算出する。第２パラメータ値は、組み合わせパタンに含まれる変数値それぞれと次の層のニューロンとの組の第１パラメータ値の積である。次に機械学習装置１０は、算出した第２パラメータ値を、次の層のニューロンに入力する数値に対する重み値として用いて、入力順序に従った複数の数値の入力に応じたニューラルネットワーク１の出力値を算出する。さらに機械学習装置１０は、出力値と教師データ３との誤差に基づいて、照合パタン１１ａの複数の基準値と第１パラメータ値とを更新する。【選択図】図１

Description

本発明は、機械学習プログラム、機械学習方法、および機械学習装置に関する。

ニューラルネットワークを利用して、コンピュータに機械学習を行わせることができる。例えばコンピュータは、学習対象の入力データをニューラルネットワークの入力層に入力する。次にコンピュータは、ニューラルネットワーク内のユニットごとに、予め定義された処理を入力データに対して実行し、その結果を次の層のユニットへの入力とする。ニューラルネットワークの出力層まで処理が到達すると、コンピュータは出力層での処理結果を、出力データとして出力する。そしてコンピュータは、入力データに対応付けられた教師データの値と出力データとを比較し、値に差があれば、その差が縮まるようにニューラルネットワークを修正する。このような処理を繰り返すことで、入力データを所定の基準で分類できるニューラルネットワークが作成される。例えば、ある一定期間内のネットワークの通信ログから、その期間内に不正行為が行われているか否かを分類するニューラルネットワークが作成できる。

なお、ニューラルネットワークは、教師データの数と比較して、１つの教師データで入力される数値の数が多い場合、過学習になりやすい。過学習は、過剰適合とも呼ばれる。過学習は、教師データに過剰に適合してしまい、教師データの分類精度は高いが、教師データ以外のデータの分類精度が低い状態である。ニューラルネットワークにおいては、このような過学習を避けるための技術が適用される場合もある。

ニューラルネットワークを用いた技術としては、例えば入力文字を正しく分類することにより、精度よく文字を認識できる文字認識装置がある。また微分値を用いてニューラルネットワークの修正の振動を防ぐことによる、高速で精度の良いニューラルネットワークの学習方法も考えられている。さらに各学習データの学習のしやすさ、データパタンなどの分類や分類ごとのデータ数によらず、各データを均一、かつ高速に学習させるニューラルネットワークの学習装置もある。グラフデータの各ノードの近傍ノードを順序付け、近傍ノード間の関係に同じ重みを与える畳み込みニューラルネットワーク学習技術もある。

その他、コンピュータによる知識の学習に関する技術として、例えば学習効率をよくするためのパタン認識のためのモデル学習方法がある。また学習時に用いた入力パラメータ値と異なる入力パタンを受けた場合にも実用的な空燃比制御などを行うことができ、ニューラルネットワークの安定性を保証する、ニューラルネットワークを用いたパラメータ推定装置もある。

特開平８−３２９１９６号公報特開平９−８１５３５号公報特開平９−１３８７８６号公報特開平９−９０９８１号公報特開平１１−２２４１０６号公報

Mathias Niepert, Mohamed Ahmed, Konstantin Kutzkov, "Learning Convolutional Neural Networks for Graphs", Proceedings of The 33rd International Conference on Machine Learning, ICML, 8 June 2016, pp. 2014-2023

人またはものの関係をニューラルネットワークで学習する場合において、入力層へ入力する値の順番が、出力層における出力値に影響する場合がある。すなわち、入力層への入力する値の順番が不適切であることが、分類精度低下の原因となる。そこで、正確な学習を行うには、教師データに示される複数の値を、適切な順番で入力することが重要となる。しかし、入力データに含まれる値の数が多い場合、それらの値の適切な入力順を決定するのは容易ではない。しかも、入力データに含まれる値の数が多いことが過学習を引き起こし、分類精度の低下を招く可能性もある。

１つの側面では、本件は、ニューラルネットワークによる分類精度を向上させることを目的とする。

１つの案では、コンピュータに以下の処理を実行させる機械学習プログラムが提供される。
まずコンピュータは、複数の数値を含む入力データと、入力データに対する分類の正解を示す教師データとを取得する。次にコンピュータは、複数の項目それぞれの変数値の組み合わせパタンごとの基準値の配列により、ニューラルネットワークへ入力する数値の順序付けの基準が示された照合パタンに基づいて、入力データに含まれる複数の数値それぞれを組み合わせパタンのいずれかに対応付けることで、複数の数値それぞれの入力順序を決定する。次にコンピュータは、複数の項目それぞれの変数値と、ニューラルネットワークの入力層の次の層のニューロンとの組ごとに設定された第１パラメータ値に基づいて、組み合わせパタンと次の層のニューロンとの組それぞれについて、組み合わせパタンに含まれる変数値それぞれと次の層のニューロンとの組の第１パラメータ値の積を、組み合わせパタンに対応付けられた数値を次の層のニューロンへ入力する際の重み値を示す第２パラメータ値に決定する。次にコンピュータは、次の層のニューロンへ入力する数値の重み値として第２パラメータ値を用いて、入力順序に従った複数の数値の入力に応じたニューラルネットワークの出力値を算出する。次にコンピュータは、出力値と教師データとの誤差に基づいて、ニューラルネットワークで正解を得るための、ニューラルネットワークの入力層と次の層とのそれぞれへの入力値の誤差とを算出する。そしてコンピュータは、入力層と次の層とのそれぞれへの入力値の誤差に基づいて、照合パタンの複数の基準値と第１パラメータ値とを更新する。

１態様によれば、ニューラルネットワークによる分類精度を向上させることができる。

第１の実施の形態に係る機械学習装置の構成例を示す図である。第２の実施の形態のシステム構成例を示す図である。第２の実施の形態に用いる監視サーバのハードウェアの一構成例を示す図である。監視サーバの機能の一例を示すブロック図である。通信ログ記憶部の一例を示す図である。教師データ記憶部の一例を示す図である。学習結果記憶部の一例を示す図である。過学習の抑止策を適用しない場合のデータの分類方法を示す図である。照合パタンの適正化の概要を示す図である。過学習の抑止策を適用しない場合の機械学習処理の手順を示すフローチャートの一例である。機械学習に利用するニューラルネットワークの一例を示す図である。機械学習の例を示す第１の図である。機械学習の例を示す第２の図である。機械学習の例を示す第３の図である。機械学習の例を示す第４の図である。機械学習の例を示す第５の図である。機械学習の例を示す第６の図である。過学習となる場合の例を示す図である。変換データの自由度が低い場合の例を示す図である。入力層の次の層の複数のニューロンそれぞれとの間のパラメータ数の削減例を示す図である。パラメータ数を削減した場合の分類の特徴の削減後のパラメータへの反映例を示す図である。過学習の抑止策を適用する場合の機械学習処理の手順を示すフローチャートの一例である。パラメータの初期化の一例を示す図である。パラメータの部分微分の算出例を示す図である。学習によって得られるパラメータの一例を示す図である。化合物の分類例を示す図である。

以下、本実施の形態について図面を参照して説明する。なお各実施の形態は、矛盾のない範囲で複数の実施の形態を組み合わせて実施することができる。
〔第１の実施の形態〕
まず第１の実施の形態に係る機械学習装置について説明する。

図１は、第１の実施の形態に係る機械学習装置の構成例を示す図である。機械学習装置１０は、記憶部１１と処理部１２とを有する。機械学習装置１０は、例えばコンピュータである。記憶部１１は、例えば機械学習装置１０が有するメモリまたはストレージ装置により実現することができる。処理部１２は、例えば機械学習装置１０が有するプロセッサにより実現することができる。

記憶部１１は、照合パタン１１ａと、ニューラルネットワーク１のパラメータとを記憶する。照合パタン１１ａには、複数の項目（項Ｓ、項Ｒ、項Ｐ）それぞれの変数値の組み合わせパタンごとの基準値の配列により、ニューラルネットワーク１へ入力する数値の順序付けの基準が示されている。ニューラルネットワーク１は、入力層、中間層、出力層で構成されており、図１の例では中間層は１層のみである。この場合、記憶部１１は、入力層と中間層との間のパラメータ（入力層・中間層間パラメータ１１ｂ）と、中間層と出力層の間のパラメータ（中間層・出力層間パラメータ１１ｃ）とを記憶する。

処理部１２は、複数の数値を含む入力データ２と、入力データ２に対する分類の正解を示す教師データ３とを取得する。入力データ２には、例えば、複数の項目（項Ｓ、項Ｒ、項Ｐ）それぞれの入力変数値の組み合わせパタンごとの数値が設定されている。入力データ２の一項目の２以上の入力変数値の間に、入力変数値を含む組み合わせパタンに設定された数値に相関がある場合がある。

例えば入力データ２が、ネットワーク間の通信の観測結果であるものとする。この場合、入力データ２の各項目として、例えば通信元ホスト、通信先ホスト、ポートが設けられる。通信元ホストの入力変数値は、パケットを送信した装置の識別子である。通信先ホストの入力変数値は、パケットを受信した装置の識別子である。ポートの入力変数値は、パケットを受信した装置におけるパケットを受信したポートのポート番号である。このような入力データ２では、複数の項目それぞれの入力変数値の組み合わせに対して、通信の頻度を示す数値が設定される。複数の項目それぞれの入力変数値の組み合わせは、入力変数値間の関係を表している。そして、例えば共通の通信先ホストとポートの組に対して高頻度でパケットを送信する通信元ホストが複数ある場合、それらの通信元ホストは相関があるといえる。

入力データ２のいずれかの項目の２以上の入力変数値の間の相関の発生状況が、ニューラルネットワーク１の学習結果に、強く影響する場合がある。この場合、相関の発生状況に関する特徴を維持したまま、ニューラルネットワークのパラメータ数を削減できれば、過学習を抑止できる。

そこで、入力層・中間層間パラメータ１１ｂの値として、複数の項目（項Ｓ、項Ｒ、項Ｐ）それぞれの変数値と、ニューラルネットワーク１の中間層のニューロンとの組ごとに設定された第１パラメータ値が用いられる。「項Ｓ」の変数値の数が「３」、「項Ｒ」の変数値の数が「２」、「項Ｒ」の変数値の数が「３」であれば、第１パラメータ値の数は「１６」となる。この第１パラメータ値の数は、中間層のニューロンに入力される数値の総数（１８×２＝３６）よりも少ない。そのため、ニューラルネットワーク１の出力値を計算する際における、中間層のニューロンに入力される数値それぞれに対する重みとしては、第１パラメータの積で表現した第２パラメータが用いられる。具体的には、以下の通りである。

入力データ２と教師データ３とを取得した処理部１２は、照合パタン１１ａに基づいて、入力データ２に含まれる複数の数値それぞれを組み合わせパタンのいずれかに対応付けることで、複数の数値それぞれの入力順序を決定する。例えば処理部１２は、複数の入力変数値それぞれを、照合パタンに示される複数の変数値のいずれかに変換して、変換後の変数値の組み合わせパタンを照合パタン１１ａに合わせて並べ替えることで、変換データ４を生成する。そして処理部１２は、変換データ４に示される数値の順番を、複数の数値それぞれの入力順序とする。

この際、処理部１２は、照合パタン１１ａに示される基準値の配列と、変換データ４の数値の配列との類似度が最大となるように、複数の数値それぞれの入力順序を決定する。例えば処理部１２は、入力順序が上位の数値から順に並べた複数の数値の配列を成分とした第１ベクトルを生成する。そして処理部１２は、照合パタン１１ａ内の複数の基準値を成分とする第２ベクトルと第１ベクトルとの内積が最大となるように、第１ベクトル内の成分の順番を入れ替えることで、複数の数値の入力順序を決定する。

次に処理部１２は、第１パラメータ値に基づいて、変数値の組み合わせパタンと中間層のニューロンとの組ごとに、該当する組み合わせパタンに対応付けられた数値を、該当する次の層（中間層）のニューロンへ入力する際の重み値を示す第２パラメータ値を決定する。例えば処理部１２は、変数値の組み合わせパタンに含まれる変数値それぞれと中間層のニューロンとの組の第１パラメータ値の積を、第２パラメータ値とする。

次に処理部１２は、決定した入力順序に従った複数の数値の入力に応じたニューラルネットワーク１の出力値を算出する。図１では、ニューラルネットワーク１の入力層のユニットが縦に並んで示されており、入力順序が上位の数値ほど、上に配置されたユニットへの入力となるように、複数の数値が入力層の複数のユニットに入力される。なお入力層の１つのユニットには、１つの数値のみが入力されるものとする。出力値を算出する際、処理部１２は、変数値の組み合わせパタンと中間層のニューロンとの組それぞれに対応する第２パラメータ値を、変換データ４において該当する組み合わせパタンに対応付けられた数値を次の層（中間層）のニューロンに入力するときの、重み値として用いる。

次に処理部１２は、出力値と教師データ３との誤差に基づいて、ニューラルネットワーク１で正解を得るための、ニューラルネットワーク１の入力層と中間層とのそれぞれへの入力値の誤差５を算出する。例えば処理部１２は、ニューラルネットワーク１の誤差逆伝播法により、入力値の誤差５を算出する。

処理部１２は、入力層への入力値の誤差に基づいて、照合パタン１１ａの複数の基準値を更新する。例えば処理部１２は、照合パタン１１ａの複数の基準値それぞれを変化対象値として選択する。そして処理部１２は、変化対象値として選択した基準値ごとに以下の処理を実行する。

処理部１２は、変化対象値を所定量だけ増加または減少させた仮照合パタンに基づいて複数の数値それぞれの仮の入力順序を決定する。例えば処理部１２は、仮照合パタンとの類似度が最大となるように入力データ２の数値を並べ替えた変換データを生成する。次に処理部１２は、照合パタン１１ａに基づいて決定した入力順序と、仮照合パタンに基づいて決定した仮の入力順序とにおいて、同じ順番となる数値間の差分値を算出する。

次に処理部１２は、入力層の複数のユニットへの入力値の誤差と、同じ順番となる数値間の差分値とに基づいて、照合パタン１１ａ内の変化対象値に対応する基準値の増加または減少を決定する。例えば処理部１２は、入力値の誤差を成分とする第３ベクトルと、仮の入力順序が上位の方から並べられた、同じ順番の数値との差分値を成分とする第４ベクトルとの内積に基づいて、変化対象値に対応する基準値の増加または減少を決定する。

変化対象値を所定量だけ増加させたのであれば、処理部１２は、内積の符号が正のとき基準値の値を減少させると決定し、内積の符号が負のとき基準値の値を増加させると決定する。また変化対象値を所定量だけ減少させたのであれば、処理部１２は、内積の符号が正のとき基準値の値を増加させると決定し、内積の符号が負のとき基準値の値を減少させると決定する。

照合パタン１１ａのすべての基準値に対応する変動値を算出すると、処理部１２は、増加または減少の決定に従って、変化対象値として選択された照合パタン１１ａの基準値を更新し、更新後の照合パタンを得る。例えば処理部１２は、ニューラルネットワーク１のステップサイズ（図１の例では「２」）を変動値に乗算し、乗算結果を、照合パタン１１ａ内のその変動値に対応する基準値から減算する。

処理部１２は、このような照合パタン１１ａの更新処理を、例えば更新前の照合パタン１１ａと更新後の照合パタン１１ａの基準値の差が所定値以下になるまで繰り返す。その結果、入力データ２を適正に並べ替える基準を示す照合パタン１１ａが得られる。

また処理部１２は、中間層への入力値の誤差に基づいて入力層・中間層間パラメータの値（第１パラメータ値）を更新する。さらに処理部１２は、出力値と教師データとの誤差に基づいて、中間層・出力層間パラメータの値を更新する。第１パラメータ値の更新では、処理部１２は、例えば誤差逆伝播により、正解を得るために第２パラメータ値を増加させるのが適切と判定した場合、その第２パラメータ値の算出に用いた第１パラメータ値を増加させる。また処理部１２は、正解を得るために第２パラメータ値を減少させるのが適切と判定した場合、その第２パラメータ値の算出に用いた第１パラメータ値を減少させる。

このように第１の実施の形態では、各項目の変数値の組み合わせ（変数値間の関係）と中間層の各ニューロンとの間の第２パラメータを、関係を構成する変数値それぞれと各ニューロンとの間のパラメータの積により表現している。これにより、入力層と中間層との間のパラメータの数を削減することができる。パラメータの数が削減されたことで、過学習が抑止される。

しかも入力データに各項目間で相関の強い変数値の集合が多数含まれており、かつ、強い相関を持つ変数値の集合同士の変数値の関係の仕方が分類の特徴として重要であれば、パラメータ数を削減しても、入力データの特徴は損なわれない。例えば、「項Ｓ」の１番目の変数値「Ｓ’１」と２番目の変数値「Ｓ’２」、「項Ｒ」の１番目の変数値「Ｒ’１」、および「Ｐ項」の１番目の変数値「Ｐ’１」と２番目の変数値「Ｐ’２」の集合が、強い相関を持つ変数値の集合であるものとする。この場合、学習の結果、強い相関を持つ変数値の集合に含まれる変数値による変数値の組み合わせパタンは、中間層の共通のニューロン（図１の例では１番目のニューロン）との組に対応する第２パラメータ値が高くなる。これは、入力層・中間層間パラメータ１１ｂでは、強い相関を持つ複数の変数値「Ｓ’１」、「Ｓ’２」、「Ｒ’１」、「Ｐ’１」それぞれの１番目のニューロンとの間の第１パラメータ値が、他よりも高くなることで表される。すなわち、強い相関を持つ変数値の集合同士の変数値の関係を、少ないパラメータ数で表すことが可能となっている。

強い相関を持つ変数値の集合同士の変数値の関係の仕方が分類の特徴として重要な場合、強い相関を持つ変数値の集合同士の変数値の関係を示す特徴が失われなければ、分類精度の低下が抑止される。すなわち、パラメータ数を削減したことによる分類精度の低下は抑止されている。

〔第２の実施の形態〕
次に第２の実施の形態について説明する。第２の実施の形態は、コンピュータネットワーク上の通信ログに基づいて、不正な通信の有無を、ニューラルネットワークを用いて解析するものである。

図２は、第２の実施の形態のシステム構成例を示す図である。ネットワーク２０には、複数のサーバ２１１，２１２，・・・、複数の端末装置２２１，２２２，・・・、および監視サーバ１００が接続されている。複数のサーバ２１１，２１２，・・・は、いずれかの端末装置からの要求に応じた処理を実行するコンピュータである。複数のサーバ２１１，２１２，・・・のうちの２台以上が連携して処理を実行する場合もある。複数の端末装置２２１，２２２，・・・は、複数のサーバ２１１，２１２，・・・で提供されるサービスを利用するユーザが使用するコンピュータである。

監視サーバ１００は、ネットワーク２０を介して行われた通信を監視し、通信ログを記録する。監視サーバ１００は、通信ログを用いて、機械学習を行い、不正通信の有無を判別に利用するニューラルネットワークの最適化を行う。そして監視サーバ１００は、通信ログに基づいて、最適化されたニューラルネットワークを用いて不正通信が行われた時間帯を検出する。

図３は、第２の実施の形態に用いる監視サーバのハードウェアの一構成例を示す図である。監視サーバ１００は、プロセッサ１０１によって装置全体が制御されている。プロセッサ１０１には、バス１０９を介してメモリ１０２と複数の周辺機器が接続されている。プロセッサ１０１は、マルチプロセッサであってもよい。プロセッサ１０１は、例えばＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、またはＤＳＰ（Digital Signal Processor）である。プロセッサ１０１がプログラムを実行することで実現する機能の少なくとも一部を、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）などの電子回路で実現してもよい。

メモリ１０２は、監視サーバ１００の主記憶装置として使用される。メモリ１０２には、プロセッサ１０１に実行させるＯＳ（Operating System）のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、メモリ１０２には、プロセッサ１０１による処理に必要な各種データが格納される。メモリ１０２としては、例えばＲＡＭ（Random Access Memory）などの揮発性の半導体記憶装置が使用される。

バス１０９に接続されている周辺機器としては、ストレージ装置１０３、グラフィック処理装置１０４、入力インタフェース１０５、光学ドライブ装置１０６、機器接続インタフェース１０７およびネットワークインタフェース１０８がある。

ストレージ装置１０３は、内蔵した記録媒体に対して、電気的または磁気的にデータの書き込みおよび読み出しを行う。ストレージ装置１０３は、コンピュータの補助記憶装置として使用される。ストレージ装置１０３には、ＯＳのプログラム、アプリケーションプログラム、および各種データが格納される。なお、ストレージ装置１０３としては、例えばＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）を使用することができる。

グラフィック処理装置１０４には、モニタ２１が接続されている。グラフィック処理装置１０４は、プロセッサ１０１からの命令に従って、画像をモニタ２１の画面に表示させる。モニタ２１としては、ＣＲＴ（Cathode Ray Tube）を用いた表示装置や液晶表示装置などがある。

入力インタフェース１０５には、キーボード２２とマウス２３とが接続されている。入力インタフェース１０５は、キーボード２２やマウス２３から送られてくる信号をプロセッサ１０１に送信する。なお、マウス２３は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。

光学ドライブ装置１０６は、レーザ光などを利用して、光ディスク２４に記録されたデータの読み取りを行う。光ディスク２４は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク２４には、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）などがある。

機器接続インタフェース１０７は、監視サーバ１００に周辺機器を接続するための通信インタフェースである。例えば機器接続インタフェース１０７には、メモリ装置２５やメモリリーダライタ２６を接続することができる。メモリ装置２５は、機器接続インタフェース１０７との通信機能を搭載した記録媒体である。メモリリーダライタ２６は、メモリカード２７へのデータの書き込み、またはメモリカード２７からのデータの読み出しを行う装置である。メモリカード２７は、カード型の記録媒体である。

ネットワークインタフェース１０８は、ネットワーク２０に接続されている。ネットワークインタフェース１０８は、ネットワーク２０を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。

以上のようなハードウェア構成によって、第２の実施の形態の処理機能を実現することができる。なお、第１の実施の形態に示した装置も、図３に示した監視サーバ１００と同様のハードウェアにより実現することができる。

監視サーバ１００は、例えばコンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、第２の実施の形態の処理機能を実現する。監視サーバ１００に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。例えば、監視サーバ１００に実行させるプログラムをストレージ装置１０３に格納しておくことができる。プロセッサ１０１は、ストレージ装置１０３内のプログラムの少なくとも一部をメモリ１０２にロードし、プログラムを実行する。また監視サーバ１００に実行させるプログラムを、光ディスク２４、メモリ装置２５、メモリカード２７などの可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えばプロセッサ１０１からの制御により、ストレージ装置１０３にインストールされた後、実行可能となる。またプロセッサ１０１が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。

次に、監視サーバが有する機能について説明する。
図４は、監視サーバの機能の一例を示すブロック図である。監視サーバ１００は、通信情報収集部１１０、通信ログ記憶部１２０、教師データ記憶部１３０、学習部１４０、学習結果記憶部１５０、および解析部１６０を有する。

通信情報収集部１１０は、ネットワーク２０を介して送受信されているパケットなどの通信情報を取得する。例えば通信情報収集部１１０は、ネットワーク２０内に設置されたスイッチのミラーリングポートを介して、そのスイッチを経由して通信されたパケットを取得する。また通信情報収集部１１０は、各サーバ２１１，２１２，・・・から、そのサーバ自身の通信ログを取得することもできる。通信情報収集部１１０は、取得した通信情報を、通信ログ記憶部１２０に格納する。

通信ログ記憶部１２０は、通信情報収集部１１０が収集した通信情報のログ（通信ログ）を記憶する。
教師データ記憶部１３０は、過去の所定の期間における単位時間帯（例えば１０分間）ごとの、不正通信の発生の有無（教師フラグ）を示す情報を記憶する。

学習部１４０は、通信ログ記憶部１２０に格納された通信ログと、教師データ記憶部１３０に格納された教師フラグとに基づいて、不正通信が行われたときの通信ログの特徴を学習し、学習結果を反映させたニューラルネットワークを生成する。例えば学習部１４０は、ニューラルネットワークへの入力データの並べ替えに用いる照合パタンと、ニューラルネットワーク内の各ユニットへ入力する値の重みとを決定する。そして学習部１４０は、ニューラルネットワーク、照合パタン、および重みを含む学習結果を、学習結果記憶部１５０に格納する。

学習結果記憶部１５０は、学習部１４０における学習結果を記憶する。
解析部１６０は、学習結果記憶部１５０に格納された学習結果に基づいて、通信ログ記憶部１２０に新たに格納された単位時間帯の通信ログを解析し、その単位時間帯内に不正通信が行われたか否かを判断する。

なお、図４に示した各要素間を接続する線は通信経路の一部を示すものであり、図示した通信経路以外の通信経路も設定可能である。また、図４に示した各要素の機能は、例えば、その要素に対応するプログラムモジュールをコンピュータに実行させることで実現することができる。

次に通信ログ記憶部１２０に格納される情報について具体的に説明する。
図５は、通信ログ記憶部の一例を示す図である。通信ログ記憶部１２０には、複数の単位期間ログ１２１，１２２，・・・が格納されている。単位期間ログ１２１，１２２，・・・それぞれには、通信ログの収集期間が示されている。単位期間ログ１２１，１２２，・・・には、収集期間で示された時間帯内に収集した通信情報が格納される。

単位期間ログ１２１，１２２，・・・に格納される各レコードには、通信元ホスト、通信先ホスト、および量が含まれる。通信元ホストは、パケットの送信元の装置の識別子である。通信先ホストは、パケットの宛先の装置の識別子である。量は、通信元ホストと通信先ホストとの組が同一となる通信の出現回数である。なお単位期間ログ１２１，１２２，・・・に、通信に使用されたポートの識別子（例えば宛先のＴＣＰ／ＵＤＰのポート番号）を含めてもよい。

次に教師データ記憶部１３０に格納される情報について具体的に説明する。
図６は、教師データ記憶部の一例を示す図である。教師データ記憶部１３０には、正常通信リスト１３１と不正通信リスト１３２とが格納されている。正常通信リスト１３１には、正常な通信が行われていた単位期間のリストが設定される。不正通信リスト１３２には、不正な通信が行われた単位期間のリストが設定される。正常通信リスト１３１と不正通信リスト１３２への単位期間の設定は、例えばシステムの管理者が行う。

機械学習を行う際には、単位期間が正常通信リスト１３１と不正通信リスト１３２とのどちらに登録されているかにより、その単位期間の通信ログを入力データとして機械学習を実施したときの正解を示す値（教師ラベル）が決定される。例えば学習部１４０は、正常通信リスト１３１に登録されている単位期間の通信ログを入力データとしたときの教師ラベルを「１．０」とする。また学習部１４０は、不正通信リスト１３２に登録されている単位期間の通信ログを入力データとしたときの教師ラベルを「０．０」とする。

次に学習結果記憶部１５０に格納される情報について具体的に説明する。
図７は、学習結果記憶部の一例を示す図である。学習結果記憶部１５０には、ニューラルネットワーク１５１、パラメータ群１５２、および照合パタン１５３が格納されている。ニューラルネットワーク１５１は、入力層から出力層まで、ニューロンを表すユニットを接続したものである。図７において、ユニットは円で表されている。

ユニット間は、信号の流れを示す矢印で接続されている。各ユニットには、入力された信号に対する処理が定義されている。各ユニットにおける処理の結果、そのユニットから出力される信号が決定され、その信号が次のユニットに送られる。出力層のユニットから出力される信号の値に基づいて、入力されたデータが属する分類（例えば、不正通信を含む通信ログなのか否か）が判定される。

パラメータ群１５２には、あるユニットから別のユニットに与える影響の強さを示す複数の重み値が含まれる。各重み値は、ニューラルネットワーク１５１のユニット間を接続する矢印に対応付けられている。

照合パタン１５３は、単位期間ログ内の各レコードの並べ替えに使用する情報である。分類対象の単位期間ログを、ニューラルネットワーク１５１を用いて分類する場合、照合パタン１５３と類似するように、単位期間ログ内のレコードの並べ替えが行われる。例えば照合パタン１５３のレコードには、通信元ホスト、通信先ホスト、および量が含まれる。通信元ホストは、パケットの送信元の装置を示す、ニューラルネットワーク１５１を用いた解析上の識別子である。通信先ホストは、パケットの送信先の装置を示す、ニューラルネットワーク１５１を用いた解析上の識別子である。量は、通信元ホストと通信先ホストとの組に対応する通信の単位期間内での発生確率である。

次に、ニューラルネットワーク１５１を用いたデータ分類方法について説明する。なお第２の実施の形態では、過学習の抑止策を適用する場合と、過学習の抑止策を適用しない場合とで処理が異なる。過学習の抑止策を適用する場合とは、例えば過学習になりやすく、過学習の抑止策が適用可能な場合である。以下、過学習の抑止策を適用しない場合の処理を先に説明し、次に、過学習の抑止策を適用する場合における過学習の抑止策を適用しない場合との相違点を説明する。

＜過学習の抑止策を適用しない場合のデータ分類処理＞
図８は、過学習の抑止策を適用しない場合のデータの分類方法を示す図である。例えば、１つの単位期間ログを、ニューラルネットワーク１５１を用いた分類対象の入力データ３０として、解析部１６０に入力する場合を想定する。

入力データ３０内の各レコードが、ニューラルネットワーク１５１の入力層のいずれかのユニットに対応付けられる。そして各レコード内の量の値が、対応付けられたユニットへの入力となる。入力層に入力される値は、例えば正規化して入力される。

図８に示すように、複数の対象物の関係（通信元ホストと通信先ホストとの関係）に応じた分類を行う場合、どの関係をどのユニットへの入力とするのが適切なのか、不明な場合が多い。例えば、不正通信が、あるサーバによる処理ａと、そのサーバとは別のサーバによる処理ｂと組み合わせで実施される場合を想定する。この場合、サーバＡが処理ａを実行し、サーバＢが処理ｂを実行すれば、不正通信が成立する。また、サーバＢが処理ａを実行し、サーバＡが処理ｂを実行しても、不正通信が成立する。このように、不正通信の有無を検出する場合、不正通信のパタンを構成するホストは、その都度異なる。

そこで不正通信の有無についてニューラルネットワーク１５１を用いて判別する場合、入力データ３０内の各レコードに、不正通信の有無を正しく判定できるように順序付けを行うこととなる。例えば分類に強く寄与する関係が、変数値間の関係全体の構造とは無関係に出現する場合、適切な順序付けを行わないと、その関係が適切に入力層のユニットに対応付けられず、分類精度が悪くなってしまう。

複数の対象物の関係を示すレコードの従来の順序付けは、分類精度とは無関係に行われている。そのため従来の方法では、より高い分類精度が得られる方法が見逃される可能性が高い。単純に、順序付けのすべてのパタンを生成し、すべてのパタンを入力データとすることも考えられるが、計算量が膨大となる。そこで、第２の実施の形態では、学習部１４０が適切な照合パタン１５３を生成することで、少ない計算量で、精度よく分類可能な順序付けを可能とする。

図９は、照合パタンの適正化の概要を示す図である。学習部１４０は、照合パタン５０の初期値を設定する。例えば通信元ホストが２台存在し、通信先ホストが２台存在する場合を想定する。この場合、学習部１４０は、通信元ホストの識別子として「Ｓ’１」と「Ｓ’２」とを生成する。また学習部１４０は、通信先ホストの識別子として「Ｒ’１」と「Ｒ’２」とを生成する。さらに学習部１４０は、通信元ホストの識別子と通信先ホストの識別子とのすべての組み合わせを生成し、各組み合わせの量に初期値を設定する。初期値は、例えばランダムに生成した値である。そして学習部１４０は、通信元ホストの識別子、通信先ホストの識別子、および量の組を１レコードとする照合パタン５０を生成する。

次に学習部１４０は、教師データ記憶部１３０内の正常通信リスト１３１または不正通信リスト１３２に含まれる単位期間の通信ログを、入力データ３０として取得する。次に、学習部１４０は、入力データ３０に示される通信元ホストの識別子と通信先ホストの識別子とを、照合パタン５０で用いている識別子に変換するとともに、レコードに順序付けを行い、照合パタン５０と類似度が最大となる変換データ６０を生成する。照合パタン５０と変換データ６０との類似度は、例えば各レコードの量の値を示すベクトル間の内積で表される。なお、入力データ３０内の通信元ホストの識別子と、照合パタン５０内の通信元ホストの識別子とは、１対１で対応付けられる。

変換データ６０の生成処理では、学習部１４０は、入力データ３０の量を成分とし、量の順番を並べ替えで生成可能なすべてのベクトル（入力ベクトル）を生成する。また学習部１４０は、照合パタン５０に設定されている量を成分として、照合パタン５０に示される順に成分を並べたベクトル（照合ベクトル）を生成する。次に学習部１４０は、複数のベクトルそれぞれについて、照合ベクトルとの内積を計算する。学習部１４０は、内積が最大となる入力ベクトルを特定する。学習部１４０は、特定した入力ベクトルが得られるように、入力データ３０の通信元ホストと通信先ホストとの識別子を、照合パタン５０に示す識別子に変換する。

図９の例では、入力ベクトル（１，３，０，２）が最も照合ベクトル（０．２，０．１，−０．３，０．４）との内積が大きくなる。そこで、入力データ３０において量が「３」の関係「Ｓ１，Ｒ１」を示すレコードは、変換データ６０では２番目のレコードとなるように、「Ｓ’２，Ｒ’１」に変換されている。入力データ３０において量が「１」の関係「Ｓ２，Ｒ１」を示すレコードは、変換データ６０では１番目のレコードとなるように、「Ｓ’１，Ｒ’１」に変換されている。入力データ３０において量が「２」の関係「Ｓ１，Ｒ２」を示すレコードは、変換データ６０では４番目のレコードとなるように、「Ｓ’２，Ｒ’２」に変換されている。入力データ３０において量が「０」の関係「Ｓ２，Ｒ２」を示すレコードは、変換データ６０では３番目のレコードとなるように、「Ｓ’１，Ｒ’２」に変換されている。このように、先に量の値の順序付けが行われ、それに合わせて通信元ホストと通信先ホストとの識別子が変換される。

このように第２の実施の形態では、入力データ３０の順序付けが、照合パタン５０を基準に決められる。学習部１４０は、以下の手順でニューラルネットワーク１５１の誤差逆伝播を利用し、照合パタン５０を最適化することで、入力データ３０の順序付けの最適な基準を定義する。

変換データ６０を生成すると、学習部１４０は、変換データ６０の量を、ニューラルネットワーク１５１の入力層の各ユニットへの入力として、ニューラルネットワーク１５１に基づく順伝播を計算する。そして学習部１４０は、出力層からの出力と、教師データ記憶部１３０に設定された正解の値とを比較し、誤差を計算する。次に学習部１４０は、誤差逆伝播により、誤差が減少するように各ユニットへの入力の重み値を修正する。学習部１４０は、誤差逆伝播を入力層のユニットへの入力にも適用し、入力層のユニットへの入力値の誤差を計算する。これにより、入力層の誤差を示す誤差ベクトル（−１．３，０．１，１．０，−０．７）が得られる。

また学習部１４０は、照合パタン５０の変動に対する変換データ６０の量の変分を算出する。例えば学習部１４０は、照合パタン５０における「Ｓ’１，Ｒ’１」の量が「１」だけ増加した場合を想定し、その場合の照合パタンとの類似度が最大となる変換データ６０ａを生成する。変換データ６０ａの生成方法は、変換データ６０を生成する場合と同じである。例えば学習部１４０は、照合パタン５０の「Ｓ’１，Ｒ’１」の量を「１．２」に変更した仮の照合パタンを生成し、仮の照合パタンとの類似度が最大となるように入力データ３０のレコードを並べ替え、変換データ６０ａを生成する。このとき生成される仮の照合パタンは、照合パタン５０内の１つの量の変化が変換データ６０におよぼす影響を調査するために一時的に生成される照合パタンである。基準となる照合パタンの量が変わったことで、変換データ６０とは異なる変換データ６０ａが生成される。

学習部１４０は、新たに生成した変換データ６０ａの量と、変換データ６０の量との変分を計算する。例えば学習部１４０は、同じ順番のレコードごとに、変換データ６０ａのレコードの量から変換データ６０のレコ−ドの量を減算する。その結果、量の変分を示す変分ベクトル（２，−２，２，−２）が得られる。

学習部１４０は、誤差逆伝播により得られる入力層の誤差ベクトルと、照合パタン５０の「Ｓ’１，Ｒ’１」の量を「１」だけ増加させた場合の変換データ６０ａに基づく変分ベクトルとの内積を計算する。学習部１４０は、算出された内積により、照合パタン５０の「Ｓ’１，Ｒ’１」の量の変動方向、および変動量を決定する。照合パタン５０の「Ｓ’１，Ｒ’１」の量を「１」だけ増加させることで、分類誤差が増加する場合、内積の結果は正となる。そのため内積の結果に負の値を乗算した方向が、「Ｓ’１，Ｒ’１」の量の変動方向となる。例えば学習部１４０は、内積に負の実数を乗算した値を、照合パタン５０における「Ｓ’１，Ｒ’１」の量に加算することで、その量を変動させる。なお入力データが複数ある場合、学習部１４０は、例えば複数の入力データそれぞれに基づいて計算した内積の平均値に基づいて、「Ｓ’１，Ｒ’１」の量を変動させる。

同様に照合パタン５０の他の量も、その量を「１」増加した場合の変換データに基づいて、変動させることができる。
このように学習部１４０は、分類誤差を増加させる変換データの量の変分の方向（入力層の誤差）に、照合パタンの変動に対する変換データの量の変分を掛け合わせることにより、分類誤差を増加させる照合パタンの変動の方向、および変動量を算出する。

以下、学習部１４０における機械学習の処理を具体的に説明する。
図１０は、過学習の抑止策を適用しない場合の機械学習処理の手順を示すフローチャートの一例である。以下、図１０に示す処理をステップ番号に沿って説明する。

［ステップＳ１０１］学習部１４０は、照合パタンとニューラルネットワークの、各ユニットへの入力の重みのパラメータを初期化する。例えば学習部１４０は、照合パタンの各レコードの量に、ランダムに生成した値を設定する。また学習部１４０は、各重みの値として、ランダムに生成した値を設定する。

［ステップＳ１０２］学習部１４０は、照合パタンに最も類似する変換データに、入力データを変換する。
［ステップＳ１０３］学習部１４０は、ニューラルネットワークを用いた順伝播および誤差逆伝播により、入力層の誤差ベクトルを取得する。

［ステップＳ１０４］学習部１４０は、照合パタンの未選択のレコードを１つ選択する。
［ステップＳ１０５］学習部１４０は、選択したレコードの量を「１」だけ増加させたときの、変換データの量の変分ベクトルを算出する。

［ステップＳ１０６］学習部１４０は、ステップＳ１０３で取得した誤差ベクトルと、ステップＳ１０５で算出した変分ベクトルとの内積を算出する。学習部１４０は、内積の結果を、選択したレコードの変動値とする。

［ステップＳ１０７］学習部１４０は、照合パタン内のすべてのレコードを選択したか否かを判断する。すべてのレコードが選択済みであれば、処理がステップＳ１０８に進められる。未選択のレコードがあれば、処理がステップＳ１０４に進められる。

［ステップＳ１０８］学習部１４０は、照合パタンの量とニューラルネットワークの重みのパラメータとを更新する。例えば学習部１４０は、照合パタンの各レコードの量に、レコードを選択したときにステップＳ１０６で算出した変動値を加算する。また学習部１４０は、ニューラルネットワークの誤差逆伝播によって計算した各パラメータの修正後の値に、重みのパラメータを更新する。

［ステップＳ１０９］学習部１４０は、処理の終了条件が満たされたか否かを判断する。例えば学習部１４０は、照合パタンの量とニューラルネットワークの重みのパラメータとが収束したか、もしくは、ステップＳ１０２〜Ｓ１０８の処理を所定回数以上ループさせた場合、終了条件が満たされたと判断する。照合パタンの量については、例えばステップＳ１０８における更新前後での各量の変化量の合計が所定値以下であれば、収束したと判断することができる。またニューラルネットワークの重みのパラメータについては、例えばステップＳ１０８における更新前後での各パラメータの変化量の合計が所定値以下であれば、収束したと判断することができる。すなわち、照合パタンの量とニューラルネットワークの重みのパラメータとのいずれもが、ステップＳ１０８の更新によってほとんど値が変化しない場合、収束したものと判断できる。終了条件が満たされた場合、処理が終了する。終了条件が満たされていなければ、処理がステップＳ１０２に進められる。

以上のような手順で機械学習を実行し、適切な照合パタンの量と各パラメータの値とを決定することができる。以下、図１１〜図１７を参照して、具体的な機械学習の例について説明する。なお、図１２〜図１７以下では、各データの通信元ホストを設定するフィールドを「項Ｓ」と表し、通信先ホストを設定するフィールドを「項Ｒ」と表すものとする。

図１１は、機械学習に利用するニューラルネットワークの一例を示す図である。図１１の例では、第２の実施の形態の処理を分かりやすくするため、ユニットが４つの入力層とユニットが１つの出力層とで構成されるニューラルネットワーク４１を想定する。入力層の各ユニットから出力層のユニットへの信号には、それぞれ重みを示すパラメータ（Ｗ１，Ｗ２，Ｗ３，Ｗ４）が設定されている。学習部１４０は、このようなニューラルネットワーク４１を用いて機械学習を行う。

図１２は、機械学習の例を示す第１の図である。例えば教師ラベル「１．０」の入力データ３１に基づいて、学習部１４０が機械学習を行うものとする。まず学習部１４０は、照合パタン５１の量と、パラメータ群７１の各重みの値とを初期化する。

次に学習部１４０は、照合パタン５１との類似度が最大となるように、入力データ３１の並べ替えを行い、変換データ６１を生成する。図１２の例では、照合パタン５１の量を成分とする照合ベクトルと、変換データ６１の量を成分とする入力ベクトルとの内積は「１．３」である。

図１３は、機械学習の例を示す第２の図である。学習部１４０は、変換データ６１の量を入力ベクトルとして、ニューラルネットワーク４１の順伝播の計算を行い、出力値を算出する。例えば学習部１４０は、入力ベクトルの各成分の量に、その量の入力先のユニットの重みの値を乗算し、成分ごとの乗算結果の合計を、順伝播の出力値とする。図１３の例では、出力値は「２．１」（１×１．２＋３×（−０．１）＋０×（−０．９）＋２×（０．６））である。学習部１４０は、出力値「２．１」と教師ラベル「１．０」との差を計算する。例えば学習部１４０は出力値から教師ラベルの値を減算し、差「１．１」を得る。この差は、出力値が「１．１」だけ大きすぎることを意味する。

次に学習部１４０は、誤差逆伝播により、入力層へ入力する値の誤差を計算する。例えば学習部１４０は、教師ラベルとの差を各ユニットの重みの値に乗算し、乗算結果を、そのユニットへ入力する量の誤差とする。そして学習部１４０は、入力層のユニットごとの誤差を成分とするベクトルを生成することで、誤差ベクトル（１．３，−０．１，−１．０，０．７）を得る。誤差ベクトルの成分の符号が正の場合、入力層の対応するユニットへの入力値が大きすぎることを意味する。誤差ベクトルの成分の符号が負の場合、入力層の対応するユニットへの入力値が小さすぎることを意味する。

また学習部１４０は、初期状態の照合パタン５１（図１２参照）の「Ｓ’１，Ｒ’１」のレコードの量を「１」だけ増加させて「１．２」とした照合パタン５２を生成する。次に学習部１４０は、入力データ３１の順序付けを行い、照合パタン５２と類似度が最大となる変換データ６２を生成する。次に学習部１４０は、元の変換データ６１と新たに生成した変換データ６２との量を、通信元ホスト（項Ｓ）と通信先ホスト（項Ｒ）との組が同じレコード同士で比較し、量の変分を計算する。例えば変換データ６２の「Ｓ’１，Ｒ’１」の量「３」から、変換データ６１の「Ｓ’１，Ｒ’１」の量「１」を減算し、減算結果「２」を「Ｓ’１，Ｒ’１」に対応する量の変分とする。学習部１４０は、レコードごとに計算した量の変分を成分とする変分ベクトル（２，−２，２，−２）を生成する。

学習部１４０は、誤差ベクトル（１．３，−０．１，−１．０，０．７）と変分ベクトル（２，−２，２，−２）との内積を計算し、得られた内積「−０．６」を「Ｓ’１，Ｒ’１」の量の変動値とする。学習部１４０は、例えば、通信元ホスト（項Ｓ）と通信先ホスト（項Ｒ）との組「Ｓ’１，Ｒ’１」に対応付けて、変動値「−０．６」を変動データ８０に設定する。

誤差ベクトルは、各入力値について、出力値の誤差を拡大させる方向にどの程度ずれているのかを示している。そのため「Ｓ’１，Ｒ’１」のレコードの量を「１」だけ増加させたときの変分ベクトルが誤差ベクトルと類似している場合、その量の増加が、出力値の誤差を拡大させる方向に作用することを意味する。すなわち、誤差ベクトルと変分ベクトルとの内積が正の場合、「Ｓ’１，Ｒ’１」の量を増加させると、出力値の誤差が拡大する。誤差ベクトルと変分ベクトルとの内積が負の場合、「Ｓ’１，Ｒ’１」の量を増加させると、出力値の誤差が縮小する。

図１４は、機械学習の例を示す第３の図である。学習部１４０は、初期状態の照合パタン５１（図１２参照）の「Ｓ’２，Ｒ’１」のレコードの量を「１」だけ増加させて「１．１」とした照合パタン５３を生成する。次に学習部１４０は、入力データ３１の順序付けを行い、照合パタン５３と類似度が最大となる変換データ６３を生成する。次に学習部１４０は、元の変換データ６１と新たに生成した変換データ６３との量を、通信元ホスト（項Ｓ）と通信先ホスト（項Ｒ）との組が同じレコード同士で比較し、量の変分を計算する。そして学習部１４０は、レコードごとに計算した量の変分を成分とする変分ベクトル（０，０，０，０）を生成する。学習部１４０は、誤差ベクトル（１．３，−０．１，−１．０，０．７）と変分ベクトル（０，０，０，０）との内積を計算し、得られた内積「０．０」を「Ｓ’２，Ｒ’１」の量の変動値として、変動データ８０に設定する。

図１５は、機械学習の例を示す第４の図である。学習部１４０は、初期状態の照合パタン５１（図１２参照）の「Ｓ’１，Ｒ’２」のレコードの量を「１」だけ増加させて「０．７」とした照合パタン５４を生成する。次に学習部１４０は、入力データ３１の順序付けを行い、照合パタン５４と類似度が最大となる変換データ６４を生成する。次に学習部１４０は、元の変換データ６１と新たに生成した変換データ６４との量を、通信元ホスト（項Ｓ）と通信先ホスト（項Ｒ）との組が同じレコード同士で比較し、量の変分を計算する。そして学習部１４０は、レコードごとに計算した量の変分を成分とする変分ベクトル（１，−３，３，−１）を生成する。学習部１４０は、誤差ベクトル（１．３，−０．１，−１．０，０．７）と変分ベクトル（１，−３，３，−１）との内積を計算し、得られた内積「−２．１」を「Ｓ’１，Ｒ’２」の量の変動値として、変動データ８０に設定する。

図１６は、機械学習の例を示す第５の図である。学習部１４０は、初期状態の照合パタン５１（図１２参照）の「Ｓ’２，Ｒ’２」のレコードの量を「１」だけ増加させて「１．４」とした照合パタン５５を生成する。次に学習部１４０は、入力データ３１の順序付けを行い、照合パタン５５と類似度が最大となる変換データ６５を生成する。次に学習部１４０は、元の変換データ６１と新たに生成した変換データ６５との量を、通信元ホスト（項Ｓ）と通信先ホスト（項Ｒ）との組が同じレコード同士で比較し、量の変分を計算する。そして学習部１４０は、レコードごとに計算した量の変分を成分とする変分ベクトル（−１，−１，１，１）を生成する。学習部１４０は、誤差ベクトル（１．３，−０．１，−１．０，０．７）と変分ベクトル（−１，−１，１，１）との内積を計算し、得られた内積「−１．５」を「Ｓ’２，Ｒ’２」の量の変動値として、変動データ８０に設定する。

図１７は、機械学習の例を示す第６の図である。学習部１４０は、変換データ６１の各レコードの量に、ニューラルネットワーク４１の順伝播の計算結果と教師ラベルとの差「１．１」を乗算する。学習部１４０は、乗算結果に、定数αをさらに乗算する。定数αの値は、例えばニューラルネットワーク４１のステップサイズであり、図１１〜図１７に示した例では「α＝１」である。学習部１４０は、「変換データ６１の量×教師ラベルとの差「１．１」×定数α」の結果を、パラメータ群７１のパラメータから減算する。

例えば学習部１４０は、入力層の１つめのユニットに対応する重み「Ｗ１」の値「１．２」から、そのユニットへ入力する量「１」に「１．１」とα「１」を乗算した結果「１．１」を減算し、新たな重み「Ｗ１」の値「０．１」とする。同様に、入力層のユニットごとに、重みのパラメータの値が更新され、新たなパラメータ群７２が生成される。

また学習部１４０は、通信元ホスト（項Ｓ）と通信先ホスト（項Ｒ）との組ごとに、照合パタン５１に示される量から、変動データ８０の変動値に定数αを乗算した値を減算する。そして学習部１４０は、通信元ホスト（項Ｓ）と通信先ホスト（項Ｒ）との組ごとの計算結果を、更新後の照合パタン５６の量の値とする。例えば「Ｓ’１，Ｒ’１」の量は、「０．８」（０．２−１×（−０．６））に更新される。

入力データが複数ある場合、学習部１４０は、入力データごとに算出された変換データ６１の量の平均値を用いて、パラメータ群７１の重みの値を更新する。また学習部１４０は、入力データごとに算出された変動データ８０の変動値の平均値を用いて、照合パタン５１の量を更新する。

このようにして学習部１４０により、ニューラルネットワークにより算出される誤差を利用して、照合パタンが更新される。最終的に出力された照合パタンを用いて、解析部１６０が通信ログの分類を行う。例えば解析部１６０は、学習フラグがない通信ログを、照合パタンとの類似度が最大になるように変換する。そして、解析部１６０は、変換後のデータをニューラルネットワークへの入力値として入力し、ニューラルネットワークの出力値を計算する。その際、解析部１６０は、学習部１４０によって生成されたパラメータ群によって、各ユニットへの入力値を重み付けする。そして解析部１６０は、ニューラルネットワークの出力値により、例えば、通信ログの取得期間内に不正通信が行われたか否かを判定する。すなわち、その通信ログが、正常な通信の記録なのか、不正な通信の記録なのかの分類が行われる。このようにして、入力データの適切な順序付けにより、高精度の分類が可能となる。

しかも、順序付けのすべてのパタンを探索することなく、現実的な計算量で最適な順序付けが探索可能となり、計算量も少なくて済む。例えば、３項目の人またはものがあり、各項目の種類数がそれぞれ「Ａ，Ｂ，Ｃ」（Ａ，Ｂ，Ｃは１以上の整数）であるものとする。また、各項目から１種類ずつの人またはものの組み合わせに対応する数値がＮ個（Ｎは１以上の整数）あるものとする。適切な照合結果を得るために探索するすべての順序付けのパタンは（Ａ！Ｂ！Ｃ！）^N通りになる。この場合、数値の数が増えると、現実的な時間で機械学習の計算をするのが困難となる。第２の実施の形態では、照合パタンにおける３つの項目の種類数を「Ａ’，Ｂ’，Ｃ’」（Ａ’，Ｂ’，Ｃ’は１以上の整数）とする。またニューラルネットワークの更新回数をＥ（Ｅは１以上の整数）とする。この場合、Ａ’Ｂ’Ｃ’（Ａ＋Ｂ＋Ｃ）ＮＥに比例する計算量となり、現実的な計算量で計算可能である。

＜過学習の抑止策を適用する場合のデータ分類処理＞
過学習の抑止策は、過学習が発生しやすい場合に行われる。過学習が発生しやすい場合として、まず教師データが十分にない場合がある。教師データが十分にあるかどうかは、入力層のユニットから、次の中間層のユニット（ニューロン）へのパラメータ数との比較によって決まる。例えば、教師データ数に対して、入力層のユニットから次の中間層のニューロンへのパラメータ数が多いと、機械学習において過学習が発生する。入力層のユニットから次の中間層のニューロンへのパラメータ数は、入力層のユニットが多いほど多くなり、かつ次の中間層のニューロンが多いほど多くなる。

図１８は、過学習となる場合の例を示す図である。ニューラルネットワーク１５１の入力層には、変換データ６０の各項目の変数値のすべての組み合わせパタンに対応するユニットが設けられる。そしてニューラルネットワーク１５１の入力層のユニットそれぞれから次の層のニューロンそれぞれに対して、値が入力される（該当する値の入力が、破線の矩形内の矢印で示されている）。入力される各値には、重みを示すパラメータが乗算される。すなわち、図１８に示す破線の矩形内の矢印の数の分だけ、該当する入力に対応するパラメータが設定される。

例えば、データがｍ個（ｍは１以上の整数）の項目間の関係であり、各項目の変数値の数がＩ₁，・・・，Ｉ_m、次の層のニューロンがＬ個（Ｌは１以上の整数）の場合、その間のパラメータ数はＩ₁×…×Ｉ_m×Ｌとなる。送信元ホスト、送信先ホスト、ポートが各１０種類、次の層のニューロンが１０個の場合、その間のパラメータ数は１０×１０×１０×１０＝１００００個だが、入力データが１００個程度しかない場合には、容易に過学習となる。

また、変換データの自由度が低い場合にも、過学習となりやすい。変換データの自由度が低い場合とは、例えば、入力データの各項目の変数値同士に、高い相関がある場合にも過学習となる。

図１９は、変換データの自由度が低い場合の例を示す図である。図１９の例では、入力データ９１には、通信元ホスト、通信先ホスト、およびポートの３つの項目が含まれる。そして入力データ９１には、３つの項目それぞれの変数値の組み合わせパタンごとの量が設定されている。このとき、例えば、同じポート番号・通信先ホストの組み合わせに通信することの多い通信元ホスト同士は、高い相関があるといえる。この場合、高い相関を有する複数の通信元ホスト、それらの通信先となる通信先ホストとポートの集合を、高相関の変数値の集合とする。

このように、入力データ９１の各項目において、高い相関を有する変数値の集合が存在する場合、入力データ９１から変換して生成した変換データ９２においても、各項目の変数値同士に高い相関がある。変換データ９２において、複数の項目それぞれの変数値同士に高い相関があると、変換データ９２の自由度が低くなる。変換データ９２の自由度が低ければ、全教師データが正解になるような照合パタンおよびパラメータの学習が容易となり、過学習となりやすくなる。

このような過学習の抑止策として、単純には、照合パタンのレコードの数、または入力層の次の層のニューロンのいずれかの数を小さくすることが考えられる。照合パタンのレコードの数を少なくするためには、変換データの同じ変数値に、多くの入力データの変数値を対応づけることになる。しかし、このような方法で照合パタンのレコード数を削減すると、入力データに含まれる特徴のうち、変換データで表現できないものが多くなってしまい、それが理由で分類精度が劣化する可能性がある。

また、入力層の次の層のニューロンの数を削減すると、変換データに含まれる特徴のうち、上位層のニューロンに伝搬できないものが多くなってしまい、それが理由で分類精度が劣化する可能性がある。

そこで第２の実施の形態では、変換データのレコードに示される複数の関係それぞれと、入力層の次の層の複数のニューロンそれぞれとの間のパラメータを、関係を構成する各変数値と各ニューロンとの間のパラメータの積により表現する。この場合、ニューラルネットワークにおける学習過程では、教師データの正解が得られるように、関係を構成する各変数値と各ニューロンとの間のパラメータの値を学習することになる。

図２０は、入力層の次の層の複数のニューロンそれぞれとの間のパラメータ数の削減例を示す図である。変換データ９２の各レコードに設定されている量それぞれが、ニューラルネットワーク９３の入力層の対応するユニットに入力される。入力層の各ユニットは、次の層のすべてのニューロンへ、入力された量にパラメータを乗算した結果を入力する。ここでｉ番目（ｉは１以上の整数）の通信元ホスト、ｊ番目（ｊは１以上の整数）の通信先ホスト、およびｋ番目（ｋは１以上の整数）のポートの組み合わせで示される関係を（ｉ，ｊ，ｋ）とする。この関係に対応する量を、入力層の次の層のｌ番目（ｌは１以上の整数）のニューロンに入力する際に、その量に乗算するパラメータの値を、ｗ_i,j,k,lとする。このときｗ_i,j,k,lを、以下の式（１）で表す。
ｗ_i,j,k,l＝ｗ_i,l×ｗ_j,l×ｗ_k,l ・・・（１）
ここでｗ_i,lは、ｉ番目の通信元ホストの識別子と、入力層の次の層のｌ番目のニューロンとの組に対応するパラメータの値である。ｗ_j,lは、ｊ番目の通信先ホストの識別子と、入力層の次の層のｌ番目のニューロンとの組に対応するパラメータの値である。ｗ_k,lは、ｋ番目のポートの識別子と、入力層の次の層のｌ番目のニューロンとの組に対応するパラメータの値である。

これにより、学習するパラメータの値「ｗ_i,j,k,l」が、複数のパラメータの値「ｗ_i,l、ｗ_j,l、ｗ_k,l」の積で表現される。すなわち入力層と入力層の次の層との間のパラメータを、少ないパラメータで表現できる。これにより、過学習を抑止できる
例えばデータがｍ個（ｍは１以上の整数）の項目間の関係であり、各項目の変数値の数がＩ₁，・・・，Ｉ_m（Ｉ₁，・・・，Ｉ_mは、それぞれ１以上の整数）、入力層の次の層のニューロンがＬ個（Ｌは１以上の整数）である場合、その間のパラメータ数はＩ₁×Ｌ＋・・・＋Ｉ_m ×Ｌとなる。例えば１０種類の通信元ホスト、１０種類の通信先ホスト、１０種類のポートの間の関係を示す変換データ９２に対し、入力層の次の層のニューロンが１０個なら、その間のパラメータ数は１０×１０＋１０×１０＋１０×１０＝３００個になる。

このようにパラメータ数を削減しても、入力データに各項目間で相関の強い変数値の集合が多数含まれており、かつ、強い相関を持つ変数値の集合同士の変数値の関係の仕方が分類の特徴として重要である場合に、分類の特徴を損なわずに済む。したがって、分類精度を低下させずにパラメータ数を大幅に削減して、過学習を防止することができる。

図２１は、パラメータ数を削減した場合の分類の特徴の削減後のパラメータへの反映例を示す図である。図２１では、変換データ９２内の高い相関を有する変数値の集合を、四角柱で表している。図２１に示すように、変換データ９２は、相関の高い変数値の集合同士が複雑に関係しあった構造を持っている。

ここで、変換データ９２内に、強い相関を持つ変数値の集合がどのように存在しているのかが、データを分類するうえで重要な特徴となる場合がある。このようなデータ分類は、例えばある種のサイバー攻撃の攻撃パタンの特徴によってデータを分類する場合に有効である。この特徴は、図２１に示した変換データ９２における四角柱の領域に現れる。すなわち、変換データ９２内の強い相関を持つ変数値の集合を示す四角柱の領域の分布状況が、データを分類するための重要な特徴となる。

例えば変換データ９２におけるｉ番目の通信元ホストとｉ＋１番目の通信元ホストは、共にｊ番目の通信先ホストのｋ番目のポートに対して、高頻度で通信を行っているものとする。すなわち、ｉ番目の通信元ホストとｉ＋１番目の通信元ホストとは、高い相関を有する。ここで、入力層の次の層のｌ番目のニューロンへ入力する値に対する重みは、上記の式（１）で計算される。

この場合、「ｗ_i,l」、「ｗ_i+1,l」、「ｗ_j,l」、「ｗ_k,l」のパラメータの値が、学習により他のパラメータの値より大きな値となれば、高相関の変数値の集合に関する特徴を損なわずに済む。すなわち、変換データの各レコードに示される関係と入力層の次の層との間のパラメータを、式（１）に示す積表現で表しても、強い相関を持つ変数値の集合同士の関係を示す特徴を損なわずに表現できる。例えばｉ番目の通信元ホストとｉ＋１番目の通信元ホストが、共にｊ番目の通信先ホストのｋ番目のポートに対して高頻度で通信を行っているという関係が、少ないパラメータ数で表現できる。

このように第２の実施の形態では、入力データに相関の強い変数値の集合が多数含まれており、かつ、強い相関を持つ変数値の集合同士の変数値の関係の仕方が分類の特徴として重要である場合に、式（１）に示す形式でパラメータを表現する。そして式（１）の右辺のパラメータの値をニューラルネットワークにより学習することで、分類の特徴を損なうことなく、パラメータ数を大幅に削減し、過学習を抑止することができる。

次に、過学習の抑止策を適用する場合の機械学習処理の手順について説明する。
図２２は、過学習の抑止策を適用する場合の機械学習処理の手順を示すフローチャートの一例である。以下、図２２に示す処理をステップ番号に沿って説明する。

［ステップＳ２０１］学習部１４０は、照合パタンとニューラルネットワークのパラメータとを初期化する。初期化されるパラメータのうち、入力層から次の層へ入力する数値に対するパラメータは、式（１）に示す積表現であり、式（１）の右辺に示されるパラメータが初期化対象である。

図２３は、パラメータの初期化の一例を示す図である。図２３の例では、変換データ３１１は、通信元ホスト、通信先ホスト、およびポートの項目を有している。通信元ホストは３つの変数値を有する。通信先ホストは２つの変数値を有する。ポートは３つの変数値を有する。したがって、３つの項目の変数値の組み合わせパタンは１８通りであり、変換データ３１１には各組み合わせパタンに対応する１８個のレコードが含まれる。各レコードには、対応する組み合わせパタンの出現頻度を示す量が設定されている。

ニューラルネットワーク３１２の入力層には、変換データ３１１のレコード数と同じ数のユニットが設けられている。またニューラルネットワーク３１２の、入力層の次の中間層には、２つのニューロンが設けられている。中間層の各ニューロンの出力は、出力層の１つのニューロンに入力される。

この場合、学習部１４０は、３つのパラメータ群３１４〜３１６の各パラメータを初期化する。パラメータ群３１４は、通信元ホストの複数の変数値それぞれと、中間層の複数のニューロンとの組み合わせごとのパラメータである。パラメータ群３１５は、通信先ホストの複数の変数値それぞれと、中間層の複数のニューロンとの組み合わせごとのパラメータである。パラメータ群３１６は、ポートの複数の変数値それぞれと、中間層の複数のニューロンとの組み合わせごとのパラメータである。学習部１４０は、３つのパラメータ群３１４〜３１６の各パラメータを、例えばランダムな値に初期化する。

３つのパラメータ群３１４〜３１６のパラメータに基づいて、積表現されたパラメータ３１３を生成することができる。図２３の例では、パラメータ群３１４〜３１６に含まれる１６個のパラメータに基づいて、積表現されたパラメータ３１３に含まれる３６個のパラメータが生成される。

以下、図２２の説明に戻る。
［ステップＳ２０２］学習部１４０は、照合パタンに最も類似する変換データに、入力データを変換する。

［ステップＳ２０３］学習部１４０は、ニューラルネットワーク３１２を用いた順伝播および誤差逆伝播により、入力層の誤差ベクトルを取得する。この際、学習部１４０は、パラメータ群３１４〜３１６内の各パラメータの勾配を、項目ごとの微分（部分微分）によって算出する。そして、学習部１４０は、求めた勾配によって、パラメータ群３１４〜３１６内のパラメータの値を修正する。

図２４は、パラメータの部分微分の算出例を示す図である。特定の項目の部分微分は、例えば変換データ３１１と、部分微分の対象とする項目以外の項目のパラメータと、入力層の次の層における逆伝播誤差とに基づいて計算される。例えば通信元ホストのパラメータ群３１４についての部分微分を計算する場合、通信先ホストのパラメータ群３１５とポートのパラメータ群３１６のパラメータが用いられる。

通信元ホストの部分微分の計算では、例えば学習部１４０は、変換データ３１１の各レコードの量と、通信先ホストのパラメータ群３１５とポートのパラメータ群３１６との対応する変数値のパラメータの値との積を計算する。例えば通信元ホスト「Ｓ’１」、通信先ホスト「Ｒ’１」、ポート「Ｐ’１」の組み合わせに対応するレコードに設定された量に対しては、通信先ホスト「Ｒ’１」のパラメータの値とポート「Ｐ’１」のパラメータの値とが乗算される。このような乗算は、中間層のニューロンごとに行われる。

次に学習部１４０は、通信元ホストの変数値それぞれについて、変換データ３１１における対応するレコードの量を用いて得られた積の計算結果を、中間層のニューロンごとに集約する。例えば通信元ホスト「Ｓ’１」の部分積分の値を求める場合、変換データ３１１における通信元ホスト「Ｓ’１」を含むレコードの量を用いた積の計算結果が集約される。積の計算結果の集約とは、例えば、積の計算結果を合計する処理である。学習部１４０は、集約結果に、対応するニューロンの出力に対する逆伝播誤差を乗算することで、各変数値の部分微分を得る。得られた部分微分が、対応する変数値の中間層のニューロンごとの勾配となる。

学習部１４０は、例えば、項目の変数値と中間層のニューロンとの組ごとに求めた勾配に所定値を乗算した値を、該当する組に対応するパラメータの値から減算して得られた値を、そのパラメータの修正後の値とする。

以下、図２２の説明に戻る。
［ステップＳ２０４］学習部１４０は、照合パタンの未選択のレコードを１つ選択する。

［ステップＳ２０５］学習部１４０は、選択したレコードの量を「１」だけ増加させたときの、入力データから生成した変換データの量の変分ベクトルを算出する。
［ステップＳ２０６］学習部１４０は、ステップＳ２０３で取得した誤差ベクトルと、ステップＳ２０５で算出した変分ベクトルとの内積を算出する。学習部１４０は、内積の結果を、選択したレコードの変動値とする。

［ステップＳ２０７］学習部１４０は、照合パタン内のすべてのレコードを選択したか否かを判断する。すべてのレコードが選択済みであれば、処理がステップＳ２０８に進められる。未選択のレコードがあれば、処理がステップＳ２０４に進められる。

［ステップＳ２０８］学習部１４０は、照合パタンの量とニューラルネットワークの重みのパラメータとを更新する。例えば学習部１４０は、照合パタンの各レコードの量に、レコードを選択したときにステップＳ２０６で算出した変動値を加算する。また学習部１４０は、ニューラルネットワークの誤差逆伝播によって計算した各パラメータの修正後の値に、重みのパラメータを更新する。

［ステップＳ２０９］学習部１４０は、処理の終了条件が満たされたか否かを判断する。終了条件が満たされた場合、処理が終了する。終了条件が満たされていなければ、処理がステップＳ２０２に進められる。

このようにして、入力層と中間層との間のパラメータの数を削減して、機械学習を行うことができる。そして、パラメータ数が削減されたことで、過学習が抑止される。
また、このような過学習抑止策は、入力データに各項目間で相関の強い変数値の集合が多数含まれており、かつ、強い相関を持つ変数値の集合同士の変数値の関係の仕方が分類の特徴として重要である場合に適用される。この場合、過学習の抑止策を適用しても、変換データ中の高相関な変数値の集団の存在を各ニューロンに伝えるように、照合パタンとパラメータとが学習される。

図２５は、学習によって得られるパラメータの一例を示す図である。例えば変換データ３２１では、通信元ホストの「Ｓ’１」と「Ｓ’２」、通信先ホストの「Ｒ’１」、ポート「Ｐ’１」と「Ｐ’２」の組み合わせにおいて、通信元ホストの「Ｓ’１」と「Ｓ’２」とが高相関であり、ポート「Ｐ’１」と「Ｐ’２」とが高相関である。この場合、ニューラルネットワークによる学習を進めていくと、高相関な変数値の集団が、中間層の１つのニューロン（図２５の例では、１つ目のニューロン）との間のパラメータで示される。

例えば通信元ホストの変数値それぞれと中間層の１つめのニューロンとの間のパラメータのうち、高相関な変数値の集団に含まれる通信元ホスト「Ｓ’１」と「Ｓ’２」の値は大きく、他の通信元ホスト「Ｓ’３」の値は小さくなる。同様に通信先ホストの変数値それぞれと中間層の１つめのニューロンとの間のパラメータのうち、高相関な変数値の集団に含まれる通信先ホスト「Ｒ’１」の値は大きく、他の通信元ホスト「Ｒ’２」の値は小さくなる。またポートの変数値それぞれと中間層の１つめのニューロンとの間のパラメータのうち、高相関な変数値の集団に含まれるポート「Ｐ’１」と「Ｐ’２」の値は大きく、他の通信元ホスト「Ｐ’３」の値は小さくなる。

変換データ３２１では、通信元ホストの「Ｓ’２」と「Ｓ’３」、通信先ホストの「Ｒ’２」、ポート「Ｐ’２」と「Ｐ’３」の組み合わせにおいて、通信元ホストの「Ｓ’２」と「Ｓ’３」とが高相関であり、ポート「Ｐ’２」と「Ｐ’３」とが高相関である。この場合、ニューラルネットワークによる学習を進めていくと、高相関な変数値の集団が、中間層の１つのニューロン（図２５の例では、２つ目のニューロン）との間のパラメータで示される。

例えば通信元ホストの変数値それぞれと中間層の２つめのニューロンとの間のパラメータのうち、高相関な変数値の集団に含まれる通信元ホスト「Ｓ’２」と「Ｓ’３」の値は大きく、他の通信元ホスト「Ｓ’１」の値は小さくなる。同様に通信先ホストの変数値それぞれと中間層の２つめのニューロンとの間のパラメータのうち、高相関な変数値の集団に含まれる通信先ホスト「Ｒ’２」の値は大きく、他の通信元ホスト「Ｒ’１」の値は小さくなる。またポートの変数値それぞれと中間層の２つめのニューロンとの間のパラメータのうち、高相関な変数値の集団に含まれるポート「Ｐ’２」と「Ｐ’３」の値は大きく、他の通信元ホスト「Ｐ’１」の値は小さくなる。

このように、学習するパラメータの数を削減しても、高相関の変数値を示す特徴がニューラルネットワークに反映される。したがって、パラメータ数を削減したことによるニューラルネットワークの分類精度の低下が抑止される。

〔その他の実施の形態〕
第２の実施の形態は、通信ログの分類の機械学習に関する例であるが、通信ログの分類以外にも、入力値の順番が精度に影響する場合がある。例えば、化合物の位置に関わらず活性をもつ構造により、化合物を分類したい場合が考えられる。化合物の分類に対しても、照合パタンを用いて適切な順序付けを行うことで、精度の高い分類が可能となる。

図２６は、化合物の分類例を示す図である。例えば複数の化合物構造データ４０１，４０２，・・・を、その化合物の働きに応じて分類する場合を考える。化合物構造データ４０１，４０２，・・・には、化合物を構成する物質のうちの２つの物質間の関係を示す複数のレコードが含まれているものとする。

分類に強く寄与する関係（図中、破線の円で囲まれた関係）が、変数値間の関係全体の構造とは無関係に出現する場合がある。ニューラルネットワークを用いた分類において、化合物構造データ４０１，４０２，・・・内の関係の順番が不適切だと、正しく分類できない可能性がある。そこで、分類精度を高めるように最適化された照合パタンを用いて、化合物構造データ４０１，４０２，・・・内の関係を順序付けることで、化合物の位置に関わらず活性をもつ構造が存在する場合でも、化合物を正しく分類できる。

以上、実施の形態を例示したが、実施の形態で示した各部の構成は同様の機能を有する他のものに置換することができる。また、他の任意の構成物や工程が付加されてもよい。さらに、前述した実施の形態のうちの任意の２以上の構成（特徴）を組み合わせたものであってもよい。

１ニューラルネットワーク
２入力データ
３教師データ
４変換データ
５誤差
１０機械学習装置
１１記憶部
１１ａ照合パタン
１１ｂ入力層・中間層間パラメータ
１１ｃ中間層・出力層間パラメータ
１２処理部

Claims

コンピュータに、
複数の数値を含む入力データと、前記入力データに対する分類の正解を示す教師データとを取得し、
複数の項目それぞれの変数値の組み合わせパタンごとの基準値の配列により、ニューラルネットワークへ入力する数値の順序付けの基準が示された照合パタンに基づいて、前記入力データに含まれる前記複数の数値それぞれを前記組み合わせパタンのいずれかに対応付けることで、前記複数の数値それぞれの入力順序を決定し、
前記複数の項目それぞれの変数値と、前記ニューラルネットワークの入力層の次の層のニューロンとの組ごとに設定された第１パラメータ値に基づいて、前記組み合わせパタンと前記次の層のニューロンとの組それぞれについて、前記組み合わせパタンに含まれる変数値それぞれと前記次の層のニューロンとの組の前記第１パラメータ値の積を、前記組み合わせパタンに対応付けられた数値を前記次の層のニューロンへ入力する際の重み値を示す第２パラメータ値に決定し、
前記次の層のニューロンへ入力する数値の重み値として前記第２パラメータ値を用いて、前記入力順序に従った前記複数の数値の入力に応じた前記ニューラルネットワークの出力値を算出し、
前記出力値と前記教師データとの誤差に基づいて、前記ニューラルネットワークで正解を得るための、前記ニューラルネットワークの入力層と前記次の層とのそれぞれへの入力値の誤差を算出し、
前記入力層と前記次の層とのそれぞれへの入力値の誤差に基づいて、前記照合パタンの前記複数の基準値と前記第１パラメータ値とを更新する、
処理を実行させる機械学習プログラム。
前記入力データには、前記複数の項目それぞれの入力変数値の組み合わせパタンごとの数値が設定されており、一項目の２以上の入力変数値の間に、前記入力変数値を含む組み合わせパタンに設定された数値に相関がある、
請求項１記載の機械学習プログラム。
前記入力順序の決定では、前記入力変数値それぞれを、前記照合パタンに示される前記複数の変数値のいずれかに変換して、変換後の変数値の組み合わせパタンを前記照合パタンに合わせて並べ替えることで得られる数値の順番を、前記複数の数値それぞれの前記入力順序とする、
請求項２記載の機械学習プログラム。
コンピュータが、
複数の数値を含む入力データと、前記入力データに対する分類の正解を示す教師データとを取得し、
複数の項目それぞれの変数値の組み合わせパタンごとの基準値の配列により、ニューラルネットワークへ入力する数値の順序付けの基準が示された照合パタンに基づいて、前記入力データに含まれる前記複数の数値それぞれを前記組み合わせパタンのいずれかに対応付けることで、前記複数の数値それぞれの入力順序を決定し、
前記複数の項目それぞれの変数値と、前記ニューラルネットワークの入力層の次の層のニューロンとの組ごとに設定された第１パラメータ値に基づいて、前記組み合わせパタンと前記次の層のニューロンとの組それぞれについて、前記組み合わせパタンに含まれる変数値それぞれと前記次の層のニューロンとの組の前記第１パラメータ値の積を、前記組み合わせパタンに対応付けられた数値を前記次の層のニューロンへ入力する際の重み値を示す第２パラメータ値に決定し、
前記次の層のニューロンへ入力する数値の重み値として前記第２パラメータ値を用いて、前記入力順序に従った前記複数の数値の入力に応じた前記ニューラルネットワークの出力値を算出し、
前記出力値と前記教師データとの誤差に基づいて、前記ニューラルネットワークで正解を得るための、前記ニューラルネットワークの入力層と前記次の層とのそれぞれへの入力値の誤差を算出し、
前記入力層と前記次の層とのそれぞれへの入力値の誤差に基づいて、前記照合パタンの前記複数の基準値と前記第１パラメータ値とを更新する、
機械学習方法。
複数の項目それぞれの変数値の組み合わせパタンごとの基準値の配列により、ニューラルネットワークへ入力する数値の順序付けの基準が示された照合パタンを記憶する記憶部と、
複数の数値を含む入力データと、前記入力データに対する分類の正解を示す教師データとを取得し、前記照合パタンに基づいて、前記入力データに含まれる前記複数の数値それぞれを前記組み合わせパタンのいずれかに対応付けることで、前記複数の数値それぞれの入力順序を決定し、前記複数の項目それぞれの変数値と、前記ニューラルネットワークの入力層の次の層のニューロンとの組ごとに設定された第１パラメータ値に基づいて、前記組み合わせパタンと前記次の層のニューロンとの組それぞれについて、前記組み合わせパタンに含まれる変数値それぞれと前記次の層のニューロンとの組の前記第１パラメータ値の積を、前記組み合わせパタンに対応付けられた数値を前記次の層のニューロンへ入力する際の重み値を示す第２パラメータ値に決定し、前記次の層のニューロンへ入力する数値の重み値として前記第２パラメータ値を用いて、前記入力順序に従った前記複数の数値の入力に応じた前記ニューラルネットワークの出力値を算出し、前記出力値と前記教師データとの誤差に基づいて、前記ニューラルネットワークで正解を得るための、前記ニューラルネットワークの入力層と前記次の層とのそれぞれへの入力値の誤差を算出し、前記入力層と前記次の層とのそれぞれへの入力値の誤差に基づいて、前記照合パタンの前記複数の基準値と前記第１パラメータ値とを更新する、処理部と、
を有する機械学習装置。