JP6898561B2 - 機械学習プログラム、機械学習方法、および機械学習装置 - Google Patents

機械学習プログラム、機械学習方法、および機械学習装置 Download PDF

Info

Publication number
JP6898561B2
JP6898561B2 JP2017172625A JP2017172625A JP6898561B2 JP 6898561 B2 JP6898561 B2 JP 6898561B2 JP 2017172625 A JP2017172625 A JP 2017172625A JP 2017172625 A JP2017172625 A JP 2017172625A JP 6898561 B2 JP6898561 B2 JP 6898561B2
Authority
JP
Japan
Prior art keywords
item
input
value
pattern
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017172625A
Other languages
English (en)
Other versions
JP2019049782A (ja
Inventor
弘治 丸橋
弘治 丸橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017172625A priority Critical patent/JP6898561B2/ja
Priority to US16/125,395 priority patent/US20190080235A1/en
Publication of JP2019049782A publication Critical patent/JP2019049782A/ja
Application granted granted Critical
Publication of JP6898561B2 publication Critical patent/JP6898561B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Discrete Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、機械学習プログラム、機械学習方法、および機械学習装置に関する。
ニューラルネットワークを利用して、コンピュータに機械学習を行わせることができる。例えばコンピュータは、学習対象の入力データをニューラルネットワークの入力層に入力する。次にコンピュータは、ニューラルネットワーク内のユニットごとに、予め定義された処理を入力データに対して実行し、その結果を次の層のユニットへの入力とする。ニューラルネットワークの出力層まで処理が到達すると、コンピュータは出力層での処理結果を、出力データとして出力する。そしてコンピュータは、入力データに対応付けられた教師データの値と出力データとを比較し、値に差があれば、その差が縮まるようにニューラルネットワークを修正する。このような処理を繰り返すことで、入力データを所定の基準で分類できるニューラルネットワークが作成される。例えば、ある一定期間内のネットワークの通信ログから、その期間内に不正行為が行われているか否かを分類するニューラルネットワークが作成できる。
なお、ニューラルネットワークは、教師データの数と比較して、1つの教師データで入力される数値の数が多い場合、過学習になりやすい。過学習は、過剰適合とも呼ばれる。過学習は、教師データに過剰に適合してしまい、教師データの分類精度は高いが、教師データ以外のデータの分類精度が低い状態である。ニューラルネットワークにおいては、このような過学習を避けるための技術が適用される場合もある。
ニューラルネットワークを用いた技術としては、例えば入力文字を正しく分類することにより、精度よく文字を認識できる文字認識装置がある。また微分値を用いてニューラルネットワークの修正の振動を防ぐことによる、高速で精度の良いニューラルネットワークの学習方法も考えられている。さらに各学習データの学習のしやすさ、データパタンなどの分類や分類ごとのデータ数によらず、各データを均一、かつ高速に学習させるニューラルネットワークの学習装置もある。グラフデータの各ノードの近傍ノードを順序付け、近傍ノード間の関係に同じ重みを与える畳み込みニューラルネットワーク学習技術もある。
過学習を避けるための技術としては、例えば中間層素子の融合直後に学習に必要な各種変数の値を修正する、ニューラルネットワークの最適化学習方法がある。また、過剰学習を回避して、分類精度を向上させ、誤差/荷重比率を調整した、学習を行うことができるニューラルネットワークの学習装置がある。さらに、ユーザが設定する学習用の出力信号をニューラルネットワークの学習に適した形態に変換することで、ニューラルネットワークの過学習を防止する信号処理装置がある。
特開平8−329196号公報 特開平9−81535号公報 特開平9−138786号公報 特開2002−222409号公報 特開平7−319844号公報 特開平8−249303号公報
Mathias Niepert, Mohamed Ahmed, Konstantin Kutzkov, "Learning Convolutional Neural Networks for Graphs", Proceedings of The 33rd International Conference on Machine Learning, ICML, 8 June 2016, pp. 2014-2023
人またはものの関係をニューラルネットワークで学習する場合において、入力層へ入力する値の順番が、出力層における出力値に影響する場合がある。すなわち、入力層への入力する値の順番が不適切であることが、分類精度低下の原因となる。そこで、正確な学習を行うには、教師データに示される複数の値を、適切な順番で入力することが重要となる。しかし、入力データに含まれる値の数が多い場合、それらの値の適切な入力順を決定するのは容易ではない。しかも、入力データに含まれる値の数が多いことが過学習を引き起こし、分類精度の低下を招く可能性もある。
1つの側面では、本件は、ニューラルネットワークによる分類精度を向上させることを目的とする。
1つの案では、コンピュータに以下の処理を実行させる機械学習プログラムが提供される。
まずコンピュータは、複数の項目それぞれの変数値の組み合わせパタンごとに数値が設定された入力データと、入力データに対する分類の正解を示す教師データとを取得する。次にコンピュータは、入力データの複数の項目のうちの第1項目の変数値それぞれと特定の関係を有する第2項目の変数値が一意に決まる場合、複数の項目から第2項目を除外した第1項目群内の項目それぞれの変数値の組み合わせパタンと、第1項目と第2項目とを含む第2項目群内の項目それぞれの変数値の組み合わせパタンとのそれぞれに対応する複数の基準値の配列により、複数の数値をニューラルネットワークへ入力する際の、複数の数値の順序付けの基準を示す照合パタンを生成する。次にコンピュータは、入力データに基づいて、第1項目群内の項目それぞれの変数値の組み合わせパタンそれぞれ、および第2項目群内の項目それぞれの変数値の組み合わせパタンそれぞれに対応する複数の入力用数値を算出する。次にコンピュータは、複数の入力用数値の入力順序を、照合パタンに基づいて決定する。次にコンピュータは、ニューラルネットワークの入力層の複数のユニットへ、複数の入力用数値を入力順序に従って入力した場合の、ニューラルネットワークの出力値を算出する。次にコンピュータは、出力値と教師データとの誤差に基づいて、ニューラルネットワークで正解を得るための、複数のユニットへの入力用数値の誤差を算出する。そしてコンピュータは、複数のユニットへの入力用数値の誤差に基づいて、照合パタンの複数の基準値を更新する。
1態様によれば、ニューラルネットワークによる分類精度を向上させることができる。
第1の実施の形態に係る機械学習装置の構成例を示す図である。 第2の実施の形態のシステム構成例を示す図である。 第2の実施の形態に用いる監視サーバのハードウェアの一構成例を示す図である。 監視サーバの機能の一例を示すブロック図である。 通信ログ記憶部の一例を示す図である。 教師データ記憶部の一例を示す図である。 学習結果記憶部の一例を示す図である。 過学習の抑止策を適用しない場合の学習データが十分にある場合のデータの分類方法を示す図である。 照合パタンの適正化の概要を示す図である。 過学習の抑止策を適用しない場合の機械学習処理の手順を示すフローチャートの一例である。 機械学習に利用するニューラルネットワークの一例を示す図である。 機械学習の例を示す第1の図である。 機械学習の例を示す第2の図である。 機械学習の例を示す第3の図である。 機械学習の例を示す第4の図である。 機械学習の例を示す第5の図である。 機械学習の例を示す第6の図である。 照合パタンのパラメータ数を説明する図である。 変換データの自由度が低い場合の例を示す図である。 入力データの結合表現の一例を示す図である。 照合パタンの結合表現の一例を示す図である。 過学習の抑止策を適用する場合の機械学習処理の手順を示すフローチャートの一例である。 独立モデル化できない場合と独立モデル化できる場合との例を示す図である。 化合物の分類例を示す図である。
以下、本実施の形態について図面を参照して説明する。なお各実施の形態は、矛盾のない範囲で複数の実施の形態を組み合わせて実施することができる。
〔第1の実施の形態〕
まず第1の実施の形態に係る機械学習装置について説明する。
図1は、第1の実施の形態に係る機械学習装置の構成例を示す図である。機械学習装置10は、記憶部11と処理部12とを有する。機械学習装置10は、例えばコンピュータである。記憶部11は、例えば機械学習装置10が有するメモリまたはストレージ装置により実現することができる。処理部12は、例えば機械学習装置10が有するプロセッサにより実現することができる。
記憶部11は、データ分類用のニューラルネットワーク1へ入力する数値の順序付けの基準が複数の基準値の配列で示された照合パタン11a,11bを記憶する。
処理部12は、複数の数値の組を含む入力データ2と、入力データ2の分類の正解を示す教師データ3(教師ラベルと呼ぶこともある)とを取得する。例えば入力データ2には、複数の項目(項S、項R、項P)それぞれの変数値の組み合わせパタンごとに数値が設定されている。設定された数値は、例えば変数値の組み合わせに対応する事象の発生頻度に応じた値である。
ここで、入力データ2の複数の項目のうちの第1項目(項R)の変数値それぞれと特定の関係を有する第2項目(項P)の変数値が一意に決まる場合がある。特定の関係とは、例えば、関係の判定対象の第1項目(項R)の変数値と第2項目(項P)の変数値とを含む組み合わせパタンに設定された数値が所定範囲内(例えば0より大きな値)であることである。例えば、第1項目(項R)の特定の変数値を含む組み合わせパタンのうち、設定された数値が所定範囲内の組み合わせパタンに含まれる第2項目(項P)の変数値が、常に同じであれば、特定の関係を有する第2項目(項P)の変数値が一意に決まる。
図1の例であれば、第1項目(項R)の変数値「R1」を含む組み合わせパタンには、第2項目(項P)の変数値が「P1」の場合にのみ、0より大きな値が設定されている。同様に、第1項目(項R)の変数値「R2」を含む組み合わせパタンには、第2項目(項P)の変数値が「P2」の場合にのみ、0より大きな値が設定されている。したがって、図1に示す入力データ2では、複数の項目のうちの第1項目(項R)の変数値それぞれと特定の関係を有する第2項目(項P)の変数値が一意に決まる。
なお、第1項目の変数値と特定の関係を有する変数値を有する第2項目は、複数存在してもよい。
第1項目(項R)の変数値と特定の関係を有する第2項目(項P)の変数値が一意に決まる場合、入力データ2は、複数のデータ(第1部分データ4と第2部分データ5)の結合(JOIN)で表現することができる。そこで処理部12は、結合することで入力データ2となる第1部分データ4と第2部分データ5それぞれの数値を適切に並べ替えるのに利用する照合パタン11a,11bを生成する。照合パタン11a,11bは、複数の基準値の配列により、複数の数値をニューラルネットワーク1へ入力する際の、複数の数値の順序付けの基準を示している。
照合パタン11aに示される複数の基準値は、複数の項目(項S、項R、項P)から第2項目(項P)を除外した第1項目群(項S、項R)内の項目それぞれの変数値の組み合わせパタンそれぞれに対応する。照合パタン11aの「項S」の変数値の数は、入力データ2の「項S」の変数値の数と同じである。ただし照合パタン11aの「項S」の変数値として、入力データ2の「項S」と同じ変数値を用いなくてもよい。例えば入力データ2の「項S」の変数値は「S1」、「S2」、「S3」の3つであるが、照合パタン11aの「項S」の変数値は「S’1」、「S’2」、「S’3」である。同様に、照合パタン11aの「項R」の変数値の数は、入力データ2の「項R」の変数値の数と同じである。
照合パタン11bに示される複数の基準値は、第1項目(項R)と第2項目(項P)とを含む第2項目群(項R、項P)内の項目それぞれの変数値の組み合わせパタンそれぞれに対応する。照合パタン11bの「項R」の変数値の数は、入力データ2の「項R」の変数値の数と同じである。照合パタン11bの「項R」の変数値は、照合パタン11aの「項R」の変数値「R’1」、「R’2」と同じである。照合パタン11bの「項P」の変数値の数は、入力データ2の「項P」の変数値の数と同じである。
処理部12は、生成した照合パタン11aと照合パタン11bとを、記憶部11に格納する。
次に処理部12は、入力データ2に基づいて、第1項目群(項S、項R)内の項目それぞれの変数値の組み合わせパタンそれぞれ、および第2項目群(項R、項P)内の項目それぞれの変数値の組み合わせパタンそれぞれに対応する複数の入力用数値を算出する。例えば処理部12は、入力データ2に基づいて、第1部分データ4と第2部分データ5とを生成する。第1部分データ4には、第1項目群(項S、項R)内の項目それぞれの変数値の組み合わせパタンそれぞれに対応する入力用数値が設定されている。第2部分データ5には、第2項目群(項R、項P)内の項目それぞれの変数値の組み合わせパタンそれぞれに対応する入力用数値が設定されている。
次に処理部12は、複数の入力用数値の入力順序を、照合パタン11a,11bに基づいて決定する。そして処理部12は、決定した入力順序を示す変換データ6,7を生成する。例えば処理部12は、第1部分データ4と第2部分データ5との各項目の変数値を、照合パタン11a,11bの対応する項目の変数値に置き換えることで、変換データ6,7を生成する。変換データ6,7における各項目の変数値の組み合わせに対応する数値は、第1部分データ4または第2部分データ5の置き換え前の変数値の組み合わせに対して設定されていた数値である。このとき、処理部12は、変換データ6の変数値の置き換え後の数値の配列と、照合パタン11aの基準値の配列との類似度が最大化するように、第2部分データ5の変数値の置き換えを行う。同様に処理部12は、変換データ7の変数値の置き換え後の数値の配列と、照合パタン11bの基準値の配列との類似度が最大化するように、第2部分データ5の変数値の置き換えを行う。
図1の例では、変換データ6,7において、入力順序が上位の数値ほど上に配置されているものとする。例えば処理部12は、変換データ6の入力順序が上位の数値から順に並べた複数の数値の配列を成分とした第1ベクトルを生成する。そして処理部12は、照合パタン11a内の複数の基準値を成分とする第2ベクトルと第1ベクトルとの内積が最大となるように、第1ベクトル内の成分の順番を入れ替えることで、第1部分データ4に含まれる複数の数値の入力順序を決定する。同様に処理部12は、変換データ7の入力順序が上位の数値から順に並べた複数の数値の配列を成分とした第3ベクトルを生成する。そして処理部12は、照合パタン11b内の複数の基準値を成分とする第4ベクトルと第3ベクトルとの内積が最大となるように、第3ベクトル内の成分の順番を入れ替えることで、第2部分データ5に含まれる複数の数値の入力順序を決定する。
次に処理部12は、複数の数値を、決定された入力順序に従ってニューラルネットワーク1の入力層の複数のユニットへ入力する。そして処理部12は、入力した数値に基づいてニューラルネットワーク1の出力値を算出する。図1の例では、ニューラルネットワーク1の入力層1aのユニットが縦に並んで示されており、入力順序が上位の数値ほど、上に配置されたユニットへの入力となるように、複数の数値が入力層の複数のユニットに入力される。なお入力層1aの1つのユニットには、1つの数値のみが入力されるものとする。図1の例では、変換データ6の数値を上位のユニットに入力し、変換データ7の数値を下位のユニットに入力している。
次に処理部12は、ニューラルネットワーク1の出力値と教師データ3との誤差に基づいて、ニューラルネットワーク1で正解を得るための、入力層1aの複数のユニットへの入力値の誤差8を算出する。例えば処理部12は、ニューラルネットワーク1の誤差逆伝播法により、入力値の誤差8を算出する。
次に処理部12は、入力層1aの複数のユニットへの入力値の誤差8に基づいて、照合パタン11a,11bの複数の基準値を更新する。例えば処理部12は、照合パタン11a,11bの複数の基準値それぞれを変化対象値として選択する。そして処理部12は、変化対象値として選択した基準値ごとに以下の処理を実行する。
処理部12は、照合パタン11a(第1照合パタン)の変化対象値を所定量だけ変動させた仮第1照合パタン、または照合パタン11b(第2照合パタン)の変化対象値を所定量だけ変動させた仮第2照合パタンを生成する。次に処理部12は、仮第1照合パタンと照合パタン11bとの組、または仮第2照合パタンと照合パタン11aとの組に基づいて、複数の入力用数値それぞれの仮の入力順序を決定する。例えば処理部12は、仮第1照合パタンと照合パタン11bとの組、または仮第2照合パタンと照合パタン11aとの組に対する類似度が最大となるように第1部分データと第2部分データそれぞれの数値を並べ替えた変換データを生成する。
次に処理部12は、照合パタン11a,11bに基づいて決定した入力順序と、仮第1照合パタンと仮第2照合パタンに基づいて決定した仮の入力順序とにおいて、同じ順番となる数値間の差分値を算出する。
次に処理部12は、複数のユニットへの入力値の誤差8と、同じ順番となる数値間の差分値とに基づいて、照合パタン11a,11b内の変化対象値に対応する基準値の増加または減少を決定する。例えば処理部12は、入力値の誤差8を成分とする第3ベクトルと、仮の入力順序が上位の方から並べられた、同じ順番の数値との差分値を成分とする第4ベクトルとの内積に基づいて、変化対象値に対応する基準値の増加または減少を決定する。
変化対象値を所定量だけ増加させたのであれば、処理部12は、内積の符号が正のとき基準値の値を減少させると決定し、内積の符号が負のとき基準値の値を増加させると決定する。また変化対象値を所定量だけ減少させたのであれば、処理部12は、内積の符号が正のとき基準値の値を増加させると決定し、内積の符号が負のとき基準値の値を減少させると決定する。
照合パタン11a,11bのすべての基準値に対応する変動値を算出すると、処理部12は、増加または減少の決定に従って、変化対象値として選択された照合パタン11a,11bの基準値を更新する。例えば処理部12は、ニューラルネットワーク1のステップサイズを変動値に乗算し、乗算結果を、照合パタン11a,11b内のその変動値に対応する基準値から減算する。
処理部12は、このような照合パタン11a,11bの更新処理を、例えば更新前と更新後とで、照合パタン11a,11bの基準値の差が所定値以下になるまで繰り返す。その結果、入力データ2を適正に並べ替える基準を示す照合パタン11a,11bが得られる。
最終的に得られた照合パタン11a,11bを用いて、分類の正解が不明の入力データを並べ替え、ニューラルネットワーク1を用いて分類することで、その入力データを正しく分類することができる。すなわち入力データにおける数値の配列が分類結果に影響をおよぼす場合であっても、数値が適切な順番で並べ替えられることで、適切な分類結果が得られる。
しかも、入力データ2に設定されている数値の数よりも、第1部分データ4または第2部分データ5に設定されている数値の数が少なくてすむ。これにより、照合パタン11a,11bに含まれる基準値も少なくてすむ。基準値の数が削減され、入力データ2の数値数も同様に削減されることで、ニューラルネットワーク1が過学習になることが抑止される。
例えば入力データ2は、3つの項目の変数値のすべての組み合わせに応じた数値が設定されている。そのため、入力データ2には、「項S」の変数値数×「項R」の変数値数×「項P」の変数値数に対応する数(3×2×3=18個)の数値が含まれる。すなわち入力データ2の数値の数は、3次の式で表される。
それに対して、第1部分データ4は、2つの項目の変数値のすべての組み合わせに応じた数値が設定されている。そのため、第1部分データ4には、「項S」の変数値数×「項R」の変数値数に対応する数(3×2=6個)の数値が含まれる。同様に第2部分データ5には、「項R」の変数値数×「項P」の変数値数に対応する数(2×3=6個)の数値が含まれる。第1部分データ4内の数値の数と第2部分データ5内の数値の数とを合計(6+6=12個)しても、入力データ2の数値の数(18個)より少ない。すなわち第1部分データ4と第2部分データ5との数値の数は、2次の式で表される。これは、入力データ2の数値の数を表す式よりも少ない次数である。数値の数を示す式の次数が減ることで、数値の数が減ることが分かる。
このように、2つの照合パタン11a,11bで基準値を定義し、入力データ2を第1部分データ4と第2部分データ5とで表すことで、基準値の数、およびニューラルネットワーク1に入力する数値の数が削減される。その結果、過学習が抑止される。
なお、第1部分データ4と第2部分データ5とには、入力データ2の特徴が含まれている。そのため、入力データ2を第1部分データ4と第2部分データ5とに分離しても、分類精度を低下させずにすむ。
〔第2の実施の形態〕
次に第2の実施の形態について説明する。第2の実施の形態は、コンピュータネットワーク上の通信ログに基づいて、不正な通信の有無を、ニューラルネットワークを用いて解析するものである。
図2は、第2の実施の形態のシステム構成例を示す図である。ネットワーク20には、複数のサーバ211,212,・・・、複数の端末装置221,222,・・・、および監視サーバ100が接続されている。複数のサーバ211,212,・・・は、いずれかの端末装置からの要求に応じた処理を実行するコンピュータである。複数のサーバ211,212,・・・のうちの2台以上が連携して処理を実行する場合もある。複数の端末装置221,222,・・・は、複数のサーバ211,212,・・・で提供されるサービスを利用するユーザが使用するコンピュータである。
監視サーバ100は、ネットワーク20を介して行われた通信を監視し、通信ログを記録する。監視サーバ100は、通信ログを用いて、機械学習を行い、不正通信の有無を判別に利用するニューラルネットワークの最適化を行う。そして監視サーバ100は、通信ログに基づいて、最適化されたニューラルネットワークを用いて不正通信が行われた時間帯を検出する。
図3は、第2の実施の形態に用いる監視サーバのハードウェアの一構成例を示す図である。監視サーバ100は、プロセッサ101によって装置全体が制御されている。プロセッサ101には、バス109を介してメモリ102と複数の周辺機器が接続されている。プロセッサ101は、マルチプロセッサであってもよい。プロセッサ101は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、またはDSP(Digital Signal Processor)である。プロセッサ101がプログラムを実行することで実現する機能の少なくとも一部を、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)などの電子回路で実現してもよい。
メモリ102は、監視サーバ100の主記憶装置として使用される。メモリ102には、プロセッサ101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、メモリ102には、プロセッサ101による処理に必要な各種データが格納される。メモリ102としては、例えばRAM(Random Access Memory)などの揮発性の半導体記憶装置が使用される。
バス109に接続されている周辺機器としては、ストレージ装置103、グラフィック処理装置104、入力インタフェース105、光学ドライブ装置106、機器接続インタフェース107およびネットワークインタフェース108がある。
ストレージ装置103は、内蔵した記録媒体に対して、電気的または磁気的にデータの書き込みおよび読み出しを行う。ストレージ装置103は、コンピュータの補助記憶装置として使用される。ストレージ装置103には、OSのプログラム、アプリケーションプログラム、および各種データが格納される。なお、ストレージ装置103としては、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)を使用することができる。
グラフィック処理装置104には、モニタ21が接続されている。グラフィック処理装置104は、プロセッサ101からの命令に従って、画像をモニタ21の画面に表示させる。モニタ21としては、CRT(Cathode Ray Tube)を用いた表示装置や液晶表示装置などがある。
入力インタフェース105には、キーボード22とマウス23とが接続されている。入力インタフェース105は、キーボード22やマウス23から送られてくる信号をプロセッサ101に送信する。なお、マウス23は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。
光学ドライブ装置106は、レーザ光などを利用して、光ディスク24に記録されたデータの読み取りを行う。光ディスク24は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク24には、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。
機器接続インタフェース107は、監視サーバ100に周辺機器を接続するための通信インタフェースである。例えば機器接続インタフェース107には、メモリ装置25やメモリリーダライタ26を接続することができる。メモリ装置25は、機器接続インタフェース107との通信機能を搭載した記録媒体である。メモリリーダライタ26は、メモリカード27へのデータの書き込み、またはメモリカード27からのデータの読み出しを行う装置である。メモリカード27は、カード型の記録媒体である。
ネットワークインタフェース108は、ネットワーク20に接続されている。ネットワークインタフェース108は、ネットワーク20を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。
以上のようなハードウェア構成によって、第2の実施の形態の処理機能を実現することができる。なお、第1の実施の形態に示した装置も、図3に示した監視サーバ100と同様のハードウェアにより実現することができる。
監視サーバ100は、例えばコンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、第2の実施の形態の処理機能を実現する。監視サーバ100に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。例えば、監視サーバ100に実行させるプログラムをストレージ装置103に格納しておくことができる。プロセッサ101は、ストレージ装置103内のプログラムの少なくとも一部をメモリ102にロードし、プログラムを実行する。また監視サーバ100に実行させるプログラムを、光ディスク24、メモリ装置25、メモリカード27などの可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えばプロセッサ101からの制御により、ストレージ装置103にインストールされた後、実行可能となる。またプロセッサ101が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。
次に、監視サーバが有する機能について説明する。
図4は、監視サーバの機能の一例を示すブロック図である。監視サーバ100は、通信情報収集部110、通信ログ記憶部120、教師データ記憶部130、学習部140、学習結果記憶部150、および解析部160を有する。
通信情報収集部110は、ネットワーク20を介して送受信されているパケットなどの通信情報を取得する。例えば通信情報収集部110は、ネットワーク20内に設置されたスイッチのミラーリングポートを介して、そのスイッチを経由して通信されたパケットを取得する。また通信情報収集部110は、各サーバ211,212,・・・から、そのサーバ自身の通信ログを取得することもできる。通信情報収集部110は、取得した通信情報を、通信ログ記憶部120に格納する。
通信ログ記憶部120は、通信情報収集部110が収集した通信情報のログ(通信ログ)を記憶する。
教師データ記憶部130は、過去の所定の期間における単位時間帯(例えば10分間)ごとの、不正通信の発生の有無(教師フラグ)を示す情報を記憶する。
学習部140は、通信ログ記憶部120に格納された通信ログと、教師データ記憶部130に格納された教師フラグとに基づいて、不正通信が行われたときの通信ログの特徴を学習し、学習結果を反映させたニューラルネットワークを生成する。例えば学習部140は、ニューラルネットワークへの入力データの並べ替えに用いる照合パタンと、ニューラルネットワーク内の各ユニットへ入力する値の重みとを決定する。そして学習部140は、ニューラルネットワーク、照合パタン、および重みを含む学習結果を学習結果記憶部150に格納する。
学習結果記憶部150は、学習部140における学習結果を記憶する。
解析部160は、学習結果記憶部150に格納された学習結果に基づいて、通信ログ記憶部120に新たに格納された単位時間帯の通信ログを解析し、その単位時間帯内に不正通信が行われたか否かを判断する。
なお、図4に示した各要素間を接続する線は通信経路の一部を示すものであり、図示した通信経路以外の通信経路も設定可能である。また、図4に示した各要素の機能は、例えば、その要素に対応するプログラムモジュールをコンピュータに実行させることで実現することができる。
次に通信ログ記憶部120に格納される情報について具体的に説明する。
図5は、通信ログ記憶部の一例を示す図である。通信ログ記憶部120には、複数の単位期間ログ121,122,・・・が格納されている。単位期間ログ121,122,・・・それぞれには、通信ログの収集期間が示されている。単位期間ログ121,122,・・・には、収集期間で示された時間帯内に収集した通信情報が格納される。
単位期間ログ121,122,・・・に格納される各レコードには、通信元ホスト、通信先ホスト、および量が含まれる。通信元ホストは、パケットの通信元の装置の識別子である。通信先ホストは、パケットの宛先の装置の識別子である。量は、通信元ホストと通信先ホストとの組が同一となる通信の出現回数である。なお単位期間ログ121,122,・・・に、通信に使用されたポートの識別子(例えば宛先のTCP/UDPのポート番号)を含めてもよい。
次に教師データ記憶部130に格納される情報について具体的に説明する。
図6は、教師データ記憶部の一例を示す図である。教師データ記憶部130には、正常通信リスト131と不正通信リスト132とが格納されている。正常通信リスト131には、正常な通信が行われていた単位期間のリストが設定される。不正通信リスト132には、不正な通信が行われた単位期間のリストが設定される。正常通信リスト131と不正通信リスト132への単位期間の設定は、例えばシステムの管理者が行う。
機械学習を行う際には、単位期間が正常通信リスト131と不正通信リスト132とのどちらに登録されているかにより、その単位期間の通信ログを入力データとして機械学習を実施したときの正解を示す値(教師ラベル)が決定される。例えば学習部140は、正常通信リスト131に登録されている単位期間の通信ログを入力データとしたときの教師ラベルを「1.0」とする。また学習部140は、不正通信リスト132に登録されている単位期間の通信ログを入力データとしたときの教師ラベルを「0.0」とする。
次に学習結果記憶部150に格納される情報について具体的に説明する。
図7は、学習結果記憶部の一例を示す図である。学習結果記憶部150には、ニューラルネットワーク151、パラメータ群152、および照合パタン153が格納されている。ニューラルネットワーク151は、入力層から出力層まで、ニューロンを表すユニットを接続したものである。図7において、ユニットは円で表されている。
ユニット間は、信号の流れを示す矢印で接続されている。各ユニットには、入力された信号に対する処理が定義されている。各ユニットにおける処理の結果、そのユニットから出力される信号が決定され、その信号が次のユニットに送られる。出力層のユニットから出力される信号の値に基づいて、入力されたデータが属する分類(例えば、不正通信を含む通信ログなのか否か)が判定される。
パラメータ群152には、あるユニットから別のユニットに与える影響の強さを示す複数の重み値が含まれる。各重み値は、ニューラルネットワーク151のユニット間を接続する矢印に対応付けられている。
照合パタン153は、単位期間ログ内の各レコードの並べ替えに使用する情報である。分類対象の単位期間ログを、ニューラルネットワーク151を用いて分類する場合、照合パタン153と類似するように、単位期間ログ内のレコードの並べ替えが行われる。例えば照合パタン153のレコードには、通信元ホスト、通信先ホスト、および量が含まれる。通信元ホストは、パケットの送信元の装置を示す、ニューラルネットワーク151を用いた解析上の識別子である。通信先ホストは、パケットの送信先の装置を示す、ニューラルネットワーク151を用いた解析上の識別子である。量は、通信元ホストと通信先ホストとの組に対応する通信の単位期間内での発生確率である。
次に、ニューラルネットワーク151を用いたデータ分類方法について説明する。なお第2の実施の形態では、過学習の抑止策を適用する場合と、過学習の抑止策を適用しない場合とで処理が異なる。過学習の抑止策を適用する場合とは、例えば過学習になりやすく、過学習の抑止策が適用可能な場合である。以下、過学習の抑止策を適用しない場合の処理を先に説明し、次に、過学習の抑止策を適用する場合における過学習の抑止策を適用しない場合との相違点を説明する。
<過学習の抑止策を適用しない場合のデータ分類処理>
図8は、過学習の抑止策を適用しない場合のデータの分類方法を示す図である。例えば、1つの単位期間ログを、ニューラルネットワーク151を用いた分類対象の入力データ30として、解析部160に入力する場合を想定する。
入力データ30内の各レコードが、ニューラルネットワーク151の入力層のいずれかのユニットに対応付けられる。そして各レコード内の量の値が、対応付けられたユニットへの入力となる。入力層に入力される値は、例えば正規化して入力される。
図8に示すように、複数の対象物の関係(通信元ホストと通信先ホストとの関係)に応じた分類を行う場合、どの関係をどのユニットへの入力とするのが適切なのか、不明な場合が多い。例えば、不正通信が、あるサーバによる処理aと、そのサーバとは別のサーバによる処理bと組み合わせで実施される場合を想定する。この場合、サーバAが処理aを実行し、サーバBが処理bを実行すれば、不正通信が成立する。また、サーバBが処理aを実行し、サーバAが処理bを実行しても、不正通信が成立する。このように、不正通信の有無を検出する場合、不正通信のパタンを構成するホストは、その都度異なる。
そこで不正通信の有無についてニューラルネットワーク151を用いて判別する場合、入力データ30内の各レコードに、不正通信の有無を正しく判定できるように順序付けを行うこととなる。例えば分類に強く寄与する関係が、変数値間の関係全体の構造とは無関係に出現する場合、適切な順序付けを行わないと、その関係が適切に入力層のユニットに対応付けられず、分類精度が悪くなってしまう。
複数の対象物の関係を示すレコードの従来の順序付けは、分類精度とは無関係に行われている。そのため従来の方法では、より高い分類精度が得られる方法が見逃される可能性が高い。単純に、順序付けのすべてのパタンを生成し、すべてのパタンを入力データとすることも考えられるが、計算量が膨大となる。そこで、第2の実施の形態では、学習部140が適切な照合パタン153を生成することで、少ない計算量で、精度よく分類可能な順序付けを可能とする。
図9は、照合パタンの適正化の概要を示す図である。学習部140は、照合パタン50の初期値を設定する。例えば通信元ホストが2台存在し、通信先ホストが2台存在する場合を想定する。この場合、学習部140は、通信元ホストの識別子として「S’1」と「S’2」とを生成する。また学習部140は、通信先ホストの識別子として「R’1」と「R’2」とを生成する。さらに学習部140は、通信元ホストの識別子と通信先ホストの識別子とのすべての組み合わせを生成し、各組み合わせの量に初期値を設定する。初期値は、例えばランダムに生成した値である。そして学習部140は、通信元ホストの識別子、通信先ホストの識別子、および量の組を1レコードとする照合パタン50を生成する。
次に学習部140は、教師データ記憶部130内の正常通信リスト131または不正通信リスト132に含まれる単位期間の通信ログを、入力データ30として取得する。次に、学習部140は、入力データ30に示される通信元ホストの識別子と通信先ホストの識別子とを、照合パタン50で用いている識別子に変換するとともに、レコードに順序付けを行い、照合パタン50と類似度が最大となる変換データ60を生成する。照合パタン50と変換データ60との類似度は、例えば各レコードの量の値を示すベクトル間の内積で表される。なお、入力データ30内の通信元ホストの識別子と、照合パタン50内の通信元ホストの識別子とは、1対1で対応付けられる。
変換データ60の生成処理では、学習部140は、入力データ30の量を成分とし、量の順番を並べ替えで生成可能なすべてのベクトル(入力ベクトル)を生成する。また学習部140は、照合パタン50に設定されている量を成分として、照合パタン50に示される順に成分を並べたベクトル(照合ベクトル)を生成する。次に学習部140は、複数のベクトルそれぞれについて、照合ベクトルとの内積を計算する。学習部140は、内積が最大となる入力ベクトルを特定する。学習部140は、特定した入力ベクトルが得られるように、入力データ30の通信元ホストと通信先ホストとの識別子を、照合パタン50に示す識別子に変換する。
図9の例では、入力ベクトル(1,3,0,2)が最も照合ベクトル(0.2,0.1,−0.3,0.4)との内積が大きくなる。そこで、入力データ30において量が「3」の関係「S1,R1」を示すレコードは、変換データ60では2番目のレコードとなるように、「S’2,R’1」に変換されている。入力データ30において量が「1」の関係「S2,R1」を示すレコードは、変換データ60では1番目のレコードとなるように、「S’1,R’1」に変換されている。入力データ30において量が「2」の関係「S1,R2」を示すレコードは、変換データ60では4番目のレコードとなるように、「S’2,R’2」に変換されている。入力データ30において量が「0」の関係「S2,R2」を示すレコードは、変換データ60では3番目のレコードとなるように、「S’1,R’2」に変換されている。このように、先に量の値の順序付けが行われ、それに合わせて通信元ホストと通信先ホストとの識別子が変換される。
このように第2の実施の形態では、入力データ30の順序付けが、照合パタン50を基準に決められる。学習部140は、以下の手順でニューラルネットワーク151の誤差逆伝播を利用し、照合パタン50を最適化することで、入力データ30の順序付けの最適な基準を定義する。
変換データ60を生成すると、学習部140は、変換データ60の量を、ニューラルネットワーク151の入力層の各ユニットへの入力として、ニューラルネットワーク151に基づく順伝播を計算する。そして学習部140は、出力層からの出力と、教師データ記憶部130に設定された正解の値とを比較し、誤差を計算する。次に学習部140は、誤差逆伝播により、誤差が減少するように各ユニットへの入力の重み値を修正する。学習部140は、誤差逆伝播を入力層のユニットへの入力にも適用し、入力層のユニットへの入力値の誤差を計算する。これにより、入力層の誤差を示す誤差ベクトル(−1.3,0.1,1.0,−0.7)が得られる。
また学習部140は、照合パタン50の変動に対する変換データ60の量の変分を算出する。例えば学習部140は、照合パタン50における「S’1,R’1」の量が「1」だけ増加した場合を想定し、その場合の照合パタンとの類似度が最大となる変換データ60aを生成する。変換データ60aの生成方法は、変換データ60を生成する場合と同じである。例えば学習部140は、照合パタン50の「S’1,R’1」の量を「1.2」に変更した仮の照合パタンを生成し、仮の照合パタンとの類似度が最大となるように入力データ30のレコードを並べ替え、変換データ60aを生成する。このとき生成される仮の照合パタンは、照合パタン50内の1つの量の変化が変換データ60におよぼす影響を調査するために一時的に生成される照合パタンである。基準となる照合パタンの量が変わったことで、変換データ60とは異なる変換データ60aが生成される。
学習部140は、新たに生成した変換データ60aの量と、変換データ60の量との変分を計算する。例えば学習部140は、同じ順番のレコードごとに、変換データ60aのレコードの量から変換データ60のレコ−ドの量を減算する。その結果、量の変分を示す変分ベクトル(2,−2,2,−2)が得られる。
学習部140は、誤差逆伝播により得られる入力層の誤差ベクトルと、照合パタン50の「S’1,R’1」の量を「1」だけ増加させた場合の変換データ60aに基づく変分ベクトルとの内積を計算する。学習部140は、算出された内積により、照合パタン50の「S’1,R’1」の量の変動方向、および変動量を決定する。照合パタン50の「S’1,R’1」の量を「1」だけ増加させることで、分類誤差が増加する場合、内積の結果は正となる。そのため内積の結果に負の値を乗算した方向が、「S’1,R’1」の量の変動方向となる。例えば学習部140は、内積に負の実数を乗算した値を、照合パタン50における「S’1,R’1」の量に加算することで、その量を変動させる。なお入力データが複数ある場合、学習部140は、例えば複数の入力データそれぞれに基づいて計算した内積の平均値に基づいて、「S’1,R’1」の量を変動させる。
同様に照合パタン50の他の量も、その量を「1」増加した場合の変換データに基づいて、変動させることができる。
このように学習部140は、分類誤差を増加させる変換データの量の変分の方向(入力層の誤差)に、照合パタンの変動に対する変換データの量の変分を掛け合わせることにより、分類誤差を増加させる照合パタンの変動の方向、および変動量を算出する。
以下、学習部140における機械学習の処理を具体的に説明する。
図10は、過学習の抑止策を適用しない場合の機械学習処理の手順を示すフローチャートの一例である。以下、図10に示す処理をステップ番号に沿って説明する。
[ステップS101]学習部140は、照合パタンとニューラルネットワークの、各ユニットへの入力の重みのパラメータを初期化する。例えば学習部140は、照合パタンの各レコードの量に、ランダムに生成した値を設定する。また学習部140は、各重みの値として、ランダムに生成した値を設定する。
[ステップS102]学習部140は、照合パタンに最も類似する変換データに、入力データを変換する。
[ステップS103]学習部140は、ニューラルネットワークを用いた順伝播および誤差逆伝播により、入力層の誤差ベクトルを取得する。
[ステップS104]学習部140は、照合パタンの未選択のレコードを1つ選択する。
[ステップS105]学習部140は、選択したレコードの量を「1」だけ増加させたときの、変換データの量の変分ベクトルを算出する。
[ステップS106]学習部140は、ステップS103で取得した誤差ベクトルと、ステップS105で算出した変分ベクトルとの内積を算出する。学習部140は、内積の結果を、選択したレコードの変動値とする。
[ステップS107]学習部140は、照合パタン内のすべてのレコードを選択したか否かを判断する。すべてのレコードが選択済みであれば、処理がステップS108に進められる。未選択のレコードがあれば、処理がステップS104に進められる。
[ステップS108]学習部140は、照合パタンの量とニューラルネットワークの重みのパラメータとを更新する。例えば学習部140は、照合パタンの各レコードの量に、レコードを選択したときにステップS106で算出した変動値を加算する。また学習部140は、ニューラルネットワークの誤差逆伝播によって計算した各パラメータの修正後の値に、重みのパラメータを更新する。
[ステップS109]学習部140は、処理の終了条件が満たされたか否かを判断する。例えば学習部140は、照合パタンの量とニューラルネットワークの重みのパラメータとが収束したか、もしくは、ステップS102〜S108の処理を所定回数以上ループさせた場合、終了条件が満たされたと判断する。照合パタンの量については、例えばステップS108における更新前後での各量の変化量の合計が所定値以下であれば、収束したと判断することができる。またニューラルネットワークの重みのパラメータについては、例えばステップS108における更新前後での各パラメータの変化量の合計が所定値以下であれば、収束したと判断することができる。すなわち、照合パタンの量とニューラルネットワークの重みのパラメータとのいずれもが、ステップS108の更新によってほとんど値が変化しない場合、収束したものと判断できる。終了条件が満たされた場合、処理が終了する。終了条件が満たされていなければ、処理がステップS102に進められる。
以上のような手順で機械学習を実行し、適切な照合パタンの量と各パラメータの値とを決定することができる。以下、図11〜図17を参照して、具体的な機械学習の例について説明する。なお、図12〜図17以下では、各データの通信元ホストを設定するフィールドを「項S」と表し、通信先ホストを設定するフィールドを「項R」と表すものとする。
図11は、機械学習に利用するニューラルネットワークの一例を示す図である。図11の例では、第2の実施の形態の処理を分かりやすくするため、ユニットが4つの入力層とユニットが1つの出力層とで構成されるニューラルネットワーク41を想定する。入力層の各ユニットから出力層のユニットへの信号には、それぞれ重みを示すパラメータ(W1,W2,W3,W4)が設定されている。学習部140は、このようなニューラルネットワーク41を用いて機械学習を行う。
図12は、機械学習の例を示す第1の図である。例えば教師ラベル「1.0」の入力データ31に基づいて、学習部140が機械学習を行うものとする。まず学習部140は、照合パタン51の量と、パラメータ群71の各重みの値とを初期化する。
次に学習部140は、照合パタン51との類似度が最大となるように、入力データ31の並べ替えを行い、変換データ61を生成する。図12の例では、照合パタン51の量を成分とする照合ベクトルと、変換データ61の量を成分とする入力ベクトルとの内積は「1.3」である。
図13は、機械学習の例を示す第2の図である。学習部140は、変換データ61の量を入力ベクトルとして、ニューラルネットワーク41の順伝播の計算を行い、出力値を算出する。例えば学習部140は、入力ベクトルの各成分の量に、その量の入力先のユニットの重みの値を乗算し、成分ごとの乗算結果の合計を、順伝播の出力値とする。図13の例では、出力値は「2.1」(1×1.2+3×(−0.1)+0×(−0.9)+2×(0.6))である。学習部140は、出力値「2.1」と教師ラベル「1.0」との差を計算する。例えば学習部140は出力値から教師ラベルの値を減算し、差「1.1」を得る。この差は、出力値が「1.1」だけ大きすぎることを意味する。
次に学習部140は、誤差逆伝播により、入力層へ入力する値の誤差を計算する。例えば学習部140は、教師ラベルとの差を各ユニットの重みの値に乗算し、乗算結果を、そのユニットへ入力する量の誤差とする。そして学習部140は、入力層のユニットごとの誤差を成分とするベクトルを生成することで、誤差ベクトル(1.3,−0.1,−1.0,0.7)を得る。誤差ベクトルの成分の符号が正の場合、入力層の対応するユニットへの入力値が大きすぎることを意味する。誤差ベクトルの成分の符号が負の場合、入力層の対応するユニットへの入力値が小さすぎることを意味する。
また学習部140は、初期状態の照合パタン51(図12参照)の「S’1,R’1」のレコードの量を「1」だけ増加させて「1.2」とした照合パタン52を生成する。次に学習部140は、入力データ31の順序付けを行い、照合パタン52と類似度が最大となる変換データ62を生成する。次に学習部140は、元の変換データ61と新たに生成した変換データ62との量を、通信元ホスト(項S)と通信先ホスト(項R)との組が同じレコード同士で比較し、量の変分を計算する。例えば変換データ62の「S’1,R’1」の量「3」から、変換データ61の「S’1,R’1」の量「1」を減算し、減算結果「2」を「S’1,R’1」に対応する量の変分とする。学習部140は、レコードごとに計算した量の変分を成分とする変分ベクトル(2,−2,2,−2)を生成する。
学習部140は、誤差ベクトル(1.3,−0.1,−1.0,0.7)と変分ベクトル(2,−2,2,−2)との内積を計算し、得られた内積「−0.6」を「S’1,R’1」の量の変動値とする。学習部140は、例えば、通信元ホスト(項S)と通信先ホスト(項R)との組「S’1,R’1」に対応付けて、変動値「−0.6」を変動データ80に設定する。
誤差ベクトルは、各入力値について、出力値の誤差を拡大させる方向にどの程度ずれているのかを示している。そのため「S’1,R’1」のレコードの量を「1」だけ増加させたときの変分ベクトルが誤差ベクトルと類似している場合、その量の増加が、出力値の誤差を拡大させる方向に作用することを意味する。すなわち、誤差ベクトルと変分ベクトルとの内積が正の場合、「S’1,R’1」の量を増加させると、出力値の誤差が拡大する。誤差ベクトルと変分ベクトルとの内積が負の場合、「S’1,R’1」の量を増加させると、出力値の誤差が縮小する。
図14は、機械学習の例を示す第3の図である。学習部140は、初期状態の照合パタン51(図12参照)の「S’2,R’1」のレコードの量を「1」だけ増加させて「1.1」とした照合パタン53を生成する。次に学習部140は、入力データ31の順序付けを行い、照合パタン53と類似度が最大となる変換データ63を生成する。次に学習部140は、元の変換データ61と新たに生成した変換データ63との量を、通信元ホスト(項S)と通信先ホスト(項R)との組が同じレコード同士で比較し、量の変分を計算する。そして学習部140は、レコードごとに計算した量の変分を成分とする変分ベクトル(0,0,0,0)を生成する。学習部140は、誤差ベクトル(1.3,−0.1,−1.0,0.7)と変分ベクトル(0,0,0,0)との内積を計算し、得られた内積「0.0」を「S’2,R’1」の量の変動値として、変動データ80に設定する。
図15は、機械学習の例を示す第4の図である。学習部140は、初期状態の照合パタン51(図12参照)の「S’1,R’2」のレコードの量を「1」だけ増加させて「0.7」とした照合パタン54を生成する。次に学習部140は、入力データ31の順序付けを行い、照合パタン54と類似度が最大となる変換データ64を生成する。次に学習部140は、元の変換データ61と新たに生成した変換データ64との量を、通信元ホスト(項S)と通信先ホスト(項R)との組が同じレコード同士で比較し、量の変分を計算する。そして学習部140は、レコードごとに計算した量の変分を成分とする変分ベクトル(1,−3,3,−1)を生成する。学習部140は、誤差ベクトル(1.3,−0.1,−1.0,0.7)と変分ベクトル(1,−3,3,−1)との内積を計算し、得られた内積「−2.1」を「S’1,R’2」の量の変動値として、変動データ80に設定する。
図16は、機械学習の例を示す第5の図である。学習部140は、初期状態の照合パタン51(図12参照)の「S’2,R’2」のレコードの量を「1」だけ増加させて「1.4」とした照合パタン55を生成する。次に学習部140は、入力データ31の順序付けを行い、照合パタン55と類似度が最大となる変換データ65を生成する。次に学習部140は、元の変換データ61と新たに生成した変換データ65との量を、通信元ホスト(項S)と通信先ホスト(項R)との組が同じレコード同士で比較し、量の変分を計算する。そして学習部140は、レコードごとに計算した量の変分を成分とする変分ベクトル(−1,−1,1,1)を生成する。学習部140は、誤差ベクトル(1.3,−0.1,−1.0,0.7)と変分ベクトル(−1,−1,1,1)との内積を計算し、得られた内積「−1.5」を「S’2,R’2」の量の変動値として、変動データ80に設定する。
図17は、機械学習の例を示す第6の図である。学習部140は、変換データ61の各レコードの量に、ニューラルネットワーク41の順伝播の計算結果と教師ラベルとの差「1.1」を乗算する。学習部140は、乗算結果に、定数αをさらに乗算する。定数αの値は、例えばニューラルネットワーク41のステップサイズであり、図11〜図17に示した例では「α=1」である。学習部140は、「変換データ61の量×教師ラベルとの差「1.1」×定数α」の結果を、パラメータ群71のパラメータから減算する。
例えば学習部140は、入力層の1つめのユニットに対応する重み「W1」の値「1.2」から、そのユニットへ入力する量「1」に「1.1」とα「1」を乗算した結果「1.1」を減算し、新たな重み「W1」の値「0.1」とする。同様に、入力層のユニットごとに、重みのパラメータの値が更新され、新たなパラメータ群72が生成される。
また学習部140は、通信元ホスト(項S)と通信先ホスト(項R)との組ごとに、照合パタン51に示される量から、変動データ80の変動値に定数αを乗算した値を減算する。そして学習部140は、通信元ホスト(項S)と通信先ホスト(項R)との組ごとの計算結果を、更新後の照合パタン56の量の値とする。例えば「S’1,R’1」の量は、「0.8」(0.2−1×(−0.6))に更新される。
入力データが複数ある場合、学習部140は、入力データごとに算出された変換データ61の量の平均値を用いて、パラメータ群71の重みの値を更新する。また学習部140は、入力データごとに算出された変動データ80の変動値の平均値を用いて、照合パタン51の量を更新する。
このようにして学習部140により、ニューラルネットワークにより算出される誤差を利用して、照合パタンが更新される。最終的に出力された照合パタンを用いて、解析部160が通信ログの分類を行う。例えば解析部160は、学習フラグがない通信ログを、照合パタンとの類似度が最大になるように変換する。そして、解析部160は、変換後のデータをニューラルネットワークへの入力値として入力し、ニューラルネットワークの出力値を計算する。その際、解析部160は、学習部140によって生成されたパラメータ群によって、各ユニットへの入力値を重み付けする。そして解析部160は、ニューラルネットワークの出力値により、例えば、通信ログの取得期間内に不正通信が行われたか否かを判定する。すなわち、その通信ログが、正常な通信の記録なのか、不正な通信の記録なのかの分類が行われる。このようにして、入力データの適切な順序付けにより、高精度の分類が可能となる。
しかも、順序付けのすべてのパタンを探索することなく、現実的な計算量で最適な順序付けが探索可能となり、計算量も少なくてすむ。例えば、3項目の人またはものがあり、各項目の種類数がそれぞれ「A,B,C」(A,B,Cは1以上の整数)であるものとする。また、各項目から1種類ずつの人またはものの組み合わせに対応する数値がN個(Nは1以上の整数)あるものとする。適切な照合結果を得るために探索するすべての順序付けのパタンは(A!B!C!)N通りになる。この場合、数値の数が増えると、現実的な時間で機械学習の計算をするのが困難となる。第2の実施の形態では、照合パタンにおける3つの項目の種類数を「A’,B’,C’」(A’,B’,C’は1以上の整数)とする。またニューラルネットワークの更新回数をE(Eは1以上の整数)とする。この場合、A’B’C’(A+B+C)NEに比例する計算量となり、現実的な計算量で計算可能である。
<過学習の抑止策を適用する場合のデータ分類処理>
過学習の抑止策は、過学習が発生しやすい場合に行われる。過学習が発生しやすい場合として、まず教師データが十分にない場合がある。教師データが十分にあるかどうかは、照合パタンの各項目の変数値の組み合わせパタンの数との相対的な比較によって決まる。例えば、教師データ数に対して、照合パタンの各項目の変数値の組み合わせパタンに対応する量をパラメータとしたときのパラメータ数が多いと、機械学習において過学習が発生する。
照合パタンのパラメータ数は、照合パタンの項目の数と、項に設定される変数値の数とに依存する。データがm個(mは1以上の整数)の項目間の関係であり、各項目の変数値の数がI1,・・・,Imの場合、照合パタンのパラメータ数はI1×…×Imとなる。
図18は、照合パタンのパラメータ数を説明する図である。図18に示す照合パタン301は、通信元ホスト、通信先ホスト、およびポートの3つの項目を有している。通信元ホストには、変数値として「S’1」と「S’2」が含まれる。通信先ホストには、変数値として「R’1」と「R’2」とが含まれる。ポートには、変数値として「P’1」が含まれる。この場合、照合パタン301における各項目の変数値の組み合わせパタンは、4種類である。すなわちパラメータ数は「4」である。
項目の数、または各項目の変数値の数が増えると、パラメータ数も増加する。例えば10種類の通信元ホスト、10種類の通信先ホスト、10種類のポートの間の関係の場合、照合パタンのパラメータ数は10×10×10=1000個である。照合パタンのパラメータ数が1000個の場合に、例えば入力データが100個程度しかないと、容易に過学習となる。
また、変換データの自由度が低い場合にも、過学習となりやすい。変換データの自由度が低い場合とは、例えば、特定の項目の変数値が、他の項目の変数値により、一意に決まる場合である。
図19は、変換データの自由度が低い場合の例を示す図である。図19の例では、入力データ302には、通信元ホスト、通信先ホスト、およびポートの項目が含まれているが、ポートの変数値(通信先ホストが使用するポート番号)は、通信先ホストの変数値(パケットの宛先の装置の識別子)に応じて一意に決まる場合がある。図19の例では、通信先ホストが「R1」の場合、ポートは常に「P1」となっている。図19には示していないが、通信先ホストが「R2」の場合、例えばポートは常に「P2」となる。この場合、通信先ホスト「R2」、ポート「P1」のレコードの量の値は、常に「0」となる。
ポートの変数値が通信先ホストの変数値に応じて一意に決まる場合、入力データ302のデータ構造は、より単純な構造で表すことができる。例えば、通信元ホストと通信先ホストとの関係を表すテーブルと、通信先ホストと通信先ポートとの関係を表すテーブルとの結合(JOIN)に置き換えることができる。
入力データ302内のレコードについて、照合パタン303との類似度が最大化されるように順序付けを行った変換データ304についても、同様に、2つのテーブルの結合に置き換えることができる。変換データ304を単純なデータ構造で表せるということは、変換データ304の自由度が低いことを意味する。変換データ304の自由度が低いと、全教師データに対して正解できる照合パタンの作成が容易となり、過学習となりやすい。
過学習を避けるための、単純な解決方法としては、照合パタンのパラメータ数をより少なく設定することが考えられる。照合パタンのパラメータ数を少なくするためには、例えば、変換データの同じ変数値に、入力データの複数の変数値を対応づけることが考えられる。しかし、入力データの複数の変数値を、変換データの1つの変数値に対応付けると、入力データに含まれる特徴のうち、変換データで表現できないものが多くなってしまう。その結果、高い分類精度が出せないことがある。
そこで第2の実施の形態では、入力データの特定の項目の変数値が、他の項目の変数値により一意に決まる場合、照合パタンも同様に、特定の項目の変数値が、他の項目の変数値により一意に決まるように記述する。
図20は、入力データの結合表現の一例を示す図である。入力データ311には、通信元ホスト、通信先ホスト、およびポートの組み合わせごとの量(通信頻度)が設定されている。このとき、ポートの項目の変数値であるポート番号は、通信先ホストの項目の変数値である通信先のホストの識別子により、一意に決まるものとする。図20に示した入力データ311では、通信先ホストが「R1」の場合、ポート「P1」を用いた通信しか発生していない。また通信先ホストが「R2」の場合、ポート「P2」を用いた通信しか発生していない。
このような場合、入力データ311を、複数の入力データ312,313による結合表現に置き換えることができる。入力データ312は、通信元ホストと通信先ホストの組に対応する量が設定されている。入力データ313には、通信先ホストとポートとの組に対応する量が設定されている。入力データ311の各レコードの量の値は、そのレコードに含まれる通信元ホストと通信先ホストとの組に対応する量の値と、そのレコードに含まれる通信先とポートとの組に対応する量の値との積である。
同様に、照合パタンについても、複数の照合パタンの結合表現とする。
図21は、照合パタンの結合表現の一例を示す図である。図21には、結合表現を行わない場合の照合パタン321と、結合表現による照合パタン322,323とが示されている。照合パタン321には、通信元ホスト、通信先ホスト、およびポートの組み合わせごとの量が設定されている。照合パタン322は、通信元ホストと通信先ホストの組に対応する量が設定されている。照合パタン323には、通信先ホストとポートとの組に対応する量が設定されている。照合パタン321の各レコードの量の値は、そのレコードに含まれる通信元ホストと通信先ホストとの組に対応する量の値と、そのレコードに含まれる通信先とポートとの組に対応する量の値との積である。なお照合パタン322,323の量は、初期状態ではランダムな値が設定される。
次に、過学習の抑止策を適用する場合の機械学習処理の手順について説明する。
図22は、過学習の抑止策を適用する場合の機械学習処理の手順を示すフローチャートの一例である。以下、図22に示す処理をステップ番号に沿って説明する。なお、図20に示す入力データ311が入力されたときに、図21に示す照合パタン322,323を用いて、機械学習を行うものとする。
[ステップS201]学習部140は、結合表現の2つの照合パタン322,323と、ニューラルネットワークの各ユニットへの入力の重みのパラメータとを初期化する。例えば学習部140は、2つの照合パタン322,323の各レコードの量に、ランダムに生成した値を設定する。また学習部140は、各重みパラメータの値として、ランダムに生成した値を設定する。
[ステップS202]学習部140は、2つの照合パタン322,323に最も類似する変換データに、入力データを変換する。例えば学習部140は、入力データ311を、結合表現の2つの入力データ312,313に変換する。そして学習部140は、入力データ312,313それぞれを、同じ項を有する照合パタン322,323に最も類似する変換データに変換する。これにより、入力データ312は、照合パタン322に最も類似するような変換データに変換される。入力データ313は、照合パタン323に最も類似するような変換データに変換される。
[ステップS203]学習部140は、ニューラルネットワークを用いた順伝播および誤差逆伝播により、入力層の誤差ベクトルを取得する。この際、ニューラルネットワークの入力層には、入力データ312,313それぞれから生成された変換データの各レコードに1対1で対応するユニットが設けられる。そして変換データの各レコードの量の変数値が、対応するユニットへの入力となる。
[ステップS204]学習部140は、照合パタン322または照合パタン323の未選択のレコードを1つ選択する。
[ステップS205]学習部140は、選択したレコードの量を「1」だけ増加させたときの、入力データ312,313それぞれから生成した変換データの量の変分ベクトルを算出する。変分ベクトルは、例えば入力データ312から生成した変換データの量の変分と、入力データ313から生成した変換データの量の変分とを要素とするベクトルである。
[ステップS206]学習部140は、ステップS203で取得した誤差ベクトルと、ステップS205で算出した変分ベクトルとの内積を算出する。学習部140は、内積の結果を、選択したレコードの変動値とする。
[ステップS207]学習部140は、照合パタン322,323内のすべてのレコードを選択したか否かを判断する。すべてのレコードが選択済みであれば、処理がステップS208に進められる。未選択のレコードがあれば、処理がステップS204に進められる。
[ステップS208]学習部140は、照合パタン322,323の量とニューラルネットワークの重みのパラメータとを更新する。例えば学習部140は、照合パタン322,323の各レコードの量に、レコードを選択したときにステップS206で算出した変動値を加算する。また学習部140は、ニューラルネットワークの誤差逆伝播によって計算した各パラメータの修正後の値に、重みのパラメータを更新する。
[ステップS209]学習部140は、処理の終了条件が満たされたか否かを判断する。終了条件が満たされた場合、処理が終了する。終了条件が満たされていなければ、処理がステップS202に進められる。
このようにして、照合パタンを少ないレコードで表現でき、その結果、過学習を抑止することができる。
入力データがm項間の関係であり、各項目の変数値の数がI1,・・・,Imであり、入力データが、大きさl1,・・・,lnの多次元配列と大きさln,・・・,lmの多次元配列のn次元目の結合(JOIN)により表現できるものとする。この場合、結合表現に変換した照合パタンのレコード数はI1×…×In +ln×…×lmになる。例えば、10種類の通信元ホスト、10種類の通信先ホスト、10種類のポートの間の関係を示す入力データが、10種類の通信元ホストと10種類の通信先ホストの関係と、10種類の通信先ホストと10種類のポートの関係の結合で表現できるものとする。この場合、照合パタンのレコード数は10×10+10×10=200個になる。
また、特定の項目の変数値が他の項目の変数値により一意に決まる場合、入力データに含まれる特徴は、結合表現の入力データにも表現されている。そのため、入力データから生成される変換データで表現できる特徴を大きく損なうことなく、レコード数を大幅に削減できる。そして、入力データの特徴が保持されていることにより、データの分類精度も維持される。
なお、第2の実施の形態における過学習の抑止策は、入力データのうちの特定の項目の変数値が他の項目の変数値によりおおよそ一意に決まり、かつ、特定の項と他の項との関係が、独立にモデル化可能であることが仮定できる場合に、特に有効となる。
図23は、独立モデル化できない場合と独立モデル化できる場合との例を示す図である。例えば通信元ホストと通信先ホストとの相互関係に、ポート番号が依存する場合、通信先ホストとポート番号との関係を、独立にモデル化することができない。独立にモデル化できない場合、通信元ホストの識別子ごとに、通信先ホストとポート番号との関係をモデル化することとなる。
それに対して、通信元ホストと通信先ホストとの相互関係にポート番号が依存せず、ポート番号が通信先ホストに応じて一意に決まる場合、通信先ホストとポート番号との関係を、独立にモデル化できる。独立にモデル化できる場合として、例えば、同じ通信先ホストは同じポート番号を使ったサービスしか提供せず、同じ通信元ホストはほぼ同じアプリケーションソフトウェアしか使わない場合が考えられる。このように、独立にモデル化できることは、通常のシステム運用においても十分にあり得る。
なお、学習データの分類精度を損なうことなく、かつ過学習を防ぐことができるという効果は、独立にモデル化できる場合に顕著となるが、厳密には独立にモデル化できるとはいえない場合でも、同様の効果は得られる。例えば、通信先ホストが頻繁にアプリケーションを変更するために、ポート番号が通信先ホストにより一意に決まらない場合も多い。この場合、厳密には独立にモデル化できるとはいえない。しかし、類似のアプリケーションを用いる特定の通信先ホストの集団が、特定のポート番号の集団と関係しているのであれば、通信元ホスト・通信先ホスト間の関係とは独立に、通信先モデル・ポート間の関係をモデル化することが妥当である。そして、このような場合、通信先モデル・ポート間の関係を独立にモデル化した照合パタンを用いてデータ分類処理を行うことで、学習データの分類精度を損なうことなく、かつ過学習を防ぐことができる。
〔その他の実施の形態〕
第2の実施の形態は、通信ログの分類の機械学習に関する例であるが、通信ログの分類以外にも、入力値の順番が精度に影響する場合がある。例えば、化合物の位置に関わらず活性をもつ構造により、化合物を分類したい場合が考えられる。化合物の分類に対しても、照合パタンを用いて適切な順序付けを行うことで、精度の高い分類が可能となる。
図24は、化合物の分類例を示す図である。例えば複数の化合物構造データ91,92,・・・を、その化合物の働きに応じて分類する場合を考える。化合物構造データ91,92,・・・には、化合物を構成する物質のうちの2つの物質間の関係を示す複数のレコードが含まれているものとする。
分類に強く寄与する関係(図中、破線の円で囲まれた関係)が、変数値間の関係全体の構造とは無関係に出現する場合がある。ニューラルネットワークを用いた分類において、化合物構造データ91,92,・・・内の関係の順番が不適切だと、正しく分類できない可能性がある。そこで、分類精度を高めるように最適化された照合パタンを用いて、化合物構造データ91,92,・・・内の関係を順序付けることで、化合物の位置に関わらず活性をもつ構造が存在する場合でも、化合物を正しく分類できる。
以上、実施の形態を例示したが、実施の形態で示した各部の構成は同様の機能を有する他のものに置換することができる。また、他の任意の構成物や工程が付加されてもよい。さらに、前述した実施の形態のうちの任意の2以上の構成(特徴)を組み合わせたものであってもよい。
1 ニューラルネットワーク
1a 入力層
2 入力データ
3 教師データ
4 第1部分データ
5 第2部分データ
6,7 変換データ
8 誤差
10 機械学習装置
11 記憶部
11a,11b 照合パタン
12 処理部

Claims (5)

  1. コンピュータに、
    複数の項目それぞれの変数値の組み合わせパタンごとに数値が設定された入力データと、前記入力データに対する分類の正解を示す教師データとを取得し、
    前記入力データの前記複数の項目のうちの第1項目の変数値それぞれと特定の関係を有する第2項目の変数値が一意に決まる場合、前記複数の項目から前記第2項目を除外した第1項目群内の項目それぞれの変数値の組み合わせパタンと、前記第1項目と前記第2項目とを含む第2項目群内の項目それぞれの変数値の組み合わせパタンとのそれぞれに対応する複数の基準値の配列により、複数の数値をニューラルネットワークへ入力する際の、前記複数の数値の順序付けの基準を示す照合パタンを生成し、
    前記入力データに基づいて、前記第1項目群内の項目それぞれの変数値の組み合わせパタンそれぞれ、および前記第2項目群内の項目それぞれの変数値の組み合わせパタンそれぞれに対応する複数の入力用数値を算出し、
    前記複数の入力用数値の入力順序を、前記照合パタンに基づいて決定し、
    前記ニューラルネットワークの入力層の複数のユニットへ、前記複数の入力用数値を前記入力順序に従って入力した場合の、前記ニューラルネットワークの出力値を算出し、
    前記出力値と前記教師データとの誤差に基づいて、前記ニューラルネットワークで正解を得るための、前記複数のユニットへの入力用数値の誤差を算出し、
    前記複数のユニットへの入力用数値の誤差に基づいて、前記照合パタンの前記複数の基準値を更新する、
    処理を実行させる機械学習プログラム。
  2. 前記入力データにおける、複数の項目それぞれの変数値の組み合わせパタンごとに設定された数値は、変数値の組み合わせに対応する事象の発生頻度に応じた値であり、
    前記複数の入力用数値の算出では、前記第1項目群に含まれない項目の変数値の影響を除外して、前記第1項目群内の項目それぞれの変数値の組み合わせに対応する事象の発生頻度に応じた入力用数値を算出し、前記第2項目群に含まれない項目の変数値の影響を除外して、前記第2項目群内の項目それぞれの変数値の組み合わせに対応する事象の発生頻度に応じた前記入力用数値を算出する、
    請求項1記載の機械学習プログラム。
  3. 前記照合パタンは、前記第1項目群内の項目それぞれの変数値の組み合わせパタンに対応する基準値が設定された第1照合パタンと、前記第2項目群内の項目それぞれの変数値の組み合わせパタンに対応する基準値が設定された第2照合パタンとを含み、
    前記複数の基準値の更新では、
    前記第1照合パタンまたは前記第2照合パタンの基準値を変化対象値として選択し、
    前記第1照合パタンの前記変化対象値を所定量だけ変動させた仮第1照合パタンと前記第2照合パタンとの組、または前記第2照合パタンの前記変化対象値を所定量だけ変動させた仮第2照合パタンと前記第1照合パタンとの組に基づいて、前記複数の入力用数値それぞれの仮の入力順序を決定し、
    決定した前記仮の入力順序と、前記第1照合パタンと前記第2照合パタンとの組に基づいて決定した前記入力順序とにおいて、同じ順番となる数値間の差分値を算出し、
    前記複数のユニットへの入力値の誤差と、算出された前記差分値とに基づいて、前記照合パタン内の前記変化対象値の増加または減少を決定し、
    増加または減少の決定に従って、前記変化対象値として選択された前記照合パタンの基準値を更新する、
    請求項1または2記載の機械学習プログラム。
  4. コンピュータが、
    複数の項目それぞれの変数値の組み合わせパタンごとに数値が設定された入力データと、前記入力データに対する分類の正解を示す教師データとを取得し、
    前記入力データの前記複数の項目のうちの第1項目の変数値それぞれと特定の関係を有する第2項目の変数値が一意に決まる場合、前記複数の項目から前記第2項目を除外した第1項目群内の項目それぞれの変数値の組み合わせパタンと、前記第1項目と前記第2項目とを含む第2項目群内の項目それぞれの変数値の組み合わせパタンとのそれぞれに対応する複数の基準値の配列により、複数の数値をニューラルネットワークへ入力する際の、前記複数の数値の順序付けの基準を示す照合パタンを生成し、
    前記入力データに基づいて、前記第1項目群内の項目それぞれの変数値の組み合わせパタンそれぞれ、および前記第2項目群内の項目それぞれの変数値の組み合わせパタンそれぞれに対応する複数の入力用数値を算出し、
    前記複数の入力用数値の入力順序を、前記照合パタンに基づいて決定し、
    前記ニューラルネットワークの入力層の複数のユニットへ、前記複数の入力用数値を前記入力順序に従って入力した場合の、前記ニューラルネットワークの出力値を算出し、
    前記出力値と前記教師データとの誤差に基づいて、前記ニューラルネットワークで正解を得るための、前記複数のユニットへの入力用数値の誤差を算出し、
    前記複数のユニットへの入力用数値の誤差に基づいて、前記照合パタンの前記複数の基準値を更新する、
    機械学習方法。
  5. ニューラルネットワークへ入力する数値の順序付けの基準が複数の基準値の配列で示された照合パタンを記憶する記憶部と、
    複数の項目それぞれの変数値の組み合わせパタンごとに数値が設定された入力データと、前記入力データに対する分類の正解を示す教師データとを取得し、前記入力データの前記複数の項目のうちの第1項目の変数値それぞれと特定の関係を有する第2項目の変数値が一意に決まる場合、前記複数の項目から前記第2項目を除外した第1項目群内の項目それぞれの変数値の組み合わせパタンと、前記第1項目と前記第2項目とを含む第2項目群内の項目それぞれの変数値の組み合わせパタンとのそれぞれに対応する複数の基準値の配列により、複数の数値を前記ニューラルネットワークへ入力する際の、前記複数の数値の順序付けの基準を示す前記照合パタンを生成し、前記照合パタンを前記記憶部に格納し、前記入力データに基づいて、前記第1項目群内の項目それぞれの変数値の組み合わせパタンそれぞれ、および前記第2項目群内の項目それぞれの変数値の組み合わせパタンそれぞれに対応する複数の入力用数値を算出し、前記複数の入力用数値の入力順序を、前記照合パタンに基づいて決定し、前記ニューラルネットワークの入力層の複数のユニットへ、前記複数の入力用数値を前記入力順序に従って入力した場合の、前記ニューラルネットワークの出力値を算出し、前記出力値と前記教師データとの誤差に基づいて、前記ニューラルネットワークで正解を得るための、前記複数のユニットへの入力用数値の誤差を算出し、前記複数のユニットへの入力用数値の誤差に基づいて、前記照合パタンの前記複数の基準値を更新する、処理部と、
    を有する機械学習装置。
JP2017172625A 2017-09-08 2017-09-08 機械学習プログラム、機械学習方法、および機械学習装置 Active JP6898561B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017172625A JP6898561B2 (ja) 2017-09-08 2017-09-08 機械学習プログラム、機械学習方法、および機械学習装置
US16/125,395 US20190080235A1 (en) 2017-09-08 2018-09-07 Method and apparatus for machine learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017172625A JP6898561B2 (ja) 2017-09-08 2017-09-08 機械学習プログラム、機械学習方法、および機械学習装置

Publications (2)

Publication Number Publication Date
JP2019049782A JP2019049782A (ja) 2019-03-28
JP6898561B2 true JP6898561B2 (ja) 2021-07-07

Family

ID=65631346

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017172625A Active JP6898561B2 (ja) 2017-09-08 2017-09-08 機械学習プログラム、機械学習方法、および機械学習装置

Country Status (2)

Country Link
US (1) US20190080235A1 (ja)
JP (1) JP6898561B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6898562B2 (ja) 2017-09-08 2021-07-07 富士通株式会社 機械学習プログラム、機械学習方法、および機械学習装置
EP3575813B1 (en) * 2018-05-30 2022-06-29 Siemens Healthcare GmbH Quantitative mapping of a magnetic resonance imaging parameter by data-driven signal-model learning
JP7279446B2 (ja) * 2019-03-20 2023-05-23 富士通株式会社 学習プログラム、学習方法、及び学習装置
US11226801B2 (en) * 2019-10-30 2022-01-18 Mastercard International Incorporated System and methods for voice controlled automated computer code deployment
WO2021101945A1 (en) 2019-11-19 2021-05-27 Captiv8, Inc. Systems and methods for identifying, tracking, and managing a plurality of social network users having predefined characteristcs
US11372853B2 (en) * 2019-11-25 2022-06-28 Caret Holdings, Inc. Object-based search processing
KR102211851B1 (ko) * 2020-03-20 2021-02-03 주식회사 루닛 데이터의 특징점을 취합하여 기계 학습하는 방법 및 장치
JP7396159B2 (ja) 2020-03-26 2023-12-12 富士通株式会社 画像処理装置、画像認識システム及び画像処理プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6456991B1 (en) * 1999-09-01 2002-09-24 Hrl Laboratories, Llc Classification method and apparatus based on boosting and pruning of multiple classifiers
SG182933A1 (en) * 2011-01-19 2012-08-30 Agency Science Tech & Res A data structure and a method for using the data structure
JP5810891B2 (ja) * 2011-12-20 2015-11-11 富士通株式会社 情報処理装置及び動作状態監視方法
US9038178B1 (en) * 2012-06-25 2015-05-19 Emc Corporation Detection of malware beaconing activities
US9112895B1 (en) * 2012-06-25 2015-08-18 Emc Corporation Anomaly detection system for enterprise network security
JP6435581B2 (ja) * 2015-01-29 2018-12-12 パナソニックIpマネジメント株式会社 転移学習装置、転移学習システム、転移学習方法およびプログラム
US10528866B1 (en) * 2015-09-04 2020-01-07 Google Llc Training a document classification neural network
US10839291B2 (en) * 2017-07-01 2020-11-17 Intel Corporation Hardened deep neural networks through training from adversarial misclassified data

Also Published As

Publication number Publication date
US20190080235A1 (en) 2019-03-14
JP2019049782A (ja) 2019-03-28

Similar Documents

Publication Publication Date Title
JP6898561B2 (ja) 機械学習プログラム、機械学習方法、および機械学習装置
JP6751235B2 (ja) 機械学習プログラム、機械学習方法、および機械学習装置
JP6898562B2 (ja) 機械学習プログラム、機械学習方法、および機械学習装置
TW201923685A (zh) 風險識別模型構建和風險識別方法、裝置及設備
WO2018170454A2 (en) Using different data sources for a predictive model
US20180196837A1 (en) Root cause analysis of performance problems
JP7000766B2 (ja) 学習データ選択プログラム、学習データ選択方法、および、学習データ選択装置
WO2014099127A1 (en) Dynamic model data facility and automated operational model building and usage
US11443207B2 (en) Aggregated feature importance for finding influential business metrics
KR101706136B1 (ko) 이상 패턴 분석 방법, 이를 수행하는 이상 패턴 분석 장치 및 이를 저장하는 기록매체
JP5833817B2 (ja) ドキュメント使用クラスタリングによるユーザタスク表現を近似するための方法
US20180240136A1 (en) Modeling consumer activity
US11816080B2 (en) Severity computation of anomalies in information technology operations
JP2019501429A (ja) 破損ネットワーク接続の機械学習に基づく識別
US7395457B2 (en) System and method for detecting faults in a system
Udayakumar et al. Malware classification using machine learning algorithms
JP6773972B2 (ja) データ変換プログラム、データ変換方法、およびデータ変換装置
US20230325632A1 (en) Automated anomaly detection using a hybrid machine learning system
US20200104407A1 (en) A/b testing using ego network clusters
JP7157328B2 (ja) グラフ簡略化方法、グラフ簡略化プログラムおよび情報処理装置
CN107562615B (zh) 基于目标符合性评审论证树模型的适航符合性测试方法
Kim et al. Feature selection techniques for improving rare class classification in semiconductor manufacturing process
Bernard et al. Discovering customer journeys from evidence: a genetic approach inspired by process mining
US20150206056A1 (en) Inference of anomalous behavior of members of cohorts and associate actors related to the anomalous behavior based on divergent movement from the cohort context centroid
US9892411B2 (en) Efficient tail calculation to exploit data correlation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200611

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20200625

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20200625

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210430

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210511

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210524

R150 Certificate of patent or registration of utility model

Ref document number: 6898561

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150