JP7059458B2 - 生成的敵対神経網ベースの分類システム及び方法 - Google Patents

生成的敵対神経網ベースの分類システム及び方法 Download PDF

Info

Publication number
JP7059458B2
JP7059458B2 JP2020560365A JP2020560365A JP7059458B2 JP 7059458 B2 JP7059458 B2 JP 7059458B2 JP 2020560365 A JP2020560365 A JP 2020560365A JP 2020560365 A JP2020560365 A JP 2020560365A JP 7059458 B2 JP7059458 B2 JP 7059458B2
Authority
JP
Japan
Prior art keywords
reward
label
policy
value
missing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020560365A
Other languages
English (en)
Other versions
JP2022515941A (ja
Inventor
ロ、チョル-キョン
ミン、イェ-リン
ル、ファム-トゥエン
Original Assignee
アジャイルソーダ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020190162110A external-priority patent/KR102093079B1/ko
Priority claimed from KR1020190162111A external-priority patent/KR102093080B1/ko
Priority claimed from KR1020200023895A external-priority patent/KR102093090B1/ko
Priority claimed from KR1020200023894A external-priority patent/KR102093089B1/ko
Application filed by アジャイルソーダ インコーポレイテッド filed Critical アジャイルソーダ インコーポレイテッド
Publication of JP2022515941A publication Critical patent/JP2022515941A/ja
Application granted granted Critical
Publication of JP7059458B2 publication Critical patent/JP7059458B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

本発明は、生成的敵対神経網ベースの分類システム及び方法に関し、より詳細には、生成的敵対神経網(Generative Adversarial Network;GAN)で生成した欠測代替値を用いて、ラベルのあるラベルデータセットとラベルのない非ラベルデータセットの不均衡なデータセットにおいても学習できる、生成的敵対神経網ベースの分類システム及び方法に関する。
マシンラーニングは、複雑なシステムが明示的にプログラミングされず、経験から自動で学習し改善可能にさせる人工知能の応用である。
マシンラーニングモデルの正確度及び有効性は、それらのモデルを訓練させるために用いられるデータに部分的に依存できる。
例えば、マシンラーニング分類子(Classifier)は、ラベルのある(又は、ラベリングされた)データ(Labeled data)セットを用いて訓練され得るが、ここで、分類子が認識するように、学習するデータのサンプルが、サンプルに対する分類(Classification)を識別する一つ以上のラベルと共に、分類子に提供される。
ここで、ラベリングされたデータとは、データに対する答が与えられているもの(又は、評価がされているもの)を指す。
しかし、意思決定システムでは、次のような問題から困難を経ることがある。
図1は、通常の欠測データが含まれたデータセットを示す例示図であり、図1に示すように、データセット10は、n個のステート(State)を含んで構成され、ステートの元素11は、ステート‘i’が持つ‘j’番目の元素で、‘S ’と表現され、ここで、‘j’は1からdまでの定数であり、‘S ’はスカラー又は欠測データ‘Z ’12を有することができる。
欠測データ(Missing data)は、データセット(Data set)の全体的な質を下げてしまい、意思決定システムで予測された結果が歪む問題点がある。
また、ディープラーニングでは、ラベルのあるデータの量が性能において相当な影響力を持っているが、大部分の実データセットは通常、ラベルのない非ラベルデータを含んでおり、データをラベリングする費用が非常に高価となる問題点がある。
また、通常のビジネス意思決定のためのビジネスデータセットには、多くの欠測値、非理想的なラベル不均衡の問題があり、分類システムを構築する上で困難が多い。
また、通常のビジネス意思決定のためのビジネスデータセットには、不均衡のバラツキが非常に大きく、少数のクラスがデータにおいて非常に小さい部分だけを占めるが、結果的にこのようなクラスのサンプルは、意思決定システムをアップデートする上で殆どクエリ(Query)されないという問題点がある。
また、通常のビジネス意思決定のためのビジネスデータセット、例えば、貸出詐欺ビジネスのデータセットである場合、詐欺件がわずかなため、通常の分類システムでは分類も予測もし難い問題点がある。
このような問題点を解決するために、本発明は、生成的敵対神経網(Generative Adversarial Network;GAN)で生成した欠測代替値を用いて、ラベルのあるラベルデータセットとラベルのない非ラベルデータセットの不均衡なデータセットにおいても学習できる、生成的敵対神経網ベースの分類システム及び方法を提供することを目的とする。
本発明の一実施例による生成的敵対神経網ベースの分類システムは、ラベルのあるデータセットから、ステートのうち欠測された部分に対して欠測代替値を生成する生成子;前記生成子が生成した欠測代替値と原本データとを区分する判別子;前記生成子によって生成された欠測代替値を用いて、政策によってアクション(Action)を予測するアクター;及び前記欠測代替値に代替されたステート、前記予測されたアクション及び前記ラベルのあるデータセットのラベルに基づいて、リワードの加重値を生成する加重値関数部;を含み、
前記加重値関数部は、頻度数が相対的に小さいラベルにはリワードの加重値が増加するようにし、頻度数が相対的に大きいラベルにはリワードの加重値が低くなるようにして、ラベル間の均衡が取れるように動作し、
前記アクターは、前記予測されたアクションと加重値関数部で生成されたリワードの加重値を反映して、政策損失関数が最適化するように前記政策を学習することを特徴とする。
また、本発明の実施例によるリワードの加重値は、下記の式、
Figure 0007059458000001

(ここで、r(S_h)(S_hはSの上にハット)は、ステートS_hから得られるリワードであり、aは、与えられたステートに対する政策πが予測したアクションであり、yは、ステートのラベルであり、ωとωは、ω=1-logφ(bは、ログに基づくe,10…)に基づく加重係数である。)と定義されることを特徴とする。
また、本発明の実施例による加重値関数部は、頻度数が相対的に小さいラベルにはリワードの加重値が増加するようにし、頻度数が相対的に大きいラベルにはリワードの加重値が低くなるようにして、ラベル間の均衡が取れるように動作する。
また、本発明の実施例によるラベル頻度数は、下記の式
Figure 0007059458000002

(ここで、nは、k番目ラベルのサンプル数であり、φは、(0,1)の範囲に含まれる。)に近似され、前記アクターは、前記予測されたアクションと加重値関数部で生成されたリワードの加重値を反映して、政策損失関数が最適化するように前記政策を学習することを特徴とする。
また、本発明の実施例による加重値関数部は、頻度数が相対的に小さいラベルにはリワードの加重値が増加するようにし、頻度数が相対的に大きいラベルにはリワードの加重値が低くなるようにして、ラベル間の均衡が取れるように動作する
また、本発明の実施例によるアクターは、前記予測されたアクションと加重値関数部で生成されたリワードの加重値を反映して、政策損失関数が最適化するように前記政策を学習する。
また、本発明の実施例による政策の学習は、下記の式
Figure 0007059458000003

(ここで、yはステートのラベルであり、aは、与えられたステートに対する政策πが予測したアクションであり、W(S_h,a,y)は、ステート、アクション及びラベルに対するリワードの加重値である。)を用いることを特徴とする。
また、本発明の一実施例による生成的敵対神経網ベースの分類システムを用いた分類方法は、生成子と、判別子と、アクターと加重値関数部とから構成された生成的敵対神経網(Generative Adversarial Network;GAN)を用い、a)生成子が、ラベルのあるデータセットから、ステートのうち欠測された部分に対して欠測代替値を生成する段階;b)アクターが、前記生成子によって生成された欠測代替値を用いて、政策によってアクション(Action)を予測する段階;c)加重値関数部が、前記欠測代替値に代替されたステート、前記予測されたアクション及び前記ラベルのあるデータセットのラベルに基づいて、リワードの加重値を生成する段階;及びd)前記アクターが、前記予測されたアクションと、加重値関数部で生成されたリワードの加重値を反映して、政策損失関数が最適化するように前記政策を学習する段階を含み、
前記c)段階で、前記加重値関数部は、頻度数が相対的に小さいラベルにはリワードの加重値が増加するようにし、頻度数が相対的に大きいラベルにはリワードの加重値が低くなるようにして、ラベル間の均衡が取れるように動作することを特徴とする。
また、本発明の実施例によるa)段階は、i)前記生成子がラベルのあるデータセットから、欠測値のあるステート(State)と、前記ステートに該当するステートの元素が欠測されたか否かを示す欠測指標(m)を選択する段階;及びii)前記生成子が、前記ステートに‘0’と’1’間の均等分布からランダムノイズに代替された欠測代替値(S_t)(S_tは、Sの上にチルダ)を用いて欠測代替値(S_h)を生成し、前記生成された欠測代替値(S_h)を用いて生成子と判別子を学習する前処理段階;をさらに含むことを特徴とする。
また、本発明の実施例によるc)段階の加重値関数部は、頻度数が相対的に小さいラベルにはリワードの加重値が増加するようにし、頻度数が相対的に大きいラベルにはリワードの加重値が低くなるようにして、ラベル間の均衡が取れるように動作する。
また、本発明の実施例による前記ラベル頻度数は、下記の式
Figure 0007059458000004

(ここで、nはk番目ラベルのサンプル数であり、φは、(0,1)の範囲に含まれる。)に近似される。
また、本発明の実施例による前記リワードの加重値は、下記の式
Figure 0007059458000005

(ここで、r(S_h)は、ステートS_hから得られるリワードであり、aは、与えられたステートに対する政策πが予測したアクションであり、yは、ステートのラベルであり、ωとωは、ω=1-logφ(bは、ログに基づくe,10…)に基づく加重係数である。)と定義されることを特徴とする。
また、本発明の実施例によるc)段階の加重値関数部は、頻度数が相対的に小さいラベルにはリワードの加重値が増加するようにし、頻度数が相対的に大きいラベルにはリワードの加重値が低くなるようにして、ラベル間の均衡が取れるように動作することを特徴とする。
また、本発明の実施例によるd)段階は、政策の学習を、下記の式
Figure 0007059458000006

(ここで、yは、ステートのラベルであり、aは、与えられたステートに対する政策πが予測したアクションであり、W(S_h,a,y)は、ステート、アクション及びラベルに対するりワードの加重値である。)を用いて学習することを特徴とする。
また、本発明の一実施例による生成的敵対神経網ベースの分類システムは、ラベルのあるデータセット(S)又はラベルのないデータセット(S)から、ステートのうち欠測された部分に対して欠測代替値を生成する生成子;前記生成子が生成した欠測代替値と原本データとを区分する判別子;前記生成子によって生成された欠測代替値を用いて、政策によってアクション(Action)を予測するアクター;前記欠測代替値に代替されたステート、前記予測されたアクション及び前記ラベルのあるデータセットのラベルに基づいて、リワードの加重値を生成する加重値関数部;及び前記ラベルのあるデータセットと、ラベルのないデータセットを対象にアクターの政策が学習されるようにリワードを提供するリワード部;を含み、
前記アクターは、前記予測されたアクションと、加重値関数部から生成されたリワードの加重値を反映して、政策損失関数が最適化するように前記政策を学習し、また、前記予測されたアクションと、リワード部のリワードに基づいてセミ政策損失関数が最適化するように前記政策を学習する。
また、本発明の実施例による前記リワード部のリワードは、下記の式
Figure 0007059458000007

(ここで、R(S_h,a)(S_hは、Sの上にハット)は、リワード部が出力するラベルデータセット(S_h,a)対が、ラベルのあるラベルデータセットのラベルか或いはアクターが生成したラベルかに対する確率値であり、ε∈[0,1]は、ステート-アクション対がラベルデータセット中に含まれる可能性があるか否かを考慮した臨界値である。)と定義されることを特徴とする。
また、本発明の一実施例による生成的敵対神経網ベースの分類システムを用いた生成的敵対神経網ベースの分類方法は、a)生成子が、ラベルのあるデータセット(S)から、ステートのうち欠測された部分に対して欠測代替値を生成する段階;b)アクターが、前記生成子によって生成された欠測代替値を用いて、政策によってアクション(Action)を予測する段階;c)加重値関数部が、前記欠測代替値に代替されたステート、前記予測されたアクション及び前記ラベルのあるデータセットのラベルに基づいて、リワードの加重値を生成する段階;及びd)前記アクターが、前記予測されたアクションと、加重値関数部から生成されたリワードの加重値を反映して、政策損失関数が最適化するように前記政策を学習する段階;を含み、
前記a)段階において、ラベルのないデータセット(S)があれば、a-1)前記生成子が、ラベルのないデータセット(S)から、ステートのうち欠測された部分に対して欠測代替値(S_h)(S_hは、Sの上にハット)を生成する段階;b-1)前記アクターが、生成された欠測代替値(S_h)を用いて、政策によってアクション(Action)を予測する段階;c-1)リワード部が、前記ラベルのあるデータセットと、ラベルのないデータセットを対象にアクターの政策が学習されるようにリワードを提供する段階;及びd-1)前記アクターが、前記予測されたアクションと、前記リワード部のリワードに基づいて、セミ政策損失関数が最適化するように前記政策を学習する段階をさらに含む。
また、本発明の実施例による前記リワード部のリワードは、下記の式
Figure 0007059458000008

(ここで、R(S_h,a)は、リワード部が出力するラベルデータセットR(S_h,a)対がラベルのあるラベルデータセットのラベルか或いはアクターが生成したラベルかに対する確率値であり、ε∈[0,1]は、ステート-アクション対がラベルデータセット中に含まれる可能性があるか否かを考慮した臨界値である。)と定義されることを特徴とする。
本発明は、強化学習において‘Actor-critic’アーキテクチャーと生成的敵対神経網(GAN)アーキテクチャーを結合することによって、強化学習の最適のモデルを開発するための補償関数の設定に要求される時間と施行錯誤過程を画期的に短縮するためにデータの特性に合わせて自動で補償関数体系を提供できる長所がある。
また、本発明は、欠測データを生成的敵対神経網(GAN)を用いて実際データと類似の欠測代替値で生成でき、データの全体的な質を向上させることができる長所がある。
また、本発明は欠測データの否定的な効果を減少させることができる長所がある。
本発明は、生成的敵対神経網(GAN)で生成した欠測データを用いて、ラベルのあるラベルデータセットとラベルのない非ラベルデータセットのように不均衡なデータセットにおいても学習できる長所がある。
また、本発明は、ラベルデータセット及び非ラベルデータセットを同時に入力データとして用いると同時に、少ない数のデータセットにおいても学習できる長所がある。
また、本発明は、ラベルの不均衡比率に関連付いたカスタマイズ(Customized)補償関数を提供し、分類システム及び方法の構築時間を減少させることができる長所がある。
また、本発明は、銀行、カード会社又は保険会社などの金融機関や、システム、製造、航空会社などのビジネス意思決定最適化問題のための強化学習方法論を適用する際に、データセットに対する欠測代替のためのデザインや、補償関数を適用するためのデザイン無しで強化学習方法論を適用できる長所がある。
また、本発明によれば、通常のビジネス意思決定のためのビジネスデータセットに発生し得る多くの欠測値、非理想的なラベル不均衡の問題を解決できるので、通常の分析家が分類システムを構築するのにかかる費用・時間を減らしながら強化学習方法論を適用することができる長所がある。
また、本発明によれば、通常のビジネス意思決定のためのビジネスデータセット、例えば、貸出詐欺ビジネスのデータセッターである場合、詐欺件がわずかであっても、加重値関数を用いた加重値調節によって、詐欺件に対する補償値を相対的に大きくさせ、より詐欺件に集中するシステムを構成できる長所がある。
一般的な欠測データが含まれたデータセットを示す例示図である。 本発明の一実施例による生成的敵対神経網ベースの分類システムの構成を示すブロック図である。 本発明の一実施例による生成的敵対神経網ベースの分類方法を示すフローチャートである。 図3による生成的敵対神経網ベースの分類方法の欠測データ学習過程を示すフローチャートである。 図3による生成的敵対神経網ベースの分類方法の加重値を用いた指導分類学習過程を示すフローチャートである。 図3による生成的敵対神経網ベースの分類方法の加重値推定過程を示すフローチャートである。 本発明の他の実施例による生成的敵対神経網ベースの分類システムの構成を示すブロック図である。 本発明の他の実施例による生成的敵対神経網ベースの分類方法を示すフローチャートである。 図8による生成的敵対神経網ベースの分類方法の非ラベルデータの分類学習過程を示すフローチャートである。 本発明の一実施例によるラベルデータ及び非ラベルデータを用いた生成的敵対神経網ベースの分類システムを活用して多数の欠測率による評価結果を示すグラフである。 本発明の一実施例によるラベルデータ及び非ラベルデータを用いた生成的敵対神経網ベースの分類システムを活用して、学習過程中に生成された値の分布を示すグラフである。 本発明の一実施例によるラベルデータ及び非ラベルデータを用いた生成的敵対神経網ベースの分類システムを活用して、プラグイン要素があるものとないものの性能を示す例示図である。 本発明の一実施例によるラベルデータ及び非ラベルデータを用いた生成的敵対神経網ベースの分類システムを活用して、ラベルデータ比率と欠測率による性能比較を示すグラフである。
以下、添付の図面を参照して本発明の一実施例によるラベルデータを用いた生成的敵対神経網ベースの分類システム及び方法の好ましい実施例を詳細に説明する。
本明細書において、ある部分がある構成要素を“含む”とした表現は、他の構成要素を排除するものではなく、他の構成要素をさらに含んでもよいという意味である。
また、“‥部”、“‥機”、“‥モジュール”などの用語は、少なくとも一つの機能や動作を処理する単位を意味し、これは、ハードウェア、ソフトウェア、又はこれらの結合に区分できる。
また、本発明の詳細な説明及び請求項において‘学習’或いは‘ラーニング’は、コンピュータシステムにおいて手順に従うコンピューティング(computing)を通じて機械学習(machine learning)を行うことを称する言葉で、人間の教育活動のような精神的作用を意味するように意図されたものではなく、訓練(training)は、機械学習に関して通常理解される意味で用いられる。
また、コンピューティング装置は、通信装置及びプロセッサを含み、通信装置を介して外部コンピューティング装置と直/間接的に通信することができる。
具体的に、コンピューティング装置は、典型的なコンピュータハードウェア(例えば、コンピュータプロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他既存のコンピューティング装置の構成要素を含み得る装置;ルータ、スイッチなどのような電子通信装置;ネットワーク接続型ストレージ(NAS;network-attached storage)及びストレージ領域ネットワーク(SAN;storage area network)のような電子情報ストレージシステム)とコンピュータソフトウェア(すなわち、コンピューティング装置を特定の方式で機能させる命令語)の組合せを用いて所望のシステム性能を達成するものであり得る。
このようなコンピューティング装置の通信装置は、連動する他のコンピューティング装置と要請及び応答を送受信できるところ、一例示として、このような要請及び応答は同一のTCP(transmission control protocol)セッション(session)によってなされてもよいが、これに限定されず、例えば、UDP(user datagram protocol)データグラム(datagram)として送受信されてもよい。
また、広い意味で通信装置は、命令語又は指示などを伝達するためのキーボード、マウス、その他外部入力装置、プリンタ、ディスプレイ、その他外部出力装置を含むことができる。
また、コンピューティング装置のプロセッサは、MPU(micro processing unit)、CPU(central processing unit)、GPU(graphics processing unit)、NPU(neural processing unit)又はTPU(tensor processing unit)、キャッシュメモリ(cache memory)、データバス(data bus)などのハードウェア構成を含むことができる。
(第1実施例)
図2は、本発明の一実施例による生成的敵対神経網ベースの分類システムの構成を示すブロック図であり、図3は、本発明の一実施例による生成的敵対神経網ベースの分類方法を示すフローチャートであり、図4は、図3による生成的敵対神経網ベースの分類方法の欠測データ学習過程を示すフローチャートであり、図5は、図3による生成的敵対神経網ベースの分類方法の加重値を用いた指導分類学習過程を示すフローチャートであり、図6は、図3による生成的敵対神経網ベースの分類方法の加重値推定過程を示すフローチャートである。
図2~図6を参照すると、生成的敵対神経網ベースの分類システムは、生成子(Generator)100と、判別子(Discriminator)200と、アクター(Actor)400と、加重値関数部(Weighted Function)500を含んで構成される。
生成子100及び判別子200は、競合構造にあるネットワークである生成的敵対神経網(Generative Adversarial Network;GAN)を用いて、生成子100は、原本データの分布を見て判別子200をだます欠測代替値の生成のための学習を行い、判別子200は、どのデータが生成子100によって生成されたデータかを分別する学習を行う。
また、生成子100は、原本データの分布を参照して、判別子200をだます欠測代替値の生成のための学習を行う。
また、生成子100は、ラベルのあるデータ(S)を用いた生成的敵対神経網ベースの分類システムであり、ラベルのあるデータセット10から欠測代替値を生成する。
また、生成子100は、前処理過程として、ラベルのあるデータセットではなくラベルのないデータセットから欠測代替値を生成するための学習過程を行ってもよい。
また、生成子100は、欠測代替値の生成のための入力として、データセット10からn個のステート(State)と、n個のステートに該当するステートの元素が欠測されたか否かを示すn個の欠測指標(20,m)を選択する。
ここで、Sは、各ステートがラベルのあるデータセットであることを意味し、mは、ラベルのある欠測指標を意味する。
また、ラベルのあるデータセット10は、S,S,S,‥,S∈Rからなるn個のステートを含み、ここで、dはステート特徴(feature)である。
また、ステートiが持つj番目元素は、s と表現し、ここで、jは、dまでの定数であり、s は、スカラー又は欠測値を有することができる。
また、データセット10は、ラベルのあるラベルデータ及びラベリングされていない非ラベルデータのうち少なくとも一つのデータで構成され得る。
また、欠測指標20は、ステートの元素が欠測されたか否かを示すための指標であり、m,m,m,‥,m∈Rを使用し、この時、m は、s が欠測データを有すれば欠測指標値22は‘0’、そうでなければ欠測指標値21は‘1’と表示され得る。
また、生成子100は、n個のステート中の任意の元素11に対して無作為(ランダム)に選別された欠測元素12にあらかじめ設定された値、例えば、‘0’と‘1’間の均等分布からランダムノイズ‘Z’に代替された欠測代替値(S_t)を受けて計算する。
この時、欠測代替値(S_t)は、下記の式によって入力される。
Figure 0007059458000009

ここで、mは、ステートsに該当する欠測指標のベクトルであり、zは、‘0’と‘1’間の均等分布からランダムに選別されたノイズのベクトルであり、要素別積で表すことができる。
また、生成子100は、欠測代替値(S_t)を用いて生成された元素のベクトルからなるステート(S_b)(S_bは、Sの上にバー)を出力する。
また、生成子100は、ステート(S_b)に代替された欠測代替値(S_h)を生成して出力する。
この時、生成子100の出力により、下記の式による欠測代替値(S_h)に該当するデータが、判別子200の学習のために用いられ得るようにする。
Figure 0007059458000010

ここで、mは、ステートsに該当する欠測指標のベクトルである。
判別子200は、生成子100が生成した欠測代替値(S_h)と原本データを区分する構成であり、判別子200が出力したものの各元素が欠測(fake)か否か(real)を区分し、結果的にmは、(S_h)のためのラベルとして用いられ得る。
また、判別子200は、関数によって、ステート(S_h)のi番目元素が欠測データでない確率に該当する判別子200のi番目出力を、S→[0,1]と示すことができる。
また、判別子200は、出力を、判別子出力指標30によってD,D,D,‥,Dと示すことができる。
一方、生成子100と判別子200は損失関数によって学習され得るが、生成子100の学習のための生成子損失関数は、下記の式の通りであり得る。
Figure 0007059458000011

ここで、生成子損失関数は2つの項(term)で構成され得るが、一番目の項は、欠測データに対する確率Dを最大化するものである。
また、二番目の項は、原本データ分布を用いて、生成子100で生成された欠測データを原本データに近似するように変換する再構成損失(reconstruction loss)40であり、ここで、λはスケールファクター(scale factor)である。
また、判別子200の学習のための判別子損失関数は、下記の式の通りであり得る。
Figure 0007059458000012

判別子損失関数は、i番目元素が欠測データであれば、確率Dを最大化する方向に学習し、そうでなければ、逆に、確率Dを最小化する方向に学習されるように構成できる。
アクター400は、生成子100によって生成された欠測代替値からなるベクトルを政策(Policy)を用いてラベルのあるデータセットからアクション(Action)を行う確率を予測する。
また、アクター400は、強化学習でよく知られた意思決定フレームワークである‘Actor-critic’アーキテクチャーの構成要素であり得る。
また、アクター400は、ステートを入力として受け、与えられたアクション(Action)をする確率を出力し、‘Actor-critic’を用いて政策(Policy)πを学習するために、政策損失関数(Policy loss function)41は、下記の式のように定義され得る。
Figure 0007059458000013

ここで、Χ(S_h,a)は、与えられたステートから予測されたアクションが良いか或いは悪いかを決定するクリティック(Critic)から評価される関数である。
また、Χ(S_h,a)は、‘total discounted reward’、‘action-value function’又は‘TD-error’のような形態を有してもよい。
上記の政策損失関数は、アクションが決定されていない一般形態であり、アクター400は、正確なアクション及び不正確なアクションの両方から学習される必要がある。
しかし、Χ(S_h,a)の推定値が悪い場合、その政策損失関数は、誤った方向に最適化をするようになり、その結果、徐々に収斂したり又は発散してしまうことがある。
したがって、本発明の実施例によるアクター400は、政策損失関数41を不正確なアクションから学習される場合を省略し、与えられた正確なラベルだけを利用可能にする式と定義され得る。
Figure 0007059458000014

ここで、yは、ステートのラベルであり、aは、与えられたステートに対する政策πが予測したアクションであり、W(S_h,a,y)は、ステート、アクション及びラベルに対するリワードの加重値である。
すなわち、予測されたアクションを正確なラベルに代替し、関数Χ(S_h,a)を加重値関数(Weighted Function)Wに代替する。
したがって、指導政策損失(Supervised policy loss)Lは、加重値関数W(S_h,a,y)から得た分類損失加重値(Classification loss weighted)である。
また、全てのステート、アクション、ラベルに対して加重値関数が‘1’である場合、Lは、分類損失加重値と完全に同一になる。
また、アクター400は、指導分類のための政策損失関数41が加重値関数部500から生成されたリワードの加重値を用いて指導政策を学習できる。
加重値関数部500は、ステートS_hから得られるリワードの加重値であり、ラベルのあるデータセットから、ラベルの頻度数に基づいてステート、アクション及びラベルに対するリワードの加重値を生成する。
ここで、加重値関数部500が、K個のラベルがある(k=0,1,…,K-1)ラベルのあるデータセットSを持っていると仮定すれば、K番目ラベルの頻度数は下記の式に近似され得る。
Figure 0007059458000015

ここで、nは、k番目ラベルのサンプル数であり、φは、(0,1)の範囲に含まれる。
また、加重係数ωは、各ラベルに対して下記の式で推定され得る。
Figure 0007059458000016

ここで、bはログに基づく(b=e,10,…)。
したがって、ラベルの頻度数が相対的に小さい少数のラベル(minority lable)に対して高いリワードの加重値を与え、ラベルの頻度数が相対的に大きい(高い)多数のラベル(majority lable)にはより低いリワードの加重値を与えることによって、ラベル間の均衡が取れるように生成できる。
また、加重値関数部500は、加重値関数、すなわちステート、アクション及びラベルに対するリワードの加重値を、下記の式と定義することができる。
Figure 0007059458000017

ここで、r(S_h)は、ステートS_hから得られるリワードであり、aは、与えられたステートに対する政策πが予測したアクションであり、yは、ステートのラベルであり、ωとωは、ω=1-logφ(bは、ログに基づくe,10…)に基づく加重係数である。
次には、本発明の第1実施例によるラベルデータを用いた生成的敵対神経網ベースの分類及び学習方法を説明する。
学習手順は、欠測値を生成する段階(S100)と学習政策を生成する段階(S200)の2段階に分けることができる。
そして、各段階S100及びS200は、ラベルのあるデータセットの様々なエポック(epoch)によって反復しながらアップデートできるが、データセットを1回巡回することを1エポック(epoch)という。
また、生成子100と、判別子200と、アクター400と、加重値関数部500とで構成された生成的敵対神経網(Generative Adversarial Network;GAN)を用いることができる。
まず、欠測代替値を生成するS100段階は、生成子100と判別子200を学習するが、それぞれの反復において生成子100に入力されるデータセットから無作為(ランダム)にn個のステート(State)を選択する段階(S110)と、ステートに該当するステートの元素が欠測されたか否かを示すn個の欠測指標(m)を選択する段階(S120)を行う。
この時、S110段階及びS120段階は、外部端末から提供されてもよく、あらかじめ設定されたデータセットから提供されてもよい。
また、S110段階及びS120段階において、データセットは、ラベリングされたデータ及びラベリングされていないデータのうち少なくとも一つのデータからなるデータセットであり得る。
n個のステートにあらかじめ設定された値、例えば、‘0’と‘1’間の均等分布から、ランダムノイズ‘Z’(ここで、Z∈[0,1])に代替したベクトルを選別(S130)し、それが生成子100に入力されると、生成子100は、欠測代替値(S_t)と、ステート(S_b)と、欠測代替値(S_h)を計算(S140)する。
ここで、S_tは、ノイズ‘Z’に代替された欠測代替値であり、S_bは、生成子100によって生成されたステートを表し、S_hは、生成子によって生成された値に代替された欠測代替値である。
S140段階において、生成子100は、ランダムノイズ‘Z’に代替された欠測代替値(S_t)からなるベクトルを入力として受けて計算するが、下記の式によって入力として受ける。
Figure 0007059458000018

また、生成子100は、S_b=G(S_t)によってS_b∈Rを計算してステート(S_b)を生成する。
また、生成子100は、生成されたステート(S_b)に代替された欠測代替値からなるベクトルである欠測代替値(S_h)を計算するが、下記の式によって計算され得る。
Figure 0007059458000019

また、生成子100が生成した欠測代替値(S_h)は判別子200に提供され、判別子損失関数を用いて判別子200が学習(S150)されるようにする。
また、生成子100が生成した欠測代替値(S_h)は、生成子損失関数を用いて生成子100が学習(S160)されるようにする。
一方、全ての構成要素を学習するために、媒介変数ごとにアップデート速度を最適に調節する‘Adam optimizer’を使用してもよい。
学習政策を生成する段階(S200)は、それぞれの反復において、ラベルのあるデータセット(S)から、無作為(ランダム)にn個のステート(State)と、ステートに該当するステートの元素が欠測されたか否かを示すn個の欠測指標(m)を選択(S210)する。
続いて、n個のステートにあらかじめ設定された値、例えば、‘0’と‘1’間の均等分布から、ランダムノイズ‘Z’(ここでZ∈[0,1])に代替したベクトルを選別(S220)し、それが生成子100に入力されると、生成子100は、欠測代替値(S_t)(S_tは、Sの上にチルダ)と、ステート(S_b)(S_bは、Sの上にバー)と、欠測代替値(S_h)を計算(S230)する。
ここで、S_tは、ノイズ‘Z’に代替された欠測代替値であり、S_bは、生成子100によって生成されたステートを表し、S_hは、生成子によって生成された値に代替された欠測代替値である。
S230段階において、生成子100は、ランダムノイズ‘Z’に代替された欠測代替値(S_t)からなるベクトルを入力として受けて計算するが、下記の式によって入力として受ける。
Figure 0007059458000020

また、生成子100は、S_b=G(S_t)によってS_b∈Rを計算してステート(S_b)を生成する。
また、生成子100は、生成されたステート(S_b)に代替された欠測代替値からなるベクトルである欠測代替値(S_h)を計算するが、下記の式によって計算され得る。
Figure 0007059458000021

続いて、アクター400は、生成された欠測代替値(S_h)が政策a=π(S_h)によってアクションを行う確率値を予測(S240)する。
この時、加重値関数部500は、加重値関数を用いてステート、アクション及びラベルに対するリワードの加重値を下記の式によって生成(S250)する。
Figure 0007059458000022

また、S250段階において、加重値関数部500は、ステートから得られるリワードの加重値として、ラベルのあるデータセットからラベルの頻度数に基づいて、ステート、アクション及びラベルに対するリワードの加重値を反映できる。
この時、ラベル頻度数は下記の式に近似できる。
Figure 0007059458000023

続いて、S250段階で生成された加重値は、下記の式を用いた指導政策損失関数41によって学習(S260)する。
Figure 0007059458000024

ここで、yは、ステートのラベルであり、aは、与えられたステートに対する政策πが予測したアクションであり、W(S_h,a,y)は、ステート、アクション及びラベルに対するリワードの加重値である。
一方、全ての構成要素を学習するために、媒介変数ごとにアップデート速度を最適に調節する‘Adam optimizer’を使用してもよい。
(第2実施例)
図7は、本発明の第2実施例による生成的敵対神経網ベースの分類システムの構成を示すブロック図であり、図8は、本発明の第2実施例による生成的敵対神経網ベースの分類方法を示すフローチャートであり、図9は、図8による生成的敵対神経網ベースの分類方法の非ラベルデータの分類学習過程を示すフローチャートである。
図7~図9を参照すると、生成的敵対神経網ベースの分類システムは、生成子(Generator)100aと、判別子(Discriminator)200aと、アクター(Actor)400aと、加重値関数部(Weighted Function)500aと、リワード部(Reward)600aを含んで構成される。
生成子100a及び判別子200aは、競合構造にあるネットワークである生成的敵対神経網(Generative Adversarial Network;GAN)を用いて、生成子100は原本データの分布を見て判別子200aをだます欠測データの生成のための学習を行い、判別子200aは、どのデータが生成子100aによって生成されたデータかを分別する学習を行う。
また、生成子100aは、原本データの分布を参照して、判別子200aをだます欠測データの生成のための学習を行う。
また、生成子100aは、ラベルのあるラベルデータセット(S)を用いたり、又はラベルのない非ラベルデータセット(S)を用いることができる。
ここで、Lは、ステートにラベルのあるデータセットであり、Uは、ステートにラベルのないデータセットを意味し、外部端末から任意のデータセットが入力されてもよい。
また、生成子100aは、前処理過程として、ラベルのあるデータセット(S)又はラベルのないデータセット(S)から欠測代替値を生成するための学習過程を行ってもよい。
また、生成子100aは、前処理過程として、ラベルのあるラベルデータセットではなくラベルのない非ラベルデータセットから欠測代替値を生成するための学習過程を行ってもよい。
また、生成子100aは、欠測代替値の生成のための入力として、データセット10aからn個のステート(State)と、n個のステートに該当するステートの元素が欠測されたか否かを示すn個の欠測指標20aを選択する。
欠測指標20aも、ラベルのあるラベルデータセット(S)及びラベルのない非ラベルデータセット(S)と同様に、ラベルのあるラベルデータセット(S)はMに、ラベルのない非ラベルデータセット(S)はMに分類され得る。
また、データセット10aは、S,S,S,‥,S∈Rからなるn個のステートを含み、ここで、dは、ステート特徴(feature)である。
また、ステートiが持つj番目元素はS と表現し、ここで、jはdまでの定数であり、S は、スカラー又は欠測値を有する。
また、データセット10aは、ラベルのあるデータ及びラベリングされていないデータのうち少なくとも一つのデータで構成され得る。
また、欠測指標20aは、ステートの元素が欠測されたか否かを示すための指標であり、m,m,m,‥,m∈Rを使用し、この時、m は、S が欠測データを有すれば欠測指標値22は‘0’、そうでなければ欠測指標値21は‘1’と表示される。
また、生成子100aは、n個のステートから任意の元素11に対して無作為(ランダム)に選別された欠測元素12にあらかじめ設定された値、例えば、‘0’と‘1’間の均等分布からランダムノイズ‘Z’に代替された欠測代替値(S_t)を入力として受けて計算する。
この時、欠測代替値(S_t)を下記の式によって入力として受ける。
Figure 0007059458000025

ここで、mは、ステートsに該当する欠測指標のベクトルであり、zは、‘0’と‘1’間の均等分布からランダムに選別されたノイズのベクトルであり、要素別積で示すことができる。
また、生成子100aは、欠測代替値(S_t)を用いて生成された元素のベクトルからなるステート(S_b)を出力する。
また、生成子100aは、ステート(S_b)に代替された欠測代替値(S_h)を生成して出力する。
この時、生成子100aの出力により、下記の式による欠測代替値(S_h)に該当するデータを判別子200aの学習のために利用可能にする。
Figure 0007059458000026

ここで、mは、ステートsに該当する欠測指標のベクトルである。
判別子200aは、生成子100aが生成した欠測代替値(S_h)と原本データを区分する構成であり、判別子200aが出力したものの各元素が欠測(fake)か否か(real)を区分し、結果的に、mは、S_hのためのラベルとして用いられ得る。
また、判別子200aは、関数を用いて、ステートS_hのi番目元素が欠測データでない確率に該当する判別子200aのi番目出力をS→[0,1]と示すことができる。
また、判別子200aは、出力を判別子出力指標30によってD,D,D,‥,Dと示すことができる。
一方、生成子100a及び判別子200aは損失関数によって学習され得るが、生成子100aの学習のための生成子損失関数は、下記の式の通りであり得る。
Figure 0007059458000027

ここで、生成子損失関数は2つの項(term)で構成され得るが、一番目の項は、欠測データに対する確率Dを最大化するものである。
また、二番目の項は、原本データ分布を用いて生成子100aで生成された欠測データを原本データに近似するように変換する再構成損失(reconstruction loss)40aであり、ここで、λはスケールファクター(scale factor)である。
また、判別子200aの学習のための判別子損失関数は、下記の式の通りであり得る。
Figure 0007059458000028

アクター400aは、生成子100aによって生成された欠測代替値からなるベクトルを政策(Policy)を用いてラベルのあるデータセットからアクション(Action)を行う確率を予測する。
また、アクター400aは、強化学習においてよく知られた意思決定フレームワークである‘Actor-critic’アーキテクチャーの構成要素であり得る。
また、アクター400aは、与えられたステートのラベルを生成することができる。
また、アクター400aは、ステートを入力として受け、与えられたアクション(Action)をする確率を出力し、‘Actor-critic’を用いて政策(Policy)πを学習するために、政策損失関数(Policy loss function)は下記の式のように定義され得る。
Figure 0007059458000029

ここで、Χ(S_h,a)は、与えられたステートから予測されたアクションが良いか又は悪いかを決定するクリティック(Critic)から評価される関数である。
また、Χ(S_h,a)は、‘total discounted reward’、‘action-value function’又は‘TD-error’のような形態を有してもよい。
上記の政策損失関数は、アクションが決定されていない一般形態であり、アクター400aは、正確なアクション及び不正確なアクションの両方から学習される必要がある。
しかし、Χ(S_h,a)の推定値が悪い場合、その政策損失関数は、誤った方向に最適化をすることになり、その結果、徐々に収斂したり又は発散してしまうことがある。
したがって、本発明の実施例によるアクター400aは、政策損失関数41aを不正確なアクションから学習される場合を省略し、与えられた正確なラベルだけを利用できるように、下記の式と定義され得る。
Figure 0007059458000030

ここで、yは、ステートのラベルであり、aは、与えられたステートに対する政策πが予測したアクションであり、W(S_h,a,y)は、ステート、アクション及びラベルに対するリワードの加重値である。
すなわち、予測されたアクションを正確なラベルに代替し、関数Χ(S_h,a)を加重値関数(Weighted Function)Wに代替する。
したがって、指導政策損失(Supervised policy loss)Lは、加重値関数W(S_h,a,y)から得た分類損失加重値(Classification loss weighted)である。
また、全てのステート、アクション、ラベルに対して加重値関数が‘1’である場合、Lは分類損失加重値と完全に同一になる。
また、アクター400aは、指導分類のための政策損失関数(L,41a)が加重値関数部500aから生成された加重値を用いて指導政策を学習できる。
また、アクター400aは、セミ指導分類(Semi-supervised classification)のためのセミ政策損失関数(L,42a)がアクター400aの政策とリワード部600aの出力を反映して政策を学習できる。
すなわち、セミ指導分類は、ラベルのないデータセットを活用してアクター400aのアクション(a)とリワード部600aの出力間の協力によって生成子の役割を担うアクター400aの政策は、与えられたステートのラベルを生成し、判別子の役割を担うリワード部600aは、各ステート-アクション(S_h,a)対がラベルデータセットであるか否かを決定するようにする。
また、セミ政策損失関数(L,42a)は、ラベルのないデータセット(S)を活用するために、リワード部600aの出力とアクター400aの政策が共に動作され得る。
セミ政策損失関数(L)は、下記の式と定義され得る。
Figure 0007059458000031

ここで、セミ政策損失関数(L)は、政策損失(policy loss)から得られ、Χ(S_h,a)は、次のように定義されるリワード部600aのリワードであるr(S_h,a)に代替され得る。
また、r(S_h,a)は、下記の式のように定義され得る。
Figure 0007059458000032

ここで、R(S_h,a)は、(S_h,a)対がラベルデータセットにあるラベルか否かに対する確率値であり、ε∈[0,1]は、ステート-アクション対がラベルデータセット中に含まれる可能性があるか否かを考慮した臨界値である。
加重値関数部500aは、ステートS_hから得られるリワードの加重値であり、ラベルのあるデータセット(S)からラベルの頻度数に基づいてステート、アクション、ラベルに対するリワードの加重値を生成する。
ここで、加重値関数部500aが、K個のラベルがある(k=0,1,…,K-1)ラベルのあるデータセットSを持っていると仮定すれば、K番目ラベルの頻度数は、下記の式に近似され得る。
Figure 0007059458000033

ここで、nは、k番目ラベルのサンプル数であり、φは、(0,1)の範囲に含まれる。
また、加重係数ωは、各ラベルに対して下記の式で推定され得る。
Figure 0007059458000034

ここで、bは、ログに基づく(b=e,10,…)。
したがって、ラベルの頻度数が相対的に小さい少数のラベル(minority lable)に対して高いリワードの加重値を与え、ラベルの頻度数が相対的に大きい(高い)多数のラベル(majority lable)にはより低いリワードの加重値を与えることによって、ラベル間の均衡が取れるように動作できる。
また、加重値関数部500aは、各クラスに対する加重値関数、すなわちステート、アクション及びラベルに対するリワードの加重値を、下記の式と定義することができる。
Figure 0007059458000035

ここで、r(S_h)は、ステートS_hから得られるリワードであり、aは、与えられたステートに対する政策πが予測したアクションであり、yは、ステートのラベルであり、ωとωは、ω=1-logφ(bは、ログに基づくe,10…)に基づく加重係数である。
リワード部600aは、ラベルのあるデータセット(S)にあるステート-アクション(S_h,a)対があるか否か決定し、ラベルのないデータセットに対するアクター400aの政策を学習させるようにリワードを提供する構成である。
また、リワード部600aは、ラベルデータセットにあるステート-アクション(S_h,a)対に対する確率値に対してリワードを提供するリワードモデルからなり得る。
また、リワードモデルは、ラベルデータセットにあるステート-アクション(S_h,a)対のラベルであるか否かに対する確率値を出力する関数であり、R:S×A→[0,1]であり得る。
各ステート-アクション(S_h,a)対に対するラベルは、下記の式のように定義され得る。
Figure 0007059458000036

ここで、mはステートの欠測指標であり、yは、ステートのラベルであり、aは、与えられたステートに対してアクターの政策が予測したアクションである。
また、リワード部600aは、ステート-アクション(S_h,a)対がラベルのあるデータセットにあるラベルであれば、確率値が最大化するようにしてリワード部600のリワード(r(S_h,a))として提供し、ステート-アクション(S_h,a)対がラベルのあるデータセットにないラベルであれば、確率値が最小化するようにしてリワード部600aのリワード(r(S_h,a))として提供し、前記リワード部600aは、リワードモデル損失関数(Lrew,61a)を用いて学習され得る。
また、リワードモデル損失関数(Lrew,61a)は、2つの部分を構成できるが、ステート-アクション(S_h,a)対がラベルのあるデータセットにあるラベルであれば、確率値が最大化するように学習し、ステート-アクション(S_h,a)対がラベルのあるデータセットにないラベルであれば、確率値が最小化するように学習する。
この時、下記の式のように定義され得る。
Figure 0007059458000037

次に、本発明の第2実施例による生成的敵対神経網ベースの指導分類及び学習方法を説明する。
学習手順は、欠測代替値を生成する段階(S100’)と、ラルのあるデータセットを用いた学習過程(S200’)及びラベルのないデータセットを用いた学習過程(S300)段階を含む学習政策を生成する段階とで構成され得る。
そして、各段階S100’、S200’及びS300は、データセットを様々なエポック(epoch)によって反復しながらアップデートできるが、データセットを1回巡回することを1エポック(epoch)という。
また、生成子100aと、判別子200aと、アクター400aと、加重値関数部500aと、リワード部600aとで構成された生成的敵対神経網(Generative Adversarial Network;GAN)を用いることができる。
まず、欠測代替値を生成するS100’段階及びS200’段階は、ラベルのあるラベルデータセットを用いて学習政策を行う段階であり、生成子100aと判別子200aは、第1実施例によるS100段階及びS200段階と同一に動作し、同一の構成要素に対する反復説明は省略する。
ラベルのない非ラベルデータセット(S)から学習政策を生成する段階(S300)は、ラベルのないデータセット(S)から無作為(ランダム)にn個のステート(State)と、ステートに該当するステートの元素が欠測されたか否かを示すn個の欠測指標(mU)を選択(S310)する。
続いて、n個のステートにあらかじめ設定された値、例えば、‘0’と‘1’間の均等分布から、ランダムノイズ‘Z’(ここで、Z∈[0,1])に代替したベクトルを選別(S320)し、これが生成子100aに入力されると、生成子100aは、欠測代替値(S_t)(S_tは、Sの上にチルダ)と、ステート(S_b)(S_bは、Sの上にバー)と、欠測データ、すなわち、欠測代替値(S_h)を計算(S330)する。
ここで、S_tは、ノイズ‘Z’に代替された欠測代替値であり、S_bは、生成子100aによって生成されたステートを示し、S_hは、生成子によって生成された値に代替された欠測代替値である。
S330段階において、生成子100aは、ランダムノイズ‘Z’に代替された欠測代替値(S_t)からなるベクトルを入力として受けて計算するが、下記の式によって入力として受ける。
Figure 0007059458000038

また、生成子100aは、S_b=G(S_t)によってS_b∈Rを計算してステート(S_b)を生成する。
また、生成子100aは、生成されたステート(S_b)に代替された欠測代替値(S_h)を計算するが、欠測代替値(S_h)は下記の式によって計算され得る。
Figure 0007059458000039

続いて、リワード部600aは、ラベルのあるデータセットに対するステート-アクション(S_h,a)対に対する確率値としてリワード部600aのリワードを提供し、前記リワード部600aは、リワードモデル損失関数(Lrew)を用いて学習する段階を行う(S340)。
また、前記リワード部600aは、リワードモデルからなり得、前記リワードモデルは、ラベルデータセットにあるステート-アクション(S_h,a)対に対する確率を出力する関数であり、R:S×A→[0,1]であり得る。
また、各ステート-アクション(S_h,a)対に対するラベルは、下記の式と定義され得る。
Figure 0007059458000040

ここで、mは、ステートの欠測指標であり、yは、ステートのラベルであり、aは、与えられたステートに対してアクターの政策が予測したアクションである。
リワードモデル損失関数(Lrew)は、ステート-アクション(S_h,a)対がラベルのあるデータセットにあるラベルであれば、確率値が最大化するように学習する。
また、リワードモデル損失関数(Lrew)は、ステート-アクション(S_h,a)対がラベルのあるデータセットにないラベルであれば、確率値が最小化するように学習する。
この時、リワードモデル損失関数(Lrew)は、下記の式を用いて学習する。
Figure 0007059458000041

その後、アクター400aで生成された欠測代替値(S_h)と政策(Policy)を用いてアクションを行う確率a=π(S_h)を予測する過程を行う(S350)。
S340段階で提供されるリワードモデルのリワードとS350段階で予測したアクションの予測結果は、アクター400aが、下記の式を用いたセミ政策損失関数(L)を用いてセミ政策損失関数42aで最適化するように政策を学習(S360)することができる。
Figure 0007059458000042

ここで、r(S_h,a)は、リワード部600aでリワードモデル関数に対するリワードである。
また、r(S_h,a)は、下記の式のように定義され得る。
Figure 0007059458000043

ここで、R(S_h,a)は、リワード部が出力するラベルデータセット(S_h,a)対が、ラベルのあるラベルデータセットのラベルか或いはアクターが生成したラベルかに対する確率値であり、ε∈[0,1]は、ステート-アクション対がラベルデータセット中に含まれる可能性があるか否かを考慮した臨界値である。
一方、全ての構成要素を学習するために、媒介変数ごとにアップデート速度を最適に調節する‘Adam optimizer’を使用してもよい。
図10は、UCI(University of California)が公開した、22%詐欺取引を含む実際のクレジットカード取引データを用いた実験のデータであり、データを0.7テストセットと0.3テストセットの割合で進行した結果である。
ここで、全体データセットは、10%、20%、30%、40%、50%の欠測率で欠測程度を示すように仮定され、データは、ゼロ-平均正規化を適用して前処理された。
図10から確認できるように、多数の欠測率を用いた生成子と判別子の性能は、平均平方根誤差指標によって10回以上平均化して単純に欠測代替値を平均で満たすよりは、生成子を学習して欠測代替値を生成することが、元来の値にさらに類似して現れることが分かる。
また、欠測率が増加するにつれてGANの効果も共に増加することが分かる。
また、図11は、学習過程中に生成された値の分布を示すグラフである。
図11から確認できるように、学習過程中に生成された値の分布が、図11(a)の0エポック(epoch)と、図11(b)の1エポック後の分布と対比して、図11(c)の10エポック後に生成された値の分布を元来値の分布と比較すると、より類似に現れることが分かる。
また、図12は、プラグイン要素があるものとないものの性能を示す例示図であり、F1-scoreを用いて他のstate-of-art模型と本発明に係るフレームワークとを比較したものである。
ここで、GAN、加重値関数、リワードモデルを順次に具現することによって、それぞれ、2.2%、4.4%、及び1.04%の性能が向上したことが分かる。
この加重値関数は性能に最も大きい影響を与え、これは、加重値関数を用いて学習するとき、政策(Policy)が少数クラスに一層多い加重値を与えて学習するためである。
結果的に、より良いリコール点数を有し、これは、より良いF1点数が得られるようにする。
また、リワードモデルは、εを調節すれば、フレームワークの性能を向上させるのに役立つことができる。
また、εは、ラベルのないデータからどれくらいの情報を政策アップデートに利用するかを制限し、高い値を有するほど、ラベルのないデータ使用をより厳しく管理する。
図13は、ラベルデータ比率と欠測率による性能比較を示すグラフである。
図13は、ULBから得た0.172%の詐欺比率を持つ非常に不均衡なクレジットカードデータセットを用いた評価結果であり、評価結果はF1-score指標によって測定された。
図13(a)から分かるように、同数のラベルデータを用いると、本発明に係るフレームワークが既存のmlpベースの分類機に比べてより良い性能を出すことが分かる。
また、mlpベースの分類機は、欠測率が増加したとき、F1-scoreがより速く減少することが見られるが、これは、本発明のフレームワークが欠測値を扱うにおいてより良いフレームワークであるといえよう。
また、2つのフレームワークがラベルデータを十分に含んでいるとき、両者の性能差は縮まり得る。
例えば、50%のラベルデータのみを含む場合、本発明に係るフレームワークの性能は、完全なラベルデータセットを用いる場合に類似する性能を示すことが分かる。
また、図13(b)のプロットは、ラベルデータの量によるリワードモデルの出力を示すものであり、ラベルデータが多いほど、より速く一つの値に収斂することが分かる。
以上、本発明の好ましい実施例を参照して説明したが、当該技術の分野における熟練した当業者であれば、添付する特許請求の範囲に記載された本発明の思想及び領域から逸脱しない範囲内で本発明を様々に修正及び変更可能であることが理解できよう。
また、本発明の特許請求の範囲に記載されている図面番号は、説明の明瞭性と便宜のために記載しただけで、これに限定されるものではなく、実施例を説明する過程で図面に示す線の太さや構成要素の大きさなどは、説明の明瞭性と便宜のために誇張して示されていてもよく、上述した用語は本発明における機能を考慮して定義された用語であり、これは使用者、運用者の意図又は慣例によって変わり得るので、このような用語に対する解釈は本明細書全般における内容に基づいて下されるべきであろう。

Claims (11)

  1. ラベルのあるデータセットから、ステートのうち欠測された部分に対して欠測代替値を生成する生成子(100);
    前記生成子(100)が生成した欠測代替値と原本データとを区分する判別子(200);
    前記生成子(100)によって生成された欠測代替値を用いて、政策によってアクション(Action)を予測するアクター(400);及び
    前記欠測代替値に代替されたステート、前記予測されたアクション及び前記ラベルのあるデータセットのラベルに基づいて、リワードの加重値を生成する加重値関数部(500);を含み、
    前記加重値関数部(500)は、頻度数が相対的に小さいラベルにはリワードの加重値が増加するようにし、頻度数が相対的に大きいラベルにはリワードの加重値が低くなるようにして、ラベル間の均衡が取れるように動作し、
    前記アクター(400)は、前記予測されたアクションと加重値関数部(500)で生成されたリワードの加重値を反映して、政策損失関数(41)が最適化するように前記政策を学習することを特徴とする、生成的敵対神経網ベースの分類システム。
  2. 前記リワードの加重値は、下記の式
    Figure 0007059458000044

    (ここで、r(S_h)(S_hはSの上にハット)は、ステートS_hから得られるリワードであり、aは、与えられたステートに対する政策πが予測したアクションであり、yはステートのラベルであり、ωとωは、ω=1-logφ(bは、ログに基づくe,10…)に基づく加重係数である)と定義されることを特徴とする、請求項1に記載の生成的敵対神経網ベースの分類システム。
  3. 前記加重値関数部(500)は、頻度数が相対的に小さいラベルにはリワードの加重値が増加するようにし、頻度数が相対的に大きいラベルにはリワードの加重値が低くなるようにして、ラベル間の均衡が取れるように動作し、
    前記ラベルの頻度数は、下記の式
    Figure 0007059458000045

    (ここで、nは、k番目ラベルのサンプル数であり、φは、(0,1)の範囲に含まれる)に近似され、
    前記アクター(400)は、前記予測されたアクションと加重値関数部(500)で生成されたリワードの加重値を反映して、政策損失関数(41)が最適化するように前記政策を学習することを特徴とする、請求項1に記載の生成的敵対神経網ベースの分類システム。
  4. 前記加重値関数部(500)は、頻度数が相対的に小さいラベルにはリワードの加重値が増加するようにし、頻度数が相対的に大きいラベルにはリワードの加重値が低くなるようにして、ラベル間の均衡が取れるように動作し、
    前記アクター(400)は、前記予測されたアクションと加重値関数部(500)で生成されたリワードの加重値を反映して、政策損失関数(41)が最適化するように前記政策を学習し、
    前記政策の学習は、下記の式
    Figure 0007059458000046

    (ここで、yは、ステートのラベルであり、aは、与えられたステートに対する政策πが予測したアクションであり、W(S_h,a,y)は、ステート、アクション及びラベルに対するリワードの加重値である)を用いることを特徴とする、請求項1に記載の生成的敵対神経網ベースの分類システム。
  5. 生成子(100)と、判別子(200)と、アクター(400)と加重値関数部(500)で構成された生成的敵対神経網(Generative Adversarial Network;GAN)を用いた生成的敵対神経網ベースの分類方法であって、
    a)生成子(100)が、ラベルのあるデータセット10から、ステートのうち欠測された部分に対して欠測代替値を生成する段階;
    b)アクター(400)が、前記生成子(100)によって生成された欠測代替値を用いて、政策によってアクション(Action)を予測する段階;
    c)加重値関数部(500)が、前記欠測代替値に代替されたステート、前記予測されたアクション及び前記ラベルのあるデータセットのラベルに基づいて、リワードの加重値を生成する段階;及び
    d)前記アクター(400)が、前記予測されたアクションと、加重値関数部(500)で生成されたリワードの加重値を反映して、政策損失関数(41)が最適化するように前記政策を学習する段階を含み、
    前記c)段階において、前記加重値関数部(500)は、頻度数が相対的に小さいラベルにはリワードの加重値が増加するようにし、頻度数が相対的に大きいラベルにはリワードの加重値が低くなるようにして、ラベル間の均衡が取れるように動作することを特徴とする、生成的敵対神経網ベースの分類方法。
  6. 前記a)段階は、i)前記生成子(100)が、ラベルのあるデータセット10から、欠測値のあるステート(State)と、前記ステートに該当するステートの元素が欠測されたか否かを示す欠測指標(m)を選択する段階;及び
    ii)前記生成子(100)が、前記ステートに‘0’と‘1’間の均等分布から、ランダムノイズに代替された欠測代替値)(S_t)(S_tはSの上にチルダ)を用いて欠測代替値(S_h)を生成し、前記生成された欠測代替値(S_h)を用いて生成子(100)と判別子(200)を学習する前処理段階;をさらに含むことを特徴とする、請求項5に記載の生成的敵対神経網ベースの分類方法。
  7. 前記c)段階の加重値関数部(500)は、頻度数が相対的に小さいラベルにはリワードの加重値が増加するようにし、頻度数が相対的に大きいラベルにはリワードの加重値が低くなるようにして、ラベル間の均衡が取れるように動作し、
    前記ラベルの頻度数は、下記の式
    Figure 0007059458000047

    (ここで、nはk番目ラベルのサンプル数であり、φは、(0,1)の範囲に含まれる)に近似され、
    前記リワードの加重値は、下記の式
    Figure 0007059458000048

    (ここで、r(S_h)は、ステートS_hから得られるリワードであり、aは、与えられたステートに対する政策πが予測したアクションであり、yは、ステートのラベルであり、ωとωは、ω=1-logφ(bは、ログに基づくe,10…)に基づく加重係数である)と定義されることを特徴とする、請求項5に記載の生成的敵対神経網ベースの分類方法。
  8. 前記c)段階の加重値関数部(500)は、頻度数が相対的に小さいラベルにはリワードの加重値が増加するようにし、頻度数が相対的に大きいラベルにはリワードの加重値が低くなるようにして、ラベル間の均衡が取れるように動作することを特徴とする、請求項5に記載の生成的敵対神経網ベースの分類方法。
  9. 前記d)段階は、政策の学習を下記の式
    Figure 0007059458000049

    (ここで、yは、ステートのラベルであり、aは、与えられたステートに対する政策πが予測したアクションであり、W(S_h,a,y)は、ステート、アクション及びラベルに対するリワードの加重値である)を用いて学習することを特徴とする、請求項5に記載の生成的敵対神経網ベースの分類方法。
  10. ラベルのあるデータセット(S)又はラベルのないデータセット(S)から、ステートのうち欠測された部分に対して欠測代替値を生成する生成子(100a);
    前記生成子(100a)が生成した欠測代替値と原本データとを区分する判別子(200a);
    前記生成子(100a)によって生成された欠測代替値を用いて、政策によってアクション(Action)を予測するアクター(400a);
    前記欠測代替値に代替されたステート、前記予測されたアクション及び前記ラベルのあるデータセットのラベルに基づいて、リワードの加重値を生成する加重値関数部(500a);及び
    前記ラベルのあるデータセットと、ラベルのないデータセットを対象にアクター(400a)の政策が学習されるようにリワードを提供するリワード部(600a);を含み、
    前記アクター(400a)は、前記予測されたアクションと、加重値関数部(500a)から生成されたリワードの加重値を反映して、政策損失関数(41a)が最適化するように前記政策を学習し、且つ前記予測されたアクションと、リワード部(600a)のリワードに基づいてセミ指導政策損失関数(42a)が最適化するように前記政策を学習し、
    前記リワード部(600a)のリワードは、下記の式
    Figure 0007059458000050

    (ここで、R(S_h,a)(S_hは、Sの上にハット)は、リワード部が出力するラベルデータセット(S_h,a)対が、ラベルのあるラベルデータセットのラベルか或いはアクターが生成したラベルかに対する確率値であり、ε∈[0,1]は、ステート-アクション対がラベルデータセット中に含まれる可能性があるか否かを考慮した臨界値である)と定義されることを特徴とする、生成的敵対神経網ベースの分類システム。
  11. 生成子(100a)と、判別子(200a)と、アクター(400a)と加重値関数部(500a)と、リワード部(600a)で構成された生成的敵対神経網(Generative Adversarial Network;GAN)を用いた生成的敵対神経網ベースの分類方法であって、
    a)生成子(100a)が、ラベルのあるデータセット(S)から、ステートのうち欠測された部分に対して欠測代替値を生成する段階;
    b)アクター(400a)が、前記生成子(100a)によって生成された欠測代替値を用いて、政策によってアクション(Action)を予測する段階;
    c)加重値関数部(500a)が、前記欠測代替値に代替されたステート、前記予測されたアクション及び前記ラベルのあるデータセットのラベルに基づいて、リワードの加重値を生成する段階;及び
    d)前記アクター(400a)が、前記予測されたアクションと、加重値関数部(500a)から生成されたリワードの加重値を反映して、政策損失関数(41a)が最適化するように前記政策を学習する段階;を含み、
    前記a)段階において、ラベルのないデータセット(S)があれば、
    a-1)前記生成子(100a)が、ラベルのないデータセット(S)から、ステートのうち欠測された部分に対して欠測代替値(S_h)(S_hは、Sの上にハット)を生成する段階;
    b-1)前記アクター(400a)が、生成された欠測代替値(S_h)を用いて、政策によってアクション(Action)を予測する段階;
    c-1)リワード部(600a)が、前記ラベルのあるデータセットとラベルのないデータセットを対象にアクター(400a)の政策が学習されるようにリワードを提供する段階;及び
    d-1)前記アクター(400a)が、前記予測されたアクションと、前記リワード部(600a)のリワードに基づいて、セミ指導政策損失関数(42a)が最適化するように前記政策を学習する段階をさらに含み、
    前記リワード部(600a)のリワードは、下記の式
    Figure 0007059458000051

    (ここで、R(S_h,a)は、リワード部が出力するラベルデータセット(S_h,a)対がラベルのあるラベルデータセットのラベルか或いはアクターが生成したラベルかに対する確率値であり、ε∈[0,1]は、ステート-アクション対がラベルデータセット中に含まれる可能性があるか否かを考慮した臨界値である)と定義されることを特徴とする、生成的敵対神経網ベースの分類方法。
JP2020560365A 2019-12-06 2020-03-17 生成的敵対神経網ベースの分類システム及び方法 Active JP7059458B2 (ja)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
KR10-2020-0023894 2019-12-06
KR20190162109 2019-12-06
KR10-2019-0162110 2019-12-06
KR1020190162110A KR102093079B1 (ko) 2019-12-06 2019-12-06 레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법
KR10-2019-0162109 2019-12-06
KR10-2019-0162111 2019-12-06
KR10-2020-0023895 2019-12-06
KR1020190162111A KR102093080B1 (ko) 2019-12-06 2019-12-06 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법
KR1020200023895A KR102093090B1 (ko) 2020-02-26 2020-02-26 레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법
KR1020200023894A KR102093089B1 (ko) 2020-02-26 2020-02-26 레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법
PCT/KR2020/003622 WO2021112335A1 (ko) 2019-12-06 2020-03-17 생성적 적대 신경망 기반의 분류 시스템 및 방법

Publications (2)

Publication Number Publication Date
JP2022515941A JP2022515941A (ja) 2022-02-24
JP7059458B2 true JP7059458B2 (ja) 2022-04-26

Family

ID=76222747

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020560365A Active JP7059458B2 (ja) 2019-12-06 2020-03-17 生成的敵対神経網ベースの分類システム及び方法

Country Status (3)

Country Link
US (1) US20220207300A1 (ja)
JP (1) JP7059458B2 (ja)
WO (1) WO2021112335A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3907651A1 (en) * 2020-05-08 2021-11-10 Robert Bosch GmbH Training a function to respond predictably to differences
CN115543763A (zh) * 2021-06-29 2022-12-30 中国电子技术标准化研究院 基于生成对抗网络的测试用例生成方法及装置
CN115081338B (zh) * 2022-07-14 2024-03-19 重庆大学 数据缺失下基于改进生成对抗填补网络的滚齿碳耗预测方法
CN115883016B (zh) * 2022-10-28 2024-02-02 南京航空航天大学 基于联邦生成对抗网络的流量数据增强方法与装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251997A (ja) * 2005-03-09 2006-09-21 Toyo Electric Mfg Co Ltd 欠測データの補間方法
US9858534B2 (en) * 2013-11-22 2018-01-02 California Institute Of Technology Weight generation in machine learning
US20190244138A1 (en) * 2018-02-08 2019-08-08 Apple Inc. Privatized machine learning using generative adversarial networks
US20210271968A1 (en) * 2018-02-09 2021-09-02 Deepmind Technologies Limited Generative neural network systems for generating instruction sequences to control an agent performing a task
EP3543917B1 (en) * 2018-03-19 2024-01-03 SRI International Inc. Dynamic adaptation of deep neural networks
EP3792830A1 (en) * 2019-09-10 2021-03-17 Robert Bosch GmbH Training a class-conditional generative adverserial network

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YOON, Jinsung et al.,GAIN: Missing Data Imputation using Generative Adversarial Nets,arXiv:1806.02920v1,Cornell University,2018年06月07日,[検索日 2022年2月28],インターネット:<URL:https://arxiv.org/pdf/1806.02920.pdf

Also Published As

Publication number Publication date
US20220207300A1 (en) 2022-06-30
JP2022515941A (ja) 2022-02-24
WO2021112335A1 (ko) 2021-06-10

Similar Documents

Publication Publication Date Title
JP7059458B2 (ja) 生成的敵対神経網ベースの分類システム及び方法
US11868891B2 (en) Machine-learning techniques for monotonic neural networks
Kuang et al. Stable prediction across unknown environments
US20230325724A1 (en) Updating attribute data structures to indicate trends in attribute data provided to automated modelling systems
US11900294B2 (en) Automated path-based recommendation for risk mitigation
US20220067588A1 (en) Transforming a trained artificial intelligence model into a trustworthy artificial intelligence model
US20200327450A1 (en) Addressing a loss-metric mismatch with adaptive loss alignment
KR102093080B1 (ko) 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법
US20220114494A1 (en) Model-agnostic approach to interpreting sequence predictions
Yu et al. Ensemble OS-ELM based on combination weight for data stream classification
US10546246B2 (en) Enhanced kernel representation for processing multimodal data
JP4140915B2 (ja) 利用者の行動を支援するシステム
Yuan et al. Deep learning from a statistical perspective
KR102093079B1 (ko) 레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법
Pandey et al. Machine learning–based classifiers ensemble for credit risk assessment
JP7215966B2 (ja) ハイパーパラメータ管理装置、ハイパーパラメータ管理方法及びハイパーパラメータ管理プログラム製品
Igual et al. Supervised learning
US20220318654A1 (en) Machine Learning and Reject Inference Techniques Utilizing Attributes of Unlabeled Data Samples
Zhu et al. A hybrid model for nonlinear regression with missing data using quasilinear kernel
JP7047665B2 (ja) 学習装置、学習方法及び学習プログラム
KR102093089B1 (ko) 레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법
KR102093090B1 (ko) 레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법
US20230351169A1 (en) Real-time prediction of future events using integrated input relevancy
US20230351491A1 (en) Accelerated model training for real-time prediction of future events
US20230351493A1 (en) Efficient processing of extreme inputs for real-time prediction of future events

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201027

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220314

R150 Certificate of patent or registration of utility model

Ref document number: 7059458

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150