JP7059458B2

JP7059458B2 - 生成的敵対神経網ベースの分類システム及び方法

Info

Publication number: JP7059458B2
Application number: JP2020560365A
Authority: JP
Inventors: ロ、チョル－キョン; ミン、イェ－リン; ル、ファム－トゥエン
Original assignee: アジャイルソーダインコーポレイテッド
Priority date: 2019-12-06
Filing date: 2020-03-17
Publication date: 2022-04-26
Anticipated expiration: 2040-03-17
Also published as: US20220207300A1; JP2022515941A; WO2021112335A1

Description

本発明は、生成的敵対神経網ベースの分類システム及び方法に関し、より詳細には、生成的敵対神経網（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ；ＧＡＮ）で生成した欠測代替値を用いて、ラベルのあるラベルデータセットとラベルのない非ラベルデータセットの不均衡なデータセットにおいても学習できる、生成的敵対神経網ベースの分類システム及び方法に関する。

マシンラーニングは、複雑なシステムが明示的にプログラミングされず、経験から自動で学習し改善可能にさせる人工知能の応用である。

マシンラーニングモデルの正確度及び有効性は、それらのモデルを訓練させるために用いられるデータに部分的に依存できる。

例えば、マシンラーニング分類子（Ｃｌａｓｓｉｆｉｅｒ）は、ラベルのある（又は、ラベリングされた）データ（Ｌａｂｅｌｅｄｄａｔａ）セットを用いて訓練され得るが、ここで、分類子が認識するように、学習するデータのサンプルが、サンプルに対する分類（Ｃｌａｓｓｉｆｉｃａｔｉｏｎ）を識別する一つ以上のラベルと共に、分類子に提供される。

ここで、ラベリングされたデータとは、データに対する答が与えられているもの（又は、評価がされているもの）を指す。

しかし、意思決定システムでは、次のような問題から困難を経ることがある。

図１は、通常の欠測データが含まれたデータセットを示す例示図であり、図１に示すように、データセット１０は、ｎ個のステート（Ｓｔａｔｅ）を含んで構成され、ステートの元素１１は、ステート‘ｉ’が持つ‘ｊ’番目の元素で、‘Ｓ_ｉ ^ｊ’と表現され、ここで、‘ｊ’は１からｄまでの定数であり、‘Ｓ_ｉ ^ｊ’はスカラー又は欠測データ‘Ｚ_ｉ ^ｊ’１２を有することができる。

欠測データ（Ｍｉｓｓｉｎｇｄａｔａ）は、データセット（Ｄａｔａｓｅｔ）の全体的な質を下げてしまい、意思決定システムで予測された結果が歪む問題点がある。

また、ディープラーニングでは、ラベルのあるデータの量が性能において相当な影響力を持っているが、大部分の実データセットは通常、ラベルのない非ラベルデータを含んでおり、データをラベリングする費用が非常に高価となる問題点がある。

また、通常のビジネス意思決定のためのビジネスデータセットには、多くの欠測値、非理想的なラベル不均衡の問題があり、分類システムを構築する上で困難が多い。

また、通常のビジネス意思決定のためのビジネスデータセットには、不均衡のバラツキが非常に大きく、少数のクラスがデータにおいて非常に小さい部分だけを占めるが、結果的にこのようなクラスのサンプルは、意思決定システムをアップデートする上で殆どクエリ（Ｑｕeｒｙ）されないという問題点がある。

また、通常のビジネス意思決定のためのビジネスデータセット、例えば、貸出詐欺ビジネスのデータセットである場合、詐欺件がわずかなため、通常の分類システムでは分類も予測もし難い問題点がある。

このような問題点を解決するために、本発明は、生成的敵対神経網（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ；ＧＡＮ）で生成した欠測代替値を用いて、ラベルのあるラベルデータセットとラベルのない非ラベルデータセットの不均衡なデータセットにおいても学習できる、生成的敵対神経網ベースの分類システム及び方法を提供することを目的とする。

本発明の一実施例による生成的敵対神経網ベースの分類システムは、ラベルのあるデータセットから、ステートのうち欠測された部分に対して欠測代替値を生成する生成子；前記生成子が生成した欠測代替値と原本データとを区分する判別子；前記生成子によって生成された欠測代替値を用いて、政策によってアクション（Ａｃｔｉｏｎ）を予測するアクター；及び前記欠測代替値に代替されたステート、前記予測されたアクション及び前記ラベルのあるデータセットのラベルに基づいて、リワードの加重値を生成する加重値関数部；を含み、

前記加重値関数部は、頻度数が相対的に小さいラベルにはリワードの加重値が増加するようにし、頻度数が相対的に大きいラベルにはリワードの加重値が低くなるようにして、ラベル間の均衡が取れるように動作し、

前記アクターは、前記予測されたアクションと加重値関数部で生成されたリワードの加重値を反映して、政策損失関数が最適化するように前記政策を学習することを特徴とする。

また、本発明の実施例によるリワードの加重値は、下記の式、

（ここで、ｒ（Ｓ＿ｈ）（Ｓ＿ｈはＳの上にハット）は、ステートＳ＿ｈから得られるリワードであり、ａは、与えられたステートに対する政策πが予測したアクションであり、ｙは、ステートのラベルであり、ω_ｙとω_ａは、ω_ｋ＝１－ｌｏｇ_ｂφ_ｋ（ｂは、ログに基づくｅ，１０…）に基づく加重係数である。）と定義されることを特徴とする。

また、本発明の実施例による加重値関数部は、頻度数が相対的に小さいラベルにはリワードの加重値が増加するようにし、頻度数が相対的に大きいラベルにはリワードの加重値が低くなるようにして、ラベル間の均衡が取れるように動作する。

また、本発明の実施例によるラベル頻度数は、下記の式

（ここで、ｎ_ｋは、ｋ番目ラベルのサンプル数であり、φ_ｋは、（０，１）の範囲に含まれる。）に近似され、前記アクターは、前記予測されたアクションと加重値関数部で生成されたリワードの加重値を反映して、政策損失関数が最適化するように前記政策を学習することを特徴とする。

また、本発明の実施例による加重値関数部は、頻度数が相対的に小さいラベルにはリワードの加重値が増加するようにし、頻度数が相対的に大きいラベルにはリワードの加重値が低くなるようにして、ラベル間の均衡が取れるように動作する

また、本発明の実施例によるアクターは、前記予測されたアクションと加重値関数部で生成されたリワードの加重値を反映して、政策損失関数が最適化するように前記政策を学習する。

また、本発明の実施例による政策の学習は、下記の式

（ここで、ｙはステートのラベルであり、ａは、与えられたステートに対する政策πが予測したアクションであり、Ｗ（Ｓ＿ｈ，ａ，ｙ）は、ステート、アクション及びラベルに対するリワードの加重値である。）を用いることを特徴とする。

また、本発明の一実施例による生成的敵対神経網ベースの分類システムを用いた分類方法は、生成子と、判別子と、アクターと加重値関数部とから構成された生成的敵対神経網（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ；ＧＡＮ）を用い、ａ）生成子が、ラベルのあるデータセットから、ステートのうち欠測された部分に対して欠測代替値を生成する段階；ｂ）アクターが、前記生成子によって生成された欠測代替値を用いて、政策によってアクション（Ａｃｔｉｏｎ）を予測する段階；ｃ）加重値関数部が、前記欠測代替値に代替されたステート、前記予測されたアクション及び前記ラベルのあるデータセットのラベルに基づいて、リワードの加重値を生成する段階；及びｄ）前記アクターが、前記予測されたアクションと、加重値関数部で生成されたリワードの加重値を反映して、政策損失関数が最適化するように前記政策を学習する段階を含み、

前記ｃ）段階で、前記加重値関数部は、頻度数が相対的に小さいラベルにはリワードの加重値が増加するようにし、頻度数が相対的に大きいラベルにはリワードの加重値が低くなるようにして、ラベル間の均衡が取れるように動作することを特徴とする。

また、本発明の実施例によるａ）段階は、ｉ）前記生成子がラベルのあるデータセットから、欠測値のあるステート（Ｓｔａｔｅ）と、前記ステートに該当するステートの元素が欠測されたか否かを示す欠測指標（ｍ）を選択する段階；及びｉｉ）前記生成子が、前記ステートに‘０’と’１’間の均等分布からランダムノイズに代替された欠測代替値（Ｓ＿ｔ）（Ｓ＿ｔは、Ｓの上にチルダ）を用いて欠測代替値（Ｓ＿ｈ）を生成し、前記生成された欠測代替値（Ｓ＿ｈ）を用いて生成子と判別子を学習する前処理段階；をさらに含むことを特徴とする。

また、本発明の実施例によるｃ）段階の加重値関数部は、頻度数が相対的に小さいラベルにはリワードの加重値が増加するようにし、頻度数が相対的に大きいラベルにはリワードの加重値が低くなるようにして、ラベル間の均衡が取れるように動作する。

また、本発明の実施例による前記ラベル頻度数は、下記の式

（ここで、ｎ_ｋはｋ番目ラベルのサンプル数であり、φ_ｋは、（０，１）の範囲に含まれる。）に近似される。

また、本発明の実施例による前記リワードの加重値は、下記の式

（ここで、ｒ（Ｓ＿ｈ）は、ステートＳ＿ｈから得られるリワードであり、ａは、与えられたステートに対する政策πが予測したアクションであり、ｙは、ステートのラベルであり、ω_ｙとω_ａは、ω_ｋ＝１－ｌｏｇ_ｂφ_ｋ（ｂは、ログに基づくｅ，１０…）に基づく加重係数である。）と定義されることを特徴とする。

また、本発明の実施例によるｃ）段階の加重値関数部は、頻度数が相対的に小さいラベルにはリワードの加重値が増加するようにし、頻度数が相対的に大きいラベルにはリワードの加重値が低くなるようにして、ラベル間の均衡が取れるように動作することを特徴とする。

また、本発明の実施例によるｄ）段階は、政策の学習を、下記の式

（ここで、ｙは、ステートのラベルであり、ａは、与えられたステートに対する政策πが予測したアクションであり、Ｗ（Ｓ＿ｈ，ａ，ｙ）は、ステート、アクション及びラベルに対するりワードの加重値である。）を用いて学習することを特徴とする。

また、本発明の一実施例による生成的敵対神経網ベースの分類システムは、ラベルのあるデータセット（Ｓ_Ｌ）又はラベルのないデータセット（Ｓ_Ｕ）から、ステートのうち欠測された部分に対して欠測代替値を生成する生成子；前記生成子が生成した欠測代替値と原本データとを区分する判別子；前記生成子によって生成された欠測代替値を用いて、政策によってアクション（Ａｃｔｉｏｎ）を予測するアクター；前記欠測代替値に代替されたステート、前記予測されたアクション及び前記ラベルのあるデータセットのラベルに基づいて、リワードの加重値を生成する加重値関数部；及び前記ラベルのあるデータセットと、ラベルのないデータセットを対象にアクターの政策が学習されるようにリワードを提供するリワード部；を含み、

前記アクターは、前記予測されたアクションと、加重値関数部から生成されたリワードの加重値を反映して、政策損失関数が最適化するように前記政策を学習し、また、前記予測されたアクションと、リワード部のリワードに基づいてセミ政策損失関数が最適化するように前記政策を学習する。

また、本発明の実施例による前記リワード部のリワードは、下記の式

（ここで、Ｒ（Ｓ_Ｌ＿ｈ，ａ）（Ｓ_Ｌ＿ｈは、Ｓ_Ｌの上にハット）は、リワード部が出力するラベルデータセット（Ｓ＿ｈ，ａ）対が、ラベルのあるラベルデータセットのラベルか或いはアクターが生成したラベルかに対する確率値であり、ε∈［０，１］は、ステート－アクション対がラベルデータセット中に含まれる可能性があるか否かを考慮した臨界値である。）と定義されることを特徴とする。

また、本発明の一実施例による生成的敵対神経網ベースの分類システムを用いた生成的敵対神経網ベースの分類方法は、ａ）生成子が、ラベルのあるデータセット（Ｓ_Ｌ）から、ステートのうち欠測された部分に対して欠測代替値を生成する段階；ｂ）アクターが、前記生成子によって生成された欠測代替値を用いて、政策によってアクション（Ａｃｔｉｏｎ）を予測する段階；ｃ）加重値関数部が、前記欠測代替値に代替されたステート、前記予測されたアクション及び前記ラベルのあるデータセットのラベルに基づいて、リワードの加重値を生成する段階；及びｄ）前記アクターが、前記予測されたアクションと、加重値関数部から生成されたリワードの加重値を反映して、政策損失関数が最適化するように前記政策を学習する段階；を含み、

前記ａ）段階において、ラベルのないデータセット（Ｓ_Ｕ）があれば、ａ－１）前記生成子が、ラベルのないデータセット（Ｓ_Ｕ）から、ステートのうち欠測された部分に対して欠測代替値（Ｓ_Ｕ＿ｈ）（Ｓ_Ｕ＿ｈは、Ｓ_Ｕの上にハット）を生成する段階；ｂ－１）前記アクターが、生成された欠測代替値（Ｓ_Ｕ＿ｈ）を用いて、政策によってアクション（Ａｃｔｉｏｎ）を予測する段階；ｃ－１）リワード部が、前記ラベルのあるデータセットと、ラベルのないデータセットを対象にアクターの政策が学習されるようにリワードを提供する段階；及びｄ－１）前記アクターが、前記予測されたアクションと、前記リワード部のリワードに基づいて、セミ政策損失関数が最適化するように前記政策を学習する段階をさらに含む。

（ここで、Ｒ（Ｓ_Ｌ＿ｈ，ａ）は、リワード部が出力するラベルデータセットＲ（Ｓ＿ｈ，ａ）対がラベルのあるラベルデータセットのラベルか或いはアクターが生成したラベルかに対する確率値であり、ε∈［０，１］は、ステート－アクション対がラベルデータセット中に含まれる可能性があるか否かを考慮した臨界値である。）と定義されることを特徴とする。

本発明は、強化学習において‘Ａｃｔｏｒ－ｃｒｉｔｉｃ’アーキテクチャーと生成的敵対神経網（ＧＡＮ）アーキテクチャーを結合することによって、強化学習の最適のモデルを開発するための補償関数の設定に要求される時間と施行錯誤過程を画期的に短縮するためにデータの特性に合わせて自動で補償関数体系を提供できる長所がある。

また、本発明は、欠測データを生成的敵対神経網（ＧＡＮ）を用いて実際データと類似の欠測代替値で生成でき、データの全体的な質を向上させることができる長所がある。

また、本発明は欠測データの否定的な効果を減少させることができる長所がある。

本発明は、生成的敵対神経網（ＧＡＮ）で生成した欠測データを用いて、ラベルのあるラベルデータセットとラベルのない非ラベルデータセットのように不均衡なデータセットにおいても学習できる長所がある。

また、本発明は、ラベルデータセット及び非ラベルデータセットを同時に入力データとして用いると同時に、少ない数のデータセットにおいても学習できる長所がある。

また、本発明は、ラベルの不均衡比率に関連付いたカスタマイズ（Ｃｕｓｔｏｍｉｚｅｄ）補償関数を提供し、分類システム及び方法の構築時間を減少させることができる長所がある。

また、本発明は、銀行、カード会社又は保険会社などの金融機関や、システム、製造、航空会社などのビジネス意思決定最適化問題のための強化学習方法論を適用する際に、データセットに対する欠測代替のためのデザインや、補償関数を適用するためのデザイン無しで強化学習方法論を適用できる長所がある。

また、本発明によれば、通常のビジネス意思決定のためのビジネスデータセットに発生し得る多くの欠測値、非理想的なラベル不均衡の問題を解決できるので、通常の分析家が分類システムを構築するのにかかる費用・時間を減らしながら強化学習方法論を適用することができる長所がある。

また、本発明によれば、通常のビジネス意思決定のためのビジネスデータセット、例えば、貸出詐欺ビジネスのデータセッターである場合、詐欺件がわずかであっても、加重値関数を用いた加重値調節によって、詐欺件に対する補償値を相対的に大きくさせ、より詐欺件に集中するシステムを構成できる長所がある。

一般的な欠測データが含まれたデータセットを示す例示図である。本発明の一実施例による生成的敵対神経網ベースの分類システムの構成を示すブロック図である。本発明の一実施例による生成的敵対神経網ベースの分類方法を示すフローチャートである。図３による生成的敵対神経網ベースの分類方法の欠測データ学習過程を示すフローチャートである。図３による生成的敵対神経網ベースの分類方法の加重値を用いた指導分類学習過程を示すフローチャートである。図３による生成的敵対神経網ベースの分類方法の加重値推定過程を示すフローチャートである。本発明の他の実施例による生成的敵対神経網ベースの分類システムの構成を示すブロック図である。本発明の他の実施例による生成的敵対神経網ベースの分類方法を示すフローチャートである。図８による生成的敵対神経網ベースの分類方法の非ラベルデータの分類学習過程を示すフローチャートである。本発明の一実施例によるラベルデータ及び非ラベルデータを用いた生成的敵対神経網ベースの分類システムを活用して多数の欠測率による評価結果を示すグラフである。本発明の一実施例によるラベルデータ及び非ラベルデータを用いた生成的敵対神経網ベースの分類システムを活用して、学習過程中に生成された値の分布を示すグラフである。本発明の一実施例によるラベルデータ及び非ラベルデータを用いた生成的敵対神経網ベースの分類システムを活用して、プラグイン要素があるものとないものの性能を示す例示図である。本発明の一実施例によるラベルデータ及び非ラベルデータを用いた生成的敵対神経網ベースの分類システムを活用して、ラベルデータ比率と欠測率による性能比較を示すグラフである。

以下、添付の図面を参照して本発明の一実施例によるラベルデータを用いた生成的敵対神経網ベースの分類システム及び方法の好ましい実施例を詳細に説明する。

本明細書において、ある部分がある構成要素を“含む”とした表現は、他の構成要素を排除するものではなく、他の構成要素をさらに含んでもよいという意味である。

また、“‥部”、“‥機”、“‥モジュール”などの用語は、少なくとも一つの機能や動作を処理する単位を意味し、これは、ハードウェア、ソフトウェア、又はこれらの結合に区分できる。

また、本発明の詳細な説明及び請求項において‘学習’或いは‘ラーニング’は、コンピュータシステムにおいて手順に従うコンピューティング（ｃｏｍｐｕｔｉｎｇ）を通じて機械学習（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）を行うことを称する言葉で、人間の教育活動のような精神的作用を意味するように意図されたものではなく、訓練（ｔｒａｉｎｉｎｇ）は、機械学習に関して通常理解される意味で用いられる。

また、コンピューティング装置は、通信装置及びプロセッサを含み、通信装置を介して外部コンピューティング装置と直／間接的に通信することができる。

具体的に、コンピューティング装置は、典型的なコンピュータハードウェア（例えば、コンピュータプロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他既存のコンピューティング装置の構成要素を含み得る装置；ルータ、スイッチなどのような電子通信装置；ネットワーク接続型ストレージ（ＮＡＳ；ｎｅｔｗｏｒｋ－ａｔｔａｃｈｅｄｓｔｏｒａｇｅ）及びストレージ領域ネットワーク（ＳＡＮ；ｓｔｏｒａｇｅａｒｅａｎｅｔｗｏｒｋ）のような電子情報ストレージシステム）とコンピュータソフトウェア（すなわち、コンピューティング装置を特定の方式で機能させる命令語）の組合せを用いて所望のシステム性能を達成するものであり得る。

このようなコンピューティング装置の通信装置は、連動する他のコンピューティング装置と要請及び応答を送受信できるところ、一例示として、このような要請及び応答は同一のＴＣＰ（ｔｒａｎｓｍｉｓｓｉｏｎｃｏｎｔｒｏｌｐｒｏｔｏｃｏｌ）セッション（ｓｅｓｓｉｏｎ）によってなされてもよいが、これに限定されず、例えば、ＵＤＰ（ｕｓｅｒｄａｔａｇｒａｍｐｒｏｔｏｃｏｌ）データグラム（ｄａｔａｇｒａｍ）として送受信されてもよい。

また、広い意味で通信装置は、命令語又は指示などを伝達するためのキーボード、マウス、その他外部入力装置、プリンタ、ディスプレイ、その他外部出力装置を含むことができる。

また、コンピューティング装置のプロセッサは、ＭＰＵ（ｍｉｃｒｏｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、ＣＰＵ（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、ＧＰＵ（ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、ＮＰＵ（ｎｅｕｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）又はＴＰＵ（ｔｅｎｓｏｒｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、キャッシュメモリ（ｃａｃｈｅｍｅｍｏｒｙ）、データバス（ｄａｔａｂｕｓ）などのハードウェア構成を含むことができる。

（第１実施例）

図２は、本発明の一実施例による生成的敵対神経網ベースの分類システムの構成を示すブロック図であり、図３は、本発明の一実施例による生成的敵対神経網ベースの分類方法を示すフローチャートであり、図４は、図３による生成的敵対神経網ベースの分類方法の欠測データ学習過程を示すフローチャートであり、図５は、図３による生成的敵対神経網ベースの分類方法の加重値を用いた指導分類学習過程を示すフローチャートであり、図６は、図３による生成的敵対神経網ベースの分類方法の加重値推定過程を示すフローチャートである。

図２～図６を参照すると、生成的敵対神経網ベースの分類システムは、生成子（Ｇｅｎｅｒａｔｏｒ）１００と、判別子（Ｄｉｓｃｒｉｍｉｎａｔｏｒ）２００と、アクター（Ａｃｔｏｒ）４００と、加重値関数部（ＷｅｉｇｈｔｅｄＦｕｎｃｔｉｏｎ）５００を含んで構成される。

生成子１００及び判別子２００は、競合構造にあるネットワークである生成的敵対神経網（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ；ＧＡＮ）を用いて、生成子１００は、原本データの分布を見て判別子２００をだます欠測代替値の生成のための学習を行い、判別子２００は、どのデータが生成子１００によって生成されたデータかを分別する学習を行う。

また、生成子１００は、原本データの分布を参照して、判別子２００をだます欠測代替値の生成のための学習を行う。

また、生成子１００は、ラベルのあるデータ（Ｓ_Ｌ）を用いた生成的敵対神経網ベースの分類システムであり、ラベルのあるデータセット１０から欠測代替値を生成する。

また、生成子１００は、前処理過程として、ラベルのあるデータセットではなくラベルのないデータセットから欠測代替値を生成するための学習過程を行ってもよい。

また、生成子１００は、欠測代替値の生成のための入力として、データセット１０からｎ個のステート（Ｓｔａｔｅ）と、ｎ個のステートに該当するステートの元素が欠測されたか否かを示すｎ個の欠測指標（２０，ｍ_Ｌ）を選択する。

ここで、Ｓ_Ｌは、各ステートがラベルのあるデータセットであることを意味し、ｍ_Ｌは、ラベルのある欠測指標を意味する。

また、ラベルのあるデータセット１０は、Ｓ_１，Ｓ_２，Ｓ_３，‥，Ｓ_ｎ∈Ｒ^ｄからなるｎ個のステートを含み、ここで、ｄはステート特徴（ｆｅａｔｕｒｅ）である。

また、ステートｉが持つｊ番目元素は、ｓ_ｉ ^ｊと表現し、ここで、ｊは、ｄまでの定数であり、ｓ_ｉ ^ｊは、スカラー又は欠測値を有することができる。

また、データセット１０は、ラベルのあるラベルデータ及びラベリングされていない非ラベルデータのうち少なくとも一つのデータで構成され得る。

また、欠測指標２０は、ステートの元素が欠測されたか否かを示すための指標であり、ｍ_１，ｍ_２，ｍ_３，‥，ｍ_ｎ∈Ｒ^ｄを使用し、この時、ｍ_ｉ ^ｊは、ｓ_ｉ ^ｊが欠測データを有すれば欠測指標値２２は‘０’、そうでなければ欠測指標値２１は‘１’と表示され得る。

また、生成子１００は、ｎ個のステート中の任意の元素１１に対して無作為（ランダム）に選別された欠測元素１２にあらかじめ設定された値、例えば、‘０’と‘１’間の均等分布からランダムノイズ‘Ｚ’に代替された欠測代替値（Ｓ＿ｔ）を受けて計算する。

この時、欠測代替値（Ｓ＿ｔ）は、下記の式によって入力される。

ここで、ｍは、ステートｓに該当する欠測指標のベクトルであり、ｚは、‘０’と‘１’間の均等分布からランダムに選別されたノイズのベクトルであり、要素別積で表すことができる。

また、生成子１００は、欠測代替値（Ｓ＿ｔ）を用いて生成された元素のベクトルからなるステート（Ｓ＿ｂ）（Ｓ＿ｂは、Ｓの上にバー）を出力する。

また、生成子１００は、ステート（Ｓ＿ｂ）に代替された欠測代替値（Ｓ＿ｈ）を生成して出力する。

この時、生成子１００の出力により、下記の式による欠測代替値（Ｓ＿ｈ）に該当するデータが、判別子２００の学習のために用いられ得るようにする。

ここで、ｍは、ステートｓに該当する欠測指標のベクトルである。

判別子２００は、生成子１００が生成した欠測代替値（Ｓ＿ｈ）と原本データを区分する構成であり、判別子２００が出力したものの各元素が欠測（ｆａｋｅ）か否か（ｒｅａｌ）を区分し、結果的にｍは、（Ｓ＿ｈ）のためのラベルとして用いられ得る。

また、判別子２００は、関数によって、ステート（Ｓ＿ｈ）のｉ番目元素が欠測データでない確率に該当する判別子２００のｉ番目出力を、Ｓ→［０，１］^ｄと示すことができる。

また、判別子２００は、出力を、判別子出力指標３０によってＤ_１，Ｄ_２，Ｄ_３，‥，Ｄ_ｄと示すことができる。

一方、生成子１００と判別子２００は損失関数によって学習され得るが、生成子１００の学習のための生成子損失関数は、下記の式の通りであり得る。

ここで、生成子損失関数は２つの項（ｔｅｒｍ）で構成され得るが、一番目の項は、欠測データに対する確率Ｄ^ｉを最大化するものである。

また、二番目の項は、原本データ分布を用いて、生成子１００で生成された欠測データを原本データに近似するように変換する再構成損失（ｒｅｃｏｎｓｔｒｕｃｔｉｏｎｌｏｓｓ）４０であり、ここで、λはスケールファクター（ｓｃａｌｅｆａｃｔｏｒ）である。

また、判別子２００の学習のための判別子損失関数は、下記の式の通りであり得る。

判別子損失関数は、ｉ番目元素が欠測データであれば、確率Ｄ^ｉを最大化する方向に学習し、そうでなければ、逆に、確率Ｄ^ｉを最小化する方向に学習されるように構成できる。

アクター４００は、生成子１００によって生成された欠測代替値からなるベクトルを政策（Ｐｏｌｉｃｙ）を用いてラベルのあるデータセットからアクション（Ａｃｔｉｏｎ）を行う確率を予測する。

また、アクター４００は、強化学習でよく知られた意思決定フレームワークである‘Ａｃｔｏｒ－ｃｒｉｔｉｃ’アーキテクチャーの構成要素であり得る。

また、アクター４００は、ステートを入力として受け、与えられたアクション（Ａｃｔｉｏｎ）をする確率を出力し、‘Ａｃｔｏｒ－ｃｒｉｔｉｃ’を用いて政策（Ｐｏｌｉｃｙ）πを学習するために、政策損失関数（Ｐｏｌｉｃｙｌｏｓｓｆｕｎｃｔｉｏｎ）４１は、下記の式のように定義され得る。

ここで、Χ（Ｓ＿ｈ，ａ）は、与えられたステートから予測されたアクションが良いか或いは悪いかを決定するクリティック（Ｃｒｉｔｉｃ）から評価される関数である。

また、Χ（Ｓ＿ｈ，ａ）は、‘ｔｏｔａｌｄｉｓｃｏｕｎｔｅｄｒｅｗａｒｄ’、‘ａｃｔｉｏｎ－ｖａｌｕｅｆｕｎｃｔｉｏｎ’又は‘ＴＤ－ｅｒｒｏｒ’のような形態を有してもよい。

上記の政策損失関数は、アクションが決定されていない一般形態であり、アクター４００は、正確なアクション及び不正確なアクションの両方から学習される必要がある。

しかし、Χ（Ｓ＿ｈ，ａ）の推定値が悪い場合、その政策損失関数は、誤った方向に最適化をするようになり、その結果、徐々に収斂したり又は発散してしまうことがある。

したがって、本発明の実施例によるアクター４００は、政策損失関数４１を不正確なアクションから学習される場合を省略し、与えられた正確なラベルだけを利用可能にする式と定義され得る。

ここで、ｙは、ステートのラベルであり、ａは、与えられたステートに対する政策πが予測したアクションであり、Ｗ（Ｓ＿ｈ，ａ，ｙ）は、ステート、アクション及びラベルに対するリワードの加重値である。

すなわち、予測されたアクションを正確なラベルに代替し、関数Χ（Ｓ＿ｈ，ａ）を加重値関数（ＷｅｉｇｈｔｅｄＦｕｎｃｔｉｏｎ）Ｗに代替する。

したがって、指導政策損失（Ｓｕｐｅｒｖｉｓｅｄｐｏｌｉｃｙｌｏｓｓ）Ｌ_Ｌは、加重値関数Ｗ（Ｓ＿ｈ，ａ，ｙ）から得た分類損失加重値（Ｃｌａｓｓｉｆｉｃａｔｉｏｎｌｏｓｓｗｅｉｇｈｔｅｄ）である。

また、全てのステート、アクション、ラベルに対して加重値関数が‘１’である場合、Ｌ_Ｌは、分類損失加重値と完全に同一になる。

また、アクター４００は、指導分類のための政策損失関数４１が加重値関数部５００から生成されたリワードの加重値を用いて指導政策を学習できる。

加重値関数部５００は、ステートＳ＿ｈから得られるリワードの加重値であり、ラベルのあるデータセットから、ラベルの頻度数に基づいてステート、アクション及びラベルに対するリワードの加重値を生成する。

ここで、加重値関数部５００が、Ｋ個のラベルがある（ｋ＝０，１，…，Ｋ－１）ラベルのあるデータセットＳ_Ｌを持っていると仮定すれば、Ｋ番目ラベルの頻度数は下記の式に近似され得る。

ここで、ｎ_ｋは、ｋ番目ラベルのサンプル数であり、φ_ｋは、（０，１）の範囲に含まれる。

また、加重係数ω_ｋは、各ラベルに対して下記の式で推定され得る。

ここで、ｂはログに基づく（ｂ＝ｅ，１０，…）。

したがって、ラベルの頻度数が相対的に小さい少数のラベル（ｍｉｎｏｒｉｔｙｌａｂｌｅ）に対して高いリワードの加重値を与え、ラベルの頻度数が相対的に大きい（高い）多数のラベル（ｍａｊｏｒｉｔｙｌａｂｌｅ）にはより低いリワードの加重値を与えることによって、ラベル間の均衡が取れるように生成できる。

また、加重値関数部５００は、加重値関数、すなわちステート、アクション及びラベルに対するリワードの加重値を、下記の式と定義することができる。

ここで、ｒ（Ｓ＿ｈ）は、ステートＳ＿ｈから得られるリワードであり、ａは、与えられたステートに対する政策πが予測したアクションであり、ｙは、ステートのラベルであり、ω_ｙとω_ａは、ω_ｋ＝１－ｌｏｇ_ｂφ_ｋ（ｂは、ログに基づくｅ，１０…）に基づく加重係数である。

次には、本発明の第１実施例によるラベルデータを用いた生成的敵対神経網ベースの分類及び学習方法を説明する。

学習手順は、欠測値を生成する段階（Ｓ１００）と学習政策を生成する段階（Ｓ２００）の２段階に分けることができる。

そして、各段階Ｓ１００及びＳ２００は、ラベルのあるデータセットの様々なエポック（ｅｐｏｃｈ）によって反復しながらアップデートできるが、データセットを１回巡回することを１エポック（ｅｐｏｃｈ）という。

また、生成子１００と、判別子２００と、アクター４００と、加重値関数部５００とで構成された生成的敵対神経網（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ；ＧＡＮ）を用いることができる。

まず、欠測代替値を生成するＳ１００段階は、生成子１００と判別子２００を学習するが、それぞれの反復において生成子１００に入力されるデータセットから無作為（ランダム）にｎ個のステート（Ｓｔａｔｅ）を選択する段階（Ｓ１１０）と、ステートに該当するステートの元素が欠測されたか否かを示すｎ個の欠測指標（ｍ）を選択する段階（Ｓ１２０）を行う。

この時、Ｓ１１０段階及びＳ１２０段階は、外部端末から提供されてもよく、あらかじめ設定されたデータセットから提供されてもよい。

また、Ｓ１１０段階及びＳ１２０段階において、データセットは、ラベリングされたデータ及びラベリングされていないデータのうち少なくとも一つのデータからなるデータセットであり得る。

ｎ個のステートにあらかじめ設定された値、例えば、‘０’と‘１’間の均等分布から、ランダムノイズ‘Ｚ’（ここで、Ｚ∈［０，１］）に代替したベクトルを選別（Ｓ１３０）し、それが生成子１００に入力されると、生成子１００は、欠測代替値（Ｓ＿ｔ）と、ステート（Ｓ＿ｂ）と、欠測代替値（Ｓ＿ｈ）を計算（Ｓ１４０）する。

ここで、Ｓ＿ｔは、ノイズ‘Ｚ’に代替された欠測代替値であり、Ｓ＿ｂは、生成子１００によって生成されたステートを表し、Ｓ＿ｈは、生成子によって生成された値に代替された欠測代替値である。

Ｓ１４０段階において、生成子１００は、ランダムノイズ‘Ｚ’に代替された欠測代替値（Ｓ＿ｔ）からなるベクトルを入力として受けて計算するが、下記の式によって入力として受ける。

また、生成子１００は、Ｓ＿ｂ＝Ｇ（Ｓ＿ｔ）によってＳ＿ｂ∈Ｒ^ｄを計算してステート（Ｓ＿ｂ）を生成する。

また、生成子１００は、生成されたステート（Ｓ＿ｂ）に代替された欠測代替値からなるベクトルである欠測代替値（Ｓ＿ｈ）を計算するが、下記の式によって計算され得る。

また、生成子１００が生成した欠測代替値（Ｓ＿ｈ）は判別子２００に提供され、判別子損失関数を用いて判別子２００が学習（Ｓ１５０）されるようにする。

また、生成子１００が生成した欠測代替値（Ｓ＿ｈ）は、生成子損失関数を用いて生成子１００が学習（Ｓ１６０）されるようにする。

一方、全ての構成要素を学習するために、媒介変数ごとにアップデート速度を最適に調節する‘Ａｄａｍｏｐｔｉｍｉｚｅｒ’を使用してもよい。

学習政策を生成する段階（Ｓ２００）は、それぞれの反復において、ラベルのあるデータセット（Ｓ_Ｌ）から、無作為（ランダム）にｎ個のステート（Ｓｔａｔｅ）と、ステートに該当するステートの元素が欠測されたか否かを示すｎ個の欠測指標（ｍ_Ｌ）を選択（Ｓ２１０）する。

続いて、ｎ個のステートにあらかじめ設定された値、例えば、‘０’と‘１’間の均等分布から、ランダムノイズ‘Ｚ’（ここでＺ∈［０，１］）に代替したベクトルを選別（Ｓ２２０）し、それが生成子１００に入力されると、生成子１００は、欠測代替値（Ｓ_Ｌ＿ｔ）（Ｓ_Ｌ＿ｔは、Ｓ_Ｌの上にチルダ）と、ステート（Ｓ_Ｌ＿ｂ）（Ｓ_Ｌ＿ｂは、Ｓ_Ｌの上にバー）と、欠測代替値（Ｓ_Ｌ＿ｈ）を計算（Ｓ２３０）する。

ここで、Ｓ_Ｌ＿ｔは、ノイズ‘Ｚ’に代替された欠測代替値であり、Ｓ_Ｌ＿ｂは、生成子１００によって生成されたステートを表し、Ｓ_Ｌ＿ｈは、生成子によって生成された値に代替された欠測代替値である。

Ｓ２３０段階において、生成子１００は、ランダムノイズ‘Ｚ’に代替された欠測代替値（Ｓ_Ｌ＿ｔ）からなるベクトルを入力として受けて計算するが、下記の式によって入力として受ける。

また、生成子１００は、Ｓ_Ｌ＿ｂ＝Ｇ（Ｓ_Ｌ＿ｔ）によってＳ_Ｌ＿ｂ∈Ｒ^ｄを計算してステート（Ｓ_Ｌ＿ｂ）を生成する。

また、生成子１００は、生成されたステート（Ｓ_Ｌ＿ｂ）に代替された欠測代替値からなるベクトルである欠測代替値（Ｓ_Ｌ＿ｈ）を計算するが、下記の式によって計算され得る。

続いて、アクター４００は、生成された欠測代替値（Ｓ_Ｌ＿ｈ）が政策ａ＝π（Ｓ_Ｌ＿ｈ）によってアクションを行う確率値を予測（Ｓ２４０）する。

この時、加重値関数部５００は、加重値関数を用いてステート、アクション及びラベルに対するリワードの加重値を下記の式によって生成（Ｓ２５０）する。

また、Ｓ２５０段階において、加重値関数部５００は、ステートから得られるリワードの加重値として、ラベルのあるデータセットからラベルの頻度数に基づいて、ステート、アクション及びラベルに対するリワードの加重値を反映できる。

この時、ラベル頻度数は下記の式に近似できる。

続いて、Ｓ２５０段階で生成された加重値は、下記の式を用いた指導政策損失関数４１によって学習（Ｓ２６０）する。

（第２実施例）

図７は、本発明の第２実施例による生成的敵対神経網ベースの分類システムの構成を示すブロック図であり、図８は、本発明の第２実施例による生成的敵対神経網ベースの分類方法を示すフローチャートであり、図９は、図８による生成的敵対神経網ベースの分類方法の非ラベルデータの分類学習過程を示すフローチャートである。

図７～図９を参照すると、生成的敵対神経網ベースの分類システムは、生成子（Ｇｅｎｅｒａｔｏｒ）１００ａと、判別子（Ｄｉｓｃｒｉｍｉｎａｔｏｒ）２００ａと、アクター（Ａｃｔｏｒ）４００ａと、加重値関数部（ＷｅｉｇｈｔｅｄＦｕｎｃｔｉｏｎ）５００ａと、リワード部（Ｒｅｗａｒｄ）６００ａを含んで構成される。

生成子１００ａ及び判別子２００ａは、競合構造にあるネットワークである生成的敵対神経網（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ；ＧＡＮ）を用いて、生成子１００は原本データの分布を見て判別子２００ａをだます欠測データの生成のための学習を行い、判別子２００ａは、どのデータが生成子１００ａによって生成されたデータかを分別する学習を行う。

また、生成子１００ａは、原本データの分布を参照して、判別子２００ａをだます欠測データの生成のための学習を行う。

また、生成子１００ａは、ラベルのあるラベルデータセット（Ｓ_Ｌ）を用いたり、又はラベルのない非ラベルデータセット（Ｓ_Ｕ）を用いることができる。

ここで、Ｌは、ステートにラベルのあるデータセットであり、Ｕは、ステートにラベルのないデータセットを意味し、外部端末から任意のデータセットが入力されてもよい。

また、生成子１００ａは、前処理過程として、ラベルのあるデータセット（Ｓ_Ｌ）又はラベルのないデータセット（Ｓ_Ｕ）から欠測代替値を生成するための学習過程を行ってもよい。

また、生成子１００ａは、前処理過程として、ラベルのあるラベルデータセットではなくラベルのない非ラベルデータセットから欠測代替値を生成するための学習過程を行ってもよい。

また、生成子１００ａは、欠測代替値の生成のための入力として、データセット１０ａからｎ個のステート（Ｓｔａｔｅ）と、ｎ個のステートに該当するステートの元素が欠測されたか否かを示すｎ個の欠測指標２０ａを選択する。

欠測指標２０ａも、ラベルのあるラベルデータセット（Ｓ_Ｌ）及びラベルのない非ラベルデータセット（Ｓ_Ｕ）と同様に、ラベルのあるラベルデータセット（Ｓ_Ｌ）はＭ_Ｌに、ラベルのない非ラベルデータセット（Ｓ_Ｕ）はＭ_Ｕに分類され得る。

また、データセット１０ａは、Ｓ_１，Ｓ_２，Ｓ_３，‥，Ｓ_ｎ∈Ｒ^ｄからなるｎ個のステートを含み、ここで、ｄは、ステート特徴（ｆｅａｔｕｒｅ）である。

また、ステートｉが持つｊ番目元素はＳ_ｉ ^ｊと表現し、ここで、ｊはｄまでの定数であり、Ｓ_ｉ ^ｊは、スカラー又は欠測値を有する。

また、データセット１０ａは、ラベルのあるデータ及びラベリングされていないデータのうち少なくとも一つのデータで構成され得る。

また、欠測指標２０ａは、ステートの元素が欠測されたか否かを示すための指標であり、ｍ_１，ｍ_２，ｍ_３，‥，ｍ_ｎ∈Ｒ^ｄを使用し、この時、ｍ_ｉ ^ｊは、Ｓ_ｉ ^ｊが欠測データを有すれば欠測指標値２２は‘０’、そうでなければ欠測指標値２１は‘１’と表示される。

また、生成子１００ａは、ｎ個のステートから任意の元素１１に対して無作為（ランダム）に選別された欠測元素１２にあらかじめ設定された値、例えば、‘０’と‘１’間の均等分布からランダムノイズ‘Ｚ’に代替された欠測代替値（Ｓ＿ｔ）を入力として受けて計算する。

この時、欠測代替値（Ｓ＿ｔ）を下記の式によって入力として受ける。

ここで、ｍは、ステートｓに該当する欠測指標のベクトルであり、ｚは、‘０’と‘１’間の均等分布からランダムに選別されたノイズのベクトルであり、要素別積で示すことができる。

また、生成子１００ａは、欠測代替値（Ｓ＿ｔ）を用いて生成された元素のベクトルからなるステート（Ｓ＿ｂ）を出力する。

また、生成子１００ａは、ステート（Ｓ＿ｂ）に代替された欠測代替値（Ｓ＿ｈ）を生成して出力する。

この時、生成子１００ａの出力により、下記の式による欠測代替値（Ｓ＿ｈ）に該当するデータを判別子２００ａの学習のために利用可能にする。

判別子２００ａは、生成子１００ａが生成した欠測代替値（Ｓ＿ｈ）と原本データを区分する構成であり、判別子２００ａが出力したものの各元素が欠測（ｆａｋｅ）か否か（ｒｅａｌ）を区分し、結果的に、ｍは、Ｓ＿ｈのためのラベルとして用いられ得る。

また、判別子２００ａは、関数を用いて、ステートＳ＿ｈのｉ番目元素が欠測データでない確率に該当する判別子２００ａのｉ番目出力をＳ→［０，１］^ｄと示すことができる。

また、判別子２００ａは、出力を判別子出力指標３０によってＤ_１，Ｄ_２，Ｄ_３，‥，Ｄ_ｄと示すことができる。

一方、生成子１００ａ及び判別子２００ａは損失関数によって学習され得るが、生成子１００ａの学習のための生成子損失関数は、下記の式の通りであり得る。

また、二番目の項は、原本データ分布を用いて生成子１００ａで生成された欠測データを原本データに近似するように変換する再構成損失（ｒｅｃｏｎｓｔｒｕｃｔｉｏｎｌｏｓｓ）４０ａであり、ここで、λはスケールファクター（ｓｃａｌｅｆａｃｔｏｒ）である。

また、判別子２００ａの学習のための判別子損失関数は、下記の式の通りであり得る。

アクター４００ａは、生成子１００ａによって生成された欠測代替値からなるベクトルを政策（Ｐｏｌｉｃｙ）を用いてラベルのあるデータセットからアクション（Ａｃｔｉｏｎ）を行う確率を予測する。

また、アクター４００ａは、強化学習においてよく知られた意思決定フレームワークである‘Ａｃｔｏｒ－ｃｒｉｔｉｃ’アーキテクチャーの構成要素であり得る。

また、アクター４００ａは、与えられたステートのラベルを生成することができる。

また、アクター４００ａは、ステートを入力として受け、与えられたアクション（Ａｃｔｉｏｎ）をする確率を出力し、‘Ａｃｔｏｒ－ｃｒｉｔｉｃ’を用いて政策（Ｐｏｌｉｃｙ）πを学習するために、政策損失関数（Ｐｏｌｉｃｙｌｏｓｓｆｕｎｃｔｉｏｎ）は下記の式のように定義され得る。

ここで、Χ（Ｓ＿ｈ，ａ）は、与えられたステートから予測されたアクションが良いか又は悪いかを決定するクリティック（Ｃｒｉｔｉｃ）から評価される関数である。

上記の政策損失関数は、アクションが決定されていない一般形態であり、アクター４００ａは、正確なアクション及び不正確なアクションの両方から学習される必要がある。

しかし、Χ（Ｓ＿ｈ，ａ）の推定値が悪い場合、その政策損失関数は、誤った方向に最適化をすることになり、その結果、徐々に収斂したり又は発散してしまうことがある。

したがって、本発明の実施例によるアクター４００ａは、政策損失関数４１ａを不正確なアクションから学習される場合を省略し、与えられた正確なラベルだけを利用できるように、下記の式と定義され得る。

また、全てのステート、アクション、ラベルに対して加重値関数が‘１’である場合、Ｌ_Ｌは分類損失加重値と完全に同一になる。

また、アクター４００ａは、指導分類のための政策損失関数（Ｌ_Ｌ，４１ａ）が加重値関数部５００ａから生成された加重値を用いて指導政策を学習できる。

また、アクター４００ａは、セミ指導分類（Ｓｅｍｉ－ｓｕｐｅｒｖｉｓｅｄｃｌａｓｓｉｆｉｃａｔｉｏｎ）のためのセミ政策損失関数（Ｌ_Ｕ，４２ａ）がアクター４００ａの政策とリワード部６００ａの出力を反映して政策を学習できる。

すなわち、セミ指導分類は、ラベルのないデータセットを活用してアクター４００ａのアクション（ａ）とリワード部６００ａの出力間の協力によって生成子の役割を担うアクター４００ａの政策は、与えられたステートのラベルを生成し、判別子の役割を担うリワード部６００ａは、各ステート－アクション（Ｓ＿ｈ，ａ）対がラベルデータセットであるか否かを決定するようにする。

また、セミ政策損失関数（Ｌ_Ｕ，４２ａ）は、ラベルのないデータセット（Ｓ_Ｕ）を活用するために、リワード部６００ａの出力とアクター４００ａの政策が共に動作され得る。

セミ政策損失関数（Ｌ_Ｕ）は、下記の式と定義され得る。

ここで、セミ政策損失関数（Ｌ_Ｕ）は、政策損失（ｐｏｌｉｃｙｌｏｓｓ）から得られ、Χ（Ｓ＿ｈ，ａ）は、次のように定義されるリワード部６００ａのリワードであるｒ（Ｓ_Ｕ＿ｈ，ａ）に代替され得る。

また、ｒ（Ｓ_Ｕ＿ｈ，ａ）は、下記の式のように定義され得る。

ここで、Ｒ（Ｓ_Ｌ＿ｈ，ａ）は、（Ｓ＿ｈ，ａ）対がラベルデータセットにあるラベルか否かに対する確率値であり、ε∈［０，１］は、ステート－アクション対がラベルデータセット中に含まれる可能性があるか否かを考慮した臨界値である。

加重値関数部５００ａは、ステートＳ＿ｈから得られるリワードの加重値であり、ラベルのあるデータセット（Ｓ_Ｌ）からラベルの頻度数に基づいてステート、アクション、ラベルに対するリワードの加重値を生成する。

ここで、加重値関数部５００ａが、Ｋ個のラベルがある（ｋ＝０，１，…，Ｋ－１）ラベルのあるデータセットＳ_Ｌを持っていると仮定すれば、Ｋ番目ラベルの頻度数は、下記の式に近似され得る。

ここで、ｂは、ログに基づく（ｂ＝ｅ，１０，…）。

したがって、ラベルの頻度数が相対的に小さい少数のラベル（ｍｉｎｏｒｉｔｙｌａｂｌｅ）に対して高いリワードの加重値を与え、ラベルの頻度数が相対的に大きい（高い）多数のラベル（ｍａｊｏｒｉｔｙｌａｂｌｅ）にはより低いリワードの加重値を与えることによって、ラベル間の均衡が取れるように動作できる。

また、加重値関数部５００ａは、各クラスに対する加重値関数、すなわちステート、アクション及びラベルに対するリワードの加重値を、下記の式と定義することができる。

リワード部６００ａは、ラベルのあるデータセット（Ｓ_Ｌ）にあるステート－アクション（Ｓ＿ｈ，ａ）対があるか否か決定し、ラベルのないデータセットに対するアクター４００ａの政策を学習させるようにリワードを提供する構成である。

また、リワード部６００ａは、ラベルデータセットにあるステート－アクション（Ｓ＿ｈ，ａ）対に対する確率値に対してリワードを提供するリワードモデルからなり得る。

また、リワードモデルは、ラベルデータセットにあるステート－アクション（Ｓ＿ｈ，ａ）対のラベルであるか否かに対する確率値を出力する関数であり、Ｒ：Ｓ×Ａ→［０，１］であり得る。

各ステート－アクション（Ｓ＿ｈ，ａ）対に対するラベルは、下記の式のように定義され得る。

ここで、ｍはステートの欠測指標であり、ｙは、ステートのラベルであり、ａは、与えられたステートに対してアクターの政策が予測したアクションである。

また、リワード部６００ａは、ステート－アクション（Ｓ＿ｈ，ａ）対がラベルのあるデータセットにあるラベルであれば、確率値が最大化するようにしてリワード部６００のリワード（ｒ（Ｓ_Ｕ＿ｈ，ａ））として提供し、ステート－アクション（Ｓ＿ｈ，ａ）対がラベルのあるデータセットにないラベルであれば、確率値が最小化するようにしてリワード部６００ａのリワード（ｒ（Ｓ_Ｕ＿ｈ，ａ））として提供し、前記リワード部６００ａは、リワードモデル損失関数（Ｌ_ｒｅｗ，６１ａ）を用いて学習され得る。

また、リワードモデル損失関数（Ｌ_ｒｅｗ，６１ａ）は、２つの部分を構成できるが、ステート－アクション（Ｓ_Ｌ＿ｈ，ａ）対がラベルのあるデータセットにあるラベルであれば、確率値が最大化するように学習し、ステート－アクション（Ｓ_Ｌ＿ｈ，ａ）対がラベルのあるデータセットにないラベルであれば、確率値が最小化するように学習する。

この時、下記の式のように定義され得る。

次に、本発明の第２実施例による生成的敵対神経網ベースの指導分類及び学習方法を説明する。

学習手順は、欠測代替値を生成する段階（Ｓ１００’）と、ラルのあるデータセットを用いた学習過程（Ｓ２００’）及びラベルのないデータセットを用いた学習過程（Ｓ３００）段階を含む学習政策を生成する段階とで構成され得る。

そして、各段階Ｓ１００’、Ｓ２００’及びＳ３００は、データセットを様々なエポック（ｅｐｏｃｈ）によって反復しながらアップデートできるが、データセットを１回巡回することを１エポック（ｅｐｏｃｈ）という。

また、生成子１００ａと、判別子２００ａと、アクター４００ａと、加重値関数部５００ａと、リワード部６００ａとで構成された生成的敵対神経網（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ；ＧＡＮ）を用いることができる。

まず、欠測代替値を生成するＳ１００’段階及びＳ２００’段階は、ラベルのあるラベルデータセットを用いて学習政策を行う段階であり、生成子１００ａと判別子２００ａは、第１実施例によるＳ１００段階及びＳ２００段階と同一に動作し、同一の構成要素に対する反復説明は省略する。

ラベルのない非ラベルデータセット（Ｓ_Ｕ）から学習政策を生成する段階（Ｓ３００）は、ラベルのないデータセット（Ｓ_Ｕ）から無作為（ランダム）にｎ個のステート（Ｓｔａｔｅ）と、ステートに該当するステートの元素が欠測されたか否かを示すｎ個の欠測指標（ｍＵ）を選択（Ｓ３１０）する。

続いて、ｎ個のステートにあらかじめ設定された値、例えば、‘０’と‘１’間の均等分布から、ランダムノイズ‘Ｚ’（ここで、Ｚ∈［０，１］）に代替したベクトルを選別（Ｓ３２０）し、これが生成子１００ａに入力されると、生成子１００ａは、欠測代替値（Ｓ_Ｕ＿ｔ）（Ｓ_Ｕ＿ｔは、Ｓ_Ｕの上にチルダ）と、ステート（Ｓ_Ｕ＿ｂ）（Ｓ_Ｕ＿ｂは、Ｓ_Ｕの上にバー）と、欠測データ、すなわち、欠測代替値（Ｓ_Ｕ＿ｈ）を計算（Ｓ３３０）する。

ここで、Ｓ_Ｕ＿ｔは、ノイズ‘Ｚ’に代替された欠測代替値であり、Ｓ_Ｕ＿ｂは、生成子１００ａによって生成されたステートを示し、Ｓ_Ｕ＿ｈは、生成子によって生成された値に代替された欠測代替値である。

Ｓ３３０段階において、生成子１００ａは、ランダムノイズ‘Ｚ’に代替された欠測代替値（Ｓ_Ｕ＿ｔ）からなるベクトルを入力として受けて計算するが、下記の式によって入力として受ける。

また、生成子１００ａは、Ｓ_Ｕ＿ｂ＝Ｇ（Ｓ_Ｕ＿ｔ）によってＳ_Ｕ＿ｂ∈Ｒ^ｄを計算してステート（Ｓ_Ｕ＿ｂ）を生成する。

また、生成子１００ａは、生成されたステート（Ｓ_Ｕ＿ｂ）に代替された欠測代替値（Ｓ_Ｕ＿ｈ）を計算するが、欠測代替値（Ｓ_Ｕ＿ｈ）は下記の式によって計算され得る。

続いて、リワード部６００ａは、ラベルのあるデータセットに対するステート－アクション（Ｓ＿ｈ，ａ）対に対する確率値としてリワード部６００ａのリワードを提供し、前記リワード部６００ａは、リワードモデル損失関数（Ｌ_ｒｅｗ）を用いて学習する段階を行う（Ｓ３４０）。

また、前記リワード部６００ａは、リワードモデルからなり得、前記リワードモデルは、ラベルデータセットにあるステート－アクション（Ｓ＿ｈ，ａ）対に対する確率を出力する関数であり、Ｒ：Ｓ×Ａ→［０，１］であり得る。

また、各ステート－アクション（Ｓ＿ｈ，ａ）対に対するラベルは、下記の式と定義され得る。

ここで、ｍは、ステートの欠測指標であり、ｙは、ステートのラベルであり、ａは、与えられたステートに対してアクターの政策が予測したアクションである。

リワードモデル損失関数（Ｌ_ｒｅｗ）は、ステート－アクション（Ｓ_Ｌ＿ｈ，ａ）対がラベルのあるデータセットにあるラベルであれば、確率値が最大化するように学習する。

また、リワードモデル損失関数（Ｌ_ｒｅｗ）は、ステート－アクション（Ｓ_Ｌ＿ｈ，ａ）対がラベルのあるデータセットにないラベルであれば、確率値が最小化するように学習する。

この時、リワードモデル損失関数（Ｌ_ｒｅｗ）は、下記の式を用いて学習する。

その後、アクター４００ａで生成された欠測代替値（Ｓ_Ｌ＿ｈ）と政策（Ｐｏｌｉｃｙ）を用いてアクションを行う確率ａ＝π（Ｓ_Ｕ＿ｈ）を予測する過程を行う（Ｓ３５０）。

Ｓ３４０段階で提供されるリワードモデルのリワードとＳ３５０段階で予測したアクションの予測結果は、アクター４００ａが、下記の式を用いたセミ政策損失関数（Ｌ_Ｕ）を用いてセミ政策損失関数４２ａで最適化するように政策を学習（Ｓ３６０）することができる。

ここで、ｒ（Ｓ_Ｕ＿ｈ，ａ）は、リワード部６００ａでリワードモデル関数に対するリワードである。

ここで、Ｒ（Ｓ_Ｌ＿ｈ，ａ）は、リワード部が出力するラベルデータセット（Ｓ＿ｈ，ａ）対が、ラベルのあるラベルデータセットのラベルか或いはアクターが生成したラベルかに対する確率値であり、ε∈［０，１］は、ステート－アクション対がラベルデータセット中に含まれる可能性があるか否かを考慮した臨界値である。

図１０は、ＵＣＩ（ＵｎｉｖｅｒｓｉｔｙｏｆＣａｌｉｆｏｒｎｉａ）が公開した、２２％詐欺取引を含む実際のクレジットカード取引データを用いた実験のデータであり、データを０．７テストセットと０．３テストセットの割合で進行した結果である。

ここで、全体データセットは、１０％、２０％、３０％、４０％、５０％の欠測率で欠測程度を示すように仮定され、データは、ゼロ－平均正規化を適用して前処理された。

図１０から確認できるように、多数の欠測率を用いた生成子と判別子の性能は、平均平方根誤差指標によって１０回以上平均化して単純に欠測代替値を平均で満たすよりは、生成子を学習して欠測代替値を生成することが、元来の値にさらに類似して現れることが分かる。

また、欠測率が増加するにつれてＧＡＮの効果も共に増加することが分かる。

また、図１１は、学習過程中に生成された値の分布を示すグラフである。

図１１から確認できるように、学習過程中に生成された値の分布が、図１１（ａ）の０エポック（ｅｐｏｃｈ）と、図１１（ｂ）の１エポック後の分布と対比して、図１１（ｃ）の１０エポック後に生成された値の分布を元来値の分布と比較すると、より類似に現れることが分かる。

また、図１２は、プラグイン要素があるものとないものの性能を示す例示図であり、Ｆ１－ｓｃｏｒｅを用いて他のｓｔａｔｅ－ｏｆ－ａｒｔ模型と本発明に係るフレームワークとを比較したものである。

ここで、ＧＡＮ、加重値関数、リワードモデルを順次に具現することによって、それぞれ、２．２％、４．４％、及び１．０４％の性能が向上したことが分かる。

この加重値関数は性能に最も大きい影響を与え、これは、加重値関数を用いて学習するとき、政策（Ｐｏｌｉｃｙ）が少数クラスに一層多い加重値を与えて学習するためである。

結果的に、より良いリコール点数を有し、これは、より良いＦ１点数が得られるようにする。

また、リワードモデルは、εを調節すれば、フレームワークの性能を向上させるのに役立つことができる。

また、εは、ラベルのないデータからどれくらいの情報を政策アップデートに利用するかを制限し、高い値を有するほど、ラベルのないデータ使用をより厳しく管理する。

図１３は、ラベルデータ比率と欠測率による性能比較を示すグラフである。

図１３は、ＵＬＢから得た０．１７２％の詐欺比率を持つ非常に不均衡なクレジットカードデータセットを用いた評価結果であり、評価結果はＦ１－ｓｃｏｒｅ指標によって測定された。

図１３（ａ）から分かるように、同数のラベルデータを用いると、本発明に係るフレームワークが既存のｍｌｐベースの分類機に比べてより良い性能を出すことが分かる。

また、ｍｌｐベースの分類機は、欠測率が増加したとき、Ｆ１－ｓｃｏｒｅがより速く減少することが見られるが、これは、本発明のフレームワークが欠測値を扱うにおいてより良いフレームワークであるといえよう。

また、２つのフレームワークがラベルデータを十分に含んでいるとき、両者の性能差は縮まり得る。

例えば、５０％のラベルデータのみを含む場合、本発明に係るフレームワークの性能は、完全なラベルデータセットを用いる場合に類似する性能を示すことが分かる。

また、図１３（ｂ）のプロットは、ラベルデータの量によるリワードモデルの出力を示すものであり、ラベルデータが多いほど、より速く一つの値に収斂することが分かる。

以上、本発明の好ましい実施例を参照して説明したが、当該技術の分野における熟練した当業者であれば、添付する特許請求の範囲に記載された本発明の思想及び領域から逸脱しない範囲内で本発明を様々に修正及び変更可能であることが理解できよう。

また、本発明の特許請求の範囲に記載されている図面番号は、説明の明瞭性と便宜のために記載しただけで、これに限定されるものではなく、実施例を説明する過程で図面に示す線の太さや構成要素の大きさなどは、説明の明瞭性と便宜のために誇張して示されていてもよく、上述した用語は本発明における機能を考慮して定義された用語であり、これは使用者、運用者の意図又は慣例によって変わり得るので、このような用語に対する解釈は本明細書全般における内容に基づいて下されるべきであろう。

Claims

ラベルのあるデータセットから、ステートのうち欠測された部分に対して欠測代替値を生成する生成子（１００）；
前記生成子（１００）が生成した欠測代替値と原本データとを区分する判別子（２００）；
前記生成子（１００）によって生成された欠測代替値を用いて、政策によってアクション（Ａｃｔｉｏｎ）を予測するアクター（４００）；及び
前記欠測代替値に代替されたステート、前記予測されたアクション及び前記ラベルのあるデータセットのラベルに基づいて、リワードの加重値を生成する加重値関数部（５００）；を含み、
前記加重値関数部（５００）は、頻度数が相対的に小さいラベルにはリワードの加重値が増加するようにし、頻度数が相対的に大きいラベルにはリワードの加重値が低くなるようにして、ラベル間の均衡が取れるように動作し、
前記アクター（４００）は、前記予測されたアクションと加重値関数部（５００）で生成されたリワードの加重値を反映して、政策損失関数（４１）が最適化するように前記政策を学習することを特徴とする、生成的敵対神経網ベースの分類システム。
前記リワードの加重値は、下記の式

（ここで、ｒ（Ｓ＿ｈ）（Ｓ＿ｈはＳの上にハット）は、ステートＳ＿ｈから得られるリワードであり、ａは、与えられたステートに対する政策πが予測したアクションであり、ｙはステートのラベルであり、ω_ｙとω_ａは、ω_ｋ＝１－ｌｏｇ_ｂφ_ｋ（ｂは、ログに基づくｅ，１０…）に基づく加重係数である）と定義されることを特徴とする、請求項１に記載の生成的敵対神経網ベースの分類システム。
前記加重値関数部（５００）は、頻度数が相対的に小さいラベルにはリワードの加重値が増加するようにし、頻度数が相対的に大きいラベルにはリワードの加重値が低くなるようにして、ラベル間の均衡が取れるように動作し、
前記ラベルの頻度数は、下記の式

（ここで、ｎ_ｋは、ｋ番目ラベルのサンプル数であり、φ_ｋは、（０，１）の範囲に含まれる）に近似され、
前記アクター（４００）は、前記予測されたアクションと加重値関数部（５００）で生成されたリワードの加重値を反映して、政策損失関数（４１）が最適化するように前記政策を学習することを特徴とする、請求項１に記載の生成的敵対神経網ベースの分類システム。
前記加重値関数部（５００）は、頻度数が相対的に小さいラベルにはリワードの加重値が増加するようにし、頻度数が相対的に大きいラベルにはリワードの加重値が低くなるようにして、ラベル間の均衡が取れるように動作し、
前記アクター（４００）は、前記予測されたアクションと加重値関数部（５００）で生成されたリワードの加重値を反映して、政策損失関数（４１）が最適化するように前記政策を学習し、
前記政策の学習は、下記の式

（ここで、ｙは、ステートのラベルであり、ａは、与えられたステートに対する政策πが予測したアクションであり、Ｗ（Ｓ＿ｈ，ａ，ｙ）は、ステート、アクション及びラベルに対するリワードの加重値である）を用いることを特徴とする、請求項１に記載の生成的敵対神経網ベースの分類システム。
生成子（１００）と、判別子（２００）と、アクター（４００）と加重値関数部（５００）で構成された生成的敵対神経網（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ；ＧＡＮ）を用いた生成的敵対神経網ベースの分類方法であって、
ａ）生成子（１００）が、ラベルのあるデータセット１０から、ステートのうち欠測された部分に対して欠測代替値を生成する段階；
ｂ）アクター（４００）が、前記生成子（１００）によって生成された欠測代替値を用いて、政策によってアクション（Ａｃｔｉｏｎ）を予測する段階；
ｃ）加重値関数部（５００）が、前記欠測代替値に代替されたステート、前記予測されたアクション及び前記ラベルのあるデータセットのラベルに基づいて、リワードの加重値を生成する段階；及び
ｄ）前記アクター（４００）が、前記予測されたアクションと、加重値関数部（５００）で生成されたリワードの加重値を反映して、政策損失関数（４１）が最適化するように前記政策を学習する段階を含み、
前記ｃ）段階において、前記加重値関数部（５００）は、頻度数が相対的に小さいラベルにはリワードの加重値が増加するようにし、頻度数が相対的に大きいラベルにはリワードの加重値が低くなるようにして、ラベル間の均衡が取れるように動作することを特徴とする、生成的敵対神経網ベースの分類方法。
前記ａ）段階は、ｉ）前記生成子（１００）が、ラベルのあるデータセット１０から、欠測値のあるステート（Ｓｔａｔｅ）と、前記ステートに該当するステートの元素が欠測されたか否かを示す欠測指標（ｍ）を選択する段階；及び
ｉｉ）前記生成子（１００）が、前記ステートに‘０’と‘１’間の均等分布から、ランダムノイズに代替された欠測代替値）（Ｓ＿ｔ）（Ｓ＿ｔはＳの上にチルダ）を用いて欠測代替値（Ｓ＿ｈ）を生成し、前記生成された欠測代替値（Ｓ＿ｈ）を用いて生成子（１００）と判別子（２００）を学習する前処理段階；をさらに含むことを特徴とする、請求項５に記載の生成的敵対神経網ベースの分類方法。
前記ｃ）段階の加重値関数部（５００）は、頻度数が相対的に小さいラベルにはリワードの加重値が増加するようにし、頻度数が相対的に大きいラベルにはリワードの加重値が低くなるようにして、ラベル間の均衡が取れるように動作し、
前記ラベルの頻度数は、下記の式

（ここで、ｎ_ｋはｋ番目ラベルのサンプル数であり、φ_ｋは、（０，１）の範囲に含まれる）に近似され、
前記リワードの加重値は、下記の式

（ここで、ｒ（Ｓ＿ｈ）は、ステートＳ＿ｈから得られるリワードであり、ａは、与えられたステートに対する政策πが予測したアクションであり、ｙは、ステートのラベルであり、ω_ｙとω_ａは、ω_ｋ＝１－ｌｏｇ_ｂφ_ｋ（ｂは、ログに基づくｅ，１０…）に基づく加重係数である）と定義されることを特徴とする、請求項５に記載の生成的敵対神経網ベースの分類方法。
前記ｃ）段階の加重値関数部（５００）は、頻度数が相対的に小さいラベルにはリワードの加重値が増加するようにし、頻度数が相対的に大きいラベルにはリワードの加重値が低くなるようにして、ラベル間の均衡が取れるように動作することを特徴とする、請求項５に記載の生成的敵対神経網ベースの分類方法。
前記ｄ）段階は、政策の学習を下記の式

（ここで、ｙは、ステートのラベルであり、ａは、与えられたステートに対する政策πが予測したアクションであり、Ｗ（Ｓ＿ｈ，ａ，ｙ）は、ステート、アクション及びラベルに対するリワードの加重値である）を用いて学習することを特徴とする、請求項５に記載の生成的敵対神経網ベースの分類方法。
ラベルのあるデータセット（Ｓ_Ｌ）又はラベルのないデータセット（Ｓ_Ｕ）から、ステートのうち欠測された部分に対して欠測代替値を生成する生成子（１００ａ）；
前記生成子（１００ａ）が生成した欠測代替値と原本データとを区分する判別子（２００ａ）；
前記生成子（１００ａ）によって生成された欠測代替値を用いて、政策によってアクション（Ａｃｔｉｏｎ）を予測するアクター（４００ａ）；
前記欠測代替値に代替されたステート、前記予測されたアクション及び前記ラベルのあるデータセットのラベルに基づいて、リワードの加重値を生成する加重値関数部（５００ａ）；及び
前記ラベルのあるデータセットと、ラベルのないデータセットを対象にアクター（４００ａ）の政策が学習されるようにリワードを提供するリワード部（６００ａ）；を含み、
前記アクター（４００ａ）は、前記予測されたアクションと、加重値関数部（５００ａ）から生成されたリワードの加重値を反映して、政策損失関数（４１ａ）が最適化するように前記政策を学習し、且つ前記予測されたアクションと、リワード部（６００ａ）のリワードに基づいてセミ指導政策損失関数（４２ａ）が最適化するように前記政策を学習し、
前記リワード部（６００ａ）のリワードは、下記の式

（ここで、Ｒ（Ｓ_Ｌ＿ｈ，ａ）（Ｓ_Ｌ＿ｈは、Ｓ_Ｌの上にハット）は、リワード部が出力するラベルデータセット（Ｓ＿ｈ，ａ）対が、ラベルのあるラベルデータセットのラベルか或いはアクターが生成したラベルかに対する確率値であり、ε∈［０，１］は、ステート－アクション対がラベルデータセット中に含まれる可能性があるか否かを考慮した臨界値である）と定義されることを特徴とする、生成的敵対神経網ベースの分類システム。
生成子（１００ａ）と、判別子（２００ａ）と、アクター（４００ａ）と加重値関数部（５００ａ）と、リワード部（６００ａ）で構成された生成的敵対神経網（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ；ＧＡＮ）を用いた生成的敵対神経網ベースの分類方法であって、
ａ）生成子（１００ａ）が、ラベルのあるデータセット（Ｓ_Ｌ）から、ステートのうち欠測された部分に対して欠測代替値を生成する段階；
ｂ）アクター（４００ａ）が、前記生成子（１００ａ）によって生成された欠測代替値を用いて、政策によってアクション（Ａｃｔｉｏｎ）を予測する段階；
ｃ）加重値関数部（５００ａ）が、前記欠測代替値に代替されたステート、前記予測されたアクション及び前記ラベルのあるデータセットのラベルに基づいて、リワードの加重値を生成する段階；及び
ｄ）前記アクター（４００ａ）が、前記予測されたアクションと、加重値関数部（５００ａ）から生成されたリワードの加重値を反映して、政策損失関数（４１ａ）が最適化するように前記政策を学習する段階；を含み、
前記ａ）段階において、ラベルのないデータセット（Ｓ_Ｕ）があれば、
ａ－１）前記生成子（１００ａ）が、ラベルのないデータセット（Ｓ_Ｕ）から、ステートのうち欠測された部分に対して欠測代替値（Ｓ_Ｕ＿ｈ）（Ｓ_Ｕ＿ｈは、Ｓ_Ｕの上にハット）を生成する段階；
ｂ－１）前記アクター（４００ａ）が、生成された欠測代替値（Ｓ_Ｕ＿ｈ）を用いて、政策によってアクション（Ａｃｔｉｏｎ）を予測する段階；
ｃ－１）リワード部（６００ａ）が、前記ラベルのあるデータセットとラベルのないデータセットを対象にアクター（４００ａ）の政策が学習されるようにリワードを提供する段階；及び
ｄ－１）前記アクター（４００ａ）が、前記予測されたアクションと、前記リワード部（６００ａ）のリワードに基づいて、セミ指導政策損失関数（４２ａ）が最適化するように前記政策を学習する段階をさらに含み、
前記リワード部（６００ａ）のリワードは、下記の式

（ここで、Ｒ（Ｓ_Ｌ＿ｈ，ａ）は、リワード部が出力するラベルデータセット（Ｓ＿ｈ，ａ）対がラベルのあるラベルデータセットのラベルか或いはアクターが生成したラベルかに対する確率値であり、ε∈［０，１］は、ステート－アクション対がラベルデータセット中に含まれる可能性があるか否かを考慮した臨界値である）と定義されることを特徴とする、生成的敵対神経網ベースの分類方法。