JP7471408B2

JP7471408B2 - 機械学習技術における予測精度を向上させるための最適な重みの特定

Info

Publication number: JP7471408B2
Application number: JP2022525521A
Authority: JP
Inventors: シュウ、ジン; エアハン、シー; バービー、スティーブン、ジョージ; インツァン、シゥ; フイヤン、ジ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-11-14
Filing date: 2020-11-10
Publication date: 2024-04-19
Anticipated expiration: 2040-11-10
Also published as: CN114616577A; US11443235B2; KR20220066163A; GB2603445A; DE112020005610T5; AU2020385049A1; US20210150407A1; US20220292401A1; WO2021094923A1; GB202207662D0; AU2020385049B2; JP2023501257A

Description

本発明は、一般に、予測モデリングに関し、より詳細には、機械学習技術における予測精度を向上させるための最適な重みを特定することに関する。

予測モデリングは、統計学を用いて結果を予測する。多くの場合、予測したい事象は将来のことであるが、予測モデリングは、あらゆる種類の未知の事象に、それがいつ発生したかにかかわらず適用することができる。例えば、予測モデルは、事象が発生した後に、その事象を検出して、その事象に関連する人物を特定するためにしばしば使用される。

多くの場合、検出理論に基づいてモデルが選択され、例えば、ある電子メールが与えられた場合に、それがどれくらいスパムである可能性があるかを判定するといったように、ある設定された量の入力データが与えられた場合に結果の確率を推測しようとする。

モデルは、データのセットが別のセットに属する確率を決定しようとする際に、１つまたは複数の分類器を使用することができる。例えば、モデルを使用して、電子メールがスパムであるか、または「ハム（ham）」（非スパム）であるかを判定することができる。

定義上の境界にもよるが、予測モデリングは、学術的または研究開発の文脈においてより一般的に呼ばれる機械学習の分野と同義であり、または大部分が重複している。商業的に展開される場合、予測モデリングは、しばしば予測分析と呼ばれる。

より優れた予測モデルを達成することが機械学習技術の研究および実践における目的である。例えば、アンサンブル法は、複数の学習アルゴリズムを用いて、構成する学習アルゴリズムのいずれか単独から得ることができるよりも優れた予測性能を得る。このようなアンサンブル法には、ブートストラップ・アグリゲーティング（bootstrap aggregating）（バギング（bagging）とも呼ばれる）、ブースティングなどが含まれる。

ブートストラップ・アグリゲーティングは、統計的分類および回帰において使用される機械学習アルゴリズムの安定性および精度を向上させるように設計された機械学習アンサンブルのメタアルゴリズムである。ブースティングは、主に教師あり学習における偏りと、さらに分散も低減するための機械学習アンサンブルのメタアルゴリズムであり、弱い学習器を強い学習器に変換する機械学習アルゴリズムのファミリーである。

ブースティングなどのこのような技術では、モデル化プロセス中に、誤って分類されたケースの重みを増加させ、一方、正しく分類されたケースの重みを減少させる。このような戦略（ヒューリスティック）は、多くの場合、より優れた予測を達成するが、外れ値／ノイズを過剰にフィッティングする可能性がある。外れ値／ノイズの過剰フィッティングの結果として、予測精度が低下する。

したがって、誤って分類されたケースの重みを増加させ、正しく分類されたケースの重みを減少させる発見的戦略は、モデルの予測精度を向上させるための最良の戦略ではない可能性がある。

例えば、正しく分類されたケースは、機械学習アルゴリズムが学習すべき非常に重要なパターンを含むため、このようなケースの重みを増加させた方がよい場合がある。同様の理由で、外れ値ケースなどの誤って分類されたケースの重みを減少させた方がよい場合もある。

その結果、ブースティングなどのこのような技術は、分類されたケースに対する最適な重みを特定することができず、したがって、機械学習技術において最適な予測精度を達成することができない。

本発明の一実施形態において、機械学習技術における予測精度を向上させるためのコンピュータ実装方法は、教師モデルを構築することを含み、教師モデルが各データ・ケースに対する重みを生成する。本方法は、訓練データおよび教師モデルによって生成された重みを用いて現在の生徒モデルを訓練することをさらに含む。本方法は、現在の生徒モデルによって状態特徴を生成することをさらに含む。さらに、本方法は、状態特徴を用いて、教師モデルによって新しい重みを生成することを含む。さらに、本方法は、訓練データおよび新しい重みを用いて、候補生徒モデルを訓練することを含む。加えて、本方法は、訓練データおよびテスト・データを用いて、現在の生徒モデルを候補生徒モデルと比較して、どちらが観察されたターゲットを予測するのにより優れているかを判定することによって報酬を生成することを含む。本方法は、停止規則が満たされないことに応答して、教師モデルを報酬で更新することをさらに含む。本方法は、停止規則が満たされたことに応答して、新しい重みおよび現在の生徒モデルをユーザに返すことをさらに含み、返された生徒モデルが観察されたターゲットの予測を提供する。

本発明の別の実施形態では、機械学習技術における予測精度を向上させるための、プログラム・コードが具現化されたコンピュータ可読記憶媒体を備えるコンピュータ・プログラム製品であって、プログラム・コードが教師モデルを構築するためのプログラミング命令を含み、教師モデルが各データ・ケースに対する重みを生成する、コンピュータ・プログラム製品が提供される。プログラム・コードは、訓練データおよび教師モデルによって生成された重みを用いて現在の生徒モデルを訓練するためのプログラミング命令をさらに含む。プログラム・コードは、現在の生徒モデルによって状態特徴を生成するためのプログラミング命令をさらに含む。さらに、プログラム・コードは、状態特徴を用いて、教師モデルによって新しい重みを生成するためのプログラミング命令を含む。さらに、プログラム・コードは、訓練データおよび新しい重みを用いて、候補生徒モデルを訓練するためのプログラミング命令を含む。加えて、プログラム・コードは、訓練データおよびテスト・データを用いて、現在の生徒モデルを候補生徒モデルと比較して、どちらが観察されたターゲットを予測するのにより優れているかを判定することによって報酬を生成するためのプログラミング命令を含む。プログラム・コードは、停止規則が満たされないことに応答して教師モデルを報酬で更新するためのプログラミング命令をさらに含む。プログラム・コードは、停止規則が満たされたことに応答して新しい重みおよび現在の生徒モデルをユーザに返すためのプログラミング命令をさらに含み、返された生徒モデルが観察されたターゲットの予測を提供する。

本発明のさらなる実施形態では、システムは、機械学習技術における予測精度を向上させるためのコンピュータ・プログラムを記憶するためのメモリと、メモリに接続されたプロセッサとを備え、プロセッサは、教師モデルを構築することを含むコンピュータ・プログラムのプログラム命令を実行するように構成され、教師モデルは、各データ・ケースに対する重みを生成する。コンピュータ・プログラムのプログラム命令は、訓練データおよび教師モデルによって生成された重みを用いて現在の生徒モデルを訓練することをさらに含む。コンピュータ・プログラムのプログラム命令は、現在の生徒モデルによって状態特徴を生成することをさらに含む。さらに、コンピュータ・プログラムのプログラム命令は、状態特徴を用いて、教師モデルによって新しい重みを生成することを含む。さらに、コンピュータ・プログラムのプログラム命令は、訓練データおよび新しい重みを用いて、候補生徒モデルを訓練することを含む。加えて、コンピュータ・プログラムのプログラム命令は、訓練データおよびテスト・データを用いて、現在の生徒モデルを候補生徒モデルと比較して、どちらが観察されたターゲットを予測するのにより優れているかを判定することによって報酬を生成することを含む。コンピュータ・プログラムのプログラム命令は、停止規則が満たされないことに応答して、教師モデルを報酬で更新することをさらに含む。コンピュータ・プログラムのプログラム命令は、停止規則が満たされたことに応答して、新しい重みおよび現在の生徒モデルをユーザに返すことをさらに含み、返された生徒モデルが観察されたターゲットの予測を提供する。

このようにして、本発明は、予測モデリングの分野において「学習して教える」という概念を実現するフレームワークを考案している。このようなフレームワークは、教師モデルを含み、教師モデルが各データ・ケースに対する重みを生成する。訓練データ・ケースは、生成された重みと共に、生徒モデルを再訓練するために使用される。報酬は、訓練された生徒モデルを、予測精度に関して、ホールドアウトされた（held-out）データ・セット（テスト・データ）で評価することによって返される。次いで、教師モデルは、報酬を利用して、ポリシー勾配法、例えば強化学習を介してそのパラメータを更新する。このようなプロセスは、生徒モデルが所望の性能を達成するまで繰り返される。

以前に使用された発見的方法（例えば、ブースティング）と比較して、本発明のアプローチは、最適な仕方でケースの重みを決定する。これにより、アンサンブル・モデルを用いるのではなく、基本的な学習器、例えば、決定木、ニューラル・ネットワークなどを介して、より優れた生徒モデルを構築することが可能になる。

生徒モデルに対するアクションとしてケース重みを用いることによって、どのようなタイプの機械学習器でも、その学習器が訓練においてケース重みをサポートするのであれば、生徒モデルとして使用することができる。

さらに、訓練データが偏ったサンプリングからのものである場合、生成された重みによって、訓練データにおけるデータ・ケースの分布を補正することができる。

上記は、以下の本発明の詳細な説明がよりよく理解され得るように、本発明の１つまたは複数の実施形態の特徴および技術的利点をかなり一般的に概説している。本発明の特許請求の範囲の主題を形成し得る本発明のさらなる特徴および利点は、以降に記載される。

以下の詳細な説明を以下の図面と併せて考慮すると、本発明のより良い理解を得ることができる。

本発明の一実施形態による、本発明の原理を実践するための通信システムを示す図である。本発明を実践するためのハードウェア環境を表す予測分析システムのハードウェア構成の本発明の一実施形態を示す図である。本発明の一実施形態による、予測を生成するための予測モデルによって使用される最適な重みを特定するために使用される予測分析システムのソフトウェア・コンポーネントの図である。本発明の一実施形態による生徒モデルによって生成される状態特徴を示す図である。本発明の一実施形態による報酬生成器によって生成される報酬を示す図である。本発明の実施形態による、機械学習技術における予測精度を向上させるための方法の流れ図である。

本発明は、機械学習技術における予測精度を向上させるためのコンピュータ実装方法、システム、およびコンピュータ・プログラム製品を含む。本発明の一実施形態では、教師モデルが構築され、教師モデルは、各データ・ケースに対する重みを生成する。「教師モデル」とは、本明細書で使用される場合、生徒モデルの学習を容易にするために、適切なデータ、損失関数、および仮説空間を決定する統計モデルを指す。次いで、訓練データおよび教師モデルによって生成された重みを用いて現在の生徒モデルが訓練される。「生徒モデル」とは、本明細書で使用される場合、訓練データを用いて予測を提供するように訓練される統計モデルを指す。「現在の」生徒モデルとは、本明細書で使用される場合、訓練データを用いて予測を提供するように現在訓練されている生徒モデルを指す。現在の生徒モデルは、新しい重みを生成するために教師モデルによって使用される状態特徴（例えば、データ特徴、ケース重み、生徒モデル特徴、およびデータと生徒モデルの両方の組合せを表す特徴）を生成する。次いで、訓練データおよびこれらの新しい重みを用いて、候補生徒モデルが訓練される。「候補生徒モデル」とは、本明細書で使用される場合、現在の生徒モデルよりも優れた生徒モデル（観察されたターゲットを予測するのにより優れている）かどうかを判定するために調べられている生徒モデルを指す。次いで、訓練データおよびテスト・データを用いて、現在の生徒モデルと候補生徒モデルを比較して、どちらが観察されたターゲットを予測するのにより優れているかを判定することによって報酬を生成する。「報酬」とは、本明細書で使用される場合、強化学習で用いられる関数（報酬関数）によって生成される値を指す。候補生徒モデルが現在の生徒モデルよりも観察されたターゲットを予測するのにより優れている場合、正の報酬が返されてもよい。逆に、現在の生徒モデルが候補生徒モデルよりも観察されたターゲットを予測するのにより優れている場合、負の報酬が返されてもよい。その後、教師モデルが報酬で更新される。教師モデルは、報酬を利用して、強化学習などのポリシー勾配法を介してそのパラメータを更新する。候補生徒モデルが現在の生徒モデルよりも観察されたターゲットを予測するのにより優れている場合、現在の生徒モデルは、候補生徒モデルで更新され、現在の重みは、教師モデルによって生成された新しい重みで更新される。現在の重みを新しい重みで更新すると、現在の生徒モデルは、新しい状態特徴を生成する。しかしながら、候補生徒モデルが現在の生徒モデルよりも観察されたターゲットを予測するのにより優れていない場合、更新された教師モデルは、現在の生徒モデルからの現在の重みおよび現在の生徒特徴を用いて新しい重みを生成する。停止規則のいずれかが満たされると（例えば、指定された試行回数に達すること、指定された訓練タイミングに達すること、予測精度の収束、およびユーザ主導による終了）、教師モデルによって生成された重みは、「最適な」重みと見なされ、対応する生徒モデルと共にユーザに返される。このようにして、予測精度を向上させるための最適な重みが特定される。

以下の説明では、本発明の完全な理解を提供するために、多数の具体的な詳細が述べられる。しかしながら、本発明がこれらの具体的な詳細なしに実行され得ることは当業者には明らかであろう。他の例では、不必要な詳細で本発明を不明瞭にしないために、よく知られている回路は、ブロック図の形態で示されている。ほとんどの場合、タイミングの考察などを考慮する詳細は、そのような詳細が本発明の完全な理解を得るために必要ではなく、当業者のスキルの範囲内であるため省略されている。

ここで図を詳細に参照すると、図１は、機械学習技術を用いて予測を行うための通信システム１００を示す。一実施形態では、システム１００は、訓練データ１０３およびテスト・データ１０４（本明細書では「ホールドアウト・データ」とも呼ばれる）などのデータを用いて予測１０２を生成するための予測分析システム１０１を含む。予測を行うために訓練データ１０３およびテスト・データ１０４を用いる予測分析システム１０１のさらなる説明は、図３～図６に関連して以下でさらに説明される。

一実施形態では、予測分析システム１０１は、現在のデータを分析して将来に関する予測を行うために、データ・マイニング、統計、モデリング、機械学習、および人工知能からの多くの技術を使用して、未知の将来の事象に関する予測を行う。

一実施形態では、予測分析システム１０１は、２つの知的エージェント、すなわち教師モデルおよび生徒モデルを含む「学習して教える」という概念を利用する。訓練段階は、教師モデルと生徒モデルとの間の連続的な相互作用のいくつかのエピソードを含む。生徒モデルによって生成された状態情報に基づいて、教師モデルは、生徒モデルの機械学習問題を改良するように、その教示アクションを更新する。次いで、生徒モデルは、教師モデルからの入力に基づいてその学習プロセスを実行し、その後、報酬信号（例えば、訓練データでの精度）を教師モデルに返す。次いで、教師モデルは、そのような報酬を利用して、強化学習技術の一種であるポリシー勾配法を介してそのパラメータを更新する。この対話式プロセスは、人間が定義した経験則の制限を受けず、エンド・ツー・エンドで訓練可能である。一実施形態では、「学習して教える」という概念は、生徒モデルのアクションとしてケース（データ・ケース）の重みを活用するというアプローチを考案することによって実施される。予測分析システム１０１のハードウェア構成の説明は、図２に関連して以下で提供される。

ここで図２を参照すると、図２は、本発明を実施するためのハードウェア環境を表す予測分析システム１０１（図１）のハードウェア構成の本発明の一実施形態を示す。予測分析システム１０１は、機械学習技術における予測精度を向上させるための最適な重みを特定する能力を有するように構成された任意のタイプの分析システム（例えば、ポータブル・コンピューティング・ユニット、携帯情報端末（ＰＤＡ）、ラップトップ・コンピュータ、モバイル・デバイス、タブレット・パーソナル・コンピュータ、スマートフォン、携帯電話、ナビゲーション・デバイス、ゲーム・ユニット、デスクトップ・コンピュータ・システム、ワークステーション、インターネット家電など）であってもよい。

図２を参照すると、予測分析システム１０１は、システム・バス２０２によって様々な他の構成要素に接続されたプロセッサ２０１を有することができる。オペレーティング・システム２０３は、プロセッサ２０１上で動作し、図２の様々な構成要素の機能を制御し、調整することができる。本発明の原理によるアプリケーション２０４は、オペレーティング・システム２０３と連携して動作し、アプリケーション２０４によって実行される様々な機能またはサービスを実施する呼び出しをオペレーティング・システム２０３に提供することができる。アプリケーション２０４は、例えば、図３～図６に関連して以下で論じる機械学習技術における予測精度を向上させるための最適な重みを特定するためのプログラムを含むことができる。

再び図２を参照すると、読み取り専用メモリ（「ＲＯＭ」）２０５は、システム・バス２０２に接続されてもよく、予測分析システム１０１の特定の基本機能を制御する基本入出力システム（「ＢＩＯＳ」）を含むことができる。ランダム・アクセス・メモリ（「ＲＡＭ」）２０６およびディスク・アダプタ２０７も、システム・バス２０２に接続されてもよい。オペレーティング・システム２０３およびアプリケーション２０４を含むソフトウェア・コンポーネントは、予測分析システム１０１の実行用のメインメモリであってもよいＲＡＭ２０６にロードされ得ることに留意されたい。ディスク・アダプタ２０７は、ディスク・ユニット２０８、例えばディスク・ドライブと通信する統合ドライブ・エレクトロニクス（「ＩＤＥ」）アダプタであってもよい。図３～図６に関連して以下で論じるように、機械学習技術において予測精度を向上させるための最適な重みを特定するためのプログラムは、ディスク・ユニット２０８またはアプリケーション２０４に常駐することができることに留意されたい。

予測分析システム１０１は、バス２０２に接続された通信アダプタ２０９をさらに含むことができる。通信アダプタ２０９は、バス２０２を外部ネットワークと相互接続することができ、それによって予測分析システム１０１が他のデバイスと通信することを可能にする。

Ｉ／Ｏデバイスも、ユーザ・インターフェース・アダプタ２１０およびディスプレイ・アダプタ２１１を介して予測分析システム１０１に接続されてもよい。キーボード２１２、マウス２１３、およびスピーカ２１４はすべて、ユーザ・インターフェース・アダプタ２１０を介してバス２０２に相互接続されてもよい。ディスプレイ・モニタ２１５は、ディスプレイ・アダプタ２１１によってシステム・バス２０２に接続されてもよい。このようにして、ユーザは、キーボード２１２またはマウス２１３を介して予測分析システム１０１に入力し、ディスプレイ２１５またはスピーカ２１４を介して予測分析システム１０１から出力を受け取ることができる。タッチスクリーン機能を有するディスプレイ２１５および仮想キーボードであるキーボード２１２などの、図２に示されていない他の入力機構を使用して、データを予測分析システム１０１に入力してもよい。図２の予測分析システム１０１は、図２に描かれている要素に範囲が限定されるべきではなく、図２に描かれた要素よりも少ない要素またはさらなる要素を含むことができる。

本発明は、任意の可能な技術的な詳細レベルの統合において、システム、方法、またはコンピュータ・プログラム製品、あるいはその組合せであってもよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体を含むことができる。

コンピュータ可読記憶媒体は、命令実行デバイスが使用するための命令を保持および記憶することができる有形のデバイスとすることができる。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または前述の任意の適切な組合せであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラム可能読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル・バーサタイル・ディスク（ＤＶＤ）、メモリ・スティック、フロッピー（Ｒ）・ディスク、パンチ・カードまたは命令が記録された溝内の隆起構造などの機械的に符号化されたデバイス、および前述の任意の適切な組合せが含まれる。コンピュータ可読記憶媒体は、本明細書で使用される場合、電波もしくは他の自由に伝播する電磁波、導波路もしくは他の伝送媒体を通して伝播する電磁波（例えば、光ファイバ・ケーブルを通過する光パルス）、またはワイヤを通して送信される電気信号などの、それ自体一過性の信号であると解釈されるべきではない。

本明細書に記載されたコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスに、あるいはネットワーク、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークまたはワイヤレス・ネットワークあるいはその組合せを介して外部コンピュータまたは外部記憶デバイスにダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータまたはエッジ・サーバあるいはその組合せを含むことができる。各コンピューティング／処理装置のネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、コンピュータ可読プログラム命令をそれぞれのコンピューティング／処理装置内のコンピュータ可読記憶媒体に記憶するために転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路の構成データ、あるいは、Ｓｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語または同様のプログラミング言語などの手続き型プログラミング言語を含む、１つまたは複数のプログラミング言語の任意の組合せで記述されたソースコードあるいはオブジェクトコードのいずれかであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、一部はユーザのコンピュータ上で、スタンドアロン・ソフトウェア・パッケージとして、一部はユーザのコンピュータ上でかつ一部はリモート・コンピュータ上で、または完全にリモート・コンピュータもしくはサーバ上で実行されてもよい。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）もしくはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよく、または接続は、（例えば、インターネット・サービス・プロバイダを使用してインターネットを介して）外部コンピュータに対して行われてもよい。一部の実施形態では、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ）を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることによって、コンピュータ可読プログラム命令を実行することができる。

本発明の態様は、本発明の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品の流れ図またはブロック図あるいはその両方を参照して本明細書に記載されている。流れ図またはブロック図あるいはその両方の各ブロック、ならびに流れ図またはブロック図あるいはその両方のブロックの組合せは、コンピュータ可読プログラム命令によって実施することができることを理解されよう。

これらのコンピュータ可読プログラム命令は、コンピュータのプロセッサまたは他のプログラム可能なデータ処理装置に提供されて、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令が、流れ図またはブロック図あるいはその両方のブロックで指定された機能／行為を実施するための手段を作成するように、機械を生成することができる。これらのコンピュータ可読プログラム命令はまた、内部に命令が記憶されたコンピュータ可読記憶媒体が流れ図またはブロック図あるいはその両方のブロックで指定された機能／行為の態様を実施する命令を含む製造物品を備えるように、コンピュータ、プログラム可能なデータ処理装置、または他の装置あるいはその組合せが特定のやり方で機能するように指図することができるコンピュータ可読記憶媒体に記憶されてもよい。

コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能なデータ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラム可能な装置、または他のデバイス上で実行される命令が、流れ図またはブロック図あるいはその両方のブロックで指定された機能／行為を実施するように、一連の動作ステップをコンピュータ、他のプログラム可能な装置、または他のデバイス上で実行させて、コンピュータ実施プロセスを生成することができる。

図中の流れ図およびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実施態様のアーキテクチャ、機能、および動作を示す。これに関して、流れ図またはブロック図の各ブロックは、指定された論理機能を実施するための１つまたは複数の実行可能命令を含む、モジュール、セグメント、または命令の一部を表すことができる。一部の代替の実施態様では、ブロックに示されている機能は、図に示されている順序とは異なる順序で行われてもよい。例えば、連続して示される２つのブロックは、実際には、１つのステップとして遂行されてもよく、同時に、実質的に同時に、部分的または全体的に時間的に重複して実行されてもよく、あるいはブロックは、含まれる機能に応じて逆の順序で実行されてもよい。ブロック図または流れ図あるいはその両方の各ブロック、およびブロック図または流れ図あるいはその両方のブロックの組合せは、指定された機能もしくは行為を実行する、または専用のハードウェアおよびコンピュータ命令の組合せを実行する専用のハードウェア・ベースのシステムによって実施することができることにも留意されたい。

背景技術のセクションで述べたように、より優れた予測モデルを達成することは、機械学習技術の研究および実践における目的である。例えば、アンサンブル法は、複数の学習アルゴリズムを使用して、構成する学習アルゴリズムのいずれか単独から得ることができるよりも優れた予測性能を得る。このようなアンサンブル法には、ブートストラップ・アグリゲーティング（バギングとも呼ばれる）、ブースティングなどが含まれる。ブートストラップ・アグリゲーティングは、統計的分類および回帰において使用される機械学習アルゴリズムの安定性および精度を向上させるように設計された機械学習アンサンブルのメタアルゴリズムである。ブースティングは、主に教師あり学習における偏りと、さらに分散も低減するための機械学習アンサンブルのメタアルゴリズムであり、弱い学習器を強い学習器に変換する機械学習アルゴリズムのファミリーである。ブースティングなどのこのような技術では、モデル化プロセス中に、誤って分類されたケースの重みを増加させ、一方、正しく分類されたケースの重みを減少させる。このような戦略（ヒューリスティック）は、多くの場合、より優れた予測を達成するが、外れ値／ノイズを過剰にフィッティングする可能性がある。外れ値／ノイズの過剰フィッティングの結果として、予測精度が低下する。したがって、誤って分類されたケースの重みを増加させ、正しく分類されたケースの重みを減少させる発見的戦略は、モデルの予測精度を向上させるための最良の戦略ではない可能性がある。例えば、正しく分類されたケースは、機械学習アルゴリズムが学習すべき非常に重要なパターンを含むため、このようなケースの重みを増加させた方がよい場合がある。また、同様の理由で、外れ値ケースなどの誤って分類されたケースの重みを減少させた方がよい場合もある。結果として、ブースティングなどのこのような技術は、分類されたケースに対する最適な重みを特定することができず、したがって、機械学習技術において最適な予測精度を達成することができない。

本発明の実施形態は、図３～図６に関連して以下で論じるように、２つの知的エージェント（教師モデルおよび生徒モデル）を含む、学習して教えるという概念を用いて最適な重みを特定することによって、機械学習技術において最適な予測精度を達成するための手段を提供する。図３は、予測を生成するために予測モデルによって使用される最適な重みを特定するために使用される予測分析システム１０１のソフトウェア・コンポーネントの図である。図４は、生徒モデルによって生成された状態特徴を示す。図５は、報酬生成器によって生成された報酬を示す。図６は、機械学習技術における予測精度を向上させるための方法の流れ図である。

訓練データ｛＜Ｘ＿ｋ，ｆ＿ｋ，ｙ＿ｋ＞｜ｋ＝１，．．．，Ｎ｝が与えられ、ここで、Ｘ＿ｋはケースｋにおける予測子のベクトルであり、ｙ＿ｋは観察されたターゲットであり、ｆ＿ｋは任意のケース重みである（ケース重みが存在しない場合はｆ＿ｋ＝１とする）とすると、本発明は、各ケースｋについて最適なケース重みｆ＿ｋ^ｏｐｔを生成する。最適なケース重みを用いて、生徒モデルは、以下に論じるようにホールドアウトされたデータ・セットを用いて正確な予測を提供するように訓練される。

上述したように、図３は、本発明の実施形態による予測を生成するために予測モデルによって使用される最適な重みを特定するために使用される予測分析システム１０１のソフトウェア・コンポーネントの図である。一実施形態では、これらのソフトウェア・コンポーネントは、予測分析システム１０１のアプリケーション２０４（図２）に常駐することができる。

以下は、これらのソフトウェア・コンポーネントの簡単な説明を提供する。これらのソフトウェア・コンポーネント（それらの機能を含む）のより詳細な説明は、図４～図６に関連して以下に提供される。

図１～図２と併せて図３を参照すると、予測分析システム１０１は、本明細書で「教師モデル」３０１と呼ばれるモジュールを含む。一実施形態では、教師モデル３０１は、状態特徴を入力として受け取り、各データ・ケースについて重みを生成するように構成されたニューラル・ネットワークである。一実施形態では、ニューラル・ネットワークの重みパラメータは、訓練プロセスの前にランダムに初期化される。

予測分析システム１０１は、本明細書において「現在の生徒モデル３０２」と呼ばれるモジュールをさらに含み、このモジュールは、教師モデル３０１によって生成された重みを受け取り、図４に示されるような状態特徴を生成する。「生徒モデル」とは、本明細書で使用される場合、訓練データ１０３を用いて予測を提供するように訓練された統計モデルを指す。「現在の」生徒モデル３０２とは、本明細書で使用される場合、訓練データ１０３を用いて予測を提供するように予測分析システム１０１によって現在訓練されている生徒モデルを指す。一実施形態では、生徒モデル３０２は、決定木またはニューラル・ネットワークなどの学習器に対応する。一実施形態では、決定木学習は、決定木を予測モデルとして使用して、アイテムに関する観察（枝で表される）からアイテムの目標値に関する結論（葉で表される）へと進む。一実施形態では、ニューラル・ネットワークは、ニューロン（人工ニューロン）もしくはノードのネットワークまたは回路である。

図４は、本発明の一実施形態による、生徒モデル３０２によって生成された状態特徴を示す。

図４を参照すると、このような状態特徴は、予測子４０１、それらの対応する重み４０２、およびそれらの予測値４０３を含むことができる。一実施形態では、予測子４０１は、観察されたターゲットなどの結果変数に対応する。重み４０２は、教師モデル３０１から得られるこのような予測子に割り当てられた重みに対応する。一実施形態では、このような重み４０２は、予測子４０１の対応する予測値４０３が正確であることの信頼度を示す。値が高いほど、対応する予測値４０３が正しいことの信頼度が高くなる。

一実施形態では、このような状態特徴は、データ特徴、ケース重み、生徒モデル特徴、およびデータと生徒モデルの両方の組合せを表す特徴も含むことができる。

一実施形態では、このような状態特徴は、教師モデル３０１によって利用されて、候補生徒モデル３０３を訓練するために使用される新しい重みを生成することができる。「候補生徒モデル３０３」とは、本明細書で使用される場合、現在の生徒モデルよりも優れた生徒モデルである（観察されたターゲットの予測においてより優れている）かどうかを判定するために調べられている生徒モデルを指す。

一実施形態では、候補生徒モデル３０３は、訓練データ１０３および教師モデル３０１によって生成された新しい重みを用いることによって訓練される。

図３に示すように、本明細書において「報酬生成器３０４」と呼ばれるモジュールは、訓練データ１０３およびテスト・データ１０４（「ホールドアウトされたデータ」）を使用して、現在の生徒モデル３０２と候補生徒モデル３０３を比較することによって報酬を生成する。一実施形態では、教師モデル３０１は、報酬で更新される。一実施形態では、教師モデル３０１は、報酬を利用して、強化学習などのポリシー勾配法を介してそのパラメータを更新する。

「報酬」とは、本明細書で使用される場合、強化学習で用いられる関数（報酬関数）によって生成される値を指す。強化学習エージェント（予測分析システム１０１）の目標は、できるだけ多くの報酬を収集することである。一実施形態では、候補生徒モデル３０３が現在の生徒モデル３０２よりも観察されたターゲットを予測するのに優れている場合、報酬生成器３０４によって正の報酬が返される。逆に、現在の生徒モデル３０２が候補生徒モデル３０３よりも観察されたターゲットを予測するのに優れている場合、報酬生成器３０４によって負の報酬が返される。一実施形態では、報酬生成器３０４は、候補生徒モデル３０３の一部である。

一実施形態では、このような報酬は、図５に示すように、訓練データ１０３、テスト・データ１０４を生徒モデル３０２、３０３に適用することによって、報酬生成器３０４によって生成される。

図５は、本発明の一実施形態による報酬生成器３０４によって生成される報酬を示す。

図５を参照すると、報酬生成器３０４は、モデル・レベル報酬５０１およびケース・レベル報酬５０２を生成する。一実施形態では、モデル・レベル報酬５０１とは、テスト・データ１０４に基づいて、観察されたターゲットに対する予測を生成する生徒モデル３０２、３０３に関連付けられた報酬を指す。例えば、報酬５０１は、候補生徒モデル３０３がテスト・データ１０４を用いて観察されたターゲットを予測するのに現在の生徒モデル３０２よりもどれほど優れているかに基づいて生成される。候補生徒モデル３０３がテスト・データ１０４を用いて観察されたターゲットを予測するのに現在の生徒モデル３０２よりも優れている場合、報酬生成器３０４によって正の報酬５０１が返される。逆に、現在の生徒モデル３０２がテスト・データ１０４を用いて観察されたターゲットを予測するのに候補生徒モデル３０３よりも優れている場合、報酬生成器３０４によって負の報酬５０１が返される。

ケース・レベル報酬５０２とは、生徒モデル３０２、３０３が訓練データ１０３を用いてデータ・ケースを正しく分類したことに基づく報酬を指す。生徒モデル３０２、３０３がデータ・ケースを正しく分類した場合、報酬生成器３０４によって正の報酬５０２が返される。逆に、生徒モデル３０２、３０３がデータ・ケースを正しく分類しなかった場合、報酬生成器３０４によって負の報酬５０２が返される。

一実施形態では、報酬生成器３０４は、モデル・レベル報酬５０１とケース・レベル報酬５０２との組合せである最終報酬５０３、例えば、２つの報酬の平均を生成する。

図３に戻ると、報酬を利用して、本明細書において「アップデータ３０５」と呼ばれるモジュールが教師モデル３０１を報酬で更新する。一実施形態では、教師モデル３０１は、連想即時強化学習タスクに直面する。各試行において強化値に対する報酬がｒであると仮定すると、ネットワークのパラメータｗ＿ｉｊは、量

だけ増分され、ここで、αは学習率係数であり、Ｎは正の整数であり、ｇ＿ｋはケースｋに対する教師モデルの出力である。

教師モデル３０１が更新されると、候補生徒モデル３０３が現在の生徒モデル３０２よりも観察されたターゲットの優れた予測子であるかどうかに関して、意思決定器３０６によって判定が行われる。一実施形態では、候補生徒モデル３０３が現在の生徒モデル３０２よりも観察されたターゲットを予測するのに優れている場合、意思決定器３０６は、現在の生徒モデル３０２を候補生徒モデル３０３で更新するとともに、現在の重みを新しい重みで更新する。次いで、更新された生徒モデル３０２は、教師モデル３０１に入力される新しい状態特徴を生成する。

あるいは、候補生徒モデル３０３が現在の生徒モデル３０２よりも観察されたターゲットを予測するのに優れていない場合、意思決定器３０６は、現在の生徒モデル３０２からの現在の生徒特徴を使用して新しい重みを生成するように、更新された教師モデル３０１（上述したように報酬で更新される）に直接要求する。

上述したソフトウェア・コンポーネントを用いて機械学習技術における予測精度を向上させるプロセスに関するより詳細な説明は、図６に関連して以下に提供される。

図６は、本発明の実施形態による機械学習技術における予測精度を向上させるための方法６００の流れ図である。

図１～図５と併せて図６を参照すると、ステップ６０１において、予測分析システム１０１は、各データ・ケースに対する重みを生成する教師モデル３０１を構築する。「教師モデル」とは、本明細書で使用される場合、生徒モデルの学習を容易にするために、適切なデータ、損失関数、および仮説空間を決定する統計モデルを指す。一実施形態では、教師モデル３０１は、ニューラル・ネットワークである。一実施形態では、教師モデル３０１は、現在の生徒モデル３０２から状態特徴を入力として受け取り、各データ・ケースに対する重みを生成する。「データ・ケース」とは、本明細書で使用される場合、観察されたターゲットを予測するために使用されるデータを指す。一実施形態では、重みパラメータは、訓練プロセスが開始する前にランダムに初期化される（以下でさらに説明する）。

一実施形態では、教師モデル３０１は、いくつかの層で構成されたネットワークを含む。一実施形態では、層は、ノードでできており、ノードは、計算が行われる場所であり、十分な刺激に遭遇すると発火する人間の脳の神経細胞を緩く模倣したものである。ノードは、現在の生徒モデル３０２からの状態特徴（以下でさらに説明する）などのデータからの入力を、その入力を増幅または減衰させる係数または重みのセットと組み合わせ、それによって、アルゴリズムが学習しようとしているタスクに関する入力に重要性を割り当てる（例えば、どの入力がエラーなしにデータを分類するのに最も役立つか）。これらの入力－重み積は合計され、次いで、その合計がノードのいわゆる活性化関数に渡され、最終的な結果（例えば、分類の行為）に影響を及ぼすために信号がネットワークを通してさらに進むべきかどうか、およびどの程度進むべきかが決定される。信号が通過した場合、ニューロンは、「活性化」されたことになる。

一実施形態では、ノード層は、入力がネットを介して供給されるとオンまたはオフになるニューロン様スイッチの行である。データを受け取る最初の入力層から始まって、各層の出力は、同時に後続の層の入力となる。

一実施形態では、モデルの調整可能な重みは、ニューラル・ネットワークが入力をどのように分類およびクラスタ化するかに関してそれらの特徴に重要性を割り当てるように、入力特徴と対にされる。

一実施形態では、このような生成された重みを用いて、訓練データ１０３が偏ったサンプリングからのものである場合に、訓練データ１０３におけるデータ・ケースの分布を補正することができる。

ステップ６０２において、予測分析システム１０１は、訓練データ１０３および教師モデル３０１によって生成された重み（各データ・ケースに対する現在の重み）を用いて、現在の生徒モデル３０２を訓練する。前述したように、現在の生徒モデル３０２とは、訓練データ１０３を用いて予測を提供するために予測分析システム１０１によって現在訓練されている生徒モデル（観察されたターゲットを予測するなど、訓練データを用いて予測を提供するように訓練された統計モデル）を指す。前にも説明したように、一実施形態では、現在の生徒モデル３０２は、決定木またはニューラル・ネットワークなどの学習器に対応する。一実施形態では、決定木学習は、決定木を予測モデルとして使用して、アイテムに関する観察（枝で表される）からアイテムの目標値に関する結論（葉で表される）へと進む。一実施形態では、ニューラル・ネットワークは、ニューロン（人工ニューロン）もしくはノードのネットワークまたは回路である。

一実施形態では、ケース重みは、現在の生徒モデル３０２（ならびに以下でさらに説明する候補生徒モデル３０３）に対するアクションとして使用される。このような方法により、どのようなタイプの機械学習器でも、その学習器が訓練においてケース重みをサポートするのであれば、生徒モデル（生徒モデル３０２、３０３）として使用することができる。

一実施形態では、このような訓練は、教師モデル３０１によって生成された重みなどのパラメータをフィッティングさせるために使用される例のセットである訓練データ・セット１０３に、現在の生徒モデル３０２をフィッティングさせることを含む。一実施形態では、現在の生徒モデル３０２は、教師あり学習方法（例えば、勾配降下または確率的勾配降下）を使用して訓練される。一実施形態では、訓練データ・セット１０３は、入力ベクトル（またはスカラー）と、対応する出力ベクトル（またはスカラー）との対から構成され、これらをターゲットして表記することができる。現在の生徒モデル３０２は、訓練データ・セット１０３を用いて実行され、結果を生成し、次いで、その結果が、訓練データ・セット１０３の各入力ベクトルについて、ターゲットと比較される。比較の結果および使用されている特定の学習アルゴリズムに基づいて、生徒モデル３０２のパラメータが調整される。

ステップ６０３において、現在の生徒モデル３０２を訓練した後、訓練された現在の生徒モデル３０２が状態特徴を生成する。一実施形態では、状態特徴は、現在の生徒モデル３０２に基づいて各データ・ケースに対して定義される。状態特徴は、その予測子、ターゲットなどの、データ・ケースについての情報を含むデータ特徴と、教師モデル３０１によって生成されたケース重みと、現在の生徒モデル３０２がどれだけよく訓練されているかを反映する尺度を含む生徒モデル特徴と、予測ターゲット、各ターゲット・カテゴリの確率などの、データと生徒モデル３０２の両方の組合せを表す特徴とを含むことができるが、これらだけには限定されない。

一実施形態では、ケース・レベル状態特徴も、対応するケース重みを含む、生徒モデル３０２によって生成される。

一実施形態では、現在の生徒モデル３０２は、前述の状態特徴を含むデータを生成する。このような特徴は、受信訓練データ１０３および教師モデル３０１からの重みに基づいて、統計的仮定のセットを使用して生成される。

ステップ６０４において、教師モデル３０１は、現在の生徒モデル３０２によって生成された状態特徴を用いて新しい重みを生成する。一実施形態では、このような状態特徴は、教師モデル３０１に入力され、上述したように教師モデル３０１によって重みを生成するために使用される。

ステップ６０５において、予測分析システム１０１は、訓練データ１０３および教師モデル３０１によって生成された新しい重みを用いて、候補生徒モデル３０３を訓練する。一実施形態では、候補生徒モデル３０３の訓練は、ステップ６０２に関連して上述したように、現在の生徒モデル３０２の訓練と同じやり方で実行される。

ステップ６０６において、報酬生成器３０４は、訓練データ１０３およびテスト・データ１０４（「ホールドアウトされたデータ」）を用いて、現在の生徒モデル３０２と候補生徒モデル３０３を（生徒モデル３０２、３０３を訓練した後に）比較して、どちらが観察されたターゲットを予測するのに優れているかを判定することによって報酬を生成する。「報酬」とは、本明細書で使用される場合、強化学習で用いられる関数（報酬関数）によって生成される値を指す。強化学習エージェント（予測分析システム１０１）の目標は、できるだけ多くの報酬を収集することである。一実施形態では、候補生徒モデル３０３が、テスト・データ１０４を用いて、現在の生徒モデル３０２よりも観察されたターゲットを予測するのに優れている場合、正のモデル・レベル報酬５０１が報酬生成器３０４によって返される。逆に、現在の生徒モデル３０２が、テスト・データ１０４を用いて候補生徒モデル３０３よりも観察されたターゲットを予測するのに優れている場合、負のモデル・レベル報酬５０１が報酬生成器３０４によって返される。

ステップ６０７において、停止規則が満たされたかどうかに関して、予測分析システム１０１によって判定が行われる。「停止規則」とは、本明細書で使用される場合、生徒モデルの訓練が完了したかどうかを判定する規則を指す。このような訓練は、データ・ケースに対する最適な重みが特定されたと判定されたときに完了する。

一実施形態では、このような停止規則には、指定された試行回数に達すること、指定された訓練タイミングに達すること、予測精度の収束、およびユーザ主導による終了が含まれるが、これらに限定されない。

これらの停止規則のいずれかが満たされた場合、ステップ６０８において、最適な重み（教師モデル３０１によって生成された重み）および対応する生徒モデル３０２が、予測分析システム１０１上のユーザ・インターフェースを介すなどしてユーザに返される。返された生徒モデルは、観察されたターゲットの正確な予測を提供することができる。さらに、教師モデル３０１によって生成された（ステップ６０４参照）返された重みは、停止規則が満たされた場合（例えば、予測精度が収束した場合）などに、「最適」重みであると見なされる。このようにして、予測精度を向上させるための最適な重みが特定される。

しかしながら、停止規則のいずれも満たされていない場合、ステップ６０９において、アップデータ３０５が教師モデル３０１を報酬（ステップ６０６の報酬）で更新する。一実施形態では、教師モデル３０１は、報酬を利用して、強化学習などのポリシー勾配法を介してそのパラメータを更新する。

前述したように、一実施形態では、教師モデル３０１は、連想即時強化学習タスクに直面する。各試行において強化値に対する報酬がｒであると仮定すると、ネットワークのパラメータｗ＿ｉｊは、量

だけ増分され、ここで、αは学習率係数であり、Ｎは正の整数であり、ｇ＿ｋはケースｋに対する教師モデルの出力である。教師モデル３０１が更新される増分量Δｗは、以下のように示すこともできる。

ここで、ｒは各試行における強化値であり、ｗ_ｉｊは量Δｗ_ｉｊだけ増分されたネットワークのパラメータであり、αは学習率係数であり、Ｎは正の整数であり、ｇ_ｋはケースｋに対する教師モデルの出力である。

教師モデル３０１を更新すると、ステップ６１０において、候補生徒モデル３０３が現在の生徒モデル３０２よりも観察されたターゲットのより優れた予測を生成するかどうかに関して、意思決定器３０６によって判定が行われる。このような判定は、予測が観察されたターゲットにどれだけ近いかに基づく。

候補生徒モデル３０３が現在の生徒モデル３０２よりも観察されたターゲットを予測するのに優れている場合、ステップ６１１において、現在の生徒モデル３０２が候補生徒モデル３０３で更新される。すなわち、ステップ６１１において、現在の生徒モデル３０２は、本質的に、候補生徒モデル３０３と置き換えられる。

さらに、候補生徒モデル３０３が現在の生徒モデル３０２よりも観察されたターゲットを予測するのに優れている場合、ステップ６１２において、現在の重みが新しい重み（ステップ６０４において教師モデル３０１によって生成された新しい重み）で更新される。

現在の重みを新しい重みで更新すると、更新された生徒モデル３０２（ステップ６１１で更新された）は、新しい重みを用いてステップ６０３において状態特徴を生成する。

あるいは、候補生徒モデル３０３が、現在の生徒モデル３０２よりも観察されたターゲットを予測するのに優れていない場合、意思決定器３０６は、現在の生徒モデル３０２からの現在の生徒特徴および現在の重みを用いて、ステップ６０４において新しい重みを生成するように、更新された教師モデル３０１（ステップ６０９において更新された）に直接要求する。

このようにして、本発明は、予測モデリングの分野において「学習して教える」という概念を実施するフレームワークを考案している。このようなフレームワークは、教師モデルを含み、教師モデルが各データ・ケースに対する重みを生成する。訓練データ・ケースは、生成された重みと共に、生徒モデルを再訓練するために使用される。報酬は、予測精度に関して、ホールドアウトされたデータ・セットで訓練された生徒モデルを評価することによって返される。次いで、教師モデルは、報酬を利用して、ポリシー勾配法、例えば強化学習を介してそのパラメータを更新する。このようなプロセスは、生徒モデルが所望の性能を達成するまで繰り返される。

ケース重みを生徒モデルに対するアクションとして使用することによって、どのようなタイプの機械学習器でも、その学習器が訓練においてケース重みをサポートするのであれば、生徒モデルとして使用することができる。

さらに、本発明は、予測モデリングを含む技術または技術分野を向上させる。上述したように、より優れた予測モデルを達成することは、機械学習技術の研究および実践における目的である。例えば、アンサンブル法は、複数の学習アルゴリズムを使用して、構成する学習アルゴリズムのいずれか単独から得ることができるよりも優れた予測性能を得る。このようなアンサンブル法には、ブートストラップ・アグリゲーティング（バギングとも呼ばれる）、ブースティングなどが含まれる。ブートストラップ・アグリゲーティングは、統計的分類および回帰において使用される機械学習アルゴリズムの安定性および精度を向上させるように設計された機械学習アンサンブルのメタアルゴリズムである。ブースティングは、主に教師あり学習における偏りと、さらに分散も低減するための機械学習アンサンブルのメタアルゴリズムであり、弱い学習器を強い学習器に変換する機械学習アルゴリズムのファミリーである。ブースティングなどのこのような技術では、モデル化プロセス中に、誤って分類されたケースの重みを増加させ、一方、正しく分類されたケースの重みを減少させる。このような戦略（ヒューリスティック）は、多くの場合、より優れた予測を達成するが、外れ値／ノイズを過剰にフィッティングする可能性がある。外れ値／ノイズの過剰フィッティングの結果として、予測精度が低下する。したがって、誤って分類されたケースの重みを増加させ、正しく分類されたケースの重みを減少させる発見的戦略は、モデルの予測精度を向上させるための最良の戦略ではない可能性がある。例えば、正しく分類されたケースは、機械学習アルゴリズムが学習すべき非常に重要なパターンを含むため、このようなケースの重みを増加させた方がよい場合がある。また、同様の理由で、外れ値ケースなどの誤って分類されたケースの重みを減少させた方がよい場合もある。その結果、ブースティングなどのこのような技術は、分類されたケースに対する最適な重みを特定することができず、したがって、機械学習技術において最適な予測精度を達成することができない。

本発明は、教師モデルを構築することによってこのような技術を改善し、教師モデルが各データ・ケースに対する重みを生成する。「教師モデル」とは、本明細書で使用される場合、生徒モデルの学習を容易にするために、適切なデータ、損失関数、および仮説空間を決定する統計モデルを指す。次いで、訓練データおよび教師モデルによって生成された重みを用いて現在の生徒モデルが訓練される。「生徒モデル」とは、本明細書で使用される場合、訓練データを用いて予測を提供するように訓練される統計モデルを指す。「現在の」生徒モデルとは、本明細書で使用される場合、訓練データを用いて予測を提供するように現在訓練されている生徒モデルを指す。現在の生徒モデルは、新しい重みを生成するために教師モデルによって使用される状態特徴（例えば、データ特徴、ケース重み、生徒モデル特徴、およびデータと生徒モデルの両方の組合せを表す特徴）を生成する。次いで、訓練データおよびこれらの新しい重みを用いて、候補生徒モデルが訓練される。「候補生徒モデル」とは、本明細書で使用される場合、現在の生徒モデルよりも優れた生徒モデル（観察されたターゲットを予測するのにより優れている）かどうかを判定するために調べられている生徒モデルを指す。次いで、訓練データおよびテスト・データを用いて、現在の生徒モデルと候補生徒モデルを比較して、どちらが観察されたターゲットを予測するのにより優れているかを判定することによって報酬を生成する。「報酬」とは、本明細書で使用される場合、強化学習で用いられる関数（報酬関数）によって生成される値を指す。候補生徒モデルが現在の生徒モデルよりも観察されたターゲットを予測するのにより優れている場合、正の報酬が返されてもよい。逆に、現在の生徒モデルが候補生徒モデルよりも観察されたターゲットを予測するのにより優れている場合、負の報酬が返されてもよい。その後、教師モデルが報酬で更新される。教師モデルは、報酬を利用して、強化学習などのポリシー勾配法を介してそのパラメータを更新する。候補生徒モデルが現在の生徒モデルよりも観察されたターゲットを予測するのにより優れている場合、現在の生徒モデルは、候補生徒モデルで更新され、現在の重みは、教師モデルによって生成された新しい重みで更新される。現在の重みを新しい重みで更新すると、現在の生徒モデルは、新しい状態特徴を生成する。しかしながら、候補生徒モデルが現在の生徒モデルよりも観察されたターゲットを予測するのにより優れていない場合、更新された教師モデルは、現在の生徒モデルからの現在の重みおよび現在の生徒特徴を用いて新しい重みを生成する。停止規則のいずれかが満たされると（例えば、指定された試行回数に達すること、指定された訓練タイミングに達すること、予測精度の収束、およびユーザ主導による終了）、教師モデルによって生成された重みは、「最適な」重みと見なされ、対応する生徒モデルと共にユーザに返される。このようにして、予測精度を向上させるための最適な重みが特定される。さらに、このようにして、予測モデリングの技術分野が向上する。

本発明によって提供される技術的解決策は、人間の頭の中で、またはペンおよび紙を使用して人間が行うことはできない。すなわち、本発明によって提供される技術的解決策は、コンピュータを使用しなければ、人間の頭の中で、または人間がペンおよび紙を使用することによっては、合理的な時間で、かつ合理的な期待される精度で遂行することはできない。

本発明の一実施形態では、本方法は、予測が観察されたターゲットにどれだけ近いかに基づいて、候補生徒モデルが現在の生徒モデルよりも観察されたターゲットのより優れた予測を生成するかどうかを判定することをさらに含む。

一実施形態では、本方法は、候補生徒モデルが現在の生徒モデルよりも観察されたターゲットのより優れた予測を生成することに応答して、現在の生徒モデルを候補生徒モデルで更新することと、現在の重みを新しい重みで更新することとをさらに含む。

一実施形態では、本方法は、新しい重みを用いて、更新された生徒モデルによって新しい状態特徴を生成することと、新しい状態特徴を用いて、教師モデルによって新しい重みの第２のセットを生成することとをさらに含む。

さらに、一実施形態では、本方法は、訓練データおよび新しい重みの第２のセットを用いて候補生徒モデルを訓練することと、訓練データおよびテスト・データを用いて、更新された生徒モデルを候補生徒モデルと比較して、どちらが観察されたターゲットを予測するのにより優れているかを判定することによって報酬を生成することとをさらに含む。

さらに、一実施形態では、本方法は、候補生徒モデルが現在の生徒モデルよりも観察されたターゲットのより優れた予測を生成しないことに応答して、状態特徴を用いて、更新された教師モデルによって新しい重みの第２のセットを生成することをさらに含む。

一実施形態では、本方法は、訓練データおよび新しい重みの第２のセットを用いて候補生徒モデルを訓練することと、訓練データおよびテスト・データを用いて、現在の生徒モデルを候補生徒モデルと比較して、どちらが観察されたターゲットを予測するのにより優れているかを判定することによって報酬を生成することとをさらに含む。

一実施形態では、本方法は、停止規則が、指定された試行回数に達すること、指定された訓練時間に達すること、予測精度の収束、およびユーザ主導による終了のうちの１つまたは複数を含むことをさらに含む。

一実施形態では、本方法は、ニューラル・ネットワークを含む教師モデルを有することと、決定木およびニューラル・ネットワークのうちの１つを含む生徒モデルを有することとをさらに含む。

上述した方法の実施形態の他の形態は、システムおよびコンピュータ・プログラム製品である。

本発明の様々な実施形態の説明は、例示の目的で提示されてきたが、網羅的であることは意図されておらず、または開示された実施形態に限定されることは意図されていない。記載された実施形態の範囲および思想から逸脱することなく、多くの修正形態および変形形態が当業者には明らかであろう。本明細書で使用される用語は、実施形態の原理、市場で見出される技術に対する実際の応用もしくは技術的改良を最も良く説明するか、または当業者が本明細書で開示された実施形態を理解することができるように選択された。

Claims

機械学習技術における予測精度を向上させるためのコンピュータ実装方法であって、
教師モデルを構築することであり、前記教師モデルが各データ・ケースに対する重みを生成する、前記構築することと、
訓練データおよび前記教師モデルによって生成された重みを用いて現在の生徒モデルを訓練することと、
前記現在の生徒モデルによって状態特徴を生成することと、
前記状態特徴を用いて前記教師モデルによって新しい重みを生成することと、
前記訓練データおよび前記新しい重みを用いて候補生徒モデルを訓練することと、
前記訓練データおよびテスト・データを用いて前記現在の生徒モデルを前記候補生徒モデルと比較して、どちらが観察されたターゲットを予測するのにより優れているかを判定することによって報酬を生成することと、
停止規則が満たされないことに応答して、前記教師モデルを前記報酬で更新することと、
前記停止規則が満たされたことに応答して、前記新しい重みおよび前記現在の生徒モデルをユーザに返すことであり、前記返された生徒モデルが前記観察されたターゲットの予測を提供する、前記返すことと
を含む方法。
前記予測が前記観察されたターゲットにどれだけ近いかに基づいて、前記候補生徒モデルが前記現在の生徒モデルよりも前記観察されたターゲットのより優れた予測を生成するかどうかを判定すること
をさらに含む、請求項１に記載の方法。
前記候補生徒モデルが前記現在の生徒モデルよりも優れた前記観察されたターゲットの予測を生成することに応答して、前記現在の生徒モデルを前記候補生徒モデルで更新し、現在の重みを前記新しい重みで更新すること
をさらに含む、請求項２に記載の方法。
前記新しい重みを用いて前記更新された生徒モデルによって新しい状態特徴を生成することと、
前記新しい状態特徴を用いて前記教師モデルによって新しい重みの第２のセットを生成することと
をさらに含む、請求項３に記載の方法。
前記訓練データおよび前記新しい重みの第２のセットを用いて前記候補生徒モデルを訓練することと、
前記訓練データおよび前記テスト・データを用いて前記更新された生徒モデルを前記候補生徒モデルと比較して、どちらが前記観察されたターゲットを予測するのにより優れているかを判定することによって報酬を生成することと
をさらに含む、請求項４に記載の方法。
前記候補生徒モデルが前記現在の生徒モデルよりも優れた前記観察されたターゲットの予測を生成しないことに応答して、前記状態特徴を用いて前記更新された教師モデルによって新しい重みの第２のセットを生成すること
をさらに含む、請求項２に記載の方法。
前記訓練データおよび前記新しい重みの第２のセットを用いて前記候補生徒モデルを訓練することと、
前記訓練データおよび前記テスト・データを用いて前記現在の生徒モデルを前記候補生徒モデルと比較して、どちらが前記観察されたターゲットを予測するのにより優れているかを判定することによって報酬を生成することと
をさらに含む、請求項６に記載の方法。
前記停止規則が、指定された試行回数に達すること、指定された訓練時間に達すること、予測精度の収束、およびユーザ主導による終了のうちの１つまたは複数を含む、請求項１ないし７のいずれかに記載の方法。
前記教師モデルがニューラル・ネットワークを含み、前記生徒モデルが決定木およびニューラル・ネットワークのうちの１つを含む、請求項１ないし８のいずれかに記載の方法。
コンピュータによる機械学習技術における予測精度を向上させるためのコンピュータ・プログラムであって、前記コンピュータにより実行されることにより、前記コンピュータに、請求項１ないし９のいずれかに記載の方法を実行させるコンピュータ・プログラム。
コンピュータによる機械学習技術における予測精度を向上させるためのコンピュータ・プログラムであって、実行されることで前記コンピュータに、
教師モデルを構築させ、前記教師モデルが各データ・ケースに対する重みを生成させ、
訓練データおよび前記教師モデルによって生成された重みを用いて現在の生徒モデルを訓練させ、
前記現在の生徒モデルによって状態特徴を生成させ、
前記状態特徴を用いて前記教師モデルによって新しい重みを生成させ、
前記訓練データおよび前記新しい重みを用いて候補生徒モデルを訓練させ、
前記訓練データおよびテスト・データを用いて前記現在の生徒モデルを前記候補生徒モデルと比較させ、どちらが観察されたターゲットを予測するのにより優れているかを判定させることによって報酬を生成させ、
停止規則が満たされないことに応答して、前記教師モデルを前記報酬で更新させ、
前記停止規則が満たされたことに応答して、前記新しい重みおよび前記現在の生徒モデルをユーザに返させ、前記返された生徒モデルが前記観察されたターゲットの予測を提供させる
コンピュータ・プログラム。
機械学習技術における予測精度を向上させるためのコンピュータ・プログラムを記憶するメモリと、
前記メモリに接続されたプロセッサと、を備えるシステムであり、
前記コンピュータ・プログラムの命令に応じて、前記プロセッサが、
教師モデルを構築することであり、前記教師モデルが各データ・ケースに対する重みを生成する、前記構築することと、
訓練データおよび前記教師モデルによって生成された重みを用いて現在の生徒モデルを訓練することと、
前記現在の生徒モデルによって状態特徴を生成することと、
前記状態特徴を用いて前記教師モデルによって新しい重みを生成することと、
前記訓練データおよび前記新しい重みを用いて候補生徒モデルを訓練することと、
前記訓練データおよびテスト・データを用いて前記現在の生徒モデルを前記候補生徒モデルと比較して、どちらが観察されたターゲットを予測するのにより優れているかを判定することによって報酬を生成することと、
停止規則が満たされないことに応答して、前記教師モデルを前記報酬で更新することと、
前記停止規則が満たされたことに応答して、前記新しい重みおよび前記現在の生徒モデルをユーザに返すことであり、前記返された生徒モデルが前記観察されたターゲットの予測を提供する、前記返すことと
を実行する、
システム。
前記プロセッサが、
前記予測が前記観察されたターゲットにどれだけ近いかに基づいて、前記候補生徒モデルが前記現在の生徒モデルよりも前記観察されたターゲットのより優れた予測を生成するかどうかを判定すること
をさらに実行する、請求項１２に記載のシステム。
前記プロセッサが、
前記候補生徒モデルが前記現在の生徒モデルよりも優れた前記観察されたターゲットの予測を生成することに応答して、前記現在の生徒モデルを前記候補生徒モデルで更新し、現在の重みを前記新しい重みで更新すること
をさらに実行する、請求項１３に記載のシステム。
前記プロセッサが、
前記新しい重みを用いて前記更新された生徒モデルによって新しい状態特徴を生成することと、
前記新しい状態特徴を用いて前記教師モデルによって新しい重みの第２のセットを生成することと
をさらに実行する、請求項１４に記載のシステム。
前記プロセッサが、
前記訓練データおよび前記新しい重みの第２のセットを用いて前記候補生徒モデルを訓練することと、
前記訓練データおよび前記テスト・データを用いて前記更新された生徒モデルを前記候補生徒モデルと比較して、どちらが前記観察されたターゲットを予測するのにより優れているかを判定することによって報酬を生成することと
をさらに実行する、請求項１５に記載のシステム。
前記プロセッサが、
前記候補生徒モデルが前記現在の生徒モデルよりも優れた前記観察されたターゲットの予測を生成しないことに応答して、前記状態特徴を用いて前記更新された教師モデルによって新しい重みの第２のセットを生成すること
をさらに実行する、請求項１３に記載のシステム。
前記プロセッサが、
前記訓練データおよび前記新しい重みの第２のセットを用いて前記候補生徒モデルを訓練することと、
前記訓練データおよび前記テスト・データを用いて前記現在の生徒モデルを前記候補生徒モデルと比較して、どちらが前記観察されたターゲットを予測するのにより優れているかを判定することによって報酬を生成することと
をさらに実行する、請求項１７に記載のシステム。
前記停止規則が、指定された試行回数に達すること、指定された訓練時間に達すること、予測精度の収束、およびユーザ主導による終了のうちの１つまたは複数を含む、請求項１８に記載のシステム。