JP7471408B2 - 機械学習技術における予測精度を向上させるための最適な重みの特定 - Google Patents

機械学習技術における予測精度を向上させるための最適な重みの特定 Download PDF

Info

Publication number
JP7471408B2
JP7471408B2 JP2022525521A JP2022525521A JP7471408B2 JP 7471408 B2 JP7471408 B2 JP 7471408B2 JP 2022525521 A JP2022525521 A JP 2022525521A JP 2022525521 A JP2022525521 A JP 2022525521A JP 7471408 B2 JP7471408 B2 JP 7471408B2
Authority
JP
Japan
Prior art keywords
model
student model
weights
student
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022525521A
Other languages
English (en)
Other versions
JP2023501257A (ja
Inventor
シュウ、ジン
エア ハン、シー
バービー、スティーブン、ジョージ
イン ツァン、シゥ
フイ ヤン、ジ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2023501257A publication Critical patent/JP2023501257A/ja
Application granted granted Critical
Publication of JP7471408B2 publication Critical patent/JP7471408B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、一般に、予測モデリングに関し、より詳細には、機械学習技術における予測精度を向上させるための最適な重みを特定することに関する。
予測モデリングは、統計学を用いて結果を予測する。多くの場合、予測したい事象は将来のことであるが、予測モデリングは、あらゆる種類の未知の事象に、それがいつ発生したかにかかわらず適用することができる。例えば、予測モデルは、事象が発生した後に、その事象を検出して、その事象に関連する人物を特定するためにしばしば使用される。
多くの場合、検出理論に基づいてモデルが選択され、例えば、ある電子メールが与えられた場合に、それがどれくらいスパムである可能性があるかを判定するといったように、ある設定された量の入力データが与えられた場合に結果の確率を推測しようとする。
モデルは、データのセットが別のセットに属する確率を決定しようとする際に、1つまたは複数の分類器を使用することができる。例えば、モデルを使用して、電子メールがスパムであるか、または「ハム(ham)」(非スパム)であるかを判定することができる。
定義上の境界にもよるが、予測モデリングは、学術的または研究開発の文脈においてより一般的に呼ばれる機械学習の分野と同義であり、または大部分が重複している。商業的に展開される場合、予測モデリングは、しばしば予測分析と呼ばれる。
より優れた予測モデルを達成することが機械学習技術の研究および実践における目的である。例えば、アンサンブル法は、複数の学習アルゴリズムを用いて、構成する学習アルゴリズムのいずれか単独から得ることができるよりも優れた予測性能を得る。このようなアンサンブル法には、ブートストラップ・アグリゲーティング(bootstrap aggregating)(バギング(bagging)とも呼ばれる)、ブースティングなどが含まれる。
ブートストラップ・アグリゲーティングは、統計的分類および回帰において使用される機械学習アルゴリズムの安定性および精度を向上させるように設計された機械学習アンサンブルのメタアルゴリズムである。ブースティングは、主に教師あり学習における偏りと、さらに分散も低減するための機械学習アンサンブルのメタアルゴリズムであり、弱い学習器を強い学習器に変換する機械学習アルゴリズムのファミリーである。
ブースティングなどのこのような技術では、モデル化プロセス中に、誤って分類されたケースの重みを増加させ、一方、正しく分類されたケースの重みを減少させる。このような戦略(ヒューリスティック)は、多くの場合、より優れた予測を達成するが、外れ値/ノイズを過剰にフィッティングする可能性がある。外れ値/ノイズの過剰フィッティングの結果として、予測精度が低下する。
したがって、誤って分類されたケースの重みを増加させ、正しく分類されたケースの重みを減少させる発見的戦略は、モデルの予測精度を向上させるための最良の戦略ではない可能性がある。
例えば、正しく分類されたケースは、機械学習アルゴリズムが学習すべき非常に重要なパターンを含むため、このようなケースの重みを増加させた方がよい場合がある。同様の理由で、外れ値ケースなどの誤って分類されたケースの重みを減少させた方がよい場合もある。
その結果、ブースティングなどのこのような技術は、分類されたケースに対する最適な重みを特定することができず、したがって、機械学習技術において最適な予測精度を達成することができない。
本発明の一実施形態において、機械学習技術における予測精度を向上させるためのコンピュータ実装方法は、教師モデルを構築することを含み、教師モデルが各データ・ケースに対する重みを生成する。本方法は、訓練データおよび教師モデルによって生成された重みを用いて現在の生徒モデルを訓練することをさらに含む。本方法は、現在の生徒モデルによって状態特徴を生成することをさらに含む。さらに、本方法は、状態特徴を用いて、教師モデルによって新しい重みを生成することを含む。さらに、本方法は、訓練データおよび新しい重みを用いて、候補生徒モデルを訓練することを含む。加えて、本方法は、訓練データおよびテスト・データを用いて、現在の生徒モデルを候補生徒モデルと比較して、どちらが観察されたターゲットを予測するのにより優れているかを判定することによって報酬を生成することを含む。本方法は、停止規則が満たされないことに応答して、教師モデルを報酬で更新することをさらに含む。本方法は、停止規則が満たされたことに応答して、新しい重みおよび現在の生徒モデルをユーザに返すことをさらに含み、返された生徒モデルが観察されたターゲットの予測を提供する。
本発明の別の実施形態では、機械学習技術における予測精度を向上させるための、プログラム・コードが具現化されたコンピュータ可読記憶媒体を備えるコンピュータ・プログラム製品であって、プログラム・コードが教師モデルを構築するためのプログラミング命令を含み、教師モデルが各データ・ケースに対する重みを生成する、コンピュータ・プログラム製品が提供される。プログラム・コードは、訓練データおよび教師モデルによって生成された重みを用いて現在の生徒モデルを訓練するためのプログラミング命令をさらに含む。プログラム・コードは、現在の生徒モデルによって状態特徴を生成するためのプログラミング命令をさらに含む。さらに、プログラム・コードは、状態特徴を用いて、教師モデルによって新しい重みを生成するためのプログラミング命令を含む。さらに、プログラム・コードは、訓練データおよび新しい重みを用いて、候補生徒モデルを訓練するためのプログラミング命令を含む。加えて、プログラム・コードは、訓練データおよびテスト・データを用いて、現在の生徒モデルを候補生徒モデルと比較して、どちらが観察されたターゲットを予測するのにより優れているかを判定することによって報酬を生成するためのプログラミング命令を含む。プログラム・コードは、停止規則が満たされないことに応答して教師モデルを報酬で更新するためのプログラミング命令をさらに含む。プログラム・コードは、停止規則が満たされたことに応答して新しい重みおよび現在の生徒モデルをユーザに返すためのプログラミング命令をさらに含み、返された生徒モデルが観察されたターゲットの予測を提供する。
本発明のさらなる実施形態では、システムは、機械学習技術における予測精度を向上させるためのコンピュータ・プログラムを記憶するためのメモリと、メモリに接続されたプロセッサとを備え、プロセッサは、教師モデルを構築することを含むコンピュータ・プログラムのプログラム命令を実行するように構成され、教師モデルは、各データ・ケースに対する重みを生成する。コンピュータ・プログラムのプログラム命令は、訓練データおよび教師モデルによって生成された重みを用いて現在の生徒モデルを訓練することをさらに含む。コンピュータ・プログラムのプログラム命令は、現在の生徒モデルによって状態特徴を生成することをさらに含む。さらに、コンピュータ・プログラムのプログラム命令は、状態特徴を用いて、教師モデルによって新しい重みを生成することを含む。さらに、コンピュータ・プログラムのプログラム命令は、訓練データおよび新しい重みを用いて、候補生徒モデルを訓練することを含む。加えて、コンピュータ・プログラムのプログラム命令は、訓練データおよびテスト・データを用いて、現在の生徒モデルを候補生徒モデルと比較して、どちらが観察されたターゲットを予測するのにより優れているかを判定することによって報酬を生成することを含む。コンピュータ・プログラムのプログラム命令は、停止規則が満たされないことに応答して、教師モデルを報酬で更新することをさらに含む。コンピュータ・プログラムのプログラム命令は、停止規則が満たされたことに応答して、新しい重みおよび現在の生徒モデルをユーザに返すことをさらに含み、返された生徒モデルが観察されたターゲットの予測を提供する。
このようにして、本発明は、予測モデリングの分野において「学習して教える」という概念を実現するフレームワークを考案している。このようなフレームワークは、教師モデルを含み、教師モデルが各データ・ケースに対する重みを生成する。訓練データ・ケースは、生成された重みと共に、生徒モデルを再訓練するために使用される。報酬は、訓練された生徒モデルを、予測精度に関して、ホールドアウトされた(held-out)データ・セット(テスト・データ)で評価することによって返される。次いで、教師モデルは、報酬を利用して、ポリシー勾配法、例えば強化学習を介してそのパラメータを更新する。このようなプロセスは、生徒モデルが所望の性能を達成するまで繰り返される。
以前に使用された発見的方法(例えば、ブースティング)と比較して、本発明のアプローチは、最適な仕方でケースの重みを決定する。これにより、アンサンブル・モデルを用いるのではなく、基本的な学習器、例えば、決定木、ニューラル・ネットワークなどを介して、より優れた生徒モデルを構築することが可能になる。
生徒モデルに対するアクションとしてケース重みを用いることによって、どのようなタイプの機械学習器でも、その学習器が訓練においてケース重みをサポートするのであれば、生徒モデルとして使用することができる。
さらに、訓練データが偏ったサンプリングからのものである場合、生成された重みによって、訓練データにおけるデータ・ケースの分布を補正することができる。
上記は、以下の本発明の詳細な説明がよりよく理解され得るように、本発明の1つまたは複数の実施形態の特徴および技術的利点をかなり一般的に概説している。本発明の特許請求の範囲の主題を形成し得る本発明のさらなる特徴および利点は、以降に記載される。
以下の詳細な説明を以下の図面と併せて考慮すると、本発明のより良い理解を得ることができる。
本発明の一実施形態による、本発明の原理を実践するための通信システムを示す図である。 本発明を実践するためのハードウェア環境を表す予測分析システムのハードウェア構成の本発明の一実施形態を示す図である。 本発明の一実施形態による、予測を生成するための予測モデルによって使用される最適な重みを特定するために使用される予測分析システムのソフトウェア・コンポーネントの図である。 本発明の一実施形態による生徒モデルによって生成される状態特徴を示す図である。 本発明の一実施形態による報酬生成器によって生成される報酬を示す図である。 本発明の実施形態による、機械学習技術における予測精度を向上させるための方法の流れ図である。
本発明は、機械学習技術における予測精度を向上させるためのコンピュータ実装方法、システム、およびコンピュータ・プログラム製品を含む。本発明の一実施形態では、教師モデルが構築され、教師モデルは、各データ・ケースに対する重みを生成する。「教師モデル」とは、本明細書で使用される場合、生徒モデルの学習を容易にするために、適切なデータ、損失関数、および仮説空間を決定する統計モデルを指す。次いで、訓練データおよび教師モデルによって生成された重みを用いて現在の生徒モデルが訓練される。「生徒モデル」とは、本明細書で使用される場合、訓練データを用いて予測を提供するように訓練される統計モデルを指す。「現在の」生徒モデルとは、本明細書で使用される場合、訓練データを用いて予測を提供するように現在訓練されている生徒モデルを指す。現在の生徒モデルは、新しい重みを生成するために教師モデルによって使用される状態特徴(例えば、データ特徴、ケース重み、生徒モデル特徴、およびデータと生徒モデルの両方の組合せを表す特徴)を生成する。次いで、訓練データおよびこれらの新しい重みを用いて、候補生徒モデルが訓練される。「候補生徒モデル」とは、本明細書で使用される場合、現在の生徒モデルよりも優れた生徒モデル(観察されたターゲットを予測するのにより優れている)かどうかを判定するために調べられている生徒モデルを指す。次いで、訓練データおよびテスト・データを用いて、現在の生徒モデルと候補生徒モデルを比較して、どちらが観察されたターゲットを予測するのにより優れているかを判定することによって報酬を生成する。「報酬」とは、本明細書で使用される場合、強化学習で用いられる関数(報酬関数)によって生成される値を指す。候補生徒モデルが現在の生徒モデルよりも観察されたターゲットを予測するのにより優れている場合、正の報酬が返されてもよい。逆に、現在の生徒モデルが候補生徒モデルよりも観察されたターゲットを予測するのにより優れている場合、負の報酬が返されてもよい。その後、教師モデルが報酬で更新される。教師モデルは、報酬を利用して、強化学習などのポリシー勾配法を介してそのパラメータを更新する。候補生徒モデルが現在の生徒モデルよりも観察されたターゲットを予測するのにより優れている場合、現在の生徒モデルは、候補生徒モデルで更新され、現在の重みは、教師モデルによって生成された新しい重みで更新される。現在の重みを新しい重みで更新すると、現在の生徒モデルは、新しい状態特徴を生成する。しかしながら、候補生徒モデルが現在の生徒モデルよりも観察されたターゲットを予測するのにより優れていない場合、更新された教師モデルは、現在の生徒モデルからの現在の重みおよび現在の生徒特徴を用いて新しい重みを生成する。停止規則のいずれかが満たされると(例えば、指定された試行回数に達すること、指定された訓練タイミングに達すること、予測精度の収束、およびユーザ主導による終了)、教師モデルによって生成された重みは、「最適な」重みと見なされ、対応する生徒モデルと共にユーザに返される。このようにして、予測精度を向上させるための最適な重みが特定される。
以下の説明では、本発明の完全な理解を提供するために、多数の具体的な詳細が述べられる。しかしながら、本発明がこれらの具体的な詳細なしに実行され得ることは当業者には明らかであろう。他の例では、不必要な詳細で本発明を不明瞭にしないために、よく知られている回路は、ブロック図の形態で示されている。ほとんどの場合、タイミングの考察などを考慮する詳細は、そのような詳細が本発明の完全な理解を得るために必要ではなく、当業者のスキルの範囲内であるため省略されている。
ここで図を詳細に参照すると、図1は、機械学習技術を用いて予測を行うための通信システム100を示す。一実施形態では、システム100は、訓練データ103およびテスト・データ104(本明細書では「ホールドアウト・データ」とも呼ばれる)などのデータを用いて予測102を生成するための予測分析システム101を含む。予測を行うために訓練データ103およびテスト・データ104を用いる予測分析システム101のさらなる説明は、図3~図6に関連して以下でさらに説明される。
一実施形態では、予測分析システム101は、現在のデータを分析して将来に関する予測を行うために、データ・マイニング、統計、モデリング、機械学習、および人工知能からの多くの技術を使用して、未知の将来の事象に関する予測を行う。
一実施形態では、予測分析システム101は、2つの知的エージェント、すなわち教師モデルおよび生徒モデルを含む「学習して教える」という概念を利用する。訓練段階は、教師モデルと生徒モデルとの間の連続的な相互作用のいくつかのエピソードを含む。生徒モデルによって生成された状態情報に基づいて、教師モデルは、生徒モデルの機械学習問題を改良するように、その教示アクションを更新する。次いで、生徒モデルは、教師モデルからの入力に基づいてその学習プロセスを実行し、その後、報酬信号(例えば、訓練データでの精度)を教師モデルに返す。次いで、教師モデルは、そのような報酬を利用して、強化学習技術の一種であるポリシー勾配法を介してそのパラメータを更新する。この対話式プロセスは、人間が定義した経験則の制限を受けず、エンド・ツー・エンドで訓練可能である。一実施形態では、「学習して教える」という概念は、生徒モデルのアクションとしてケース(データ・ケース)の重みを活用するというアプローチを考案することによって実施される。予測分析システム101のハードウェア構成の説明は、図2に関連して以下で提供される。
ここで図2を参照すると、図2は、本発明を実施するためのハードウェア環境を表す予測分析システム101(図1)のハードウェア構成の本発明の一実施形態を示す。予測分析システム101は、機械学習技術における予測精度を向上させるための最適な重みを特定する能力を有するように構成された任意のタイプの分析システム(例えば、ポータブル・コンピューティング・ユニット、携帯情報端末(PDA)、ラップトップ・コンピュータ、モバイル・デバイス、タブレット・パーソナル・コンピュータ、スマートフォン、携帯電話、ナビゲーション・デバイス、ゲーム・ユニット、デスクトップ・コンピュータ・システム、ワークステーション、インターネット家電など)であってもよい。
図2を参照すると、予測分析システム101は、システム・バス202によって様々な他の構成要素に接続されたプロセッサ201を有することができる。オペレーティング・システム203は、プロセッサ201上で動作し、図2の様々な構成要素の機能を制御し、調整することができる。本発明の原理によるアプリケーション204は、オペレーティング・システム203と連携して動作し、アプリケーション204によって実行される様々な機能またはサービスを実施する呼び出しをオペレーティング・システム203に提供することができる。アプリケーション204は、例えば、図3~図6に関連して以下で論じる機械学習技術における予測精度を向上させるための最適な重みを特定するためのプログラムを含むことができる。
再び図2を参照すると、読み取り専用メモリ(「ROM」)205は、システム・バス202に接続されてもよく、予測分析システム101の特定の基本機能を制御する基本入出力システム(「BIOS」)を含むことができる。ランダム・アクセス・メモリ(「RAM」)206およびディスク・アダプタ207も、システム・バス202に接続されてもよい。オペレーティング・システム203およびアプリケーション204を含むソフトウェア・コンポーネントは、予測分析システム101の実行用のメインメモリであってもよいRAM206にロードされ得ることに留意されたい。ディスク・アダプタ207は、ディスク・ユニット208、例えばディスク・ドライブと通信する統合ドライブ・エレクトロニクス(「IDE」)アダプタであってもよい。図3~図6に関連して以下で論じるように、機械学習技術において予測精度を向上させるための最適な重みを特定するためのプログラムは、ディスク・ユニット208またはアプリケーション204に常駐することができることに留意されたい。
予測分析システム101は、バス202に接続された通信アダプタ209をさらに含むことができる。通信アダプタ209は、バス202を外部ネットワークと相互接続することができ、それによって予測分析システム101が他のデバイスと通信することを可能にする。
I/Oデバイスも、ユーザ・インターフェース・アダプタ210およびディスプレイ・アダプタ211を介して予測分析システム101に接続されてもよい。キーボード212、マウス213、およびスピーカ214はすべて、ユーザ・インターフェース・アダプタ210を介してバス202に相互接続されてもよい。ディスプレイ・モニタ215は、ディスプレイ・アダプタ211によってシステム・バス202に接続されてもよい。このようにして、ユーザは、キーボード212またはマウス213を介して予測分析システム101に入力し、ディスプレイ215またはスピーカ214を介して予測分析システム101から出力を受け取ることができる。タッチスクリーン機能を有するディスプレイ215および仮想キーボードであるキーボード212などの、図2に示されていない他の入力機構を使用して、データを予測分析システム101に入力してもよい。図2の予測分析システム101は、図2に描かれている要素に範囲が限定されるべきではなく、図2に描かれた要素よりも少ない要素またはさらなる要素を含むことができる。
本発明は、任意の可能な技術的な詳細レベルの統合において、システム、方法、またはコンピュータ・プログラム製品、あるいはその組合せであってもよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体を含むことができる。
コンピュータ可読記憶媒体は、命令実行デバイスが使用するための命令を保持および記憶することができる有形のデバイスとすることができる。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または前述の任意の適切な組合せであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラム可能読み取り専用メモリ(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み取り専用メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリ・スティック、フロッピー(R)・ディスク、パンチ・カードまたは命令が記録された溝内の隆起構造などの機械的に符号化されたデバイス、および前述の任意の適切な組合せが含まれる。コンピュータ可読記憶媒体は、本明細書で使用される場合、電波もしくは他の自由に伝播する電磁波、導波路もしくは他の伝送媒体を通して伝播する電磁波(例えば、光ファイバ・ケーブルを通過する光パルス)、またはワイヤを通して送信される電気信号などの、それ自体一過性の信号であると解釈されるべきではない。
本明細書に記載されたコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスに、あるいはネットワーク、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークまたはワイヤレス・ネットワークあるいはその組合せを介して外部コンピュータまたは外部記憶デバイスにダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータまたはエッジ・サーバあるいはその組合せを含むことができる。各コンピューティング/処理装置のネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、コンピュータ可読プログラム命令をそれぞれのコンピューティング/処理装置内のコンピュータ可読記憶媒体に記憶するために転送する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路の構成データ、あるいは、Smalltalk(R)、C++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語または同様のプログラミング言語などの手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組合せで記述されたソースコードあるいはオブジェクトコードのいずれかであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、一部はユーザのコンピュータ上で、スタンドアロン・ソフトウェア・パッケージとして、一部はユーザのコンピュータ上でかつ一部はリモート・コンピュータ上で、または完全にリモート・コンピュータもしくはサーバ上で実行されてもよい。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)もしくはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよく、または接続は、(例えば、インターネット・サービス・プロバイダを使用してインターネットを介して)外部コンピュータに対して行われてもよい。一部の実施形態では、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることによって、コンピュータ可読プログラム命令を実行することができる。
本発明の態様は、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品の流れ図またはブロック図あるいはその両方を参照して本明細書に記載されている。流れ図またはブロック図あるいはその両方の各ブロック、ならびに流れ図またはブロック図あるいはその両方のブロックの組合せは、コンピュータ可読プログラム命令によって実施することができることを理解されよう。
これらのコンピュータ可読プログラム命令は、コンピュータのプロセッサまたは他のプログラム可能なデータ処理装置に提供されて、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令が、流れ図またはブロック図あるいはその両方のブロックで指定された機能/行為を実施するための手段を作成するように、機械を生成することができる。これらのコンピュータ可読プログラム命令はまた、内部に命令が記憶されたコンピュータ可読記憶媒体が流れ図またはブロック図あるいはその両方のブロックで指定された機能/行為の態様を実施する命令を含む製造物品を備えるように、コンピュータ、プログラム可能なデータ処理装置、または他の装置あるいはその組合せが特定のやり方で機能するように指図することができるコンピュータ可読記憶媒体に記憶されてもよい。
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能なデータ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラム可能な装置、または他のデバイス上で実行される命令が、流れ図またはブロック図あるいはその両方のブロックで指定された機能/行為を実施するように、一連の動作ステップをコンピュータ、他のプログラム可能な装置、または他のデバイス上で実行させて、コンピュータ実施プロセスを生成することができる。
図中の流れ図およびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実施態様のアーキテクチャ、機能、および動作を示す。これに関して、流れ図またはブロック図の各ブロックは、指定された論理機能を実施するための1つまたは複数の実行可能命令を含む、モジュール、セグメント、または命令の一部を表すことができる。一部の代替の実施態様では、ブロックに示されている機能は、図に示されている順序とは異なる順序で行われてもよい。例えば、連続して示される2つのブロックは、実際には、1つのステップとして遂行されてもよく、同時に、実質的に同時に、部分的または全体的に時間的に重複して実行されてもよく、あるいはブロックは、含まれる機能に応じて逆の順序で実行されてもよい。ブロック図または流れ図あるいはその両方の各ブロック、およびブロック図または流れ図あるいはその両方のブロックの組合せは、指定された機能もしくは行為を実行する、または専用のハードウェアおよびコンピュータ命令の組合せを実行する専用のハードウェア・ベースのシステムによって実施することができることにも留意されたい。
背景技術のセクションで述べたように、より優れた予測モデルを達成することは、機械学習技術の研究および実践における目的である。例えば、アンサンブル法は、複数の学習アルゴリズムを使用して、構成する学習アルゴリズムのいずれか単独から得ることができるよりも優れた予測性能を得る。このようなアンサンブル法には、ブートストラップ・アグリゲーティング(バギングとも呼ばれる)、ブースティングなどが含まれる。ブートストラップ・アグリゲーティングは、統計的分類および回帰において使用される機械学習アルゴリズムの安定性および精度を向上させるように設計された機械学習アンサンブルのメタアルゴリズムである。ブースティングは、主に教師あり学習における偏りと、さらに分散も低減するための機械学習アンサンブルのメタアルゴリズムであり、弱い学習器を強い学習器に変換する機械学習アルゴリズムのファミリーである。ブースティングなどのこのような技術では、モデル化プロセス中に、誤って分類されたケースの重みを増加させ、一方、正しく分類されたケースの重みを減少させる。このような戦略(ヒューリスティック)は、多くの場合、より優れた予測を達成するが、外れ値/ノイズを過剰にフィッティングする可能性がある。外れ値/ノイズの過剰フィッティングの結果として、予測精度が低下する。したがって、誤って分類されたケースの重みを増加させ、正しく分類されたケースの重みを減少させる発見的戦略は、モデルの予測精度を向上させるための最良の戦略ではない可能性がある。例えば、正しく分類されたケースは、機械学習アルゴリズムが学習すべき非常に重要なパターンを含むため、このようなケースの重みを増加させた方がよい場合がある。また、同様の理由で、外れ値ケースなどの誤って分類されたケースの重みを減少させた方がよい場合もある。結果として、ブースティングなどのこのような技術は、分類されたケースに対する最適な重みを特定することができず、したがって、機械学習技術において最適な予測精度を達成することができない。
本発明の実施形態は、図3~図6に関連して以下で論じるように、2つの知的エージェント(教師モデルおよび生徒モデル)を含む、学習して教えるという概念を用いて最適な重みを特定することによって、機械学習技術において最適な予測精度を達成するための手段を提供する。図3は、予測を生成するために予測モデルによって使用される最適な重みを特定するために使用される予測分析システム101のソフトウェア・コンポーネントの図である。図4は、生徒モデルによって生成された状態特徴を示す。図5は、報酬生成器によって生成された報酬を示す。図6は、機械学習技術における予測精度を向上させるための方法の流れ図である。
訓練データ{<X_k,f_k,y_k>|k=1,...,N}が与えられ、ここで、X_kはケースkにおける予測子のベクトルであり、y_kは観察されたターゲットであり、f_kは任意のケース重みである(ケース重みが存在しない場合はf_k=1とする)とすると、本発明は、各ケースkについて最適なケース重みf_koptを生成する。最適なケース重みを用いて、生徒モデルは、以下に論じるようにホールドアウトされたデータ・セットを用いて正確な予測を提供するように訓練される。
上述したように、図3は、本発明の実施形態による予測を生成するために予測モデルによって使用される最適な重みを特定するために使用される予測分析システム101のソフトウェア・コンポーネントの図である。一実施形態では、これらのソフトウェア・コンポーネントは、予測分析システム101のアプリケーション204(図2)に常駐することができる。
以下は、これらのソフトウェア・コンポーネントの簡単な説明を提供する。これらのソフトウェア・コンポーネント(それらの機能を含む)のより詳細な説明は、図4~図6に関連して以下に提供される。
図1~図2と併せて図3を参照すると、予測分析システム101は、本明細書で「教師モデル」301と呼ばれるモジュールを含む。一実施形態では、教師モデル301は、状態特徴を入力として受け取り、各データ・ケースについて重みを生成するように構成されたニューラル・ネットワークである。一実施形態では、ニューラル・ネットワークの重みパラメータは、訓練プロセスの前にランダムに初期化される。
予測分析システム101は、本明細書において「現在の生徒モデル302」と呼ばれるモジュールをさらに含み、このモジュールは、教師モデル301によって生成された重みを受け取り、図4に示されるような状態特徴を生成する。「生徒モデル」とは、本明細書で使用される場合、訓練データ103を用いて予測を提供するように訓練された統計モデルを指す。「現在の」生徒モデル302とは、本明細書で使用される場合、訓練データ103を用いて予測を提供するように予測分析システム101によって現在訓練されている生徒モデルを指す。一実施形態では、生徒モデル302は、決定木またはニューラル・ネットワークなどの学習器に対応する。一実施形態では、決定木学習は、決定木を予測モデルとして使用して、アイテムに関する観察(枝で表される)からアイテムの目標値に関する結論(葉で表される)へと進む。一実施形態では、ニューラル・ネットワークは、ニューロン(人工ニューロン)もしくはノードのネットワークまたは回路である。
図4は、本発明の一実施形態による、生徒モデル302によって生成された状態特徴を示す。
図4を参照すると、このような状態特徴は、予測子401、それらの対応する重み402、およびそれらの予測値403を含むことができる。一実施形態では、予測子401は、観察されたターゲットなどの結果変数に対応する。重み402は、教師モデル301から得られるこのような予測子に割り当てられた重みに対応する。一実施形態では、このような重み402は、予測子401の対応する予測値403が正確であることの信頼度を示す。値が高いほど、対応する予測値403が正しいことの信頼度が高くなる。
一実施形態では、このような状態特徴は、データ特徴、ケース重み、生徒モデル特徴、およびデータと生徒モデルの両方の組合せを表す特徴も含むことができる。
一実施形態では、このような状態特徴は、教師モデル301によって利用されて、候補生徒モデル303を訓練するために使用される新しい重みを生成することができる。「候補生徒モデル303」とは、本明細書で使用される場合、現在の生徒モデルよりも優れた生徒モデルである(観察されたターゲットの予測においてより優れている)かどうかを判定するために調べられている生徒モデルを指す。
一実施形態では、候補生徒モデル303は、訓練データ103および教師モデル301によって生成された新しい重みを用いることによって訓練される。
図3に示すように、本明細書において「報酬生成器304」と呼ばれるモジュールは、訓練データ103およびテスト・データ104(「ホールドアウトされたデータ」)を使用して、現在の生徒モデル302と候補生徒モデル303を比較することによって報酬を生成する。一実施形態では、教師モデル301は、報酬で更新される。一実施形態では、教師モデル301は、報酬を利用して、強化学習などのポリシー勾配法を介してそのパラメータを更新する。
「報酬」とは、本明細書で使用される場合、強化学習で用いられる関数(報酬関数)によって生成される値を指す。強化学習エージェント(予測分析システム101)の目標は、できるだけ多くの報酬を収集することである。一実施形態では、候補生徒モデル303が現在の生徒モデル302よりも観察されたターゲットを予測するのに優れている場合、報酬生成器304によって正の報酬が返される。逆に、現在の生徒モデル302が候補生徒モデル303よりも観察されたターゲットを予測するのに優れている場合、報酬生成器304によって負の報酬が返される。一実施形態では、報酬生成器304は、候補生徒モデル303の一部である。
一実施形態では、このような報酬は、図5に示すように、訓練データ103、テスト・データ104を生徒モデル302、303に適用することによって、報酬生成器304によって生成される。
図5は、本発明の一実施形態による報酬生成器304によって生成される報酬を示す。
図5を参照すると、報酬生成器304は、モデル・レベル報酬501およびケース・レベル報酬502を生成する。一実施形態では、モデル・レベル報酬501とは、テスト・データ104に基づいて、観察されたターゲットに対する予測を生成する生徒モデル302、303に関連付けられた報酬を指す。例えば、報酬501は、候補生徒モデル303がテスト・データ104を用いて観察されたターゲットを予測するのに現在の生徒モデル302よりもどれほど優れているかに基づいて生成される。候補生徒モデル303がテスト・データ104を用いて観察されたターゲットを予測するのに現在の生徒モデル302よりも優れている場合、報酬生成器304によって正の報酬501が返される。逆に、現在の生徒モデル302がテスト・データ104を用いて観察されたターゲットを予測するのに候補生徒モデル303よりも優れている場合、報酬生成器304によって負の報酬501が返される。
ケース・レベル報酬502とは、生徒モデル302、303が訓練データ103を用いてデータ・ケースを正しく分類したことに基づく報酬を指す。生徒モデル302、303がデータ・ケースを正しく分類した場合、報酬生成器304によって正の報酬502が返される。逆に、生徒モデル302、303がデータ・ケースを正しく分類しなかった場合、報酬生成器304によって負の報酬502が返される。
一実施形態では、報酬生成器304は、モデル・レベル報酬501とケース・レベル報酬502との組合せである最終報酬503、例えば、2つの報酬の平均を生成する。
図3に戻ると、報酬を利用して、本明細書において「アップデータ305」と呼ばれるモジュールが教師モデル301を報酬で更新する。一実施形態では、教師モデル301は、連想即時強化学習タスクに直面する。各試行において強化値に対する報酬がrであると仮定すると、ネットワークのパラメータw_ijは、量
Figure 0007471408000001

だけ増分され、ここで、αは学習率係数であり、Nは正の整数であり、g_kはケースkに対する教師モデルの出力である。
教師モデル301が更新されると、候補生徒モデル303が現在の生徒モデル302よりも観察されたターゲットの優れた予測子であるかどうかに関して、意思決定器306によって判定が行われる。一実施形態では、候補生徒モデル303が現在の生徒モデル302よりも観察されたターゲットを予測するのに優れている場合、意思決定器306は、現在の生徒モデル302を候補生徒モデル303で更新するとともに、現在の重みを新しい重みで更新する。次いで、更新された生徒モデル302は、教師モデル301に入力される新しい状態特徴を生成する。
あるいは、候補生徒モデル303が現在の生徒モデル302よりも観察されたターゲットを予測するのに優れていない場合、意思決定器306は、現在の生徒モデル302からの現在の生徒特徴を使用して新しい重みを生成するように、更新された教師モデル301(上述したように報酬で更新される)に直接要求する。
上述したソフトウェア・コンポーネントを用いて機械学習技術における予測精度を向上させるプロセスに関するより詳細な説明は、図6に関連して以下に提供される。
図6は、本発明の実施形態による機械学習技術における予測精度を向上させるための方法600の流れ図である。
図1~図5と併せて図6を参照すると、ステップ601において、予測分析システム101は、各データ・ケースに対する重みを生成する教師モデル301を構築する。「教師モデル」とは、本明細書で使用される場合、生徒モデルの学習を容易にするために、適切なデータ、損失関数、および仮説空間を決定する統計モデルを指す。一実施形態では、教師モデル301は、ニューラル・ネットワークである。一実施形態では、教師モデル301は、現在の生徒モデル302から状態特徴を入力として受け取り、各データ・ケースに対する重みを生成する。「データ・ケース」とは、本明細書で使用される場合、観察されたターゲットを予測するために使用されるデータを指す。一実施形態では、重みパラメータは、訓練プロセスが開始する前にランダムに初期化される(以下でさらに説明する)。
一実施形態では、教師モデル301は、いくつかの層で構成されたネットワークを含む。一実施形態では、層は、ノードでできており、ノードは、計算が行われる場所であり、十分な刺激に遭遇すると発火する人間の脳の神経細胞を緩く模倣したものである。ノードは、現在の生徒モデル302からの状態特徴(以下でさらに説明する)などのデータからの入力を、その入力を増幅または減衰させる係数または重みのセットと組み合わせ、それによって、アルゴリズムが学習しようとしているタスクに関する入力に重要性を割り当てる(例えば、どの入力がエラーなしにデータを分類するのに最も役立つか)。これらの入力-重み積は合計され、次いで、その合計がノードのいわゆる活性化関数に渡され、最終的な結果(例えば、分類の行為)に影響を及ぼすために信号がネットワークを通してさらに進むべきかどうか、およびどの程度進むべきかが決定される。信号が通過した場合、ニューロンは、「活性化」されたことになる。
一実施形態では、ノード層は、入力がネットを介して供給されるとオンまたはオフになるニューロン様スイッチの行である。データを受け取る最初の入力層から始まって、各層の出力は、同時に後続の層の入力となる。
一実施形態では、モデルの調整可能な重みは、ニューラル・ネットワークが入力をどのように分類およびクラスタ化するかに関してそれらの特徴に重要性を割り当てるように、入力特徴と対にされる。
一実施形態では、このような生成された重みを用いて、訓練データ103が偏ったサンプリングからのものである場合に、訓練データ103におけるデータ・ケースの分布を補正することができる。
ステップ602において、予測分析システム101は、訓練データ103および教師モデル301によって生成された重み(各データ・ケースに対する現在の重み)を用いて、現在の生徒モデル302を訓練する。前述したように、現在の生徒モデル302とは、訓練データ103を用いて予測を提供するために予測分析システム101によって現在訓練されている生徒モデル(観察されたターゲットを予測するなど、訓練データを用いて予測を提供するように訓練された統計モデル)を指す。前にも説明したように、一実施形態では、現在の生徒モデル302は、決定木またはニューラル・ネットワークなどの学習器に対応する。一実施形態では、決定木学習は、決定木を予測モデルとして使用して、アイテムに関する観察(枝で表される)からアイテムの目標値に関する結論(葉で表される)へと進む。一実施形態では、ニューラル・ネットワークは、ニューロン(人工ニューロン)もしくはノードのネットワークまたは回路である。
一実施形態では、ケース重みは、現在の生徒モデル302(ならびに以下でさらに説明する候補生徒モデル303)に対するアクションとして使用される。このような方法により、どのようなタイプの機械学習器でも、その学習器が訓練においてケース重みをサポートするのであれば、生徒モデル(生徒モデル302、303)として使用することができる。
一実施形態では、このような訓練は、教師モデル301によって生成された重みなどのパラメータをフィッティングさせるために使用される例のセットである訓練データ・セット103に、現在の生徒モデル302をフィッティングさせることを含む。一実施形態では、現在の生徒モデル302は、教師あり学習方法(例えば、勾配降下または確率的勾配降下)を使用して訓練される。一実施形態では、訓練データ・セット103は、入力ベクトル(またはスカラー)と、対応する出力ベクトル(またはスカラー)との対から構成され、これらをターゲットして表記することができる。現在の生徒モデル302は、訓練データ・セット103を用いて実行され、結果を生成し、次いで、その結果が、訓練データ・セット103の各入力ベクトルについて、ターゲットと比較される。比較の結果および使用されている特定の学習アルゴリズムに基づいて、生徒モデル302のパラメータが調整される。
ステップ603において、現在の生徒モデル302を訓練した後、訓練された現在の生徒モデル302が状態特徴を生成する。一実施形態では、状態特徴は、現在の生徒モデル302に基づいて各データ・ケースに対して定義される。状態特徴は、その予測子、ターゲットなどの、データ・ケースについての情報を含むデータ特徴と、教師モデル301によって生成されたケース重みと、現在の生徒モデル302がどれだけよく訓練されているかを反映する尺度を含む生徒モデル特徴と、予測ターゲット、各ターゲット・カテゴリの確率などの、データと生徒モデル302の両方の組合せを表す特徴とを含むことができるが、これらだけには限定されない。
一実施形態では、ケース・レベル状態特徴も、対応するケース重みを含む、生徒モデル302によって生成される。
一実施形態では、現在の生徒モデル302は、前述の状態特徴を含むデータを生成する。このような特徴は、受信訓練データ103および教師モデル301からの重みに基づいて、統計的仮定のセットを使用して生成される。
ステップ604において、教師モデル301は、現在の生徒モデル302によって生成された状態特徴を用いて新しい重みを生成する。一実施形態では、このような状態特徴は、教師モデル301に入力され、上述したように教師モデル301によって重みを生成するために使用される。
ステップ605において、予測分析システム101は、訓練データ103および教師モデル301によって生成された新しい重みを用いて、候補生徒モデル303を訓練する。一実施形態では、候補生徒モデル303の訓練は、ステップ602に関連して上述したように、現在の生徒モデル302の訓練と同じやり方で実行される。
ステップ606において、報酬生成器304は、訓練データ103およびテスト・データ104(「ホールドアウトされたデータ」)を用いて、現在の生徒モデル302と候補生徒モデル303を(生徒モデル302、303を訓練した後に)比較して、どちらが観察されたターゲットを予測するのに優れているかを判定することによって報酬を生成する。「報酬」とは、本明細書で使用される場合、強化学習で用いられる関数(報酬関数)によって生成される値を指す。強化学習エージェント(予測分析システム101)の目標は、できるだけ多くの報酬を収集することである。一実施形態では、候補生徒モデル303が、テスト・データ104を用いて、現在の生徒モデル302よりも観察されたターゲットを予測するのに優れている場合、正のモデル・レベル報酬501が報酬生成器304によって返される。逆に、現在の生徒モデル302が、テスト・データ104を用いて候補生徒モデル303よりも観察されたターゲットを予測するのに優れている場合、負のモデル・レベル報酬501が報酬生成器304によって返される。
ケース・レベル報酬502とは、生徒モデル302、303が訓練データ103を用いてデータ・ケースを正しく分類したことに基づく報酬を指す。生徒モデル302、303がデータ・ケースを正しく分類した場合、報酬生成器304によって正の報酬502が返される。逆に、生徒モデル302、303がデータ・ケースを正しく分類しなかった場合、報酬生成器304によって負の報酬502が返される。
一実施形態では、報酬生成器304は、モデル・レベル報酬501とケース・レベル報酬502との組合せである最終報酬503、例えば、2つの報酬の平均を生成する。
ステップ607において、停止規則が満たされたかどうかに関して、予測分析システム101によって判定が行われる。「停止規則」とは、本明細書で使用される場合、生徒モデルの訓練が完了したかどうかを判定する規則を指す。このような訓練は、データ・ケースに対する最適な重みが特定されたと判定されたときに完了する。
一実施形態では、このような停止規則には、指定された試行回数に達すること、指定された訓練タイミングに達すること、予測精度の収束、およびユーザ主導による終了が含まれるが、これらに限定されない。
これらの停止規則のいずれかが満たされた場合、ステップ608において、最適な重み(教師モデル301によって生成された重み)および対応する生徒モデル302が、予測分析システム101上のユーザ・インターフェースを介すなどしてユーザに返される。返された生徒モデルは、観察されたターゲットの正確な予測を提供することができる。さらに、教師モデル301によって生成された(ステップ604参照)返された重みは、停止規則が満たされた場合(例えば、予測精度が収束した場合)などに、「最適」重みであると見なされる。このようにして、予測精度を向上させるための最適な重みが特定される。
しかしながら、停止規則のいずれも満たされていない場合、ステップ609において、アップデータ305が教師モデル301を報酬(ステップ606の報酬)で更新する。一実施形態では、教師モデル301は、報酬を利用して、強化学習などのポリシー勾配法を介してそのパラメータを更新する。
前述したように、一実施形態では、教師モデル301は、連想即時強化学習タスクに直面する。各試行において強化値に対する報酬がrであると仮定すると、ネットワークのパラメータw_ijは、量
Figure 0007471408000002

だけ増分され、ここで、αは学習率係数であり、Nは正の整数であり、g_kはケースkに対する教師モデルの出力である。教師モデル301が更新される増分量Δwは、以下のように示すこともできる。
Figure 0007471408000003

ここで、rは各試行における強化値であり、wijは量Δwijだけ増分されたネットワークのパラメータであり、αは学習率係数であり、Nは正の整数であり、gはケースkに対する教師モデルの出力である。
教師モデル301を更新すると、ステップ610において、候補生徒モデル303が現在の生徒モデル302よりも観察されたターゲットのより優れた予測を生成するかどうかに関して、意思決定器306によって判定が行われる。このような判定は、予測が観察されたターゲットにどれだけ近いかに基づく。
候補生徒モデル303が現在の生徒モデル302よりも観察されたターゲットを予測するのに優れている場合、ステップ611において、現在の生徒モデル302が候補生徒モデル303で更新される。すなわち、ステップ611において、現在の生徒モデル302は、本質的に、候補生徒モデル303と置き換えられる。
さらに、候補生徒モデル303が現在の生徒モデル302よりも観察されたターゲットを予測するのに優れている場合、ステップ612において、現在の重みが新しい重み(ステップ604において教師モデル301によって生成された新しい重み)で更新される。
現在の重みを新しい重みで更新すると、更新された生徒モデル302(ステップ611で更新された)は、新しい重みを用いてステップ603において状態特徴を生成する。
あるいは、候補生徒モデル303が、現在の生徒モデル302よりも観察されたターゲットを予測するのに優れていない場合、意思決定器306は、現在の生徒モデル302からの現在の生徒特徴および現在の重みを用いて、ステップ604において新しい重みを生成するように、更新された教師モデル301(ステップ609において更新された)に直接要求する。
このようにして、本発明は、予測モデリングの分野において「学習して教える」という概念を実施するフレームワークを考案している。このようなフレームワークは、教師モデルを含み、教師モデルが各データ・ケースに対する重みを生成する。訓練データ・ケースは、生成された重みと共に、生徒モデルを再訓練するために使用される。報酬は、予測精度に関して、ホールドアウトされたデータ・セットで訓練された生徒モデルを評価することによって返される。次いで、教師モデルは、報酬を利用して、ポリシー勾配法、例えば強化学習を介してそのパラメータを更新する。このようなプロセスは、生徒モデルが所望の性能を達成するまで繰り返される。
以前に使用された発見的方法(例えば、ブースティング)と比較して、本発明のアプローチは、最適な仕方でケースの重みを決定する。これにより、アンサンブル・モデルを用いるのではなく、基本的な学習器、例えば、決定木、ニューラル・ネットワークなどを介して、より優れた生徒モデルを構築することが可能になる。
ケース重みを生徒モデルに対するアクションとして使用することによって、どのようなタイプの機械学習器でも、その学習器が訓練においてケース重みをサポートするのであれば、生徒モデルとして使用することができる。
さらに、本発明は、予測モデリングを含む技術または技術分野を向上させる。上述したように、より優れた予測モデルを達成することは、機械学習技術の研究および実践における目的である。例えば、アンサンブル法は、複数の学習アルゴリズムを使用して、構成する学習アルゴリズムのいずれか単独から得ることができるよりも優れた予測性能を得る。このようなアンサンブル法には、ブートストラップ・アグリゲーティング(バギングとも呼ばれる)、ブースティングなどが含まれる。ブートストラップ・アグリゲーティングは、統計的分類および回帰において使用される機械学習アルゴリズムの安定性および精度を向上させるように設計された機械学習アンサンブルのメタアルゴリズムである。ブースティングは、主に教師あり学習における偏りと、さらに分散も低減するための機械学習アンサンブルのメタアルゴリズムであり、弱い学習器を強い学習器に変換する機械学習アルゴリズムのファミリーである。ブースティングなどのこのような技術では、モデル化プロセス中に、誤って分類されたケースの重みを増加させ、一方、正しく分類されたケースの重みを減少させる。このような戦略(ヒューリスティック)は、多くの場合、より優れた予測を達成するが、外れ値/ノイズを過剰にフィッティングする可能性がある。外れ値/ノイズの過剰フィッティングの結果として、予測精度が低下する。したがって、誤って分類されたケースの重みを増加させ、正しく分類されたケースの重みを減少させる発見的戦略は、モデルの予測精度を向上させるための最良の戦略ではない可能性がある。例えば、正しく分類されたケースは、機械学習アルゴリズムが学習すべき非常に重要なパターンを含むため、このようなケースの重みを増加させた方がよい場合がある。また、同様の理由で、外れ値ケースなどの誤って分類されたケースの重みを減少させた方がよい場合もある。その結果、ブースティングなどのこのような技術は、分類されたケースに対する最適な重みを特定することができず、したがって、機械学習技術において最適な予測精度を達成することができない。
本発明は、教師モデルを構築することによってこのような技術を改善し、教師モデルが各データ・ケースに対する重みを生成する。「教師モデル」とは、本明細書で使用される場合、生徒モデルの学習を容易にするために、適切なデータ、損失関数、および仮説空間を決定する統計モデルを指す。次いで、訓練データおよび教師モデルによって生成された重みを用いて現在の生徒モデルが訓練される。「生徒モデル」とは、本明細書で使用される場合、訓練データを用いて予測を提供するように訓練される統計モデルを指す。「現在の」生徒モデルとは、本明細書で使用される場合、訓練データを用いて予測を提供するように現在訓練されている生徒モデルを指す。現在の生徒モデルは、新しい重みを生成するために教師モデルによって使用される状態特徴(例えば、データ特徴、ケース重み、生徒モデル特徴、およびデータと生徒モデルの両方の組合せを表す特徴)を生成する。次いで、訓練データおよびこれらの新しい重みを用いて、候補生徒モデルが訓練される。「候補生徒モデル」とは、本明細書で使用される場合、現在の生徒モデルよりも優れた生徒モデル(観察されたターゲットを予測するのにより優れている)かどうかを判定するために調べられている生徒モデルを指す。次いで、訓練データおよびテスト・データを用いて、現在の生徒モデルと候補生徒モデルを比較して、どちらが観察されたターゲットを予測するのにより優れているかを判定することによって報酬を生成する。「報酬」とは、本明細書で使用される場合、強化学習で用いられる関数(報酬関数)によって生成される値を指す。候補生徒モデルが現在の生徒モデルよりも観察されたターゲットを予測するのにより優れている場合、正の報酬が返されてもよい。逆に、現在の生徒モデルが候補生徒モデルよりも観察されたターゲットを予測するのにより優れている場合、負の報酬が返されてもよい。その後、教師モデルが報酬で更新される。教師モデルは、報酬を利用して、強化学習などのポリシー勾配法を介してそのパラメータを更新する。候補生徒モデルが現在の生徒モデルよりも観察されたターゲットを予測するのにより優れている場合、現在の生徒モデルは、候補生徒モデルで更新され、現在の重みは、教師モデルによって生成された新しい重みで更新される。現在の重みを新しい重みで更新すると、現在の生徒モデルは、新しい状態特徴を生成する。しかしながら、候補生徒モデルが現在の生徒モデルよりも観察されたターゲットを予測するのにより優れていない場合、更新された教師モデルは、現在の生徒モデルからの現在の重みおよび現在の生徒特徴を用いて新しい重みを生成する。停止規則のいずれかが満たされると(例えば、指定された試行回数に達すること、指定された訓練タイミングに達すること、予測精度の収束、およびユーザ主導による終了)、教師モデルによって生成された重みは、「最適な」重みと見なされ、対応する生徒モデルと共にユーザに返される。このようにして、予測精度を向上させるための最適な重みが特定される。さらに、このようにして、予測モデリングの技術分野が向上する。
本発明によって提供される技術的解決策は、人間の頭の中で、またはペンおよび紙を使用して人間が行うことはできない。すなわち、本発明によって提供される技術的解決策は、コンピュータを使用しなければ、人間の頭の中で、または人間がペンおよび紙を使用することによっては、合理的な時間で、かつ合理的な期待される精度で遂行することはできない。
本発明の一実施形態において、機械学習技術における予測精度を向上させるためのコンピュータ実装方法は、教師モデルを構築することを含み、教師モデルが各データ・ケースに対する重みを生成する。本方法は、訓練データおよび教師モデルによって生成された重みを用いて現在の生徒モデルを訓練することをさらに含む。本方法は、現在の生徒モデルによって状態特徴を生成することをさらに含む。さらに、本方法は、状態特徴を用いて、教師モデルによって新しい重みを生成することを含む。さらに、本方法は、訓練データおよび新しい重みを用いて、候補生徒モデルを訓練することを含む。加えて、本方法は、訓練データおよびテスト・データを用いて、現在の生徒モデルを候補生徒モデルと比較して、どちらが観察されたターゲットを予測するのにより優れているかを判定することによって報酬を生成することを含む。本方法は、停止規則が満たされないことに応答して、教師モデルを報酬で更新することをさらに含む。本方法は、停止規則が満たされたことに応答して、新しい重みおよび現在の生徒モデルをユーザに返すことをさらに含み、返された生徒モデルが観察されたターゲットの予測を提供する。
本発明の一実施形態では、本方法は、予測が観察されたターゲットにどれだけ近いかに基づいて、候補生徒モデルが現在の生徒モデルよりも観察されたターゲットのより優れた予測を生成するかどうかを判定することをさらに含む。
一実施形態では、本方法は、候補生徒モデルが現在の生徒モデルよりも観察されたターゲットのより優れた予測を生成することに応答して、現在の生徒モデルを候補生徒モデルで更新することと、現在の重みを新しい重みで更新することとをさらに含む。
一実施形態では、本方法は、新しい重みを用いて、更新された生徒モデルによって新しい状態特徴を生成することと、新しい状態特徴を用いて、教師モデルによって新しい重みの第2のセットを生成することとをさらに含む。
さらに、一実施形態では、本方法は、訓練データおよび新しい重みの第2のセットを用いて候補生徒モデルを訓練することと、訓練データおよびテスト・データを用いて、更新された生徒モデルを候補生徒モデルと比較して、どちらが観察されたターゲットを予測するのにより優れているかを判定することによって報酬を生成することとをさらに含む。
さらに、一実施形態では、本方法は、候補生徒モデルが現在の生徒モデルよりも観察されたターゲットのより優れた予測を生成しないことに応答して、状態特徴を用いて、更新された教師モデルによって新しい重みの第2のセットを生成することをさらに含む。
一実施形態では、本方法は、訓練データおよび新しい重みの第2のセットを用いて候補生徒モデルを訓練することと、訓練データおよびテスト・データを用いて、現在の生徒モデルを候補生徒モデルと比較して、どちらが観察されたターゲットを予測するのにより優れているかを判定することによって報酬を生成することとをさらに含む。
一実施形態では、本方法は、停止規則が、指定された試行回数に達すること、指定された訓練時間に達すること、予測精度の収束、およびユーザ主導による終了のうちの1つまたは複数を含むことをさらに含む。
一実施形態では、本方法は、ニューラル・ネットワークを含む教師モデルを有することと、決定木およびニューラル・ネットワークのうちの1つを含む生徒モデルを有することとをさらに含む。
上述した方法の実施形態の他の形態は、システムおよびコンピュータ・プログラム製品である。
本発明の様々な実施形態の説明は、例示の目的で提示されてきたが、網羅的であることは意図されておらず、または開示された実施形態に限定されることは意図されていない。記載された実施形態の範囲および思想から逸脱することなく、多くの修正形態および変形形態が当業者には明らかであろう。本明細書で使用される用語は、実施形態の原理、市場で見出される技術に対する実際の応用もしくは技術的改良を最も良く説明するか、または当業者が本明細書で開示された実施形態を理解することができるように選択された。

Claims (19)

  1. 機械学習技術における予測精度を向上させるためのコンピュータ実装方法であって、
    教師モデルを構築することであり、前記教師モデルが各データ・ケースに対する重みを生成する、前記構築することと、
    訓練データおよび前記教師モデルによって生成された重みを用いて現在の生徒モデルを訓練することと、
    前記現在の生徒モデルによって状態特徴を生成することと、
    前記状態特徴を用いて前記教師モデルによって新しい重みを生成することと、
    前記訓練データおよび前記新しい重みを用いて候補生徒モデルを訓練することと、
    前記訓練データおよびテスト・データを用いて前記現在の生徒モデルを前記候補生徒モデルと比較して、どちらが観察されたターゲットを予測するのにより優れているかを判定することによって報酬を生成することと、
    停止規則が満たされないことに応答して、前記教師モデルを前記報酬で更新することと、
    前記停止規則が満たされたことに応答して、前記新しい重みおよび前記現在の生徒モデルをユーザに返すことであり、前記返された生徒モデルが前記観察されたターゲットの予測を提供する、前記返すことと
    を含む方法。
  2. 前記予測が前記観察されたターゲットにどれだけ近いかに基づいて、前記候補生徒モデルが前記現在の生徒モデルよりも前記観察されたターゲットのより優れた予測を生成するかどうかを判定すること
    をさらに含む、請求項1に記載の方法。
  3. 前記候補生徒モデルが前記現在の生徒モデルよりも優れた前記観察されたターゲットの予測を生成することに応答して、前記現在の生徒モデルを前記候補生徒モデルで更新し、現在の重みを前記新しい重みで更新すること
    をさらに含む、請求項2に記載の方法。
  4. 前記新しい重みを用いて前記更新された生徒モデルによって新しい状態特徴を生成することと、
    前記新しい状態特徴を用いて前記教師モデルによって新しい重みの第2のセットを生成することと
    をさらに含む、請求項3に記載の方法。
  5. 前記訓練データおよび前記新しい重みの第2のセットを用いて前記候補生徒モデルを訓練することと、
    前記訓練データおよび前記テスト・データを用いて前記更新された生徒モデルを前記候補生徒モデルと比較して、どちらが前記観察されたターゲットを予測するのにより優れているかを判定することによって報酬を生成することと
    をさらに含む、請求項4に記載の方法。
  6. 前記候補生徒モデルが前記現在の生徒モデルよりも優れた前記観察されたターゲットの予測を生成しないことに応答して、前記状態特徴を用いて前記更新された教師モデルによって新しい重みの第2のセットを生成すること
    をさらに含む、請求項2に記載の方法。
  7. 前記訓練データおよび前記新しい重みの第2のセットを用いて前記候補生徒モデルを訓練することと、
    前記訓練データおよび前記テスト・データを用いて前記現在の生徒モデルを前記候補生徒モデルと比較して、どちらが前記観察されたターゲットを予測するのにより優れているかを判定することによって報酬を生成することと
    をさらに含む、請求項6に記載の方法。
  8. 前記停止規則が、指定された試行回数に達すること、指定された訓練時間に達すること、予測精度の収束、およびユーザ主導による終了のうちの1つまたは複数を含む、請求項1ないし7のいずれかに記載の方法。
  9. 前記教師モデルがニューラル・ネットワークを含み、前記生徒モデルが決定木およびニューラル・ネットワークのうちの1つを含む、請求項1ないし8のいずれかに記載の方法。
  10. コンピュータによる機械学習技術における予測精度を向上させるためのコンピュータ・プログラムであって、前記コンピュータにより実行されることにより、前記コンピュータに、請求項1ないし9のいずれかに記載の方法を実行させるコンピュータ・プログラム。
  11. コンピュータによる機械学習技術における予測精度を向上させるためのコンピュータ・プログラムであって、実行されることで前記コンピュータに、
    教師モデルを構築させ、前記教師モデルが各データ・ケースに対する重みを生成させ、
    訓練データおよび前記教師モデルによって生成された重みを用いて現在の生徒モデルを訓練させ、
    前記現在の生徒モデルによって状態特徴を生成させ、
    前記状態特徴を用いて前記教師モデルによって新しい重みを生成させ、
    前記訓練データおよび前記新しい重みを用いて候補生徒モデルを訓練させ、
    前記訓練データおよびテスト・データを用いて前記現在の生徒モデルを前記候補生徒モデルと比較させ、どちらが観察されたターゲットを予測するのにより優れているかを判定させることによって報酬を生成させ、
    停止規則が満たされないことに応答して、前記教師モデルを前記報酬で更新させ、
    前記停止規則が満たされたことに応答して、前記新しい重みおよび前記現在の生徒モデルをユーザに返させ、前記返された生徒モデルが前記観察されたターゲットの予測を提供させる
    コンピュータ・プログラム。
  12. 機械学習技術における予測精度を向上させるためのコンピュータ・プログラムを記憶するメモリと、
    前記メモリに接続されたプロセッサと、を備えるシステムであり、
    前記コンピュータ・プログラムの命令に応じて、前記プロセッサが、
    教師モデルを構築することであり、前記教師モデルが各データ・ケースに対する重みを生成する、前記構築することと、
    訓練データおよび前記教師モデルによって生成された重みを用いて現在の生徒モデルを訓練することと、
    前記現在の生徒モデルによって状態特徴を生成することと、
    前記状態特徴を用いて前記教師モデルによって新しい重みを生成することと、
    前記訓練データおよび前記新しい重みを用いて候補生徒モデルを訓練することと、
    前記訓練データおよびテスト・データを用いて前記現在の生徒モデルを前記候補生徒モデルと比較して、どちらが観察されたターゲットを予測するのにより優れているかを判定することによって報酬を生成することと、
    停止規則が満たされないことに応答して、前記教師モデルを前記報酬で更新することと、
    前記停止規則が満たされたことに応答して、前記新しい重みおよび前記現在の生徒モデルをユーザに返すことであり、前記返された生徒モデルが前記観察されたターゲットの予測を提供する、前記返すことと
    実行する
    システム。
  13. 前記プロセッサが
    前記予測が前記観察されたターゲットにどれだけ近いかに基づいて、前記候補生徒モデルが前記現在の生徒モデルよりも前記観察されたターゲットのより優れた予測を生成するかどうかを判定すること
    をさらに実行する、請求項12に記載のシステム。
  14. 前記プロセッサが
    前記候補生徒モデルが前記現在の生徒モデルよりも優れた前記観察されたターゲットの予測を生成することに応答して、前記現在の生徒モデルを前記候補生徒モデルで更新し、現在の重みを前記新しい重みで更新すること
    をさらに実行する、請求項13に記載のシステム。
  15. 前記プロセッサが
    前記新しい重みを用いて前記更新された生徒モデルによって新しい状態特徴を生成することと、
    前記新しい状態特徴を用いて前記教師モデルによって新しい重みの第2のセットを生成することと
    をさらに実行する、請求項14に記載のシステム。
  16. 前記プロセッサが
    前記訓練データおよび前記新しい重みの第2のセットを用いて前記候補生徒モデルを訓練することと、
    前記訓練データおよび前記テスト・データを用いて前記更新された生徒モデルを前記候補生徒モデルと比較して、どちらが前記観察されたターゲットを予測するのにより優れているかを判定することによって報酬を生成することと
    をさらに実行する、請求項15に記載のシステム。
  17. 前記プロセッサが
    前記候補生徒モデルが前記現在の生徒モデルよりも優れた前記観察されたターゲットの予測を生成しないことに応答して、前記状態特徴を用いて前記更新された教師モデルによって新しい重みの第2のセットを生成すること
    をさらに実行する、請求項13に記載のシステム。
  18. 前記プロセッサが
    前記訓練データおよび前記新しい重みの第2のセットを用いて前記候補生徒モデルを訓練することと、
    前記訓練データおよび前記テスト・データを用いて前記現在の生徒モデルを前記候補生徒モデルと比較して、どちらが前記観察されたターゲットを予測するのにより優れているかを判定することによって報酬を生成することと
    をさらに実行する、請求項17に記載のシステム。
  19. 前記停止規則が、指定された試行回数に達すること、指定された訓練時間に達すること、予測精度の収束、およびユーザ主導による終了のうちの1つまたは複数を含む、請求項18に記載のシステム。
JP2022525521A 2019-11-14 2020-11-10 機械学習技術における予測精度を向上させるための最適な重みの特定 Active JP7471408B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/684,396 2019-11-14
US16/684,396 US11443235B2 (en) 2019-11-14 2019-11-14 Identifying optimal weights to improve prediction accuracy in machine learning techniques
PCT/IB2020/060581 WO2021094923A1 (en) 2019-11-14 2020-11-10 Identifying optimal weights to improve prediction accuracy in machine learning techniques

Publications (2)

Publication Number Publication Date
JP2023501257A JP2023501257A (ja) 2023-01-18
JP7471408B2 true JP7471408B2 (ja) 2024-04-19

Family

ID=75908006

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022525521A Active JP7471408B2 (ja) 2019-11-14 2020-11-10 機械学習技術における予測精度を向上させるための最適な重みの特定

Country Status (8)

Country Link
US (2) US11443235B2 (ja)
JP (1) JP7471408B2 (ja)
KR (1) KR20220066163A (ja)
CN (1) CN114616577A (ja)
AU (1) AU2020385049B2 (ja)
DE (1) DE112020005610T5 (ja)
GB (1) GB2603445A (ja)
WO (1) WO2021094923A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210182660A1 (en) * 2019-12-16 2021-06-17 Soundhound, Inc. Distributed training of neural network models
US11551083B2 (en) 2019-12-17 2023-01-10 Soundhound, Inc. Neural network training from private data
CN115335830A (zh) * 2020-03-23 2022-11-11 谷歌有限责任公司 利用权重共享的神经架构搜索
US11663522B2 (en) * 2020-04-27 2023-05-30 Microsoft Technology Licensing, Llc Training reinforcement machine learning systems
US11620576B1 (en) * 2020-06-22 2023-04-04 Amazon Technologies, Inc. Systems and methods for knowledge transfer in machine learning
US11497001B2 (en) * 2020-11-19 2022-11-08 Kabushiki Kaisha Toshiba Edge-intelligence for stability guaranteed real-time control systems
US20230196067A1 (en) * 2021-12-17 2023-06-22 Lemon Inc. Optimal knowledge distillation scheme
US11386368B1 (en) * 2022-03-04 2022-07-12 John Schneider Method for matching students with teachers to achieve optimal student outcomes
CN115359062B (zh) * 2022-10-24 2023-01-24 浙江华是科技股份有限公司 通过半监督实例分割标定监控目标的方法及系统
CN116564292B (zh) * 2023-06-27 2024-02-13 镁佳(北京)科技有限公司 语音分类模型训练方法、语音分类方法、装置及设备
CN116594349B (zh) * 2023-07-18 2023-10-03 中科航迈数控软件(深圳)有限公司 机床预测方法、装置、终端设备以及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170083829A1 (en) 2015-09-18 2017-03-23 Samsung Electronics Co., Ltd. Model training method and apparatus, and data recognizing method
US20170132528A1 (en) 2015-11-06 2017-05-11 Microsoft Technology Licensing, Llc Joint model training
JP2018151950A (ja) 2017-03-14 2018-09-27 富士ゼロックス株式会社 情報処理装置、情報処理システム及びプログラム
JP2019046422A (ja) 2017-09-07 2019-03-22 株式会社日立製作所 学習制御システム及び学習制御方法
US20190287515A1 (en) 2018-03-16 2019-09-19 Microsoft Technology Licensing, Llc Adversarial Teacher-Student Learning for Unsupervised Domain Adaptation

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009103025A2 (en) * 2008-02-15 2009-08-20 Biometallix, Llc Reactor for extracting metals from metal sulfide containing materials and methods of use
US10318882B2 (en) * 2014-09-11 2019-06-11 Amazon Technologies, Inc. Optimized training of linear machine learning models
US20160071017A1 (en) 2014-10-15 2016-03-10 Brighterion, Inc. Method of operating artificial intelligence machines to improve predictive model training and performance
US10755172B2 (en) 2016-06-22 2020-08-25 Massachusetts Institute Of Technology Secure training of multi-party deep neural network
CN109643347A (zh) * 2016-08-11 2019-04-16 推特公司 检测与社交媒体平台的脚本化或其他异常交互
US11748684B2 (en) * 2017-03-31 2023-09-05 Raytheon Technologies Corp. Predictive analytics systems and methods
US10257072B1 (en) 2017-09-28 2019-04-09 Cisco Technology, Inc. Weight initialization for random neural network reinforcement learning
US20190102693A1 (en) * 2017-09-29 2019-04-04 Facebook, Inc. Optimizing parameters for machine learning models
US20190102709A1 (en) * 2017-10-03 2019-04-04 Invight, Inc. Systems and methods for coordinating venue systems and messaging control
WO2019096754A1 (en) 2017-11-20 2019-05-23 Koninklijke Philips N.V. Training first and second neural network models
US11423501B2 (en) * 2018-10-30 2022-08-23 Oracle International Corporation Machine learning for optimal student guidance
US20200134445A1 (en) * 2018-10-31 2020-04-30 Advanced Micro Devices, Inc. Architecture for deep q learning
US11656620B2 (en) * 2018-12-31 2023-05-23 Luminar, Llc Generating environmental parameters based on sensor data using machine learning
US20200218940A1 (en) * 2019-01-08 2020-07-09 International Business Machines Corporation Creating and managing machine learning models in a shared network environment
US11119250B2 (en) * 2019-01-15 2021-09-14 International Business Machines Corporation Dynamic adaption of vessel trajectory using machine learning models
US20200257980A1 (en) * 2019-02-08 2020-08-13 International Business Machines Corporation Training optimization for neural networks with batch norm layers
US11093862B2 (en) * 2019-03-21 2021-08-17 International Business Machines Corporation Locality aware data loading for machine learning
US11586930B2 (en) * 2019-04-16 2023-02-21 Microsoft Technology Licensing, Llc Conditional teacher-student learning for model training
CN110175628A (zh) 2019-04-25 2019-08-27 北京大学 一种基于自动搜索与知识蒸馏的神经网络剪枝的压缩算法
CN110472494A (zh) * 2019-06-21 2019-11-19 深圳壹账通智能科技有限公司 脸部特征提取模型训练方法、脸部特征提取方法、装置、设备及存储介质
US20200401949A1 (en) * 2019-06-24 2020-12-24 Microsoft Technology Licensing, Llc Optimizing machine learned models based on dwell time of networked-transmitted content items
US11276023B1 (en) * 2019-09-06 2022-03-15 Amazon Technologies, Inc. Machine learning optimization for fraud detection
US11640528B2 (en) * 2019-10-22 2023-05-02 Baidu Usa Llc Method, electronic device and computer readable medium for information processing for accelerating neural network training
US11755946B2 (en) * 2019-11-08 2023-09-12 International Business Machines Corporation Cumulative reward predictor training
WO2021095176A1 (ja) * 2019-11-13 2021-05-20 日本電気株式会社 学習装置、学習方法、及び、記録媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170083829A1 (en) 2015-09-18 2017-03-23 Samsung Electronics Co., Ltd. Model training method and apparatus, and data recognizing method
US20170132528A1 (en) 2015-11-06 2017-05-11 Microsoft Technology Licensing, Llc Joint model training
JP2018151950A (ja) 2017-03-14 2018-09-27 富士ゼロックス株式会社 情報処理装置、情報処理システム及びプログラム
JP2019046422A (ja) 2017-09-07 2019-03-22 株式会社日立製作所 学習制御システム及び学習制御方法
US20190287515A1 (en) 2018-03-16 2019-09-19 Microsoft Technology Licensing, Llc Adversarial Teacher-Student Learning for Unsupervised Domain Adaptation

Also Published As

Publication number Publication date
CN114616577A (zh) 2022-06-10
US11443235B2 (en) 2022-09-13
KR20220066163A (ko) 2022-05-23
GB2603445A (en) 2022-08-03
DE112020005610T5 (de) 2022-09-01
AU2020385049A1 (en) 2022-04-28
US20210150407A1 (en) 2021-05-20
US20220292401A1 (en) 2022-09-15
WO2021094923A1 (en) 2021-05-20
GB202207662D0 (en) 2022-07-06
AU2020385049B2 (en) 2023-02-02
JP2023501257A (ja) 2023-01-18

Similar Documents

Publication Publication Date Title
JP7471408B2 (ja) 機械学習技術における予測精度を向上させるための最適な重みの特定
US11755912B2 (en) Controlling distribution of training data to members of an ensemble
JP2022527536A (ja) 強化学習を通じた公平性の改善
KR20160102690A (ko) 신경망 학습 방법 및 장치, 및 인식 방법 및 장치
US20210350225A1 (en) Determining multivariate time series data dependencies
US20200311541A1 (en) Metric value calculation for continuous learning system
US20200311525A1 (en) Bias correction in deep learning systems
US20210248465A1 (en) Hierarchical multi-agent imitation learning with contextual bandits
CN114270365A (zh) 基于弹性质心的聚类
WO2022012347A1 (en) Predictive models having decomposable hierarchical layers configured to generate interpretable results
US20240046128A1 (en) Dynamic causal discovery in imitation learning
CN113490955A (zh) 用于产生金字塔层的架构的系统和方法
JP7466702B2 (ja) プロトタイプオプションの発見による解釈可能な模倣学習
US20220036198A1 (en) Fixed, random, recurrent matrices for increased dimensionality in neural networks
US20210327578A1 (en) System and Method for Medical Triage Through Deep Q-Learning
Sangodoyin et al. A deductive approach for the sensitivity analysis of software defined network parameters
US20230108135A1 (en) Neuro-symbolic reinforcement learning with first-order logic
US20230403204A1 (en) Method, electronic device, and computer program product for information-centric networking
Dobrić et al. Interpolative boolean networks
US20220398452A1 (en) Supervised similarity learning for covariate matching and treatment effect estimation via self-organizing maps
Nigrini Investigating hyperheuristics for solving bi-objective simulation optimisation problems
Bairamian Adversarial Strategy Learning
WO2024112887A1 (en) Forward-forward training for machine learning
KR20240037117A (ko) 신규 데이터베이스를 구축하는 장치 및 방법
Hassani et al. Artificial neural network to serve scenario analysis purposes

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220518

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221220

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230424

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240318

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240326

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240409

R150 Certificate of patent or registration of utility model

Ref document number: 7471408

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150