JP6728495B2 - 強化学習を用いた環境予測 - Google Patents

強化学習を用いた環境予測 Download PDF

Info

Publication number
JP6728495B2
JP6728495B2 JP2019523612A JP2019523612A JP6728495B2 JP 6728495 B2 JP6728495 B2 JP 6728495B2 JP 2019523612 A JP2019523612 A JP 2019523612A JP 2019523612 A JP2019523612 A JP 2019523612A JP 6728495 B2 JP6728495 B2 JP 6728495B2
Authority
JP
Japan
Prior art keywords
neural network
state representation
internal time
internal
time step
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019523612A
Other languages
English (en)
Other versions
JP2019537136A (ja
Inventor
デイヴィッド・シルヴァー
トム・ショール
マッテオ・ヘッセル
ハド・フィリップ・ファン・ハッセルト
Original Assignee
ディープマインド テクノロジーズ リミテッド
ディープマインド テクノロジーズ リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ディープマインド テクノロジーズ リミテッド, ディープマインド テクノロジーズ リミテッド filed Critical ディープマインド テクノロジーズ リミテッド
Publication of JP2019537136A publication Critical patent/JP2019537136A/ja
Priority to JP2020111559A priority Critical patent/JP6917508B2/ja
Application granted granted Critical
Publication of JP6728495B2 publication Critical patent/JP6728495B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/10Interfaces, programming languages or software development kits, e.g. for simulating neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning

Description

本明細書は機械学習モデルを使用する予測に関する。
機械学習モデルは、入力を受信し、受信された入力に基づいて、出力、たとえば、予測された出力を生成する。いくつかの機械学習モデルは、パラメトリックモデルであり、受信された入力とモデルのパラメータの値とに基づいて、出力を生成する。
いくつかの機械学習モデルは、受信された入力に対する出力を生成するためにモデルの複数の層を利用する深層モデルである。たとえば、深層ニューラルネットワークは、各々受信された入力に非線形変換を適用して出力を生成する、出力層と1つまたは複数の隠れ層とを含む、深層機械学習モデルである。
本明細書は、一連の内部計画ステップにわたって価値予測(value prediction)を生成することによって、環境が初期状態にあることから生じるアグリゲート報酬(aggregate reward)の推定を決定する、1つまたは複数のロケーションにおける1つまたは複数のコンピュータ上のコンピュータプログラムとして実装されるシステムについて説明する。
第1の態様によれば、エージェント(agent)が対話している環境の状態を特徴づける1つまたは複数の観察(observation)を受信することと、1つまたは複数の観察を処理して、現在の環境状態の内部状態表現を生成することとを行うように構成された状態表現ニューラルネットワークと、複数の内部時間ステップの各々について、内部時間ステップのための内部状態表現を受信することと、内部時間ステップのための内部状態表現を処理して、次の内部時間ステップのための内部状態表現、および次の内部時間ステップのための予測された報酬を生成することとを行うように構成された予測ニューラルネットワークと、複数の内部時間ステップの各々について、内部時間ステップのための内部状態表現を受信することと、内部時間ステップのための内部状態表現を処理して、次の内部時間ステップ以降の将来の累積割引報酬(future cumulative discounted reward)の推定である価値予測を生成することとを行うように構成された価値予測ニューラルネットワークと、環境の状態を特徴づける1つまたは複数の観察を受信することと、現在の環境状態の内部状態表現を生成するために、状態表現ニューラルネットワークへの入力として、1つまたは複数の観察を提供することと、複数の内部時間ステップの各々について、予測ニューラルネットワークおよび価値予測ニューラルネットワークを使用して、内部時間ステップのための内部状態表現から、次の内部時間ステップのための内部状態表現、次の内部時間ステップのための予測された報酬、および価値予測を生成することと、内部時間ステップのための、予測された報酬および価値予測から、アグリゲート報酬を決定することとを行うように構成されたプレディクトロン(predictron)サブシステムとを備えるシステムが提供される。
関係する態様において、1つまたは複数のコンピュータによって実装されるシステムが提供され、本システムは、エージェントが対話している環境の状態を特徴づける観察を受信することと、観察を処理して、環境状態の内部状態表現を生成することとを行うように構成された状態表現ニューラルネットワークと、現在の環境状態の現在の内部状態表現を受信することと、現在の内部状態表現を処理して、環境の後続の状態の予測された後続の状態表現と後続の状態のための予測された報酬とを生成することとを行うように構成された予測ニューラルネットワークと、現在の環境状態の現在の内部状態表現を受信することと、現在の内部状態表現を処理して、現在の環境状態以降の将来の累積割引報酬の推定である価値予測を生成することとを行うように構成された価値予測ニューラルネットワークとを備える。
関係する態様の好ましい実装形態において、本システムは、環境の初期状態を特徴づける初期観察を受信することと、環境状態の初期内部状態表現を生成するために、状態表現ニューラルネットワークへの入力として、初期観察を提供することと、複数の内部時間ステップの各々について、予測ニューラルネットワークおよび価値予測ニューラルネットワークを使用して、現在の状態表現から、予測された後続の状態表現、予測された報酬、および価値予測を生成することと、時間ステップのための、予測された報酬および価値予測から、アグリゲート報酬を決定することとを行うように構成されたプレディクトロンサブシステムを含む。
したがって、本明細書において説明されるように、本システムは、環境のモデルを計画モデルと統合し得る。ここで、これはプレディクトロンシステムと呼ばれ、いくつかの実装形態において、プレディクトロンシステムは、上記で説明されたようなプレディクトロンサブシステムを利用する。プレディクトロンサブシステムは、環境が現在の状態にあることから生じる報酬の推定として、アグリゲート報酬を提供するようにさらに構成され得る。内部時間ステップは計画ステップと見なされ得る。将来の累積割引報酬は、複数の将来の時間ステップのための将来の報酬の推定を含み得、したがって、それは累積的であり得る。報酬は、報酬に重みを与え、後の時間ステップにおける報酬を、前の時間ステップにおける報酬よりも小さく重み付けすることによって、割り引かれ得る。
いくつかの実装形態において、予測ニューラルネットワークは、次の内部時間ステップのための予測された割引係数(discount factor)を生成するようにさらに構成され、プレディクトロンサブシステムは、アグリゲート報酬を決定する際に、内部時間ステップのための予測された割引係数を使用するように構成される。報酬は、割引係数の積によって将来の報酬を重み付けすることによって割り引かれ得、割引係数は、各々0から1の間で、連続する各時間ステップについて1つである。プレディクトロンサブシステムは、割引係数を予測するために使用され得る。アグリゲート報酬は、後で説明されるように、アキュムレータによって決定され得る。
いくつかの実装形態において、本システムは、内部時間ステップの各々について、現在の内部時間ステップのための内部状態表現を処理して、次の内部時間ステップのためのラムダ係数(lambda factor)を生成するように構成されたラムダニューラルネットワークをさらに備え、プレディクトロンサブシステムは、アグリゲート報酬を決定する際に、内部時間ステップのためのリターン係数(return factor)を決定することと、ラムダ係数を使用して、リターン係数のための重みを決定することとを行うように構成される。リターン係数は、内部計画時間ステップのための予測されたリターンを含み得る。これは、予測された報酬と、予測された割引係数と、価値予測との組合せから決定され得、それは、k個の将来の内部時間すなわち計画ステップの各々について決定され得る。
いくつかの実装形態において、状態表現ニューラルネットワークは、リカレントニューラルネットワークである。
いくつかの実装形態において、状態表現ニューラルネットワークは、フィードフォワードニューラルネットワークである。
いくつかの実装形態において、予測ニューラルネットワークは、リカレントニューラルネットワークである。
いくつかの実装形態において、予測ニューラルネットワークは、複数の時間ステップの各々において異なるパラメータ値を有するフィードフォワードニューラルネットワークである。
第2の態様によれば、プレディクトロンサブシステムによって実施されるそれぞれの動作を含む方法が提供される。
第3の態様によれば、アグリゲート報酬と、環境が現在の状態にあることから生じる報酬の推定とに基づく、損失の勾配を決定するステップと、状態表現ニューラルネットワーク、予測ニューラルネットワーク、価値予測ニューラルネットワーク、およびラムダニューラルネットワークのパラメータの現在の値を更新するために、損失の勾配をバックプロパゲートする(backpropagate)ステップとを含む、システムをトレーニングする方法が提供される。
第4の態様によれば、プレディクトロンサブシステムによって決定された内部時間ステップのためのリターン係数の一貫性に基づく、一貫性損失(consistency loss)の勾配を決定するステップと、状態表現ニューラルネットワーク、予測ニューラルネットワーク、価値予測ニューラルネットワーク、およびラムダニューラルネットワークのパラメータの現在の値を更新するために、一貫性損失の勾配をバックプロパゲートするステップとを含む、システムをトレーニングするための方法が提供される。
本明細書において説明される主題の特定の実施形態は、以下の利点のうちの1つまたは複数を実現するように実装され得る。本明細書において説明されるプレディクトロンシステムは、環境のモデル(すなわち、システムの状態表現ニューラルネットワークおよび予測ニューラルネットワーク)と、計画モデル(すなわち、価値予測ニューラルネットワーク、および、利用される場合、ラムダニューラルネットワーク)とを一緒に学習し、計画モデルは、累積報酬を推定する価値関数(value function)を生成する。従来のシステムは、環境のモデルと計画モデルとを別々に学習し、したがって、従来のシステムにおいて、モデルは計画タスクと調和しない。対照的に、本明細書において説明されるプレディクトロンシステムの場合、環境モデルと計画モデルとは一緒に学習され、したがって、本システムは、従来のシステムよりも正確に環境の現在の状態に関連する結果を推定することに寄与する価値関数を生成することが可能である。
その上、従来のシステムとは異なり、本明細書において説明されるプレディクトロンシステムは、部分的に、教師なし(unsupervised)学習方法によって、すなわち、環境の現在の状態に関連する結果が知られていない環境の状態を特徴づける観察に基づいて、トレーニングされ得る。したがって、補助の教師なしトレーニングにより、本明細書において説明されるシステムは、従来のシステムよりも正確に環境の現在の状態に関連する結果を推定することに寄与する価値関数を生成する。さらに、従来のシステムとは異なり、本明細書において説明されるプレディクトロンシステムは、補助の教師なしトレーニングによってトレーニングされ得るので、従来のシステムをトレーニングするために必要とされるよりも少ないラベリングされたトレーニングデータが、プレディクトロンシステムをトレーニングするために必要とされる。
さらに、本明細書において説明されるプレディクトロンシステムは、システムの内部状態表現および内部ダイナミクスに依存する適応可能な数の計画ステップに基づいて、出力を生成する。特に、場合によっては、プレディクトロンシステムは、計画ステップの可能な総数よりも少ない計画ステップに基づいて出力を生成し、したがって、すべての場合においてあらゆる計画ステップを利用することに基づいて出力を生成する従来のシステムよりも(たとえば、より少ない計算能力および計算時間を使用して)少ない計算リソースを消費し得る。
本明細書の主題の1つまたは複数の実施形態の詳細が、添付の図面および以下の説明において記載されている。主題の他の特徴、態様、および利点は、説明、図面、および特許請求の範囲から明らかになるであろう。
例示的なプレディクトロンシステムを示す図である。 アグリゲート報酬出力を決定するための例示的なプロセスの流れ図である。 プレディクトロンシステムのトレーニングのための例示的なプロセスの流れ図である。
様々な図面における同様の参照番号および名称は、同様の要素を示す。
図1は、例示的なプレディクトロンシステム100を示す。プレディクトロンシステム100は、以下で説明されるシステム、構成要素、および技法が実装される、1つまたは複数のロケーションにおける1つまたは複数のコンピュータ上のコンピュータプログラムとして実装されるシステムの一例である。
システム100は、環境106と対話するエージェント102によって実施される行動(action)104の影響を推定する。
いくつかの実装形態において、環境106は、シミュレートされた環境であり、エージェント102は、シミュレートされた環境と対話する1つまたは複数のコンピュータプログラムとして実装される。たとえば、シミュレートされた環境はビデオゲームであり得、エージェント102は、ビデオゲームをプレイするシミュレートされたユーザであり得る。別の例として、シミュレートされた環境は、運動シミュレーション環境、たとえば、ドライビングシミュレーションまたはフライトシミュレーションであり得、エージェント102は、運動シミュレーションを通してナビゲートするシミュレートされたビークルである。
いくつかの他の実装形態において、環境106は現実世界の環境であり、エージェント102は、現実世界の環境と対話する機械的エージェントである。たとえば、エージェント102は、固有のタスクを遂行するために環境と対話するロボットであり得る。別の例として、エージェント102は、環境106を通してナビゲートする自律ビークルまたは半自律ビークルであり得る。
システム100は、エージェント102が対話している環境106の現在の状態に関連する結果128の推定として、アグリゲート報酬110を出力する。システム100は、本明細書において計画ステップと呼ばれる複数の内部時間ステップにわたって、予測された報酬116、予測された割引係数118、および価値予測を累積することによって、アグリゲート報酬110を生成する。
結果128は、エージェント102が対話している環境106の任意の事象または態様を符号化することができる。たとえば、結果128は、環境においてナビゲートするエージェントが、環境106の現在の状態から開始して環境における特定のロケーションに達するかどうかを示す2進値を含み得る。別の例として、結果128は、エージェント102が、いくつかのタスクを遂行すること、たとえば、環境106の現在の状態から開始して環境106におけるいくつかのロケーションに達することに基づいて、環境106においてナビゲートするエージェント102によって受信される累積報酬を示す値を含み得る。
トレーニングされると、システム100は、たとえば、エージェント102によって実施されるべき行動104を選択するために使用され得る。たとえば、結果128が、環境106とのエージェント102の対話の成功を格付けする値、たとえば、エージェントが環境の現在の状態から開始してタスクを遂行するために要する時間の量を表す値を含む場合、エージェント102の行動104は、その値に対応する結果128の成分を最適化するために、システム100によって予測される行動として選択され得る。
システム100は、各計画ステップについて、入力を処理して、出力として、(i)次の計画ステップ、すなわち、現在の計画ステップに後続する計画ステップのための内部状態表現114と、(ii)次の計画ステップのための予測された報酬116と、(iii)次の計画ステップのための予測された割引係数118とを生成するように構成された予測ニューラルネットワーク120を含む。第1の計画ステップについて、予測ニューラルネットワーク120は、入力として、状態表現ニューラルネットワーク122によって生成された内部状態表現114を受信し、後続の計画ステップについて、予測ニューラルネットワーク120は、入力として、前の計画ステップにおいて予測ニューラルネットワーク120によって生成された内部状態表現114を受信する。予測された報酬116、予測された割引係数118、および結果128は、スカラー、ベクトル、または行列であり得、概して、すべてが同じ次元数を有する。概して、予測された割引係数118のエントリは、0から1の間のすべての値である。内部状態表現114、予測された報酬116、および予測された割引係数118は、環境106の現在の状態に関連する結果128の予測を可能にするためにシステムによって使用される抽象的な表現である。
状態表現ニューラルネットワーク122は、入力として環境106の1つまたは複数の観察108のシーケンスを受信することと、状態表現ニューラルネットワークパラメータのセットの値に従って観察を処理して、出力として第1の計画ステップのための内部状態表現114を生成することとを行うように構成される。概して、内部状態表現114の次元数は、環境106の1つまたは複数の観察108の次元数とは異なり得る。
いくつかの実装形態において、観察108は、エージェント102のセンサーによって生成されるか、またはそれから導出され得る。たとえば、観察108は、エージェント102のカメラによってキャプチャされた画像であり得る。別の例として、観察108は、エージェント102のレーザーセンサーからキャプチャされたデータから導出され得る。別の例として、観察108は、エージェント102のハイパースペクトルセンサーによってキャプチャされたハイパースペクトル画像であり得る。
システム100は、各計画ステップについて、計画ステップのための内部状態表現114を処理して、次の計画ステップのための価値予測を生成するように構成された価値予測ニューラルネットワーク124を含む。計画ステップのための価値予測は、次の計画ステップ以降の将来の累積割引報酬の推定であり、すなわち、価値予測は、以下の和についての、直接の算出ではなく、推定であり得る。
vk=rk+1k+1rk+2k+1γk+2rk+3+...
ここで、vkは、計画ステップkにおける価値予測であり、riは、計画ステップiにおける予測された報酬116であり、γiは、計画ステップiにおける予測された係数118である。
アグリゲート報酬110は、アキュムレータ112によって生成され、環境106の現在の状態に関連する結果128の推定である。アグリゲート報酬110は、スカラー、ベクトル、または行列であり得、結果128と同じ次元数を有する。いくつかの実装形態において、アキュムレータ112は、本明細書においてkステップ予測と呼ばれるプロセスによってアグリゲート報酬110を生成し、ここで、kは1からKの間の整数であり、Kは計画ステップの総数である。これらの実装形態において、アキュムレータ112は、本明細書においてkステップリターンと呼ばれる出力を決定するために、最初のk個の計画ステップの各々のための予測された報酬116および予測された割引係数118と、k番目の計画ステップの価値予測とを組み合わせることによって、アグリゲート報酬110を生成する。kステップ予測の場合、概して、アグリゲート報酬110は、最終計画ステップKに対応するkステップ予測として決定される。いくつかの実装形態において、アキュムレータ112は、本明細書においてλ重み付け予測(λ-weighted prediction)と呼ばれるプロセスによって、アグリゲート報酬110を生成する。これらの実装形態において、システム100は、計画ステップの各々について、内部状態表現114を処理して、計画ステップのためのラムダ係数を生成するように構成されたラムダニューラルネットワーク126を含み、ラムダ係数は、スカラー、ベクトル、または行列であり得、概して、結果128と同じ次元数を有する。場合によっては、ラムダ係数のエントリは、0から1の間のすべての値である。これらの実装形態において、アキュムレータ112は、本明細書においてλ重み付けリターンと呼ばれる出力を決定するために、各計画ステップkのためのkステップリターンを決定し、ラムダ係数によって定義された重みに応じてkステップリターンを組み合わせることによって、アグリゲート報酬110を生成する。アグリゲート報酬出力を決定することは、図2を参照しながらさらに説明される。
システム100は、観察108と対応する結果128とを含むトレーニングデータのセットに基づいて、トレーニングエンジン130によってトレーニングされる。特に、トレーニングエンジン130は、価値予測ニューラルネットワーク124、状態表現ニューラルネットワーク122、予測ニューラルネットワーク120、およびλ重み付け予測実装形態においてはラムダニューラルネットワーク126のパラメータのセットの値を一緒に最適化するために、たとえば確率的勾配降下法(stochastic gradient descent)によって、損失関数に基づいて決定された勾配をバックプロパゲートする。システム100をトレーニングすることは、教師ありトレーニングと、場合によっては、補助の教師なしトレーニングとを伴う。
システム100の教師ありトレーニングにおいて、損失関数は、入力として提供されシステム100によって処理される観察108に対応する結果128に依存する。たとえば、kステップ予測実装形態において、教師あり損失関数は、結果128と、アキュムレータ112によって生成されたkステップリターンとの間の差を測定し得る。別の例として、λ重み付け予測実装形態において、教師あり損失関数は、結果128と、アキュムレータ112によって生成されたλ重み付けリターンとの間の差を測定し得る。
システム100の教師なしトレーニングにおいて、損失関数は、入力として提供されシステム100によって処理される観察108に対応する結果128に依存しない。たとえば、λ重み付け予測実装形態において、教師なし損失関数は、各kステップリターンとλ重み付けリターンとの間の差を測定する一貫性損失関数であり得る。この場合、教師なしトレーニングは、個々のkステップリターンとλ重み付けリターンとの間の差を減少させるために、システム100のニューラルネットワークのパラメータの値を一緒に調整し、これにより、kステップリターンを自己無撞着とし、それにより、システム100のロバストネスを増加させる。トレーニングエンジン130によってシステム100をトレーニングすることは、図3を参照しながらさらに説明される。
本明細書において行列およびベクトルのように呼ばれるデータ構造、たとえば、システム100のニューラルネットワークのいずれかの出力は、本明細書において説明される様式においてデータ構造が使用されることを可能にする任意のフォーマットにおいて表され得る(たとえば、行列として記述されるニューラルネットワークの出力は、行列のエントリのベクトルとして表され得る)。
図2は、アグリゲート報酬出力を決定するための例示的なプロセス200の流れ図である。便宜上、プロセス200は、1つまたは複数のロケーションに位置する1つまたは複数のコンピュータのシステムによって実施されるものとして説明されることになる。たとえば、本明細書に従って適切にプログラムされたプレディクトロンシステム、たとえば、図1のプレディクトロンシステム100は、プロセス200を実施することができる。
システムは、エージェントが対話している環境の1つまたは複数の観察を受信する(ステップ202)。
いくつかの実装形態において、環境は、シミュレートされた環境であり、エージェントは、シミュレートされた環境と対話する1つまたは複数のコンピュータプログラムとして実装される。たとえば、シミュレートされた環境はビデオゲームであり得、エージェントは、ビデオゲームをプレイするシミュレートされたユーザであり得る。別の例として、シミュレートされた環境は、運動シミュレーション環境、たとえば、ドライビングシミュレーションまたはフライトシミュレーションであり得、エージェントは、運動シミュレーションを通してナビゲートするシミュレートされたビークルである。
いくつかの他の実装形態において、環境は現実世界の環境であり、エージェントは、現実世界の環境と対話する機械的エージェントである。たとえば、エージェントは、固有のタスクを遂行するために環境と対話するロボットであり得る。別の例として、エージェントは、環境を通してナビゲートする自律ビークルまたは半自律ビークルであり得る。
いくつかの実装形態において、観察は、エージェントのセンサーによって生成されるか、またはそれから導出され得る。たとえば、観察は、エージェントのカメラによってキャプチャされた画像であり得る。別の例として、観察は、エージェントのレーザーセンサーからキャプチャされたデータから導出され得る。別の例として、観察は、エージェントのハイパースペクトルセンサーによってキャプチャされたハイパースペクトル画像であり得る。
状態表現ニューラルネットワークは、入力として環境の1つまたは複数の観察を受信し、状態表現ニューラルネットワークパラメータのセットの値に従って入力を処理して、出力として第1の計画ステップのための内部状態表現を生成する(ステップ204)。
いくつかの実装形態において、状態表現ニューラルネットワークは、リカレントニューラルネットワークであり、状態表現ニューラルネットワークの出力は、観察の各々を連続的に処理した後のリカレントニューラルネットワークの出力である。いくつかの他の実装形態において、状態表現ニューラルネットワークは、フィードフォワードニューラルネットワークであり、状態表現ニューラルネットワークの出力は、フィードフォワードニューラルネットワークの最終層の出力である。状態表現ニューラルネットワークがフィードフォワードニューラルネットワークである実装形態において、システムは、状態表現ニューラルネットワーク122への入力として1つまたは複数の観察を提供するより前に、それらを連結し得る。
各計画ステップについて、予測ニューラルネットワークは、入力を処理して、出力として、(i)次の計画ステップのための内部状態表現と、(ii)次の計画ステップのための予測された報酬と、(iii)次の計画ステップのための予測された割引係数とを生成する(ステップ206)。第1の計画ステップについて、予測ニューラルネットワークは、入力として、状態表現ニューラルネットワークによって生成された内部状態表現を受信し、後続の計画ステップについて、予測ニューラルネットワークは、入力として、前の計画ステップにおいて予測ニューラルネットワークによって生成された内部状態表現を受信する。予測された報酬および予測された割引係数は、スカラー、ベクトル、または行列であり得、概して、結果と同じ次元を有する。概して、割引係数のエントリは、0から1の間のすべての値である。計画ステップのための内部状態表現は、結果の予測を可能にするためにシステムによって使用される、環境の抽象的な表現である。
いくつかの実装形態において、予測ニューラルネットワークは、リカレントニューラルネットワークである。いくつかの他の実装形態において、予測ニューラルネットワークは、計画ステップの各々に対応する異なるパラメータ値を有するフィードフォワードニューラルネットワークである。いくつかの実装形態において、予測ニューラルネットワークは、割引係数のエントリの値を範囲0〜1内にあるようにするために、シグモイド非線形層(sigmoid non-linearity layer)を含む。
各計画ステップについて、価値予測ニューラルネットワークは、入力を処理して、次の計画ステップのための価値予測を生成する(ステップ208)。第1の計画ステップについて、価値予測ニューラルネットワークは、入力として、状態表現ニューラルネットワークによって生成された内部状態表現を受信し、後続の計画ステップについて、価値予測ニューラルネットワークは、入力として、前の計画ステップにおいて予測ニューラルネットワークによって生成された内部状態表現を受信する。計画ステップのための価値予測は、次の内部時間ステップ以降の将来の累積割引報酬の推定である。
いくつかの実装形態において、価値予測ニューラルネットワークは、パラメータ値を予測ニューラルネットワークと共有し、すなわち、価値予測ニューラルネットワークは、入力として、内部状態表現を処理した結果として生成された予測ニューラルネットワークの中間出力を受信する。予測ニューラルネットワークの中間出力は、予測ニューラルネットワークの1つまたは複数の隠れ層の1つまたは複数のユニットの活性化に関係する。
アキュムレータがλ重み付け予測によってアグリゲート報酬を決定する実装形態において、ラムダニューラルネットワークは、入力を処理して、次の計画ステップのためのラムダ係数を生成する(ステップ209)。第1の計画ステップについて、ラムダニューラルネットワークは、入力として、状態表現ニューラルネットワークによって生成された内部状態表現を受信し、後続の計画ステップについて、ラムダニューラルネットワークは、入力として、前の計画ステップにおいて予測ニューラルネットワークによって生成された内部状態表現を受信する。ラムダ係数は、スカラー、ベクトル、または行列であり得、概して、結果と同じ次元数を有する。場合によっては、ラムダ係数のエントリの値は、0から1の間である。いくつかの実装形態において、ラムダニューラルネットワークは、ラムダ係数のエントリの値を範囲0〜1内にあるようにするために、シグモイド非線形層を含む。いくつかの実装形態において、ラムダニューラルネットワークは、パラメータ値を予測ニューラルネットワークと共有する。
システムは、現在の計画ステップが終端の計画ステップであるかどうかを決定する(ステップ210)。場合によっては、現在の計画ステップは、それが所定の数の計画ステップの最後の計画ステップである場合、終端の計画ステップであり得る。λ重み付け予測実装形態において、以下でさらに説明されるように、現在の計画ステップは、現在の計画ステップのためのλ係数が等しく0である(すなわち、λ係数がスカラーである場合、λ係数が0であるか、あるいはλ係数がベクトルまたは行列である場合、λ係数のあらゆるエントリが0である)場合、終端の計画ステップであり得る。現在の計画ステップが終端の計画ステップでないという決定に応答して、システムは、次の計画ステップに進み、ステップ206に戻り、先行するステップを繰り返す。現在の計画ステップは終端の計画ステップであるという決定に応答して、アキュムレータは、アグリゲート報酬を決定する(ステップ212)。
いくつかの実装形態において、アキュムレータは、kステップ予測によってアグリゲート報酬を決定し、ここで、kは1からKの間の整数であり、ここで、Kは計画ステップの総数である。これらの実装形態において、アキュムレータは、出力としてのkステップリターンを決定するために、最初のk個の計画ステップの各々のための予測された報酬および予測された割引係数と、k番目の計画ステップの価値予測とを組み合わせることによって、アグリゲート報酬を生成する。詳細には、アキュムレータは、kステップリターンを、
gk=r11(r22(...+γk-1(rkkvk)...))
として決定し、ここで、gkはkステップリターンであり、riは計画ステップiの報酬であり、γiは計画ステップiの割引係数であり、vkは計画ステップkの価値予測である。
いくつかの他の実装形態において、アキュムレータは、λ重み付け予測によってアグリゲート報酬を決定する。これらの実装形態において、アキュムレータは、出力としてのλ重み付けリターンを決定するために、各計画ステップkのためのkステップリターンを決定し、ラムダ係数によって定義された重みに応じてkステップリターンを組み合わせる。詳細には、アキュムレータは、λ重み付けリターンを、
Figure 0006728495
として決定し得、ここで、gλはλ重み付けリターンであり、λkは、k番目の計画ステップのためのλ係数であり、wkは重み係数であり、1は、単位行列、すなわち、対角線上の1と他の場所の0とをもつ行列であり、gkはkステップリターンである。アキュムレータはまた、中間ステップgk,λを介した逆方向累積によってλ重み付けリターンを決定し得、ここで、
gk,λ=(1-λk)vkk(rk+1k+1gk+1,λ)、およびgK,λ=vK
であり、λ重み付けリターンgλは、g0,λとして決定される。
システムは、K個の計画ステップをすべて含むとは限らない連続する計画ステップのシーケンスに基づいて、λ重み付けリターンgλを算出し得る。たとえば、前に提供されたgλの例示的な式において、計画ステップkについてλk=0である場合、重みwnが、n>kについて0であるので、gλは、最初のk個の計画ステップのkステップリターンに基づいて、および後続の計画ステップには基づかずに決定される。したがって、システムは、システムの内部状態表現および学習ダイナミクスに依存する適応可能な数の計画ステップに基づいて、アグリゲート報酬を決定する。
図3は、プレディクトロンシステムをトレーニングするための例示的なプロセス300の流れ図である。便宜上、プロセス300は、1つまたは複数のロケーションに位置する1つまたは複数のコンピュータを含むエンジンによって実施されるものとして説明されることになる。たとえば、本明細書に従って適切にプログラムされたトレーニングエンジン、たとえば、図1のトレーニングエンジン130は、プロセス300を実施することができる。
エンジンは、エージェントが対話している環境の1つまたは複数の観察と、場合によっては、環境の現在の状態に関連する対応する結果とを受信する(ステップ302)。
エンジンは、システムに観察を提供し、システムは、結果の推定であるアグリゲート報酬を決定する。アグリゲート報酬を決定するための例示的なプロセスは、図2を参照しながら説明される。
エンジンは、損失関数に基づいて勾配を決定し、システムのニューラルネットワーク、すなわち、価値予測ニューラルネットワーク、状態表現ニューラルネットワーク、予測ニューラルネットワーク、およびλ重み付け予測実装形態においてはラムダニューラルネットワークのパラメータのセットの値を一緒に更新するために、勾配をバックプロパゲートする。損失関数は、教師あり損失関数、すなわち、入力として提供されシステムによって処理される観察に対応する結果に依存する損失関数、教師なし損失関数、すなわち、結果に依存しない損失関数、または教師あり損失項と教師なし損失項との結合であり得る。
kステップ予測実装形態において、教師あり損失関数は、
Figure 0006728495
によって与えられ得、ここで、gは結果である。別の例として、λ重み付け予測実装形態において、ラムダニューラルネットワークに勾配をバックプロパゲートするために使用される教師あり損失関数は、
Figure 0006728495
によって与えられ得、価値予測ニューラルネットワーク、状態表現ニューラルネットワーク、および予測ニューラルネットワークに勾配をバックプロパゲートするために使用される教師あり損失関数は、
Figure 0006728495
によって、または、
Figure 0006728495
によって与えられ得る。
λ重み付け予測実装形態において、教師なし損失関数は、
Figure 0006728495
によって与えられ得、ここで、gλは固定と見なされ、各kステップリターンgkをgλとより類似させるために勾配がバックプロパゲートされるが、その逆は成り立たない。教師なし損失関数に基づいて勾配をバックプロパゲートすることは、kステップリターンとλ重み付けリターンとの間の差を減少させ、これにより、kステップリターンを自己無撞着とし、それにより、システムのロバストネスを増加させる。さらに、教師なし損失関数は、入力として提供されシステムによって処理される観察に対応する結果に依存しないので、エンジンは、対応する結果が知られていない観察のシーケンスのための教師なし損失関数に基づいて勾配をバックプロパゲートすることによって、システムをトレーニングし得る。
対応する結果が知られているトレーニング観察について、エンジンは、教師あり損失項と教師なし損失項の両方を結合する損失関数に基づいて、システムのニューラルネットワークのパラメータのセットの値を更新し得る。たとえば、損失関数は、教師あり損失項と教師なし損失項との重み付けされた線形結合であり得る。
本明細書は、システムおよびコンピュータプログラム構成要素に関して「構成される」という用語を使用する。1つまたは複数のコンピュータのシステムが、特定の動作または行動を実施するように構成されることは、動作中、システムに動作または行動を実施させる、ソフトウェア、ファームウェア、ハードウェア、またはそれらの組合せを、システムがその上にインストールしたことを意味する。1つまたは複数のコンピュータプログラムが、特定の動作または行動を実施するように構成されることは、1つまたは複数のプログラムが、データ処理装置によって実行されたときにその装置に動作または行動を実施させる命令を含むことを意味する。
本明細書において説明された主題および機能的動作の実施形態は、本明細書において開示された構造およびそれらの構造等価物を含む、デジタル電子回路において、有形に具現化されたコンピュータソフトウェアまたはファームウェアにおいて、コンピュータハードウェアにおいて、あるいはそれらのうちの1つまたは複数の組合せにおいて実装され得る。本明細書において説明された主題の実施形態は、1つまたは複数のコンピュータプログラムとして、すなわち、データ処理装置が実行するために有形非一時的記憶媒体上に符号化された、またはデータ処理装置の動作を制御するための、コンピュータプログラム命令の1つまたは複数のモジュールとして、実装され得る。コンピュータ記憶媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムまたはシリアルアクセスメモリデバイス、あるいはそれらのうちの1つまたは複数の組合せであり得る。代替的にまたは追加として、プログラム命令は、データ処理装置が実行するための好適な受信機装置への送信のための情報を符号化するために生成される、人工的に生成された伝搬される信号、たとえば、機械生成の電気信号、光信号、または電磁信号上に符号化され得る。
「データ処理装置」という用語は、データ処理ハードウェアを指し、例として、プログラマブルプロセッサ、コンピュータ、あるいは複数のプロセッサまたはコンピュータを含む、データを処理するためのすべての種類の装置、デバイス、および機械を包含する。装置はまた、専用論理回路、たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)であるか、あるいはそれをさらに含むことができる。装置は、ハードウェアに加えて、コンピュータプログラムのための実行環境を作成するコード、たとえば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらのうちの1つまたは複数の組合せをなすコードを随意に含むことができる。
プログラム、ソフトウェア、ソフトウェアアプリケーション、アプリ、モジュール、ソフトウェアモジュール、スクリプト、またはコードと呼ばれるか、あるいはそれらとして記述されることもある、コンピュータプログラムは、コンパイル型言語またはインタープリタ型言語、あるいは宣言型言語または手続き型言語を含む、任意の形態のプログラミング言語で書かれ得、それは、スタンドアロンプログラムとして、あるいはモジュール、構成要素、サブルーチン、またはコンピューティング環境において使用するのに好適な他のユニットとしてを含む、任意の形態において展開され得る。プログラムは、ファイルシステム中のファイルに対応し得るが、それに対応する必要はない。プログラムは、他のプログラムまたはデータ、たとえば、マークアップ言語ドキュメントに記憶された1つまたは複数のスクリプトを保持するファイルの一部分に、当該のプログラムに専用の単一のファイルに、あるいは複数の協調ファイル(coordinated file)、たとえば、1つまたは複数のモジュール、サブプログラム、またはコードの部分を記憶するファイルに記憶され得る。コンピュータプログラムは、1つのコンピュータ上で実行されるように展開され得、あるいは1つのサイトに位置するかまたは複数のサイトにわたって分散され、データ通信ネットワークによって相互接続された、複数のコンピュータ上で実行されるように展開され得る。
本明細書において、「エンジン」という用語は、1つまたは複数の固有の機能を実施するようにプログラムされる、ソフトウェアベースのシステム、サブシステム、またはプロセスを指すために広く使用される。概して、エンジンは、1つまたは複数のロケーションにおける1つまたは複数のコンピュータ上にインストールされた、1つまたは複数のソフトウェアモジュールまたは構成要素として実装されることになる。場合によっては、1つまたは複数のコンピュータは、特定のエンジンに専用となり、他の場合には、複数のエンジンが、同じ1つまたは複数のコンピュータ上にインストールされ、その上で実行していることがある。
本明細書において説明されたプロセスおよび論理フローは、入力データに対して動作し、出力を生成することによって機能を実施するために、1つまたは複数のコンピュータプログラムを実行する、1つまたは複数のプログラマブルコンピュータによって実施され得る。プロセスおよび論理フローは、専用論理回路、たとえば、FPGAまたはASICによって、あるいは専用論理回路と1つまたは複数のプログラムされたコンピュータとの組合せによっても実施され得る。
コンピュータプログラムの実行に好適なコンピュータは、汎用マイクロプロセッサまたは専用マイクロプロセッサ、あるいはその両方、あるいは任意の他の種類の中央処理ユニットに基づき得る。概して、中央処理ユニットは、読取り専用メモリまたはランダムアクセスメモリ、あるいはその両方から、命令およびデータを受信することになる。コンピュータの必須の要素は、命令を実施または実行するための中央処理ユニットと、命令およびデータを記憶するための1つまたは複数のメモリデバイスとである。中央処理ユニットおよびメモリは、専用論理回路によって増補されるか、または専用論理回路に組み込まれ得る。概して、コンピュータはまた、データを記憶するための1つまたは複数の大容量記憶デバイス、たとえば、磁気ディスク、光磁気ディスク、または光ディスクを含むことになり、あるいは、それらからデータを受信するように、もしくはそれらにデータを転送するように、またはその両方を行うように動作可能に結合されることになる。ただし、コンピュータはそのようなデバイスを有する必要はない。その上、コンピュータは、別のデバイス、たとえば、ほんのいくつかの例を挙げれば、携帯電話、携帯情報端末(PDA)、モバイルオーディオまたはビデオプレーヤ、ゲーム機、全地球測位システム(GPS)受信機、あるいはポータブル記憶デバイス、たとえば、ユニバーサルシリアルバス(USB)フラッシュドライブ中に埋め込まれ得る。
コンピュータプログラム命令およびデータを記憶するのに好適なコンピュータ可読媒体は、例として、半導体メモリデバイス、たとえば、EPROM、EEPROM、およびフラッシュメモリデバイスと、磁気ディスク、たとえば、内蔵ハードディスクまたはリムーバブルディスクと、光磁気ディスクと、CD-ROMおよびDVD-ROMディスクとを含む、すべての形態の不揮発性メモリ、媒体およびメモリデバイスを含む。
ユーザとの対話を提供するために、本明細書において説明された主題の実施形態は、ユーザへの情報を表示するためのディスプレイデバイス、たとえば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタと、ユーザがそれによってコンピュータに入力を与えることができるキーボードおよびポインティングデバイス、たとえば、マウスまたはトラックボールとを有するコンピュータ上で実装され得る。他の種類のデバイスも、ユーザとの対話を提供するために使用され得、たとえば、ユーザに提供されるフィードバックは、任意の形態の知覚フィードバック、たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであり得、ユーザからの入力は、音響入力、音声入力、または触覚入力を含む、任意の形態において受信され得る。さらに、コンピュータは、ユーザによって使用されるデバイスにドキュメントを送ることと、そのデバイスからドキュメントを受信することとによって、たとえば、ウェブブラウザから受信された要求に応答してユーザのデバイス上のウェブブラウザにウェブページを送ることによって、ユーザと対話することができる。また、コンピュータは、テキストメッセージまたは他の形態のメッセージをパーソナルデバイス、たとえば、メッセージングアプリケーションを実行しているスマートフォンに送ることと、返信としてユーザからの応答メッセージを受信することとによって、ユーザと対話することができる。
機械学習モデルを実装するためのデータ処理装置はまた、たとえば、機械学習トレーニングまたは生成、すなわち、推論、作業負荷の、共通のおよび計算集約的な部分を処理するための専用ハードウェアアクセラレータユニットを含むことができる。
機械学習モデルは、機械学習フレームワーク、たとえば、TensorFlowフレームワーク、Microsoft Cognitive Toolkitフレームワーク、Apache Singaフレームワーク、またはApache MXNetフレームワークを使用して実装および展開され得る。
本明細書において説明された主題の実施形態は、たとえばデータサーバのようなバックエンド構成要素を含むコンピューティングシステムにおいて、またはミドルウェア構成要素、たとえばアプリケーションサーバを含むコンピューティングシステムにおいて、あるいはフロントエンド構成要素、たとえば、本明細書において説明された主題の実装形態とユーザがそれを通して対話することができる、グラフィカルユーザインターフェース、ウェブブラウザ、またはアプリを有するクライアントコンピュータを含むコンピューティングシステムにおいて、あるいは1つまたは複数のそのようなバックエンド構成要素、ミドルウェア構成要素、またはフロントエンド構成要素の任意の組合せにおいて実装され得る。システムの構成要素は、デジタルデータ通信、たとえば、通信ネットワークの任意の形態または媒体によって、相互接続され得る。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)、たとえば、インターネットとを含む。
コンピューティングシステムは、クライアントとサーバとを含むことができる。クライアントとサーバとは、概して、互いから遠く離れており、一般に、通信ネットワークを通して対話する。クライアントとサーバとの関係は、それぞれのコンピュータ上で実行し、互いにクライアントサーバ関係を有する、コンピュータプログラムによって生じる。いくつかの実施形態において、サーバは、たとえば、クライアントとして働くデバイスと対話するユーザにデータを表示し、そのユーザからユーザ入力を受信する目的で、データ、たとえばHTMLページをユーザデバイスに送信する。ユーザデバイスにおいて生成されたデータ、たとえば、ユーザ対話の結果は、サーバにおいてデバイスから受信され得る。
本明細書は多くの特定の実装形態の詳細を含んでいるが、これらは、発明の範囲に対する限定、または請求され得るものの範囲に対する限定として解釈されるべきではなく、むしろ、特定の発明の特定の実施形態に固有であり得る特徴の説明として解釈されるべきである。また、別個の実施形態に関して本明細書において説明されたいくつかの特徴は、単一の実施形態における組合せで実装され得る。また、逆に、単一の実施形態に関して説明された様々な特徴は、複数の実施形態において別個に、または任意の好適な部分組合せで実装され得る。その上、特徴は、いくつかの組合せで働くものとして上記で説明され、初めにそのように請求されることさえあるが、請求される組合せからの1つまたは複数の特徴は、場合によってはその組合せから削除され得、請求される組合せは、部分組合せ、または部分組合せの変形形態を対象とし得る。
同様に、動作は特定の順序で図面に示され、特許請求の範囲に記載されているが、これは、望ましい結果を達成するために、そのような動作が、示される特定の順序でまたは連続した順序で実施されることを、あるいはすべての図示の動作が実施されることを必要とするものとして理解されるべきでない。いくつかの状況において、マルチタスキングおよび並列処理が有利であり得る。その上、上記で説明された実施形態における様々なシステムモジュールおよび構成要素の分離は、すべての実施形態においてそのような分離を必要とするものとして理解されるべきでなく、説明されたプログラム構成要素およびシステムは、概して、単一のソフトウェア製品において互いに一体化されるか、または複数のソフトウェア製品にパッケージングされ得ることを理解されたい。
主題の特定の実施形態が説明された。他の実施形態が以下の特許請求の範囲内に入る。たとえば、特許請求の範囲に記載の行為(action)は、異なる順序で実施され、依然として、望ましい結果を達成することができる。一例として、添付図に示されたプロセスは、望ましい結果を達成するために、必ずしも、示される特定の順序または連続した順序を必要とするとは限らない。場合によっては、マルチタスキングおよび並列処理が有利であり得る。
100 プレディクトロンシステム
102 エージェント
104 行動
106 環境
108 観察
110 アグリゲート報酬
112 アキュムレータ
114 内部状態表現
116 予測された報酬
118 予測された割引係数
120 予測ニューラルネットワーク
122 状態表現ニューラルネットワーク
124 価値予測ニューラルネットワーク
126 ラムダニューラルネットワーク
128 結果
130 トレーニングエンジン

Claims (13)

1つまたは複数のコンピュータによって実装されるシステムであって、前記システムは、
エージェントが対話している環境の状態を特徴づける1つまたは複数の観察を受信することと、
前記1つまたは複数の観察を処理して、現在の環境状態の内部状態表現を生成することと
を行うように構成された、状態表現ニューラルネットワークと、
複数の内部時間ステップの各々について、
前記内部時間ステップのための内部状態表現を受信することと、
前記内部時間ステップのための前記内部状態表現を処理して、
次の内部時間ステップのための内部状態表現、および
前記次の内部時間ステップのための予測された報酬
を生成することと
を行うように構成された、予測ニューラルネットワークと、
前記複数の内部時間ステップの各々について、
前記内部時間ステップのための前記内部状態表現を受信することと、
前記内部時間ステップのための前記内部状態表現を処理して、次の内部時間ステップ以降の将来の累積割引報酬の推定である価値予測を生成することと
を行うように構成された、価値予測ニューラルネットワークと、
前記環境の状態を特徴づける1つまたは複数の観察を受信することと、
前記現在の環境状態の内部状態表現を生成するために、前記状態表現ニューラルネットワークへの入力として、前記1つまたは複数の観察を提供することと、
前記複数の内部時間ステップの各々について、
前記予測ニューラルネットワークおよび前記価値予測ニューラルネットワークを使用して、前記内部時間ステップのための前記内部状態表現から、前記次の内部時間ステップのための内部状態表現、前記次の内部時間ステップのための予測された報酬、および価値予測を生成することと、
前記内部時間ステップのための、前記予測された報酬および前記価値予測から、アグリゲート報酬を決定することと
を行うように構成された、プレディクトロンサブシステムとを備える、
システム。
前記プレディクトロンサブシステムが、
前記環境が前記現在の状態にあることから生じる報酬の推定として、前記アグリゲート報酬を提供するようにさらに構成された、
請求項1に記載のシステム。
前記予測ニューラルネットワークが、前記次の内部時間ステップのための予測された割引係数を生成するようにさらに構成され、前記プレディクトロンサブシステムが、前記アグリゲート報酬を決定する際に、前記内部時間ステップのための前記予測された割引係数を使用するように構成された、
請求項1または2に記載のシステム。
前記システムが、
前記内部時間ステップの各々について、現在の内部時間ステップのための内部状態表現を処理して、次の内部時間ステップのためのラムダ係数を生成するように構成されたラムダニューラルネットワークをさらに備え、前記プレディクトロンサブシステムが、前記アグリゲート報酬を決定する際に、前記内部時間ステップのためのリターン係数を決定することと、前記ラムダ係数を使用して、前記リターン係数のための重みを決定することとを行うように構成された、
請求項2または3に記載のシステム。
前記状態表現ニューラルネットワークが、リカレントニューラルネットワークを備える、
請求項1から4のいずれか一項に記載のシステム。
前記状態表現ニューラルネットワークが、フィードフォワードニューラルネットワークを備える、
請求項1から4のいずれか一項に記載のシステム。
前記予測ニューラルネットワークが、リカレントニューラルネットワークを備える、
請求項1から6のいずれか一項に記載のシステム。
前記予測ニューラルネットワークが、前記複数の時間ステップの各々において異なるパラメータ値を有するフィードフォワードニューラルネットワークを備える、
請求項1から6のいずれか一項に記載のシステム。
1つまたは複数のコンピュータによって実行されたとき、前記1つまたは複数のコンピュータに、請求項1から8のいずれか一項に記載のシステムの動作を実施させる命令を記憶する、
1つまたは複数のコンピュータ可読記憶媒体。
請求項1から8のいずれか一項に記載のシステムのプレディクトロンサブシステムによって実行される動作を含む方法。
請求項4に記載のシステムをトレーニングする方法であって、前記方法が、
前記アグリゲート報酬と、前記環境が前記現在の状態にあることから生じる報酬の推定とに基づく、損失の勾配を決定するステップと、
前記状態表現ニューラルネットワーク、前記予測ニューラルネットワーク、前記価値予測ニューラルネットワーク、および前記ラムダニューラルネットワークのパラメータの現在の値を更新するために、前記損失の前記勾配をバックプロパゲートするステップとを含む、
方法。
請求項4に記載のシステムを、トレーニングするための方法であって、前記方法が、
前記プレディクトロンサブシステムによって決定された前記内部時間ステップのための前記リターン係数の一貫性に基づく、一貫性損失の勾配を決定するステップと、
前記状態表現ニューラルネットワーク、前記予測ニューラルネットワーク、前記価値予測ニューラルネットワーク、および前記ラムダニューラルネットワークのパラメータの現在の値を更新するために、前記一貫性損失の前記勾配をバックプロパゲートするステップとを含む、
方法。
1つまたは複数のコンピュータによって実行されたとき、前記1つまたは複数のコンピュータに、請求項11に記載の方法の動作を実施させる命令を記憶する、1つまたは複数のコンピュータ可読記録媒体。
JP2019523612A 2016-11-04 2017-11-04 強化学習を用いた環境予測 Active JP6728495B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020111559A JP6917508B2 (ja) 2016-11-04 2020-06-29 強化学習を用いた環境予測

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662418159P 2016-11-04 2016-11-04
US62/418,159 2016-11-04
PCT/IB2017/056902 WO2018083667A1 (en) 2016-11-04 2017-11-04 Reinforcement learning systems

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2020111559A Division JP6917508B2 (ja) 2016-11-04 2020-06-29 強化学習を用いた環境予測

Publications (2)

Publication Number Publication Date
JP2019537136A JP2019537136A (ja) 2019-12-19
JP6728495B2 true JP6728495B2 (ja) 2020-07-22

Family

ID=60515745

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019523612A Active JP6728495B2 (ja) 2016-11-04 2017-11-04 強化学習を用いた環境予測
JP2020111559A Active JP6917508B2 (ja) 2016-11-04 2020-06-29 強化学習を用いた環境予測

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2020111559A Active JP6917508B2 (ja) 2016-11-04 2020-06-29 強化学習を用いた環境予測

Country Status (5)

Country Link
US (2) US10733501B2 (ja)
EP (1) EP3523760B1 (ja)
JP (2) JP6728495B2 (ja)
CN (2) CN110088775B (ja)
WO (1) WO2018083667A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110088775B (zh) * 2016-11-04 2023-11-07 渊慧科技有限公司 使用加强学习的环境预测
US10692244B2 (en) 2017-10-06 2020-06-23 Nvidia Corporation Learning based camera pose estimation from images of an environment
US11735028B2 (en) 2018-06-12 2023-08-22 Intergraph Corporation Artificial intelligence applications for computer-aided dispatch systems
US10789511B2 (en) 2018-10-12 2020-09-29 Deepmind Technologies Limited Controlling agents over long time scales using temporal value transport
US11313950B2 (en) 2019-01-15 2022-04-26 Image Sensing Systems, Inc. Machine learning based highway radar vehicle classification across multiple lanes and speeds
US11587552B2 (en) 2019-04-30 2023-02-21 Sutherland Global Services Inc. Real time key conversational metrics prediction and notability
CN114761965A (zh) 2019-09-13 2022-07-15 渊慧科技有限公司 数据驱动的机器人控制
CN114020079B (zh) * 2021-11-03 2022-09-16 北京邮电大学 一种室内空间温度和湿度调控方法及装置
US20230367697A1 (en) * 2022-05-13 2023-11-16 Microsoft Technology Licensing, Llc Cloud architecture for reinforcement learning

Family Cites Families (249)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2004068399A1 (ja) 2003-01-31 2006-05-25 松下電器産業株式会社 予測型行動決定装置および行動決定方法
US20160086222A1 (en) * 2009-01-21 2016-03-24 Truaxis, Inc. Method and system to remind users of targeted offers in similar categories
US8775341B1 (en) * 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9015093B1 (en) * 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8819523B2 (en) * 2011-05-19 2014-08-26 Cambridge Silicon Radio Limited Adaptive controller for a configurable audio coding system
US8793557B2 (en) * 2011-05-19 2014-07-29 Cambrige Silicon Radio Limited Method and apparatus for real-time multidimensional adaptation of an audio coding system
JP5874292B2 (ja) * 2011-10-12 2016-03-02 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US10803525B1 (en) * 2014-02-19 2020-10-13 Allstate Insurance Company Determining a property of an insurance policy based on the autonomous features of a vehicle
US10558987B2 (en) * 2014-03-12 2020-02-11 Adobe Inc. System identification framework
JP5984147B2 (ja) * 2014-03-27 2016-09-06 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、情報処理方法、及び、プログラム
US10091785B2 (en) * 2014-06-11 2018-10-02 The Board Of Trustees Of The University Of Alabama System and method for managing wireless frequency usage
WO2016106238A1 (en) * 2014-12-24 2016-06-30 Google Inc. Augmenting neural networks to generate additional outputs
US11080587B2 (en) * 2015-02-06 2021-08-03 Deepmind Technologies Limited Recurrent neural networks for data item generation
CN106056213B (zh) * 2015-04-06 2022-03-29 渊慧科技有限公司 使用目标和观察来选择强化学习动作
CA2993551C (en) * 2015-07-24 2022-10-11 Google Llc Continuous control with deep reinforcement learning
US20170061283A1 (en) * 2015-08-26 2017-03-02 Applied Brain Research Inc. Methods and systems for performing reinforcement learning in hierarchical and temporally extended environments
WO2017044842A1 (en) * 2015-09-11 2017-03-16 Google Inc. Training reinforcement learning neural networks
US10380481B2 (en) * 2015-10-08 2019-08-13 Via Alliance Semiconductor Co., Ltd. Neural network unit that performs concurrent LSTM cell calculations
JP6010204B1 (ja) * 2015-10-26 2016-10-19 ファナック株式会社 パワー素子の予測寿命を学習する機械学習装置及び方法並びに該機械学習装置を備えた寿命予測装置及びモータ駆動装置
CN108701252B (zh) * 2015-11-12 2024-02-02 渊慧科技有限公司 使用优先化经验存储器训练神经网络
KR102172277B1 (ko) * 2015-11-12 2020-10-30 딥마인드 테크놀로지스 리미티드 듀얼 심층 신경 네트워크
US11072067B2 (en) * 2015-11-16 2021-07-27 Kindred Systems Inc. Systems, devices, and methods for distributed artificial neural network computation
US9536191B1 (en) * 2015-11-25 2017-01-03 Osaro, Inc. Reinforcement learning using confidence scores
JP6193961B2 (ja) * 2015-11-30 2017-09-06 ファナック株式会社 機械の送り軸の送りの滑らかさを最適化する機械学習装置および方法ならびに該機械学習装置を備えたモータ制御装置
WO2017096079A1 (en) * 2015-12-01 2017-06-08 Google Inc. Selecting action slates using reinforcement learning
US10885432B1 (en) * 2015-12-16 2021-01-05 Deepmind Technologies Limited Selecting actions from large discrete action sets using reinforcement learning
CN108431549B (zh) * 2016-01-05 2020-09-04 御眼视觉技术有限公司 具有施加的约束的经训练的系统
US20170213150A1 (en) * 2016-01-25 2017-07-27 Osaro, Inc. Reinforcement learning using a partitioned input state space
JP6339603B2 (ja) * 2016-01-28 2018-06-06 ファナック株式会社 レーザ加工開始条件を学習する機械学習装置、レーザ装置および機械学習方法
JP2017138881A (ja) * 2016-02-05 2017-08-10 ファナック株式会社 操作メニューの表示を学習する機械学習器,数値制御装置,工作機械システム,製造システムおよび機械学習方法
JP6669897B2 (ja) * 2016-02-09 2020-03-18 グーグル エルエルシー 優位推定を使用する強化学習
EP3417242B1 (en) * 2016-02-15 2022-12-21 Allstate Insurance Company Real time risk assessment and operational changes with semi-autonomous vehicles
JP6360090B2 (ja) * 2016-03-10 2018-07-18 ファナック株式会社 機械学習装置、レーザ装置および機械学習方法
JP6348137B2 (ja) * 2016-03-24 2018-06-27 ファナック株式会社 工作物の良否を判定する加工機械システム
WO2017192183A1 (en) * 2016-05-04 2017-11-09 Google Llc Augmenting neural networks with external memory using reinforcement learning
EP3459018B1 (en) * 2016-05-20 2021-10-20 Deepmind Technologies Limited Reinforcement learning using pseudo-counts
US11521056B2 (en) * 2016-06-17 2022-12-06 Graham Fyffe System and methods for intrinsic reward reinforcement learning
JP2018004473A (ja) * 2016-07-04 2018-01-11 ファナック株式会社 軸受の予測寿命を学習する機械学習装置、寿命予測装置および機械学習方法
US10839310B2 (en) * 2016-07-15 2020-11-17 Google Llc Selecting content items using reinforcement learning
JP6506219B2 (ja) * 2016-07-21 2019-04-24 ファナック株式会社 モータの電流指令を学習する機械学習器,モータ制御装置および機械学習方法
WO2018022715A1 (en) * 2016-07-26 2018-02-01 University Of Connecticut Early prediction of an intention of a user's actions
DE202016004628U1 (de) * 2016-07-27 2016-09-23 Google Inc. Durchqueren einer Umgebungsstatusstruktur unter Verwendung neuronaler Netze
US10049301B2 (en) * 2016-08-01 2018-08-14 Siemens Healthcare Gmbh Medical scanner teaches itself to optimize clinical protocols and image acquisition
US11080591B2 (en) * 2016-09-06 2021-08-03 Deepmind Technologies Limited Processing sequences using convolutional neural networks
WO2018053187A1 (en) * 2016-09-15 2018-03-22 Google Inc. Deep reinforcement learning for robotic manipulation
US11188821B1 (en) * 2016-09-15 2021-11-30 X Development Llc Control policies for collective robot learning
JP6514166B2 (ja) * 2016-09-16 2019-05-15 ファナック株式会社 ロボットの動作プログラムを学習する機械学習装置,ロボットシステムおよび機械学習方法
CN115343947A (zh) * 2016-09-23 2022-11-15 苹果公司 自主车辆的运动控制决策
US20180100662A1 (en) * 2016-10-11 2018-04-12 Mitsubishi Electric Research Laboratories, Inc. Method for Data-Driven Learning-based Control of HVAC Systems using High-Dimensional Sensory Observations
US9989964B2 (en) * 2016-11-03 2018-06-05 Mitsubishi Electric Research Laboratories, Inc. System and method for controlling vehicle using neural network
EP3696737B1 (en) * 2016-11-03 2022-08-31 Deepmind Technologies Limited Training action selection neural networks
CN110088775B (zh) * 2016-11-04 2023-11-07 渊慧科技有限公司 使用加强学习的环境预测
WO2018085778A1 (en) * 2016-11-04 2018-05-11 Google Llc Unsupervised detection of intermediate reinforcement learning goals
KR102424893B1 (ko) * 2016-11-04 2022-07-25 딥마인드 테크놀로지스 리미티드 보조 작업들을 통한 강화 학습
US11062207B2 (en) * 2016-11-04 2021-07-13 Raytheon Technologies Corporation Control systems using deep reinforcement learning
CN108230057A (zh) * 2016-12-09 2018-06-29 阿里巴巴集团控股有限公司 一种智能推荐方法及系统
US20180165602A1 (en) * 2016-12-14 2018-06-14 Microsoft Technology Licensing, Llc Scalability of reinforcement learning by separation of concerns
CN110073376A (zh) * 2016-12-14 2019-07-30 索尼公司 信息处理装置和信息处理方法
US20200365015A1 (en) * 2016-12-19 2020-11-19 ThruGreen, LLC Connected and adaptive vehicle traffic management system with digital prioritization
EP3552156B8 (en) * 2017-02-24 2022-08-03 DeepMind Technologies Limited Neural episodic control
WO2018156891A1 (en) * 2017-02-24 2018-08-30 Google Llc Training policy neural networks using path consistency learning
US10373313B2 (en) * 2017-03-02 2019-08-06 Siemens Healthcare Gmbh Spatially consistent multi-scale anatomical landmark detection in incomplete 3D-CT data
US10542019B2 (en) * 2017-03-09 2020-01-21 International Business Machines Corporation Preventing intersection attacks
US10379538B1 (en) * 2017-03-20 2019-08-13 Zoox, Inc. Trajectory generation using motion primitives
US10345808B2 (en) * 2017-03-30 2019-07-09 Uber Technologies, Inc Systems and methods to control autonomous vehicle motion
CN110832509B (zh) * 2017-04-12 2023-11-03 渊慧科技有限公司 使用神经网络的黑盒优化
WO2018188981A1 (en) * 2017-04-12 2018-10-18 Koninklijke Philips N.V. Drawing conclusions from free form texts with deep reinforcement learning
EP3933713A1 (en) * 2017-04-14 2022-01-05 DeepMind Technologies Limited Distributional reinforcement learning
US10606898B2 (en) * 2017-04-19 2020-03-31 Brown University Interpreting human-robot instructions
EP3596662A1 (en) * 2017-05-19 2020-01-22 Deepmind Technologies Limited Imagination-based agent neural networks
EP3593289A1 (en) * 2017-05-19 2020-01-15 Deepmind Technologies Limited Training action selection neural networks using a differentiable credit function
CN117592504A (zh) * 2017-05-26 2024-02-23 渊慧科技有限公司 训练动作选择神经网络的方法
DK3602409T3 (da) * 2017-06-05 2024-01-29 Deepmind Tech Ltd Udvælgelse af handlinger ved hjælp af multimodale inputs
EP3593292A1 (en) * 2017-06-09 2020-01-15 Deepmind Technologies Limited Training action selection neural networks
CN110785268B (zh) * 2017-06-28 2023-04-04 谷歌有限责任公司 用于语义机器人抓取的机器学习方法和装置
US10883844B2 (en) * 2017-07-27 2021-01-05 Waymo Llc Neural networks for vehicle trajectory planning
US11256983B2 (en) * 2017-07-27 2022-02-22 Waymo Llc Neural networks for vehicle trajectory planning
JP6756676B2 (ja) * 2017-07-27 2020-09-16 ファナック株式会社 製造システム
US20200174490A1 (en) * 2017-07-27 2020-06-04 Waymo Llc Neural networks for vehicle trajectory planning
US11112796B2 (en) * 2017-08-08 2021-09-07 Uatc, Llc Object motion prediction and autonomous vehicle control
JP6564432B2 (ja) * 2017-08-29 2019-08-21 ファナック株式会社 機械学習装置、制御システム、制御装置、及び機械学習方法
EP3467717A1 (en) * 2017-10-04 2019-04-10 Prowler.io Limited Machine learning system
US10739776B2 (en) * 2017-10-12 2020-08-11 Honda Motor Co., Ltd. Autonomous vehicle policy generation
US10701641B2 (en) * 2017-10-13 2020-06-30 Apple Inc. Interference mitigation in ultra-dense wireless networks
EP3688675A1 (en) * 2017-10-27 2020-08-05 DeepMind Technologies Limited Distributional reinforcement learning for continuous control tasks
US20200285940A1 (en) * 2017-10-27 2020-09-10 Deepmind Technologies Limited Machine learning systems with memory based parameter adaptation for learning fast and slower
US11701773B2 (en) * 2017-12-05 2023-07-18 Google Llc Viewpoint invariant visual servoing of robot end effector using recurrent neural network
US10926408B1 (en) * 2018-01-12 2021-02-23 Amazon Technologies, Inc. Artificial intelligence system for efficiently learning robotic control policies
US20190244099A1 (en) * 2018-02-05 2019-08-08 Deepmind Technologies Limited Continual reinforcement learning with a multi-task agent
WO2019149949A1 (en) * 2018-02-05 2019-08-08 Deepmind Technologies Limited Distributed training using off-policy actor-critic reinforcement learning
US11221413B2 (en) * 2018-03-14 2022-01-11 Uatc, Llc Three-dimensional object detection
US11467590B2 (en) * 2018-04-09 2022-10-11 SafeAI, Inc. Techniques for considering uncertainty in use of artificial intelligence models
JP6740277B2 (ja) * 2018-04-13 2020-08-12 ファナック株式会社 機械学習装置、制御装置、及び機械学習方法
EP3782080A1 (en) * 2018-04-18 2021-02-24 DeepMind Technologies Limited Neural networks for scalable continual learning in domains with sequentially learned tasks
US11263531B2 (en) * 2018-05-18 2022-03-01 Deepmind Technologies Limited Unsupervised control using learned rewards
CN117549293A (zh) * 2018-05-18 2024-02-13 谷歌有限责任公司 数据高效的分层强化学习
US11370423B2 (en) * 2018-06-15 2022-06-28 Uatc, Llc Multi-task machine-learned models for object intention determination in autonomous driving
US11454975B2 (en) * 2018-06-28 2022-09-27 Uatc, Llc Providing actionable uncertainties in autonomous vehicles
US11397089B2 (en) * 2018-07-13 2022-07-26 Uatc, Llc Autonomous vehicle routing with route extension
JP6608010B1 (ja) * 2018-07-25 2019-11-20 積水化学工業株式会社 制御装置、サーバ、管理システム、コンピュータプログラム、学習モデル及び制御方法
US11423295B2 (en) * 2018-07-26 2022-08-23 Sap Se Dynamic, automated fulfillment of computer-based resource request provisioning using deep reinforcement learning
US11537872B2 (en) * 2018-07-30 2022-12-27 International Business Machines Corporation Imitation learning by action shaping with antagonist reinforcement learning
US11734575B2 (en) * 2018-07-30 2023-08-22 International Business Machines Corporation Sequential learning of constraints for hierarchical reinforcement learning
EP3605334A1 (en) * 2018-07-31 2020-02-05 Prowler.io Limited Incentive control for multi-agent systems
JP7011239B2 (ja) * 2018-08-17 2022-01-26 横河電機株式会社 装置、方法、プログラム、および、記録媒体
US11833681B2 (en) * 2018-08-24 2023-12-05 Nvidia Corporation Robotic control system
WO2020047657A1 (en) * 2018-09-04 2020-03-12 Kindred Systems Inc. Real-time real-world reinforcement learning systems and methods
WO2020055759A1 (en) * 2018-09-11 2020-03-19 Nvidia Corporation Future object trajectory predictions for autonomous machine applications
US20220067850A1 (en) * 2018-09-12 2022-03-03 Electra Vehicles, Inc. Systems and methods for managing energy storage systems
US20210325894A1 (en) * 2018-09-14 2021-10-21 Google Llc Deep reinforcement learning-based techniques for end to end robot navigation
US20200097808A1 (en) * 2018-09-21 2020-03-26 International Business Machines Corporation Pattern Identification in Reinforcement Learning
US10872294B2 (en) * 2018-09-27 2020-12-22 Deepmind Technologies Limited Imitation learning using a generative predecessor neural network
WO2020064994A1 (en) * 2018-09-27 2020-04-02 Deepmind Technologies Limited Reinforcement learning neural networks grounded in learned visual entities
JP2022501090A (ja) * 2018-09-27 2022-01-06 クアンタム サージカル 自動位置決め手段を備えた医療ロボット
US11568207B2 (en) * 2018-09-27 2023-01-31 Deepmind Technologies Limited Learning observation representations by predicting the future in latent space
EP3788549B1 (en) * 2018-09-27 2023-09-06 DeepMind Technologies Limited Stacked convolutional long short-term memory for model-free reinforcement learning
US10831210B1 (en) * 2018-09-28 2020-11-10 Zoox, Inc. Trajectory generation and optimization using closed-form numerical integration in route-relative coordinates
JP6901450B2 (ja) * 2018-10-02 2021-07-14 ファナック株式会社 機械学習装置、制御装置及び機械学習方法
US20210402598A1 (en) * 2018-10-10 2021-12-30 Sony Corporation Robot control device, robot control method, and robot control program
EP3640873A1 (en) * 2018-10-17 2020-04-22 Tata Consultancy Services Limited System and method for concurrent dynamic optimization of replenishment decision in networked node environment
SG11202104066UA (en) * 2018-10-26 2021-05-28 Dow Global Technologies Llc Deep reinforcement learning for production scheduling
US20210383218A1 (en) * 2018-10-29 2021-12-09 Google Llc Determining control policies by minimizing the impact of delusion
US20200134445A1 (en) * 2018-10-31 2020-04-30 Advanced Micro Devices, Inc. Architecture for deep q learning
US11231717B2 (en) * 2018-11-08 2022-01-25 Baidu Usa Llc Auto-tuning motion planning system for autonomous vehicles
JP6849643B2 (ja) * 2018-11-09 2021-03-24 ファナック株式会社 出力装置、制御装置、及び評価関数と機械学習結果の出力方法
WO2020099672A1 (en) * 2018-11-16 2020-05-22 Deepmind Technologies Limited Controlling agents using amortized q learning
US11048253B2 (en) * 2018-11-21 2021-06-29 Waymo Llc Agent prioritization for autonomous vehicles
JP6970078B2 (ja) * 2018-11-28 2021-11-24 株式会社東芝 ロボット動作計画装置、ロボットシステム、および方法
KR101990326B1 (ko) * 2018-11-28 2019-06-18 한국인터넷진흥원 감가율 자동 조정 방식의 강화 학습 방법
US10997729B2 (en) * 2018-11-30 2021-05-04 Baidu Usa Llc Real time object behavior prediction
US11137762B2 (en) * 2018-11-30 2021-10-05 Baidu Usa Llc Real time decision making for autonomous driving vehicles
US11131992B2 (en) * 2018-11-30 2021-09-28 Denso International America, Inc. Multi-level collaborative control system with dual neural network planning for autonomous vehicle control in a noisy environment
WO2020132339A2 (en) * 2018-12-19 2020-06-25 Uatc, Llc Routing autonomous vehicles using temporal data
WO2020152364A1 (en) * 2019-01-24 2020-07-30 Deepmind Technologies Limited Multi-agent reinforcement learning with matchmaking policies
JP2020116869A (ja) * 2019-01-25 2020-08-06 セイコーエプソン株式会社 印刷装置、学習装置、学習方法および学習プログラム
US20200272905A1 (en) * 2019-02-26 2020-08-27 GE Precision Healthcare LLC Artificial neural network compression via iterative hybrid reinforcement learning approach
US10700935B1 (en) * 2019-02-27 2020-06-30 Peritus.AI, Inc. Automatic configuration and operation of complex systems
CA3075156A1 (en) * 2019-03-15 2020-09-15 Mission Control Space Services Inc. Terrain traficability assesment for autonomous or semi-autonomous rover or vehicle
US20200310420A1 (en) * 2019-03-26 2020-10-01 GM Global Technology Operations LLC System and method to train and select a best solution in a dynamical system
US11132608B2 (en) * 2019-04-04 2021-09-28 Cisco Technology, Inc. Learning-based service migration in mobile edge computing
US11312372B2 (en) * 2019-04-16 2022-04-26 Ford Global Technologies, Llc Vehicle path prediction
JP7010877B2 (ja) * 2019-04-25 2022-01-26 ファナック株式会社 機械学習装置、数値制御システム及び機械学習方法
JP2022532853A (ja) * 2019-04-30 2022-07-20 ソウル マシーンズ リミティド シーケンシング及びプランニングのためのシステム
US11701771B2 (en) * 2019-05-15 2023-07-18 Nvidia Corporation Grasp generation using a variational autoencoder
WO2020234476A1 (en) * 2019-05-23 2020-11-26 Deepmind Technologies Limited Large scale generative neural network model with inference for representation learning using adversial training
WO2020239641A1 (en) * 2019-05-24 2020-12-03 Deepmind Technologies Limited Hierarchical policies for multitask transfer
US11482210B2 (en) * 2019-05-29 2022-10-25 Lg Electronics Inc. Artificial intelligence device capable of controlling other devices based on device information
US11814046B2 (en) * 2019-05-29 2023-11-14 Motional Ad Llc Estimating speed profiles
JP7221423B6 (ja) * 2019-06-10 2023-05-16 ジョビー エアロ,インコーポレイテッド 時間変動音量予測システム
EP3977227A4 (en) * 2019-07-03 2023-01-25 Waymo Llc AGENT PATH PREDICTION USING ANCHOR PATHS
WO2021004437A1 (en) * 2019-07-05 2021-01-14 Huawei Technologies Co., Ltd. Method and system for predictive control of vehicle using digital images
US20220269948A1 (en) * 2019-07-12 2022-08-25 Elektrobit Automotive Gmbh Training of a convolutional neural network
JP7342491B2 (ja) * 2019-07-25 2023-09-12 オムロン株式会社 推論装置、推論方法、及び推論プログラム
US11481420B2 (en) * 2019-08-08 2022-10-25 Nice Ltd. Systems and methods for analyzing computer input to provide next action
US11407409B2 (en) * 2019-08-13 2022-08-09 Zoox, Inc. System and method for trajectory validation
SE1950924A1 (en) * 2019-08-13 2021-02-14 Kaaberg Johard Leonard Improved machine learning for technical systems
US11397434B2 (en) * 2019-08-13 2022-07-26 Zoox, Inc. Consistency validation for vehicle trajectory selection
US11458965B2 (en) * 2019-08-13 2022-10-04 Zoox, Inc. Feasibility validation for vehicle trajectory selection
US11599823B2 (en) * 2019-08-14 2023-03-07 International Business Machines Corporation Quantum reinforcement learning agent
WO2021040958A1 (en) * 2019-08-23 2021-03-04 Carrier Corporation System and method for early event detection using generative and discriminative machine learning models
EP4003664A1 (en) * 2019-08-27 2022-06-01 Google LLC Future prediction, using stochastic adversarial based sampling, for robotic control
US11132403B2 (en) * 2019-09-06 2021-09-28 Digital Asset Capital, Inc. Graph-manipulation based domain-specific execution environment
CN114761965A (zh) * 2019-09-13 2022-07-15 渊慧科技有限公司 数据驱动的机器人控制
EP4003665A1 (en) * 2019-09-15 2022-06-01 Google LLC Determining environment-conditioned action sequences for robotic tasks
CN114521262A (zh) * 2019-09-25 2022-05-20 渊慧科技有限公司 使用因果正确环境模型来控制智能体
JP7335434B2 (ja) * 2019-09-25 2023-08-29 ディープマインド テクノロジーズ リミテッド 後知恵モデリングを用いた行動選択ニューラルネットワークの訓練
US20210089908A1 (en) * 2019-09-25 2021-03-25 Deepmind Technologies Limited Modulating agent behavior to optimize learning progress
WO2021058583A1 (en) * 2019-09-25 2021-04-01 Deepmind Technologies Limited Training action selection neural networks using q-learning combined with look ahead search
US11650551B2 (en) * 2019-10-04 2023-05-16 Mitsubishi Electric Research Laboratories, Inc. System and method for policy optimization using quasi-Newton trust region method
US11645518B2 (en) * 2019-10-07 2023-05-09 Waymo Llc Multi-agent simulations
EP3812972A1 (en) * 2019-10-25 2021-04-28 Robert Bosch GmbH Method for controlling a robot and robot controller
US11586931B2 (en) * 2019-10-31 2023-02-21 Waymo Llc Training trajectory scoring neural networks to accurately assign scores
US20210133583A1 (en) * 2019-11-05 2021-05-06 Nvidia Corporation Distributed weight update for backpropagation of a neural network
US11912271B2 (en) * 2019-11-07 2024-02-27 Motional Ad Llc Trajectory prediction from precomputed or dynamically generated bank of trajectories
CN112937564B (zh) * 2019-11-27 2022-09-02 魔门塔(苏州)科技有限公司 换道决策模型生成方法和无人车换道决策方法及装置
US11735045B2 (en) * 2019-12-04 2023-08-22 Uatc, Llc Systems and methods for computational resource allocation for autonomous vehicles
US11442459B2 (en) * 2019-12-11 2022-09-13 Uatc, Llc Systems and methods for training predictive models for autonomous devices
US20210192287A1 (en) * 2019-12-18 2021-06-24 Nvidia Corporation Master transform architecture for deep learning
CN111061277B (zh) * 2019-12-31 2022-04-05 歌尔股份有限公司 一种无人车全局路径规划方法和装置
US11332165B2 (en) * 2020-01-27 2022-05-17 Honda Motor Co., Ltd. Human trust calibration for autonomous driving agent of vehicle
US11494649B2 (en) * 2020-01-31 2022-11-08 At&T Intellectual Property I, L.P. Radio access network control with deep reinforcement learning
US20220291666A1 (en) * 2020-02-03 2022-09-15 Strong Force TX Portfolio 2018, LLC Ai solution selection for an automated robotic process
EP4104104A1 (en) * 2020-02-10 2022-12-21 Deeplife Generative digital twin of complex systems
JP7234970B2 (ja) * 2020-02-17 2023-03-08 株式会社デンソー 車両行動生成装置、車両行動生成方法、および車両行動生成プログラム
DE102020202350A1 (de) * 2020-02-24 2021-08-26 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum Unterstützen einer Manöverplanung für ein automatisiert fahrendes Fahrzeug oder einen Roboter
US11717960B2 (en) * 2020-02-25 2023-08-08 Intelligrated Headquarters, Llc Anti-sway control for a robotic arm with adaptive grasping
US11759951B2 (en) * 2020-02-28 2023-09-19 Honda Motor Co., Ltd. Systems and methods for incorporating latent states into robotic planning
US11782438B2 (en) * 2020-03-17 2023-10-10 Nissan North America, Inc. Apparatus and method for post-processing a decision-making model of an autonomous vehicle using multivariate data
US20210327578A1 (en) * 2020-04-08 2021-10-21 Babylon Partners Limited System and Method for Medical Triage Through Deep Q-Learning
US20210334654A1 (en) * 2020-04-24 2021-10-28 Mastercard International Incorporated Methods and systems for reducing bias in an artificial intelligence model
WO2021220008A1 (en) * 2020-04-29 2021-11-04 Deep Render Ltd Image compression and decoding, video compression and decoding: methods and systems
WO2021232047A1 (en) * 2020-05-12 2021-11-18 Uber Technologies, Inc. Vehicle routing using third party vehicle capabilities
EP4162338A1 (en) * 2020-06-05 2023-04-12 Gatik AI Inc. Method and system for deterministic trajectory selection based on uncertainty estimation for an autonomous agent
EP4162721A4 (en) * 2020-06-05 2024-03-06 Ericsson Telefon Ab L M MACHINE LEARNING-BASED DYNAMIC SPECTRUM SHARING
US20210390409A1 (en) * 2020-06-12 2021-12-16 Google Llc Training reinforcement learning agents using augmented temporal difference learning
US20210397959A1 (en) * 2020-06-22 2021-12-23 Google Llc Training reinforcement learning agents to learn expert exploration behaviors from demonstrators
US11734624B2 (en) * 2020-07-24 2023-08-22 Genesys Cloud Services, Inc. Method and system for scalable contact center agent scheduling utilizing automated AI modeling and multi-objective optimization
US11835958B2 (en) * 2020-07-28 2023-12-05 Huawei Technologies Co., Ltd. Predictive motion planning system and method
US20220032949A1 (en) * 2020-07-29 2022-02-03 Uber Technologies, Inc. Routing feature flags
DE102020209685B4 (de) * 2020-07-31 2023-07-06 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zum steuern einer robotervorrichtung und robotervorrichtungssteuerung
EP4196876A4 (en) * 2020-08-14 2024-04-10 Lancium Llc PERFORMANCE-CONSCIOUS PLANNING
JP7366860B2 (ja) * 2020-08-17 2023-10-23 株式会社日立製作所 攻撃シナリオシミュレーション装置、攻撃シナリオ生成システム、および攻撃シナリオ生成方法
US11715007B2 (en) * 2020-08-28 2023-08-01 UMNAI Limited Behaviour modeling, verification, and autonomous actions and triggers of ML and AI systems
EP4205034A1 (en) * 2020-10-02 2023-07-05 DeepMind Technologies Limited Training reinforcement learning agents using augmented temporal difference learning
US20220129708A1 (en) * 2020-10-22 2022-04-28 Applied Materials Israel Ltd. Segmenting an image using a neural network
EP4244770A1 (en) * 2020-11-12 2023-09-20 Umnai Limited Architecture for explainable reinforcement learning
US20220152826A1 (en) * 2020-11-13 2022-05-19 Nvidia Corporation Object rearrangement using learned implicit collision functions
US20220164657A1 (en) * 2020-11-25 2022-05-26 Chevron U.S.A. Inc. Deep reinforcement learning for field development planning optimization
US20220188695A1 (en) * 2020-12-16 2022-06-16 Argo AI, LLC Autonomous vehicle system for intelligent on-board selection of data for training a remote machine learning model
US20220197280A1 (en) * 2020-12-22 2022-06-23 Uatc, Llc Systems and Methods for Error Sourcing in Autonomous Vehicle Simulation
US20210133633A1 (en) * 2020-12-22 2021-05-06 Intel Corporation Autonomous machine knowledge transfer
US20220204055A1 (en) * 2020-12-30 2022-06-30 Waymo Llc Optimization of planning trajectories for multiple agents
US20220207337A1 (en) * 2020-12-31 2022-06-30 Deepx Co., Ltd. Method for artificial neural network and neural processing unit
US20220234651A1 (en) * 2021-01-25 2022-07-28 GM Global Technology Operations LLC Methods, systems, and apparatuses for adaptive driver override for path based automated driving assist
CN114912041A (zh) * 2021-01-29 2022-08-16 伊姆西Ip控股有限责任公司 信息处理方法、电子设备和计算机程序产品
US20220261635A1 (en) * 2021-02-12 2022-08-18 DeeMind Technologies Limited Training a policy neural network for controlling an agent using best response policy iteration
US20220269937A1 (en) * 2021-02-24 2022-08-25 Nvidia Corporation Generating frames for neural simulation using one or more neural networks
US20220276657A1 (en) * 2021-03-01 2022-09-01 Samsung Electronics Co., Ltd. Trajectory generation of a robot using a neural network
US11475043B2 (en) * 2021-03-05 2022-10-18 International Business Machines Corporation Machine learning based application of changes in a target database system
US20220284261A1 (en) * 2021-03-05 2022-09-08 The Aerospace Corporation Training-support-based machine learning classification and regression augmentation
US20220300851A1 (en) * 2021-03-18 2022-09-22 Toyota Research Institute, Inc. System and method for training a multi-task model
US20220305649A1 (en) * 2021-03-25 2022-09-29 Naver Corporation Reachable manifold and inverse mapping training for robots
US20220309336A1 (en) * 2021-03-26 2022-09-29 Nvidia Corporation Accessing tensors
US11787055B2 (en) * 2021-03-30 2023-10-17 Honda Research Institute Europe Gmbh Controlling a robot using predictive decision making
US11945441B2 (en) * 2021-03-31 2024-04-02 Nissan North America, Inc. Explainability and interface design for lane-level route planner
US20220318557A1 (en) * 2021-04-06 2022-10-06 Nvidia Corporation Techniques for identification of out-of-distribution input data in neural networks
US20220335624A1 (en) * 2021-04-15 2022-10-20 Waymo Llc Unsupervised training of optical flow estimation neural networks
US11144847B1 (en) * 2021-04-15 2021-10-12 Latent Strategies LLC Reinforcement learning using obfuscated environment models
US11713059B2 (en) * 2021-04-22 2023-08-01 SafeAI, Inc. Autonomous control of heavy equipment and vehicles using task hierarchies
US20220355825A1 (en) * 2021-04-23 2022-11-10 Motional Ad Llc Predicting agent trajectories
US20220366220A1 (en) * 2021-04-29 2022-11-17 Nvidia Corporation Dynamic weight updates for neural networks
US20220366263A1 (en) * 2021-05-06 2022-11-17 Waymo Llc Training distilled machine learning models using a pre-trained feature extractor
US20220373980A1 (en) * 2021-05-06 2022-11-24 Massachusetts Institute Of Technology Dymamic control of a manufacturing process using deep reinforcement learning
US11546665B2 (en) * 2021-05-07 2023-01-03 Hulu, LLC Reinforcement learning for guaranteed delivery of supplemental content
US20220366235A1 (en) * 2021-05-13 2022-11-17 Deepmind Technologies Limited Controlling operation of actor and learner computing units based on a usage rate of a replay memory
CA3160224A1 (en) * 2021-05-21 2022-11-21 Royal Bank Of Canada System and method for conditional marginal distributions at flexible evaluation horizons
US20220398283A1 (en) * 2021-05-25 2022-12-15 Nvidia Corporation Method for fast and better tree search for reinforcement learning
US11941899B2 (en) * 2021-05-26 2024-03-26 Nvidia Corporation Data selection based on uncertainty quantification
US11921506B2 (en) * 2021-05-28 2024-03-05 Nissan North America, Inc. Belief state determination for real-time decision-making
US20220383074A1 (en) * 2021-05-28 2022-12-01 Deepmind Technologies Limited Persistent message passing for graph neural networks
US20230025154A1 (en) * 2021-07-22 2023-01-26 The Boeing Company Dual agent reinforcement learning based system for autonomous operation of aircraft
US20230075473A1 (en) * 2021-09-09 2023-03-09 Mycronic AB Device and method for enabling deriving of corrected digital pattern descriptions
US20230121913A1 (en) * 2021-10-19 2023-04-20 Volvo Car Corporation Intelligent messaging framework for vehicle ecosystem communication
US20230237342A1 (en) * 2022-01-24 2023-07-27 Nvidia Corporation Adaptive lookahead for planning and learning
CN114362175B (zh) * 2022-03-10 2022-06-07 山东大学 基于深度确定性策略梯度算法的风电功率预测方法及系统
US11429845B1 (en) * 2022-03-29 2022-08-30 Intuit Inc. Sparsity handling for machine learning model forecasting
US20230376961A1 (en) * 2022-05-19 2023-11-23 Oracle Financial Services Software Limited Reinforcement learning agent simulation to measure monitoring system strength
US20240070485A1 (en) * 2022-08-16 2024-02-29 Optum, Inc. Reinforcement learning for optimizing cross-channel communications
CN115529278A (zh) * 2022-09-07 2022-12-27 华东师范大学 基于多智能体强化学习的数据中心网络ecn自动调控方法

Also Published As

Publication number Publication date
CN110088775A (zh) 2019-08-02
US20200327399A1 (en) 2020-10-15
EP3523760B1 (en) 2024-01-24
US20190259051A1 (en) 2019-08-22
EP3523760A1 (en) 2019-08-14
JP2020191097A (ja) 2020-11-26
CN117521725A (zh) 2024-02-06
US10733501B2 (en) 2020-08-04
CN110088775B (zh) 2023-11-07
JP2019537136A (ja) 2019-12-19
WO2018083667A1 (en) 2018-05-11
JP6917508B2 (ja) 2021-08-11

Similar Documents

Publication Publication Date Title
JP6728495B2 (ja) 強化学習を用いた環境予測
JP6926203B2 (ja) 補助タスクを伴う強化学習
JP6935550B2 (ja) 強化学習を使用した環境ナビゲーション
CN110692066B (zh) 使用多模态输入选择动作
JP7258965B2 (ja) ニューラルネットワークを使用する強化学習のための行動選択
CN107851216B (zh) 一种用于选择待由与环境进行交互的强化学习代理执行的动作的方法
CN108027897B (zh) 利用深度强化学习的连续控制
US20230237375A1 (en) Dynamic placement of computation sub-graphs
JP2019537132A (ja) アクション選択ニューラルネットワークをトレーニングすること
US11200482B2 (en) Recurrent environment predictors
US10860895B2 (en) Imagination-based agent neural networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190705

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200601

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200701

R150 Certificate of patent or registration of utility model

Ref document number: 6728495

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250