JP2018525759A - ディープ強化学習による連続的制御 - Google Patents

ディープ強化学習による連続的制御 Download PDF

Info

Publication number
JP2018525759A
JP2018525759A JP2018523386A JP2018523386A JP2018525759A JP 2018525759 A JP2018525759 A JP 2018525759A JP 2018523386 A JP2018523386 A JP 2018523386A JP 2018523386 A JP2018523386 A JP 2018523386A JP 2018525759 A JP2018525759 A JP 2018525759A
Authority
JP
Japan
Prior art keywords
neural network
training
actor
observation
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018523386A
Other languages
English (en)
Other versions
JP6664480B2 (ja
Inventor
ティモシー・ポール・リリクラップ
ジョナサン・ジェームズ・ハント
アレクサンダー・プリッツェル
ニコラス・マンフレート・オットー・ヒース
トム・エレズ
ユヴァル・タッサ
デイヴィッド・シルヴァー
ダニエル・ピーテル・ヴィールストラ
Original Assignee
ディープマインド テクノロジーズ リミテッド
ディープマインド テクノロジーズ リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ディープマインド テクノロジーズ リミテッド, ディープマインド テクノロジーズ リミテッド filed Critical ディープマインド テクノロジーズ リミテッド
Publication of JP2018525759A publication Critical patent/JP2018525759A/ja
Application granted granted Critical
Publication of JP6664480B2 publication Critical patent/JP6664480B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

環境と対話するにより実施されるアクションを選択するために使用されるアクタ・ニューラル・ネットワークをトレーニングするためのコンピュータ記憶媒体で符号化されたコンピュータ・プログラムを含む、方法、システム、および装置である。前記方法の1つは、エクスペリエンス・タプルのミニバッチを取得するステップと、前記ミニバッチ内のエクスペリエンス・タプルごとに、クリティック・ニューラル・ネットワークを用いて前記エクスペリエンス・タプル内の前記トレーニング観察および前記トレーニング動作を処理して、前記エクスペリエンス・タプルに対するニューラル・ネットワーク出力を決定し、前記エクスペリエンス・タプルに対するターゲット・ニューラル・ネットワーク出力を決定し、前記ターゲット・ニューラル・ネットワーク出力および前記ニューラル・ネットワーク出力の間の誤差を用いてを更新し、前記クリティック・ニューラル・ネットワークを用いて前記クリティック・ニューラル・ネットワークの前記パラメータの現在値、前記アクタ・ニューラル・ネットワークの前記パラメータの現在値を更新するステップを含む前記アクタ・ニューラル・ネットワークの前記パラメータの現在値を更新するステップとを含む。

Description

本明細書は強化学習エージェントにより実施されるアクションを選択することに関する。
強化学習エージェントは、環境の現在状態を特徴付ける観察を受信し、応答して、アクションを実施することで環境と対話する。幾つかの強化学習エージェントはニューラル・ネットワークを使用して、任意の所与の観察を受信したことに応答して実施すべきアクションを選択する。
ニューラル・ネットワークは、受信された入力に対する出力を予測するための非線形ユニットの1つまたは複数のレイヤを使用する機械学習モデルである。幾つかのニューラル・ネットワークは、出力レイヤに加えて1つまたは複数の隠れレイヤを含むディープ・ニューラル・ネットワークである。各隠れレイヤの出力は、当該ネットワーク内の次のレイヤ、即ち、次の隠れレイヤまたは出力レイヤへの入力として使用される。当該ネットワークの各レイヤは、それぞれの組のパラメータの現在値に従って受信された入力から出力を生成する。
Ioffe, Sergey and Szegedy, Christian. Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167, 2015 George E. Uhlenbeck and Leonard S. Ornstein. "On the theory of the Brownian motion". In: Physical review 36.5 (1930), p. 823
本明細書では、強化学習に関する技術を説明する。
一般に、1つの進歩的な態様を、環境の現在状態を特徴付ける観察を受信し、アクションの連続空間から選択されたアクションを実施することで環境と対話するエージェントにより実施されるアクションを選択するために使用されるアクタ・ニューラル・ネットワークをトレーニングするための方法であって、当該アクタ・ニューラル・ネットワークは、当該アクタ・ニューラル・ネットワークのパラメータの現在値に従って観察を次のアクションにマップし、当該方法は、エクスペリエンス・タプルのミニバッチを再生メモリから取得するステップであって、各エクスペリエンス・タプルは、環境のトレーニング状態を特徴付けるトレーニング観察、当該トレーニング観察を受信したことに応答してエージェントにより実施されるアクションの連続空間からのトレーニング動作、当該トレーニング動作を実施するためにエージェントにより受信されるトレーニング報酬、および環境の次のトレーニング状態を特徴付ける次のトレーニング観察を含む、ステップと、およびエクスペリエンス・タプルの当該ミニバッチを用いて当該アクタ・ニューラル・ネットワークのパラメータの現在値を更新するステップと、当該ミニバッチ内のエクスペリエンス・タプルごとに、クリティック・ニューラル・ネットワークを用いて当該エクスペリエンス・タプル内のトレーニング観察およびトレーニング動作を処理して、当該クリティック・ニューラル・ネットワークのパラメータの現在値に従って当該エクスペリエンス・タプルに対するニューラル・ネットワーク出力を決定し、当該エクスペリエンス・タプルに対するターゲット・ニューラル・ネットワーク出力を、当該エクスペリエンス・タプル内のトレーニング報酬および当該エクスペリエンス・タプル内の次のトレーニング観察から決定し、当該ミニバッチ内のエクスペリエンス・タプルに対するターゲット・ニューラル・ネットワーク出力と当該ニューラル・ネットワーク出力の間の誤差を用いて当該クリティック・ニューラル・ネットワークのパラメータの現在値を更新するステップと、当該クリティック・ニューラル・ネットワークを用いて、当該アクタ・ニューラル・ネットワークのパラメータの現在値を更新するステップとを含む、方法で具体化することができる。
当該エクスペリエンス・タプルに対するターゲット・ニューラル・ネットワーク出力を決定するステップが、ターゲット・アクタ・ニューラル・ネットワークを用いて当該次のトレーニング観察を処理して、ターゲット・アクタ・ニューラル・ネットワークのパラメータの現在値に従って当該エクスペリエンス・タプルに対する予測された次のアクションを決定するステップと、ターゲット・アクタ・ニューラル・ネットワークは当該アクタ・ニューラル・ネットワークと同一であるが、ターゲット・アクタ・ニューラル・ネットワークのパラメータの現在値は当該アクタ・ニューラル・ネットワークのパラメータの現在値と異なる、ステップと、ターゲット・クリティック・ニューラル・ネットワークを用いて当該次のトレーニング観察および当該エクスペリエンス・タプルに対する予測された次のアクションを処理して、ターゲット・クリティック・ニューラル・ネットワークのパラメータの現在値に従って予測された次のニューラル・ネットワーク出力を生成するステップであって、ターゲット・クリティック・ニューラル・ネットワークは当該クリティック・ニューラル・ネットワークと同一であるが、ターゲット・クリティック・ニューラル・ネットワークのパラメータの現在値は当該クリティック・ニューラル・ネットワークのパラメータの現在値と異なる、ステップと、当該エクスペリエンス・タプルに対するターゲット・ニューラル・ネットワーク出力を当該エクスペリエンス・タプルに対する当該トレーニング報酬および予測された次のニューラル・ネットワーク出力から決定するステップとを含んでもよい。当該方法がさらに、当該アクタ・ニューラル・ネットワークのパラメータの更新された値を用いて、ターゲット・アクタ・ニューラル・ネットワークのパラメータの現在値を更新するステップと、当該クリティック・ニューラル・ネットワークのパラメータの当該更新された値を用いて、ターゲット・クリティック・ニューラル・ネットワークのパラメータの現在値を更新するステップを含んでもよい。ターゲット・アクタ・ニューラル・ネットワークおよびターゲット・クリティック・ニューラル・ネットワークのパラメータの現在値が、当該アクタ・ニューラル・ネットワークのトレーニングの間に遅く変化するように制限されてもよい。
クリティック・ニューラル・ネットワーク、アクタ・ニューラル・ネットワーク、またはその両方が、1つまたは複数のバッチ正規化ニューラル・ネットワークレイヤを含んでもよい。エージェントにより受信された観察が、環境の状態を特徴付ける低次元特徴ベクトルを用いて、環境の状態を特徴付けてもよい。当該低次元特徴ベクトルの異なる次元の値が可変の範囲を有してもよい。エージェントにより受信された観察が、環境の状態を特徴付ける1つまたは複数の画像からの高次元画素入力を用いて環境の状態を特徴付けてもよい。
当該方法がさらに、エクスペリエンス・タプルのミニバッチを用いてアクタ・ニューラル・ネットワークのパラメータの現在値を更新するステップと独立に、新たなトレーニング観察を受信するステップと、当該アクタ・ニューラル・ネットワークを用いて当該新たなトレーニング観察を処理して、当該アクタ・ニューラル・ネットワークのパラメータの現在値に従ってエージェントにより実施される新たなトレーニング動作を選択するステップと、エージェントが当該新たなトレーニング動作を実施したことに応答して、新たなトレーニング報酬を受信するステップと、新たな次のトレーニング観察を受信するステップと、当該新たなトレーニング観察、当該新たなトレーニング動作、当該新たなトレーニング報酬、および当該新たな次のトレーニング観察を含む新たなエクスペリエンス・タプルを生成するステップと、当該新たなエクスペリエンス・タプルを当該再生メモリに追加するステップとを含む、新たなエクスペリエンス・タプルを生成するステップを含んでもよい。当該アクタ・ニューラル・ネットワークを用いて当該新たなトレーニング観察を処理して、新たなトレーニング動作を選択するステップが、当該アクタ・ニューラル・ネットワークを用いて当該新たなトレーニング観察を処理して、初期の新たなトレーニング動作を生成するステップと、雑音プロセスからサンプリングして、雑音因子を取得するステップと、当該雑音因子により当該初期の新たなアクションを調節して、当該新たなトレーニング動作を生成するステップとを含んでもよい。
当該方法がさらに、エージェントにより実施されるべきアクションを選択するように配置された当該アクタ・ニューラル・ネットワークを出力するステップを含んでもよい。
本明細書で説明した主題を、以下の利点のうち1つまたは複数を実現するための特定の実施形態で実装することができる。強化学習システムは、高次元の、連続的なアクション空間において、即ち、本明細書で説明するようにアクタ・ニューラル・ネットワークをトレーニングすることで、エージェントに対する効果的なアクション選択ポリシを効率的かつ直接的に学習することができる。特に、本明細書で説明した当該アクタ・ニューラル・ネットワークをトレーニングすることで、当該強化学習システムは、アクションの繊細な制御を必要とするタスクに対しても、かつ、当該アクション空間が離散化し次いで効率的に探索するのに扱いにくいときにでも、効果的なアクション選択ポリシを効率的に学習することができる。さらに、当該強化学習システムは、低次元観察である観察および高次元画素入力である観察の両方から効果的なポリシを学習することができる。主題は、例えば、以前には困難であったタスクに対するアクション選択ポリシを学習できるかもしれない改善された強化学習システムを提供するための強化学習システムの改善されたトレーニングを提供しうる。
態様を任意の好都合な形態で実装できることは理解される。例えば、態様および実装を、有形の搬送媒体(例えば、ディスク)であってもよくまたは有形の搬送媒体(例えば、通信信号)であってもよい適切な搬送媒体で運搬しうる適切なコンピュータ・プログラムにより実装してもよい。態様を、コンピュータ・プログラムを実行するプログラム可能コンピュータの形をとりうる適切な装置により実装してもよい。本明細書の主題の1つまたは複数の実施形態の詳細を添付図面および詳細な説明で以下で説明する。主題の他の特徴、態様、および利点は説明、図面、および諸請求項から明らかになろう。
例示的な強化学習システムを示す図である。 エクスペリエンス・タプルを再生メモリに追加するための例示的なプロセスの流れ図である。 アクタ・ニューラル・ネットワークのパラメータの現在値に対する更新を決定するための例示的なプロセスの流れ図である。 エクスペリエンス・タプルに対するターゲット・ニューラル・ネットワーク出力を決定するための例示的なプロセスの流れ図である。
様々な図面における同じ参照番号および指定は同じ要素を示す。
本明細書では一般に、環境と対話する強化学習エージェントにより実施されるアクションを選択する強化学習システムを説明する。環境と対話するために、エージェントは環境の現在状態を特徴付けるデータを受信し、当該受信されたデータに応答して連続的なアクション空間からのアクションを実施する。環境の状態を特徴付けるデータを本明細書では観察と称する。
幾つかの実装では、環境はシミュレートされた環境であり、エージェントは当該シミュレートされた環境と対話する1つまたは複数のコンピュータ・プログラムとして実装される。例えば、当該シミュレートされた環境がビデオ・ゲームであってもよく、エージェントが当該ビデオ・ゲームをプレイしているシミュレートされたユーザであってもよい。別の例として、当該シミュレートされた環境が動きシミュレーション環境、例えば、運転シミュレーションまたは飛行シミュレーションであってもよく、エージェントは当該動きシミュレーションをナビゲートするシミュレートされた車両である。これらの実装では、当該アクションが、当該シミュレートされたユーザまたはシミュレートされた車両を制御するための可能な制御入力の空間内の点であってもよい。
幾つかの他の実装では、環境は現実世界の環境であり、エージェントは現実世界の環境と対話する機械的エージェントである。例えば、エージェントが、特定のタスクを実現するための環境と対話するロボットであってもよい。別の例として、エージェントが環境をナビゲートする自律または準自律車両であってもよい。これらの実装では、当該アクションが、当該ロボットまたは当該自律車両を制御するための可能な制御入力の空間内の点であってもよい。
幾つかのケースでは、当該観察は、環境の状態を特徴付ける低次元特徴ベクトルを用いて、環境の状態を特徴付ける。これらのケースでは、当該低次元特徴ベクトルの異なる次元の値が可変の範囲を有してもよい。
幾つかの他のケースでは、当該観察は、環境の状態を特徴付ける1つまたは複数の画像、例えば当該シミュレートされた環境の画像または当該機械的エージェントのセンサによりそれが現実世界の環境と対話するときにキャプチャされる画像からの高次元画素入力を用いて環境の状態を特徴付ける。
図1は例示的な強化学習システム100を示す。強化学習システム100は、以下で説明するシステム、コンポーネント、および技術が実装される1つまたは複数の位置における1つまたは複数のコンピュータ上のコンピュータ・プログラムとして実装されるシステムの1例である。
強化学習システム100は、環境104と対話する強化学習エージェント102により実施されるアクションを選択する。即ち、強化学習システム100は、それぞれが環境104の各状態を特徴付ける観察を受信し、各観察に応答して、当該観察に応答して強化学習エージェント102により実施されるべき連続的なアクション空間からアクションを選択する。
特に、強化学習システム100はアクタ・ニューラル・ネットワーク110を用いてアクションを選択する。アクタ・ニューラル・ネットワーク110は、観察を受信し、当該観察を処理して、次のアクション、即ち、当該観察に応答してエージェントにより実施されるべきアクションを定義する連続的なアクション空間内の点に当該観察をマップするように構成されるニューラル・ネットワークである。
エージェント102が環境と効率的に対話できるようにするために、強化学習システム100はアクタ・ニューラル・ネットワーク110をトレーニングして、アクタ・ニューラル・ネットワーク110のパラメータのトレーニングされた値を決定する。
いったんアクタ・ニューラル・ネットワーク110がトレーニングされると、強化学習システム100は効率的に、アクタ・ニューラル・ネットワーク110を使用してエージェント104により実施されるべきアクションを選択することができる。特に、観察が受信されたとき、強化学習システム100は、アクタ・ニューラル・ネットワーク110を用いて当該観察を処理して、アクタ・ニューラル・ネットワーク110のパラメータのトレーニングされた値に従って当該観察を新たなアクションにマップし、ついで、当該観察に応答して、即ち、エージェントを用いて当該新たなアクションを実施させるエージェント102に命令を送信することで、当該新たなアクションを実施するようにエージェント102に指示することができる。
アクタ・ニューラル・ネットワーク110のトレーニングを支援するために、強化学習システム100は、再生メモリ130、クリティック・ニューラル・ネットワーク140、ターゲット・アクタ・ニューラル・ネットワーク150、およびターゲット・クリティック・ニューラル・ネットワーク160を含むトレーニングコンポーネント120を維持する。
再生メモリ130は、アクタ・ニューラル・ネットワーク110をトレーニングする際に使用するために、エージェント102の環境104との対話の結果として生ずるエクスペリエンス・タプルを格納する。
特に、再生メモリ内の各エクスペリエンス・タプルは、環境のトレーニング状態を特徴付けるトレーニング観察、当該トレーニング観察に応答してエージェント102により実施されるアクション、エージェント102が当該アクションを実施したことに応答してシステム100により受信されるトレーニング報酬、および環境の次の状態、即ち、エージェントが当該アクションを実施した後に環境が遷移する状態を特徴付ける次の観察を含む。
強化学習システム100は、アクタ・ニューラル・ネットワーク110のトレーニングの間に、エージェント102の環境104との対話からエクスペリエンス・タプルを生成する。トレーニング中にエクスペリエンス・タプルを生成するための例示的なプロセスを、図2を参照して以下でより詳細に説明する。
クリティック・ニューラル・ネットワーク140は、入力としてアクションおよび観察を受信し、当該アクションおよび当該観察を処理してニューラル・ネットワーク出力を生成するように構成されるニューラル・ネットワークである。以下でより詳細に説明するように、トレーニングの間に、強化学習システム100はクリティック・ニューラル・ネットワーク140のパラメータの値を調節し、アクタ・ニューラル・ネットワーク110のパラメータの値を更新する際にクリティック・ニューラル・ネットワーク140を使用する。
幾つかの実装では、クリティック・ニューラル・ネットワーク140、アクタ・ニューラル・ネットワーク110、またはその両方は、トレーニング中の共変量シフトを最小化するために1つまたは複数のバッチ正規化レイヤを含む。バッチ正規化レイヤは非特許文献1により詳細に説明されている。
ターゲット・アクタ・ニューラル・ネットワーク150は、アクタ・ニューラル・ネットワーク110と同じである、即ち、アクタ・ニューラル・ネットワーク110と同一のニューラル・ネットワークアーキテクチャを有するが、おそらくアクタ・ニューラル・ネットワーク110とは異なるパラメータ値を有するニューラル・ネットワークである。
同様に、ターゲット・クリティック・ニューラル・ネットワーク160は、クリティック・ニューラル・ネットワーク130と同じであるがおそらくクリティック・ニューラル・ネットワーク130と異なるパラメータ値を有するニューラル・ネットワークである。
トレーニングコンポーネント120を用いてニューラル・ネットワークをトレーニングするために、強化学習システム100は繰り返しエクスペリエンス・タプルのミニバッチを再生メモリ130から選択する。エクスペリエンス・タプルの各ミニバッチは所定数のエクスペリエンス・タプルを含む。当該所定数のエクスペリエンス・タプルが、ランダムに選択されたエクスペリエンス・タプルであってもよい。
所与の選択されたミニバッチ内の各エクスペリエンス・タプルに対して、強化学習システム100は、クリティック・ニューラル・ネットワーク140、ターゲット・アクタ・ニューラル・ネットワーク150、およびターゲット・クリティック・ニューラル・ネットワーク160を使用して、アクタ・ニューラル・ネットワーク110のパラメータの現在値およびクリティック・ニューラル・ネットワーク150のパラメータの現在値に対する更新を決定し、ついで、当該更新を用いてアクタ・ニューラル・ネットワーク110のパラメータの現在値およびクリティック・ニューラル・ネットワーク150のパラメータの現在値を調節する。これらの更新を生成し、クリティック・ニューラル・ネットワーク140のパラメータおよびアクタ・ニューラル・ネットワーク110の現在値を調節するステップを、図3を参照して以下でより詳細に説明する。
トレーニングの間に、強化学習システム100はまた、ターゲット・クリティック・ニューラル・ネットワーク160のパラメータの値およびターゲット・アクタ・ニューラル・ネットワーク150のパラメータの値を定期的に更新して、当該値が、それぞれクリティック・ニューラル・ネットワーク140のパラメータの値およびアクタ・ニューラル・ネットワーク110のパラメータの値への変更を遅く追跡するようにする。
いったんエクスペリエンス・タプルのミニバッチがトレーニングで使用されると、強化学習システム100は当該ミニバッチ内のエクスペリエンス・タプルを再生メモリ120から除去することができる。
一般に、トレーニングの間に、強化学習システム100は、エクスペリエンス・タプルを生成し、再生メモリ120からエクスペリエンス・タプルをサンプリングしアクタ・ニューラル・ネットワーク110のパラメータを調節するのと独立に、即ちそれらと非同期に、生成されたタプルを再生メモリ120に追加する。
図2は、エクスペリエンス・タプルを再生メモリに追加するための例示的なプロセス200の流れ図である。簡単のため、プロセス200を、1つまたは複数の位置に配置された1つまたは複数のコンピュータから成るシステムにより実施されるとして説明する。例えば、本明細書に従って適切にプログラムされた強化学習システム、例えば、図1の強化学習システム100がプロセス200を実施することができる。
当該システムが、環境の現在状態を特徴付ける現在の観察を受信する(ステップ202)。
当該システムが、アクタ・ニューラル・ネットワークのパラメータの現在値に従って当該アクタ・ニューラル・ネットワークを用いて当該観察を生成する(ステップ204)。上述のように、当該アクタ・ニューラル・ネットワークは、当該パラメータの現在値に従って、現在の観察を次のアクション、即ち、連続的なアクション空間内の点にマップするように構成される。
当該システムは、当該次のアクションを用いてエージェントにより実施されるアクションを選択する(ステップ206)。
幾つかの実装では、当該システムはエージェントにより実施されるべき当該アクションを次のアクションとして選択する。
幾つかの他の実装では、トレーニングの間のアクション空間の探索を促進するために、当該システムは、雑音プロセスからサンプリングして雑音因子を取得し、ついで、当該雑音因子により当該次のアクションを調節して、エージェントにより実施されるべきアクションを生成する。
雑音因子を取得するために使用される雑音プロセスを、環境に適合するように選択することができる。例えば、幾つかの環境に対して、当該雑音プロセスが、時間的に相関付けられた探索を生成するオルンシュタイン・ウーレンベック過程であってもよい。オルンシュタイン・ウーレンベック過程は非特許文献2においてより詳細に説明されている。
当該システムは報酬および次の観察を受信する(ステップ206)。当該次の観察は、環境の次の状態、即ち、エージェントが選択されたアクションを実施した結果として環境が遷移した状態を特徴付け、当該報酬は、エージェントが選択されたアクションを実施した結果として当該システムにより環境から受信された数値である。
当該システムは、現在の観察、当該選択されたアクション、当該報酬、および当該次の観察を含むエクスペリエンス・タプルを生成し、当該アクタ・ニューラル・ネットワークをトレーニングする際に使用するために当該生成されたエクスペリエンス・タプルを再生メモリに格納する(ステップ208)。
図3は、アクタ・ニューラル・ネットワークのパラメータの現在値に対する更新を決定するための例示的なプロセス300の流れ図である。簡単のため、プロセス300を、1つまたは複数の位置に配置された1つまたは複数のコンピュータから成るシステムにより実施されるとして説明する。例えば、本明細書に従って適切にプログラムされた強化学習システム、例えば、図1の強化学習システム100がプロセス300を実施することができる。
当該システムはエクスペリエンス・タプルを受信する(ステップ302)。当該エクスペリエンス・タプルは、当該システムにより再生メモリからサンプリングされたエクスペリエンス・タプルのミニバッチ内の当該エクスペリエンス・タプルの1つである。
当該エクスペリエンス・タプルは環境のトレーニング状態を特徴付けるトレーニング観察、当該トレーニング観察を受信したことに応答してエージェントにより実施されるアクションの連続空間からのトレーニング動作、当該トレーニング動作を実施するためにエージェントにより受信されるトレーニング報酬、および環境の次のトレーニング状態を特徴付ける次のトレーニング観察含む。
当該システムは、当該クリティック・ニューラル・ネットワークを用いて当該エクスペリエンス・タプル内のトレーニング観察および選択されたアクションを処理して、当該クリティック・ニューラル・ネットワークのパラメータの現在値に従って当該エクスペリエンス・タプルに対するニューラル・ネットワーク出力を決定する(ステップ304)。
当該システムは、当該エクスペリエンス・タプルに対するターゲット・ニューラル・ネットワーク出力を、当該エクスペリエンス・タプル内の当該トレーニング報酬および当該エクスペリエンス・タプル内の次のトレーニング観察から決定する(ステップ306)。一般に、当該システムは、ターゲット・アクタ・ニューラル・ネットワークおよびターゲット・クリティック・ニューラル・ネットワークを用いてターゲット・ニューラル・ネットワーク出力を決定する。ターゲット・ニューラル・ネットワーク出力を決定するステップを、図4を参照して以下でより詳細に説明する。
当該システムは、当該エクスペリエンス・タプルに対するターゲット・ニューラル・ネットワーク出力および当該クリティック・ニューラル・ネットワークにより当該エクスペリエンス・タプルに対して生成されたニューラル・ネットワーク出力の間の誤差を用いて、当該クリティック・ニューラル・ネットワークのパラメータの現在値に対する更新を決定する(ステップ308)。即ち、当該システムは、従来型の機械学習トレーニング技術を用いて、例えば、勾配降下の反復を後方伝播で実施することで、当該誤差を減らすパラメータの現在値に対する更新を決定することができる。図4の説明から明らかであるように、パラメータの現在値をこのように更新することで、当該システムは当該クリティック・ニューラル・ネットワークをトレーニングして、エージェントが所与の観察に応答して所与のアクションを実施したことに応答して受信される時間割引合計将来報酬(time-discounted total future rewards)を表すニューラル・ネットワーク出力を生成する。
当該システムは、当該クリティック・ニューラル・ネットワークを用いて当該アクタ・ニューラル・ネットワークのパラメータの現在値に対する更新を決定する(ステップ310)。
特に、当該更新を決定するために、当該システムは、当該アクタ・ニューラル・ネットワークを用いてパラメータの現在値に従って当該タプル内のトレーニング観察を生成し、当該トレーニング観察に対する次のアクションを生成する。
当該システムはついで、(i)当該トレーニング観察、次のアクション入力の対で、かつ、当該クリティック・ニューラル・ネットワークのパラメータの現在値に従って取得された次のアクションに対する当該クリティック・ニューラル・ネットワークの勾配および(ii)当該アクタ・ニューラル・ネットワークのパラメータの現在値に従って当該トレーニング観察で取得された当該アクタ・ニューラル・ネットワークのパラメータに関する当該アクタ・ニューラル・ネットワークの勾配に依存する、即ち、それらの積または異なる組合せである当該アクタ・ニューラル・ネットワークの現在値に対するパラメータ更新を決定する。当該システムは、当該それぞれのネットワークを通じて当該それぞれの勾配を後方伝播することで、勾配(i)および勾配(ii)を決定することができる。
一般に、当該システムは、所与のミニバッチ内のエクスペリエンス・タプルごとにプロセス300を実施して、タプルごとに、当該クリティック・ニューラル・ネットワークのパラメータに対する更新および当該アクタ・ニューラル・ネットワークのパラメータに対する更新を決定する。いったん当該ミニバッチ内の各タプルに対する更新が決定されると、当該システムは、当該ミニバッチ内のタプルに対する更新を用いて、当該アクタ・ニューラル・ネットワークのパラメータの現在値および当該クリティック・ニューラル・ネットワークのパラメータの現在値を更新する。例えば、ネットワークごとに、当該システムは各更新を当該ネットワークのパラメータの現在値に追加してこれらの値を更新することができる。
いったんアクタ・ニューラル・ネットワークおよびクリティック・ニューラル・ネットワークのパラメータの更新された値が決定されると、当該システムは、ターゲット・クリティック・ニューラル・ネットワークのパラメータおよびターゲット・アクタ・ニューラル・ネットワークのパラメータの現在値を更新し、当該値がそれぞれ当該クリティック・ニューラル・ネットワークのパラメータの値および当該アクタ・ニューラル・ネットワークのパラメータの値への変更を遅く追跡するようにする。特に、当該システムは、当該トレーニング・プロセスの安全性を高めるためにトレーニングの間に遅く変化するように、ターゲット・クリティック・ニューラル・ネットワークのパラメータおよびターゲット・アクタ・ニューラル・ネットワークのパラメータの値を制限する。
例えば、ターゲット・ネットワークのうち1つの更新された値が当該対応するアクタまたはクリティック・ネットワークの当該更新された値およびターゲット・ネットワークの現在値の間の線形外挿であってもよく、ターゲット・ネットワークの現在値は当該外挿においてより重く重み付けされる。
プロセス300を複数の異なるエクスペリエンス・タプルのミニバッチに繰り返し実施することで、当該システムは、当該アクタ・ニューラル・ネットワークをトレーニングして、当該アクタ・ニューラル・ネットワークのパラメータのトレーニングされた値を決定し、当該アクタ・ニューラル・ネットワークが、環境と対話する際にエージェントにより実施されるべきアクションを選択するために効率的に使用されることを可能とすることができる。
図4は、エクスペリエンス・タプルに対するターゲット・ニューラル・ネットワーク出力を決定するための例示的なプロセス400の流れ図である。簡単のため、プロセス400を、1つまたは複数の位置に配置された1つまたは複数のコンピュータから成るシステムにより実施されるとして説明する。例えば、本明細書に従って適切にプログラムされた強化学習システム、例えば、図1の強化学習システム100がプロセス400を実施することができる。
当該システムは、ターゲット・アクタ・ニューラル・ネットワークを用いて、ターゲット・アクタ・ニューラル・ネットワークのパラメータの現在値に従って当該エクスペリエンス・タプル内の次のトレーニング観察を生成し、予測された次のアクションを生成する(ステップ402)。上述のように、ターゲット・アクタ・ニューラル・ネットワークは、おそらく異なるパラメータ値を有するが、アクタ・ニューラル・ネットワークと同一である。
当該システムは、ターゲット・クリティック・ニューラル・ネットワークを用いてターゲット・クリティック・ニューラル・ネットワークのパラメータの現在値に従って次のトレーニング観察および予測された次のアクションを処理して、予測された次のニューラル・ネットワーク出力を生成する(ステップ404)。上述のように、ターゲット・クリティック・ニューラル・ネットワークは、おそらく異なるパラメータ値を有するが、クリティック・ニューラル・ネットワークと同一である。
当該システムは、当該エクスペリエンス・タプルに対するターゲット・ニューラル・ネットワークを、当該エクスペリエンス・タプルに対するトレーニング報酬および予測されたニューラル・ネットワーク出力から決定する(ステップ406)。特に、当該システムは、当該予測されたニューラル・ネットワーク出力に所定の時間割引因子を乗じ、ついで結果の積と当該トレーニング報酬を合計して、当該エクスペリエンス・タプルに対するターゲット・ニューラル・ネットワーク出力を生成する。
1つまたは複数のコンピュータから成るシステムが特定の動作またはアクションを実施するように構成されることは、当該システムが、ソフトウェア、ファームウェア、ハードウェア、または動作に際して当該システムに当該動作またはアクションを実施させるそれらの組合せをインストールしていることを意味する。1つまたは複数のコンピュータ・プログラムが特定の動作またはアクションを実施するように構成されることは、当該1つまたは複数のプログラムが、データ処理装置により実行されたときに当該装置に当該動作またはアクションを実施させる命令を含むことを意味する。
本明細書で説明した主題の実施形態および機能的動作を、本明細書で開示された構造およびその構造的な均等物を含むデジタル電子回路で、有形的に具現化されたコンピュータソフトウェアまたはファームウェアで、コンピュータハードウェアで、またはそれらの1つまたは複数の組合せで実装することができる。本明細書で説明した主題の諸実施形態を1つまたは複数のコンピュータ・プログラム、即ち、データ処理装置による実行またはデータ処理装置の動作の制御のための有形の非一時的プログラム・キャリアで符号化されたコンピュータ・プログラム命令の1つまたは複数のモジュールとして実装することができる。代替的にまたは追加として、当該プログラム命令を、データ処理装置による実行のための適切な受信機装置へ送信するための情報を符号化するために生成された人工的に生成された伝播信号、例えば、機械的に生成された電気、光、または電磁気信号で符号化することができる。当該コンピュータ記憶媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムまたはシリアル・アクセスメモリデバイス、またはそれらの1つまたは複数の組合せであることができる。
「データ処理装置」という用語はデータ処理ハードウェアを指し、例としてプログラム可能プロセッサ、コンピュータ、または複数のプロセッサまたはコンピュータを含むデータを処理するためのあらゆる種類の装置、デバイス、およびマシンを包含する。当該装置がまた、特殊目的論理回路、例えば、FPGA(フィールド・プログラム可能アレイ)またはASIC(特殊用途向け集積回路)を含むことができる。当該装置は場合によっては、ハードウェアに加えて、コンピュータ・プログラムのための実行環境を生成するコード、例えば、プロセッサファームウェア、プロトコル・スタック、データベース管理システム、オペレーティング・システム、またはそれらの1つまたは複数の組合せを構成するコードを含むことができる。
コンピュータ・プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、モジュール、ソフトウェアモジュール、スクリプト、またはコードと称してもよくまたは記述してもよい)をコンパイル型言語またはインタプリタ式言語、または宣言型言語または手続き型言語を含む任意の形態のプログラミング言語で書くことができスタンドアロンプログラムまたはモジュール、コンポーネント、サブルーチン、またはコンピューティング環境で使用するのに適した他のユニットを含めて任意の形態で展開することができる。コンピュータ・プログラムがファイルシステム内のファイルに対応してもよいがその必要はない。プログラムを、他のプログラムまたはデータを保持するファイルの部分に、例えば、マークアップ言語ドキュメントに格納された1つまたは複数のスクリプト、問題の当該プログラムに特化した単一のファイルに、または複数の協調ファイル、例えば、1つまたは複数のモジュール、サブプログラム、またはコード部分を格納するファイルに格納することができる。コンピュータ・プログラムを、1つのコンピュータで、または、1つのサイトに配置されるかまたは複数のサイトにわたって分散され通信ネットワークにより相互接続される複数のコンピュータで実行されるように展開することができる。
本明細書で説明された当該プロセスおよび論理フローを、1つまたは複数のコンピュータ・プログラムを実行して入力データに動作し出力を生成することによって機能を実装する1つまたは複数のプログラム可能コンピュータにより実施されることができる。当該プロセスおよび論理フローを特殊目的論理回路、例えば、FPGA(フィールド・プログラム可能アレイ)またはASIC(特殊用途向け集積回路)により実施することもでき、装置をそれらとして実装することもできる。
コンピュータ・プログラムの実行に適したコンピュータは、例として、汎用目的または特殊目的のマイクロプロセッサまたはその両方、または他の任意の種類の中央演算装置を含むことができ、それらに基づくことができる。一般に、中央演算装置は読取専用メモリまたはランダム・アクセスメモリまたはその両方から命令とデータを受信する。コンピュータの本質的な要素は、命令を実施または実行するための中央演算装置および命令およびデータを格納するための1つまたは複数のメモリデバイスである。一般に、コンピュータが、データを格納するための1つまたは複数の大容量記憶デバイス、例えば、磁気、光磁気ディスク、または光ディスクを含んでもよく、または、これらとデータを送受信するように動作可能に接続されてもよい。しかし、コンピュータがかかるデバイスを有する必要はない。さらに、コンピュータを別のデバイス、例えば、ほんの少し例を挙げると、携帯電話、携帯情報端末(PDA)、モバイルオーディオまたはビデオプレイヤ、ゲーム・コンソール、全地球測位システム(GPS)受信機、またはポータブル記憶デバイス、例えば、ユニバーサル・シリアル・バス(USB)フラッシュ・ドライブに組み込むことができる。
コンピュータ・プログラム命令およびデータを格納するのに適したコンピュータ-可読媒体は、例として半導体メモリデバイス、例えば、EPROM、EEPROM、およびフラッシュ・メモリデバイス、磁気ディスク、例えば、内部ハードディスクまたは取外し可能ディスク、光磁気ディスク、およびCD-ROMおよびDVD−ROMディスクを含むあらゆる種類の不揮発性メモリ、媒体およびメモリデバイスを含む。当該プロセスまたはおよび当該メモリを特殊目的論理回路により補完するかまたは当該回路に組み込むことができる。
ユーザとの対話を提供するために、本明細書で説明した主題の諸実施形態を、当該ユーザに情報を表示するためのディスプレイ・デバイス、例えば、CRT(カソード・レイ・チューブ)またはLCD(液晶ディスプレイ)モニタおよび当該ユーザがそれにより当該コンピュータに入力を提供できる、キーボードおよびポインティング・デバイス、例えば、マウスまたはトラックボールを有するコンピュータで実装することができる。他種のデバイスをユーザとの対話を提供するために使用することもできる、例えば、当該ユーザに提供されたフィードバックが任意の形態のセンサ・フィードバック、例えば、視覚フィードバック、可聴フィードバック、または触覚フィードバックであることができ、および当該ユーザからの入力を音響、会話、または触覚入力を含む任意の形態で受信することができる。さらに、コンピュータは、ドキュメントを当該ユーザにより使用されるデバイスと送受信することで、例えば、当該ウェブ・ブラウザから受信された要求に応答してウェブ・ページをユーザのクライアント・デバイス上のウェブ・ブラウザに送信することで、ユーザと対話することができる。
本明細書で説明した主題の諸実施形態を、バックエンドコンポーネントを、例えば、データサーバとして含むか、またはミドルウェアコンポーネント、例えば、アプリケーションサーバを含むか、またはフロントエンドコンポーネント、例えば、ユーザがそれを通じて本明細書で説明した主題の実装と対話できる関係グラフィカルユーザインタフェースまたはウェブ・ブラウザを有するクライアントコンピュータを含むか、または1つまたは複数のかかるバックエンド、ミドルウェア、またはフロントエンドコンポーネントの任意の組合せを含む、コンピューティング・システムで実装することができる。当該システムのコンポーネントを任意の形態または媒体のデジタルデータ通信、例えば、通信ネットワークにより相互接続することができる。通信ネットワークの例はローカル・エリア・ネットワーク(「LAN」)および広域ネットワーク(「WAN」)、例えば、インターネットを含む。
当該コンピューティング・システムはクライアントおよびサーバを含むことができる。クライアントおよびサーバは一般に互いにリモートであり、一般に通信ネットワークを通じて対話する。クライアントおよびサーバの関係は、当該それぞれのコンピュータで実行されク互いに対してライアント−サーバ関係を有するコンピュータ・プログラムにより生ずる。
本明細書は多くの具体的な実装の詳細を含むが、これらを任意の発明またはクレームしたものの範囲に対する限定としてではなく、特定の発明の特定の実施形態に固有でありうる特徴の説明として解釈すべきである。別々の実施形態の文脈で本明細書で説明した特定の特徴を単一の実施形態における組合せで実装することもできる。反対に、単一の実施形態の文脈で説明した様々な特徴を複数の実施形態で別々にまたは任意の適切なサブコンビネーションで実装することもできる。さらに、特徴が特定の組合せで動作するとして上述し最初にそのようにクレームされているかもしれないが、クレームした組合せからの1つまたは複数の特徴を幾つかのケースでは当該組合せから実行でき、クレームした組合せがサブコンビネーションまたはサブコンビネーションの変形に関してもよい。
同様に、動作を図面において特定の順序で図示しているが、これを、所望の結果を実現するために、かかる動作を示した特定の順序または逐次的順序で実施すべきこと、または全ての図示した動作を実施すべきことを要求するものとして理解すべきではない。特定の環境では、マルチタスクおよび並列処理が有利であるかもしれない。さらに、上述の実施形態における様々なシステムモジュールおよびコンポーネントの分離をかかる分離を全ての実施形態で要求するとは理解すべきではなく、説明したプログラムコンポーネントおよびシステムを一般に単一のソフトウェア製品に統合するかまたは複数のソフトウェア製品にパッケージ化できることは理解されるべきである。
主題の特定の実施形態を説明した。他の実施形態は添付の特許請求の範囲内にある。例えば、諸請求項に記載した当該アクションを異なる順序で実施して、依然として所望の結果を実現することができる。1例として、添付図面で図示したプロセスは所望の結果を実現するために必ずしも示した当該特定の順序、または逐次的順序を必要としない。特定の実装では、マルチタスクおよび並列処理が有利であるかもしれない。
100 強化学習システム
102 エージェント
104 環境
110 アクタ・ニューラル・ネットワーク
130 再生メモリ
140 クリティック・ニューラル・ネットワーク
150 ターゲット・アクタ・ニューラル・ネットワーク
160 ターゲット・クリティック・ニューラル・ネットワーク

Claims (14)

  1. 環境の現在状態を特徴付ける観察を受信し、アクションの連続空間から選択されたアクションを実施することで前記環境と対話するエージェントにより実施されるアクションを選択するために使用されるアクタ・ニューラル・ネットワークをトレーニングするための方法であって、前記アクタ・ニューラル・ネットワークは、前記アクタ・ニューラル・ネットワークのパラメータの現在値に従って観察を次のアクションにマップし、前記方法は、
    エクスペリエンス・タプルのミニバッチを再生メモリから取得するステップであって、各エクスペリエンス・タプルは、前記環境のトレーニング状態を特徴付けるトレーニング観察、前記トレーニング観察を受信したことに応答して前記エージェントにより実施されるアクションの連続空間からのトレーニング動作、前記トレーニング動作を実施するために前記エージェントにより受信されるトレーニング報酬、および前記環境の次のトレーニング状態を特徴付ける次のトレーニング観察を含む、ステップと、
    エクスペリエンス・タプルの前記ミニバッチを用いて前記アクタ・ニューラル・ネットワークの前記パラメータの現在値を更新するステップであって、
    前記ミニバッチ内のエクスペリエンス・タプルごとに、
    クリティック・ニューラル・ネットワークを用いて前記エクスペリエンス・タプル内の前記トレーニング観察および前記トレーニング動作を処理して、前記クリティック・ニューラル・ネットワークのパラメータの現在値に従って前記エクスペリエンス・タプルに対するニューラル・ネットワーク出力を決定するステップと、
    前記エクスペリエンス・タプルに対するターゲット・ニューラル・ネットワーク出力を、前記エクスペリエンス・タプル内の前記トレーニング報酬および前記エクスペリエンス・タプル内の前記次のトレーニング観察から決定するステップと、
    前記ミニバッチ内の前記エクスペリエンス・タプルに対する前記ターゲット・ニューラル・ネットワーク出力および前記ニューラル・ネットワーク出力の間の誤差を用いて、前記クリティック・ニューラル・ネットワークの前記パラメータの現在値を更新するステップと、
    前記クリティック・ニューラル・ネットワークを用いて前記アクタ・ニューラル・ネットワークの前記パラメータの現在値を更新するステップと、
    を含む、ステップと、
    を含む、方法。
  2. 前記エクスペリエンス・タプルに対するターゲット・ニューラル・ネットワーク出力を決定するステップは、
    ターゲット・アクタ・ニューラル・ネットワークを用いて前記次のトレーニング観察を処理して、前記ターゲット・アクタ・ニューラル・ネットワークのパラメータの現在値に従って前記エクスペリエンス・タプルに対する予測された次のアクションを決定するステップであって、前記ターゲット・アクタ・ニューラル・ネットワークは前記アクタ・ニューラル・ネットワークと同一であるが、前記ターゲット・アクタ・ニューラル・ネットワークの前記パラメータの現在値は前記アクタ・ニューラル・ネットワークの前記パラメータの現在値と異なる、ステップと、
    ターゲット・クリティック・ニューラル・ネットワークを用いて前記次のトレーニング観察および前記エクスペリエンス・タプルに対する予測された次のアクションを処理して、前記ターゲット・クリティック・ニューラル・ネットワークのパラメータの現在値に従って予測された次のニューラル・ネットワーク出力を生成するステップであって、前記ターゲット・クリティック・ニューラル・ネットワークは前記クリティック・ニューラル・ネットワークと同一であるが、前記ターゲット・クリティック・ニューラル・ネットワークの前記パラメータの現在値は前記クリティック・ニューラル・ネットワークの前記パラメータの現在値と異なる、ステップと、
    前記エクスペリエンス・タプルに対する前記ターゲット・ニューラル・ネットワーク出力を前記トレーニング報酬および前記エクスペリエンス・タプルに対する前記予測された次のニューラル・ネットワーク出力から決定するステップと、
    を含む、請求項1に記載の方法。
  3. 前記アクタ・ニューラル・ネットワークの前記パラメータの前記更新された値を用いて、前記ターゲット・アクタ・ニューラル・ネットワークの前記パラメータの現在値を更新するステップと、
    前記クリティック・ニューラル・ネットワークの前記パラメータの前記更新された値を用いて、前記ターゲット・クリティック・ニューラル・ネットワークの前記パラメータの現在値を更新するステップと、
    をさらに含む、請求項2に記載の方法。
  4. 前記ターゲット・アクタ・ニューラル・ネットワークおよび前記ターゲット・クリティック・ニューラル・ネットワークの前記パラメータの現在値は、前記アクタ・ニューラル・ネットワークのトレーニングの間に低速に変化するように制約される、請求項3に記載の方法。
  5. 前記クリティック・ニューラル・ネットワーク、前記アクタ・ニューラル・ネットワーク、またはその両方は1つまたは複数のバッチ正規化ニューラル・ネットワークレイヤを含む、請求項1乃至4の何れか1項に記載の方法。
  6. 前記エージェントにより受信された前記観察は、前記環境の前記状態を特徴付ける低次元特徴ベクトルを用いて、前記環境の状態を特徴付ける、請求項1乃至5の何れか1項に記載の方法。
  7. 前記低次元特徴ベクトルの異なる次元の値は可変の範囲を有する、請求項6に記載の方法。
  8. 前記エージェントにより受信された前記観察は、前記環境の前記状態を特徴付ける1つまたは複数の画像からの高次元画素入力を用いて前記環境の状態を特徴付ける、請求項1乃至5の何れか1項に記載の方法。
  9. エクスペリエンス・タプルの前記ミニバッチを用いて前記アクタ・ニューラル・ネットワークの前記パラメータの現在値を更新するのと独立に、
    新たなエクスペリエンス・タプルを生成するステップであって、
    新たなトレーニング観察を受信するステップと、
    前記アクタ・ニューラル・ネットワークを用いて前記新たなトレーニング観察を処理して、前記アクタ・ニューラル・ネットワークの前記パラメータの現在値に従って前記エージェントにより実施される新たなトレーニング動作を選択するステップと、
    前記エージェントが前記新たなトレーニング動作を実施したことに応答して、新たなトレーニング報酬を受信するステップと、
    新たな次のトレーニング観察を受信するステップと、
    前記新たなトレーニング観察、前記新たなトレーニング動作、前記新たなトレーニング報酬、および前記新たな次のトレーニング観察を含む新たなエクスペリエンス・タプルを生成するステップと、
    前記新たなエクスペリエンス・タプルを前記再生メモリに追加するステップと、
    を含む、ステップをさらに含む、請求項1乃至8の何れか1項に記載の方法。
  10. 前記アクタ・ニューラル・ネットワークを用いて前記新たなトレーニング観察を処理して、新たなトレーニング動作を選択するステップは、
    前記アクタ・ニューラル・ネットワークを用いて前記新たなトレーニング観察を処理して、初期の新たなトレーニング動作を生成するステップと、
    雑音プロセスからサンプリングして、雑音因子を取得するステップと、
    前記雑音因子により前記初期の新たなアクションを調節して、前記新たなトレーニング動作を生成するステップと、
    を含む、請求項9に記載の方法。
  11. 前記クリティック・ニューラル・ネットワークを用いて、前記アクタ・ニューラル・ネットワークの前記パラメータの現在値を更新するステップは、
    前記ミニバッチ内のエクスペリエンス・タプルごとに、
    前記アクタ・ニューラル・ネットワークの前記パラメータの現在値に従って前記アクタ・ニューラル・ネットワークを用いて前記エクスペリエンス・タプル内の前記トレーニング観察を処理して、前記トレーニング観察に対する次のアクションを生成するステップと、
    (i)前記トレーニング観察、次のアクション入力の対で、かつ、前記クリティック・ニューラル・ネットワークの前記パラメータの現在値に従って取得された前記次のアクションに関する前記クリティック・ニューラル・ネットワークの勾配および(ii)前記アクタ・ニューラル・ネットワークの前記パラメータの現在値に従って前記トレーニング観察で取得された前記アクタ・ニューラル・ネットワークの前記パラメータに関する前記アクタ・ニューラル・ネットワークの前記勾配に基づいて、前記アクタ・ニューラル・ネットワークに対するパラメータ更新を決定するステップと、
    を含む、請求項1乃至10の何れか1項に記載の方法。
  12. 1つまたは複数のコンピュータと、前記1つまたは複数のコンピュータにより実行されたとき、前記1つまたは複数のコンピュータに請求項1乃至11の何れか1項に記載の方法に従う動作を実施させるように動作可能な命令を格納した1つまたは複数の記憶デバイスとを備える、システム。
  13. 処理デバイスにより実行可能であり、かかる実行の際、前記処理デバイスに請求項1乃至11の何れか1項に記載の方法に従う動作を実施させる命令を格納したコンピュータ可読記憶媒体。
  14. 1つまたは複数のコンピュータにより実装され、前記環境の現在状態を特徴付ける観察を受信し、アクションの連続空間から選択されたアクションを実施することで環境と対話するエージェントにより実施されるアクションを選択するために使用されるアクタ・ニューラル・ネットワークであって、前記アクタ・ニューラル・ネットワークは、前記アクタ・ニューラル・ネットワークのパラメータの現在値に従って観察を次のアクションにマップし、前記アクタ・ニューラル・ネットワークは請求項1乃至11の何れか1項に記載の方法に従ってトレーニングされる、アクタ・ニューラル・ネットワーク。
JP2018523386A 2015-07-24 2016-07-22 ディープ強化学習による連続的制御 Active JP6664480B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562196854P 2015-07-24 2015-07-24
US62/196,854 2015-07-24
PCT/US2016/043716 WO2017019555A1 (en) 2015-07-24 2016-07-22 Continuous control with deep reinforcement learning

Publications (2)

Publication Number Publication Date
JP2018525759A true JP2018525759A (ja) 2018-09-06
JP6664480B2 JP6664480B2 (ja) 2020-03-13

Family

ID=56555869

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018523386A Active JP6664480B2 (ja) 2015-07-24 2016-07-22 ディープ強化学習による連続的制御

Country Status (13)

Country Link
US (3) US10776692B2 (ja)
EP (1) EP3326114B1 (ja)
JP (1) JP6664480B2 (ja)
KR (1) KR102165126B1 (ja)
CN (2) CN108027897B (ja)
AU (1) AU2016297852C1 (ja)
CA (1) CA2993551C (ja)
DE (1) DE112016003350T5 (ja)
GB (1) GB2559491A (ja)
IL (1) IL257103B (ja)
MX (1) MX2018000942A (ja)
RU (1) RU2686030C1 (ja)
WO (1) WO2017019555A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020507857A (ja) * 2017-02-09 2020-03-12 グーグル エルエルシー 視覚入力を使用したエージェントナビゲーション
KR20200087341A (ko) * 2018-12-31 2020-07-21 아주대학교산학협력단 심층 강화 학습을 위한 데이터 처리 장치 및 방법
JP2022504739A (ja) * 2018-10-12 2022-01-13 ディープマインド テクノロジーズ リミテッド 時間的価値移送を使用した長いタイムスケールにわたるエージェントの制御
JP2022523667A (ja) * 2019-01-23 2022-04-26 ディープマインド テクノロジーズ リミテッド 対話履歴グラフを使用したアクション選択
JP2022525423A (ja) * 2019-03-20 2022-05-13 ソニーグループ株式会社 ダブルアクタークリティックアルゴリズムを通じた強化学習
US11562250B2 (en) 2019-02-13 2023-01-24 Kioxia Corporation Information processing apparatus and method

Families Citing this family (99)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10885432B1 (en) * 2015-12-16 2021-01-05 Deepmind Technologies Limited Selecting actions from large discrete action sets using reinforcement learning
US11188821B1 (en) * 2016-09-15 2021-11-30 X Development Llc Control policies for collective robot learning
CN117521725A (zh) * 2016-11-04 2024-02-06 渊慧科技有限公司 加强学习系统
US20180204108A1 (en) * 2017-01-18 2018-07-19 Microsoft Technology Licensing, Llc Automated activity-time training
EP3559865A1 (en) * 2017-01-31 2019-10-30 Deepmind Technologies Limited Data-efficient reinforcement learning for continuous control tasks
WO2018146770A1 (ja) 2017-02-09 2018-08-16 三菱電機株式会社 位置制御装置及び位置制御方法
JP6587761B2 (ja) * 2017-02-09 2019-10-09 三菱電機株式会社 位置制御装置及び位置制御方法
CN110546653B (zh) * 2017-02-24 2023-06-20 渊慧科技有限公司 使用管理者和工作者神经网络的用于强化学习的动作选择
WO2018156891A1 (en) * 2017-02-24 2018-08-30 Google Llc Training policy neural networks using path consistency learning
US11308391B2 (en) * 2017-03-06 2022-04-19 Baidu Usa Llc Offline combination of convolutional/deconvolutional and batch-norm layers of convolutional neural network models for autonomous driving vehicles
US20180271015A1 (en) * 2017-03-21 2018-09-27 Blue River Technology Inc. Combine Harvester Including Machine Feedback Control
KR102399535B1 (ko) * 2017-03-23 2022-05-19 삼성전자주식회사 음성 인식을 위한 학습 방법 및 장치
EP3610417A1 (en) 2017-04-12 2020-02-19 Deepmind Technologies Limited Black-box optimization using neural networks
TWI719302B (zh) 2017-04-26 2021-02-21 美商谷歌有限責任公司 將機器學習整合至控制系統
CN110663049B (zh) * 2017-04-28 2023-12-26 谷歌有限责任公司 神经网络优化器搜索
KR102391452B1 (ko) * 2017-06-02 2022-04-27 에스케이텔레콤 주식회사 신경망에 복수의 태스크를 순차 학습시키는 방법
US11868882B2 (en) * 2017-06-28 2024-01-09 Deepmind Technologies Limited Training action selection neural networks using apprenticeship
CN109204308B (zh) * 2017-07-03 2020-04-07 上海汽车集团股份有限公司 车道保持算法的确定方法、车道保持的控制方法及系统
US10235881B2 (en) * 2017-07-28 2019-03-19 Toyota Motor Engineering & Manufacturing North America, Inc. Autonomous operation capability configuration for a vehicle
US11182676B2 (en) 2017-08-04 2021-11-23 International Business Machines Corporation Cooperative neural network deep reinforcement learning with partial input assistance
US10678241B2 (en) * 2017-09-06 2020-06-09 GM Global Technology Operations LLC Unsupervised learning agents for autonomous driving applications
US10254759B1 (en) 2017-09-14 2019-04-09 Waymo Llc Interactive autonomous vehicle agent
EP3616129A1 (en) * 2017-09-20 2020-03-04 Google LLC Optimizing policy controllers for robotic agents using image embeddings
EP3480741B1 (en) * 2017-10-27 2024-07-17 DeepMind Technologies Limited Reinforcement and imitation learning for a task
US11797839B2 (en) 2017-10-27 2023-10-24 Google Llc Training neural networks using priority queues
CN109726808B (zh) * 2017-10-27 2022-12-09 腾讯科技(深圳)有限公司 神经网络训练方法和装置、存储介质及电子装置
CN107861061B (zh) * 2017-10-27 2019-11-01 安徽大学 一种数据驱动的感应电机参数在线辨识方法
US11688160B2 (en) * 2018-01-17 2023-06-27 Huawei Technologies Co., Ltd. Method of generating training data for training a neural network, method of training a neural network and using neural network for autonomous operations
US11568236B2 (en) 2018-01-25 2023-01-31 The Research Foundation For The State University Of New York Framework and methods of diverse exploration for fast and safe policy improvement
CN111417964B (zh) 2018-02-05 2024-04-19 渊慧科技有限公司 异策略行动者-评价者强化学习方法和系统
US11106211B2 (en) * 2018-04-02 2021-08-31 Sony Group Corporation Vision-based sample-efficient reinforcement learning framework for autonomous driving
EP3794513B1 (en) * 2018-05-18 2024-08-14 DeepMind Technologies Limited Reinforcement learning systems comprising a relational network for generating data encoding relationships between entities in an environment
EP3572982A1 (en) * 2018-05-25 2019-11-27 Robert Bosch GmbH Machine learning system
CN108921284B (zh) * 2018-06-15 2020-11-17 山东大学 基于深度学习的人际交互肢体语言自动生成方法及系统
US10635944B2 (en) * 2018-06-15 2020-04-28 Google Llc Self-supervised robotic object interaction
EP3584721A1 (de) * 2018-06-18 2019-12-25 Siemens Aktiengesellschaft System, computergestütztes verfahren und computerprogrammprodukt zum generieren von konstruktionsparametern einer komplexen vorrichtung
US10747224B2 (en) * 2018-06-19 2020-08-18 Toyota Research Institute, Inc. Debugging an autonomous driving machine learning model
KR102103644B1 (ko) * 2018-06-19 2020-04-23 한국과학기술원 연속 행동 공간 제어를 위한 적응형 다중-배치 경험 리플레이 기법
CN109240280B (zh) * 2018-07-05 2021-09-07 上海交通大学 基于强化学习的锚泊辅助动力定位系统控制方法
CN111868752B (zh) 2018-07-23 2024-03-12 谷歌有限责任公司 神经网络层权重的连续参数化
FR3084867B1 (fr) 2018-08-07 2021-01-15 Psa Automobiles Sa Procede d’assistance pour qu’un vehicule a conduite automatisee suive une trajectoire, par apprentissage par renforcement de type acteur critique a seuil
US10733510B2 (en) 2018-08-24 2020-08-04 Ford Global Technologies, Llc Vehicle adaptive learning
JP7048455B2 (ja) * 2018-08-30 2022-04-05 本田技研工業株式会社 学習装置、シミュレーションシステム、学習方法、およびプログラム
CN109271629B (zh) * 2018-09-07 2023-07-14 中山大学 基于强化学习的生成式文本摘要方法
CN110888401B (zh) * 2018-09-11 2022-09-06 京东科技控股股份有限公司 火力发电机组燃烧控制优化方法、装置及可读存储介质
CN109212476B (zh) * 2018-09-18 2023-03-14 广西大学 一种基于ddpg的rfid室内定位算法
WO2020062911A1 (en) * 2018-09-26 2020-04-02 Huawei Technologies Co., Ltd. Actor ensemble for continuous control
US11676008B2 (en) * 2018-09-27 2023-06-13 Google Llc Parameter-efficient multi-task and transfer learning
CN113099729B (zh) * 2018-10-26 2024-05-28 陶氏环球技术有限责任公司 生产调度的深度强化学习
CN111105029B (zh) * 2018-10-29 2024-04-16 北京地平线机器人技术研发有限公司 神经网络的生成方法、生成装置和电子设备
CN109598332B (zh) * 2018-11-14 2021-04-09 北京市商汤科技开发有限公司 神经网络生成方法及装置、电子设备和存储介质
US20220019866A1 (en) * 2018-11-30 2022-01-20 Google Llc Controlling robots using entropy constraints
DE102018220865B4 (de) * 2018-12-03 2020-11-05 Psa Automobiles Sa Verfahren zum Trainieren wenigstens eines Algorithmus für ein Steuergerät eines Kraftfahrzeugs, Computerprogrammprodukt sowie Kraftfahrzeug
US11204761B2 (en) 2018-12-03 2021-12-21 International Business Machines Corporation Data center including cognitive agents and related methods
US11295236B2 (en) * 2018-12-10 2022-04-05 International Business Machines Corporation Machine learning in heterogeneous processing systems
US11036214B2 (en) * 2018-12-13 2021-06-15 Andritz Inc. Industrial plant controller
CN113196308B (zh) * 2019-01-14 2024-05-14 赫尔实验室有限公司 用于控制移动平台的系统、方法和计算机程序产品
KR102309682B1 (ko) * 2019-01-22 2021-10-07 (주)티비스톰 강화학습을 통해 진화하는 ai 개체를 제공하는 방법 및 플랫폼
CN110798842B (zh) * 2019-01-31 2022-06-28 湖北工业大学 一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法
DE102019104966A1 (de) * 2019-02-27 2020-08-27 Bayerische Motoren Werke Aktiengesellschaft Selbstlernende Steuervorrichtung und Verfahren für selbstlernende Steuervorrichtung
US11410023B2 (en) 2019-03-01 2022-08-09 International Business Machines Corporation Lexicographic deep reinforcement learning using state constraints and conditional policies
KR102267316B1 (ko) * 2019-03-05 2021-06-21 네이버랩스 주식회사 심층 강화 학습에 기반한 자율주행 에이전트의 학습 방법 및 시스템
US11216001B2 (en) 2019-03-20 2022-01-04 Honda Motor Co., Ltd. System and method for outputting vehicle dynamic controls using deep neural networks
CN109992000B (zh) * 2019-04-04 2020-07-03 北京航空航天大学 一种基于分层强化学习的多无人机路径协同规划方法及装置
JP7106486B2 (ja) * 2019-04-22 2022-07-26 株式会社東芝 学習装置、学習方法、プログラムおよび情報処理システム
US11410558B2 (en) 2019-05-21 2022-08-09 International Business Machines Corporation Traffic control with reinforcement learning
WO2020234475A1 (en) * 2019-05-23 2020-11-26 Deepmind Technologies Limited Training more secure neural networks by using local linearity regularization
WO2020249299A1 (en) * 2019-06-11 2020-12-17 Telefonaktiebolaget Lm Ericsson (Publ) Methods and apparatus for data traffic routing
WO2021001312A1 (de) * 2019-07-01 2021-01-07 Kuka Deutschland Gmbh Durchführen einer applikation mithilfe wenigstens eines roboters
DE102019117839A1 (de) * 2019-07-02 2021-01-07 Bayerische Motoren Werke Aktiengesellschaft Verfahren, Vorrichtung, Computerprogramm und Computerprogrammprodukt zur Datenverarbeitung in einem Fahrzeug und Fahrzeug
DE102019209725B4 (de) 2019-07-03 2023-10-26 Zf Friedrichshafen Ag Verfahren zum Anpassen von Mitteln einer Steuereinrichtung
KR20210012730A (ko) 2019-07-26 2021-02-03 삼성전자주식회사 인공지능 모델의 학습 방법 및 전자 장치
CN110456644B (zh) * 2019-08-13 2022-12-06 北京地平线机器人技术研发有限公司 确定自动化设备的执行动作信息的方法、装置及电子设备
DE112019007598B4 (de) 2019-09-05 2024-05-08 Mitsubishi Electric Corporation Inferenzeinrichtung, vorrichtung-steuerungssystem und lerneinrichtung
CN110609474B (zh) * 2019-09-09 2020-10-02 创新奇智(南京)科技有限公司 一种基于强化学习的数据中心能效优化方法
CN112688974A (zh) * 2019-10-17 2021-04-20 伊姆西Ip控股有限责任公司 用于管理备份系统的方法、装置和计算机程序产品
CN112731804A (zh) * 2019-10-29 2021-04-30 北京京东乾石科技有限公司 一种实现路径跟随的方法和装置
US11500337B2 (en) * 2019-11-04 2022-11-15 Honeywell International Inc. Method and system for directly tuning PID parameters using a simplified actor-critic approach to reinforcement learning
CN111062632B (zh) * 2019-12-24 2023-04-18 国网黑龙江省电力有限公司 一种基于边缘智能的5g能源互联网虚拟电厂经济调度方法
CN111242443B (zh) * 2020-01-06 2023-04-18 国网黑龙江省电力有限公司 基于深度强化学习的能源互联网中虚拟电厂经济调度方法
CN111582441B (zh) * 2020-04-16 2021-07-30 清华大学 共享循环神经网络的高效值函数迭代强化学习方法
CN111882030B (zh) * 2020-06-29 2023-12-05 武汉钢铁有限公司 一种基于深度强化学习的加锭策略方法
US20220036186A1 (en) * 2020-07-30 2022-02-03 Waymo Llc Accelerated deep reinforcement learning of agent control policies
CN111898770B (zh) * 2020-09-29 2021-01-15 四川大学 一种多智能体强化学习方法、电子设备及存储介质
US20220101064A1 (en) * 2020-09-29 2022-03-31 Sony Corporation Task prioritized experience replay algorithm for reinforcement learning
WO2022069747A1 (en) * 2020-10-02 2022-04-07 Deepmind Technologies Limited Training reinforcement learning agents using augmented temporal difference learning
KR102697184B1 (ko) * 2020-11-25 2024-08-21 한국전자통신연구원 강화학습 시스템 상의 개체 포팅 방법 및 장치
WO2022131433A1 (ko) * 2020-12-14 2022-06-23 한국과학기술원 샘플 효율적인 탐색을 위한 샘플-인지 엔트로피 정규화 기법
RU2755339C1 (ru) * 2020-12-16 2021-09-15 Федеральное государственное бюджетное образовательное учреждение высшего образования "Кубанский государственный технологический университет" (ФГБОУ ВО "КубГТУ") Модифицированный интеллектуальный контроллер с адаптивным критиком
CN112911647A (zh) * 2021-01-20 2021-06-04 长春工程学院 一种基于深度强化学习的计算卸载和资源分配方法
CN113222106B (zh) * 2021-02-10 2024-04-30 西北工业大学 一种基于分布式强化学习的智能兵棋推演方法
DE102021107458A1 (de) 2021-03-25 2022-09-29 Dr. Ing. H.C. F. Porsche Aktiengesellschaft Steuervorrichtung und Verfahren
EP4315162A1 (en) 2021-04-01 2024-02-07 Bayer Aktiengesellschaft Reinforced attention
CN113104050B (zh) * 2021-04-07 2022-04-12 天津理工大学 一种基于深度强化学习的无人驾驶端到端决策方法
CN113269315B (zh) * 2021-06-29 2024-04-02 安徽寒武纪信息科技有限公司 利用深度强化学习执行任务的设备、方法及可读存储介质
WO2023075631A1 (ru) 2021-10-29 2023-05-04 Ооо (Общество С Ограниченной Ответственностью) "Арлойд Аутомейшн" Система управления устройствами отопления, вентиляции и кондиционирования воздуха
CN114722998B (zh) * 2022-03-09 2024-02-02 三峡大学 一种基于cnn-ppo的兵棋推演智能体构建方法
CN116611194B (zh) * 2023-07-17 2023-09-29 合肥工业大学 基于深度强化学习的线路重合调度策略模型、方法和系统
CN117863948B (zh) * 2024-01-17 2024-06-11 广东工业大学 一种辅助调频的分散电动汽车充电控制方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013081683A (ja) * 2011-10-12 2013-05-09 Sony Corp 情報処理装置、情報処理方法、及びプログラム
US20150100530A1 (en) * 2013-10-08 2015-04-09 Google Inc. Methods and apparatus for reinforcement learning

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05346915A (ja) * 1992-01-30 1993-12-27 Ricoh Co Ltd 学習機械並びにニューラルネットワークおよびデータ分析装置並びにデータ分析方法
US6085178A (en) 1997-03-21 2000-07-04 International Business Machines Corporation Apparatus and method for communicating between an intelligent agent and client computer process using disguised messages
US7805388B2 (en) * 1998-05-01 2010-09-28 Health Discovery Corporation Method for feature selection in a support vector machine using feature ranking
US7970718B2 (en) * 2001-05-18 2011-06-28 Health Discovery Corporation Method for feature selection and for evaluating features identified as significant for classifying data
US6917925B2 (en) * 2001-03-30 2005-07-12 Intelligent Inference Systems Corporation Convergent actor critic-based fuzzy reinforcement learning apparatus and method
US7837543B2 (en) * 2004-04-30 2010-11-23 Microsoft Corporation Reward-driven adaptive agents for video games
US20060050953A1 (en) * 2004-06-18 2006-03-09 Farmer Michael E Pattern recognition method and apparatus for feature selection and object classification
JP5330138B2 (ja) 2008-11-04 2013-10-30 本田技研工業株式会社 強化学習システム
CN101466111B (zh) * 2009-01-13 2010-11-17 中国人民解放军理工大学通信工程学院 基于政策规划约束q学习的动态频谱接入方法
US9015093B1 (en) * 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
CN102207928B (zh) * 2011-06-02 2013-04-24 河海大学常州校区 基于强化学习的多Agent污水处理决策支持系统
US8943008B2 (en) 2011-09-21 2015-01-27 Brain Corporation Apparatus and methods for reinforcement learning in artificial neural networks
US9134707B2 (en) * 2012-03-30 2015-09-15 Board Of Regents, The University Of Texas System Optimal online adaptive controller
RU2542901C1 (ru) * 2014-03-11 2015-02-27 Федеральное государственное казенное военное образовательное учреждение высшего профессионального образования "ВОЕННАЯ АКАДЕМИЯ СВЯЗИ имени Маршала Советского Союза С.М. Буденного" Министерства обороны Российской Федерации Способ управления компьютерной сетью

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013081683A (ja) * 2011-10-12 2013-05-09 Sony Corp 情報処理装置、情報処理方法、及びプログラム
US20150100530A1 (en) * 2013-10-08 2015-04-09 Google Inc. Methods and apparatus for reinforcement learning

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Actor−Qアーキテクチャに基づく能動認識学習システム", 電子情報通信学会論文誌 (J84−D−II), vol. 第9号, JPN6019020432, 1 September 2001 (2001-09-01), JP, ISSN: 0004048491 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020507857A (ja) * 2017-02-09 2020-03-12 グーグル エルエルシー 視覚入力を使用したエージェントナビゲーション
JP2022504739A (ja) * 2018-10-12 2022-01-13 ディープマインド テクノロジーズ リミテッド 時間的価値移送を使用した長いタイムスケールにわたるエージェントの制御
JP7139524B2 (ja) 2018-10-12 2022-09-20 ディープマインド テクノロジーズ リミテッド 時間的価値移送を使用した長いタイムスケールにわたるエージェントの制御
US11769049B2 (en) 2018-10-12 2023-09-26 Deepmind Technologies Limited Controlling agents over long time scales using temporal value transport
KR20200087341A (ko) * 2018-12-31 2020-07-21 아주대학교산학협력단 심층 강화 학습을 위한 데이터 처리 장치 및 방법
KR102209917B1 (ko) 2018-12-31 2021-01-29 아주대학교산학협력단 심층 강화 학습을 위한 데이터 처리 장치 및 방법
JP2022523667A (ja) * 2019-01-23 2022-04-26 ディープマインド テクノロジーズ リミテッド 対話履歴グラフを使用したアクション選択
JP7284277B2 (ja) 2019-01-23 2023-05-30 ディープマインド テクノロジーズ リミテッド 対話履歴グラフを使用したアクション選択
US11562250B2 (en) 2019-02-13 2023-01-24 Kioxia Corporation Information processing apparatus and method
JP2022525423A (ja) * 2019-03-20 2022-05-13 ソニーグループ株式会社 ダブルアクタークリティックアルゴリズムを通じた強化学習
US11816591B2 (en) 2019-03-20 2023-11-14 Sony Group Corporation Reinforcement learning through a double actor critic algorithm
JP7516411B2 (ja) 2019-03-20 2024-07-16 ソニーグループ株式会社 ダブルアクタークリティックアルゴリズムを通じた強化学習

Also Published As

Publication number Publication date
KR20180034553A (ko) 2018-04-04
US20200410351A1 (en) 2020-12-31
KR102165126B1 (ko) 2020-10-13
RU2686030C1 (ru) 2019-04-23
CN108027897A (zh) 2018-05-11
CN108027897B (zh) 2022-04-12
GB201802748D0 (en) 2018-04-04
EP3326114A1 (en) 2018-05-30
CA2993551C (en) 2022-10-11
AU2016297852C1 (en) 2019-12-05
IL257103A (en) 2018-03-29
AU2016297852B2 (en) 2019-08-22
CN114757333A (zh) 2022-07-15
IL257103B (en) 2021-09-30
JP6664480B2 (ja) 2020-03-13
DE112016003350T5 (de) 2018-04-05
EP3326114B1 (en) 2024-09-04
BR112018001520A2 (pt) 2019-05-07
US10776692B2 (en) 2020-09-15
AU2016297852A1 (en) 2018-02-08
MX2018000942A (es) 2018-08-09
US20240177002A1 (en) 2024-05-30
GB2559491A (en) 2018-08-08
US11803750B2 (en) 2023-10-31
US20170024643A1 (en) 2017-01-26
WO2017019555A1 (en) 2017-02-02
CA2993551A1 (en) 2017-02-02

Similar Documents

Publication Publication Date Title
JP6664480B2 (ja) ディープ強化学習による連続的制御
KR102140672B1 (ko) 트레이닝 증강 학습 신경 네트워크
JP6728496B2 (ja) 強化学習を使用した環境ナビゲーション
US11741334B2 (en) Data-efficient reinforcement learning for continuous control tasks
JP6669897B2 (ja) 優位推定を使用する強化学習
US11907837B1 (en) Selecting actions from large discrete action sets using reinforcement learning
JP6591672B2 (ja) デュエリングディープニューラルネットワーク
JP2018537775A (ja) 優先順位付けされた経験メモリを使用したニューラルネットワークの訓練
JP2019530925A (ja) ロボットエージェントのための制御ポリシー
JP2020508527A (ja) ニューラルエピソード制御

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180220

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180326

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190610

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190910

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200218

R150 Certificate of patent or registration of utility model

Ref document number: 6664480

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250