JP2023542654A - 強化学習のためのタスク優先順位付き経験再生アルゴリズム - Google Patents

強化学習のためのタスク優先順位付き経験再生アルゴリズム Download PDF

Info

Publication number
JP2023542654A
JP2023542654A JP2023516611A JP2023516611A JP2023542654A JP 2023542654 A JP2023542654 A JP 2023542654A JP 2023516611 A JP2023516611 A JP 2023516611A JP 2023516611 A JP2023516611 A JP 2023516611A JP 2023542654 A JP2023542654 A JP 2023542654A
Authority
JP
Japan
Prior art keywords
transition
task
agent
episode
transitions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023516611A
Other languages
English (en)
Inventor
ヴァルン コンペラ
ジェームズ マクラシャン
ピーター ワーマン
ピーター ストーン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JP2023542654A publication Critical patent/JP2023542654A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)
  • Feedback Control In General (AREA)

Abstract

タスク優先順位付き経験再生(TaPER)アルゴリズムは、オフポリシーで複数のRLタスクの同時学習を可能にする。アルゴリズムは、タスクの達成をもたらした固定長エピソードの一部であったサンプルに優先順位付けすることができる。これは、エージェントが早期の成功にわたってブートストラップすることによってタスク方策を迅速に学習できるようにする。最後に、TaPERは、全てのタスクに関する性能を同時に向上させることができ、これは、マルチタスクRLにとって望ましい特性である。単一RLタスク学習設定に適用されるか、又は報酬がバイナリ又は豊富であることを必要とするか、又はゴールのパラメータ化された指定として提供される従来のERアルゴリズムとは異なり、TaPERは、このような制約を提示せず、任意の報酬及びタスク指定をサポートする。

Description

本発明の実施形態は、一般に、強化学習方法に関する。具体的には、本発明は、オフポリシーで複数の強化学習タスクの同時学習を可能にするタスク優先順位付き経験再生アルゴリズムを使用してエージェントを訓練するためのシステム及び方法に関する。
以下の背景情報は、先行技術の特定の態様(例えば、限定ではなく、手法、事実又は通念)の例を提示することができ、これらの例は先行技術の更なる態様を読者に更に伝えるのに役立つと期待されるが、本発明又はそのいずれかの実施形態をこれらの中で言及又は暗示される、或いはそれについて推測されるいずれかの事項に限定するものとして解釈すべきではない。
強化学習(RL)は、システムのダイナミクスが未知であり、対話及び観察を通じてエージェントによって学習されなければならない時に、人工エージェントがそのシステム(又は「環境」)の制御を最適化する問題(及び解決策)のクラスを示す。強化学習システムは、4つの主要な要素、すなわち、エージェント、方策、報酬及び価値関数を含むことができる。任意の時点でのエージェントの挙動は、方策に関して定義される。
方策π(a,s)は、行動aと状態sとの間の確率的マッピングである。全ての方策が最適であるとは限らないので、方策を改善するための方法が開発される。このような方法は、オンポリシーの方法又はオフポリシーの方法のいずれかに分類される。オンポリシーの方法は、決定を行うために使用される同じ方策を評価又は改善しようと試みる。他方で、オフポリシーの方法は、データを生成するために使用されたものとは異なる方策を評価又は改善する。オフポリシー強化学習は、異なる挙動方策から収集される経験からタスクを解決するために方策を学習することを可能にする。
経験再生(ER)アルゴリズムは、勾配ベースのディープRLアーキテクチャの訓練において重要な役割を果たす。これらのアーキテクチャをオンラインで訓練することは、多くの場合、入力が繰り返され時間的に無相関である必要がある。ERアルゴリズムは、バッファを使用して経験を記憶し、独立的かつ等しく分散的に経験からサンプリングすることによって、これらの問題に効率的に対処する。ERアルゴリズムは、2つのサブクラス、すなわち、経験を一様にサンプリングするものと、より高い優先度を有する特定の経験をサンプリングするものと、に更に分類することができる。
従来のERアルゴリズムは、大抵は、単一RLタスク学習設定に適用された。マルチタスク設定において適用された少数は、報酬がバイナリ又は豊富であることを必要とする。これらのうちのいくつかは、また、ゴールのパラメータ化された指定を必要とする。
上記に鑑みて、オフポリシー強化学習を改善するシステム及び方法が必要とされている。
本発明の実施形態は、制御ループにおいてエージェントを訓練する方法であって、前記エージェントによって、観察(st)のための挙動方策(πb)からサンプリングされる行動(at)を実行するステップと、メインバッファに遷移タプルを記憶するステップであって、前記遷移タプルは、
Figure 2023542654000001
を含み、ここで、
Figure 2023542654000002
は、環境内の各タスクに対する報酬ベクトルであり、st+1は、行動(at)後の次の環境状態である、ステップと、前記メインバッファに記憶される各遷移タプルに対して遷移優先度を更新するステップと、遷移タプルのミニバッチをサンプリングして、タスクネットワークを更新するステップと、オフポリシーアルゴリズムを用いて、前記更新されたタスクネットワークからタスク方策を最適化するステップと、を含む方法を提供する。
いくつかの実施形態では、前記環境内の前記タスクは、前記エージェントに未知である。
いくつかの実施形態では、前記制御ループはエピソディック(episodic)であり、各エピソードの後に、前記エージェントの状態が初期状態にリセットされる。
いくつかの実施形態では、前記制御ループは連続的であり、ここで、前記エージェントは、前記エージェントの状態をリセットすることなく行動を実行する。
本発明の実施形態は、エージェントを訓練する方法であって、前記エージェントによって、観察(st)のための挙動方策(πb)からサンプリングされる行動(at)を実行するステップと、メインバッファに遷移タプルを記憶するステップであって、前記遷移タプルは、
Figure 2023542654000003
を含み、ここで、
Figure 2023542654000004
は、環境内の各タスクに対する報酬ベクトルであり、st+1は、行動(at)後の次の環境状態である、ステップと、前記メインバッファに記憶される各遷移タプルに対して遷移優先度を更新するステップと、遷移タプルのミニバッチをサンプリングして、タスクネットワークを更新するステップと、オフポリシーアルゴリズムを用いて、前記更新されたタスクネットワークからタスク方策を最適化するステップと、を含み、i番目のエピソード中にタスク-jの達成をもたらす遷移指標のセットに属する遷移は、前記i番目のエピソード中にタスク-jの達成をもたらさない遷移よりも高い優先度が与えられる、方法を更に提供する。
本発明の実施形態は、また、実行可能プログラムを記憶した非一時的コンピュータ可読記憶媒体であって、前記プログラムは、前記エージェントによって、観察(st)のための挙動方策(πb)からサンプリングされる行動(at)を実行するステップと、メインバッファに遷移タプルを記憶するステップであって、前記遷移タプルは、
Figure 2023542654000005
を含み、ここで、
Figure 2023542654000006
は、環境内の各タスクに対する報酬ベクトルであり、st+1は、行動(at)後の次の環境状態である、ステップと、前記メインバッファに記憶される各遷移タプルに対して遷移優先度を更新するステップと、遷移タプルのミニバッチをサンプリングして、タスクネットワークを更新するステップと、オフポリシーアルゴリズムを用いて、前記更新されたタスクネットワークからタスク方策を最適化するステップと、を実行するように1又は2以上のプロセッサに命令し、i番目のエピソード中にタスク-jの達成をもたらす遷移指標のセットに属する遷移は、前記i番目のエピソード中にタスク-jの達成をもたらさない遷移よりも高い優先度が与えられる、非一時的コンピュータ可読記憶媒体を提供する。
本発明のこれらの及びその他の特徴、態様及び利点は、以下の図面、説明及び特許請求の範囲を参照することでより良く理解されるであろう。
同じ参照記号が同様の要素を示すことができる添付図面の図によって、本発明のいくつかの実施形態を限定ではなく一例として示す。
本発明の例示的な実施形態による、環境とTaPERを備えるエージェントとの間の制御フロー図である。 本発明の例示的な実施形態による、TaPERを使用するオフポリシー強化エージェントの内部を示す図である。
別途指示していない限り、図のイラストは必ずしも縮尺通りではない。
図示の実施形態について説明する以下の詳細な説明を参照することによって、本発明及びその様々な実施形態をより良く理解することができる。図示の実施形態は一例として示すものであり、最終的に特許請求の範囲に定める本発明を限定するものではないと明確に理解されたい。
本明細書で使用する用語は、特定の実施形態を説明するためのものにすぎず、本発明を限定するように意図するものではない。本明細書で使用する「及び/又は」という用語は、関連する記載項目のうちの1つ又は2つ以上のありとあらゆる組み合わせを含む。本明細書で使用する単数形の「a、an(英文不定冠詞)」及び「the(英文定冠詞)」は、その文脈で別途明確に示していない限り、単数形に加えて複数形も含むように意図される。更に、「含む、備える(comprises及び/又はcomprising)」という用語は、本明細書で使用する場合、言及する特徴、ステップ、動作、要素及び/又はコンポーネントの存在を示すものであるが、1又は2以上の他の特徴、ステップ、動作、要素、コンポーネント、及び/又はこれらの群の存在又は追加を除外するものではないと理解されたい。
特に定めがない限り、本明細書で使用する(技術用語及び科学用語を含む)全ての用語は、本発明が属する技術の当業者が一般に理解している意味と同じ意味を有する。更に、一般に使用される辞書に定義されているような用語については、関連技術及び本開示の文脈におけるこれらの意味に従う意味を有すると解釈すべきであり、本明細書で明確に定義していない限り、理想的な又は過度に形式的な意味で解釈されるものではないと理解されるであろう。
本発明の説明では、複数の技術及びステップが開示されていると理解されるであろう。これらはそれぞれ個々の利益を有し、それぞれ開示する他の技術の1つ又は2つ以上、又は場合によっては全てと共に使用することもできる。したがって、明確にするために、本説明では個々のステップの全ての可能な組み合わせを不必要に繰り返さないようにする。しかしながら、本明細書及び特許請求の範囲については、このような組み合わせも本発明の範囲及び特許請求の範囲に完全に含まれるという理解の下で読むべきである。
以下の説明では、説明の目的で、本発明の完全な理解をもたらすために数多くの具体的な詳細を示す。しかしながら、当業者には、これらの具体的な詳細を伴わずとも本発明を実施できることが明らかであろう。
本開示は本発明の例示として見なすべきであり、以下の図又は説明によって示す具体的な実施形態に本発明を限定するように意図するものではない。
少なくとも互いに一般通信を行う装置又はシステムモジュールは、別途明示していない限り、互いに連続的に通信する必要はない。また、少なくとも互いに一般通信を行う装置又はシステムモジュールは、直接的に、或いは1又は2以上の仲介装置を通じて間接的に通信することができる。
互いに通信する複数のコンポーネントを含む実施形態の説明は、このようなコンポーネントが全て必要であることを意味するものではない。むしろ、本発明の幅広い可能な実施形態を示すために様々な任意のコンポーネントについて説明する。
「コンピュータ」又は「コンピュータ装置」は、構造化された入力を受け入れ、構造化された入力を規定のルールに従って処理し、処理の結果を出力として生成することができる1又は2以上の装置及び/又は1又は2以上のシステムを意味することができる。コンピュータ又はコンピュータ装置の例としては、コンピュータ、固定及び/又はポータブルコンピュータ、単一のプロセッサ、複数のプロセッサ、又は並行して及び/又は並行しないで動作できるマルチコアプロセッサを有するコンピュータ、スーパーコンピュータ、メインフレーム、スーパーミニコンピュータ、ミニコンピュータ、ワークステーション、マイクロコンピュータ、サーバ、クライアント、双方向テレビ、ウェブアプライアンス、インターネットアクセスを有する通信装置、コンピュータと双方向テレビとのハイブリッド結合、ポータブルコンピュータ、タブレットパーソナルコンピュータ(PC)、携帯情報端末(PDA)、携帯電話機、例えばデジタルシグナルプロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け命令セットプロセッサ(ASIP)、チップ、複数のチップ、システムオンチップ又はチップセットなどの、コンピュータ及び/又はソフトウェアをエミュレートする特定用途向けハードウェア、データ収集装置、光コンピュータ、量子コンピュータ、バイオコンピュータ、及び一般にデータを受け入れ、1又は2以上の記憶されたソフトウェアプログラムに従ってデータを処理し、結果を生成し、典型的には入力装置、出力装置、記憶装置、算術演算装置、論理装置及び制御装置を含むことができる装置を挙げることができる。
「ソフトウェア」又は「アプリケーション」は、コンピュータを動作させるための規定のルールを意味することができる。ソフトウェア又はアプリケーションの例としては、1又は2以上のコンピュータ可読言語でのコードセグメント、グラフィック及び/又はテキスト命令、アプレット、プリコンパイル済みコード、解釈済みコード、コンパイル済みコード及びコンピュータプログラムを挙げることができる。
また、コンピュータ、他のプログラマブルデータ処理装置又はその他の装置に特定の形で機能するように指示することができるこれらのコンピュータプログラム命令をコンピュータ可読媒体に記憶することにより、コンピュータ可読媒体に記憶された命令が、フローチャート及び/又はブロック図の1又は複数のブロック内に指定される機能/動作を実行する命令を含む製造の物品を生み出すようにすることもできる。
更に、プロセスステップ、方法ステップ又はアルゴリズムなどは一定の順序で説明することができるが、このようなプロセス、方法及びアルゴリズムは別の順序で機能するように構成することもできる。換言すれば、説明できるステップのいずれかの順番又は順序は、これらのステップを必ずしもこの順序で実行する必要があることを示すものではない。本明細書で説明するプロセスのステップは、いずれかの実用的な順序で実行することができる。更に、いくつかのステップを同時に実行することもできる。
本明細書で説明する様々な方法及びアルゴリズムは、例えば適切にプログラムされた汎用コンピュータ及び計算装置によって実行できることが容易に明らかになるであろう。通常、プロセッサ(例えば、マイクロプロセッサ)は、メモリ又は同様の装置から命令を受け取ってこれらの命令を実行することにより、これらの命令によって定められたプロセスを実行する。更に、このような方法及びアルゴリズムを実行するプログラムは、様々な既知の媒体を用いて記憶して送信することができる。
本明細書で使用する「コンピュータ可読媒体」という用語は、コンピュータ、プロセッサ又は同様の装置が読み取ることができるデータ(例えば、命令)を提供することに関与するいずれかの媒体を意味する。このような媒体は、以下に限定するわけではないが、不揮発性媒体、揮発性媒体及び送信媒体を含む多くの形態を取ることができる。不揮発性媒体は、例えば光又は磁気ディスク及びその他の永続的メモリを含む。揮発性媒体は、典型的にはメインメモリを構成するダイナミックランダムアクセスメモリ(DRAM)を含む。送信媒体は、プロセッサに結合されたシステムバスを含むワイヤを含む、同軸ケーブル、銅線及び光ファイバを含む。送信媒体は、無線周波数(RF)及び赤外線(IR)データ通信中に生成されるものなどの音波、光波及び電磁放射線を含み、又はこれらを伝えることができる。一般的な形態のコンピュータ可読媒体としては、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、他のいずれかの磁気媒体、CD-ROM、DVD、他のいずれかの光媒体、パンチカード、紙テープ、穴パターンを有する他のいずれかの物理的媒体、RAM、PROM、EPROM、FLASHEEPROM、他のいずれかのメモリーチップ又はカートリッジ、後述するような搬送波、又はコンピュータが読み取ることができる他のいずれかの媒体を挙げることができる。
一連の命令をプロセッサに搬送することには、様々な形態のコンピュータ可読媒体が関与することができる。例えば、一連の命令は、(i)RAMからプロセッサに供給することができ、(ii)無線送信媒体を介して搬送することができ、及び/又は(iii)Bluetooth、TDMA、CDMA、3Gなどの数多くのフォーマット、標準又はプロトコルに従ってフォーマットすることができる。
本発明の実施形態は、本明細書に開示する動作を実行する装置を含むことができる。装置は、所望の目的で特別に構成することも、又は内部に記憶されたプログラムによって選択的に作動又は再構成される汎用装置を含むこともできる。
特に別途述べていない限り、また以下の説明及び特許請求の範囲から明らかになり得るように、本明細書全体を通じて、「処理する」、「計算する」、「算出する」又は「決定する」などの用語を利用した説明は、コンピュータシステムのレジスタ及び/又はメモリ内の電子量などの物理量として表されるデータを操作し、及び/又はコンピュータシステムのメモリ、レジスタ又は他のこのような情報記憶、送信又は表示装置内の物理量として同様に表される他のデータに変形させるコンピュータ、コンピュータシステム又は同様の電子計算装置の動作及び/又はプロセスを意味すると理解されたい。
同様に、「プロセッサ」という用語は、レジスタ及び/又はメモリからの電子データを処理し、外部装置の物理的変化又は作動を引き起こすようにこの電子データをレジスタ及び/又はメモリへの記憶又は外部装置への伝達が可能な他の電子データに変換するいずれかの装置又は装置の一部を意味することができる。
「エージェント」又は「知的エージェント」又は「人工エージェント」又は「人工知能エージェント」という用語は、観察に応答して行動を選択するいずれかの人為的エンティティを意味するように意図される。「エージェント」は、ロボット、模擬ロボット、ソフトウェアエージェント又は「ボット」、適応エージェント、インターネット又はウェブボットを制限なく意味することができる。
「ロボット」という用語は、感知又は観察に応答して行動又はコマンドを発行するコンピュータ又はコンピュータシステムによって直接的又は間接的に制御されるいずれかのシステムを意味することができる。この用語は、カメラ、タッチセンサ及び距離センサなどの物理的センサを有する従来の物理的ロボット、又は仮想シミュレーション内に存在する模擬ロボット、或いはネットワーク内のソフトウェアとして存在するメールボット又はサーチボットなどの「ボット」を制限なく意味することができる。この用語は、いずれかの脚付きロボット(limbed robots)、歩行ロボット、(以下に限定するわけではないが、組み立て、塗装、修理、メンテナンスなどの自動化のために使用されるロボットを含む)産業ロボット、車輪付きロボット、掃除又は芝刈りロボット、パーソナルアシスタントロボット、サービスロボット、医用又は外科ロボット、飛行ロボット、運転ロボット、航空機又は宇宙船ロボット、或いは車両用又はそれ以外の、実際の又は模擬の、知的家庭用又は作業用機器などの静止ロボットも含む、実質的に自律制御下で動作する他のいずれかのロボットを制限なく意味することもできる。
「観察」という用語は、エージェントがいずれかの手段によって受け取る、エージェントの環境又はエージェント自体に関するいずれかの情報を意味する。いくつかの実施形態では、この情報を、限定ではないが、カメラ、タッチセンサ、距離センサ、温度センサ、波長センサ、音響又は音声センサ、ポジションセンサ、圧力又は力センサ、速度又は加速度又はその他の動きセンサ、位置センサ(例えば、GPS)などの知覚装置を通じて受け取られる知覚情報又は信号とすることができる。他の実施形態では、この情報が、限定ではないが、一群の知覚装置と記憶された情報とを組み合わせたものから作成された、編集された、抽象的な又は状況的な情報を含むこともできる。非限定的な例では、エージェントが、エージェント自体又は他の物体の位置又は特性に関する抽象情報を観察として受け取ることができる。いくつかの実施形態では、この情報が、人々又は顧客、或いはその購買習慣、個人連絡先情報、個人的好みなどの特性を意味することができる。いくつかの実施形態では、観察を、限定ではないが、エージェントの現在又は過去の行動に関する固有感覚情報(proprioceptive information)又はその他の情報、エージェントの内部状態に関する情報、或いはエージェントによって既に計算又は処理された情報などの、エージェントの内部に関する情報とすることができる。
「行動」という用語は、エージェントの環境、エージェントの物理的又は模擬的自己(physical or simulated self)、或いはエージェントの内部機能を制御し、これらに影響し、又はこれらを左右するための、最終的にはエージェントの将来の行動、行動選択、又は行動の好みを制御し、又はこれらに影響を与えることができるエージェントのいずれかの手段を意味する。多くの実施形態では、これらの行動が、物理的又は模擬サーボ又はアクチュエータを直接制御することができる。いくつかの実施形態では、これらの行動を、エージェントの選択に影響するように最終的に意図された好み又は一連の好みの表現とすることができる。いくつかの実施形態では、エージェントの(単複の)行動に関する情報が、限定ではないが、エージェントの(単複の)行動にわたる確率分布、及び/又はエージェントの最終的な行動選択に影響するように意図された発信情報(outgoing information)を含むことができる。
「状態」又は「状態情報」という用語は、限定ではないが、エージェントの現在及び/又は過去の観察に関する情報を含むことができる、環境又はエージェントの状態に関するいずれかの一群の情報を意味する。
「方策」という用語は、いずれかの完全な又は部分的な状態情報からいずれかの行動情報へのいずれかの関数又はマッピングを意味する。方策は、ハードコーディングすることも、或いは限定ではないが、いずれかの強化学習法又は制御最適化法を含むいずれかの適切な学習法又は教示法を使用して修正、適合又は訓練することもできる。方策は、限定ではないが、特定の尺度、値又は関数を最適化することによって生じ得るものなどの明示的マッピング又は非明示的マッピングとすることができる。方策は、限定ではないが、どのような条件下で方策が開始又は継続できるかを反映する開始条件(又は確率)、どのような条件下で方策が終了できるかを反映する終了条件(又は確率)などの関連する更なる情報、特徴又は特性を含むことができる。
概して、本発明の実施形態は、オフポリシーで複数のRLタスクの同時学習を可能にするタスク優先順位付き経験再生(TaPER)アルゴリズムを提供する。アルゴリズムは、タスクの達成をもたらした固定長エピソードの一部であったサンプルに優先順位付けすることができる。これは、エージェントが早期の成功にわたってブートストラップすることによってタスク方策を迅速に学習できるようにする。最後に、TaPERは、全てのタスクに関する性能を同時に向上させることができ、これは、マルチタスクRLにとって望ましい特性である。単一RLタスク学習設定に適用されるか、又は報酬がバイナリ又は豊富であることを必要とするか、又はゴールのパラメータ化された指定として提供される従来のERアルゴリズムとは異なり、TaPERは、このような制約を提示せず、任意の報酬及びタスク指定をサポートする。
TaPERは、マルチタスクRLにとって望ましいいくつかの特性を満たす。例えば、TaPERは、全てのタスクに関する性能を同時に向上させる。この特性は、タスクネットワーク間でパラメータを共有する時に望ましい。TaPERは、一方のタスクに対して優先順位付けされるデータを他方のタスクと共有することによって、タスク間の転移学習をサポートする。TaPERを備えるエージェントは、一様経験再生と比較して、早期の成功にわたってブートストラップすることによって、タスク方策を迅速に学習する。最後に、TaPERは、確率的優先順位付け方法を使用し、これは、特に少数の経験しか収集されていない早期に、過剰適合に抵抗するのを助ける。
以下に更に詳細に説明するように、本発明の実施形態は、一般に、タスク優先順位付き経験再生アルゴリズムを使用する優先順位付きオフポリシーRLのシステム及びコンピュータ化された方法に関する。システム及びコンピュータ化された方法は、オフポリシーで複数のRLタスクの同時学習を可能にすること、タスクの達成をもたらした固定長エピソードの一部であったサンプルに優先順位付けすること、エージェントが早期の成功にわたってブートストラップすることによってタスク方策を迅速に学習できるようにすること、及び全てのタスクに関する性能を同時に向上させることによって、コンピュータシステムの効率及び精度の技術的向上を提供する。
本明細書では、以下の表記法を参照しながら、マルチタスクRL設定の文脈におけるTaPERのアルゴリズム的実装を説明する。
nは、学習するために利用可能なタスクの数である。
tは、時間tにおける環境状態の観察である。
tは、時間tにおいて環境内で実行することができる行動選択である。
πb(st)は、観察stのためのエージェントの挙動方策の行動確率分布パラメータである。任意の時間tにおいて、エージェントは、πb(st)からサンプリングされる行動atを実行する。
Figure 2023542654000007
は、報酬ベクトル
Figure 2023542654000008
であり、ここで、各成分
Figure 2023542654000009
は、i番目のタスクにおいてエージェントによって受け取られるスカラー報酬信号である。
Figure 2023542654000010
は、所与の観察stのためのバイナリ値0又は1を戻す各タスクjに対する終了関数である。βjが1を戻した場合、タスクは終了しており、そうでない場合には、0を戻す。
Figure 2023542654000011
は、全てのタスクに対するバイナリ終了ベクトルを示す。タスクの終了値は、エージェントの挙動方策πb(st)に影響を及ぼさない場合がある。
遷移は、タプル
Figure 2023542654000012
を意味する。
エピソード:T個の遷移のシーケンスであり、ここで、Tは固定された整数である。
Figure 2023542654000013
は、全ての観察された遷移を記憶するメインバッファである。
Figure 2023542654000014
は、進行中のエピソード中に観察される遷移の指標を記憶するエピソードバッファである。
達成されるタスクは、エピソードの文脈内で、条件
Figure 2023542654000015
が成立する場合に達成されたと見なされるタスク-jを意味する。
Figure 2023542654000016
は、i番目のエピソード中にタスク-jの達成をもたらした遷移指標のセットを示す。
Figure 2023542654000017
は、全てのタスクにわたる和集合(the union over all tasks)を示し、
Figure 2023542654000018
は、全てのタスク及びエピソードにわたる和集合(the union over all tasks and episodes)を示す。
| X |は、バッファXに記憶されるサンプルの数を示す。例えば、
Figure 2023542654000019
は、メインバッファに記憶される遷移の数を示す。
iは、メインバッファに記憶される指標iを含む遷移の優先度値である。
P(i)は、メインバッファからの指標iを含む遷移をサンプリングする確率である。
Figure 2023542654000020
は、遷移指標にわたって定義される確率分布Pを含むDからサンプリングされる遷移のミニバッチBを示す。
πi(st)は、観察stのための更新タスク-iの方策の行動確率分布パラメータである。πiは、学習された時に、タスクを最適に解決する。
Figure 2023542654000021
は、タスク方策πiネットワークを最適化するオフポリシーRLアルゴリズムである。
TaPERは、環境について以下の仮定を行う。
エージェントは、個別の時間ステップにおいて環境と対話する。
t = 0から開始して、エージェントには、解決すべきn個のタスクが提示される。エージェントは、数nを知るが、タスク記述を知らない。
任意の所与の時間tにおいて、エージェントは、全てのタスクに対する報酬信号を観察することができる。すなわち、エージェントは、
Figure 2023542654000022
の値を知る。
任意の所与の時間t及び対応する観察stにおいて、エージェントは、全てのタスクに対する終了値β(st)を観察することができる。すなわち、エージェントは、
Figure 2023542654000023
の値を知る。
エージェントの挙動方策πbは、エージェントが少なくとも1回各タスクの終了状態に達するのに十分に探究的(exploratory)である必要がある。
図1を参照すると、マルチタスクRL設定において学習するためにTaPERを使用するエージェント10の概要が示されている。図1に、エージェント10と環境12との間の高レベルの制御フローを示す。環境12は、エージェントに未知である、n個のタスク記述、すなわち、タスク-1 14~タスク-n 16を含むことができる。任意の時間tにおいて、かつ観察された環境状態stでは、エージェント10は、行動atを実行することができ、次の環境状態st+1を観察する。エージェント10は、全てのタスクからスカラー報酬
Figure 2023542654000024
及びバイナリ終了値
Figure 2023542654000025
を受け取ることもできる。遷移タプル
Figure 2023542654000026
及び終了ベクトル
Figure 2023542654000027
を使用して、エージェント10の内部を更新する。この制御ループ18は、無期限に又は全てのタスクが解決されていると見なされるまで継続することができる。
エージェントの制御ループ18は、(a)エピソディック(episodic)なもの又は(b)連続的なものとして大まかに分類することができる。エピソディック(episodic)な場合、各エピソードの終わりに、エージェントの状態が初期状態(最後に観察された状態とは異なり得る)にリセットされる。この場合のエピソードは、非重複遷移を有する。一方で、連続的な場合では、エージェントは、リセットすることなく行動を実行し続ける。この場合は、エージェントの初期状態が最後に観察された状態である、エピソディック(episodic)な場合の特別な場合として取り扱うことができる。連続的なループにおけるエピソードは、T-1個の重複遷移の移動ウィンドウであると見なされる。
エージェントは、図2では時計回りに示し、以下のように要約される4つの動作ブロックを含むことができる。すなわち、(1)行動をサンプリングするブロック20は、観察stのための挙動方策πbからサンプリングされる行動atを戻すことができる。(2)遷移を記憶するブロック22は、メインバッファ
Figure 2023542654000028
に新たな遷移を記憶することができる。(3)優先度を更新してミニバッチ(B)をサンプリングするブロック24は、遷移優先度を更新し、遷移のミニバッチBをサンプリングすることができる。(4)タスク方策を最適化するブロック26は、オフポリシーアルゴリズム
Figure 2023542654000029
及びミニバッチBを使用してタスク方策の最適化ステップを実行することができる。
行動のサンプリング
行動をサンプリングするブロック20に関して、エージェント10は、時間ステップ毎に行動をサンプリングして実行するために使用する探究的な(exploratory)挙動方策πbを有する。挙動方策は、タスク方策πi
Figure 2023542654000030
から独立したものとすることができる。挙動方策のためのデフォルト選択は、一様ランダム方策である。しかしながら、複雑な環境では、一様ランダム方策は、効果的に探究する(explore)のに十分ではない場合がある。他の選択は、初見の(unseen)領域、人間が設計した方策などのための楽観的バイアスを使用することを含む。
遷移の記憶
遷移を記憶するブロック22に関して、挙動方策からサンプリングされる行動を使用して、新たな遷移
Figure 2023542654000031
を構築して、メインバッファ
Figure 2023542654000032
に記憶することができる。メインバッファは、サイズで分類されていない(unsized)キューコンテナ、又はメモリ制約がある場合は有限サイズの先入れ先出しキューを使用して、実装することができる。TaPERアルゴリズムは、メインバッファのメモリ設計選択に対して不可知(agnostic)である。アルゴリズムは、適時に遷移に指標付けして順序付けするだけでよく、この場合、新たな遷移は、それに関連付けられる(今のところ)最も高い指標を有する。
優先度の更新及びミニバッチのサンプリング
優先度を更新してミニバッチをサンプリングするブロック24に関して、このブロック24は、2つのサブパート(subparts)、すなわち、(a)遷移優先度の更新及び(b)ミニバッチのサンプリングを有する。
(a)遷移優先度の更新
遷移優先度を更新するサブパートに関して、以下に、遷移優先度がどのように計算されるかについて詳述する。iは、i番目のエピソードのためのエピソードバッファ
Figure 2023542654000033
を示すものとする。i番目のエピソード中にタスク-jの達成をもたらした遷移指標のセットは、式(1)によって与えられ、
Figure 2023542654000034
ここで、
Figure 2023542654000035
は、エピソードの開始からt個の時間ステップまでの遷移指標のセットを示す。
Figure 2023542654000036
は、式(2)のように、全てのタスク及び観察されたエピソードにわたる和集合(the union over all tasks and observed episodes)である。
Figure 2023542654000037
TaPERの1つの焦点は、
Figure 2023542654000038
に属する遷移が、
Figure 2023542654000039
に含まれない遷移よりも優先されることである。2つの変形例が、各遷移に対して優先度値を設定すると考えられる。第1の変形例は、式(3)のように、
Figure 2023542654000040
に属する全ての遷移に定数の優先度値を設定する。
Figure 2023542654000041
Figure 2023542654000042
に含まれない遷移に対する小さい非ゼロの優先度値
Figure 2023542654000043
は、完全にサンプリングすることから遷移を除外しない。
優先順位付けの第2の変形例も考えられる。この場合、式(4)のように、遷移の時間的差分誤差δの大きさを使用して、
Figure 2023542654000044
に含まれるサンプル間も優先順位付けする。
Figure 2023542654000045
時間的差分誤差δは、RLアルゴリズムの学習進行のための合理的な代用である。例えば、標準的なQ学習アルゴリズムでは、δは、r+Q(st+1, arg maxa Q(st+1, a)) - Q(st, at)によって与えられる。したがって、優先度値としてδの大きさを使用することによって、学習の速度を上げるのに有用な遷移は、そうでない遷移よりも優先される。
Figure 2023542654000046
を追加して、優先度
Figure 2023542654000047
が非ゼロであることを確実にする。
両方の変形例の間にトレードオフが存在する。第2の変形例は、より速い学習進行をもたらす遷移に焦点を当てることによって、潜在的に学習の速度を上げることができるので、よりアピールするように思われる。しかしながら、第2の変形例は計算上高価である。というのは、δは時間と共に変化するので、各最適化ステップの後に、優先度を絶えず更新する必要があるからである。これは、バッファがクラウドに遠隔的に記憶される場合、ネットワークレイテンシに影響を及ぼす可能性もある。第1の変形例では、優先度は1回しか設定されないので、計算は問題ではない。ネットワーク及び計算バジェットに応じて、変形例を選択することは、TaPERアルゴリズムの設計選択である。以下の説明は、第1の変形例の使用に依拠する。
(b)ミニバッチのサンプリング
設定された優先度を用いて、次に、遷移のミニバッチをサンプリングして、タスクネットワークを更新することができる。特に、セット
Figure 2023542654000048
のサイズが小さい時に、ミニバッチをサンプリングするために優先度値を使用するだけでは、小さいセット
Figure 2023542654000049
(過剰適合)にわたる方策の時期尚早の(premature)収束を招く可能性がある。これらの問題に対処するために、式(5)のように、貪欲な(greedy)優先順位付けと一様ランダムサンプリングとの間を補間する確率的優先順位付け手法を使用することができ、
Figure 2023542654000050
ここで、
Figure 2023542654000051
は、優先順位付けをどの程度使用すべきかを決定する。piは非ゼロであるので、全ての遷移は、選択される確率が非ゼロである。α=0を設定することによって、TaPERは、一様サンプリングERに縮小する。始めに0により近くαを設定して、時間と共にその値を1に増分することが望ましい。これは、TaPERに、早い時期に大抵は一様ERのように振る舞わせて、TaPERが、小さい
Figure 2023542654000052
において参照される遷移にわたって過剰適合を回避するようにする。遷移確率を使用して、
Figure 2023542654000053
から遷移のミニバッチBをサンプリングして、タスク方策を最適化する。
タスク方策の最適化
サンプリングされた遷移のミニバッチBを使用して、オフポリシーアルゴリズム
Figure 2023542654000054
を使用してタスク方策ネットワークを更新する。時間的差分(TD)誤差の優先順位付けの変形例(上記の式(4))の場合、
Figure 2023542654000055
によって計算されるTD誤差を使用して、Bにおける遷移に対する優先度を更新する。TaPERは、アルゴリズム
Figure 2023542654000056
の選択に対して不可知(agnostic)である。
以下のアルゴリズム1は、マルチタスクRL設定の文脈において、形式的に、エピソディック(episodic)TaPERアルゴリズムを記述する。連続的な場合では、各エピソードの終わりのハードリセットの代わりに、バッファ
Figure 2023542654000057
を、サイズTの移動ウィンドウとして実装する。

Figure 2023542654000058
上記のように、タスク優先順位付き経験再生(TaPER)アルゴリズムは、オフポリシーで複数のRLタスクの同時学習を可能にする。アルゴリズムは、タスクの達成をもたらした固定長エピソードの一部であったサンプルに優先順位付けする。これは、エージェントが早期の成功にわたってブートストラップすることによってタスク方策を迅速に学習できるようにする。最後に、TaPERアルゴリズムは、全てのタスクに関する性能を同時に向上させ、これは、マルチタスクRLにとって望ましい特性である。
当業者であれば、本発明の趣旨及び範囲から逸脱することなく多くの変更及び修正を行うことができる。したがって、図示の実施形態はほんの一例として示したものであり、以下の特許請求の範囲によって定められる本発明を限定するものとして解釈すべきではないと理解されたい。例えば、以下では請求項の要素を特定の組み合わせで示しているが、本発明は、開示する要素よりも少ない、多い、又はこれらと異なる要素の他の組み合わせを含むと明確に理解されたい。
本明細書において本発明及びその様々な実施形態を説明するために使用される単語は、その一般に定義される意味合いだけでなく、本明細書における特別な定義によって、これらが単一種を表す包括的構造、材料又は行為も含むと理解されたい。
したがって、本明細書では、以下の特許請求の範囲の単語又は要素の定義が、文言として明記された要素の組み合わせしか含まないわけではないように定められる。したがって、この意味では、以下の特許請求の範囲内の要素のうちのいずれか1つに代えて2又は3以上の要素の同等の代用物を使用し、或いは請求項の2又は3以上の要素に代えて単一の要素を使用することもできると考えられる。上記では、要素を特定の組み合わせで機能するように説明し、当初はこのように特許請求することもあるが、場合によっては、特許請求する組み合わせから生じる1又は2以上の要素をこれらの組み合わせから削除することもでき、特許請求する組み合わせを下位の組み合わせ又は下位の組み合わせの変形例に向けることもできると明確に理解されたい。
したがって、特許請求の範囲は、上記で具体的に図示し説明したもの、概念的に同等のもの、明らかに代用できるもの、及び本発明の基本的発想を組み込んだものを含むと理解されたい。
10 エージェント
12 環境
14 タスク-1
16 タスク-n
18 制御ループ
20 行動をサンプリング
22 遷移を記憶
24 優先度を更新してミニバッチをサンプリング
26 タスク方策を最適化

Claims (20)

  1. 制御ループにおいてエージェントを訓練する方法であって、
    前記エージェントによって、観察(st)のための挙動方策(πb)からサンプリングされる行動(at)を実行するステップと、
    メインバッファに遷移タプルを記憶するステップであって、前記遷移タプルは、
    Figure 2023542654000059
    を含み、ここで、
    Figure 2023542654000060
    は、環境内の各タスクに対する報酬ベクトルであり、st+1は、行動(at)後の次の環境状態である、ステップと、
    前記メインバッファに記憶される各遷移タプルに対して遷移優先度を更新するステップと、
    遷移タプルのミニバッチをサンプリングして、タスクネットワークを更新するステップと、
    オフポリシーアルゴリズムを用いて、前記更新されたタスクネットワークからタスク方策を最適化するステップと、
    を含むことを特徴とする方法。
  2. 前記環境内の前記タスクの全てが解決されるまで、前記制御ループを継続するステップを更に含むことを特徴とする、請求項1に記載の方法。
  3. 前記環境内の前記タスクは、前記エージェントに未知であることを特徴とする、請求項1に記載の方法。
  4. 前記制御ループはエピソディック(episodic)であり、各エピソードの後に、前記エージェントの状態が初期状態にリセットされることを特徴とする、請求項1に記載の方法。
  5. 前記制御ループは連続的であり、ここで、前記エージェントは、前記エージェントの状態をリセットすることなく行動を実行することを特徴とする、請求項1に記載の方法。
  6. 前記挙動方策は、一様ランダム方策であることを特徴とする、請求項1に記載の方法。
  7. 前記挙動方策は、初見の(unseen)領域又は人間が設計した方策のための楽観的バイアスを使用して方策から選択されることを特徴とする、請求項1に記載の方法。
  8. i番目のエピソード中にタスク-jの達成をもたらす遷移指標のセットが、次式によって与えられ、
    Figure 2023542654000061
    ここで、
    Figure 2023542654000062
    は、前記エピソードの開始からt個の時間ステップまでの遷移指標のセットを示し、
    Figure 2023542654000063
    は、全てのタスク及び観察されたエピソードにわたる和集合(the union over all tasks and observed episodes)であることを特徴とする、請求項1に記載の方法。
  9. Figure 2023542654000064
    に属する遷移は、
    Figure 2023542654000065
    に含まれない遷移よりも高い優先度が与えられることを特徴とする、請求項8に記載の方法。
  10. Figure 2023542654000066
    に属する前記遷移に対する優先度値は、定数値が与えられることを特徴とする、請求項9に記載の方法。
  11. Figure 2023542654000067
    に含まれない遷移は、非ゼロの優先度値が与えられることを特徴とする、請求項10に記載の方法。
  12. Figure 2023542654000068
    に属する前記遷移に対する優先度値は、各遷移の時間的差分誤差の大きさに基づいて、変数値が与えられることを特徴とする、請求項9に記載の方法。
  13. 前記ミニバッチの前記サンプリングは、次式に従って、貪欲な(greedy)優先順位付けと一様ランダムサンプリングとの間を補間する確率的優先順位付け手法を使用して実行され、
    Figure 2023542654000069
    ここで、P(i)は、前記メインバッファからのiの指標を含む遷移をサンプリングする確率であり、piは、前記メインバッファからのiの指標を含む遷移の優先度値であり、
    Figure 2023542654000070
    は、優先順位付けをどの程度使用すべきかを決定することを特徴とする、請求項1に記載の方法。
  14. 前記タスク方策を最適化するステップは、前記オフポリシーアルゴリズムの選択に対して不可知(agnostic)であることを特徴とする、請求項1に記載の方法。
  15. エージェントを訓練する方法であって、
    前記エージェントによって、観察(st)のための挙動方策(πb)からサンプリングされる行動(at)を実行するステップと、
    メインバッファに遷移タプルを記憶するステップであって、前記遷移タプルは、
    Figure 2023542654000071
    を含み、ここで、
    Figure 2023542654000072
    は、環境内の各タスクに対する報酬ベクトルであり、st+1は、行動(at)後の次の環境状態である、ステップと、
    前記メインバッファに記憶される各遷移タプルに対して遷移優先度を更新するステップと、
    遷移タプルのミニバッチをサンプリングして、タスクネットワークを更新するステップと、
    オフポリシーアルゴリズムを用いて、前記更新されたタスクネットワークからタスク方策を最適化するステップと、
    を含み、
    i番目のエピソード中にタスク-jの達成をもたらす遷移指標のセットに属する遷移は、前記i番目のエピソード中にタスク-jの達成をもたらさない遷移よりも高い優先度が与えられる、
    ことを特徴とする方法。
  16. 前記i番目のエピソード中に前記タスク-jの達成をもたらす前記遷移指標のセットは、次式によって与えられ、
    Figure 2023542654000073
    ここで、
    Figure 2023542654000074
    は、前記エピソードの開始からt個の時間ステップまでの遷移指標のセットを示し、
    Figure 2023542654000075
    は、全てのタスク及び観察されたエピソードにわたる和集合(the union over all tasks and observed episodes)であることを特徴とする、請求項15に記載の方法。
  17. 前記i番目のエピソード中にタスク-jの達成をもたらす前記遷移指標のセットに属する前記遷移に対する優先度値は、定数値が与えられ、前記i番目のエピソード中にタスク-jの達成をもたらす前記遷移指標のセットに含まれない遷移は、非ゼロの優先度値が与えられることを特徴とする、請求項15に記載の方法。
  18. 前記i番目のエピソード中にタスク-jの達成をもたらす前記遷移指標のセットに属する前記遷移に対する優先度値は、各遷移の時間的差分誤差の大きさに基づいて、変数値が与えられることを特徴とする、請求項15に記載の方法。
  19. 実行可能プログラムを記憶した非一時的コンピュータ可読記憶媒体であって、前記プログラムは、
    前記エージェントによって、観察(st)のための挙動方策(πb)からサンプリングされる行動(at)を実行するステップと、
    メインバッファに遷移タプルを記憶するステップであって、前記遷移タプルは、
    Figure 2023542654000076
    を含み、ここで、
    Figure 2023542654000077
    は、環境内の各タスクに対する報酬ベクトルであり、st+1は、行動(at)後の次の環境状態である、ステップと、
    前記メインバッファに記憶される各遷移タプルに対して遷移優先度を更新するステップと、
    遷移タプルのミニバッチをサンプリングして、タスクネットワークを更新するステップと、
    オフポリシーアルゴリズムを用いて、前記更新されたタスクネットワークからタスク方策を最適化するステップと、
    を実行するように1又は2以上のプロセッサに命令し、
    i番目のエピソード中にタスク-jの達成をもたらす遷移指標のセットに属する遷移は、前記i番目のエピソード中にタスク-jの達成をもたらさない遷移よりも高い優先度が与えられる、
    ことを特徴とする非一時的コンピュータ可読記憶媒体。
  20. (a)前記i番目のエピソード中にタスク-jの達成をもたらす前記遷移指標のセットに属する前記遷移に対する優先度値は、定数値が与えられ、前記i番目のエピソード中にタスク-jの達成をもたらす前記遷移指標のセットに含まれない遷移は、非ゼロの優先度値が与えられるか、又は(b)前記i番目のエピソード中にタスク-jの達成をもたらす前記遷移指標のセットに属する前記遷移に対する前記優先度値は、各遷移の時間的差分誤差の大きさに基づいて、変数値が与えられることを特徴とする、請求項19に記載の非一時的コンピュータ可読記憶媒体。
JP2023516611A 2020-09-29 2021-06-03 強化学習のためのタスク優先順位付き経験再生アルゴリズム Pending JP2023542654A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/036,913 2020-09-29
US17/036,913 US20220101064A1 (en) 2020-09-29 2020-09-29 Task prioritized experience replay algorithm for reinforcement learning
PCT/US2021/070658 WO2022072955A1 (en) 2020-09-29 2021-06-03 Task prioritized experience replay algorithm for reinforcement learning

Publications (1)

Publication Number Publication Date
JP2023542654A true JP2023542654A (ja) 2023-10-11

Family

ID=80822001

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023516611A Pending JP2023542654A (ja) 2020-09-29 2021-06-03 強化学習のためのタスク優先順位付き経験再生アルゴリズム

Country Status (5)

Country Link
US (1) US20220101064A1 (ja)
EP (1) EP4196922A4 (ja)
JP (1) JP2023542654A (ja)
CN (1) CN115039111A (ja)
WO (1) WO2022072955A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220105626A1 (en) * 2020-10-05 2022-04-07 Autodesk, Inc. Techniques for force and torque-guided robotic assembly

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9679258B2 (en) * 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning
WO2017019555A1 (en) * 2015-07-24 2017-02-02 Google Inc. Continuous control with deep reinforcement learning
US10839302B2 (en) * 2015-11-24 2020-11-17 The Research Foundation For The State University Of New York Approximate value iteration with complex returns by bounding
US10977551B2 (en) * 2016-12-14 2021-04-13 Microsoft Technology Licensing, Llc Hybrid reward architecture for reinforcement learning
EP3467717A1 (en) * 2017-10-04 2019-04-10 Prowler.io Limited Machine learning system

Also Published As

Publication number Publication date
EP4196922A4 (en) 2024-01-31
CN115039111A (zh) 2022-09-09
WO2022072955A1 (en) 2022-04-07
EP4196922A1 (en) 2023-06-21
US20220101064A1 (en) 2022-03-31

Similar Documents

Publication Publication Date Title
US11651208B2 (en) Training action selection neural networks using a differentiable credit function
KR102596158B1 (ko) 이중 액터 크리틱 알고리즘을 통한 강화 학습
CN110832509B (zh) 使用神经网络的黑盒优化
EP4010847A1 (en) Training action selection neural networks using hindsight modelling
CN110447041B (zh) 噪声神经网络层
US20240123617A1 (en) Robot movement apparatus and related methods
CN113168566A (zh) 通过使用熵约束来控制机器人
KR20220130177A (ko) 학습된 은닉 상태를 사용한 에이전트 제어 플래닝
CN112930541A (zh) 通过最小化妄想影响来确定控制策略
JP2023542654A (ja) 強化学習のためのタスク優先順位付き経験再生アルゴリズム
WO2022046197A1 (en) Training actor-critic algorithms in laboratory settings
Zhang et al. A deep reinforcement learning-based optimization method for vibration suppression of articulated robots
CN115293623A (zh) 一种生产调度模型的训练方法、装置、电子设备及介质
EP4035079A1 (en) Upside-down reinforcement learning
CN111460732B (zh) 一种平面电机非线性模型的构建方法
Chen et al. Deep Recurrent Policy Networks for Planning Under Partial Observability
US20230281277A1 (en) Remote agent implementation of reinforcement learning policies
Hsu et al. Hermite broad-learning recurrent neural control with adaptive learning rate for nonlinear systems
Wang et al. Density estimation based soft actor-critic: deep reinforcement learning for static output feedback control with measurement noise
Bechtold et al. Evaluation of Reinforcement Learning Methods for a Self-learning System.
Škraba et al. Application of finite automata with genetic algorithms in JavaScript for determination of manpower system control
Oh et al. Applying Multi-agent Reinforcement Learning and Graph Neural Networks to Flexible Job Shop Scheduling Problem
Chen et al. Reinforcement Learning for Mobile Robot Obstacle Avoidance with Deep Deterministic Policy Gradient
CN117252691A (zh) 基于多端时序模型的时域自适应股价预测方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230313

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240415