JP2023542654A

JP2023542654A - 強化学習のためのタスク優先順位付き経験再生アルゴリズム

Info

Publication number: JP2023542654A
Application number: JP2023516611A
Authority: JP
Inventors: ヴァルンコンペラ; ジェームズマクラシャン; ピーターワーマン; ピーターストーン
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2020-09-29
Filing date: 2021-06-03
Publication date: 2023-10-11
Also published as: EP4196922A4; CN115039111A; WO2022072955A1; EP4196922A1; US20220101064A1

Abstract

タスク優先順位付き経験再生（ＴａＰＥＲ）アルゴリズムは、オフポリシーで複数のＲＬタスクの同時学習を可能にする。アルゴリズムは、タスクの達成をもたらした固定長エピソードの一部であったサンプルに優先順位付けすることができる。これは、エージェントが早期の成功にわたってブートストラップすることによってタスク方策を迅速に学習できるようにする。最後に、ＴａＰＥＲは、全てのタスクに関する性能を同時に向上させることができ、これは、マルチタスクＲＬにとって望ましい特性である。単一ＲＬタスク学習設定に適用されるか、又は報酬がバイナリ又は豊富であることを必要とするか、又はゴールのパラメータ化された指定として提供される従来のＥＲアルゴリズムとは異なり、ＴａＰＥＲは、このような制約を提示せず、任意の報酬及びタスク指定をサポートする。

Description

本発明の実施形態は、一般に、強化学習方法に関する。具体的には、本発明は、オフポリシーで複数の強化学習タスクの同時学習を可能にするタスク優先順位付き経験再生アルゴリズムを使用してエージェントを訓練するためのシステム及び方法に関する。

以下の背景情報は、先行技術の特定の態様（例えば、限定ではなく、手法、事実又は通念）の例を提示することができ、これらの例は先行技術の更なる態様を読者に更に伝えるのに役立つと期待されるが、本発明又はそのいずれかの実施形態をこれらの中で言及又は暗示される、或いはそれについて推測されるいずれかの事項に限定するものとして解釈すべきではない。

強化学習（ＲＬ）は、システムのダイナミクスが未知であり、対話及び観察を通じてエージェントによって学習されなければならない時に、人工エージェントがそのシステム（又は「環境」）の制御を最適化する問題（及び解決策）のクラスを示す。強化学習システムは、４つの主要な要素、すなわち、エージェント、方策、報酬及び価値関数を含むことができる。任意の時点でのエージェントの挙動は、方策に関して定義される。

方策π（ａ，ｓ）は、行動ａと状態ｓとの間の確率的マッピングである。全ての方策が最適であるとは限らないので、方策を改善するための方法が開発される。このような方法は、オンポリシーの方法又はオフポリシーの方法のいずれかに分類される。オンポリシーの方法は、決定を行うために使用される同じ方策を評価又は改善しようと試みる。他方で、オフポリシーの方法は、データを生成するために使用されたものとは異なる方策を評価又は改善する。オフポリシー強化学習は、異なる挙動方策から収集される経験からタスクを解決するために方策を学習することを可能にする。

経験再生（ＥＲ）アルゴリズムは、勾配ベースのディープＲＬアーキテクチャの訓練において重要な役割を果たす。これらのアーキテクチャをオンラインで訓練することは、多くの場合、入力が繰り返され時間的に無相関である必要がある。ＥＲアルゴリズムは、バッファを使用して経験を記憶し、独立的かつ等しく分散的に経験からサンプリングすることによって、これらの問題に効率的に対処する。ＥＲアルゴリズムは、２つのサブクラス、すなわち、経験を一様にサンプリングするものと、より高い優先度を有する特定の経験をサンプリングするものと、に更に分類することができる。

従来のＥＲアルゴリズムは、大抵は、単一ＲＬタスク学習設定に適用された。マルチタスク設定において適用された少数は、報酬がバイナリ又は豊富であることを必要とする。これらのうちのいくつかは、また、ゴールのパラメータ化された指定を必要とする。

上記に鑑みて、オフポリシー強化学習を改善するシステム及び方法が必要とされている。

本発明の実施形態は、制御ループにおいてエージェントを訓練する方法であって、前記エージェントによって、観察（ｓ_t）のための挙動方策（π^b）からサンプリングされる行動（ａ_t）を実行するステップと、メインバッファに遷移タプルを記憶するステップであって、前記遷移タプルは、

を含み、ここで、

は、環境内の各タスクに対する報酬ベクトルであり、ｓ_t+1は、行動（ａ_t）後の次の環境状態である、ステップと、前記メインバッファに記憶される各遷移タプルに対して遷移優先度を更新するステップと、遷移タプルのミニバッチをサンプリングして、タスクネットワークを更新するステップと、オフポリシーアルゴリズムを用いて、前記更新されたタスクネットワークからタスク方策を最適化するステップと、を含む方法を提供する。

いくつかの実施形態では、前記環境内の前記タスクは、前記エージェントに未知である。

いくつかの実施形態では、前記制御ループはエピソディック（ｅｐｉｓｏｄｉｃ）であり、各エピソードの後に、前記エージェントの状態が初期状態にリセットされる。

いくつかの実施形態では、前記制御ループは連続的であり、ここで、前記エージェントは、前記エージェントの状態をリセットすることなく行動を実行する。

本発明の実施形態は、エージェントを訓練する方法であって、前記エージェントによって、観察（ｓ_t）のための挙動方策（π^b）からサンプリングされる行動（ａ_t）を実行するステップと、メインバッファに遷移タプルを記憶するステップであって、前記遷移タプルは、

を含み、ここで、

は、環境内の各タスクに対する報酬ベクトルであり、ｓ_t+1は、行動（ａ_t）後の次の環境状態である、ステップと、前記メインバッファに記憶される各遷移タプルに対して遷移優先度を更新するステップと、遷移タプルのミニバッチをサンプリングして、タスクネットワークを更新するステップと、オフポリシーアルゴリズムを用いて、前記更新されたタスクネットワークからタスク方策を最適化するステップと、を含み、ｉ番目のエピソード中にタスク－ｊの達成をもたらす遷移指標のセットに属する遷移は、前記ｉ番目のエピソード中にタスク－ｊの達成をもたらさない遷移よりも高い優先度が与えられる、方法を更に提供する。

本発明の実施形態は、また、実行可能プログラムを記憶した非一時的コンピュータ可読記憶媒体であって、前記プログラムは、前記エージェントによって、観察（ｓ_t）のための挙動方策（π^b）からサンプリングされる行動（ａ_t）を実行するステップと、メインバッファに遷移タプルを記憶するステップであって、前記遷移タプルは、

を含み、ここで、

は、環境内の各タスクに対する報酬ベクトルであり、ｓ_t+1は、行動（ａ_t）後の次の環境状態である、ステップと、前記メインバッファに記憶される各遷移タプルに対して遷移優先度を更新するステップと、遷移タプルのミニバッチをサンプリングして、タスクネットワークを更新するステップと、オフポリシーアルゴリズムを用いて、前記更新されたタスクネットワークからタスク方策を最適化するステップと、を実行するように１又は２以上のプロセッサに命令し、ｉ番目のエピソード中にタスク－ｊの達成をもたらす遷移指標のセットに属する遷移は、前記ｉ番目のエピソード中にタスク－ｊの達成をもたらさない遷移よりも高い優先度が与えられる、非一時的コンピュータ可読記憶媒体を提供する。

本発明のこれらの及びその他の特徴、態様及び利点は、以下の図面、説明及び特許請求の範囲を参照することでより良く理解されるであろう。

同じ参照記号が同様の要素を示すことができる添付図面の図によって、本発明のいくつかの実施形態を限定ではなく一例として示す。

本発明の例示的な実施形態による、環境とＴａＰＥＲを備えるエージェントとの間の制御フロー図である。本発明の例示的な実施形態による、ＴａＰＥＲを使用するオフポリシー強化エージェントの内部を示す図である。

別途指示していない限り、図のイラストは必ずしも縮尺通りではない。

図示の実施形態について説明する以下の詳細な説明を参照することによって、本発明及びその様々な実施形態をより良く理解することができる。図示の実施形態は一例として示すものであり、最終的に特許請求の範囲に定める本発明を限定するものではないと明確に理解されたい。

本明細書で使用する用語は、特定の実施形態を説明するためのものにすぎず、本発明を限定するように意図するものではない。本明細書で使用する「及び／又は」という用語は、関連する記載項目のうちの１つ又は２つ以上のありとあらゆる組み合わせを含む。本明細書で使用する単数形の「ａ、ａｎ（英文不定冠詞）」及び「ｔｈｅ（英文定冠詞）」は、その文脈で別途明確に示していない限り、単数形に加えて複数形も含むように意図される。更に、「含む、備える（ｃｏｍｐｒｉｓｅｓ及び／又はｃｏｍｐｒｉｓｉｎｇ）」という用語は、本明細書で使用する場合、言及する特徴、ステップ、動作、要素及び／又はコンポーネントの存在を示すものであるが、１又は２以上の他の特徴、ステップ、動作、要素、コンポーネント、及び／又はこれらの群の存在又は追加を除外するものではないと理解されたい。

特に定めがない限り、本明細書で使用する（技術用語及び科学用語を含む）全ての用語は、本発明が属する技術の当業者が一般に理解している意味と同じ意味を有する。更に、一般に使用される辞書に定義されているような用語については、関連技術及び本開示の文脈におけるこれらの意味に従う意味を有すると解釈すべきであり、本明細書で明確に定義していない限り、理想的な又は過度に形式的な意味で解釈されるものではないと理解されるであろう。

本発明の説明では、複数の技術及びステップが開示されていると理解されるであろう。これらはそれぞれ個々の利益を有し、それぞれ開示する他の技術の１つ又は２つ以上、又は場合によっては全てと共に使用することもできる。したがって、明確にするために、本説明では個々のステップの全ての可能な組み合わせを不必要に繰り返さないようにする。しかしながら、本明細書及び特許請求の範囲については、このような組み合わせも本発明の範囲及び特許請求の範囲に完全に含まれるという理解の下で読むべきである。

以下の説明では、説明の目的で、本発明の完全な理解をもたらすために数多くの具体的な詳細を示す。しかしながら、当業者には、これらの具体的な詳細を伴わずとも本発明を実施できることが明らかであろう。

本開示は本発明の例示として見なすべきであり、以下の図又は説明によって示す具体的な実施形態に本発明を限定するように意図するものではない。

少なくとも互いに一般通信を行う装置又はシステムモジュールは、別途明示していない限り、互いに連続的に通信する必要はない。また、少なくとも互いに一般通信を行う装置又はシステムモジュールは、直接的に、或いは１又は２以上の仲介装置を通じて間接的に通信することができる。

互いに通信する複数のコンポーネントを含む実施形態の説明は、このようなコンポーネントが全て必要であることを意味するものではない。むしろ、本発明の幅広い可能な実施形態を示すために様々な任意のコンポーネントについて説明する。

「コンピュータ」又は「コンピュータ装置」は、構造化された入力を受け入れ、構造化された入力を規定のルールに従って処理し、処理の結果を出力として生成することができる１又は２以上の装置及び／又は１又は２以上のシステムを意味することができる。コンピュータ又はコンピュータ装置の例としては、コンピュータ、固定及び／又はポータブルコンピュータ、単一のプロセッサ、複数のプロセッサ、又は並行して及び／又は並行しないで動作できるマルチコアプロセッサを有するコンピュータ、スーパーコンピュータ、メインフレーム、スーパーミニコンピュータ、ミニコンピュータ、ワークステーション、マイクロコンピュータ、サーバ、クライアント、双方向テレビ、ウェブアプライアンス、インターネットアクセスを有する通信装置、コンピュータと双方向テレビとのハイブリッド結合、ポータブルコンピュータ、タブレットパーソナルコンピュータ（ＰＣ）、携帯情報端末（ＰＤＡ）、携帯電話機、例えばデジタルシグナルプロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け命令セットプロセッサ（ＡＳＩＰ）、チップ、複数のチップ、システムオンチップ又はチップセットなどの、コンピュータ及び／又はソフトウェアをエミュレートする特定用途向けハードウェア、データ収集装置、光コンピュータ、量子コンピュータ、バイオコンピュータ、及び一般にデータを受け入れ、１又は２以上の記憶されたソフトウェアプログラムに従ってデータを処理し、結果を生成し、典型的には入力装置、出力装置、記憶装置、算術演算装置、論理装置及び制御装置を含むことができる装置を挙げることができる。

「ソフトウェア」又は「アプリケーション」は、コンピュータを動作させるための規定のルールを意味することができる。ソフトウェア又はアプリケーションの例としては、１又は２以上のコンピュータ可読言語でのコードセグメント、グラフィック及び／又はテキスト命令、アプレット、プリコンパイル済みコード、解釈済みコード、コンパイル済みコード及びコンピュータプログラムを挙げることができる。

また、コンピュータ、他のプログラマブルデータ処理装置又はその他の装置に特定の形で機能するように指示することができるこれらのコンピュータプログラム命令をコンピュータ可読媒体に記憶することにより、コンピュータ可読媒体に記憶された命令が、フローチャート及び／又はブロック図の１又は複数のブロック内に指定される機能／動作を実行する命令を含む製造の物品を生み出すようにすることもできる。

更に、プロセスステップ、方法ステップ又はアルゴリズムなどは一定の順序で説明することができるが、このようなプロセス、方法及びアルゴリズムは別の順序で機能するように構成することもできる。換言すれば、説明できるステップのいずれかの順番又は順序は、これらのステップを必ずしもこの順序で実行する必要があることを示すものではない。本明細書で説明するプロセスのステップは、いずれかの実用的な順序で実行することができる。更に、いくつかのステップを同時に実行することもできる。

本明細書で説明する様々な方法及びアルゴリズムは、例えば適切にプログラムされた汎用コンピュータ及び計算装置によって実行できることが容易に明らかになるであろう。通常、プロセッサ（例えば、マイクロプロセッサ）は、メモリ又は同様の装置から命令を受け取ってこれらの命令を実行することにより、これらの命令によって定められたプロセスを実行する。更に、このような方法及びアルゴリズムを実行するプログラムは、様々な既知の媒体を用いて記憶して送信することができる。

本明細書で使用する「コンピュータ可読媒体」という用語は、コンピュータ、プロセッサ又は同様の装置が読み取ることができるデータ（例えば、命令）を提供することに関与するいずれかの媒体を意味する。このような媒体は、以下に限定するわけではないが、不揮発性媒体、揮発性媒体及び送信媒体を含む多くの形態を取ることができる。不揮発性媒体は、例えば光又は磁気ディスク及びその他の永続的メモリを含む。揮発性媒体は、典型的にはメインメモリを構成するダイナミックランダムアクセスメモリ（ＤＲＡＭ）を含む。送信媒体は、プロセッサに結合されたシステムバスを含むワイヤを含む、同軸ケーブル、銅線及び光ファイバを含む。送信媒体は、無線周波数（ＲＦ）及び赤外線（ＩＲ）データ通信中に生成されるものなどの音波、光波及び電磁放射線を含み、又はこれらを伝えることができる。一般的な形態のコンピュータ可読媒体としては、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、他のいずれかの磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤ、他のいずれかの光媒体、パンチカード、紙テープ、穴パターンを有する他のいずれかの物理的媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨＥＥＰＲＯＭ、他のいずれかのメモリーチップ又はカートリッジ、後述するような搬送波、又はコンピュータが読み取ることができる他のいずれかの媒体を挙げることができる。

一連の命令をプロセッサに搬送することには、様々な形態のコンピュータ可読媒体が関与することができる。例えば、一連の命令は、（ｉ）ＲＡＭからプロセッサに供給することができ、（ｉｉ）無線送信媒体を介して搬送することができ、及び／又は（ｉｉｉ）Ｂｌｕｅｔｏｏｔｈ、ＴＤＭＡ、ＣＤＭＡ、３Ｇなどの数多くのフォーマット、標準又はプロトコルに従ってフォーマットすることができる。

本発明の実施形態は、本明細書に開示する動作を実行する装置を含むことができる。装置は、所望の目的で特別に構成することも、又は内部に記憶されたプログラムによって選択的に作動又は再構成される汎用装置を含むこともできる。

特に別途述べていない限り、また以下の説明及び特許請求の範囲から明らかになり得るように、本明細書全体を通じて、「処理する」、「計算する」、「算出する」又は「決定する」などの用語を利用した説明は、コンピュータシステムのレジスタ及び／又はメモリ内の電子量などの物理量として表されるデータを操作し、及び／又はコンピュータシステムのメモリ、レジスタ又は他のこのような情報記憶、送信又は表示装置内の物理量として同様に表される他のデータに変形させるコンピュータ、コンピュータシステム又は同様の電子計算装置の動作及び／又はプロセスを意味すると理解されたい。

同様に、「プロセッサ」という用語は、レジスタ及び／又はメモリからの電子データを処理し、外部装置の物理的変化又は作動を引き起こすようにこの電子データをレジスタ及び／又はメモリへの記憶又は外部装置への伝達が可能な他の電子データに変換するいずれかの装置又は装置の一部を意味することができる。

「エージェント」又は「知的エージェント」又は「人工エージェント」又は「人工知能エージェント」という用語は、観察に応答して行動を選択するいずれかの人為的エンティティを意味するように意図される。「エージェント」は、ロボット、模擬ロボット、ソフトウェアエージェント又は「ボット」、適応エージェント、インターネット又はウェブボットを制限なく意味することができる。

「ロボット」という用語は、感知又は観察に応答して行動又はコマンドを発行するコンピュータ又はコンピュータシステムによって直接的又は間接的に制御されるいずれかのシステムを意味することができる。この用語は、カメラ、タッチセンサ及び距離センサなどの物理的センサを有する従来の物理的ロボット、又は仮想シミュレーション内に存在する模擬ロボット、或いはネットワーク内のソフトウェアとして存在するメールボット又はサーチボットなどの「ボット」を制限なく意味することができる。この用語は、いずれかの脚付きロボット（ｌｉｍｂｅｄｒｏｂｏｔｓ）、歩行ロボット、（以下に限定するわけではないが、組み立て、塗装、修理、メンテナンスなどの自動化のために使用されるロボットを含む）産業ロボット、車輪付きロボット、掃除又は芝刈りロボット、パーソナルアシスタントロボット、サービスロボット、医用又は外科ロボット、飛行ロボット、運転ロボット、航空機又は宇宙船ロボット、或いは車両用又はそれ以外の、実際の又は模擬の、知的家庭用又は作業用機器などの静止ロボットも含む、実質的に自律制御下で動作する他のいずれかのロボットを制限なく意味することもできる。

「観察」という用語は、エージェントがいずれかの手段によって受け取る、エージェントの環境又はエージェント自体に関するいずれかの情報を意味する。いくつかの実施形態では、この情報を、限定ではないが、カメラ、タッチセンサ、距離センサ、温度センサ、波長センサ、音響又は音声センサ、ポジションセンサ、圧力又は力センサ、速度又は加速度又はその他の動きセンサ、位置センサ（例えば、ＧＰＳ）などの知覚装置を通じて受け取られる知覚情報又は信号とすることができる。他の実施形態では、この情報が、限定ではないが、一群の知覚装置と記憶された情報とを組み合わせたものから作成された、編集された、抽象的な又は状況的な情報を含むこともできる。非限定的な例では、エージェントが、エージェント自体又は他の物体の位置又は特性に関する抽象情報を観察として受け取ることができる。いくつかの実施形態では、この情報が、人々又は顧客、或いはその購買習慣、個人連絡先情報、個人的好みなどの特性を意味することができる。いくつかの実施形態では、観察を、限定ではないが、エージェントの現在又は過去の行動に関する固有感覚情報（ｐｒｏｐｒｉｏｃｅｐｔｉｖｅｉｎｆｏｒｍａｔｉｏｎ）又はその他の情報、エージェントの内部状態に関する情報、或いはエージェントによって既に計算又は処理された情報などの、エージェントの内部に関する情報とすることができる。

「行動」という用語は、エージェントの環境、エージェントの物理的又は模擬的自己（ｐｈｙｓｉｃａｌｏｒｓｉｍｕｌａｔｅｄｓｅｌｆ）、或いはエージェントの内部機能を制御し、これらに影響し、又はこれらを左右するための、最終的にはエージェントの将来の行動、行動選択、又は行動の好みを制御し、又はこれらに影響を与えることができるエージェントのいずれかの手段を意味する。多くの実施形態では、これらの行動が、物理的又は模擬サーボ又はアクチュエータを直接制御することができる。いくつかの実施形態では、これらの行動を、エージェントの選択に影響するように最終的に意図された好み又は一連の好みの表現とすることができる。いくつかの実施形態では、エージェントの（単複の）行動に関する情報が、限定ではないが、エージェントの（単複の）行動にわたる確率分布、及び／又はエージェントの最終的な行動選択に影響するように意図された発信情報（ｏｕｔｇｏｉｎｇｉｎｆｏｒｍａｔｉｏｎ）を含むことができる。

「状態」又は「状態情報」という用語は、限定ではないが、エージェントの現在及び／又は過去の観察に関する情報を含むことができる、環境又はエージェントの状態に関するいずれかの一群の情報を意味する。

「方策」という用語は、いずれかの完全な又は部分的な状態情報からいずれかの行動情報へのいずれかの関数又はマッピングを意味する。方策は、ハードコーディングすることも、或いは限定ではないが、いずれかの強化学習法又は制御最適化法を含むいずれかの適切な学習法又は教示法を使用して修正、適合又は訓練することもできる。方策は、限定ではないが、特定の尺度、値又は関数を最適化することによって生じ得るものなどの明示的マッピング又は非明示的マッピングとすることができる。方策は、限定ではないが、どのような条件下で方策が開始又は継続できるかを反映する開始条件（又は確率）、どのような条件下で方策が終了できるかを反映する終了条件（又は確率）などの関連する更なる情報、特徴又は特性を含むことができる。

概して、本発明の実施形態は、オフポリシーで複数のＲＬタスクの同時学習を可能にするタスク優先順位付き経験再生（ＴａＰＥＲ）アルゴリズムを提供する。アルゴリズムは、タスクの達成をもたらした固定長エピソードの一部であったサンプルに優先順位付けすることができる。これは、エージェントが早期の成功にわたってブートストラップすることによってタスク方策を迅速に学習できるようにする。最後に、ＴａＰＥＲは、全てのタスクに関する性能を同時に向上させることができ、これは、マルチタスクＲＬにとって望ましい特性である。単一ＲＬタスク学習設定に適用されるか、又は報酬がバイナリ又は豊富であることを必要とするか、又はゴールのパラメータ化された指定として提供される従来のＥＲアルゴリズムとは異なり、ＴａＰＥＲは、このような制約を提示せず、任意の報酬及びタスク指定をサポートする。

ＴａＰＥＲは、マルチタスクＲＬにとって望ましいいくつかの特性を満たす。例えば、ＴａＰＥＲは、全てのタスクに関する性能を同時に向上させる。この特性は、タスクネットワーク間でパラメータを共有する時に望ましい。ＴａＰＥＲは、一方のタスクに対して優先順位付けされるデータを他方のタスクと共有することによって、タスク間の転移学習をサポートする。ＴａＰＥＲを備えるエージェントは、一様経験再生と比較して、早期の成功にわたってブートストラップすることによって、タスク方策を迅速に学習する。最後に、ＴａＰＥＲは、確率的優先順位付け方法を使用し、これは、特に少数の経験しか収集されていない早期に、過剰適合に抵抗するのを助ける。

以下に更に詳細に説明するように、本発明の実施形態は、一般に、タスク優先順位付き経験再生アルゴリズムを使用する優先順位付きオフポリシーＲＬのシステム及びコンピュータ化された方法に関する。システム及びコンピュータ化された方法は、オフポリシーで複数のＲＬタスクの同時学習を可能にすること、タスクの達成をもたらした固定長エピソードの一部であったサンプルに優先順位付けすること、エージェントが早期の成功にわたってブートストラップすることによってタスク方策を迅速に学習できるようにすること、及び全てのタスクに関する性能を同時に向上させることによって、コンピュータシステムの効率及び精度の技術的向上を提供する。

本明細書では、以下の表記法を参照しながら、マルチタスクＲＬ設定の文脈におけるＴａＰＥＲのアルゴリズム的実装を説明する。
ｎは、学習するために利用可能なタスクの数である。
ｓ_tは、時間ｔにおける環境状態の観察である。
ａ_tは、時間ｔにおいて環境内で実行することができる行動選択である。
π^b（ｓ_t）は、観察ｓ_tのためのエージェントの挙動方策の行動確率分布パラメータである。任意の時間ｔにおいて、エージェントは、π^b（ｓ_t）からサンプリングされる行動ａ_tを実行する。

は、報酬ベクトル

であり、ここで、各成分

は、ｉ番目のタスクにおいてエージェントによって受け取られるスカラー報酬信号である。

は、所与の観察ｓ_tのためのバイナリ値０又は１を戻す各タスクｊに対する終了関数である。β^jが１を戻した場合、タスクは終了しており、そうでない場合には、０を戻す。

は、全てのタスクに対するバイナリ終了ベクトルを示す。タスクの終了値は、エージェントの挙動方策π^b（ｓ_t）に影響を及ぼさない場合がある。
遷移は、タプル

を意味する。
エピソード：Ｔ個の遷移のシーケンスであり、ここで、Ｔは固定された整数である。

は、全ての観察された遷移を記憶するメインバッファである。

は、進行中のエピソード中に観察される遷移の指標を記憶するエピソードバッファである。
達成されるタスクは、エピソードの文脈内で、条件

が成立する場合に達成されたと見なされるタスク－ｊを意味する。

は、ｉ番目のエピソード中にタスク－ｊの達成をもたらした遷移指標のセットを示す。

は、全てのタスクにわたる和集合（ｔｈｅｕｎｉｏｎｏｖｅｒａｌｌｔａｓｋｓ）を示し、

は、全てのタスク及びエピソードにわたる和集合（ｔｈｅｕｎｉｏｎｏｖｅｒａｌｌｔａｓｋｓａｎｄｅｐｉｓｏｄｅｓ）を示す。
｜Ｘ｜は、バッファＸに記憶されるサンプルの数を示す。例えば、

は、メインバッファに記憶される遷移の数を示す。
ｐ_iは、メインバッファに記憶される指標ｉを含む遷移の優先度値である。
Ｐ（ｉ）は、メインバッファからの指標ｉを含む遷移をサンプリングする確率である。

は、遷移指標にわたって定義される確率分布Ｐを含むＤからサンプリングされる遷移のミニバッチＢを示す。
πⁱ（ｓ_t）は、観察ｓ_tのための更新タスク－ｉの方策の行動確率分布パラメータである。πⁱは、学習された時に、タスクを最適に解決する。

は、タスク方策πⁱネットワークを最適化するオフポリシーＲＬアルゴリズムである。

ＴａＰＥＲは、環境について以下の仮定を行う。
エージェントは、個別の時間ステップにおいて環境と対話する。
ｔ＝０から開始して、エージェントには、解決すべきｎ個のタスクが提示される。エージェントは、数ｎを知るが、タスク記述を知らない。
任意の所与の時間ｔにおいて、エージェントは、全てのタスクに対する報酬信号を観察することができる。すなわち、エージェントは、

の値を知る。
任意の所与の時間ｔ及び対応する観察ｓ_tにおいて、エージェントは、全てのタスクに対する終了値β（ｓ_t）を観察することができる。すなわち、エージェントは、

の値を知る。
エージェントの挙動方策π^bは、エージェントが少なくとも１回各タスクの終了状態に達するのに十分に探究的（ｅｘｐｌｏｒａｔｏｒｙ）である必要がある。

図１を参照すると、マルチタスクＲＬ設定において学習するためにＴａＰＥＲを使用するエージェント１０の概要が示されている。図１に、エージェント１０と環境１２との間の高レベルの制御フローを示す。環境１２は、エージェントに未知である、ｎ個のタスク記述、すなわち、タスク－１１４～タスク－ｎ１６を含むことができる。任意の時間ｔにおいて、かつ観察された環境状態ｓ_tでは、エージェント１０は、行動ａ_tを実行することができ、次の環境状態ｓ_t+1を観察する。エージェント１０は、全てのタスクからスカラー報酬

及びバイナリ終了値

を受け取ることもできる。遷移タプル

及び終了ベクトル

を使用して、エージェント１０の内部を更新する。この制御ループ１８は、無期限に又は全てのタスクが解決されていると見なされるまで継続することができる。

エージェントの制御ループ１８は、（ａ）エピソディック（ｅｐｉｓｏｄｉｃ）なもの又は（ｂ）連続的なものとして大まかに分類することができる。エピソディック（ｅｐｉｓｏｄｉｃ）な場合、各エピソードの終わりに、エージェントの状態が初期状態（最後に観察された状態とは異なり得る）にリセットされる。この場合のエピソードは、非重複遷移を有する。一方で、連続的な場合では、エージェントは、リセットすることなく行動を実行し続ける。この場合は、エージェントの初期状態が最後に観察された状態である、エピソディック（ｅｐｉｓｏｄｉｃ）な場合の特別な場合として取り扱うことができる。連続的なループにおけるエピソードは、Ｔ－１個の重複遷移の移動ウィンドウであると見なされる。

エージェントは、図２では時計回りに示し、以下のように要約される４つの動作ブロックを含むことができる。すなわち、（１）行動をサンプリングするブロック２０は、観察ｓ_tのための挙動方策π^bからサンプリングされる行動ａ_tを戻すことができる。（２）遷移を記憶するブロック２２は、メインバッファ

に新たな遷移を記憶することができる。（３）優先度を更新してミニバッチ（Ｂ）をサンプリングするブロック２４は、遷移優先度を更新し、遷移のミニバッチＢをサンプリングすることができる。（４）タスク方策を最適化するブロック２６は、オフポリシーアルゴリズム

及びミニバッチＢを使用してタスク方策の最適化ステップを実行することができる。

行動のサンプリング
行動をサンプリングするブロック２０に関して、エージェント１０は、時間ステップ毎に行動をサンプリングして実行するために使用する探究的な（ｅｘｐｌｏｒａｔｏｒｙ）挙動方策π^bを有する。挙動方策は、タスク方策πⁱ、

から独立したものとすることができる。挙動方策のためのデフォルト選択は、一様ランダム方策である。しかしながら、複雑な環境では、一様ランダム方策は、効果的に探究する（ｅｘｐｌｏｒｅ）のに十分ではない場合がある。他の選択は、初見の（ｕｎｓｅｅｎ）領域、人間が設計した方策などのための楽観的バイアスを使用することを含む。

遷移の記憶
遷移を記憶するブロック２２に関して、挙動方策からサンプリングされる行動を使用して、新たな遷移

を構築して、メインバッファ

に記憶することができる。メインバッファは、サイズで分類されていない（ｕｎｓｉｚｅｄ）キューコンテナ、又はメモリ制約がある場合は有限サイズの先入れ先出しキューを使用して、実装することができる。ＴａＰＥＲアルゴリズムは、メインバッファのメモリ設計選択に対して不可知（ａｇｎｏｓｔｉｃ）である。アルゴリズムは、適時に遷移に指標付けして順序付けするだけでよく、この場合、新たな遷移は、それに関連付けられる（今のところ）最も高い指標を有する。

優先度の更新及びミニバッチのサンプリング
優先度を更新してミニバッチをサンプリングするブロック２４に関して、このブロック２４は、２つのサブパート（ｓｕｂｐａｒｔｓ）、すなわち、（ａ）遷移優先度の更新及び（ｂ）ミニバッチのサンプリングを有する。

（ａ）遷移優先度の更新
遷移優先度を更新するサブパートに関して、以下に、遷移優先度がどのように計算されるかについて詳述する。ｉは、ｉ番目のエピソードのためのエピソードバッファ

を示すものとする。ｉ番目のエピソード中にタスク－ｊの達成をもたらした遷移指標のセットは、式（１）によって与えられ、

ここで、

は、エピソードの開始からｔ個の時間ステップまでの遷移指標のセットを示す。

は、式（２）のように、全てのタスク及び観察されたエピソードにわたる和集合（ｔｈｅｕｎｉｏｎｏｖｅｒａｌｌｔａｓｋｓａｎｄｏｂｓｅｒｖｅｄｅｐｉｓｏｄｅｓ）である。

ＴａＰＥＲの１つの焦点は、

に属する遷移が、

に含まれない遷移よりも優先されることである。２つの変形例が、各遷移に対して優先度値を設定すると考えられる。第１の変形例は、式（３）のように、

に属する全ての遷移に定数の優先度値を設定する。

に含まれない遷移に対する小さい非ゼロの優先度値

は、完全にサンプリングすることから遷移を除外しない。

優先順位付けの第２の変形例も考えられる。この場合、式（４）のように、遷移の時間的差分誤差δの大きさを使用して、

に含まれるサンプル間も優先順位付けする。

時間的差分誤差δは、ＲＬアルゴリズムの学習進行のための合理的な代用である。例えば、標準的なＱ学習アルゴリズムでは、δは、ｒ＋Ｑ（ｓ_t+1，ａｒｇｍａｘ_a Ｑ（ｓ_t+1，ａ））－Ｑ（ｓ_t，ａ_t）によって与えられる。したがって、優先度値としてδの大きさを使用することによって、学習の速度を上げるのに有用な遷移は、そうでない遷移よりも優先される。

を追加して、優先度

が非ゼロであることを確実にする。

両方の変形例の間にトレードオフが存在する。第２の変形例は、より速い学習進行をもたらす遷移に焦点を当てることによって、潜在的に学習の速度を上げることができるので、よりアピールするように思われる。しかしながら、第２の変形例は計算上高価である。というのは、δは時間と共に変化するので、各最適化ステップの後に、優先度を絶えず更新する必要があるからである。これは、バッファがクラウドに遠隔的に記憶される場合、ネットワークレイテンシに影響を及ぼす可能性もある。第１の変形例では、優先度は１回しか設定されないので、計算は問題ではない。ネットワーク及び計算バジェットに応じて、変形例を選択することは、ＴａＰＥＲアルゴリズムの設計選択である。以下の説明は、第１の変形例の使用に依拠する。

（ｂ）ミニバッチのサンプリング
設定された優先度を用いて、次に、遷移のミニバッチをサンプリングして、タスクネットワークを更新することができる。特に、セット

のサイズが小さい時に、ミニバッチをサンプリングするために優先度値を使用するだけでは、小さいセット

（過剰適合）にわたる方策の時期尚早の（ｐｒｅｍａｔｕｒｅ）収束を招く可能性がある。これらの問題に対処するために、式（５）のように、貪欲な（ｇｒｅｅｄｙ）優先順位付けと一様ランダムサンプリングとの間を補間する確率的優先順位付け手法を使用することができ、

ここで、

は、優先順位付けをどの程度使用すべきかを決定する。ｐ_iは非ゼロであるので、全ての遷移は、選択される確率が非ゼロである。α＝０を設定することによって、ＴａＰＥＲは、一様サンプリングＥＲに縮小する。始めに０により近くαを設定して、時間と共にその値を１に増分することが望ましい。これは、ＴａＰＥＲに、早い時期に大抵は一様ＥＲのように振る舞わせて、ＴａＰＥＲが、小さい

において参照される遷移にわたって過剰適合を回避するようにする。遷移確率を使用して、

から遷移のミニバッチＢをサンプリングして、タスク方策を最適化する。

タスク方策の最適化
サンプリングされた遷移のミニバッチＢを使用して、オフポリシーアルゴリズム

を使用してタスク方策ネットワークを更新する。時間的差分（ＴＤ）誤差の優先順位付けの変形例（上記の式（４））の場合、

によって計算されるＴＤ誤差を使用して、Ｂにおける遷移に対する優先度を更新する。ＴａＰＥＲは、アルゴリズム

の選択に対して不可知（ａｇｎｏｓｔｉｃ）である。

以下のアルゴリズム１は、マルチタスクＲＬ設定の文脈において、形式的に、エピソディック（ｅｐｉｓｏｄｉｃ）ＴａＰＥＲアルゴリズムを記述する。連続的な場合では、各エピソードの終わりのハードリセットの代わりに、バッファ

を、サイズＴの移動ウィンドウとして実装する。

上記のように、タスク優先順位付き経験再生（ＴａＰＥＲ）アルゴリズムは、オフポリシーで複数のＲＬタスクの同時学習を可能にする。アルゴリズムは、タスクの達成をもたらした固定長エピソードの一部であったサンプルに優先順位付けする。これは、エージェントが早期の成功にわたってブートストラップすることによってタスク方策を迅速に学習できるようにする。最後に、ＴａＰＥＲアルゴリズムは、全てのタスクに関する性能を同時に向上させ、これは、マルチタスクＲＬにとって望ましい特性である。

当業者であれば、本発明の趣旨及び範囲から逸脱することなく多くの変更及び修正を行うことができる。したがって、図示の実施形態はほんの一例として示したものであり、以下の特許請求の範囲によって定められる本発明を限定するものとして解釈すべきではないと理解されたい。例えば、以下では請求項の要素を特定の組み合わせで示しているが、本発明は、開示する要素よりも少ない、多い、又はこれらと異なる要素の他の組み合わせを含むと明確に理解されたい。

本明細書において本発明及びその様々な実施形態を説明するために使用される単語は、その一般に定義される意味合いだけでなく、本明細書における特別な定義によって、これらが単一種を表す包括的構造、材料又は行為も含むと理解されたい。

したがって、本明細書では、以下の特許請求の範囲の単語又は要素の定義が、文言として明記された要素の組み合わせしか含まないわけではないように定められる。したがって、この意味では、以下の特許請求の範囲内の要素のうちのいずれか１つに代えて２又は３以上の要素の同等の代用物を使用し、或いは請求項の２又は３以上の要素に代えて単一の要素を使用することもできると考えられる。上記では、要素を特定の組み合わせで機能するように説明し、当初はこのように特許請求することもあるが、場合によっては、特許請求する組み合わせから生じる１又は２以上の要素をこれらの組み合わせから削除することもでき、特許請求する組み合わせを下位の組み合わせ又は下位の組み合わせの変形例に向けることもできると明確に理解されたい。

したがって、特許請求の範囲は、上記で具体的に図示し説明したもの、概念的に同等のもの、明らかに代用できるもの、及び本発明の基本的発想を組み込んだものを含むと理解されたい。

１０エージェント
１２環境
１４タスク－１
１６タスク－ｎ
１８制御ループ
２０行動をサンプリング
２２遷移を記憶
２４優先度を更新してミニバッチをサンプリング
２６タスク方策を最適化

Claims

制御ループにおいてエージェントを訓練する方法であって、
前記エージェントによって、観察（ｓ_t）のための挙動方策（π^b）からサンプリングされる行動（ａ_t）を実行するステップと、
メインバッファに遷移タプルを記憶するステップであって、前記遷移タプルは、

を含み、ここで、

は、環境内の各タスクに対する報酬ベクトルであり、ｓ_t+1は、行動（ａ_t）後の次の環境状態である、ステップと、
前記メインバッファに記憶される各遷移タプルに対して遷移優先度を更新するステップと、
遷移タプルのミニバッチをサンプリングして、タスクネットワークを更新するステップと、
オフポリシーアルゴリズムを用いて、前記更新されたタスクネットワークからタスク方策を最適化するステップと、
を含むことを特徴とする方法。
前記環境内の前記タスクの全てが解決されるまで、前記制御ループを継続するステップを更に含むことを特徴とする、請求項１に記載の方法。
前記環境内の前記タスクは、前記エージェントに未知であることを特徴とする、請求項１に記載の方法。
前記制御ループはエピソディック（ｅｐｉｓｏｄｉｃ）であり、各エピソードの後に、前記エージェントの状態が初期状態にリセットされることを特徴とする、請求項１に記載の方法。
前記制御ループは連続的であり、ここで、前記エージェントは、前記エージェントの状態をリセットすることなく行動を実行することを特徴とする、請求項１に記載の方法。
前記挙動方策は、一様ランダム方策であることを特徴とする、請求項１に記載の方法。
前記挙動方策は、初見の（ｕｎｓｅｅｎ）領域又は人間が設計した方策のための楽観的バイアスを使用して方策から選択されることを特徴とする、請求項１に記載の方法。
ｉ番目のエピソード中にタスク－ｊの達成をもたらす遷移指標のセットが、次式によって与えられ、

ここで、

は、前記エピソードの開始からｔ個の時間ステップまでの遷移指標のセットを示し、

は、全てのタスク及び観察されたエピソードにわたる和集合（ｔｈｅｕｎｉｏｎｏｖｅｒａｌｌｔａｓｋｓａｎｄｏｂｓｅｒｖｅｄｅｐｉｓｏｄｅｓ）であることを特徴とする、請求項１に記載の方法。
に属する遷移は、

に含まれない遷移よりも高い優先度が与えられることを特徴とする、請求項８に記載の方法。
に属する前記遷移に対する優先度値は、定数値が与えられることを特徴とする、請求項９に記載の方法。
に含まれない遷移は、非ゼロの優先度値が与えられることを特徴とする、請求項１０に記載の方法。
に属する前記遷移に対する優先度値は、各遷移の時間的差分誤差の大きさに基づいて、変数値が与えられることを特徴とする、請求項９に記載の方法。
前記ミニバッチの前記サンプリングは、次式に従って、貪欲な（ｇｒｅｅｄｙ）優先順位付けと一様ランダムサンプリングとの間を補間する確率的優先順位付け手法を使用して実行され、

ここで、Ｐ（ｉ）は、前記メインバッファからのｉの指標を含む遷移をサンプリングする確率であり、ｐ_iは、前記メインバッファからのｉの指標を含む遷移の優先度値であり、

は、優先順位付けをどの程度使用すべきかを決定することを特徴とする、請求項１に記載の方法。
前記タスク方策を最適化するステップは、前記オフポリシーアルゴリズムの選択に対して不可知（ａｇｎｏｓｔｉｃ）であることを特徴とする、請求項１に記載の方法。
エージェントを訓練する方法であって、
前記エージェントによって、観察（ｓ_t）のための挙動方策（π^b）からサンプリングされる行動（ａ_t）を実行するステップと、
メインバッファに遷移タプルを記憶するステップであって、前記遷移タプルは、

を含み、ここで、

は、環境内の各タスクに対する報酬ベクトルであり、ｓ_t+1は、行動（ａ_t）後の次の環境状態である、ステップと、
前記メインバッファに記憶される各遷移タプルに対して遷移優先度を更新するステップと、
遷移タプルのミニバッチをサンプリングして、タスクネットワークを更新するステップと、
オフポリシーアルゴリズムを用いて、前記更新されたタスクネットワークからタスク方策を最適化するステップと、
を含み、
ｉ番目のエピソード中にタスク－ｊの達成をもたらす遷移指標のセットに属する遷移は、前記ｉ番目のエピソード中にタスク－ｊの達成をもたらさない遷移よりも高い優先度が与えられる、
ことを特徴とする方法。
前記ｉ番目のエピソード中に前記タスク－ｊの達成をもたらす前記遷移指標のセットは、次式によって与えられ、

ここで、

は、前記エピソードの開始からｔ個の時間ステップまでの遷移指標のセットを示し、

は、全てのタスク及び観察されたエピソードにわたる和集合（ｔｈｅｕｎｉｏｎｏｖｅｒａｌｌｔａｓｋｓａｎｄｏｂｓｅｒｖｅｄｅｐｉｓｏｄｅｓ）であることを特徴とする、請求項１５に記載の方法。
前記ｉ番目のエピソード中にタスク－ｊの達成をもたらす前記遷移指標のセットに属する前記遷移に対する優先度値は、定数値が与えられ、前記ｉ番目のエピソード中にタスク－ｊの達成をもたらす前記遷移指標のセットに含まれない遷移は、非ゼロの優先度値が与えられることを特徴とする、請求項１５に記載の方法。
前記ｉ番目のエピソード中にタスク－ｊの達成をもたらす前記遷移指標のセットに属する前記遷移に対する優先度値は、各遷移の時間的差分誤差の大きさに基づいて、変数値が与えられることを特徴とする、請求項１５に記載の方法。
実行可能プログラムを記憶した非一時的コンピュータ可読記憶媒体であって、前記プログラムは、
前記エージェントによって、観察（ｓ_t）のための挙動方策（π^b）からサンプリングされる行動（ａ_t）を実行するステップと、
メインバッファに遷移タプルを記憶するステップであって、前記遷移タプルは、

を含み、ここで、

は、環境内の各タスクに対する報酬ベクトルであり、ｓ_t+1は、行動（ａ_t）後の次の環境状態である、ステップと、
前記メインバッファに記憶される各遷移タプルに対して遷移優先度を更新するステップと、
遷移タプルのミニバッチをサンプリングして、タスクネットワークを更新するステップと、
オフポリシーアルゴリズムを用いて、前記更新されたタスクネットワークからタスク方策を最適化するステップと、
を実行するように１又は２以上のプロセッサに命令し、
ｉ番目のエピソード中にタスク－ｊの達成をもたらす遷移指標のセットに属する遷移は、前記ｉ番目のエピソード中にタスク－ｊの達成をもたらさない遷移よりも高い優先度が与えられる、
ことを特徴とする非一時的コンピュータ可読記憶媒体。
（ａ）前記ｉ番目のエピソード中にタスク－ｊの達成をもたらす前記遷移指標のセットに属する前記遷移に対する優先度値は、定数値が与えられ、前記ｉ番目のエピソード中にタスク－ｊの達成をもたらす前記遷移指標のセットに含まれない遷移は、非ゼロの優先度値が与えられるか、又は（ｂ）前記ｉ番目のエピソード中にタスク－ｊの達成をもたらす前記遷移指標のセットに属する前記遷移に対する前記優先度値は、各遷移の時間的差分誤差の大きさに基づいて、変数値が与えられることを特徴とする、請求項１９に記載の非一時的コンピュータ可読記憶媒体。