JP7493554B2

JP7493554B2 - Ｆｅｗ－ｓｈｏｔ模倣のためのデモンストレーション条件付き強化学習

Info

Publication number: JP7493554B2
Application number: JP2022093953A
Authority: JP
Inventors: カシェテオ; ダンスクリストファー; パレスジュリエン
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2021-06-10
Filing date: 2022-06-09
Publication date: 2024-05-31
Anticipated expiration: 2042-06-09
Also published as: JP2022189799A; US20220395975A1; EP4102405A1; KR20220166716A

Description

本出願は、２０２１年６月１０日に出願された欧州出願番号ＥＰ２１３０５７９９の利益を主張する。ここで言及される出願のすべての開示は、本願に参照援用される。

本開示は、Ｆｅｗ－ｓｈｏｔ模倣（Ｆｅｗ－ｓｈｏｔｉｍｉｔａｔｉｏｎ）に関し、より詳細には、Ｆｅｗ－ｓｈｏｔ模倣エージェントのためのポリシー（ｐｏｌｉｃｙ）ネットワークに関する。

人間は、他人から学ぶという独自に開発された能力のおかげで成功に繋がることがあるが、その核心要素は模倣する能力である。人間は多くの場合、タスクの実行を学ぶために数量のデモンストレーション（ｄｅｍｏｎｓｔｒａｔｉｏｎ）だけを必要とするが、コンピュータデバイスによる模倣学習は、簡単なタスクを学ぶためにも極めて多くのデモンストレーションを必要とすることがある。これは、エージェントが、訓練されておらず、以前には経験したことのないタスク（そのタスクに対し、エージェントはタスクのデモンストレーションを数回見ただけで訓練されていない）を完了しなければならないエージェントの予想性能を最大化することを目標とするＦｅｗ－ｓｈｏｔ模倣研究の動機付けとなった。例えば、ロボットが窓を閉めるという訓練が今まで一度も経験したことがなく、さらに窓の初期状態がデモンストレーションの窓と同じでなかったとしても、人間は窓を閉める方法をデモンストレーションし、ロボットが窓を閉めることを期待するようになる。

Ｆｅｗ－ｓｈｏｔ模倣は、人工エージェント（例えば、コンピュータデバイスの制御モジュールで実現される）で多様な範囲のタスクを実行したいという希望、およびタスクの代表的なセットで訓練された単一のＦｅｗ－ｓｈｏｔの模倣エージェントで許容可能な制限範囲内のデモンストレーションによって多数の新規タスクを一般化するための表現を構築したいという希望を動機としている。

Ｆｅｗ－ｓｈｏｔ模倣システムは、挙動複製（ｂｅｈａｖｉｏｒｃｌｏｎｉｎｇ：ＢＣ）を使用したりもする。この場合、エージェントは、デモンストレーションから報酬関数を推論した後、その報酬関数に対するポリシーを訓練させるために、アクション予測損失（ａｃｔｉｏｎ－ｐｒｅｄｉｃｔｉｏｎｌｏｓｓ）または逆強化学習（ｉｎｖｅｒｓｅｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ：ＩＲＬ）を最小限に抑える。しかし、このようなシステムは、次の制限事項のうちの１つ以上を経験する。先ず、アクションがデモンストレーションの一部であるということ、異なるタスクが共通の遷移分布（ｃｏｍｍｏｎｔｒａｎｓｉｔｉｏｎｄｉｓｔｒｉｂｕｔｉｏｎ）を共有するということを前提とする。さらに、エージェントとデモンストレーション者（ｄｅｍｏｎｓｔｒａｔｏｒ）の間のドメインシフトを無視したり、次善のデモンストレーション者が改善されなかったり、新規タスクのデモンストレーションが提示されるたびにポリシーを訓練したりもする。例えば、人間のデモンストレーションからポリシーを推論するロボットの場合は、このような制限事項すべてを解決することが実質的に重要となる。

非効率的で低性能のＦｅｗ－ｓｈｏｔ模倣エージェントと、これを訓練する問題を解決する必要がある。

最新技術の課題を解決するために、Ｆｅｗ－ｓｈｏｔ模倣を実行するための新規の方法およびシステム（例えば、エージェントを含む）を開示する。

一実施形態において、コンピュータ実現方法は、訓練データの少なくとも１つのセットを取得することを含む。訓練データの各セットは、タスク、例えば、ポリシーネットワークを訓練するための既知のタスクと関連し、報酬関数および報酬のサンプルのうちの少なくとも１つ、および遷移分布および状態遷移のサンプルのうちの少なくとも１つを含む。コンピュータ実現方法は、訓練データの少なくとも１つのセットの第１デモンストレーションの少なくとも１つのセットをポリシーネットワークに入力することにより、危険尺度、例えば、分布ＲＬを使用した条件付きリスク値（ｃｏｎｄｉｔｉｏｎａｌｖａｌｕｅ－ａｔ－ｒｉｓｋ：ＣＶａＲ）、またはそれぞれの１つ以上の報酬関数または報酬のそれぞれのサンプルに基づく訓練データの少なくとも１つのセットの第１デモンストレーションの少なくとも１つのセットの平均収益（ａｖｅｒａｇｅｒｅｔｕｒｎ）を最大化することによって強化学習を使用して（例えば、コンピュータ制御モジュールで具体化される）エージェントのポリシーネットワークを訓練すること、新規タスクと関連する第２デモンストレーションのセットを取得すること、および新規タスクを実行するためにエージェントの状態の観察値および第２デモンストレーションのセットを訓練済みのポリシーネットワークに入力することを含む。報酬のサンプルおよび／または状態遷移のサンプルはシミュレーションまたはオフラインデータから取得してよく、オフラインデータは訓練以前に実際のシステムから収集してよい。

エージェントのポリシーネットワークを訓練することと、新規タスクを実行するために訓練されたポリシーネットワークに第２デモンストレーションのセットと状態の観察値を入力することにより、Ｆｅｗ－ｓｈｏｔ模倣を効率的に実行するための改善された方法を提供する。

多様な特徴において、ポリシーネットワークは、第２デモンストレーションのセットを処理するための第１セルフアテンションメカニズム（ｓｅｌｆ－ａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍ）、状態の観察値を処理するための第２セルフアテンションメカニズム、および第２デモンストレーションのセットおよび状態の観察値を処理するためのクロスアテンションメカニズム（ｃｒｏｓｓ－ａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍ）のうちの少なくとも１つを含む。例えば、ポリシーネットワークは、トランスフォーマ基盤のポリシーネットワーク（ｔｒａｎｓｆｏｒｍｅｒ－ｂａｓｅｄｐｏｌｉｃｙｎｅｔｗｏｒｋ）を含む。トランスフォーマ基盤のポリシーネットワークは、アキシャルアテンション（ａｘｉａｌａｔｔｅｎｔｉｏｎ）を有する少なくとも１つのトランスフォーマ（トランスフォーマアーキテクチャ）を含んでよい。入力された第１デモンストレーションの少なくとも１つのセットは、第１多次元テンソルとしてエンコードされてよく、少なくとも１つのトランスフォーマのうちの第１トランスフォーマのアテンションは、例えば、多次元テンソルを平坦化しなくても、第１多次元テンソルの単一の軸に沿って適用されてよい。代案的または追加的に、入力された第２デモンストレーションのセットは、第２多次元テンソルとしてエンコードされてよく、少なくとも１つのトランスフォーマのうちの第２トランスフォーマのアテンションは、第２多次元テンソルの単一の軸に沿って適用されてよい。アキシャルアテンションを有するトランスフォーマを使用することにより、ポリシーネットワークを訓練するための効率的な方法を提供する。具体的に、アキシャルアテンションを有するトランスフォーマは、多数の入力デモンストレーション、単一のデモンストレーションのビデオ、または任意の他の多次元入力を効率的に処理する。

多様な特徴において、同じ目的のために、トランスフォーマまたはトランスフォーマネットワークの代わりに、セルフアテンションおよびクロスアテンションメカニズムが使用されてよい。実施形態において、トランスフォーマの代わりに、トランスフォーマ以外のセルフアテンションおよびクロスアテンションメカニズムが使用されるが、例えば、観察値および／またはデモンストレーションのセットを処理するためにセルフアテンションメカニズムが使用されてよく、観察値およびデモンストレーションのセットを処理するためにクロスアテンションメカニズムが使用されてよい。多様な実施形態では、アテンションメカニズムを使用しなくてもよい。例えば、１つ以上のアテンションメカニズムの代わりにＳ４シーケンスモデルが実現されてもよい。Ｓ４シーケンスモデルについての詳細事項は、インターネット上のｏｐｅｎｒｅｖｉｅｗ．ｎｅｔ／ｆｏｒｕｍ？ｉｄ＝ｕＹＬＦｏｚ１ｖｌＡＣで確認できるが、このすべては本明細書に統合される。

特徴として、新規タスクと関連する第２デモンストレーションのセットを取得することと、第２デモンストレーションのセットを入力することと、新規タスクを実行するために第２デモンストレーションのセットおよび状態の観察値を訓練済みのポリシーネットワークに入力することは、推論時間またはエージェントのランタイム時に実行される。訓練データの少なくとも１つのセットを取得することと、強化学習を使用してポリシーネットワークを訓練することは、訓練時間中に実行されてよい。

一側において、ポリシーネットワークを訓練するために訓練データの少なくとも１つのセットの第１デモンストレーションの少なくとも１つのセットをポリシーネットワークに入力することは、ポリシーネットワークを訓練するために、エージェントの状態、状態－アクションペア（ｓｔａｔｅ－ａｃｔｉｏｎｐａｉｒ）、観察履歴および観察－アクション履歴（ｏｂｓｅｒｖａｔｉｏｎ－ａｃｔｉｏｎｈｉｓｔｏｒｙ）のうちの少なくとも１つをポリシーネットワークに入力することを含む。訓練データの少なくとも１つのセットの第１デモンストレーションの少なくとも１つのセットは、少なくとも２つのタスクのデモンストレーションを含んでよく、平均収益は、少なくとも２つのタスクの平均累積報酬を最大化することによって訓練データの少なくとも１つのセットの第１デモンストレーションの少なくとも１つのセットに最大化されてよい。複数のタスクと関連する訓練データを使用することにより、ポリシーネットワークは、ポリシーネットワークのさらなる一般化に起因して、新規タスクを実行するための改善された結果を提供する。

方法は、訓練済みのポリシーネットワークにより、状態の観察値および第２デモンストレーションのセットに基づいて１つ以上のアクションの分布を取得あるいは決定することを含んでよい。訓練データの少なくとも１つのセットと関連する少なくとも１つのタスクおよび新規タスクは関連してよく、例えば、新規タスクに対する最適なポリシーは、少なくとも１つのタスクに対する最適なポリシーと類似してよい。訓練データの少なくとも１つのセットと関連する少なくとも１つのタスクおよび新規タスクは異なってよく、訓練データの少なくとも１つのセットと関連するすべてのタスクおよび新規タスクは異なってよい。

一実施形態において、エージェントは、少なくとも１つのタスクを実行するために事前訓練されたポリシーネットワークを含む。エージェントは、事前訓練されたポリシーネットワークに対する入力として第１デモンストレーションのセットおよび観察値を取得するように、第１デモンストレーションと関連するタスクを実行するために第１デモンストレーションのセットおよび観察値を事前訓練されたポリシーネットワークに入力するように、さらに事前訓練されたポリシーネットワークに入力された第１デモンストレーションのセットおよび入力された観察値に基づいて実行される少なくとも１つのアクションを決定するように構成される。事前訓練されたポリシーネットワークは、強化学習を使用して訓練されてよい。例えば、事前訓練されたポリシーネットワークは、訓練タスクのセットの各訓練タスクに対する訓練デモンストレーションのセットを使用した訓練タスクのセットに対する強化学習を使用して訓練されるデモンストレーション条件付きポリシーネットワーク（ｄｅｍｏｎｓｔｒａｔｉｏｎ－ｃｏｎｄｉｔｉｏｎｅｄｐｏｌｉｃｙｎｅｔｗｏｒｋ）を含んでよい。

事前訓練されたポリシーネットワークは、第１デモンストレーションのセットを処理するための第１セルフアテンションメカニズム、観察値に対する第２セルフアテンションメカニズム、および第１デモンストレーションのセットと観察値を処理するためのクロスアテンションメカニズムのうちの少なくとも１つを含んでよい。例えば、事前訓練されたポリシーネットワークは、事前訓練されたトランスフォーマ基盤のポリシーネットワークを含んでよい。事前訓練されたトランスフォーマ基盤のポリシーネットワークは、アキシャルアテンションを有する少なくとも１つのトランスフォーマを含んでよい。第１デモンストレーションのセットうちのデモンストレーションは、ランダムな長さの観察値のシーケンスであってよい。観察値は、状態－アクションペア、状態、位置、イメージ、およびセンサ測定値のうちの少なくとも１つを含んでよい。第１デモンストレーションのセットはデモンストレーション者から受信してよい。

特徴として、ロボットは、少なくとも１つのタスクを実行するための事前訓練されたポリシーネットワークを含むエージェントを含むが、ここで、タスクは、オブジェクトを操作するための操作タスクを含み、観察値は、ロボットまたはロボットの１つ以上の部品に関する情報を含み、第１デモンストレーションのセットは、ロボットまたはロボットの１つ以上の部品の位置および／または方向のシーケンスを含み、ロボットの少なくとも１つのアクチュエータまたはモータは、環境の状態を修正するために実行される決定されたアクションに基づいて制御される。操作タスクは、ロボットを使用することにより、環境に関連する制約およびロボットの機械的属性を考慮しながら、オブジェクトを含む環境の状態を意図的な方式で修正するタスクとして定義されてよい。

特徴として、ロボットは、少なくとも１つのタスクを実行するための事前訓練されたポリシーネットワークを含むエージェントを含む。タスクは、ロボットまたはロボットの部品をナビゲーティング（ｎａｖｉｇａｔｉｎｇ）のためのナビゲーションタスク（ｎａｖｉｇａｔｉｏｎｔａｓｋ）を含んでよい。観察値は、ロボットまたはロボットの部品の位置を含んでよい。第１デモンストレーションのセットは、ロボットまたはロボットの部品の位置のシーケンスを含んでよい。ロボットの少なくとも１つのアクチュエータまたはモータは、実行される決定されたアクションに基づいて制御されてよい。ナビゲーションタスクを実行するための事前訓練されたポリシーネットワークを含むエージェントを含むロボットを提供することにより、位置または視覚的観察値に基づくマップレス（ｍａｐｌｅｓｓ）または軌跡基盤のナビゲーションを許容する改善されたロボットを達成する。

さらなる特徴において、コンピュータで実行可能な命令語が記録されたコンピュータ読み取り可能な記録媒体が提供される。１つ以上のプロセッサによって実行されるとき、コンピュータで実行可能な命令語は、本明細書で説明するＦｅｗ－ｓｈｏｔ模倣を実行するための方法を実行する。

さらなる特徴において、処理回路部（ｃｉｒｃｕｉｔｒｙ）を含む装置が提供される。処理回路部は、上述したエージェントを実行するように構成される。

特徴において、少なくとも１つのタスクを実行するための訓練済みのポリシーネットワークを含むエージェントで具体化される、プロセッサおよびメモリによって実行される方法を説明する。方法は、訓練済みのポリシーネットワークに対する入力として第１デモンストレーションのセットと観察値を取得すること、および第１デモンストレーションと関連するタスクを実行するために第１デモンストレーションのセットおよび観察値を訓練済みのポリシーネットワークに入力することと、訓練済みのポリシーネットワーク（訓練済みのポリシーネットワークは、強化学習を使用して訓練される）に入力された第１デモンストレーションのセットと入力された観察値に基づいて実行される少なくとも１つのアクションを決定することを含む。

さらなる特徴において、方法は、ロボットまたはロボットの部品を制御すること、マシンを制御すること、車両を制御すること、および環境の状態を操作することのうちの少なくとも１つを含む少なくとも１つのアクションを決定する段階をさらに含む。

さらなる特徴において、訓練済みのポリシーネットワークは、アキシャルアテンションを有するトランスフォーマアーキテクチャを含む。

さらなる特徴において、訓練済みのポリシーネットワークは、第１デモンストレーションのセットを処理するための第１セルフアテンションモジュール、観察値を処理するための第２セルフアテンションモジュール、および第１デモンストレーションのセットと観察値を処理するためのクロスアテンションモジュールのうちの少なくとも１つを含む。

さらなる特徴において、第１デモンストレーションのセットのうちのデモンストレーションは観察値のシーケンスを含むが、ここで、各観察値は、状態－アクションペア、状態、位置、イメージ、およびセンサ測定値のうちの少なくとも１つを含む。

さらなる特徴において、タスクは、ロボットによってオブジェクトを操作するための操作タスクを含み、観察値は、ロボットの１つ以上の部品に関する情報を含み、第１デモンストレーションのセットは、ロボットの１つ以上の部品の位置および方向のうちの少なくとも１つを含むシーケンスを含み、方法は、実行される決定されたアクションに基づいてロボットの少なくとも１つのアクチュエータを制御することをさらに含む。

さらなる特徴において、タスクは、ロボットをナビゲーティングするためのナビゲーションタスクを含み、観察値は、ロボットの１つ以上の部品に関する情報を含み、第１デモンストレーションのセットは、ロボットの位置のシーケンスを含み、方法は、実行される決定されたアクションに基づいてロボットの少なくとも１つのアクチュエータを制御することをさらに含む。

特徴において、Ｆｅｗ－ｓｈｏｔ模倣を実行するためのコンピュータ実現方法は、訓練データ（訓練データのそれぞれのセットは、タスクと関連して、（ｉ）報酬関数および報酬のサンプルのうちの少なくとも１つ、（ｉｉ）遷移分布および状態遷移のサンプルのうちの少なくとも１つ、および（ｉｉｉ）第１デモンストレーションのセットを含む）の少なくとも１つのセットを取得すること、訓練データの少なくとも１つのセットの第１デモンストレーションの少なくとも１つのセットをポリシーネットワークに入力すること、危険尺度またはそれぞれの１つ以上の報酬関数または報酬のそれぞれのサンプルに基づいて訓練データの少なくとも１つのセットの第１デモンストレーションの少なくとも１つのセットの平均収益を最大化することによって強化学習を使用してエージェントで具体化されるポリシーネットワーク訓練を訓練すること、訓練データには含まれない新規タスクと関連する第２デモンストレーションのセットを取得すること、および新規タスクを実行するために第２デモンストレーションのセットおよび状態の観察値を訓練済みのポリシーネットワークに入力することを含む。

さらなる特徴において、ポリシーネットワークは、アキシャルアテンションを有するトランスフォーマアーキテクチャおよび第２デモンストレーションのセットを処理するように構成される第１セルフアテンションモジュール、状態の観察値を処理するように構成される第２セルフアテンションモジュール、および第２デモンストレーションのセットおよび状態の観察値を処理するように構成されるクロスアテンションモジュールのうちの少なくとも１つを含む。

さらなる特徴において、ポリシーネットワークは、アキシャルアテンションを有するトランスフォーマアーキテクチャを含み、コンピュータ実現方法は、入力された第１デモンストレーションの少なくとも１つのセットを第１多次元テンソルとしてエンコードし、第１多次元テンソルの単一の軸に沿ってポリシーネットワークの第１トランスフォーマによってアテンションを適用すること、および入力された第２デモンストレーションのセットを第２多次元テンソルとしてエンコードし、第２多次元テンソルの単一の軸に沿ってポリシーネットワークの第２トランスフォーマのアテンションを適用することのうちの少なくとも１つをさらに含む。

さらなる特徴において、新規タスクと関連する第２デモンストレーションのセットを取得することと新規タスクを実行するために第２デモンストレーションのセットおよび状態の観察値を訓練済みのポリシーネットワークに入力することは、推論時間に実行され、訓練データの少なくとも１つのセットを取得することと強化学習を使用してポリシーネットワークを訓練することは、訓練時間内に実行される。

さらなる特徴において、ポリシーネットワークを訓練するために訓練データの少なくとも１つのセットの第１デモンストレーションの少なくとも１つのセットをポリシーネットワークに入力することは、ポリシーネットワークを訓練するために、エージェントの状態、状態－アクションペア、および観察－アクション履歴のうちの少なくとも１つをポリシーネットワークに入力することを含む。

さらなる特徴において、訓練データの少なくとも１つのセットの第１デモンストレーションの少なくとも１つのセットは、少なくとも２つのタスクのデモンストレーションを含み、訓練データの少なくとも１つのセットの第１デモンストレーションの少なくとも１つのセットの平均収益を最大化することは、少なくとも２つのタスクの平均累積報酬を最大化することを含む。

特徴において、システムは、訓練タスクのセットに基づいて訓練され、トランスフォーマアーキテクチャによって生成される多次元テンソルの単一の軸上でアキシャルアテンションを有するトランスフォーマアーキテクチャを含むポリシーネットワークを含む制御モジュール、および訓練タスクとは異なるタスクに対するデモンストレーションのセットをポリシーネットワークに入力し、入力されたデモンストレーションのセットに基づいて生成される多次元テンソルの単一の軸に基づいてトランスフォーマアーキテクチャのエンコーダモジュールの加重値パラメータを訓練するように構成される訓練モジュールを含む。

さらなる特徴において、訓練モジュールは、ポリシーネットワークの平均収益を最大化することに基づいてエンコーダモジュールの加重値パラメータを訓練するように構成される。

さらなる特徴において、制御モジュールは、ポリシーネットワークの出力に基づいてアクチュエータを選択的に作動するように構成される。

さらなる特徴において、トランスフォーマアーキテクチャは、デモンストレーションのセットに基づいて多次元テンソルを生成するように構成されるエンコードモジュールを含む。

さらなる特徴において、デモンストレーションのセットの約デモンストレーションは、時系列の観察値を含む。

さらなる特徴において、時系列の観察値は、ランダムな長さを有する。

さらなる特徴において、各観察値は、状態－アクションペア、状態、位置、イメージ、および測定値のうちの少なくとも１つを含む。

さらなる特徴において、タスクは、オブジェクトを操作するものであり、デモンストレーションのセットは、ロボットの位置および方向のシーケンスを含む。

さらなる特徴において、タスクは、目標位置に向かってナビゲーティングすることを含み、デモンストレーションのセットは、ナビゲーティングロボットの位置のシーケンスを含む。

さらなる特徴において、ポリシーネットワークは、直列に繋がっているＬ個のエンコーダ層を含むが、ここで、Ｌは１よりも大きい整数である。

さらなる特徴において、ポリシーネットワークは、Ｌ個のエンコーダ層の出力に基づいてアクションを決定するように構成されるＬ個のデコーダ層をさらに含む。

さらなる特徴において、メモリに記録される命令語を実行するプロセッサを説明するが、ここで、メモリに記録される命令語は、ポリシーネットワークを含む制御モジュールおよび訓練モジュールのための命令語をさらに含む。

さらなる特徴において、命令語は、強化学習を使用して訓練タスクによってポリシーネットワークを訓練するための命令語をさらに含む。

さらなる特徴において、命令語は、訓練タスクとは異なるタスクに対するデモンストレーションのセットに基づいて実行される少なくとも１つのアクションを決定するように構成されるポリシーネットワークを含むエージェントのための命令語をさらに含む。

さらなる特徴において、少なくとも１つのアクションは、ナビゲーションアクションである。

さらなる特徴において、エージェントは、ロボットのナビゲーションアクションを決定する。

さらなる特徴において、強化学習を使用する命令語は、ＰＰＯ（ｐｒｏｘｉｍａｌｐｏｌｉｃｙｏｐｔｉｍｉｚａｔｉｏｎ）を使用する。

以下の詳細な説明および添付の図面は、本発明の本質および利点をさらに詳細に理解するために提供する。

添付の図面は、実施形態の原理を説明する目的で本明細書に組み込まれ、本明細書の一部を形成する。図面は、実施形態を、それらがどのように作成されて使用されるかを例示しており、実施形態だけに制限されるように解釈されてはならない。以下の実施形態の説明に基づき、特徴や利点がより明らかに具体化されるであろう。
Ｆｅｗ－ｓｈｏｔ模倣を実行するための方法を例示的に示したフローチャートである。ポリシーネットワークを訓練するための方法を例示的に示したフローチャートである。ポリシーネットワークを訓練するための方法を例示的に示したフローチャートである。ポリシーネットワークの例示的なアーキテクチャを含んだ機能ブロック図である。エージェントが実行するナビゲーションタスクの３つの例を示した図である。開示するシステム方法を活用した例示的なアーキテクチャを含んだ機能ブロック図である。

本明細書は、Ｆｅｗ－ｓｈｏｔ模倣のためのシステムおよび方法について説明する。説明の目的のために、説明する実施形態の徹底した理解を提供するために多数の例示および特定の詳細事項を記述する。特許請求の範囲で定義する実施形態は、例示の特徴のうちの一部またはすべてを単独または他の特徴と組み合わせて含んでよく、本明細書で説明する特徴および概念の修正および等価物をさらに含んでもよい。例示的な例は、要素および構造物が参照番号で示されている図面を参照しながら説明する。また、実施形態が方法である場合、その方法の機能および要素は、並列または順次の実行、または異なる順序での実行に組み合わされてもよい。これらが矛盾しない限り、以下で説明する各実施形態の部分は互いに結合されてよい。

模倣学習は、Ｆｅｗ－ｓｈｏｔ模倣の必須要素ではない。本明細書では、ＢＣまたはＩＲＬＦｅｗ－ｓｈｏｔ学習を含まないＦｅｗ－ｓｈｏｔ学習のためのシステムおよび方法について説明する。単一タスク模倣学習が使用されてもよい。開示する接近法は、デモンストレーション条件付き強化学習（ｄｅｍｏｎｓｔｒａｔｉｏｎ－ｃｏｎｄｉｔｉｏｎｅｄｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ：ＤＣＲＬ）とも呼ばれる。

ＤＣＲＬにおいて、訓練セットは、例えば、図３ａに示すように、多数のタスクに対するデモンストレーション、報酬関数、および報酬のサンプルのうちの１つ、および遷移分布および状態遷移のサンプルのうちの１つを含んでよい。図３ａの例では、タスクが積み重ねられて示されている。

エージェント（例えば、コンピュータデバイスの制御モジュール）のポリシーまたはポリシーネットワークは、エージェントの状態または観察－アクション履歴に追加して入力としてデモンストレーションを受信してもよい。ポリシーまたはポリシーネットワークを訓練するために、訓練タスクのセットの平均累積報酬が最大化されてよい。推論時間に、新規タスクのデモンストレーションは、状態の観察値とともに、訓練されたポリシーまたはポリシーネットワークに入力されてよく、アクションは、訓練済みのポリシーまたはポリシーネットワークから出力されてよい。デモンストレーションはエージェントにタスクの目標を通知するように機能するが、これらは、タスクを実行する方法の例として機能するし、遷移分布がタスクごとに異なる場合には遷移分布に関する情報を提供する。しかし、ＤＣＲＬは、例えば、回避学習（ａｖｏｉｄａｎｃｅｌｅａｒｎｉｎｇ）の場合、デモンストレーションとタスクの関係が異なる状況でも直接適用されてもよい。

ＤＣＲＬは、Ｆｅｗ－ｓｈｏｔ模倣学習に対する他の接近法に比べて多様な利点がある。特別な修正なく、ＤＣＲＬは、状態専用観察を含むデモンストレーションを許容することができ、デモンストレーション者とエージェントの間のドメインシフトのある状況を解決することができ、次善のデモンストレーションを改善し、および／または新規タスクが提示されたときに追加の訓練を必要としない。

単一のデモンストレーションが新規タスクの目的を伝達するのに十分でない場合、多数の入力デモンストレーションにわたる交差デモンストレーションアテンションが使用されてよい。トランスフォーマアーキテクチャを活用するポリシーを含むＦｅｗ－ｓｈｏｔ模倣の計算コストは、それぞれが多変量時系列である複数のデモンストレーションを含む入力に対して驚くほど高価になることがある。アキシャルアテンションをもつトランスフォーマは、このような入力に対して効率的な代案的アーキテクチャを提供することができ、これらが入力の時間およびデモンストレーション次元を独立的に処理するときに使用することができる。トランスフォーマアーキテクチャは、米国特許第１０，４５２，９７８号で説明されているが、この特許のすべては本明細書に統合される。また、トランスフォーマアーキテクチャは、『ＡｓｈｉｓｈＶａｓｗａｎｉ，ＮｏａｍＳｈａｚｅｅｒ，ＮｉｋｉＰａｒｍａｒ，ＪａｋｏｂＵｓｚｋｏｒｅｉｔ，ＬｌｉｏｎＪｏｎｅｓ，ＡｉｄａｎＮＧｏｍｅｚ、ｔｕｋａｓｚＫａｉｓｅｒ，ａｎｄＩｌｌｉａＰｏｌｏｓｕｋｈｉｎ，“Ａｔｔｅｎｔｉｏｎｉｓａｌｌｙｏｕｎｅｅｄ”，ＩｎＩ．Ｇｕｙｏｎ，Ｕ．Ｖ．Ｌｕｘｂｕｒｇ，Ｓ．Ｂｅｎｇｉｏ，Ｈ．Ｗａｌｌａｃｈ，Ｒ．Ｆｅｒｇｕｓ，Ｓ．Ｖｉｓｈｗａｎａｔｈａｎ，ａｎｄＲ．Ｇａｒｎｅｔｔ，ｅｄｉｔｏｒｓ，ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ３０，ｐａｇｅｓ５９９８－６００８，ＣｕｒｒａｎＡｓｓｏｃｉａｔｅｓ，Ｉｎｃ．，２０１７』で説明されているが、この文献のすべては本明細書に統合される。

ＤＣＲＬの場合、ポリシーアーキテクチャに対するアキシャルアテンションをもつトランスフォーマアーキテクチャによってイネーブルされる交差デモンストレーションアテンションが使用されてよい。他の代案と比べると、ロボット操作とナビゲーションのベンチマークの結果は、ＤＣＲＬの優れた性能はもちろん、次善デモンストレーションの改善、ドメインシフトに対処する能力を提供する。

図１は、Ｆｅｗ－ｓｈｏｔ模倣学習を実行するための方法１００を例示的に示したフローチャートである。段階１１０で、方法１００は、訓練データの少なくとも１つのセットを取得する訓練モジュールを含み、訓練データの各セットは、タスク、例えば、訓練タスクと関連する。訓練データの各セットは、報酬関数および報酬のサンプルのうちの少なくとも１つ、遷移分布および状態遷移のサンプルのうちの少なくとも１つ、および第１デモンストレーションのセットを含む。第１デモンストレーションのセットのうちのデモンストレーションは、ランダムな長さの観察値のシーケンスであってよい。観察値は、状態－アクションペア、状態、位置、イメージ、およびセンサ測定値のうちの少なくとも１つを含む。

段階１２０で、方法１００は、訓練データの少なくとも１つのセットに基づき、例えば、訓練データの複数のセットに基づき、強化学習を使用してエージェント（例えば、コンピュータデバイスの制御モジュール）のポリシーネットワークを訓練する訓練モジュールを含む。訓練は、図２の方法によって実行されてよく、段階２１０～２４０を含む。

段階１３０で、訓練モジュールは、エージェントによる実行のための新規タスクと関連する第２デモンストレーションのセットを取得する。第２デモンストレーションのセットは、デモンストレーション者によって提供されてよい。デモンストレーション者は人間であってよく、第２デモンストレーションのセットは１つ以上のユーザ入力デバイス、例えば、１つ以上のジョイスティックまたは他のタイプのユーザ入力デバイスから受信されてよい。新規タスクは、訓練データの少なくとも１つのセットと関連するタスクと関連してよい。例えば、新規タスクおよび訓練データの少なくとも１つのセットと関連するタスクは、類似の最適なポリシーを有してよい。多様な実施形態において、新規タスクおよび訓練データの少なくとも１つのセットと関連する少なくとも１つのタスクは、相異してよい。代案的に、新規タスクおよび訓練データの少なくとも１つのセットと関連するすべてのタスクは、相異してよい。第２デモンストレーションのセットは、５つ、または他の適切な数のような事前に定められた数未満のデモンストレーションを含んでよい。これにより、制限された数（事前に定められた数未満）のデモンストレーションだけを使用してＦｅｗ－ｓｈｏｔ模倣学習が許容されてよい。

段階１４０で、訓練モジュールは、新規タスクを実行するために、訓練済みのポリシーネットワークにエージェントの状態の観察値および第２デモンストレーションのセットを入力する。

段階１５０で、訓練モジュールは、状態の観察値および第２デモンストレーションのセットに基づいて、訓練済みのポリシーネットワークによって採択される１つ以上のアクションの分布を取得する。訓練モジュールは、例えば、分布に基づいてポリシーネットワークの１つ以上の加重値パラメータを調整することにより、分布に基づいてポリシーネットワークを訓練してよい。

段階１１０と段階１２０は、訓練中に実行される。段階１３０～１５０は、例えば、エージェントのランタイムなどの推論時間に実行されてよい。

図２は、エージェントのポリシーネットワークを訓練するための方法２００を例示的に示したフローチャートである。

段階２１０で、訓練モジュールは、訓練データの少なくとも１つのセットの第１デモンストレーションの少なくとも１つのセット、例えば、第１デモンストレーションの複数のセットをポリシーネットワークに入力する。また、訓練モジュールは、ポリシーネットワークを訓練するために、エージェントの状態、状態－アクションペア、および観察－アクション履歴のうちの少なくとも１つをポリシーネットワークに入力する。

段階２２０で、ポリシーネットワークは、第１デモンストレーションの少なくとも１つのセットを第１多次元テンソルとしてエンコードするか埋め込む。

段階２３０で、採択するアクションを決定するために、少なくとも１つのトランスフォーマのうちの第１トランスフォーマのアテンションが第１多次元テンソルの単一の軸に沿って適用されてよい。

段階２４０で、訓練モジュールは、報酬のサンプルまたは訓練データの報酬関数に基づいて訓練データの少なくとも１つのセットの第１デモンストレーションの少なくとも１つのセットの平均収益を最大化することに基づいて、ポリシーネットワークを訓練する。代案的に、訓練モジュールは、報酬の各サンプルまたは１つ以上の報酬関数に基づいて訓練データの少なくとも１つのセットの第１デモンストレーションの少なくとも１つのセットの危険尺度を最大化することに基づいて、ポリシーネットワークを訓練してよい。

図３ａは、エージェント（例えば、コンピュータデバイスの制御モジュールで具体化される）のポリシーネットワークを訓練するためにデモンストレーションと環境相互作用の両方を使用する、本出願に係るＤＣＲＬアルゴリズムを示した例示図である。

タスクは、タスクの分布ηからサンプリングされてよい。各タスクμ～ηは、Ｍａｒｋｏｖ（マルコフ）決定プロセスＭ_μおよびデモンストレーションのコレクションにわたって分布Ｄ_μと関連する。Δ（Ｘ）は、セットＸに対する確率分布のセットを示す。マルコフ決定過程Ｍ_μ：＝（Ｓ、Ａ、ρ_μ、Ｐ_μ、Ｒ_μ、γ）は、状態Ｓセット、アクションＡセット、初期状態分布ρ_μ∈Δ（Ｓ）、遷移分布Ｐ_μ：Ｓ×Ａ－＞Δ（Ｓ）、Ｓ×Ａから実数値のランダム変数の空間へのマッピングであるランダム報酬Ｒ_μ、ディスカウント因子γ∈［０、１］を有する。Ｓ：＝∪_μＳ_μまたはＡ：＝∪_μＡ_μは、これらのセットがμに依存する場合に定義される。無限水平線の設定はγ＜１とともに考慮されるが、これだけでなく、エピソードの設定はγ≦１とともに考慮されるが、これらは一部の状態が吸収され、報酬がゼロであると仮定してモデリングされる。

を状態－アクション履歴の空間とし、

をこのような履歴をアクションにわたる分布にマッピングされるポリシーの空間とする。タスクμに対するポリシー

の予想された収益（報酬）を

とする場合、

は、ρ_μ、Ｐ_μ、およびπからサンプリングされる状態－アクションシーケンス（ｓ０、ａ０、ｓ１、ａ１、・・・）の期待値となる。各タスクμに対し、マルコフ決定過程Ｍ_μは、Ｊ_μ（・）がポリシーに対して存在するようにし、Ｊ_μ（・）を最大化する最適な（訓練済みの）ポリシーが存在するようなものであると想定されてよい。

を最適なポリシーの期待収益とする。

デモンストレーションは、ランダムな長さ

の観察値

のシーケンス

を含む。観察値は、

となるようにする状態－アクションペアであってよく、観察値は、

となるようにする状態であってよく、または観察値は、状態に対する部分情報だけを提供するイメージまたは他のセンサ測定値および／または推定値であってよい。このような観察値は、デモンストレーションモジュールから由来してもよい。観察値は、マルコフ決定過程Ｍ_μと関連する必要がない。ゼロでない有限な長さのすべての観察値シーケンスのセットは、例えば、Ｋｌｅｅｎｅプラス演算を使用し、Ω^＋によって示されてよい。

タスクμのデモンストレーションのコレクションは、分布Ｄ_μからサンプリングされる。デモンストレーションのコレクション

は、多数

個のそれぞれのデモンストレーション、例えば、ランダム個数のそれぞれのデモンストレーションを含む。デモンストレーションのコレクションのセットは、Ｄ：＝（Ω^＋）^＋によって示されてよい。

Ｆｅｗ－ｓｈｏｔ模倣は、上述したように、タスクの分布η、およびそれぞれのタスクμに対する、マルコフ決定過程Ｍ_μおよびデモンストレーションのコレクションの分布Ｄ_μによって説明されてよい。目標は、タスクの平均収益を最大化するために、タスクμ～ηのデモンストレーションのコレクションｄ～Ｄ_μをポリシーにマッピングするエージェント

を訓練するものであってよい。

ポリシーは、アクションＡの確率質量（ｐｒｏｂａｂｉｌｉｔｙｍａｓｓ）または密度関数によって与えられると仮定されてよい。このような仮定により、上記の目標は、履歴ｈとデモンストレーションｄが与えられれば、次の関数を最大化する、アクションａの確率

を決定または割り当てるデモンストレーション条件付きポリシー（π）を見つけ出すことと同等であってよい。

本明細書では、Ｆｅｗ－ｓｈｏｔ模倣に対する簡単かつ直接的な接近法を採択するＤＣＲＬについて説明する。入力は、次の式によって説明される訓練セットである。

ここで、それぞれのｄ^ｉ∈Ｄはタスクμ^ｉのデモンストレーションのコレクションであり、

はそのタスクに対するマルコフ決定過程である。デモンストレーション条件付きポリシーπまたはポリシーネットワークは、以下で説明する経験的平均累積報酬を最大化するために訓練モジュールによって訓練される。

この目標を大略的に最大化するために、訓練モジュールは、追加されるデモンストレーション（ら）が、例えば、アルゴリズム１（ライン１１）に示される再生バッファ（ｒｅｐｌａｙｂｕｆｆｅｒ）のタプルに使用される強化学習（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ：ＲＬ）アルゴリズムを使用してよい。

アルゴリズム１：デモンストレーション条件付き強化学習

ライン１では、モデルパラメータに対する訓練セットと初期値が入力として与えられる。訓練セットはＮ個のペアを含み、各ペアは、デモンストレーションのコレクションと対応するマルコフ決定過程（Ｍａｒｋｏｖｄｅｃｉｓｉｏｎｐｒｏｃｅｓｓ：ＭＤＰ）を含む。

ライン２では、再生バッファのコンテンツは空になっている。

ライン３～１４のループでは、訓練モジュールは、複数の収斂基準が満たされるまで訓練アップデートを実行する。モデルが有効性確認タスク（ｖａｌｉｄａｔｉｏｎｔａｓｋ）のセットに対して過適合であると見なされる場合、訓練タスクに対する性能が停滞した（ｐｌａｔｅａｕｅｄ）ものと見なされる場合、すべての訓練タスクに対する成功率が閾値を超過する場合、または利用可能な計算予算が満了した場合には、基準の１つの例示的なセットは停止されてよい。基準の他のセットが使用されてもよい。このループのそれぞれの繰り返しは、訓練モジュールによって実行される２つの段階（再生バッファを満たす段階（ライン４～１０）と、モデルパラメータをアップデートする段階（ライン１１～１３））を有する。

ライン４および５では、訓練モジュールは、訓練セットのデモンストレーション－ＭＤＰペアのうちの１つのインデックスをサンプリングした後、訓練モジュールは、そのＭＤＰに対応する環境を初期化し、初期状態または観察値およびエピソード（すなわち、タスク実行の試み）が完了するという（すなわち、既に完了したという）指示子を返還する。

ライン６～１０のルーフでは、訓練モジュールは、この初期状態から、この環境の１つのエピソードによって再生バッファを満たす。このために、訓練モジュールは、完了指示子が設定されるまで、次の段階（アクションが現在状態－アクション履歴に対するデモンストレーション条件付きポリシーからサンプリングされる（ライン７）、訓練モジュールは、環境から報酬を受け、次の状態に移動し、エピソードが完了するという指示子をアップデートし（ライン８）、訓練モジュールは、この情報を、デモンストレーションの現在コレクションを含むタプルとして再生バッファに追加する（ライン９））を繰り返す。

ライン１１～１３では、訓練モジュールは、モデルパラメータをアップデートすることを価値あるように生成するために十分なデータが収集されたかを決定する。例えば、訓練モジュールは、新規エピソードが収集されるたびに、または少なくとも１００個の新規遷移が再生バッファに追加されるたびに、アップデートを行う。ライン１２では、モデルパラメータは、再生バッファのデータを使用する強化学習アルゴリズムを使用して、訓練モジュールによってアップデートされる。強化学習アルゴリズムは、ＰＰＯ（ｐｒｏｘｉｍａｌｐｏｌｉｃｙｏｐｔｉｍｉｚａｔｉｏｎ）アルゴリズム（参照によって本明細書に統合される、ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１７０７．０６３４７のａｒＸｉｖに掲示される、Ｓｃｈｕｌｍａｎなどによる「ＰｒｏｘｉｍａｌＰｏｌｉｃｙＯｐｔｉｍｉｚａｔｉｏｎＡｌｇｏｒｉｔｈｍｓ」で説明される）であってよいが、多様な代案的アルゴリズムが使用されてもよい。使用可能な強化学習アルゴリズムの他の例としては、ＳＡＣ（ｓｏｆｔａｃｔｏｒｃｒｉｔｉｃ）、ＩＱＮ（ｉｍｐｌｉｃｉｔｑｕａｎｔｉｌｅｎｅｔｗｏｒｋ）、ＤＤＱＮ（ｄｏｕｂｌｅｄｅｅｐＱ－ｎｅｔｗｏｒｋ）、およびＰＰＧ（ｐｈａｓｉｃｐｏｌｉｃｙｇｒａｄｉｅｎｔｓ）を含む。最後に、ライン１５では、訓練モジュールは、学習済みのデモンストレーション条件付きポリシーを返還する。

ＤＣＲＬを実現する訓練モジュールは、訓練セットに存在しない新規タスクμに一般化されるポリシーを生成してよい。Ｆｅｗ－ｓｈｏｔ模倣の目的のための高い価値を達成するポリシーが存在するため、デモンストレーションは、当面したタスクの本質に対する十分な情報を含んでいる。例えば、目標に対する上限

を達成するマッピング

が存在するという意味において、分離可能なＦｅｗ－ｓｈｏｔ模倣問題が考慮されてよい。

デモンストレーション条件付きポリシーは、特定の構造

を有してもよい。ここで、

は、デモンストレーションのコレクションを埋め込み空間εにマッピングし、Ｆは、履歴と埋め込み（ｅｍｂｅｄｄｉｎｇ）をアクション確率にマッピングする。

埋め込み関数Φは、デモンストレーションをタスクアイデンティティにマッピングする分類器であると見なされてよく、Ｆは、それぞれの識別されたタスクに対するポリシーであると見なされてよい。しかし、異なるタスクは、同等の最適なポリシーを有してもよく、デモンストレーションに基づいて常に区別が可能ではない。このような状況において、デモンストレーションをタスクアイデンティティにマッピングする分類器が存在しなくても、目的（１）に対して次の上限

を達成することは依然として可能である。デモンストレーションの２つのコレクションは、これらが類似する最適なポリシーをもっている場合、Φの下で近いと見なされてよく、この埋め込み空間で補間することによって新規タスクに対する一般化が達成されてよい。

実施形態において、入力として多様な数のデモンストレーションを受け、デモンストレーションを同時に処理し、平均化によって可能なものよりもさらに豊かな情報の統合を可能にする交差デモンストレーションアテンションをもつポリシーを開示する。この利点は、ナビゲーションに対する実験においてより明らかになるであろう。

トランスフォーマ基盤のポリシーの結果が印象的であるが、これらの入力のサイズにより、計算およびメモリの複雑度は２次的に（ｑｕａｄｒａｔｉｃａｌｌｙ）増加する。そのそれぞれが多変量時系列である多数のデモンストレーションを入力が含む場合、おド六ほどに大きくなる。この費用を克服するために、アキシャルアテンションをもつトランスフォーマアーキテクチャを含むポリシーが使用されてよい。アキシャルアテンションは、トランスフォーマアーキテクチャ基盤のポリシーの効率性を改善する技術／メカニズムである。

テンソル要素の平坦化されたストリングにアテンションを適用する代わりに、訓練モジュールは、平坦化をせずに、テンソルの単一の軸に沿ってアテンションを適用してよく、これはアキシャルアテンションとも呼ばれる。アキシャルアテンションをもつトランスフォーマアーキテクチャを含むポリシーは、高／多次元テンソルとして編成された画像およびその他のデータに対するセルフアテンション基盤の自己回帰（ａｕｔｏｒｅｇｒｅｓｓｉｖｅ）モデルを示してもよい。アキシャルアテンションをもつトランスフォーマアーキテクチャを含むポリシーは、多次元データテンソルの本来の形状は変更せず、テンソルの単一の軸にわたってマスキングされたか（ｍａｓｋｅｄ）マスキングされていない（ｕｎｍａｓｋｅｄ）アテンションを一度に実行するように構成される。この動作は、アテンションｋ（ｘ）によって示されるアキシャルアテンションとも呼ばれる。アキシャルアテンションは、テンソルｘの軸ｋにわたってアテンションを実行し、他の軸に沿って情報を独立的に維持しながらｋ軸に沿って情報を混合する。

図３ｂは、ＤＣＲＬポリシーアーキテクチャを例示的に示した機能ブロック図である。モデルは、エージェントの履歴（ｈ）およびデモンストレーション（ｄ）のコレクションを入力として受け取り、入力に基づいてアクション（ポリシーヘッド、ａ）および推定価値関数（バリューヘッド、Ｖ）を出力する。

ポリシーネットワークは、トランスフォーマアーキテクチャを含み、エンコーダモジュールとデコーダモジュールを含む。エンコーダモジュールは、デモンストレーションのコレクションを埋め込みにマッピングする。エンコーダモジュールは、時間エンコーダ層、交差デモンストレーションエンコーダ層、および平均プーリング層を含む。デコーダモジュールは、埋め込みをコンテキストとして扱い、埋め込みおよびエージェントの履歴に基づいてアクションおよび値を決定する。言い換えれば、デコーダモジュールは、埋め込みをコンテキストとして扱い、埋め込みに基づいてエージェントの履歴をアクションと価値関数にマッピングする。

より詳細には、デモンストレーションｄのセットは、サイズＴ×ｎ×ｄ_ｏｂｓのアレイとして表現されてよく、ここで、Ｔはデモンストレーションの最大の長さ、ｎはデモンストレーションの数、ｄ_ｏｂｓはデモンストレーションの観察値の次元である。Ｔよりも短いデモンストレーションは、マスキングまたはパディングされてよく、各観察値は、例えば、入力埋め込みモジュールにより、次元Ｈの潜在空間（ｌａｔｅｎｔｓｐａｃｅ）にマッピングされてよい。マルチヘッドセルフアテンションメカニズム（例えば、本明細書で提供するトランスフォーマアーキテクチャ）は、その入力の順列と同じであるため、図３ｂの合算器（ｓｕｍｍｅｒ）によって示されるように２Ｄ位置エンコードがデモンストレーションに追加されてよい。その結果、Ｌ個のエンコーダ層（モジュール）のシーケンスを通じて伝達され、各エンコーダ層は個別の訓練可能なパラメータをもつが、同じアーキテクチャをもつ（すなわち、訓練可能なパラメータ以外は同じ）。各エンコーダ層の出力はサイズＴ×ｎ×Ｈである。この出力は、サイズＴ×Ｈの埋め込みｅを得るために、そのデモンストレーション次元にわたって平均されてよい。Ｌ個のエンコーダ層のうちの各層の出力は、Ｌ個のエンコーダ層のうちの次の層に入力される。Ｌ個のエンコーダ層のうちの最後の層（エンコーダ層のうちのＬ番目の層）の出力は、示される平均プーリングに対する出力である。

エージェントの履歴ｈ_ｔと関連して、エージェント履歴ｈ_ｔの各要素は、入力埋め込みモジュールによって次元（Ｈ）の潜在空間にマッピングされてよく、図３ｂに示す合算器（加算器）によって１Ｄ位置エンコードが追加されてよい。サイズＴ’×Ｈの結果的として現れるアレイは、Ｌ個のデコーダ層（モジュール）のシーケンスを通じて供給されるが、ここで、Ｔ’は履歴の長さである。Ｌ個のデコーダ層それぞれは、マルチヘッドセルフアテンションモジュール、埋め込み（ｅ）を使用するマルチヘッドクロスアテンションモジュール、およびフィードフォワードネットワークモジュールを含むアーキテクチャを有するが、それぞれは残差接続（ｒｅｓｉｄｕａｌｃｏｎｎｅｃｔｉｏｎ）によって囲まれて層の正規化が続く。Ｌ個のデコーダ層の各層の出力は、Ｌ個のデコーダ層のうちの次の層に入力される。Ｌ個のデコーダ層のうちの最後の層の出力は多層パーセプトロン（ｍｕｌｔｉ－ｌａｙｅｒｐｅｒｃｅｐｔｒｏｎ：ＭＬＰ）モジュールに供給されるが、ＭＬＰモジュール（ＭＬＰポリシーヘッド）は、その出力に基づいて分布（これからアクションａ_ｔがサンプリングされる）を決定する。オプション事項として、ＲＬアルゴリズムにより、Ｌ個のデコーダ層のうちの最後の層の出力も第２ＭＬＰモジュール（ＭＬＰ値ヘッド）に供給されるが、第２ＭＬＰモジュールは、その出力に基づいて状態－価値関数（ｓｔａｔｅ－ｖａｌｕｅｆｕｎｃｔｉｏｎ：Ｖ_ｔ）の推定値を決定する。

Ｌ個のエンコーダ層の各層は時間層を含んでよく、続いて交差デモンストレーション層、そして情報の流れにおけるポイント単位フィードフォワードネットワーク（ｐｏｉｎｔｗｉｓｅｆｅｅｄｆｏｒｗａｒｄｎｅｔｗｏｒｋ）が後続されてよい。Ｌは１よりも大きい整数である。Ｌ個のエンコーダ層それぞれは、残差接続によって囲まれて層の正規化が続く。入力

に対し、時間層は次の要素

をもつ出力

を有するが、ここで、それぞれの

は、要素

をもつマトリックスである。交差デモンストレーション層は、次の要素

をもつ出力

を有するが、ここで、それぞれの

は、要素

を有する。

での入力に対し、エンコーダの計算および（逆転派（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ））メモリの複雑度は、Ｈだけでなく、固定するヘッドおよび層の数を考慮した上で、２つすべてＯ（Ｔ^２ｎ^２）であってよいが、アキシャルアテンションによってこれらの複雑度は

に減少する。これは、訓練中の計算メモリを節約する。

図３ｂでは、本明細書に記載する訓練を実行するように構成される訓練モジュール３００の一例を示している。

以下では、ＤＣＲＬは、ＤＣＲＬと類似のモデルアーキテクチャを使用することもあるが、ＢＣ損失を最小化するように訓練される２つのデモンストレーション条件付き挙動複製（ｄｅｍｏｎｓｔｒａｔｉｏｎ－ｃｏｎｄｉｔｉｏｎｅｄｂｅｈａｖｉｏｒａｌｃｌｏｎｉｎｇ：ＤＣＢＣ）方法と比較される。連続動作の場合、ＢＣ損失は、ポリシーＭＬＰモジュールの平均アクション出力での二乗された誤差であり、離散アクションの場合、ポリシーＭＬＰモジュールのアクション出力での交差エントロピー損失（ｃｒｏｓｓ－ｅｎｔｒｏｐｙｌｏｓｓ）である。

ＤＣＢＣ＋マルチタスク（Ｍｕｌｔｉ－Ｔａｓｋ：ＭＴ）は、訓練デモンストレーションでアクションを予測するためのＢＣ損失を最小化する。ＤＣＢＣ＋ＲＥＰＴＩＬＥは、モデルをメタ訓練するためにＢＣ損失とカップルリングされるＲｅｐｔｉｌｅアルゴリズム／アーキテクチャを使用する。Ｒｅｐｔｉｌは、計算にかかる費用がより低く、ＭＡＭＬメタ訓練アルゴリズムと類似の性能を算出するメタ学習アルゴリズムである。

訓練のために、各タスクに対する５０００個のデモンストレーションがサンプリングされる。このために、各ポリシーがタスク固有の成功基準によって少なくとも９９％の成功率となるまでタスクごとに１つのポリシーをＰＰＯ法によって訓練する。これらのポリシーからの成功的な軌跡がサンプリングされる。上述したＤＣＲＬおよび２つのＤＣＢＣの例は、このコレクションから均一にサンプリングされるデモンストレーションを使用して訓練され、このようなデモンストレーションの個数は｛１、・・・、４｝から均一にサンプリングされる。

ＤＣＲＬの例は、ライン１２のＰＰＯを使用してアルゴリズム１に示すように訓練される。ＰＰＯ（ＲＬの一タイプ）は、相対的に簡単であり、相対的に短い訓練時間を提供し、結果的にポリシーの品質が高い。ＰＰＯの例を提供したが、本出願は他のタイプのＲＬの使用にも適用可能である。訓練は、２億５千万個の環境フレームまたは他の適切な個数であってよく、ＤＣＲＬモデルは約５．５×１０^５個の学習可能なパラメータをもつ。

ＤＣＲＬおよび２つのＤＣＢＣ接近法は、訓練データセットには存在しない（したがって、訓練に使用されない）タスクに対して評価される。単一のタスクに対するポリシーを評価するために、ポリシーは、それぞれのエピソードに対してランダムにサンプリングされるデモンストレーションおよび初期条件をもち、３００個のエピソードに対して適用される。

性能は、メタ学習アルゴリズムの性能を評価するように本来設計された、ロボット操作ベンチマークであるＭｅｔａ－Ｗｏｒｌｄ（メタワールド）（参照によって本明細書に統合される、ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１９１０．１０８９７のａｒＸｉｖ上に掲示される、Ｙｕなどによる「Ｍｅｔａ－Ｗｏｒｌｄ：ＡＢｅｎｃｈｍａｒｋａｎｄＥｖａｌｕａｔｉｏｎｆｏｒＭｕｌｔｉ－ＴａｓｋａｎｄＭｅｔａＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ」で説明）を使用することによって評価される。メタワールドで明示される報酬関数は、エージェントがタスクを成功的に完了することよりも高い報酬の領域に留まることが好ましい。しかし、本明細書で説明するＤＣＲＬ接近法の場合、報酬の時間導関数のように作動する修正された報酬が使用されてよい。

表１は、１つまたは５つの入力デモンストレーションに対して、すべてのメタワールドタスクで平均されたＤＣＲＬおよびＤＣＢＣ＋ＭＴの返還と成功率を示しており、微調整のないＦｅｗ－ｓｈｏｔ模倣のタスクに対する、ＤＣＲＬのディスカウントされた返還および成功率をＤＣＢＣ＋ＭＴと比較している。本明細書に記載するＤＣＲＬは、ＤＣＢＣ＋ＭＴに比べて相当な改善を提供する。

ＤＣＲＬは、デモンストレーションでのデモンストレーション者のアクションを使用して、新規タスクに対して効果的に微調整される。挙動複製を使用してＤＣＲＬを微調整することは、各タスクに対して最小の時間（例えば、何秒）しか必要としない。

ＤＣＲＬは、４つのデモンストレーションに対する微調整の後、すべてのメタワールドタスクで９０％の成功率を達成することができた。これは、他の成功率に比べて高い改善となった。

ＤＣＢＣ＋ＲＥＰＴＩＬＥは、ＤＣＢＣ＋ＭＴよりも優れた初期化ポイントを提供するが、このような利点は、デモンストレーションの数によって減少することもある。しかし、ＤＣＲＬは、すべてのＤＣＢＣ接近法よりも優れた初期化ポイントを提供する。ＤＣＲＬは、訓練中の環境と相互作用することができ、これによってＢＣ基盤の方法の複合的なエラーを克服することができる。

デモンストレーション者とエージェントの間のドメインシフトに対するＤＣＲＬの堅固性を評価するために、デモンストレーションは、ＬＩＭＳ２－ＡＭＢＩＤＥＸロボットに対するＰＰＯポリシーを使用して収集されてよい。本来のメタワールドベンチマークではＳａｗｙｅｒロボットを使用した。ＡＭＢＩＤＥＸロボットは、Ｓａｗｙｅｒロボットと同様に７自由度（ｄｅｇｒｅｅｓｏｆｆｒｅｅｄｏｍ：ＤｏＦ）を備えるが、その観察値は、それらがグリッパー方向に関する情報を含むため

内にあり、機械的構造が異なる。

表２は、Ｓａｗｙｅｒ（上段）またはＡＭＢＩＤＥＸ（下段）からのデモンストレーションを入力として使用し、４３個のメタワールドタスクで平均されたＤＣＲＬの返還および成功率を示しており（ＳａｗｙｅｒデモンストレーションおよびＳａｗｙｅｒ環境で訓練およびテスト済み）、ドメインシフトのないＤＣＲＬに対する（ＡＭＢＩＤＥＸデモンストレーションおよびＳａｗｙｅｒ環境で訓練およびテスト済みの）ドメインシフトをもつＤＣＲＬの平均返還および成功率を示している。２つの設定に対する結果は類似しており、ＤＣＲＬがドメインシフトに対処できることを示している。

新規タスクが提示されるときに、ＤＣＲＬが次善のデモンストレーションを上回ることができるかどうかを調査するために、タスク固有の専門家ＰＰＯポリシーによって実行されるアクションにノイズを追加することによってデモンストレーションがサンプリングされる。共分散

をもつゼロ平均ガウスノイズが追加されるが、ここで、標準偏差σは、調整可能なパラメータである。本明細書で使用するＦｅｗ－ｓｈｏｔは、１０回以下のデモンストレーションを意味してよい。

実験は、σ＞２の場合には、以前にタスクを経験したことがまったくなくても、ＤＣＲＬがタスク固有のデモンストレーションよりも成功的であることを示した。

第２テストには６０個のタスクが含まれるが、それぞれが迷路レイアウトに対応する。図４に示すように、エージェントは、与えられたペアの位置の間を（開始位置から終了位置まで）ナビゲーティングしなければならない。これは、デモンストレーション全般にわたる情報の統合をエージェントの能力に求める。エージェント観察値のいかなる情報も現在のレイアウトを明示しないため、エージェントは、壁に衝突せずに終了ポイントまで効率的に到達するためにはデモンストレーションを利用してレイアウトを学習しなければならない。図４は、ナビゲーションタスクの３つの例を示している。×表示は目標であり、暗い点はデモンストレーションであり、明るい点はＤＣＲＬエージェントの履歴である。

各タスクにおいて、観察値は

（エージェントと目標の位置、エージェント速度、および方向）にあり、４つのアクション（前進、後退、左折、右折）があり、報酬は目標到達に対するボーナスと壁衝突に対するペナルティを伴い、エージェントと目標の間のユークリッド距離（Ｅｕｃｌｉｄｅａｎｄｉｓｔａｎｃｅ）を引くことにより、遷移関数はＶｉＺＤｏｏｍ（参照によって本明細書に統合される、ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＩｎｔｅｌｌｉｇｅｎｃｅａｎｄＧａｍｅｓ，ＣＩＧ，ｐｐ．１－８，２０１６に掲示される、Ｋｅｍｐｋａなどによる“ＶｉＺＤｏｏｍ：ＡＤｏｏｍ－ｂａｓｅｄＡＩｒｅｓｅａｒｃｈｐｌａｔｆｏｒｍｆｏｒｖｉｓｕａｌｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ”で説明される）を使用して計算され、目標およびエージェントの初期位置は均一にサンプリングされる。ＤＣＲＬは、５０個の迷路の固定セットで訓練され、残りの１０個の迷路でテストされる。

表３は、１つまたは５つのデモンストレーションを入力として使用し、１０個のテスト迷路で平均される返還と成功率を示しており、微調整のないＦｅｗ－ｓｈｏｔ模倣に対するＤＣＲＬの性能をＤＣＢＣ＋ＭＴと比較する。メタワールドに対する結果（表１）と同様に、ＤＣＲＬはＤＣＢＣ＋ＭＴに比べて相当に改善され、ＤＣＲＬの性能はより多くのデモンストレーション提供によって増加する。この増加についての１つ説明は、様々なデモンストレーションが迷路の様々な部分をカバーすることが多いため、初期および目標位置のペアの中には、様々なデモンストレーションからの情報を統合することによってのみ対処できる場合がある。

微調整は、より小さな性能改善を提供する。

交差デモンストレーションアテンションの利点を理解するために、入力として５つのデモンストレーションを使用するＤＣＲＬは、ＤＣＲＬに対する５つのデモンストレーションそれぞれが一度に１つずつ提供され、結果として現れるアクション確率が平均されるアルゴリズムと比較される。交差デモンストレーションアテンションは、１つのデモンストレーションが目標の曖昧さを完全に解決できない場合に複数のデモンストレーションを処理することに役立つであろうという期待に沿って、１０個のテスト迷路すべてに一貫した利点がある。

上述した実施形態は、方法段階の文脈として説明したが、これらも、対応する装置またはシステムの対応する要素、モジュール、または特徴の説明を示す。

本明細書で説明する方法および例示的な実施形態は、図５で示すようなアーキテクチャ内で実現されてよく、そのアーキテクチャは、サーバ５００およびデータ交換のためにインターネットのようなネットワーク５０４（無線および／または有線）を介して通信する１つ以上のコンピュータデバイス５０２を含む。サーバ５００およびコンピュータデバイス５０２は、プロセッサ５１２およびメモリ５１３を含む。コンピュータデバイス５０２は、自律車両５０２ｂ、ロボット５０２ｃ、コンピュータ５０２ｄ、またはセルフォン５０２ｅを含むが、これらに制限されてはならず、サーバ５００と通信する任意のタイプのコンピュータデバイスであってもよい。コンピュータデバイスの制御モジュールは、アクチュエータを作動させてよい。例えば、自律車両５０２ｂの制御モジュールは、モータ、ブレーキ、ステアリング、または自律車両５０２ｂの他の適切なアクチュエータを作動させてよい。ロボット５０２ｃの例において、制御モジュールは、モータ、ブレーキ、グリッパ、線形アクチュエータ、またはロボット５０２ｃの他の適切なアクチュエータを作動させてよい。

より詳細には、一実施形態において、図１および／または図２の例に係る方法は、サーバ５００、自律車両５０２ｂ、および／またはロボット５０２ｃによって実行されてよい（例えば、ここで、コンピュータデバイス５０２のメモリ５１３に記録されるプロセッサ５１２によって実行される命令語は、ポリシーネットワークを含む制御モジュール、自律車両５０２ｂ、および／またはロボット５０２ｃをナビゲーティングするためのトランスフォーマアーキテクチャを含む訓練モジュールを使用することで、開示の方法を具体化する）。他の実施形態において、図１および／または図２の実施形態に係る方法は、クライアントデバイス５０２によって部分的または完全に実行されてよい。他の実施形態において、方法は、分散方式によって異なるサーバまたは複数のサーバ上で実行されてもよい。

Ｆｅｗ－ｓｈｏｔ模倣学習は、新規タスクを実行するためにエージェント（例えば、ロボット）が学習するのに必要となるデモンストレーションの数を減少させる。デモンストレーション条件付き強化学習（ＤＣＲＬ）は、本明細書において、Ｆｅｗ－ｓｈｏｔ模倣を実行するために使用される。ＤＣＲＬが訓練のための報酬関数の追加の費用を伴うこともあるが、他のＦｅｗ－ｓｈｏｔ模倣方法に比べると、推論時間でのデモンストレーション数の減少および新規タスクに対する改善された成功率は圧倒的である。ロボット操作およびナビゲーションテストに対する結果は、エージェントとデモンストレーションの間にドメインシフトがある場合にも、ＤＣＲＬが最適でないデモンストレーションを改善し、成功するということを示した。

上述した説明は本質的に例示的なものに過ぎず、本開示、その応用、または用途を制限することを意図としない。本開示の広範囲な教示は、多様な形態で実現されてよい。したがって、本開示は特定の例を含むが、本開示の真正な範囲は、図面、明細書、および添付の特許請求の範囲の研究によれば他の修正が明白であるため、そのように制限されてはならない。方法内の１つ以上の段階は、本開示の原理を変更しながら異なる順序（または、同時に）で実行されてもよいことが理解されなければならない。また、各実施形態が所定の特徴をもつものと説明したが、本開示の任意の実施形態と関連して説明したこれらの特徴のうちの任意の１つ以上は、他の実施形態のうちの任意のものと特徴において、および／または組み合わせが明確に説明されていなくても、他の実施形態のうちの任意の特徴と組み合わせて実現されてよい。言い換えれば、上述した実施形態は、相互排他的ではなく、１つ以上の実施形態との相互置換（ｐｅｒｍｕｔａｔｉｏｎ）は、本開示の範囲内に含まれる。

要素間の（例えば、モジュール、回路要素、半導体層などの間の）空間的および機能的関係は、「連結する（ｃｏｎｎｅｃｔｅｄ）」、「結合する（ｅｎｇａｇｅｄ）」、「カップルリングする（ｃｏｕｐｌｅｄ）」、「隣接する（ａｄｊａｃｅｎｔ）」、「横の（ｎｅｘｔｔｏ）」、「～上の（ｏｎｔｏｐｏｆ）」、「上の（ａｂｏｖｅ）」、「下の（ｂｅｌｏｗ）」、および「配置される（ｄｉｓｐｏｓｅｄ）」を含んだ多様な用語を使用して説明される。「直接的な（ｄｉｒｅｃｔ）」ものと明らかに説明していない限り、第１要素と第２要素の関係を前記開示で説明するときに、その関係は、第１要素と第２要素の間に何の要素も介在しない直接的な関係でもあるが、第１要素と第２要素の間に１つ以上（空間的にまたは機能的に）の要素が介在する間接的な関係であってもよい。本明細書で使用する語句「Ａ、Ｂ、およびＣのうちの少なくとも１つ」は、非排他的な論理的ＯＲを使用して論理（ＡＯＲＢＯＲＣ）を意味するとして解釈されなければならず、「Ａのうちの少なくとも１つ、Ｂのうちの少なくとも１つ、およびＣのうちの少なくとも１つ」を意味するように解釈されてはならない。

図面において、矢印（ａｒｒｏｗｈｅａｄ）で示す方向は、一般的に、例示に重要となる情報（例えば、データまたは命令語）の流れを示す。例えば、要素Ａおよび要素Ｂが多様な情報を交換し、要素Ａから要素Ｂに送信される情報が例示に関連する場合、矢印は要素Ａから要素Ｂを示す。この単方向の矢印は、要素Ｂから要素Ａには他のいかなる情報も送信されないということを暗示するものではない。要素Ａから要素Ｂに送信される情報の場合、要素Ｂは、要素Ａからの情報に対する要請またはその情報の受信確認の応答（ｒｅｃｅｉｐｔａｃｋｎｏｗｌｅｄｇｅｍｅｎｔ）を送信することもある。

本出願において、以下の定義を含み、用語「モジュール」または用語「コントローラ」は、用語「回路」に置換されてよい。用語「モジュール」は、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、デジタル、アナログ、または混合したアナログ／デジタル離散回路、デジタル、アナログ、または混合アナログ／デジタル集積回路、組合論理回路、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、コードを実行するプロセッサ回路（共有、専用、またはグループ）、プロセッサ回路によって実行されるコードを記録するメモリ回路（共有、専用、またはグループ）、説明した機能性（ｆｕｎｃｔｉｏｎａｌｉｔｙ）を提供する他の適切なハードウェア要素、または、例えば、システムオンチップでの上述した一部またはすべての組み合わせを含んでもよく、これらの一部であってもよく、これらを含むものであってもよい。

モジュールは、１つ以上のインタフェース回路を含んでもよい。多様な例において、インタフェース回路は、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、インターネット、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、またはこれらの組み合わせによって接続される有線または無線インタフェースを含んでよい。本開示の任意の与えられたモジュールの機能性は、インタフェース回路を介して接続される多数のモジュールの間に分散されてもよい。例えば、多数のモジュールが負荷分散を許容してもよい。また他の例において、サーバ（遠隔、またはクラウド、または既知の）モジュールは、クライアントモジュールの代わりに多数の機能性を実行してよい。

上記で使用した用語コードは、ソフトウェア、ファームウェア、および／またはマイクロコードを含んでよく、プログラム、ルーチン、関数、クラス、データ構造、および／またはオブジェクトを指称してもよい。用語共有されたプロセッサ回路は、多数のモジュールからの複数またはすべてのコードを実行する単一のプロセッサ回路を包括する。用語グループプロセッサ回路は、追加のプロセッサ回路と結合して、１つ以上のモジュールからのコードのうちの一部またはすべての実行プロセッサ回路を包括する。多数のプロセッサ回路に関する言及は、個別のダイ上の多数のプロセッサ回路、単一のダイ上の多数のプロセッサ回路、単一のプロセッサ回路の多数のコア、単一のプロセッサ回路の多数のスレッド、またはこれらの組み合わせを包括する。用語共有されたメモリ回路は、多数のモジュールからの複数またはすべてのコードを記録する単一のメモリ回路を包括する。用語グループメモリ回路は、追加のメモリと結合して、１つ以上のモジュールからの複数またはすべてのコードを記録するメモリ回路を包括する。

用語メモリ回路は、用語コンピュータ読み取り可能な媒体のサブセットである。用語コンピュータ読み取り可能な媒体は、本明細書で使用されるとき、媒体を介して（例えば、搬送波（ｃａｒｒｉｅｒｗａｖｅ）上で）伝播される一時的な電気または電磁気信号を含まず、したがって、用語コンピュータ読み取り可能な媒体は、類型であって非一時的なものとして見なさる。非一時的な類型のコンピュータ読み取り可能な媒体の非制限的な例としては、不揮発性メモリ回路（例えば、フラッシュメモリ回路、消去可能なプログラミング可能な読み取り専用メモリ回路、またはマスク読み取り専用メモリ回路）、揮発性メモリ回路（例えば、静的ＲＡＭ回路または動的ＲＡＭ回路）、磁気記録媒体（例えば、アナログまたはデジタル磁気テープまたはハードディスクドライブ）、および光学記録媒体（例えば、ＣＤ、ＤＶＤ、またはブルーレイディスク）が挙げられる。

本出願で説明する装置および方法は、コンピュータプログラムで具体化される１つ以上の特定の機能を実行するように汎用コンピュータを構成することによって生成される特殊目的コンピュータによって部分的または完全に実現されてよい。上述した機能ブロック、フローチャート要素、および他の要素は、熟練した技術者またはプログラマーの日常業務によってコンピュータプログラムに変換することのできるソフトウェアとしての役割を担う。

コンピュータプログラムは、少なくとも１つの非一時的な類型のコンピュータ読み取り可能な媒体上に記録されるプロセッサ実行可能な命令語を含む。コンピュータプログラムも、記録されたデータを含むかこれに依存してよい。コンピュータプログラムは、特殊目的コンピュータのハードウェアと相互作用する基本入力／出力システム（ｂａｓｉｃｉｎｐｕｔ／ｏｕｔｐｕｔｓｙｓｔｅｍ：ＢＩＯＳ）、特殊目的コンピュータの特定のデバイスと相互作用するデバイスドライバ、１つ以上のオペレーティングシステム、ユーザアプリケーション、バックグラウンドサービス、バックグラウンドアプリケーションなどを含んでよい。

コンピュータプログラムは、（ｉ）ＨＴＭＬ（ｈｙｐｅｒｔｅｘｔｍａｒｋｕｐｌａｎｇｕａｇｅ）、ＸＭＬ（ｅｘｔｅｎｓｉｂｌｅｍａｒｋｕｐｌａｎｇｕａｇｅ）、またはＪＳＯＮ（ＪａｖａＳｃｒｉｐｔＯｂｊｅｃｔＮｏｔａｔｉｏｎ）のような、パーシングされる技術テキスト（ｄｅｓｃｒｉｐｔｉｖｅｔｅｘｔ）、（ｉｉ）アセンブリコード、（ｉｉｉ）コンパイラによってソースコードから生成されるオブジェクトコード、（ｉｖ）インタプリタによる実行のためのソースコード、（ｖ）適時の（ｊｕｓｔ－ｉｎ－ｔｉｍｅ）コンパイラによるコンパイルおよび実行のためのソースコードなどを含んでよい。一例として、ソースコードは、Ｃ、Ｃ＋＋、Ｃ＃、ＯｂｊｅｃｔｉｖｅＣ、Ｓｗｉｆｔ、Ｈａｓｋｅｌｌ、Ｇｏ、ＳＱＬ、Ｒ、Ｌｉｓｐ、ＪａｖａＲ、Ｆｏｒｔｒａｎ、Ｐｅｒｌ、Ｐａｓｃａｌ、Ｃｕｒｌ、ＯＣａｍｌ、ＪａｖａＳｃｒｉｐｔＲ、ＨＴＭＬ５、Ａｄａ、ＡＳＰ（ＡｃｔｉｖｅＳｅｒｖｅｒＰａｇｅｓ）、ＰＨＰ（ＨｙｐｅｒｔｅｘｔＰｒｅｐｒｏｃｅｓｓｏｒ）、Ｓｃａｌａ、Ｅｉｆｆｅｌ、Ｓｍａｌｌｔａｌｋ、Ｅｒｌａｎｇ、Ｒｕｂｙ、ＦｌａｓｈＲ、ＶｉｓｕａｌＢａｓｉｃＲ、Ｌｕａ、ＭＡＴＬＡＢ、ＳＩＭＵＬＩＮＫ、およびＰｙｔｈｏｎＲを含む言語からの構文を使用して作成されてよい。

Claims

プロセッサおよびメモリによって実行されて、少なくとも１つのタスクを実行するための訓練済みのポリシーネットワークを含むエージェントとして具体化される方法であって、
前記エージェントを使用して実行される前記方法は、
前記プロセッサが、
前記訓練済みのポリシーネットワークに対する入力として、前記訓練済みのポリシーネットワークを訓練させるために使用された訓練データに含まれていたデモンストレーションではない、新規のタスクと関連する第１のデモンストレーション（ｄｅｍｏｎｓｔｒａｔｉｏｎ）のセットと観察値を取得する段階、
前記第１のデモンストレーションと関連する前記タスクを実行するために、前記第１のデモンストレーションのセットと前記観察値を前記訓練済みのポリシーネットワークに入力する段階、および
前記訓練済みのポリシーネットワークにより、前記入力された第１のデモンストレーションのセットと前記入力された観察値に基づいて実行される少なくとも１つのアクションを決定する段階を含み、
前記訓練済みのポリシーネットワークは、強化学習（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）を使用して訓練され、
前記訓練済みのポリシーネットワークは、アキシャルアテンション（ａｘｉａｌａｔｔｅｎｔｉｏｎ）を有するトランスフォーマアーキテクチャ（ｔｒａｎｓｆｏｒｍｅｒａｒｃｈｉｔｅｃｔｕｒｅ）を備え、
前記訓練済みのポリシーネットワークは、前記第１のデモンストレーションのセットを処理するための第１セルフアテンションモジュール（ｓｅｌｆ－ａｔｔｅｎｔｉｏｎｍｏｄｕｌｅ）、前記観察値を処理するための第２セルフアテンションモジュール、および前記第１のデモンストレーションのセットおよび前記観察値を処理するためのクロスアテンションモジュール（ｃｒｏｓｓ－ａｔｔｅｎｔｉｏｎｍｏｄｕｌｅ）を含む、方法。
ロボットまたは前記ロボットの部品を制御すること、マシンを制御すること、車両を制御すること、および環境の状態を操作することのうちの少なくとも１つを含む少なくとも１つのアクションを決定する段階をさらに含む、
請求項１に記載の方法。
前記第１のデモンストレーションのセットのうちのデモンストレーションは、観察値のシーケンスを含み、前記観察値のそれぞれは、状態－アクションペア（ｓｔａｔｅ－ａｃｔｉｏｎｐａｉｒ）、状態、位置、イメージ、およびセンサ測定値のうちの少なくとも１つを含む、
請求項１に記載の方法。
前記タスクは、ロボットによってオブジェクトを操作するための操作タスクを含み、
前記観察値は、前記ロボットの１つ以上の部品に関する情報を含み、
前記第１のデモンストレーションのセットは、前記ロボットの前記１つ以上の部品の位置および方向のうちの少なくとも１つを含むシーケンスを含み、
前記方法は、実行される前記決定されたアクションに基づいて前記ロボットの少なくとも１つのアクチュエータを制御する段階をさらに含む、
請求項１に記載の方法。
前記タスクは、ロボットをナビゲーティングするためのナビゲーションタスクを含み、
前記観察値は、前記ロボットの１つ以上の部品に関する情報を含み、
前記第１のデモンストレーションのセットは、前記ロボットの位置のシーケンスを含み、
前記方法は、実行される前記決定されたアクションに基づいて前記ロボットの少なくとも１つのアクチュエータを制御する段階をさらに含む、
請求項１に記載の方法。
Ｆｅｗ－ｓｈｏｔ模倣（ｆｅｗ－ｓｈｏｔｉｍｉｔａｔｉｏｎ）を実行するためのコンピュータ実現方法であって、
訓練データの少なくとも１つのセット（訓練データの各セットは、タスクと関連して（ｉ）報酬関数および報酬のサンプルのうちの少なくとも１つ、（ｉｉ）遷移分布および状態遷移のサンプルのうちの少なくとも１つ、および（ｉｉｉ）第１のデモンストレーションのセットを含む）を取得する段階、
前記訓練データの少なくとも１つのセットの第１のデモンストレーションの少なくとも１つのセットをポリシーネットワークに入力することと、危険尺度またはそれぞれの１つ以上の報酬関数または報酬のそれぞれのサンプルに基づいて前記訓練データの少なくとも１つのセットの前記第１のデモンストレーションの少なくとも１つのセットの平均収益（ａｖｅｒａｇｅｒｅｔｕｒｎ）を最大化することにより、強化学習を使用してエージェントで具体化されるポリシーネットワークを訓練させる段階、
前記訓練データに含まれない新規のタスクと関連する第２のデモンストレーションのセットを取得する段階、および
前記新規のタスクを実行するために、前記第２のデモンストレーションのセットおよび状態の観察値を訓練済みのポリシーネットワークに入力する段階を含み、
前記ポリシーネットワークは、
アキシャルアテンションを有するトランスフォーマアーキテクチャ、および
前記第２のデモンストレーションのセットを処理するように構成される第１セルフアテンションモジュール、前記状態の前記観察値を処理するように構成される第２セルフアテンションモジュール、および前記第２のデモンストレーションのセットおよび前記状態の前記観察値を処理するように構成されるクロスアテンションモジュールを含む、
Ｆｅｗ－ｓｈｏｔ模倣を実行するためのコンピュータ実現方法。
前記コンピュータ実現方法は、
前記入力された第１のデモンストレーションの少なくとも１つのセットを第１多次元テンソルとしてエンコードし、前記第１多次元テンソルの単一の軸に沿って前記ポリシーネットワークの第１トランスフォーマによってアテンションを適用する段階、および
前記入力された第２のデモンストレーションのセットを第２多次元テンソルとしてエンコードし、前記第２多次元テンソルの単一の軸に沿って前記ポリシーネットワークの第２トランスフォーマのアテンションを適用する段階
のうちの少なくとも１つをさらに含む、請求項６に記載のＦｅｗ－ｓｈｏｔ模倣を実行するためのコンピュータ実現方法。
前記新規のタスクと関連する第２のデモンストレーションのセットを取得する段階、および前記新規のタスクを実行するために前記第２のデモンストレーションのセットと状態の観察値を前記訓練済みのポリシーネットワークに入力する段階は、推論時間に実行され、
前記訓練データの少なくとも１つのセットを取得する段階、および強化学習を使用してポリシーネットワークを訓練する段階は、訓練時間中に実行される、
請求項６に記載のＦｅｗ－ｓｈｏｔ模倣を実行するためのコンピュータ実現方法。
前記ポリシーネットワークを訓練するために、前記訓練データの少なくとも１つのセットの前記第１のデモンストレーションの少なくとも１つのセットを前記ポリシーネットワークに入力する段階は、
ポリシーネットワークを訓練するために、前記エージェントの状態、状態－アクションペア、および観察－アクション履歴のうちの少なくとも１つを前記ポリシーネットワークに入力する段階を含む、
請求項６に記載のＦｅｗ－ｓｈｏｔ模倣を実行するためのコンピュータ実現方法。
前記訓練データの少なくとも１つのセットの前記第１のデモンストレーションの少なくとも１つのセットは、少なくとも２つのタスクのデモンストレーションを含み、
前記訓練データの少なくとも１つのセットの前記第１のデモンストレーションの少なくとも１つのセットの前記平均収益を最大化することは、前記少なくとも２つのタスクの平均累積報酬を最大化することを含む、
請求項６に記載のＦｅｗ－ｓｈｏｔ模倣を実行するためのコンピュータ実現方法。
システムであって、
第１のデモンストレーションのセットを含む訓練タスクのセットに基づいて訓練され、トランスフォーマアーキテクチャによって生成される多次元テンソルの単一の軸上でアキシャルアテンションを有する前記トランスフォーマアーキテクチャを含むポリシーネットワークを含む制御モジュール、および
前記訓練タスクとは異なるタスクである新規のタスクと関連する第２のデモンストレーションのセットおよび状態の観察値を前記ポリシーネットワークに入力し、前記入力された第２のデモンストレーションのセットに基づいて生成される前記多次元テンソルの前記単一の軸に基づいて前記トランスフォーマアーキテクチャのエンコーダモジュールの加重値パラメータを訓練するように構成される訓練モジュールを含み、
前記ポリシーネットワークは、前記第２のデモンストレーションのセットを処理するように構成される第１セルフアテンションモジュール、前記状態の前記観察値を処理するように構成される第２セルフアテンションモジュール、および前記第２のデモンストレーションのセットおよび前記状態の前記観察値を処理するように構成されるクロスアテンションモジュールを含む、システム。
前記訓練モジュールは、前記ポリシーネットワークの平均収益を最大化することに基づいて前記エンコーダモジュールの前記加重値パラメータを訓練するように構成される、請求項１１に記載のシステム。
前記制御モジュールは、前記ポリシーネットワークの出力に基づいてアクチュエータを選択的に作動させるように構成される、請求項１１に記載のシステム。
前記トランスフォーマアーキテクチャは、前記第２のデモンストレーションのセットに基づいて前記多次元テンソルを生成するように構成されるエンコーダモジュールを含む、請求項１１に記載のシステム。
前記第２のデモンストレーションのセットの各デモンストレーションは、時系列の観察値を含む、請求項１１に記載のシステム。
前記時系列の観察値は、ランダムな長さを有する、請求項１５に記載のシステム。
それぞれの観察値は、
状態－アクションペア、状態、位置、イメージ、および測定値のうちの少なくとも１つを含む、請求項１５に記載のシステム。
前記タスクはオブジェクトを操作するものであり、前記第２のデモンストレーションのセットはロボットの位置および方向のシーケンスを含む、請求項１１に記載のシステム。
前記タスクは、目標位置に向かってナビゲーティングすることを含み、
前記第２のデモンストレーションのセットは、ナビゲーティングロボットの位置のシーケンスを含む、請求項１１に記載のシステム。
前記ポリシーネットワークは、直列接続するＬ個のエンコーダ層を含み、Ｌは１よりも大きい整数である、請求項１１に記載のシステム。
前記ポリシーネットワークは、前記Ｌ個のエンコーダ層の出力に基づいてアクションを決定するように構成されるＬ個のデコーダ層をさらに含む、請求項２０に記載のシステム。
メモリに記録される命令語を実行するプロセッサをさらに含み、
前記メモリに記録される前記命令語は、前記ポリシーネットワークを含め、前記制御モジュールおよび前記訓練モジュールに対する命令語をさらに含む、請求項１１に記載のシステム。
前記命令語は、強化学習を使用し、前記訓練タスクを利用して前記ポリシーネットワークを訓練するための命令語をさらに含む、請求項２２に記載のシステム。
前記命令語は、前記訓練タスクとは異なる前記新規のタスクと関連する前記第２のデモンストレーションのセットに基づいて実行される少なくとも１つのアクションを決定するように構成される、前記ポリシーネットワークを含むエージェントに対する命令語をさらに含む、請求項２３に記載のシステム。
前記少なくとも１つのアクションは、ナビゲーションアクションである、請求項２４に記載のシステム。
前記エージェントは、ロボットに対する前記ナビゲーションアクションを決定する、請求項２５に記載のシステム。
強化学習を使用する前記命令語は、プロキシマルポリシー最適化（ｐｒｏｘｉｍａｌｐｏｌｉｃｙｏｐｔｉｍｉｚａｔｉｏｎ）を使用する、請求項２３に記載のシステム。