JP7271645B2

JP7271645B2 - ロボットの変換器を基盤としたメタ模倣学習

Info

Publication number: JP7271645B2
Application number: JP2021188636A
Authority: JP
Inventors: パレスジュリエン; スンスキム; カシェテオ
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2020-11-20
Filing date: 2021-11-19
Publication date: 2023-05-11
Anticipated expiration: 2041-11-19
Also published as: JP2022082464A; US20220161423A1; KR20220069823A

Description

本出願は、２０２０年１１月２０日に出願された米国仮出願第６３／１１６，３８６号の利益を主張する。上述した出願の開示内容のすべては、本明細書の記載内容として参照されるものとする。

本開示は、ロボット（ｒｏｂｏｔ）に関し、より詳細には、訓練タスク（ｔｒａｉｎｉｎｇｔａｓｋ）以外のタスクの実行に適応可能なようにロボットを訓練するためのシステムおよび方法に関する。

ここに記載する背景説明は、開示内容の脈絡（ｃｏｎｔｅｘｔ：文脈）を一般的に提示することを目的とする。ここで説明する限度までの、現在列挙された発明者の作業（結果）だけでなく、本出願時に従来技術としての資格が付与されていない説明の様態は、本開示に対して従来技術として明示上にも暗示的にも認められない。

模倣学習（ｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇ）は、ロボットが熟練度（ｃｏｍｐｅｔｅｎｃｙ）を習得することを可能にする。しかし、この概念（ｐａｒａｄｉｇｍ）では、相当な数のサンプルを効果的に実行しなければならない。ワンショット模倣学習（ｏｎｅ－ｓｈｏｔｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇ）は、ロボットが、制限された示範（ｄｅｍｏｎｓｔｒａｔｉｏｎ）のセットから操作タスク（ｍａｎｉｐｕｌａｔｉｏｎｔａｓｋ）を達成することを可能する。このような接近法では、タスクの特定の工学は要求せずに、与えられたタスクの初期条件の変動を実行するための鼓舞（奨励）的な結果を示した。しかし、ワンショット模倣学習は、相異する報酬または転換機能を伴うタスクの変動により、一般化には効率的でなかった。

ロボットのための訓練システムは、変換器アーキテクチャ（ｔｒａｎｓｆｏｒｍｅｒａｒｃｈｉｔｅｃｔｕｒｅ）を備え、ロボットのアーム（ａｒｍ）およびエンドエフェクタ（ｅｎｄｅｆｆｅｃｔｏｒ）うちのの少なくとも１つをどのように動作させるかを決定するように構成されたモデル、ロボットが訓練タスクをそれぞれ実行するための示範（ｄｅｍｏｎｓｔｒａｔｉｏｎ：デモンストレーション）のセットを含む訓練データセット（ｔｒａｉｎｉｎｇｄａｔａｓｅｔ）、および各訓練タスクの第１訓練タスクに対する示範のセットである第１示範を利用してモデルのポリシー（policy）をメタ訓練（ｍｅｔａ－ｔｒａｉｎ）して、各訓練タスクの第２訓練タスクに対する示範のセットである第２示範を利用してモデルのポリシーを最適化するように構成された訓練モジュールを含み、訓練タスクに対する示範のセットはそれぞれ、１つ以上の示範および第１の予め決定された数未満の示範を含むことを特徴とする。

訓練モジュールは、強化学習（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）を利用してポリシーをメタ訓練するように構成されることを他の特徴とする。

訓練モジュールは、Ｒｅｐｔｉｌｅアルゴリズムおよびモデル非依存メタ学習（ｍｏｄｅｌ－ａｇｎｏｓｔｉｃｍｅｔａ－ｌｅａｒｎｉｎｇ）アルゴリズムのうちの１つを利用してポリシーをメタ訓練するように構成されることを他の特徴とする。

訓練モジュールは、ポリシーを最適化する前に、モデルのポリシーをメタ訓練するように構成されることを他の特徴とする。

モデルは、タスクの完了に向かうかタスクの完了まで進展させるために、ロボットのアームおよびエンドエフェクタのうちの少なくとも１つをどのように動作させるかを決定するように構成されることを他の特徴とする。

タスクは、訓練タスクとは異なることを他の特徴とする。

メタ訓練および最適化の後に、モデルは、タスクを実行するための第２の予め決定された数以下のユーザ入力示範を利用してタスクを実行するように構成されるが、ここで、第２の予め決定された数は、０（ｚｅｒｏ）よりも大きい定数であることを他の特徴とする。

第２の予め決定された数は、５であることを他の特徴とする。

ユーザ入力示範は、（ａ）ロボットの関節の位置、および（ｂ）ロボットのエンドエフェクタの姿勢（ｐｏｓｅ）を含むことを他の特徴とする。

エンドエフェクタの姿勢は、エンドエフェクタの位置およびエンドエフェクタの向き（ｏｒｉｅｎｔａｔｉｏｎ）を含むことを他の特徴とする。

ユーザ入力示範は、タスクの実行中に、ロボットによって相互作用されるべきオブジェクト（object：物体）の位置も含むことを他の特徴とする。

ユーザ入力示範は、ロボットの環境における第２オブジェクトの位置も含むことを他の特徴とする。

第１の予め決定された数は、１０以下の定数であることを他の特徴とする。

訓練システムは、変換器アーキテクチャ（ｔｒａｎｓｆｏｒｍｅｒａｒｃｈｉｔｅｃｔｕｒｅ）を備え、アクション（ａｃｔｉｏｎ）を決定するように構成されたモデル、各訓練タスクに対する示範のセットを含む訓練データセット、および各訓練タスクの第１訓練タスクに対する示範のセットである第１示範を利用してモデルのポリシーをメタ訓練して、各訓練タスクの第２訓練タスクに対する示範のセットである第２示範を利用してモデルのポリシーを最適化するように構成された訓練モジュールを含み、訓練タスクに対する示範のセットはそれぞれ、１つ以上の示範および第１の予め決定された数未満の示範を含むことを特徴とする。

ロボットのための方法は、変換器アーキテクチャを備え、ロボットのアームおよびエンドエフェクタのうちの少なくとも１つをどのように動作させるかを決定するように構成されたモデルを記録する段階、ロボットが訓練タスクをそれぞれ実行するための示範のセットを含む訓練データセットを記録する段階、各訓練タスクの第１訓練タスクに対する示範のセットである第１示範を利用してモデルのポリシーをメタ訓練する段階、および各訓練タスクの第２訓練タスクに対する示範のセットである第２示範を利用してモデルのポリシーを最適化する段階を含み、訓練タスクに対する示範のセットはそれぞれ、１つ以上の示範および第１の予め決定された数未満の示範を含むことを特徴とする。

メタ訓練は、強化学習を利用してポリシーをメタ訓練することを含むことを他の特徴とする。

メタ訓練は、Ｒｅｐｔｉｌｅアルゴリズムおよびモデル非依存メタ学習アルゴリズムのうちの１つを利用してポリシーをメタ訓練することを含むことを他の特徴とする。

メタ訓練は、ポリシーを最適化する前に、モデルのポリシーをメタ訓練することを含むことを他の特徴とする。

タスクは、訓練タスクとは異なることを他の特徴とする。

メタ訓練および最適化の後に、モデルは、タスクを実行するための第２の予め決定された数以下のユーザ入力示範を利用してタスクを実行するように構成されるが、ここで、第２の予め決定された数は、０よりも大きい定数であることを他の特徴とする。

ユーザ入力示範は、（ａ）ロボットの関節の位置、および（ｂ）ロボットのエンドエフェクタの姿勢を含むことを他の特徴とする。

エンドエフェクタの姿勢は、エンドエフェクタの位置およびエンドエフェクタの向きを含むことを他の特徴とする。

ユーザ入力示範は、タスクの実行中に、ロボットによって相互作用されるべきオブジェクトの位置も含むことを他の特徴とする。

本開示に適用可能な追加の分野は、詳細な説明、特許請求の範囲、または図面によって明らかになるであろう。詳細な説明および特定の例示は、本開示をより詳しく説明することだけを目的としており、開示内容の範囲を制限しようとするものではない。

本開示の内容は、詳細な説明と添付の図面を参照することでより完全に理解できるであろう。
ロボットの一例を機能的に示したブロック図である。訓練システムの一例を機能的に示したブロック図である。制限された示範のセットだけを利用して訓練タスクとは異なるタスクを実行するためにロボットのモデルを訓練する方法の一例を示したフローチャートである、モデルの一実現例を機能的に示したブロック図である。モデルを訓練するためのアルゴリズムの一例を示した図である。テスト時間における、変換器基盤のポリシーのアテンション値（ａｔｔｅｎｔｉｏｎｖａｌｕｅ）の一例を示した図である。テスト時間における、変換器基盤のポリシーのアテンション値（ａｔｔｅｎｔｉｏｎｖａｌｕｅ）の一例を示した図である。モデルのエンコーダおよびデコーダの一実現例を機能的に示したブロック図である。モデルのマルチヘッドアテンションモジュール（ｍｕｌｔｉ－ｈｅａｄａｔｔｅｎｔｉｏｎｍｏｄｕｌｅ）の一実現例を機能的に示したブロック図である。マルチヘッドアテンションモジュールのスケーリングされたドット積アテンションモジュール（ｓｃａｌｅｄｄｏｔ－ｐｒｏｄｕｃｔａｔｔｅｎｔｉｏｎｍｏｄｕｌｅ）の一実現例を機能的に示したブロック図である。図面に示した参照番号は、類似および／または同一のエレメント（ｅｌｅｍｅｎｔ）を識別するために複数にわたり利用する。

ロボットは、タスクを実行するために、異なる多様な方式によって訓練されてよい。例えば、ロボットは、１つのタスクを実行するためにユーザ入力にしたがって動作することにより、専門家によって訓練されてよい。一度訓練がなされれば、ロボットは、環境またはタスクに変更が発生しない限り、その１つのタスクを繰り返し実行することができる。しかし、ロボットは、変更が発生したり異なるタスクを実行したりするために訓練が必要となる。

本出願は、訓練タスクの示範を利用してロボットのモデルのポリシー（関数）をメタ訓練することに関する。タスクの制限された数（例えば、５以下）の示範だけを利用して訓練およびテストタスク以外のタスクの実行に適応可能にするポリシーを構成するために、ポリシーは、異なるタスクの示範を利用する最適化基盤のメタ学習を利用して最適化される。メタ学習は、学習のための学習（ｌｅａｒｎｉｎｇｔｏｌｅａｒｎ）と呼ばれることもあり、制限された数の訓練例（示範）だけで新たなスキル（ｓｋｉｌｌ）を学習できるようにしたり、新たな環境に速やかに適応できるようにするための訓練モデルであってよい。例えば、各訓練タスクが表記された（ｌａｂｅｌｅｄ）データの小さなセットを含む訓練タスクの集合（ｃｏｌｌｅｃｔｉｏｎ）が与えられ、テストタスクからの表記されたデータの小さなセットが与えられれば、テストタスクからの新たなサンプルが表記されるようになる。この後からは、ロボットは、ユーザによる簡単な訓練だけでも、異なる多数のタスクを実行することが可能となる。

図１は、ロボットの一例を機能的に示したブロック図である。ロボット１００は、静止式または移動式であってよい。例えば、ロボットは、５自由度（ｄｅｇｒｅｅｏｆｆｒｅｅｄｏｍ）（ＤｏＦ）ロボット、６ＤｏＦロボット、７ＤｏＦロボット、８ＤｏＦロボットであってもよいし、他の自由度を備えてもよい。

ロボット１００は、内部バッテリおよび／または交流（ａｌｔｅｒｎａｔｉｎｇｃｕｒｒｅｎｔ）（ＡＣ）電力のような外部電源によって給電される。ＡＣ電力は、コンセント（ｏｕｔｌｅｔ）、直接接続などによって受け取ってよい。多様な実施例において、ロボット１００は、誘導方式によるワイヤレス給電で電力を受け取ってもよい。

ロボット１００は、複数の関節１０４とアーム１０８を備える。各アームは、２つの関節によって連結されてよい。各関節は、ロボット１００のエンドエフェクタ１１２の移動の自由度を取り入れてよい。例えば、エンドエフェクタ１１２は、グリッパー（ｇｒｉｐｐｅｒ）、カッター（ｃｕｔｔｅｒ）、ローラー（ｒｏｌｌｅｒ）、またはその他の適切な類型のエンドエフェクタであってよい。ロボット１００は、アーム１０８およびエンドエフェクタ１１２を動作させるアクチュエータ１１６を含む。例えば、アクチュエータ１１６、電気モータおよび他の類型の動作デバイスを含んでよい。

制御モジュール１２０は、１つ以上の異なるタスクを実行するために訓練されたモデル１２４を利用して、アクチュエータ１１６と、これにしたがってロボット１００の動作を制御する。タスクの例として、オブジェクトを把持（ｇｒａｓｐ）して移動させることを含む。しかし、本出願は、他のタスクにも適用可能である。例えば、制御モジュール１２０は、動作を制御するためにアクチュエータ１１６への電力の印加を制御してよい。モデル１２４の訓練については、以下でさらに詳しく説明する。

制御モジュール１２０は、フィードバック（ｆｅｅｄｂａｃｋ）および／またはフィードフォワード（ｆｅｅｄｆｏｒｗａｒｄ）制御を利用するような１つ以上のセンサ１２８での測定に基づいて動作を制御してよい。センサの例としては、位置センサ（ｐｏｓｉｔｉｏｎｓｅｎｓｏｒ）、力覚センサ（ｆｏｒｃｅｓｅｎｓｏｒ）、トルクセンサ（ｔｏｒｑｕｅｓｅｎｓｏｒ）などを含む。制御モジュール１２０は、１つ以上のタッチスクリーンディスプレイ、ジョイスティック（ｊｏｙｓｔｉｃｋ）、トラックボール（ｔｒａｃｋｂａｌｌ）、ポインタデバイス（例えば、マウス）、キーボード、および／または１つ以上の他の適切な類型の入力デバイスなどの１つ以上の入力デバイス１３２からの入力に基づいて、追加的または代案的に動作を制御してよい。

本出願は、モデル１２４が訓練される訓練タスクとは相当に異なる、知られていなく、初めてみる、新たなタスクに対する学習に基づいて示範の一般化能力を改善させることに関する。接近法は、挑戦する設定におけるタスク転移（ｔａｓｋｔｒａｎｓｆｅｒ）を達成するために、最適化基盤のメタ学習とメトリック基盤のメタ学習との格差を繋ぐ（ｂｒｉｄｇｅｔｈｅｇａｐ：ギャップを橋渡しする）ように説明される。制限された示範のセットによって訓練された変換器基盤のＳｅｐ２Ｓｅｐポリシーネットワーク（ｔｒａｎｓｆｏｒｍｅｒ－ｂａｓｅｄｓｅｑｕｅｎｃｅ－ｔｏ－ｓｅｑｕｅｎｃｅｐｏｌｉｃｙｎｅｔｗｏｒｋ）が利用されてよい。これは、メトリック基盤のメタ学習（ｍｅｔｒｉｃ－ｂａｓｅｄｍｅｔａ－ｌｅａｒｎｉｎｇ）の形態として考慮されてよい。モデル１２４は、最適化基盤のメタ学習を活用することにより、訓練示範のセットからメタ訓練されてよい。これは、新たなタスクに対するモデルの効率的かつ微細な調整を許容する。本明細書で説明したように訓練されたモデルは、多様な転移設定、および他の方式によって訓練されたモデルであるワンショット模倣接近法に比べて驚くほどの改善を示した。

図２は、訓練システムの一例を機能的に示したブロック図である。訓練モジュール２００は、以下で説明するように、訓練データセット２０４を利用してモデル１２４を訓練する。訓練データセット２０４は、異なる訓練タスクをそれぞれ実行するための示範を含む。また、訓練データセット２０４は、訓練タスクを実行することに関する他の情報を含んでよい。一度訓練がなされれば、モデル１２４は、５つ以下に制限された数の異なる示範を利用して、訓練タスクとは異なるタスクを実行するように適応してよい。

ロボットは、その価格の合理化に伴い、居住／家庭タスクを実行するための居住設定などのような多くの最終ユーザ環境で利用されるようになった。通常、ロボット操作訓練（ｒｏｂｏｔｉｃｍａｎｉｐｕｌａｔｉｏｎｔｒａｉｎｉｎｇ）は、完遂するために予め定義されて固定されたタスクを有する完全に特定された環境において、専門家ユーザによって実行される。しかし、本出願は、ロボット１００が複雑かつ合成的である新たなタスクを実行できるようにするために、非専門家ユーザが制限された数の示範を提供することができる制御規範を提供する。

これに関し、強化学習が利用されてよい。しかし、実際の環境において安全かつ効率的な探求には困難があり、報酬機能は、実際の物理的な環境でセットアップするために挑戦的（challenging）となる。代案として、モデル１２４が、制限された数の示範を利用して異なるタスクを効率的に実行できるようにモデル１２４を訓練するために、訓練示範の集合が訓練モジュール２００によって利用される。

示範は、タスクを特定するための長所を有してよい。例えば、示範は、包括的であってよく、多数の操作タスクのために利用されてよい。さらに、示範は、最終ユーザによって実行されてよく、これは、汎用システムを設計するための価値ある接近法を構成する。

しかし、示範基盤のタスク学習は、与えられたタスクに対する成功的なポリシーとして収斂するために、大量のシステム相互作用を要求する。ワンショット模倣学習は、このような制限に円滑に対処し、制限された数の示範だけで定義された新たなタスクに直面するときに、学習されたポリシーの予想された性能を最大化することを目的とする。テスト時間に、恐らく初めて見るタスクの示範と現在の状態が与えられた時間ステップで最上のアクションを予測するために整合されるため、タスク学習のこのような接近法はメトリック基盤のメタ学習とは異なるが、メトリック基盤のメタ学習に関連するものと考慮されてよい。この接近法において、学習されたポリシーは、入力として、（１）現在の示範、および（２）ターゲットタスクを成功的に解決する１つまたは複数の示範を採択する。一度示範が提供されれば、ポリシーは、任意の追加のシステム相互作用がなくても良好な性能を達成するものと予想される。

この接近法は、操作するためのオブジェクトの初期位置のように、同じタスクのパラメータの変動だけがある状況に制限されてよい。一例として、それぞれ個別の正六面体の初期および目標位置が、固有のタスクを定義するキューブ積層のタスクである。しかし、環境の定義がすべてのタスクに重なる限り、モデル１２４は、新たなタスクの示範に対して一般化されなければならない。

本出願は、制限された示範のセットを利用してモデル１２４を訓練する訓練モジュール２００が最適化基盤のメタ学習であることに関する。最適化基盤のメタ学習は、制限された量の示範からのテストタスクに対して効率的に微調整されるべきポリシーの初期化を生成する。この接近法において、訓練モジュール２００は、（訓練データセット２０４における）訓練タスクのセットと関連する示範の利用可能な集合を利用してモデル１２４を訓練する。この場合、ポリシーは、現在の観察に対するアクションを決定する。テスト時間に、ポリシーは、ターゲットタスクの利用可能な示範を利用して微調整される。微調整されたモデルのパラメータセットは、タスクを完全に捉える（ｃａｐｔｕｒｅ）必要がある。

本出願は、制限された量の示範を利用することで、同じタスクの変動を超え、すべてのロボット操作タスクに転移（ｔｒａｎｓｆｅｒ）を実行するために、メトリック基盤のメタ学習と最適化基盤のメタ学習の格差を繋ぐようにモデル１２４を訓練する訓練モジュール２００について説明する。先ず、訓練は、模倣学習の変換器基盤のモデルを利用する。次に、訓練は、Ｆｅｗ－Ｓｈｏｔおよびメタ模倣学習を利用してモデル１２４をメタ訓練するために最適化基盤のメタ学習を活用する。本明細書で説明する訓練は、モデル１２４をターゲットタスクとして微調節しながら、少数の示範の効率的な利用を許容する。本明細書で説明するように、訓練されたモデル１２４は、多様な設定においけるワンショット模倣フレームワークと比べて驚くべき改善を示した。一例として、本明細書で説明するように、訓練されたモデル１２４は、１５未満の示範を有する完全に新しい操作タスクの１００回の出現に対して１００％の成功を得ることができた。

モデル１２４は、最終ユーザによって提供された、予め決定された数未満の示範（例えば、５つ）に基づいて最終ユーザタスクを効率的に学習するための（変換器アーキテクチャに基づいた）変換器基盤のモデルである。モデル１２４は、制限されたユーザ示範のセットからの異なるタスクを実行するためのメトリック基盤のメタ模倣学習を実行するように構成される。本明細書は、Ｒｅｐｔｉｌｅアルゴリズムを実行することのできる、メトリック基盤のメタ学習および最適化基盤のメタ学習に基づく示範に基づいて複雑なロボットアーム操作を学習するための基本的なスキルを取得して転移するための方法について説明する。本明細書で説明する訓練は、示範に基づいて、ロボットアーム制御における最終ユーザタスクを取得するための効率的な接近法を構成する。接近法は、示範が、（１）エンドエフェクタ１１２のユークリッド空間（Ｅｕｃｌｉｄｅａｎｓｐａｃｅ）における位置、（２）制御されたアーム（複数可）の観察角度と位置のセット、（３）制御されたアーム（複数可）の関節とトルクのセットを含むことを許容する。

本明細書で説明する訓練は、少なくとも、ＲＬがターゲット化された環境を探求するためにより大きい数の示範を要求することができ、当面した（at hand：手近な）タスクを定義するために報酬機能を特定することを要求することができるという点において、強化学習（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ：ＲＬ）よりも優れる。結果とし、ＲＬは、時間消耗的であり、演算的に非効率的であり、報酬機能の定義が示範を提供するよりも（特に、最終ユーザには）たびたび困難となる。さらに、ロボットアームのような物理的な環境において、各タスクのための報酬機能の定義は、挑戦的となることもある。マルコフ決定過程（ＭａｒｋｏｖｉａｎＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓｅｓ：ＭＤＰ）の形式主義（ｆｏｒｍａｌｉｓｍ）を利用するタスクの定義を超え、最終ユーザが制限された数の示範を利用して新たなタスクを容易に定義することを許容する規範が好ましい。

示範からの学習は、報酬機能の探求または非条件的な利用可能性を要求しない。本明細書で説明する訓練は、現実的な環境におけるタスク転移の効率的な性能を許容する。報酬機能のユーザセットアップが要求されない。環境の探求が必要ない。制限された数の示範は、モデル１２４を訓練するために利用された訓練タスクのうちの１つとは異なるタスクを実行するようにモデル１２４を訓練するために利用されてよい。これは、Ｆｅｗ－Ｓｈｏｔ模倣学習モデル（ｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇｍｏｄｅｌ）が訓練タスクとは異なるタスクを成功的に実行することを可能にする。訓練モジュール２００は、ロボット１００の利用時に、ユーザからの制限された数の示範に基づいてモデル１２４の学習／訓練を実行するためにロボット１００内で実現されてよい。

本出願は、ワンショット模倣学習規範をタスクの予め定義されたセットに対してメタ学習すること、および示範に基づいて最終ユーザタスクを微調整することに拡張される。本明細書で説明する訓練は、示範のより優れた利用のために変換器基盤のモデルを学習することにより、ワンショット模倣モデルに比べて改善を示す。このような意味において、本明細書で説明する訓練およびモデル１２４は、メトリック基盤のメタ学習と最適化基盤のメタ学習の格差を繋ぐ。

Ｆｅｗ－Ｓｈｏｔ模倣学習は、ターゲット化されたタスクの示範を利用してタスクを実行するためのスキルを取得するという問題を考慮する。ロボット操作の脈絡では、最終ユーザが提供した、制限された示範のセットからのタスクを実行するためにポリシーを学習できるようにすることに価値がある。同じ環境の異なるタスクからの示範が共通して学習されてよい。マルチタスクおよび転移学習は、単一タスクを越えた適用可能性を備えるポリシーを学習するという問題を考慮する。コンピュータビジョンおよび制御におけるドメイン適応は、各スキルを独立的に得るためにかかった時間よりも速く多数のスキルを取得することを許容する。示範による順次的な学習は、制限された示範のセットだけを有する新たなタスクを成功させるために、以前のタスクから十分な知識を捉えてよい。

（例えば、変換器アーキテクチャを備える）アテンション基盤のモデル（ａｔｔｅｎｔｉｏｎｂａｓｅｄｍｏｄｅｌ）は、考慮された示範に対して適用されてよい。本出願は、示範に対する、さらに現在の状態から利用可能な観察（ｏｂｓｅｒｖａｔｉｏｎ）に対するアテンションモデルの適用に関する。

最適化基盤のメタ学習は、少量のデータで学習するために利用されてよい。この接近法は、訓練タスクの集合を利用してモデル初期化を直接的に最適化することを目的とする。この接近法は、タスク上の分布に対する接近を仮定してよく、ここで、各タスクは、例えば、異なる類型のオブジェクトおよび目的を伴うロボット操作タスクである。この分布から、この接近法は、タスクの訓練セットおよびテストセットをサンプリングすることを含む。モデル１２４は、訓練データセットの供給を受け、制限された量の微調整（訓練）動作後にテストセットに対する優れた性能を備えるエージェント（ａｇｅｎｔ）（ポリシー）を生成する。各タスクは学習問題に対応するため、タスクに対する優れた実行は、効率的な学習に対応する。

１つのメタ学習接近法は、回帰型ネットワーク（ｒｅｃｕｒｒｅｎｔｎｅｔｗｏｒｋ）の加重値（ｗｅｉｇｈｔ）でエンコードされる学習アルゴリズムを含む。最急降下法（ｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ：勾配降下法）は、テスト時間に実行されなくてよい。この接近法は、次の段階を予測するための長・短期記憶（ｌｏｎｇｓｈｏｒｔｔｅｒｍｍｅｍｏｒｙ：ＬＳＴＭ）で利用されてよく、Ｆｅｗ－Ｓｈｏｔ分類で、そして部分的に観察可能なマルコフ決定過程（ｐａｒｔｉａｌｌｙｏｂｓｅｒｖａｂｌｅＭａｒｋｏｖｄｅｃｉｓｉｏｎｐｒｏｃｅｓｓ：ＰＯＭＤＰ）設定のために利用されてよい。メトリック基盤のメタ学習と呼ばれる第２方法は、ポイントをそのメトリックを利用するその例示と整合することにより、例示の小集合に対してポイントに対する予測を生成するためのメトリックを学習する。ワンショット模倣のような示範からの模倣学習は、この方法と関連してよい。

他の接近法は、新たなタスクに対するテスト時間に微調整されるネットワークの初期化を学習するものである。この接近法の一例としては、大きなデータセットを利用して事前訓練し、より小さなデータセットに対して微調整するものである。しかし、このような事前訓練接近法は、微調整のために優れた初期化を学習することを保障せず、優れた性能のためにａｄ－ｈｏｃ調節が要求される。

最適化基盤のメタ学習は、このような初期化に対して性能を直接的に最適化するために利用されてよい。２次微分項（ｓｅｃｏｎｄｄｅｒｉｖａｔｉｖｅｔｅｒｍ）を無視する、Ｒｅｐｔｉｌｅと呼ばれる変種も開発された。Ｒｅｐｔｉｌｅアルゴリズムは、一部の軽度情報を失うことを犠牲にしながら２次微分演算の問題を回避するが、改善された結果を提供する。Ｒｅｐｔｉｌｅアルゴリズムの利用によるメタ訓練／学習の例示を提供するが、本出願は、モデル非依存メタ学習（ＭＡＭＬ）最適化アルゴリズムのような他の最適化アルゴリズムにも適用可能である。ＭＡＭＬ最適化アルゴリズムに関しては、本明細書の全般にわたって参照される文献［ＣｈｅｌｓｅａＦｉｎｎ，ＰｉｅｔｅｒＡｂｂｅｅｌおよびＳｅｒｇｅｙＬｅｖｉｎｅ，“Ｍｏｄｅｌ－ａｇｎｏｓｔｉｃｍｅｔａ－ｌｅａｒｎｉｎｇｆｏｒｆａｓｔａｄａｐｔａｔｉｏｎｏｆｄｅｅｐｎｅｔｗｏｒｋｓ”，ＩＣＭＬ，２０１７］で説明されている。

本出願は、ロボットアーム制御の順次的な決定問題のＦｅｗ－Ｓｈｏｔ模倣のための最適化基盤のメタ学習の利点について説明する。

模倣学習の目標は、タスクを実行するために提供された制限された示範のセットで表現された挙動を模倣するモデル１２４のポリシー

を訓練することであってよい。このようなデータの活用に対する２つの接近法は、逆強化学習（ｉｎｖｅｒｓｅｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）と挙動複製（ｂｅｈａｖｉｏｒｃｌｏｎｉｎｇ）を含む。

ロボットプラットフォーム（ｒｏｂｏｔｉｃｐｌａｔｆｏｒｍ）のような連続的なアクション空間の場合に、訓練モジュール２００は、そのパラメータ

に対して示範された、そして学習された挙動の差を最小化するために、確率論的最急降下法（ｓｔｏｃｈａｓｔｉｃｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ）によってポリシーを訓練してよい。

挙動複製に対する拡張として、ワンショット模倣学習は、制限された量の示範からの初めてみる新たなタスクに適応することが可能なメタポリシーを学習することに関する。本来、接近法は、ターゲットタスクの単一軌跡から学習するように提案されていた。しかし、この設定は、ターゲットタスクの多数の示範が訓練のために利用可能な場合に、Ｆｅｗ－Ｓｈｏｔ学習に拡張される。

本出願は、タスクの知られていない分布

と、これからサプリングされたメタ訓練タスクのセット

を仮定してよい。各メタ訓練タスク

に対して、示範のセット

が提供される。各示範ｄは、そのタスクに対する成功的な挙動の｛観察：アクション｝ｔｕｐｌｅの時間的シーケンス

である。このメタ訓練示範は、一部の例においては、ロボットのユーザ入力／動作、または発見的ポリシー（ｈｅｕｒｉｓｔｉｃｐｏｌｉｃｙ）に応答して生成されてよい。シミュレートされた環境において、強化学習は、軌跡がサンプリングされるポリシーを生成するために利用されてよい。各タスクは異なるオブジェクトを含んでよく、ポリシーからの異なるスキルを要求してよい。タスクは、例えば、到達、プッシュ（ｐｕｓｈ）、スライディング、把持、配置などであってよい。各タスクは、要求されたスキルの固有の組み合わせによって定義され、オブジェクトの本質および位置はタスクを定義する。

ワンショット模倣学習技法は、現在の観察_ｏｔと、実行すべきタスクに対応する示範ｄの両方を入力として採択してアクションを出力するメタポリシー

を学習する。観察は、関節の現在の位置（例えば、座標）およびエンドエフェクタの現在の姿勢を含む。異なる示範を調節／訓練することは、異なるタスクが同じ観察に対して実行されることを招来する。

訓練中に、タスク

がサンプリングされ、このタスクに対応する２つの示範ｄ_ｍおよびｄ_ｎは、タスクを達成するために訓練モジュール２００によってサンプリング／決定される。２つの示範は、完了に向かうかタスクを完了するために最上の２つの示範に基づいて選択されてよい。メタポリシーは、この２つの示範ｄ_ｎのうちの１つに対して訓練モジュール２００によって訓練され、他の示範ｄ_ｍからの専門家観察アクションとのペアに対する次の損失が最適化される。

ここで、

は、Ｌ^２ｎｏｒｍ、または他の適切な損失関数のようなアクション推定損失関数（ａｃｔｉｏｎｅｓｔｉｍａｔｉｏｎｌｏｓｓｆｕｎｃｔｉｏｎ）である。

ワンショット模倣学習損失は、すべてのタスクおよびすべての対応可能な示範のペアにわたる合算を含む。

ここで、Ｍは、訓練タスクの総数である。

本出願は、各ドメインに関連する２つの示範を組み合わせることに関する。先ず、本出願は、ポリシーとしての変換器アーキテクチャに基づいたＦｅｗ－Ｓｈｏｔ模倣モデルを利用する。本明細書で利用されてモデル１２４の変換器アーキテクチャで利用される変換器アーキテクチャは、本明細書の全般にわたって参照される文献［ＡｓｈｉｓｈＶａｓｗａｎｉ，ＮｏａｍＳｈａｚｅｅｒ，ＮｉｋｉＰａｒｍａｒ，ＪａｋｏｂＵｓｚｋｏｒｅｉｔ，ＬｌｉｏｎＪｏｎｅｓ，ＡｉｄａｎＮＧｏｍｅｚ，ｔｕｋａｓｚＫａｉｓｅｒおよびＩｌｌｉａＰｏｌｏｓｕｋｈｉｎ，“Ａｔｔｅｎｔｉｏｎｉｓａｌｌｙｏｕｎｅｅｄ”，ＩｎＩ．Ｇｕｙｏｎ，Ｕ．Ｖ．Ｌｕｘｂｕｒｇ，Ｓ．Ｂｅｎｇｉｏ，Ｈ．Ｗａｌｌａｃｈ，Ｒ．Ｆｅｒｇｕｓ，Ｓ．ＶｉｓｈｗａｎａｔｈａｎおよびＲ．Ｇａｒｎｅｔｔ，編集者、ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ３０，ｐａｇｅｓ５９９８－６００８，ＣｕｒｒａｎＡｓｓｏｃｉａｔｅｓ，Ｉｎｃ．，２０１７］で説明される。次に、本出願は、最適化基盤のメタ訓練を利用してモデルを最適化することに関する。

上述したように、モデル１２４のポリシーネットワークは、変換器基盤のニューラルネットワークアーキテクチャである。モデル１２４は、変換器アーキテクチャで取り入れたモデル１２４のマルチヘッド型アテンション層（ｍｕｌｔｉ－ｈｅａｄｅｄａｔｔｅｎｔｉｏｎｌａｙｅｒ）を利用して入力示範を脈絡化する（ｃｏｎｔｅｘｔｕａｌｉｚｅ：文脈によって解釈可能にする）。変換器ネットワークのアーキテクチャは、入力示範と現在のエピソード／観察との対応性のより良好なキャプチャを許容する。モデル１２４の変換器アーキテクチャは、操作タスクの示範の順次的な本質をプロセッシングするために適切である。

本出願は、ロボット操作のために、示範基盤の学習のためのスケーリングされたドット積アテンションおよび変換器アーキテクチャを利用する。モデル１２４は、エンコーダモジュールおよびデコーダモジュールを含む。これらは、バッチノーマライゼーション（ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎ）と関連するマルチヘッド型アテンション層と完全に接続された層の積層体（スタック）を含む。示範基盤の学習のためにモデル１２４を適応させるために、エンコーダは、完遂のためのタスクの示範を入力として採択し、デコーダは、現在のエピソードのすべての観察を入力として採択する。

設計によっては、変換器アーキテクチャは、すべての演算子が交換性（ｃｏｍｍｕｔａｔｉｖｅ）を有するため、その入力をプロセッシングするときに順序の情報を有さず、順序の情報を利用しない。時間的エンコードが利用されてよいが、本出願は、入力シーケンスそれぞれの次元に対する異なる周期および位相を有する正弦波（ｓｉｎｕｓｏｉｄ）の混合を利用する。アクションモジュールは、エンコーダおよびデコーダモジュールの出力に基づいて次の実行のためのアクションを決定する。制御モジュール１２０は、次のアクションにしたがってロボット１００を動作させる。

また、本出願は、（例えば、アクションモジュールで）モデル１２４のポリシーネットワークを事前訓練するための最適化基盤のメタ学習を利用する。最適化基盤のメタ学習は、制限された数のアップデートを備えたポリシーネットワークを効率的に微調整するために、タスク

のセットに対してパラメータ

のセットを事前訓練する。すなわち、

であり、

は

からサンプリングされたデータを利用して

回にわたりアップデートする演算子である。

演算子Ｕは、

からサンプリングされたデータの一括処理量（ｂａｔｃｈ）に対して最急降下法またはＡｄａｍ最適化を実行することに対応する。モデル非依存メタ学習は、

のような問題を解決する。与えられたタスク

に対して、内部ループ最適化は、タスクＩから採択された訓練サンプルを利用して演算され、損失は、タスクＪから採択されたサンプルを利用して演算される。Ｒｅｐｔｉｌｅは、タスクを繰り返しサンプリングし、タスクに対して訓練を行い、タスクに対する訓練された加重値に向かって初期化を移動させることにより、接近法を単純化する。Ｒｅｐｔｉｌｅは、明細書の全般にわたり参照される文献［ＡｌｅｘＮｉｃｈｏｌおよびＪｏｈｎＳｃｈｕｌｍａｎ，“Ｒｅｐｔｉｌｅ：ａｓｃａｌａｂｌｅｍｅｔａｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍ”，ａｒＸｉｖ：１８０３．０２９９９ｖ１，２０１８］で詳しく説明される。

最終ユーザタスクの示範から微調整されるポリシーを訓練することは、特に、ロボットアームの制御に適する。本出願は、示範のセットによって定義されたタスクにわたるＲｅｐｔｉｌｅ最適化基盤のメタ学習アルゴリズムを利用する。訓練データセットは、モデル１２４をメタ訓練するために利用される多様なタスクに対する示範を含む。制限された数の示範だけが（例えば、テスト中および／またはその最終環境で）異なるタスクを実行するようにロボット１００を訓練するために利用されるため、モデル１２４は、最終ユーザからのような、制限された数の示範だけで効率的に微調整が可能なように訓練される。示範は、テスト時間にポリシーの入力である。

上述したように、先ず、モデル１２４のポリシーは、各訓練タスクに対する訓練示範のセットを利用して最適化基盤のメタ訓練を行う。最適化基盤のメタ訓練後に、ポリシーの微調整は、２つの部分で実行される。訓練タスクの第１セットは、ポリシーをメタ訓練するために維持され、訓練タスクの第２セットは、早期打切り（ｅａｒｌｙｓｔｏｐｐｉｎｇ）を利用して有効性検査（ｖａｌｉｄａｔｉｏｎ）のために利用される。

評価の順序は、各有効性検査タスクに対してモデル１２４を微調整し、これに対して

を演算することを含む。訓練タスクとは異なる新たなタスクを実行するために、制限された示範のセットが制御モジュール１２０に提供される。制限された示範のセットは、アーム１０８および／またはエンドエフェクタ１１２の動作を引き起こさせる入力デバイス１３２であるユーザ入力に応答して得られる。制限された示範のセットは、５つ以下であってよい。上述したように、各示範は、各関節の座標とエンドエフェクタ１１２の姿勢を含む。エンドエフェクタ１１２の姿勢は、エンドエフェクタの位置（例えば、座標）と向きを含む。また、各示範は、ロボット１００によって操作されるべきオブジェクトの位置、１つ以上の他の関連するオブジェクト（例えば、回避すべきものや、オブジェクトの操作に関連するオブジェクトなど）の位置などのように実行すべき新たなタスクに関する他の情報を含んでよい。

訓練の微調整の局面中に、制限された示範のセットからできるだけ多くの情報を抽出するために、訓練モジュール２００は、示範のすべての利用可能なペアのうちからサンプリングすることにより、（以前にメタ訓練された）モデル１２４を最適化する。テスト時間に利用可能な１つの示範の極端において、調節示範およびターゲット示範は同一となる。

実行中に複数の示範が利用可能な場合には、これらの示範は一括処理方式によってプロセッシングされ、アクションに対する予想が決定される。このような意味において、モデル１２４は、この後からは、Ｆｅｗ－Ｓｈｏｔ方式を利用してよい。基準線として、訓練モジュール２００は、同じポリシーアーキテクチャを維持するために、入力によるタスクの識別とともに、またはこのようなタスクの識別なく、マルチタスク学習アルゴリズムを利用してよい。この場合に、訓練中には、訓練モジュール２００が訓練セットのタスクの全体的な分布を利用して、訓練および有効性検査セットに対する示範をサンプリングする。

図３は、訓練タスクとは異なるタスク（および／または訓練タスク）を実行するようにモデル１２４を訓練する方法の一例を示したフローチャートである。制御は段階３０４から始まるが、ここで、訓練モジュール２００は、メモリ内における訓練データセット２０４からの訓練タスクそれぞれを実行するための訓練示範を得る。訓練タスクは、メタ訓練タスク、有効性検査タスク、およびテストタスクを含む。

段階３０８で、訓練モジュール２００は、タスクに対する示範（例えば、ユーザ入力示範）をサンプリングするように構成されなければならないモデル１２４のポリシーをメタ訓練する。この後、モデル１２４は、タスクを実行するために、上述したように示範のペアを決定してよい。上述したように、モデル１２４は、変換器アーキテクチャを備える。訓練モジュール２００は、例えば、強化学習を利用してポリシーを訓練してよい。段階３１２で、訓練モジュール２００は、モデル１２４のポリシーを最適化するために最適化基盤のメタ訓練を適用する。図５は、メタ訓練のための疑似コード（ｐｓｅｕｄｏｃｏｄｅ）の一部分の一例を示した図である。図５に示すように、メタ訓練は、訓練データセット（Ｔｒ）におけるそれぞれの訓練タスク（Ｔ）に対し、タスクに対する訓練示範のペア（例えば、すべてのペア）の一括処理量がポリシーをアップデートするために利用されるＷｉを演算するために選択されて利用されてよい。これは、すべての訓練タスクに対して実行される。

訓練モジュール２００は、テストタスクに対するテスト示範を利用して最適化を適用してよい。訓練モジュール２００は、例えば、最適化のためのＲｅｐｔｉｌｅアルゴリズムまたはＭＡＭＬアルゴリズムを適用してよい。

段階３１６で、訓練モジュール２００は、有効性検査のために、すべての訓練タスクに基づいてモデル１２４のポリシーをメタ訓練する。図５は、有効性検査のための疑似コードの一部分の一例を示した図である。図５に示すように、有効性検査は、有効性検査データセット（Ｔｅ）におけるそれぞれの有効性検査タスク（Ｔ）に対し、そのタスクに対する有効性検査の示範のすべてのペア

および損失Ｌｂｃを演算するために選択されて利用されてよい。タスクに対する損失Ｌｂｃは、有効性検査のための有効性検査の損失に加算される。これは、すべての訓練タスクに対して実行される。早期打切りは、有効性検査の損失が予め決定された量を超過するだけ変更するなどの過剰適合（ｏｖｅｒｆｉｔｔｉｎｇ）を防ぐために、有効性検査の損失に基づいて実行されてよい。

メタ訓練および有効性検査は、モデル１２４がユーザ入力の示範のような制限された数（例えば、５以下）の示範を利用して（訓練タスクとは）異なるタスクに適応し、このようなタスクを実行することを可能にする。

段階３２０で、訓練モジュール２００は、テストタスクとも呼ばれる、訓練タスクのうちのテストタスクを利用してモデル１２４をテストしてよい。訓練モジュール２００は、テストに基づいてモデル１２４を最適化してよい。図３の段階３１６および段階３２０については、図５を参照しながら説明する。

図５は、テストのための疑似コードの一部分の一例を示した図である。例えば、図５に示すように、テストは、テストタスクを実行するために訓練され、有効性検査がなされたモデル１２４を実行してよい。テストデータセット（Ｔｓ）におけるテストタスク（Ｔ）に対し、このテストタスクに対するテスト示範のすべてのペアは、テストタスクを実行するためのモデル１２４の相対的な能力を反映する

および損失Ｌｂｃを演算するために選択されて利用される。テストタスクはそれぞれ、予め決定された数未満の示範を含む。メタ訓練されて有効性検査がなされたモデル１２４の報酬および成功率は、訓練モデル２００によって決定される。これは、すべてのテストタスクに対して実行される。

メタ訓練、有効性検査、およびテストは、モデル１２４の報酬および／または成功率が予め決定された値よりも大きいか、メタ訓練、有効性検査、およびテストの予め決定された数の事例が実行されたときに完了されてよい。

一度メタ訓練および最適化が完了すれば、モデル１２４は、ユーザ入力示範／監督された訓練のような、制限された示範のセットを有する訓練タスクとは異なるタスクを実行するために利用されてよい。

タスクの例は、制御されたアームのエンドエフェクトのサポートによって、初期位置から目標位置にオブジェクトを変位させるようなプッシュを含む。プッシュとは、ボタンを押したりドアを閉めたりするなどの操作タスクを含む。また、到達は、これとは異なるタスクであって、エンドエフェクトの位置を目標位置に変位させることを含む。一部のタスクでは、環境に障害物が存在することがある。把持（Ｐｉｃｋ）および配置（Ｐｌａｃｅ）タスクは、オブジェクトを把持すること、オブジェクトを目標位置に配置することを意味する。

図４は、モデル１２４の変換器アーキテクチャの一例を機能的に示したブロック図である。モデル１２４は、並列に演算されるｈ個の「ヘッド（ｈｅａｄ）」を含むマルチヘッド型アテンション層を含む。ヘッドそれぞれは、ｄｔ次元への（１）キー

、（２）クエリ

、および（３）値

と呼ばれる３つの線形投影を実行する。

ｉ＝｛１、・・・、ｈ｝に対し、［．］１：Ｔは行型の連結演算子（ｒｏｗ－ｗｉｓｅｃｏｎｃａｔｅｎａｔｉｏｎｏｐｅｒａｔｏｒ）であるが、ここで、投影は、

となるように構成されたパラメータ行列である。

入力特徴の個別のセットの３つの変換は、入力ベクトルそれぞれの脈絡化された表現を演算するために利用される。それぞれのヘッドに対して独立的に適用されたスケーリングされたドットアテンション（ｓｃａｌｅｄ－ｄｏｔａｔｔｅｎｔｉｏｎ）は、次のように定義される。

結果的なベクトルは、ｄｔ－次元の出力空間で定義される。各ヘッドは、入力ベクトル間の異なる類型の関係を学習し、これらを変換することを目的とする。その次に、それぞれの層の出力は、それぞれの入力の脈絡化された表現を得るためにｈｅａｄ｛１，ｈ｝によって連結（ｃｏｎｃａｔｅｎａｔｅ）され、線形的に投影され、それぞれのヘッドから独立的に累積したすべての情報をＭで併合する。

ここで、

である。

変換器アーキテクチャのヘッドは、入力シーケンス間の多数の関係の探知を許容する。ＰＰＯパラメータの例は、以下に示すとおりである。しかし、本出願は、他のＰＰＯパラメータおよび／または値にも適用可能である。

異なる環境では性能に差が発生することがあるため、観察および報酬動作の平均および分散が、正規化のために利用されてよい。

回帰型モデルパラメータの例は、以下に示すとおりである。しかし、本出願は、他の回帰型モデルパラメータにも適用可能である。

変換器（変換器モデルパラメータ）アーキテクチャのパラメータの例は、以下に示すとおりである。しかし、本出願は、他の変換器モデルパラメータおよび／または値にも適用可能である。

Ｒｅｐｔｉｌｅアルゴリズムのメタ訓練パラメータの例は、以下に示すとおりである。しかし、本出願は、他のパラメータおよび／または値にも適用可能である。

多様な実施例において、早期打切りは、テスト／有効性検査タスクに対する平均二乗エラー損失に対するものであり、訓練中に利用されてよい。

例示的なメタ訓練、マルチ－タスク（ハイパー）パラメータの例は、以下に示すとおりである。しかし、本出願は、他のパラメータおよび／または値にも適用可能である。

訓練モジュール２００は、時間の経った最適化モメンタム（ｍｏｍｅｎｔｕｍ）を維持することを回避するように、各タスクのカスタム間で最適化器の状態を再設定してよい。

図５は、本明細書で説明した、メタ学習および微調整アルゴリズムの３つの連続段階に対するアルゴリズムのコードの一例を示した図である。先ず、訓練タスク

により、訓練モジュール２００は、訓練タスクのセットに対してＲｅｐｔｉｌｅアルゴリズムを利用するように、モデル１２４のポリシーをメタ訓練する。次に、評価タスク

により、訓練モジュール２００は、規則化である有効性検査タスクに対して早期打切りを利用する。この設定において、訓練モジュール２００は、それぞれのタスクに対してメタ訓練されたモデルを個別に微調整すること、および有効性検査の挙動損失を演算することを含む有効性検査を実行する。最後に、テストタスク

により、訓練モジュール２００は、対応する示範に対してポリシーを微調整することにより、モデル１２４をテストする。訓練の一部分において、微調整されたポリシーは、メタワールド（Ｍｅｔａ－Ｗｏｒｌｄ）環境のような環境においてシミュレーションされたエピソードによって累積された報酬および成功率の側面で評価される。

図６および図７は、テスト時間の変換器基盤のポリシーのアテンション値の一例を示した図である。最初の図面は、入力示範を脈絡化するエンコーダの第１層のセルフアテンション値（ｓｅｌｆ－ａｔｔｅｎｔｉｏｎｖａｌｕｅ）を示している。中間の図は、現在のエピソードを脈絡化するデコーダの第１層のセルフアテンション値である。最後の図は、示範のエンコードされた表現と現在のエピソードの間で演算されたアテンションである。

エンコーダおよびデコーダ表現は、異なる相互作用方式を表現する。示範に対するセルフアテンションは、当面したタスクの重要な段階を捉えてよい。高い対角線のセルフアテンション値は、現在のエピソードを脈絡化するときに存在する。これは、ポリシーが、より過去の観察よりも最近の観察に更なる注意を傾けるように訓練されることを意味する。ほとんどの時間では最後の４つのアテンション値が最も高く、これは、モデルがロボットアームシミュレーションで慣性（ｉｎｅｒｔｉａ）を掴むことを示す。

最後の行から、示範と現在のエピソードの間で演算された高いアテンション値の垂直パターンが現れた。その値は、図６に示すバスケットボール－ボール－ｖ１（ｂａｓｋｅｔ－ｂａｌｌ－ｖ１）においてボールを取ったり、図７に示すペグ－アンプラグ－側部－ｖ１（ｐｅｇ－ｕｎｐｌｕｇ－ｓｉｄｅ－ｖ１）でペグを取ることのように、オブジェクトに接近し、目標位置でオブジェクトを把持し、オブジェクトを配置するような高いスキルおよび精密度が求められる示範の段階に対応してよい。高い値の帯域は垂直に薄くなることがある。これは、ペグ－アンプラグ－側部－ｖ１の例において顕著である。これは、ロボットが一度オブジェクトを取れば、タスクの挑戦的な部分が行われることを意味する。

再び図４を参照すると、入力埋め込みモジュール４０４は、埋め込みアルゴリズム（ｅｍｂｅｄｄｉｎｇａｌｇｏｒｉｔｈｍ）を利用して示範（ｄ_ｎ）を埋め込む。埋め込みは、エンコードと呼ばれてもよい。位置エンコードモジュール４０８は、位置エンコードを生成するためにエンコードアルゴリズムを利用し、ロボットの現在位置（例えば、関節やエンドエフェクタなど）をエンコードする。

加算器モジュール４１２は、位置エンコードを入力埋め込みモジュール４０４の出力に加算する。例えば、加算器モジュール４１２は、位置エンコードを入力埋め込みモジュール４０４のベクトル出力に連結してよい。

変換器エンコーダモジュール４１６は、畳み込みニューラルネットワーク（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）を含んでよく、変換器アーキテクチャを備え、変換器エンコードアルゴリズムを利用して加算器モジュール４１２の出力をエンコードする。

同じように、入力埋め込みモジュール４２０は、入力埋め込みモジュール４０４が利用するものと同じ埋め込みアルゴリズムを利用して示範（ｄ_ｍ）を埋め込む。示範ｄ_ｍおよびｄ_ｎは、上述したように、訓練モジュール２００によって決定される。位置エンコードモジュール４２４は、位置エンコードモジュール４０８と同じエンコードアルゴリズムのような、位置エンコードを生成するためのエンコードアルゴリズムを利用してロボットの現在位置（例えば、関節やエンドエフェクタなど）をエンコードする。この例において、位置エンコードモジュール４２４は省略されてよく、位置エンコードモジュール４０８の出力が利用されてよい。

加算器モジュール４２８は、位置エンコードを入力埋め込みモジュール４２０の出力に加算する。例えば、加算器モジュール４２８は、位置エンコードを入力埋め込みモジュール４２０のベクトル出力に連結してよい。

変換器デコーダモジュール４３２は、畳み込みニューラルネットワーク（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ：ＣＮＮ）を含んでよく、変換器アーキテクチャを備え、変換器デコードアルゴリズムを利用して加算器モジュール４２８の出力および変換器エンコーダモジュール４１６の出力をデコードする。変換器デコーダモジュール４３２の出力は、双曲線正接（ｈｙｐｅｒｂｏｌｉｃｔａｎｇｅｎｔ：ｔａｎＨ）関数４４０が適用される前に、線形層４３６によってプロセッシングされる。多様な実施例において、双曲線正接関数４４０は、ｓｏｆｔｍａｘ層に代替されてよい。出力は、タスクの完了に向かうかタスクの完了まで進展するために採択されるべき次のアクションである。

操作の例について上述したが、本出願は、他の類型の（操作以外の）ロボットタスクおよび非ロボットタスクにも適用可能である。

図８は、変換器エンコーダモジュール４１６および変換器デコーダモジュール４３２の一例を示した機能的なブロック図である。加算器モジュール４１２の出力は、変換器エンコーダモジュール４１６に入力される。加算器モジュール４２８の出力は、変換器デコーダモジュール４３２に入力される。

変換器エンコーダ４１６は、Ｎ＝６の同じ層の積層体を含んでよい。各層は、２つのサブ層を有してよい。第１サブ層は、マルチヘッドセルフアテンションメカニズム（モジュール）８０４であってよく、第２サブ層は、位置別に完全接続されたフィードフォワードネットワーク（モジュール）８０８であってよい。加算および正規化は、加算モジュール８１２および正規化モジュール８１６により、マルチヘッドアテンションモジュール８０４およびフィードフォワードモジュール８０８の出力に対して実行されてよい。残りの接続は、層正規化に先行する２つのサブ層それぞれの周りで利用されてよい。すなわち、各サブ層の出力は、ＬａｙｅｒＮｏｒｍ（ｘ＋Ｓｕｂｌａｙｅｒ（ｘ））であるが、ここで、Ｓｕｂｌａｙｅｒ（ｘ）は、サブ層自体によって実現された関数である。このような残りの接続を容易にするために、すべてのサブ層だけでなく、埋め込み層も次元ｄ＝５１２の出力を生成してよい。

変換器デコーダモジュール４３２も、Ｎ＝６の同じ層の積層体を含んでよい。変換器エンコーダモジュール４１６のように、変換器デコーダモジュール４３２は、マルチヘッドアテンションモジュール８２０を含む第１サブ層、およびフィードフォワードモジュール８２４を含む第２サブ層を含んでよい。加算および正規化は、加算モジュール８２８および正規化モジュール８３２により、マルチヘッドアテンションモジュール８２０およびフィードフォワードモジュール８２４の出力に対して実行されてよい。２つのサブ層に追加して、変換器デコーダモジュール４３２も、変換器エンコーダモジュール４１６の出力に対して（マルチヘッドアテンションモジュール８３６により）マルチ－ヘッドアテンションを実行する第３サブ層を含んでよい。変換器エンコーダモジュール４１６と同じように、残りの接続は、層正規化に先行するサブ層それぞれの周りで利用されてよい。言い換えれば、加算および正規化は、加算および正規化モジュール８４０により、マルチヘッドアテンションモジュール８３６の出力に対して実行されてよい。変換器デコーダモジュール４３２のセルフアテンションサブ層は、位置が後続位置に注目することを防ぐように構成されてよい。

図９は、マルチヘッドアテンションモジュールの一実現例の機能的なブロック図であり、図１０は、マルチヘッドアテンションモジュールのスケーリングされたドット積アテンションモジュールの一実現例の機能的なブロック図である。

（マルチヘッドアテンションモジュールによって実行された）アテンションに関し、アテンション関数は、クエリ（ｑｕｅｒｙ）とキー値のペアセットを出力としてマッピングするものであってよいが、ここで、クエリ、キー、値、および出力はすべて、ベクトルである。出力は、値の加重化された和として演算されてよいが、ここで、それぞれの値に割り当てられた加重値は、対応するキーとクエリの互換性関数（ｃｏｍｐａｔｉｂｉｌｉｔｙｆｕｎｃｔｉｏｎ）によって演算される。

図１０のスケーリングされたドット積アテンションモジュールにおいて、入力は、次元ｄ_ｋのクエリとキー、および次元ｄ_ｖの値を含む。スケーリングされたドット積アテンションモジュールは、すべてのキーとのクエリのドット積（ｄｏｔｐｒｏｄｕｃｔ）を演算し、

によってそれぞれを除算し、値に対する加重値を得るためにｓｏｆｔｍａｘ関数を適用する。

スケーリングされたドット積アテンションモジュールは、行列Ｑで同時に配列されたクエリのセットに対してアテンション関数を演算してよい。キーおよび値も、行列ＫおよびＶで維持されてよい。スケーリングされたドット積アテンションモジュールは、出力の行列を次のように演算する。

アテンション関数は、例えば、加法アテンション（ａｄｄｉｔｉｖｅａｔｔｅｎｔｉｏｎ）またはドット積（乗算）アテンションであってよい。ドット積アテンションは、

のスケーリング因子（ｓｃａｌｉｎｇｆａｃｔｏｒ）を利用するスケーリングに追加的に利用されてよい。加法アテンションは、単一の隠れ層を有するフィードフォワードネットワークを利用して互換性関数を演算する。ドット積アテンションは、加法アテンションよりも迅速であり、空間効率的である。

ｄ－次元キー、値、およびクエリを有する単一アテンション関数を実行する代りに、マルチヘッドアテンションモジュールは、ｄ_ｋ、ｄ_ｋ、およびｄ_ｖ次元への異なる学習された線形投影により、クエリ、キー、および値をｈ回にわたり線形的に投影してよい。クエリ、キー、および値の投影されたバージョンそれぞれに対して、アテンション関数は、並列に実行されてよく、ｄ_ｖ－次元の出力値を算出してよい。これは、再び連結されてもよいし投影されてもよく、図に示すように、最終的な値に帰着されてもよい。

マルチヘッドアテンションは、モデルが異なる位置における異なる表現サブ空間からの情報に共通して注目することを許容する。平均値は、単一アテンションヘッドによってこの特徴を抑制してよい。

ここで、

であり、投影パラメータは、行列

および

である。ｈは、８つの並列アテンション層またはヘッドであってよい。それぞれに対し、ｄｋ＝ｄｖ＝ｄ／ｈ＝６４である。

マルチヘッドアテンションは、異なる方式で利用されてよい。例えば、エンコーダデコーダアテンション層において、クエリは、以前にデコーダ層から出て、メモリキーおよび値は、エンコーダの出力から出る。これは、デコーダにおける各位置が、入力シーケンスにおけるすべての位置に対して注目することを許容する。

エンコーダは、セルフアテンション層を含む。セルフアテンション層において、キー、値、およびクエリのすべては、同じ場所、この場合に、エンコーダにおける以前の層の出力から出る。エンコーダにおけるそれぞれの位置は、エンコーダの以前の層におけるすべての位置に対して注目してよい。

デコーダにおけるセルフアテンション層は、デコーダにおけるそれぞれの位置がその位置まで、さらにその位置を含むデコーダにおけるすべての位置に注目することを許容するように構成されてよい。左方向への情報の流れ（ｌｅｆｔｗａｒｄｉｎｆｏｒｍａｔｉｏｎｆｌｏｗ）は、自動回帰性質（ａｕｔｏ－ｒｅｇｒｅｓｓｉｖｅｐｒｏｐｅｒｔｙ）を記録するためにデコーダで防止されてよい。これは、不法接続に対応するｓｏｆｔｍａｘの入力としてのすべての値をマスクアウト（ｍａｓｋｏｕｔ）（１に設定）することにより、スケーリングされたドット積アテンションで実行されてよい。

位置別のフィードフォワードモジュールに関し、それぞれは、正規化線形ユニット（ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔ：ＲｅＬＵ）活性化をその間に有する２つの線形変換を含んでよい。

線形変換は、異なる位置にわたって同じであるが、これらは、層ごとに異なるパラメータを利用してよい。また、これは、カーネルサイズ（ｋｅｒｎｅｌｓｉｚｅ）１を有する２つの畳み込み（ｃｏｎｖｏｌｕｔｉｏｎ）を実行すると説明されてよい。入力および出力の次元性（ｄｉｍｅｎｓｉｏｎａｌｉｔｙ）はｄ＝５１２であってよく、内部層は次元性ｄｆｆ＝２０４８であってよい。

モデル１２４の埋め込みおよびｓｏｆｔｍａｘ関数に関し、学習された埋め込みは、入力トークン（ｔｏｋｅｎ）および出力トークンを次元ｄのベクトルに変換するために利用されてよい。学習された線形変換およびｓｏｆｔｍａｘ関数は、デコーダ出力を予測された次のトークン確率に変換するために利用されてよい。２つの埋め込み層と事前ｓｏｆｔｍａｘ線形変換の間の同じ加重値行列が利用されてよい。埋め込み層において、加重値は、

によって乗算されてよい。

位置エンコードに関し、一部の情報は、シーケンスにおけるトークンの相対的または絶対的位置に関して投入されてよい。これにより、位置エンコードは、エンコーダおよびデコーダ積層体の下部において入力埋め込みに加算されてよい。位置エンコードは、埋め込みと同じ次元ｄを有してよく、２つが加算されてよい。位置エンコードは、例えば、学習された位置エンコードまたは固定された位置エンコードであってよい。異なる周波数のサインおよびコサイン関数は、次のとおりとなる。

ここで、ｐｏｓは位置であり、ｉは次元である。位置エンコードのそれぞれの次元は、正弦波に対応してよい。波長は２πから１００００×２πまでの幾何学的進行を形成する。変換器アーキテクチャに関する追加の情報は、本明細書の全般にわたって参照される、米国特許第１０，４５２，９７８号から見出すことができる。

Ｆｅｗ－Ｓｈｏｔ模倣学習とは、タスクの成功的な完了ために若干の示範だけが与えられる場合にタスクを完了するための学習を意味してよい。メタ学習は、制限された数の示範だけを利用してタスクをどのように効率的に学習するかを学習することを意味してよい。訓練タスクの集合が与えられれば、各タスクは、表記されたデータの小さなセットを含む。テストタスクからの表記されたデータの小さなセットが与えられれば、テストタスク分布からの新たなサンプルが表記される。

最適化基盤のメタ学習は、ＭＡＭＬおよびＲｅｐｔｉｌｅアルゴリズムのように、少量のデータを利用して微調整されるときに加重値が好ましく実行されるようにする加重値の最適な初期化を含んでよい。メトリック基盤のメタ学習は、メトリックを利用して新たな観察を訓練サンプルと整合することにより、少量の訓練サンプルが与えられる場合でもタスクが実行されるようにメトリックを学習することを含んでよい。

メトリック基盤のメタ学習（このＩＤで利用された用語）は、このメトリックを利用して新たな観察をこのサンプルと整合することにより、少量の訓練サンプルが与えられる場合でもタスクが解決されるようにメトリックを学習することを意味する。

ワンショット模倣学習は、ポリシーネットワークが現在の観察および示範を入力として採択し、観察および示範に対してアテンション加重値を演算することを利用する。次に、結果は、アクションを出力するために多層パーセプトロン（ｍｕｌｔｉ－ｌａｙｅｒｐｅｒｃｅｐｔｉｏｎ）によってマッピングされる。訓練のためにタスクがサンプリングされ、タスクの２つの示範が損失を決定するために利用される。

本開示の内容は、スケーリングされたドット積アテンションユニットを含む変換器アーキテクチャを利用する。アテンションは、単に現在のエピソードではなく、現在のエピソードの観察履歴に対して演算される。本出願は、最適化基盤のメタ学習、メトリック基盤のメタ学習、および模倣学習の組み合わせを利用して訓練してよい。本開示の内容は、先ず微調整を行い、その次に、各示範に対するアテンションによって与えられたアクションに対して平均化するように、テスト時間に多数の示範を組み合わせるための実用的な方法を提供する。本明細書で説明するように、訓練されたモデルは、異なって訓練されたモデルよりも、訓練タスクとは相当に異なるテストタスク（および、実世界タスク）においてより良好に実行される。異なるタスクの例は、異なるカテゴリのタスクである。観察履歴に対するアテンションは、部分的に観察された状況で役立つ。本明細書で説明するように、訓練されたモデルは、テスト時間に多数の示範から利益を得ることができる。また、本明細書で説明するように、訓練されたモデルは、異なるように訓練されたモデルよりも次善の示範に対してより強靭となる。

本明細書で訓練されたモデルは、ロボットが非専門家によって利用されることを可能にし、ロボットが多くの異なるタスクを実行するように訓練可能にすることができる。

上述した説明は、本質的あるいは例示的に、開示内容、その適用、または利用を制限するものでは決してない。開示内容の広範囲な教示事項は、多様な形態で実現されてよい。このため、本開示の内容は、特定の例示は含むが、図面、明細書、および特許請求の範囲を検討すれば他の修正が明らかになるはずであり、開示内容の真の範囲がこれに制限されてはならない。方法のうちの１つ以上の段階は、本開示の内容の原理を変更しない範囲内であれば、異なる順序で（または、同時に）実行されてもよいことが理解されなければならない。また、各実施例には一特徴が含まれるものと説明したが、開示内容の任意の実施例と関連して説明した特徴のうちの任意の１つ以上は、その組み合わせが明らかに説明されていなくても、他の実施例のうちの任意の特徴で実現されてもよいし、および／またはこのような特徴が組み合わされてもよい。言い換えれば、上述した実施例は、相互排他的なものではなく、１つ以上の実施例の互いとの置換物は、本開示の内容の範囲内に含まれる。

エレメントの間（例えば、モジュール、回路エレメント、半導体層などの間）の空間的および機能的関係は、「接続された」、「係合された」、「結合された」、「隣接する、「すぐ横の」、「その上部の」、「上の」、「下の」、および「配置された」を含む多様な用語を利用して説明される。「直接的」であるという明らかな説明がない限り、第１および第２エレメントの関係を説明するときに、その関係は、介在する他のエレメントが第１および第２エレメントの間に存在しない直接的な関係である場合もあるが、介在する１つ以上のエレメントが第１および第２エレメントの間に（空間的あるいは機能的のうちのいずれか１つ）存在する間接的な関係を含んでよい。本明細書に記載されるような、語句Ａ、Ｂ、およびＣのうちの少なくとも１つは、非排他的論理的ＯＲを利用して論理的（ＡＯＲＢＯＲＣ）を意味するように解釈されなければならず、「Ａのうちの少なくとも１つ、Ｂのうちのの少なくとも１つ、およびＣのうちの少なくとも１つ」を意味するように解釈されてはならない。

図面において、矢印の先端が示す方向は、一般的に、例示に対して関心がある（データまたは命令のような）情報の流れを示す。例えば、エレメントＡおよびＢが多様な情報を交換するが、エレメントＡからエレメントＢに送信された情報が例示と関連する場合、矢印は、エレメントＡからエレメントＢに向かってよい。この単方向性の矢印は、他の情報がエレメントＢからエレメントＡに送信されないことを暗示するものではない。また、エレメントＡからエレメントＢに送信された情報に対し、エレメントＢは、情報に対する要請または情報の受信確認をエレメントＡに送信してよい。

以下の定義を含む本出願において、用語「モジュール」または用語「制御器」は、用語「回路」に代替されてよい。用語「モジュール」は、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＡＳＩＣ）、デジタル、アナログ、または混合されたアナログ／デジタル個別回路、デジタル、アナログ、または混合されたアナログ／デジタル集積回路、組み合わせロジック回路、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、コードを実行するプロセッサ回路（共有、専用、またはグループ）、プロセッサ回路によって実行されたコードを記録するメモリ回路（共有、専用、またはグループ）、説明した機能性を提供する他の適切なハードウェアコンポーネント、またはシステム・オン・チップ（ｓｙｓｔｅｍ－ｏｎ－ｃｈｉｐ）などの一部またはすべての組み合わせを含むか、これらの一部であるか、これらを含んでよい。

モジュールは、１つ以上のインタフェース回路を含んでよい。一例において、インタフェース回路は、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、インターネット、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、またはその組み合わせに接続される有線または無線インタフェースを含んでよい。本開示の内容の任意の与えられたモジュールの機能性は、インタフェース回路を介して接続する多数のモジュールに分散されてよい。例えば、多数のモジュールは、負荷均衡化を許容してよい。追加の例として、（遠隔またはクラウド、または公知の）サーバモジュールは、クライアントモジュールの代わりに一部の機能性を完遂してよい。

上述したような用語は、ソフトウェア、ファームウエア、および／またはマイクロコードを含んでよく、プログラム、ルーチン、関数、クラス（ｃｌａｓｓ）、データ構造、および／またはオブジェクトを含んでよい。共有された用語であるプロセッサ回路は、多数のモジュールからの一部またはすべてのコードを実行する単一プロセッサ回路を網羅する。グループプロセッサ回路という用語は、追加的なプロセッサ回路と組み合わされ、１つ以上のモジュールからの一部またはすべてのコードを実行するプロセッサ回路を網羅する。多数のプロセッサ回路に対する参照は、個別のダイ上の多数のプロセッサ回路、単一ダイ上の多数のプロセッサ回路、単一プロセッサ回路の多数のコア、単一プロセッサ回路の多数のスレッド（ｔｈｒｅａｄ）、またはこれらの組み合わせを網羅する。共有された用語であるメモリ回路は、多数のモジュールからの一部またはすべてのコードを記録する単一メモリ回路を網羅する。グループメモリ回路という用語は、追加的なメモリと組み合わされて、１つ以上のモジュールからの一部またはすべてのコードを記録するメモリ回路を網羅する。

メモリ回路という用語は、コンピュータ読み取り可能な媒体のサブセットである。本明細書で利用する用語であるコンピュータ読み取り可能な媒体は、（搬送波（ｃａｒｒｉｅｒｗａｖｅ）上でのように）媒体を介して伝播する一時的な電気的または電磁気的信号を網羅せず、これにより、コンピュータ読み取り可能な媒体という用語は、類型（ｔａｎｇｉｂｌｅ）であり、非一時的（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）であると考慮されてよい。非一時的な類型のコンピュータ読み取り可能な媒体の非制限的な例は、（フラッシュメモリ回路、消去可能なプログラミング可能な読み取り専用メモリ回路、またはマスク読み取り専用メモリ回路のような）不揮発性メモリ回路、（静的ＲＡＭ回路または動的ＲＡＭ回路のような）揮発性メモリ回路、（アナログまたはデジタル磁気テープまたはハードディスクドライブのような）磁気記録媒体、および（ＣＤ、ＤＶＤ、またはブルーレイ（Ｂｌｕ－ｒａｙ）ディスクのような）光学記録媒体である。

本出願で説明する装置および方法は、コンピュータプログラムで具体化された１つ以上の特定の機能を実行するように汎用コンピュータを構成することによって生成された特殊目的コンピュータにより、部分的または完全に実現されてよい。上述した機能的ブロック、フローチャートコンポーネント、および他のエレメントは、通常の技術者またはプログラマの日常的な作業により、コンピュータプログラムに翻訳されるソフトウェア仕様としての役割を果たす。

コンピュータプログラムは、少なくとも１つの非一時的な類型のコンピュータ読み取り可能な媒体上に記録されるプロセッサで実行可能な命令を含む。また、コンピュータプログラムは、記録されたデータを含んでよく、記録されたデータに依存してよい。コンピュータプログラムは、特殊目的コンピュータのハードウェアと相互作用するベーシックインプット／アウトプットシステム（ｂａｓｉｃｉｎｐｕｔ／ｏｕｔｐｕｔｓｙｓｔｅｍ：ＢＩＯＳ）、特殊目的コンピュータの特定のデバイスと相互作用するデバイスドライバ、１つ以上のオペレーティングシステム、ユーザアプリケーション、バックグラウンドサービス、バックグラウンドアプリケーションなどを網羅する。

コンピュータプログラムは、（ｉ）ＨＴＭＬ（ｈｙｐｅｒｔｅｘｔｍａｒｋｕｐｌａｎｇｕａｇｅ）、ＸＭＬ（ｅｘｔｅｎｓｉｂｌｅｍａｒｋｕｐｌａｎｇｕａｇｅ）、またはＪＳＯＮ（ＪａｖａＳｃｒｉｐｔＯｂｊｅｃｔＮｏｔａｔｉｏｎ）のようなパーシングが必要な説明的テキスト、（ｉｉ）アセンブリコード（ａｓｓｅｍｂｌｙｃｏｄｅ）、（ｉｉｉ）コンパイラによってソースコードから生成されたオブジェクトコード、（ｉｖ）インタプリタによる実行のためのソースコード、（ｖ）ジャスト・イン・タイム（ｊｕｓｔ－ｉｎ－ｔｉｍｅ）コンパイラによるコンパイリング、および実行のためのソースコードなどが含まれる。一例として、ソースコードは、Ｃ、Ｃ＋＋、Ｃ＃、オブジェクティブ（Ｏｂｊｅｃｔｉｖｅ）Ｃ、Ｓｗｉｆｔ、Ｈａｓｋｅｌｌ、Ｇｏ、ＳＱＬ、Ｒ、Ｌｉｓｐ、Ｊａｖａ（登録商標）、Ｆｏｒｔｒａｎ、Ｐｅｒｌ、Ｐａｓｃａｌ、Ｃｕｒｌ、ＯＣａｍｌ、Ｊａｖａｓｃｒｉｐｔ（登録商標）、ＨＴＭＬ５（ＨｙｐｅｒｔｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ５ｔｈｒｅｖｉｓｉｏｎ）、Ａｄａ、ＡＳＰ（ＡｃｔｉｖｅＳｅｒｖｅｒＰａｇｅｓ）、ＰＨＰ（ＨｙｐｅｒｔｅｘｔＰｒｅｐｒｏｃｅｓｓｏｒ）、Ｓｃａｌａ、Ｅｉｆｆｅｌ、Ｓｍａｌｌｔａｌｋ、Ｅｒｌａｎｇ、Ｒｕｂｙ、Ｆｌａｓｈ（商標）、ＶｉｓｕａｌＢａｓｉｃ（登録商標）、Ｌｕａ、ＭＡＴＬＡＢ、ＳＩＭＵＬＩＮＫ、およびＰｙｔｈｏｎ（登録商標）を含む言語からのシンタックス（ｓｙｎｔａｘ）を利用して記録されてよい。

Claims

ロボットのための訓練システムであって、
変換器アーキテクチャを備え、ロボットのアーム（ａｒｍ）およびエンドエフェクタ（ｅｎｄｅｆｆｅｃｔｏｒ）のうちの少なくとも１つをどのように動作させるかを決定するように構成されたモデル、
前記ロボットが訓練タスクをそれぞれ実行するための示範（ｄｅｍｏｎｓｔｒａｔｉｏｎ）のセットを含む訓練データセット（ｔｒａｉｎｉｎｇｄａｔａｓｅｔ）、および
それぞれの前記訓練タスクのメタ訓練タスクを含む第１訓練タスクに対する示範のセットである第１示範を利用して前記モデルのポリシーをメタ訓練（ｍｅｔａ－ｔｒａｉｎ）し、
それぞれの前記訓練タスクの有効性検査タスクを含む第２訓練タスクに対する示範のセットである第２示範を利用して、前記モデルの過剰適合（ｏｖｅｒｆｉｔｔｉｎｇ）を防ぐための早期打切り（ｅａｒｌｙｓｔｏｐｐｉｎｇ）に基づき、前記モデルに対して有効性検査（ｖａｌｉｄａｔｉｏｎ）を実施し、
それぞれの前記訓練タスクのテストタスクを含む第３訓練タスクに対する示範のセットである第３示範を利用して前記モデルの前記ポリシーを最適化するように構成された訓練モジュールを含み、
前記訓練タスクに対する前記示範のセットはそれぞれ、１つ以上の示範および第１の予め決定された数未満の示範を含む、訓練システム。
前記訓練モジュールは、強化学習を利用して前記ポリシーをメタ訓練するように構成される、請求項１に記載の訓練システム。
前記訓練モジュールは、Ｒｅｐｔｉｌｅアルゴリズムおよびモデル非依存メタ学習（ｍｏｄｅｌ－ａｇｎｏｓｔｉｃｍｅｔａ－ｌｅａｒｎｉｎｇ：ＭＡＭＬ）アルゴリズムのうちの１つを利用して前記ポリシーをメタ訓練するように構成される、請求項１に記載の訓練システム。
前記訓練モジュールは、前記ポリシーを最適化する前に前記モデルの前記ポリシーをメタ訓練するように構成される、請求項１に記載の訓練システム。
前記モデルは、タスクの完了に向かうかタスクの完了まで進展させるために、前記ロボットの前記アームおよび前記エンドエフェクタのうちの少なくとも１つをどのように動作させるかを決定するように構成される、請求項１に記載の訓練システム。
前記タスクは、前記訓練タスクとは異なる、請求項５に記載の訓練システム。
メタ訓練および前記最適化の後に、前記モデルは、前記タスクを実行するための第２の予め決定された数以下のユーザ入力示範を利用して前記タスクを実行するように構成され、
前記第２の予め決定された数は、０よりも大きい定数である、請求項５に記載の訓練システム。
前記第２の予め決定された数は５である、請求項７に記載の訓練システム。
前記ユーザ入力示範は、（ａ）前記ロボットの関節の位置、および（ｂ）前記ロボットの前記エンドエフェクタの姿勢を含む、請求項７に記載の訓練システム。
前記エンドエフェクタの前記姿勢は、前記エンドエフェクタの位置および前記エンドエフェクタの向きを含む、請求項９に記載の訓練システム。
前記ユーザ入力示範は、前記タスクの実行中に前記ロボットによって相互作用されるべきオブジェクトの位置も含む、請求項９に記載の訓練システム。
前記ユーザ入力示範は、前記ロボットの環境における第２オブジェクトの位置も含む、請求項１１に記載の訓練システム。
前記第１の予め決定された数は、１０以下の定数である、請求項１に記載の訓練システム。
訓練システムであって、
変換器アーキテクチャを備え、アクションを決定するように構成されたモデル、
各訓練タスクに対する示範のセットを含む訓練データセット、および
前記各訓練タスクのメタ訓練タスクを含む第１訓練タスクに対する示範のセットである第１示範を利用して前記モデルのポリシーをメタ訓練し、
それぞれの前記訓練タスクの有効性検査タスクを含む第２訓練タスクに対する示範のセットである第２示範を利用して、前記モデルの過剰適合（ｏｖｅｒｆｉｔｔｉｎｇ）を防ぐための早期打切り（ｅａｒｌｙｓｔｏｐｐｉｎｇ）に基づき、前記モデルに対して有効性検査（ｖａｌｉｄａｔｉｏｎ）を実施し、
前記各訓練タスクのテストタスクを含む第３訓練タスクに対する示範のセットである第３示範を利用して前記モデルの前記ポリシーを最適化するように構成された訓練モジュールを含み、
前記訓練タスクに対する前記示範のセットはそれぞれ、１つ以上の示範および第１の予め決定された数未満の示範を含む、訓練システム。
ロボットのための訓練方法であって、
変換器アーキテクチャを備え、ロボットのアームおよびエンドエフェクタのうちの少なくとも１つをどのように動作させるかを決定するように構成されたモデルを記録する段階、
前記ロボットが訓練タスクをそれぞれ実行するための示範のセットを含む訓練データセットを記録する段階、
前記各訓練タスクのメタ訓練タスクを含む第１訓練タスクに対する示範のセットである第１示範を利用して前記モデルのポリシーをメタ訓練する段階、
それぞれの前記訓練タスクの有効性検査タスクを含む第２訓練タスクに対する示範のセットである第２示範を利用して、前記モデルの過剰適合（ｏｖｅｒｆｉｔｔｉｎｇ）を防ぐための早期打切り（ｅａｒｌｙｓｔｏｐｐｉｎｇ）に基づき、前記モデルに対して有効性検査（ｖａｌｉｄａｔｉｏｎ）を実施する段階、および
前記各訓練タスクのテストタスクを含む第３訓練タスクに対する示範のセットである第３示範を利用して前記モデルの前記ポリシーを最適化する段階を含み、
前記訓練タスクに対する前記示範のセットはそれぞれ、１つ以上の示範および第１の予め決定された数未満の示範を含む、訓練方法。
前記メタ訓練は、強化学習を利用して前記ポリシーをメタ訓練することを含む、請求項１５に記載の訓練方法。
前記メタ訓練は、Ｒｅｐｔｉｌｅアルゴリズムおよびモデル非依存メタ学習（ＭＡＭＬ）アルゴリズムのうちの１つを利用して前記ポリシーをメタ訓練することを含む、請求項１５に記載の訓練方法。
前記メタ訓練は、前記ポリシーを最適化する前に、前記モデルの前記ポリシーをメタ訓練することを含む、請求項１５に記載の訓練方法。
前記モデルは、タスクの完了に向かうかタスクの完了まで進展させるために、前記ロボットの前記アームおよび前記エンドエフェクタのうちの少なくとも１つをどのように動作させるかを決定するように構成される、請求項１５に記載の訓練方法。
前記タスクは、前記訓練タスクとは異なる、請求項１９に記載の訓練方法。
前記メタ訓練および前記最適化の後に、前記モデルは、前記タスクを実行するための第２の予め決定された数以下のユーザ入力示範を利用して前記タスクを実行するように構成され、
前記第２の予め決定された数は、０よりも大きい定数である、請求項１９に記載の訓練方法。
前記第２の予め決定された数は５である、請求項２１に記載の訓練方法。
前記ユーザ入力示範は、（ａ）前記ロボットの関節の位置、および（ｂ）前記ロボットの前記エンドエフェクタの姿勢を含む、請求項２１に記載の訓練方法。
前記エンドエフェクタの前記姿勢は、前記エンドエフェクタの位置および前記エンドエフェクタの向きを含む、請求項２３に記載の訓練方法。
前記ユーザ入力示範は、前記タスクの実行中に前記ロボットによって相互作用されるべきオブジェクトの位置も含む、請求項２３に記載の訓練方法。
前記ユーザ入力示範は、前記ロボットの環境における第２オブジェクトの位置を含む、請求項２５に記載の訓練方法。
前記第１の予め決定された数は、１０以下の定数である、請求項１５に記載の訓練方法。