JP2023526211A

JP2023526211A - 分散型ロボット実証学習

Info

Publication number: JP2023526211A
Application number: JP2022568556A
Authority: JP
Inventors: ヴェンカタサイラヴィクリシュナコルリ，バラ; シャール，ステファン; エム．デイヴィス，ベンジャミン; オリバーマイケルシェーンヘル，ラルフ; イェ，ニン
Original assignee: イントリンジックイノベーションエルエルシー
Priority date: 2020-05-21
Filing date: 2021-05-17
Publication date: 2023-06-21
Anticipated expiration: 2041-05-17
Also published as: EP4135938A1; KR20230002940A; WO2021236506A1; US11679497B2; CN115666871A; JP7487338B2; US20210362327A1

Abstract

【課題】ロボット制御のための強化学習などの技法を使用する従来の方法を改善することである。【解決手段】分散型ロボット実証学習のための、コンピュータ記憶媒体上に符号化されたコンピュータプログラムを含む、方法、システム、及び装置。方法のうちの１つは、複数のサブタスクを有する特定のスキルをロボットに実行させるように訓練されるべきスキルテンプレートを受信することを含む。スキルテンプレートによって定義された１つ以上の実証サブタスクが識別され、各実証サブタスクは、ローカル実証データを使用して精緻化されるべき行動である。オンライン実行システムでは、ローカル実証データのセットをクラウドベースの訓練システムにアップロードする。クラウドベースの訓練システムは、ローカル実証データの各セットについてそれぞれの訓練されたモデルパラメータを生成する。スキルテンプレートは、クラウドベースの訓練システムによって生成された訓練されたモデルパラメータを使用してロボット上で実行される。【選択図】図１

Description

本明細書は、ロボット工学に関し、より具体的には、ロボット移動の計画に関する。

ロボット工学制御は、タスクを実行するためにロボットの物理的移動を制御することを指す。例えば、自動車を製造する産業用ロボットは、最初に自動車部品をピックアップし、次に自動車部品を自動車のフレームに溶接するようにプログラムすることができる。これらの行動の各々は、それ自体、ロボットモータ及びアクチュエータによる数十又は数百の個々の移動を含むことができる。

ロボット工学計画は、従来、特定のタスクを達成するためにロボット構成要素をどのように移動すべきかを綿密に指示するために、膨大な量の手動プログラミングを必要としてきた。手動プログラミングは、長たらしく、時間がかかり、エラーを起こしやすい。更に、１つの作業セルに対して手動で生成されるスケジュールは、概して、他の作業セルに対して使用することができない。本明細書では、作業セルは、ロボットが動作する物理的環境である。作業セルは、ロボットが作業セル内でどのように移動し得るかについて制約を課す特定の物理的性状、例えば、物理的寸法を有する。したがって、１つの作業セルに対する手動でプログラムされたスケジュールは、異なるロボット、異なる数のロボット、又は異なる物理的寸法を有する作業セルと互換性がない場合がある。

機械学習制御アルゴリズム、例えば、強化学習を使用して、特定のタスクを実行するようにロボットを制御することに向けて、いくつかの研究が行われている。しかしながら、ロボットは、従来の学習アプローチを概して不満足なものにするいくつかの欠点を有する。

第一に、ロボットは、当然ながら、非常に複雑で、高次元で、連続的な行動空間を有する。したがって、全ての可能な候補行動を生成し、評価することは計算コストが高い。第二に、ロボット制御は、ほとんどの可能な行動が特定のタスクを完了することにならないため、報酬が非常に少ない環境である。報酬成形（reward shaping）として知られる技法が、少ない報酬問題を緩和するために用いられてきたが、その技法は、概して、手作業で設計された報酬関数に対してスケーラブルではない。

更なる複雑さは、ロボット制御のためにロボット学習を使用するための従来の技術が非常に脆弱であることである。これは、作業可能なモデルがうまく訓練されたとしても、タスク、ロボット、又は環境に対する非常に小さな変更であっても、モデル全体が完全に使用不能になる可能性があることを意味する。

これらの問題の全ては、ロボット制御のための強化学習などの技法を使用する従来の方法が、作業を行うことが全く困難であり、うまくスケーリングせず、他の状況に一般化されない計算コストの高いプロセスをもたらすことを意味する。

本明細書は、実証ベースのロボット学習に関する技術を説明する。特に、本明細書は、どのようにロボットが、スキルテンプレート及び実証データを使用して学習されたカスタマイズされた制御ポリシーを使用してロボットタスクを実行するようにプログラムされ得るかを説明する。

本明細書において、タスクとは、１つ以上のサブタスクを実行することを伴う特定のロボットの能力を指す。例えば、コネクタ挿入タスクは、ロボットがワイヤコネクタをソケットに挿入することを可能にする能力である。このタスクは、典型的には、１）ロボットのツールをソケットの場所に移動させること、及び２）コネクタをソケットの特定の場所に挿入することの２つのサブタスクを含む。

本明細書において、サブタスクは、ツールを使用してロボットによって実行されるべき動作である。簡潔さのために、ロボットが１つのツールのみを有する場合、サブタスクは、全体としてロボットによって実行されるべき動作として説明され得る。例示的なサブタスクは、ほんの数例を挙げると、溶接、接着剤分注、部品位置決め、及び表面研磨を含む。サブタスクは、概して、サブタスクを実行するのに必要なツールを示すタイプ、並びにサブタスクが実行される作業セルの座標系内の場所に関連付けられる。

本明細書では、スキルテンプレート、又は簡潔さのために、テンプレートは、ロボットが特定のタスクを実行するように調整されることを可能にするデータ及びソフトウェアの集合体である。スキルテンプレートデータは、タスクを実行するために必要とされる１つ以上のサブタスク、並びにスキルのどのサブタスクがローカル実証学習を必要とするか、及びどの知覚ストリームが成功又は失敗を決定するために必要とされるかを説明する情報を表現する。したがって、スキルテンプレートは、ローカル実証学習を必要とする実証サブタスク、ローカル実証学習を必要としない非実証サブタスク、又はその両方を定義することができる。

これらの技術は、特に、機械学習、例えば、強化学習を使用して制御することが従来困難であったロボットタスクに有利である。これらのタスクには、作業空間内の物体との物理的接触を伴うタスク、例えば、ほんの数例を挙げると、研磨、接続及び挿入タスク、並びにワイヤルーティングが含まれる。

本明細書において説明される主題の特定の実施形態は、以下の利点のうちの１つ以上を実現するように実施することができる。本明細書で説明されるような実証データを使用する学習は、従来の強化学習方法の問題を一般化するように、少ない報酬及び不能さを解決する。

システムは、視覚、固有受容（関節）データ、触覚データ、及び任意の他の特徴を使用してタスクを実行することができ、これにより、システムは、高精度で特定のロボットモデルに迅速に適応することができる。ロボット工学における最小感知の古典的な見解とは対照的に、「センサリッチなロボット操作」に重点が置かれている。これは一般に、より安価なロボットを使用して、より少ないセットアップ時間で同じタスクを行うことができることを意味する。

以下に説明される技法は、機械学習技法が、適切にインストールされたハードウェア抽象化を有する任意の適切なロボットに迅速に適合されることを可能にする。典型的なシナリオでは、１人の非専門家が、１日未満のセットアップ時間でスキルテンプレートを実行するようにロボットを訓練することができる。これは、報酬関数を数週間設計するために専門家のチームが問題に取り組むことを必要とする可能性があり、非常に大規模なデータセンタで数週間の訓練時間を必要とする従来の方法に対する大幅な改善である。これは、機械学習ロボット制御が、多くのタイプのロボットに広く分散されることを効果的に可能にし、システムが以前に見られなかったロボットにさえ分散されることを可能にする。

これらの技術は、ロボット学習をサービスとして効果的に実装することができ、その結果、技術へのアクセスがより向上する。これにより、ロボット産業全体が全体的により安全かつより効率的になる。

強化学習、機械学習を伴う知覚データ処理、及び高度なインピーダンス／アドミタンス制御の組み合わせにより、タスクの複雑さにもかかわらず、産業用途において必要とされるような、非常に高い成功率で実行するロボットスキルが可能になる。

本明細書の主題の１つ以上の実施形態の詳細は、添付の図面及び以下の説明に記載される。主題の他の特徴、態様、及び利点は、説明、図面、及び特許請求の範囲から明らかになるであろう。

例示的な実証学習システムの図である。ローカル実証データに基づいてカスタマイズされた制御ポリシーを使用してサブタスクを実行するための例示的なシステムの図である。ローカル実証データを使用してサブタスクを実行するための別の例示的なシステムの図である。残差強化学習を使用してサブタスクを実行するための別の例示的なシステムの図である。複数の異なるセンサストリームからのセンサデータを組み合わせるための例示的なプロセスのフローチャートである。カメラリストバンドの図である。カメラリストバンドの別の例示的な図である。カメラリストバンドの別の例示的な図である。例示的なスキルテンプレートを示す。スキルテンプレートを使用してスキルを実行するようにロボットを構成するための例示的なプロセスのフローチャートである。力をガイドとして使用するタスクに対してスキルテンプレートを使用するための例示的なプロセスのフローチャートである。クラウドベースの訓練システムを使用してスキルテンプレートを訓練するための例示的なプロセスのフローチャートである。

様々な図面における同様の参照番号及び名称は、同様の要素を示す。

図１は、例示的な実証学習システムの図である。システム１００は、本明細書で説明する実証ベースの学習技法を実装することができるシステムの例である。

システム１００は、オンライン実行システム１１０、訓練システム１２０、及びロボットインターフェースサブシステム１６０を含む、いくつかの機能構成要素を含む。これらの構成要素の各々は、任意の適切な通信ネットワーク、例えば、イントラネット若しくはインターネット、又はネットワークの組み合わせを介して互いに結合された１つ以上の場所にある１つ以上のコンピュータにインストールされたコンピュータプログラムとして実装することができる。

システム１００は、２つの基本モード、すなわち、実証モード及び実行モードでロボット１７０ａ～ｎを制御するように動作する。

実証モードでは、ユーザは、１つ以上のロボット１７０ａ～ｎを制御して、特定のタスク又はサブタスクを実行することができる。そうする間に、オンライン実行システム１１０は、ステータスメッセージ１３５及びオンライン観測１４５を収集して、ローカル実証データを生成する。実証データ収集器１５０は、ステータスメッセージ１３５及びオンライン観測１４５からローカル実証データ１１５を生成することができるモジュールであり、オンライン実行システム１１０は、次いで、そのローカル実証データを訓練システム１２０に提供することができる。次いで、訓練システムは、タスク及びタスクを実行するロボットの両方の特定の特性に固有のカスタマイズされた制御ポリシー１２５を生成することができる。

本明細書では、制御ポリシーは、ロボットが所与の観測入力に対して実行する１つ以上の次の行動を生成するモジュール又はサブシステムである。制御ポリシーの出力は、ポリシーによって直接出力されるコマンドとして、又はロボット制御スタックの機構を通して複数のロボット構成要素によってそれぞれ消費されるより高レベルのコマンドとして、１つ以上のロボット構成要素、例えば、モータ又はアクチュエータへの移動に影響を及ぼし得る。したがって、制御ポリシーは、環境観測値を１つ以上の行動に変換する１つ以上の機械学習モデルを含むことができる。

本明細書では、ローカル実証データは、ユーザがロボットを制御している間に収集されたデータであり、ロボットに物理的な移動を実行させることによって、ロボットが特定のタスクをどのように実行できるかを実証する。ローカル実証データは、運動学的データ、例えば、関節位置、配向、及び角度を含むことができる。ローカル実証データはまた、センサデータ、例えば、１つ以上のセンサから収集されたデータを含むことができる。センサは、力センサと、視覚センサ、例えば、カメラ、深度カメラ、及びライダーと、電気接続センサと、加速度センサと、音声センサと、ジャイロと、接触センサと、レーダーセンサと、近接センサと、例えば、ほんの数例を挙げると、赤外線近接センサ、容量性近接センサ、又は誘導性近接センサなどを含むことができる。

典型的には、ローカル実証データは、実証モードでロボットを制御するユーザに近接している１つ以上のロボットから取得される。しかしながら、ユーザとロボットとの間の物理的近接性は、ローカル実証データを取得するための要件ではない。例えば、ユーザは、リモートユーザインターフェースを介して特定のロボットからリモートでローカル実証データを取得することができる。

訓練システム１２０は、機械学習技法を使用して、ローカル実証データ１１５からカスタマイズされた制御ポリシー１２５を生成することができるコンピュータシステムである。訓練システム１２０は、典型的には、オンライン実行システム１１０よりもはるかに多くのコンピューティングリソースを有する。例えば、訓練システム１２０は、数百又は数千のコンピューティングノードを有するクラウドベースのコンピューティングシステムであり得る。

カスタマイズされた制御ポリシー１２５を生成するために、訓練システム１２０は、まず、タスクのためのベース制御ポリシーを取得又は事前生成することができる。ベース制御ポリシーは、任意の十分に類似したロボットがタスクを実行することができるように比較的近くなるようにするために、特定のタスクに対して十分にうまく機能することが期待される制御ポリシーである。大多数のタスクについて、ベース制御ポリシー単独では、十分に信頼できる成功を伴ってタスクを達成するのに十分に正確であるとは予想されない。例えば、接続及び挿入タスクは、典型的には、サブミリメートル精度を必要とし、これは、特定のロボットのためのローカル実証データによって提供される詳細なしでは取得できない精度である。

特定のタスクに対するベース制御ポリシーは、様々な方法で生成することができる。例えば、ベース制御ポリシーは、手動でプログラムされ、従来の強化学習技法を使用して、又は本明細書に説明される実証ベースの学習技法を使用して訓練されることができる。これらの技法の全ては、ベース制御ポリシーを生成するときに時間があまり考慮されないので、タスクのためのローカル実証データを受信する前に、ベース制御ポリシーを事前生成するのに適切であり得る。

いくつかの実装形態では、訓練システムは、一般化された訓練データ１６５からベース制御ポリシーを生成する。オンライン実行システム１１０によって収集されたローカル実証データ１１５は、典型的には、１つの特定のロボット又は１つの特定のロボットモデルに特有であるが、一般化された訓練データ１６５は、対照的に、１つ以上の他のロボットから生成され得、この一般化された訓練データは、同じモデルである必要はないか、同じサイトに位置する必要はないか、又は同じ製造業者によって構築される必要はない。例えば、一般化された訓練データ１６５は、異なる特性を有し、かつ異なるモデルである数十又は数百又は数千の異なるロボットからオフサイトで生成することができる。加えて、一般化された訓練データ１６５は、物理的ロボットから生成される必要さえない。例えば、一般化された訓練データは、物理的ロボットのシミュレーションから生成されたデータを含むことができる。

したがって、ローカル実証データ１１５は、ユーザがアクセスし操作することができる特定のロボットに固有であるという意味でローカルである。したがって、ローカル実証データ１１５は、特定のロボットに固有のデータを表すが、ローカル変数、例えば、特定のタスクの特定の特性、並びに特定の作業環境の特定の特性を表すこともできる。

ベース制御ポリシーはまた、スキルテンプレートを開発するプロセス中に収集されるシステム実証データを使用して定義することもできる。例えば、スキルテンプレートを生成するエンティティに関連付けられたエンジニアのチームは、システム１００から遠隔にある及び／又はシステム１００に関連付けられていない施設において１つ以上のロボットを使用して実証を実行することができる。システム実証データを生成するために使用されるロボットは、作業セル１７０内のロボット１７０ａ～ｎと同じロボット又は同じロボットモデルである必要もない。この場合、システム実証データを使用して、ベース制御ポリシーの行動をブートストラップすることができる。次いで、ベース制御ポリシーは、より計算的に高価で洗練された学習方法を使用して、カスタマイズされた制御ポリシーに適合され得る。

ローカル実証データを使用してベース制御ポリシーを適合させることは、例えば、システム実証データを収集することによって、又は一般化された訓練データ１６５を使用して訓練することによって、ベース制御ポリシーを生成することと比較して、比較的速いという非常に望ましい効果を有する。例えば、特定のタスクのための一般化された訓練データ１６５のサイズは、ローカル実証データ１１５よりも何桁も大きい傾向があり、したがって、ベース制御ポリシーを訓練することは、それを特定のロボットに適合させることよりもはるかに長くかかると予想される。例えば、ベース制御ポリシーを訓練することは、膨大なコンピューティングリソースを必要とする可能性があり、いくつかの事例では、数百又は数千の機械を有するデータセンタは、一般化された訓練データからベース制御ポリシーを訓練するために、数日又は数週間にわたって動作する。対照的に、ローカル実証データ１１５を使用してベース制御ポリシーを適合させることは、数時間しかかからない可能性がある。

同様に、ベース制御ポリシーを定義するためにシステム実証データを収集することは、ローカル実証データに必要とされるよりもはるかに多くの反復を必要とし得る。例えば、ベース制御ポリシーを定義するために、エンジニアのチームは、１０００個の成功したタスク及び１０００個の不成功のタスクを実証し得る。対照的に、結果として生じるベース制御ポリシーを十分に適合させることは、５０回の成功した実証及び５０回の不成功の実証しか必要としない場合がある。

したがって、訓練システム１２０は、実証データを生成するために使用された特定のロボットのためのカスタマイズされた制御ポリシー１２５を生成するために、ローカル実証データ１１５を使用してベース制御ポリシーを改良することができる。カスタマイズされた制御ポリシー１２５は、特定のロボットの特性、並びにタスクのためのローカル変数を考慮するように、ベース制御ポリシーを調整する。ローカル実証データを使用してカスタマイズされた制御ポリシー１２５を訓練すると、ベース制御ポリシーを訓練するよりもはるかに短い時間で済み得る。例えば、ベース制御ポリシーを訓練すると、多くの日数又は週数を要し得るが、ユーザは、ローカル実証データ１１５を生成するためにロボットを用いて１～２時間のみを費やす可能性があり、そのローカル実証データは、次いで、訓練システム１２０にアップロードされ得る。次いで、訓練システム１２０は、ベース制御ポリシーを訓練するのにかかる時間よりもはるかに短い時間、例えば、おそらくわずか１時間又は２時間で、カスタマイズされた制御ポリシー１２５を生成することができる。

実行モードにおいて、実行エンジン１３０は、カスタマイズされた制御ポリシー１２５を使用して、ユーザの介入なしにタスクを自動的に実行することができる。オンライン実行システム１１０は、カスタマイズされた制御ポリシー１２５を使用して、作業セル１７０内の１つ以上のロボット、例えば、ロボット１７０ａ～ｎを駆動するロボットインターフェースサブシステム１６０に提供されるべきコマンド１５５を生成することができる。オンライン実行システム１１０は、ロボット１７０ａ～ｎによって生成されたステータスメッセージ１３５と、作業セル１７０内で観測を行う１つ以上のセンサ１７１ａ～ｎによって行われたオンライン観測１４５とを消費することができる。図１に示すように、各センサ１７１は、それぞれのロボット１７０に結合されている。しかしながら、センサは、ロボットと１対１の対応を有する必要はなく、ロボットに結合される必要もない。実際、各ロボットは、複数のセンサを有することができ、センサは、作業セル１７０内の静止又は可動表面に搭載されることができる。

実行エンジン１３０は、訓練システム１２０から受信したカスタマイズされた制御ポリシー１２５への入力として、ステータスメッセージ１３５及びオンライン観測１４５を使用することができる。したがって、ロボット１７０ａ～ｎは、それらの特定の特性及びタスクの特定の特性に従ってタスクを完了するためにリアルタイムで反応することができる。

したがって、制御ポリシーを調整するためにローカル実証データを使用すると、大きく異なるユーザ体験がもたらされる。ユーザの観点から、ローカル実証データを生成すること及びカスタマイズされた制御ポリシーが生成されるのを待つことを含む、カスタマイズされた制御ポリシーを用いてタスクを非常に正確に実行するようにロボットを訓練することは、１日未満のセットアップ時間を要し得る非常に迅速なプロセスである。速度は、事前計算されたベース制御ポリシーを活用することから得られる。

この構成は、既存のロボット学習方法に対して大きな技術的改善を導入し、既存のロボット学習方法は、通常、手作業で設計された報酬関数を数週間テストして生成し、適切な訓練データを数週間生成し、モデルが産業用生産に適するようにモデルを数週間訓練し、テストし、及び改良する必要がある。

加えて、従来のロボット強化学習とは異なり、ローカル実証データを使用することは、ロボット、タスク、及び環境の特性における小さな摂動に対して非常にロバストである。ある企業が新しいロボットモデルを購入する場合、ユーザは、新しいカスタマイズされた制御ポリシーのための新しいローカル実証データを生成するのに１日を費やすだけでよい。これは、ロボット、タスク、又は環境の物理的特性に対する任意の変化が、最初から数週間にわたるプロセス全体を始めることを必要とし得る、既存の強化学習方法とは対照的である。

実証ベースの学習プロセスを開始するために、オンライン実行システムは、訓練システム１２０からスキルテンプレート１０５を受信することができる。上述したように、スキルテンプレート１０５は、スキルを実行するために必要とされる１つ以上のサブタスクのシーケンス、サブタスクのうちのどれがローカル実証学習を必要とするか、及びどの知覚ストリームがどのサブタスクに対して必要とされるか、並びにスキルテンプレートの１つのサブタスクの実行から次のサブタスクの実行にいつ遷移するかを指定する遷移条件を指定することができる。

上述したように、スキルテンプレートは、ローカル実証学習を必要とする実証サブタスク、ローカル実証学習を必要としない非実証サブタスク、又はその両方を定義することができる。

実証サブタスクは、上述したように、一般化された訓練データ又はシステム実証データから予め計算することができるベース制御ポリシーに暗黙的又は明示的に結び付けられる。したがって、スキルテンプレートは、テンプレート内の各実証サブタスクについて、別個のベース制御ポリシー、又はベース制御ポリシーの識別子を含むことができる。

スキルテンプレートはまた、各実証サブタスクについて、ローカル実証データを使用して実証サブタスクを調整するために必要とされるソフトウェアモジュールを含むことができる。各実証サブタスクは、異なるタイプの機械学習モデルに依存することができ、調整のために異なる技法を使用することができる。例えば、移動実証サブタスクは、特定のタスク目標を見つけるために、ローカル作業セル環境のカメラ画像に大きく依存し得る。したがって、移動実証サブタスクのための調整手順は、ローカル実証データにおいて捕捉されたカメラ画像内の特徴を認識するように機械学習モデルをより強く調整することができる。対照的に、挿入実証サブタスクは、接続ソケットの縁部を感知し、適度に優しい力を使用してコネクタをソケットに挿入するために、力フィードバックデータに大きく依存することができる。したがって、挿入実証サブタスクのための調整手順は、力知覚及び対応するフィードバックを扱う機械学習モデルをより厳しく調整することができる。言い換えれば、スキルテンプレート内のサブタスクの基礎モデルが同じであっても、各サブタスクは、異なる方法でローカル実証データを組み込むためのそれ自体のそれぞれの調整手順を有することができる。

非実証サブタスクは、ベース制御ポリシーに関連付けられてもよいし、又は関連付けられなくてもよい。例えば、非実証サブタスクは、単に特定の座標位置への移動を指定することができる。代替的に、非実証サブタスクは、例えば、他のロボットから計算されたような、センサデータを使用して関節が特定の座標位置にどのように移動すべきかを指定する、ベース制御ポリシーに関連付けられ得る。

スキルテンプレートの目的は、特定のタスク能力を有するようにロボットをプログラミングするための一般化されたフレームワークを提供することである。特に、スキルテンプレートを使用して、比較的少ない労力で同様のタスクを実行するようにロボットを適合させることができる。したがって、特定のロボット及び特定の環境に対してスキルテンプレートを適合させることは、スキルテンプレート内の各実証サブタスクに対して訓練プロセスを実行することを伴う。簡潔さのために、このプロセスは、複数の別々に訓練されたモデルを伴い得る場合であっても、スキルテンプレートを訓練することと呼ばれ得る。

例えば、ユーザは、コネクタ挿入サブタスクが後に続く第１の移動サブタスクの実行を指定するコネクタ挿入スキルテンプレートをダウンロードすることができる。コネクタ挿入スキルテンプレートはまた、第１のサブタスクが、例えば、カメラからの視覚的知覚ストリームに依存すること、ただし、第２のサブタスクが、例えば、力センサからの力の知覚ストリームに依存することを指定することができる。コネクタ挿入スキルテンプレートはまた、第２のサブタスクのみがローカル実証学習を必要とすることを指定することができる。これは、ロボットを特定の場所に移動させることが、通常、当面のタスクの状況又は作業環境にあまり依存しないためであり得る。しかしながら、作業環境が狭い空間要件を有する場合、テンプレートはまた、ロボットが作業環境の狭い空間要件を通してナビゲートすることを迅速に学習することができるように、第１のサブタスクがローカル実証学習を必要とすることを指定してもよい。

ロボットにコネクタ挿入スキルを装備するために、ユーザは、ローカル実証データを必要とするものとしてスキルテンプレートによって示されるサブタスクを実行する際にロボットをガイドするだけでよい。ロボットは、訓練システムがコネクタ挿入サブタスクに関連付けられたベース制御ポリシーを精緻化するために使用することができるローカル実証データを自動的に捕捉する。カスタマイズされた制御ポリシーの訓練が完了すると、ロボットは、サブタスクを実行するように装備されるために、最終的に訓練されたカスタマイズされた制御ポリシーをダウンロードする必要があるだけである。

特に、同じスキルテンプレートを多くの異なる種類のタスクに使用することができる。例えば、同じコネクタ挿入スキルテンプレートを使用して、ロボットがＨＤＭＩケーブル挿入若しくはＵＳＢケーブル挿入、又はその両方を実行するように装備することができる。必要なことは、ユーザが、学習されている実証サブタスクのためのベース制御ポリシーを精緻化するために、これらの異なる挿入サブタスクを実証することだけである。上述したように、典型的には、このプロセスは、完全な制御ポリシーを最初から開発又は学習するよりもはるかに少ない計算能力及びはるかに短い時間を必要とする。

加えて、スキルテンプレートアプローチは、ハードウェアに非依存であり得る。これは、訓練システムがその特定のロボットモデルの制御ポリシーを訓練したことがない場合であっても、スキルテンプレートを使用してロボットにタスクを実行させることができることを意味する。したがって、この技術は、強化学習を使用してロボットを制御することに伴う問題の多くを解決する。特に、本技術は、非常に小さなハードウェア変更であっても、費用がかかり、重複する労力である最初から制御ポリシーを再学習することを必要とする、脆弱性の問題を解決する。

ローカル実証データの収集をサポートするために、システム１００はまた、１つ以上のＵＩデバイス１８０及び１つ以上の実証デバイス１９０を含むことができる。ＵＩデバイス１８０は、カスタマイズされた制御ポリシー１２５を生成する際に最も有益であるローカル実証データを取得する際にユーザをガイドするのを助けることができる。ＵＩデバイス１８０は、どの種類の行動を実行又は繰り返すべきかについてユーザに指示するユーザインターフェース、並びにユーザがロボットの物理的に隣にいることなくロボットを制御することを可能にする拡張現実デバイスを含むことができる。

実証デバイス１９０は、システム１００の主要な動作を補助するデバイスである。概して、実証デバイス１９０は、外部からの力データをローカル実証データに導入することなく、ユーザがロボットに対してスキルを実証することを可能にするデバイスである。言い換えれば、実証デバイス１９０は、ユーザの実証行動が、実行中に力センサが実際に読み取るものに影響を及ぼす可能性を低減することができる。

動作中、ロボットインターフェースサブシステム１６０及びオンライン実行システム１１０は、異なるタイミング制約に従って動作することができる。いくつかの実装形態では、ロボットインターフェースサブシステム１６０は、ハードリアルタイム要件を有するリアルタイムソフトウェア制御システムである。リアルタイムソフトウェア制御システムは、通常動作を達成するために厳密なタイミング要件内で実行することが要求されるソフトウェアシステムである。タイミング要件は、システムが故障状態に入ることを回避するために、ある特定の行動が実行されなければならないこと、又は出力が特定の時間窓内で生成されなければならないことを指定することが多い。故障状態では、システムは、実行を停止するか、又は通常動作を中断する何らかの他の行動を取ることができる。

一方、オンライン実行システム１１０は、典型的には、動作においてより高い柔軟性を有する。言い換えれば、オンライン実行システム１１０は、ロボットインターフェースサブシステム１６０が動作する下で、全てのリアルタイム時間窓内でコマンド１５５を提供してもよいが、必須ではない。しかしながら、センサベースの反応を行う能力を提供するために、オンライン実行システム１１０は、依然として厳密なタイミング要件の下で動作することができる。典型的なシステムでは、ロボットインターフェースサブシステム１６０のリアルタイム要件は、ロボットが５ミリ秒ごとにコマンドを提供することを要求し、一方で、オンライン実行システム１１０のオンライン要件は、オンライン実行システム１１０が２０ミリ秒ごとにロボットインターフェースサブシステム１６０にコマンド１５５を提供すべきであることを指定する。しかしながら、そのようなコマンドがオンライン時間窓内で受信されない場合であっても、ロボットインターフェースサブシステム１６０は、必ずしも故障状態に入る必要はない。

したがって、本明細書では、オンラインという用語は、動作のための時間パラメータ及び強固性パラメータの両方を指す。この時間窓は、リアルタイムロボットインターフェースサブシステム１６０の時間窓よりも大きく、タイミング制約が満たされない場合、典型的には、より多くの柔軟性がある。いくつかの実装形態では、ロボットインターフェースサブシステム１６０は、オンサイト実行エンジン１５０によって発行されたコマンド１５５が複数の異なるバージョンのロボットと互換性があるように、ハードウェア非依存インターフェースを提供する。実行中、ロボットインターフェースサブシステム１６０は、オンライン実行システム１５０が、例えば、ローカル障害又は他の予期せぬ状態に起因して、ロボット移動に対するオンライン調整を行うことができるように、オンライン実行システム１１０にステータスメッセージ１３５を報告し戻すことができる。ロボットはリアルタイムロボットとすることができ、これは、ロボットが高度に制約されたタイムラインに従ってそれらのコマンドを継続的に実行するようにプログラムされることを意味する。例えば、各ロボットは、特定の周波数、例えば、１００Ｈｚ又は１ｋＨｚでロボットインターフェースサブシステム１６０からのコマンドを予期することができる。ロボットが予期されるコマンドを受信しない場合、ロボットは故障モードに入り、動作を停止することができる。

図２Ａは、ローカル実証データに基づいてカスタマイズされた制御ポリシーを使用してサブタスクを実行するための例示的なシステム２００の図である。概して、複数のセンサ２６０からのデータは、複数の別々に訓練されたニューラルネットワークを介して供給され、単一の低次元タスク状態表現２０５に組み合わされる。次いで、低次元表現２０５は、ロボット２７０によって実行されるべきロボットコマンド２３５を生成するように構成される、調整された制御ポリシー２１０への入力として使用される。したがって、システム２００は、修正サブシステム２８０を介してベース制御ポリシーの修正を実施することによって、ローカル実証データに基づいてカスタマイズされた制御ポリシーを実装することができる。

センサ２６０は、ロボット又はロボットの作業セル内のターゲットの視覚特性を表現する知覚データストリームを生成する知覚センサを含むことができる。例えば、より良好な視覚能力を達成するために、ロボットツールは、複数のカメラ、例えば、ほんの数例を挙げると、可視光カメラ、赤外線カメラ、及び深度カメラを装備することができる。

異なる知覚データストリーム２０２は、それぞれの畳み込みニューラルネットワーク２２０ａ～ｎによって独立して処理され得る。各知覚データストリーム２０２は、異なる知覚センサ、例えば、異なるカメラ又は異なるタイプのカメラに対応することができる。各カメラからのデータは、異なるそれぞれの畳み込みニューラルネットワークによって処理され得る。

センサ２６０はまた、ロボット又はロボットの構成要素の物理的特性を表現するロボット状態データストリーム２０４を生成する１つ以上のロボット状態センサを含む。例えば、ロボット状態データストリーム２０４は、ほんの数例を挙げると、ロボット又はロボットのそれぞれの構成要素の力、トルク、角度、位置、速度、及び加速度を表現することができる。ロボット状態データストリーム２０４の各々は、それぞれのディープニューラルネットワーク２３０ａ～ｍによって処理され得る。

修正サブシステム２８０は、センサデータを並列に処理する任意の数のニューラルネットワークサブシステムを有することができる。いくつかの実装形態では、システムは、１つの知覚ストリーム及び１つのロボット状態データストリームのみを含む。

ニューラルネットワークサブシステムの出力は、ロボット２７０によって実行されているサブタスクの状態を累積的に表現するタスク状態表現２０５のそれぞれの部分である。いくつかの実装形態では、タスク状態表現２０５は、１００個未満の特徴、例えば、１０個、３０個、又は５０個の特徴を有する低次元表現である。低次元タスク状態表現を有することは、学習すべきモデルパラメータがより少ないことを意味し、これは、ローカル実証データが特定のサブタスクを適応させるために使用され得る速度を更に増加させる。

次いで、タスク状態表現２０５は、調整された制御ポリシー２１０への入力として使用される。実行中に、調整された制御ポリシー２１０は、入力タスク状態表現２０５から、ロボット２７０によって実行されるロボットコマンド２３５を生成する。

訓練中、訓練エンジン２４０は、ローカルに実証された行動２７５の表現、並びに調整された制御ポリシー２１０によって生成された提案されたコマンド２４５を使用することによって、パラメータ補正２５５を生成する。次いで、訓練エンジンは、パラメータ補正２５５を使用して、調整された制御ポリシー２１０を精緻化することができ、その結果、将来の反復において調整された制御ポリシー２１０によって生成されたコマンドは、ローカルに実証された行動２７５により厳密に一致する。

訓練プロセスにおいて、調整された制御ポリシー２１０は、訓練されている実証サブタスクに関連付けられたベース制御ポリシーで初期化され得る。調整された制御ポリシー２１０は、ローカルに実証された行動２７５を使用して反復的に更新することができる。訓練エンジン２４０は、調整された制御ポリシー２１０を調整するための任意の適切な機械学習技術、例えば、教師あり学習、回帰、又は強化学習を使用することができる。調整された制御ポリシー２１０がニューラルネットワークを使用して実装されるとき、パラメータ補正２３５は、出力された提案されたコマンド２４５が将来の反復においてローカルに実証された行動２７５により近くなるように、ネットワークを通して逆伝搬され得る。

上述したように、スキルテンプレートの各サブタスクは、それらの基礎となるモデルのアーキテクチャが同じ又は類似している場合であっても、異なる訓練優先度を有することができる。したがって、いくつかの実装形態では、訓練エンジン２４０は、任意選択で、調整された制御ポリシー２１０をどのように更新するかを指定するサブタスクハイパーパラメータ２７５を入力として取ることができる。例えば、サブタスクハイパーパラメータは、視覚感知が非常に重要であることを示すことができる。したがって、訓練エンジン２４０は、調整された制御ポリシー２１０をより積極的に補正して、ローカルに実証された行動２７５で捕捉されたカメラデータと整合させることができる。いくつかの実装形態では、サブタスクハイパーパラメータ２７５は、異なるサブタスクごとに使用されるべき別個の訓練モジュールを識別する。

図２Ｂは、ローカル実証データを使用してサブタスクを実行するための別の例示的なシステムの図である。この例では、単一の調整された制御ポリシーのみを有する代わりに、システムは、複数の独立した制御ポリシー２１０ａ～ｎを含む。各制御ポリシー２１０ａ～ｎは、タスク状態表現２０５を使用して、それぞれのロボットサブコマンド２３４ａ～ｎを生成することができる。次に、システムは、サブコマンドを組み合わせて、ロボット２７０によって実行されるべき単一のロボットコマンド２３５を生成することができる。

複数の別々に調整可能な制御ポリシーを有することは、例えば、異なる更新レートを有する複数のセンサからのデータを使用することができる、センサリッチな環境において有利であり得る。例えば、異なる制御ポリシー２１０ａ～ｎは、異なる更新レートで実行することができ、これにより、システムは、単純な制御アルゴリズムとより高度な制御アルゴリズムの両方を同じシステムに組み込むことができる。例えば、１つの制御ポリシーは、現在の力データを使用してロボットコマンドに焦点を合わせることができ、これは、画像データよりもはるかに速い速度で更新され得る。一方、別の制御ポリシーは、現在の画像データを使用するロボットコマンドに焦点を合わせることができ、これは、非決定論的な実行時間を有し得る、より高度な画像認識アルゴリズムを必要とし得る。その結果、力データに迅速に適応できるだけでなく、力データへの適応を減速させることなく画像データにも適応できるシステムが得られる。訓練中、サブタスクハイパーパラメータは、別々に調整可能な制御ポリシー２１０－ａｎの各々について別々の訓練手順を識別することができる。

図２Ｃは、残差強化学習を使用してサブタスクを実行するための別の例示的なシステムの図である。この例では、ロボットコマンドを生成する単一の調整された制御ポリシーを有する代わりに、システムは、残差強化学習サブシステム２１２を使用して、ベース制御ポリシー２５０によって生成されたベース行動２１５を修正する是正行動２２５を生成する。

この例では、ベース制御ポリシー２５０は、１つ以上のセンサ２６０からセンサデータ２４５を入力として受け取り、ベース行動２１５を生成する。上述したように、ベース制御ポリシー２５０の出力は、ロボット２７０のそれぞれの構成要素によって消費される１つ以上のコマンドであり得る。

実行中、強化学習サブシステム２１２は、入力タスク状態表現２０５から、ベース行動２１５と組み合わされるべき是正行動２２５を生成する。是正行動２２５は、ベース制御ポリシー２５０からのベース行動２１５を修正するという意味で是正的である。結果として生じるロボットコマンド２３５は、次いで、ロボット２７０によって実行されることができる。

従来の強化学習プロセスは、２つの段階、すなわち、（１）システムが新しい候補行動を生成する行動段階と、（２）モデルの重みが各候補行動の累積報酬を最大化するように調整される訓練段階と、を使用してきた。上記の背景技術のセクションで説明したように、ロボット工学のために強化学習を使用する従来のアプローチは、深刻な少ない報酬問題に悩まされており、これは、行動段階中にランダムに生成される行動が、タスクのための報酬関数によって任意のタイプの報酬を得る可能性が極めて低いことを意味する。

しかし、従来の強化学習とは異なり、ローカル実証データを使用することは、行動段階中にどの行動を選択すべきかに関する全ての情報を提供することができる。言い換えれば、ローカル実証データは、行動のシーケンスを提供することができ、したがって、行動はランダムに生成される必要がない。この技術は、問題空間を大幅に制約し、モデルの収束を大幅に高速化する。

訓練中、ロボット２７０を駆動するためにローカル実証データを使用する。言い換えれば、是正行動２２５及びベース行動２１５から生成されたロボットコマンド２３５は、ロボット２７０を駆動するために使用される必要がある。各時間ステップにおいて、強化学習サブシステム２１０は、ロボット２７０を物理的に移動させるために使用された実証された行動の表現を受信する。強化学習サブシステム２１０はまた、ベース制御ポリシー２５０によって生成されたベース行動２１５を受信する。

強化学習サブシステム２１０は、次いで、実証された行動をベース行動２１５と比較することによって、再構築された是正行動を生成することができる。強化学習サブシステム２１０はまた、報酬関数を使用して、再構築された是正行動に対する実際の報酬値を生成することができる。

強化学習サブシステム２１０はまた、強化学習モデルの現在の状態によって生成された予測された是正行動、並びに予測された是正行動を使用することによって生成されたであろう予測された報酬値を生成することができる。予測された是正行動は、現在のタスク状態表現２０５に対して強化学習サブシステム２１０によって生成されたであろう是正行動である。

次いで、強化学習サブシステム２１０は、予測された是正行動、予測された報酬値、再構築された是正行動、及び実際の報酬値を使用して、強化モデルの重み更新を計算することができる。訓練データの反復にわたって、重み更新は、予測された是正行動を、実証行動によって反映された再構築された是正行動に向けて調整するように機能する。強化学習サブシステム２１０は、任意の適切な報酬最大化手順に従って重み更新を計算することができる。

図２Ａ～図２Ｃに例示されたアーキテクチャによって与えられる１つの能力は、異なる更新レートを有するセンサストリームのための複数の異なるモデルを組み合わせる能力である。いくつかのリアルタイムロボットは、非常に厳しい制御ループ要件を有し、したがって、例えば、１００、１０００、又は１０，０００Ｈｚで、高周波数更新を生成する力及びトルクセンサを装備することができる。対照的に、６０Ｈｚ超で動作するカメラ又は深度カメラはほとんどない。

複数の並列かつ独立したセンサストリーム、及び任意選択で複数の異なる制御ポリシーを有する、図２Ａ～図２Ｃに例示されたアーキテクチャは、これらの異なるデータレートを組み合わせることを可能にする。

図３Ａは、複数の異なるセンサストリームからのセンサデータを組み合わせるための例示的なプロセスのフローチャートである。このプロセスは、１つ以上の場所に１つ以上のコンピュータを有するコンピュータシステム、例えば、図１のシステム１００によって、実行することができる。プロセスは、１つ以上のコンピュータのシステムによって実行されるものとして説明される。

システムは、ベース更新レートを選択する（３０２）。ベース更新レートは、学習サブシステム、例えば、調整された制御ポリシー２１０が、ロボットを駆動するためのコマンドを生成するレートを指示する。いくつかの実装形態では、システムは、ロボットの最小リアルタイム更新レートに基づいて、ベース更新レートを選択する。代替的に、システムは、最速レートでデータを生成するセンサに基づいて、ベース更新レートを選択することができる。

システムは、それぞれの更新レートでタスク状態表現のそれぞれの部分を生成する（３０４）。ニューラルネットワークサブシステムは独立して並列に動作することができるので、ニューラルネットワークサブシステムは、それぞれのセンサのレートによって指示されたレートでタスク状態表現のそれぞれの部分を繰り返し生成することができる。

システムの独立した並列の性質を強化するために、いくつかの実装形態では、システムは、タスク状態表現の異なる部分が書き込まれる複数の別個のメモリデバイス又はメモリパーティションを維持する。これは、異なるニューラルネットワークサブシステムが、高頻度でそれらの出力を生成する際に、メモリアクセスをめぐって競合するのを防ぐことができる。

システムは、ベース更新レートでタスク状態表現を繰り返し生成する（３０６）。ベース更新レートによって定義された各期間中に、システムは、複数のニューラルネットワークサブシステムによって出力された直近に更新されたセンサデータから読み取ることによって、タスク状態表現の新しいバージョンを生成することができる。例えば、システムは、複数の別個のメモリデバイス又はメモリパーティションから読み出して、完全なタスク状態表現を生成することができる。特に、これは、いくつかのニューラルネットワークサブシステムによって生成されたデータが、消費されるレートとは異なるレートで生成されることを意味する。例えば、より遅い更新レートを有するセンサの場合、データは、生成されるよりもはるかに速いレートで消費され得る。

システムは、タスク状態表現を繰り返し使用して、ベース更新レートでロボットに対するコマンドを生成する（３０８）。独立かつ並列のニューラルネットワークサブシステムを使用することによって、システムは、ハードリアルタイム制約を有するロボットにさえ電力供給するために、コマンドが十分に速い更新レートで生成されることを確実にすることができる。

この構成はまた、システムが、異なる更新頻度を有する複数の独立した制御アルゴリズムを同時に供給できることを意味する。例えば、図２Ｂに関して上述したように、システムが単一のコマンドを生成するのではなく、システムは、各々がサブコマンドを生成する複数の独立した制御ポリシーを含むことができる。次に、システムは、サブコマンドを、複数の異なる制御アルゴリズムの出力を表現する最終的なハイブリッドロボットコマンドに組み合わせることによって、最終的なコマンドを生成することができる。

例えば、視覚制御アルゴリズムは、認識された物体に向かってロボットをより速く移動させることができる。一方、力制御アルゴリズムは、ロボットが接触した表面に沿ってロボットを追跡させることができる。視覚制御アルゴリズムは、典型的には、力制御アルゴリズムよりもはるかに遅い速度で更新されるが、システムは、依然として、図２Ａ～図２Ｃに描写されるアーキテクチャを使用して、ベース更新レートで両方に同時に電力供給することができる。

図２Ａ～図２Ｃに例示されたアーキテクチャは、大幅なリエンジニアリングなしにシステムの能力を拡張する多くの機会を提供する。複数の並列で独立したデータストリームは、ローカルな実証学習に有利な機械学習機能を実装することを可能にする。

例えば、特定の環境で実行するようにロボットをより完全に適合させるために、ローカル環境データを考慮に入れるセンサを統合することが非常に有利であり得る。

ローカル環境データを使用する一例は、電気的接続性を考慮する関数である。電気的接続性は、２つの構成要素間に電流を確立することを伴う様々な困難なロボットタスクのための報酬因子として有用であり得る。これらのタスクは、ほんの数例を挙げると、ケーブルをジャックに挿入すること、電源プラグを電源ソケットに挿入すること、及び電球をねじ込むことを含む。

電気的接続性を修正サブシステム２８０に統合するために、例えばセンサ２６０のうちの１つであり得る電気センサが、電流が確立されたときを検出するように作業セル内に構成され得る。次いで、電気センサの出力を別個のニューラルネットワークサブシステムによって処理することができ、その結果をタスク状態表現２０５に追加することができる。あるいは、電気センサの出力は、調整された制御ポリシーを実装するシステム又は強化学習サブシステムへの入力として直接提供され得る。

ローカル環境データを使用する別の例は、ある特定のタイプの音声データを考慮する関数である。例えば、多くのコネクタ挿入タスクは、タスクが成功裏に完了したときに非常に特徴的な音を持つ。したがって、システムは、音声を捕捉するためのマイクロフォンと、その出力がタスク状態表現に追加され得る音声処理ニューラルネットワークと、を使用することができる。次いで、システムは、コネクタ挿入の音の特定の音響特性を考慮に入れる関数を使用することができ、これは、学習サブシステムに、成功したコネクタ挿入がどのように聞こえるかを学習させる。

図３Ｂは、カメラリストバンドの図である。カメラリストバンドは、上述したアーキテクチャを用いて高精度の実証学習を実行するために使用することができるタイプの豊富な機器の例である。図３Ｂは、ロボットアームの端部のツールが見ているものに最も近い斜視図である。

この例では、カメラリストバンドは、ロボットアーム３３５の最端部に位置するツール３４５の直前でロボットアーム３３５上に取り付けられる。カメラリストバンドは、カラー３４５でロボットアーム３３５上に取り付けられ、４つの放射状に取り付けられたカメラ３１０ａ～ｄを有する。

カラー３４５は、カラー３４５がロボットアームの端部にしっかりと取り付けられることを可能にする任意の適切な凸形状を有することができる。カラー３４５は、第三者製造業者によって構築されたロボットに追加されるように設計され得る。例えば、スキルテンプレートを配布するシステムは、専門家ではないユーザがモデルを迅速に収束させるのを支援するために、カメラリストバンドを配布することもできる。代替的又は追加的に、カラー３４５は、製造業者による製造プロセス中にロボットアームに一体化され得る。

カラー３４５は、楕円形状、例えば、円形若しくは卵形、又は矩形形状を有することができる。カラー３４５は、ツール３４５が締結される前にロボットアームの端部に締結される単一の中実体積から形成することができる。又は、カラー３４５は、締結機構、例えば、留め金又はラッチによって、開放され、確実に閉鎖され得る。カラー３４５は、ロボットアームへの確実な接続を提供する任意の適切な材料、例えば、硬質プラスチック、ガラス繊維、布地、又は金属、例えば、アルミニウム若しくは鋼から構成され得る。

各カメラ３１０ａ～ｄは、センサ、他の電子機器、及びそれぞれのレンズ３１５ａ～ｄをカラー３４５に固定するそれぞれのマウント３２５ａ～ｄを有する。カラー３４５はまた、カメラ３１０ａ～ｄによって捕捉された体積を照明するための１つ以上のライト３５５ａ～ｂを含むことができる。概して、カメラ３１０ａ～ｄは、ツール３４５の、又はツール３４５のすぐ後ろの作業体積の異なるそれぞれのビューを捕捉するように配列される。

例示的なカメラリストバンドは、４つの放射状に取り付けられたカメラを有するが、任意の適切な数のカメラ、例えば、２、５、又は１０個のカメラを使用することができる。上述したように、修正サブシステム２８０のアーキテクチャは、任意の数のセンサストリームがタスク状態表現に含まれることを可能にする。例えば、ロボットに関連付けられたコンピュータシステムは、異なるそれぞれの畳み込みニューラルネットワークを実装して、カメラ３１０ａ～ｄの各々によって並列に生成されたセンサデータを処理することができる。次いで、処理されたカメラ出力を組み合わせてタスク状態表現を生成することができ、タスク状態表現は、上述のように、異なる周波数で動作する複数の制御アルゴリズムに電力を供給するために使用することができる。上述したように、処理されたカメラ出力は、力センサ、トルクセンサ、位置センサ、速度センサ、若しくは触覚センサ、又はこれらのセンサの任意の適切な組み合わせの出力を独立して処理する他のネットワークからの出力と組み合わせることができる。

概して、実証学習プロセスにおいてカメラリストバンドを使用することにより、システムがより多くの位置及び配向において報酬条件を認識することができるので、モデルのより速い収束をもたらす。したがって、カメラリストバンドを使用することにより、ベース制御ポリシーをローカル実証データに適合させるために必要とされた訓練時間の量を更に効果的に削減する。

図３Ｃは、カメラリストバンドの別の例示的な図である。図３Ｃは、カメラの出力をそれぞれの畳み込みニューラルネットワークに供給するために使用され得るケーブル配線３８５ａ～ｄを含む、カメラリストバンドを実装するために使用され得る更なる機器を例示する。図３Ｃはまた、追加の深度カメラ３７５がまた、どのようにカラー３４５上に取り付けられ得るかを例示する。上記で説明したように、システムのアーキテクチャは、任意の他のセンサが知覚システムに組み込まれることを可能にし、したがって、例えば、別個に訓練された畳み込みニューラルネットワークが、深度カメラ３７５の出力を処理して、タスク状態表現の別の部分を生成することができる。

図３Ｄは、カメラリストバンドの別の例示的な図である。図３Ｄは、金属カラーと４つの放射状に取り付けられたカメラ３１７ａ～ｄとを有するカメラリストバンドの斜視図である。

ローカル実証データを使用して制御ポリシーを精緻化するためのこれらの基本機構を用いて、ユーザは、タスクを構成して、ハードウェアに依存しないスキルテンプレートを構築することができ、これは、多くの異なる種類のロボット上及び多くの異なる種類の環境においてタスクを迅速に展開するためにダウンロード及び使用され得る。

図４は、例示的なスキルテンプレート４００を例示する。概して、スキルテンプレートは、タスクを実行するために必要とされる複数のサブタスクのための状態機械を定義する。特に、スキルテンプレートは階層的に構成可能であり、これは、各サブタスクがスタンドアロンタスク又は別のスキルテンプレートであり得ることを意味する。

スキルテンプレートの各サブタスクは、サブタスクＩＤを有し、サブタスクメタデータを含み、サブタスクメタデータは、サブタスクが実証サブタスク若しくは非実証サブタスクであるか、又はサブタスクが別個に訓練されるべき別のスキルテンプレートを参照するかを含む。サブタスクメタデータはまた、サブタスクを実行するためにどのセンサストリームが使用されるかを示すことができる。実証サブタスクであるサブタスクは、ローカル実証データからの学習を通じて学習する是正行動と組み合わされるベースポリシーを識別するベースポリシーＩＤを更に含む。各実証サブタスクはまた、サブタスクのための訓練プロセスを制御する１つ以上のソフトウェアモジュールに明示的又は暗示的に関連付けられる。

スキルテンプレートの各サブタスクはまた、スキルテンプレート内の別のタスクへの遷移が行われるべき条件を指定する１つ以上の遷移条件を有する。遷移条件はまた、サブタスクのサブタスク目標とも呼ばれ得る。

図４の例は、従来のロボット学習技法を用いて達成することが非常に困難であることが知られているタスクを実行するためのスキルテンプレートを例示する。このタスクは把持及び接続挿入タスクであり、ロボットが作業セル内のワイヤを見つけ、ワイヤの一端のコネクタを作業セル内にもあるソケットに挿入することを必要とする。ワイヤには多くの異なるテクスチャ、直径、及び色があるので、この問題を従来の強化学習技法で一般化することは困難である。加えて、スキルの把持サブタスクが成功しない場合、従来の強化学習技法は、次に何をすべきか、又はそれがどのように進行することができるかをロボットに知らせることができない。

スキルテンプレート４００は、状態機械を定義するグラフのノードとして図４に表される４つのサブタスクを含む。実際には、図４の全ての情報は、任意の適切なフォーマットで、例えば、純粋なテキスト構成ファイル又は関連したデータベース内のレコードとして、表現することができる。代替的又は追加的に、ユーザインターフェースデバイスは、ユーザがグラフィカルユーザインターフェースを介してスキルテンプレートを定義することを可能にするグラフィカルスキルテンプレートエディタを生成することができる。

スキルテンプレート４００内の第１のサブタスクは、移動サブタスク４１０である。移動サブタスク４１０は、作業セル内にワイヤを配置するように設計されており、ロボットを初期位置から、例えば、組み立てライン内の前のロボットによって配置されるように、ワイヤの予想位置へ移動させることを必要とする。ある場所から次の場所への移動は、典型的には、ロボットのローカル特性にあまり依存せず、したがって、移動サブタスク４１０のメタデータは、サブタスクが非実証サブタスクであることを指定する。移動サブタスク４１０のメタデータはまた、ワイヤの位置を特定するためにカメラストリームが必要であることを指定する。

移動サブタスク４１０はまた、ロボットがスキルテンプレート内の次のサブタスクにいつ遷移すべきかを示す「取得したワイヤの視覚」遷移条件４０５を指定する。

スキルテンプレート４００内の次のサブタスクは、把持サブタスク４２０である。把持サブタスク４２０は、作業セル内のワイヤを把持するように設計されている。このサブタスクは、ワイヤの特性及びロボットの特性、特にワイヤを把持するために使用されるツールに大きく依存する。したがって、把持サブタスク４２０は、ローカル実証データによる精緻化を必要とする実証サブタスクとして指定される。把持サブタスク４２０は、したがって、概してワイヤを把持するための以前に生成されたベース制御ポリシーを識別するベースポリシーＩＤにも関連付けられる。

把持サブタスク４２０はまた、サブタスクを実行するためにカメラストリーム及び力センサストリームの両方が必要であることを指定する。

把持サブタスク４２０はまた、３つの遷移条件を含む。第１の遷移条件である「失ったワイヤの視覚」遷移条件４１５は、ロボットがワイヤとの視覚的接触を失ったときにトリガされる。これは、例えば、ワイヤが例えば人間又は別のロボットによって、作業セル内で予期せずに移動されるときに起こり得る。その場合、ロボットは、移動サブタスク４１０に戻る。

把持サブタスク４２０の第２の遷移条件である「把持失敗」遷移条件４２５は、ロボットがワイヤを把持しようとするが失敗したときにトリガされる。そのシナリオでは、ロボットは、単にループバックして、把持サブタスク４２０を再び試みることができる。

把持サブタスク４２０の第３の遷移条件である「把持成功」遷移条件４３５は、ロボットがワイヤを把持しようとして成功したときにトリガされる。

実証サブタスクはまた、どの遷移条件がローカル実証データを必要とするかを示すことができる。例えば、特定のサブタスクは、ローカル実証データが３つ全ての遷移条件に必要であることを示すことができる。したがって、ユーザは、把持がどのように成功するかを実証し、失敗した把持を実証し、ロボットがワイヤ上で視覚的に失ったことを実証することができる。

スキルテンプレート４００内の次のサブタスクは、第２の移動サブタスク４３０である。移動サブタスク４３０は、把持されたワイヤを、ソケットに近い作業セル内の位置に移動させるように設計される。ロボットが実行可能であることをユーザが望む多くの接続及び挿入状況において、ソケットは、非常に制約された空間内、例えば、組み立て中の食器洗浄機、テレビ、又は電子レンジの内部にある。その非常に制約された空間内での移動は、サブタスク及び作業セルに非常に依存するので、第２の移動タスク４３０は、作業セル内の１つの場所から別の場所への移動のみを伴う場合であっても、実証サブタスクとして指定される。したがって、移動サブタスクは、スキルの要件に応じて、実証サブタスク又は非実証サブタスクのいずれかとすることができる。

第２の移動サブタスク４３０は実証サブタスクであるように示されているが、第２の移動サブタスク４３０はベースポリシーＩＤを指定しない。これは、いくつかのサブタスクがローカル作業セルに非常に大きく依存しているため、ベースポリシーを含めると、モデルの収束を妨げるだけだからである。例えば、第２の移動タスク４３０が、器具の内側でロボットを非常に特定の配向に移動させることを必要とする場合、移動のための一般化されたベースポリシーは役に立たない。したがって、ユーザは、精緻化プロセスを実行して、ローカル実証データを生成することができ、ローカル実証データは、器具の内側の特定の配向を達成するために、ロボットが作業セルを通してどのように移動すべきかを実証する。

第２の移動サブタスク４３０は、２つの遷移条件４４５及び４８５を含む。第１の「取得したソケットの視覚」遷移条件４４５は、カメラストリームがソケットと視覚的接触を行うときにトリガされる。

第２の「落下したワイヤ」遷移条件４８５は、ロボットがソケットに向かって移動している間にワイヤをたまたま落下させた場合にトリガされる。その場合、スキルテンプレート４００は、スキルをもう一度開始するために、ロボットが移動サブタスク１に戻る必要があることを指定する。スキルテンプレート内のこれらの種類の遷移条件は、従来の強化学習技法が単純に提供することができないロボットのための組込みロバスト性及び動的反応のレベルを提供する。

スキルテンプレート４００内の最後のサブタスクは、挿入サブタスク４４０である。挿入サブタスク４４０は、把持されたワイヤのコネクタをソケットに挿入するように設計されている。挿入サブタスク４４０は、ワイヤのタイプ及びソケットのタイプに非常に依存し、したがって、スキルテンプレート４００は、挿入サブタスク４４０が、挿入サブタスク全般に関連するベースポリシーＩＤに関連付けられた実証サブタスクであることを示す。挿入サブタスク４４０はまた、サブタスクがカメラストリーム及び力センサストリームの両方を必要とすることを示す。

挿入サブタスク４４０は、３つの遷移条件を含む。第１の「挿入失敗」遷移条件４６５は、挿入が何らかの理由で失敗したときにトリガされ、再び挿入を試みることを指定する。第２の「失ったソケットの視覚」遷移条件４５５は、ソケットがカメラの視野外に移動した場合にトリガされ、非常に制約された空間内のワイヤをソケットの位置に再び移動させることを指定する。最後に、「落下したワイヤ」遷移条件４７５は、挿入タスクの実行中にワイヤが落下したときにトリガされる。その場合、スキルテンプレート４００は、第１の移動サブタスク４１０までさかのぼることを指定する。

図４に例示されたスキルテンプレートの主な利点のうちの１つは、開発者によるその構成可能性である。これは、新しいスキルテンプレートが既に開発されたサブタスクから構成され得ることを意味する。この機能はまた、階層的構成可能性を含み、これは、特定のスキルテンプレート内の各サブタスクが別のスキルテンプレートを参照できることを意味する。

例えば、代替的な実装形態では、挿入サブタスク４４０は、複数の細かく制御された移動の状態機械を定義する挿入スキルテンプレートを実際に参照することができる。例えば、挿入スキルテンプレートは、コネクタをソケットにできるだけ正確に位置合わせすることを目標とする第１の移動サブタスクと、コネクタとソケットの側面との間の接触の準達成を目標とする第２の移動サブタスクと、ソケットの側面を力ガイドとして使用することによって完全な接続を達成することを目標とする第３の移動サブタスクと、を含むことができる。

また、更に別のスキルテンプレートをスキルテンプレート４００から階層的に構成することができる。例えば、スキルテンプレート４００は、電子器具の組み立てに必要なより複雑なセットのサブタスクのうちの１つの小さな部分であり得る。全体的なスキルテンプレートは、サブタスクを達成するためのスキルテンプレート、例えば、スキルテンプレート４００を各々が参照する複数のコネクタ挿入サブタスクを有することができる。

図５は、スキルテンプレートを使用してスキルを実行するようにロボットを構成するための例示的なプロセスのフローチャートである。このプロセスは、１つ以上の場所に１つ以上のコンピュータを有するコンピュータシステム、例えば、図１のシステム１００によって、実行することができる。プロセスは、１つ以上のコンピュータのシステムによって実行されるものとして説明される。

システムは、スキルテンプレートを受信する（５１０）。上述したように、スキルテンプレートは、複数のサブタスクと、ロボットが１つのタスクの実行から次のタスクの実行にいつ遷移すべきかを定義する遷移条件と、を有する状態機械を定義する。更に、スキルテンプレートは、タスクのうちのどれが、ローカル実証データを使用して精緻化を必要とする実証サブタスクであるかを定義することができる。

システムは、スキルテンプレートの実証サブタスクのためのベース制御ポリシーを取得する（５２０）。ベース制御ポリシーは、複数の異なるロボットモデルから生成される一般化された制御ポリシーとすることができる。

システムは、実証サブタスクのためのローカル実証データを受信する（５３０）。ユーザは、入力デバイス又はユーザインターフェースを使用して、ロボットに複数の反復にわたって実証サブタスクを実行させることができる。このプロセスの間、システムは、サブタスクを実行するためのローカル実証データを自動的に生成する。

システムは、実証サブタスクのための機械学習モデルを訓練する（５４０）。上記で説明したように、機械学習モデルは、１つ以上の入力センサストリームについて、ロボットによって実行されるべきコマンドを生成するように構成され得、機械学習モデルは、ローカル実証データを使用して調整され得る。いくつかの実装形態では、機械学習モデルは、ベース制御ポリシーによって生成されたベース行動と組み合わされるべき是正行動を生成する残差強化学習モデルである。

システムは、ロボット上でスキルテンプレートを実行する（５５０）。全ての実証サブタスクを訓練した後、システムは、スキルテンプレートを使用して、ロボットにタスクを完全に実行させることができる。このプロセスの間、ロボットは、ローカル実証データを使用してロボットのハードウェア及び作業環境のために特別に調整された精緻化された実証サブタスクを使用する。

図６Ａは、力をガイドとして使用するタスクに対してスキルテンプレートを使用するための例示的なプロセスのフローチャートである。上述のスキルテンプレート構成は、複数の非常に複雑なサブタスクから構成される非常に洗練されたタスクを生成する比較的容易な方法を提供する。力データをガイドとして考慮するタスクを使用するコネクタ挿入タスクにおけるそのようなタスクの一例。これにより、ロボットは、他の方法で達成することができるよりもはるかに高い精度を達成することができる。このプロセスは、１つ以上の場所に１つ以上のコンピュータを有するコンピュータシステム、例えば、図１のシステム１００によって、実行することができる。プロセスは、１つ以上のコンピュータのシステムによって実行されるものとして説明される。

システムは、ロボットによって保持された物体とロボットの環境内の表面との間の物理的接触力の確立を要求する遷移条件を有するスキルテンプレートを受信する（６０２）。上述したように、スキルテンプレートは、複数のタスクを有する状態機械を定義することができる。遷移条件は、状態機械の第１のサブタスクと第２のサブタスクとの間の遷移を定義することができる。

例えば、第１のサブタスクは、移動サブタスクとすることができ、第２のサブタスクは、挿入サブタスクとすることができる。遷移条件は、ロボットによって保持され、ソケットに挿入されるコネクタが、ソケットの縁部と物理的接触力を加える必要があることを指定できる。

システムは、遷移に関するローカル実証データを受信する（６０４）。言い換えれば、システムは、ユーザに、第１のサブタスクと第２のサブタスクとの間の遷移を実証することを要求することができる。システムはまた、ユーザに、失敗シナリオを実証することを要求することができる。１つのそのような失敗シナリオは、ソケットの縁部との物理的接触力が失われることであり得る。それが生じた場合、スキルテンプレートは、テンプレートの第１の移動サブタスクに戻ることを指定することができ、その結果、ロボットは、遷移条件によって指定されるように物理的接触力を再確立することができる。

システムは、ローカル実証データを使用して機械学習モデルを訓練する（６０６）。上述したように、訓練を通して、システムは、物理的接触力が失われることをもたらす行動を回避することを学習し、第２のタスク全体を通して物理的接触力を維持する可能性が高い行動を選択することを学習する。

システムは、ロボット上で訓練されたスキルテンプレートを実行する（６０８）。これにより、ロボットは、スキルテンプレートによって定義されたサブタスク及び遷移を自動的に実行する。例えば、接続タスク及び挿入タスクの場合、ローカル実証データは、ロボットを１つの特定の種類のコネクタの挿入に高度に適合させることができる。

図６Ｂは、クラウドベースの訓練システムを使用してスキルテンプレートを訓練するための例示的なプロセスのフローチャートである。概して、システムは、全ての実証データをローカルに生成し、次いで、実証データをクラウドベースの訓練システムにアップロードして、スキルテンプレートの全ての実証サブタスクを訓練することができる。このプロセスは、１つ以上の場所に１つ以上のコンピュータを有するコンピュータシステム、例えば、図１のシステム１００によって、実行することができる。プロセスは、１つ以上のコンピュータのシステムによって実行されるものとして説明される。

システムは、スキルテンプレートを受信する（６１０）。例えば、オンライン実行システムは、スキルテンプレートの実証サブタスクを訓練するクラウドベースの訓練システムから、又は別のコンピュータシステムから、スキルテンプレートをダウンロードすることができる。

システムは、スキルテンプレートによって定義された１つ以上の実証サブタスクを識別する（６２０）。上述したように、スキルテンプレートにおいて定義された各サブタスクは、サブタスクが実証サブタスク又は非実証サブタスクであるかを示すメタデータに関連付けられ得る。

システムは、１つ以上の実証サブタスクの各々についてローカル実証データのそれぞれのセットを生成する（６３０）。上述したように、システムは、ユーザがロボットを操作してローカル作業セル内でサブタスクを実行している間に、それぞれがローカル実証データを生成する別個のタスクシステムをインスタンス化して展開することができる。タスク状態表現は、タスク状態表現にデータを提供するセンサに対する更新レートが何であるかに関係なく、サブタスクのベースレートで生成することができる。これは、後に何らかの形で全てが照合されなければならないセンサデータの多くの異なるセットを生成するのではなく、ローカル実証データを記憶し、編成する便利な方法を提供する。

システムは、ローカル実証データのセットをクラウドベースの訓練システムにアップロードする（６４０）。現実世界のタスクのためにロボットを用いるほとんどの施設は、高度な機械学習モデルを訓練するのに適したオンサイトデータセンタを有していない。したがって、ローカル実証データは、タスクを実行するロボットと同じ場所に配置されたシステムによってオンサイトで収集することができるが、実際のモデルパラメータは、インターネット又は別のコンピュータネットワークを介してのみアクセス可能なクラウドベースの訓練システムによって生成することができる。

上述したように、ローカル実証データのサイズは、ベース制御ポリシーを訓練するために使用されるデータのサイズよりも数桁小さいことが予想される。したがって、ローカル実証データは大きい可能性があるが、アップロード負担は、妥当な時間量、例えば、数分から１時間のアップロード時間で管理可能である。

クラウドベースの訓練システムは、ローカル実証データの各セットについてそれぞれの訓練されたモデルパラメータを生成する（６５０）。上述したように、訓練システムは、学習システムを訓練してロボットコマンドを生成することができ、ロボットコマンドは、例えば、ベース制御ポリシーによって生成されたベース行動を是正する是正行動から構成することができる。このプロセスの一部として、訓練システムは、各実証サブタスクのためのそれぞれのベース制御ポリシーを、ローカルに、又はタスク若しくはスキルテンプレートを公開する第三者のコンピュータシステムであり得る別のコンピュータシステムから、取得することができる。

クラウドベースの訓練システムは、典型的には、オンライン実行システムよりもはるかに高い計算能力を有する。したがって、各実証サブタスクを訓練することに伴う大きな計算負荷があるが、これらの動作は、クラウドベースの訓練システム上で大規模に並列化することができる。したがって、典型的なシナリオでは、クラウドベースの訓練システム上のローカルな実証データからスキルテンプレートを訓練するのに必要な時間は、わずか数時間である。

システムは、クラウドベースの訓練システムによって生成された訓練されたモデルパラメータを受信する（６６０）。訓練されたモデルパラメータのサイズは、典型的には、特定のサブタスクのためのローカル実証データのサイズよりもはるかに小さく、したがって、モデルが訓練された後、訓練されたパラメータのダウンロードにかかる時間は、ごくわずかである。

システムは、クラウドベースの訓練システムによって生成された訓練されたモデルパラメータを使用してスキルテンプレートを実行する（６７０）。このプロセスの一部として、システムはまた、例えば、訓練システムから、それらの元のソースから、又は別のソースから、実証サブタスクのためのベース制御ポリシーをダウンロードすることができる。次いで、訓練されたモデルパラメータを使用して、ロボットが実行するためのコマンドを生成することができる。実証サブタスクのための強化学習システムでは、パラメータを使用して、ベース制御ポリシーによって生成されたベース行動を修正する是正行動を生成することができる。次いで、オンライン実行システムは、特定のタスクを実行するようにロボットを駆動するために、結果として生じるロボットコマンドを繰り返し発行することができる。

図６Ｂで説明したプロセスは、ロボットにその環境に合わせた方法で高精度のスキルを実行させるために、１日の間に１人のチームによって実行することができる。これは、他のシナリオに十分に一般化されないモデルを設計し、試験し、訓練するために多くのエンジニアのチームが数週間又は数ヶ月にわたって作業することを必要とする、手動プログラミングの従来の方法、又は強化学習の従来の方法さえも超える大幅な改善である。

本明細書では、ロボットは、ベース位置と、１つ以上の可動構成要素と、１つの座標系、例えば、デカルト座標における所望の位置、姿勢、又はその両方を、１つ以上の可動構成要素を所望の位置又は姿勢に物理的に移動させるためのコマンドにマッピングするために使用され得る運動学的モデルと、を有する機械である。本明細書では、ツールは、ロボットの１つ以上の可動構成要素の運動連鎖の一部であり、その運動連鎖の端部に取り付けられたデバイスである。例示的なツールは、把持部、溶接デバイス、及び研磨デバイスを含む。

本明細書では、タスクとは、ツールによって実行されるべき動作である。簡潔さのために、ロボットが１つのツールのみを有する場合、タスクは、ロボット全体によって実行されるべき動作として説明することができる。例示的なタスクには、ほんの数例を挙げると、溶接、接着剤分注、部品位置決め、及び表面研磨が含まれる。タスクは概して、タスクを実行するのに必要なツールを示すタイプ、並びにタスクが実行される作業セル内の位置に関連付けられる。

本明細書では、運動計画は、タスク、タスクのクラスタ、又は遷移であり得る行動を実行するための情報を提供するデータ構造である。運動計画は、完全に制約されることができ、これは、ロボットの全ての制御可能な自由度の全ての値が明示的又は暗示的に表現されることを意味するか、あるいは、制約不十分であり得、これは、制御可能な自由度のいくつかの値が指定されていないことを意味する。いくつかの実装形態では、運動計画に対応する行動を実際に実行するために、運動計画は、ロボットの全ての制御可能な自由度について全ての必要な値を含むように完全に制約されなければならない。したがって、本明細書で説明される計画プロセスのいくつかの時点において、いくつかの運動計画は、制約不十分であり得るが、運動計画がロボット上で実際に実行されるときまでに、運動計画は、完全に制約され得る。いくつかの実装形態では、運動計画は、単一ロボットのための２つの構成状態間のタスクグラフ内の縁部を表現する。したがって、概して、ロボットごとに１つのタスクグラフが存在する。

本明細書では、運動掃引体積は、運動計画の実行全体の間にロボット又はツールの少なくとも一部によって占有される空間の領域である。運動掃引体積は、ロボットツールシステムに関連付けられた衝突幾何学形状によって生成することができる。

本明細書において、遷移とは、始点と終点との間で行われるべき移動を記述する運動計画である。始点及び終点は、姿勢、座標系における位置、又は実行されるべきタスクによって表現することができる。遷移は、ロボットの１つ以上のそれぞれの制御可能な自由度（degrees of freedom、ＤＯＦ）の１つ以上の値を欠くことによって、制約不十分になり得る。いくつかの遷移は、自由運動を表現する。本明細書では、自由運動は、自由度のいずれも制約されない遷移である。例えば、姿勢Ａから姿勢Ｂへ、これら２つの姿勢間でどのように動くかについての制限なしに単純に動くロボット運動は、自由運動である。計画プロセス中、自由運動のＤＯＦ変数は、最終的に割り当てられた値であり、経路プランナは、作業セルの物理的制約と競合しない運動の任意の適切な値を使用することができる。

本明細書で説明されるロボット機能は、ハードウェア非依存型ソフトウェアスタック、又は簡潔さのために、少なくとも部分的にハードウェア非依存型である単なるソフトウェアスタックによって実装され得る。言い換えれば、ソフトウェアスタックは、コマンドがロボットの特定のモデル又は特定のロボット構成要素に特に関連することを必要とせずに、上述の計画プロセスによって生成されたコマンドを入力として受け入れることができる。例えば、ソフトウェアスタックは、図１のオンサイト実行エンジン１５０及びロボットインターフェースサブシステム１６０によって少なくとも部分的に実装され得る。

ソフトウェアスタックは、一方向にハードウェア特異性を増加させ、他方向にソフトウェア抽象化を増加させる複数のレベルを含むことができる。ソフトウェアスタックの最低レベルには、低レベル行動を実行するデバイスと、低レベルステータスを報告するセンサと、を含むロボット構成要素がある。例えば、ロボットは、モータ、エンコーダ、カメラ、ドライバ、把持部、特定用途向けセンサ、線形又は回転位置センサ、及び他の周辺デバイスを含む、種々の低レベル構成要素を含むことができる。一例として、モータは、印加されるべきトルクの量を示すコマンドを受信することができる。コマンドの受信に応答して、モータは、例えば、エンコーダを使用して、ロボットの関節の現在位置をより高いレベルのソフトウェアスタックに報告することができる。

ソフトウェアスタック内の次に高い各レベルは、複数の異なる基礎となる実装形態をサポートするインターフェースを実装することができる。概して、レベル間の各インターフェースは、下位レベルから上位レベルへステータスメッセージを提供し、上位レベルから下位レベルへコマンドを提供する。

典型的には、コマンド及びステータスメッセージは、各制御サイクル中に周期的に生成され、例えば、制御サイクルごとに１つのステータスメッセージ及び１つのコマンドが生成される。ソフトウェアスタックの下位レベルは、概して、ソフトウェアスタックの上位レベルよりも厳しいリアルタイム要件を有する。例えば、ソフトウェアスタックの最下位レベルでは、制御サイクルは、実際のリアルタイム要件を有することができる。本明細書において、リアルタイムとは、特定の制御サイクル時間内に、ソフトウェアスタックの１つのレベルで受信されたコマンドが実行されなければならず、また、任意選択で、ステータスメッセージが、ソフトウェアスタックの上位レベルに戻されなければならないことを意味する。このリアルタイム要件が満たされない場合、ロボットは、例えば、全ての動作を凍結することによって、故障状態に入るように構成され得る。

次に高いレベルでは、ソフトウェアスタックは、特定の構成要素のソフトウェア抽象化を含むことができ、これはモータフィードバックコントローラと呼ばれる。モータフィードバックコントローラは、文字通りのモータだけでなく、任意の適切な低レベル構成要素のソフトウェア抽象化であり得る。したがって、モータフィードバックコントローラは、下位レベルハードウェア構成要素へのインターフェースを介して状態を受信し、スタック内の上位レベルから受信した上位レベルコマンドに基づいて、インターフェースを介して下位レベルハードウェア構成要素にコマンドを送り返す。モータフィードバックコントローラは、上位レベルコマンドがどのように解釈され、下位レベルコマンドに変換されるべきかを決定する任意の適切な制御規則を有することができる。例えば、モータフィードバックコントローラは、上位レベルコマンドを下位レベルコマンドに変換するために、単純な論理規則からより高度な機械学習技法までの任意のものを使用することができる。同様に、モータフィードバックコントローラは、故障状態に達したときを判定するために、任意の適切な故障規則を使用することができる。例えば、モータフィードバックコントローラが、上位レベルコマンドを受信するが、制御サイクルの特定の部分内で下位レベルステータスを受信しない場合、モータフィードバックコントローラは、ロボットに、全ての動作を停止する故障状態に入らせ得る。

次に高いレベルにおいて、ソフトウェアスタックは、アクチュエータフィードバックコントローラを含むことができる。アクチュエータフィードバックコントローラは、複数のロボット構成要素を、それらのそれぞれのモータフィードバックコントローラを通して制御するための制御論理を含むことができる。例えば、いくつかのロボット構成要素、例えば、関節アームは、実際には複数のモータによって制御され得る。したがって、アクチュエータフィードバックコントローラは、その制御論理を使用して複数のモータのモータフィードバックコントローラにコマンドを送信することによって、関節アームのソフトウェア抽象化を提供することができる。

次に高いレベルにおいて、ソフトウェアスタックは、関節フィードバックコントローラを含むことができる。関節フィードバックコントローラは、ロボットにおける論理的自由度にマッピングする関節を表すことができる。したがって、例えば、ロボットの手首は、アクチュエータの複雑なネットワークによって制御され得るが、関節フィードバックコントローラは、その複雑性を抽象化し、その自由度を単一の関節として露呈させることができる。したがって、各関節フィードバックコントローラは、アクチュエータフィードバックコントローラの任意の複雑なネットワークを制御することができる。一例として、６自由度ロボットは、各々が実際のフィードバックコントローラの別個のネットワークを制御する６つの異なる関節フィードバックコントローラによって制御され得る。

ソフトウェアスタックの各レベルは、レベル固有の制約の強制を実行することもできる。例えば、アクチュエータフィードバックコントローラによって受信された特定のトルク値が許容範囲外である場合、アクチュエータフィードバックコントローラは、それを範囲内になるように修正するか、又は故障状態に入ることができる。

関節フィードバックコントローラへの入力を駆動するために、ソフトウェアスタックは、システム内の各モータのための、より低いレベルの各構成要素のためのコマンドパラメータ、例えば、正、トルク、及び速度を含むコマンドベクトルを使用することができる。関節フィードバックコントローラからのステータスを露呈させるために、ソフトウェアスタックは、下位レベルの各構成要素のステータス情報、例えば、システム内の各モータの位置、速度、及びトルクを含むステータスベクトルを使用することができる。いくつかの実装形態では、コマンドベクトルはまた、下位レベルのコントローラによって実施されるべき制約に関するいくつかの制限情報を含む。

次に高いレベルにおいて、ソフトウェアスタックは、関節収集コントローラを含むことができる。関節収集コントローラは、部分抽象化のセットとして露呈されるコマンド及びステータスベクトルの発行を処理することができる。各部分は、例えば、逆運動学計算を実行するための運動学モデル、制限情報、並びに関節ステータスベクトル及び関節コマンドベクトルを含むことができる。例えば、単一の関節収集コントローラを使用して、ポリシーの異なるセットを下位レベルの異なるサブシステムに適用することができる。関節収集コントローラは、モータが物理的にどのように表されるかと、制御ポリシーがそれらの部品にどのように関連付けられるかとの関係を効果的に切り離すことができる。したがって、例えば、ロボットアームが可動ベースを有する場合、関節収集コントローラを使用して、アームがどのように動くかについて制限ポリシーのセットを実施し、可動ベースがどのように動くことができるかについて制限ポリシーの異なるセットを実施することができる。

次に高いレベルにおいて、ソフトウェアスタックは、関節選択コントローラを含むことができる。関節選択コントローラは、異なるソースから発行されているコマンド間で動的に選択する責任を負い得る。言い換えれば、関節選択コントローラは、制御サイクル中に複数のコマンドを受信し、制御サイクル中に実行されるべき複数のコマンドのうちの１つを選択することができる。リアルタイムの制御サイクル中に複数のコマンドから動的に選択する能力により、従来のロボット制御システムよりも制御の柔軟性が大幅に向上する。

次に高いレベルにおいて、ソフトウェアスタックは、関節位置コントローラを含むことができる。関節位置コントローラは、目標パラメータを受信し、目標パラメータを達成するために必要なコマンドを動的に計算することができる。例えば、関節位置コントローラは、位置目標を受信することができ、目標を達成するための設定点を計算することができる。

次に高いレベルにおいて、ソフトウェアスタックは、デカルト位置コントローラ及びデカルト選択コントローラを含むことができる。デカルト位置コントローラは、入力としてデカルト空間における目標を受信し、逆運動学ソルバを使用して、関節位置空間における出力を計算することができる。次いで、デカルト選択コントローラは、関節位置空間内の計算結果をスタックの次の最下位レベルにある関節位置コントローラに渡す前に、デカルト位置コントローラによって計算された結果に対して制限ポリシーを実施することができる。例えば、デカルト位置コントローラには、デカルト座標ｘ、ｙ、及びｚにおける３つの別個の目標状態を与えることができる。ある程度では、目標状態は位置であり得るが、他の程度では、目標状態は所望の速度であり得る。

したがって、ソフトウェアスタックによって提供されたこれらの機能は、上述したより高レベルの計画技法と自然にかみ合うように、制御指令が目標状態として容易に表現されるための広い柔軟性を提供する。言い換えれば、計画プロセスがプロセス定義グラフを使用して行われる具体的な行動を生成するとき、行動は、個々のロボット構成要素のための低レベルコマンドで指定される必要はない。むしろ、それらは、最終的に低レベルコマンドになるまで様々なレベルを通して変換されるソフトウェアスタックによって受け入れられる高レベル目標として表現され得る。更に、計画プロセスを通して生成された行動は、人間のオペレータが理解できるようにデカルト空間で指定することができ、これにより、スケジュールのデバッグ及び分析がより容易に、より迅速に、より直観的になる。加えて、計画プロセスを通して生成された行動は、任意の特定のロボットモデル又は低レベルコマンドフォーマットに密に結合される必要はない。代わりに、計画プロセス中に生成された同じ行動は、異なるロボットモデルが同じ自由度をサポートし、適切な制御レベルがソフトウェアスタックに実装されている限り、異なるロボットモデルによって実際に実行することができる。

本明細書で説明した主題及び機能的動作の実施形態は、本明細書で開示した構造及びそれらの構造的均等物を含む、デジタル電子回路において、有形に具現化されたコンピュータソフトウェア若しくはファームウェアにおいて、コンピュータハードウェアにおいて、又はそれらのうちの１つ以上の組み合わせで、実装され得る。本明細書で説明した主題の実施形態は、１つ以上のコンピュータプログラム、すなわち、データ処理装置による実行のために、又はデータ処理装置の動作を制御するために有形の非一時的記憶媒体上に符号化されたコンピュータプログラム命令の１つ以上のモジュールとして、実装され得る。コンピュータ記憶媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダム若しくはシリアルアクセスメモリデバイス、又はそれらのうちの１つ以上の組み合わせであり得る。代替的又は追加的に、プログラム命令は、データ処理装置による実行のために適切な受信機装置に伝送するための情報を符号化するように生成される、人工的に生成された伝搬信号、例えば、機械生成された電気信号、光信号、又は電磁信号上で符号化され得る。

「データ処理装置」という用語は、データ処理ハードウェアを指し、例として、プログラマブルプロセッサ、コンピュータ、又は複数のプロセッサ若しくはコンピュータを含む、データを処理するためのあらゆる種類の装置、デバイス、及び機械を包含する。装置はまた、専用論理回路、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）又はＡＳＩＣ（特定用途向け集積回路）であるか、又はそれを更に含むことができる。装置は、ハードウェアに加えて、任意選択で、コンピュータプログラムのための実行環境を作成するコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、又はそれらのうちの１つ以上の組み合わせを構成するコードを含むことができる。

プログラム、ソフトウェア、ソフトウェアアプリケーション、アプリ、モジュール、ソフトウェアモジュール、スクリプト、又はコード）としても参照又は説明され得るコンピュータプログラムは、コンパイラ型言語若しくはインタープリタ型言語、又は宣言型言語若しくは手続き型言語を含む、任意の形態のプログラミング言語で書くことができ、スタンドアロンプログラムとして、又はモジュール、構成要素、サブルーチン、若しくはコンピューティング環境での使用に適した他のユニットとして含む、任意の形態で展開することができる。プログラムは、ファイルシステム内のファイルに対応し得るが、必ずしもそうである必要はない。プログラムは、他のプログラム若しくはデータ、例えば、マークアップ言語文書に記憶された１つ以上のスクリプトを保持するファイルの一部内に、問題のプログラム専用の単一ファイル内に、又は複数の調整されたファイル、例えば、１つ以上のモジュール、サブプログラム、若しくはコードの一部を記憶するファイル内に記憶することができる。コンピュータプログラムは、１つのコンピュータ上で、又は１つのサイトに位置するか若しくは複数のサイトにわたって分散され、データ通信ネットワークによって相互接続された複数のコンピュータ上で実行されるように展開され得る。

１つ以上のコンピュータのシステムが特定の動作又は行動を実行するように構成されるとは、システムが、動作中にシステムに動作又は行動を実行させるソフトウェア、ファームウェア、ハードウェア、又はそれらの組み合わせをシステムにインストールしていることを意味する。１つ以上のコンピュータプログラムが特定の動作又は行動を実行するように構成されるとは、１つ以上のプログラムが、データ処理装置によって実行されたときに、装置に動作又は行動を実行させる命令を含むことを意味する。

本明細書で使用される際、「エンジン」又は「ソフトウェアエンジン」は、入力とは異なる出力を提供するソフトウェアに実装された入力／出力システムを指す。エンジンは、ライブラリ、プラットフォーム、ソフトウェア開発キット（「ＳＤＫ」）、又は物体など、符号化された機能ブロックであり得る。各エンジンは、１つ以上のプロセッサ及びコンピュータ可読媒体を含む、任意の適切なタイプのコンピューティングデバイス、例えば、サーバ、モバイルフォン、タブレットコンピュータ、ノートブックコンピュータ、音楽プレーヤ、電子書籍リーダ、ラップトップ若しくはデスクトップコンピュータ、ＰＤＡ、スマートフォン、又は他の固定若しくはポータブルデバイス上に実装され得る。加えて、エンジンのうちの２つ以上は、同じコンピューティングデバイス上に、又は異なるコンピューティングデバイス上に実装され得る。

本明細書で説明したプロセス及び論理フローは、入力データに対して動作し、出力を生成することによって機能を実行するために、１つ以上のコンピュータプログラムを実行する１つ以上のプログラマブルコンピュータによって実行され得る。プロセス及び論理フローはまた、専用論理回路、例えば、ＦＰＧＡ若しくはＡＳＩＣによって、又は専用論理回路と１つ以上のプログラムされたコンピュータとの組み合わせによって実行され得る。

コンピュータプログラムの実行に適したコンピュータは、汎用若しくは専用マイクロプロセッサ又はその両方、あるいは任意の他の種類の中央処理装置に基づくことができる。概して、中央処理装置は、読み出し専用メモリ若しくはランダムアクセスメモリ又はその両方から命令及びデータを受信する。コンピュータの必須要素は、命令を実施又は実行するための中央処理装置、並びに命令及びデータを記憶するための１つ以上のメモリデバイスである。中央処理装置及びメモリは、専用論理回路によって補完され得るか、又は専用論理回路に組み込まれ得る。概して、コンピュータはまた、データを記憶するための１つ以上の大容量記憶デバイス、例えば、磁気ディスク、光磁気ディスク、又は光ディスクを含むか、あるいは１つ以上の大容量記憶デバイスからデータを受信するか若しくは１つ以上の大容量記憶デバイスにデータを転送するか、又はその両方を行うように動作可能に結合される。しかしながら、コンピュータは、そのようなデバイスを有する必要はない。更に、コンピュータは、別のデバイス、例えば、いくつか例を挙げると、モバイル電話、携帯情報端末（personal digital assistant、ＰＤＡ）、モバイル音声若しくはビデオプレーヤ、ゲームコンソール、全地球測位システム（Global Positioning System、ＧＰＳ）受信機、又はポータブル記憶デバイス、例えば、ユニバーサルシリアルバス（universal serial bus、ＵＳＢ）フラッシュドライブに組み込まれ得る。

コンピュータプログラム命令及びデータを記憶するのに適したコンピュータ可読媒体は、例として、半導体メモリデバイス、例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、及びフラッシュメモリデバイスを含む、全ての形態の不揮発性メモリ、媒体、及びメモリデバイスと、磁気ディスク、例えば、内蔵ハードディスク又はリムーバブルディスクと、光磁気ディスクと、ＣＤ－ＲＯＭ及びＤＶＤ－ＲＯＭディスクと、を含む。

ユーザとの対話を提供するために、本明細書で説明した主題の実施形態は、ユーザに情報を表示するためのディスプレイデバイス、例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ、並びにキーボード及びポインティングデバイス、例えば、マウス、トラックボール、又はユーザがコンピュータに入力を提供することができるプレゼンス・センシティブ・ディスプレイ若しくは他の表面を有するコンピュータ上に実装され得る。他の種類のデバイスを使用して、ユーザとの対話を提供することもできる。例えば、ユーザに提供されたフィードバックは、任意の形態の感覚フィードバック、例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバックとすることができ、ユーザからの入力は、音響、音声、又は触覚入力を含む任意の形態で受信することができる。加えて、コンピュータは、ユーザによって使用されるデバイスに文書を送信し、デバイスから文書を受信することによって、例えば、ウェブブラウザから受信された要求に応答して、ユーザのデバイス上のウェブブラウザにウェブページを送信することによって、ユーザと対話することができる。また、コンピュータは、テキストメッセージ又は他の形態のメッセージをパーソナルデバイス、例えば、スマートフォンに送信し、メッセージングアプリケーションを実行し、返信としてユーザから応答メッセージを受信することによって、ユーザと対話することができる。

本明細書で説明した主題の実施形態は、例えば、データサーバとしてバックエンド構成要素を含むか、又はミドルウェア構成要素、例えば、アプリケーションサーバを含むか、又はフロントエンド構成要素、例えば、グラフィカルユーザインターフェース、ウェブブラウザ、若しくはユーザが本明細書で説明した主題の実装形態と対話することができるアプリを有するクライアントコンピュータを含むか、又は１つ以上のそのようなバックエンド、ミドルウェア、若しくはフロントエンド構成要素の任意の組み合わせを含む、コンピューティングシステム内に実装されることができる。システムの構成要素は、デジタルデータ通信の任意の形態又は媒体、例えば、通信ネットワークによって相互接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（local area network、ＬＡＮ）及びワイドエリアネットワーク（wide area network、ＷＡＮ）、例えば、インターネットを含む。

コンピューティングシステムは、クライアント及びサーバを含むことができる。クライアント及びサーバは概して互いに離れており、典型的には通信ネットワークを介して対話する。クライアント及びサーバの関係は、それぞれのコンピュータ上で実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによって生じる。いくつかの実施形態では、サーバは、データ、例えば、ＨＴＭＬページを、例えば、クライアントとして動作する、デバイスと対話するユーザにデータを表示し、ユーザからユーザ入力を受信する目的で、ユーザデバイスに伝送する。ユーザデバイスにおいて生成されたデータ、例えば、ユーザとの対話の結果は、デバイスからサーバにおいて受信され得る。

上述の実施形態に加えて、以下の実施形態も革新的である。

実施形態１は、方法であって、
ロボットを制御するように構成されたオンライン実行システムによって、ロボットに複数のサブタスクを有する特定のスキルを実行させるように訓練されるべきスキルテンプレートを受信することと、
スキルテンプレートによって定義された１つ以上の実証サブタスクを識別することであって、各実証サブタスクが、ローカル実証データを使用して精緻化されるべき行動である、識別することと、
オンライン実行システムによって、１つ以上の実証サブタスクの各々についてローカル実証データのそれぞれのセットを生成することと、
オンライン実行システムによってクラウドベースの訓練システムに、ローカル実証データのセットをアップロードすることと、
クラウドベースの訓練システムによって、ローカル実証データの各セットについてそれぞれの訓練されたモデルパラメータを生成することと、
オンライン実行システムによって、クラウドベースの訓練システムによって生成された訓練されたモデルパラメータを受信することと、
クラウドベースの訓練システムによって生成された訓練されたモデルパラメータを使用して、スキルテンプレートを実行することと、を含む、方法である。

実施形態２は、ローカル実証データのそれぞれのセットを生成することが、複数の時点の各々についてタスク状態表現を生成することを含む、実施形態１に記載の方法である。

実施形態３は、タスク状態表現が各々、ロボットを観測するそれぞれのセンサによって生成された出力を表現する、実施形態２に記載の方法である。

実施形態４は、オンライン実行システム及びロボットが同じ施設に位置し、クラウドベースの訓練システムが、インターネット上でのみアクセス可能である、実施形態１～３のいずれか１つに記載の方法である。

実施形態５は、実施形態１～４のいずれか１つに記載の方法であって、
オンライン実行システムによってクラウドベースの訓練システムから、１つ以上の実証サブタスクの各々についてのベース制御ポリシーを受信することを更に含む、方法である。

実施形態６は、スキルテンプレートを実行することが、オンライン実行システムによって、クラウドベースの訓練システムによって生成された訓練されたモデルパラメータを使用して是正行動を生成することを含む、実施形態５に記載の方法である。

実施形態７は、クラウドベースの訓練システムから受信したベース制御ポリシーによって生成されたベース行動に是正行動を追加することを更に含む、実施形態６に記載の方法である。

実施形態８は、１つ以上のコンピュータと、１つ以上のコンピュータによって実行されたときに、１つ以上のコンピュータに実施形態１～７のいずれか１つの方法を実行させるように動作可能な命令を記憶する１つ以上の記憶デバイスと、を備える、システムである。

実施形態９は、コンピュータプログラムで符号化されたコンピュータ記憶媒体であり、プログラムは、データ処理装置によって実行されたときに、データ処理装置に実施形態１～７のいずれか１つの方法を実行させるように動作可能な命令を含む。

本明細書は、多くの特定の実装形態の詳細を含むが、これらは、任意の発明の範囲又は請求され得るものの範囲に対する限定として解釈されるべきではなく、むしろ、特定の発明の特定の実施形態に特有であり得る特徴の説明として解釈されるべきである。別個の実施形態の文脈において本明細書に説明されているある特定の特徴はまた、単一の実施形態において組み合わせて実装することもできる。逆に、単一の実施形態の文脈で説明されている様々な特徴は、複数の実施形態で別々に、又は任意の適切な部分組み合わせで実装することもできる。更に、特徴は、ある特定の組み合わせで作用するものとして上記で説明され、かつ最初にそのように請求されることさえあり得るが、請求された組み合わせからの１つ以上の特徴は、場合によっては、組み合わせから削除され得、請求された組み合わせは、部分組み合わせ又は部分組み合わせの変形を対象とすることができる。

同様に、動作は特定の順序で図面に描写されているが、これは、所望の結果を達成するために、そのような動作が示された特定の順序で若しくは連続的な順序で実行されること、又は全ての例示された動作が実行されることを必要とすると理解されるべきではない。ある特定の状況では、マルチタスキング及び並列処理が有利であり得る。更に、上述の実施形態における様々なシステムモジュール及び構成要素の分離は、全ての実施形態においてそのような分離を必要とすると理解されるべきではなく、説明されたプログラム構成要素及びシステムは、概して、単一のソフトウェア製品に一緒に統合され得るか、又は複数のソフトウェア製品にパッケージ化され得ることを理解されたい。

主題の特定の実施形態を説明してきた。他の実施形態は、以下の特許請求の範囲内である。例えば、特許請求の範囲に記載された行動は、異なる順序で実行することができ、それでも所望の結果を達成することができる。一例として、添付の図面に描写したプロセスは、所望の結果を達成するために、示される特定の順序、又は連続的な順序を必ずしも必要としない。ある場合には、マルチタスキング及び並列処理が有利であり得る。

Claims

１つ以上のコンピュータによって実行される方法であって、前記方法が、
ロボットを制御するように構成されたオンライン実行システムによって、前記ロボットに複数のサブタスクを有する特定のスキルを実行させるように訓練されるべきスキルテンプレートを受信することと、
前記スキルテンプレートによって定義された１つ以上の実証サブタスクを識別することであって、各実証サブタスクが、ローカル実証データを使用して精緻化されるべき行動である、前記１つ以上の実証サブタスクを識別することと、
前記オンライン実行システムによって、前記１つ以上の実証サブタスクの各々についてローカル実証データのそれぞれのセットを生成することと、
前記オンライン実行システムによってクラウドベースの訓練システムに、前記ローカル実証データのセットをアップロードすることと、
前記クラウドベースの訓練システムによって、ローカル実証データの各セットについてそれぞれの訓練されたモデルパラメータを生成することと、
前記オンライン実行システムによって、前記クラウドベースの訓練システムによって生成された前記訓練されたモデルパラメータを受信することと、
前記クラウドベースの訓練システムによって生成された前記訓練されたモデルパラメータを使用して、前記スキルテンプレートを実行することと、を含む、方法。
前記ローカル実証データのそれぞれのセットを生成することが、複数の時点の各々についてタスク状態表現を生成することを含む、請求項１に記載の方法。
前記タスク状態表現が各々、前記ロボットを観測するそれぞれのセンサによって生成された出力を表現する、請求項２に記載の方法。
前記オンライン実行システム及び前記ロボットが、同じ施設に位置し、前記クラウドベースの訓練システムが、インターネットを介してのみアクセス可能である、請求項１に記載の方法。
前記オンライン実行システムによって前記クラウドベースの訓練システムから、前記１つ以上の実証サブタスクの各々についてのベース制御ポリシーを受信することを更に含む、請求項１に記載の方法。
前記スキルテンプレートを実行することが、前記オンライン実行システムによって、前記クラウドベースの訓練システムによって生成された前記訓練されたモデルパラメータを使用して是正行動を生成することを含む、請求項５に記載の方法。
前記クラウドベースの訓練システムから受信された前記ベース制御ポリシーによって生成されたベース行動に前記是正行動を追加することを更に含む、請求項６に記載の方法。
１つ以上のコンピュータと、
前記１つ以上のコンピュータによって実行されると、前記１つ以上のコンピュータに、
ロボットを制御するように構成されたオンライン実行システムによって、前記ロボットに複数のサブタスクを有する特定のスキルを実行させるように訓練されるべきスキルテンプレートを受信することと、
前記スキルテンプレートによって定義された１つ以上の実証サブタスクを識別することであって、各実証サブタスクが、ローカル実証データを使用して精緻化されるべき行動である、前記１つ以上の実証サブタスクを識別することと、
前記オンライン実行システムによって、前記１つ以上の実証サブタスクの各々についてローカル実証データのそれぞれのセットを生成することと、
前記オンライン実行システムによってクラウドベースの訓練システムに、前記ローカル実証データのセットをアップロードすることと、
前記クラウドベースの訓練システムによって、ローカル実証データの各セットについてそれぞれの訓練されたモデルパラメータを生成することと、
前記オンライン実行システムによって、前記クラウドベースの訓練システムによって生成された前記訓練されたモデルパラメータを受信することと、
前記クラウドベースの訓練システムによって生成された前記訓練されたモデルパラメータを使用して、前記スキルテンプレートを実行することと、を含む、
動作を実行させるように動作可能な命令を記憶する１つ以上の記憶デバイスと、
を備える、システム。
前記ローカル実証データのそれぞれのセットを生成することが、複数の時点の各々についてタスク状態表現を生成することを含む、請求項８に記載のシステム。
前記タスク状態表現が各々、前記ロボットを観測するそれぞれのセンサによって生成された出力を表現する、請求項９に記載のシステム。
前記オンライン実行システム及び前記ロボットが、同じ施設に位置し、前記クラウドベースの訓練システムが、インターネットを介してのみアクセス可能である、請求項８に記載のシステム。
前記動作が、
前記オンライン実行システムによって前記クラウドベースの訓練システムから、前記１つ以上の実証サブタスクの各々についてのベース制御ポリシーを受信することを更に含む、請求項８に記載のシステム。
前記スキルテンプレートを実行することが、前記オンライン実行システムによって、前記クラウドベースの訓練システムによって生成された前記訓練されたモデルパラメータを使用して是正行動を生成することを含む、請求項１２に記載のシステム。
前記クラウドベースの訓練システムから受信された前記ベース制御ポリシーによって生成されたベース行動に前記是正行動を追加することを更に含む、請求項１３に記載のシステム。
コンピュータプログラム命令で符号化された１つ以上の非一時的コンピュータ記憶媒体であって、前記コンピュータプログラム命令が、１つ以上のコンピュータによって実行されると、前記１つ以上のコンピュータに、
ロボットを制御するように構成されたオンライン実行システムによって、前記ロボットに複数のサブタスクを有する特定のスキルを実行させるように訓練されるべきスキルテンプレートを受信することと、
前記スキルテンプレートによって定義された１つ以上の実証サブタスクを識別することであって、各実証サブタスクが、ローカル実証データを使用して精緻化されるべき行動である、前記１つ以上の実証サブタスクを識別することと、
前記オンライン実行システムによって、前記１つ以上の実証サブタスクの各々についてローカル実証データのそれぞれのセットを生成することと、
前記オンライン実行システムによってクラウドベースの訓練システムに、前記ローカル実証データのセットをアップロードすることと、
前記クラウドベースの訓練システムによって、ローカル実証データの各セットについてそれぞれの訓練されたモデルパラメータを生成することと、
前記オンライン実行システムによって、前記クラウドベースの訓練システムによって生成された前記訓練されたモデルパラメータを受信することと、
前記クラウドベースの訓練システムによって生成された前記訓練されたモデルパラメータを使用して、前記スキルテンプレートを実行することと、を含む、動作を実行させる、１つ以上の非一時的コンピュータ記憶媒体。
前記ローカル実証データのそれぞれのセットを生成することが、複数の時点の各々についてタスク状態表現を生成することを含む、請求項１５に記載の１つ以上の非一時的コンピュータ記憶媒体。
前記タスク状態表現が各々、前記ロボットを観測するそれぞれのセンサによって生成された出力を表現する、請求項１６に記載の１つ以上の非一時的コンピュータ記憶媒体。
前記オンライン実行システム及び前記ロボットが、同じ施設に位置し、前記クラウドベースの訓練システムが、インターネットを介してのみアクセス可能である、請求項１５に記載の１つ以上の非一時的コンピュータ記憶媒体。
前記オンライン実行システムによって前記クラウドベースの訓練システムから、前記１つ以上の実証サブタスクの各々についてのベース制御ポリシーを受信することを更に含む、請求項１５に記載の１つ以上の非一時的コンピュータ記憶媒体。
前記スキルテンプレートを実行することが、前記オンライン実行システムによって、前記クラウドベースの訓練システムによって生成された前記訓練されたモデルパラメータを使用して是正行動を生成することを含む、請求項１９に記載の１つ以上の非一時的コンピュータ記憶媒体。