JP2024022545A

JP2024022545A - ロボットを制御する装置及び方法

Info

Publication number: JP2024022545A
Application number: JP2023126350A
Authority: JP
Inventors: ロスチャナ; ミロンヤコフ; ゴルドフラハトユヴァル; ディカストロドータン
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-08-03
Filing date: 2023-08-02
Publication date: 2024-02-16
Anticipated expiration: 2043-08-02
Also published as: CN117506886A; KR20240019042A; DE102022208089A1; JP7369890B1; US20240045434A1

Abstract

【課題】種々の実施形態により、ロボット装置用の制御ポリシーをトレーニングするための方法を説明する。【解決手段】本方法は、ロボット装置の環境の基準状態と当該基準状態に対する環境の基準観察とを取得することと、ロボット装置の姿勢推定の複数の誤差のそれぞれについて、姿勢推定の誤差に従って基準観察に対して妨害された観察と、トレーニング入力としての、生成された当該観察を含むトレーニングデータ要素とを生成することと、生成されたトレーニングデータ要素を使用して制御ポリシーをトレーニングすることと、を含む。【選択図】図４

Description

従来技術
本開示は、ロボットを制御する装置及び方法に関する。

近年、様々な理由から労働力不足に陥っている工事現場において自動化の需要が高まっている。自動化は、第一に、過去数十年にわたって相当に停滞していた生産性を向上させ、膨張するコストを削減することができる。第二に、危険なタスクを機械が処理することができるようにし、それによって、作業者を危害から遠ざけることにより、作業者の安全を向上させることができる。第三に、作業者に要求される肉体労働を削減し、これにより、労働力不足を解決することに役立ち得る。

しかしながら、工事現場は、様々な困難なタスクに関して複数の機械が同時に作業を行う、本質的に予測不能でありかつ構造化されていない環境である。さらに、工事のプロジェクトは、それぞれ専門性の高い建築設計や仕様などに合わせて調整されるものであるので、きわめて多様でもある。これらの理由から、工事現場における自動化は、困難な課題である。

例えば、自律運転のための現行の機械学習法のバックボーンであるトレーニングのためのデータ収集は、安全性、時間及びコストが主要な実用上の考慮事項である工事現場の構造化されていない環境においては、きわめて困難であることがわかっている。こうした問題は、シミュレータを使用して部分的には解決することができる。しかし、このことには欠点がある。また、極端かつ危険なシナリオが頻繁に発生する工事環境の予測不能な性質により、自律車両用の標準的な方法を使用してモデル化及び学習を行うことは困難であることが判明している。

従って、工事現場のような構造化されていない環境においてロボット装置用の制御ポリシーをトレーニングするためのアプローチが所望されている。

発明の開示
種々の実施形態によれば、ロボット装置用の制御ポリシーをトレーニングするための方法であって、ロボット装置の環境の基準状態と当該基準状態に対する環境の基準観察とを取得することと、ロボット装置の姿勢推定の複数の誤差のそれぞれについて、姿勢推定の誤差に従って基準観察に対して妨害された観察と、トレーニング入力としての、生成された観察を含むトレーニングデータ要素とを生成することと、生成されたトレーニングデータ要素を使用して制御ポリシーをトレーニングすることと、を含む方法が提供される。

上述した方法により、ロボット装置の制御ポリシー（又はエージェント）のトレーニングが可能となり、これにより、制御ポリシーが姿勢推定における誤差に対してロバストとなり、ひいては工事現場のような困難な（構造化されていない）環境において良好な結果を達成することができる。生成された観察は、それぞれの誤差分だけ正しい姿勢とは異なる各トレーニング姿勢に対応するとみなすことができる。

（例えば、デモンストレーションなどの専門知識から得られる、基準観察に対して生成された）１つ又は複数の基準動作は、例えば、生成された観察に対する目標出力として、即ち、実行されるべき動作としての、誤った姿勢推定に対応するという意味で誤っている観察に対する目標出力として使用可能であり、これにより、ロボット装置は、その姿勢推定において誤りを犯した場合にも「正しい」動作を実行するようにトレーニングされる。トレーニングデータ要素の目標出力（即ち、グラウンドトゥルースのラベル）は、専門家、例えば「教師」として機能するエキスパートモデルによって生成可能である。

観察（例えば、ハイトマップ）は、例えば、ロボット装置の推定姿勢が生成された観察によって示される環境状態におけるその真の姿勢であった場合に、ロボット装置が、環境の基準状態に対する（その基準姿勢に従った）位置及び向きとしての、生成された観察によって示される環境状態に対する（例えば、工事現場におけるサンドパイルに対する）位置及び向きを有するように、生成される。

以下に、種々の実施形態を説明する。

実施形態１は、上述したロボット装置用の制御ポリシーをトレーニングするための方法である。

実施形態２は、誤差のうちの少なくともいくつかのそれぞれが、設けられているロボット装置の姿勢推定機能部によってセンサ測定データに応答して形成される姿勢推定結果と基準姿勢との間の誤差であり、ここで、センサ測定データは、基準姿勢においてそれぞれのノイズによって妨害された場合にロボット装置が取得するはずのセンサ測定データである、実施形態１に記載の方法である。

従って、トレーニングに使用される姿勢を、実際の適用においてロボット装置が導出し得る姿勢推定値に対応する姿勢とすることが達成可能となる。

実施形態３は、センサ測定データが、ロボット装置の慣性測定ユニットの測定データ及び環境を観察するカメラからの画像データを含み、姿勢推定機能部が、姿勢推定結果を決定するためのセンサフュージョンを実行する、実施形態２に記載の方法である。

この場合には、慣性測定ユニットの測定を妨害し、センサフュージョンから得られた推定姿勢をトレーニング姿勢として採用することによって、誤差（ひいては（トレーニング）姿勢）を生成することができる。これによって、特に慣性測定ユニットの測定は、実際の適用において誤差を有する可能性があるため、現実に則したトレーニング姿勢が提供される。

実施形態４は、方法が、（例えば、センサ測定データのトレーニングから）姿勢推定結果不確実性を出力する姿勢推定を実行することと、姿勢推定結果の周囲の姿勢推定結果不確実性に従って誤差分布からのサンプリングを行うことにより、誤差のうちの少なくともいくつかを生成することとを含む、実施形態１から３までのいずれか１つに記載の方法である。

例えば、姿勢推定結果は、（拡張）カルマンフィルタ（ＥＫＦ）の出力であるものとしてよい。この場合、拡張は、例えば、ＥＫＦ残差の分布（例えば、平均としての姿勢推定と共分散としてのＥＫＦ共分散行列推定とによって与えられるガウス分布）から生成される。姿勢推定は、例えば、ロボット装置によって実現されるものである。このようにして、ロボット装置の動作において遭遇する現実に則したトレーニングデータ要素が生成される。

実施形態５は、ロボット装置が工事車両であり、環境が工事現場である、実施形態１から４までのいずれか１つに記載の方法である。

特に工事現場においては、不均一な地面のため、及び、環境内にきわめてノイズが多いため、姿勢推定は困難であり、それ故に、センサがノイズを含む測定値を提供し、このためノイズを含む姿勢推定が生じ、従って、このような環境においては、姿勢推定の誤差に対してロバストな制御ポリシーのトレーニングが特に有利である。

実施形態６は、ロボット装置を制御するための方法であって、実施形態１から５までのいずれか１つに記載のように制御ポリシーをトレーニングすることと、環境を観察して観察を生成することと、トレーニングされた制御ポリシーを用いて、観察から１つ又は複数の動作を決定することと、ロボット装置によりロボット装置の姿勢を推定することと、観察された環境内の推定姿勢を考慮して、１つ又は複数の動作を実行することと、を含む、方法である。

実施形態７は、実施形態１から６までのいずれか１つに記載の方法を実施するように構成されている制御装置である。

実施形態８は、コンピュータにより実行されるときに、実施形態１から６までのいずれか１つに記載の方法をコンピュータに実施させるための命令を含むコンピュータプログラムである。

実施形態９は、コンピュータにより実行されるときに、実施形態１から６までのいずれか１つに記載の方法をコンピュータに実施させるための命令を備えるコンピュータ可読媒体である。

図面において、同一の参照符号は、全体として、それぞれ異なる図面を通して同様の部分を指す。各図面は、必ずしも縮尺通りに描かれておらず、全体として本発明の基本方式を説明することに重点が置かれている。以下の説明においては、次の各図面を参照しながら種々の態様を説明する。

一実施形態による工事環境における制御シナリオを示す図である。エージェントの完全状態情報を示す図である。図２Ａの真の（正しい）状態から導出された観察を示す図である。図２Ｂの観察に対して選択された動作を示す図である。トレーニングデータセットに対するポリシー入力の拡張を示す図である。種々の実施形態によるエージェントのトレーニングを示す図である。ロボット装置用の制御ポリシーをトレーニングするための方法を説明するフローチャートである。

以下の詳細な説明は、本発明を実施することができる本開示の特定の詳細及び態様を例示として示す添付の図面を参照している。本発明の範囲から逸脱することなく、他の態様を利用することができ、構造的、論理的かつ電気的な変更を行うことができる。本開示のいくつかの態様を本開示の１つ又は複数の他の態様と組み合わせて新たな態様を実現することができるので、本開示の種々の態様は、必ずしも相互に排他的であるとは限らない。

以下に、種々の例をより詳細に説明する。

図１には、工事環境１０１における制御シナリオが示されている。

ロボット１００が環境１０１内に位置している。ロボット１００は、開始位置１０２を有しており、例えば、サンドパイル１０３を除去しようとしている。環境１０１は、ロボット１００によって回避されるべき障害物１０４を含み得る。例えば、障害物１０４は、ロボット１００が通過し得ない物体（例えば、壁、木又は岩）、又は、ロボットが損傷若しくは危害を与え得るために回避されるべき物体（例えば、作業者）である。

ロボット１００は、制御装置１０５を有している（当該制御装置１０５は、ロボット１００に対して遠隔位置にあるものとしてもよく、即ち、ロボット１００は、遠隔制御によって制御されるものであってもよい）。制御装置１０５は、ロボット１００を制御するエージェントを実装していることが見て取れる。用語「制御装置」と用語「エージェント」とは、以下においては、交換可能な語として使用される。図１の典型的なシナリオにおいては、目標は、環境１０１のナビゲーションが行われてサンドパイル１０３が除去されるように、即ち、造成タスクが実行されるように、制御装置１０５がロボット１００を制御することである。当該例においては、ロボット１００は、自律型のブルドーザであるが、脚部又は軌道又は他の種類の推進システムを有するロボット（深海ローバ又は火星ローバなど）であるものとしてもよい。

制御装置（又はエージェント）１０５は、観察に基づいてロボット１００を制御する。即ち、制御装置（又はエージェント）１０５は、観察（例えば、カメラ１０６が観察したハイトマップ）を受信して、観察に対する１つ又は複数の動作を選択し、当該１つ又は複数の動作（例えば、所定の方向に所定の距離だけ移動すること）が実行されるようにロボット１００を制御する。

以下に、工事現場車両（一般的には、非構造化環境におけるロボット）用の自律的な経路計画のためのアプローチについて説明する。例として、図１に示されているように、位置特定の不確実性のもとで車両（ブルドーザ）の推定姿勢が誤っている場合にブルドーザ１００によって行われる自律的な造成タスクを考察する。当該タスクは、あらゆる工事現場における全ての工作機械に共通するいくつかの課題を課す。従って、上記のタスクを当該分野における代表的な一例と考えることができる。主たる課題には、全ての工作機械にとって大きな困難となるデータ収集が含まれる。第二に、環境の観察可能性が部分的であることがきわめて困難であり、これは、環境の大部分がセンサポジショニングに起因して不明瞭となっているためである。第三に、位置特定の不確実性につながるセンサノイズが挙げられ、これは、エージェント１０５が環境１０１の観察を使用する方式に影響を与えるため、意思決定プロセスにおいて著しい性能劣化を引き起こす。

データ収集の困難性を克服すべく、種々の実施形態によれば、シミュレーション環境でエージェント１０５をトレーニングする際、シミュレーションから現実までのギャップを埋めるためにドメイン適応技術を使用することができる。シミュレーションは、現実世界のデータに可能な限り類似するように拡張することができる。種々の実施形態によれば、エージェント１０５に対する（制御）ポリシーが純粋にシミュレーションにおいて学習され（即ち、エージェントがトレーニングされ）、シミュレーションとスケーリングされたプロトタイプ環境との双方においてテストされる。

さらに、種々の実施形態によれば、位置特定の不確実性への対処は、エージェントのポリシーのトレーニング中、（例えばセンサノイズに起因する）不確実性が考慮されるトレーニング体系を使用することによって行われる。これにより、エージェント１０５は、クリーンでノイズのない環境におけるポリシーの学習と比較して、推論中の不確実性のもとでの改善された性能を有するロバストなポリシーを学習することができる。

具体的には、エージェント１０５をトレーニングするために使用されるトレーニングデータセットは、（基準）観察のスケーリング、回転及び並進のバージョンを含む多数の変形を形成するための拡張を含み、従って、より現実的な、位置特定誤差に起因して観察が不確実となるシナリオに対処するエージェントの能力が向上する。

ブルドーザ１００の制御は、タプル

からなる部分的に観察可能なマルコフ決定過程（ＰＯＭＤＰ）としてモデル化可能である。即ち、状態

は、最適なポリシーを学習するために、要求される全ての情報を含む、しかし、エージェント１０５には、多くの場合に、環境１０１に関する部分的な又はノイズを有する情報しか提供されず、これを観察

と称する。観察は、典型的には、状態とは異なって、最適性に関する十分な統計を欠いている。各状態ｓにおいて、エージェント１０５は、動作

を行う（即ち、選択された動作に従ってロボット１００を制御する）。次いで、システム（ブルドーザ１００及び環境１０１）は、遷移カーネル

に基づいて、次の状態

へ移行する。最後に、エージェントに、報酬

が提供される。エージェントの目標は、累積報酬を最大化する挙動ポリシー

を学習することであり、ここで、ポリシーは、観察（又は推定状態）を動作へとマッピングする。

種々の実施形態によれば、自律的な造成タスクが、ＰＯＭＤＰ／Ｒ（即ち、報酬項を有さないＰＯＭＤＰ）として定式化され、即ち、状態、観察、動作及び遷移カーネルからなる４タプルが定義される。

状態は、最適なポリシーの取得に要求される全ての情報を含み、各動作の結果を決定する。本例においては、状態は、エージェント（即ち、ブルドーザ）１００の正確な姿勢を含む。

図２Ａは、一実施形態によるエージェント２００の完全状態情報を示しており、この完全状態情報には、エージェント２００の姿勢の（誤りのない）正確な知識と、サンドパイル２０１の位置を含む環境２０２に関する知識とが含まれる。

図２Ｂには、誤りのない図２Ａの真の（正しい）状態から導出された観察が示されており、ここで、観察は、状態情報の一部（ここでは、環境２０２の一部２０４）を含む。

誤差に関連して、動作の２つの側面を考慮することができる。即ち、
［ｉ－開ループ選択］ここでは、ポリシーが、ブルドーザ１００の到達すべき中間点を出力する。この場合、姿勢推定の誤差は、状態から観察までの最適でない投影として提示される。
［ｉｉ－閉ループ］ここでは、姿勢推定における誤差が、軌道の実行のためにブルドーザの下位の制御装置へフィードバックされる。この場合、誤差がシステムを通して伝播され、所望の経路からの逸脱が生じる。

図２Ｃには、選択された動作がドット２０５として示されている（これらのドット２０５は、最上部のサンドパイル２０１を除去するためにブルドーザ２００が取るべき経路を定義している）。

状態遷移は、ブルドーザのダイナミクスと、土壌及び環境の物理的特性とによって決定される。

種々の実施形態によれば、センサデータ（この例においては、ブルドーザの姿勢を測定するためのセンサ）に影響を与える測定ノイズによって引き起こされる状態決定の不確実性を反映した誤差を含むトレーニング観察（即ち、トレーニング入力）が生成される。本例においては、不正確な状態（主に姿勢）の推定が、ブルドーザ１００の現在位置の周囲における誤ったバウンディングボックスビューへ変換される。

トレーニング（及びテスト）のために、種々の実施形態によれば、拡張（例えば、回転及び並進）を真の正確な観察に適用することにより、シミュレーションにおいてこうした挙動が模倣される。即ち、観察が、（わずかに）回転させられた姿勢及び／又は並進させられた姿勢に従って生成される。

図３には、トレーニングデータセットに対するポリシー入力の拡張が示されている。

第１の図３０１は、ブルドーザが環境３０６内のブルドーザ３００の基準姿勢（即ち、この例においては、トレーニングデータのための真の姿勢として想定される姿勢）を有する基準トレーニングデータ要素を示している。当該姿勢に基づいて、ブルドーザは、環境の１つの観察（基準観察と称される）を取得する。このように、基準観察のケースは、トレーニングデータ要素のために想定された環境の真の状態（ここでは、具体的にはサンドパイル３０７の位置を含む）に対応する。基準データ要素は、基準トレーニングラベル、即ち、１つ又は複数の（基準）動作の仕様を含む（ここでは、ドット３０８によって表現されている、サンドパイル３０７のうちの１つを除去する経路を定義する中間点の形態の２つの動作であり、ブルドーザは、先ず、より離れた方の点へ向かい、次いで、より近い方の中間点へと戻る）。

さらなる図３０２，３０３，３０４，３０５は、それぞれ、基準観察の拡張バージョンに対応するトレーニングデータ要素を表現している。各トレーニングデータ要素は、妨害姿勢（即ち、図３０１の真の姿勢とは異なる姿勢の仕様）、ひいては、基準観察に対して妨害された妨害観察（例えば、ハイトマップ）に対応する。

各トレーニングデータ要素は、トレーニングラベルとして基準トレーニングラベルを含み、即ち、真の状態に対応するグラウンドトゥルース動作を指定しているので、ブルドーザは、その姿勢推定につき誤りを犯している場合にも適当な動作を実行するようにトレーニングされる。

図４には、種々の実施形態によるエージェント１０５のトレーニングが示されている。

当該例においては、ブルドーザ１００に含まれて姿勢推定を生成する認識ブロック４０６が使用されている。

具体的には、エージェント１０５は、高い頻度で速度及び角速度インクリメント

を提供する慣性測定ユニット４０１を含む。

（工事現場のいずれかの場所に取り付けられている）カメラ１０６へのインタフェース４０２は、低い頻度で補助位置及び補助姿勢（即ち、向き）の測定値

を提供し、即ち、補助情報を提供する。当該補助情報は、ＧＮＳＳ（Global Navigation Satellite System）受信機のような他の装置によっても提供可能である。

慣性ナビゲーションシステム（ＩＮＳ）４０３は、ブルドーザの位置、速度及び向きを計算するために、（ＩＭＵ４０１からの）慣性センサ読み取り値及び初期条件（ＩＣ）４０４を使用する。一実施形態によれば、拡張カルマンフィルタ（ＥＫＦ）４０５を使用するセンサフュージョンアプローチが使用されて、ＩＭＵ４０１からの測定値と（カメラインタフェース４０２を介してブルドーザに受信された）カメラからの測定値とのセンサフュージョンが実行される。

このように、慣性統合システム４０３は、ＩＣ４０４とＩＭＵ４０１からの測定値との双方を使用して、高い頻度で、位置及び姿勢の推定値

を生成し、カメラインタフェース４０２を介して補助測定値が利用可能になると、ＥＫＦ４０５が起動されて、補正姿勢、バイアス及びドリフトの推定値が提供される。これらの推定値は、インクリメントの補償のために、慣性統合システム４０３へフィードバックされる。これらの成分を含む認識ブロック４０６の出力が、高い頻度で、姿勢の推定値となる。

認識ブロックがトレーニング状態（即ち、図３の第１の図３０１に示されているような基準トレーニングデータ要素の真の状態）に対して姿勢を推定すると、（図３の第２の図３０２から第５の図３０５のいずれかによって表現されているような）対応するトレーニングデータ要素が生成される。これは、推定ブロック４０６からシミュレータへ推定姿勢を供給することによって行われ、これにより、真の状態に対応する正しい観察が妨害されることにより、即ち、ブルドーザの推定姿勢がその真の姿勢である場合にカメラ１０６によって観察されるはずの観察（ハイトマップ）が生成されることにより、真の状態４０８及び推定姿勢からの観察４０７がレンダリングされる。生成されたトレーニングデータ要素中のトレーニングラベルは、生成された観察をエキスパートモデルに与えることによって生成される。

観察４０７が利用可能になると、この観察４０７は、動作４０９（即ち、中間点の決定）を提供するポリシーへ供給される。次いで、トレーニングラベルに対する損失が計算される。

次いで、シミュレータは、提供された動作を実行し、次の真の状態を計算し（又は、他の方式により、例えば、数回の反復後のリセットによって若しくは他のトレーニングシナリオへのセットによって、シミュレーションを他の真の状態へとセットし）、他の損失（即ち、総トレーニング損失のうちの他の成分）を計算するために上記のプロセスを繰り返す（即ち、複数回の反復を実行する）ことができる。この場合、エージェントは、総トレーニング損失を低減するように、例えば、複数回の反復の損失バッチの合計を低減するようにトレーニング可能である。

認識ブロック４０６によって提供された単一の姿勢推定から、（ＥＫＦ共分散行列推定からの）姿勢の不確実性、即ち、

を考慮して、複数のトレーニングデータ要素を生成することができることに留意されたい。ここで、Ｋは、推定姿勢

に関する分布からレンダリングされる観察の数であり、

は、正規分布である。上記の例においては、

は

に対応し、即ち、姿勢及び向きである。

このように、認識ブロック４０６によって実現されるようなセンサフュージョンフィルタリングを用いて、ノイズを有する（妨害された）多数の観察（即ち、真の観察の拡張）が生成可能である。これは、特に、（ｉ）慣性測定ユニット（ＩＭＵ）４０１の慣性センサと補助センサ測定（ここでは、インタフェース４０２を介して受信される画像データ）とに合成ノイズを加算すること、（ｉｉ）慣性ナビゲーションシステム４０３（ＩＮＳ）及びＥＫＦ４０５を適用すること、並びに、（ｉｉｉ）フィルタ４０５によって形成された分布からノイズを有する観察をレンダリングすること、によって行うことができる。このようにすることにより、不確実性がトレーニングパイプライン内へ導入される。当該不確実性により、その時点での、潜在状態全体にわたる著しく広い分布を含むトレーニングデータセットが生じることによって、トレーニングが強化される。これにより、エージェント１０５は、位置特定の不確実性に対してよりロバストなポリシーを学習することができる。

実際には、測定値にセンサノイズを挿入すると、それぞれの真の観察の周囲の小さい摂動へと変換される。

こうして、ブルドーザが自身の姿勢を大域的な座標（即ち、ハイトマップの座標）において推定し、（センサ測定値の誤差に基づいて）姿勢推定において誤りを犯すと、この誤りは、図３に示されているようなハイトマップの対応する変位又は回転とみなすことができる（これは、ブルドーザの視点からすると、環境が変位し及び／又は回転しているからである。なぜなら、当該ブルドーザは、環境における自身の姿勢を誤って推定しており、これにより、自身が変位し及び／又は回転しているにもかかわらず、環境が変位し及び／又は回転していると捉えているためである）。

要約すると、種々の実施形態により、方法が、図５に示されるように提供される。

図５には、ロボット装置用の制御ポリシーをトレーニングするための方法を説明するフローチャート５００が示されている。

５０１において、ロボット装置の環境の基準状態と、この基準状態に対する環境の基準観察（即ち、基準状態を反映した観察）とが取得される。

５０２においては、状態に対して１つ又は複数の基準動作が決定される。

５０３においては、ロボット装置の姿勢推定の複数の誤差のそれぞれにつき、姿勢推定の誤差に従って基準観察に対して妨害された観察が生成され、トレーニング入力としての、生成された観察を含むトレーニングデータ要素と、目標出力としての１つ又は複数の基準動作とが生成される。

５０４においては、生成されたトレーニングデータ要素を使用して、制御ポリシーがトレーニングされる。

換言すれば、種々の実施形態により、エージェントが拡張データセットでトレーニングされる（又は再トレーニングされる）。具体的には、例えば、エージェントが以前にトレーニングにおいて遭遇したことのない付加的なトレーニングデータ要素が、（トレーニングデータ要素の分布から）エージェントに提供される。付加的なトレーニングデータ要素によって、エージェントが実装している制御ポリシーのスケール及び回転の不変性が改善される。例えば、上述したように、サンドパイルに対するエージェント（ブルドーザ）の位置が妨害されていることにつき、エージェントがこれを学習可能となり、推論においてより良好な決定を行うことができるようになる。

上述したように、トレーニングデータ要素（即ち、これらが含むトレーニング観察、即ち、トレーニング入力）が、（動作ラベルが与えられた正しい観察に対応する）「真」の状態から変化した姿勢に対して、レンダリング可能となる。多数の姿勢から導出された同等の（「真」の）状態に対するいくつかの観察をエージェントに提供することにより、スケール及び回転に対するエージェントのロバストネスが改善される。

図５のアプローチを使用して、姿勢が考慮される技術システム、例えばコンピュータ制御される機械、例えば、ロボット、車両、家電製品、電動工具、製造機械、パーソナルアシスタント又はアクセス制御システムなどを制御するための制御信号が計算されるように、エージェントをトレーニングすることができる。種々の実施形態によれば、技術システムを制御するためのポリシーを学習することができ、次いで、このポリシーに従って技術システムを動作させることができる。

種々の実施形態においては、例えば観察を取得するために、ビデオ、レーダ、ＬｉＤＡＲ、超音波、熱画像、動き、ソナーなどのような種々の視覚センサ（カメラ）から画像データ（即ち、デジタル画像）を受信して使用することができる。

一実施形態によれば、当該方法は、コンピュータによって実装される。

特定の実施形態を本明細書において図示及び説明してきたが、当業者には、本発明の範囲から逸脱することなく、様々な代替の及び／又は等価の実現形態を図示及び説明した特定の実施形態に置換し得ることが理解されるであろう。本出願は、本明細書において論じた特定の実施形態の任意の適応形態又は変形形態を包含することを意図している。従って、本発明は、特許請求の範囲及びその等価物によってのみ限定されることが意図されている。

Claims

ロボット装置用の制御ポリシーをトレーニングするための方法であって、
前記ロボット装置の環境の基準状態と前記基準状態に対する前記環境の基準観察とを取得することと、
前記ロボット装置の姿勢推定の複数の誤差のそれぞれについて、前記姿勢推定の誤差に従って前記基準観察に対して妨害された観察と、トレーニング入力としての、生成された観察を含むトレーニングデータ要素とを生成することと、
生成された前記トレーニングデータ要素を使用して前記制御ポリシーをトレーニングすることと、
を含む方法。
前記誤差のうちの少なくともいくつかのそれぞれが、設けられている前記ロボット装置の姿勢推定機能部によってセンサ測定データに応答して形成される姿勢推定結果と基準姿勢との間の誤差であり、前記センサ測定データは、前記基準姿勢においてそれぞれのノイズによって妨害された場合に前記ロボット装置が取得するはずのセンサ測定データである、請求項１に記載の方法。
前記センサ測定データは、前記ロボット装置の慣性測定ユニットの測定データ及び前記環境を観察するカメラからの画像データを含み、
前記姿勢推定機能部は、前記姿勢推定結果を決定するためのセンサフュージョンを実行する、
請求項２に記載の方法。
姿勢推定結果不確実性を出力する姿勢推定を実行することと、
前記姿勢推定結果の周囲の前記姿勢推定結果不確実性に従って誤差分布からのサンプリングを行うことにより、前記誤差のうちの少なくともいくつかを生成することと、
を含む、請求項１乃至３のいずれか一項に記載の方法。
前記ロボット装置は、工事車両であり、前記環境は、工事現場である、請求項１乃至４のいずれか一項に記載の方法。
ロボット装置を制御するための方法であって、
請求項１乃至５のいずれか一項に記載の制御ポリシーをトレーニングすることと、
環境を観察して観察を生成することと、
トレーニングされた前記制御ポリシーを用いて、前記観察から１つ又は複数の動作を決定することと、
前記ロボット装置により前記ロボット装置の姿勢を推定することと、
観察された前記環境内の推定姿勢を考慮して、前記１つ又は複数の動作を実行することと、
を含む方法。
請求項１乃至６のいずれか一項に記載の方法を実施するように構成されている制御装置。
コンピュータにより実行されるときに、請求項１乃至６のいずれか一項に記載の方法を前記コンピュータに実施させるための命令を含むコンピュータプログラム。
コンピュータにより実行されるときに、請求項１乃至６のいずれか一項に記載の方法を前記コンピュータに実施させるための命令を備えるコンピュータ可読媒体。