JP2023113133A

JP2023113133A - ロボット装置を制御する方法

Info

Publication number: JP2023113133A
Application number: JP2023013714A
Authority: JP
Inventors: クリスティアンシリンガーフィリップ; Christian Schillinger Philipp; ドンティラメシュバブアクシャイ; Dhonthi Ramesh Babu Akshay; ロソレオネル; Leonel Rozo
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-02-02
Filing date: 2023-02-01
Publication date: 2023-08-15
Also published as: DE102022201116B4; US20230241772A1; DE102022201116A1; CN116533229A

Abstract

【課題】様々な実施形態に従ってロボット装置を制御する方法について記載する。【解決手段】本方法は、タスクを実行するためのロボット制御モデルを生成するステップであって、ロボット制御モデルは、タスクの実行に作用を及ぼすパラメータを有する、ステップと、ロボット制御モデルのパラメータを目標関数の最適化によって調整するステップであって、目標関数は、タスクの実行時における少なくとも１つの連続的なセンサ信号の時間推移に対する少なくとも１つの条件の遵守を評価する、ステップと、タスクを実行するためのロボット制御モデルに従って、調整されたパラメータによってロボット装置を制御するステップと、を含む。【選択図】図１

Description

本開示は、ロボット装置を制御する方法に関する。

（物体の）操作を実施するというロボットのためのタスクにおいて、１つの重要な問題となることは、個々のタスクに対して（たとえば、ロボットアームのための）適当な軌跡を決定することである。特定のタスクタイプを可能な限り効率的に解決する目的で、特性がまったく異なる複数の様々なアプローチが存在する。１つの例は、デモンストレーションからの学習（英語のlearning from demonstrationを表すＬｆＤ）である。

ＬｆＤの場合、人間のユーザ（「エキスパート」）がロボットに対し、意図する挙動、即ち、特定のタスクを解決するであろう例示的な軌跡をデモンストレーションする。これらのデモンストレーションから、ロボットは、ロボット制御モデルを学習し、このようにして相応の運動スキルを獲得することができる。デモンストレーションされたスキルを基礎としたロボット支援による組み立てに関するさらに詳細な点については、たとえば、Rozo, L., Guo, M., Kupcsik, A. G., Todescato, M., Schillinger, P., Gifthaler, M., ... & Burger, M.著、“Learning and sequencing of object-centric manipulation skills for industrial tasks”、2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) (pp.9072-9079). IEEE（以下、参考文献［１］と称する）を参照されたい。

ＬｆＤアプローチは、望ましい軌跡に対する基準を明示的に記述することが困難であるときに、特に適している。しかしながら、このアプローチは、暗黙的な基準を捉えることしかできず、それ以外の明示的な制約又は望ましい特性を追加するための一般的なメカニズムは存在しない。

このような制約に対処する目的で、かかる明示的な条件を別個の形式論で表現し、次いで、元々学習された運動スキルを向上させるために、最適化技術を組み入れることができる。たとえば、Innes, C. & Ramamoorthy, S.著“Elaborating on learned demonstrations with temporal logic specifications”、2020, arXiv preprint arXiv:2002.00784（以下、参考文献［２］と称する）によれば、ＬｆＤの１つの動的体系的バリエーションである動的運動プリミティブ（英語のDynamic Movement Primitivesを表すＤＭＰ）を最適化する目的で、時相（時間）論理の１つのバリエーションである線形時相論理（英語のLinear Temporal Logicを表すＬＴＬ）における目標が定式化される。

これに加えて、Dhonthi, A., Schillinger, P., Rozo, L. & Nardi, D.著(2021)による論文“Study of Signal Temporal Logic Robustness Metrics for Robotic Tasks Optimization”、arXiv preprint arXiv:2110.00339（以下、参考文献［３］と称する）には、ＳＴＬ（Signal Temporal Logic）を用いた条件の定式化について記載されている。

参考文献［２］のアプローチのためには、勾配を求めなければならず、それゆえ、規定可能な明示的条件の帯域幅が制限されている。

Rozo, L., Guo, M., Kupcsik, A. G., Todescato, M., Schillinger, P., Gifthaler, M., ... & Burger, M.著、"Learning and sequencing of object-centric manipulation skills for industrial tasks"、2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) (pp.9072-9079). IEEE Innes, C. & Ramamoorthy, S.著、"Elaborating on learned demonstrations with temporal logic specifications"、2020, arXiv preprint arXiv:2002.00784 Dhonthi, A., Schillinger, P., Rozo, L. & Nardi, D.著(2021) 、論文"Study of Signal Temporal Logic Robustness Metrics for Robotic Tasks Optimization"、arXiv preprint arXiv:2110.00339

よって、明示的な条件の規定をより広い範囲で行うことのできるアプローチが望まれている。

発明の開示
様々な実施形態に従って、ロボット装置を制御する方法が提供され、当該方法は、タスクを実行するためのロボット制御モデルを生成するステップであって、ロボット制御モデルは、タスクの実行に作用を及ぼすパラメータを有する、ステップと、ロボット制御モデルのパラメータを目標関数の最適化によって調整するステップであって、目標関数は、タスクの実行時における少なくとも１つの連続的なセンサ信号の時間推移に対する少なくとも１つの条件の遵守を評価する、ステップと、タスクを実行するためのロボット制御モデルに従って、調整されたパラメータによってロボット装置を制御するステップと、を含む。

目標関数の最適化は、たとえば、ブラックボックス最適化を用いて行われる。ブラックボックス最適化（ＢＢＯ）を使用することにより、たとえば参考文献［２］の手順の場合に必要とされるような勾配が不要となり、従って、格段に拡張されたより表現力豊かな信号領域にわたって、（たとえば、信号時相論理（ＳＴＬ）を用いて）条件を定義することが可能になり、たとえば、結果として生じる力に対する制限の記述、又は、一般的には軌跡自体に代わる軌跡の作用が可能になる。従って、上述の方法によって、幅広い範囲の用途を担保することができる。

ＢＢＯの場合、様々なシナリオに対してタスクを実行することができ、又は、目標関数のいずれの評価についても同様のシナリオを採用することができる（即ち、たとえば、物体は、常に同一の位置にある）。未知の作用を最小限に抑制する目的で、実際に可能な限り、シナリオを同様に維持することが有用になり得る。パラメータセットごとにそれぞれ異なるシナリオの集合を実行して、複数の実行にわたる平均値を形成することが実際に可能である場合には、やはり有用になり得る。実際の観点からは、シナリオを正確に繰り返すことが、場合によっては不可能であるかもしれないが、これは、ＢＢＯに対する排除基準でもなく、結果が悪くなったり又は最適化が緩慢になったりする可能性があるだけである。

上述のロボット制御方法をたとえば、ロボット操作タスクのために使用することができ、この場合にはエキスパートがロボットの望ましい挙動を予め定めて指定する。これは特に、特定の組み立てステップが複雑な運動を必要とし、同時に付加的な条件を満たす必要がある、ロボット支援による組み立ての場合に当てはまる。たとえば、ある組み立てプロセスにおいて、１つのピンを特定の手法で他の被加工物に挿入する必要がある。この運動を完全に形式的に記述することは困難であると考えられるので、人間がこの運動をデモンストレーションすることができるが、それにもかかわらず、接触力の低減又は目標ポジション精度といったような特定の制約を達成することが望ましく、これらは場合によってはあまり最適にはデモンストレーションされない。

以下、様々な実施例について記載する。

実施例１は、上述のようにロボット装置を制御する方法である。

実施例２は、実施例１に記載の方法であって、この方法はさらに、信号時相論理に従って少なくとも１つの条件を少なくとも１つの信号時相論理式で表現するステップと、少なくとも１つの信号時相論理式を少なくとも１つのロバストネス基準に変換するステップと、タスクの実行のために少なくとも１つのロバストネス基準の値を求めることにより、目標関数を評価するステップと、を含む。

条件を捕捉するために信号時相論理（英語のＳｉｇｎａｌＴｅｍｐｏｒａｌＬｏｇｉｃを表すＳＴＬ）を使用することにより、たとえば、時間演算子に対するタイムインターバルを記述することが可能であることから、条件の表現力豊かな仕様記述が可能となる。換言すれば、少なくとも１つの条件は、１つ又は複数のタイムインターバル及び１つ又は複数の連続信号によって表現される。ＳＴＬ式を実数値の報酬関数、いわゆるロバストネス基準に変換する効率的なアプローチが存在しており、これはその数学的特性ゆえに、ロボット制御モデルの効率的かつ表現力豊かな最適化を可能にする。

実施例３は、実施例１又は２に記載の方法であって、この場合、ロボット制御モデルのパラメータは、時間に関連づけられたパラメータと、位置に関連づけられたパラメータとを有する。

たとえば、時間に関連づけられたパラメータとして持続確率を有し、位置に関連づけられたパラメータとして（たとえば）平均的な長さを有するＨＳＭＭといったように、かかるパラメータを有するロボット制御モデルは、条件の仕様記述のためにＳＴＬを使用することに非常に良好に対応しており、それというのも、ＳＴＬは、時間的及び空間的な条件を定式化するからである。

実施例４は、実施例１から３までのいずれか１つに記載の方法であって、この場合、ロボット制御モデルは、隠れセミマルコフモデル（英語のHidden Semi Markov Modelを表すＨＳＭＭ）である。

（たとえば、ＬｆＤのために）ＨＳＭＭモデルを使用することによって、学習されたスキル（即ち、タスクを実行するためのスキル）のための離散的な状態に基づくモデルがもたらされ、このモデルによれば、各状態が軌跡に沿った確率論的通過点におおよそ対応し、遷移持続時間によって軌跡の個々の区間の実行速度が定義される。これにより、ＳＴＬ目標と能力モデルのパラメータとの間の自明の結合が形成されるようにして、ＳＴＬ条件の仕様記述に対する有用な基礎が提供される。

実施例５は、実施例１から４までのいずれか１つに記載の方法であって、この場合、少なくとも１つの連続的なセンサ信号は、ロボット装置の一部の位置及び／又はロボット装置の一部に作用する力を表す。

かくして、特に、ロボット装置が特定の領域内（又は領域外）に（たとえば、エンドエフェクタと共に）留まること、及び、（たとえば、操作される物体に対しロボット装置が及ぼす）許容された力を超えない、という条件を指定することができる。

実施例６は、実施例１から５までのいずれか１つに記載の方法を実施するように構成されているロボット制御装置である。

実施例７は、プロセッサによって実行されると、このプロセッサに実施例１から５までのいずれか１つに記載の方法を実施させるための命令を含むコンピュータプログラムである。

実施例８は、プロセッサによって実行されると、このプロセッサに実施例１から５までのいずれか１つに記載の方法を実施させるための命令を格納しているコンピュータ可読媒体である。

図面において、類似した参照符号は、種々のすべての図面において、総じて同一の部分に適用される。図面は、必ずしも縮尺どおりではなく、その代わりに総じて本発明の原理を描くことに重点が置かれている。以下の説明においては、種々の態様について以下の図面を参照しながら説明する。

ロボットを示す図である。上述の４つのオペレーションによる所与の条件へのロボット制御モデルの調整について具体的に説明するフローチャートを示す図である。ロボット装置を制御する方法を表すフローチャートを示す図である。

以下の詳細な説明は、本発明を実施可能な本開示の特別な詳細及び態様を説明するために示す添付の図面に関係するものである。他の態様を使用することができ、本発明の保護範囲から逸脱することなく、構造的、論理的及び電気的な変更を実施することができる。新たな態様を形成する目的で、本開示のいくつかの態様を、本開示の１つ又は複数の他の態様と組み合わせることができることから、本開示の種々の態様は必ずしも互いに排他的なものではない。

以下においては、様々な実施例についてさらに詳細に説明する。

図１には、ロボット１００が示されている。

ロボット１００は、ロボットアーム１０１、たとえば、被加工物（又は、１つ又は複数の他の物体）を取り扱う又は組み立てるための産業用ロボットアームを含む。ロボットアーム１０１は、マニピュレータ１０２，１０３，１０４と台座（又は支持部）１０５とを含み、この台座１０５によりマニピュレータ１０２，１０３，１０４が支持されている。用語「マニピュレータ」は、ロボットアーム１０１の可動要素に適用されるものであり、それらを操作することによって、たとえばある１つのタスクを実行する目的で、周囲との物理的な相互作用が可能となる。制御のために、ロボット１００は、（ロボット）制御装置１０６を含み、この制御装置１０６は、制御プログラムに従って周囲との相互作用を実現するように構成されている。マニピュレータ１０２，１０３，１０４の（支持部１０５から最も離隔している）最後の要素１０４は、エンドエフェクタ１０４とも称され、たとえば、溶接バーナ、グリッパ器具、ラッカ工具などのような１つ又は複数の工具を含み得るものである。

（台座１０５に近い）他のマニピュレータ１０２，１０３は、ポジショニング装置を成すことができ、これによりエンドエフェクタ１０４と共働して、ロボットアーム１０１にはその端部にエンドエフェクタ１０４が設けられた状態となる。ロボットアーム１０１は機械的なアームであって、これは（場合によってはその端部に工具を持たせて）人間の腕と類似した機能を果たすことができる。

ロボットアーム１０１は、ジョイント要素１０７，１０８，１０９を含み得るものであり、これらのジョイント要素１０７，１０８，１０９によって、マニピュレータ１０２，１０３，１０４が互いに接続され、かつ、台座１０５と接続される。ジョイント要素１０７、１０８、１０９は、１つ又は複数のジョイントを有し得るものであり、それらのジョイント各々によって、対応するマニピュレータ相互間で相対的に回転可能な運動（即ち、回転運動）及び／又は並進運動（即ち、シフト）をもたらすことができる。マニピュレータ１０２，１０３，１０４の運動を、制御装置１０６によって制御されるアクチュエータを用いて生じさせることができる。

用語「アクチュエータ」は、自身が駆動されることに対するリアクションとして、メカニズム又はプロセスに作用を与えるように設計されている構成要素であると解することができる。アクチュエータは、制御装置１０６によって出力された命令（いわゆるアクティベーション）を機械運動に変換することができる。アクチュエータ、たとえば電気機械変換器を、そのアクティベーションに基づきリアクションとして電気エネルギーを機械エネルギーに変換するように構成することができる。

用語「制御装置」は、以下のようなエンティティを実装する任意のタイプのロジックであると解することができる。即ち、このエンティティは、たとえば、記憶媒体に格納されているソフトウェアを実行可能な回路及び／又はプロセッサ、ファームウェア又はこれらの組合せを含み得るものであり、命令を、たとえば本実施例においては、アクチュエータに出力することができる。ロボットの動作を制御する目的で、制御装置をたとえばプログラムコード（たとえばソフトウェア）によって構成することができる。

本実施例においては、制御装置１０６は、１つ又は複数のプロセッサ１１０及び記憶装置１１１を含み、この記憶装置１１１は、コード及びデータを格納しており、これらに基づきプロセッサ１１０は、ロボットアーム１０１を制御する。種々の実施形態によれば、制御装置１０６は、記憶装置１１１内に格納されている機械学習モデル１１２に基づき、ロボットアーム１０１を制御する。ロボット１００は、たとえば、物体１１３を拾い上げるように指示されている。たとえば、エンドエフェクタ１０４はグリッパであり、物体１１３を拾い上げるように指示されており、ただし、エンドエフェクタ１０４は、たとえば、物体１１３を吸引して拾い上げるように構成することもできる。

種々の実施形態によれば、ロボット１００にタスクを実行させるように教える目的で、デモンストレーションからの学習（英語のＬｅａｒｎｉｎｇｆｒｏｍＤｅｍｏｎｓｔｒａｔｉｏｎｓを表すＬｆＤ）が用いられる。人間によるデモンストレーションを、ロボットのためのタスクの予定されたプランを表現する機械学習モデル１１２（このケースにおいては、確率モデル又は統計モデル）によって符号化することができる。次いで、制御装置１０６は、望ましいロボット運動を生成する目的で、ロボット軌跡モデルとも称される統計モデル１１２を使用することができる。

ＬｆＤの基本的な着想は、たとえばＧＭＭのような予め記述された運動スキルモデルを、複数のデモンストレーションから成る集合に調整することである。Ｍ個のデモンストレーションが存在するものとし、それらのデモンストレーションのうち各々が、Ｎ＝Σ_ｍＴ_ｍ個の全観測

のデータセットについて、Ｔ_ｍ個のデータポイントを含み、ここで、

である。ここでは、（たとえば着目対象物体のローカル座標系又は参照フレームなど、タスクパラメータによって与えられる）Ｐ個のそれぞれ異なる座標系の視点から、同一のデモンスレーションが記録される、ということも前提とされる。かかるデータを取得するための一般的な手法は、デモンストレーションを静的なグローバル参照フレームから参照フレームｐへ、

によって変換することである。ここで、

は、グローバル座標系（即ち、グローバル参照フレーム）に関連づけられた（ローカル）参照フレームｐの並進及び回転である。次いで、ＴＰ－ＧＭＭがモデルパラメータ

によって記述され、ここで、Ｋは、混合モデルにおけるガウス成分の個数を表し、π_ｋは、各成分の先行の確率であり、

は、参照フレームｐ内のｋ番目のガウス成分のパラメータである。

標準ＧＭＭとは異なり、上述の混合モデルは、参照フレームごとに独立して学習することができない。実際には、すべての参照フレームにおける混合係数π_ｋが分割され、参照フレームｐ内のｋ番目の成分は、グローバル参照フレーム内の対応するｋ番目の成分にマッピングしなければならない。期待値最大化（ＥＭ）は、かかるモデルを学習するための確立された方法である。

学習されたならば直ちに、ＴＰ－ＧＭＭを実行中に使用して、学習された運動スキルのための軌跡を再現することができる。これにはロボットの制御が含まれ、従って、ロボットは、初期コンフィギュレーションから目標コンフィギュレーションに到達する（たとえば、エンドエフェクタ１０４が初期姿勢から終了姿勢に移動する）。この目的で、ジョイント要素１０７，１０８，１０９における（時間に依存する）加速度が計算される。
観測される参照フレーム

を考慮して、学習されたＴＰ－ＧＭＭは、それぞれ異なる参照フレームを介してアフィン変換されたガウス成分の乗算によって、複数のパラメータ

を含むただ１つのＧＭＭに次式のように変換される。即ち、

ここで、各参照フレームｐにおいて更新されたガウスベル曲線のパラメータが

として計算される。タスクパラメータは、経時的に変動する可能性があるとはいえ、時間インデクスは、表記の都合上省略される。

隠れセミマルコフモデル（ＨＳＭＭ）は、基礎を成す確率論的プロセスの時間情報を埋め込むことによって、標準隠れマルコフモデル（ＨＭＭ）を拡張する。つまり、ＨＭＭでは、基礎を成す隠れプロセスがマルコフであるとみなされ、即ち、次の状態への遷移の確率が現在の状態のみに依存するのに対し、ＨＳＭＭでは、状態プロセスがセミマルコフであるとみなされる。このことが意味することは、次の状態への遷移が、現在の状態と、この状態に入って以降に経過した時間とに依存する、ということである。デモンストレーションの空間的時間的特徴を学習する目的で、ロボット運動スキルの符号化のために、ＴＰ－ＧＭＭと組み合わせてこれらを適用することができる。タスクパラメータ化されたＨＳＭＭモデル（ＴＰ－ＨＳＭＭモデル）は、以下のように定義されている。即ち、

ここで、ａ_ｈｋは、状態ｈからｋへの遷移確率であり、

は、状態ｋの持続時間にわたるガウス分布を表し、即ち、相前後して続く特定の個数のステップにわたり状態ｋに留まる確率であり、

は、状態ｋに対応する観測確率を表す以前に導入されたＴＰ－ＧＭＭと等しい。ここで留意されたいことは、状態の個数は、「結合された」ＴＰ－ＧＭＭ内のガウス成分の個数を表している、ということである。

観測されるデータポイント

の特定の（部分的な）シーケンスを考慮して、Θにおける対応する状態シーケンスがｓ_ｔ＝ｓ_１ｓ_２．．．ｓ_ｔによって与えられていると仮定することが望ましい。データポイントξ_ｔが状態ｋに属する（即ち、ｓ_ｔ＝ｋである）確率は、順方向変数

によって与えられている。即ち、

ここで、

は出力確率であり、（１）の

は、タスクパラメータを考慮して導出されたものである。さらに、Ｔ_ｍ個に至るまでの将来のステップを予測する目的で、同一の順方向変数を再現中にも使用することができる。

ただし、このケースにおいては、将来の観測を利用することができないことから、遷移情報及び持続情報だけが使用され、即ち、式（２）においてすべてのｋ及びｌがｔよりも大きいときには、

の代入によってこのことが行われる。最後に、最大確率の状態シーケンス

が、

の選択によって決定される。

ここで、ロボット状態の望ましい最終観測がξ_Ｔとして与えられるものとし、ここで、Ｔは、運動スキルの計画対象期間（たとえば複数のデモンストレーションについての平均的な長さ）である。なお、最初のロボット状態はξ_１として観測される。学習されたモデルΘ_ａを考慮して運動スキルを実行（即ち、運動スキルを再現）するために、ξ_１及びξ_Ｔだけを考慮して最大確率の状態シーケンス

だけが構築される。

このケースにおいては、順方向変数を用いた再現は、そのままでは行うことができない。それというのも、式（２）における順方向変数は、最大周辺確率の状態のシーケンスを計算するのに対し、望ましいのは、ξ_１及びξ_Ｔを考慮したときの最大同時確率の状態シーケンスだからである。よって、（２）が使用される場合には、返されたシーケンス

が、デモンストレーションの空間的時間的パターンにも最終観測にも一致するという保証はない。物体を拾い上げるための例に関して、望ましい最終コンフィギュレーションが、エフェクタが物体の上面に存在しているということであったとしても、「側方からの拾い上げ」に対応する最大確率のシーケンスが返される場合がある。

この問題を解決する目的で、１つの実施形態によれば、ビタビアルゴリズムの修正が使用される。観測されたイベントの所与の流れに至る最大確率の状態シーケンス（ビタビパスとも呼ばれる）をＨＭＭにおいて探し出す目的で、古典的なビタビアルゴリズムを使用することができる。１つの実施形態によれば、以下の２つの主要な観点でこれとは異なる方法が使用される。即ち、（ａ）これはＨＭＭではなくＨＭＭにおいて動作する。さらに重要なことに（ｂ）最初と最後の観測結果を除いて、ほとんどの観測結果が欠けている。特に観測が存在しない場合、ビタビアルゴリズムは、

となり、ここで、

は、状態ｊの持続確率であり、δ_ｔ（ｊ）は、システムが時間ｔのときには状態ｊにあり、時間ｔ＋１のときには状態ｊにない、という確率であり、

ここで、

は、ξ_ｔを考慮した（１）のΘ_ａにおけるグローバルガウス成分ｊである。即ち、いずれの時間ｔであっても状態ｊごとに、方程式δ_ｔ（ｊ）を最大化する２つの引数が記録され、最大確率の状態シーケンス

を探し出す目的で、単純なトレースバックプロシージャが使用される。換言すれば、上述のアルゴリズムは、ξ_１を起点として最終観測ξ_Ｔをもたらす運動スキルａに対する最大確率のシーケンス

を導出する。

このとき、ロボット１００の（運動）スキルのために、特定の用途において、スキル実施にあたりロボット１００により遵守される特定の条件を定義可能であることが望ましい場合がある。これに関する例は、特定の力若しくは摩擦を超えない（たとえば、２つの部分が互いに過度に強く押圧されない、又は、スリーブが過度の摩擦を伴ってロッド上でシフトされない）、又は、特定の空間領域から離れない、ということである。

種々の実施形態によれば、ＬｆＤを用いて学習されたスキル（又は能力）の範囲内で、形式的仕様記述を考慮するためのアプローチが提供される。具体的には、種々の実施形態によれば、ＬＴＬに比較して表現が強化された時相論理の１つのバリエーションである信号時相論理（ＳＴＬ）が、報酬関数の形態でタスク仕様記述を定式化するために使用され、ＬｆＤを用いて隠れセミマルコフモデル（ＨＳＭＭ）として学習されたスキルを調整する目的で、ブラックボックス最適化アプローチ（ＢＢＯ）が使用される。

従って、種々の実施形態は、ＳＴＬ、ＢＢＯ及びＬｆＤを用いてＨＳＭＭとしてロボットスキルを学習することに基づいている。ＳＴＬ仕様記述からＢＢＯのための目標関数への変換については、様々なロバストネス基準の記述に関する参考文献［３］を参照されたい。これらを以下において説明する実施形態に関連して使用することができる。ＢＢＯのためには、ベイズ最適化（ＢＯ）又はＣＭＡ－ＥＳ（共分散行列適応進化戦略）を使用することができる。以下において説明する実施形態は、使用されるＢＢ最適化技術に関して特定の前提をなすものではない。

種々の実施形態によれば、最適化方法を用いることにより、特定のスキルのためのロボット制御モデルが、所与の条件を考慮するように改善される。このことは、反復プロセスによって行われ、これによれば、所定の条件を反映するある１つの目標の仕様記述に関連して、ロボット制御モデルの改善されたバージョンを取得する目的で、以下のオペレーション（１乃至４、下記参照）が任意の回数にわたり繰り返される。

ある１つのスキルのための初期のロボット制御モデルを起点として、種々の実施形態によれば、たとえば、人間の複数のデモンストレーションから成る集合（たとえば、参照軌跡）及び複数の条件（たとえば、付帯条件としてある１つのタスクを実施する際に達成すべき目標）から成る形式的ＳＴＬ仕様記述から導出された、ＨＳＭＭを起点として、以下のステップが（たとえば、制御装置１０６によって）繰り返し実施される。
１）スキルのためのロボットモデルの修正（バリエーション）を決定するステップ。
２）ロボットモデルの修正を用いてスキルを実施し、その際に発生する（センサ）信号を記録するステップ。
３）記録された信号が、条件について予め定められたＳＴＬ仕様記述にどの程度一致している（即ち、これを満たしている）のかを評価するステップ。
４）ＢＢＯオプティマイザを更新して、（条件を満たすことに関して）現在最良の修正をマークするステップ。

図２には、上述の４つのオペレーションによる所与の条件へのロボット制御モデルの調整について具体的に説明するフローチャート２００が示されている。

オペレーション１）の場合、ある１つのスキルのためのロボット制御モデルを様々な手法で、即ち、ロボット制御モデルの一連の様々なパラメータ２０１を修正することによって、変更することができる。ＨＳＭＭモデルの表現に基づき、かかるパラメータ２０１に対する自明の選択は、構成要素の平均的な位置

、構成要素の持続時間にわたる確率分布のパラメータ

、及び、構成要素間の遷移確率ａ_ｈｋである。これらは、妨害（変更）

による修正のたびに修正され、これによってロボット制御モデルが修正される。

これに加えて、オペレーション１）の場合、修正のためのパラメータの決定を様々な手法で行うことができ、これは主としてＢＢＯ法の選択に依存する。たとえば、パラメータ値をランダムに選択することができる。ベイズ最適化（ＢＯ）の場合、パラメータ値は、通常（最適化パラメータの初期化２０４を起点として）、いわゆる獲得関数２０２の最適化によって求められ、その際、パラメータの選択と予期される目標値との間の関係をモデリングする目的で、（未知の）最適化すべき関数の代替（たとえばガウスプロセス２０３）が形成される。ＣＭＡ－ＥＳを使用する場合、より高い目標関数に至るパラメータをより高い確率でサンプリングする目的で、時間の経過と共に修正される確率分布から、パラメータ値が取り出される。

ロボット制御モデルの修正後、修正されたロボット制御モデルに従ってスキルの実行２０６が行われる。

オペレーション２）の場合、所与のＳＴＬ仕様記述２０５は、一連のいわゆる評価によって表現され、これはスキル実行の特定の特性、たとえばわずかな大きさの接触力の維持又は作業空間の特定の領域外又は領域内での残留を要求する。これによって、どのセンサ信号をタスク実行中に記録しなければならないかが直接表されており、即ち、どの量を測定しなければならないかが表されている（即ち、ロボット、たとえばエンドエフェクタ１０４の、たとえば個々の接触力又はポジション）。

オペレーション３）の場合、実行２０６において記録された信号が離散化され、これらの信号について（たとえば参考文献［３］に記載されているように）、ＳＴＬ仕様記述２０５のロバストネスメトリック２０７の値を計算することができる。タスク最適化の目的に適している、様々な特性を有するロバストネスメトリックの様々な定式化が存在している。わかりやすいメトリックは、いわゆる空間ロバストネスであって、これは、離散化された信号に沿った個々の時点ごとに命題の真理値が変化するまでの信号値の距離を測定する。このメトリックは、たとえば、測定された力と指定された接触力との間の差を測定し、又は、作業空間内の特定の領域までのユークリッド距離を測定する。

オペレーション４）の場合、モデルパラメータ２０１の変更も、ＳＴＬ仕様記述による目標の、結果として生じる値２０７も既知であり、使用されているＢＢＯ法に引き渡すことができる。このオペレーションも使用されるＢＢＯ法に依存する。ＢＯのケースでは、たとえば、得られた観測を取り入れる目的でガウスプロセス（ＧＰ）２０３が更新され、又は、ＣＭＡ－ＥＳのケースでは、ランダムサンプル分布が相応に更新される。極端なケースでは、たとえば、パラメータのランダムサンプルにおいて、このステップを省略することができる。

要約すると、種々の実施形態によれば図３に示されているような方法が提供される。

図３には、ロボット装置を制御する方法を表すフローチャート３００が示されている。

ステップ３０１において、タスクを実行するためのロボット制御モデルが生成され、その際、ロボット制御モデルは、タスクの実行に作用を及ぼすパラメータを有する。

ステップ３０２において、ロボット制御モデルのパラメータが目標関数の最適化によって調整され、この目標関数は、タスク実行時における少なくとも１つの連続的なセンサ信号の時間推移に対する少なくとも１つの条件の遵守を評価する。

ステップ３０３において、ロボット装置は、タスクを実行するためのロボット制御モデルに従って、調整されたパラメータによって制御される。

図３の方法を、１つ又は複数のデータ処理ユニットを備えた１つ又は複数のコンピュータによって実施することができる。用語「データ処理ユニット」を、データ又は信号の処理を可能にする任意のタイプのエンティティのことであると解することができる。データ又は信号をたとえば、データ処理ユニットが実行する少なくとも１つの（即ち、１つ又は１つより多くの）特別な機能に従って処理することができる。データ処理ユニットは、アナログ回路、ディジタル回路、ロジック回路、マイクロプロセッサ、マイクロコントローラ、中央ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）、ディジタル信号プロセッサ（ＤＳＰ）、プログラマブルゲートアレイ（ＦＰＧＡ）集積回路、又は、これらの任意の組合せを含み得るものであり、又は、これらから成るものとし得る。本明細書においてより詳細に説明される個々の機能を実装するための他の任意の手法を、データ処理ユニット又はロジック回路装置として解することもできる。本明細書において詳細に説明されるプロセスステップのうちの１つ又は複数を、データ処理ユニットによって、このデータ処理ユニットが実行する１つ又は複数の特別な機能を介して、実施する（たとえば、実装する）ことができる。

図３のアプローチは、ロボット装置のための制御信号の生成に用いられる。用語「ロボット装置」を、（運動が制御される機械部分を備えた）任意の技術システムに関係するものと解することができ、たとえば、コンピュータ制御機械、車両、家庭用装置、電動工具、製造機械、パーソナルアシスタント、又は、アクセス制御システムなどである。技術システムに対する制御規則が学習され、それに応じて技術システムが制御される。

制御信号を生成するために、１つ又は複数の受信されたセンサ信号から得られた（センサ）データが、たとえば、スカラー時系列の形態で処理され、それらのデータには、たとえば、ロボットエンドエフェクタ姿勢（ポジション及び配向）、力、ロボットジョイント力などのようなあらゆる種類の軌跡に関する特定のデータが含まれる。

これらのセンサデータが処理され、これにはセンサデータの分類、又は、センサデータにおけるセマンティックセグメンテーションの実施を含めることができ、これによって、１つ又は複数の条件の、ユーザによって与えられた形式的仕様記述の遵守（及び遵守の定量化）に関して、（センサデータが得られた環境における）物体の存在を検出することができる。

機械学習システムをトレーニングし、たとえば、ロボットマニピュレータによって自律的に、ロボットを制御するという状況において、様々なシナリオのもとで様々な操作タスクを達成する目的で、実施形態を使用することができる。特に実施形態を、たとえば組み立てラインにおいて、操作タスクの実行の制御及び監視に適用することができる。たとえば、制御プロセスのための従来のＧＵＩとシームレスに、（たとえば、ユーザによる条件の仕様記述を実現する目的で）実施形態を統合することができる。

本明細書において特別な実施形態について示し説明してきたが、当業者には自明のとおり、図示され説明されている特別の実施形態を、本発明の保護範囲から逸脱することなく、代替的な及び／又は等価の多様な実装形態と取り替えることができる。本願は、本明細書において論じられている特別な実施形態のいかなる調整又は変形も包含するものである。よって、本発明は、特許請求の範囲及びその等価物によってのみ限定される、ということが意図されている。

Claims

ロボット装置を制御する方法であって、
タスクを実行するためのロボット制御モデルを生成するステップであって、前記ロボット制御モデルは、前記タスクの実行に作用を及ぼすパラメータを有する、ステップと、
前記ロボット制御モデルの前記パラメータを目標関数の最適化によって調整するステップであって、前記目標関数は、前記タスクの実行時における少なくとも１つの連続的なセンサ信号の時間推移に対する少なくとも１つの条件の遵守を評価する、ステップと、
前記タスクを実行するための前記ロボット制御モデルに従って、調整された前記パラメータによって前記ロボット装置を制御するステップと、
を含む、ロボット装置を制御する方法。
信号時相論理に従って前記少なくとも１つの条件を少なくとも１つの信号時相論理式で表現するステップと、
前記少なくとも１つの信号時相論理式を少なくとも１つのロバストネス基準に変換するステップと、
前記タスクの実行のために前記少なくとも１つのロバストネス基準の値を求めることにより、前記目標関数を評価するステップと、
をさらに含む、請求項１に記載の方法。
前記ロボット制御モデルの前記パラメータは、時間に関連づけられたパラメータと、位置に関連づけられたパラメータとを有する、請求項１又は２に記載の方法。
前記ロボット制御モデルは、隠れセミマルコフモデル（英語のＨｉｄｄｅｎＳｅｍｉＭａｒｋｏｖＭｏｄｅｌを表すＨＳＭＭ）である、請求項１から３までのいずれか１項に記載の方法。
前記少なくとも１つの連続的なセンサ信号は、前記ロボット装置の一部の位置及び／又は前記ロボット装置の一部に作用する力を表す、請求項１から４までのいずれか１項に記載の方法。
請求項１から５までのいずれか１項に記載の方法を実施するように構成されているロボット制御装置。
プロセッサによって実行されると、前記プロセッサに請求項１から５までのいずれか１項に記載の方法を実施させるための命令を含むコンピュータプログラム。
プロセッサによって実行されると、前記プロセッサに請求項１から５までのいずれか１項に記載の方法を実施させるための命令を格納しているコンピュータ可読媒体。