JP5183665B2

JP5183665B2 - ロボットの少なくとも１つの将来的活動を決定する決定メカニズム、方法、モジュールおよび決定するように構成されたロボット

Info

Publication number: JP5183665B2
Application number: JP2010087108A
Authority: JP
Inventors: アイデンベルガーローベルト; グルントマンティロ; ダニエルツェルナーラウル
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2009-04-03
Filing date: 2010-04-05
Publication date: 2013-04-17
Anticipated expiration: 2030-04-05
Also published as: US8583284B2; JP2010244549A; US20100262286A1; EP2249292A1

Description

本発明は、ロボットの少なくとも１つの将来的活動を、当該ロボットの複数の活動から決定することに関する。とりわけ本発明は、決定メカニズムまたは決定を実行するように構成されたコンポーネント、決定を実行するように構成された方法、決定を実現し、実行するアクティブ型認識モジュール、および決定を実現し、実行するロボットに関する。

日常環境に適合することのできるロボットでは、このロボットが例えば劣悪な照明、反射、または閉塞のような困難な環境条件の下でも対象物を位置特定できることが必要である。対象物の分類および位置特定は、単一の測定からでは達成することができないことがしばしばであるから、この問題を克服し、ロボットによる自立的なシーン認識を可能にするためには、能動的なストラテジーが必要である。

シーンまたはロボットの環境において得られる対象物の知識は、ロボットがさらなるタスクまたは活動、例えば対象物の把持または対象物に関するさらなる活動を実行するための重要な前提条件であることがしばしばである。

現在のアクティブ型視覚システムの多くは、次善の視覚計画のための情報理論的品質測定に注目しているが、確率論的計画ストラテジーをフォローしていない。文献にはアクティブ型認識のための多くのアプローチがある。非特許文献１には、不確定性低減に基づくアクティブ型選択に注目したいくつかの研究がリストアップされている。非特許文献２における最近の研究は、３Ｄカメラトラッキングのためのアクティブ型フィーチャマッチングを取り扱っている。非特許文献３には、視覚的探索のための意欲的なアプローチが記載されている。このアプローチは、先行の知識に基づくコンテクスト情報を含む対象物決定のための外観計画に注目している。

部分的観察マルコフ決定過程（ＰＯＭＤＰ）は、不確定下でのプランニングのための一般的モデルである。ＰＯＭＤＰは、最適の活動ポリシーを発見するためのコントロール活動に対するコストを推定する。本発明では、連続的な確率論的ドメインが考察される。したがって以下で状態について考察するとき、連続的状態空間を取り扱う公知の研究に注目する。

非特許文献４で、連続ドメインはグリッドにより近似される。結果としての離散的問題のため、高次の状態空間では計算複雑性が著しく増大する。ここで粗サンプリングは複雑性を低減するが、精度が低下する。

いくつかの公知のアプローチは、連続ドメインを直接考察する。非特許文献５、６に記載された研究では、可能なすべての状況がオフラインプロセスで評価される。したがって実行のために最善の活動が最初に特定される。非特許文献７ではこのアイデアが、連続的活動空間および観察に適用されることによって拡張される。しかしこれら公知のすべてのアプローチまたは研究は、必要で広範な前処理を実行可能に維持するために小さなドメインに制限されている。多くのアプローチでは活動値が状況に大きく依存するから、活動値を実行の前に決定することができない。オンラインプランニングアルゴリズムまたはＰＯＭＤＰのための方法の概要が非特許文献８に記載されている。公知の研究の多くは、粗いオフラインポリシーをオンラインストラテジーの結果により改善することによってリアルタイムの制限をフォローしている。したがって分枝限定法、モンテカルロサンプリング、または発見的探索のような方法が必要である。しかしこのような方法は、達成可能な関連状態の数を制限する（例えば非特許文献９参照）。非特許文献１０では、発見的検索アルゴリズムまたは方法への決定論的フォワードが確率論的プランニングのために使用されている。公知のルックアヘッド探索法の多くは、活動または観察空間を最適化することによって、または最重要活動および観察への探索を指向することによって複雑性を低減する。

アクティブ型センシングに密接に関連する公知のアプローチは、もっとも有望な活動を発見するためにセンシングコストを評価するＰＯＭＤＰを使用する。非特許文献１１には、分類目的に関して最適の決定を行うための枠組みが提案されている。このアイデアは、自走型ローバーによる岩石分類に適用される。付加的情報を収集するためのコストは、分類ミスのペナルティに対して釣合いが取られている。非特許文献１２では、ＰＯＭＤＰがコストに敏感なフィーチャの獲得と分類に使用される。ロボットに対して選択された活動の予期される報酬は、現在の信用状態に関する分類コストから計算される。反対に非特許文献１３では、プランニングストラテジーを、情報理論的不確定性測定からの結果とコストとを結び付けることにより拡張することが提案されている。

R. Eidenberger, T. Grundmann, W. Feiten, and R. Zoellner, "Fast parametric viewpoint estimation for active object detection," in Proceedings of the IEEE International Conference on Multisensor Fusion and Integration for Intelligent Systems, 2008. M. Chli and A. J. Davison, "Active matching," in European Conference on Computer Vision, 2008. J. Vogel and N. de Freitas, "Target-directed attention: sequential decision-making for gaze planning," in International Conference on Robotics and Automation, 2008. N. Roy, G. Gordon, and S. Thrun, "Finding approximate pomdp solutions through belief compression," Journal of Artificial Intelligence Research, vol. 23, pp. 1-40, 2005. M. Duff, "Optimal learning: Computational procedures for bayesadaptive markov decision processes," Ph.D. dissertation, Massassachusetts Amherst, 2002. J. M. Porta, M. T. J. Spaan, and N. Vlassis, "Robot planning in partially observable continuous domains," Robotics: Science and Systems, p. 217224, 2005. J. M. Porta, N. Vlassis, M. T. Spaan, and P. Poupart, "Point-based value iteration for continuous pomdps," Journal of Machine Learning Research, vol. 7, pp. 2329-2367, 2006. S. Ross, J. Pineau, S. Paquet, and B. Chaibdraa, "Online planning algorithms for pomdps," Journal of Artificial Intelligence Research, vol. 32, pp. 663-704, 2008. S. Paquet, B. Chaib-draa, and S. Ross, "Hybrid pomdp algorithms," in Workshop on Multi-Agent Sequential Decision Making in Uncertain Domains, 2006, pp. 133-147. S. Yoon, A. Fern, R. Givan, and S. Kambhampati, "Probabilistic planning via determinization in hindsight," in AAAI Conference on Artificial Intelligence, 2008. A. Guo, "Decision-theoretic active sensing for autonomous agents," in Proceedings of the 2nd International Joint Conference on Autonomous Agents and Multi-Agent Systems, 2003. S. Ji and L. Carin, "Cost-sensitive feature acquisition and classification," Pattern Recognition, vol. 40, pp. 1474-1485, 2007. M. T. J. Spaan, "Cooperative active perception using POMDPs," in AAAI 2008 Workshop on Advancements in POMDP Solvers, 2008. D. G. Lowe, "Object recognition from local scale-invariant features," in International Conference on Computer Vision, 1999, pp. 1150-1157.

本発明の課題は、ロボットによるシーンの自立的探索のための方法を改善することである。

この課題は、請求項1による構成を有する決定メカニズムにより、請求項２２による構成を有する方法により、請求項２３による構成を有するアクティブ型認識モジュールにより、および／または請求項２５による構成を有するロボットにより解決される。

本発明のさらなる実施形態は、相応する従属請求項に記載されている。

本発明の課題は決定メカニズムにより解決される。この決定メカニズムはロボットの少なくとも１つの将来的活動を、前記ロボットの複数の活動から、
・前の環境状態の前の確率論的表現を計算し、
・前記少なくとも１つの将来的活動が適用された後に、達成すべき後の環境状態の後の確率論的表現における少なくとも１つの不確定性を低減する新たな観察（または測定）を目的として、前記前の確率論的表現を更新し、
ただし前記後の確率論的表現は前記更新から生じた確率論的表現であり、
・前記前の確率論的表現と前記後の確率論的表現との間の情報利得を、少なくとも１つの情報理論的測定を使用して決定し、そして
・前記少なくとも１つの将来的活動を、当該少なくとも１つの将来的活動の実行コストを前記情報利得に加算することにより評価することによって決定するように構成されている。

このようにしてロボットによるシーン認識の自立的アプローチのための能動的ストラテジーが提供される。本発明を使用することによって観察または測定シーケンスが融合され、特別活動の代価におけるセンシング結果が改善される。本発明はプランニングストラテジーを提供する。このプランニングストラテジーは、さらなる測定の予想される利益を、包含されたセンシングおよび活動コストと対比する。さらに本発明による方法は、不正確なセンシングプロセスから生じる不確定性、および対処しなければならない真の連続ドメインにおけるシステムダイナミクスから生じる不確定性を考慮する。したがって本発明は、劣悪な照明、反射、または閉塞のような困難な環境条件の下でも対象物を位置特定することができる。本発明によれば将来的活動を、シーン、対象物および／または環境の認識と自立的探索に指向させることができる。

本発明は、高次元状態空間における活動の高速で効率的なプランニングの方法を提供する。このことは品質の複数の基準を、評価の複数の不確定性を考慮して比較することによって行われる。

少なくとも１つの将来的活動の決定は、決定メカニズムに含まれる少なくとも１つの相応の構成モジュールによって実行される。下に説明するように本発明の実施形態によれば、時間的に前の確率論的表現の計算と前記更新が状態評価モジュールによって実行される。また前記決定と前記評価は、決定メカニズムに含まれる（コントロール）ポリシーモジュールによって実行される。

ここで本発明により、ロボットの少なくとも１つの将来的活動を当該ロボットの複数の活動から決定する決定メカニズム内に、複数のモジュールを構成することができる。この複数のモジュールは、本発明による決定メカニズムの活動を実行するように構成されている。さらに本発明は、このようなモジュールの特定の構成に限定されるものではない。さらにモジュールは、例えばハードウエアモジュールおよび／またはソフトウエアモジュールである。

本発明の実施形態によれば、前記少なくとも１つの将来的活動は、前記ロボットにより実行される活動である。

本発明のさらなる実施形態によれば、前記少なくとも１つの将来的活動は、前記ロボットのセンサの位置変更を要求するロボット操作命令である。したがって本発明では、ロボットによるシーン探索が、複数の位置および複数の視点からの調査を可能にする活動の決定により行われる。

本発明の実施形態によれば、前記決定メカニズムは、前記ロボットの将来的活動のシーケンスを評価するように構成されている。このようにして、ロボットにより実行すべき将来的活動を包括的にプランニングすることができる。

本発明の実施形態によれば、前記少なくとも１つの不確定性は以下を含む。
・前記少なくとも１つの将来的活動を適用することにより、時間的に前の環境状態から前記時間的に後の環境状態に達する際に発生する状態変化不確定性、
および／または
・前記時間的に後の環境状態で実行される測定を妨害する測定ノイズ。

したがってロボットにより実行される活動に関する複数の不確定性を、本発明により考慮することができる。

本発明の実施形態によれば前記決定メカニズムは、ベイズフィルタの前記更新を実行するように構成されている。

本発明の実施形態によれば、前記少なくとも１つの情報理論的測定は確率論的表現におけるエントロピーである。エントロピーは情報理論的概念であり、システム、状況、またはシーンが存在するが、その正確な記述が正確には既知でない場合に適用される。エントロピーは、システム、状況、またはシーンを知るときにこれらの状態を正確に特定するために必要な情報の予測量として定義される。一般的にエントロピーは、（所定の状態で）失われた情報の測定量を表す。したがって情報理論測定としてエントロピーを使用することにより、ロボットが考慮すべきであり、詳細には未だ既知でないフィーチャを特定する手段が提供される。

本発明の実施形態によれば、前記決定は、前記前の確率論的表現の前のエントロピーと、前記後の確率論的表現の予測されるエントロピーとの間の差を決定することを含む。

本発明の実施形態によれば、前記更新は、前記少なくとも１つの将来的活動を実行した後に得られるであろう新たな観察または測定の評価を含む。したがって本発明により、活動を決定するときにこの活動の可能な効果を考慮することができる。

本発明の実施形態によれば、前記更新は前記評価を使用することによって、前記少なくとも１つの将来的活動に対する前記後の環境状態の前記後の確率論的表現の予測を含む。

本発明の実施形態によれば、前記前の確率論的表現と前記後の確率論的表現は多変量ガウス混合分布である。このようにして本発明により、同じ確率分布内で種々の仮説を考慮することができる。

本発明の実施形態によれば、前記少なくとも１つの不確定性は、前記後の確率論的表現の微分エントロピーを上限評価によって近似することにより決定される状態不確定性である。ここで本発明の実施形態によれば、前記後の確率論的表現は多変量ガウス混合分布であってよい。

本発明の実施形態によれば、前記決定メカニズムは、前記少なくとも１つの将来的活動の実行後に前記情報利得が最大であり、かつ前記少なくとも１つの将来的活動の実行コストと前記不確定性が低減される場合に、前記少なくとも１つの将来的活動を決定するように構成されている。

したがって本発明の方法は一般的に、新たな測定とコントロール活動コストから集められた情報利得を対照する概念をフォローする。

本発明の実施形態によれば、前記決定メカニズムは、所望の品質基準に達した場合、前記決定を終了するように構成されている。所望の品質基準は、あらかじめ定めた品質基準とすることができる。したがって本発明により、所定の状況で要求される品質度を提供することによって活動をフレキシブルに決定することができる。

本発明の実施形態によれば、前記所望の品質基準は、少なくとも１つの分布エントロピーの形態で提供される。したがって要求される品質度を、許容可能な失われた情報量を特定する測定によって定義することができる。

本発明の実施形態によれば、前記前の確率論的表現と前記後の確率論的表現は、ＰＯＭＤＰコンセプトを使用することにより特定されるモデルの使用によって計算される。したがって本発明は、成功するオブジェクト決定のための最適活動ポリシーを、部分的観察マルコフ決定過程（ＰＯＭＤＰ）の形態の状態評価のための統計的枠組みによって発見するという解決手段を提案する。

本発明の実施形態によれば、前記前の環境状態と前記後の環境状態は少なくとも１つのオブジェクトの状態を記述する。ここで前記少なくとも１つのオブジェクトは、当該少なくとも１つのオブジェクトのクラスの離散的クラス表現と、当該少なくとも１つのオブジェクトの連続的ｍ次元ポーズを含む。したがってＰＯＭＤＰコンセプトにより要求されるような状態モデルが提供される。この状態モデルを使用することにより、少なくとも１つのオブジェクトの状態を包括的に考慮することができる。とりわけこの考慮は、環境状態の確率論的表現、不確定性および／または情報理論測定を使用して実行される。

本発明の実施形態によれば、前記前の環境状態と前記後の環境状態は、シーンに配置された少なくとも１つのオブジェクトを含む当該シーンの状態を参照し、前記状態における前記少なくとも１つのオブジェクトのフィーチャの視認性を決定する。このようしてシーンモデルが本発明により提供される。この状態モデルを使用することにより、シーンが本発明により包括的に考慮される。とりわけこの考慮は、環境状態の確率論的表現、不確定性および／または情報理論測定を使用して実行される。

本発明の実施形態によれば、前記新たな観察は、シーンの少なくとも１つのオブジェクトのフィーチャ集合を求めることであると表現される。したがってＰＯＭＤＰコンセプトにより要求されるような観察モデルが提供される。とりわけこの観察は、環境状態の確率論的表現、不確定性および／または情報理論測定を使用することにより考慮される。

本発明の実施形態によれば前記決定メカニズムは、前記ロボットに実現される。

本発明の実施形態によれば、前記決定メカニズムは前記ロボットのアクティブ型認識モジュールに実現され、該アクティブ型認識モジュールはシーンを自立的に探索するように構成されている。

本発明の課題は本発明の方法により解決される。この方法は、ロボットの少なくとも１つの将来的活動を、前記ロボットの複数の活動から、
・前の環境状態の前の確率論的表現を計算し、
・前記少なくとも１つの将来的活動が適用された後に、達成すべき後の環境状態の後の確率論的表現における少なくとも1つの不確定性を低減する新たな観察（または測定）を目的にして前記前の確率論的表現を更新し、
ただし前記後の確率論的表現は前記更新から生じた確率論的表現であり、
・前記前の確率論的表現と前記後の確率論的表現との間の情報利得を、少なくとも１つの情報理論的測定を使用して決定し、
・前記少なくとも１つの将来的活動を、当該少なくとも１つの将来的活動の実行コストを前記情報利得に加算することにより評価することによって決定するように構成されている。

本発明の実施形態によれば、前記方法は上に概略を示し、以下で詳細に説明する決定メカニズムによって実行される。とりわけこの方法は、決定メカニズムの活動をステップとして、または方法のアクティビティとして実行するように構成されている。

本発明の課題は、上記方法を実現および／または実施するように構成されたコードを含むコンピュータプログラム製品によっても解決される。

本発明の実施形態によれば、このコードはデータ担体に埋め込まれている。本発明のさらなる実施形態によれば、コンピュータプログラム製品は、このコンピュータプログラム製品がプロセッサのような処理ユニットにより実行されるときに、前記方法を実行するように構成されている。

さらに本発明の課題は、前記コンピュータプログラム製品を含むデータ担体により解決される。

本発明の課題はアクティブ型認識モジュールによっても解決される。このアクティブ型認識モジュールは自立的にシーンを探索するように構成されており、上に概略を示し、以下で詳細に説明する決定メカニズムを有する。

本発明の実施形態によれば前記アクティブ型認識モジュールは、前記ロボットに実現される。

さらに本発明の課題はロボットにより解決される。このロボットはシーンを自立的に探索するように構成されており、以下の構成の１つを有する。
・上に概略を示し、以下に詳細に説明する決定メカニズム、または
・上に概略を示し、以下に詳細に説明するアクティブ型認識モジュール。

したがって本発明は、ロボットによるシーンの自立的探索のための改善された方法を提供することである。とりわけ本発明により、シーンの自立的探索に必要な活動が決定され、シーンの自立的探索が高速かつ効率的にサポートされる。

さらに本発明を使用することにより、上に例として示した公知の方法の欠点または不利益を克服することができる。

本発明は、添付図面に関連した以下の本発明の有利な実施形態の説明からより明確に理解されよう。

マルチオブジェクトシナリオで操作するサービスロボットを示す概略図である。ここでは検出され、位置特定されたオブジェクト（缶詰）が、ロボットによりシーン認識された後に把持される。このサービスロボットは、本発明を実行するように構成することができる。本発明の実施形態で使用されるアクティブ型認識の枠組みを示す図である。本発明の実施形態による活動空間を示す図である。本発明の実施形態による状態モデルのオブジェクトデータベースを示す図である。本発明の実施形態により実行された実験の結果を示す図である。本発明の実施形態により実行された実験の結果を示す図である。本発明の実施形態により実行された実験の結果を示す図である。本発明の実施形態により実行された実験の結果を示す図である。本発明の実施形態により実行された実験の結果を示す図である。本発明の実施形態により実行された実験の結果を示す図である。本発明の実施形態により実行された実験の結果を示す図である。本発明の実施形態により実行された実験の結果を示す図である。本発明の実施形態により実行された実験の結果を示す図である。本発明の実施形態により実行された実験の結果を示す図である。本発明の実施形態により実行された実験の結果を示す図である。本発明の実施形態により実行された実験の結果を示す図である。本発明の実施形態により実行された実験の結果を示す図である。本発明の別の実施形態により実行された別の実験の結果を示す図である。

一般的に本発明は、シーンを自立的に探索し、オブジェクトの把持のような操作タスクを実行するように構成されたサービスロボットに関する。図１に例として示されたロボットは、図示の複雑なシナリオで操作する。図１のロボットは、テーブルの上に配置された複数のオブジェクト１２＿１、１２＿２、１２＿３、１２＿４、１２＿５を備えるシーンを探索し、オブジェクトを把持する。またはシーンを探索し、オブジェクト１２＿１、１２＿２、１２＿３、１２＿４、１２＿５を認識した後に少なくとも１つのオブジェクト１２＿１を把持する。

このサービスロボットは、本発明を使用することにより活動を決定するように構成されている。とりわけロボット１により実行すべき活動が決定される。したがってこの活動は、ロボットによるシーンの自立的探索を指向することができる。すなわちロボットはこれらの活動を使用して、複数のオブジェクト１２＿１，１２＿２，１２＿３，１２＿４，１２＿５を備えるシーン（ここではテーブル）の探索をより良く、または完璧に実行する。

以下ではまず、本発明の実施形態により、本発明で使用される基本的な確率論的枠組みについて紹介する。基本的な確率論的枠組みの以下の説明から状態評価プロセスの外観が明らかとなる。この状態評価プロセスは、本発明の実施形態によりＰＯＭＤＰコンセプトと関連して適用され、本発明の実施形態でも使用される。

図２は、本発明の実施形態で使用されるアクティブ型認識の枠組みを示す図である。とりわけ図２は、本発明の実施形態による提案された確率論的枠組みの基本概念を示す。

一方の側に本発明の実施形態によるアクティブ型認識モジュール２１が設けられている。アクティブ型認識モジュール２１では、シーンのさらなる探索または認識のための活動が選択され、ここでシーンの探索または認識が実行される。図２の他方の側には、少なくとも１つのオブジェクトを備える環境またはロボットおよび／またはシーンに関するリアルワールド２２が示されている。リアルワールド２２では、変化とダイナミクス２２１がロボットにより実行される。とりわけ変化とダイナミクス２２１は、ロボットによりアクティブ型認識モジュール２１で選択された活動‘ａ’の実行により発生する。図２のボックス２２１は、ロボットにより選択された活動‘ａ’の実行を表す。選択された活動‘ａ’の実行により、現在の状態または前の状態ｑから新たな状態または後の状態ｑ’への変化が生じる。

本発明の実施形態によるアクティブ型認識状況では、アクティブ型認識モジュール２１において、ロボットのコントロール活動ａ∈Ａを選択し、特定のゴール２１３（例えば所定の状況の探索または認識）に達することが目的である。

そこには広範囲の種々異なる活動ａ∈Ａが与えられている。これらの活動は、ズーミングのようなセンサパラメータ選択またはロボット始動に大きく依存している。本発明の実施形態による決定は、実行される活動のコストと、予測される信用ｂ（ｑ）からの報酬に基づく。予測される信用とは、状態ｑに関する暫定的な確率分布を意味する。状態評価２１２は、観察Ｏを組み込むことにより初期分布を更新することで、この信用分布を決定する。最適の活動ポリシーΠを発見するために、将来的活動および観察のシーケンスを決定メカニズムまたは（例えば図２のアクティブ型認識モジュール２１内にある）コンポーネントにより評価しなければならない。

図２の観察モデルエンティティ２１１で、ロボットの真の観察または測定が管理される。ここで観察または測定Ｏは、この観察または測定Ｏの不確定性を評価することにより記述される。観察Ｏは、本発明の実施形態によればシーンに含まれるオブジェクトに関する確率分布、このオブジェクトの決定または認識されたフィーチャの集合、および／またはこのシーンの各オブジェクトの位置評価を表す。不確定性は、観察または測定Ｏの失敗値を表す。すなわち、ロボットの観察または測定Ｏが実際の状況から逸脱する場合の値を表す。

次にロボットの観察または測定Ｏに関する情報が状態評価エンティティ２１２に供給され、ここで認識または探索すべきシーンに関するロボットの現在の知識が観察Ｏにより更新される。次に新たな知識ｂ’がポリシーエンティティ２１４に供給される。次にポリシーエンティティ２１４はこの新たな知識ｂ’を心に留めることで使用し、ゴール２１３が新たな活動‘ａ’を決定する。この新たな活動は、シーンのさらなる探索または認識を実行するためにロボットにより実行される。

以下、本発明の実施形態で使用されるアクティブ型認識の枠組みについて説明するときに、状態評価のためのベイズの統計的枠組みと、不確定性の下でのアクティブプランニングのための部分的観察マルコフ決定過程を詳細に示す。

状態評価２１２のために、ベイズの状態評価器が本発明の実施形態により使用される。ダイナミック環境のためのシステムプロパティは本発明の実施形態により以下の方程式をフォローする。

表記を明確にするため、指数ｔはタイムスタンプを表す。このタイムスタンプｔは、前の１つの活動観察が状態更新に取り入れられる期間をカバーする。しばしばロボットシステム状態ｑは、コントロール活動‘ａ’のすぐ後に置くことができず、測定の後にだけ置くことができる。したがってアポストロフィ’は、活動効果による状態変化を表す。

式（１）と（２）は観察モデル２１１で、観察および現在の知識、および／またはロボットにより探索し認識すべき状況に関するロボットの仮説を記述するために使用される。

式（１）は、以前の状態ｑおよび適用された活動ａ_ｔの関数として、フューチャまたは後の状態ｑ’に達することを表す。このシステムダイナミクスは状態変化不確定性ε_ｔを基礎とする。単一の観察を解釈する場合、オブジェクトクラスおよびオブジェクト状態を不十分な測定データから類推または認識しなければならないことがしばしばである。これらの不確定性は、不正確なセンシングデバイス、非力な分類器、閉塞、貧弱な照明、オブジェクトモデルの曖昧さから生じることがある。

本発明の実施形態によれば、状態に関する確率分布

が、以前のセンサ測定または観察Ｏ_ｔ−１（ａ_ｔ−１）、．．．Ｏ_０（ａ_ｔ）に対する優先的信用として考慮される。活動‘ａ’を、ε_ｔを含むその状態変化確率ｐａ（ｑ’｜ｑ）とともに適用すると、予測的更新に対する確率論的モデルが、本発明の実施形態による状態評価エンティティ２１２で得られる。

式（２）は、タイムスタンプｔでの測定または観察Ｏ_ｔを表す。この測定または観察は現在のシステム状態ｑ’で実行され、測定ノイズδ_ｔにより妨害される。この等式があれば、測定更新モデルがベイズのコンテクストでＰ（Ｏ_ｔ（ａ_ｔ）｜ｑ’）として定式化される。

両方のモデルをベイズの方程式（５）を使用して、更新された状態分布ｂ_ｔ ^{Ｏｔ（ａｔ）}（ｑ’）を計算するために組み合わせれば、次式が得られる。

証明項Ｐ（Ｏ_ｔ（ａ_ｔ）、．．．Ｏ_０（ａ_０）は、全確率定理に適用される状態分布についての積分によって決定される。

本発明の実施形態による連続的決定２１４では、合理的な行動を実現するために、活動‘ａ’の選択が最適コントロールのための確率論的方法に続く必要がある。目標は、実行されたすべての活動の長期報酬を最大にすることと、信頼分布における不確定性をアクティブに低減することである。すでに述べたように本発明の実施形態によれば、連続的ＰＯＭＤＰがプランニング問題を解決するために使用される。ＰＯＭＤＰの以下の特徴が本発明に関して特定される。

１）不確定性の下での連続的決定の問題はＰＯＭＤＰとして定式化される。ＰＯＭＤＰは組（Ｓ，Ａ，Ｔ，Ｒ、Ω、Ｚ）として記述することができる。ここでＳはすべての環境状態の集合、Ａはすべての活動を含み、Ｔ：Ｓ×Ａ×Ｓ→［０，１］はその変化確率Ｔ（ｑ，ａ，ｑ’）＝ｐ_ａ（ｑ’｜ｑ）をともなう状態変化関数を表す。Ωは可能なすべての観察の集合を表し、Ｚは観察関数Ｚ：Ｓ×Ａ×Ω→［０，１］を表す。ここでＰ（_Ｏｔ（ａ_ｔ）ｑ’）は測定確率である。報酬関数Ｒ：Ｓ×Ａ→Ｒは直接的報酬Ｒ_ａ（ｑ）を特定する。この直接的報酬は、状態ｑで活動ａを実行することから得られる。

最大の全報酬により特定される最善の活動シーケンスを見つけるために、価値反復アルゴリズムが、ＰＯＭＤＰを最適に解決するための本発明の実施形態により使用される。ベルマンの等式を強化学習問題に適用すると、本発明の実施形態により再帰的公式が得られる。

ただしＶ_１（ｂ）＝ｍａｘ_ａＲ_ａ（ｂ）である。これは活動および観察が反復ｔされた後に収集される、予測された将来の報酬と解釈することができる。ｂ’はｂ（ｑ’）に対する省略であり、γは後の活動にペナルティを与え、結果として最初の活動により重みを割り当てる割引率を表す。信頼空間にわたって積分するのを回避するために、この式は式（５）を使用することにより変換される。

コントロールポリシー

は状態についての確率分布を活動に対してマッピングする。離散的観察空間を仮定すると、積分は合計により置換することができる。

２）価値評価が実行される場合、多くの公知の研究で、活動‘ａ’に対する報酬Ｒａ（ｂ）は最初の価値関数により特定されるか、またはハイブリッドアプローチでオフラインモデルとオンラインモデルの結合により学習される。

大きなドメインでは、式（８）での価値関数のオフライン計算はコストが掛かりすぎる。本発明の実施形態によれば、高次元状態、活動および観察空間はスケールダウンされ、関連する報酬の迅速な決定を可能にする。

以下では、本発明の実施形態により提案された確率論的枠組みの基本概念が導入された後での、本発明の実施形態によるアクティブ型認識枠組みの実現を詳細に説明する。

とりわけ以下では、上に説明した基本概念がロボット工学のシナリオに適用される。ここでは使用されるモデルとは別に、パラメトリックな確率論的表現と、適用されるコントロールポリシーが論議される。

最初にモデル仕様（図２の観察モデルに相当する）が、本発明の実施形態によるロボット光学的シナリオに関して設定される。このモデル仕様は、本実施形態により４つのサブ仕様の４つのサブモデルに分割することができる。

１）状態モデル：オブジェクトモデル（Ｃ_１，．．．、Ｃ_ｃ）の集合は、ロボットにより検知されるすべての異なるオブジェクトクラスｃを含むオブジェクトデータベースＣを確定する。組ｑ＝（Ｃｉ、φ^Ｔ）^Ｔは、離散的クラス表現と連続的ｍ次元ポーズφ＝（φ_１，．．．，φ_ｍ）Ｔ、ただしφ∈Ｒｍを含むオブジェクト状態を記述する。

２）活動モデル：コントロール活動‘ａ’には複数の異なるタイプが存在する。本実施形態により設けられたアクティブ型認識シナリオで、視点変化は妥当であるとだけ考慮される。したがって本実施形態によれば、‘ａ’は、センサ位置の変更を要求するロボット作動命令の集合である。

３）シーンモデル：本実施形態によればシーンモデルは、配置されたすべてのオブジェクトの現在の状態を含む。ここで浮かび上がる閉塞問題は、将来の視界を決定するコンピュータグラフィックスのポイント指向法によってカバーされる。本実施形態によれば、状態の信用分布における各ピークはオブジェクト仮説と見なされる。予測されるすべてのフィーチャは、閉塞に対するボックスを結び付けるすべての仮説について、広く普及したｚバッファリングアルゴリズムを適用することによりチェックされる。閉塞が検知されると、このフィーチャが所属する仮説のガウス混合コンポーネントは、将来の測定アップデートステップで更新されない。しかし状態変化が本実施形態により適用される。

４）観察モデル：興味のあるポイント探知器を使用するために、現在の観察Ｏ_ｔ（ａ_ｔ）が本実施形態により、Ｎ個のフィーチャ‘ｆ’の集合として表現される。

フィーチャが多数の場合、Ｏ_ｔ（ａ_ｔ）を式（１０）による尤度分布Ｐ（Ｏ_ｔ（ａ_ｔ）｜ｑ’）に代入することは計算的にコストが掛かる。本実施形態によれば、すべてのフィーチャが条件付きで独立であると仮定される。したがって尤度分布を本実施形態により、単純なベイズの推定を適用することにより計算できる。

本実施形態による、世界状態を表現するための確率論的表現に関して、すべての単ピーク密度は不適切である。なぜならモデルの目的から、種々のオブジェクト仮説と多数のオブジェクトが同じ確率分布内にあるからである。したがって粒子分布およびガウス混合モデルのような選択肢が適切であるとして、本実施形態により使用される。とりわけ本実施形態によれば、多変量ガウス混合分布が使用される。これは高次元状態空間に適している。式（１９）は、これを正規分布上に重み付けされた和として表す。μ_ｋは平均ベクトル、Σ_ｋは分散行列である。ｗ_ｋはｋ番目のコンポーネントの重みを表す。

状態評価を考慮するとき（図２の状態評価２１２に相当する）、本実施形態によればガウス混合モデルが使用される。適切なベイズの方程式はすでに式（５）に示されている。ガウス確率密度分布の混合モデルを適切な確率計算規則に使用しなければならない。非特許文献１の計算規則は、混合コンポーネントの数を小さく抑えるために、コンポーネントごとにパラメトリックな乗算と縮小ストラテジーによって、混合分布を線形結合するものである。線形ガウス変換モデルによる積分は、非特許文献７による本実施形態により解決される。

コントロールポリシーの実現と実行に関して（図２のポリシーエンティティ２１４に相当する）、報酬モデルの定式化は通例、非常に重要な問題である。これがロボットの行動に大きな影響を与え、注意深い探索を必要とするからである。認識問題については通例、情報の品質が、状態空間に関する確率密度分布に緊密に関連する。本実施形態によれば、ベイズフィルタにおいて前の状態分布を新しい観察ターゲットにより、生じた後の確率密度における不確定性の低減に基づき更新することによって、コントロールポリシーが実行される。２つの信頼分布間の情報利得を決定するために、情報分布のエントロピーｈ_ｂ（ｑ）のような情報理論的測定が本実施形態により使用される。予測される情報利得

は、本実施形態によれば前のエントロピーと、将来の信頼の予測されるエントロピーとの差として表現される。コントロール活動‘ａ’の予測されるコストを、この信頼の達成のために加算すると、本実施形態により変形された報酬モデルが得られる。

ファクタαは、活動‘ａ’のコストと比較した情報の価値を表現する２つの項に関連する。

連続空間の要求は、多数の活動観察コンビネーションを必要とする。報酬のオフライン決定は、多様な可能性を先験的に考慮することができないので困難である。オンライン計算のために、多くのコンビネーションを除外することができる。しかしリアルタイムの制限を満たさなければならない。実際、観察は通例、信頼分布を大きく変化させ、現在の活動ポリシーを実現不可能にする。したがって１平面プランニングストラテジーが、考察されるシナリオに対してより効率的であり得る。このシナリオは、貪欲法を活動シーケンスの立案に、測定または観察が実行されるまで適用することによって達成することができる。

本実施形態によれば、反復プランニングアルゴリズムは、分布エントロピーの形態の所望の品質基準が達成されると終了する。

エントロピー近似を実行するとき、種々のエントロピーの計算は、所与の活動に対する予測的状態の評価と、その高速計算のための効率的方法を必要とする。ここでは次の計算が、本実施形態により実行される。

１）状態および観察予測：後の分布は、活動に続く測定または観察が、前の状態分布に与える影響を表現する。将来的活動‘ａ’に対する信頼分布ｂ（ｑ）を予測することが、コントロール活動の実行後に得られる観察または測定Ｏ_ｔ（ａ_ｔ）を評価するために必要である。観察事象の確率を

閾値と比較することにより、予測される観察または測定を導出することができ、後の評価を得るために現在の前の信頼と合体させることができる。閾値はあらかじめ定めた閾値とすることができる。

２）微分エントロピー連続確率分布の不確定性を測定するための情報理論的コンセプトが微分エントロピーである。

数値による計算であっても、パラメトリックな確率密度分布からのサンプリングによる計算であっても処理時間が問題であるから、上限評価による多変量ガウス混合密度の種々のエントロピーの近似

が状態不確定性の決定に使用される。Ｄは状態の次元を表し、｜Σ_ｋ｜はｋ次のコンポーネントの分散行列の行列式を表す。詳細については非特許文献１を参照されたい。

以下では仕様モデルとオブジェクト決定プロパティを含むテストセットアップについて説明する。２つの実験による例を示す。

実験のモデル仕様を考慮するとき、明快にするため二次元問題が想定される。実験例では、オブジェクトポーズ３次元のリアル状態空間Ｒ^３で記述される。ここで２次元は平行移動を表し、１次元が角度成分を表す。

実験例によれば、活動空間Ａが８つの異なるコントロール活動の数に設定される。ここで各活動は視点の変化に等しい。実験例で使用される視点はＶＰ１〜ＶＰ８であり、これらは図３ａに示されている。図３で視点はＶＰ１〜ＶＰ８は１．２ｍの半径に４５°のステップで円形に配置されている。

実験例による画像獲得のために、サービスロボットに取り付けられた立体カメラシステムが使用される。立体カメラシステムの各カメラは、グレースケール画像を１３８８×１０３８ピクセルの解像度でキャプチャするように構成されている。オブジェクト検出は、本実施形態によりＳＩＦＴフィーチャに基づく検出アルゴリズムによる実験に関連して実行される（非特許文献１４参照）。オフラインプロセスでは、各オブジェクトの３６の画像が１０゜の縦ステップで記録された。その結果、各オブジェクトに対して約３００００のフィーチャが獲得された。立体カメラシステムにより、オブジェクトの多数のフィーチャが検出されれば、非常に正確なポーズが決定される。実験に関連する本実施形態によれば、少数のフィーチャを備え、確率論的プロパティを検出アルゴリズムに加える弱オブジェクト仮説が明示的に取り扱われた。詳細には、オブジェクトクラス尤度が、シーンフィーチャと予測されるフィーチャとの関係から計算され、ポーズ共分散が、本実施形態により検出された多数のフィーチャから評価される。

図３ｂは、本発明の実施形態により配置された状態モデルのオブジェクトデータベースを示す。

使用されるオブジェクトデータベースは４つの異なるオブジェクト３１〜３４からなる。すなわちザウワークラウト缶３１、スープボックス３２，および２つのソルトボックス３３，３４である。図３ｂは、種々異なる視野からのデータベースオブジェクトを示す。明らかにソルトボックス３３，３４は、見た目が非常に類似している。ＳＩＦＴ検出器は興味点により動作し、色情報によっては動作しないから、曖昧さを取り除くのはいくつかの点で困難である。

上に、確率分布を表現するためにガウス混合を使用することを説明した。実験に関連する本実施形態によれば、最初の前が４つの混合コンポーネントによりモデル化され、それぞれのコンポーネントはファクタ０．２５の重みを有し、１つのオブジェクトクラスに所属する。共分散は、状態分布に関する最初の知識が欠けていることを表す一様分布に粗く近似するため、大きい。変化不確定性が、実験に関連する本実施形態により線形ガウスとして定義される。

ただしガウスカーネルは、コンポーネントの数と状態分布へ平均値において等しい。Δ（ａ）は、状態における変化を共分散Σ_ｋ（ａ）の活動の関数として示す。測定不確定性がフィーチャ尤度分布Ｐ（ｆ（ａ）｜ｑ’）に含まれている。この尤度分布は、ガウス混合分布をフィーチャの視覚フィールドに適合することによるトレーニングプロセスで獲得される。視覚容積は、オブジェクトビューとフィーチャスケールから導出される。

報酬モデルのコストを決定するために、実験に関連する本発明の実施形態によれば、ロボット可動性が円経路に制限され、運動角からコストが評価される。

第１の実験に関する実施形態では、位置決めプロセスが実行される。

図４ａから４ｃ、５ａから５ｃ、６ａから６ｃ、および７ａから７ｃは、シーケンスを形成または確立する活動を選択的にセンシングすることに基づく後の分布のシーケンスを示す。ここでシーケンスは、図４、図５、図６および図７により示されている。図４ａ、５ａ、６ａおよび７ａは、最初のシナリオ、シーケンスの相応する活動に対するプレゼント、および相応する活動に対して実行された観察を示す。図４ｂ、５ｂ、６ｂおよび７ｂは、相応する活動に対するｘｙ平面での信頼分布の輪郭を示す。ここで各輪郭は１つのオブジェクトクラスに所属する。図４ｃ、５ｃ、６ｃおよび７ｃは、各オブジェクトクラスに対して角度分布を別個に示す。図４ｃ、５ｃ、６ｃおよび７ｃのそれぞれには、青いソルト３４の分布が上列の左側に、スープボックス３２の分布が上列の右側に、ザウワークラウト缶３１の分布が下列の左側に、そして黄色いソルト３３の分布が下列の右側に示されている。

本実施形態によれば、第１の実験で図４ａに示すようなオブジェクト配置が使用された。ここでロボットにより探索すべき、または認識すべきシーンは、図３ｂのオブジェクトデータベースの３つのオブジェクト３１，３２，３４を有する。すべての活動に対する第１の後のエントロピーは類似している。なぜなら同形の前のエントロピーに近似するからである。図４ｂは、図３ｂのオブジェクトデータベースの４つすべてのオブジェクト３１〜３４の確率分布の輪郭を、角度に関して積分してｘｙ平面に示す。図４ｃは、他の次元にわたって積分された角度確率分布を表す。式（１４）によれば、活動コストは、第１のステップでの活動選択にだけ影響する。したがって第１の観察は、現在のシーンロケーションから、すなわち図３ａに示された第１の視点ＶＰ１により実行される。図５ａには、左カメラの獲得画像と、それの確率分布が示されている。図５ａおよび５ｃから分かるように、ザウワークラウト缶３１と青いソルトボックス３４は上手く検知されたが、スープボックス３２に対しては弱い仮説しか存在しない。なぜならスープボックス３２は強く閉塞されているからである。オブジェクトの曖昧さから、黄色いソルトボックス３３に対する仮説は、青いソルトからの１つに近接して表明されるが、比較的小さな確率質量を含む。図８の表は、次に実行すべき活動を決定するために使用された予測報酬Ｖ_１のリストを示す。とりわけ図８は、視点ＶＰ１とＶＰ２での評価のための式（１４）から報酬Ｖ_１を計算するための関連するコストと値を示す。ここで列８１は視点を示し、列８２は視点ＶＰ１での予測されるフィーチャ報酬を示す。さらに列８３は視点ＶＰ１での相応するコストを示し、列８４はＶＰ１値、列８５は視点ＶＰ１での報酬Ｖ_１を示す。さらに列８６は視点ＶＰ２での相応するコストを示し、列８７はＶＰ２値、列８８は視点ＶＰ２での報酬Ｖ_１を示す。

本実施形態によれば、現在の視点は選択プロセスで考慮されない。次のステップでロボットは第２の視点（図３ａに示されているように）に移動し、スープボックス３２の観察によって信頼分布を鮮明にする。この状況が図６ａ、６ｂおよび６ｃに示されている。次の決定はより困難である（図７ａ、７ｂ、７ｃ参照）。離れた第７の視点は（図３ａに示すように）、システム知識を増大させるのに最適のオプションであると思われる。一方、第４の視点ＶＰ４は（図３ａに示すように）コストバリュー関係が最適であるので選択された。早期に到達可能な第３の視点ＶＰ３は（図３ａに示すよう）、ソルトボックスの評価閉塞のため回避された。最後に、最後の測定が、状態空間から黄色いソルトボックス３３の仮説を評価する。これにより３つの現存するオブジェクト（ザウワークラウト缶３１、スープボックス３２および青いソルトボックス３４）がロボットにより配置される。

本発明の別の実施形態について実行された第２の実験は変更されたパラメータに相当する。この実験では、コストと利益の関係および閉塞検出の使用が同じシナリオ内で論議される。図３ａに示す第１の視点ＶＰ１から再び始まって、種々の活動プランが実行される。図９に示した表は、適合された相関係数α_ｎに依存して選択されたポリシーを比較する。閉塞を考慮しなければ、予測された情報利得が非常に大きいので実行された活動は２つの視点間で切り替わる。なぜなら隠されたオブジェクトも状態予測で判断されるからである。しかしアルゴリズムまたは方法はこの場合、２つの仮説だけを含む状態空間により終了する。とりわけ図９の表には、新たな相関係数α_ｎと以前の相関係数αとの関係の変化が示されている。図９で列９１は種々のα_ｎを、列９２は閉塞検出を、列９３は閉塞を考慮しない場合を示す。

本発明は、ＰＯＭＤＰとして実現されるシーケンシャルな決定コンポーネントを、ロボット工学リアルワールド適用のためのアクティブ型認識モデルに組み込むことを提案する。提案されたアプローチは確率論的枠組みに完全に埋め込まれ、パラメトリックな表現の当然の使用のため連続的かつ高次元のドメインに適している。上記の実施形態によれば、単純なｚバッファリング法が閉塞問題を解決するために使用された。本発明の別の実施形態によれば、閉塞が確率論的に表現される。これはより適切で、全部の確率論的アプローチに適する。本発明の別の実施形態によれば、リアルワールドシナリオへの適応性についての改善が、コントロールポリシーのタスク依存パラメータαの自動学習または適合によって達成される。

上記の観点で、本発明の以下のアブストラクトを提供することができる。

シーン認識のためのアクティブ型認識モデルでは、状態空間についての確率分布における情報利得によって観察の効用が決定される。目的は、システム知識を低いリソースコストで最大にする活動シーケンスを見つけることである。最新のアプローチは、コストを無視したペイオフの決定の最適化、または単純な報酬モデルのための洗練されたプランニングストラテジーの開発に注力する。

本発明によれば、確率論的枠組みが提案される。この確率論的枠組みは、連続的かつ高次元のドメインにおけるモデルと状態不確定性の下で連続的な決定へのアプローチを提供する。部分的観察マルコフ決定過程（ＰＯＭＤＰ）として実現される確率論的プランナーは、確率分布の情報理論的基準とコントロール活動コストの両方を考慮することにより推論する。

実験的設定では自立的サービスロボットが、複雑なマルチオブジェクトシナリオでの効率的なオブジェクト認識のためにアクティブ型認識技術を使用し、オブジェクト閉塞の困難性に立ち向かう。リアルタイムな適応性への要求が高いから、確率分布がガウス混合によって表現され、高速な数値計算を可能にする。

本発明はＰＯＭＤＰを使用し、ＰＯＭＤＰを活動のプランニングのために拡張する。可能な未来または将来的活動の利益を決定するために、評価された不確定性が活動のシミュレーションの後に決定され、例えばエントロピーのような情報理論的測定により評価される。活動のコストは、活動の可能性および実行に対するコストまたは活動の実行からなる。パラメータの使用によってファクタの品質基準の関係性が設定される。測定の不正確性および／または活動のパフォーマンスまたは実行から生じる不確定性が、ガウス混合によって表現される。

本発明によれば、高次元確率分布の評価をガウス混合として適用し、他の確率分布から生じるファクタの種々の品質基準を比較することが使用される。

このようにして本発明は、必要なリソースを低減し、高速で効率的な方法を提供し、活動の結果、測定または観察を予測するための現在の知識を使用することによって活動を効果的かつ効率的にプラニングすることができる。

したがって本発明は決定メカニズムまたは決定コンポーネントに関連するものであり、この決定メカニズムまたは決定コンポーネントは、ロボットの少なくとも１つの将来的活動を複数の活動から、
・前の環境状態の前の確率論的表現を計算し、
・前記少なくとも１つの将来的活動が適用された後に、達成すべき後の環境状態の後の確率論的表現における少なくとも１つの不確定性を低減する新たな観察を目的として、前記前の確率論的表現を更新し、
ただし前記後の確率論的表現は前記更新から生じた確率論的表現であり、
・前記前の確率論的表現と前記後の確率論的表現との間の情報利得を、少なくとも１つの情報理論的測定を使用して決定し、
・前記少なくとも１つの将来的活動を、当該少なくとも１つの将来的活動の実行コストを前記情報利得に加算することにより評価することによって決定するように構成されている。本発明は、ロボットのための改善された活動プランニングを提供し、ロボットの活動のためにシーンまたは環境の探索を実行および／または要求する種々異なるロボットに実現することができる。

本発明の実施形態および適用例が上に示され、説明されたが、当業者であれば（上記よりも）さらに多くの変形実施形他が、前記本発明のコンセプトから逸脱することなく可能である。したがって本発明は、従属請求項の構成にのみ限定されるものではない。したがって前述した詳細な説明は例示と見なすべきで限定を意図したものではない。

Claims

ロボット（１１）にシーンを自立的に探索させ、かつ、前記ロボット（１１）の少なくとも１つの将来的活動（ａ）を、前記ロボット（１１）の複数の活動（ａ）から、次のステップを用いて決定するための、コンピュータに実行させるアクティブ型認識プログラム（２１）であって、
・前の環境状態（ｑ）の前の確率論的表現を計算（２１２）するステップと、
・前記少なくとも１つの将来的活動（ａ）が適用された後に、達成すべき後の環境状態（ｑ’）の後の確率論的表現における少なくとも１つの不確定性を低減することについての新たな観察（Ｏ）を目的として、前記前の確率論的表現を更新（２１２）するステップと、
ただし前記後の確率論的表現は前記更新（２１２）から生じた確率論的表現であり、
・前記前の確率論的表現と前記後の確率論的表現との間の情報利得を、少なくとも１つの情報理論的測定を使用して決定（２１４）するステップと、そして
・前記少なくとも１つの将来的活動（ａ）を、当該少なくとも１つの将来的活動（ａ）の実行コストを前記情報利得に加算することにより評価するステップと、
ただし、前記少なくとも１つの将来的活動（ａ）を評価するステップは、実行期間において前記少なくとも１つの将来的活動の実行コストを評価し、当該実行期間の終わりにおいて前記情報利得を評価するステップを含む、
の各ステップをコンピュータに実行させるためのアクティブ型認識プログラム（２１）。
前記少なくとも１つの将来的活動（ａ）は、前記ロボット（１１）のセンサの位置変更を要求するロボット操作命令である請求項１記載のプログラム。
前記プログラムは、前記ロボット（１１）の将来的活動（ａ）のシーケンスを評価するように構成されている請求項１または２に記載のプログラム。
前記少なくとも１つの不確定性は、
・前記少なくとも1つの将来的活動（ａ）を適用することにより、時間的に前の環境状態（ｑ）から前記時間的に後の環境状態（ｑ’）に達する際に発生する状態変化不確定性、および／または
・前記時間的に後の環境状態（ｑ’）で実行される測定を妨害する測定ノイズである請求項１から３までのいずれか１項に記載のプログラム。
前記プログラムは、前記更新（２１）をベイズフィルタで実行するように構成されている請求項１から４までのいずれか１項に記載のプログラム。
前記少なくとも１つの情報理論的測定は、確率論的表現に基づくエントロピーである請求項１から５までのいずれか１項に記載のプログラム。
前記決定（２１４）は、前記前の確率論的表現の前のエントロピーと、前記後の確率論的表現の予測されるエントロピーとの間の差を決定することを含む請求項１から６までのいずれか１項に記載のプログラム。
前記更新（２１２）は、前記少なくとも１つの将来的活動を実行した後に得られる新たな観察の評価を含む請求項１から７までのいずれか１項に記載のプログラム。
前記更新（２１２）は、前記評価を使用することによって、前記少なくとも１つの将来的活動（ａ）に対する前記後の環境状態（ｑ’）の前記後の確率論的表現の予測を含む請求項８記載のプログラム。
前記前の確率論的表現と前記後の確率論的表現は、多変量ガウス混合分布である請求項１から９までのいずれか１項に記載のプログラム。
前記少なくとも１つの不確定性は、前記後の確率論的表現の微分エントロピーを上限評価によって近似することにより決定される状態不確定性である請求項１から１０までのいずれか１項に記載のプログラム。
前記プログラムは、前記少なくとも１つの将来的活動（ａ）の実行後に前記情報利得が最大であり、かつ前記少なくとも１つの将来的活動（ａ）の実行コストと前記不確定性が低減される場合に、前記少なくとも１つの将来的活動（ａ）を決定するように構成されている請求項１から１１までのいずれか１項に記載のプログラム。
前記プログラムは、所望の品質基準に達した場合、前記決定を終了するように構成されている請求項１から１２までのいずれか１項に記載のプログラム。
前記所望の品質基準は、少なくとも１つの分布エントロピーの形態で提供される請求項１３記載のプログラム。
前記前の確率論的表現と前記後の確率論的表現は、ＰＯＭＤＰコンセプトを使用することにより特定されるモデル（２１１）の使用によって計算される請求項１から１４までのいずれか１項に記載のプログラム。
前記前の環境状態（ｑ）と前記後の環境状態（ｑ’）は少なくとも１つのオブジェクト（３１，３２，３３，３４）の状態を記述し、
前記少なくとも１つのオブジェクト（３１，３２，３３，３４）は、当該少なくとも１つのオブジェクト（３１，３２，３３，３４）のクラスの離散的クラス表現と、当該少なくとも１つのオブジェクト（３１，３２，３３，３４）の連続的なｍ次元ポーズを含む請求項１から１５までのいずれか１項に記載のプログラム。
前記前の環境状態（ｑ）と前記後の環境状態（ｑ’）は、シーンに配置された少なくとも１つのオブジェクト（３１，３２，３３，３４）を含む当該シーンの状態を参照し、前記状態における前記少なくとも１つのオブジェクト（３１，３２，３３，３４）のフィーチャの視認性を決定する請求項１から１６までのいずれか１項に記載のプログラム。
前記新たな観察は、シーンの少なくとも１つのオブジェクト（３１，３２，３３，３４）のフィーチャ集合を求めることである請求項１から１７までのいずれか１項に記載のプログラム。
動作のために、請求項１から１８までのいずれか１項に記載のプログラムが実行される、ロボット（１１）。
シーンの画像取得のための立体カメラシステムを有する、請求項１９に記載のロボット（１１）。
サービスロボットである、請求項１９または２０に記載のロボット（１１）。