JP5183665B2 - ロボットの少なくとも1つの将来的活動を決定する決定メカニズム、方法、モジュールおよび決定するように構成されたロボット - Google Patents

ロボットの少なくとも1つの将来的活動を決定する決定メカニズム、方法、モジュールおよび決定するように構成されたロボット Download PDF

Info

Publication number
JP5183665B2
JP5183665B2 JP2010087108A JP2010087108A JP5183665B2 JP 5183665 B2 JP5183665 B2 JP 5183665B2 JP 2010087108 A JP2010087108 A JP 2010087108A JP 2010087108 A JP2010087108 A JP 2010087108A JP 5183665 B2 JP5183665 B2 JP 5183665B2
Authority
JP
Japan
Prior art keywords
robot
program
activity
state
probabilistic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010087108A
Other languages
English (en)
Other versions
JP2010244549A (ja
JP2010244549A5 (ja
Inventor
アイデンベルガー ローベルト
グルントマン ティロ
ダニエル ツェルナー ラウル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of JP2010244549A publication Critical patent/JP2010244549A/ja
Publication of JP2010244549A5 publication Critical patent/JP2010244549A5/ja
Application granted granted Critical
Publication of JP5183665B2 publication Critical patent/JP5183665B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)
  • Image Analysis (AREA)

Description

本発明は、ロボットの少なくとも1つの将来的活動を、当該ロボットの複数の活動から決定することに関する。とりわけ本発明は、決定メカニズムまたは決定を実行するように構成されたコンポーネント、決定を実行するように構成された方法、決定を実現し、実行するアクティブ型認識モジュール、および決定を実現し、実行するロボットに関する。
日常環境に適合することのできるロボットでは、このロボットが例えば劣悪な照明、反射、または閉塞のような困難な環境条件の下でも対象物を位置特定できることが必要である。対象物の分類および位置特定は、単一の測定からでは達成することができないことがしばしばであるから、この問題を克服し、ロボットによる自立的なシーン認識を可能にするためには、能動的なストラテジーが必要である。
シーンまたはロボットの環境において得られる対象物の知識は、ロボットがさらなるタスクまたは活動、例えば対象物の把持または対象物に関するさらなる活動を実行するための重要な前提条件であることがしばしばである。
現在のアクティブ型視覚システムの多くは、次善の視覚計画のための情報理論的品質測定に注目しているが、確率論的計画ストラテジーをフォローしていない。文献にはアクティブ型認識のための多くのアプローチがある。非特許文献1には、不確定性低減に基づくアクティブ型選択に注目したいくつかの研究がリストアップされている。非特許文献2における最近の研究は、3Dカメラトラッキングのためのアクティブ型フィーチャマッチングを取り扱っている。非特許文献3には、視覚的探索のための意欲的なアプローチが記載されている。このアプローチは、先行の知識に基づくコンテクスト情報を含む対象物決定のための外観計画に注目している。
部分的観察マルコフ決定過程(POMDP)は、不確定下でのプランニングのための一般的モデルである。POMDPは、最適の活動ポリシーを発見するためのコントロール活動に対するコストを推定する。本発明では、連続的な確率論的ドメインが考察される。したがって以下で状態について考察するとき、連続的状態空間を取り扱う公知の研究に注目する。
非特許文献4で、連続ドメインはグリッドにより近似される。結果としての離散的問題のため、高次の状態空間では計算複雑性が著しく増大する。ここで粗サンプリングは複雑性を低減するが、精度が低下する。
いくつかの公知のアプローチは、連続ドメインを直接考察する。非特許文献5、6に記載された研究では、可能なすべての状況がオフラインプロセスで評価される。したがって実行のために最善の活動が最初に特定される。非特許文献7ではこのアイデアが、連続的活動空間および観察に適用されることによって拡張される。しかしこれら公知のすべてのアプローチまたは研究は、必要で広範な前処理を実行可能に維持するために小さなドメインに制限されている。多くのアプローチでは活動値が状況に大きく依存するから、活動値を実行の前に決定することができない。オンラインプランニングアルゴリズムまたはPOMDPのための方法の概要が非特許文献8に記載されている。公知の研究の多くは、粗いオフラインポリシーをオンラインストラテジーの結果により改善することによってリアルタイムの制限をフォローしている。したがって分枝限定法、モンテカルロサンプリング、または発見的探索のような方法が必要である。しかしこのような方法は、達成可能な関連状態の数を制限する(例えば非特許文献9参照)。非特許文献10では、発見的検索アルゴリズムまたは方法への決定論的フォワードが確率論的プランニングのために使用されている。公知のルックアヘッド探索法の多くは、活動または観察空間を最適化することによって、または最重要活動および観察への探索を指向することによって複雑性を低減する。
アクティブ型センシングに密接に関連する公知のアプローチは、もっとも有望な活動を発見するためにセンシングコストを評価するPOMDPを使用する。非特許文献11には、分類目的に関して最適の決定を行うための枠組みが提案されている。このアイデアは、自走型ローバーによる岩石分類に適用される。付加的情報を収集するためのコストは、分類ミスのペナルティに対して釣合いが取られている。非特許文献12では、POMDPがコストに敏感なフィーチャの獲得と分類に使用される。ロボットに対して選択された活動の予期される報酬は、現在の信用状態に関する分類コストから計算される。反対に非特許文献13では、プランニングストラテジーを、情報理論的不確定性測定からの結果とコストとを結び付けることにより拡張することが提案されている。
R. Eidenberger, T. Grundmann, W. Feiten, and R. Zoellner, "Fast parametric viewpoint estimation for active object detection," in Proceedings of the IEEE International Conference on Multisensor Fusion and Integration for Intelligent Systems, 2008. M. Chli and A. J. Davison, "Active matching," in European Conference on Computer Vision, 2008. J. Vogel and N. de Freitas, "Target-directed attention: sequential decision-making for gaze planning," in International Conference on Robotics and Automation, 2008. N. Roy, G. Gordon, and S. Thrun, "Finding approximate pomdp solutions through belief compression," Journal of Artificial Intelligence Research, vol. 23, pp. 1-40, 2005. M. Duff, "Optimal learning: Computational procedures for bayesadaptive markov decision processes," Ph.D. dissertation, Massassachusetts Amherst, 2002. J. M. Porta, M. T. J. Spaan, and N. Vlassis, "Robot planning in partially observable continuous domains," Robotics: Science and Systems, p. 217224, 2005. J. M. Porta, N. Vlassis, M. T. Spaan, and P. Poupart, "Point-based value iteration for continuous pomdps," Journal of Machine Learning Research, vol. 7, pp. 2329-2367, 2006. S. Ross, J. Pineau, S. Paquet, and B. Chaibdraa, "Online planning algorithms for pomdps," Journal of Artificial Intelligence Research, vol. 32, pp. 663-704, 2008. S. Paquet, B. Chaib-draa, and S. Ross, "Hybrid pomdp algorithms," in Workshop on Multi-Agent Sequential Decision Making in Uncertain Domains, 2006, pp. 133-147. S. Yoon, A. Fern, R. Givan, and S. Kambhampati, "Probabilistic planning via determinization in hindsight," in AAAI Conference on Artificial Intelligence, 2008. A. Guo, "Decision-theoretic active sensing for autonomous agents," in Proceedings of the 2nd International Joint Conference on Autonomous Agents and Multi-Agent Systems, 2003. S. Ji and L. Carin, "Cost-sensitive feature acquisition and classification," Pattern Recognition, vol. 40, pp. 1474-1485, 2007. M. T. J. Spaan, "Cooperative active perception using POMDPs," in AAAI 2008 Workshop on Advancements in POMDP Solvers, 2008. D. G. Lowe, "Object recognition from local scale-invariant features," in International Conference on Computer Vision, 1999, pp. 1150-1157.
本発明の課題は、ロボットによるシーンの自立的探索のための方法を改善することである。
この課題は、請求項1による構成を有する決定メカニズムにより、請求項22による構成を有する方法により、請求項23による構成を有するアクティブ型認識モジュールにより、および/または請求項25による構成を有するロボットにより解決される。
本発明のさらなる実施形態は、相応する従属請求項に記載されている。
本発明の課題は決定メカニズムにより解決される。この決定メカニズムはロボットの少なくとも1つの将来的活動を、前記ロボットの複数の活動から、
・前の環境状態の前の確率論的表現を計算し、
・前記少なくとも1つの将来的活動が適用された後に、達成すべき後の環境状態の後の確率論的表現における少なくとも1つの不確定性を低減する新たな観察(または測定)を目的として、前記前の確率論的表現を更新し、
ただし前記後の確率論的表現は前記更新から生じた確率論的表現であり、
・前記前の確率論的表現と前記後の確率論的表現との間の情報利得を、少なくとも1つの情報理論的測定を使用して決定し、そして
・前記少なくとも1つの将来的活動を、当該少なくとも1つの将来的活動の実行コストを前記情報利得に加算することにより評価することによって決定するように構成されている。
このようにしてロボットによるシーン認識の自立的アプローチのための能動的ストラテジーが提供される。本発明を使用することによって観察または測定シーケンスが融合され、特別活動の代価におけるセンシング結果が改善される。本発明はプランニングストラテジーを提供する。このプランニングストラテジーは、さらなる測定の予想される利益を、包含されたセンシングおよび活動コストと対比する。さらに本発明による方法は、不正確なセンシングプロセスから生じる不確定性、および対処しなければならない真の連続ドメインにおけるシステムダイナミクスから生じる不確定性を考慮する。したがって本発明は、劣悪な照明、反射、または閉塞のような困難な環境条件の下でも対象物を位置特定することができる。本発明によれば将来的活動を、シーン、対象物および/または環境の認識と自立的探索に指向させることができる。
本発明は、高次元状態空間における活動の高速で効率的なプランニングの方法を提供する。このことは品質の複数の基準を、評価の複数の不確定性を考慮して比較することによって行われる。
少なくとも1つの将来的活動の決定は、決定メカニズムに含まれる少なくとも1つの相応の構成モジュールによって実行される。下に説明するように本発明の実施形態によれば、時間的に前の確率論的表現の計算と前記更新が状態評価モジュールによって実行される。また前記決定と前記評価は、決定メカニズムに含まれる(コントロール)ポリシーモジュールによって実行される。
ここで本発明により、ロボットの少なくとも1つの将来的活動を当該ロボットの複数の活動から決定する決定メカニズム内に、複数のモジュールを構成することができる。この複数のモジュールは、本発明による決定メカニズムの活動を実行するように構成されている。さらに本発明は、このようなモジュールの特定の構成に限定されるものではない。さらにモジュールは、例えばハードウエアモジュールおよび/またはソフトウエアモジュールである。
本発明の実施形態によれば、前記少なくとも1つの将来的活動は、前記ロボットにより実行される活動である。
本発明のさらなる実施形態によれば、前記少なくとも1つの将来的活動は、前記ロボットのセンサの位置変更を要求するロボット操作命令である。したがって本発明では、ロボットによるシーン探索が、複数の位置および複数の視点からの調査を可能にする活動の決定により行われる。
本発明の実施形態によれば、前記決定メカニズムは、前記ロボットの将来的活動のシーケンスを評価するように構成されている。このようにして、ロボットにより実行すべき将来的活動を包括的にプランニングすることができる。
本発明の実施形態によれば、前記少なくとも1つの不確定性は以下を含む。
・前記少なくとも1つの将来的活動を適用することにより、時間的に前の環境状態から前記時間的に後の環境状態に達する際に発生する状態変化不確定性、
および/または
・前記時間的に後の環境状態で実行される測定を妨害する測定ノイズ。
したがってロボットにより実行される活動に関する複数の不確定性を、本発明により考慮することができる。
本発明の実施形態によれば前記決定メカニズムは、ベイズフィルタの前記更新を実行するように構成されている。
本発明の実施形態によれば、前記少なくとも1つの情報理論的測定は確率論的表現におけるエントロピーである。エントロピーは情報理論的概念であり、システム、状況、またはシーンが存在するが、その正確な記述が正確には既知でない場合に適用される。エントロピーは、システム、状況、またはシーンを知るときにこれらの状態を正確に特定するために必要な情報の予測量として定義される。一般的にエントロピーは、(所定の状態で)失われた情報の測定量を表す。したがって情報理論測定としてエントロピーを使用することにより、ロボットが考慮すべきであり、詳細には未だ既知でないフィーチャを特定する手段が提供される。
本発明の実施形態によれば、前記決定は、前記前の確率論的表現の前のエントロピーと、前記後の確率論的表現の予測されるエントロピーとの間の差を決定することを含む。
本発明の実施形態によれば、前記更新は、前記少なくとも1つの将来的活動を実行した後に得られるであろう新たな観察または測定の評価を含む。したがって本発明により、活動を決定するときにこの活動の可能な効果を考慮することができる。
本発明の実施形態によれば、前記更新は前記評価を使用することによって、前記少なくとも1つの将来的活動に対する前記後の環境状態の前記後の確率論的表現の予測を含む。
本発明の実施形態によれば、前記前の確率論的表現と前記後の確率論的表現は多変量ガウス混合分布である。このようにして本発明により、同じ確率分布内で種々の仮説を考慮することができる。
本発明の実施形態によれば、前記少なくとも1つの不確定性は、前記後の確率論的表現の微分エントロピーを上限評価によって近似することにより決定される状態不確定性である。ここで本発明の実施形態によれば、前記後の確率論的表現は多変量ガウス混合分布であってよい。
本発明の実施形態によれば、前記決定メカニズムは、前記少なくとも1つの将来的活動の実行後に前記情報利得が最大であり、かつ前記少なくとも1つの将来的活動の実行コストと前記不確定性が低減される場合に、前記少なくとも1つの将来的活動を決定するように構成されている。
したがって本発明の方法は一般的に、新たな測定とコントロール活動コストから集められた情報利得を対照する概念をフォローする。
本発明の実施形態によれば、前記決定メカニズムは、所望の品質基準に達した場合、前記決定を終了するように構成されている。所望の品質基準は、あらかじめ定めた品質基準とすることができる。したがって本発明により、所定の状況で要求される品質度を提供することによって活動をフレキシブルに決定することができる。
本発明の実施形態によれば、前記所望の品質基準は、少なくとも1つの分布エントロピーの形態で提供される。したがって要求される品質度を、許容可能な失われた情報量を特定する測定によって定義することができる。
本発明の実施形態によれば、前記前の確率論的表現と前記後の確率論的表現は、POMDPコンセプトを使用することにより特定されるモデルの使用によって計算される。したがって本発明は、成功するオブジェクト決定のための最適活動ポリシーを、部分的観察マルコフ決定過程(POMDP)の形態の状態評価のための統計的枠組みによって発見するという解決手段を提案する。
本発明の実施形態によれば、前記前の環境状態と前記後の環境状態は少なくとも1つのオブジェクトの状態を記述する。ここで前記少なくとも1つのオブジェクトは、当該少なくとも1つのオブジェクトのクラスの離散的クラス表現と、当該少なくとも1つのオブジェクトの連続的m次元ポーズを含む。したがってPOMDPコンセプトにより要求されるような状態モデルが提供される。この状態モデルを使用することにより、少なくとも1つのオブジェクトの状態を包括的に考慮することができる。とりわけこの考慮は、環境状態の確率論的表現、不確定性および/または情報理論測定を使用して実行される。
本発明の実施形態によれば、前記前の環境状態と前記後の環境状態は、シーンに配置された少なくとも1つのオブジェクトを含む当該シーンの状態を参照し、前記状態における前記少なくとも1つのオブジェクトのフィーチャの視認性を決定する。このようしてシーンモデルが本発明により提供される。この状態モデルを使用することにより、シーンが本発明により包括的に考慮される。とりわけこの考慮は、環境状態の確率論的表現、不確定性および/または情報理論測定を使用して実行される。
本発明の実施形態によれば、前記新たな観察は、シーンの少なくとも1つのオブジェクトのフィーチャ集合を求めることであると表現される。したがってPOMDPコンセプトにより要求されるような観察モデルが提供される。とりわけこの観察は、環境状態の確率論的表現、不確定性および/または情報理論測定を使用することにより考慮される。
本発明の実施形態によれば前記決定メカニズムは、前記ロボットに実現される。
本発明の実施形態によれば、前記決定メカニズムは前記ロボットのアクティブ型認識モジュールに実現され、該アクティブ型認識モジュールはシーンを自立的に探索するように構成されている。
本発明の課題は本発明の方法により解決される。この方法は、ロボットの少なくとも1つの将来的活動を、前記ロボットの複数の活動から、
・前の環境状態の前の確率論的表現を計算し、
・前記少なくとも1つの将来的活動が適用された後に、達成すべき後の環境状態の後の確率論的表現における少なくとも1つの不確定性を低減する新たな観察(または測定)を目的にして前記前の確率論的表現を更新し、
ただし前記後の確率論的表現は前記更新から生じた確率論的表現であり、
・前記前の確率論的表現と前記後の確率論的表現との間の情報利得を、少なくとも1つの情報理論的測定を使用して決定し、
・前記少なくとも1つの将来的活動を、当該少なくとも1つの将来的活動の実行コストを前記情報利得に加算することにより評価することによって決定するように構成されている。
本発明の実施形態によれば、前記方法は上に概略を示し、以下で詳細に説明する決定メカニズムによって実行される。とりわけこの方法は、決定メカニズムの活動をステップとして、または方法のアクティビティとして実行するように構成されている。
本発明の課題は、上記方法を実現および/または実施するように構成されたコードを含むコンピュータプログラム製品によっても解決される。
本発明の実施形態によれば、このコードはデータ担体に埋め込まれている。本発明のさらなる実施形態によれば、コンピュータプログラム製品は、このコンピュータプログラム製品がプロセッサのような処理ユニットにより実行されるときに、前記方法を実行するように構成されている。
さらに本発明の課題は、前記コンピュータプログラム製品を含むデータ担体により解決される。
本発明の課題はアクティブ型認識モジュールによっても解決される。このアクティブ型認識モジュールは自立的にシーンを探索するように構成されており、上に概略を示し、以下で詳細に説明する決定メカニズムを有する。
本発明の実施形態によれば前記アクティブ型認識モジュールは、前記ロボットに実現される。
さらに本発明の課題はロボットにより解決される。このロボットはシーンを自立的に探索するように構成されており、以下の構成の1つを有する。
・上に概略を示し、以下に詳細に説明する決定メカニズム、または
・上に概略を示し、以下に詳細に説明するアクティブ型認識モジュール。
したがって本発明は、ロボットによるシーンの自立的探索のための改善された方法を提供することである。とりわけ本発明により、シーンの自立的探索に必要な活動が決定され、シーンの自立的探索が高速かつ効率的にサポートされる。
さらに本発明を使用することにより、上に例として示した公知の方法の欠点または不利益を克服することができる。
本発明は、添付図面に関連した以下の本発明の有利な実施形態の説明からより明確に理解されよう。
マルチオブジェクトシナリオで操作するサービスロボットを示す概略図である。ここでは検出され、位置特定されたオブジェクト(缶詰)が、ロボットによりシーン認識された後に把持される。このサービスロボットは、本発明を実行するように構成することができる。 本発明の実施形態で使用されるアクティブ型認識の枠組みを示す図である。 本発明の実施形態による活動空間を示す図である。 本発明の実施形態による状態モデルのオブジェクトデータベースを示す図である。 本発明の実施形態により実行された実験の結果を示す図である。 本発明の実施形態により実行された実験の結果を示す図である。 本発明の実施形態により実行された実験の結果を示す図である。 本発明の実施形態により実行された実験の結果を示す図である。 本発明の実施形態により実行された実験の結果を示す図である。 本発明の実施形態により実行された実験の結果を示す図である。 本発明の実施形態により実行された実験の結果を示す図である。 本発明の実施形態により実行された実験の結果を示す図である。 本発明の実施形態により実行された実験の結果を示す図である。 本発明の実施形態により実行された実験の結果を示す図である。 本発明の実施形態により実行された実験の結果を示す図である。 本発明の実施形態により実行された実験の結果を示す図である。 本発明の実施形態により実行された実験の結果を示す図である。 本発明の別の実施形態により実行された別の実験の結果を示す図である。
一般的に本発明は、シーンを自立的に探索し、オブジェクトの把持のような操作タスクを実行するように構成されたサービスロボットに関する。図1に例として示されたロボットは、図示の複雑なシナリオで操作する。図1のロボットは、テーブルの上に配置された複数のオブジェクト12_1、12_2、12_3、12_4、12_5を備えるシーンを探索し、オブジェクトを把持する。またはシーンを探索し、オブジェクト12_1、12_2、12_3、12_4、12_5を認識した後に少なくとも1つのオブジェクト12_1を把持する。
このサービスロボットは、本発明を使用することにより活動を決定するように構成されている。とりわけロボット1により実行すべき活動が決定される。したがってこの活動は、ロボットによるシーンの自立的探索を指向することができる。すなわちロボットはこれらの活動を使用して、複数のオブジェクト12_1,12_2,12_3,12_4,12_5を備えるシーン(ここではテーブル)の探索をより良く、または完璧に実行する。
以下ではまず、本発明の実施形態により、本発明で使用される基本的な確率論的枠組みについて紹介する。基本的な確率論的枠組みの以下の説明から状態評価プロセスの外観が明らかとなる。この状態評価プロセスは、本発明の実施形態によりPOMDPコンセプトと関連して適用され、本発明の実施形態でも使用される。
図2は、本発明の実施形態で使用されるアクティブ型認識の枠組みを示す図である。とりわけ図2は、本発明の実施形態による提案された確率論的枠組みの基本概念を示す。
一方の側に本発明の実施形態によるアクティブ型認識モジュール21が設けられている。アクティブ型認識モジュール21では、シーンのさらなる探索または認識のための活動が選択され、ここでシーンの探索または認識が実行される。図2の他方の側には、少なくとも1つのオブジェクトを備える環境またはロボットおよび/またはシーンに関するリアルワールド22が示されている。リアルワールド22では、変化とダイナミクス221がロボットにより実行される。とりわけ変化とダイナミクス221は、ロボットによりアクティブ型認識モジュール21で選択された活動‘a’の実行により発生する。図2のボックス221は、ロボットにより選択された活動‘a’の実行を表す。選択された活動‘a’の実行により、現在の状態または前の状態qから新たな状態または後の状態q’への変化が生じる。
本発明の実施形態によるアクティブ型認識状況では、アクティブ型認識モジュール21において、ロボットのコントロール活動a∈Aを選択し、特定のゴール213(例えば所定の状況の探索または認識)に達することが目的である。
そこには広範囲の種々異なる活動a∈Aが与えられている。これらの活動は、ズーミングのようなセンサパラメータ選択またはロボット始動に大きく依存している。本発明の実施形態による決定は、実行される活動のコストと、予測される信用b(q)からの報酬に基づく。予測される信用とは、状態qに関する暫定的な確率分布を意味する。状態評価212は、観察Oを組み込むことにより初期分布を更新することで、この信用分布を決定する。最適の活動ポリシーΠを発見するために、将来的活動および観察のシーケンスを決定メカニズムまたは(例えば図2のアクティブ型認識モジュール21内にある)コンポーネントにより評価しなければならない。
図2の観察モデルエンティティ211で、ロボットの真の観察または測定が管理される。ここで観察または測定Oは、この観察または測定Oの不確定性を評価することにより記述される。観察Oは、本発明の実施形態によればシーンに含まれるオブジェクトに関する確率分布、このオブジェクトの決定または認識されたフィーチャの集合、および/またはこのシーンの各オブジェクトの位置評価を表す。不確定性は、観察または測定Oの失敗値を表す。すなわち、ロボットの観察または測定Oが実際の状況から逸脱する場合の値を表す。
次にロボットの観察または測定Oに関する情報が状態評価エンティティ212に供給され、ここで認識または探索すべきシーンに関するロボットの現在の知識が観察Oにより更新される。次に新たな知識b’がポリシーエンティティ214に供給される。次にポリシーエンティティ214はこの新たな知識b’を心に留めることで使用し、ゴール213が新たな活動‘a’を決定する。この新たな活動は、シーンのさらなる探索または認識を実行するためにロボットにより実行される。
以下、本発明の実施形態で使用されるアクティブ型認識の枠組みについて説明するときに、状態評価のためのベイズの統計的枠組みと、不確定性の下でのアクティブプランニングのための部分的観察マルコフ決定過程を詳細に示す。
状態評価212のために、ベイズの状態評価器が本発明の実施形態により使用される。ダイナミック環境のためのシステムプロパティは本発明の実施形態により以下の方程式をフォローする。
Figure 0005183665
表記を明確にするため、指数tはタイムスタンプを表す。このタイムスタンプtは、前の1つの活動観察が状態更新に取り入れられる期間をカバーする。しばしばロボットシステム状態qは、コントロール活動‘a’のすぐ後に置くことができず、測定の後にだけ置くことができる。したがってアポストロフィ’は、活動効果による状態変化を表す。
式(1)と(2)は観察モデル211で、観察および現在の知識、および/またはロボットにより探索し認識すべき状況に関するロボットの仮説を記述するために使用される。
式(1)は、以前の状態qおよび適用された活動aの関数として、フューチャまたは後の状態q’に達することを表す。このシステムダイナミクスは状態変化不確定性εを基礎とする。単一の観察を解釈する場合、オブジェクトクラスおよびオブジェクト状態を不十分な測定データから類推または認識しなければならないことがしばしばである。これらの不確定性は、不正確なセンシングデバイス、非力な分類器、閉塞、貧弱な照明、オブジェクトモデルの曖昧さから生じることがある。
本発明の実施形態によれば、状態に関する確率分布
Figure 0005183665
が、以前のセンサ測定または観察Ot−1(at−1)、...O(a)に対する優先的信用として考慮される。活動‘a’を、εを含むその状態変化確率pa(q’|q)とともに適用すると、予測的更新に対する確率論的モデルが、本発明の実施形態による状態評価エンティティ212で得られる。
Figure 0005183665
式(2)は、タイムスタンプtでの測定または観察Oを表す。この測定または観察は現在のシステム状態q’で実行され、測定ノイズδにより妨害される。この等式があれば、測定更新モデルがベイズのコンテクストでP(O(a)|q’)として定式化される。
両方のモデルをベイズの方程式(5)を使用して、更新された状態分布b Ot(at)(q’)を計算するために組み合わせれば、次式が得られる。
Figure 0005183665
証明項P(O(a)、...O(a)は、全確率定理に適用される状態分布についての積分によって決定される。
Figure 0005183665
本発明の実施形態による連続的決定214では、合理的な行動を実現するために、活動‘a’の選択が最適コントロールのための確率論的方法に続く必要がある。目標は、実行されたすべての活動の長期報酬を最大にすることと、信頼分布における不確定性をアクティブに低減することである。すでに述べたように本発明の実施形態によれば、連続的POMDPがプランニング問題を解決するために使用される。POMDPの以下の特徴が本発明に関して特定される。
1)不確定性の下での連続的決定の問題はPOMDPとして定式化される。POMDPは組(S,A,T,R、Ω、Z)として記述することができる。ここでSはすべての環境状態の集合、Aはすべての活動を含み、T:S×A×S→[0,1]はその変化確率T(q,a,q’)=p(q’|q)をともなう状態変化関数を表す。Ωは可能なすべての観察の集合を表し、Zは観察関数Z:S×A×Ω→[0,1]を表す。ここでP(Ot(a)q’)は測定確率である。報酬関数R:S×A→Rは直接的報酬R(q)を特定する。この直接的報酬は、状態qで活動aを実行することから得られる。
最大の全報酬により特定される最善の活動シーケンスを見つけるために、価値反復アルゴリズムが、POMDPを最適に解決するための本発明の実施形態により使用される。ベルマンの等式を強化学習問題に適用すると、本発明の実施形態により再帰的公式が得られる。
Figure 0005183665
ただしV(b)=max(b)である。これは活動および観察が反復tされた後に収集される、予測された将来の報酬と解釈することができる。b’はb(q’)に対する省略であり、γは後の活動にペナルティを与え、結果として最初の活動により重みを割り当てる割引率を表す。信頼空間にわたって積分するのを回避するために、この式は式(5)を使用することにより変換される。
Figure 0005183665
コントロールポリシー
Figure 0005183665
は状態についての確率分布を活動に対してマッピングする。離散的観察空間を仮定すると、積分は合計により置換することができる。
2)価値評価が実行される場合、多くの公知の研究で、活動‘a’に対する報酬Ra(b)は最初の価値関数により特定されるか、またはハイブリッドアプローチでオフラインモデルとオンラインモデルの結合により学習される。
大きなドメインでは、式(8)での価値関数のオフライン計算はコストが掛かりすぎる。本発明の実施形態によれば、高次元状態、活動および観察空間はスケールダウンされ、関連する報酬の迅速な決定を可能にする。
以下では、本発明の実施形態により提案された確率論的枠組みの基本概念が導入された後での、本発明の実施形態によるアクティブ型認識枠組みの実現を詳細に説明する。
とりわけ以下では、上に説明した基本概念がロボット工学のシナリオに適用される。ここでは使用されるモデルとは別に、パラメトリックな確率論的表現と、適用されるコントロールポリシーが論議される。
最初にモデル仕様(図2の観察モデルに相当する)が、本発明の実施形態によるロボット光学的シナリオに関して設定される。このモデル仕様は、本実施形態により4つのサブ仕様の4つのサブモデルに分割することができる。
1)状態モデル:オブジェクトモデル(C,...、C)の集合は、ロボットにより検知されるすべての異なるオブジェクトクラスcを含むオブジェクトデータベースCを確定する。組q=(Ci、φは、離散的クラス表現と連続的m次元ポーズφ=(φ,...,φ)T、ただしφ∈Rmを含むオブジェクト状態を記述する。
2)活動モデル:コントロール活動‘a’には複数の異なるタイプが存在する。本実施形態により設けられたアクティブ型認識シナリオで、視点変化は妥当であるとだけ考慮される。したがって本実施形態によれば、‘a’は、センサ位置の変更を要求するロボット作動命令の集合である。
3)シーンモデル:本実施形態によればシーンモデルは、配置されたすべてのオブジェクトの現在の状態を含む。ここで浮かび上がる閉塞問題は、将来の視界を決定するコンピュータグラフィックスのポイント指向法によってカバーされる。本実施形態によれば、状態の信用分布における各ピークはオブジェクト仮説と見なされる。予測されるすべてのフィーチャは、閉塞に対するボックスを結び付けるすべての仮説について、広く普及したzバッファリングアルゴリズムを適用することによりチェックされる。閉塞が検知されると、このフィーチャが所属する仮説のガウス混合コンポーネントは、将来の測定アップデートステップで更新されない。しかし状態変化が本実施形態により適用される。
4)観察モデル:興味のあるポイント探知器を使用するために、現在の観察O(a)が本実施形態により、N個のフィーチャ‘f’の集合として表現される。
Figure 0005183665
フィーチャが多数の場合、O(a)を式(10)による尤度分布P(O(a)|q’)に代入することは計算的にコストが掛かる。本実施形態によれば、すべてのフィーチャが条件付きで独立であると仮定される。したがって尤度分布を本実施形態により、単純なベイズの推定を適用することにより計算できる。
Figure 0005183665
本実施形態による、世界状態を表現するための確率論的表現に関して、すべての単ピーク密度は不適切である。なぜならモデルの目的から、種々のオブジェクト仮説と多数のオブジェクトが同じ確率分布内にあるからである。したがって粒子分布およびガウス混合モデルのような選択肢が適切であるとして、本実施形態により使用される。とりわけ本実施形態によれば、多変量ガウス混合分布が使用される。これは高次元状態空間に適している。式(19)は、これを正規分布上に重み付けされた和として表す。μは平均ベクトル、Σは分散行列である。wはk番目のコンポーネントの重みを表す。
Figure 0005183665
状態評価を考慮するとき(図2の状態評価212に相当する)、本実施形態によればガウス混合モデルが使用される。適切なベイズの方程式はすでに式(5)に示されている。ガウス確率密度分布の混合モデルを適切な確率計算規則に使用しなければならない。非特許文献1の計算規則は、混合コンポーネントの数を小さく抑えるために、コンポーネントごとにパラメトリックな乗算と縮小ストラテジーによって、混合分布を線形結合するものである。線形ガウス変換モデルによる積分は、非特許文献7による本実施形態により解決される。
コントロールポリシーの実現と実行に関して(図2のポリシーエンティティ214に相当する)、報酬モデルの定式化は通例、非常に重要な問題である。これがロボットの行動に大きな影響を与え、注意深い探索を必要とするからである。認識問題については通例、情報の品質が、状態空間に関する確率密度分布に緊密に関連する。本実施形態によれば、ベイズフィルタにおいて前の状態分布を新しい観察ターゲットにより、生じた後の確率密度における不確定性の低減に基づき更新することによって、コントロールポリシーが実行される。2つの信頼分布間の情報利得を決定するために、情報分布のエントロピーh(q)のような情報理論的測定が本実施形態により使用される。予測される情報利得
Figure 0005183665
は、本実施形態によれば前のエントロピーと、将来の信頼の予測されるエントロピーとの差として表現される。コントロール活動‘a’の予測されるコストを、この信頼の達成のために加算すると、本実施形態により変形された報酬モデルが得られる。
Figure 0005183665
ファクタαは、活動‘a’のコストと比較した情報の価値を表現する2つの項に関連する。
連続空間の要求は、多数の活動観察コンビネーションを必要とする。報酬のオフライン決定は、多様な可能性を先験的に考慮することができないので困難である。オンライン計算のために、多くのコンビネーションを除外することができる。しかしリアルタイムの制限を満たさなければならない。実際、観察は通例、信頼分布を大きく変化させ、現在の活動ポリシーを実現不可能にする。したがって1平面プランニングストラテジーが、考察されるシナリオに対してより効率的であり得る。このシナリオは、貪欲法を活動シーケンスの立案に、測定または観察が実行されるまで適用することによって達成することができる。
Figure 0005183665
本実施形態によれば、反復プランニングアルゴリズムは、分布エントロピーの形態の所望の品質基準が達成されると終了する。
エントロピー近似を実行するとき、種々のエントロピーの計算は、所与の活動に対する予測的状態の評価と、その高速計算のための効率的方法を必要とする。ここでは次の計算が、本実施形態により実行される。
1)状態および観察予測:後の分布は、活動に続く測定または観察が、前の状態分布に与える影響を表現する。将来的活動‘a’に対する信頼分布b(q)を予測することが、コントロール活動の実行後に得られる観察または測定O(a)を評価するために必要である。観察事象の確率を
Figure 0005183665
閾値と比較することにより、予測される観察または測定を導出することができ、後の評価を得るために現在の前の信頼と合体させることができる。閾値はあらかじめ定めた閾値とすることができる。
2)微分エントロピー連続確率分布の不確定性を測定するための情報理論的コンセプトが微分エントロピーである。
Figure 0005183665
数値による計算であっても、パラメトリックな確率密度分布からのサンプリングによる計算であっても処理時間が問題であるから、上限評価による多変量ガウス混合密度の種々のエントロピーの近似
Figure 0005183665
が状態不確定性の決定に使用される。Dは状態の次元を表し、|Σ|はk次のコンポーネントの分散行列の行列式を表す。詳細については非特許文献1を参照されたい。
以下では仕様モデルとオブジェクト決定プロパティを含むテストセットアップについて説明する。2つの実験による例を示す。
実験のモデル仕様を考慮するとき、明快にするため二次元問題が想定される。実験例では、オブジェクトポーズ3次元のリアル状態空間Rで記述される。ここで2次元は平行移動を表し、1次元が角度成分を表す。
実験例によれば、活動空間Aが8つの異なるコントロール活動の数に設定される。ここで各活動は視点の変化に等しい。実験例で使用される視点はVP1〜VP8であり、これらは図3aに示されている。図3で視点はVP1〜VP8は1.2mの半径に45°のステップで円形に配置されている。
実験例による画像獲得のために、サービスロボットに取り付けられた立体カメラシステムが使用される。立体カメラシステムの各カメラは、グレースケール画像を1388×1038ピクセルの解像度でキャプチャするように構成されている。オブジェクト検出は、本実施形態によりSIFTフィーチャに基づく検出アルゴリズムによる実験に関連して実行される(非特許文献14参照)。オフラインプロセスでは、各オブジェクトの36の画像が10゜の縦ステップで記録された。その結果、各オブジェクトに対して約30000のフィーチャが獲得された。立体カメラシステムにより、オブジェクトの多数のフィーチャが検出されれば、非常に正確なポーズが決定される。実験に関連する本実施形態によれば、少数のフィーチャを備え、確率論的プロパティを検出アルゴリズムに加える弱オブジェクト仮説が明示的に取り扱われた。詳細には、オブジェクトクラス尤度が、シーンフィーチャと予測されるフィーチャとの関係から計算され、ポーズ共分散が、本実施形態により検出された多数のフィーチャから評価される。
図3bは、本発明の実施形態により配置された状態モデルのオブジェクトデータベースを示す。
使用されるオブジェクトデータベースは4つの異なるオブジェクト31〜34からなる。すなわちザウワークラウト缶31、スープボックス32,および2つのソルトボックス33,34である。図3bは、種々異なる視野からのデータベースオブジェクトを示す。明らかにソルトボックス33,34は、見た目が非常に類似している。SIFT検出器は興味点により動作し、色情報によっては動作しないから、曖昧さを取り除くのはいくつかの点で困難である。
上に、確率分布を表現するためにガウス混合を使用することを説明した。実験に関連する本実施形態によれば、最初の前が4つの混合コンポーネントによりモデル化され、それぞれのコンポーネントはファクタ0.25の重みを有し、1つのオブジェクトクラスに所属する。共分散は、状態分布に関する最初の知識が欠けていることを表す一様分布に粗く近似するため、大きい。変化不確定性が、実験に関連する本実施形態により線形ガウスとして定義される。
Figure 0005183665
ただしガウスカーネルは、コンポーネントの数と状態分布へ平均値において等しい。Δ(a)は、状態における変化を共分散Σ(a)の活動の関数として示す。測定不確定性がフィーチャ尤度分布P(f(a)|q’)に含まれている。この尤度分布は、ガウス混合分布をフィーチャの視覚フィールドに適合することによるトレーニングプロセスで獲得される。視覚容積は、オブジェクトビューとフィーチャスケールから導出される。
報酬モデルのコストを決定するために、実験に関連する本発明の実施形態によれば、ロボット可動性が円経路に制限され、運動角からコストが評価される。
第1の実験に関する実施形態では、位置決めプロセスが実行される。
図4aから4c、5aから5c、6aから6c、および7aから7cは、シーケンスを形成または確立する活動を選択的にセンシングすることに基づく後の分布のシーケンスを示す。ここでシーケンスは、図4、図5、図6および図7により示されている。図4a、5a、6aおよび7aは、最初のシナリオ、シーケンスの相応する活動に対するプレゼント、および相応する活動に対して実行された観察を示す。図4b、5b、6bおよび7bは、相応する活動に対するxy平面での信頼分布の輪郭を示す。ここで各輪郭は1つのオブジェクトクラスに所属する。図4c、5c、6cおよび7cは、各オブジェクトクラスに対して角度分布を別個に示す。図4c、5c、6cおよび7cのそれぞれには、青いソルト34の分布が上列の左側に、スープボックス32の分布が上列の右側に、ザウワークラウト缶31の分布が下列の左側に、そして黄色いソルト33の分布が下列の右側に示されている。
本実施形態によれば、第1の実験で図4aに示すようなオブジェクト配置が使用された。ここでロボットにより探索すべき、または認識すべきシーンは、図3bのオブジェクトデータベースの3つのオブジェクト31,32,34を有する。すべての活動に対する第1の後のエントロピーは類似している。なぜなら同形の前のエントロピーに近似するからである。図4bは、図3bのオブジェクトデータベースの4つすべてのオブジェクト31〜34の確率分布の輪郭を、角度に関して積分してxy平面に示す。図4cは、他の次元にわたって積分された角度確率分布を表す。式(14)によれば、活動コストは、第1のステップでの活動選択にだけ影響する。したがって第1の観察は、現在のシーンロケーションから、すなわち図3aに示された第1の視点VP1により実行される。図5aには、左カメラの獲得画像と、それの確率分布が示されている。図5aおよび5cから分かるように、ザウワークラウト缶31と青いソルトボックス34は上手く検知されたが、スープボックス32に対しては弱い仮説しか存在しない。なぜならスープボックス32は強く閉塞されているからである。オブジェクトの曖昧さから、黄色いソルトボックス33に対する仮説は、青いソルトからの1つに近接して表明されるが、比較的小さな確率質量を含む。図8の表は、次に実行すべき活動を決定するために使用された予測報酬Vのリストを示す。とりわけ図8は、視点VP1とVP2での評価のための式(14)から報酬Vを計算するための関連するコストと値を示す。ここで列81は視点を示し、列82は視点VP1での予測されるフィーチャ報酬を示す。さらに列83は視点VP1での相応するコストを示し、列84はVP1値、列85は視点VP1での報酬Vを示す。さらに列86は視点VP2での相応するコストを示し、列87はVP2値、列88は視点VP2での報酬Vを示す。
本実施形態によれば、現在の視点は選択プロセスで考慮されない。次のステップでロボットは第2の視点(図3aに示されているように)に移動し、スープボックス32の観察によって信頼分布を鮮明にする。この状況が図6a、6bおよび6cに示されている。次の決定はより困難である(図7a、7b、7c参照)。離れた第7の視点は(図3aに示すように)、システム知識を増大させるのに最適のオプションであると思われる。一方、第4の視点VP4は(図3aに示すように)コストバリュー関係が最適であるので選択された。早期に到達可能な第3の視点VP3は(図3aに示すよう)、ソルトボックスの評価閉塞のため回避された。最後に、最後の測定が、状態空間から黄色いソルトボックス33の仮説を評価する。これにより3つの現存するオブジェクト(ザウワークラウト缶31、スープボックス32および青いソルトボックス34)がロボットにより配置される。
本発明の別の実施形態について実行された第2の実験は変更されたパラメータに相当する。この実験では、コストと利益の関係および閉塞検出の使用が同じシナリオ内で論議される。図3aに示す第1の視点VP1から再び始まって、種々の活動プランが実行される。図9に示した表は、適合された相関係数αに依存して選択されたポリシーを比較する。閉塞を考慮しなければ、予測された情報利得が非常に大きいので実行された活動は2つの視点間で切り替わる。なぜなら隠されたオブジェクトも状態予測で判断されるからである。しかしアルゴリズムまたは方法はこの場合、2つの仮説だけを含む状態空間により終了する。とりわけ図9の表には、新たな相関係数αと以前の相関係数αとの関係の変化が示されている。図9で列91は種々のαを、列92は閉塞検出を、列93は閉塞を考慮しない場合を示す。
本発明は、POMDPとして実現されるシーケンシャルな決定コンポーネントを、ロボット工学リアルワールド適用のためのアクティブ型認識モデルに組み込むことを提案する。提案されたアプローチは確率論的枠組みに完全に埋め込まれ、パラメトリックな表現の当然の使用のため連続的かつ高次元のドメインに適している。上記の実施形態によれば、単純なzバッファリング法が閉塞問題を解決するために使用された。本発明の別の実施形態によれば、閉塞が確率論的に表現される。これはより適切で、全部の確率論的アプローチに適する。本発明の別の実施形態によれば、リアルワールドシナリオへの適応性についての改善が、コントロールポリシーのタスク依存パラメータαの自動学習または適合によって達成される。
上記の観点で、本発明の以下のアブストラクトを提供することができる。
シーン認識のためのアクティブ型認識モデルでは、状態空間についての確率分布における情報利得によって観察の効用が決定される。目的は、システム知識を低いリソースコストで最大にする活動シーケンスを見つけることである。最新のアプローチは、コストを無視したペイオフの決定の最適化、または単純な報酬モデルのための洗練されたプランニングストラテジーの開発に注力する。
本発明によれば、確率論的枠組みが提案される。この確率論的枠組みは、連続的かつ高次元のドメインにおけるモデルと状態不確定性の下で連続的な決定へのアプローチを提供する。部分的観察マルコフ決定過程(POMDP)として実現される確率論的プランナーは、確率分布の情報理論的基準とコントロール活動コストの両方を考慮することにより推論する。
実験的設定では自立的サービスロボットが、複雑なマルチオブジェクトシナリオでの効率的なオブジェクト認識のためにアクティブ型認識技術を使用し、オブジェクト閉塞の困難性に立ち向かう。リアルタイムな適応性への要求が高いから、確率分布がガウス混合によって表現され、高速な数値計算を可能にする。
本発明はPOMDPを使用し、POMDPを活動のプランニングのために拡張する。可能な未来または将来的活動の利益を決定するために、評価された不確定性が活動のシミュレーションの後に決定され、例えばエントロピーのような情報理論的測定により評価される。活動のコストは、活動の可能性および実行に対するコストまたは活動の実行からなる。パラメータの使用によってファクタの品質基準の関係性が設定される。測定の不正確性および/または活動のパフォーマンスまたは実行から生じる不確定性が、ガウス混合によって表現される。
本発明によれば、高次元確率分布の評価をガウス混合として適用し、他の確率分布から生じるファクタの種々の品質基準を比較することが使用される。
このようにして本発明は、必要なリソースを低減し、高速で効率的な方法を提供し、活動の結果、測定または観察を予測するための現在の知識を使用することによって活動を効果的かつ効率的にプラニングすることができる。
したがって本発明は決定メカニズムまたは決定コンポーネントに関連するものであり、この決定メカニズムまたは決定コンポーネントは、ロボットの少なくとも1つの将来的活動を複数の活動から、
・前の環境状態の前の確率論的表現を計算し、
・前記少なくとも1つの将来的活動が適用された後に、達成すべき後の環境状態の後の確率論的表現における少なくとも1つの不確定性を低減する新たな観察を目的として、前記前の確率論的表現を更新し、
ただし前記後の確率論的表現は前記更新から生じた確率論的表現であり、
・前記前の確率論的表現と前記後の確率論的表現との間の情報利得を、少なくとも1つの情報理論的測定を使用して決定し、
・前記少なくとも1つの将来的活動を、当該少なくとも1つの将来的活動の実行コストを前記情報利得に加算することにより評価することによって決定するように構成されている。本発明は、ロボットのための改善された活動プランニングを提供し、ロボットの活動のためにシーンまたは環境の探索を実行および/または要求する種々異なるロボットに実現することができる。
本発明の実施形態および適用例が上に示され、説明されたが、当業者であれば(上記よりも)さらに多くの変形実施形他が、前記本発明のコンセプトから逸脱することなく可能である。したがって本発明は、従属請求項の構成にのみ限定されるものではない。したがって前述した詳細な説明は例示と見なすべきで限定を意図したものではない。

Claims (21)

  1. ロボット(11)にシーンを自立的に探索させ、かつ、前記ロボット(11)の少なくとも1つの将来的活動(a)を、前記ロボット(11)の複数の活動(a)から、次のステップを用いて決定するための、コンピュータに実行させるアクティブ型認識プログラム(21)であって、
    ・前の環境状態(q)の前の確率論的表現を計算(212)するステップと、
    ・前記少なくとも1つの将来的活動(a)が適用された後に、達成すべき後の環境状態(q’)の後の確率論的表現における少なくとも1つの不確定性を低減することについての新たな観察(O)を目的として、前記前の確率論的表現を更新(212)するステップと、
    ただし前記後の確率論的表現は前記更新(212)から生じた確率論的表現であり、
    ・前記前の確率論的表現と前記後の確率論的表現との間の情報利得を、少なくとも1つの情報理論的測定を使用して決定(214)するステップと、そして
    ・前記少なくとも1つの将来的活動(a)を、当該少なくとも1つの将来的活動(a)の実行コストを前記情報利得に加算することにより評価するステップと、
    ただし、前記少なくとも1つの将来的活動(a)を評価するステップは、実行期間において前記少なくとも1つの将来的活動の実行コストを評価し、当該実行期間の終わりにおいて前記情報利得を評価するステップを含む、
    の各ステップをコンピュータに実行させるためのアクティブ型認識プログラム(21)。
  2. 前記少なくとも1つの将来的活動(a)は、前記ロボット(11)のセンサの位置変更を要求するロボット操作命令である請求項1載のプログラム
  3. 前記プログラムは、前記ロボット(11)の将来的活動(a)のシーケンスを評価するように構成されている請求項1または2に記載のプログラム
  4. 前記少なくとも1つの不確定性は、
    ・前記少なくとも1つの将来的活動(a)を適用することにより、時間的に前の環境状態(q)から前記時間的に後の環境状態(q’)に達する際に発生する状態変化不確定性、および/または
    ・前記時間的に後の環境状態(q’)で実行される測定を妨害する測定ノイズである請求項1からまでのいずれか1項に記載のプログラム
  5. 前記プログラムは、前記更新(21)をベイズフィルタで実行するように構成されている請求項1からまでのいずれか1項に記載のプログラム
  6. 前記少なくとも1つの情報理論的測定は、確率論的表現に基づくエントロピーである請求項1から5までのいずれか1項に記載のプログラム
  7. 前記決定(214)は、前記前の確率論的表現の前のエントロピーと、前記後の確率論的表現の予測されるエントロピーとの間の差を決定することを含む請求項1からまでのいずれか1項に記載のプログラム
  8. 前記更新(212)は、前記少なくとも1つの将来的活動を実行した後に得られる新たな観察の評価を含む請求項1からまでのいずれか1項に記載のプログラム
  9. 前記更新(212)は、前記評価を使用することによって、前記少なくとも1つの将来的活動(a)に対する前記後の環境状態(q’)の前記後の確率論的表現の予測を含む請求項記載のプログラム
  10. 前記前の確率論的表現と前記後の確率論的表現は、多変量ガウス混合分布である請求項1からまでのいずれか1項に記載のプログラム
  11. 前記少なくとも1つの不確定性は、前記後の確率論的表現の微分エントロピーを上限評価によって近似することにより決定される状態不確定性である請求項1から10までのいずれか1項に記載のプログラム
  12. 前記プログラムは、前記少なくとも1つの将来的活動(a)の実行後に前記情報利得が最大であり、かつ前記少なくとも1つの将来的活動(a)の実行コストと前記不確定性が低減される場合に、前記少なくとも1つの将来的活動(a)を決定するように構成されている請求項1から11までのいずれか1項に記載のプログラム
  13. 前記プログラムは、所望の品質基準に達した場合、前記決定を終了するように構成されている請求項1から12までのいずれか1項に記載のプログラム
  14. 前記所望の品質基準は、少なくとも1つの分布エントロピーの形態で提供される請求項13記載のプログラム
  15. 前記前の確率論的表現と前記後の確率論的表現は、POMDPコンセプトを使用することにより特定されるモデル(211)の使用によって計算される請求項1から14までのいずれか1項に記載のプログラム
  16. 前記前の環境状態(q)と前記後の環境状態(q’)は少なくとも1つのオブジェクト(31,32,33,34)の状態を記述し、
    前記少なくとも1つのオブジェクト(31,32,33,34)は、当該少なくとも1つのオブジェクト(31,32,33,34)のクラスの離散的クラス表現と、当該少なくとも1つのオブジェクト(31,32,33,34)の連続的なm次元ポーズを含む請求項1から15までのいずれか1項に記載のプログラム
  17. 前記前の環境状態(q)と前記後の環境状態(q’)は、シーンに配置された少なくとも1つのオブジェクト(31,32,33,34)を含む当該シーンの状態を参照し、前記状態における前記少なくとも1つのオブジェクト(31,32,33,34)のフィーチャの視認性を決定する請求項1から16までのいずれか1項に記載のプログラム
  18. 前記新たな観察は、シーンの少なくとも1つのオブジェクト(31,32,33,34)のフィーチャ集合を求めることである請求項1から17までのいずれか1項に記載のプログラム
  19. 動作のために、請求項1から18までのいずれか1項に記載のプログラムが実行される、ロボット(11)。
  20. シーンの画像取得のための立体カメラシステムを有する、請求項19に記載のロボット(11)。
  21. サービスロボットである、請求項19または20に記載のロボット(11)。
JP2010087108A 2009-04-03 2010-04-05 ロボットの少なくとも1つの将来的活動を決定する決定メカニズム、方法、モジュールおよび決定するように構成されたロボット Expired - Fee Related JP5183665B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP09004982.6 2009-04-03
EP09004982 2009-04-03
EP09011666A EP2249292A1 (en) 2009-04-03 2009-09-11 Decision making mechanism, method, module, and robot configured to decide on at least one prospective action of the robot
EP09011666.6 2009-09-11

Publications (3)

Publication Number Publication Date
JP2010244549A JP2010244549A (ja) 2010-10-28
JP2010244549A5 JP2010244549A5 (ja) 2012-07-26
JP5183665B2 true JP5183665B2 (ja) 2013-04-17

Family

ID=42607745

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010087108A Expired - Fee Related JP5183665B2 (ja) 2009-04-03 2010-04-05 ロボットの少なくとも1つの将来的活動を決定する決定メカニズム、方法、モジュールおよび決定するように構成されたロボット

Country Status (3)

Country Link
US (1) US8583284B2 (ja)
EP (1) EP2249292A1 (ja)
JP (1) JP5183665B2 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9015093B1 (en) * 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
KR20120047577A (ko) * 2010-11-04 2012-05-14 주식회사 케이티 대화형 행동모델을 이용한 로봇 인터랙션 서비스 제공 장치 및 방법
US8942917B2 (en) 2011-02-14 2015-01-27 Microsoft Corporation Change invariant scene recognition by an agent
US8768071B2 (en) 2011-08-02 2014-07-01 Toyota Motor Engineering & Manufacturing North America, Inc. Object category recognition methods and robots utilizing the same
JP2013058120A (ja) * 2011-09-09 2013-03-28 Sony Corp 情報処理装置、情報処理方法、及び、プログラム
US9300531B2 (en) 2011-12-12 2016-03-29 Openet Telecom Ltd. Systems, devices, and methods of orchestration and application of business rules for real-time control of subscribers in a telecommunications operator's network
US9384448B2 (en) * 2011-12-28 2016-07-05 General Electric Company Action-based models to identify learned tasks
KR101919831B1 (ko) 2012-01-11 2018-11-19 삼성전자주식회사 오브젝트 인식 장치, 분류 트리 학습 장치 및 그 동작 방법
US8447419B1 (en) 2012-05-02 2013-05-21 Ether Dynamics Corporation Pseudo-genetic meta-knowledge artificial intelligence systems and methods
US10572774B2 (en) * 2012-12-06 2020-02-25 Toyota Motor Engineering & Manufacturing North America. Inc. Methods and robots for adjusting object detection parameters, object recognition parameters, or both object detection parameters and object recognition parameters
CN103810700B (zh) * 2014-01-14 2017-01-11 燕山大学 基于深度图像利用遮挡信息确定下一最佳观测方位的方法
JP2015136762A (ja) * 2014-01-23 2015-07-30 セイコーエプソン株式会社 処理装置、ロボット、ロボットシステム及び処理方法
JP6240689B2 (ja) 2015-07-31 2017-11-29 ファナック株式会社 人の行動パターンを学習する機械学習装置、ロボット制御装置、ロボットシステム、および機械学習方法
DE102016009030B4 (de) 2015-07-31 2019-05-09 Fanuc Corporation Vorrichtung für maschinelles Lernen, Robotersystem und maschinelles Lernsystem zum Lernen eines Werkstückaufnahmevorgangs
JP6522488B2 (ja) * 2015-07-31 2019-05-29 ファナック株式会社 ワークの取り出し動作を学習する機械学習装置、ロボットシステムおよび機械学習方法
US10839302B2 (en) 2015-11-24 2020-11-17 The Research Foundation For The State University Of New York Approximate value iteration with complex returns by bounding
FR3044438A1 (fr) * 2015-11-27 2017-06-02 Thales Sa Systeme et procede d'aide a la decision
CN106446930B (zh) * 2016-06-28 2019-11-22 沈阳工业大学 基于深层卷积神经网络的机器人工作场景识别方法
US10083369B2 (en) * 2016-07-01 2018-09-25 Ricoh Company, Ltd. Active view planning by deep learning
US11176473B2 (en) * 2017-01-06 2021-11-16 International Business Machines Corporation Partially observed Markov decision process model and its use
CN109974699B (zh) * 2017-12-27 2021-08-27 深圳市优必选科技有限公司 一种机器人及其地图自主探索方法和装置
DE102018216561A1 (de) * 2018-09-27 2020-04-02 Robert Bosch Gmbh Verfahren, Vorrichtung und Computerprogramm zum Ermitteln einer Strategie eines Agenten
US20220083884A1 (en) * 2019-01-28 2022-03-17 Mayo Foundation For Medical Education And Research Estimating latent reward functions from experiences
JP2020149162A (ja) * 2019-03-11 2020-09-17 富士通株式会社 情報処理装置、画像処理プログラム及び画像処理方法
JP7337611B2 (ja) * 2019-09-06 2023-09-04 株式会社東芝 把持装置、荷役装置、及び制御装置
CN111814915B (zh) * 2020-08-26 2020-12-25 中国科学院自动化研究所 多智能体时空特征提取方法及系统、行为决策方法及系统
CN113269315B (zh) * 2021-06-29 2024-04-02 安徽寒武纪信息科技有限公司 利用深度强化学习执行任务的设备、方法及可读存储介质
CN116922397B (zh) * 2023-09-13 2023-11-28 成都明途科技有限公司 机器人智能水平的测量方法、装置、机器人及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5179441A (en) * 1991-12-18 1993-01-12 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Near real-time stereo vision system
US7827011B2 (en) * 2005-05-03 2010-11-02 Aware, Inc. Method and system for real-time signal classification
US20060282021A1 (en) * 2005-05-03 2006-12-14 Devaul Richard W Method and system for fall detection and motion analysis
US20100138366A1 (en) * 2007-07-02 2010-06-03 Qin Zhang System and method for information processing and motor control
US8559699B2 (en) * 2008-10-10 2013-10-15 Roboticvisiontech Llc Methods and apparatus to facilitate operations in image based systems

Also Published As

Publication number Publication date
EP2249292A1 (en) 2010-11-10
US8583284B2 (en) 2013-11-12
US20100262286A1 (en) 2010-10-14
JP2010244549A (ja) 2010-10-28

Similar Documents

Publication Publication Date Title
JP5183665B2 (ja) ロボットの少なくとも1つの将来的活動を決定する決定メカニズム、方法、モジュールおよび決定するように構成されたロボット
Eidenberger et al. Active perception and scene modeling by planning with probabilistic 6d object poses
Zhang et al. Hierarchical reinforcement learning by discovering intrinsic options
EP3370206B1 (en) Spatially consistent multi-scale anatomical landmark detection in incomplete 3d-ct data
Martinez-Cantin et al. A Bayesian exploration-exploitation approach for optimal online sensing and planning with a visually guided mobile robot
Brooks et al. Parametric POMDPs for planning in continuous state spaces
Sukkar et al. Multi-robot region-of-interest reconstruction with Dec-MCTS
JP2010244549A5 (ja)
US9361590B2 (en) Information processing apparatus, information processing method, and program
Boots et al. Learning predictive models of a depth camera & manipulator from raw execution traces
US9111172B2 (en) Information processing device, information processing method, and program
Shi et al. Social interpretable tree for pedestrian trajectory prediction
Kim et al. Planning for grasp selection of partially occluded objects
Wen et al. End-to-end semi-supervised learning for differentiable particle filters
Menon et al. NBV-SC: Next best view planning based on shape completion for fruit mapping and reconstruction
Wang et al. Virtual maps for autonomous exploration with pose SLAM
Eidenberger et al. Probabilistic action planning for active scene modeling in continuous high-dimensional domains
EP2275993A2 (en) Method for estimating the visibility of features on surfaces of object instances in multi-object scenes and method for perception planning in multi-object scenes
Liu et al. A cardinality modified product multi-sensor PHD
Leung et al. Evaluating set measurement likelihoods in random-finite-set slam
Greigarn et al. Task-oriented active sensing via action entropy minimization
Pantrigo et al. Multi-dimensional visual tracking using scatter search particle filter
Rauch et al. Learning-driven coarse-to-fine articulated robot tracking
Laporte et al. A fast discriminant approach to active object recognition and pose estimation
Pantrigo et al. Heuristic particle filter: applying abstraction techniques to the design of visual tracking algorithms

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101026

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101227

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120210

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120508

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120511

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20120608

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130115

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160125

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees