JP2018536550A - 3次元空間におけるオブジェクト位置および範囲のためのアクティブカメラ移動決定 - Google Patents

3次元空間におけるオブジェクト位置および範囲のためのアクティブカメラ移動決定 Download PDF

Info

Publication number
JP2018536550A
JP2018536550A JP2018528333A JP2018528333A JP2018536550A JP 2018536550 A JP2018536550 A JP 2018536550A JP 2018528333 A JP2018528333 A JP 2018528333A JP 2018528333 A JP2018528333 A JP 2018528333A JP 2018536550 A JP2018536550 A JP 2018536550A
Authority
JP
Japan
Prior art keywords
camera
agent
subsequent control
control input
subsequent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018528333A
Other languages
English (en)
Other versions
JP2018536550A5 (ja
JP6907206B2 (ja
Inventor
トワル、レーガン・ブライス
オミドシャフィエイ、シャイガン
アガモハンマディ、アリアクバル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2018536550A publication Critical patent/JP2018536550A/ja
Publication of JP2018536550A5 publication Critical patent/JP2018536550A5/ja
Application granted granted Critical
Publication of JP6907206B2 publication Critical patent/JP6907206B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0011Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots associated with a remote control arrangement
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0094Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots involving pointing a payload, e.g. camera, weapon, sensor, towards a fixed or moving target
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/564Depth or shape recovery from multiple images from contours
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/66Remote control of cameras or camera parts, e.g. by remote control devices
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40617Agile eye, control position of camera, active vision, pan-tilt camera, follow object

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Mechanical Engineering (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Robotics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)
  • Manipulator (AREA)

Abstract

運動計画の方法が、制御可能カメラを有するエージェントの第1の姿勢からオブジェクトを観測することを含む。本方法はまた、少なくとも1つの後続の姿勢からオブジェクトを観測するためにエージェントとカメラとを移動させるために、1つまたは複数の後続の制御入力を決定することを含む。(1つまたは複数の)後続の制御入力は、カメラから収集されたビジュアルデータに基づくオブジェクトの予想される囲み測度を最小限に抑えるように決定される。本方法は、(1つまたは複数の)後続の制御入力に基づいてエージェントとカメラとを制御することをさらに含む。【選択図】 図7

Description

関連出願の相互参照
[0001]本出願は、その開示全体が参照により本明細書に明確に組み込まれる、2015年12月2日に出願された、「ACTIVE CAMERA MOVEMENT DETERMINATION FOR OBJECT POSITION AND EXTENT IN THREE-DIMENSIONAL SPACE」と題する米国仮特許出願第62/262,249号の利益を主張する。
[0002]本開示のいくつかの態様は、一般に機械学習に関し、より詳細には、運動計画(motion planning)のシステムおよび方法を改善することに関する。
[0003]モバイルエージェント(たとえば、ロボット)は、しばしば、ある環境の周りを移動しながら、未確認のオブジェクトおよび障害物に直面する。ある環境においてとるべきアクションを選定するとき、エージェントは、目標状態までのそれらの距離を減少させるアクション、環境に関するそれらの情報を増大させるアクション、障害物衝突を回避するアクション、またはそれらの何らかの組合せを選定することができる。
[0004]環境に関する情報を収集することは、限られたリソースを用いてまたは未知の環境においてアクションをとることを試みるときに重要な目的である。度々横断されるドメインにおいて有用であり得る環境情報の1つのタイプは、ドメインにおけるオブジェクトの形状および範囲である。ナビゲーションでは、エージェント自体のサイズのオーダーでのオブジェクトの大まかな範囲が有用である。このスケールにおけるオブジェクトの形状および範囲に関する情報は、しばしば、構造化光、レーザーおよびレーダータイプの検知技術などの深度ベースセンサーを通して、または(2つ以上のカメラ、または様々な時点における1つのカメラのいずれかからの)多くのカメラビューにおける特徴をコレジスタ(co-register)することによって行われる深度計算を通して収集される。しかしながら、オブジェクトの形状および範囲を推定するためのたいていの技法は、エージェントによる移動を利用するにすぎず、オブジェクトの形状および範囲の推定に有利であろう移動に優先度を付けない。
[0005]本開示の一態様では、運動計画の方法が提示される。本方法は、制御可能カメラを有するエージェントの第1の姿勢からオブジェクトを観測することを含む。本方法はまた、少なくとも1つの後続の姿勢からオブジェクトを観測するためにエージェントとカメラとを移動させるために、1つまたは複数の後続の制御入力を決定することを含む。(1つまたは複数の)後続の制御入力は、カメラから収集されたビジュアルデータに基づくオブジェクトの予想される囲み測度(enclosing measure)が最小限に抑えられるように決定される。本方法は、(1つまたは複数の)後続の制御入力に基づいてエージェントとカメラとを制御することをさらに含む。
[0006]本開示の別の態様では、運動計画のための装置が提示される。本装置は、メモリと、メモリに結合された少なくとも1つのプロセッサとを含む。1つまたは複数のプロセッサは、制御可能カメラを有するエージェントの第1の姿勢からオブジェクトを観測するように構成される。(1つまたは複数の)プロセッサはまた、1つまたは複数の後続の姿勢からオブジェクトを観測するためにエージェントとカメラとを移動させるために、1つまたは複数の後続の制御入力を決定するように構成される。(1つまたは複数の)後続の制御入力は、カメラから収集されたビジュアルデータに基づくオブジェクトの予想される囲み測度が最小限に抑えられるように決定される。(1つまたは複数の)プロセッサは、(1つまたは複数の)後続の制御入力に基づいてエージェントとカメラとを制御するようにさらに構成される。
[0007]本開示のまた別の態様では、運動計画のための装置が提示される。本装置は、制御可能カメラを有するエージェントの第1の姿勢からオブジェクトを観測するための手段を含む。本装置はまた、1つまたは複数の後続の姿勢からオブジェクトを観測するためにエージェントとカメラとを移動させるために、1つまたは複数の後続の制御入力を決定するための手段を含む。(1つまたは複数の)後続の制御入力は、カメラから収集されたビジュアルデータに基づくオブジェクトの予想される囲み測度が最小限に抑えられるように決定される。本装置は、(1つまたは複数の)後続の制御入力に基づいてエージェントとカメラとを制御するための手段をさらに含む。
[0008]本開示のさらに別の態様では、非一時的コンピュータ可読媒体が提示される。非一時的コンピュータ可読媒体は、運動計画のためのプログラムコードをその上に符号化している。プログラムコードはプロセッサによって実行され、制御可能カメラを有するエージェントの第1の姿勢からオブジェクトを観測するためのプログラムコードを含む。プログラムコードはまた、1つまたは複数の後続の姿勢からオブジェクトを観測するためにエージェントとカメラとを移動させるために、1つまたは複数の後続の制御入力を決定するためのプログラムコードを含む。(1つまたは複数の)後続の制御入力は、カメラから収集されたビジュアルデータに基づくオブジェクトの予想される囲み測度が最小限に抑えられるように決定される。プログラムコードは、(1つまたは複数の)後続の制御入力に基づいてエージェントとカメラとを制御するためのプログラムコードをさらに含む。
[0009]本開示の追加の特徴および利点が、以下で説明される。本開示は、本開示の同じ目的を実行するための他の構造を変更または設計するための基礎として容易に利用され得ることを、当業者は諒解されたい。また、そのような等価な構成が、添付の特許請求の範囲に記載の本開示の教示から逸脱しないことを、当業者は了解されたい。さらなる目的および利点とともに、本開示の編成と動作の方法の両方に関して、本開示を特徴づけると考えられる新規の特徴は、添付の図に関連して以下の説明を検討するとより良く理解されよう。ただし、図の各々は、例示および説明のみの目的で与えられたものであり、本開示の限界を定めるものではないことを明確に理解されたい。
[0010]本開示の特徴、特性、および利点は、全体を通じて同様の参照符号が同様のものを指す図面とともに、以下に記載される発明を実施するための形態を読めばより明らかになろう。
[0011]本開示のいくつかの態様による、汎用プロセッサを含むシステムオンチップ(SOC)を使用してニューラルネットワークを設計する例示的な実装形態を示す図。 [0012]本開示の態様による、システムの例示的な実装形態を示す図。 [0013]本開示の態様による、オブジェクトの形状を推定するための例示的な技法を示す図。 [0014]本開示の態様による、例示的なビジュアルハル(visual hull)を示す図。 本開示の態様による、例示的なビジュアルハルを示す図。 [0015]本開示の態様による、例示的なジョイントビジュアルハルを示す図。 本開示の態様による、例示的なジョイントビジュアルハルを示す図。 [0016]本開示の様々な態様による、運動計画のための方法を示す図。 本開示の様々な態様による、運動計画のための方法を示す図。
[0017]添付の図面に関して以下に記載される発明を実施するための形態は、様々な構成を説明するものであり、本明細書で説明される概念が実施され得る構成のみを表すものではない。発明を実施するための形態は、様々な概念の完全な理解を与えるための具体的な詳細を含む。ただし、これらの概念はこれらの具体的な詳細なしに実施され得ることが当業者には明らかであろう。いくつかの事例では、そのような概念を不明瞭にしないように、よく知られている構造および構成要素がブロック図の形式で示される。
[0018]これらの教示に基づいて、本開示の範囲は、本開示の他の態様とは無関係に実装されるにせよ、本開示の他の態様と組み合わせて実装されるにせよ、本開示のいかなる態様をもカバーするものであることを、当業者なら諒解されたい。たとえば、記載された態様をいくつ使用しても、装置は実装され得るか、または方法は実施され得る。さらに、本開示の範囲は、記載された本開示の様々な態様に加えてまたはそれらの態様以外に、他の構造、機能、または構造および機能を使用して実施されるそのような装置または方法をカバーするものとする。開示される本開示のいずれの態様も、請求項の1つまたは複数の要素によって実施され得ることを理解されたい。
[0019]「例示的」という単語は、本明細書では「例、事例、または例示の働きをすること」を意味するために使用される。「例示的」として本明細書で説明されるいかなる態様も、必ずしも他の態様よりも好適または有利であると解釈されるべきであるとは限らない。
[0020]本明細書では特定の態様が説明されるが、これらの態様の多くの変形および置換は本開示の範囲内に入る。好適な態様のいくつかの利益および利点が説明されるが、本開示の範囲は特定の利益、使用、または目的に限定されるものではない。むしろ、本開示の態様は、様々な技術、システム構成、ネットワーク、およびプロトコルに広く適用可能であるものとし、それらのいくつかが、例として、図および好適な態様についての以下の説明において示される。発明を実施するための形態および図面は、本開示を限定するものではなく説明するものにすぎず、本開示の範囲は添付の特許請求の範囲およびそれの均等物によって定義される。
[0021]本開示の態様は運動計画を対象とし、より詳細には、単一のカメラを装備したエージェント(たとえば、ロボット、ドローン、または自動車両)による移動のシーケンスにおける移動の選択における改善された効率を対象とする。本開示で対処される1つの問題は、未知の環境においてオブジェクトまたは障害物の形状および範囲を最も良く推定するために、エージェントの移動をどのように選定すべきかである。たとえば、ドローンが配備され、シーン中のオブジェクトを観測する場合、深度センサーではなくビジュアルセンサー(たとえば、単一のカメラ)を使用してオブジェクトの形状および範囲を決定するためにドローンを移動させるように、制御入力が決定され得る。そうする際に、オブジェクト形状および範囲の推定は、(たとえば、ランダムなまたは無関係の移動を採用する)従来の方法よりも高速におよび/または正確に実行され得る。
[0022]本開示の態様によれば、エージェントの現在ロケーションと、環境のビジュアルカメラビューとが入力として与えられ得る。次に、本開示のシステムおよび方法はアクションコマンドを出力し得る。アクションコマンドは、たとえば、有限時間ウィンドウにわたる空間を通る軌道を指定する、アクチュエータのセットまたはプリプログラムされた運動プリミティブへの速度コマンドの形態であり得る。
[0023]いくつかの態様では、ある環境において可能性があるオブジェクトの周りの1つまたは複数のバウンディングボックスを決定するために、カメラフレームが処理され得る。オブジェクトまでの距離が未知であり得るので、各バウンディングボックス(たとえば、2次元バウンディングボックス)は矩形角錐を定義し得、その先端が、カメラの焦点を中心とし、矩形を通って画像面に延びる。角錐の底辺は、カメラ画像面からある距離だけ離れて存在するように制約され得る。その距離は、いくつかの態様では、知られている、カメラの解像度または環境のスケールに基づいて設定され得る。たとえば、屋内で動作するモバイルデバイスカメラ(たとえば、セルフォンカメラ)は、屋外で動作する専門家の一眼レフ(SLR)カメラよりも、角錐の小さい最大範囲を有し得る。したがって、モバイルデバイスカメラのための矩形角錐は、単一のフレームに基づくオブジェクトの形状および範囲の推定値を備え得る。
[0024]次いで、オブジェクト形状および範囲のこの現在の推定値に基づいて、移動が選択され得る。エージェント(たとえば、ロボット)は、選択された移動をとり得る。第2のカメラフレームが、可能性があるオブジェクトの周りの追加のバウンディングボックスを決定するために処理され得、各オブジェクトの形状およびロケーションのための新しい推定値が決定され得る。この第2のフレームも矩形角錐を作り出すが、2つの角錐推定値があるので、オブジェクトが、初期推定値よりも小さいエリアであるこれらの2つの矩形角錐の交差部内にあるという信頼度が増加され得る。
[0025]このプロセスは、アクションがとられるとき、時間とともに繰り返され得る。このようにして、オブジェクトのロケーションの新しい推定値が生成され得、オブジェクトの形状および範囲は決定され得る。例示的な一態様では、次のカメラ測定の後の予想される交差エリアが最小限に抑えられ、バウンディングボックス全体がカメラビューにおいて可視のままであるという制約を受けるように、次のアクションが選定され得る。したがって、移動の任意のセットと比較して、時間とともに交差エリアを低減する(さらには最小限に抑える)可能性が高くなるであろう移動が選択され得る。
[0026]図1は、本開示のいくつかの態様による、汎用プロセッサ(CPU)またはマルチコア汎用プロセッサ(CPU)102を含み得るシステムオンチップ(SOC)100を使用する、上述の運動計画の例示的な実装形態を示す。変数(たとえば、ニューラル信号およびシナプス荷重)、計算デバイスに関連するシステムパラメータ(たとえば、重みをもつニューラルネットワーク)、遅延、周波数ビン(bin)情報、およびタスク情報が、ニューラル処理ユニット(NPU)108に関連するメモリブロックに記憶されるか、CPU102に関連するメモリブロックに記憶されるか、グラフィックス処理ユニット(GPU)104に関連するメモリブロックに記憶されるか、デジタル信号プロセッサ(DSP)106に関連するメモリブロックに記憶されるか、専用メモリブロック118に記憶され得るか、または複数のブロックにわたって分散され得る。汎用プロセッサ102において実行される命令が、CPU102に関連するプログラムメモリからロードされ得るか、または専用メモリブロック118からロードされ得る。
[0027]SOC100はまた、GPU104、DSP106など、特定の機能に適合された追加の処理ブロックと、第4世代ロングタームエボリューション(4G LTE(登録商標))接続性、無認可Wi−Fi(登録商標)接続性、USB接続性、Bluetooth(登録商標)接続性などを含み得る接続性ブロック110と、たとえば、ジェスチャーを検出および認識し得るマルチメディアプロセッサ112とを含み得る。一実装形態では、NPUは、CPU、DSP、および/またはGPUにおいて実装される。SOC100はまた、センサープロセッサ114、画像信号プロセッサ(ISP)、および/または全地球測位システムを含み得るナビゲーション120を含み得る。
[0028]SOC100はARM命令セットに基づき得る。本開示の一態様では、汎用プロセッサ102にロードされる命令は、制御可能カメラを有するエージェントの第1の姿勢からオブジェクトを観測するためのコードを備え得る。汎用プロセッサ102にロードされる命令は、カメラから収集されたビジュアルデータに基づくオブジェクトの予想される囲み測度を低減するように、後続の姿勢からオブジェクトを観測するためにエージェントとカメラとを移動させるために、少なくとも1つの後続の制御入力を決定するためのコードをも備え得る。汎用プロセッサ102にロードされる命令は、後続の制御入力に基づいてエージェントとカメラとを制御するためのコードをも備え得る。
[0029]図2は、本開示のいくつかの態様による、システム200の例示的な実装形態を示す。図2に示されているように、システム200は、本明細書で説明される方法の様々な動作を実行し得る複数のローカル処理ユニット202を有し得る。各ローカル処理ユニット202は、ローカル状態メモリ204と、ニューラルネットワークのパラメータを記憶し得るローカルパラメータメモリ206とを備え得る。さらに、ローカル処理ユニット202は、ローカルモデルプログラムを記憶するためのローカル(ニューロン)モデルプログラム(LMP)メモリ208と、ローカル学習プログラムを記憶するためのローカル学習プログラム(LLP)メモリ210と、ローカル接続メモリ212とを有し得る。さらに、図2に示されているように、各ローカル処理ユニット202は、ローカル処理ユニットのローカルメモリのための構成を与えるための構成プロセッサユニット214、およびローカル処理ユニット202間のルーティングを与えるルーティング接続処理ユニット216とインターフェースし得る。
[0030]一構成では、機械学習モデルが、制御可能カメラを有するエージェントの第1の姿勢からオブジェクトを観測するために構成される。モデルは、カメラから収集されたビジュアルデータに基づくオブジェクトの予想される囲み測度を最小限に抑えるように、後続の姿勢からオブジェクトを観測するためにエージェントとカメラとを移動させるために、後続の制御入力を決定するためにも構成される。モデルは、(1つまたは複数の)後続の制御入力に基づいてエージェントとカメラとを制御するためにさらに構成される。モデルは、観測手段、決定手段、および/または制御手段を含む。一態様では、観測手段、決定手段、および/または制御手段は、具陳された機能を実行するように構成された、汎用プロセッサ102、汎用プロセッサ102に関連するプログラムメモリ、メモリブロック118、ローカル処理ユニット202、およびまたはルーティング接続処理ユニット216であり得る。別の構成では、上述の手段は、上述の手段によって具陳された機能を実行するように構成された任意のモジュールまたは任意の装置であり得る。
[0031]本開示のいくつかの態様によれば、各ローカル処理ユニット202は、モデルの所望の1つまたは複数の機能的特徴に基づいてモデルのパラメータを決定し、決定されたパラメータがさらに適合、調整および更新されるように、1つまたは複数の機能的特徴を所望の機能的特徴のほうへ発達させるように構成され得る。
[0032]図3は、オブジェクトの形状を推定するための例示的な技法を示す図である。図3を参照すると、単一のオブジェクト(たとえば、影308とともに示されているテーブル302)が、画像(たとえば、赤、緑、青(RGB)画像)中に示されている。もちろん、これは、説明および理解しやすくするための例にすぎず、追加のオブジェクトが画像中に含まれ得る。オブジェクト位置特定プロセスを使用して、オブジェクトの2次元(2D)シルエットまたはバウンディングボックス304が生成され得る。色またはグレースケールソリューションが、バウンディングボックス検出のために使用され得る。2Dシルエット306がsk(xi,yi)∈Bによって表され得、ここで、B={0,1}はバイナリ空間である。たとえば、sk(xi,yi)=1である場合、オブジェクトは、画像Ikのピクセル(xi,yi)において可視である。他の場合、オブジェクトは、ピクセル(xi,yi)において可視でない。1つの目的は、2D画像を使用してオブジェクトまたはシルエット画像306の3Dシルエット(たとえば、3次元バウンディングボックス)を決定することである。
[0033]RGB画像のシーケンスI0:t={I0,...,It}と、関連するカメラ姿勢p0:t={p0,...,pt}とを仮定すれば、オブジェクトシルエットのシーケンスs0:t={s0,...,st}が計算され得る。
[0034]各時間ステップkにおいて、カメラ内部(camera intrinsic)M、カメラ姿勢pk、およびシルエット画像skが、逆投影円錐Ck(xw,yw,zw)∈Bまたはオブジェクトのビジュアルハル(visual hull)を計算するために使用され得る。一例では、(xi,yi)は、現在の時間ステップにおけるカメラ画像フレーム上へのポイント(xw,yw,zw)の投影であり得る。その場合、Ck(xw,yw,zw)=sk(xi,yi)である。言い換えれば、Ck(xw,yw,zw)=1である場合、シルエットskは、3Dオブジェクトがポイント(xw,yw,zw)を潜在的に含んでいることがあることを示している。他の場合、オブジェクトはポイント(xw,yw,zw)を確実に含んでいない。したがって、ビジュアルハル測定モデルはCk=h(pk,sk,M)として表され得る。
[0035]カメラは、対応するシルエットs0:tを取得する複数の異なる姿勢p0:tから、オブジェクトの複数のスナップショットまたは写真を撮り得る。カメラ内部M、シルエットおよび/またはカメラ姿勢は、次に、各時間ステップにおいて、対応するビジュアルハルC0:tを計算するために使用され得る。次いで、ジョイントビジュアルハルVtが、以下によって与えられるビジュアルハルの交差部として計算され得る。
Figure 2018536550
ジョイントビジュアルハルは、3D空間中の形状およびロケーションの近似を与える。
[0036]いくつかの態様では、ビジュアルハルは、オブジェクトのためのジョイントビジュアルハルに対する測度mが低減されるかまたは最小限に抑えられ得るように、カメラを移動するための後続の制御入力を決定するために使用され得る。このいわゆる、アクティブなシルエット由来形状(ASfS:active shape-from-silhouette)再構成を作り出すための後続の制御入力は、以下によって与えられ得る。
Figure 2018536550
ここで、uは、可能な移動のセットUからのカメラおよび/またはエージェントの移動のための制御入力であり、hおよびfは、カメラダイナミクスおよび観測モデルの関数である。制御入力uは、方向と速度とを含むベクトルであり得る。変数Ckは円錐またはビジュアルハルであり、pkは姿勢(たとえば、3D空間中のカメラの位置および/または配向)であり、skはシルエット(または2Dバウンディングボックス)であり、kは時間ステップまたは円錐の数である)。変数tは時間であり、Mはカメラ特性(たとえば、レンズのタイプ)である。変数mは、低減されている測度(たとえば、体積)である。測度mはまた、たとえば、単一の方向で移動し、目的がオブジェクトを回避することである場合、表面積、高さ、または幅であり得る。
[0037]ジョイントビジュアルハルの最小限に抑えられた測度(たとえば、体積)を使用して、オブジェクトをそこから観測すべき後続の位置にエージェントおよび/またはカメラを移動させるために、後続の制御入力が決定され得る。新しいジョイントビジュアルハルが、後続の位置におけるビジュアルデータを使用して決定され得る。新しいジョイントビジュアルハルは、後続の制御入力を決定するために、同様に最小限に抑えられ得る。このようにして、オブジェクトの形状および範囲は効率的に決定され得る。一構成では、情報は記憶され、後の再利用のためのマップを作成する。
[0038]式2において定義されている後続の制御入力は、バッチ処理を使用して、あるいはストリーミングまたは順次様式で決定され得る。一例では、バッチ処理が採用されるとき、制御入力u0:tのすべてはオフラインで決定され得る。別の例では、後続の制御入力がストリーミングまたは順次様式で決定されるとき、後続の制御入力ut+1は、入力u0:tの履歴と、観測されたビジュアルハルC0:tとを仮定すれば、オンラインで増分的に決定され得る。
[0039]図4A〜図4Bは、姿勢をもつカメラ406による画像面からのビジュアルハル投影を示す図である。図4Aを参照すると、三日月形オブジェクト402が、実世界環境において姿勢pkをもつカメラ406の視野410内で観測される。カメラ406の姿勢pkは、三日月形オブジェクトの画像面シルエット404の投影を作り出す。図4Bは、オブジェクト402のビジュアルハル412を示す。いくつかの態様では、ビジュアルハル412はオブジェクトの潜在的ロケーションを示す。ビジュアルハル412は、カメラ内部(たとえば、カメラレンズのタイプ(たとえば、魚眼レンズ))、カメラ406の姿勢(たとえば、位置および/または配向)、および/またはオブジェクトのシルエット404に基づいて決定され得る。ビジュアルハルは3Dにあるが、シルエットは2中にある。
[0040]図5A〜図5Bは、本開示の態様による、例示的なジョイントビジュアルハルを示す。図5Aに示されているように、三日月形オブジェクト508が、オブジェクトシルエット502を作り出す第1の姿勢において、カメラ(たとえば、カメラ406)の第1のビューにおいて観測される。三日月形オブジェクトはまた、第2のオブジェクトシルエット504を作り出す第2の姿勢において、カメラの第2のビューにおいて観測される。オブジェクトシルエット502および504、カメラ内部ならびに/または対応するカメラ姿勢は、図5Bに示されているように、それぞれビジュアルハル512および514を決定するために使用され得る。
[0041]図5Bでは、ジョイントビジュアルハル510が、ビジュアルハル512とビジュアルハル514との交差部として決定される。ジョイントビジュアルハル510は、カメラによって作り出された2D画像を使用して、3D空間中のオブジェクト形状およびロケーションの近似を与える。さらに、本開示の態様によれば、ビジュアルハル512および514は、ジョイントビジュアルハル510に対する測度mが最小限に抑えられ得るように、オブジェクトの画像をキャプチャするための位置にカメラ(および/またはエージェント)を移動させるために後続の制御入力を決定するために使用され得る。
[0042]図6は、本開示の一態様による、運動計画のための方法600を示す。ブロック602において、プロセスは、制御可能カメラを有するエージェントの第1の姿勢からオブジェクトを観測する。
[0043]ブロック604において、プロセスは、カメラから収集されたビジュアルデータに基づくオブジェクト(たとえば、ビジュアルハル)の予想される囲み測度(たとえば、体積)を低減するかさらには最小限に抑えるように、後続の姿勢からオブジェクトを観測するためにエージェントおよび/またはカメラを移動させるために、後続の制御入力を決定する。いくつかの態様では、後続の制御入力は、順次決定されるかまたは順次処理(たとえば、一度に1つの制御入力を処理すること)を使用して決定されるか、あるいは潜在的な後続の制御入力のバッチ処理を使用することによって決定され得る。バッチ処理は、後退ホライズン制御(receding horizon control)(たとえば、将来への10のステップを予測し、次いで次の分析を実行する)などの技法、または他の分析技法を使用し得る。さらに、後続の制御入力は、予想される囲み体積(たとえば、ジョイントビジュアルハル)を最小限に抑えるためにコストを最小限に抑えるかまたは低減するように決定され得る。いくつかの態様では、コストは、オブジェクトの形状および範囲を決定するためにエージェントまたはカメラを移動させる際に消耗される労力、時間、作業、および/またはエネルギーを備え得る。
[0044]さらに、ブロック606において、プロセスは、後続の制御入力に基づいてエージェントとカメラとを制御する。いくつかの態様では、エージェントとカメラとは、最小数の制御入力を使用してオブジェクトの周りを移動するように制御され得る。
[0045]図7は、本開示の態様による、運動計画の方法700を示すブロック図である。ブロック702において、プロセスは、第1の2Dオブジェクトシルエットまたはシルエット画像を作り出すために、制御可能カメラを有するエージェントの第1の姿勢からオブジェクトを観測する。ブロック704において、プロセスは第1のビジュアルハルを計算する。第1のビジュアルハルは、カメラレンズタイプなどのカメラ内部、カメラの姿勢、第1のオブジェクトシルエット、またはそれらの組合せに基づいて計算され得る。第1のビジュアルハルは3次元であり、オブジェクトが位置し得る体積を備え得る。
[0046]ブロック706において、エージェントまたはカメラの第2の姿勢からオブジェクトを観測する。いくつかの態様では、第2の姿勢はランダムに選択され得る。第2の2Dオブジェクトシルエットが作り出される。ブロック708において、プロセスは第2のビジュアルハルを計算する。第1のビジュアルハルと同様に、第2のビジュアルハルは、カメラ内部、第2のオブジェクトシルエット、またはそれらの組合せに基づいて計算され得る。
[0047]ブロック710において、プロセスは、第1のビジュアルハルと第2のビジュアルハルとに基づいてジョイントビジュアルハルを計算する。ジョイントビジュアルハルは、第1のビジュアルハルと第2のビジュアルハルとの交差部として計算され得る。したがって、ジョイントビジュアルハルは、交差部によって定義される空間内にオブジェクトが位置するという、より大きい信頼度を与え得る。さらに、ジョイントビジュアルハルはまた、3D空間中のオブジェクト形状の近似を与え得る。
[0048]ブロック712において、プロセスは、ジョイントビジュアルハルを最小限に抑えるようにエージェントおよび/またはカメラを次の姿勢に移動させるために、後続の制御入力を決定する。すなわち、ランダム選択プロセスに基づいて、または増分ステッププロセスに基づいて決定された制御入力に基づいて移動させるのではなく、後続の制御入力は、ジョイントビジュアルハルを最小限に抑え、それによって、より効率的に当該のオブジェクトの形状および範囲を決定するように選択され得る。
[0049]ブロック714において、プロセスは、制御入力を決定するために処理のタイプを評価する。ブロック714において、処理のタイプが順次処理である場合、プロセスは、ブロック716において、決定された後続の制御入力に基づいて移動するようにエージェントおよびまたはカメラを制御する。
[0050]一方、バッチ処理が示された場合、ブロック718において、プロセスは、所望のバッチサイズが到達されたかどうかを評価する。バッチサイズは、設計選好に従って任意に決定され得る。所望のバッチサイズ(たとえば、10個の後続の制御入力)が到達されなかった場合、プロセスは、次の後続の制御入力を決定するためにブロック712に戻る。このシナリオでは、カメラは、次の時間ステップにおいて次のロケーションに実際に移動されない。そうではなく、いくつかの態様では、オブジェクトの投影されたビジュアルハルが、カメラの次の姿勢のために決定され、次の後続の制御入力を決定するために使用される。
[0051]ブロック718において、所望のバッチサイズが到達された場合、プロセスは、ブロック716において、決定された後続の制御入力に基づいて移動するようにエージェントおよびまたはカメラを制御する。このシナリオでは、エージェントは、バッチにおける最後の決定された制御入力に基づいて移動される。
[0052]いくつかの態様では、方法600および700は、SOC100(図1)またはシステム200(図2)によって実行され得る。すなわち、方法600および700の要素の各々は、たとえば、限定はしないが、SOC100またはシステム200または1つまたは複数のプロセッサ(たとえば、CPU102およびローカル処理ユニット202)および/あるいは本明細書中に含まれる他の構成要素によって実行され得る。
[0053]上記で説明された方法の様々な動作は、対応する機能を実行することが可能な任意の好適な手段によって実行され得る。それらの手段は、限定はしないが、回路、特定用途向け集積回路(ASIC)、またはプロセッサを含む、様々な(1つまたは複数の)ハードウェアおよび/またはソフトウェア構成要素および/またはモジュールを含み得る。概して、図に示されている動作がある場合、それらの動作は、同様の番号をもつ対応するカウンターパートのミーンズプラスファンクション構成要素を有し得る。
[0054]本明細書で使用される「決定すること」という用語は、多種多様なアクションを包含する。たとえば、「決定すること」は、計算すること(calculating)、計算すること(computing)、処理すること、導出すること、調査すること、ルックアップすること(たとえば、テーブル、データベースまたは別のデータ構造においてルックアップすること)、確認することなどを含み得る。さらに、「決定すること」は、受信すること(たとえば、情報を受信すること)、アクセスすること(たとえば、メモリ中のデータにアクセスすること)などを含み得る。さらに、「決定すること」は、解決すること、選択すること、選定すること、確立することなどを含み得る。
[0055]本明細書で使用される、項目のリスト「のうちの少なくとも1つ」を指す句は、単一のメンバーを含む、それらの項目の任意の組合せを指す。一例として、「a、b、またはcのうちの少なくとも1つ」は、a、b、c、a−b、a−c、b−c、およびa−b−cを包含するものとする。
[0056]本開示に関連して説明された様々な例示的な論理ブロック、モジュールおよび回路は、汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ信号(FPGA)または他のプログラマブル論理デバイス(PLD)、個別ゲートまたはトランジスタ論理、個別ハードウェア構成要素、あるいは本明細書で説明された機能を実行するように設計されたそれらの任意の組合せを用いて実装または実行され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは、任意の市販のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であり得る。プロセッサはまた、コンピューティングデバイスの組合せ、たとえば、DSPとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、DSPコアと連携する1つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成として実装され得る。
[0057]本開示に関連して説明された方法またはアルゴリズムのステップは、ハードウェアで直接実施されるか、プロセッサによって実行されるソフトウェアモジュールで実施されるか、またはその2つの組合せで実施され得る。ソフトウェアモジュールは、当技術分野で知られている任意の形態の記憶媒体中に常駐し得る。使用され得る記憶媒体のいくつかの例としては、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、フラッシュメモリ、消去可能プログラマブル読取り専用メモリ(EPROM)、電気消去可能プログラマブル読取り専用メモリ(EEPROM(登録商標))、レジスタ、ハードディスク、リムーバブルディスク、CD−ROMなどがある。ソフトウェアモジュールは、単一の命令、または多数の命令を備え得、いくつかの異なるコードセグメント上で、異なるプログラム間で、および複数の記憶媒体にわたって分散され得る。記憶媒体は、プロセッサがその記憶媒体から情報を読み取ることができ、その記憶媒体に情報を書き込むことができるように、プロセッサに結合され得る。代替として、記憶媒体はプロセッサと一体であり得る。
[0058]本明細書で開示された方法は、説明された方法を達成するための1つまたは複数のステップまたはアクションを備える。本方法のステップおよび/またはアクションは、特許請求の範囲から逸脱することなく、互いに交換され得る。言い換えれば、ステップまたはアクションの特定の順序が指定されない限り、特定のステップおよび/またはアクションの順序および/または使用は特許請求の範囲から逸脱することなく変更され得る。
[0059]説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ハードウェアで実装される場合、例示的なハードウェア構成はデバイス中に処理システムを備え得る。処理システムは、バスアーキテクチャを用いて実装され得る。バスは、処理システムの特定の適用例および全体的な設計制約に応じて、任意の数の相互接続バスおよびブリッジを含み得る。バスは、プロセッサと、機械可読媒体と、バスインターフェースとを含む様々な回路を互いにリンクし得る。バスインターフェースは、ネットワークアダプタを、特に、バスを介して処理システムに接続するために使用され得る。ネットワークアダプタは、信号処理機能を実装するために使用され得る。いくつかの態様では、ユーザインターフェース(たとえば、キーパッド、ディスプレイ、マウス、ジョイスティックなど)もバスに接続され得る。バスはまた、タイミングソース、周辺機器、電圧調整器、電力管理回路など、様々な他の回路をリンクし得るが、それらは当技術分野でよく知られており、したがってこれ以上説明されない。
[0060]プロセッサは、機械可読媒体に記憶されたソフトウェアの実行を含む、バスおよび一般的な処理を管理することを担当し得る。プロセッサは、1つまたは複数の汎用および/または専用プロセッサを用いて実装され得る。例としては、マイクロプロセッサ、マイクロコントローラ、DSPプロセッサ、およびソフトウェアを実行することができる他の回路がある。ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語などの名称にかかわらず、命令、データ、またはそれらの任意の組合せを意味すると広く解釈されたい。機械可読媒体は、例として、ランダムアクセスメモリ(RAM)、フラッシュメモリ、読取り専用メモリ(ROM)、プログラマブル読取り専用メモリ(PROM)、消去可能プログラマブル読取り専用メモリ(EPROM)、電気消去可能プログラマブル読取り専用メモリ(EEPROM)、レジスタ、磁気ディスク、光ディスク、ハードドライブ、または他の好適な記憶媒体、あるいはそれらの任意の組合せを含み得る。機械可読媒体はコンピュータプログラム製品において実施され得る。コンピュータプログラム製品はパッケージング材料を備え得る。
[0061]ハードウェア実装形態では、機械可読媒体は、プロセッサとは別個の処理システムの一部であり得る。しかしながら、当業者なら容易に理解するように、機械可読媒体またはその任意の部分は処理システムの外部にあり得る。例として、機械可読媒体は、すべてバスインターフェースを介してプロセッサによってアクセスされ得る、伝送線路、データによって変調された搬送波、および/またはデバイスとは別個のコンピュータ製品を含み得る。代替的に、または追加として、機械可読媒体またはその任意の部分は、キャッシュおよび/または汎用レジスタファイルがそうであり得るように、プロセッサに統合され得る。局所構成要素など、説明された様々な構成要素は、特定のロケーションを有するものとして説明され得るが、それらはまた、分散コンピューティングシステムの一部として構成されているいくつかの構成要素など、様々な方法で構成され得る。
[0062]処理システムは、すべて外部バスアーキテクチャを介して他のサポート回路と互いにリンクされる、プロセッサ機能を提供する1つまたは複数のマイクロプロセッサと、機械可読媒体の少なくとも一部を提供する外部メモリとをもつ汎用処理システムとして構成され得る。代替的に、処理システムは、本明細書で説明されたニューロンモデルとニューラルシステムのモデルとを実装するための1つまたは複数の神経形態学的プロセッサを備え得る。別の代替として、処理システムは、プロセッサをもつ特定用途向け集積回路(ASIC)と、バスインターフェースと、ユーザインターフェースと、サポート回路と、単一のチップに統合された機械可読媒体の少なくとも一部分とを用いて、あるいは1つまたは複数のフィールドプログラマブルゲートアレイ(FPGA)、プログラマブル論理デバイス(PLD)、コントローラ、状態機械、ゲート論理、個別ハードウェア構成要素、もしくは他の好適な回路、または本開示全体にわたって説明された様々な機能を実行することができる回路の任意の組合せを用いて、実装され得る。当業者は、特定の適用例と、全体的なシステムに課される全体的な設計制約とに応じて、どのようにしたら処理システムについて説明された機能を最も良く実装し得るかを理解されよう。
[0063]機械可読媒体はいくつかのソフトウェアモジュールを備え得る。ソフトウェアモジュールは、プロセッサによって実行されたときに、処理システムに様々な機能を実行させる命令を含む。ソフトウェアモジュールは、送信モジュールと受信モジュールとを含み得る。各ソフトウェアモジュールは、単一の記憶デバイス中に常駐するか、または複数の記憶デバイスにわたって分散され得る。例として、トリガイベントが発生したとき、ソフトウェアモジュールがハードドライブからRAMにロードされ得る。ソフトウェアモジュールの実行中、プロセッサは、アクセス速度を高めるために、命令のいくつかをキャッシュにロードし得る。次いで、1つまたは複数のキャッシュラインが、プロセッサによる実行のために汎用レジスタファイルにロードされ得る。以下でソフトウェアモジュールの機能に言及する場合、そのような機能は、そのソフトウェアモジュールからの命令を実行したときにプロセッサによって実装されることが理解されよう。さらに、本開示の態様が、そのような態様を実装するプロセッサ、コンピュータ、機械、または他のシステムの機能に改善を生じることを諒解されたい。
[0064]ソフトウェアで実装される場合、機能は、1つまたは複数の命令またはコードとしてコンピュータ可読媒体上に記憶されるか、あるいはコンピュータ可読媒体を介して送信され得る。コンピュータ可読媒体は、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含む、コンピュータ記憶媒体と通信媒体の両方を含む。記憶媒体は、コンピュータによってアクセスされ得る任意の利用可能な媒体であり得る。限定ではなく例として、そのようなコンピュータ可読媒体は、RAM、ROM、EEPROM、CD−ROMまたは他の光ディスクストレージ、磁気ディスクストレージまたは他の磁気ストレージデバイス、あるいは命令またはデータ構造の形態の所望のプログラムコードを搬送または記憶するために使用され得、コンピュータによってアクセスされ得る、任意の他の媒体を備えることができる。さらに、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、ソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線(IR)、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、または赤外線、無線、およびマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書で使用されるディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザーディスク(登録商標)(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピー(登録商標)ディスク(disk)、およびBlu−ray(登録商標)ディスク(disc)を含み、ここで、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)は、データをレーザーで光学的に再生する。したがって、いくつかの態様では、コンピュータ可読媒体は非一時的コンピュータ可読媒体(たとえば、有形媒体)を備え得る。さらに、他の態様では、コンピュータ可読媒体は一時的コンピュータ可読媒体(たとえば、信号)を備え得る。上記の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。
[0065]したがって、いくつかの態様は、本明細書で提示された動作を実行するためのコンピュータプログラム製品を備え得る。たとえば、そのようなコンピュータプログラム製品は、本明細書で説明された動作を実行するために1つまたは複数のプロセッサによって実行可能である命令をその上に記憶した(および/または符号化した)コンピュータ可読媒体を備え得る。いくつかの態様では、コンピュータプログラム製品はパッケージング材料を含み得る。
[0066]さらに、本明細書で説明された方法および技法を実行するためのモジュールおよび/または他の適切な手段は、適用可能な場合にユーザ端末および/または基地局によってダウンロードされ、および/または他の方法で取得され得ることを諒解されたい。たとえば、そのようなデバイスは、本明細書で説明された方法を実行するための手段の転送を可能にするためにサーバに結合され得る。代替的に、本明細書で説明された様々な方法は、ユーザ端末および/または基地局が記憶手段(たとえば、RAM、ROM、コンパクトディスク(CD)またはフロッピーディスクなどの物理記憶媒体など)をデバイスに結合するかまたは与えると様々な方法を得ることができるように、記憶手段によって提供され得る。その上、本明細書で説明された方法および技法をデバイスに提供するための任意の他の好適な技法が利用され得る。
[0067]特許請求の範囲は、上記で示された厳密な構成および構成要素に限定されないことを理解されたい。上記で説明された方法および装置の構成、動作および詳細において、特許請求の範囲から逸脱することなく、様々な改変、変更および変形が行われ得る。
[0067]特許請求の範囲は、上記で示された厳密な構成および構成要素に限定されないことを理解されたい。上記で説明された方法および装置の構成、動作および詳細において、特許請求の範囲から逸脱することなく、様々な改変、変更および変形が行われ得る。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
[C1] 運動計画の方法であって、
制御可能カメラを有するエージェントの第1の姿勢からオブジェクトを観測することと、
前記カメラから収集されたビジュアルデータに基づく前記オブジェクトの予想される囲み測度が最小限に抑えられるように、少なくとも1つの後続の姿勢から前記オブジェクトを観測するために前記エージェントと前記カメラとを移動させるために、少なくとも1つの後続の制御入力を決定することと、
前記少なくとも1つの後続の制御入力に基づいて前記エージェントと前記カメラとを制御することとを備える、方法。
[C2] 前記決定することが、前記予想される囲み測度を最小限に抑えるためにコストを最小限に抑えることに基づく、C1に記載の方法。
[C3] 前記少なくとも1つの後続の制御入力が、複数の潜在的後続の制御入力のバッチ処理を使用して決定される、C1に記載の方法。
[C4] 前記少なくとも1つの後続の制御入力が順次決定される、C1に記載の方法。
[C5] 前記エージェントと前記カメラとが、最小数の制御入力を使用して前記オブジェクトの周りを移動するようにさらに制御される、C1に記載の方法。
[C6] 運動計画のための装置であって、
メモリと、
前記メモリに結合された少なくとも1つのプロセッサとを備え、前記少なくとも1つのプロセッサは、
制御可能カメラを有するエージェントの第1の姿勢からオブジェクトを観測することと、
前記カメラから収集されたビジュアルデータに基づく前記オブジェクトの予想される囲み測度が最小限に抑えられるように、少なくとも1つの後続の姿勢から前記オブジェクトを観測するために前記エージェントと前記カメラとを移動させるために、少なくとも1つの後続の制御入力を決定することと、
前記少なくとも1つの後続の制御入力に基づいて前記エージェントと前記カメラとを制御することとを行うように構成された、装置。
[C7] 前記少なくとも1つのプロセッサが、前記予想される囲み測度を最小限に抑えるためにコストを最小限に抑えることに基づいて前記少なくとも1つの後続の制御入力を決定するようにさらに構成された、C6に記載の装置。
[C8] 前記少なくとも1つのプロセッサが、複数の潜在的後続の制御入力のバッチ処理を使用して前記少なくとも1つの後続の制御入力を決定するようにさらに構成された、C6に記載の装置。
[C9] 前記少なくとも1つのプロセッサが、順次処理を使用して前記少なくとも1つの後続の制御入力を決定するようにさらに構成された、C6に記載の装置。
[C10] 前記少なくとも1つのプロセッサが、最小数の制御入力を使用して前記オブジェクトの周りを移動するように前記エージェントと前記カメラとを制御するようにさらに構成された、C6に記載の装置。
[C11] 運動計画のための装置であって、
制御可能カメラを有するエージェントの第1の姿勢からオブジェクトを観測するための手段と、
前記カメラから収集されたビジュアルデータに基づく前記オブジェクトの予想される囲み測度が最小限に抑えられるように、少なくとも1つの後続の姿勢から前記オブジェクトを観測するために前記エージェントと前記カメラとを移動させるために、少なくとも1つの後続の制御入力を決定するための手段と、
前記少なくとも1つの後続の制御入力に基づいて前記エージェントと前記カメラとを制御するための手段とを備える、装置。
[C12] 決定するための前記手段が、前記予想される囲み測度を最小限に抑えるためにコストを最小限に抑えることに基づいて前記少なくとも1つの後続の制御入力を決定する、C11に記載の装置。
[C13] 決定するための前記手段が、複数の潜在的後続の制御入力のバッチ処理を使用して前記少なくとも1つの後続の制御入力を決定する、C11に記載の装置。
[C14] 決定するための前記手段が、順次処理を使用して前記少なくとも1つの後続の制御入力を決定する、C11に記載の装置。
[C15] 制御するための前記手段が、最小数の制御入力を使用して前記オブジェクトの周りを移動するように前記エージェントと前記カメラとを制御する、C11に記載の装置。
[C16] 運動計画のためのプログラムコードをその上に符号化した非一時的コンピュータ可読媒体であって、前記プログラムコードは、プロセッサによって実行され、
制御可能カメラを有するエージェントの第1の姿勢からオブジェクトを観測するためのプログラムコードと、
前記カメラから収集されたビジュアルデータに基づく前記オブジェクトの予想される囲み測度を最小限に抑えるように、少なくとも1つの後続の姿勢から前記オブジェクトを観測するために前記エージェントと前記カメラとを移動させるために、少なくとも1つの後続の制御入力を決定するためのプログラムコードと、
前記少なくとも1つの後続の制御入力に基づいて前記エージェントと前記カメラとを制御するためのプログラムコードとを備える、非一時的コンピュータ可読媒体。
[C17] 前記予想される囲み測度を最小限に抑えるためにコストを最小限に抑えることに基づいて前記少なくとも1つの後続の制御入力を決定するためのプログラムコードをさらに備える、C16に記載の非一時的コンピュータ可読媒体。
[C18] 複数の潜在的後続の制御入力のバッチ処理を使用して前記少なくとも1つの後続の制御入力を決定するためのプログラムコードをさらに備える、C16に記載の非一時的コンピュータ可読媒体。
[C19] 順次処理を使用して前記少なくとも1つの後続の制御入力を決定するためのプログラムコードをさらに備える、C16に記載の非一時的コンピュータ可読媒体。
[C20] 最小数の制御入力を使用して前記オブジェクトの周りを移動するように前記エージェントと前記カメラとを制御するためのプログラムコードをさらに備える、C16に記載の非一時的コンピュータ可読媒体。

Claims (20)

  1. 運動計画の方法であって、
    制御可能カメラを有するエージェントの第1の姿勢からオブジェクトを観測することと、
    前記カメラから収集されたビジュアルデータに基づく前記オブジェクトの予想される囲み測度が最小限に抑えられるように、少なくとも1つの後続の姿勢から前記オブジェクトを観測するために前記エージェントと前記カメラとを移動させるために、少なくとも1つの後続の制御入力を決定することと、
    前記少なくとも1つの後続の制御入力に基づいて前記エージェントと前記カメラとを制御することと
    を備える、方法。
  2. 前記決定することが、前記予想される囲み測度を最小限に抑えるためにコストを最小限に抑えることに基づく、請求項1に記載の方法。
  3. 前記少なくとも1つの後続の制御入力が、複数の潜在的後続の制御入力のバッチ処理を使用して決定される、請求項1に記載の方法。
  4. 前記少なくとも1つの後続の制御入力が順次決定される、請求項1に記載の方法。
  5. 前記エージェントと前記カメラとが、最小数の制御入力を使用して前記オブジェクトの周りを移動するようにさらに制御される、請求項1に記載の方法。
  6. 運動計画のための装置であって、
    メモリと、
    前記メモリに結合された少なくとも1つのプロセッサと
    を備え、前記少なくとも1つのプロセッサは、
    制御可能カメラを有するエージェントの第1の姿勢からオブジェクトを観測することと、
    前記カメラから収集されたビジュアルデータに基づく前記オブジェクトの予想される囲み測度が最小限に抑えられるように、少なくとも1つの後続の姿勢から前記オブジェクトを観測するために前記エージェントと前記カメラとを移動させるために、少なくとも1つの後続の制御入力を決定することと、
    前記少なくとも1つの後続の制御入力に基づいて前記エージェントと前記カメラとを制御することと
    を行うように構成された、装置。
  7. 前記少なくとも1つのプロセッサが、前記予想される囲み測度を最小限に抑えるためにコストを最小限に抑えることに基づいて前記少なくとも1つの後続の制御入力を決定するようにさらに構成された、請求項6に記載の装置。
  8. 前記少なくとも1つのプロセッサが、複数の潜在的後続の制御入力のバッチ処理を使用して前記少なくとも1つの後続の制御入力を決定するようにさらに構成された、請求項6に記載の装置。
  9. 前記少なくとも1つのプロセッサが、順次処理を使用して前記少なくとも1つの後続の制御入力を決定するようにさらに構成された、請求項6に記載の装置。
  10. 前記少なくとも1つのプロセッサが、最小数の制御入力を使用して前記オブジェクトの周りを移動するように前記エージェントと前記カメラとを制御するようにさらに構成された、請求項6に記載の装置。
  11. 運動計画のための装置であって、
    制御可能カメラを有するエージェントの第1の姿勢からオブジェクトを観測するための手段と、
    前記カメラから収集されたビジュアルデータに基づく前記オブジェクトの予想される囲み測度が最小限に抑えられるように、少なくとも1つの後続の姿勢から前記オブジェクトを観測するために前記エージェントと前記カメラとを移動させるために、少なくとも1つの後続の制御入力を決定するための手段と、
    前記少なくとも1つの後続の制御入力に基づいて前記エージェントと前記カメラとを制御するための手段と
    を備える、装置。
  12. 決定するための前記手段が、前記予想される囲み測度を最小限に抑えるためにコストを最小限に抑えることに基づいて前記少なくとも1つの後続の制御入力を決定する、請求項11に記載の装置。
  13. 決定するための前記手段が、複数の潜在的後続の制御入力のバッチ処理を使用して前記少なくとも1つの後続の制御入力を決定する、請求項11に記載の装置。
  14. 決定するための前記手段が、順次処理を使用して前記少なくとも1つの後続の制御入力を決定する、請求項11に記載の装置。
  15. 制御するための前記手段が、最小数の制御入力を使用して前記オブジェクトの周りを移動するように前記エージェントと前記カメラとを制御する、請求項11に記載の装置。
  16. 運動計画のためのプログラムコードをその上に符号化した非一時的コンピュータ可読媒体であって、前記プログラムコードは、プロセッサによって実行され、
    制御可能カメラを有するエージェントの第1の姿勢からオブジェクトを観測するためのプログラムコードと、
    前記カメラから収集されたビジュアルデータに基づく前記オブジェクトの予想される囲み測度を最小限に抑えるように、少なくとも1つの後続の姿勢から前記オブジェクトを観測するために前記エージェントと前記カメラとを移動させるために、少なくとも1つの後続の制御入力を決定するためのプログラムコードと、
    前記少なくとも1つの後続の制御入力に基づいて前記エージェントと前記カメラとを制御するためのプログラムコードと
    を備える、非一時的コンピュータ可読媒体。
  17. 前記予想される囲み測度を最小限に抑えるためにコストを最小限に抑えることに基づいて前記少なくとも1つの後続の制御入力を決定するためのプログラムコードをさらに備える、請求項16に記載の非一時的コンピュータ可読媒体。
  18. 複数の潜在的後続の制御入力のバッチ処理を使用して前記少なくとも1つの後続の制御入力を決定するためのプログラムコードをさらに備える、請求項16に記載の非一時的コンピュータ可読媒体。
  19. 順次処理を使用して前記少なくとも1つの後続の制御入力を決定するためのプログラムコードをさらに備える、請求項16に記載の非一時的コンピュータ可読媒体。
  20. 最小数の制御入力を使用して前記オブジェクトの周りを移動するように前記エージェントと前記カメラとを制御するためのプログラムコードをさらに備える、請求項16に記載の非一時的コンピュータ可読媒体。
JP2018528333A 2015-12-02 2016-11-02 運動計画の方法、運動計画のための装置及び非一時的コンピュータ可読記録媒体 Active JP6907206B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562262249P 2015-12-02 2015-12-02
US62/262,249 2015-12-02
US15/069,834 2016-03-14
US15/069,834 US10268188B2 (en) 2015-12-02 2016-03-14 Active camera movement determination for object position and extent in three-dimensional space
PCT/US2016/060079 WO2017095580A1 (en) 2015-12-02 2016-11-02 Active camera movement determination for object position and extent in three-dimensional space

Publications (3)

Publication Number Publication Date
JP2018536550A true JP2018536550A (ja) 2018-12-13
JP2018536550A5 JP2018536550A5 (ja) 2019-11-14
JP6907206B2 JP6907206B2 (ja) 2021-07-21

Family

ID=57421934

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018528333A Active JP6907206B2 (ja) 2015-12-02 2016-11-02 運動計画の方法、運動計画のための装置及び非一時的コンピュータ可読記録媒体

Country Status (5)

Country Link
US (1) US10268188B2 (ja)
EP (1) EP3383594A1 (ja)
JP (1) JP6907206B2 (ja)
CN (1) CN108367436B (ja)
WO (1) WO2017095580A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11370111B2 (en) * 2017-09-20 2022-06-28 Magna International Inc. System and method for adaptive bin picking for manufacturing
US11361457B2 (en) 2018-07-20 2022-06-14 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US20200293860A1 (en) * 2019-03-11 2020-09-17 Infineon Technologies Ag Classifying information using spiking neural network
DE102020204829A1 (de) * 2020-04-16 2021-10-21 Kuka Deutschland Gmbh Modellieren von Objekten mittels robotergeführter Kameras
US11607809B2 (en) * 2020-12-22 2023-03-21 Intrinsic Innovation Llc Robot motion planning accounting for object pose estimation accuracy
US20230119076A1 (en) * 2021-09-01 2023-04-20 Arizona Board Of Regents On Behalf Of Arizona State University Autonomous polarimetric imaging for photovoltaic module inspection and methods thereof

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013052490A (ja) * 2011-09-06 2013-03-21 Mitsubishi Electric Corp ワーク取り出し装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5831621A (en) 1996-10-21 1998-11-03 The Trustees Of The University Of Pennyslvania Positional space solution to the next best view problem
EP1658579B1 (en) 2003-08-15 2016-09-28 Scape A/S Method for for classification and spatial localization of bounded 3d-objects
US20060017720A1 (en) 2004-07-15 2006-01-26 Li You F System and method for 3D measurement and surface reconstruction
KR100721536B1 (ko) 2005-12-09 2007-05-23 한국전자통신연구원 2차원 평면상에서 실루엣 정보를 이용한 3차원 구조 복원방법
WO2008076942A1 (en) 2006-12-15 2008-06-26 Braintech Canada, Inc. System and method of identifying objects
US8126260B2 (en) 2007-05-29 2012-02-28 Cognex Corporation System and method for locating a three-dimensional object using machine vision
US7983487B2 (en) 2007-11-07 2011-07-19 Mitsubishi Electric Research Laboratories, Inc. Method and system for locating and picking objects using active illumination
US20100246899A1 (en) * 2009-03-26 2010-09-30 Rifai Khalid El Method and Apparatus for Dynamic Estimation of Feature Depth Using Calibrated Moving Camera
EP2275993A2 (en) 2009-07-14 2011-01-19 Siemens Aktiengesellschaft Method for estimating the visibility of features on surfaces of object instances in multi-object scenes and method for perception planning in multi-object scenes
JP2013022705A (ja) 2011-07-25 2013-02-04 Sony Corp ロボット装置及びロボット装置の制御方法、コンピューター・プログラム、並びにロボット・システム
US10033979B2 (en) * 2012-03-23 2018-07-24 Avigilon Fortress Corporation Video surveillance systems, devices and methods with improved 3D human pose and shape modeling
US8996167B2 (en) * 2012-06-21 2015-03-31 Rethink Robotics, Inc. User interfaces for robot training
EP2887009A1 (en) * 2013-12-23 2015-06-24 Universität Zürich Method for reconstructing a surface using spatially structured light and a dynamic vision sensor
US9272417B2 (en) * 2014-07-16 2016-03-01 Google Inc. Real-time determination of object metrics for trajectory planning

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013052490A (ja) * 2011-09-06 2013-03-21 Mitsubishi Electric Corp ワーク取り出し装置

Also Published As

Publication number Publication date
CN108367436B (zh) 2021-05-18
EP3383594A1 (en) 2018-10-10
CN108367436A (zh) 2018-08-03
WO2017095580A1 (en) 2017-06-08
US20170160737A1 (en) 2017-06-08
US10268188B2 (en) 2019-04-23
JP6907206B2 (ja) 2021-07-21

Similar Documents

Publication Publication Date Title
JP6907206B2 (ja) 運動計画の方法、運動計画のための装置及び非一時的コンピュータ可読記録媒体
US11216971B2 (en) Three-dimensional bounding box from two-dimensional image and point cloud data
US10946515B2 (en) Deep machine learning methods and apparatus for robotic grasping
CN109964237B (zh) 图像深度预测神经网络
EP3583380B1 (en) Shape estimating apparatus
JP2022514974A (ja) 物体検出方法、装置、電子機器、及びコンピュータプログラム
JP6571274B2 (ja) レーザ深度マップサンプリングのためのシステム及び方法
JP2021089724A (ja) 構造的制約及び物理的制約を伴う3d自動ラベル付け
TW201732739A (zh) 集中於物件的有效三維重構
CN110168614B (zh) 用于生成混合现实中的动态虚拟内容的设备和方法
US20210114209A1 (en) Robot control device, and method and non-transitory computer-readable storage medium for controlling the same
JP2023535502A (ja) 半教師付きキーポイントベースモデル
US20240033904A1 (en) Simulating multiple robots in virtual environments
US20230158679A1 (en) Task-oriented 3d reconstruction for autonomous robotic operations
Dyrstad et al. Bin picking of reflective steel parts using a dual-resolution convolutional neural network trained in a simulated environment
CN112668596A (zh) 三维物体识别方法及装置、识别模型训练方法及装置
Oleksiienko et al. Vpit: Real-time embedded single object 3d tracking using voxel pseudo images
US11475631B2 (en) Training dataset generation for depth measurement
EP4206977A1 (en) Electronic device and control method of electronic device
JP2024013228A (ja) ビルディングシーンのセグメント化
CN116324884A (zh) 用于视觉定位的设备和方法
Singh Extended Indoor Layout Estimation using Monocular RGB for Efficient Path Planning and Navigation
Rodríguez Torres Estimation of 3D object pose for packing problem with a deep learning approach
CN117333463A (zh) 一种排水管网检测方法、系统、计算机设备及介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180813

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191004

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191004

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210601

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210630

R150 Certificate of patent or registration of utility model

Ref document number: 6907206

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150