JP2024501161A - 画像または映像におけるオブジェクトの3次元場所特定 - Google Patents
画像または映像におけるオブジェクトの3次元場所特定 Download PDFInfo
- Publication number
- JP2024501161A JP2024501161A JP2023533933A JP2023533933A JP2024501161A JP 2024501161 A JP2024501161 A JP 2024501161A JP 2023533933 A JP2023533933 A JP 2023533933A JP 2023533933 A JP2023533933 A JP 2023533933A JP 2024501161 A JP2024501161 A JP 2024501161A
- Authority
- JP
- Japan
- Prior art keywords
- root
- root position
- raw data
- location
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004807 localization Effects 0.000 title description 3
- 230000005055 memory storage Effects 0.000 claims abstract description 39
- 238000004891 communication Methods 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims description 62
- 230000008569 process Effects 0.000 claims description 8
- 238000012935 Averaging Methods 0.000 claims description 4
- 230000001052 transient effect Effects 0.000 claims 1
- 210000002683 foot Anatomy 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 210000001226 toe joint Anatomy 0.000 description 6
- 210000001503 joint Anatomy 0.000 description 5
- 210000004394 hip joint Anatomy 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 210000000544 articulatio talocruralis Anatomy 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000002414 leg Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000004197 pelvis Anatomy 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/06—Topological mapping of higher dimensional structures onto lower dimensional surfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
- G06V20/647—Three-dimensional objects by matching two-dimensional images to three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Length Measuring Devices By Optical Means (AREA)
- Magnetic Resonance Imaging Apparatus (AREA)
Abstract
ある装置が、提供される。本装置は、未加工データを受信するための通信インターフェースを含む。未加工データは、2次元における、実際のオブジェクトの表現を含む。本装置はさらに、未加工データおよび参照データを記憶するためのメモリ記憶ユニットを含む。加えて、本装置は、未加工データおよび参照データを受信するためのスケール推定エンジンを含む。スケール推定エンジンは、参照データを用いた未加工データの分析に基づいて、3次元空間内の実際のオブジェクトの第1のルート位置を計算するためのものである。さらに、本装置は、第1のルート位置に基づいて、出力データを生成するためのアグリゲータを含む。出力データは、外部デバイスに伝送されることになる。
Description
(背景)
画像捕捉デバイスは、概して、単眼カメラを使用して、カメラの前の画像を捕捉する。画像は、次いで、画像ファイルに保存され、これは、続いて、画面上に表示される、または他の媒体上で複製され得る。画像捕捉デバイスの前のオブジェクトは、3次元であるが、単眼カメラによって捕捉される、画像ファイル内の表現は、2次元である。画像を視認するとき、人々は、多くの場合、画像内に存在し得る、種々の手がかりを使用して、2次元画像から3次元構造を分析するための能力に基づいて、2次元画像内のオブジェクトの3次元場所を推測することが可能である。
画像捕捉デバイスは、概して、単眼カメラを使用して、カメラの前の画像を捕捉する。画像は、次いで、画像ファイルに保存され、これは、続いて、画面上に表示される、または他の媒体上で複製され得る。画像捕捉デバイスの前のオブジェクトは、3次元であるが、単眼カメラによって捕捉される、画像ファイル内の表現は、2次元である。画像を視認するとき、人々は、多くの場合、画像内に存在し得る、種々の手がかりを使用して、2次元画像から3次元構造を分析するための能力に基づいて、2次元画像内のオブジェクトの3次元場所を推測することが可能である。
種々のコンピュータビジョンアルゴリズムが、カメラシステムから3次元データを生成するために開発されている。例えば、同期されたマルチビューシステムは、3次元三角測量によって、オブジェクトを3次元において再構築するために使用されることができる。複数の単眼システムからの3次元場所特定を組み合わせることもまた、3次元オブジェクト場所特定を生成するための解決策であり得る。
オブジェクトの3次元ルート位置を推定するための装置および方法が、提供される。本装置は、特に、限定されず、スマートフォンまたはタブレット等の携帯用電子デバイス上のものを含む、任意の単眼カメラシステムであってもよい。単眼カメラシステムを用いて捕捉される画像を使用することによって、本装置は、3次元空間内のオブジェクトのルート位置を推定し得る。ある実施例では、本装置は、3次元ルート位置を推定するために、オブジェクトと関連付けられる既知の参照データを使用してもよい。他の実施例では、付加的な推定方法が、単一の方法と関連付けられ得る、任意の誤差を低減させるために集約され得る、複数の推定を行うために使用されてもよい。
ここで、実施例のみとして、付随の図面の参照が、行われるであろう。
(詳細な説明)
本明細書で使用されるように、絶対的な配向(例えば、「上部」、「底部」、「上」、「下」、「左」、「右」、「低」、「高」等)を示唆する用語の使用はいずれも、例証的利便性のためにあり、特定の図に示される配向を指し得る。しかしながら、そのような用語は、種々の構成要素が、実践では、説明される、もしくは示されるものと同一、または異なる配向において利用されるであろうことが想定されるため、限定する意味合いにおいて解釈されないものとする。
本明細書で使用されるように、絶対的な配向(例えば、「上部」、「底部」、「上」、「下」、「左」、「右」、「低」、「高」等)を示唆する用語の使用はいずれも、例証的利便性のためにあり、特定の図に示される配向を指し得る。しかしながら、そのような用語は、種々の構成要素が、実践では、説明される、もしくは示されるものと同一、または異なる配向において利用されるであろうことが想定されるため、限定する意味合いにおいて解釈されないものとする。
単眼カメラを用いて画像を捕捉するシステムが、一般的になってきている。例えば、電話等の多くの携帯用電子デバイスは、今では、画像を捕捉するためのカメラシステムを含む。携帯用電子デバイスによって捕捉される画像は、人物等のオブジェクトの表現を含み得る。2次元画像を視認する人物は、オブジェクトの3次元場所を推測することが可能であり得るが、それは、多くの携帯用電子デバイスにとって簡単なタスクではない場合がある。3次元空間内のオブジェクトの場所を特定することが、付加的な処理のために使用され得る。例えば、オブジェクトは、さらなる分析のために、映像内で追跡され得る。他の実施例では、3次元における移動が、後続の再生のために記録され得る。別の実施例として、オブジェクトは、拡張現実の特徴を生成するため等、動画を生成するために追跡され得る。
3次元空間内のオブジェクトの位置を追跡および推定するために、オブジェクトに関するルート位置が、定義されることになる。人体等のいくつかのオブジェクトは、T姿勢と別の人間姿勢との間等で、形状および形態を変化させ得るため、オブジェクトの他の部分に対して、実質的に移動しない、オブジェクトの点に関するルート位置が、概して、選定される。例えば、人間のルート位置は、股関節間の中間点として定義される、ある点であってもよい。他の実施例では、ルート位置は、首の付け根において定義される点、または身体の中心に位置する、ある他の点であってもよい。故に、オブジェクトのルート位置の場所は、3次元空間内のオブジェクトの一般的な位置であることが理解され得、時間の経過に伴う、ルート位置の移動は、概して、手を振るジェスチャ等のオブジェクトの一部の移動の代わりに、全体としてのオブジェクトの移動に対応すると見なされ得る。
図1を参照すると、単眼カメラシステムによって取り込まれる2次元画像から、ルート位置の3次元場所を推定するための装置の概略表現が、概して、50において示されている。装置50は、装置50のユーザと相互作用するためのインジケータ等の種々の付加的なインターフェースおよび/または入/出力デバイス等の付加的な構成要素を含んでもよい。本相互作用は、装置50、または装置50が動作するシステムの動作状態を視認すること、装置50のパラメータを更新すること、または装置50をリセットすることを含んでもよい。本実施例では、装置50は、通信インターフェース55と、メモリ記憶ユニット60と、スケール推定エンジン65と、アグリゲータ80とを含む。
通信インターフェース55は、実際のオブジェクトを表す、未加工データを受信するためのものである。未加工データは、単一のカメラが、画像を捕捉し、3次元空間内のオブジェクトの2次元表現を生成する、単眼カメラシステムから受信される。未加工データ内の2次元表現は、特に、限定されず、人間姿勢を推定するために、wrnchAIエンジン内で使用されるもの等の姿勢推定モデルによって生成される、2次元骨格であってもよい。オブジェクトが人物ではない、実施例では、姿勢を推定するための別のモデルが、使用されてもよい。故に、通信インターフェース55において受信される未加工データは、ある程度、事前処理されてもよい。通信インターフェース55は、特に、限定されない。例えば、装置50は、スマートフォン、または未加工データを捕捉するための単眼カメラシステム(図示せず)を含む、他の携帯用電子デバイスの一部であってもよい。故に、本実施例では、通信インターフェース55は、携帯用電子デバイスの装置50部分をカメラシステムと接続するために、携帯用電子デバイス内に電気接続を含んでもよい。本電気接続は、携帯用電子デバイス内に種々の内部バスを含んでもよい。
他の実施例では、通信インターフェース55は、ネットワークを経由して、外部ソースと通信してもよく、これは、WiFiネットワークまたは携帯電話ネットワーク等の多数の接続されたデバイスと共有される、パブリックネットワークであってもよい。他の実施例では、通信インターフェース55は、イントラネットまたは他のデバイスとの有線接続等のプライベートネットワークを介して、外部ソースからデータを受信してもよい。別の実施例として、通信インターフェース55は、Bluetooth(登録商標)接続、無線信号、または赤外線信号を介して、別の近接するデバイスに接続してもよい。特に、通信インターフェース55は、メモリ記憶ユニット60上に記憶されることになる、外部ソースからの未加工データを受信するためのものである。外部ソースは、特に、限定されず、装置50は、外部カメラシステムまたは遠隔カメラシステムと通信してもよい。例えば、単眼カメラシステムは、映像カメラ、ウェブカメラ、または他の画像センサ等の別個の専用カメラシステムであってもよい。他の実施例では、外部ソースは、別のスマートフォンまたはファイルサービス等の別の携帯用電子デバイスであってもよい。
未加工データによって表される画像のコンテンツは、特に、限定されず、人物、動物、車両等、3次元におけるオブジェクトの任意の2次元表現であってもよい。一般に、それに関するルート位置が推定される、未加工データ内の着目オブジェクトは、3次元空間内で移動し得るオブジェクトであるが、しかしながら、本オブジェクトはまた、他の実施例では、静止オブジェクトであってもよい。未加工データ内のオブジェクトとしての人物の実施例を続けると、人物は、T姿勢位置に立っていてもよい。他の実施例では、人物はまた、A姿勢位置、またはカメラシステムのビューから遮られる、1つ以上の関節を有し得る、自然姿勢であってもよい。
メモリ記憶ユニット60は、通信インターフェース55を介して受信される、未加工データを記憶するためのものである。本実施例では、メモリ記憶ユニット60は、最終的に、3次元空間内のオブジェクトの移動を追跡するために、2次元における映像データのフレームを表す、複数の2次元画像を記憶してもよい。特に、オブジェクトは、スポーツをプレーする、またはダンスもしくは演技等の芸術を演じる等、移動し、種々のアクションを実施する、人物であり得る。本実施例は、人物の2次元画像に関するが、他の実施例はまた、動物または機械等の異なるタイプのオブジェクトを表す、画像も含み得ることが、本説明の利益を伴って理解されるはずである。
メモリ記憶ユニット60はまた、装置50によって使用される、参照データを記憶するために使用されてもよい。例えば、メモリ記憶ユニット60は、カメラからの既知距離における、オブジェクトの高さの種々の参照データを記憶してもよい。オブジェクトとしての人物の本実施例を続けると、参照データは、単眼カメラシステムからの種々の距離における、人物の1つ以上の高さを含んでもよい。参照データの生成は、特に、限定されず、具体的なカメラシステムのために測定および較正され、メモリ記憶ユニット60の上へ転送されてもよい。他の実施例では、参照データは、既知情報が、1つ以上の較正画像に関して提供される、較正ステップの間に、具体的なカメラシステムのために取得されてもよい。
本実施例では、メモリ記憶ユニット60は、特に、限定されず、任意の電子、磁性、光学、または他の物理記憶デバイスであり得る、非一過性機械可読記憶媒体を含む。メモリ記憶ユニット60が、データベースを維持するために使用される、物理的コンピュータ可読媒体であってもよい、または中央サーバもしくはクラウドサーバ等の1つ以上の外部サーバを横断して分配され得る、複数の媒体を含んでもよいことは、本説明から利益を享受する当業者によって理解されるはずである。メモリ記憶ユニット60は、通信インターフェース55を介して受信される、未加工データ、および生成される、または通信インターフェース55を介しても受信され得る、参照データ等の情報を記憶するために使用されてもよい。加えて、メモリ記憶ユニット60は、一般的な動作に関する命令等、一般に、装置50を動作させるために使用される、付加的なデータを記憶するために使用されてもよい。さらに、メモリ記憶ユニット60は、種々のアプリケーションをサポートするための機能性等、一般的な機能性を装置50に提供するために、プロセッサによって実行可能である、オペレーティングシステムを記憶してもよい。メモリ記憶ユニット60は、付加的に、スケール推定エンジン65およびアグリゲータ80を動作させるための命令を記憶してもよい。さらに、メモリ記憶ユニット60はまた、カメラおよびユーザインターフェース等の装置50上にインストールされ得る、他の構成要素および任意の周辺デバイスを動作させるための制御命令も記憶してもよい。
スケール推定エンジン65は、メモリ記憶ユニットから、未加工データおよび参照データを受信するためのものである。スケール推定エンジン65は、次いで、通信インターフェース55を介して受信される、未加工データ、およびメモリ記憶ユニット60内に記憶される、参照データを分析し、未加工データ内のオブジェクトのルート位置を計算する。オブジェクトおよびルート位置の定義が、特に、限定されないことが、当業者によって理解されるはずである。一般に、オブジェクトのルート位置は、3次元空間内のその場所を最良に表す、オブジェクトの点として定義されてもよい。オブジェクトとしての人間の実施例を続けると、ルート位置は、人物の3次元骨格表現の左股関節と右股関節との間の線上の中点として定義されてもよい。他の実施例では、3次元骨格の頭部、またはより精密には、左眼と右眼との間の線上の中点等、異なるルート位置が、選択されてもよい。別の実施例として、首もまた、ルート位置として選択されてもよい。
スケール推定エンジン65が、ルート位置を計算する方法は、特に、限定されない。例えば、スケール推定エンジン65は、参照データ内の基準高さを、未加工データ内のオブジェクトの実際の高さと比較してもよい。本実施例では、参照データは、カメラシステムによって捕捉される、人物の2次元表現を含む。(ピクセルの数による高さ測定値等の)参照データ内の人物の2次元高さは、既知パラメータであり、単眼カメラシステムのカメラからの距離等の3次元空間内の位置もまた、既知パラメータである。既知パラメータは、ユーザによって手動で入力される、または距離センサ(図示せず)等の周辺デバイスを使用して測定されてもよい。本実施例では、未加工データ内に表される実際の人物の2次元高さは、3次元空間内のカメラからの距離に反比例すると仮定され得る。故に、スケール推定エンジン65は、本実施例では、未加工データ内の人物のピクセルの数等の高さを判定することによって、未加工データ内の人物のルート位置を推定するために使用されてもよい。そのために、カメラからの距離が、計算され、ルート位置が、続いて、取得され得る。
他の実施例では、他のタイプのオブジェクトのルート位置が、同様の方法を使用して計算され得ることが理解されるはずである。基準高さは、特に、限定されず、いくつかの実施例では、高さではない場合もあることは、本説明から利益を享受する当業者によって理解されるはずである。特に、スケール推定エンジン65は、参照データおよび未加工データ内の2つの基準点間で特定され得る、任意の基準距離を使用してもよい。例えば、基準距離は、3次元骨格の2次元表現の股関節と足関節との間の距離等の骨区画であってもよい。
本実施例では、アグリゲータ80は、スケール推定エンジン65から受信されるルート位置に基づいて、出力データを生成するためのものである。出力データは、特に、限定されず、さらなる処理のための外部デバイスへの後続の伝送のために、メモリ記憶ユニット60上に記憶されてもよい。本実施例では、スケール推定エンジン65によって計算された単一のルート位置が、存在し得るため、出力データは、ルート位置自体であってもよい。未加工データが映像データを含む、他の実施例では、アグリゲータ80は、出力データが、追跡データを表すように、複数のフレームのルート位置を組み合わせてもよい。
図2を参照すると、単眼カメラシステムによって取り込まれる2次元画像内のオブジェクトのルート位置の3次元場所を推定する、例示的方法のフローチャートが、概して、200において示されている。方法200の解説を支援するために、方法200が、装置50によって実施され得ることが仮定されるであろう。実際に、方法200は、装置50が構成され得る1つの方法であり得る。さらに、方法200に関する以下の議論は、装置50およびその構成要素のさらなる理解につながり得る。加えて、方法200が、示されるような正確なシーケンスで実施されない場合があり、種々のブロックが、順にではなく並行して、または全く異なるシーケンスで実施されてもよいことが、強調されるべきである。
ブロック210を起点として、装置50は、通信インターフェース55を介して、実際のオブジェクトを表す、未加工データを受信する。本実施例では、未加工データは、オブジェクトの2次元表現である。例えば、未加工データは、単眼カメラシステムからのセンサデータによって生成される、画像ファイルであってもよい。他の実施例では、未加工データは、ファイルサーバまたは他の外部デバイス等の外部ソースから受信されてもよい。未加工データが、カメラシステムから生み出されない場合がある、または写真ではない場合があることは、当業者によって理解されるはずである。そのような実施例では、未加工データは、人物またはコンピューティングデバイスによって作成される、芸術的画像であってもよい。2次元画像の形式等、未加工データが、オブジェクトを伴う画像を表す様式は、特に、限定されない。本実施例では、未加工データは、RGB形式で受信されてもよい。他の実施例では、未加工データは、ラスタグラフィックファイル、またはカメラシステムによって捕捉および処理される、圧縮された画像ファイル等の異なる形式であってもよい。
未加工データによって表される画像のコンテンツは、特に、限定されず、人物、動物、車両等、3次元におけるオブジェクトの任意の2次元表現であってもよい。一般に、それに関するルート位置が推定される、未加工データ内の着目オブジェクトは、3次元空間内で移動し得るオブジェクトであるが、しかしながら、本オブジェクトはまた、他の実施例では、静止オブジェクトであってもよい。オブジェクトの配向も、同様に、特に、限定されない。未加工データ内のオブジェクトが人物である、実施例では、人物は、T姿勢位置に立っていてもよい。他の実施例では、人物はまた、A姿勢位置、またはカメラシステムのビューから遮られる、1つ以上の関節を有し得る、自然姿勢であってもよい。
いったん装置50において受信されると、未加工データは、それが、ブロック220において、スケール推定エンジンによる後続の使用のために記憶される、メモリ記憶ユニット60に転送されることになる。さらに、ブロック220は、メモリ記憶ユニット60内に参照データを記憶することを含む。参照データは、特に、限定されず、具体的なカメラシステムのために測定および較正され、通信インターフェース55またはフラッシュドライブ等の携帯用メモリ記憶デバイスを介して、メモリ記憶ユニット60の上へ転送されてもよい。他の実施例では、参照データは、既知情報が、1つ以上の較正画像に関して提供される、較正ステップの間に、具体的なカメラシステムのために取得されてもよい。
ブロック230は、未加工データ内の2次元画像内で表す、オブジェクトの3次元空間内のルート位置を計算することを伴う。本実施例では、ルート位置は、メモリ記憶ユニット60内に記憶される参照データに基づいて、未加工データを分析することによって、スケール推定エンジン65によって計算される。ルート位置が計算される方法は、特に、限定されず、参照データによって表される、(画像内のピクセルの数によって測定される)画像内の基準オブジェクトの基準高さを、未加工データ内のオブジェクトの実際の高さと比較することを伴ってもよい。(画像内のピクセルの数によって測定される)未加工データ内に表されるオブジェクトの2次元高さは、3次元空間内のカメラからの距離に反比例すると仮定され得る。故に、未加工データ内の人物のルート位置は、参照データと比較して、かつ参照データ内の既知パラメータを使用して推定される。
次に、ブロック240は、ブロック230において計算されたルート位置に基づいて、出力データを生成することを含む。本実施例では、スケール推定エンジン65によって計算された単一のルート位置が、存在し得るため、出力データは、ルート位置自体であってもよい。未加工データが映像データを含む、他の実施例では、アグリゲータ80は、出力データとして追跡データを生成するために、複数のフレームのルート位置を組み合わせてもよい。ブロック250は、続いて、さらなる処理のために、出力データを外部デバイスに伝送する。いくつかの実施例では、ブロック250が、出力データを同一のデバイスまたはシステム内の内部で伝送してもよいことが、本説明から利益を享受する当業者によって理解されるはずである。例えば、装置50が、付加的な後処理機能が可能である、スマートフォン等の携帯用電子デバイスの一部である場合、出力データは、同一の携帯用電子デバイス内で使用されてもよい。
図3を参照すると、単眼カメラシステムによって取り込まれる2次元画像から、ルート位置の3次元場所を推定するための装置50aの別の概略表現が、概して、示されている。装置50aの同様の構成要素は、添字「a」が続くことを除いて、装置50内のそれらの対応物と同様の参照番号を与えられる。本実施例では、装置50aは、通信インターフェース55aと、メモリ記憶ユニット60aと、スケール推定エンジン65aと、接地位置推定エンジン70aと、特徴推定エンジン75aと、アグリゲータ80aとを含む。
本実施例では、装置50aは、未加工データ内のオブジェクトのルート位置を推定するために、スケール推定エンジン65aと、接地位置推定エンジン70aと、特徴推定エンジン75aとを含む。スケール推定エンジン65aは、スケール推定エンジン65と実質的に同様に機能し、参照データと通信インターフェース55aを介して受信される未加工データとの間の測定の相対的なスケールに基づいて、ルート位置を計算する。
接地位置推定エンジン70aは、カメラに対する接地位置を使用して、オブジェクトのルート位置を計算するためのものである。特に、接地位置推定エンジン70aは、通信インターフェース55aを介して受信される未加工データの2次元画像内のオブジェクトに基づいて、接地位置を判定するためのものである。接地位置は、接地平面上にあると仮定されるオブジェクトの特徴を特定し、ホモグラフィを適用することによって判定され得る。例えば、オブジェクトが人物である場合、その人物の足は、地面上にあると仮定され得る。ホモグラフィは、次いで、未加工データの画像内の2次元位置に適用され、接地平面上の位置を判定し得る。
本実施例では、較正エンジンは、未加工データ内の画像の2次元画像と接地平面を伴う3次元表現との間で変換するために、ホモグラフィを定義するために使用されてもよい。較正エンジンがホモグラフィを定義する様式は、特に、限定されず、種々の平面検出または定義方法を伴ってもよい。
初期の較正ステップは、3次元空間内で、接地平面を検出することを伴ってもよい。接地平面の判定は、限定されず、カメラシステムを用いて、較正方法を実施することを伴ってもよい。例えば、iOSデバイス上で利用可能なARKit等のネイティブプログラムまたはモジュールは、スマートフォンまたはタブレット上で、単眼カメラシステムを較正するために使用されてもよい。本実施例では、プログラムは、図4Aに示されるように、ARKit等のモジュールによって判定されるようなカメラ座標系に対する接地平面105を生成するために、空間内でデバイスを移動させることによって取得される、複数の視点からの画像を使用してもよい。
カメラ座標系における接地平面100の判定に応じて、較正エンジンは、図4Bに示されるように、カメラ座標系における接地平面100を、T姿勢位置における骨格105がカメラに対向する、T姿勢基準系における接地平面100’に変換し得る。接地平面100を接地平面100’に変換することによって、モジュールによって判定される接地平面100が、回転または偏心された骨格105を伴わない場合があるため、オブジェクトの高さが、2次元画像からより容易に取得され得ることが理解されるはずである。
本実施例を続けると、接地位置推定エンジン70aは、T姿勢で立っている人物のルート位置を特定するために使用されてもよい。第1に、接地位置推定エンジン70aは、未加工データの2次元画像内で、踵関節110-1、110-2(総称的に、これらの踵関節は、本明細書では「踵関節110」と称され、それらは、集合的に、「踵関節110」と称される)と、つま先関節115-1および115-2(総称的に、これらのつま先関節は、本明細書では「つま先関節115」と称され、それらは、集合的に、「つま先関節115」と称される)とを特定し得る。接地位置推定エンジン70aは、各踵関節110とつま先関節115との間の中点平均である、人物の足の場所を判定する。足の場所が、既知である場合、接地位置推定エンジン70aは、較正エンジンによって判定されるような定義されたホモグラフィを用いて、未加工データからの画像内の2次元場所を平面100’上のT姿勢系に変換する。
上記の実施例は、地面の上の人物の両足を説明するが、人物が地面上に片足のみを有する実施例もまた、接地位置推定エンジン70aによって使用され、ルート位置を特定するために使用され得ることが理解されるはずである。そのような実施例では、床上の骨盤の投影が、使用され得る接地平面に対する法線を使用して判定されてもよい。特に、本場合では、足の場所は、骨盤位置を通して進む、接地平面の法線上の床上での足の投影によって表されてもよい。
平面100’上の位置が、計算された後、接地平面100’を中心とするルート位置の高さが、判定されることになる。股関節間のルート位置を伴う、人物の実施例を続けると、高さは、カメラに対する接地平面の位置および配向を把握する、カメラ距離から判定されてもよい。カメラから、骨格105によって表される人物までの距離を判定することに応じて、3次元空間内の骨格105の高さおよび幅は、判定され得る。特に、カメラ距離は、平面100’の上方のルート位置の高さを判定するために使用されてもよい。
変形例が、可能性として考えられ、3次元空間内のルート位置の判定が、他の変換および平面を伴い得ることが理解されるはずである。例えば、いくつかの実施例では、既知のカメラシステムのためのホモグラフィが、事前に定義され、メモリ記憶ユニット60aに直接アップロードされてもよい。故に、そのような実施例では、接地位置推定エンジン70aは、接地位置推定を行うことに先立って、別個の較正エンジンを使用しないであろう。代わりに、接地位置推定エンジン70aは、既知のホモグラフィを使用し得る。
特徴推定エンジン75aは、未加工データの2次元画像内で表す、オブジェクトの特徴上に、3次元姿勢推定プロセスを適用することによって使用する、オブジェクトのルート位置を計算するためのものである。本実施例では、特徴推定エンジン75aは、人物の胴部等の特徴の2次元投影、特徴の3次元測定値、およびカメラの固有のパラメータに基づいて、ルート位置を推定する。具体的な実施例として、Perspective-n-pointアルゴリズムが、カメラ座標系におけるルート位置の場所を提供するために、入力パラメータ上で実施されてもよく(図4A)、これは、T姿勢座標系に変換されてもよい(図4B)。
アグリゲータ80aは、スケール推定エンジン65a、接地位置推定エンジン70a、および特徴推定エンジン75aから受信されるルート位置に基づいて、出力データを生成するためのものである。本実施例では、アグリゲータ80aは、スケール推定エンジン65a、接地位置推定エンジン70a、および特徴推定エンジン75aのそれぞれによって計算されるルート位置を組み合わせて、出力データとして、組み合わせられたルート位置を提供するためのものである。アグリゲータ80aが、スケール推定エンジン65a、接地位置推定エンジン70a、および特徴推定エンジン75aからのルート位置を組み合わせる様式は、特に、限定されない。本実施例では、アグリゲータは、スケール推定エンジン65a、接地位置推定エンジン70a、および特徴推定エンジン75aのそれぞれから受信されるルート位置の平均を計算し、出力データとして、その平均を提供し得る。
いくつかの実施例では、アグリゲータ80aは、スケール推定エンジン65a、接地位置推定エンジン70a、および特徴推定エンジン75aのそれぞれによって判定されるようなルート位置の加重平均を計算してもよい。スケール推定エンジン65a、接地位置推定エンジン70a、および特徴推定エンジン75aの加重は、特に、限定されず、いくつかの実施例では、事前知識に依存してもよい。例えば、事前知識は、オブジェクトが、追跡されているとき等、先に判定されたルート位置を含んでもよい。本実施例では、加重は、先の距離に反比例する等、先に計算されたルート位置からの距離に依存し得る。
さらなる実施例では、アグリゲータ80aは、訓練されたモデルを使用して、スケール推定エンジン65a、接地位置推定エンジン70a、および特徴推定エンジン75aのそれぞれによって判定されるような位置から、出力データを生成してもよい。本モデルは、スケール推定エンジン65a、接地位置推定エンジン70a、および特徴推定エンジン75aのそれぞれによって判定されるノイズの多いルート位置から、信頼可能な推定されたルート位置を生成し得る、機械学習モデルを含んでもよい。
さらなる実施例では、アグリゲータ80aは、スケール推定エンジン65a、接地位置推定エンジン70a、および特徴推定エンジン75aのうちの任意の1つ以上から、ルート位置の外れ値の判定を破棄してもよい。外れ値は、事前知識からの先に測定されたルート位置からの距離に基づいて判定されてもよい。本実施例では、所定の閾値が、外れ値を特定するために使用されてもよい。
スケール推定エンジン65a、接地位置推定エンジン70a、および特徴推定エンジン75aがそれぞれ、ルート位置の合理的な推定を提供することができない場合があることは、本説明から利益を享受する当業者によって理解されるはずである。スケール推定エンジン65a、接地位置推定エンジン70a、および特徴推定エンジン75aはそれぞれ、未加工データ内で捕捉される、ある画像に関するモデルにおいて、固有の弱点を有し得る。例えば、スケール推定エンジン65aは、人物が、姿勢推定器によって特定されることができない、通常ではない姿勢にあることに起因して、未加工データ内の高さが、正確に特定され、参照データと比較されることができない場合、不正確であり得る。接地位置推定エンジン70aの場合では、ルート位置の推定は、人物が、飛び跳ねた、または地面から脚部を離れるように上昇させた場合等、人物の足が、地面上にない場合に、影響を受け得る。特徴推定エンジン75aは、胴体等の特徴が、捩れているために非可視であった場合、失敗し得る。故に、投票システムが、使用されてもよい、または外れ値が、他の2つの推定エンジンによって計算されるルート位置から離れた閾値距離にあるものとして、特定されてもよい。
さらなる実施例では、変形例が、可能性として考えられることを理解されたい。例えば、スケール推定エンジン65a、接地位置推定エンジン70a、および特徴推定エンジン75aはそれぞれ、ルート位置の推定を提供し得ることを理解されたい。故に、スケール推定エンジン65a、接地位置推定エンジン70a、および特徴推定エンジン75aのうちの1つ以上が、いくつかの実施例では、省略されてもよい。さらに、ルート位置を推定する異なる方法を伴う、1つ以上の他のエンジンが、装置50aに追加され得ることは、本説明から利益を享受する当業者によって理解されるはずである。付加的なエンジンは、上記に説明される方法を使用して組み合わせるために、アグリゲータ80aのための付加的なルート位置を計算してもよい。
図5を参照すると、単眼カメラシステムによって取り込まれる2次元画像内のオブジェクトのルート位置の3次元場所を推定する別の例示的方法のフローチャートが、概して、200aにおいて示されている。方法200aの解説を支援するために、方法200aが、装置50aによって実施され得ることが仮定されるであろう。実際に、方法200aは、装置50aが構成され得る1つの方法であり得る。さらに、方法200aに関する以下の議論は、装置50aおよびその構成要素のさらなる理解につながり得る。加えて、方法200aが、示されるような正確なシーケンスで実施されない場合があり、種々のブロックが、順にではなく並行して、または全く異なるシーケンスで実施されてもよいことが、強調されるべきである。方法200aの同様の構成要素は、添字「a」が続くことを除いて、方法200内のそれらの対応物と同様の参照番号を与えられる。本実施例では、ブロック210a、220a、240a、および250aは、ブロック210、220、240、および250と実質的に同様である。
ブロック230aは、スケール推定エンジン65a、接地位置推定エンジン70a、および/または特徴推定エンジン75aを用いて等、複数の方法を使用して、未加工データ内の2次元画像内で表す、オブジェクトの3次元空間内のルート位置を計算することを伴う。ある実施例では、ルート位置は、メモリ記憶ユニット60a内に記憶される参照データに基づいて、未加工データを分析することによって、スケール推定エンジン65aによって計算されてもよい。ルート位置はまた、ホモグラフィに基づいて、接地平面上の接地位置を判定することに基づいて、接地位置推定エンジン70aによって計算されてもよい。ホモグラフィは、特に、限定されず、較正エンジンを使用して定義される、または既知のカメラシステムのために提供されてもよい。さらに、ルート位置は、人物の胴体等の未加工データ内のオブジェクトの特徴上に、3次元姿勢推定プロセスを適用することに基づいて、計算されてもよい。複数の方法を使用することによって、スケール推定エンジン65a、接地位置推定エンジン70a、および/または特徴推定エンジン75aのうちの1つが、正確な推定を提供することができない場合であっても、比較的精密なルート位置の推定が、取得され得ることが理解されるはずである。
次に、ブロック235aは、ブロック230aからのスケール推定エンジン65a、接地位置推定エンジン70a、および/または特徴推定エンジン75aのそれぞれから、計算されたルート位置を組み合わせることを含む。ルート位置が組み合わせられる様式は、特に、限定されない。例えば、アグリゲータ80aは、ブロック230aから受信される、計算されたルート位置の単純平均を取り込んでもよい。他の実施例では、アグリゲータは、事前知識等の種々の因子に基づいて、ブロック230aから受信される値を加重してもよい。さらなる実施例では、アグリゲータ80aはまた、モデル誤差の影響を低減させるために、ブロック230aから受信される外れ値を破棄してもよい。組み合わせられたルート位置は、次いで、ブロック240aにおいて、出力データを生成するために使用される。
図6を参照すると、単眼カメラシステムによって取り込まれる2次元画像から、ルート位置の3次元場所を推定するための装置50bの別の概略表現が、概して、示されている。装置50bの同様の構成要素は、添字「b」が続くことを除いて、装置50a内のそれらの対応物と同様の参照番号を与えられる。本実施例では、装置50bは、通信インターフェース55bと、メモリ記憶ユニット60bと、プロセッサ85bと、カメラ90bとを含む。プロセッサ85bは、スケール推定エンジン65b、接地位置推定エンジン70b、特徴推定エンジン75b、およびアグリゲータ80bを動作させるためのものである。
本実施例では、メモリ記憶ユニット60bはまた、装置50bによって使用される、種々のデータを記憶するために、データベースを維持し得る。例えば、メモリ記憶ユニット60bは、カメラ90bから受信される画像等の未加工データを記憶するためのデータベース300bと、スケール推定エンジン65b、接地位置推定エンジン70b、および/または特徴推定エンジン75bによって生成されるルート位置推定値を記憶するためのデータベース310bとを含んでもよい。加えて、メモリ記憶ユニット60bは、装置50bに一般的な機能性を提供するために、プロセッサ85bによって実行可能である、オペレーティングシステム320bを含んでもよい。さらに、メモリ記憶ユニット60bは、方法200または方法200aを実施するために、具体的なステップを遂行するようにプロセッサ85bに指示するためのコードを用いて、エンコードされてもよい。メモリ記憶ユニット60bはまた、ドライバレベルにおいて動作を遂行するための命令、ならびに入力を受信する、または出力を提供するための種々のユーザインターフェース等の装置50bの他の構成要素および周辺デバイスと通信するための他のハードウェアドライバを記憶してもよい。さらに、メモリ記憶ユニット60bはまた、カメラ固有のもの、接地平面の場所特定、およびホモグラフィ等の較正情報も記憶し得る。
カメラ90bは、画像を未加工データとして捕捉するための単眼カメラシステムである。本実施例では、未加工データは、RGB形式で捕捉されてもよい。他の実施例では、未加工データは、ラスタグラフィックファイルまたは圧縮された画像ファイル等の異なる形式であってもよい。本実施例では、装置50bが、カメラ90bを伴うスマートフォン等の携帯用電子デバイスであり得ることが、本説明から利益を享受する当業者によって理解されるはずである。
上記に提供される種々の実施例の特徴および側面は、本開示の範囲内にも該当する、さらなる実施例の中に組み合わされてもよいことを認識されたい。
本願明細書は、例えば、以下の項目も提供する。
(項目1)
装置であって、
未加工データを受信するための通信インターフェースであって、前記未加工データは、2次元における実際のオブジェクトの表現を含む、通信インターフェースと、
前記未加工データおよび参照データを記憶するためのメモリ記憶ユニットと、
前記未加工データおよび前記参照データを受信するためのスケール推定エンジンであって、前記スケール推定エンジンは、前記参照データを用いた前記未加工データの分析に基づいて、3次元空間内の前記実際のオブジェクトの第1のルート位置を計算するためのものである、スケール推定エンジンと、
前記第1のルート位置に基づいて、出力データを生成するためのアグリゲータであって、前記出力データは、外部デバイスに伝送されることになる、アグリゲータと
を備える、装置。
(項目2)
前記スケール推定エンジンは、前記参照データ内の基準高さを前記未加工データ内の実際の高さと比較し、第1のルート位置を判定するためのものである、項目1に記載の装置。
(項目3)
前記未加工データおよびホモグラフィに基づいて、接地位置を判定するための接地位置推定エンジンをさらに備え、前記接地位置は、第2のルート位置を計算するために使用され、前記アグリゲータは、前記第2のルート位置を前記第1のルート位置と組み合わせて、前記出力データを生成するためのものである、項目1または2に記載の装置。
(項目4)
前記ホモグラフィを定義するための較正エンジンをさらに備える、項目3に記載の装置。
(項目5)
前記実際のオブジェクトの特徴上に、3次元姿勢推定プロセスを適用することによって、第3のルート位置を計算するための特徴推定エンジンをさらに備え、前記アグリゲータは、前記第3のルート位置を前記第1のルート位置および前記第2のルート位置と組み合わせて、前記出力データを生成するためのものである、項目3または4に記載の装置。
(項目6)
前記アグリゲータは、前記第1のルート位置、前記第2のルート位置、および前記第3のルート位置を平均化し、出力データを生成する、項目5に記載の装置。
(項目7)
前記アグリゲータは、前記第1のルート位置、前記第2のルート位置、および前記第3のルート位置の加重平均を計算し、出力データを生成する、項目6に記載の装置。
(項目8)
前記加重平均は、前記第1のルート位置、前記第2のルート位置、および前記第3のルート位置の事前知識に基づく、項目7に記載の装置。
(項目9)
前記アグリゲータは、前記第1のルート位置、前記第2のルート位置、および前記第3のルート位置のうちの1つが、外れ値であるかどうかを判定し、前記アグリゲータは、前記外れ値を破棄する、項目6~8のうちのいずれか1項に記載の装置。
(項目10)
前記実際のオブジェクトは、人間である、項目1~9のうちのいずれか1項に記載の装置。
(項目11)
方法であって、
通信インターフェースを介して、未加工データを受信することであって、前記未加工データは、2次元における実際のオブジェクトの表現を含む、ことと、
前記未加工データおよび参照データをメモリ記憶ユニット内に記憶することと、
スケール推定エンジンによって、前記参照データを用いた前記未加工データの分析に基づいて、3次元空間内の前記実際のオブジェクトの第1のルート位置を計算することと、
前記第1のルート位置に基づいて、出力データを生成することと、
前記出力データを外部デバイスに伝送することと
を含む、方法。
(項目12)
前記第1のルート位置を計算することは、前記参照データ内の基準高さを前記未加工データ内の実際の高さと比較し、第1のルート位置を判定することを含む、項目11に記載の方法。
(項目13)
接地位置推定エンジンを用いて、前記未加工データおよびホモグラフィに基づいて、接地位置を判定することと、
前記接地位置に基づいて、前記接地位置推定エンジンを用いて、第2のルート位置を計算することと、
アグリゲータを用いて、前記第2のルート位置を前記第1のルート位置と組み合わせて、前記出力データを生成することと
をさらに含む、項目11または12に記載の方法。
(項目14)
較正エンジンを用いて、前記ホモグラフィを定義することをさらに含む、項目13に記載の方法。
(項目15)
特徴推定エンジンを用いて、前記実際のオブジェクトの特徴上に、3次元姿勢推定プロセスを適用することによって、第3のルート位置を計算することと、
前記アグリゲータを用いて、前記第2のルート位置を前記第1のルート位置および前記第2のルート位置と組み合わせて、前記出力データを生成することと
をさらに含む、項目13または14に記載の方法。
(項目16)
組み合わせることは、前記第1のルート位置、前記第2のルート位置、および前記第3のルート位置を平均化することを含む、項目15に記載の方法。
(項目17)
前記第1のルート位置、前記第2のルート位置、および前記第3のルート位置を平均化することは、加重平均を計算し、出力データを生成することを含む、項目16に記載の方法。
(項目18)
前記加重平均を、前記第1のルート位置、前記第2のルート位置、および前記第3のルート位置の事前知識に基づかせることをさらに含む、項目17に記載の方法。
(項目19)
前記第1のルート位置、前記第2のルート位置、および前記第3のルート位置のうちの1つが、外れ値であるかどうかを判定することと、
前記外れ値を破棄することと
をさらに含む、項目16~18のうちのいずれか1項に記載の方法。
(項目20)
前記実際のオブジェクトは、人間である、項目11~19のうちのいずれか1項に記載の方法。
(項目21)
コードを用いてエンコードされる、非一過性コンピュータ可読媒体であって、前記コードは、
通信インターフェースを介して、未加工データを受信することであって、前記未加工データは、2次元における人物の表現を含む、ことと、
前記未加工データおよび参照データをメモリ記憶ユニット内に記憶することと
前記参照データを用いた前記未加工データの分析に基づいて、3次元空間内の前記人物の第1のルート位置を計算することと、
前記第1のルート位置に基づいて、出力データを生成することと、
前記出力データを外部デバイスに伝送することと
を行うようにプロセッサに指示するためのものである、非一過性コンピュータ可読媒体。
(項目22)
前記コードは、前記第1のルート位置を計算するように前記プロセッサに指示するためのものであり、前記参照データ内の基準高さを前記未加工データ内の実際の高さと比較し、第1のルート位置を判定することを含む、項目21に記載の非一過性コンピュータ可読媒体。
(項目23)
前記コードは、
前記未加工データおよびホモグラフィに基づいて、接地位置を判定することと、
前記接地位置に基づいて、第2のルート位置を計算することと、
前記第2のルート位置を前記第1のルート位置と組み合わせて、前記出力データを生成することと
を行うように前記プロセッサに指示するためのものである、項目21または22に記載の非一過性コンピュータ可読媒体。
(項目24)
前記コードは、前記ホモグラフィを定義するように前記プロセッサに指示するためのものである、項目23に記載の非一過性コンピュータ可読媒体。
(項目25)
前記コードは、
前記人物の特徴上に、3次元姿勢推定プロセスを適用することによって、第3のルート位置を計算することと、
前記第2のルート位置を前記第1のルート位置および前記第2のルート位置と組み合わせて、前記出力データを生成することと
を行うように前記プロセッサに指示するためのものである、項目23または24に記載の非一過性コンピュータ可読媒体。
(項目26)
前記コードは、組み合わせるとき、前記第1のルート位置、前記第2のルート位置、および前記第3のルート位置を平均化するように前記プロセッサに指示するためのものである、項目25に記載の非一過性コンピュータ可読媒体。
(項目27)
前記コードは、加重平均を計算して出力データを生成するように前記プロセッサに指示するためのものである、項目26に記載の非一過性コンピュータ可読媒体。
(項目28)
前記コードは、前記加重平均を、前記第1のルート位置、前記第2のルート位置、および前記第3のルート位置の事前知識に基づかせるように前記プロセッサに指示するためのものである、項目26に記載の非一過性コンピュータ可読媒体。
(項目29)
前記コードは、
前記第1のルート位置、前記第2のルート位置、および前記3番目のルート位置のうちの1つが、外れ値であるかどうかを判定することと、
前記外れ値を破棄することと
を行うように前記プロセッサに指示するためのものである、項目26~28のうちのいずれか1項に記載の非一過性コンピュータ可読媒体。
ここで、実施例のみとして、付随の図面の参照が、行われるであろう。
(項目1)
装置であって、
未加工データを受信するための通信インターフェースであって、前記未加工データは、2次元における実際のオブジェクトの表現を含む、通信インターフェースと、
前記未加工データおよび参照データを記憶するためのメモリ記憶ユニットと、
前記未加工データおよび前記参照データを受信するためのスケール推定エンジンであって、前記スケール推定エンジンは、前記参照データを用いた前記未加工データの分析に基づいて、3次元空間内の前記実際のオブジェクトの第1のルート位置を計算するためのものである、スケール推定エンジンと、
前記第1のルート位置に基づいて、出力データを生成するためのアグリゲータであって、前記出力データは、外部デバイスに伝送されることになる、アグリゲータと
を備える、装置。
(項目2)
前記スケール推定エンジンは、前記参照データ内の基準高さを前記未加工データ内の実際の高さと比較し、第1のルート位置を判定するためのものである、項目1に記載の装置。
(項目3)
前記未加工データおよびホモグラフィに基づいて、接地位置を判定するための接地位置推定エンジンをさらに備え、前記接地位置は、第2のルート位置を計算するために使用され、前記アグリゲータは、前記第2のルート位置を前記第1のルート位置と組み合わせて、前記出力データを生成するためのものである、項目1または2に記載の装置。
(項目4)
前記ホモグラフィを定義するための較正エンジンをさらに備える、項目3に記載の装置。
(項目5)
前記実際のオブジェクトの特徴上に、3次元姿勢推定プロセスを適用することによって、第3のルート位置を計算するための特徴推定エンジンをさらに備え、前記アグリゲータは、前記第3のルート位置を前記第1のルート位置および前記第2のルート位置と組み合わせて、前記出力データを生成するためのものである、項目3または4に記載の装置。
(項目6)
前記アグリゲータは、前記第1のルート位置、前記第2のルート位置、および前記第3のルート位置を平均化し、出力データを生成する、項目5に記載の装置。
(項目7)
前記アグリゲータは、前記第1のルート位置、前記第2のルート位置、および前記第3のルート位置の加重平均を計算し、出力データを生成する、項目6に記載の装置。
(項目8)
前記加重平均は、前記第1のルート位置、前記第2のルート位置、および前記第3のルート位置の事前知識に基づく、項目7に記載の装置。
(項目9)
前記アグリゲータは、前記第1のルート位置、前記第2のルート位置、および前記第3のルート位置のうちの1つが、外れ値であるかどうかを判定し、前記アグリゲータは、前記外れ値を破棄する、項目6~8のうちのいずれか1項に記載の装置。
(項目10)
前記実際のオブジェクトは、人間である、項目1~9のうちのいずれか1項に記載の装置。
(項目11)
方法であって、
通信インターフェースを介して、未加工データを受信することであって、前記未加工データは、2次元における実際のオブジェクトの表現を含む、ことと、
前記未加工データおよび参照データをメモリ記憶ユニット内に記憶することと、
スケール推定エンジンによって、前記参照データを用いた前記未加工データの分析に基づいて、3次元空間内の前記実際のオブジェクトの第1のルート位置を計算することと、
前記第1のルート位置に基づいて、出力データを生成することと、
前記出力データを外部デバイスに伝送することと
を含む、方法。
(項目12)
前記第1のルート位置を計算することは、前記参照データ内の基準高さを前記未加工データ内の実際の高さと比較し、第1のルート位置を判定することを含む、項目11に記載の方法。
(項目13)
接地位置推定エンジンを用いて、前記未加工データおよびホモグラフィに基づいて、接地位置を判定することと、
前記接地位置に基づいて、前記接地位置推定エンジンを用いて、第2のルート位置を計算することと、
アグリゲータを用いて、前記第2のルート位置を前記第1のルート位置と組み合わせて、前記出力データを生成することと
をさらに含む、項目11または12に記載の方法。
(項目14)
較正エンジンを用いて、前記ホモグラフィを定義することをさらに含む、項目13に記載の方法。
(項目15)
特徴推定エンジンを用いて、前記実際のオブジェクトの特徴上に、3次元姿勢推定プロセスを適用することによって、第3のルート位置を計算することと、
前記アグリゲータを用いて、前記第2のルート位置を前記第1のルート位置および前記第2のルート位置と組み合わせて、前記出力データを生成することと
をさらに含む、項目13または14に記載の方法。
(項目16)
組み合わせることは、前記第1のルート位置、前記第2のルート位置、および前記第3のルート位置を平均化することを含む、項目15に記載の方法。
(項目17)
前記第1のルート位置、前記第2のルート位置、および前記第3のルート位置を平均化することは、加重平均を計算し、出力データを生成することを含む、項目16に記載の方法。
(項目18)
前記加重平均を、前記第1のルート位置、前記第2のルート位置、および前記第3のルート位置の事前知識に基づかせることをさらに含む、項目17に記載の方法。
(項目19)
前記第1のルート位置、前記第2のルート位置、および前記第3のルート位置のうちの1つが、外れ値であるかどうかを判定することと、
前記外れ値を破棄することと
をさらに含む、項目16~18のうちのいずれか1項に記載の方法。
(項目20)
前記実際のオブジェクトは、人間である、項目11~19のうちのいずれか1項に記載の方法。
(項目21)
コードを用いてエンコードされる、非一過性コンピュータ可読媒体であって、前記コードは、
通信インターフェースを介して、未加工データを受信することであって、前記未加工データは、2次元における人物の表現を含む、ことと、
前記未加工データおよび参照データをメモリ記憶ユニット内に記憶することと
前記参照データを用いた前記未加工データの分析に基づいて、3次元空間内の前記人物の第1のルート位置を計算することと、
前記第1のルート位置に基づいて、出力データを生成することと、
前記出力データを外部デバイスに伝送することと
を行うようにプロセッサに指示するためのものである、非一過性コンピュータ可読媒体。
(項目22)
前記コードは、前記第1のルート位置を計算するように前記プロセッサに指示するためのものであり、前記参照データ内の基準高さを前記未加工データ内の実際の高さと比較し、第1のルート位置を判定することを含む、項目21に記載の非一過性コンピュータ可読媒体。
(項目23)
前記コードは、
前記未加工データおよびホモグラフィに基づいて、接地位置を判定することと、
前記接地位置に基づいて、第2のルート位置を計算することと、
前記第2のルート位置を前記第1のルート位置と組み合わせて、前記出力データを生成することと
を行うように前記プロセッサに指示するためのものである、項目21または22に記載の非一過性コンピュータ可読媒体。
(項目24)
前記コードは、前記ホモグラフィを定義するように前記プロセッサに指示するためのものである、項目23に記載の非一過性コンピュータ可読媒体。
(項目25)
前記コードは、
前記人物の特徴上に、3次元姿勢推定プロセスを適用することによって、第3のルート位置を計算することと、
前記第2のルート位置を前記第1のルート位置および前記第2のルート位置と組み合わせて、前記出力データを生成することと
を行うように前記プロセッサに指示するためのものである、項目23または24に記載の非一過性コンピュータ可読媒体。
(項目26)
前記コードは、組み合わせるとき、前記第1のルート位置、前記第2のルート位置、および前記第3のルート位置を平均化するように前記プロセッサに指示するためのものである、項目25に記載の非一過性コンピュータ可読媒体。
(項目27)
前記コードは、加重平均を計算して出力データを生成するように前記プロセッサに指示するためのものである、項目26に記載の非一過性コンピュータ可読媒体。
(項目28)
前記コードは、前記加重平均を、前記第1のルート位置、前記第2のルート位置、および前記第3のルート位置の事前知識に基づかせるように前記プロセッサに指示するためのものである、項目26に記載の非一過性コンピュータ可読媒体。
(項目29)
前記コードは、
前記第1のルート位置、前記第2のルート位置、および前記3番目のルート位置のうちの1つが、外れ値であるかどうかを判定することと、
前記外れ値を破棄することと
を行うように前記プロセッサに指示するためのものである、項目26~28のうちのいずれか1項に記載の非一過性コンピュータ可読媒体。
ここで、実施例のみとして、付随の図面の参照が、行われるであろう。
Claims (29)
- 装置であって、
未加工データを受信するための通信インターフェースであって、前記未加工データは、2次元における実際のオブジェクトの表現を含む、通信インターフェースと、
前記未加工データおよび参照データを記憶するためのメモリ記憶ユニットと、
前記未加工データおよび前記参照データを受信するためのスケール推定エンジンであって、前記スケール推定エンジンは、前記参照データを用いた前記未加工データの分析に基づいて、3次元空間内の前記実際のオブジェクトの第1のルート位置を計算するためのものである、スケール推定エンジンと、
前記第1のルート位置に基づいて、出力データを生成するためのアグリゲータであって、前記出力データは、外部デバイスに伝送されることになる、アグリゲータと
を備える、装置。 - 前記スケール推定エンジンは、前記参照データ内の基準高さを前記未加工データ内の実際の高さと比較し、第1のルート位置を判定するためのものである、請求項1に記載の装置。
- 前記未加工データおよびホモグラフィに基づいて、接地位置を判定するための接地位置推定エンジンをさらに備え、前記接地位置は、第2のルート位置を計算するために使用され、前記アグリゲータは、前記第2のルート位置を前記第1のルート位置と組み合わせて、前記出力データを生成するためのものである、請求項1または2に記載の装置。
- 前記ホモグラフィを定義するための較正エンジンをさらに備える、請求項3に記載の装置。
- 前記実際のオブジェクトの特徴上に、3次元姿勢推定プロセスを適用することによって、第3のルート位置を計算するための特徴推定エンジンをさらに備え、前記アグリゲータは、前記第3のルート位置を前記第1のルート位置および前記第2のルート位置と組み合わせて、前記出力データを生成するためのものである、請求項3または4に記載の装置。
- 前記アグリゲータは、前記第1のルート位置、前記第2のルート位置、および前記第3のルート位置を平均化し、出力データを生成する、請求項5に記載の装置。
- 前記アグリゲータは、前記第1のルート位置、前記第2のルート位置、および前記第3のルート位置の加重平均を計算し、出力データを生成する、請求項6に記載の装置。
- 前記加重平均は、前記第1のルート位置、前記第2のルート位置、および前記第3のルート位置の事前知識に基づく、請求項7に記載の装置。
- 前記アグリゲータは、前記第1のルート位置、前記第2のルート位置、および前記第3のルート位置のうちの1つが、外れ値であるかどうかを判定し、前記アグリゲータは、前記外れ値を破棄する、請求項6~8のうちのいずれか1項に記載の装置。
- 前記実際のオブジェクトは、人間である、請求項1~9のうちのいずれか1項に記載の装置。
- 方法であって、
通信インターフェースを介して、未加工データを受信することであって、前記未加工データは、2次元における実際のオブジェクトの表現を含む、ことと、
前記未加工データおよび参照データをメモリ記憶ユニット内に記憶することと、
スケール推定エンジンによって、前記参照データを用いた前記未加工データの分析に基づいて、3次元空間内の前記実際のオブジェクトの第1のルート位置を計算することと、
前記第1のルート位置に基づいて、出力データを生成することと、
前記出力データを外部デバイスに伝送することと
を含む、方法。 - 前記第1のルート位置を計算することは、前記参照データ内の基準高さを前記未加工データ内の実際の高さと比較し、第1のルート位置を判定することを含む、請求項11に記載の方法。
- 接地位置推定エンジンを用いて、前記未加工データおよびホモグラフィに基づいて、接地位置を判定することと、
前記接地位置に基づいて、前記接地位置推定エンジンを用いて、第2のルート位置を計算することと、
アグリゲータを用いて、前記第2のルート位置を前記第1のルート位置と組み合わせて、前記出力データを生成することと
をさらに含む、請求項11または12に記載の方法。 - 較正エンジンを用いて、前記ホモグラフィを定義することをさらに含む、請求項13に記載の方法。
- 特徴推定エンジンを用いて、前記実際のオブジェクトの特徴上に、3次元姿勢推定プロセスを適用することによって、第3のルート位置を計算することと、
前記アグリゲータを用いて、前記第2のルート位置を前記第1のルート位置および前記第2のルート位置と組み合わせて、前記出力データを生成することと
をさらに含む、請求項13または14に記載の方法。 - 組み合わせることは、前記第1のルート位置、前記第2のルート位置、および前記第3のルート位置を平均化することを含む、請求項15に記載の方法。
- 前記第1のルート位置、前記第2のルート位置、および前記第3のルート位置を平均化することは、加重平均を計算し、出力データを生成することを含む、請求項16に記載の方法。
- 前記加重平均を、前記第1のルート位置、前記第2のルート位置、および前記第3のルート位置の事前知識に基づかせることをさらに含む、請求項17に記載の方法。
- 前記第1のルート位置、前記第2のルート位置、および前記第3のルート位置のうちの1つが、外れ値であるかどうかを判定することと、
前記外れ値を破棄することと
をさらに含む、請求項16~18のうちのいずれか1項に記載の方法。 - 前記実際のオブジェクトは、人間である、請求項11~19のうちのいずれか1項に記載の方法。
- コードを用いてエンコードされる、非一過性コンピュータ可読媒体であって、前記コードは、
通信インターフェースを介して、未加工データを受信することであって、前記未加工データは、2次元における人物の表現を含む、ことと、
前記未加工データおよび参照データをメモリ記憶ユニット内に記憶することと
前記参照データを用いた前記未加工データの分析に基づいて、3次元空間内の前記人物の第1のルート位置を計算することと、
前記第1のルート位置に基づいて、出力データを生成することと、
前記出力データを外部デバイスに伝送することと
を行うようにプロセッサに指示するためのものである、非一過性コンピュータ可読媒体。 - 前記コードは、前記第1のルート位置を計算するように前記プロセッサに指示するためのものであり、前記参照データ内の基準高さを前記未加工データ内の実際の高さと比較し、第1のルート位置を判定することを含む、請求項21に記載の非一過性コンピュータ可読媒体。
- 前記コードは、
前記未加工データおよびホモグラフィに基づいて、接地位置を判定することと、
前記接地位置に基づいて、第2のルート位置を計算することと、
前記第2のルート位置を前記第1のルート位置と組み合わせて、前記出力データを生成することと
を行うように前記プロセッサに指示するためのものである、請求項21または22に記載の非一過性コンピュータ可読媒体。 - 前記コードは、前記ホモグラフィを定義するように前記プロセッサに指示するためのものである、請求項23に記載の非一過性コンピュータ可読媒体。
- 前記コードは、
前記人物の特徴上に、3次元姿勢推定プロセスを適用することによって、第3のルート位置を計算することと、
前記第2のルート位置を前記第1のルート位置および前記第2のルート位置と組み合わせて、前記出力データを生成することと
を行うように前記プロセッサに指示するためのものである、請求項23または24に記載の非一過性コンピュータ可読媒体。 - 前記コードは、組み合わせるとき、前記第1のルート位置、前記第2のルート位置、および前記第3のルート位置を平均化するように前記プロセッサに指示するためのものである、請求項25に記載の非一過性コンピュータ可読媒体。
- 前記コードは、加重平均を計算して出力データを生成するように前記プロセッサに指示するためのものである、請求項26に記載の非一過性コンピュータ可読媒体。
- 前記コードは、前記加重平均を、前記第1のルート位置、前記第2のルート位置、および前記第3のルート位置の事前知識に基づかせるように前記プロセッサに指示するためのものである、請求項26に記載の非一過性コンピュータ可読媒体。
- 前記コードは、
前記第1のルート位置、前記第2のルート位置、および前記3番目のルート位置のうちの1つが、外れ値であるかどうかを判定することと、
前記外れ値を破棄することと
を行うように前記プロセッサに指示するためのものである、請求項26~28のうちのいずれか1項に記載の非一過性コンピュータ可読媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/IB2020/061548 WO2022118061A1 (en) | 2020-12-04 | 2020-12-04 | Object three-dimensional localizations in images or videos |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024501161A true JP2024501161A (ja) | 2024-01-11 |
Family
ID=81853857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023533933A Pending JP2024501161A (ja) | 2020-12-04 | 2020-12-04 | 画像または映像におけるオブジェクトの3次元場所特定 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20230306636A1 (ja) |
EP (1) | EP4256522A4 (ja) |
JP (1) | JP2024501161A (ja) |
KR (1) | KR20230113371A (ja) |
AU (1) | AU2020480103B2 (ja) |
CA (1) | CA3200934A1 (ja) |
WO (1) | WO2022118061A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116580099A (zh) * | 2023-07-14 | 2023-08-11 | 山东艺术学院 | 一种基于视频与三维模型融合的林地目标定位方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5839971B2 (ja) * | 2010-12-14 | 2016-01-06 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
WO2018235923A1 (ja) * | 2017-06-21 | 2018-12-27 | 国立大学法人 東京大学 | 位置推定装置、位置推定方法、及びプログラム |
CN112017236B (zh) * | 2020-07-13 | 2023-10-31 | 魔门塔(苏州)科技有限公司 | 一种基于单目相机计算目标物位置的方法及装置 |
-
2020
- 2020-12-04 KR KR1020237021894A patent/KR20230113371A/ko active Search and Examination
- 2020-12-04 AU AU2020480103A patent/AU2020480103B2/en active Active
- 2020-12-04 JP JP2023533933A patent/JP2024501161A/ja active Pending
- 2020-12-04 WO PCT/IB2020/061548 patent/WO2022118061A1/en active Application Filing
- 2020-12-04 CA CA3200934A patent/CA3200934A1/en active Pending
- 2020-12-04 EP EP20964208.1A patent/EP4256522A4/en active Pending
-
2023
- 2023-06-01 US US18/327,722 patent/US20230306636A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
CA3200934A1 (en) | 2022-06-09 |
US20230306636A1 (en) | 2023-09-28 |
WO2022118061A1 (en) | 2022-06-09 |
AU2020480103B2 (en) | 2023-11-09 |
KR20230113371A (ko) | 2023-07-28 |
EP4256522A1 (en) | 2023-10-11 |
AU2020480103A1 (en) | 2023-06-29 |
EP4256522A4 (en) | 2024-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6560480B2 (ja) | 画像処理システム、画像処理方法、及びプログラム | |
US10789765B2 (en) | Three-dimensional reconstruction method | |
JP6793151B2 (ja) | オブジェクトトラッキング装置、オブジェクトトラッキング方法およびオブジェクトトラッキングプログラム | |
JP2018106262A (ja) | 不整合検出システム、複合現実システム、プログラム及び不整合検出方法 | |
US20160253836A1 (en) | Apparatus for measuring three dimensional shape, method for measuring three dimensional shape and three dimensional shape measurment program | |
US11854228B2 (en) | Methods and systems for volumetric modeling independent of depth data | |
US20110216946A1 (en) | Information processing device, information processing method, program, and information storage medium | |
US20130069939A1 (en) | Character image processing apparatus and method for footskate cleanup in real time animation | |
WO2019021569A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP2018106661A (ja) | 不整合検出システム、複合現実システム、プログラム及び不整合検出方法 | |
JP2018207252A (ja) | 画像処理システム、画像処理システムの制御方法、及び、プログラム | |
US20230306636A1 (en) | Object three-dimensional localizations in images or videos | |
CN107330974B (zh) | 商品展示方法、装置及移动设备 | |
KR101636171B1 (ko) | 스켈레톤 트래킹 방법 및 이를 이용한 스켈레톤 트래킹 시스템 | |
JP7318814B2 (ja) | データ生成方法、データ生成プログラムおよび情報処理装置 | |
US20200211275A1 (en) | Information processing device, information processing method, and recording medium | |
JP2006215743A (ja) | 画像処理装置及び画像処理方法 | |
CN111742352A (zh) | 3d对象建模方法以及相关设备和计算机程序产品 | |
US20220084244A1 (en) | Information processing apparatus, information processing method, and program | |
US20220245885A1 (en) | Volumetric Imaging | |
JP2006227739A (ja) | 画像処理装置及び画像処理方法 | |
US10798360B2 (en) | Information processing system, method for controlling same, and program | |
JP7343237B2 (ja) | 追跡方法 | |
US20230410451A1 (en) | Augmented reality implement apparatus and method using mobile scanned object model scaling | |
JP7323234B2 (ja) | ガイド方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230728 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230728 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240430 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240516 |