JP2024506691A

JP2024506691A - ２ｄ画像において視認可能な使用形跡を使用した３ｄモデルの注釈付け

Info

Publication number: JP2024506691A
Application number: JP2023548937A
Authority: JP
Inventors: コスミンアタナソアエイコンスタンティン; ミランリュトゲットマンダニエル; ザガニディスディミトリ; ラフモンジョン; デグルットラミケーレ
Original assignee: アイエヌエイアイティエスエイ
Priority date: 2021-02-18
Filing date: 2022-01-26
Publication date: 2024-02-14
Also published as: EP4295310A1; US20230351713A1; US11983836B2; WO2022175044A1

Abstract

２Ｄ画像において視認可能な使用形跡を使用した３Ｄモデルの注釈付けするためのコンピュータ記憶媒体において符号化されたコンピュータプログラムを含む方法、システム、および装置。一態様において、方法はデータ処理装置により実施される。方法は、比較的広い視野の画像におけるインスタンスのポーズに基づいて、オブジェクトの３Ｄモデルに、オブジェクトのインスタンスの比較的広い視野の画像における使用形跡を投影することと、比較的広い視野の画像における使用形跡と比較的狭い視野の画像における同じ使用形跡との間のマッチング関係に基づいて、比較的狭い視野の画像におけるオブジェクトのインスタンスの相対ポーズを推定することとを含み得る。【選択図】図１

Description

関連出願の相互参照
本出願は、２０２１年２月１８日に出願されたギリシャ出願第２０２１０１００１０６号、および、２０２１年３月３日に出願された米国特許出願第１７／１９０，６４６号の優先権を主張し、それらの出願の内容が本明細書に参照により組み込まれる。

本明細書は、２Ｄ画像において視認可能な使用形跡を使用した３Ｄモデルの注釈付けに関する。

多くの人工オブジェクトが、３Ｄモデルの助けを受けてコンピュータにおいて仮想的に設計される。例は、自動車、航空機、建築物、消費者向け製品、およびそれらの構成コンポーネントを包含する。３Ｄモデルは概して、物体の構造上の特徴のサイズ、形状、および配向に関する詳細な情報を含む。幾つかの３Ｄモデルは、例えば組成物、材料特性、電気的特性などを含む他の特徴に関する情報を更に含む。設計のために使用されることに加えて、３Ｄモデルは、テストおよび他の目的にも使用され得る。

モデル化されているオブジェクトおよびモデルの使用にかかわらず、モデルは多くの場合、オブジェクトの現実世界のインスタンスの理想化された抽象的なものである。例えば、オブジェクトの現実世界のインスタンスは多くの場合、モデルにキャプチャされていない使用形跡を含む。使用形跡の例は、経時的に発生する通常の摩耗および損傷だけでなく個別の出来事により生じる損傷も含む。損傷の形跡は車両または構造物における変形、かき傷、およびへこみなどを包含する。いずれの場合においても、オブジェクトの現実世界のインスタンスの使用形跡が、オブジェクトの３Ｄモデル－または更には、同じオブジェクトの別の現実世界のインスタンスの使用形跡－に一致することはまれである。

本明細書は使用形跡を使用した３Ｄモデルの注釈付けに関連した技術を説明する。３Ｄモデルの注釈付けは構造化された情報をモデルに加える。この場合において、構造化された情報は使用形跡に関連する。幾つかの例では、使用形跡に関連した構造化された情報は、例えばオブジェクトの３Ｄモデル変形するために、または別様に変更するために使用され得、したがって、それがオブジェクトの特定のインスタンスに適合する。変更された３Ｄモデルは、種々のシミュレーションおよび評価工程において使用され得る。

使用形跡は、例えばスマートフォンまたは他の一般的なイメージングデバイスによりキャプチャされた実際の画像といった２Ｄ画像においてイメージングされる。概して、特定の最小要求－例えば、使用形跡の十分な分解能および使用形跡に対する適切な観点－が２Ｄ画像により満たされることを条件として、３Ｄモデルは２Ｄ画像から適切に注釈付けされ得る。更に、これらの最小要求は概してユーザーの日常生活におけるオブジェクト特徴を認識することに長けている人間のユーザーにとって直感的である。

概して、本明細書において説明されている主題の１つの革新的な態様が、データ処理装置により実施される方法により具現化され得る。方法は、比較的広い視野の画像におけるインスタンスのポーズに基づいて、オブジェクトの３Ｄモデルに、オブジェクトのインスタンスの比較的広い視野の画像における使用形跡を投影することと、比較的広い視野の画像における使用形跡と比較的狭い視野の画像における同じ使用形跡との間のマッチング関係に基づいて、比較的狭い視野の画像におけるオブジェクトのインスタンスの相対ポーズを推定することとを含み得る。

この実施態様および他の実施態様は、以下の特徴のうちの１つまたは複数を含み得る。本方法は、推定されたポーズと３Ｄモデルへの使用形跡の投影とを使用して、比較的狭い視野の画像における使用形跡の仮想的な位置を演算することと、仮想的な位置と比較的狭い視野の画像における使用形跡の実際の位置とを比較することと、３Ｄモデルに不適切に投影された使用形跡の部分集合を比較結果に基づいて特定することとを含み得る。３Ｄモデルは、３Ｄモデルに適切に投影された使用形跡の第２の部分集合を使用して変形され得る。

本方法は、比較的狭い視野の画像におけるオブジェクトのインスタンスの相対ポーズに基づいて、オブジェクトの３Ｄモデルに使用形跡のうちの不適切に投影されたものを投影することを含み得る。３Ｄモデルに使用形跡のうちの不適切に投影されたものを投影することは、使用形跡のうちの不適切に投影されたもののうちの第１のものを含む比較的狭い視野の画像の領域を特定することと、使用形跡のうちの不適切に投影されたもののうちの第１のものを、比較的広い視野の画像における使用形跡のうちの第１のものとマッチングさせることと、オブジェクトの３Ｄモデルに比較的広い視野の画像における使用形跡のうちの第１のものを投影することとを含み得る。

使用形跡の不適切に投影されたものの部分集合は、仮想的な位置と比較的狭い視野の画像における使用形跡の実際の位置との間の位置ずれに基づいて特定され得る。本方法は、マッチング関係の適切な部分集合を確立するために、マッチング関係から、３Ｄモデルに不適切に投影された使用形跡の部分集合をフィルタリングすることと、マッチング関係の部分集合に基づいて、比較的狭い視野の画像におけるオブジェクトのインスタンスの相対ポーズを再度推定することとを含み得る。

３Ｄモデルに比較的広い視野の画像における使用形跡を投影することは、比較的広い視野の画像のポーズを特定することを含み得る。本方法は、比較的狭い視野の画像におけるオブジェクトのインスタンスの支配的な色を特定することと、支配的な色からずれた、比較的広い視野の画像における、比較的狭い視野の画像における、または比較的広い視野の画像と比較的狭い視野の画像との両方における領域を特定することと、比較的広い視野の画像における使用形跡と比較的狭い視野の画像における使用形跡とをマッチングさせるために、特定された領域をマッチングさせることとを含み得る。

本方法は、比較的狭い視野の画像におけるオブジェクトのインスタンスにおける理想状態からのずれを特定することと、比較的広い視野の画像における使用形跡と比較的狭い視野の画像における使用形跡とをマッチングさせるために、比較的狭い視野の画像におけるずれを比較的広い視野の画像にマッチングさせることとを含み得る。本方法は、複数の比較的狭い視野の画像におけるオブジェクトのインスタンスの相対ポーズを推定することと、推定されたポーズを使用して比較的狭い視野の画像における同じ使用形跡の仮想的な位置を演算することとを含み得る。

別の実施態様では、本明細書において説明されている主題は、データ処理装置により実施される方法により具現化され得る。本方法は、オブジェクトのインスタンスの２つ以上の２Ｄ画像からの使用形跡を使用してオブジェクトの３Ｄモデルに注釈付けすることを含み得る。３Ｄモデルに注釈付けすることは、３Ｄモデルと２Ｄ画像とを受信することであって、２Ｄ画像のうちの第１のものはインスタンスの比較的広い視野の画像であり、２Ｄ画像のうちの第２のものはインスタンスの比較的狭い視野の画像である、受信することと、比較的広い視野の画像と比較的狭い視野の画像とにおいて視認可能な使用形跡をマッチングさせることと、オブジェクトの３Ｄモデルに比較的広い視野の画像における使用形跡を投影することと、３Ｄモデルへの使用形跡の投影、および、比較的広い視野の画像と比較的狭い視野の画像とにおけるマッチした使用形跡を使用して、比較的狭い視野の画像におけるインスタンスのポーズを推定することと、推定されたポーズと３Ｄモデルへの使用形跡の投影とを使用して、比較的狭い視野の画像における使用形跡の仮想的な位置を演算することと、使用形跡のうちの不適切に投影されたものを特定するために、仮想的な位置と比較的狭い視野の画像における使用形跡の実際の位置とを比較することと、オブジェクトの３Ｄモデルへの投影から使用形跡のうちの不適切に投影されたものを除去することとを含み得る。

この実施態様および他の実施態様は、以下の特徴のうちの１つまたは複数を含み得る。本方法は、比較的狭い視野の画像におけるオブジェクトのインスタンスの相対ポーズに基づいて、オブジェクトの３Ｄモデルに使用形跡のうちの不適切に投影されたものを投影することを含み得る。３Ｄモデルに使用形跡のうちの不適切に投影されたものを投影することは、使用形跡のうちの不適切に投影されたもののうちの第１のものを含む比較的狭い視野の画像の領域を特定することと、使用形跡のうちの不適切に投影されたもののうちの第１のものを、比較的広い視野の画像における使用形跡のうちの第１のものとマッチングさせることと、オブジェクトの３Ｄモデルに比較的広い視野の画像における使用形跡のうちの第１のものを投影することとを含み得る。

使用形跡の不適切に投影されたものの部分集合は、仮想的な位置と比較的狭い視野の画像における使用形跡の実際の位置との間の位置ずれに基づいて特定され得る。使用形跡をマッチングさせることは、比較的狭い視野の画像におけるオブジェクトのインスタンスの支配的な色を特定することと、支配的な色からずれた、比較的広い視野の画像における、比較的狭い視野の画像における、または比較的広い視野の画像と比較的狭い視野の画像との両方における領域を特定することとを含み得る。使用形跡をマッチングさせることは、比較的狭い視野の画像におけるオブジェクトのインスタンスにおける理想状態からのずれを特定することと、比較的狭い視野の画像におけるずれを比較的広い視野の画像にマッチングさせることとを含み得る。本方法は、オブジェクトの３Ｄモデルへの投影から使用形跡のうちの適切に投影されたものを使用して３Ｄモデルを変形させることを含み得る。

上述の方法の他の実施形態は、方法のアクションを実施するように構成された対応するシステムおよび装置、および、コンピュータプログラムを使用して符号化されたコンピュータ記憶媒体を含み、プログラムは、データ処理装置により実行されたとき、データ処理装置に方法のアクションを実施させる命令を含む。

本明細書において説明されている主題の１つまたは複数の実施形態の詳細事項は、添付図面および以下の説明に記載されている。主題の他の特徴、態様、および利点は説明、図面、および請求項から明らかとなる。

図１は、オブジェクトの異なる画像の集合体の獲得の概略図である。図２は、１つまたは複数のカメラにより獲得された二次元画像の集合体の概略図である。図３は、２Ｄ画像から使用形跡を使用して３Ｄモデルに注釈付けするためのコンピュータにより実施される処理のフローチャートである。図４は、２Ｄ画像から使用形跡を使用して３Ｄモデルに注釈付けするためのコンピュータにより実施される処理の概略表現を含む。

様々な図面における同様の参照符号および名称は類似の要素を示す。

図１は、オブジェクト１００の異なる画像の集合体の獲得の概略図である。例示を目的として、オブジェクト１００が理想的なマーキングされていない幾何学的パーツ（例えば立方体、多面体、平行六面体など）の組立体として示されている。しかし、現実の用途では、オブジェクトは概して、より複雑な形状をもち、および、テクスチャをもち、または、例えば、基礎となる形状への装飾的デコレーション、摩耗マーク、または他のマーキングを使用して別様にマーキングされている。

（本例ではカメラ１０５、１１０、１１５、１２０、１２５として示される）１つまたは複数のイメージングデバイスの集合体が、オブジェクト１００の周囲において異なる相対位置に連続的に、または同時に位置し得、および、オブジェクト１００に対して異なる相対角度に配向され得る。位置は、オブジェクト１００の周囲の三次元空間に分散され得る。配向も３次元で変化し得、すなわち、オイラー角（または、ヨー、ピッチ、およびロール）の全てが変化し得る。オブジェクト１００に対するカメラ１０５、１１０、１１５、１２０、１２５の相対的配置および配向は相対ポーズと呼ばれ得る。カメラ１０５、１１０、１１５、１２０、１２５は異なる相対ポーズをとるので、カメラ１０５、１１０、１１５、１２０、１２５の各々がオブジェクト１００の異なる画像を獲得する。

例えばオブジェクト１００といった簡略化されたオブジェクトでさえ、多くの標識１３０、１３１、１３２、１３３、１３４、１３５、１３６、…を含む。標識は、オブジェクト１００における関心のある位置である。標識は、オブジェクトにおける、または、基礎となる幾何学的形状上のマーキングにおける幾何学的位置に配置され得る。以下で詳細に説明されるように、標識は、オブジェクトのポーズを特定するために使用され得る。標識は、他の種類の画像処理のために、例えば、オブジェクトを分類するために、物体の特徴を抽出するために、オブジェクト（幾何学的構造物またはマーキング）における他の構造物の位置を特定するために、オブジェクトに対する損傷を評価するために、および／または、これらの画像処理技術および他の画像処理技術において測定が行われ得る原点として機能するためにも使用され得る。

図２は、例えばカメラ１０５、１１０、１１５、１２０、１２５（図１）といった１つまたは複数のカメラにより獲得された二次元画像の集合体２００の概略図である。集合体２００における画像は異なる相対ポーズにおけるオブジェクト１００を示す。例えば標識１３０、１３１、１３２、１３３、１３４、１３５、１３６、…といった標識は、仮にそれらが現れるとした場合、異なる画像において異なる位置に現れる。例えば、集合体２００のうちの最も左の画像では、標識１３３、１３４がオブジェクト１００の残りの部分により覆い隠されている。対照的に、最も右の画像２１０では、標識１３１、１３５、１３７がオブジェクト１００の残りの部分により覆い隠されている。

上述のように、３Ｄモデルは多くの場合、オブジェクトの現実世界のインスタンスの理想化された抽象的なものであり、例えば、それらの現実世界のインスタンスに存在する使用形跡を含まない。しかし、種々のコンテキストにおいて３Ｄモデルにそれらの使用形跡を含むことが有益である。例えば、オブジェクトの現実世界のインスタンスの機械的な挙動または他の挙動をシミュレーションするために３Ｄモデルが使用されるとき、使用形跡はシミュレーションの結果に影響を与え得る。別の例として、使用形跡を含む３Ｄモデルが、使用を減らす、または改善する改善アクションを推定するために使用され得る。例えば、事故による損傷を含む自動車の３Ｄモデルは、例えば自動車の安全性または修理コストを正確に評価するために使用され得る。更に異なる別の例として、使用形跡を含む３Ｄモデルは、オブジェクトのインスタンスの故障までの時間または故障メカニズムを推定するために使用され得る。これらのコンテキストおよび他のコンテキストでは、２Ｄ画像から使用形跡を使用して３Ｄモデルに注釈付けすることは、３Ｄモデルが使用形跡を含むこと、および、現実世界のインスタンスをより正確にモデル化することを可能にする比較的容易な手法を提供し得る。

図３は、２Ｄ画像から使用形跡を使用して３Ｄモデルに注釈付けするためのコンピュータにより実施される処理３００のフローチャートである。工程３００は、データ処理アクティビティを実施する１つまたは複数のデータ処理デバイスにより実施され得る。工程３００のアクティビティは、機械可読命令集合のロジック、ハードウェア組立体、またはこれらの命令および／または他の命令の組み合わせに従って実施され得る。

３０５では、工程３００を実施するデバイスが、ｉ）物理的オブジェクトの３Ｄモデル、ｉｉ）比較的広い視野（ＦＯＶ）によるオブジェクトのインスタンスの少なくとも１つの画像、および、ｉｉｉ）比較的狭いＦＯＶによるオブジェクトの同じインスタンスの少なくとも１つの画像を受信する。３Ｄモデルは概して、概して任意の基準座標系から分離された三次元空間においてオブジェクトを表す。３Ｄモデルは、手動で、アルゴリズムにより（手続き型モデル化）、または実際のオブジェクトをスキャンすることにより生成され得る。例えば、３Ｄモデルは、コンピュータ支援設計（ＣＡＤ）ソフトウェアを使用して生成され得る。３Ｄモデルにおける表面は、テクスチャマッピングを使用して規定され得る。

オブジェクトのインスタンスの比較的狭いＦＯＶの各々はオブジェクトの３Ｄモデルに注釈付けされる関連する使用形跡を含む。概して、より狭いＦＯＶの画像は十分に詳細にインスタンスを示すので、－より狭いＦＯＶのポーズが特定された後－３Ｄモデルはより狭いＦＯＶの画像における使用形跡を使用して効果的に注釈付けされ得る。したがって、比較的狭いＦＯＶの画像は関連する使用形跡を「拡大」し得、より広い視野による画像では認識することが困難であり得る形跡に関する詳細を提供し得る。

インスタンスの比較的広いＦＯＶの画像の各々が、インスタンスの関連する使用形跡と別の部分との両方を示す。幾つかの例において、より広いＦＯＶの画像はインスタンスの全景であり、すなわち、インスタンス全体がより広いＦＯＶの画像において視認可能である。概して、インスタンスの他の部分は少なくとも、より広いＦＯＶの画像におけるインスタンスの相対ポーズが正確に特定されることを可能にする十分な特徴を含む。使用形跡に関して、より狭いＦＯＶの画像内において視認可能な形跡のうちの少なくとも幾つかは、より広いＦＯＶの画像でも視認可能であり、隠されない。比較的狭いＦＯＶの画像と比較的広いＦＯＶの画像との両方において同じ使用形跡が視認可能であるが、比較的広いＦＯＶの画像における使用形跡の解像度は、より広いＦＯＶの画像のみに基づいて３Ｄモデルに注釈付けすることができるほど十分に高い必要はない。実際、比較的広いＦＯＶの画像は必然的にオブジェクトのより大きい部分を含むので、使用形跡は概して３Ｄモデルの効果的な注釈付けにとっては過度に低い解像度で示される。

より広いＦＯＶの画像においてインスタンスの相対ポーズ－ひいては、より広いＦＯＶにおける特徴と３Ｄモデルの特徴との対応－を特定することに関して、これは多くの手法により行われ得る。比較的広いＦＯＶの画像において示されるオブジェクトの部分の範囲は、相対ポーズと位置との対応が特定されるアプローチに影響を与え得る。

例えば、幾つかの実施態様では、機械学習モデルが、より広いＦＯＶの画像においてオブジェクトのインスタンスの輪郭を検出するために使用され得る。このような場合において、比較的詳細でない画像が所与のポーズに対するインスタンスの全景であることが概して好ましい。

別の例として、ポーズ推定機械学習モデルが、比較的広いＦＯＶの画像におけるインスタンスのポーズを推定するために使用され得る。このような場合において、ポーズ推定が実行され得るように、比較的広いＦＯＶの画像が十分な数および構成の標識を含む場合に、それが許容可能であり得る。オブジェクトのポーズは、より広いＦＯＶの画像における、検出された標識、それらを隔てる距離、および、それらの相対位置に基づいて推定され得る。標識検出のための例示的な機械学習モデルは、ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｆａｃｅｂｏｏｋｒｅｓｅａｒｃｈ／ｄｅｔｅｃｔｒｏｎ２において入手可能なｄｅｔｅｃｔｒｏｎ２である。標識検出に依存したポーズ推定部の例は、ｈｔｔｐｓ：／／ｄｏｃｓ．ｏｐｅｎｃｖ．ｏｒｇ／ｍａｓｔｅｒ／ｄ７／ｄ５３／ｔｕｔｏｒｉａｌ＿ｐｙ＿ｐｏｓｅ．ｈｔｍｌで説明されているＯｐｅｎＣＶの機能のＳｏｌｖｅＰＮＰである。

更に異なる別の例として、幾つかの実施態様では、比較的広いＦＯＶの画像におけるインスタンスのポーズは、「ＡＮＮＯＴＡＴＩＯＮＯＦＴＷＯ－ＤＩＭＥＮＳＩＯＮＡＬＩＭＡＧＥＳ」を発明の名称とし、２０２１年２月２日に出願されたギリシャ特許出願番号第２０２１０１０００６８号において説明されているように特定され得、同文献の内容が参照により本明細書に組み込まれる。

更に異なる別の例として、幾つかの実施態様では、比較的広いＦＯＶの画像におけるインスタンスのポーズは、比較的広いＦＯＶの画像とともに外部ソースから受信され得る。例えば、比較的広いＦＯＶの画像は、比較的広いＦＯＶの画像が獲得されたときのインスタンスに対するカメラの相対的配置および配向を指定するメタデータに関連付けられ得る。

３１０では、必要な場合、工程３００を実施するデバイスが、比較的広いＦＯＶの画像におけるオブジェクトのインスタンスのポーズを特定する。ポーズを特定するための例示的なアプローチは既に説明されている。更に上述のように、幾つかの例では、特定は不要であり得、ポーズは外部ソースから受信され得る。

３１５では、工程３００を実施するデバイスが、比較的広いＦＯＶの画像における使用形跡を比較的狭いＦＯＶの画像における使用形跡にマッチングさせる。概して、２つの画像における使用形跡は、ピクセルごとにマッチングさせられ得る。例えば、特徴検出アルゴリズム（例えばスケール不変特徴変換）が、画像のうちのいずれかにおける関心のあるピクセルを特定し、ピクセルの周囲における画像の一部を抽出し、画像のうちの他方においてマッチするピクセルを探し得る。幾つかの実施態様では、画像位置合わせ技術も－単独で、または特徴検出アルゴリズムと組み合わされて－使用され得る。

概して、特徴を検出するための、または画像を位置合わせするための基準は、方法３００が実施されるコンテキストに合わせて調整される。例えば、個別の出来事により生じる損傷を特定したとき、色ずれが強調され得るのに対し、摩耗および損傷を特定したとき、理想的な形状（例えば、一様に滑らかな表面または一様な歯をもつギア）からのずれが強調され得る。例示として、自動車に対するかき傷およびへこみが３Ｄモデルに注釈付けされると仮定する。比較的狭いＦＯＶの画像の支配的な色は、自動車の色となるようにされ得る。ピクセルは、ピクセル色がこの支配的な色にどれほど近いかに従って、より広いＦＯＶの画像、より狭いＦＯＶの画像、またはその両方からフィルタリングされ得る。大きい色ずれを伴うピクセルは、特徴検出アルゴリズムまたは画像位置合わせ技術において関心のあるピクセルとして表され得る。

幾つかの実施態様では、比較的広いＦＯＶの画像の内容はマッチング前に少なくされ得る。例えば、比較的広いＦＯＶの画像におけるオブジェクトのインスタンスの形状が推定され得る。オブジェクトの境界の外部に存在するピクセルは、マッチング関係を含むことから除外され得る。例えば背景におけるオブジェクトを表すピクセルは除外されるので、演算負荷および正しくないマッチング関係の可能性が低減される。

図４は、２Ｄ画像から使用形跡を使用して３Ｄモデルに注釈付けするためのコンピュータにより実施される処理の概略図である。概略表現では、比較的狭いＦＯＶの画像４０５における使用形跡が比較的広いＦＯＶの画像４１０における使用形跡とマッチングさせられる。特に、両方の画像４０５、４１０が、異なる範囲を含み、多くの場合において異なるレベルの詳細さによるのではあるが、オブジェクトのインスタンス４１５を示す。画像４１０はインスタンス４１５の全景であるのに対し、画像４０５はインスタンス４１５における使用形跡のより狭いＦＯＶの画像である。両方の画像４０５、４１０が使用形跡を含むが、画像４０５、４１０は同じ角度から撮影されている必要はない。例えば、示される例において、画像４１０を獲得したカメラは、画像４１５を獲得したカメラに比べてわずかにインスタンス４１５の右にある。

使用形跡および他の特徴、例えば角および縁部を含む画像４０５、４１０における様々な特徴がマッチングさせられている。マッチング関係は破線の集合体４２０として概略的に示されている。しかし、比較的狭いＦＯＶの画像４０５はインスタンスの比較的狭い部分しか示さないので、使用形跡ではなくマッチングさせられるために利用可能な特徴の数は比較的少ない。実際、多くの実施態様において、使用形跡のみがマッチングさせられる。

図３に戻ると、３２０では、工程３００を実施するデバイスが、より広いＦＯＶの画像からの使用形跡をオブジェクトの３Ｄモデルに投影し、３Ｄモデルにおける使用形跡の３Ｄ座標を特定する。投影は－３１０において判定された、または、外部ソースから受信された－比較的広いＦＯＶの画像におけるオブジェクトのインスタンスのポーズに依存する。投影は例えばより狭いＦＯＶの画像における視野の外部にある特徴といった、より狭いＦＯＶの画像において観測されない、より広いＦＯＶの画像における特徴に依存し得る。更に、投影はこのような特徴に依存するので、より広いＦＯＶの画像から３Ｄモデルへの投影は、比較的正確である。結果として、使用形跡の座標は、これらの他の特徴の位置を参照することにより３Ｄモデルにおいて正確に特定され得る。

図４は、３Ｄモデル４２５への、より広いＦＯＶの画像４１０からの使用形跡の投影の概略表現を更に含む。投影は破線の集合体４３０として概略的に示されている。示されているように、投影は、画像４０５における視野の外部に存在する縁部および角を含む、比較的狭いＦＯＶの画像４０５に存在しない比較的広いＦＯＶの画像４１０における特徴に依存し得る。投影はオブジェクトのインスタンスの比較的大きい部分に依存するので、投影は比較的正確である。基準としてこれらの特徴の位置を使用して、使用形跡の座標も、３Ｄモデルにおいて正確に特定され得る。

図３に戻ると、３２５において、工程３００を実施するデバイスは、３Ｄモデルにおける使用形跡の座標を使用して、より狭いＦＯＶの画像におけるオブジェクトのインスタンスのポーズを推定する。特に、より狭いＦＯＶの画像およびより広いＦＯＶの画像における使用形跡の間のマッチング関係、および、より広いＦＯＶの画像からモデルへの使用形跡の投影は、より狭いＦＯＶの画像におけるオブジェクトのインスタンスのポーズが推定されることを可能にする。－より広いＦＯＶの画像に比べて－より狭いＦＯＶの画像は概して、使用形跡についてはより多くの詳細事項を含むが、他の特徴についてはより少ない詳細事項を含むので、より狭いＦＯＶの画像におけるポーズを推定するために使用形跡を使用することは、その画像に存在する特徴を利用する。

３３０において、３００を実施するデバイスは、より狭いＦＯＶの画像の推定されたポーズおよび３Ｄモデルにおける使用形跡の座標を使用して、より狭いＦＯＶの画像における使用形跡の仮想的な位置を計算する。この計算は、推定されたポーズ、および、グランドトゥルースとしての３Ｄモデルにおける使用形跡の座標を使用した、より狭いＦＯＶの画像の仮想的な再生成と考えられ得る。多くの場合において、より狭いＦＯＶの画像の全体が再生成されるわけではない。むしろ、実際には、計算は、推定されたポーズと３Ｄモデルにおける使用形跡の座標とが修正されるという仮定のもとで、より狭いＦＯＶの画像における使用形跡がどこで観測されるかを特定する。

３３５において、使用形跡の仮想的な位置は、より狭いＦＯＶの画像における使用形跡の実際の位置と比較される。仮想的な位置と実際の位置との間の不十分な対応を伴う個々の特徴が特定され得る。ポーズは多くの特徴に基づいて計算されるので、不十分な対応は、個々の使用形跡が３Ｄモデルに不適切に投影されることを示す。３４０において、このような特徴は、３１５において確立されたマッチング関係からフィルタリングされ得る。

例えば、不十分な対応を特定するための閾値は、例えば全ての特徴の、選択された特徴の、またはその両方の平均的な対応に基づいて確立され得る。例えば、幾つかの実施態様では、全ての特徴の平均的な対応が特定され得る。全ての特徴のこの平均的な対応から実質的にずれている特徴が特定されて、３１５において確立されたマッチング関係から除外され得る。

別の例として、特徴は、それらの独自性に従って分類され得る。次に、不十分な対応を特定するための閾値が、最も独特な特徴に基づいて確立され得る。例えば、幾つかの実施態様では、３１５において特徴を検出するために、または画像を位置合わせするために使用される基準は、他の特徴より独特な特徴を特定するために使用され得る。例は、色ずれが存在するエリアにおけるピクセル数、または、理想的な形状からのずれにより包含されるピクセル数を包含する。より独特な特徴の対応は、不十分な対応を伴う特徴を特定するための閾値を確立するために使用され得る。この閾値より大きい特徴が特定され、３１５において確立されたマッチング関係から除外され得る。

更に異なる別の例として、全ての特徴の平均的な対応は、特徴を通る「第１の経路」において特定され得る。全ての特徴のこの平均的な対応から実質的にずれている特徴は、仮想的な位置と実際の位置との対応の再計算から除外され得る。次に、特徴の部分集合のこの再計算された対応から実質的にずれている他の特徴が特定され、３１５において確立されたマッチング関係から除外され得る。

図４に戻ると、より狭いＦＯＶの画像４０５におけるオブジェクトのインスタンスのポーズ４３５は、３Ｄモデル４２５における使用形跡の座標を使用して推定される。このポーズは、より狭いＦＯＶの画像における使用形跡の仮想的な位置を計算するために使用され得る。例示を目的として、この計算は、より狭いＦＯＶの画像の仮想的な再生成４４０として概略的に表されるが、より狭いＦＯＶの画像における使用形跡の位置しか計算される必要がない。より狭いＦＯＶの画像における使用形跡の実際の位置と使用形跡の計算された仮想的な位置との間の比較４４５が実施され、その間の対応が特定される。対応は位置ずれ、すなわち、詳細さにおいて劣る画像４０５における使用形跡の各特徴の実際の二次元位置と、より狭いＦＯＶの画像４０５の相対ポーズおよび３Ｄモデル４２５への使用形跡の投影から計算された同じ特徴の仮想的な位置との間の差の集合体４５０として概略的に示されている。特定のための閾値４５５および不十分なマッチング関係のフィルタリングが更に概略的に示されている。示されているように、少なくとも幾つかの位置ずれ４６０が閾値４５５の外部にある。位置ずれ４６０に対応したより狭いＦＯＶの画像４０５およびより広いＦＯＶの画像４１０における使用形跡の特徴の位置の間のマッチング関係が特定され、集合体４２０から除外され得る。

図３に戻ると、全ての不適切なマッチング関係が３１５において確立されたマッチング関係から除外された後、残りのマッチング関係が、様々な異なる手法により使用され得る。

例えば、幾つかの例では、３４０ではマッチング関係はほとんど除外されず、および／または、十分な数のマッチング関係が十分に高い対応をもつ。高い対応をもつマッチング関係の３Ｄモデルへの投影は、例えば、使用を減らす、または改善する改善アクションを推定すること、インスタンスの安全性を正確に評価する、または、インスタンスの故障までの時間を推定することを含む種々の下流の目的のために使用され得る。このような場合において、工程３００の示される部分は効果的に終了するが、更なる下流のアクションが想定される。

多くの例において、比較的多数のマッチング関係が除外され、および／または、不十分な数のマッチング関係が、想定される下流の目的のために十分に高い対応をもつ。このような場合において、ほとんどのマッチング関係が除外されなくなり、および／または、十分な数のマッチング関係が十分に高い対応をもつまで、工程３００の一部が繰り返し反復され得る。

例えば、幾つかの実施態様では、マッチング関係が除外された元となるより狭いＦＯＶの画像における領域におけるマッチング関係を探すために、工程３００の全てのまたは一部が繰り返され得る。これらの領域は、工程３００の次の繰り返しにおいて、オブジェクトのインスタンスの更に狭いＦＯＶの画像として取り扱われ得る。いずれか以前の繰り返しからのより広いＦＯＶの画像（例えば図４における画像４１０）、または、同じより狭いＦＯＶの画像（例えば図４における画像４０５）が、この次の繰り返しにおいて、より広いＦＯＶの画像として使用され得る。実際には、工程３００は複数回実施され得、より狭いＦＯＶの画像の各々は、次第に視野を小さくし、以前の繰り返しにより提供されるポーズ推定結果に依存する。段々小さい視野が使用されるにつれて、３Ｄモデルへの使用形跡の割り当てが次第により正確になる。幾つかの例では、例えばマッチング関係のパーセンテージまたは数が増えない、または閾量未満しか増加しないとき、工程３００のパフォーマンスが停止され得る。

別の例として、３２５において推定されたポーズは、より広いＦＯＶの画像およびより狭いＦＯＶの画像における使用形跡をより正確にマッチングさせるために使用され得る。例えば、３２５において推定されたポーズは、工程３００の次の繰り返しにおいて、３１５において非現実的な、または不適切なマッチング関係を特定するために、および破棄するために使用され得る。結果として、この次の繰り返しにおけるマッチング関係の正確さが高まり、同様に、３２０における３Ｄモデルへの使用形跡の投影の正確さ、および３２５におけるポーズ推定の正確さが高まる。幾つかの実施態様では、仮想的な位置と実際の位置との間の不十分な対応を特定するための閾値がより厳格なものにされ得、工程３００が繰り返される。幾つかの例では、例えば、不十分な対応を特定するための閾値がより厳格にならない、または、閾量ぶんしかより厳格にならないとき、工程３００のパフォーマンスが停止され得る。

更に異なる別の例として、工程３００は、
－３１５において非現実的な、または不適切なマッチング関係を特定すること、および破棄することにより、３２５におけるポーズ推定の正確さを高めることと、
－連続した、すなわち各々がより小さい視野をもつ比較的狭いＦＯＶの画像を使用して工程を実施することにより、マッチング関係のパーセンテージまたは数を増やすことと、
の両方のために繰り返され得る。

例えば、３２５におけるポーズ推定の正確さは繰り返し高められ得る。次に、より高い正確さのポーズ推定が、同じポーズだがより小さい視野を各々が含む連続した画像におけるマッチング関係を特定するために使用され得る。

幾つかの例では、例えば、それがオブジェクトの特定のインスタンスに適合するように、オブジェクトの３Ｄモデルを変形するために、または別様に変更するために、使用形跡に関連した構造化された情報が使用され得る。変更された３Ｄモデルは、種々のシミュレーションおよび評価工程において使用され得る。

３Ｄモデルを変更するために、より狭いＦＯＶの画像における二次元位置に対応した三次元位置を特定するために様々な異なるアプローチが使用され得る。

例えば、幾つかの実施態様では、工程３００は、多様なポーズを伴う複数の画像を使用して複数回実施され得る。例えば、工程３００の各パフォーマンスは、同じまたは異なるより広いＦＯＶの画像とともに異なるより狭いＦＯＶの画像を使用し得る。より狭いＦＯＶの画像は、異なるポーズから取得されたが、それらのそれぞれの視野における同じ使用形跡を含み得る。工程３００の異なるパフォーマンスにおいて特定された使用形跡の位置の比較は、それらの位置において本来的に伴う視差エラーを特定するために使用され得る。画像の異なるポーズが十分に多様である場合、使用形跡の三次元構造物が特定され、３Ｄモデルを変形するために、または別様に変更するために使用され得る。

別の例として、三次元深さデータが、オブジェクトのモデルインスタンスから獲得され、使用形跡に付随する三次元構造物を推定するために機械学習モデルを訓練するために画像情報とともに使用され得る。三次元深さデータは、例えば機械的計測プローブ、レーザースキャナ、ＬＩＤＡＲセンサーなどを包含する様々な異なる座標測定機械のうちの任意のものを使用して獲得され得る。概して、機械学習モデルは、多様なポーズから複数の画像を使用して訓練され、三次元深さデータを推定するために工程３００の複数のパフォーマンスから特定された位置を使用し得る。

別の例として、幾つかの実施態様では、使用形跡は、十分に制約された工程から発生し得る。例は、例えば、ギアの反復的な摩耗、または、シャフトの反復的な荷重を包含する。工程の制約は、工程３００において特定された位置に対応した三次元構造物を特定するために使用され得る。

主題の実施形態および本明細書において説明されている動作は、本明細書において開示されている構造物、およびそれらと構造的に同等なものを含むデジタル電子回路において、または、コンピュータソフトウェア、ファームウェア、またはハードウェアにおいて、または、それらのうちの１つまたは複数の組み合わせにより実現され得る。本明細書において説明されている主題の実施形態は、データ処理装置による実行のために、またはデータ処理装置の動作を制御するためにコンピュータ記憶媒体において符号化された、１つまたは複数のコンピュータプログラム、すなわちコンピュータプログラム命令の１つまたは複数のモジュールとして実現され得る。代替的に、または追加的に、プログラム命令は、データ処理装置による実行のための適切な受信器装置への送信のために情報を符号化するために生成された、例えば機械により生成された電気信号、光学信号、または電磁信号といった、人工的に生成された伝播させられる信号上で符号化され得る。コンピュータ記憶媒体は、コンピュータ可読ストレージデバイス、コンピュータ可読ストレージ基材、ランダムまたはシリアルアクセスメモリアレイまたはデバイス、またはそれらのうちの１つまたは複数の組み合わせであり、または、これらに含まれ得る。更に、コンピュータ記憶媒体は伝播させられる信号ではないが、コンピュータ記憶媒体は、人工的に生成された伝播させられる信号において符号化されたコンピュータプログラム命令の源または宛先であり得る。コンピュータ記憶媒体は更に、１つまたは複数の独立した物理的コンポーネントまたは媒体（例えば複数のＣＤ、ディスク、または他のストレージデバイス）であり、または、これらに含まれ得る。

本明細書において説明されている動作は、１つまたは複数のコンピュータ可読ストレージデバイスに記憶された、または他のソースから受信されたデータに対してデータ処理装置により実施される動作として実現され得る。

「データ処理装置」という用語は例えばプログラム可能プロセッサ、コンピュータ、システム・オン・ア・チップ、または、これらのうちの複数のものまたは組み合わせを包含するデータを処理するための全ての種類の装置、デバイス、および機械を包含する。装置は、特定目的用論理回路、例えばＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）を包含し得る。装置は、ハードウェアに加えて、問題となっているコンピュータプログラムのための実行環境を生成するコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、クロスプラットフォーム実行環境、仮想マシン、またはそれらのうちの１つまたは複数の組み合わせを構成するコードを更に含み得る。装置および実行環境は、様々な異なるコンピューティングモデルインフラストラクチャー、例えば、ウェブサービス、分散型コンピューティングおよびグリッドコンピューティングインフラストラクチャーを実現し得る。

（プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとしても知られる）コンピュータプログラムは、コンパイルされたまたはインタープリター処理された言語、宣言型または手続き型言語を包含する任意の形態のプログラミング言語により記述され得、それは、スタンドアロンプログラムとして、または、モジュールとして、コンポーネント、サブルーチン、オブジェクト、またはコンピューティング環境における使用に適した他のユニットとして、を包含する任意の形態により配備され得る。コンピュータプログラムは、ファイルシステムにおけるファイルに対応し得るが、必須ではない。プログラムは、他のプログラムまたはデータ（例えばマークアップ言語ドキュメントに記憶された１つまたは複数のスクリプト）を保持したファイルの一部に、問題となっているプログラムに割り当てられた１つのファイルに、または、複数の協調したファイル（例えば、１つまたは複数のモジュール、サブプログラム、またはコードの一部を記憶したファイル）に記憶され得る。コンピュータプログラムは、１つの場所に位置する、または複数の場所にわたって分散された、および通信ネットワークにより相互接続された、１つのコンピュータにおいて、または複数のコンピュータにおいて実行されるように展開され得る。

本明細書において説明されている工程およびロジックフローは、入力データを処理すること、および出力を生成することにより動作を実施するための１つまたは複数のコンピュータプログラムを実行する１つまたは複数のプログラム可能プロセッサにより実施され得る。工程およびロジックフローは、例えばＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）といった特定目的用論理回路により更に実施され得、および、装置は、例えばＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）といった特定目的用論理回路として更に実現され得る。

コンピュータプログラムの実行に適したプロセッサは、例示として、汎用マイクロプロセッサと特定目的用マイクロプロセッサとの両方、および任意の種類のデジタルコンピュータのうちの任意の１つまたは複数のプロセッサを包含する。概して、プロセッサは、読み出し専用メモリもしくはランダムアクセスメモリ、またはその両方から命令およびデータを受信する。コンピュータの本質的な要素は、命令に従って動作を実施するためのプロセッサ、および、命令およびデータを記憶するための１つまたは複数のメモリデバイスである。概して、コンピュータは、例えば磁気ディスク、光磁気ディスク、または光ディスクといったデータを記憶するための１つまたは複数の大容量ストレージデバイスを更に含み、または、１つまたは複数の大容量ストレージデバイスからデータを受信するように、または、１つまたは複数の大容量ストレージデバイスにデータを伝達するように、またはその両方をするように動作可能に結合される。しかし、コンピュータはこのようなデバイスをもつ必要はない。更に、コンピュータは、例えば、幾つか例示すると、携帯電話、携帯情報端末（ＰＤＡ）、モバイルオーディオまたはビデオプレーヤー、ゲームコンソール、全地球測位システム（ＧＰＳ）受信器、またはポータブルストレージデバイス（例えばユニバーサルシリアルバス（ＵＳＢ）フラッシュドライブ）といった別のデバイスに組み込まれ得る。コンピュータプログラム命令およびデータを記憶することに適したデバイスは、例示として、例えばＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイスといった半導体メモリデバイス、例えば内蔵ハードディスクまたは取り外し可能なディスクといった磁気ディスク、光磁気ディスク、およびＣＤ－ＲＯＭ、およびＤＶＤ－ＲＯＭディスクを包含する、全ての形態の不揮発性メモリ、媒体、およびメモリデバイスを包含する。プロセッサおよびメモリは、特定目的用論理回路により補完され、または、特定目的用論理回路に組み込まれ得る。

ユーザーとの対話を提供するために、本明細書において説明されている主題の実施形態は、ユーザーに情報を表示するための例えばＣＲＴ（ブラウン管）またはＬＣＤ（液晶ディスプレイ）モニターといったディスプレイデバイス、およびキーボード、および、ユーザーがコンピュータに入力を提供し得る例えばマウスまたはトラックボールといったポインティングデバイスを含むコンピュータにおいて実現され得る。他の種類のデバイスは、同様にユーザーとの対話を提供するために使用され得、例えば、ユーザーに提供されるフィードバックは、例えば視覚フィードバック、聴覚フィードバック、または触覚フィードバックといった任意の形態の感覚フィードバックであり得、ユーザーからの入力は、音響、発話、または触覚入力を包含する任意の形態により受信され得る。加えて、コンピュータは、ユーザーにより使用されるデバイスにドキュメントを送信すること、および、ユーザーにより使用されるデバイスからドキュメントを受信することにより、例えば、ウェブブラウザから受信された要求に応答して、ユーザーのクライアントデバイスにおけるウェブブラウザにウェブページを送信することにより、ユーザーと対話し得る。

本明細書は多くの特定の実施態様の詳細事項を含むが、これらは、任意の発明の範囲または請求項に記載され得るものに対する限定と解釈されてはならず、むしろ、特定の発明の特定の実施形態に特有な特徴の説明と解釈される。別々の実施形態の文脈において本明細書において説明されている特定の特徴は、更に１つの実施形態において組み合わされて実現され得る。逆に、１つの実施形態の文脈において説明される様々な特徴が、更に複数の実施形態において別々に、または任意の適切な部分的組み合わせにおいて実現され得る。更に、しかし特徴が特定の組み合わせで動作するものとしてここまでに説明されている場合があり、更に最初にそのように請求項に記載されてもいるが、請求項に記載された組み合わせからの１つまたは複数の特徴が、幾つかの例では組み合わせから除外され得、請求項に記載された組み合わせが、部分的組み合わせまたは部分的組み合わせの変形例に関するものであってもよい。

同様に、動作は図面において特定の順序で描かれているが、これは、このような動作が示されている特定の順序により、または順次的な順序により実施されること、または、望ましい結果を得るために全ての示されている動作が実施されることを必要とすると理解されてはならない。特定の状況において、マルチタスク処理および並列処理が有益であり得る。更に、上述の実施形態における様々なシステムコンポーネントの分離は、全ての実施形態においてこのような分離を必要とすると理解されてはならず、説明されているプログラムコンポーネントおよびシステムが概して、１つのソフトウェアプロダクトに一緒に統合され、または複数のソフトウェアプロダクトにパッケージ化され得ることが理解されなければならない。

したがって、主題の特定の実施形態が説明されている。他の実施形態は後述の請求項の範囲内にある。幾つかの例では、特許請求の範囲に記載されているアクションは、異なる順序で実施されてもよく、依然として望ましい結果をもたらす。加えて、添付図面に描かれている工程は、望ましい結果を得るために示されている特定の順序または順番を必要とするとは限らない。特定の実施態様において、マルチタスク処理および並列処理が有益であり得る。

Claims

データ処理装置により実施される方法であって、前記方法が、
比較的広い視野の画像におけるオブジェクトのインスタンスのポーズに基づいて、前記オブジェクトの３Ｄモデルに、前記オブジェクトの前記インスタンスの前記比較的広い視野の画像における使用形跡を投影することと、
前記比較的広い視野の画像における前記使用形跡と比較的狭い視野の画像における同じ使用形跡との間のマッチング関係に基づいて、前記比較的狭い視野の画像における前記オブジェクトの前記インスタンスの相対ポーズを推定することと、
を含む、方法。
推定された前記ポーズと前記３Ｄモデルへの前記使用形跡の投影とを使用して、前記比較的狭い視野の画像における使用形跡の仮想的な位置を演算することと、
前記仮想的な位置と前記比較的狭い視野の画像における前記使用形跡の実際の位置とを比較することと、
前記３Ｄモデルに不適切に投影された前記使用形跡の部分集合を比較結果に基づいて特定することと、
を更に含む、請求項１に記載の方法。
前記３Ｄモデルに適切に投影された前記使用形跡の第２の部分集合を使用して、前記３Ｄモデルを変形させる、
を更に含む、請求項２に記載の方法。
前記比較的狭い視野の画像における前記オブジェクトの前記インスタンスの前記相対ポーズに基づいて、前記オブジェクトの前記３Ｄモデルに前記使用形跡のうちの不適切に投影されたものを投影することを更に含む、
請求項２に記載の方法。
前記３Ｄモデルに前記使用形跡のうちの前記不適切に投影されたものを投影することが、
前記使用形跡のうちの前記不適切に投影されたもののうちの第１のものを含む前記比較的狭い視野の画像の領域を特定することと、
前記使用形跡のうちの前記不適切に投影されたもののうちの前記第１のものを、前記比較的広い視野の画像における前記使用形跡のうちの第１のものとマッチングさせることと、
前記オブジェクトの前記３Ｄモデルに前記比較的広い視野の画像における前記使用形跡のうちの前記第１のものを投影することと、
を含む、
請求項４に記載の方法。
前記使用形跡の不適切に投影されたものの前記部分集合が、前記仮想的な位置と前記比較的狭い視野の画像における前記使用形跡の前記実際の位置との間の位置ずれに基づいて特定される、
請求項２に記載の方法。
前記方法が、
前記マッチング関係の適切な部分集合を確立するために、前記マッチング関係から、前記３Ｄモデルに不適切に投影された前記使用形跡の前記部分集合をフィルタリングすることと、
前記マッチング関係の部分集合に基づいて、前記比較的狭い視野の画像における前記オブジェクトの前記インスタンスの前記相対ポーズを再度推定することと、
を含む、請求項２に記載の方法。
前記３Ｄモデルに前記比較的広い視野の画像における前記使用形跡を投影することが、前記比較的広い視野の画像のポーズを特定することを含む、
請求項１に記載の方法。
前記比較的狭い視野の画像における前記オブジェクトの前記インスタンスの支配的な色を特定することと、
前記支配的な色からずれた、前記比較的広い視野の画像における、前記比較的狭い視野の画像における、または前記比較的広い視野の画像と前記比較的狭い視野の画像との両方における領域を特定することと、
前記比較的広い視野の画像における前記使用形跡と前記比較的狭い視野の画像における前記使用形跡とをマッチングさせるために、特定された前記領域をマッチングさせることと、
を更に含む、請求項１に記載の方法。
前記比較的狭い視野の画像における前記オブジェクトの前記インスタンスにおける理想状態からのずれを特定することと、
前記比較的広い視野の画像における前記使用形跡と前記比較的狭い視野の画像における前記使用形跡とをマッチングさせるために、前記比較的狭い視野の画像における前記ずれを前記比較的広い視野の画像にマッチングさせることと、
を更に含む、請求項１に記載の方法。
複数の比較的狭い視野の画像における前記オブジェクトの前記インスタンスの相対ポーズを推定することと、
推定された前記ポーズを使用して前記比較的狭い視野の画像における同じ使用形跡の仮想的な位置を演算することと、
を含む、請求項１に記載の方法。
データ処理装置により実施される方法であって、前記方法が、
オブジェクトのインスタンスの２つ以上の２Ｄ画像からの使用形跡を使用して、前記オブジェクトの３Ｄモデルに注釈付けすることを含み、
前記３Ｄモデルに注釈付けすることが、
前記３Ｄモデルと前記２Ｄ画像とを受信することであって、前記２Ｄ画像のうちの第１のものが前記インスタンスの比較的広い視野の画像であり、前記２Ｄ画像のうちの第２のものが前記インスタンスの比較的狭い視野の画像である、受信することと、
前記比較的広い視野の画像と前記比較的狭い視野の画像とにおいて視認可能な使用形跡をマッチングさせることと、
前記オブジェクトの前記３Ｄモデルに前記比較的広い視野の画像における前記使用形跡を投影することと、
前記３Ｄモデルへの前記使用形跡の投影、および、前記比較的広い視野の画像と前記比較的狭い視野の画像とにおけるマッチした前記使用形跡を使用して、前記比較的狭い視野の画像における前記インスタンスのポーズを推定することと、
推定された前記ポーズと前記３Ｄモデルへの前記使用形跡の投影とを使用して、前記比較的狭い視野の画像における使用形跡の仮想的な位置を演算することと、
前記使用形跡のうちの不適切に投影されたものを特定するために、前記仮想的な位置と前記比較的狭い視野の画像における前記使用形跡の実際の位置とを比較することと、
前記オブジェクトの前記３Ｄモデルへの投影から前記使用形跡のうちの前記不適切に投影されたものを除去することと、
を含む、方法。
比較的狭い視野の画像における前記オブジェクトの前記インスタンスの相対ポーズに基づいて、前記オブジェクトの前記３Ｄモデルに前記使用形跡のうちの前記不適切に投影されたものを投影することを更に含む、
請求項１２に記載の方法。
前記３Ｄモデルに前記使用形跡のうちの前記不適切に投影されたものを投影することが、
前記使用形跡のうちの前記不適切に投影されたもののうちの第１のものを含む前記比較的狭い視野の画像の領域を特定することと、
前記使用形跡のうちの前記不適切に投影されたもののうちの前記第１のものを、前記比較的広い視野の画像における前記使用形跡のうちの第１のものとマッチングさせることと、
前記オブジェクトの前記３Ｄモデルに前記比較的広い視野の画像における前記使用形跡のうちの前記第１のものを投影することと、
を含む、
請求項１３に記載の方法。
前記使用形跡の前記不適切に投影されたものの部分集合が、前記仮想的な位置と前記比較的狭い視野の画像における前記使用形跡の前記実際の位置との間の位置ずれに基づいて特定される、
請求項１２に記載の方法。
前記使用形跡をマッチングさせることが、
前記比較的狭い視野の画像における前記オブジェクトの前記インスタンスの支配的な色を特定することと、
前記支配的な色からずれた、前記比較的広い視野の画像における、前記比較的狭い視野の画像における、または前記比較的広い視野の画像と前記比較的狭い視野の画像との両方における領域を特定することと、
を含む、
請求項１２に記載の方法。
前記使用形跡をマッチングさせることが、
前記比較的狭い視野の画像における前記オブジェクトの前記インスタンスにおける理想状態からのずれを特定することと、
前記比較的狭い視野の画像における前記ずれを前記比較的広い視野の画像にマッチングさせることと、
を含む、
請求項１２に記載の方法。
前記オブジェクトの前記３Ｄモデルへの投影から前記使用形跡のうちの適切に投影されたものを使用して、前記３Ｄモデルを変形させることを更に含む、
請求項１２に記載の方法。
少なくとも１つのプロセッサにより実行されたときに、オブジェクトのインスタンスの２つ以上の２Ｄ画像からの使用形跡を使用して前記オブジェクトの３Ｄモデルに注釈付けするための動作を前記少なくとも１つのプロセッサに実施させる実行可能命令を使用して符号化された少なくとも１つのコンピュータ可読記憶媒体であって、前記３Ｄモデルに注釈付けすることが、
前記３Ｄモデルと前記２Ｄ画像とを受信することであって、前記２Ｄ画像のうちの第１のものが前記インスタンスの比較的広い視野の画像であり、前記２Ｄ画像のうちの第２のものが前記インスタンスの比較的狭い視野の画像である、受信することと、
前記比較的広い視野の画像と前記比較的狭い視野の画像とにおいて視認可能な使用形跡をマッチングさせることと、
前記オブジェクトの前記３Ｄモデルに前記比較的広い視野の画像における前記使用形跡を投影することと、
前記３Ｄモデルへの前記使用形跡の投影、および、前記比較的広い視野の画像と前記比較的狭い視野の画像とにおけるマッチした前記使用形跡を使用して、前記比較的狭い視野の画像における前記インスタンスのポーズを推定することと、
推定された前記ポーズと前記３Ｄモデルへの前記使用形跡の投影とを使用して、前記比較的狭い視野の画像における使用形跡の仮想的な位置を演算することと、
前記使用形跡のうちの不適切に投影されたものを特定するために、前記仮想的な位置と前記比較的狭い視野の画像における前記使用形跡の実際の位置とを比較することと、
前記オブジェクトの前記３Ｄモデルへの投影から前記使用形跡のうちの前記不適切に投影されたものを除去することと、
を含む、
コンピュータ可読記憶媒体。