JP7098604B2

JP7098604B2 - 動的エンティティのマルチビューインタラクティブデジタルメディア表現における対象の自動タグ付け

Info

Publication number: JP7098604B2
Application number: JP2019510299A
Authority: JP
Inventors: ヨハネスヨーゼフホルツァー，ステファン; デイビッドミラー，スティーブン; ボグダンルス，ラドゥ
Original assignee: ファイユージョン，インコーポレイテッド
Priority date: 2016-08-19
Filing date: 2017-08-18
Publication date: 2022-07-11
Anticipated expiration: 2037-08-18
Also published as: WO2018035500A1; DE112017004150T5; JP2019534494A

Description

関連出願の相互参照
[0001] 本願は、２０１６年８月１９日に出願された米国仮特許出願第６２／３７７，５１６号の利益を主張する２０１７年６月１２日に出願された米国特許出願第１５／６２０，５０６号の利益を主張するものであり、この出願は全体的に、参照により本明細書に援用される。加えて、本願は、２０１５年７月１５日に出願された米国特許出願第１４／８００，６３８号の一部継続出願であり、この出願も全体的に、参照により本明細書に援用される。

技術分野
[0002] 本開示は、一般的に、マルチビューインタラクティブデジタルメディア表現に関する。

背景
[0003] 近代の計算プラットフォーム及び技術が、ネイティブの取得入力ストリームとしてカメラセンサを含むモバイルデバイス及びウェアラブルデバイスにシフトするのに伴い、より従来的な二次元（２Ｄ）平面画像及びビデオと異なる形態で瞬間をデジタルで記録し保存したいという望みがより明白になった。従来のデジタルメディアフォーマットは通常、閲覧者を受動的な経験に制限する。例えば、２Ｄ平面画像は、１つの角度から見ることができ、ズームイン及びズームアウトに制限される。したがって、２Ｄ平面画像等の従来のデジタルメディアフォーマットは、思い出及びイベントを高い忠実度で再現するのに容易に適合しない。

[0004] 現在の予測（参照文献：ＫＰＣＢ「Internet Trends 2012」プレゼンテーション」）は、数年ごとに、オンラインにおいてデジタルで捕捉されているビジュアルデータの量が二倍になることを示している。このビジュアルデータ量が増えるにつれて、現在利用可能なものよりもはるかに包括的な検索及び索引付けメカニズムへの必要性も増える。不都合なことに、２Ｄ画像も２Ｄビデオもこれらの目的に向けて設計されていない。したがって、ユーザがビジュアルデータを閲覧し索引付けるとともに、ビジュアルデータに問い合わせて有意味な結果を高速で受信することができる改善されたメカニズムが望ましい。

概要
[0005] 本開示の様々な実施形態は、一般的に、動的エンティティのマルチビューインタラクティブデジタルメディア表現（ＭＩＤＭＲ：multi-view interactive digital media representation）において対象を自動的にタグ付けするシステム及び方法に関する。特定の実施形態によれば、デバイスに提示される、本明細書においてマルチビューインタラクティブデジタルメディア表現と呼ばれる表現を作成するために、複数の画像とビデオとの間の空間関係が、ロケーション情報データと共に分析される。マルチビューインタラクティブデジタルメディア表現は、背景における動的対象のマルチビューインタラクティブデジタルメディア表現に対応する。動的対象の第１のマルチビューインタラクティブデジタルメディア表現が取得される。次に、動的対象がタグ付けされる。次に、動的対象の第２のマルチビューインタラクティブデジタルメディア表現が生成される。最後に、第２のマルチビューインタラクティブデジタルメディア表現における動的対象が、自動的に識別されタグ付けされる。

図面の簡単な説明
[0006] 本開示は、添付図面と併せて解釈される以下の説明を参照することによって最良に理解し得、添付図面は本開示の特定の実施形態を示す。

[0007]ＭＩＤＭＲ取得システムの一例を示す。 [0008]ＭＩＤＭＲを生成するプロセスフローの一例を示す。 [0009]三次元（３Ｄ）モデルに融合して、没入経験を生み出すことができる複数のカメラビューの一例を示す。 [0010]ＭＩＤＭＲにおけるコンテンツとコンテキストとの分離の一例を示す。 [0011]ＭＩＤＭＲにおける階層化の一例を示す。 [0012]ＭＩＤＭＲにおけるレイヤを変更するプロセスの一例を示す。 [0013]バックカメラ捕捉スタイルを使用する凹ビューの例を示す。 [0013]バックカメラ捕捉スタイルを使用する凸ビューの例を示す。 [0014]ＭＩＤＭＲの様々な捕捉モードの例を示す。 [0014]ＭＩＤＭＲの様々な捕捉モードの例を示す。 [0014]ＭＩＤＭＲの様々な捕捉モードの例を示す。 [0014]ＭＩＤＭＲの様々な捕捉モードの例を示す。 [0014]ＭＩＤＭＲの様々な捕捉モードの例を示す。 [0015]ＭＩＤＭＲの生成に使用することができるデータを記録するプロセスの一例を示す。 [0016]動的パノラマ捕捉プロセスの一例を示す。 [0017]捕捉デバイスが回転軸を通して回転する動的パノラマ捕捉プロセスの一例を示す。 [0018]動的コンテンツを有する動的パノラマの一例を示す。 [0019]３Ｄエフェクトを有する動的パノラマを捕捉する一例を示す。 [0020]視差エフェクトを有する動的パノラマの一例を示す。 [0021]対象パノラマ捕捉プロセスの一例を示す。 [0022]対象パノラマが投影された背景パノラマの一例を示す。 [0023]対象パノラマを構成する複数の対象の一例を示す。 [0024]ユーザナビゲーションに基づいて対象パノラマの視角を変更する一例を示す。 [0025]セルフィーパノラマ捕捉プロセスの一例を示す。 [0026]セルフィーパノラマが投影された背景パノラマの一例を示す。 [0027]ユーザナビゲーションに基づくパノラマの拡張ビューの一例を示す。 [0028]三次元コンテンツが二次元パノラマコンテンツとブレンドされるＭＩＤＭＲの一例を示す。 [0029]独立した観測者によって同時に記録されている空間－時間ＭＩＤＭＲの一例を示す。 [0030]複雑な周囲ビューをより小さな線形部分に分離する一例を示す。 [0031]複数のＭＩＤＭＲを結合してマルチＭＩＤＭＲにする一例を示す。 [0032]より正確なＭＩＤＭＲを提供するために、関心対象の追加のビューをユーザに促すプロセスの一例を示す。 [0033]検索する対象の追加のビューをユーザに促す一例を示す。 [0033]検索する対象の追加のビューをユーザに促す一例を示す。 [0034]ＭＩＤＭＲをナビゲートするプロセスの一例を示す。 [0035]ＭＩＤＭＲのスワイプベースのナビゲーションの一例を示す。 [0036]動的コンテンツ及び自動タグ付けを用いる動的パノラマの一例の第１のＭＩＤＭＲを示す。 [0037]動的コンテンツ及び自動タグ付けを用いる動的パノラマの一例の第２のＭＩＤＭＲを示す。 [0038]ＭＩＤＭＲ内の動的対象の自動タグ付けプロセスの一例を示す。 [0039]モバイルデバイス及びブラウザに示されるＭＩＤＭＲの共有サービスの例を示す。 [0040]モバイルデバイス上のＭＩＤＭＲ関連通知の例を示す。 [0041]対象セグメント化を提供するプロセスの一例を示す。 [0042]異なる角度から見たセグメント化対象の一例を示す。 [0043]ＭＩＤＭＲ生成に使用することができる様々なデータソース及びＭＩＤＭＲと併用することができる様々なアプリケーションの一例を示す。 [0044]検索クエリが対象のＭＩＤＭＲを含み、検索されたデータが三次元モデルを示す、対象のビジュアル検索を提供するプロセスの一例を示す。 [0045]検索クエリが対象のＭＩＤＭＲを含み、検索されたデータが二次元画像を含む、対象のビジュアル検索を提供するプロセスの一例を示す。 [0046]ビジュアル検索プロセスの一例を示す。 [0047]検索クエリが対象の二次元ビューを含み、検索されたデータがＭＩＤＭＲを含む、対象のビジュアル検索を提供するプロセスの一例を示す。 [0048]本開示の様々な実施形態と併用することができるコンピュータシステムの特定の例を示す。

詳細な説明
[0049] 本明細書で使用される場合、「マルチビューインタラクティブデジタルメディア表現」（ＭＩＤＭＲ）なる用語は、典型的な「周囲ビュー」からの技術的改善を指す。したがって、ＭＩＤＭＲは周囲ビューと同様であるが、ＭＩＤＭＲのより進んだ特徴、例えば、不完全な捕捉円弧起動を許すＩＭＵ回転補償ファクタに基づいて技術的に区別される。

[0050] ＭＩＤＭＲは、任意のエンハンスメントアルゴリズムが適用された後、生成される。様々な例では、ＭＩＤＭＲは、コンテンツの三次元モデル及びコンテキストの二次元モデルを含むことができる。しかしながら、幾つかの例では、コンテキストは、コンテキストが純粋には二次元ではないように、円筒面又は他の形状の表面等の表面に沿って投影される風景又は背景の「平面」ビューを表すことができる。更に他の例では、コンテキストは三次元側面を含むことができる。

[0051] 様々な実施形態によれば、ＭＩＤＭＲは、従来の二次元画像又はビデオよりも優れた多くの利点を提供する。これらの利点の幾つかは、移動する風景、移動する取得デバイス、又は両方に対処する能力；三次元でシーンの部分をモデリングする能力；不必要な冗長情報を除去し、出力データセットのメモリフットプリントを低減する能力；コンテンツとコンテキストとを区別する能力；コンテンツとコンテキストとの区別を使用して、ユーザ経験を改善する能力；コンテンツとコンテキストとの区別を使用して、メモリフットプリントを改善する（一例は、コンテンツの高品質圧縮及びコンテキストの低品質圧縮）能力；ＭＩＤＭＲを高度の効率及び正確性で索引付けられるようにする特別な特徴記述子をＭＩＤＭＲに関連付ける能力；及びユーザがＭＩＤＭＲと対話し、ＭＩＤＭＲの視点を変更する能力を含む。特定の実施形態例では、上述した特徴は、ＭＩＤＭＲ表現に元々組み込むことができ、様々な用途で使用される能力を提供する。例えば、ＭＩＤＭＲは、電子商取引、ビジュアル検索、３Ｄプリント、ファイル共有、ユーザ対話、及びエンターテイメント等の様々な分野の強化に使用することができる。

[0052] 幾つかの実施形態では、ＭＩＤＭＲモデルは、レンダリングされる実際の三次元モデルではなく、ユーザにより三次元モデルとして経験される三次元ビューである。例えば、ＭＩＤＭＲは、実際の三次元モデルをレンダリング及び／又は記憶せずに、コンテンツの三次元ビューを提供する。換言すれば、ポリゴン生成又は三次元メッシュ及び／又はポリゴンメッシュへのテクスチャマッピングはない。しかしながら、ユーザはそれでもなお、コンテンツ及び／又はコンテキストを実際の三次元モデルとして知覚する。ＭＩＤＭＲによって提供される三次元エフェクトは、単純に実際の二次元画像及び／又はその部分をステッチングすることを通して生成される。本明細書で使用される場合、「三次元モデル」なる用語は、このタイプの三次元ビューと同義で使用される。入力デバイスからのナビゲーション入力を使用して、ＭＩＤＭＲに出力する画像を選択することができる。例えば、ユーザは、モバイルデバイスを傾け、又はタッチスクリーンディスプレイをスワイプして、ＭＩＤＭＲに出力する画像を選択することができる。ナビゲーション入力は、ディスプレイでＭＩＤＭＲに含まれる対象の見掛けの位置を変える。例えば、対象は、ナビゲーション入力に応答してディスプレイ上で回転するように見えることができる。

[0053] ＭＩＤＭＲ手法は、完全３Ｄモデルから対象をレンダリングすることと異なる。完全３Ｄモデル手法を用いる場合、ナビゲーション入力を使用して、３Ｄモデル空間において３Ｄモデルの位置を調整することができる。次に、ナビゲーション入力に応答して３Ｄモデル空間における位置が変更する都度、３Ｄモデルを２Ｄ画像に再レンダリングすることができる。この３Ｄモデル手法は、対象の移動が予め決まっていないため、より多くの遷移を提供する。しかしながら、特に３Ｄモデルの複雑性が増大するにつれ、３Ｄモデル手法は計算的に高価である。更に、３Ｄモデルを生成する必要があり、これには時間がかかり得る。

[0054] ＭＩＤＭＲ手法は、３Ｄモデル空間から２Ｄ画像への画像の常時レンダリングを必要としない。更に、ＭＩＤＭＲ手法は、３Ｄモデルの生成を必要としない。したがって、ＭＩＤＭＲ手法は、３Ｄにおける対象の見掛けの動きをより高速且つより計算効率的に表すことができる。

[0055] 様々な実施形態では、ＭＩＤＭＲは、対象を有する画像を含むことができる。ＭＩＤＭＲが出力されると、対象は、１つ又は複数の軸の回りを回転する能力等の見掛けの運動を有するように見えることができる。例えば、ＭＩＤＭＲは、出力時、人物を異なる複数の角度から見ることができるように人物が軸の回りを回転して見える人物の画像を含むことができる。見掛けの回転は、２Ｄ画像のみを使用して達成され、複数のポリゴン及び関連するテクスチャを含む３Ｄモデル等の対象の３Ｄモデルを必要としない。したがって、対象のテクスチャ化３Ｄモデルを生成する必要がなく、各回転での３Ｄ空間における対象及びそのポリゴンの３Ｄモデルの位置を特定する必要がなく、対象の３Ｄモデルが３Ｄ空間に位置決めされた後、ディスプレイに出力するために、それをテクスチャ化し、次に２Ｄ画像にレンダリングする必要がないため、動作をより計算効率的に実行することができる。ＭＩＤＭＲ手法を用いてこられのステップをなくすことにより、従来の３Ｄモデリング手法と比較して、メモリ要件及びＣＰＵ要件は大幅に低減する。

[0056] 加えて、対象の見掛けの運動は、ＭＩＤＭＲから出力される場合、まるで対象の運動が画像品質３Ｄテクスチャ化モデルから生成されるかのように見える。画像品質３Ｄテクスチャ化モデルは、時間が掛かり、多くの場合には手動のプロセスにおいて生成される。特に、実際の人物等の対象の画像品質テクスチャ化３Ｄモデルの生成は、特に対象の「生きているような」レンダリングが望まれる場合、かなり困難であり時間がかかる。

[0057] ＭＩＤＭＲ手法では、３Ｄモデリングステップがないため、ユーザ生成２Ｄ画像からのユーザ選択対象をＭＩＤＭＲに素早く変換することができ、次にディスプレイにリアルタイムで出力することができる。出力中、ユーザは、ＭＩＤＭＲ内の対象の見掛けの運動の側面を制御することができる。ＭＩＤＭＲにおける対象は、ユーザ制御のカメラから受信される画像等の実際の画像から生成することができるため、出力されると、対象は生きているように見える。従来の３Ｄモデリング手法では、画像品質３Ｄモデルの生成に関連する問題により、この能力は提供されない。

[0058] これより、記載されるシステム及び方法を実行する最良の形態を含む、本開示に記載されるシステム及び方法の幾つかの特定の例を詳細に参照する。これらの特定の実施形態の例は、添付図面に示されている。本開示はこれらの特定の実施形態と併せて説明されるが、本開示を記載される実施形態に限定する意図がないことが理解される。逆に、添付の特許請求の範囲によって規定される本開示の趣旨及び範囲内に含まれ得る代替、変更、及び均等物の包含が意図される。

[0059] 以下の説明において、本開示の完全な理解を提供するために、多くの特定の詳細が記載される。本開示の特定の実施形態は、これらの特定の詳細の幾つか又は全てなしで実施し得る。他の場合、本開示を不必要に曖昧にしないように、周知のプロセス動作については詳細に説明しなかった。

[0060] 本開示の様々な態様は一般に、データの冗長性をなくし、ユーザにインタラクティブ且つ没入的でアクティブな閲覧経験を提示する１つの表現、ＭＩＤＭＲを作製するために、ロケーション情報と一緒に複数の画像とビデオとの空間関係を分析するシステム及び方法に関する。様々な実施形態によれば、アクティブは、画面に表示された視覚情報の視点を制御する能力をユーザに提供することに関して説明されている。特定の実施形態例では、ＭＩＤＭＲデータ構造（及び関連するアルゴリズム）は元々、限定する意図ではないが、ビジュアル検索に関わるアプリケーションに向けて構築されている。

[0061] 図１を参照して、ＭＩＤＭＲ取得システム１００の一例を示す。本実施形態例では、ＭＩＤＭＲ取得システム１００は、ＭＩＤＭＲの生成に使用することができるフローシーケンスで示されている。様々な実施形態によれば、ＭＩＤＭＲの生成に使用されるデータは、多種多様なソースからのものであることができる。特に、限定する意図ではないが、二次元（２Ｄ）画像１０４等のデータを使用して、ＭＩＤＭＲを生成することができる。これらの２Ｄ画像は、用途に応じて、複数の画像シーケンス、ビデオデータ等のカラー画像データストリーム又は画像の任意の様々なフォーマットの複数の画像を含むことができる。ＭＩＤＭＲの生成に使用することができるデータの別のソースは、ロケーション情報１０６を含む。このロケーション情報１０６は、加速度計、ジャイロスコープ、磁力計、ＧＰＳ、Wi-Fi（登録商標）、ＩＭＵのようなシステム（慣性測定ユニットシステム）等のソースから取得することができる。ＭＩＤＭＲの生成に使用することができるデータの更に別のソースは、深度画像１０８を含むことができる。これらの深度画像は、奥行き、３Ｄ、又は視差画像データストリーム等を含むことができ、限定する意図ではないが、立体カメラ、飛行時間カメラ、三次元カメラ等のデバイスによって捕捉することができる。

[0062] 本実施形態例では、次に、データをセンサ融合ブロック１１０において一緒に融合することができる。幾つかの実施形態では、ＭＩＤＭＲは、いかなる深度画像１０８も提供されずに、２Ｄ画像１０４及びロケーション情報１０６の両方を含むデータの組合せから生成することができる。他の実施形態では、深度画像１０８及びロケーション情報１０６をセンサ融合ブロック１１０において一緒に使用することができる。用途及び利用可能なデータに応じて、画像データの様々な組合せを１０６におけるロケーション情報と共に使用することができる。

[0063] 本実施形態例では、センサ融合ブロック１１０において一緒に融合されたデータは次に、コンテンツモデリング１１２及びコンテキストモデリング１１４に使用される。図４に関してより詳細に説明するように、画像の特徴的な内容は、コンテンツ及びコンテキストに分離することができる。コンテンツは、関心対象として説明することができ、コンテキストは、関心対象の周囲の風景として説明することができる。様々な実施形態によれば、コンテンツは、関心対象を示す三次元モデルであることができるが、図４に関してより詳細に後述するように、コンテンツは、幾つかの実施形態では、二次元画像であることができる。更に、幾つかの実施形態では、コンテキストは、関心対象の周囲の風景を示す二次元モデルであることができる。多くの例では、コンテキストは関心対象の周囲の風景の二次元ビューを提供することができるが、コンテキストは、幾つかの実施形態では、三次元側面を含むこともできる。例えば、コンテキストは、「平面」画像が円筒形の表面に見えるような円筒形「カンバス」に沿った「平面」画像として示すことができる。加えて、幾つかの例は、幾つかの対象が三次元対象として周囲風景において識別される場合等、三次元コンテキストモデルを含み得る。様々な実施形態によれば、コンテンツモデリング１１２及びコンテキストモデリング１１４によって提供されるモデルは、図３に関してより詳細に説明するように、画像とロケーション情報データとを結合することによって生成することができる。

[0064] 様々な実施形態によれば、ＭＩＤＭＲのコンテキスト及びコンテンツは、指定された関心対象に基づいて決定される。幾つかの例では、関心対象は、画像及びロケーション情報データの処理に基づいて自動的に選ばれる。例えば、主要な対象が一連の画像において検出される場合、この対象はコンテンツとして選択することができる。他の例では、図１に示されるように、ユーザ指定のターゲット１０２を選ぶことができる。しかしながら、幾つかの用途では、ユーザ指定のターゲットなしでＭＩＤＭＲを生成可能なことに留意されたい。

[0065] 本実施形態例では、１つ又は複数のエンハンスメントアルゴリズムをエンハンスメントアルゴリズムブロック１１６において適用することができる。特定の実施形態例では、ＭＩＤＭＲデータの捕捉中、利用される捕捉モードのタイプに関係なく、様々なアルゴリズムが利用可能である。これらのアルゴリズムを使用して、ユーザ経験を強化することができる。例えば、ＭＩＤＭＲデータの捕捉中、自動フレーム選択、安定化（stabilization）、ビュー補間、フィルタ、及び／又は圧縮を使用することができる。幾つかの例では、これらのエンハンスメントアルゴリズムは、データの取得後、画像データに適用することができる。他の例では、これらのエンハンスメントアルゴリズムは、ＭＩＤＭＲデータの捕捉中、画像データに適用することができる。

[0066] 特定の実施形態例によれば、自動フレーム選択を使用して、より楽しむことができるＭＩＤＭＲを作製することができる。特に、フレームは、フレーム間の遷移がより平滑であるか、又はより均等であるように自動的に選択される。この自動フレーム選択は、幾つかのアプリケーションにおいて、ブレ及び露出過度の検出、並びにより均等に分布するようなより均一な姿勢のサンプリングを組み込むことができる。

[0067] 幾つかの実施形態例では、ビデオに使用されるものと同様に、安定化をＭＩＤＭＲに使用することができる。特に、ＭＩＤＭＲにおけるキーフレームを安定化させて、より平滑な遷移、コンテンツへのフォーカスの改善／強化等の改善を生み出すことができる。しかしながら、ビデオと異なり、ＭＩＤＭＲには、ＩＭＵ情報、奥行き情報、コンピュータビジョン技法、安定化するエリアの直接選択、顔検出の使用による等の多くの追加の安定化ソースがある。

[0068] 例えば、ＩＭＵ情報は、安定化に非常に有用であることができる。特に、ＩＭＵ情報は、画像捕捉中に生じ得るカメラの振動の推定、時に、大まか又はノイズの多い推定を提供する。この推定は、そのようなカメラの振動の影響を除去、相殺、及び／又は低減するのに使用することができる。

[0069] 幾つかの例では、奥行き情報が利用可能な場合、奥行き情報を使用して、ＭＩＤＭＲに安定化を提供することができる。ＭＩＤＭＲにおける関心点は、二次元ではなく三次元であるため、これらの関心点はより拘束され、これらの点の追跡／マッチングは、検索空間が低減するにつれて簡易化される。更に、関心点の記述子は色情報及び奥行き情報の両方を使用することができ、したがって、より弁別的になることができる。加えて、自動又は半自動コンテンツ選択は、奥行き情報をより容易に提供することができる。例えば、ユーザが画像の特定のピクセルを選択する場合、この選択は、ユーザが触れた表面全体の充填に拡張することができる。更に、コンテンツは、奥行きに基づいて前景／背景区別を使用することによって自動的に選択することもできる。様々な例では、コンテンツは、コンテキストが変わる場合であっても、比較的安定／可視のままであることができる。

[0070] 様々な例によれば、コンピュータビジョン技法を使用して、ＭＩＤＭＲに安定化を提供することもできる。例えば、キーポイントを検出し、追跡することができる。しかしながら、動的シーン又は視差を有する静的シーン等の特定のシーンでは、全てを安定化することができる単純なワープは存在しない。したがって、シーンの特定の側面が、安定化についてより大きく注目され、シーンの他の側面がより小さく注目されるトレードオフが存在する。ＭＩＤＭＲは多くの場合、特定の関心対象にフォーカスするため、ＭＩＤＭＲはコンテンツ加重することができ、したがって、幾つかの例では、関心対象が最大に安定化される。

[0071] ＭＩＤＭＲにおける安定化を改善する別の方法は、画面領域の直接選択を含む。例えば、ユーザが画面領域にフォーカスするようにタップし、凸ＭＩＤＭＲ（convex MIDMR）を記録する場合、タップされたエリアを最大限に安定化することができる。これにより、安定化アルゴリズムは、特定のエリア又は関心対象にフォーカスすることができる。

[0072] 幾つかの例では、顔検出を使用して、安定化を提供することができる。例えば、前向きカメラを用いて記録する場合、ユーザがシーンにおける関心対象であることが往々にしてある。したがって、顔検出を使用して、その領域についての安定化を加重することができる。顔検出が十分に精密である場合、一般的なキーポイントではなく、顔特徴自体（両目、鼻、口等）を安定化するためのエリアとして使用することができる。

[0073] 様々な例によれば、ビュー補間を使用して、閲覧経験を改善することができる。特に、安定化されたフレーム間の急な「飛び」を回避するために、合成中間ビューをオンザフライでレンダリングすることができる。これは、上述したように、コンテンツ加重キーポイント追跡及びＩＭＵ情報により、並びにより密なピクセル－ピクセルマッチングにより通知することができる。奥行き情報が利用可能な場合、ミスマッチピクセルから生じるアーチファクトの数はより少数であり得、それにより、プロセスは簡易化される。上述したように、ビュー補間は、幾つかの実施形態では、ＭＩＤＭＲの捕捉中、適用することができる。他の実施形態では、ビュー補間は、ＭＩＤＭＲ生成中、適用することができる。

[0074] 幾つかの例では、ＭＩＤＭＲの捕捉又は生成中、フィルタを使用して、閲覧経験を強化することもできる。多くの人気のある写真共有サービスが、静的二次元画像に適用することができる美的フィルタを提供するのと全く同じように、美的フィルタを単に、周囲画像に適用することができる。しかしながら、ＭＩＤＭＲ表現は二次元画像よりも表現的であり、ＭＩＤＭＲでは三次元情報が利用可能であるため、これらのフィルタは、二次元写真では明確ではないエフェクトを含むように拡張することができる。例えば、ＭＩＤＭＲでは、コンテンツが鮮明である間、モーションブラーを背景（すなわち、コンテキスト）に追加することができる。別の例では、ドロップシャドーをＭＩＤＭＲにおける関心対象に追加することができる。

[0075] 様々な例では、エンハンスメントアルゴリズム１１６として圧縮を使用することもできる。特に、データのアップロード及びダウンロードのコストを低減することにより、圧縮を使用して、ユーザ経験を強化することができる。ＭＩＤＭＲは空間情報を使用するため、所望の品質のＭＩＤＭＲを維持しながら、ＭＩＤＭＲ用に送信されるデータを典型的なビデオよりもはるかに少なくすることができる。特に、ＩＭＵ、キーポイント追跡、及びユーザ入力は全て、上述したビュー補間と組み合わせて、ＭＩＤＭＲのアップロード又はダウンロード中、デバイスに転送及びデバイスから転送しなければならないデータ量を低減することができる。例えば、関心対象を適宜識別することができる場合、コンテンツ及びコンテキストに可変圧縮スタイルを選ぶことができる。この可変圧縮スタイルは、幾つかの例では、背景情報（すなわち、コンテキスト）用の低品質解像度及び前景情報（すなわち、コンテンツ）用の高品質解像度を含むことができる。そのような例では、送信されるデータ量は、所望のレベルの品質をコンテンツに維持しながら、コンテキスト品質の幾らかを犠牲にすることによって低減することができる。

[0076] 本実施形態では、ＭＩＤＭＲ１１８は、任意のエンハンスメントアルゴリズムの適合後、生成される。様々な例では、ＭＩＤＭＲは、コンテンツの三次元モデル及びコンテキストの二次元モデルを含むことができる。しかしながら、幾つかの例では、コンテキストは、コンテキストが純粋に二次元ではないように、円筒形又は他の形状の表面等の表面に沿って投影される風景又は背景の「平面」ビューを表すことができる。更に他の例では、コンテキストは三次元側面を含むことができる。

[0077] 様々な実施形態によれば、ＭＩＤＭＲは、従来の二次元画像又はビデオよりも優れた多くの利点を提供する。これらの利点の幾つかは、移動する風景、移動する取得デバイス、又は両方に対処する能力；三次元でシーンの部分をモデリングする能力；不必要な冗長情報を除去し、出力データセットのメモリフットプリントを低減する能力；コンテンツとコンテキストとを区別する能力；コンテンツとコンテキストとの区別を使用して、ユーザ経験を改善する能力；コンテンツとコンテキストとの区別を使用して、メモリフットプリントを改善する（一例は、コンテンツの高品質圧縮及びコンテキストの低品質圧縮）能力；ＭＩＤＭＲを高度の効率及び正確性で索引付けられるようにする特別な特徴記述子をＭＩＤＭＲに関連付ける能力；及びユーザがＭＩＤＭＲと対話し、ＭＩＤＭＲの視点を変更する能力を含む。特定の実施形態例では、上述した特徴は、ＭＩＤＭＲ表現に元々組み込むことができ、様々な用途で使用される能力を提供する。例えば、ＭＩＤＭＲは、電子商取引、ビジュアル検索、３Ｄプリント、ファイル共有、ユーザ対話、及びエンターテイメント等の様々な分野の強化に使用することができる。

[0078] 様々な実施形態例によれば、ＭＩＤＭＲ１１８が生成されると、追加の画像データの取得１２０についてのユーザフィードバックを提供することができる。特に、ＭＩＤＭＲが、コンテンツ又はコンテキストのより正確なモデルを提供するために追加のビューを必要とすると判断される場合、ユーザに、追加のビューを提供するように促し得る。これらの追加のビューがＭＩＤＭＲ取得システム１００によって受信されると、これらの追加のビューは、システム１００によって処理し、ＭＩＤＭＲに組み込むことができる。

[0079] 図２を参照して、ＭＩＤＭＲを生成する（２００）プロセス流れ図の一例を示す。本例では、２０２において、複数の画像が取得される。様々な実施形態によれば、複数の画像は、二次元（２Ｄ）画像又はデータストリームを含むことができる。これらの２Ｄ画像は、ＭＩＤＭＲの生成に使用することができるロケーション情報を含むことができる。幾つかの実施形態では、複数の画像は、図１に関しても上述したように、深度画像１０８を含むことができる。深度画像は、様々な例では、ロケーション情報を含むこともできる。

[0080] 様々な実施形態によれば、２０２において取得された複数の画像は、様々なソース及び特性を含むことができる。例えば、複数の画像は、複数のユーザから取得することができる。これらの画像は、コンサート等で取得された２Ｄ画像又はビデオ等の同じイベントの異なるユーザから、インターネットから収集された画像の集まりであることができる。幾つかの例では、複数の画像は、異なる時間情報を有する画像を含むことができる。特に、同じ関心対象の画像を異なる時間で撮影することができる。例えば、特定の彫像の複数の画像を異なる日時、異なる季節等で取得することができる。他の例では、複数の画像は移動中の対象を表すことができる。例えば、画像は、道路に沿って走行中の車両又は空を移動中の飛行機等の、風景を通って移動中の関心対象を含み得る。他の場合、画像は、踊っている人、走っている人、くるくる回っている人等のこれもまた移動中の関心対象を含み得る。

[0081] 本実施形態例では、２０４において、複数の画像を融合して、コンテンツ及びコンテキストモデルにする。様々な実施形態によれば、画像の特徴的な内容は、コンテンツ及びコンテキストに分離することができる。コンテンツは、関心対象として説明することができ、コンテキストは、関心対象の周囲の風景として説明することができる。様々な実施形態によれば、コンテンツは、関心対象を示す三次元モデルであることができ、コンテンツは、幾つかの実施形態では、二次元画像であることができる。

[0082] 本実施形態例によれば、２０６において、１つ又は複数のエンハンスメントアルゴリズムをコンテンツモデル及びコンテキストモデルに適用することができる。これらのアルゴリズムは、ユーザ経験を強化するために使用することができる。例えば、自動フレーム選択、安定化、ビュー補間、フィルタ、及び／又は圧縮等のエンハンスメントアルゴリズムを使用することができる。幾つかの例では、これらのエンハンスメントアルゴリズムは、画像の捕捉中、画像データに適用することができる。他の例では、これらのエンハンスメントアルゴリズムは、データの取得後、画像データに適用することができる。

[0083] 本実施形態では、２０８において、ＭＩＤＭＲはコンテンツモデル及びコンテキストモデルから生成される。様々な例では、ＭＩＤＭＲは、コンテンツの三次元モデル及びコンテキストの二次元モデルを含むことができる。様々な実施形態によれば、捕捉モード及び画像の視点に応じて、ＭＩＤＭＲモデルは特定の特性を含むことができる。例えば、異なるスタイルのＭＩＤＭＲの幾つかの例は、局所凹ＭＩＤＭＲ（concave MIDMR）、局所凸ＭＩＤＭＲ、及び局所平坦ＭＩＤＭＲ（flat MIDMR）を含む。しかしながら、ＭＩＤＭＲが、用途に応じてビュー及び特性の組合せを含むことができることに留意されたい。

[0084] 図３を参照して、一緒に融合して、三次元（３Ｄ）モデルにし、没入経験を生み出すことができる複数のカメラビューの一例を示す。様々な実施形態によれば、複数の画像を様々な視点から捕捉し、一緒に融合して、ＭＩＤＭＲを提供することができる。本実施形態例では、３台のカメラ３１２、３１４、及び３１６が、関心対象３０８の近傍のロケーション３２２、３２４、及び３２６のそれぞれに位置決めされる。風景は、対象３１０等の関心対象３０８を囲むことができる。各カメラ３１２、３１４、及び３１６からのビュー３０２、３０４、及び３０６は、重複する内容を含む。特に、各ビュー３０２、３０４、及び３０６は、関心対象３０８、及び対象３１０の周囲の様々な可視度の風景を含む。例えば、ビュー３０２は、対象３１０の周囲のシーンの一部である円柱体の前の関心対象３０８のビューを含む。ビュー３０６は円柱体の片側にある関心対象３０８を示し、ビュー３０４は、円柱体のいかなるビューも有さず、関心対象を示す。

[0085] 本実施形態例では、様々なビュー３０２、３０４、及び３１６は、それぞれに関連するロケーション３２２、３２４、及び３２６と共にそれぞれ、ＭＩＤＭＲの生成に使用することができる関心対象３０８についての情報及び周囲コンテキストの豊富なソースを提供する。例えば、一緒に分析される場合、様々なビュー３０２、３０４、及び３２６は、関心対象の異なる側、及び関心対象と風景との関係についての情報を提供する。様々な実施形態によれば、この情報は、関心対象３０８を解析してコンテンツにし、風景を解析してコンテキストにするのに使用することができる。更に、これもまた図１及び図２に関して上述したように、これらの視点によって生成された画像に様々なアルゴリズムを適用して、ＭＩＤＭＲを見るときに没入型のインタラクティブな経験を生み出すことができる。

[0086] 図４Ａは、ＭＩＤＭＲにおけるコンテンツとコンテキストとの分離の一例を示す。本開示の様々な実施形態によれば、ＭＩＤＭＲはシーン４００の表現である。図４Ａを参照して、シーン４００に配置されたユーザ４０２を示す。ユーザ４０２は、彫像等の関心対象の画像を捕捉している。ユーザによって捕捉された画像は、ＭＩＤＭＲの生成に使用することができるデジタルビジュアルデータを構成する。

[0087] 本開示の様々な実施形態によれば、ＭＩＤＭＲに含まれるデジタルビジュアルデータは、意味論的及び／又は実際的にコンテンツ４０４及びコンテキスト４０６に分離することができる。特定の実施形態によれば、コンテンツ４０４は関心のある物体、人物、又はシーンを含むことができ、一方、コンテキスト４０６は、コンテンツ４０４の周囲のシーンの残りの要素を表す。幾つかの例では、ＭＩＤＭＲは、コンテンツ４０４を三次元データとして表し、コンテキスト４０６を二次元パノラマ背景として表し得る。他の例では、ＭＩＤＭＲは、コンテンツ４０４及びコンテキスト４０６の両方を二次元パノラマシーンとして表し得る。更に他の例では、コンテンツ４０４及びコンテキスト４０６は、三次元構成要素又は側面を含み得る。特定の実施形態では、ＭＩＤＭＲがコンテンツ４０４及びコンテキスト４０６を示す方法は、画像の取得に使用される捕捉モードに依存する。

[0088] 限定する意図ではないが、物体、人物、又はそれらの一部のみが可視である場合の、物体、人物、又は物体若しくは人物の一部の記録、大きな平面エリアの記録、及び捕捉されたデータが無限であるように見える（すなわち、カメラに近い被写体がない）シーンの記録等の幾つかの例では、コンテンツ４０４及びコンテキスト４０６は同じであり得る。これらの例では、生成されるＭＩＤＭＲは、パノラマ等の他のタイプのデジタルメディアと同様の幾つかの特性を有し得る。しかしながら、様々な実施形態によれば、ＭＩＤＭＲは、これらの既存のタイプのデジタルメディアと区別される追加の特徴を含む。例えば、ＭＩＤＭＲは移動中のデータを表すことができる。更に、ＭＩＤＭＲは、特定の円柱状、球状、又は並進の運動に限定されない。様々な運動を使用して、カメラ又は他の捕捉デバイスを用いて画像データを捕捉することができる。更に、ステッチングされたパノラマと異なり、ＭＩＤＭＲは同じ対象の様々なサイドを表示することができる。

[0089] ＭＩＤＭＲは、幾つかのアプリケーションでは、コンテンツ及びコンテキストに分離することができるが、他のアプリケーションでは、レイヤに分離することもできる。図４Ｂを参照して、ＭＩＤＭＲにおける階層化の一例を示す。この例では、階層化ＭＩＤＭＲ４１０は異なるレイヤ４１８、４２０、及び４２２にセグメント化される。各レイヤ４１８、４２０、及び４２２は、物体（又は１組の物体）、人々、動的シーン要素、背景等を含むことができる。更に、これらのレイヤ４１８、４２０、及び４２２のそれぞれに、深度を割り当てることができる。

[0090] 様々な実施形態によれば、異なるレイヤ４１８、４２０、及び４２２は、異なる方法で表示することができる。例えば、異なるフィルタ（例えば、グレースケールフィルタ、ブラーリング等）を幾つかのレイヤに適用し、他のレイヤには適用しないことができる。他の例では、異なるレイヤは互いに対して異なる速度で移動することができ、それにより、ユーザがＭＩＤＭＲを通してスワイプしたとき、よりよい三次元エフェクトが提供される。同様に、ユーザが視差方向に沿ってスワイプする場合、レイヤは別様に変位されて、よりよい三次元エフェクトを提供することができる。加えて、ＭＩＤＭＲを表示するとき、１つ又は複数のレイヤを省くことができ、それにより、不要な物体等をＭＩＤＭＲから除去することができる。

[0091] 本例では、ユーザ４１２は、捕捉デバイス４１４を保持して示されている。ユーザ４１２は、捕捉デバイス４１４を捕捉運動４１６に沿って移動させる。捕捉された画像がＭＩＤＭＲの生成に使用されるとき、レイヤ４１８、４２０、及び４２２は奥行きに基づいて分けられる。次に、アプリケーションに応じて、ＭＩＤＭＲにおいてこれらのレイヤは別様に処理又は表示することができる。

[0092] 図４Ｃを参照して、ＭＩＤＭＲにおいて変更されたレイヤを有するＭＩＤＭＲを生成するプロセス４３０の一例を示す。特に、４３２において、第１のレイヤ及び第２のレイヤを有する第１のＭＩＤＭＲが得られる。図４Ｂに関して上述したように、ＭＩＤＭＲは異なるレイヤに分割することができる。本例では、第１のレイヤは第１の奥行きを含み、第２のレイヤは第２の奥行きを含む。

[0093] 次に、４３４において、第１のレイヤが選択される。様々な例によれば、第１のレイヤを選択することは、第１の奥行き内のデータを選択することを含む。より具体的には、第１の奥行き内のデータを選択することは、第１の奥行き内に配置されたビジュアルデータを選択することを含む。様々な実施形態によれば、第１のレイヤは、物体、人物、動的シーン要素、背景等の特徴を含むことができる。幾つかの例では、第１のレイヤの選択は、ユーザ入力なしで自動的に実行される。他の例では、第１のレイヤの選択は、ユーザによりガイドされる対話を使用して半自動的に実行される。

[0094] 第１のレイヤが選択された後、４３６において、エフェクトを第１のＭＩＤＭＲ内の第１のレイヤに適用して、変更された第１のレイヤを生成する。一例では、適用されるエフェクトは、ブラーフィルタ、グレースケールフィルタ等のフィルタであることができる。別の例では、適用されるエフェクトは、第２の速度で移動した第２のレイヤに相対して第１の速度で第１のレイヤを移動させることを含むことができる。第１の速度が第２の速度と異なる場合、いくつかの事例では、三次元エフェクトを改善することができる。幾つかのアプリケーションでは、視差エフェクトを生じさせることができ、それにより、三次元エフェクトを生じさせる。

[0095] 次に、４３８において、変更された第１のレイヤ及び第２のレイヤを含む第２のＭＩＤＭＲが生成される。上述したように、１つ又は複数のエフェクトを第１のレイヤに適用することは、幾つかのアプリケーションでは、ＭＩＤＭＲの三次元エフェクトを改善することができる。これらのアプリケーションでは、第２のＭＩＤＭＲは、第１のＭＩＤＭＲと比較した場合、改善された三次元エフェクトを有することができる。異なる例では、他のエフェクトを適用することができ、他のエフェクトは、第１のＭＩＤＭＲの様々な側面を強調又は強調抑制して、第２のＭＩＤＭＲを生成することができる。加えて、幾つかのアプリケーションでは、第２のＭＩＤＭＲにおいてレイヤを省くことができる。特に、第１のＭＩＤＭＲが第３のレイヤを含む場合、第２のＭＩＤＭＲはこの第３のレイヤを省く。一例では、この第３のレイヤは、生成された第２のＭＩＤＭＲでは「編集で削除」される物体又は人物を含むことができる。別の例では、この第３のレイヤは、背景又は背景要素を含むことができ、生成された第２のＭＩＤＭＲは、背景又は背景要素を含まない。当然ながら、アプリケーションに応じて、任意の対象又は特徴がこの省かれた第３のレイヤに存在することができる。

[0096] 図５Ａ及び図５Ｂは、両方ともバックカメラ捕捉スタイルを使用する凹ビュー（concave view）及び凸ビュー（convex view）の例をそれぞれ示す。特に、カメラフォンが使用される場合、これらのビューは、ユーザから離れるほうを向いた、電話の背面にあるカメラを使用する。特定の実施形態では、凹ビュー及び凸ビューは、コンテンツ及びコンテキストがＭＩＤＭＲにおいていかに示されるかに影響を及ぼすことができる。

[0097] 図５Ａを参照して、ユーザが垂直軸５０８に沿って立っている凹ビュー５００の一例を示す。この例では、ユーザはカメラを保持しており、それにより、カメラロケーション５０２は、画像捕捉中、軸５０８から出ない。しかしながら、ユーザが軸５０８を中心として旋回するにつれて、カメラは、ユーザの周囲のシーンのパノラマビューを捕捉し、凹ビューを形成する。この実施形態では、関心対象５０４及び離れた風景５０６は全て、画像が捕捉される方法により、同様に見える。この例では、凹ビューにおける全ての物体は無限に見え、したがって、このビューによれば、コンテンツはコンテキストに等しい。

[0098] 図５Ｂを参照して、ユーザが関心対象５２４の画像を捕捉する場合、ユーザが位置を変更する凸ビュー５２０の一例を示す。この例では、ユーザは、関心対象５２４の周囲を移動し、カメラロケーション５２８、５３０、及び５３２から関心対象の様々なサイドから写真を撮影する。得られた各画像は、関心対象のビュー及び離れた風景５２６の背景を含む。本例では、関心対象５２４はコンテンツを表し、離れた風景５２６は、この凸ビューでのコンテキストを表す。

[0099] 図６Ａ～図６Ｅは、ＭＩＤＭＲの様々な捕捉モードの例を示す。様々な運動がＭＩＤＭＲの捕捉に使用可能であり、いかなる特定のタイプの運動にも制限されないが、３つの一般的なタイプの運動を使用して、ＭＩＤＭＲと併せて説明される特定の特徴又はビューを捕捉することができる。これらの３つのタイプの運動はそれぞれ、局所凹ＭＩＤＭＲ、局所凸をＭＩＤＭＲ、及び局所平面ＭＩＤＭＲを生成することができる。幾つかの例では、ＭＩＤＭＲは、同じＭＩＤＭＲ内に様々なタイプの運動を含むことができる。

[0100] 図６Ａを参照して、捕捉中の後ろ向き凹ＭＩＤＭＲの一例を示す。様々な実施形態によれば、局所凹ＭＩＤＭＲは、カメラ又は他の捕捉デバイスの視角が発散するものである。一次元では、これは、球体３６０パノラマ（純粋な回転）を捕捉するのに必要な運動に例えることができるが、運動は、ビューが外側に面する任意の湾曲した掃引運動（sweeping motion）に一般化することができる。本例では、経験は、静止した閲覧者がコンテキスト（おそらくは動的）を見るというものである。

[00101] 本実施形態例では、ユーザ６０２は後ろ向きカメラ６０６を使用して、世界６００に向かいかつユーザ６０２から離れるほうに画像を捕捉している。様々な例で説明するように、後ろ向きカメラとは、スマートフォンの背面にあるカメラ等のユーザから離れるほうに面するカメラを有するデバイスを指す。カメラは凹運動６０８で動かされ、それにより、ビュー６０４ａ、６０４ｂ、及び６０４ｃは捕捉エリア６０９の様々な部分を捕捉する。

[00102] 図６Ｂを参照して、捕捉中の後ろ向き凸ＭＩＤＭＲの一例を示す。様々な実施形態によれば、局所凸ＭＩＤＭＲは、視角が１つの関心対象に向かって収束するものである。幾つかの例では、局所凸ＭＩＤＭＲは、閲覧者が同じ対象の複数のサイドを見ることができるように、点の周りを回る経験を提供することができる。この対象は、「関心対象」であり得、ＭＩＤＭＲからセグメント化して、コンテンツになることができ、任意の周囲データはセグメント化されて、コンテキストになることができる。従来の技術は、メディア共有ランドスケープにおいてこのタイプの視角を認識することができない。

[00103] 本実施形態例では、ユーザ６０２は、背面カメラ６１４を使用して、世界６００に向かいかつユーザ６０２から離れるほうに画像を捕捉している。カメラは凸運動６１０で動かされ、それにより、ビュー６１２ａ、６１２ｂ、及び６１２ｃは捕捉エリア６１１の様々な部分を捕捉する。上述したように、世界６００は、幾つかの例では、関心対象を含むことができ、凸運動６１０はこの対象の周りを回ることができる。ビュー６１２ａ、６１２ｂ、及び６１２ｃは、これらの例では、この対象の様々なサイドのビューを含むことができる。

[00104] 図６Ｃを参照して、捕捉中の前向き凹ＭＩＤＭＲの一例を示す。様々な例で説明するように、前向きカメラとは、スマートフォンの前にあるカメラ等のユーザに面したカメラを有するデバイスを指す。例えば、前向きカメラは、「セルフィー」（すなわち、ユーザの自画像）の撮影に一般に使用される。

[00105] 本実施形態例では、カメラ６２０はユーザ６０２に面している。カメラは凹運動６０６を辿り、それにより、ビュー６１８ａ、６１８ｂ、及び６１８ｃは、角度の意味で互いから発散する。捕捉エリア６１７は、周縁にユーザを含む凹形を辿る。

[00106] 図６Ｄを参照して、捕捉中の前向き凸ＭＩＤＭＲの一例を示す。本実施形態例では、カメラ６２６はユーザ６０２に面している。カメラは凸運動６２２を辿り、それにより、ビュー６２４ａ、６２４ｂ、及び６２４ｃはユーザ６０２に向かって収束する。捕捉エリア６１７は、ユーザ６０２を囲む凹形を辿る。

[00107] 図６Ｅを参照して、捕捉中の後ろ向き平面ビューの一例を示す。特定の実施形態例では、局所平面ＭＩＤＭＲは、カメラの回転が並進と比較して小さいものである。局所平面ＭＩＤＭＲでは、視角は概ね平行したままであり、視差エフェクトが優勢である。このタイプのＭＩＤＭＲでも、「関心対象」があることができるが、その位置は、様々なビューで一定のままではない。従来技術はまた、メディア共有ランドスケープにおいてこのタイプの視角を認識することができない。

[00108] 本実施形態例では、カメラ６３２は、ユーザ６０２から離れるほう且つ世界６００に向かって面している。カメラは、一般に線形の運動６２８を辿り、それにより、捕捉エリア６２９は一般に線を辿る。ビュー６３０ａ、６３０ｂ、及び６３０ｃは一般に、平行する視線を有する。複数のビューで見られる対象は、各ビューで異なる背景風景又はシフトした背景風景を有するように見えることができる。加えて、対象のわずかに異なるサイドが異なるビューで可視であり得る。ＭＩＤＭＲにおいて、視差エフェクトを使用して、任意の１つの静的画像よりも多くの情報を提供する、対象の位置及び特性についての情報を生成することができる。

[00109] 上述したように、様々なモードを使用して、ＭＩＤＭＲの画像を捕捉することができる。局所凹運動、局所凸運動、及び局所線形運動を含め、これらのモードは、別個の画像の捕捉中又はシーンの連続記録中、使用することができる。そのような記録は、１つのセッション中、一連の画像を捕捉することができる。

[00110] 本開示の様々な実施形態によれば、ＭＩＤＭＲは、多くの方法で取得されたデータから生成することができる。図７Ａは、ＭＩＤＭＲの生成に使用することができるデータを記録するプロセスの一例を示す。この例では、データは、空間を通してカメラを動かすことによって取得される。特に、ユーザは、捕捉デバイス７００の録画ボタン７０２をタップして、記録を開始する。捕捉デバイスの移動７１６が一般に左向きの方向に辿るにつれて、対象７１４は、対象の移動７１６によって示されるように、画面を横切って一般に右向きの運動で移動する。特に、ユーザは、ビュー７０８において録画ボタン７０２を押下し、次に、ビュー７１０において捕捉デバイスを左に動かす。捕捉デバイスが左に移動するにつれて、対象７１４はビュー７１０と７１２との間で右に移動するように見える。幾つかの例では、ユーザが記録を終える場合、録画ボタン７０２を再びタップすることができる。他の例では、ユーザは、録画ボタンをタップし、記録中、録画ボタンを保持し、解放して録画を停止することができる。本実施形態では、記録は、ＭＩＤＭＲの生成に使用することができる一連の画像を捕捉する。

[00111] 様々な実施形態によれば、捕捉プロセスで使用される移動のタイプに応じて、異なるタイプのパノラマをＭＩＤＭＲにおいて捕捉することができる。特に、捕捉されたデータに基づいて、動的パノラマ、対象パノラマ、及びセルフィーパノラマを生成することができる。幾つかの実施形態では、捕捉されたデータは、図７Ａに関して説明したように記録することができる。

[00112] 図７Ｂ～図７Ｆは、ＭＩＤＭＲを用いて作製することができる動的パノラマに関連する例を示す。特に図７Ｂを参照して、動的パノラマ捕捉プロセス７２０の一例を示す。本例では、ユーザ７２２は、捕捉運動７２６に沿って捕捉デバイス７２４を移動する。この捕捉運動７２６は、捕捉デバイス７２４を回転、揺り動かす、並進させる等を含むことができる。この捕捉プロセス中、シーン７２８のパノラマが生成され、シーン内の動的コンテンツが保持される。例えば、移動対象は、動的コンテンツとしてパノラマ内に保持される。

[00113] 図７Ｃを参照して、捕捉デバイス７３２が回転軸７３４を通して回転する、動的パノラマ捕捉プロセス７３０の特定の例を示す。特に、捕捉デバイス７３２は、回転軸７３４に沿って中心の回りを回転する。この純粋な回転は、シーン７３６のパノラマを捕捉する。様々な例によれば、このタイプのパノラマは、特定の時点でのシーンにおけるエンティティを捕捉する「平面」シーンを提供することができる。この「平面」シーンは、二次元画像であってもよく、又は円柱体、表面等に投影された画像であってもよい。

[00114] 図７Ｄを参照して、動的コンテンツ７４４を有する動的パノラマ７４０の一例を示す。図７Ｂ及び図７Ｃに関して上述したように、パノラマが捕捉されると、動的パノラマ７４０はユーザによってナビゲートすることができる。本例では、ユーザが動的パノラマ７４０を通してナビゲートする際、動的コンテンツ７４４はアニメーション化される。例えば、ユーザがシーン７４２を横切ってスワイプするにつれて、動的コンテンツ７４４は、シーン７４２に関して移動しているように見えることができる。

[00115] 図７Ｅを参照して、３Ｄエフェクトを有する動的パノラマを捕捉する一例を示す。本例では、捕捉デバイスが厳密にカメラの中心の回りを回転する（図７Ｃのように）わけではない場合、ユーザが動的コンテンツを通してナビゲートする間、パノラマの異なる部分を異なる速度で移動させることによって３Ｄエフェクトを取得することができる。捕捉デバイスがカメラ中心の回りで回転（図７Ｃのように）しない場合、付近の人物又は対象７５０は標準パノラマ捕捉プロセスにおいてアーチファクトを生み出すが、これらの「不完全性」を使用して、動的パノラマを通してスワイプ／ナビゲートする際、異なる速度で対象７５０を移動させることにより、ユーザに対して３Ｄの印象を生み出すことができる。特に、示される捕捉デバイス７４５は、離れたシーン７４６及び付近の人物／対象７５０を捕捉する捕捉運動７４８を使用する。様々な実施形態によれば、付近の人物／対象７５０の移動は、ＭＩＤＭＲ内の３Ｄ運動として捕捉することができ、一方、離れた風景７４６は、ユーザがＭＩＤＭＲを通してナビゲートする際、静的に見える。

[00116] 図７Ｆを参照して、視差エフェクトを有する動的パノラマ７５０の一例を示す。三次元エフェクトは、パノラマ方向７５２に直交してスワイプする際、視差エフェクトを適用することによって提示することができる。特に、視差方向７５４に沿ってパノラマ方向に直交してスワイプする際、付近の対象は視差方向７５４に沿って変位し、一方、離れたシーンは静止したままであるか、又は付近の対象よりも動きが小さい。

[00117] 図７Ｇ～図７Ｊは、ＭＩＤＭＲを用いて作製することができる対象パノラマに関連する例を示す。図７Ｇを参照して、対象パノラマ捕捉プロセスの一例を示す。特に、捕捉デバイス７６６は、捕捉運動７６０に沿って対象７６２の周囲を移動する。捕捉デバイス７６６の特定の一例は、スマートフォンである。捕捉デバイス７６６は、対象７６２の様々なビュー及び角度が捕捉される際も、背景７６４のパノラマビューを捕捉する。その結果生成されるＭＩＤＭＲは、対象７６２のパノラマビューを含む。

[00118] 幾つかの実施形態では、ＭＩＤＭＲは、対象パノラマを背景パノラマに投影することによって作製することができ、その一例を図７Ｈに示す。特に、この種のパノラマ７６８は、背景パノラマ７７０を使用し、前景対象パノラマ７７２を背景パノラマ７７０に投影して構築される。幾つかの例では、対象パノラマは、図１７Ａ及び図１７Ｂに関してより詳細に説明されるように、ＭＩＤＭＲからとられたセグメント化コンテンツであることができる。

[00119] 様々な実施形態によれば、複数の対象が対象パノラマを構成することができる。図７Ｉを参照して、対象パノラマを構成する対象グループ７８０の捕捉プロセスの一例を示す。示されるように、捕捉デバイス７７６は、前景対象の周囲を移動することができ、前景対象は、捕捉デバイスに対して同様の距離にある１つの対象又は対象グループ７８０であることができる。捕捉デバイス７７６は、対象の様々なビュー及び角度が捕捉されるように、捕捉運動７７８に沿って対象又は対象グループ７８０の周囲を移動することができる。その結果生成されるＭＩＤＭＲは、コンテキストとして離れた背景７８２を有する対象グループ７８０の対象パノラマを含むことができる。

[00120] 様々な例によれば、対象パノラマにより、ユーザは、対象の周囲をナビゲートすることができる。図７Ｊを参照して、ユーザナビゲーションに基づいて対象パノラマの視角を変更する一例を示す。この例では、ＭＩＤＭＲパノラマ７８４の３つのビューが示される。ＭＩＤＭＲパノラマでは、前景対象７８６は背景パノラマ７８８の前に示される。ユーザが、ＭＩＤＭＲをスワイプ又は他の方法でＭＩＤＭＲと対話することにより、パノラマをナビゲートするにつれて、対象のロケーション、対象の視角、又は両方を変更することができる。本例では、ユーザは、パノラマ主軸の方向にスワイプすることができる。このナビゲーションは、このビューにおいて前景対象７８６を回転することができる。幾つかの例では、離れた背景パノラマ７８８は、前景対象パノラマが回転又は他の方法で移動する際、変化しない。

[00121] 様々な実施形態によれば、対象パノラマは視差エフェクトを含むこともできる。これらの視差エフェクトは、パノラマ主軸の方向に直交してスワイプ／ナビゲートする際、見ることができる。図７Ｆと同様に、パノラマ方向に直交してスワイプする際、三次元エフェクトを提示することができる。特に、視差方向に沿って、パノラマ方向に直交してスワイプする際、付近の対象は、視差方向に沿って変位し、一方、離れたシーンは静止したままであるか、又は付近の対象よりも移動が小さい。

[00122] 前の例は対象パノラマにおける静的コンテンツ及び背景コンテキストに関するが、前景対象及び背景コンテキストとの一方又は両方について、動的コンテンツを対象パノラマにおいて統合することができる。例えば、動的コンテンツは、図７Ｄと併せて説明したのと同様に特色づけることができる。同様に、動的コンテンツは対象パノラマに含めることもできる。

[00123] ＭＩＤＭＲに含めることができる別のタイプのパノラマは、セルフィーパノラマである。幾つかの例では、セルフィーパノラマは、図１７Ａ及び図１７Ｂに関してより詳細に説明されるように、ＭＩＤＭＲからとられたセグメント化コンテンツであることができる。図７Ｋ～図７Ｌは、ＭＩＤＭＲを用いて作製することができるセルフィーパノラマに関連する例を示す。図７Ｋを参照して、セルフィーパノラマ捕捉プロセス７９０の一例を示す。特に、ユーザ７９４は、ユーザ７９４の画像を捕捉しながら、捕捉運動７９６に沿って捕捉デバイス７９２を動かす。幾つかの例では、捕捉デバイス７９２は、スマートフォンに含まれる等の前向きカメラを使用することができる。他の例では、デジタルカメラ又は他の録画デバイスを使用することができる。セルフィーパノラマはこれらの画像を用いて作製され、背景７９８はコンテキストを提供する。

[00124] 図７Ｌを参照して、セルフィーパノラマが投影された背景パノラマの一例を示す。本例では、ＭＩＤＭＲパノラマ７２３は、背景パノラマ７２５から構築され、セルフィーパノラマ７２１がそれに投影される。様々な例によれば、セルフィーパノラマは、図７Ｉと併せて説明した対象又は対象グループと同様に、１人の人物又は複数の人々を含むことができる。本例では、セルフィーパノラマは動的コンテンツを含むことができる。例えば、ユーザは、捕捉デバイスが移動する際、捕捉デバイスを見ることができ、又はユーザは、捕捉デバイスが移動する間、静止したままでいることができる。セルフィーパノラマ７２１が記録されている間、ユーザの移動を捕捉することができる。これらの動的要素は、パノラマにマッピングされ、その結果生成されたセルフィーパノラマ７２１と対話する間、表示することができる。例えば、ユーザの瞬きを記録し捕捉することができる。セルフィーパノラマのナビゲーションは、図７Ｊと併せて説明したのと同様に行うことができる。特に、セルフィーパノラマ７２１における１人又は複数の人物のロケーション及び視点は、ユーザによりパノラマ主軸の方向にスワイプ／ナビゲートすることによって変更することができる。様々な実施形態によれば、セルフィーパノラマ７２１は視差エフェクトを含むこともできる。これらの視差エフェクトは、パノラマ主軸の方向に直交してスワイプ／ナビゲートする際、見ることができる。加えて、図７Ｆと同様に、パノラマ方向に直交してスワイプする際、三次元エフェクトを提示することができる。特に、視差方向に沿って、パノラマ方向に直交してスワイプする際、付近の対象は、視差方向に沿って変位し、一方、離れたシーンは静止したままであるか、又は付近の対象よりも移動が小さい。

[00125] 上述したように、ＭＩＤＭＲを用いて様々なタイプのパノラマを作製することができる。加えて、ＭＩＤＭＲは、様々な方法で閲覧しナビゲートすることができる。図７Ｍを参照して、ユーザナビゲーションに基づいて提供されるパノラマの拡張ビューの一例を示す。本例では、可能なビュー７２７は、完全パノラマビュー７２９、記録ビュー７３１、及び拡張ビュー７３３を含む。完全パノラマビュー７２９は、ＭＩＤＭＲにおける完全ビューの情報を含む。記録ビュー７３１は、画像及び／又は記録で捕捉されるビジュアルデータを含む。拡張ビュー７３３は、記録ビュー７３１において一時点中に可視であるものよりも多くを示すが、完全パノラマビュー７２９未満のものを示す。拡張ビュー７３３において可視であるパノラマ７２９の部分は、ユーザナビゲーションによって定義される。拡張ビュー７３３は、セルフィーパノラマ又は対象パノラマにとって特に興味深いものであり、その理由は、拡張ビューがパノラマにおける対象／人物を辿り、記録中にカメラから見えることができたものよりも大きなビューを示すためである。基本的に、ＭＩＤＭＲのナビゲーション中、拡張ビュー７３３においてより多くのコンテキストがユーザに提供される。

[00126] 様々な実施形態によれば、一連の画像が捕捉されると、これらの画像を使用して、ＭＩＤＭＲを生成することができる。図８を参照して、三次元コンテンツが二次元パノラマコンテキストとブレンドされるＭＩＤＭＲの一例を示す。本実施形態例では、捕捉デバイスの移動８２０は局所凸運動を辿り、それにより、捕捉デバイスは関心対象（すなわち、椅子に座っている人物）の周囲を移動する。関心対象は、コンテンツ８０８として説明され、周囲の風景（すなわち、部屋）はコンテキスト８１０として説明される。本実施形態では、捕捉デバイスの移動８２０がコンテンツ８０８の周囲を左に移動するにつれて、捕捉デバイス８１２に対するコンテンツの回転方向は右向きの逆時計回りである。ビュー８０２、８０４、及び８０６は、部屋に対する、椅子に座っている人物の回転の進行を示す。

[00127] 様々な実施形態によれば、ＭＩＤＭＲの生成に使用される一連の画像は、シーン、関心対象等を記録しているユーザによって捕捉することができる。更に、幾つかの例では、複数のユーザが、ＭＩＤＭＲの生成に使用される一連の画像の取得に寄与することができる。図９を参照して、独立した観測者によって同時に記録されている空間－時間ＭＩＤＭＲの一例を示す。

[00128] 本実施形態例では、カメラ９０４、９０６、９０８、９１０、９１２、及び９１４は異なるロケーションに位置決めされる。幾つかの例ではこれらのカメラ９０４、９０６、９０８、９１０、９１２、及び９１４には独立した観測者が関連することができる。例えば、独立した観測者は、コンサート、ショー、イベント等での観客メンバであることができる。他の例では、カメラ９０４、９０６、９０８、９１０、９１２、及び９１４は、三脚、スタンド等に配置することができる。本実施形態では、カメラ９０４、９０６、９０８、９１０、９１２、及び９１４は、関心対象９００のビュー９０４ａ、９０６ａ、９０８ａ、９１０ａ、９１２ａ、及び９１４ａをそれぞれ捕捉するのに使用され、世界９０２は背景風景を提供する。幾つかの例では、カメラ９０４、９０６、９０８、９１０、９１２、及び９１４によって捕捉された画像は集約し、１つのＭＩＤＭＲで一緒に使用することができる。カメラ９０４、９０６、９０８、９１０、９１２、及び９１４のそれぞれは、関心対象９００に対する異なる観点を提供し、したがって、これらの異なるロケーションからの画像の集約は、関心対象９００の異なる視角についての情報を提供する。加えて、カメラ９０４、９０６、９０８、９１０、９１２、及び９１４は、ある時間の広がりにわたり各ロケーションから一連の画像を提供することができ、それにより、これらの一連の画像から生成されるＭＩＤＭＲは、時間情報を含むことができるとともに、時間の経過に伴う移動を示すこともできる。

[00129] 様々な実施形態に関して上述したように、ＭＩＤＭＲに多種多様な捕捉モードを関連付けることができる。加えて、ＭＩＤＭＲは、同じＭＩＤＭＲにおいて異なる捕捉モード又は異なる捕捉運動を含むことができる。したがって、ＭＩＤＭＲは、幾つかの例では、より小さな部分に分けることができる。図１０を参照して、複雑な周囲ビューをより小さな線形部分に分ける一例を示す。本例では、複雑なＭＩＤＭＲ１０００は、カメラ１０１０の２つの別個の線形運動１０２２及び１０２４を含む掃引Ｌ運動を辿る捕捉エリア１０２６を含む。これらの別個の線形運動が関連付けられたＭＩＤＭＲは、線形ＭＩＤＭＲ１００２及び線形ＭＩＤＭＲ１００４に分けることができる。幾つかの実施形態では、線形運動１０２２及び１０２４は順次連続して捕捉することができるが、これらの線形運動１０２２及び１０２４は、他の実施形態では、別個のセッションで捕捉することもできることに留意されたい。

[00130] 本実施形態例では、線形ＭＩＤＭＲ１００２及び線形ＭＩＤＭＲ１００４は、独立して処理し、遷移１００６を用いて結合して、ユーザに連続経験を提供することができる。このように運動をより小さな線形成分に分割することにより、様々な利点を提供することができる。例えば、これらのより小さな線形成分を、離散したロード可能部分に分割することは、帯域幅目的でのデータの圧縮に役立つことができる。同様に、非線形ＭＩＤＭＲも離散成分に分けることができる。幾つかの例では、ＭＩＤＭＲは局所捕捉運動に基づいて分割することができる。例えば、複雑な運動は、局所凸部分及び線形部分に分割し得る。別の例では、複雑な運動は別個の局所凸部分に分割することができる。用途に応じて、任意の数の運動が複雑なＭＩＤＭＲ１０００に含まれ得、複雑なＭＩＤＭＲ１０００を任意の数の別個の部分に分割し得ることを認識されたい。

[00131] 幾つかのアプリケーションでは、複雑なＭＩＤＭＲを分けることが望ましく、他のアプリケーションでは、複数のＭＩＤＭＲを結合することが望ましい。図１１を参照して、マルチＭＩＤＭＲ１１００に結合された複数のＭＩＤＭＲを含むグラフの一例を示す。この例では、矩形は、様々なＭＩＤＭＲ１１０２、１１０４、１１０６、１１０８、１１１０、１１１２、１１１４、及び１１１６を表し、各矩形の長さは、各ＭＩＤＭＲの主要な運動を示す。ＭＩＤＭＲ間の線は、ＭＩＤＭＲ間で可能な遷移１１１８、１１２０、１１２２、１１２４、１１２６、１１２８、１１３０、及び１１３２を示す。

[00132] 幾つかの例では、ＭＩＤＭＲは、非常に効率的にシーンを空間及び時間の両方で区分化する方法を提供することができる。非常に大規模なシーンの場合、マルチＭＩＤＭＲ１１００データを使用することができる。特に、マルチＭＩＤＭＲ１１００は、空間グラフで一緒に接続されたＭＩＤＭＲの集まりを含むことができる。個々のＭＩＤＭＲは、１人のユーザ等の１つのソース又は複数のユーザ等の複数のソースによって集めることができる。加えて、個々のＭＩＤＭＲは、順次捕捉することができ、並行して捕捉することができ、又は異なる時間に完全に非相関であることができる。しかしながら、個々のＭＩＤＭＲを接続するために、コンテンツ、コンテキスト、ロケーション、又はこれらの特徴の組合せの重複がなければならない。したがって、任意の２つのＭＩＤＭＲは、マルチＭＩＤＭＲ１１００の一部を提供するために、コンテンツ、コンテキスト、及び／又はロケーションに幾らかの重複を有する必要がある。個々のＭＩＤＭＲは、この重複を通して互いにリンクし、一緒にステッチングされて、マルチＭＩＤＭＲ１１００を形成することができる。様々な例によれば、フロントカメラ、バックカメラ、又はフロント・バックカメラを有する捕捉デバイスの任意の組合せが使用可能である。

[00133] 幾つかの実施形態では、マルチＭＩＤＭＲ１１００は、環境全体をより完全に捕捉するように一般化することができる。「フォトツアー」が、離散した空間近傍構成要素のグラフに写真を集めるのとよく似たように、複数のＭＩＤＭＲを組み合わせて、シーン全体のグラフにすることができる。幾つかの例では、これは、限定する意図ではないが、画像マッチング／追跡、奥行きマッチング／追跡、ＩＭＵ、ユーザ入力、及び／又はＧＰＳから得られる情報を使用して達成することができる。そのようなグラフ又はマルチＭＩＤＭＲ内で、ユーザは、記録された運動の終点で又はグラフ内で他のＭＩＤＭＲと重複する場所がどこであれ、その場所で、異なるＭＩＤＭＲ間で切り替えることができる。「フォトツアー」よりも優れたマルチＭＩＤＭＲの一利点は、ユーザが望むようにＭＩＤＭＲをナビゲートすることができ、はるかに多くのビジュアル情報をＭＩＤＭＲに記憶することができることである。これとは対照的に、従来の「フォトツアー」は通常、自動的に又はユーザがコンピュータマウス若しくは打鍵でパノラマを通してパンできるようにすることによって、閲覧者に示すことができるビューに限られている。

[00134] 様々な実施形態によれば、ＭＩＤＭＲは１組の画像から生成される。これらの画像は、アプリケーションに応じて、ＭＩＤＭＲの生成を意図するユーザにより捕捉することができ、又は記憶装置から検索することができる。ＭＩＤＭＲは特定の見え方に関して制限又は拘束されないため、対象又はシーンの異なるビューについてはるかに多くのビジュアル情報を提供することができる。より詳細には、三次元対象を適宜記述するには、１つの視点は曖昧であり得るが、対象の複数のビューはより具体的で詳細な情報を提供することができる。これらの複数のビューは、ビジュアル検索クエリがより正確な検索結果を生成できるようにするのに十分な情報を提供することができる。ＭＩＤＭＲは、対象の多くのサイドからのビューを提供するため、検索に適切な弁別的ビューをＭＩＤＭＲから選択することができ、又は弁別的ビューがない場合、ユーザに要求することができる。例えば、捕捉又は他の方法で提供されたデータが、十分に高い確度で関心のある対象又はシーンの認識又は生成を可能にするのに十分ではない場合、捕捉システムは、捕捉デバイスを引き続き動かすか、又は追加の画像データを提供するようにユーザをガイドすることができる。特定の実施形態では、ＭＩＤＭＲが、より正確なモデルを生成するために追加のビューを生成する必要があると判断される場合、追加の画像を提供するようにユーザを促し得る。

[00135] 図１２を参照して、より正確なＭＩＤＭＲを提供するために、追加の画像をユーザに促すプロセス１２００の一例を示す。本例では、１２０２において、画像は、捕捉デバイス又は記憶装置から受信される。次に、１２０４において、提供された画像が、関心対象の認識を可能にするのに十分であるか否かが判断される。画像が、関心対象の認識を可能にするのに十分ではない場合、１２０６において、異なる視角からの追加の画像を提供するプロンプトがユーザに与えられる。幾つかの例では、異なる視角からの１つ又は複数の追加の画像を提供するようにユーザを促すことは、１つ又は複数の特定の視角を示唆することを含むことができる。幾つかの場合、ユーザが能動的に画像を捕捉する場合、別個の視角が検出されたときにユーザを促すことができる。様々な実施形態によれば、１つ又は複数の特定の視角を提供する示唆は、既に受信した画像に関連するロケーションに基づいて決定することができる。加えて、異なる視角から１つ又は複数の追加の画像を提供するようにユーザを促すことは、アプリケーションに応じて、局所凹ＭＩＤＭＲ、局所凸ＭＩＤＭＲ、又は局所平面ＭＩＤＭＲ等の特定の捕捉モードの使用を示唆することを含むことができる。

[00136] 次に、システムは、１２０８において、ユーザからこれらの追加の画像を受信する。追加の画像が受信されると、再び、画像が、関心対象の認識を可能にするのに十分であるか否かが判断される。このプロセスは、画像が関心対象の認識を可能にするのに十分であると判断されるまで続く。幾つかの実施形態では、プロセスは、この時点で終了することができ、ＭＩＤＭＲを生成することができる。

[00137] 任意選択的に、画像が関心対象の認識を可能にするのに十分であると判断されると、１２１０において、画像が、似ているが一致しないアイテムから関心対象を区別するのに十分であるか否かを判断することができる。この判断は、ビジュアル検索を使用する場合、特に有用であることができ、この例について図１９～図２２に関してより詳細に後述する。特に、関心対象は、追加のビューを必要とする特定の角度から見ることができる弁別的特徴を有し得る。例えば、人物の肖像写真は、前の角度からしか写真が撮影されない場合、その人物の髪型を十分に示さないことがある。その人物がショートヘアであるか、それとも単に束ねた髪型であるかを判断するために、その人物の後ろの追加の写真を提供する必要があり得る。別の例では、シャツを着た人物の写真は、一方の側が無地であり、追加のビューが、袖又は裏にプリント又は他の印等を示すであろう場合、追加のプロンプトを必要とする。

[00138] 幾つかの例では、画像が、関心対象を、似ているが一致しないアイテムと区別するのに十分ではないと判断することは、一致した検索結果の数が所定の閾値を超えると判断することを含む。特に、多数の検索結果が見つかる場合、検索基準を狭めるために、追加のビューが必要であり得ると判断することができる。例えば、マグカップの検索が、２０超といった多数の一致をもたらす場合、検索結果を枝刈りするために、そのマグカップの追加のビューが必要であり得る。

[00139] １２１０において、画像が、関心対象を、似ているが一致しないアイテムと区別するのに十分ではない場合、１２１２において、異なる視角から追加の画像を提供するプロンプトがユーザに与えられる。幾つかの例では、異なる視角から１つ又は複数の追加の画像を提供するようにユーザを促すことは、１つ又は複数の特定の視角を示唆することを含むことができる。幾つかの場合、ユーザが能動的に画像を捕捉している場合、別個の視角が検出されたときにユーザを促すことができる。様々な実施形態によれば、１つ又は複数の特定の視角を提供する示唆は、既に受信した画像に関連するロケーションに基づいて決定することができる。加えて、異なる視角から１つ又は複数の追加の画像を提供するようにユーザを促すことは、アプリケーションに応じて、局所凹ＭＩＤＭＲ、局所凸ＭＩＤＭＲ、又は局所平面ＭＩＤＭＲ等の特定の捕捉モードの使用を示唆することを含むことができる。

[00140] 次に、システムは、１２１４において、ユーザからこれらの追加の画像を受信する。追加の画像が受信されると、再び、画像が、関心対象を、似ているが一致しないアイテムから区別するのに十分であるか否かが判断される。このプロセスは、画像が、関心対象を、似ているが一致しないアイテムから区別するのに十分であると判断されるまで続く。次に、プロセスは終了し、ＭＩＤＭＲを画像から生成することができる。

[00141] 図１３Ａ及び図１３Ｂを参照して、より正確なＭＩＤＭＲを生成するために、ユーザから追加の画像を要求するプロンプトの例を示す。特に、検索画面を有するデバイス１３００が示される。図１３Ａでは、ビジュアル検索クエリ１３０２の例が提供される。このビジュアル検索クエリ１３０２は、白いマグカップの画像を含む。結果１３０６は、白い背景を有する様々なマグカップを含む。特定の実施形態では、大量の検索結果が見つかる場合、プロンプト１３０４を提供して、検索クエリのためにユーザに追加の画像データを要求することができる。

[00142] 図１３Ｂでは、図１３Ａにおけるプロンプト１３０４に応答した別のビジュアル検索クエリ１３１０の一例が提供される。このビジュアル検索クエリ１３１０は、異なる視点の対象を提供し、マグカップのグラフィックスについてより具体的な情報を提供する。このビジュアル検索クエリ１３１０は、より的を絞った正確な新しい結果１３１２をもたらす。幾つかの例では、追加のプロンプト１３０８を提供して、検索が完了したことをユーザに通知することができる。

[00143] ＭＩＤＭＲが生成されると、特定の実施形態では、ＭＩＤＭＲを様々なアプリケーションで使用することができる。ＭＩＤＭＲの一つのアプリケーションは、ユーザがＭＩＤＭＲをナビゲート又は他の方法で対話できるようにすることを含む。様々な実施形態によれば、ＭＩＤＭＲは、ユーザがＭＩＤＭＲと対話する際、シーンに物理的に存在する感じをシミュレートするように設計される。この経験は、カメラの視角のみならず、表示中のＭＩＤＭＲのタイプにも依存する。ＭＩＤＭＲは、全体的に特定の固定されたジオメトリを有する必要はないが、特定の実施形態では、凹ＭＩＤＭＲ、凸ＭＩＤＭＲ、及び平面ＭＩＤＭＲ等のＭＩＤＭＲの局所セグメントにわたり異なるタイプのジオメトリを表すことができる。

[00144] 特定の実施形態例では、ナビゲーションモードは、ＭＩＤＭＲに表されるジオメトリのタイプによって通知される。例えば、凹ＭＩＤＭＲの場合、デバイス（スマートフォン等）を回転させる動作は、周囲のシーンを見ている静止した観測者を回転させる動作を模倣することができる。幾つかのアプリケーションでは、一方向に画面をスワイプすると、ビューを逆方向に回転させることができる。このエフェクトは、ユーザを中空の円筒体内部に立たせ、円筒体の壁をユーザの周囲で回転するように押すことに類似する。凸ＭＩＤＭＲを用いる他の例では、デバイスを回転させると、関心対象が中心のままであるように、傾く方向にビューを周回させることができる。幾つかのアプリケーションでは、画面を一方向にスワイプすると、視角は同じ方向に回転し、これにより、関心対象がその軸の回りで回転する感覚又はユーザに対象の周囲を回転させる感覚を生み出す。平面ビューを用いる幾つかの例では、デバイスを回転又は移動させると、ビューをデバイスの移動方向に並進させることができる。加えて、画面を一方向にスワイプすると、前景対象をサイドに押すかのように、ビューを逆方向に並進させることができる。

[00145] 幾つかの例では、ユーザは、個々のＭＩＤＭＲを個々にロードすることができ、必要な場合（例えば、更なるＭＩＤＭＲが現在のＭＩＤＭＲに隣接／重複し、及び／又はユーザがそれらの更なるＭＩＤＭＲに向かってナビゲートする場合）、更なるＭＩＤＭＲをロードし得るマルチＭＩＤＭＲ又は複数のＭＩＤＭＲのグラフをナビゲートすることが可能であり得る。ユーザは、２つ以上のＭＩＤＭＲが重複する、ＭＩＤＭＲ内のポイントに達する場合、それらの重複するＭＩＤＭＲのうち、いずれを辿るかを選択することができる。幾つかの場合、どのＭＩＤＭＲを辿るかの選択は、ユーザがスワイプする方向又はユーザがデバイスを動かす方向に基づくことができる。

[00146] 図１４を参照して、ＭＩＤＭＲをナビゲートするプロセス１４００の一例を示す。本例では、１４０２において、ＭＩＤＭＲにおいて関心対象を見る要求をユーザから受信する。様々な実施形態によれば、要求は、ランドスケープ又はパノラマビューを見る場合等、特定の関心対象なしでＭＩＤＭＲを見る一般的な要求であることもできる。次に、１４０４において、対象の三次元モデルにアクセスする。この三次元モデルは、記憶されたＭＩＤＭＲの全て又は一部を含むことができる。例えば、三次元モデルは、幾つかのアプリケーションでは、セグメント化されたコンテンツビューであることができる。次に、１４０６において、第１の視点からの初期画像が出力デバイスに送信される。この初期視点は、出力デバイスでＭＩＤＭＲを見る開始点として機能する。

[00147] 本実施形態では、次に、第２の視点から関心対象を見るユーザの動作が受信される。このユーザの動作は、アプリケーションに応じて、入力デバイスを動かす（例えば、傾ける、並進させる、回転させる等）こと、画面をスワイプする等を含むことができる。例えば、ユーザの動作は、局所凹ＭＩＤＭＲ、局所凸ＭＩＤＭＲ、又は局所平面ＭＩＤＭＲ等に関連する運動に対応することができる。様々な実施形態によれば、対象ビューは、軸の回りでデバイスを回転させることにより、その同じ軸の回りで回転させることができる。例えば、対象ビューは、垂直軸の回りでデバイスを回転させることにより、垂直軸に沿って回転することができる。１４１０において、ユーザの動作の特徴に基づいて、三次元モデルが処理される。例えば、入力デバイスの移動を検出することができ、関心対象の対応する視点を見つけることができる。アプリケーションに応じて、入力デバイス及び出力デバイスは両方とも、モバイルデバイス等に含めることができる。幾つかの例では、要求された画像は、ＭＩＤＭＲの生成前に捕捉された画像に対応する。他の例では、要求された画像は、三次元モデルに基づいて（例えば、補間等により）生成される。１４１２において、この視点からの画像を出力デバイスに送信することができる。幾つかの実施形態では、選択された画像は、選択された画像の正確度についての確度と共に出力デバイスに提供することができる。例えば、補間アルゴリズムを使用して、特定の視点から画像を生成する場合、確度は様々であることができ、幾つかのアプリケーションにおいてユーザに提供し得る。他の例では、ＭＩＤＭＲにおける情報が、要求された画像を提供するのに不十分である場合を示すメッセージを、出力デバイスに提供することができる。

[00148] 幾つかの実施形態では、１４０６における初期画像と１４１２における要求された画像との間の中間画像を送信することができる。特に、これらの中間画像は、初期画像に関連する第１の視点と、要求された画像に関連する第２の視点との間にある視点に対応することができる。更に、これらの中間画像は、ユーザの動作の特徴に基づいて選択することができる。例えば、中間画像は、中間画像が関心対象のビジュアルナビゲーションを提供するように、ユーザの動作に関連する入力デバイスの移動経路を辿ることができる。

[00149] 図１５Ａを参照して、ＭＩＤＭＲのスワイプベースのナビゲーションの一例を示す。本例では、ユーザがＭＩＤＭＲをナビゲートする際のデバイス１５００の３つのビューが示される。特に、入力１５１０は、デバイス１５００の画面上のユーザによるスワイプである。ユーザが右から左にスワイプすると、関心対象はスワイプの方向１５０８に対して移動する。特に、画像１５０６、１５０４、及び１５０２の進行によって示されるように、入力１５１０により、ユーザは、関心対象（すなわち、サングラスを装着した男性）の周囲を回転することができる。

[00150] 本例では、デバイス画面のスワイプは、仮想ビューの回転に対応することができる。しかしながら、他の実施形態例では、他の入力モードを使用することができる。例えば、ＭＩＤＭＲは、様々な方向にデバイスを傾け、デバイスの方位方向を使用して、ＭＩＤＭＲにおいてナビゲーションをガイドすることにより、ナビゲートすることもできる。別の例では、ナビゲーションは、ユーザによる画面の移動に基づくこともできる。したがって、スワイプ運動により、ユーザは、まるで閲覧者がデバイスを関心対象に向けたかのようにＭＩＤＭＲの周囲を見ることができる。更に別の例では、ウェブサイトを使用して、ウェブブラウザにおいてＭＩＤＭＲとの対話を提供することができる。この例では、スワイプ及び／又は運動センサは利用可能でないことあり、マウス又は他のカーソル若しくは入力デバイスと対話することで置換することができる。

[00151] 様々な実施形態によれば、ＭＩＤＭＲは、ナビゲーション中に閲覧可能なタグを含むこともできる。タグは、ＭＩＤＭＲ内の対象、人々、製品、又は他のアイテムの識別を提供することができる。特に、ＭＩＤＭＲにおけるタグは、製品をユーザ／顧客に提示し、それらの要素又はアイテムを販売促進する非常に強力なツールである。一例では、タグ１５１２は、タグ付けされたアイテムのロケーションを辿ることができ、それにより、タグロケーションがなお有効なままである間、アイテムを異なる角度から見ることができる。タグ１５１２は、タグ付けされた対象の名称（例えば、ユーザ名、製品名等）、説明、ウェブサイト／ウェブショップへのリンク、価格情報、購入の直接オプション、同様の対象のリスト等の様々なタイプのデータを記憶することができる。幾つかの例では、タグは、ユーザがＭＩＤＭＲにおいてアイテムを選択した場合、可視になることができる。他の例では、タグは自動的に表示することができる。加えて、幾つかの用途では、タグ１５１２を選択することにより、追加の情報にアクセスすることができる。例えば、ユーザがタグを選択すると、説明、リンク等の追加の情報を画面に表示することができる。

[00152] 幾つかの実施形態では、ユーザは、ＭＩＤＭＲの一視点におけるポイント又は領域のいずれかを選択することにより、タグ１５１２を作製することができる。次に、このポイント又は領域は、他の視点に自動的に伝播される。代替的には、タグロケーションは、顔検出、物体検出、フォーカスされている対象、前景として識別された対象等の様々な情報に基づいてアプリケーションによりユーザに自動的に示唆することができる。幾つかの例では、物体検出は、既知の物体又は物体タイプ／クラスのデータベースから行うことができる。幾つかの実施形態では、システムは、ユーザが選ぶことができる１組の可能なタグを自動的に生成する。

[00153] 本例では、タグ１５１２は、ＭＩＤＭＲにおけるシャツを識別する。当然ながら、名称、ブランド等の任意のテキスト又はタイトルを含めることができる。このタグ１５１２は、選択された任意のビューにおける同じロケーション又はポイントがタグに関連付けられるように、ＭＩＤＭＲにおける特定のロケーションにマッピングすることができる。上述したように、タグ１５１２は、幾つかの実施形態では、タグをタップ又は他の方法で選択することによりアクセスすることができる追加の情報を含むことができる。タグが図１５Ａに示されるが、幾つかの例では、ＭＩＤＭＲがタグを含まないこともあることに留意されたい。

[00154] 様々な実施形態では、システムは、様々なＭＩＤＭＲに共通する対象を自動的にタグ付けすることができる。幾つかの実施形態では、対象は、静止対象又は動的対象であることができる。図１５Ｂは、図７Ｄに対応し、動的対象７４４（車）及び静止対象７４３（木々）を含む第１のＭＩＤＭＲ７４０Ａを示し、図１５Ｂに示されるように、ＭＩＤＭＲ７４０Ａは、「車」と記されたタグ７４４Ａも示す。ＭＩＤＭＲ７４０Ａは、「木々」と記されたタグ７４３Ａも含む。本明細書に提示される技法によれば、タグ７４４Ａ及び７４３Ａは、自動的に又はユーザによって作製されることができる。幾つかの実施形態では、タグが自動的に作成された場合、画像認識モジュールは、ＭＩＤＭＲ７４０Ａに対応する画像をスキャンする。次に、画像認識モジュールは、検出された対象、この場合、車及び木々を、ローカル（ローカル記憶装置）又はグローバル（インターネット）のいずれかのデータベースと照合する。次に、画像認識モジュールは、検出された物体について最も近いものを見つけ、次に、最も近いものに関連付けられた名称又はタイトルで対象をタグ付けする。図１５Ｂでは、画像認識モジュールは、「木々」対象及び「車」対象を検出し、データベースを通して同様の形状及びパターンを検索し、他の木々及び車との一致を発見し、次に、各対象をそれぞれタグ付けする。他の実施形態では、ユーザは、対象を選択し、タグを用いて対象をラベリングすることによって、対象をタグ付けすることができる。万が一、見つかった類似する対象に、ソーシャルメディア及び埋め込み記述を含め、ローカル又はグローバルに見つけられたテキスト、タイトル、名称、又はタグが関連付けられていない場合、対象のタグを入力するようにユーザを促す。

[00155] 上述したように、対象７４４は動的対象であり、対象７４３は静止対象である。図１５Ｃは、対象７４４及び７４３の異なるビューを含む第２のＭＩＤＭＲ７４０Ｂを示す。対象７４４は車であるため、車は、ＭＩＤＭＲ７４０Ａ及び７４０Ｂを生成した画像の捕捉中、移動中であった。特に、車７４４はここで、木々７４３を通過したばかりであった。木々７４３は静止しているため、ＭＩＤＭＲ７４０Ｂの右側に木々７４３を示すことは、ＭＩＤＭＲ７４０Ｂが、ＭＩＤＭＲ７４０Ａに示された視点の左側のどこかのロケーションの視点を示すことを暗示する。ここでも、対象はタグ付けされる。タグは同じラベルであるように見えるが、実際には、図１５Ｂにおけるタグに対応する、新たに生成されたタグである。図１５Ｂと同様に、タグは、自動的に又はユーザにより手動で生成することができる。動的対象７４４を自動的にタグ付けするに当たり、システムはまず、ＭＩＤＭＲ７４０Ｂが、ＭＩＤＭＲ７４０Ａに示されている形状と共通する形状を含むことを認識する。次に、共通の形状が実際に同じ対象であるとの判断後、システムは、図１５Ｂにおいて使用されたタグに対応するタグを用いて、対象を自動的にタグ付けする。各ＭＩＤＭＲは異なるＭＩＤＭＲであるため、複数のビューにわたり同じ対象を指す各タグは、厳密に言えば新しいタグである。例えば、ビューは７４０Ａから７４０Ｂに変わったため、タグ７４３Ａは、そのロケーションが木々７４３の右側にあるので、使用することができない。したがって、ユーザに見えるようにするために、新しいタグ７４３Ｂが生成され、木々７４３の左側に提示される。タグ７４３Ｂは、タグ７４３Ａと同じ「木々」ラベルに対応し、同じ「木々」ラベルを含む。同様に、タグ７４４Ｂも、タグ７４４Ａと同じ「車」ラベルに対応し、同じ「車」ラベルを含む新しいタグである。幾つかの実施形態では、新しいタグ７４３Ｂ及び７４４Ｂ等の新しいタグは、他のＭＩＤＭＲにおける同様の対象のリストを参照することによって生成される。例えば、タグ「木」又は「車」が他のＭＩＤＭＲからの対象リスト内の対象であった場合、新しいタグ７４３Ｂ及び７４４Ｂは、対象のリストとの最良の一致に基づいて選ばれる。幾つかの実施形態では、「最良の一致」とは、全体ピクセル比較、点追跡比較、又は本開示に記載される他の照合アルゴリズムを使用して生成された結果を指す。そのような実施形態では、タグがリストにない新しい対象である場合、新しいタグ対象は、将来のタグ付けのために対象リストに追加される。

[00156] 静止対象の場合、続けて捕捉された異なる画像における静止対象の配置は比較的同じであるため、自動タグ付けははるかに容易である。図１５Ｂ及び図１５Ｃにおける木々７４３はかなり異なるロケーションにあるが、この違いは例示を目的として強調されている。実際には、カメラは、２つの直接連続した写真における同じ静止対象が最小のロケーション変化を有するのに十分に高速のスナップショットレートで画像を捕捉している。したがって、２つの連続する画像が、同じ対象であるように見えるが、２つの劇的に異なるロケーションにあるものを有する場合、システムは、それらの２つの対象が異なる対象であると仮定することができ、これは、第１の画像におけるタグがもはや、第２の画像におけるタグに対応しないことを意味する。十分に異なるものとして何が寄与するかを判断するに当たり、撮影された各画像のタイムスタンプ間の経過時間が測定される。加えて、幾つかの実施形態では、カメラの移動及び移動速度も考慮される。そのような要素を考慮した後、位置変化でのデルタの値が計算され、閾値と比較される。スナップショット間の時間並びにカメラの移動速度及び移動方向を所与として、第２の画像と第１の画像とにおける対象のロケーション差が所定の閾値未満である場合、対象は同じ対象と見なされ、第１のタグに対応するタグを自動的に生成することができる。差が閾値を超える場合、対象は全く異なる対象であると見なされ、新しいタグを生成するプロセスが新しい対象に対して繰り返される。

[00157] 移動／動的対象の場合、自動タグ付けは、移動対象の速度に応じてやや複雑である。幾つかの実施形態では、ある画像の対象が連続画像の対象と実際に同じ対象であるか否かを判断する際、対象の速度を考慮する必要がある。幾つかの実施形態では、同様の対象も移動可能であるか否かについて対象を分析する。そのような比較は、既存の既知の移動可能対象に対して行うことができる。例えば、対象が特定の対象としてタグ付けされる場合、検索を実行して、対象が移動可能であることができるか否かを調べる。車の場合、システムはデータベースを検索して、車が実際に移動可能であると判断する。対象が木である場合、システムはデータベースを検索して、木々が移動可能ではないと判断する。幾つかの実施形態では、タグに、対象が動的であるか否かを示すマーカが関連付けられる。幾つかの実施形態では、連続する画像にわたる動的物体のロケーション差の閾値は、はるかに大きい。幾つかの実施形態では、連続する画像にわたる動的物体のロケーション差の値は、動的対象の速度及びカメラ（もしあれば）の移動によって正規化される。例えば、車が２フィート／秒で走行中であり、カメラが静止している場合、１秒のスナップショット間のロケーション差の値は、２フィートで除算される。正規化後、対象は静止対象として扱われ、許容可能なロケーション差の通常の静止対象閾値と比較される。

[00158] 幾つかの実施形態では、タグ７４４Ａ及び７４３Ａは、ＭＩＤＭＲ内の対象を識別しラベリングするようにトレーニングされたタグ付けニューラルネットワークにより自動的に作製することができる。幾つかの実施形態では、本明細書に記載されるニューラルネットワークシステムは、畳み込みニューラルネットワークである。幾つかの実施形態では、ニューラルネットワークは複数の計算レイヤを含み得る。

[00159] 幾つかの実施形態では、ニューラルネットワークは、ＭＩＤＭＲ７４０Ａに対応する画像における各ピクセルをラベリングするようにトレーニングされる。ニューラルネットワークは、特定のカテゴリラベル（例えば、人物、車、空等）を用いて画像におけるあらゆるピクセルをラベリングするようにトレーニングされる。そのようなトレーニングは、トレーニング画像及び対応するラベルマップを含むトレーニング対を入力することによって行い得る。トレーニング画像は、三次テンソル等のテンソルとしてニューラルネットワークに入力されて、ラベリングのためにニューラルネットワークの様々なレイヤを通して処理し得る。幾つかの実施形態では、ニューラルネットワークは、元の画像サイズからのダウンサンプリングをもたらす特徴マップ内の、異なるレイヤからの出力の集約によってトレーニングされる。次に、結果はそのトレーニング画像に対応する所定のラベルマップと比較し得る。次に、ニューラルネットワークのパラメータを更新し得る。幾つかの実施形態では、パラメータは、確率的勾配降下法を使用して更新される。

[00160] ニューラルネットワークが十分にトレーニングされると、新しい画像シーケンスでのピクセルのラベリングに使用し得る。そのような画像シーケンスは、ＭＩＤＭＲに対応する画像フレームであり得る。他の実施形態では、画像は、カメラによって捕捉された未処理画像であり得る。

[00161] 幾つかの実施形態では、次に、ニューラルネットワークによって画像の特徴マップを生成する。幾つかの実施形態では、ニューラルネットワークは、ｋ個の対象クラス（例えば、人物、車、空等）についてトレーニングされて、ｋ個のチャネルを有する特徴マップを生成し得、ここで、チャネル「ｊ」は、各ピクセルが対象クラス「ｊ」である確率を表す。様々な実施形態では、対象クラスは、限定する意図ではないが、以下の対象クラスを含み得る：建物、芝生、木、牛、羊、空、飛行機、水、顔、車、自転車、花、サイン、鳥、本、椅子、道路、猫、犬、体、及びボート。ニューラルネットワークのトレーニングを参照して上述したように、ニューラルネットワークは、元の画像サイズからのダウンサンプリングをもたらす特徴マップ内の、異なるレイヤからの出力の集約によってトレーニングされる。ニューラルネットワークの異なるレイヤからの特徴マップを集約することの利点は、これらの確率マップの生成に、細かい尺度の細部及び粗い尺度の細部の両方の使用が可能なことである。例えば、下位レイヤのみ又は上位レイヤのみを使用して、最適ではない出力を生成する。

[00162] 幾つかの実施形態では、関心クラスの確率マップを生成し得る。幾つかの実施形態では、関心対象クラス（例えば、人物）の確率マップを得るために、人物対象クラスに対応する特徴マップが抽出される。次に、低い確率を有するピクセルは除去される。例えば、「人物」対象クラスが他の全てのクラスの中で最も確からしいものではないピクセルは除去される。幾つかの実施形態では、閾値確率を予め決定又はユーザにより設定し得る。幾つかの実施形態では、確率の低いピクセルは、除去されないが、代わりにラベリングされる。所望の対象クラスに対応するピクセルもラベリングし得る。幾つかの実施形態では、次に、確率値は０と１との間で再正規化し得る。

[00163] 幾つかの実施形態では、タグ７４４Ａ及び７４３Ａは、ユーザに作製されることと組み合わせて、ＭＩＤＭＲ内の対象を識別、タグ付け、ラベリングするようにトレーニングされたニューラルネットワークによって自動的に作製することができる。

[00164] 幾つかの実施形態では、ＲＡＮＳＡＣ（ランダムサンプルコンセンサス）アルゴリズムを実施して、２つのＭＩＤＭＲ内の２つの対象間の変換を特定し得る。図１５Ｂ及び図１５Ｃに記載される例では、ＭＩＤＭＲ７４０Ａ及び７４０Ｂにおける対象７４３及び７４４の変換がそれぞれ計算されて、ＭＩＤＭＲ７４０Ａ及び７４０Ｂにおける対象７４３及び７４４が同じ対象であるとそれぞれ判断する場合、ＭＩＤＭＲ７４０Ｂにおける対象７４３及び７４４に対して、タグ７４３Ｂ及び７４４Ｂが自動的に生成される。本明細書に記載されるように、変換は、第１のビューから第２のビューに追跡されるキーポイントから計算し得る。キーポイントの様々な組合せから収集される様々な異なるパラメータから、様々な変換を計算し得る。まず、第１のビューにおけるキーポイント及び第２のビューにおける対応するキーポイントが識別される。幾つかの実施形態では、第１のビューは、第２のビューにおける画像の前に捕捉された画像を含む。他の実施形態では、第１のビューは、第２のビューにおける画像の後に捕捉された画像を含み得る。様々な実施形態では、キーポイントは、ハリス式コーナー検出器アルゴリズム又は他のキーポイント検出方法を使用して識別し得る。他の実施形態では、モラヴェッツコーナー検出アルゴリズム、フォルストナーコーナー検出器等の様々な他のコーナー検出アルゴリズムを実施し得る。そのようなコーナー検出アルゴリズムを実施して、コントラストの大きなエリア、様々な次元での曖昧性が最小のエリア、及び／又はコーナーらしさ（cornerness）が高いエリア等の各ビューにおけるキーポイントとして指定される特徴を検出し得る。次に、最高のハリススコアを有する所定数のキーポイントを選択し得る。例えば、第１のビューにおいて、１，０００個のキーポイントを識別し、選択し得る。次に、カナデ・ルーカス・トマシ（ＫＬＴ）特徴トラッカーを使用して、２つの画像ビュー間でキーポイントを追跡して、第２のビューにおける対応する１，０００個のキーポイントを識別することができる。

[00165] 次に、第１のビューにおける２つのキーポイント及び第２のビューにおける対応するキーポイントが選択される。幾つかの実施形態では、第１のビューにおける２つのキーポイントは、ＲＡＮＳＡＣアルゴリズムによってランダムに選択し得る。第２のビューにおける２つの対応するキーポイントは、ＫＬＴ特徴トラッカーによって識別し得る。幾つかの実施形態では、２つのキーポイントは、第２のビューにおいてランダムに選択し得、第１のビューにおける対応するキーポイントが識別される。対応するキーポイントの各対は、本明細書では、対応対と呼ばれ得る。例えば、ビューＮにおけるキーポイントＡ及びビューＮ＋１におけるキーポイントＡ’は、ＫＬＴ特徴追跡を介して互いに対応し、対（Ａ，Ａ’）を構成し得る。ビューＮにおけるキーポイントＢ及びビューＮ＋１におけるキーポイントＢ’を含む第２の対応対（Ｂ，Ｂ’）を選択し得る。

[00166] 次に、２つのキーポイント対応対に基づいて、第１のビューと第２のビューとの間の変換が特定される。幾つかの実施形態では、２つのキーポイント対応対の組を使用して、変換を特定する。換言すれば、所定のアルゴリズムを使用して、２つの対応するキーポイント対から、第１のビューと第２のビューとの間の変換Ｔ１を計算し得る。所定のアルゴリズムによって対応するキーポイント間の変換を計算するために、様々なパラメータを使用し得る。一実施形態例では、ｘ及びｙ並進、２Ｄ回転、及び２Ｄスケーリングを含む類似性２Ｄパラメータを使用して、並進を特定し得る。使用し得る他のパラメータは、２Ｄ並進（ｘ及びｙ並進）、２Ｄデカルトパラメータ（２Ｄ回転及びｘ、ｙ並進）、アフィン、ホモグラフィ等を含む。別の例として、M.Brown、R.Hartley、及びD. Nister、Minimal solutions for panoramic stitching、In proceedings of the International Conference on Computer Vision and Pattern Recognition (CVPR07)、Minneapolis、June 2007において提供される等の数学的モデルを使用し得る。回転及び焦点距離に基づいて変換を計算するために、４つのパラメータが必要である：回転に３つ及び焦点距離に１つ。上記例では、ビュー間で選択された各キーポイントの２つの対応対により、４つの制約を提供することができる。導出される閉形式解は、２つの選択されたキーポイント対応対に基づいて計算される変換である。幾つかの実施形態では、３つ以上のキーポイントがキーポイント対応対に利用される。

[00167] 図１５Ｄを参照して、マルチビューインタラクティブデジタルメディア表現内の動的標的を自動的にタグ付けするプロセスの一例を示す。１５２２において、背景における対象の第１のマルチビューインタラクティブデジタルメディア表現が取得される。次に、１５２４において、第１のマルチビューインタラクティブデジタルメディア表現における動的標的は、動的標的を識別する第１のタグを用いてタグ付けされる。次に、１５２６において、動的対象の第２のマルチビューインタラクティブデジタルメディア表現が生成される。幾つかの例では、第２のマルチビューインタラクティブデジタルメディア表現は、動的対象が第１のロケーションから第２のロケーションに移動したことを示す。１５２８において、第２のマルチビューインタラクティブデジタルメディア表現における動的対象は自動的に識別され、第２のタグを用いてタグ付けされ、第２のタグは第１のタグに対応する。

[00168] 様々な実施形態によれば、ＭＩＤＭＲは、様々な方法で記憶しアクセスすることができる。加えて、ＭＩＤＭＲは多くのアプリケーションで使用することができる。図１６Ａを参照して、モバイルデバイス１６０２及びブラウザ１６０４上のＭＩＤＭＲの共有サービスの例を示す。モバイルデバイス１６０２及びブラウザ１６０４は、代替的なサムネイル表示１６００として示されており、その理由は、アプリケーションに応じていずれかのインターフェースによりＭＩＤＭＲにアクセスすることができるためである。様々な実施形態によれば、限定する意図ではないが、ギャラリー、フィード、及び／又はウェブサイトを含め、１組のＭＩＤＭＲをユーザに異なる方法で提示することができる。例えば、サムネイルの集まりをユーザに提示するために、ギャラリーを使用することができる。これらのサムネイルは、ユーザにより又は自動的にＭＩＤＭＲから選択することができる。幾つかの例では、サムネイルのサイズは、限定する意図ではないが、構造及び含まれるコンテンツのサイズに基づく、自動的に選択されるサイズ；及び／又はＭＩＤＭＲの人気度等の特性に基づいて様々であることができる。別の例では、インタラクティブサムネイルを使用してＭＩＤＭＲを提示するために、フィードを使用することができる。

[00169] 本例では、モバイルデバイス１６０２からのＭＩＤＭＲサムネイルは、サムネイル１６０４及びタイトル／ラベル／説明１６０４を含む。サムネイル１６０４は、ＭＩＤＭＲからの画像を含むことができる。タイトル／ラベル／説明１６０４は、タイトル、ファイル名、コンテンツの説明、ラベル、タグ等のＭＩＤＭＲについての情報を含むことができる。

[00170] 更に、本例では、ブラウザ１６０４からのＭＩＤＭＲサムネイルは、サムネイル１６０６、タイトル／ラベル／説明１６０８、及び通知１６１０を含む。サムネイル１６０６は、ＭＩＤＭＲからの画像を含むことができる。タイトル／ラベル／説明１６０８は、タイトル、ファイル名、コンテンツの説明、ラベル、タグ等のＭＩＤＭＲについての情報を含むことができる。加えて、通知１６１０は、ＭＩＤＭＲについてのコメント、一致するコンテンツについての更新、示唆されたコンテンツ等の情報を含むことができる。モバイルバージョンに示されていないが、幾つかの実施形態では、通知を含むこともできるが、レイアウト及び空間考慮事項のために省くことができる。幾つかの例では、通知は、モバイルデバイス上にＭＩＤＭＲアプリケーションの一部として提供することができる。

[00171] 図１６Ｂを参照し、モバイルデバイスでのＭＩＤＭＲ関連通知の例を示す。特に、通知の異なるフォーマットを含むデバイス１６２２の代替の通知画面１６２０が示される。幾つかの例では、ユーザは、ユーザの好みに応じてこれらの画面間をナビゲートすることができる。

[00172] 本例では、画面１６２４は、最近のＭＩＤＭＲからのコンテンツに基づくユーザへの推奨を含む通知１６２６を含む。特に、推奨は、ユーザが彫像について親和性を有することのアプリケーションによる発見に基づいて、ギリシャへの旅行に関連する。この発見は、幾つかの例では、ユーザの記憶された又は最近閲覧したＭＩＤＭＲにおいて見つけられたコンテンツから推測することができる。

[00173] 本例では、画面１６２８は、ユーザが記憶、閲覧等したＭＩＤＭＲからのコンテンツに基づく通知１６３０を含む。例えば、１つの通知は、ＭＩＤＭＲモデルで提供されたようなユーザの靴と同様の、付近の小売店で入手可能な一足の靴への推奨である。推奨は、その小売店への地図へのリンクも含む。この推奨は、ユーザが保存した一足の靴のＭＩＤＭＲに基づくことができる。他の通知は、共通の関心／趣味を共有する別のユーザに接続する推奨である。この例では、推奨は、ユーザの検出された帽子への関心に基づく。これらの推奨は、幾つかの用途では、「プッシュ」通知として自動的に提供することができる。推奨のコンテンツは、ユーザのＭＩＤＭＲ又は閲覧履歴に基づくことができ、幾つかの例では、図１９～図２２に関して説明されるものなどのビジュアル検索アルゴリズムを使用することができる。

[00174] 画面１６３０は、本例では、別の形態の通知１６３２を示す。異なるアプリケーションへの様々なアイコンが画面１６３０に特徴付けられる。ＭＩＤＭＲアプリケーションのアイコンは、いくつの通知がユーザを待っているかを示すアイコンに組み込まれた通知１６３２を含む。様々な実施形態によれば、ユーザがアイコンを選択すると、通知を表示することができ、及び／又はアプリケーションを起動することができる。

[00175] 本開示の様々な実施形態によれば、ＭＩＤＭＲは、静的シーン又は動的シーンから対象をセグメント化又は分離するのに使用することができる。ＭＩＤＭＲは、弁別的な３Ｄモデリング特性及び画像データから導出される情報を含むため、ＭＩＤＭＲは、セグメント化する独自の機会を提供する。幾つかの例では、関心対象をＭＩＤＭＲコンテンツとして扱い、シーンの残りの部分をコンテキストとして表現することにより、対象をセグメント化し、別個のエンティティとして扱うことができる。更に、ＭＩＤＭＲコンテキストは、幾つかの場合、セグメント化プロセスの改善に使用することができる。様々な実施形態では、コンテンツは、自動的に又はユーザガイドの対話を使用して半自動的に選ぶことができる。ＭＩＤＭＲ対象セグメント化の重要な一用途は、電子商取引での製品ショーケースのコンテキストにおける用途であり、その一例を図１７Ｂに示す。加えて、ＭＩＤＭＲベースの対象セグメント化を使用して、ビジュアル検索アプリケーションのコンテキストにおいて、大きなデータベースで動作することができる人工知能検索アルゴリズムをトレーニングするのに適する対象モデルを生成することができる。

[00176] 図１７を参照して、対象セグメント化を提供するプロセス１７００の一例を示す。１７０２において、対象の第１のＭＩＤＭＲが取得される。次に、１７０４において、コンテンツが第１のＭＩＤＭＲから選択される。幾つかの例では、コンテンツは、ユーザ入力なしで自動的に選択される。他の例では、コンテンツは、ユーザガイドの対話を使用して半自動的に選択される。次に、１７０６において、コンテンツは第１のＭＩＤＭＲからセグメント化される。幾つかの例では、コンテンツは、複数のカメラ視点からの画像を含む、第１のＭＩＤＭＲにおいて提供される情報に基づいて、三次元でコンテンツのモデルを再構築することによってセグメント化される。特定の実施形態例では、ＭＩＤＭＲにおいて利用可能な複数のカメラ視点から、関心対象又はその一部を三次元で再構築することにより、繰り返し最適化アルゴリズム（グラフィカルモデル等）に基づくセグメント化アルゴリズムを選択し初期化するメカニズムを効率的に利用することができる。このプロセスは、複数のフレームに対して繰り返すことができ、セグメント化が所望の品質出力に達するまで最適化することができる。加えて、コンテンツのセグメント化は、コンテキストを使用して、コンテンツのパラメータを決定することを含むことができる。

[00177] 本例では、コンテンツが第１のＭＩＤＭＲからセグメント化されると、コンテンツのない対象又は対象周囲の風景を含む第２のＭＩＤＭＲが生成される。１７０８において、この第２のＭＩＤＭＲが提供される。幾つかの例では、次に、第２のＭＩＤＭＲはデータベースに記憶することができる。この第２のＭＩＤＭＲは、様々なアプリケーションで使用することができる。例えば、セグメント化コンテンツは、電子商取引で使用される製品を含む。図１７Ｂに示されるように、セグメント化コンテンツは、様々な視点から製品を示すのに使用することができる。別のアプリケーションは、人工知能トレーニング用の対象モデルとして第２のＭＩＤＭＲを使用することを含む。更に別のアプリケーションでは、第２のＭＩＤＭＲは、３Ｄプリントに使用することができる。このアプリケーションでは、第２のＭＩＤＭＲからのデータは、３Ｄプリンタへのデータである。

[00178] 本例は第１のＭＩＤＭＲからコンテンツをセグメント化することを記載するが、他の例では、コンテキストをセグメント化することもできることに留意されたい。例えば、幾つかの用途では、背景風景をセグメント化し、第２のＭＩＤＭＲとして提示することができる。特に、コンテキストが別個のインタラクティブモデルに分離されるように、コンテキストは第１のＭＩＤＭＲから選択することができ、コンテキストは第１のＭＩＤＭＲからセグメント化することができる。その結果生成されるＭＩＤＭＲは次に、対象周囲の風景を含むが、対象自体を除外する。セグメント化コンテキストモデルも、様々なアプリケーションで使用することができる。例えば、生成されたＭＩＤＭＲからのデータは、３Ｄプリンタに送信することができる。幾つかの例では、これは、平面又は曲面上にパノラマ背景としてプリントすることができる。コンテキストモデルもプリントされる場合、関心対象をパノラマ背景の前に配置して、ＭＩＤＭＲの三次元「写真」又はモデルを生成することができる。別のアプリケーションでは、セグメント化されたコンテキストは、異なる関心対象への背景として使用することができる。代替的には、セグメント化されたコンテンツは、セグメント化された新しいコンテキストに配置することができる。これらの例では、代替のコンテンツ又はコンテキストを提供することにより、関心対象を新しい背景等に配置することができる。例えば、人物のＭＩＤＭＲを様々な背景コンテキストに配置することができ、あるＭＩＤＭＲでは海岸に立っている人物を示し、別のＭＩＤＭＲでは雪の中で立っている人物を示すことができる。

[00179] 図１７Ｂを参照して、異なる角度から見たセグメント化対象の一例を示す。特に、運動靴の回転ビュー１７２０を示す。対象ビュー１７２２、１７２４、１７２６、１７２８、及び１７３０は、様々な角度又は視点からの運動靴を示す。示されるように、対象自体はいかなる背景又はコンテキストもない状態で示される。様々な実施形態によれば、セグメント化された対象のこれらの異なるビューは、ＭＩＤＭＲコンテンツから自動的に取得することができる。これらのタイプの回転ビューの一アプリケーションは、電子商取引において異なる角度からの製品ビューを示すことである。別のアプリケーションは、様々な実施形態によれば、ビジュアル検索におけるものであることができる。

[00180] 様々な実施形態によれば、ＭＩＤＭＲは、様々なソースから得られたデータから生成することができ、多くのアプリケーションで使用することができる。図１８を参照して、ＭＩＤＭＲ生成に使用することができる様々なソース及びＭＩＤＭＲと併用可能な様々なアプリケーションの一例を示すブロック図を示す。本例では、ＭＩＤＭＲ生成及びアプリケーション１８００は、インターネットギャラリー１８０２、リポジトリ１８０４、及びユーザ１８０６等の画像データ１８０８のソースを含む。特に、リポジトリは、データベース、ハードドライブ、記憶装置等を含むことができる。加えて、ユーザ１８０６は、スマートフォンでの画像捕捉中等、ユーザから直接取得される画像及び情報を含むことができる。データソースのこれらの特定の例が示されるが、データは他のソースからも同様に取得することができる。この情報は、特定の実施形態では、画像データ１８０８として収集されて、ＭＩＤＭＲ１８１０を生成することができる。

[00181] 本例では、ＭＩＤＭＲ１８１０は、様々なアプリケーションで使用することができる。示されるように、ＭＩＤＭＲは、電子商取引１８１２、ビジュアル検索１８１４、３Ｄプリント１８１６、ファイル共有１８１８、ユーザ対話１８２０、及びエンターテイメント１８２２等の用途で使用することができる。当然ながら、このリストは単なる例示であり、ＭＩＤＭＲは、明示的に記されていない他のアプリケーションで使用することもできる。

[00182] セグメント化に関して上述したように、ＭＩＤＭＲは電子商取引１８１２において使用することができる。例えば、ＭＩＤＭＲを使用して、買い物客は様々な角度から製品を見ることができる。幾つかのアプリケーションでは、買い物客はＭＩＤＭＲを使用して、サイズ、寸法、及び適合度を判断することさえ可能である。特に、買い物客は、セルフモデルを提供し、製品がモデルに適合するか否かをＭＩＤＭＲから判断することができる。ＭＩＤＭＲは、図１９～図２２に関してより詳細に後述するように、ビジュアル検索１８１４で使用することもできる。ビジュアル検索アプリケーションの幾つかは、ユーザがビジュアル検索クエリに一致する特定の製品を見つけようとする場合等、電子商取引に関連することもできる。

[00183] セグメント化の別のアプリケーションは、三次元プリント（３Ｄプリント）１８１６を含む。三次元プリントは最近、次の１０年でのグローバル経済を改善することになる将来の破壊的技術の１つとして認識されている。様々な実施形態によれば、コンテンツはＭＩＤＭＲから３Ｄプリントすることができる。加えて、ＭＩＤＭＲにおけるパノラマ背景コンテキストをプリントすることもできる。幾つかの例では、プリントされた背景コンテキストは、３Ｄプリントフォーマットでメモリを保持したいユーザの場合、最終的な３Ｄプリント製品を補完することができる。例えば、コンテキストは、３Ｄコンテンツの背後にある平面として又は任意の他の幾何学的形状（球体、円柱体、Ｕ字形等）としてプリントすることができる。

[00184] 図１６Ａに関して上述したように、ＭＩＤＭＲはユーザアクセスのためにサムネイルビューと共に記憶することができる。このタイプのアプリケーションは、幾つかの例では、ユーザ間のファイル共有１８１８に使用することができる。例えば、サイトは、現在の写真共有サイトと同様にしてユーザがＭＩＤＭＲを共有するインフラを含むことができる。ファイル共有１８１８は、幾つかのアプリケーションでは、ユーザ間で直接実施することもできる。

[00185] これもまた図１４及び図１５に関して説明したように、ユーザ対話はＭＩＤＭＲのもう一つのアプリケーションである。特に、ユーザは、各自の喜び又は娯楽のためにＭＩＤＭＲを通してナビゲートすることができる。この概念をエンターテイメント１８２２に拡張して、ＭＩＤＭＲは多くの方法で使用することができる。例えば、ＭＩＤＭＲは広告、ビデオ等で使用することができる。

[00186] 上述したように、ＭＩＤＭＲの一アプリケーションはビジュアル検索である。図１９、図２０、及び図２２は、ＭＩＤＭＲを使用したビジュアル検索の例を示す。様々な実施形態によれば、ＭＩＤＭＲの使用は、今日の任意の他のデジタルメディア表現よりも検索結果においてはるかに高い弁別力を提供することができる。特に、ＭＩＤＭＲにおいてコンテンツ及びコンテキストを分離する能力は、ビジュアル検索で使用することができる重要な側面である。

[00187] ２Ｄ画像等の既存のデジタルメディアフォーマットは、元々利用可能な十分な弁別的情報を有さないという意味で、索引付けに適さない。その結果、数十億ドルが、既存のデジタルメディアフォーマットからそのような情報を抽出するアルゴリズム及びメカニズムについての研究に費やされている。これは、顔認識等の幾つかの問題には満足のいく結果をもたらしたが、一般に、１つの画像から３Ｄ形状を見つけ出す問題は、既存の技術では不適切である。誤検出及び検出漏れのレベルは、画像シーケンス又は２Ｄビデオを使用することによって低減することができるが、従来利用可能な３Ｄ空間再構築方法はなお、適切ではない。

[00188] 様々な実施形態によれば、ＭＩＤＭＲの生成に使用される、ロケーションベースの情報等の追加のデータソースが、視覚的な認識及び検索の能力を改善する有価値情報を提供する。特定の実施形態例では、ＭＩＤＭＲの２つの成分であるコンテキスト及びコンテンツは両方とも、視覚認識プロセスにおいて有意に寄与する。特定の実施形態例では、コンテンツが提供する三次元情報の利用可能性は、クエリ対象又はシーンの一部を認識するために評価しなければならない仮説数を大幅に低減することができる。様々な実施形態によれば、コンテンツの三次元情報は、カテゴリ化（すなわち、対象が属する一般カテゴリを見つけ出すこと）に役立つことができ、二次元テクスチャ情報は、対象の具体例についてより多くを示すことができる。多くの場合、ＭＩＤＭＲにおけるコンテキスト情報は、クエリ対象が存在するシーンのタイプを説明することにより、クエリ対象のカテゴリ化を支援することもできる。

[00189] 特定の関心対象を見つけるのに使用可能な情報を提供することに加えて、ＭＩＤＭＲは元々、「他の対象で何が、形状及び見た目で類似しているか」等の質問への回答にも適する。ウェブ検索クエリに応答して提供される上位Ｎ個の最良一致と同様、様々な例では、ＭＩＤＭＲは対象カテゴリ化及び認識アルゴリズムと併用されて、「最も近いもの」を示すことができる。

[00190] ＭＩＤＭＲを使用したビジュアル検索は、様々な方法で使用及び／又は実施することができる。一例では、ＭＩＤＭＲを使用したビジュアル検索は、ロボットの対象認識に使用することができる。別の例では、ＭＩＤＭＲを使用したビジュアル検索は、ソーシャルメディアキュレーションで使用することができる。特に、様々なソーシャルネットワークに掲示されているＭＩＤＭＲを分析し、対象及びシーンの部分を認識することにより、よりよい「＃ハッシュタグインデックス」を自動的に生成することができる。このタイプの情報を生成することにより、フィードをキュレーションすることができ、検索経験を強化することができる。

[00191] ＭＩＤＭＲを使用したビジュアル検索を使用することができる別の例は、「検索及び買い物（Search and Shop）」と呼ぶことができる買い物の状況においてである。特に、このビジュアル検索では、形状及び見た目が同様であるが、付近の他の店では異なる価格で販売されていることがあるアイテムを認識することができる。例えば、図２１を参照すると、ビジュアル検索クエリは、購入可能な類似製品をもたらし得る。

[00192] ＭＩＤＭＲを使用したビジュアル検索を使用することができる更に別の例は、「検索及びフィッティング（Search and Fit）」と呼ぶことができる買い物の状況においてである。様々な実施形態によれば、ＭＩＤＭＲコンテンツは三次元であるため、厳密な測定値を抽出することができ、この情報を使用して、ＭＩＤＭＲにおいて表現される特定の対象が特定の状況に適合する（例えば、足に合った靴、部屋に合ったランプ等）か否かを判断することができる。

[00193] 別の場合、ＭＩＤＭＲを使用したビジュアル検索は、よりよいマーケティング推奨エンジンを提供するのに使用することもできる。例えば、様々なユーザにより生成されたＭＩＤＭＲに見られる対象のタイプを分析することにより、「人々が実際に日常生活で使用するのはどのタイプの製品か」等の質問に自然に、プライベートに、且つ非侵入的に回答することができる。このタイプの情報を収集することは、改善された推奨エンジンを促進し、不要なスパム又はマーケティング広告を低減及び／又は停止し、それにより、大半のユーザの生活品質を上げることができる。図１６Ｂは、本開示の様々な実施形態により推奨を提供することができる一実施態様を示す。

[00194] 図１９を参照して、検索クエリが対象のＭＩＤＭＲを含み、検索されるデータが三次元モデルを含む、対象のビジュアル検索を提供するプロセス１９００の一例を示す。１９０２において、第１のＭＩＤＭＲを含むビジュアル検索クエリが受信される。次に、１９０４において、この第１のＭＩＤＭＲは、記憶されているＭＩＤＭＲと比較される。幾つかの実施形態では、この比較は、第１のＭＩＤＭＲにおける対象についての第１の測定情報を抽出し、１つ又は複数の記憶されているＭＩＤＭＲから抽出された第２の測定情報と比較することを含むことができる。例えば、このタイプの測定情報は、衣服、靴、又はアクセサリー等のアイテムの検索に使用することができる。

[00195] 次に、１９０６において、任意の記憶されているＭＩＤＭＲが第１のＭＩＤＭＲに対応するか否かが判断される。幾つかの例では、この判断は、任意の記憶されているＭＩＤＭＲの内容が、第１のＭＩＤＭＲにおける対象と形状が類似するか否かに基づく。他の例では、この判断は、記憶されているＭＩＤＭＲにおける任意の内容が、第１のＭＩＤＭＲにおける対象と見た目が類似するか否かに基づく。更に他の例では、この判断は、記憶されているＭＩＤＭＲにおける任意の内容が、第１のＭＩＤＭＲに含まれるテクスチャと同様のものを含むか否かに基づく。幾つかの場合、この判断は、記憶されているＭＩＤＭＲに関連付けられた任意のコンテキストが第１のＭＩＤＭＲのコンテキストに一致するか否かに基づく。別の例では、この判断は、記憶されているＭＩＤＭＲに関連付けられた測定情報が、第１のＭＩＤＭＲに関連付けられた対象に寸法が合うか否かに基づく。当然ながら、これらの任意のベースは、互いと併せて使用することができる。

[00196] この判断がなされると、１９０８において、一致する結果のランク付きリストが生成される。幾つかの実施形態では、一致する結果のランク付きリストを生成することは、任意の記憶されているＭＩＤＭＲが、第１の測定情報に関連付けられた対象に寸法的にいかに適合するかを示すことを含む。様々な実施形態によれば、このランク付きリストは、一致する結果のサムネイルを表示することを含むことができる。幾つかの例では、小売店へのリンクをサムネイルと共に含むことができる。更に、幾つかのアプリケーションでは、名称、ブランド、価格、ソース等の一致する結果についての情報を含むことができる。

[00197] 前の例は、ＭＩＤＭＲをビジュアル検索クエリとして使用して、記憶されているＭＩＤＭＲ又は三次元モデルを通して検索することを含むが、現在のインフラはまだ、膨大な二次元画像を含んでいる。例えば、インターネットは、容易にアクセス可能な多くの二次元画像へのアクセスを提供する。したがって、ＭＩＤＭＲを使用して、一致するものを探して、記憶されている二次元画像を通して検索することは、現在の二次元インフラへのＭＩＤＭＲの有用な適用を提供することができる。

[00198] 図２０を参照して、検索クエリが対象のＭＩＤＭＲを含み、検索されるデータが二次元画像を含む、対象のビジュアル検索を提供するプロセス２０００の一例を示す。２００２において、第１のＭＩＤＭＲを含むビジュアル検索クエリが受信される。次に、２００４において、対象ビューがＭＩＤＭＲから選択される。特に、１つ又は複数の二次元画像がＭＩＤＭＲから選択される。これらの対象ビューは二次元の記憶されている画像と比較されるため、複数のビューを選択することは、一致するものを見つける確率を上げることができる。更に、１つ又は複数の対象ビューをＭＩＤＭＲから選択することは、対象の弁別的特性の認識を提供する対象ビューを選択することを含むことができる。

[00199] 本例では、次に、２００６において、対象ビューは記憶されている画像と比較される。幾つかの実施形態では、記憶されている画像の１つ又は複数を、記憶されているＭＩＤＭＲから抽出することができる。幾つかの例では、これらの記憶されているＭＩＤＭＲは、データベースから検索することができる。様々な例では、１つ又は複数の対象ビューを、記憶されている画像と比較することは、ＭＩＤＭＲにおける対象の形状を、記憶されている画像と比較することを含む。他の例では、１つ又は複数の対象ビューを、記憶されている画像と比較することは、ＭＩＤＭＲにおける対象の外観を、記憶されている画像と比較することを含む。更に、１つ又は複数の対象ビューを、記憶されている画像と比較することは、ＭＩＤＭＲにおける対象のテクスチャを、記憶されている画像と比較することを含むことができる。幾つかの実施形態では、１つ又は複数の対象ビューを、記憶されている画像と比較することは、ＭＩＤＭＲにおける対象のコンテキストを、記憶されている画像と比較することを含む。当然ながら、比較の任意のこれらの基準は互いと併せて使用することができる。

[00200] 次に、２００８において、任意の記憶されている画像が対象ビューに対応するか否かが判断される。この判断がなされると、２０１０において、一致する結果のランク付きリストが生成される。様々な実施形態によれば、このランク付きリストは、一致する結果のサムネイルを表示することを含むことができる。幾つかの例では、小売店へのリンクをサムネイルに含めることができる。更に、幾つかのアプリケーションでは、名称、ブランド、価格、ソース等の一致する結果についての情報を含めることができる。

[00201] 図２１を参照して、ビジュアル検索プロセス２１００の一例を示す。本例では、２１０２において、画像が取得される。これらの画像は、ユーザにより捕捉されることができ、又は記憶されているファイルから引き出すことができる。次に、様々な実施形態によれば、画像に基づいてＭＩＤＭＲが生成される。次に、２１０４において、このＭＩＤＭＲは、提出されるビジュアル検索クエリとして使用される。この例では、ＭＩＤＭＲは、「データベースにおける他のどの対象がクエリ対象のように見えるか」等の質問への回答に使用することができる。示されるように、ＭＩＤＭＲは、ＭＩＤＭＲのよりよい意味論的情報能力に起因して、他の「クエリのように見える画像」を見つけることから、他の「クエリのように見える対象」を見つけることへ、ビジュアル検索パラダイムをシフトさせるのに役立つことができる。図１９及び図２０に関して上述したように、ＭＩＤＭＲは次に、記憶されているＭＩＤＭＲ又は画像と比較することができ、２１０６において、一致する結果のリストを提供することができる。

[00202] ビジュアル検索の前の例は、ＭＩＤＭＲを検索クエリとして使用することを含むが、幾つかの実施形態では、二次元画像の検索クエリを提供するのに有用であることもできる。図２２を参照して、対象のビジュアル検索を提供するプロセス２２００の一例を示し、この例では、検索クエリは対象の二次元ビューを含み、検索されるデータがＭＩＤＭＲを含む。２２０２において、検索する対象の二次元ビューを含むビジュアル検索クエリが受信される。幾つかの例では、二次元ビューは対象ＭＩＤＭＲから得られ、対象ＭＩＤＭＲは対象の三次元モデルを含む。次に、２２０４において、二次元ビューはＭＩＤＭＲと比較される。幾つかの例では、二次元ビューは、ＭＩＤＭＲにおける１つ又は複数のコンテンツビューと比較することができる。特に、二次元ビューは、ＭＩＤＭＲから抽出された異なる視角からの１つ又は複数の二次元画像と比較することができる。様々な例によれば、ＭＩＤＭＲから抽出される二次元画像は、コンテンツの弁別的特性の認識を提供する視角に対応する。他の例では、二次元ビューを１つ又は複数のＭＩＤＭＲと比較することは、二次元ビューを１つ又は複数のコンテンツモデルと比較することを含む。画像又はモデルを比較するために、対象の形状、外観、テクスチャ、及びコンテキストといった様々な基準を使用することができる。当然ながら、これらの任意の比較基準は互いと併せて使用することができる。

[00203] 図２３を参照して、本開示の特定の例を実施するのに使用することができるコンピュータシステムの特定の例を示す。例えば、コンピュータシステム２３００は、上述した様々な実施形態によりＭＩＤＭＲを提供するのに使用することができる。特定の実施形態例によれば、本開示の特定の実施形態を実施するのに適するシステム２３００は、プロセッサ２３０１、メモリ２３０３、アクセラレータ２３０５、インターフェース２３１１、及びバス２３１５（例えば、ＰＣＩバス又は他の相互接続ファブリック）を含む。インターフェース２３１１は、別個の入力インターフェース及び出力インターフェースを含んでもよく、又は両動作をサポートする統合インターフェースであってもよい。適切なソフトウェア又はファームウェアの制御下で動作する場合、プロセッサ２３０１は、最適化等のタスクを担当する。様々な特別に構成されたデバイスをプロセッサ２３０１の代わりに又はプロセッサ２３０１に加えて使用することもできる。完全な実施はカスタムハードウェアで行うこともできる。インターフェース２３１１は通常、ネットワークを解してデータパケット又はデータセグメントを送受信するように構成される。デバイスがサポートするインターフェースの具体的な例としては、Ethernet（登録商標）インターフェース、フレーム中継インターフェース、ケーブルインターフェース、ＤＳＬインターフェース、トークンリングインターフェース等が挙げられる。

[00204] 加えて、高速Ethernetインターフェース、ギガビットEthernetインターフェース、ＡＴＭインターフェース、ＨＳＳＩインターフェース、ＰＯＳインターフェース、ＦＤＤＩインターフェース等の様々な超高速インターフェースを提供し得る。一般に、これらのインターフェースは、適切な媒体と通信するのに適切なポートを含み得る。幾つかの場合、独立したプロセッサ及び幾つかの場合、揮発性ＲＡＭを含むこともできる。独立したプロセッサは、パケット交換、媒体制御、及び管理のような通信集約的タスクを制御し得る。

[00205] 特定の実施形態例によれば、システム２３００は、メモリ２３０３を使用して、データ及びプログラム命令を記憶し、ローカルサイドキャッシュを維持する。プログラム命令は、例えば、オペレーティングシステム及び／又は１つ又は複数のアプリケーションの動作を制御し得る。１つ又は複数のメモリは、受信したメタデータを記憶し、要求されたメタデータをバッチ処理するように構成することもできる。

[00206] 幾つかの実施形態では、システム２３００はグラフィック処理ユニット（ＧＰＵ）２３０９を更に含む。上述したように、ＧＰＵ２３０９は、各ピクセルを別個のスレッドで処理して、変換を計算し特定するように実施し得る。幾つかの実施形態では、システム２３００はアクセラレータ２３０５を更に含む。様々な実施形態では、アクセラレータ２３０５は、グラフィックス処理ユニットと別個であり得るレンダリングアクセラレータチップである。アクセラレータ２３０５は、ピクセルを並列処理して、システム２３００の過負荷を回避することにより、全体システム２３００の処理を加速化するように構成し得る。例えば、特定の場合、超高精細画像を処理し得、これは、ＤＣＩ４Ｋ又はＵＨＤ－１解像度等の多くのピクセルを含む。そのような場合、過剰なピクセルは、ＧＰＵ２３０９等の標準ＧＰＵプロセッサで処理することができるよりも多数であり得る。幾つかの実施形態では、アクセラレータ２３０５は、高システム負荷が予期又は検出される場合のみ、利用し得る。

[00207] 幾つかの実施形態では、アクセラレータ２３０５は、プロセッサ２３０１等のＣＰＵとは別個のユニットにおけるハードウェアアクセラレータであり得る。アクセラレータ２３０５は、共有メモリマルチプロセッサマシンで複数のプロセッサを同時に利用するために、自動並列化機能を可能にし得る。アクセラレータ２３０５アーキテクチャのコアは、動作が非常に明確に定義される固定機能ユニットと、柔軟性が必要なプログラマブルユニットとを利用するハイブリッド設計であり得る。様々な実施形態では、アクセラレータ２３０５は、ＡＰＩにより高い性能及び拡張性、特にOpenGL 2及びＤＸ９を提供するように構成し得る。本明細書に記載されるシステム及び方法は、実際のコンピュータ自体への改善を含め、多くの利点を提供する。マルチビューインタラクティブデジタルメディア表現の生成は、ポリゴン及び／又はテクスチャ化パラメータなしで記憶される。閲覧デバイスでのインタラクティブデジタルメディア表現の異なるビューのナビゲーションでは、従来の手段を通して生成される３Ｄモデルと比較して、必要とされる処理電力が少ない。処理電力が少ないことは、遅延のないより高速の遷移及びよりスムーズな遷移を意味する。加えて、デバイスが従来の高品質３Ｄモデルを適宜表示することが困難な、低処理電力及び低計算リソースのローエンドデバイスも、高品質ユーザ経験を維持しながら、マルチビューインタラクティブデジタルメディア表現を表示することが可能である。

[00208] そのような情報及びプログラム命令を利用して、本明細書に記載されるシステム／方法を実施し得るため、本開示は、本明細書に記載される様々な動作を実行するプログラム命令、状態情報等を含む有形の機械可読媒体に関する。機械可読媒体の例としては、ハードディスク、フロッピーディスク、磁気テープ、ＣＤ－ＲＯＭディスク及びＤＶＤ等の光学媒体、光ディスク等の磁気光学媒体、並びに読み取り専用メモリデバイス（ＲＯＭ）及びプログラマブル読み取り専用メモリデバイス（ＰＲＯＭ）等のプログラム命令を記憶し実行するように特に構成されるハードウェアデバイスが挙げられる。プログラム命令の例としては、コンパイラにより生成される等の機械コード、及びインタプリタを使用してコンピュータにより実行し得る、より高水準のコードを含むファイルの両方が挙げられる。

[00209] 構成要素及びプロセスの多くは、便宜上、単数形で上述されているが、本開示の技法の実施に、複数の構成要素及び繰り返されるプロセスを使用することもできることが当業者には理解される。

[00210] 本開示は、本開示の特定の実施形態を参照して特に示され説明されたが、本開示の趣旨又は範囲から逸脱せずに、開示された実施形態の形態及び詳細の変更を行い得ることが当業者には理解される。したがって、本開示は、本開示の真の趣旨及び範囲内にある全ての変形及び均等物を包含するものとして解釈されるものとする。

Claims

背景で動いている動的対象の第１のマルチビューインタラクティブデジタルメディア表現を取得することであって、前記第１のマルチビューインタラクティブデジタルメディア表現は、ポリゴン生成を使用して実際の三次元モデルを実際にレンダリング又は生成することなく、ステッチングされた二次元画像が三次元ビューとして経験されるように二次元画像を一緒にステッチングして生成されており、前記二次元画像は前記動的対象に対して凹型キャプチャ動作を使用して生成されていることと、
前記第１のマルチビューインタラクティブデジタルメディア表現内の前記動的対象に第１のタグをタグ付けることであって、前記第１のタグは、前記動的対象を識別することと、
前記動的対象の第２のマルチビューインタラクティブデジタルメディア表現を生成することであって、前記第２のマルチビューインタラクティブデジタルメディア表現は、前記動的対象が第１の場所から第２の場所に移動したことを示し、前記第２のマルチビューインタラクティブデジタルメディア表現は、前記第１のマルチビューインタラクティブデジタルメディア表現と同じ方法で生成されることと、
前記第２のマルチビューインタラクティブデジタルメディア表現内の前記動的対象を自動的に識別し、前記動的対象が前記第１の場所から前記第２の場所に移動したときの前記動的対象の捕捉された速度に少なくとも基づいて第２のタグをタグ付けることであって、前記第２のタグは前記第１のタグに対応することと、
を含み、
前記動的対象の前記第２のマルチビューインタラクティブデジタルメディア表現を生成することと、前記第２のマルチビューインタラクティブデジタルメディア表現内の前記動的対象を自動的に識別し、タグ付けることとは、前記動的対象にタグ付けする際に実質的にリアルタイムで実行される、コンピュータ実行方法。
前記第１のマルチビューインタラクティブデジタルメディア表現は、前記背景の第１の視角を示す、請求項１に記載のコンピュータ実行方法。
前記第２のマルチビューインタラクティブデジタルメディア表現は、前記背景の第２の視角を示す、請求項１に記載のコンピュータ実行方法。
前記第２のマルチビューインタラクティブデジタルメディア表現は、前記第１のマルチ
ビューインタラクティブデジタルメディア表現における前記動的対象と異なる角度及び異なるロケーションからの前記動的対象を示す、請求項１に記載のコンピュータ実行方法。
前記第１のタグ及び前記第２のタグは、前記動的対象を識別する同じテキスト又はタイトルを含む、請求項１に記載のコンピュータ実行方法。
前記第１のタグは、前記第１のマルチビューインタラクティブデジタルメディア表現における第１のロケーションにマッピングされる、請求項１に記載のコンピュータ実行方法。
前記第２のタグは、前記動的対象が前記第１のマルチビューインタラクティブデジタルメディア表現から前記第２のマルチビューインタラクティブデジタルメディア表現までどれだけ移動したかに対応する、前記第２のマルチビューインタラクティブデジタルメディア表現における第２のロケーションにマッピングされる、請求項１に記載のコンピュータ実行方法。
システムであって、
プロセッサと、
方法を実行する命令を含むメモリと
を含み、前記方法は、
背景で動いている動的対象の第１のマルチビューインタラクティブデジタルメディア表現を取得することであって、前記第１のマルチビューインタラクティブデジタルメディア表現は、ポリゴン生成を使用して実際の三次元モデルを実際にレンダリング又は生成することなく、ステッチングされた二次元画像が三次元ビューとして経験されるように二次元画像を一緒にステッチングして生成されており、前記二次元画像は前記動的対象に対して凹型キャプチャ動作を使用して生成されていることと、
前記第１のマルチビューインタラクティブデジタルメディア表現内の前記動的対象に第１のタグをタグ付けることであって、前記第１のタグは、前記動的対象を識別することと、
前記動的対象の第２のマルチビューインタラクティブデジタルメディア表現を生成することであって、前記第２のマルチビューインタラクティブデジタルメディア表現は、前記動的対象が第１の場所から第２の場所に移動したことを示し、前記第２のマルチビューインタラクティブデジタルメディア表現は、前記第１のマルチビューインタラクティブデジタルメディア表現と同じ方法で生成されることと、
前記第２のマルチビューインタラクティブデジタルメディア表現内の前記動的対象を自動的に識別し、前記動的対象が前記第１の場所から前記第２の場所に移動したときの前記動的対象の捕捉された速度に少なくとも基づいて第２のタグをタグ付けることであって、前記第２のタグは前記第１のタグに対応することと、
を含み、
前記動的対象の前記第２のマルチビューインタラクティブデジタルメディア表現を生成することと、前記第２のマルチビューインタラクティブデジタルメディア表現内の前記動的対象を自動的に識別し、タグ付けることとは、前記動的対象にタグ付けする際に実質的にリアルタイムで実行される、システム。
前記第１のマルチビューインタラクティブデジタルメディア表現は、前記背景の第１の視角を示す、請求項８に記載のシステム。
前記第２のマルチビューインタラクティブデジタルメディア表現は、前記背景の第２の視角を示す、請求項８に記載のシステム。
前記第２のマルチビューインタラクティブデジタルメディア表現は、前記第１のマルチビューインタラクティブデジタルメディア表現における前記動的対象と異なる角度及び異なるロケーションからの前記動的対象を示す、請求項８に記載のシステム。
前記第１のタグ及び前記第２のタグは、前記動的対象を識別する同じテキスト又はタイトルを含む、請求項８に記載のシステム。
前記第１のタグは、前記第１のマルチビューインタラクティブデジタルメディア表現における第１のロケーションにマッピングされる、請求項８に記載のシステム。
前記第２のタグは、前記動的対象が前記第１のマルチビューインタラクティブデジタルメディア表現から前記第２のマルチビューインタラクティブデジタルメディア表現までどれだけ移動したかに対応する、前記第２のマルチビューインタラクティブデジタルメディア表現における第２のロケーションにマッピングされる、請求項８に記載のシステム。
方法を実行するためのコンピュータ実行命令を含む非一時的コンピュータ可読媒体であって、前記方法は、
背景で動いている動的対象の第１のマルチビューインタラクティブデジタルメディア表現を取得することであって、前記第１のマルチビューインタラクティブデジタルメディア表現は、ポリゴン生成を使用して実際の三次元モデルを実際にレンダリング又は生成することなく、ステッチングされた二次元画像が三次元ビューとして経験されるように二次元画像を一緒にステッチングして生成されており、前記二次元画像は前記動的対象に対して凹型キャプチャ動作を使用して生成されていることと、
前記第１のマルチビューインタラクティブデジタルメディア表現内の前記動的対象に第１のタグをタグ付けることであって、前記第１のタグは、前記動的対象を識別することと、
前記動的対象の第２のマルチビューインタラクティブデジタルメディア表現を生成することであって、前記第２のマルチビューインタラクティブデジタルメディア表現は、前記動的対象が第１の場所から第２の場所に移動したことを示し、前記第２のマルチビューインタラクティブデジタルメディア表現は、前記第１のマルチビューインタラクティブデジタルメディア表現と同じ方法で生成されることと、
前記第２のマルチビューインタラクティブデジタルメディア表現内の前記動的対象を自動的に識別し、前記動的対象が前記第１の場所から前記第２の場所に移動したときの前記動的対象の捕捉された速度に少なくとも基づいて第２のタグをタグ付けることであって、前記第２のタグは前記第１のタグに対応することと、
を含み、
前記動的対象の前記第２のマルチビューインタラクティブデジタルメディア表現を生成することと、前記第２のマルチビューインタラクティブデジタルメディア表現内の前記動的対象を自動的に識別し、タグ付けることとは、前記動的対象にタグ付けする際に実質的にリアルタイムで実行される、非一時的コンピュータ可読媒体。
前記第１のマルチビューインタラクティブデジタルメディア表現は、前記背景の第１の視角を示す、請求項１５に記載の非一時的コンピュータ可読媒体。
前記第２のマルチビューインタラクティブデジタルメディア表現は、前記背景の第２の視角を示す、請求項１５に記載の非一時的コンピュータ可読媒体。
前記第２のマルチビューインタラクティブデジタルメディア表現は、前記第１のマルチビューインタラクティブデジタルメディア表現における前記動的対象と異なる角度及び異なるロケーションからの前記動的対象を示す、請求項１５に記載の非一時的コンピュータ可読媒体。
前記第１のタグ及び前記第２のタグは、前記動的対象を識別する同じテキスト又はタイトルを含む、請求項１５に記載の非一時的コンピュータ可読媒体。
前記第１のタグは、前記第１のマルチビューインタラクティブデジタルメディア表現における第１のロケーションにマッピングされ、前記第２のタグは、前記動的対象が前記第１のマルチビューインタラクティブデジタルメディア表現から前記第２のマルチビューインタラクティブデジタルメディア表現までどれだけ移動したかに対応する、前記第２のマルチビューインタラクティブデジタルメディア表現における第２のロケーションにマッピングされる、請求項１５に記載の非一時的コンピュータ可読媒体。