JP2019534494A - 動的エンティティのマルチビューインタラクティブデジタルメディア表現における対象の自動タグ付け - Google Patents

動的エンティティのマルチビューインタラクティブデジタルメディア表現における対象の自動タグ付け Download PDF

Info

Publication number
JP2019534494A
JP2019534494A JP2019510299A JP2019510299A JP2019534494A JP 2019534494 A JP2019534494 A JP 2019534494A JP 2019510299 A JP2019510299 A JP 2019510299A JP 2019510299 A JP2019510299 A JP 2019510299A JP 2019534494 A JP2019534494 A JP 2019534494A
Authority
JP
Japan
Prior art keywords
midmr
digital media
media representation
interactive digital
view interactive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019510299A
Other languages
English (en)
Other versions
JP7098604B2 (ja
Inventor
ヨハネス ヨーゼフ ホルツァー,ステファン
ヨハネス ヨーゼフ ホルツァー,ステファン
デイビッド ミラー,スティーブン
デイビッド ミラー,スティーブン
ボグダン ルス,ラドゥ
ボグダン ルス,ラドゥ
Original Assignee
ファイユージョン,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US15/620,506 external-priority patent/US10698558B2/en
Application filed by ファイユージョン,インコーポレイテッド filed Critical ファイユージョン,インコーポレイテッド
Publication of JP2019534494A publication Critical patent/JP2019534494A/ja
Application granted granted Critical
Publication of JP7098604B2 publication Critical patent/JP7098604B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/17Image acquisition using hand-held instruments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/16Image acquisition using multiple overlapping images; Image stitching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation

Abstract

本開示の様々な実施形態は、一般的に、動的エンティティのマルチビューインタラクティブデジタルメディア表現において対象を自動的にタグ付けするシステム及び方法に関する。特定の実施形態によれば、デバイスに提示される、本明細書においてマルチビューインタラクティブデジタルメディア表現と呼ばれる表現を作成するために、複数の画像とビデオとの間の空間関係が、ロケーション情報データと共に分析される。マルチビューインタラクティブデジタルメディア表現は、背景における動的対象のマルチビューインタラクティブデジタルメディア表現に対応する。動的対象の第1のマルチビューインタラクティブデジタルメディア表現が取得される。次に、動的対象がタグ付けされる。次に、動的対象の第2のマルチビューインタラクティブデジタルメディア表現が生成される。最後に、第2のマルチビューインタラクティブデジタルメディア表現における動的対象が、自動的に識別されタグ付けされる。

Description

関連出願の相互参照
[0001] 本願は、2016年8月19日に出願された米国仮特許出願第62/377,516号の利益を主張する2017年6月12日に出願された米国特許出願第15/620,506号の利益を主張するものであり、この出願は全体的に、参照により本明細書に援用される。加えて、本願は、2015年7月15日に出願された米国特許出願第14/800,638号の一部継続出願であり、この出願も全体的に、参照により本明細書に援用される。
技術分野
[0002] 本開示は、一般的に、マルチビューインタラクティブデジタルメディア表現に関する。
背景
[0003] 近代の計算プラットフォーム及び技術が、ネイティブの取得入力ストリームとしてカメラセンサを含むモバイルデバイス及びウェアラブルデバイスにシフトするのに伴い、より従来的な二次元(2D)平面画像及びビデオと異なる形態で瞬間をデジタルで記録し保存したいという望みがより明白になった。従来のデジタルメディアフォーマットは通常、閲覧者を受動的な経験に制限する。例えば、2D平面画像は、1つの角度から見ることができ、ズームイン及びズームアウトに制限される。したがって、2D平面画像等の従来のデジタルメディアフォーマットは、思い出及びイベントを高い忠実度で再現するのに容易に適合しない。
[0004] 現在の予測(参照文献:KPCB「Internet Trends 2012」プレゼンテーション」)は、数年ごとに、オンラインにおいてデジタルで捕捉されているビジュアルデータの量が二倍になることを示している。このビジュアルデータ量が増えるにつれて、現在利用可能なものよりもはるかに包括的な検索及び索引付けメカニズムへの必要性も増える。不都合なことに、2D画像も2Dビデオもこれらの目的に向けて設計されていない。したがって、ユーザがビジュアルデータを閲覧し索引付けるとともに、ビジュアルデータに問い合わせて有意味な結果を高速で受信することができる改善されたメカニズムが望ましい。
概要
[0005] 本開示の様々な実施形態は、一般的に、動的エンティティのマルチビューインタラクティブデジタルメディア表現(MIDMR:multi-view interactive digital media representation)において対象を自動的にタグ付けするシステム及び方法に関する。特定の実施形態によれば、デバイスに提示される、本明細書においてマルチビューインタラクティブデジタルメディア表現と呼ばれる表現を作成するために、複数の画像とビデオとの間の空間関係が、ロケーション情報データと共に分析される。マルチビューインタラクティブデジタルメディア表現は、背景における動的対象のマルチビューインタラクティブデジタルメディア表現に対応する。動的対象の第1のマルチビューインタラクティブデジタルメディア表現が取得される。次に、動的対象がタグ付けされる。次に、動的対象の第2のマルチビューインタラクティブデジタルメディア表現が生成される。最後に、第2のマルチビューインタラクティブデジタルメディア表現における動的対象が、自動的に識別されタグ付けされる。
図面の簡単な説明
[0006] 本開示は、添付図面と併せて解釈される以下の説明を参照することによって最良に理解し得、添付図面は本開示の特定の実施形態を示す。
[0007]MIDMR取得システムの一例を示す。 [0008]MIDMRを生成するプロセスフローの一例を示す。 [0009]三次元(3D)モデルに融合して、没入経験を生み出すことができる複数のカメラビューの一例を示す。 [0010]MIDMRにおけるコンテンツとコンテキストとの分離の一例を示す。 [0011]MIDMRにおける階層化の一例を示す。 [0012]MIDMRにおけるレイヤを変更するプロセスの一例を示す。 [0013]バックカメラ捕捉スタイルを使用する凹ビューの例を示す。 [0013]バックカメラ捕捉スタイルを使用する凸ビューの例を示す。 [0014]MIDMRの様々な捕捉モードの例を示す。 [0014]MIDMRの様々な捕捉モードの例を示す。 [0014]MIDMRの様々な捕捉モードの例を示す。 [0014]MIDMRの様々な捕捉モードの例を示す。 [0014]MIDMRの様々な捕捉モードの例を示す。 [0015]MIDMRの生成に使用することができるデータを記録するプロセスの一例を示す。 [0016]動的パノラマ捕捉プロセスの一例を示す。 [0017]捕捉デバイスが回転軸を通して回転する動的パノラマ捕捉プロセスの一例を示す。 [0018]動的コンテンツを有する動的パノラマの一例を示す。 [0019]3Dエフェクトを有する動的パノラマを捕捉する一例を示す。 [0020]視差エフェクトを有する動的パノラマの一例を示す。 [0021]対象パノラマ捕捉プロセスの一例を示す。 [0022]対象パノラマが投影された背景パノラマの一例を示す。 [0023]対象パノラマを構成する複数の対象の一例を示す。 [0024]ユーザナビゲーションに基づいて対象パノラマの視角を変更する一例を示す。 [0025]セルフィーパノラマ捕捉プロセスの一例を示す。 [0026]セルフィーパノラマが投影された背景パノラマの一例を示す。 [0027]ユーザナビゲーションに基づくパノラマの拡張ビューの一例を示す。 [0028]三次元コンテンツが二次元パノラマコンテンツとブレンドされるMIDMRの一例を示す。 [0029]独立した観測者によって同時に記録されている空間−時間MIDMRの一例を示す。 [0030]複雑な周囲ビューをより小さな線形部分に分離する一例を示す。 [0031]複数のMIDMRを結合してマルチMIDMRにする一例を示す。 [0032]より正確なMIDMRを提供するために、関心対象の追加のビューをユーザに促すプロセスの一例を示す。 [0033]検索する対象の追加のビューをユーザに促す一例を示す。 [0033]検索する対象の追加のビューをユーザに促す一例を示す。 [0034]MIDMRをナビゲートするプロセスの一例を示す。 [0035]MIDMRのスワイプベースのナビゲーションの一例を示す。 [0036]動的コンテンツ及び自動タグ付けを用いる動的パノラマの一例の第1のMIDMRを示す。 [0037]動的コンテンツ及び自動タグ付けを用いる動的パノラマの一例の第2のMIDMRを示す。 [0038]MIDMR内の動的対象の自動タグ付けプロセスの一例を示す。 [0039]モバイルデバイス及びブラウザに示されるMIDMRの共有サービスの例を示す。 [0040]モバイルデバイス上のMIDMR関連通知の例を示す。 [0041]対象セグメント化を提供するプロセスの一例を示す。 [0042]異なる角度から見たセグメント化対象の一例を示す。 [0043]MIDMR生成に使用することができる様々なデータソース及びMIDMRと併用することができる様々なアプリケーションの一例を示す。 [0044]検索クエリが対象のMIDMRを含み、検索されたデータが三次元モデルを示す、対象のビジュアル検索を提供するプロセスの一例を示す。 [0045]検索クエリが対象のMIDMRを含み、検索されたデータが二次元画像を含む、対象のビジュアル検索を提供するプロセスの一例を示す。 [0046]ビジュアル検索プロセスの一例を示す。 [0047]検索クエリが対象の二次元ビューを含み、検索されたデータがMIDMRを含む、対象のビジュアル検索を提供するプロセスの一例を示す。 [0048]本開示の様々な実施形態と併用することができるコンピュータシステムの特定の例を示す。
詳細な説明
[0049] 本明細書で使用される場合、「マルチビューインタラクティブデジタルメディア表現」(MIDMR)なる用語は、典型的な「周囲ビュー」からの技術的改善を指す。したがって、MIDMRは周囲ビューと同様であるが、MIDMRのより進んだ特徴、例えば、不完全な捕捉円弧起動を許すIMU回転補償ファクタに基づいて技術的に区別される。
[0050] MIDMRは、任意のエンハンスメントアルゴリズムが適用された後、生成される。様々な例では、MIDMRは、コンテンツの三次元モデル及びコンテキストの二次元モデルを含むことができる。しかしながら、幾つかの例では、コンテキストは、コンテキストが純粋には二次元ではないように、円筒面又は他の形状の表面等の表面に沿って投影される風景又は背景の「平面」ビューを表すことができる。更に他の例では、コンテキストは三次元側面を含むことができる。
[0051] 様々な実施形態によれば、MIDMRは、従来の二次元画像又はビデオよりも優れた多くの利点を提供する。これらの利点の幾つかは、移動する風景、移動する取得デバイス、又は両方に対処する能力;三次元でシーンの部分をモデリングする能力;不必要な冗長情報を除去し、出力データセットのメモリフットプリントを低減する能力;コンテンツとコンテキストとを区別する能力;コンテンツとコンテキストとの区別を使用して、ユーザ経験を改善する能力;コンテンツとコンテキストとの区別を使用して、メモリフットプリントを改善する(一例は、コンテンツの高品質圧縮及びコンテキストの低品質圧縮)能力;MIDMRを高度の効率及び正確性で索引付けられるようにする特別な特徴記述子をMIDMRに関連付ける能力;及びユーザがMIDMRと対話し、MIDMRの視点を変更する能力を含む。特定の実施形態例では、上述した特徴は、MIDMR表現に元々組み込むことができ、様々な用途で使用される能力を提供する。例えば、MIDMRは、電子商取引、ビジュアル検索、3Dプリント、ファイル共有、ユーザ対話、及びエンターテイメント等の様々な分野の強化に使用することができる。
[0052] 幾つかの実施形態では、MIDMRモデルは、レンダリングされる実際の三次元モデルではなく、ユーザにより三次元モデルとして経験される三次元ビューである。例えば、MIDMRは、実際の三次元モデルをレンダリング及び/又は記憶せずに、コンテンツの三次元ビューを提供する。換言すれば、ポリゴン生成又は三次元メッシュ及び/又はポリゴンメッシュへのテクスチャマッピングはない。しかしながら、ユーザはそれでもなお、コンテンツ及び/又はコンテキストを実際の三次元モデルとして知覚する。MIDMRによって提供される三次元エフェクトは、単純に実際の二次元画像及び/又はその部分をステッチングすることを通して生成される。本明細書で使用される場合、「三次元モデル」なる用語は、このタイプの三次元ビューと同義で使用される。入力デバイスからのナビゲーション入力を使用して、MIDMRに出力する画像を選択することができる。例えば、ユーザは、モバイルデバイスを傾け、又はタッチスクリーンディスプレイをスワイプして、MIDMRに出力する画像を選択することができる。ナビゲーション入力は、ディスプレイでMIDMRに含まれる対象の見掛けの位置を変える。例えば、対象は、ナビゲーション入力に応答してディスプレイ上で回転するように見えることができる。
[0053] MIDMR手法は、完全3Dモデルから対象をレンダリングすることと異なる。完全3Dモデル手法を用いる場合、ナビゲーション入力を使用して、3Dモデル空間において3Dモデルの位置を調整することができる。次に、ナビゲーション入力に応答して3Dモデル空間における位置が変更する都度、3Dモデルを2D画像に再レンダリングすることができる。この3Dモデル手法は、対象の移動が予め決まっていないため、より多くの遷移を提供する。しかしながら、特に3Dモデルの複雑性が増大するにつれ、3Dモデル手法は計算的に高価である。更に、3Dモデルを生成する必要があり、これには時間がかかり得る。
[0054] MIDMR手法は、3Dモデル空間から2D画像への画像の常時レンダリングを必要としない。更に、MIDMR手法は、3Dモデルの生成を必要としない。したがって、MIDMR手法は、3Dにおける対象の見掛けの動きをより高速且つより計算効率的に表すことができる。
[0055] 様々な実施形態では、MIDMRは、対象を有する画像を含むことができる。MIDMRが出力されると、対象は、1つ又は複数の軸の回りを回転する能力等の見掛けの運動を有するように見えることができる。例えば、MIDMRは、出力時、人物を異なる複数の角度から見ることができるように人物が軸の回りを回転して見える人物の画像を含むことができる。見掛けの回転は、2D画像のみを使用して達成され、複数のポリゴン及び関連するテクスチャを含む3Dモデル等の対象の3Dモデルを必要としない。したがって、対象のテクスチャ化3Dモデルを生成する必要がなく、各回転での3D空間における対象及びそのポリゴンの3Dモデルの位置を特定する必要がなく、対象の3Dモデルが3D空間に位置決めされた後、ディスプレイに出力するために、それをテクスチャ化し、次に2D画像にレンダリングする必要がないため、動作をより計算効率的に実行することができる。MIDMR手法を用いてこられのステップをなくすことにより、従来の3Dモデリング手法と比較して、メモリ要件及びCPU要件は大幅に低減する。
[0056] 加えて、対象の見掛けの運動は、MIDMRから出力される場合、まるで対象の運動が画像品質3Dテクスチャ化モデルから生成されるかのように見える。画像品質3Dテクスチャ化モデルは、時間が掛かり、多くの場合には手動のプロセスにおいて生成される。特に、実際の人物等の対象の画像品質テクスチャ化3Dモデルの生成は、特に対象の「生きているような」レンダリングが望まれる場合、かなり困難であり時間がかかる。
[0057] MIDMR手法では、3Dモデリングステップがないため、ユーザ生成2D画像からのユーザ選択対象をMIDMRに素早く変換することができ、次にディスプレイにリアルタイムで出力することができる。出力中、ユーザは、MIDMR内の対象の見掛けの運動の側面を制御することができる。MIDMRにおける対象は、ユーザ制御のカメラから受信される画像等の実際の画像から生成することができるため、出力されると、対象は生きているように見える。従来の3Dモデリング手法では、画像品質3Dモデルの生成に関連する問題により、この能力は提供されない。
[0058] これより、記載されるシステム及び方法を実行する最良の形態を含む、本開示に記載されるシステム及び方法の幾つかの特定の例を詳細に参照する。これらの特定の実施形態の例は、添付図面に示されている。本開示はこれらの特定の実施形態と併せて説明されるが、本開示を記載される実施形態に限定する意図がないことが理解される。逆に、添付の特許請求の範囲によって規定される本開示の趣旨及び範囲内に含まれ得る代替、変更、及び均等物の包含が意図される。
[0059] 以下の説明において、本開示の完全な理解を提供するために、多くの特定の詳細が記載される。本開示の特定の実施形態は、これらの特定の詳細の幾つか又は全てなしで実施し得る。他の場合、本開示を不必要に曖昧にしないように、周知のプロセス動作については詳細に説明しなかった。
[0060] 本開示の様々な態様は一般に、データの冗長性をなくし、ユーザにインタラクティブ且つ没入的でアクティブな閲覧経験を提示する1つの表現、MIDMRを作製するために、ロケーション情報と一緒に複数の画像とビデオとの空間関係を分析するシステム及び方法に関する。様々な実施形態によれば、アクティブは、画面に表示された視覚情報の視点を制御する能力をユーザに提供することに関して説明されている。特定の実施形態例では、MIDMRデータ構造(及び関連するアルゴリズム)は元々、限定する意図ではないが、ビジュアル検索に関わるアプリケーションに向けて構築されている。
[0061] 図1を参照して、MIDMR取得システム100の一例を示す。本実施形態例では、MIDMR取得システム100は、MIDMRの生成に使用することができるフローシーケンスで示されている。様々な実施形態によれば、MIDMRの生成に使用されるデータは、多種多様なソースからのものであることができる。特に、限定する意図ではないが、二次元(2D)画像104等のデータを使用して、MIDMRを生成することができる。これらの2D画像は、用途に応じて、複数の画像シーケンス、ビデオデータ等のカラー画像データストリーム又は画像の任意の様々なフォーマットの複数の画像を含むことができる。MIDMRの生成に使用することができるデータの別のソースは、ロケーション情報106を含む。このロケーション情報106は、加速度計、ジャイロスコープ、磁力計、GPS、Wi-Fi(登録商標)、IMUのようなシステム(慣性測定ユニットシステム)等のソースから取得することができる。MIDMRの生成に使用することができるデータの更に別のソースは、深度画像108を含むことができる。これらの深度画像は、奥行き、3D、又は視差画像データストリーム等を含むことができ、限定する意図ではないが、立体カメラ、飛行時間カメラ、三次元カメラ等のデバイスによって捕捉することができる。
[0062] 本実施形態例では、次に、データをセンサ融合ブロック110において一緒に融合することができる。幾つかの実施形態では、MIDMRは、いかなる深度画像108も提供されずに、2D画像104及びロケーション情報106の両方を含むデータの組合せから生成することができる。他の実施形態では、深度画像108及びロケーション情報106をセンサ融合ブロック110において一緒に使用することができる。用途及び利用可能なデータに応じて、画像データの様々な組合せを106におけるロケーション情報と共に使用することができる。
[0063] 本実施形態例では、センサ融合ブロック110において一緒に融合されたデータは次に、コンテンツモデリング112及びコンテキストモデリング114に使用される。図4に関してより詳細に説明するように、画像の特徴的な内容は、コンテンツ及びコンテキストに分離することができる。コンテンツは、関心対象として説明することができ、コンテキストは、関心対象の周囲の風景として説明することができる。様々な実施形態によれば、コンテンツは、関心対象を示す三次元モデルであることができるが、図4に関してより詳細に後述するように、コンテンツは、幾つかの実施形態では、二次元画像であることができる。更に、幾つかの実施形態では、コンテキストは、関心対象の周囲の風景を示す二次元モデルであることができる。多くの例では、コンテキストは関心対象の周囲の風景の二次元ビューを提供することができるが、コンテキストは、幾つかの実施形態では、三次元側面を含むこともできる。例えば、コンテキストは、「平面」画像が円筒形の表面に見えるような円筒形「カンバス」に沿った「平面」画像として示すことができる。加えて、幾つかの例は、幾つかの対象が三次元対象として周囲風景において識別される場合等、三次元コンテキストモデルを含み得る。様々な実施形態によれば、コンテンツモデリング112及びコンテキストモデリング114によって提供されるモデルは、図3に関してより詳細に説明するように、画像とロケーション情報データとを結合することによって生成することができる。
[0064] 様々な実施形態によれば、MIDMRのコンテキスト及びコンテンツは、指定された関心対象に基づいて決定される。幾つかの例では、関心対象は、画像及びロケーション情報データの処理に基づいて自動的に選ばれる。例えば、主要な対象が一連の画像において検出される場合、この対象はコンテンツとして選択することができる。他の例では、図1に示されるように、ユーザ指定のターゲット102を選ぶことができる。しかしながら、幾つかの用途では、ユーザ指定のターゲットなしでMIDMRを生成可能なことに留意されたい。
[0065] 本実施形態例では、1つ又は複数のエンハンスメントアルゴリズムをエンハンスメントアルゴリズムブロック116において適用することができる。特定の実施形態例では、MIDMRデータの捕捉中、利用される捕捉モードのタイプに関係なく、様々なアルゴリズムが利用可能である。これらのアルゴリズムを使用して、ユーザ経験を強化することができる。例えば、MIDMRデータの捕捉中、自動フレーム選択、安定化(stabilization)、ビュー補間、フィルタ、及び/又は圧縮を使用することができる。幾つかの例では、これらのエンハンスメントアルゴリズムは、データの取得後、画像データに適用することができる。他の例では、これらのエンハンスメントアルゴリズムは、MIDMRデータの捕捉中、画像データに適用することができる。
[0066] 特定の実施形態例によれば、自動フレーム選択を使用して、より楽しむことができるMIDMRを作製することができる。特に、フレームは、フレーム間の遷移がより平滑であるか、又はより均等であるように自動的に選択される。この自動フレーム選択は、幾つかのアプリケーションにおいて、ブレ及び露出過度の検出、並びにより均等に分布するようなより均一な姿勢のサンプリングを組み込むことができる。
[0067] 幾つかの実施形態例では、ビデオに使用されるものと同様に、安定化をMIDMRに使用することができる。特に、MIDMRにおけるキーフレームを安定化させて、より平滑な遷移、コンテンツへのフォーカスの改善/強化等の改善を生み出すことができる。しかしながら、ビデオと異なり、MIDMRには、IMU情報、奥行き情報、コンピュータビジョン技法、安定化するエリアの直接選択、顔検出の使用による等の多くの追加の安定化ソースがある。
[0068] 例えば、IMU情報は、安定化に非常に有用であることができる。特に、IMU情報は、画像捕捉中に生じ得るカメラの振動の推定、時に、大まか又はノイズの多い推定を提供する。この推定は、そのようなカメラの振動の影響を除去、相殺、及び/又は低減するのに使用することができる。
[0069] 幾つかの例では、奥行き情報が利用可能な場合、奥行き情報を使用して、MIDMRに安定化を提供することができる。MIDMRにおける関心点は、二次元ではなく三次元であるため、これらの関心点はより拘束され、これらの点の追跡/マッチングは、検索空間が低減するにつれて簡易化される。更に、関心点の記述子は色情報及び奥行き情報の両方を使用することができ、したがって、より弁別的になることができる。加えて、自動又は半自動コンテンツ選択は、奥行き情報をより容易に提供することができる。例えば、ユーザが画像の特定のピクセルを選択する場合、この選択は、ユーザが触れた表面全体の充填に拡張することができる。更に、コンテンツは、奥行きに基づいて前景/背景区別を使用することによって自動的に選択することもできる。様々な例では、コンテンツは、コンテキストが変わる場合であっても、比較的安定/可視のままであることができる。
[0070] 様々な例によれば、コンピュータビジョン技法を使用して、MIDMRに安定化を提供することもできる。例えば、キーポイントを検出し、追跡することができる。しかしながら、動的シーン又は視差を有する静的シーン等の特定のシーンでは、全てを安定化することができる単純なワープは存在しない。したがって、シーンの特定の側面が、安定化についてより大きく注目され、シーンの他の側面がより小さく注目されるトレードオフが存在する。MIDMRは多くの場合、特定の関心対象にフォーカスするため、MIDMRはコンテンツ加重することができ、したがって、幾つかの例では、関心対象が最大に安定化される。
[0071] MIDMRにおける安定化を改善する別の方法は、画面領域の直接選択を含む。例えば、ユーザが画面領域にフォーカスするようにタップし、凸MIDMR(convex MIDMR)を記録する場合、タップされたエリアを最大限に安定化することができる。これにより、安定化アルゴリズムは、特定のエリア又は関心対象にフォーカスすることができる。
[0072] 幾つかの例では、顔検出を使用して、安定化を提供することができる。例えば、前向きカメラを用いて記録する場合、ユーザがシーンにおける関心対象であることが往々にしてある。したがって、顔検出を使用して、その領域についての安定化を加重することができる。顔検出が十分に精密である場合、一般的なキーポイントではなく、顔特徴自体(両目、鼻、口等)を安定化するためのエリアとして使用することができる。
[0073] 様々な例によれば、ビュー補間を使用して、閲覧経験を改善することができる。特に、安定化されたフレーム間の急な「飛び」を回避するために、合成中間ビューをオンザフライでレンダリングすることができる。これは、上述したように、コンテンツ加重キーポイント追跡及びIMU情報により、並びにより密なピクセル−ピクセルマッチングにより通知することができる。奥行き情報が利用可能な場合、ミスマッチピクセルから生じるアーチファクトの数はより少数であり得、それにより、プロセスは簡易化される。上述したように、ビュー補間は、幾つかの実施形態では、MIDMRの捕捉中、適用することができる。他の実施形態では、ビュー補間は、MIDMR生成中、適用することができる。
[0074] 幾つかの例では、MIDMRの捕捉又は生成中、フィルタを使用して、閲覧経験を強化することもできる。多くの人気のある写真共有サービスが、静的二次元画像に適用することができる美的フィルタを提供するのと全く同じように、美的フィルタを単に、周囲画像に適用することができる。しかしながら、MIDMR表現は二次元画像よりも表現的であり、MIDMRでは三次元情報が利用可能であるため、これらのフィルタは、二次元写真では明確ではないエフェクトを含むように拡張することができる。例えば、MIDMRでは、コンテンツが鮮明である間、モーションブラーを背景(すなわち、コンテキスト)に追加することができる。別の例では、ドロップシャドーをMIDMRにおける関心対象に追加することができる。
[0075] 様々な例では、エンハンスメントアルゴリズム116として圧縮を使用することもできる。特に、データのアップロード及びダウンロードのコストを低減することにより、圧縮を使用して、ユーザ経験を強化することができる。MIDMRは空間情報を使用するため、所望の品質のMIDMRを維持しながら、MIDMR用に送信されるデータを典型的なビデオよりもはるかに少なくすることができる。特に、IMU、キーポイント追跡、及びユーザ入力は全て、上述したビュー補間と組み合わせて、MIDMRのアップロード又はダウンロード中、デバイスに転送及びデバイスから転送しなければならないデータ量を低減することができる。例えば、関心対象を適宜識別することができる場合、コンテンツ及びコンテキストに可変圧縮スタイルを選ぶことができる。この可変圧縮スタイルは、幾つかの例では、背景情報(すなわち、コンテキスト)用の低品質解像度及び前景情報(すなわち、コンテンツ)用の高品質解像度を含むことができる。そのような例では、送信されるデータ量は、所望のレベルの品質をコンテンツに維持しながら、コンテキスト品質の幾らかを犠牲にすることによって低減することができる。
[0076] 本実施形態では、MIDMR118は、任意のエンハンスメントアルゴリズムの適合後、生成される。様々な例では、MIDMRは、コンテンツの三次元モデル及びコンテキストの二次元モデルを含むことができる。しかしながら、幾つかの例では、コンテキストは、コンテキストが純粋に二次元ではないように、円筒形又は他の形状の表面等の表面に沿って投影される風景又は背景の「平面」ビューを表すことができる。更に他の例では、コンテキストは三次元側面を含むことができる。
[0077] 様々な実施形態によれば、MIDMRは、従来の二次元画像又はビデオよりも優れた多くの利点を提供する。これらの利点の幾つかは、移動する風景、移動する取得デバイス、又は両方に対処する能力;三次元でシーンの部分をモデリングする能力;不必要な冗長情報を除去し、出力データセットのメモリフットプリントを低減する能力;コンテンツとコンテキストとを区別する能力;コンテンツとコンテキストとの区別を使用して、ユーザ経験を改善する能力;コンテンツとコンテキストとの区別を使用して、メモリフットプリントを改善する(一例は、コンテンツの高品質圧縮及びコンテキストの低品質圧縮)能力;MIDMRを高度の効率及び正確性で索引付けられるようにする特別な特徴記述子をMIDMRに関連付ける能力;及びユーザがMIDMRと対話し、MIDMRの視点を変更する能力を含む。特定の実施形態例では、上述した特徴は、MIDMR表現に元々組み込むことができ、様々な用途で使用される能力を提供する。例えば、MIDMRは、電子商取引、ビジュアル検索、3Dプリント、ファイル共有、ユーザ対話、及びエンターテイメント等の様々な分野の強化に使用することができる。
[0078] 様々な実施形態例によれば、MIDMR118が生成されると、追加の画像データの取得120についてのユーザフィードバックを提供することができる。特に、MIDMRが、コンテンツ又はコンテキストのより正確なモデルを提供するために追加のビューを必要とすると判断される場合、ユーザに、追加のビューを提供するように促し得る。これらの追加のビューがMIDMR取得システム100によって受信されると、これらの追加のビューは、システム100によって処理し、MIDMRに組み込むことができる。
[0079] 図2を参照して、MIDMRを生成する(200)プロセス流れ図の一例を示す。本例では、202において、複数の画像が取得される。様々な実施形態によれば、複数の画像は、二次元(2D)画像又はデータストリームを含むことができる。これらの2D画像は、MIDMRの生成に使用することができるロケーション情報を含むことができる。幾つかの実施形態では、複数の画像は、図1に関しても上述したように、深度画像108を含むことができる。深度画像は、様々な例では、ロケーション情報を含むこともできる。
[0080] 様々な実施形態によれば、202において取得された複数の画像は、様々なソース及び特性を含むことができる。例えば、複数の画像は、複数のユーザから取得することができる。これらの画像は、コンサート等で取得された2D画像又はビデオ等の同じイベントの異なるユーザから、インターネットから収集された画像の集まりであることができる。幾つかの例では、複数の画像は、異なる時間情報を有する画像を含むことができる。特に、同じ関心対象の画像を異なる時間で撮影することができる。例えば、特定の彫像の複数の画像を異なる日時、異なる季節等で取得することができる。他の例では、複数の画像は移動中の対象を表すことができる。例えば、画像は、道路に沿って走行中の車両又は空を移動中の飛行機等の、風景を通って移動中の関心対象を含み得る。他の場合、画像は、踊っている人、走っている人、くるくる回っている人等のこれもまた移動中の関心対象を含み得る。
[0081] 本実施形態例では、204において、複数の画像を融合して、コンテンツ及びコンテキストモデルにする。様々な実施形態によれば、画像の特徴的な内容は、コンテンツ及びコンテキストに分離することができる。コンテンツは、関心対象として説明することができ、コンテキストは、関心対象の周囲の風景として説明することができる。様々な実施形態によれば、コンテンツは、関心対象を示す三次元モデルであることができ、コンテンツは、幾つかの実施形態では、二次元画像であることができる。
[0082] 本実施形態例によれば、206において、1つ又は複数のエンハンスメントアルゴリズムをコンテンツモデル及びコンテキストモデルに適用することができる。これらのアルゴリズムは、ユーザ経験を強化するために使用することができる。例えば、自動フレーム選択、安定化、ビュー補間、フィルタ、及び/又は圧縮等のエンハンスメントアルゴリズムを使用することができる。幾つかの例では、これらのエンハンスメントアルゴリズムは、画像の捕捉中、画像データに適用することができる。他の例では、これらのエンハンスメントアルゴリズムは、データの取得後、画像データに適用することができる。
[0083] 本実施形態では、208において、MIDMRはコンテンツモデル及びコンテキストモデルから生成される。様々な例では、MIDMRは、コンテンツの三次元モデル及びコンテキストの二次元モデルを含むことができる。様々な実施形態によれば、捕捉モード及び画像の視点に応じて、MIDMRモデルは特定の特性を含むことができる。例えば、異なるスタイルのMIDMRの幾つかの例は、局所凹MIDMR(concave MIDMR)、局所凸MIDMR、及び局所平坦MIDMR(flat MIDMR)を含む。しかしながら、MIDMRが、用途に応じてビュー及び特性の組合せを含むことができることに留意されたい。
[0084] 図3を参照して、一緒に融合して、三次元(3D)モデルにし、没入経験を生み出すことができる複数のカメラビューの一例を示す。様々な実施形態によれば、複数の画像を様々な視点から捕捉し、一緒に融合して、MIDMRを提供することができる。本実施形態例では、3台のカメラ312、314、及び316が、関心対象308の近傍のロケーション322、324、及び326のそれぞれに位置決めされる。風景は、対象310等の関心対象308を囲むことができる。各カメラ312、314、及び316からのビュー302、304、及び306は、重複する内容を含む。特に、各ビュー302、304、及び306は、関心対象308、及び対象310の周囲の様々な可視度の風景を含む。例えば、ビュー302は、対象310の周囲のシーンの一部である円柱体の前の関心対象308のビューを含む。ビュー306は円柱体の片側にある関心対象308を示し、ビュー304は、円柱体のいかなるビューも有さず、関心対象を示す。
[0085] 本実施形態例では、様々なビュー302、304、及び316は、それぞれに関連するロケーション322、324、及び326と共にそれぞれ、MIDMRの生成に使用することができる関心対象308についての情報及び周囲コンテキストの豊富なソースを提供する。例えば、一緒に分析される場合、様々なビュー302、304、及び326は、関心対象の異なる側、及び関心対象と風景との関係についての情報を提供する。様々な実施形態によれば、この情報は、関心対象308を解析してコンテンツにし、風景を解析してコンテキストにするのに使用することができる。更に、これもまた図1及び図2に関して上述したように、これらの視点によって生成された画像に様々なアルゴリズムを適用して、MIDMRを見るときに没入型のインタラクティブな経験を生み出すことができる。
[0086] 図4Aは、MIDMRにおけるコンテンツとコンテキストとの分離の一例を示す。本開示の様々な実施形態によれば、MIDMRはシーン400の表現である。図4Aを参照して、シーン400に配置されたユーザ402を示す。ユーザ402は、彫像等の関心対象の画像を捕捉している。ユーザによって捕捉された画像は、MIDMRの生成に使用することができるデジタルビジュアルデータを構成する。
[0087] 本開示の様々な実施形態によれば、MIDMRに含まれるデジタルビジュアルデータは、意味論的及び/又は実際的にコンテンツ404及びコンテキスト406に分離することができる。特定の実施形態によれば、コンテンツ404は関心のある物体、人物、又はシーンを含むことができ、一方、コンテキスト406は、コンテンツ404の周囲のシーンの残りの要素を表す。幾つかの例では、MIDMRは、コンテンツ404を三次元データとして表し、コンテキスト406を二次元パノラマ背景として表し得る。他の例では、MIDMRは、コンテンツ404及びコンテキスト406の両方を二次元パノラマシーンとして表し得る。更に他の例では、コンテンツ404及びコンテキスト406は、三次元構成要素又は側面を含み得る。特定の実施形態では、MIDMRがコンテンツ404及びコンテキスト406を示す方法は、画像の取得に使用される捕捉モードに依存する。
[0088] 限定する意図ではないが、物体、人物、又はそれらの一部のみが可視である場合の、物体、人物、又は物体若しくは人物の一部の記録、大きな平面エリアの記録、及び捕捉されたデータが無限であるように見える(すなわち、カメラに近い被写体がない)シーンの記録等の幾つかの例では、コンテンツ404及びコンテキスト406は同じであり得る。これらの例では、生成されるMIDMRは、パノラマ等の他のタイプのデジタルメディアと同様の幾つかの特性を有し得る。しかしながら、様々な実施形態によれば、MIDMRは、これらの既存のタイプのデジタルメディアと区別される追加の特徴を含む。例えば、MIDMRは移動中のデータを表すことができる。更に、MIDMRは、特定の円柱状、球状、又は並進の運動に限定されない。様々な運動を使用して、カメラ又は他の捕捉デバイスを用いて画像データを捕捉することができる。更に、ステッチングされたパノラマと異なり、MIDMRは同じ対象の様々なサイドを表示することができる。
[0089] MIDMRは、幾つかのアプリケーションでは、コンテンツ及びコンテキストに分離することができるが、他のアプリケーションでは、レイヤに分離することもできる。図4Bを参照して、MIDMRにおける階層化の一例を示す。この例では、階層化MIDMR410は異なるレイヤ418、420、及び422にセグメント化される。各レイヤ418、420、及び422は、物体(又は1組の物体)、人々、動的シーン要素、背景等を含むことができる。更に、これらのレイヤ418、420、及び422のそれぞれに、深度を割り当てることができる。
[0090] 様々な実施形態によれば、異なるレイヤ418、420、及び422は、異なる方法で表示することができる。例えば、異なるフィルタ(例えば、グレースケールフィルタ、ブラーリング等)を幾つかのレイヤに適用し、他のレイヤには適用しないことができる。他の例では、異なるレイヤは互いに対して異なる速度で移動することができ、それにより、ユーザがMIDMRを通してスワイプしたとき、よりよい三次元エフェクトが提供される。同様に、ユーザが視差方向に沿ってスワイプする場合、レイヤは別様に変位されて、よりよい三次元エフェクトを提供することができる。加えて、MIDMRを表示するとき、1つ又は複数のレイヤを省くことができ、それにより、不要な物体等をMIDMRから除去することができる。
[0091] 本例では、ユーザ412は、捕捉デバイス414を保持して示されている。ユーザ412は、捕捉デバイス414を捕捉運動416に沿って移動させる。捕捉された画像がMIDMRの生成に使用されるとき、レイヤ418、420、及び422は奥行きに基づいて分けられる。次に、アプリケーションに応じて、MIDMRにおいてこれらのレイヤは別様に処理又は表示することができる。
[0092] 図4Cを参照して、MIDMRにおいて変更されたレイヤを有するMIDMRを生成するプロセス430の一例を示す。特に、432において、第1のレイヤ及び第2のレイヤを有する第1のMIDMRが得られる。図4Bに関して上述したように、MIDMRは異なるレイヤに分割することができる。本例では、第1のレイヤは第1の奥行きを含み、第2のレイヤは第2の奥行きを含む。
[0093] 次に、434において、第1のレイヤが選択される。様々な例によれば、第1のレイヤを選択することは、第1の奥行き内のデータを選択することを含む。より具体的には、第1の奥行き内のデータを選択することは、第1の奥行き内に配置されたビジュアルデータを選択することを含む。様々な実施形態によれば、第1のレイヤは、物体、人物、動的シーン要素、背景等の特徴を含むことができる。幾つかの例では、第1のレイヤの選択は、ユーザ入力なしで自動的に実行される。他の例では、第1のレイヤの選択は、ユーザによりガイドされる対話を使用して半自動的に実行される。
[0094] 第1のレイヤが選択された後、436において、エフェクトを第1のMIDMR内の第1のレイヤに適用して、変更された第1のレイヤを生成する。一例では、適用されるエフェクトは、ブラーフィルタ、グレースケールフィルタ等のフィルタであることができる。別の例では、適用されるエフェクトは、第2の速度で移動した第2のレイヤに相対して第1の速度で第1のレイヤを移動させることを含むことができる。第1の速度が第2の速度と異なる場合、いくつかの事例では、三次元エフェクトを改善することができる。幾つかのアプリケーションでは、視差エフェクトを生じさせることができ、それにより、三次元エフェクトを生じさせる。
[0095] 次に、438において、変更された第1のレイヤ及び第2のレイヤを含む第2のMIDMRが生成される。上述したように、1つ又は複数のエフェクトを第1のレイヤに適用することは、幾つかのアプリケーションでは、MIDMRの三次元エフェクトを改善することができる。これらのアプリケーションでは、第2のMIDMRは、第1のMIDMRと比較した場合、改善された三次元エフェクトを有することができる。異なる例では、他のエフェクトを適用することができ、他のエフェクトは、第1のMIDMRの様々な側面を強調又は強調抑制して、第2のMIDMRを生成することができる。加えて、幾つかのアプリケーションでは、第2のMIDMRにおいてレイヤを省くことができる。特に、第1のMIDMRが第3のレイヤを含む場合、第2のMIDMRはこの第3のレイヤを省く。一例では、この第3のレイヤは、生成された第2のMIDMRでは「編集で削除」される物体又は人物を含むことができる。別の例では、この第3のレイヤは、背景又は背景要素を含むことができ、生成された第2のMIDMRは、背景又は背景要素を含まない。当然ながら、アプリケーションに応じて、任意の対象又は特徴がこの省かれた第3のレイヤに存在することができる。
[0096] 図5A及び図5Bは、両方ともバックカメラ捕捉スタイルを使用する凹ビュー(concave view)及び凸ビュー(convex view)の例をそれぞれ示す。特に、カメラフォンが使用される場合、これらのビューは、ユーザから離れるほうを向いた、電話の背面にあるカメラを使用する。特定の実施形態では、凹ビュー及び凸ビューは、コンテンツ及びコンテキストがMIDMRにおいていかに示されるかに影響を及ぼすことができる。
[0097] 図5Aを参照して、ユーザが垂直軸508に沿って立っている凹ビュー500の一例を示す。この例では、ユーザはカメラを保持しており、それにより、カメラロケーション502は、画像捕捉中、軸508から出ない。しかしながら、ユーザが軸508を中心として旋回するにつれて、カメラは、ユーザの周囲のシーンのパノラマビューを捕捉し、凹ビューを形成する。この実施形態では、関心対象504及び離れた風景506は全て、画像が捕捉される方法により、同様に見える。この例では、凹ビューにおける全ての物体は無限に見え、したがって、このビューによれば、コンテンツはコンテキストに等しい。
[0098] 図5Bを参照して、ユーザが関心対象524の画像を捕捉する場合、ユーザが位置を変更する凸ビュー520の一例を示す。この例では、ユーザは、関心対象524の周囲を移動し、カメラロケーション528、530、及び532から関心対象の様々なサイドから写真を撮影する。得られた各画像は、関心対象のビュー及び離れた風景526の背景を含む。本例では、関心対象524はコンテンツを表し、離れた風景526は、この凸ビューでのコンテキストを表す。
[0099] 図6A〜図6Eは、MIDMRの様々な捕捉モードの例を示す。様々な運動がMIDMRの捕捉に使用可能であり、いかなる特定のタイプの運動にも制限されないが、3つの一般的なタイプの運動を使用して、MIDMRと併せて説明される特定の特徴又はビューを捕捉することができる。これらの3つのタイプの運動はそれぞれ、局所凹MIDMR、局所凸をMIDMR、及び局所平面MIDMRを生成することができる。幾つかの例では、MIDMRは、同じMIDMR内に様々なタイプの運動を含むことができる。
[0100] 図6Aを参照して、捕捉中の後ろ向き凹MIDMRの一例を示す。様々な実施形態によれば、局所凹MIDMRは、カメラ又は他の捕捉デバイスの視角が発散するものである。一次元では、これは、球体360パノラマ(純粋な回転)を捕捉するのに必要な運動に例えることができるが、運動は、ビューが外側に面する任意の湾曲した掃引運動(sweeping motion)に一般化することができる。本例では、経験は、静止した閲覧者がコンテキスト(おそらくは動的)を見るというものである。
[00101] 本実施形態例では、ユーザ602は後ろ向きカメラ606を使用して、世界600に向かいかつユーザ602から離れるほうに画像を捕捉している。様々な例で説明するように、後ろ向きカメラとは、スマートフォンの背面にあるカメラ等のユーザから離れるほうに面するカメラを有するデバイスを指す。カメラは凹運動608で動かされ、それにより、ビュー604a、604b、及び604cは捕捉エリア609の様々な部分を捕捉する。
[00102] 図6Bを参照して、捕捉中の後ろ向き凸MIDMRの一例を示す。様々な実施形態によれば、局所凸MIDMRは、視角が1つの関心対象に向かって収束するものである。幾つかの例では、局所凸MIDMRは、閲覧者が同じ対象の複数のサイドを見ることができるように、点の周りを回る経験を提供することができる。この対象は、「関心対象」であり得、MIDMRからセグメント化して、コンテンツになることができ、任意の周囲データはセグメント化されて、コンテキストになることができる。従来の技術は、メディア共有ランドスケープにおいてこのタイプの視角を認識することができない。
[00103] 本実施形態例では、ユーザ602は、背面カメラ614を使用して、世界600に向かいかつユーザ602から離れるほうに画像を捕捉している。カメラは凸運動610で動かされ、それにより、ビュー612a、612b、及び612cは捕捉エリア611の様々な部分を捕捉する。上述したように、世界600は、幾つかの例では、関心対象を含むことができ、凸運動610はこの対象の周りを回ることができる。ビュー612a、612b、及び612cは、これらの例では、この対象の様々なサイドのビューを含むことができる。
[00104] 図6Cを参照して、捕捉中の前向き凹MIDMRの一例を示す。様々な例で説明するように、前向きカメラとは、スマートフォンの前にあるカメラ等のユーザに面したカメラを有するデバイスを指す。例えば、前向きカメラは、「セルフィー」(すなわち、ユーザの自画像)の撮影に一般に使用される。
[00105] 本実施形態例では、カメラ620はユーザ602に面している。カメラは凹運動606を辿り、それにより、ビュー618a、618b、及び618cは、角度の意味で互いから発散する。捕捉エリア617は、周縁にユーザを含む凹形を辿る。
[00106] 図6Dを参照して、捕捉中の前向き凸MIDMRの一例を示す。本実施形態例では、カメラ626はユーザ602に面している。カメラは凸運動622を辿り、それにより、ビュー624a、624b、及び624cはユーザ602に向かって収束する。捕捉エリア617は、ユーザ602を囲む凹形を辿る。
[00107] 図6Eを参照して、捕捉中の後ろ向き平面ビューの一例を示す。特定の実施形態例では、局所平面MIDMRは、カメラの回転が並進と比較して小さいものである。局所平面MIDMRでは、視角は概ね平行したままであり、視差エフェクトが優勢である。このタイプのMIDMRでも、「関心対象」があることができるが、その位置は、様々なビューで一定のままではない。従来技術はまた、メディア共有ランドスケープにおいてこのタイプの視角を認識することができない。
[00108] 本実施形態例では、カメラ632は、ユーザ602から離れるほう且つ世界600に向かって面している。カメラは、一般に線形の運動628を辿り、それにより、捕捉エリア629は一般に線を辿る。ビュー630a、630b、及び630cは一般に、平行する視線を有する。複数のビューで見られる対象は、各ビューで異なる背景風景又はシフトした背景風景を有するように見えることができる。加えて、対象のわずかに異なるサイドが異なるビューで可視であり得る。MIDMRにおいて、視差エフェクトを使用して、任意の1つの静的画像よりも多くの情報を提供する、対象の位置及び特性についての情報を生成することができる。
[00109] 上述したように、様々なモードを使用して、MIDMRの画像を捕捉することができる。局所凹運動、局所凸運動、及び局所線形運動を含め、これらのモードは、別個の画像の捕捉中又はシーンの連続記録中、使用することができる。そのような記録は、1つのセッション中、一連の画像を捕捉することができる。
[00110] 本開示の様々な実施形態によれば、MIDMRは、多くの方法で取得されたデータから生成することができる。図7Aは、MIDMRの生成に使用することができるデータを記録するプロセスの一例を示す。この例では、データは、空間を通してカメラを動かすことによって取得される。特に、ユーザは、捕捉デバイス700の録画ボタン702をタップして、記録を開始する。捕捉デバイスの移動716が一般に左向きの方向に辿るにつれて、対象714は、対象の移動716によって示されるように、画面を横切って一般に右向きの運動で移動する。特に、ユーザは、ビュー708において録画ボタン702を押下し、次に、ビュー710において捕捉デバイスを左に動かす。捕捉デバイスが左に移動するにつれて、対象714はビュー710と712との間で右に移動するように見える。幾つかの例では、ユーザが記録を終える場合、録画ボタン702を再びタップすることができる。他の例では、ユーザは、録画ボタンをタップし、記録中、録画ボタンを保持し、解放して録画を停止することができる。本実施形態では、記録は、MIDMRの生成に使用することができる一連の画像を捕捉する。
[00111] 様々な実施形態によれば、捕捉プロセスで使用される移動のタイプに応じて、異なるタイプのパノラマをMIDMRにおいて捕捉することができる。特に、捕捉されたデータに基づいて、動的パノラマ、対象パノラマ、及びセルフィーパノラマを生成することができる。幾つかの実施形態では、捕捉されたデータは、図7Aに関して説明したように記録することができる。
[00112] 図7B〜図7Fは、MIDMRを用いて作製することができる動的パノラマに関連する例を示す。特に図7Bを参照して、動的パノラマ捕捉プロセス720の一例を示す。本例では、ユーザ722は、捕捉運動726に沿って捕捉デバイス724を移動する。この捕捉運動726は、捕捉デバイス724を回転、揺り動かす、並進させる等を含むことができる。この捕捉プロセス中、シーン728のパノラマが生成され、シーン内の動的コンテンツが保持される。例えば、移動対象は、動的コンテンツとしてパノラマ内に保持される。
[00113] 図7Cを参照して、捕捉デバイス732が回転軸734を通して回転する、動的パノラマ捕捉プロセス730の特定の例を示す。特に、捕捉デバイス732は、回転軸734に沿って中心の回りを回転する。この純粋な回転は、シーン736のパノラマを捕捉する。様々な例によれば、このタイプのパノラマは、特定の時点でのシーンにおけるエンティティを捕捉する「平面」シーンを提供することができる。この「平面」シーンは、二次元画像であってもよく、又は円柱体、表面等に投影された画像であってもよい。
[00114] 図7Dを参照して、動的コンテンツ744を有する動的パノラマ740の一例を示す。図7B及び図7Cに関して上述したように、パノラマが捕捉されると、動的パノラマ740はユーザによってナビゲートすることができる。本例では、ユーザが動的パノラマ740を通してナビゲートする際、動的コンテンツ744はアニメーション化される。例えば、ユーザがシーン742を横切ってスワイプするにつれて、動的コンテンツ744は、シーン742に関して移動しているように見えることができる。
[00115] 図7Eを参照して、3Dエフェクトを有する動的パノラマを捕捉する一例を示す。本例では、捕捉デバイスが厳密にカメラの中心の回りを回転する(図7Cのように)わけではない場合、ユーザが動的コンテンツを通してナビゲートする間、パノラマの異なる部分を異なる速度で移動させることによって3Dエフェクトを取得することができる。捕捉デバイスがカメラ中心の回りで回転(図7Cのように)しない場合、付近の人物又は対象750は標準パノラマ捕捉プロセスにおいてアーチファクトを生み出すが、これらの「不完全性」を使用して、動的パノラマを通してスワイプ/ナビゲートする際、異なる速度で対象750を移動させることにより、ユーザに対して3Dの印象を生み出すことができる。特に、示される捕捉デバイス745は、離れたシーン746及び付近の人物/対象750を捕捉する捕捉運動748を使用する。様々な実施形態によれば、付近の人物/対象750の移動は、MIDMR内の3D運動として捕捉することができ、一方、離れた風景746は、ユーザがMIDMRを通してナビゲートする際、静的に見える。
[00116] 図7Fを参照して、視差エフェクトを有する動的パノラマ750の一例を示す。三次元エフェクトは、パノラマ方向752に直交してスワイプする際、視差エフェクトを適用することによって提示することができる。特に、視差方向754に沿ってパノラマ方向に直交してスワイプする際、付近の対象は視差方向754に沿って変位し、一方、離れたシーンは静止したままであるか、又は付近の対象よりも動きが小さい。
[00117] 図7G〜図7Jは、MIDMRを用いて作製することができる対象パノラマに関連する例を示す。図7Gを参照して、対象パノラマ捕捉プロセスの一例を示す。特に、捕捉デバイス766は、捕捉運動760に沿って対象762の周囲を移動する。捕捉デバイス766の特定の一例は、スマートフォンである。捕捉デバイス766は、対象762の様々なビュー及び角度が捕捉される際も、背景764のパノラマビューを捕捉する。その結果生成されるMIDMRは、対象762のパノラマビューを含む。
[00118] 幾つかの実施形態では、MIDMRは、対象パノラマを背景パノラマに投影することによって作製することができ、その一例を図7Hに示す。特に、この種のパノラマ768は、背景パノラマ770を使用し、前景対象パノラマ772を背景パノラマ770に投影して構築される。幾つかの例では、対象パノラマは、図17A及び図17Bに関してより詳細に説明されるように、MIDMRからとられたセグメント化コンテンツであることができる。
[00119] 様々な実施形態によれば、複数の対象が対象パノラマを構成することができる。図7Iを参照して、対象パノラマを構成する対象グループ780の捕捉プロセスの一例を示す。示されるように、捕捉デバイス776は、前景対象の周囲を移動することができ、前景対象は、捕捉デバイスに対して同様の距離にある1つの対象又は対象グループ780であることができる。捕捉デバイス776は、対象の様々なビュー及び角度が捕捉されるように、捕捉運動778に沿って対象又は対象グループ780の周囲を移動することができる。その結果生成されるMIDMRは、コンテキストとして離れた背景782を有する対象グループ780の対象パノラマを含むことができる。
[00120] 様々な例によれば、対象パノラマにより、ユーザは、対象の周囲をナビゲートすることができる。図7Jを参照して、ユーザナビゲーションに基づいて対象パノラマの視角を変更する一例を示す。この例では、MIDMRパノラマ784の3つのビューが示される。MIDMRパノラマでは、前景対象786は背景パノラマ788の前に示される。ユーザが、MIDMRをスワイプ又は他の方法でMIDMRと対話することにより、パノラマをナビゲートするにつれて、対象のロケーション、対象の視角、又は両方を変更することができる。本例では、ユーザは、パノラマ主軸の方向にスワイプすることができる。このナビゲーションは、このビューにおいて前景対象786を回転することができる。幾つかの例では、離れた背景パノラマ788は、前景対象パノラマが回転又は他の方法で移動する際、変化しない。
[00121] 様々な実施形態によれば、対象パノラマは視差エフェクトを含むこともできる。これらの視差エフェクトは、パノラマ主軸の方向に直交してスワイプ/ナビゲートする際、見ることができる。図7Fと同様に、パノラマ方向に直交してスワイプする際、三次元エフェクトを提示することができる。特に、視差方向に沿って、パノラマ方向に直交してスワイプする際、付近の対象は、視差方向に沿って変位し、一方、離れたシーンは静止したままであるか、又は付近の対象よりも移動が小さい。
[00122] 前の例は対象パノラマにおける静的コンテンツ及び背景コンテキストに関するが、前景対象及び背景コンテキストとの一方又は両方について、動的コンテンツを対象パノラマにおいて統合することができる。例えば、動的コンテンツは、図7Dと併せて説明したのと同様に特色づけることができる。同様に、動的コンテンツは対象パノラマに含めることもできる。
[00123] MIDMRに含めることができる別のタイプのパノラマは、セルフィーパノラマである。幾つかの例では、セルフィーパノラマは、図17A及び図17Bに関してより詳細に説明されるように、MIDMRからとられたセグメント化コンテンツであることができる。図7K〜図7Lは、MIDMRを用いて作製することができるセルフィーパノラマに関連する例を示す。図7Kを参照して、セルフィーパノラマ捕捉プロセス790の一例を示す。特に、ユーザ794は、ユーザ794の画像を捕捉しながら、捕捉運動796に沿って捕捉デバイス792を動かす。幾つかの例では、捕捉デバイス792は、スマートフォンに含まれる等の前向きカメラを使用することができる。他の例では、デジタルカメラ又は他の録画デバイスを使用することができる。セルフィーパノラマはこれらの画像を用いて作製され、背景798はコンテキストを提供する。
[00124] 図7Lを参照して、セルフィーパノラマが投影された背景パノラマの一例を示す。本例では、MIDMRパノラマ723は、背景パノラマ725から構築され、セルフィーパノラマ721がそれに投影される。様々な例によれば、セルフィーパノラマは、図7Iと併せて説明した対象又は対象グループと同様に、1人の人物又は複数の人々を含むことができる。本例では、セルフィーパノラマは動的コンテンツを含むことができる。例えば、ユーザは、捕捉デバイスが移動する際、捕捉デバイスを見ることができ、又はユーザは、捕捉デバイスが移動する間、静止したままでいることができる。セルフィーパノラマ721が記録されている間、ユーザの移動を捕捉することができる。これらの動的要素は、パノラマにマッピングされ、その結果生成されたセルフィーパノラマ721と対話する間、表示することができる。例えば、ユーザの瞬きを記録し捕捉することができる。セルフィーパノラマのナビゲーションは、図7Jと併せて説明したのと同様に行うことができる。特に、セルフィーパノラマ721における1人又は複数の人物のロケーション及び視点は、ユーザによりパノラマ主軸の方向にスワイプ/ナビゲートすることによって変更することができる。様々な実施形態によれば、セルフィーパノラマ721は視差エフェクトを含むこともできる。これらの視差エフェクトは、パノラマ主軸の方向に直交してスワイプ/ナビゲートする際、見ることができる。加えて、図7Fと同様に、パノラマ方向に直交してスワイプする際、三次元エフェクトを提示することができる。特に、視差方向に沿って、パノラマ方向に直交してスワイプする際、付近の対象は、視差方向に沿って変位し、一方、離れたシーンは静止したままであるか、又は付近の対象よりも移動が小さい。
[00125] 上述したように、MIDMRを用いて様々なタイプのパノラマを作製することができる。加えて、MIDMRは、様々な方法で閲覧しナビゲートすることができる。図7Mを参照して、ユーザナビゲーションに基づいて提供されるパノラマの拡張ビューの一例を示す。本例では、可能なビュー727は、完全パノラマビュー729、記録ビュー731、及び拡張ビュー733を含む。完全パノラマビュー729は、MIDMRにおける完全ビューの情報を含む。記録ビュー731は、画像及び/又は記録で捕捉されるビジュアルデータを含む。拡張ビュー733は、記録ビュー731において一時点中に可視であるものよりも多くを示すが、完全パノラマビュー729未満のものを示す。拡張ビュー733において可視であるパノラマ729の部分は、ユーザナビゲーションによって定義される。拡張ビュー733は、セルフィーパノラマ又は対象パノラマにとって特に興味深いものであり、その理由は、拡張ビューがパノラマにおける対象/人物を辿り、記録中にカメラから見えることができたものよりも大きなビューを示すためである。基本的に、MIDMRのナビゲーション中、拡張ビュー733においてより多くのコンテキストがユーザに提供される。
[00126] 様々な実施形態によれば、一連の画像が捕捉されると、これらの画像を使用して、MIDMRを生成することができる。図8を参照して、三次元コンテンツが二次元パノラマコンテキストとブレンドされるMIDMRの一例を示す。本実施形態例では、捕捉デバイスの移動820は局所凸運動を辿り、それにより、捕捉デバイスは関心対象(すなわち、椅子に座っている人物)の周囲を移動する。関心対象は、コンテンツ808として説明され、周囲の風景(すなわち、部屋)はコンテキスト810として説明される。本実施形態では、捕捉デバイスの移動820がコンテンツ808の周囲を左に移動するにつれて、捕捉デバイス812に対するコンテンツの回転方向は右向きの逆時計回りである。ビュー802、804、及び806は、部屋に対する、椅子に座っている人物の回転の進行を示す。
[00127] 様々な実施形態によれば、MIDMRの生成に使用される一連の画像は、シーン、関心対象等を記録しているユーザによって捕捉することができる。更に、幾つかの例では、複数のユーザが、MIDMRの生成に使用される一連の画像の取得に寄与することができる。図9を参照して、独立した観測者によって同時に記録されている空間−時間MIDMRの一例を示す。
[00128] 本実施形態例では、カメラ904、906、908、910、912、及び914は異なるロケーションに位置決めされる。幾つかの例ではこれらのカメラ904、906、908、910、912、及び914には独立した観測者が関連することができる。例えば、独立した観測者は、コンサート、ショー、イベント等での観客メンバであることができる。他の例では、カメラ904、906、908、910、912、及び914は、三脚、スタンド等に配置することができる。本実施形態では、カメラ904、906、908、910、912、及び914は、関心対象900のビュー904a、906a、908a、910a、912a、及び914aをそれぞれ捕捉するのに使用され、世界902は背景風景を提供する。幾つかの例では、カメラ904、906、908、910、912、及び914によって捕捉された画像は集約し、1つのMIDMRで一緒に使用することができる。カメラ904、906、908、910、912、及び914のそれぞれは、関心対象900に対する異なる観点を提供し、したがって、これらの異なるロケーションからの画像の集約は、関心対象900の異なる視角についての情報を提供する。加えて、カメラ904、906、908、910、912、及び914は、ある時間の広がりにわたり各ロケーションから一連の画像を提供することができ、それにより、これらの一連の画像から生成されるMIDMRは、時間情報を含むことができるとともに、時間の経過に伴う移動を示すこともできる。
[00129] 様々な実施形態に関して上述したように、MIDMRに多種多様な捕捉モードを関連付けることができる。加えて、MIDMRは、同じMIDMRにおいて異なる捕捉モード又は異なる捕捉運動を含むことができる。したがって、MIDMRは、幾つかの例では、より小さな部分に分けることができる。図10を参照して、複雑な周囲ビューをより小さな線形部分に分ける一例を示す。本例では、複雑なMIDMR1000は、カメラ1010の2つの別個の線形運動1022及び1024を含む掃引L運動を辿る捕捉エリア1026を含む。これらの別個の線形運動が関連付けられたMIDMRは、線形MIDMR1002及び線形MIDMR1004に分けることができる。幾つかの実施形態では、線形運動1022及び1024は順次連続して捕捉することができるが、これらの線形運動1022及び1024は、他の実施形態では、別個のセッションで捕捉することもできることに留意されたい。
[00130] 本実施形態例では、線形MIDMR1002及び線形MIDMR1004は、独立して処理し、遷移1006を用いて結合して、ユーザに連続経験を提供することができる。このように運動をより小さな線形成分に分割することにより、様々な利点を提供することができる。例えば、これらのより小さな線形成分を、離散したロード可能部分に分割することは、帯域幅目的でのデータの圧縮に役立つことができる。同様に、非線形MIDMRも離散成分に分けることができる。幾つかの例では、MIDMRは局所捕捉運動に基づいて分割することができる。例えば、複雑な運動は、局所凸部分及び線形部分に分割し得る。別の例では、複雑な運動は別個の局所凸部分に分割することができる。用途に応じて、任意の数の運動が複雑なMIDMR1000に含まれ得、複雑なMIDMR1000を任意の数の別個の部分に分割し得ることを認識されたい。
[00131] 幾つかのアプリケーションでは、複雑なMIDMRを分けることが望ましく、他のアプリケーションでは、複数のMIDMRを結合することが望ましい。図11を参照して、マルチMIDMR1100に結合された複数のMIDMRを含むグラフの一例を示す。この例では、矩形は、様々なMIDMR1102、1104、1106、1108、1110、1112、1114、及び1116を表し、各矩形の長さは、各MIDMRの主要な運動を示す。MIDMR間の線は、MIDMR間で可能な遷移1118、1120、1122、1124、1126、1128、1130、及び1132を示す。
[00132] 幾つかの例では、MIDMRは、非常に効率的にシーンを空間及び時間の両方で区分化する方法を提供することができる。非常に大規模なシーンの場合、マルチMIDMR1100データを使用することができる。特に、マルチMIDMR1100は、空間グラフで一緒に接続されたMIDMRの集まりを含むことができる。個々のMIDMRは、1人のユーザ等の1つのソース又は複数のユーザ等の複数のソースによって集めることができる。加えて、個々のMIDMRは、順次捕捉することができ、並行して捕捉することができ、又は異なる時間に完全に非相関であることができる。しかしながら、個々のMIDMRを接続するために、コンテンツ、コンテキスト、ロケーション、又はこれらの特徴の組合せの重複がなければならない。したがって、任意の2つのMIDMRは、マルチMIDMR1100の一部を提供するために、コンテンツ、コンテキスト、及び/又はロケーションに幾らかの重複を有する必要がある。個々のMIDMRは、この重複を通して互いにリンクし、一緒にステッチングされて、マルチMIDMR1100を形成することができる。様々な例によれば、フロントカメラ、バックカメラ、又はフロント・バックカメラを有する捕捉デバイスの任意の組合せが使用可能である。
[00133] 幾つかの実施形態では、マルチMIDMR1100は、環境全体をより完全に捕捉するように一般化することができる。「フォトツアー」が、離散した空間近傍構成要素のグラフに写真を集めるのとよく似たように、複数のMIDMRを組み合わせて、シーン全体のグラフにすることができる。幾つかの例では、これは、限定する意図ではないが、画像マッチング/追跡、奥行きマッチング/追跡、IMU、ユーザ入力、及び/又はGPSから得られる情報を使用して達成することができる。そのようなグラフ又はマルチMIDMR内で、ユーザは、記録された運動の終点で又はグラフ内で他のMIDMRと重複する場所がどこであれ、その場所で、異なるMIDMR間で切り替えることができる。「フォトツアー」よりも優れたマルチMIDMRの一利点は、ユーザが望むようにMIDMRをナビゲートすることができ、はるかに多くのビジュアル情報をMIDMRに記憶することができることである。これとは対照的に、従来の「フォトツアー」は通常、自動的に又はユーザがコンピュータマウス若しくは打鍵でパノラマを通してパンできるようにすることによって、閲覧者に示すことができるビューに限られている。
[00134] 様々な実施形態によれば、MIDMRは1組の画像から生成される。これらの画像は、アプリケーションに応じて、MIDMRの生成を意図するユーザにより捕捉することができ、又は記憶装置から検索することができる。MIDMRは特定の見え方に関して制限又は拘束されないため、対象又はシーンの異なるビューについてはるかに多くのビジュアル情報を提供することができる。より詳細には、三次元対象を適宜記述するには、1つの視点は曖昧であり得るが、対象の複数のビューはより具体的で詳細な情報を提供することができる。これらの複数のビューは、ビジュアル検索クエリがより正確な検索結果を生成できるようにするのに十分な情報を提供することができる。MIDMRは、対象の多くのサイドからのビューを提供するため、検索に適切な弁別的ビューをMIDMRから選択することができ、又は弁別的ビューがない場合、ユーザに要求することができる。例えば、捕捉又は他の方法で提供されたデータが、十分に高い確度で関心のある対象又はシーンの認識又は生成を可能にするのに十分ではない場合、捕捉システムは、捕捉デバイスを引き続き動かすか、又は追加の画像データを提供するようにユーザをガイドすることができる。特定の実施形態では、MIDMRが、より正確なモデルを生成するために追加のビューを生成する必要があると判断される場合、追加の画像を提供するようにユーザを促し得る。
[00135] 図12を参照して、より正確なMIDMRを提供するために、追加の画像をユーザに促すプロセス1200の一例を示す。本例では、1202において、画像は、捕捉デバイス又は記憶装置から受信される。次に、1204において、提供された画像が、関心対象の認識を可能にするのに十分であるか否かが判断される。画像が、関心対象の認識を可能にするのに十分ではない場合、1206において、異なる視角からの追加の画像を提供するプロンプトがユーザに与えられる。幾つかの例では、異なる視角からの1つ又は複数の追加の画像を提供するようにユーザを促すことは、1つ又は複数の特定の視角を示唆することを含むことができる。幾つかの場合、ユーザが能動的に画像を捕捉する場合、別個の視角が検出されたときにユーザを促すことができる。様々な実施形態によれば、1つ又は複数の特定の視角を提供する示唆は、既に受信した画像に関連するロケーションに基づいて決定することができる。加えて、異なる視角から1つ又は複数の追加の画像を提供するようにユーザを促すことは、アプリケーションに応じて、局所凹MIDMR、局所凸MIDMR、又は局所平面MIDMR等の特定の捕捉モードの使用を示唆することを含むことができる。
[00136] 次に、システムは、1208において、ユーザからこれらの追加の画像を受信する。追加の画像が受信されると、再び、画像が、関心対象の認識を可能にするのに十分であるか否かが判断される。このプロセスは、画像が関心対象の認識を可能にするのに十分であると判断されるまで続く。幾つかの実施形態では、プロセスは、この時点で終了することができ、MIDMRを生成することができる。
[00137] 任意選択的に、画像が関心対象の認識を可能にするのに十分であると判断されると、1210において、画像が、似ているが一致しないアイテムから関心対象を区別するのに十分であるか否かを判断することができる。この判断は、ビジュアル検索を使用する場合、特に有用であることができ、この例について図19〜図22に関してより詳細に後述する。特に、関心対象は、追加のビューを必要とする特定の角度から見ることができる弁別的特徴を有し得る。例えば、人物の肖像写真は、前の角度からしか写真が撮影されない場合、その人物の髪型を十分に示さないことがある。その人物がショートヘアであるか、それとも単に束ねた髪型であるかを判断するために、その人物の後ろの追加の写真を提供する必要があり得る。別の例では、シャツを着た人物の写真は、一方の側が無地であり、追加のビューが、袖又は裏にプリント又は他の印等を示すであろう場合、追加のプロンプトを必要とする。
[00138] 幾つかの例では、画像が、関心対象を、似ているが一致しないアイテムと区別するのに十分ではないと判断することは、一致した検索結果の数が所定の閾値を超えると判断することを含む。特に、多数の検索結果が見つかる場合、検索基準を狭めるために、追加のビューが必要であり得ると判断することができる。例えば、マグカップの検索が、20超といった多数の一致をもたらす場合、検索結果を枝刈りするために、そのマグカップの追加のビューが必要であり得る。
[00139] 1210において、画像が、関心対象を、似ているが一致しないアイテムと区別するのに十分ではない場合、1212において、異なる視角から追加の画像を提供するプロンプトがユーザに与えられる。幾つかの例では、異なる視角から1つ又は複数の追加の画像を提供するようにユーザを促すことは、1つ又は複数の特定の視角を示唆することを含むことができる。幾つかの場合、ユーザが能動的に画像を捕捉している場合、別個の視角が検出されたときにユーザを促すことができる。様々な実施形態によれば、1つ又は複数の特定の視角を提供する示唆は、既に受信した画像に関連するロケーションに基づいて決定することができる。加えて、異なる視角から1つ又は複数の追加の画像を提供するようにユーザを促すことは、アプリケーションに応じて、局所凹MIDMR、局所凸MIDMR、又は局所平面MIDMR等の特定の捕捉モードの使用を示唆することを含むことができる。
[00140] 次に、システムは、1214において、ユーザからこれらの追加の画像を受信する。追加の画像が受信されると、再び、画像が、関心対象を、似ているが一致しないアイテムから区別するのに十分であるか否かが判断される。このプロセスは、画像が、関心対象を、似ているが一致しないアイテムから区別するのに十分であると判断されるまで続く。次に、プロセスは終了し、MIDMRを画像から生成することができる。
[00141] 図13A及び図13Bを参照して、より正確なMIDMRを生成するために、ユーザから追加の画像を要求するプロンプトの例を示す。特に、検索画面を有するデバイス1300が示される。図13Aでは、ビジュアル検索クエリ1302の例が提供される。このビジュアル検索クエリ1302は、白いマグカップの画像を含む。結果1306は、白い背景を有する様々なマグカップを含む。特定の実施形態では、大量の検索結果が見つかる場合、プロンプト1304を提供して、検索クエリのためにユーザに追加の画像データを要求することができる。
[00142] 図13Bでは、図13Aにおけるプロンプト1304に応答した別のビジュアル検索クエリ1310の一例が提供される。このビジュアル検索クエリ1310は、異なる視点の対象を提供し、マグカップのグラフィックスについてより具体的な情報を提供する。このビジュアル検索クエリ1310は、より的を絞った正確な新しい結果1312をもたらす。幾つかの例では、追加のプロンプト1308を提供して、検索が完了したことをユーザに通知することができる。
[00143] MIDMRが生成されると、特定の実施形態では、MIDMRを様々なアプリケーションで使用することができる。MIDMRの一つのアプリケーションは、ユーザがMIDMRをナビゲート又は他の方法で対話できるようにすることを含む。様々な実施形態によれば、MIDMRは、ユーザがMIDMRと対話する際、シーンに物理的に存在する感じをシミュレートするように設計される。この経験は、カメラの視角のみならず、表示中のMIDMRのタイプにも依存する。MIDMRは、全体的に特定の固定されたジオメトリを有する必要はないが、特定の実施形態では、凹MIDMR、凸MIDMR、及び平面MIDMR等のMIDMRの局所セグメントにわたり異なるタイプのジオメトリを表すことができる。
[00144] 特定の実施形態例では、ナビゲーションモードは、MIDMRに表されるジオメトリのタイプによって通知される。例えば、凹MIDMRの場合、デバイス(スマートフォン等)を回転させる動作は、周囲のシーンを見ている静止した観測者を回転させる動作を模倣することができる。幾つかのアプリケーションでは、一方向に画面をスワイプすると、ビューを逆方向に回転させることができる。このエフェクトは、ユーザを中空の円筒体内部に立たせ、円筒体の壁をユーザの周囲で回転するように押すことに類似する。凸MIDMRを用いる他の例では、デバイスを回転させると、関心対象が中心のままであるように、傾く方向にビューを周回させることができる。幾つかのアプリケーションでは、画面を一方向にスワイプすると、視角は同じ方向に回転し、これにより、関心対象がその軸の回りで回転する感覚又はユーザに対象の周囲を回転させる感覚を生み出す。平面ビューを用いる幾つかの例では、デバイスを回転又は移動させると、ビューをデバイスの移動方向に並進させることができる。加えて、画面を一方向にスワイプすると、前景対象をサイドに押すかのように、ビューを逆方向に並進させることができる。
[00145] 幾つかの例では、ユーザは、個々のMIDMRを個々にロードすることができ、必要な場合(例えば、更なるMIDMRが現在のMIDMRに隣接/重複し、及び/又はユーザがそれらの更なるMIDMRに向かってナビゲートする場合)、更なるMIDMRをロードし得るマルチMIDMR又は複数のMIDMRのグラフをナビゲートすることが可能であり得る。ユーザは、2つ以上のMIDMRが重複する、MIDMR内のポイントに達する場合、それらの重複するMIDMRのうち、いずれを辿るかを選択することができる。幾つかの場合、どのMIDMRを辿るかの選択は、ユーザがスワイプする方向又はユーザがデバイスを動かす方向に基づくことができる。
[00146] 図14を参照して、MIDMRをナビゲートするプロセス1400の一例を示す。本例では、1402において、MIDMRにおいて関心対象を見る要求をユーザから受信する。様々な実施形態によれば、要求は、ランドスケープ又はパノラマビューを見る場合等、特定の関心対象なしでMIDMRを見る一般的な要求であることもできる。次に、1404において、対象の三次元モデルにアクセスする。この三次元モデルは、記憶されたMIDMRの全て又は一部を含むことができる。例えば、三次元モデルは、幾つかのアプリケーションでは、セグメント化されたコンテンツビューであることができる。次に、1406において、第1の視点からの初期画像が出力デバイスに送信される。この初期視点は、出力デバイスでMIDMRを見る開始点として機能する。
[00147] 本実施形態では、次に、第2の視点から関心対象を見るユーザの動作が受信される。このユーザの動作は、アプリケーションに応じて、入力デバイスを動かす(例えば、傾ける、並進させる、回転させる等)こと、画面をスワイプする等を含むことができる。例えば、ユーザの動作は、局所凹MIDMR、局所凸MIDMR、又は局所平面MIDMR等に関連する運動に対応することができる。様々な実施形態によれば、対象ビューは、軸の回りでデバイスを回転させることにより、その同じ軸の回りで回転させることができる。例えば、対象ビューは、垂直軸の回りでデバイスを回転させることにより、垂直軸に沿って回転することができる。1410において、ユーザの動作の特徴に基づいて、三次元モデルが処理される。例えば、入力デバイスの移動を検出することができ、関心対象の対応する視点を見つけることができる。アプリケーションに応じて、入力デバイス及び出力デバイスは両方とも、モバイルデバイス等に含めることができる。幾つかの例では、要求された画像は、MIDMRの生成前に捕捉された画像に対応する。他の例では、要求された画像は、三次元モデルに基づいて(例えば、補間等により)生成される。1412において、この視点からの画像を出力デバイスに送信することができる。幾つかの実施形態では、選択された画像は、選択された画像の正確度についての確度と共に出力デバイスに提供することができる。例えば、補間アルゴリズムを使用して、特定の視点から画像を生成する場合、確度は様々であることができ、幾つかのアプリケーションにおいてユーザに提供し得る。他の例では、MIDMRにおける情報が、要求された画像を提供するのに不十分である場合を示すメッセージを、出力デバイスに提供することができる。
[00148] 幾つかの実施形態では、1406における初期画像と1412における要求された画像との間の中間画像を送信することができる。特に、これらの中間画像は、初期画像に関連する第1の視点と、要求された画像に関連する第2の視点との間にある視点に対応することができる。更に、これらの中間画像は、ユーザの動作の特徴に基づいて選択することができる。例えば、中間画像は、中間画像が関心対象のビジュアルナビゲーションを提供するように、ユーザの動作に関連する入力デバイスの移動経路を辿ることができる。
[00149] 図15Aを参照して、MIDMRのスワイプベースのナビゲーションの一例を示す。本例では、ユーザがMIDMRをナビゲートする際のデバイス1500の3つのビューが示される。特に、入力1510は、デバイス1500の画面上のユーザによるスワイプである。ユーザが右から左にスワイプすると、関心対象はスワイプの方向1508に対して移動する。特に、画像1506、1504、及び1502の進行によって示されるように、入力1510により、ユーザは、関心対象(すなわち、サングラスを装着した男性)の周囲を回転することができる。
[00150] 本例では、デバイス画面のスワイプは、仮想ビューの回転に対応することができる。しかしながら、他の実施形態例では、他の入力モードを使用することができる。例えば、MIDMRは、様々な方向にデバイスを傾け、デバイスの方位方向を使用して、MIDMRにおいてナビゲーションをガイドすることにより、ナビゲートすることもできる。別の例では、ナビゲーションは、ユーザによる画面の移動に基づくこともできる。したがって、スワイプ運動により、ユーザは、まるで閲覧者がデバイスを関心対象に向けたかのようにMIDMRの周囲を見ることができる。更に別の例では、ウェブサイトを使用して、ウェブブラウザにおいてMIDMRとの対話を提供することができる。この例では、スワイプ及び/又は運動センサは利用可能でないことあり、マウス又は他のカーソル若しくは入力デバイスと対話することで置換することができる。
[00151] 様々な実施形態によれば、MIDMRは、ナビゲーション中に閲覧可能なタグを含むこともできる。タグは、MIDMR内の対象、人々、製品、又は他のアイテムの識別を提供することができる。特に、MIDMRにおけるタグは、製品をユーザ/顧客に提示し、それらの要素又はアイテムを販売促進する非常に強力なツールである。一例では、タグ1512は、タグ付けされたアイテムのロケーションを辿ることができ、それにより、タグロケーションがなお有効なままである間、アイテムを異なる角度から見ることができる。タグ1512は、タグ付けされた対象の名称(例えば、ユーザ名、製品名等)、説明、ウェブサイト/ウェブショップへのリンク、価格情報、購入の直接オプション、同様の対象のリスト等の様々なタイプのデータを記憶することができる。幾つかの例では、タグは、ユーザがMIDMRにおいてアイテムを選択した場合、可視になることができる。他の例では、タグは自動的に表示することができる。加えて、幾つかの用途では、タグ1512を選択することにより、追加の情報にアクセスすることができる。例えば、ユーザがタグを選択すると、説明、リンク等の追加の情報を画面に表示することができる。
[00152] 幾つかの実施形態では、ユーザは、MIDMRの一視点におけるポイント又は領域のいずれかを選択することにより、タグ1512を作製することができる。次に、このポイント又は領域は、他の視点に自動的に伝播される。代替的には、タグロケーションは、顔検出、物体検出、フォーカスされている対象、前景として識別された対象等の様々な情報に基づいてアプリケーションによりユーザに自動的に示唆することができる。幾つかの例では、物体検出は、既知の物体又は物体タイプ/クラスのデータベースから行うことができる。幾つかの実施形態では、システムは、ユーザが選ぶことができる1組の可能なタグを自動的に生成する。
[00153] 本例では、タグ1512は、MIDMRにおけるシャツを識別する。当然ながら、名称、ブランド等の任意のテキスト又はタイトルを含めることができる。このタグ1512は、選択された任意のビューにおける同じロケーション又はポイントがタグに関連付けられるように、MIDMRにおける特定のロケーションにマッピングすることができる。上述したように、タグ1512は、幾つかの実施形態では、タグをタップ又は他の方法で選択することによりアクセスすることができる追加の情報を含むことができる。タグが図15Aに示されるが、幾つかの例では、MIDMRがタグを含まないこともあることに留意されたい。
[00154] 様々な実施形態では、システムは、様々なMIDMRに共通する対象を自動的にタグ付けすることができる。幾つかの実施形態では、対象は、静止対象又は動的対象であることができる。図15Bは、図7Dに対応し、動的対象744(車)及び静止対象743(木々)を含む第1のMIDMR740Aを示し、図15Bに示されるように、MIDMR740Aは、「車」と記されたタグ744Aも示す。MIDMR740Aは、「木々」と記されたタグ743Aも含む。本明細書に提示される技法によれば、タグ744A及び743Aは、自動的に又はユーザによって作製されることができる。幾つかの実施形態では、タグが自動的に作成された場合、画像認識モジュールは、MIDMR740Aに対応する画像をスキャンする。次に、画像認識モジュールは、検出された対象、この場合、車及び木々を、ローカル(ローカル記憶装置)又はグローバル(インターネット)のいずれかのデータベースと照合する。次に、画像認識モジュールは、検出された物体について最も近いものを見つけ、次に、最も近いものに関連付けられた名称又はタイトルで対象をタグ付けする。図15Bでは、画像認識モジュールは、「木々」対象及び「車」対象を検出し、データベースを通して同様の形状及びパターンを検索し、他の木々及び車との一致を発見し、次に、各対象をそれぞれタグ付けする。他の実施形態では、ユーザは、対象を選択し、タグを用いて対象をラベリングすることによって、対象をタグ付けすることができる。万が一、見つかった類似する対象に、ソーシャルメディア及び埋め込み記述を含め、ローカル又はグローバルに見つけられたテキスト、タイトル、名称、又はタグが関連付けられていない場合、対象のタグを入力するようにユーザを促す。
[00155] 上述したように、対象744は動的対象であり、対象743は静止対象である。図15Cは、対象744及び743の異なるビューを含む第2のMIDMR740Bを示す。対象744は車であるため、車は、MIDMR740A及び740Bを生成した画像の捕捉中、移動中であった。特に、車744はここで、木々743を通過したばかりであった。木々743は静止しているため、MIDMR740Bの右側に木々743を示すことは、MIDMR740Bが、MIDMR740Aに示された視点の左側のどこかのロケーションの視点を示すことを暗示する。ここでも、対象はタグ付けされる。タグは同じラベルであるように見えるが、実際には、図15Bにおけるタグに対応する、新たに生成されたタグである。図15Bと同様に、タグは、自動的に又はユーザにより手動で生成することができる。動的対象744を自動的にタグ付けするに当たり、システムはまず、MIDMR740Bが、MIDMR740Aに示されている形状と共通する形状を含むことを認識する。次に、共通の形状が実際に同じ対象であるとの判断後、システムは、図15Bにおいて使用されたタグに対応するタグを用いて、対象を自動的にタグ付けする。各MIDMRは異なるMIDMRであるため、複数のビューにわたり同じ対象を指す各タグは、厳密に言えば新しいタグである。例えば、ビューは740Aから740Bに変わったため、タグ743Aは、そのロケーションが木々743の右側にあるので、使用することができない。したがって、ユーザに見えるようにするために、新しいタグ743Bが生成され、木々743の左側に提示される。タグ743Bは、タグ743Aと同じ「木々」ラベルに対応し、同じ「木々」ラベルを含む。同様に、タグ744Bも、タグ744Aと同じ「車」ラベルに対応し、同じ「車」ラベルを含む新しいタグである。幾つかの実施形態では、新しいタグ743B及び744B等の新しいタグは、他のMIDMRにおける同様の対象のリストを参照することによって生成される。例えば、タグ「木」又は「車」が他のMIDMRからの対象リスト内の対象であった場合、新しいタグ743B及び744Bは、対象のリストとの最良の一致に基づいて選ばれる。幾つかの実施形態では、「最良の一致」とは、全体ピクセル比較、点追跡比較、又は本開示に記載される他の照合アルゴリズムを使用して生成された結果を指す。そのような実施形態では、タグがリストにない新しい対象である場合、新しいタグ対象は、将来のタグ付けのために対象リストに追加される。
[00156] 静止対象の場合、続けて捕捉された異なる画像における静止対象の配置は比較的同じであるため、自動タグ付けははるかに容易である。図15B及び図15Cにおける木々743はかなり異なるロケーションにあるが、この違いは例示を目的として強調されている。実際には、カメラは、2つの直接連続した写真における同じ静止対象が最小のロケーション変化を有するのに十分に高速のスナップショットレートで画像を捕捉している。したがって、2つの連続する画像が、同じ対象であるように見えるが、2つの劇的に異なるロケーションにあるものを有する場合、システムは、それらの2つの対象が異なる対象であると仮定することができ、これは、第1の画像におけるタグがもはや、第2の画像におけるタグに対応しないことを意味する。十分に異なるものとして何が寄与するかを判断するに当たり、撮影された各画像のタイムスタンプ間の経過時間が測定される。加えて、幾つかの実施形態では、カメラの移動及び移動速度も考慮される。そのような要素を考慮した後、位置変化でのデルタの値が計算され、閾値と比較される。スナップショット間の時間並びにカメラの移動速度及び移動方向を所与として、第2の画像と第1の画像とにおける対象のロケーション差が所定の閾値未満である場合、対象は同じ対象と見なされ、第1のタグに対応するタグを自動的に生成することができる。差が閾値を超える場合、対象は全く異なる対象であると見なされ、新しいタグを生成するプロセスが新しい対象に対して繰り返される。
[00157] 移動/動的対象の場合、自動タグ付けは、移動対象の速度に応じてやや複雑である。幾つかの実施形態では、ある画像の対象が連続画像の対象と実際に同じ対象であるか否かを判断する際、対象の速度を考慮する必要がある。幾つかの実施形態では、同様の対象も移動可能であるか否かについて対象を分析する。そのような比較は、既存の既知の移動可能対象に対して行うことができる。例えば、対象が特定の対象としてタグ付けされる場合、検索を実行して、対象が移動可能であることができるか否かを調べる。車の場合、システムはデータベースを検索して、車が実際に移動可能であると判断する。対象が木である場合、システムはデータベースを検索して、木々が移動可能ではないと判断する。幾つかの実施形態では、タグに、対象が動的であるか否かを示すマーカが関連付けられる。幾つかの実施形態では、連続する画像にわたる動的物体のロケーション差の閾値は、はるかに大きい。幾つかの実施形態では、連続する画像にわたる動的物体のロケーション差の値は、動的対象の速度及びカメラ(もしあれば)の移動によって正規化される。例えば、車が2フィート/秒で走行中であり、カメラが静止している場合、1秒のスナップショット間のロケーション差の値は、2フィートで除算される。正規化後、対象は静止対象として扱われ、許容可能なロケーション差の通常の静止対象閾値と比較される。
[00158] 幾つかの実施形態では、タグ744A及び743Aは、MIDMR内の対象を識別しラベリングするようにトレーニングされたタグ付けニューラルネットワークにより自動的に作製することができる。幾つかの実施形態では、本明細書に記載されるニューラルネットワークシステムは、畳み込みニューラルネットワークである。幾つかの実施形態では、ニューラルネットワークは複数の計算レイヤを含み得る。
[00159] 幾つかの実施形態では、ニューラルネットワークは、MIDMR740Aに対応する画像における各ピクセルをラベリングするようにトレーニングされる。ニューラルネットワークは、特定のカテゴリラベル(例えば、人物、車、空等)を用いて画像におけるあらゆるピクセルをラベリングするようにトレーニングされる。そのようなトレーニングは、トレーニング画像及び対応するラベルマップを含むトレーニング対を入力することによって行い得る。トレーニング画像は、三次テンソル等のテンソルとしてニューラルネットワークに入力されて、ラベリングのためにニューラルネットワークの様々なレイヤを通して処理し得る。幾つかの実施形態では、ニューラルネットワークは、元の画像サイズからのダウンサンプリングをもたらす特徴マップ内の、異なるレイヤからの出力の集約によってトレーニングされる。次に、結果はそのトレーニング画像に対応する所定のラベルマップと比較し得る。次に、ニューラルネットワークのパラメータを更新し得る。幾つかの実施形態では、パラメータは、確率的勾配降下法を使用して更新される。
[00160] ニューラルネットワークが十分にトレーニングされると、新しい画像シーケンスでのピクセルのラベリングに使用し得る。そのような画像シーケンスは、MIDMRに対応する画像フレームであり得る。他の実施形態では、画像は、カメラによって捕捉された未処理画像であり得る。
[00161] 幾つかの実施形態では、次に、ニューラルネットワークによって画像の特徴マップを生成する。幾つかの実施形態では、ニューラルネットワークは、k個の対象クラス(例えば、人物、車、空等)についてトレーニングされて、k個のチャネルを有する特徴マップを生成し得、ここで、チャネル「j」は、各ピクセルが対象クラス「j」である確率を表す。様々な実施形態では、対象クラスは、限定する意図ではないが、以下の対象クラスを含み得る:建物、芝生、木、牛、羊、空、飛行機、水、顔、車、自転車、花、サイン、鳥、本、椅子、道路、猫、犬、体、及びボート。ニューラルネットワークのトレーニングを参照して上述したように、ニューラルネットワークは、元の画像サイズからのダウンサンプリングをもたらす特徴マップ内の、異なるレイヤからの出力の集約によってトレーニングされる。ニューラルネットワークの異なるレイヤからの特徴マップを集約することの利点は、これらの確率マップの生成に、細かい尺度の細部及び粗い尺度の細部の両方の使用が可能なことである。例えば、下位レイヤのみ又は上位レイヤのみを使用して、最適ではない出力を生成する。
[00162] 幾つかの実施形態では、関心クラスの確率マップを生成し得る。幾つかの実施形態では、関心対象クラス(例えば、人物)の確率マップを得るために、人物対象クラスに対応する特徴マップが抽出される。次に、低い確率を有するピクセルは除去される。例えば、「人物」対象クラスが他の全てのクラスの中で最も確からしいものではないピクセルは除去される。幾つかの実施形態では、閾値確率を予め決定又はユーザにより設定し得る。幾つかの実施形態では、確率の低いピクセルは、除去されないが、代わりにラベリングされる。所望の対象クラスに対応するピクセルもラベリングし得る。幾つかの実施形態では、次に、確率値は0と1との間で再正規化し得る。
[00163] 幾つかの実施形態では、タグ744A及び743Aは、ユーザに作製されることと組み合わせて、MIDMR内の対象を識別、タグ付け、ラベリングするようにトレーニングされたニューラルネットワークによって自動的に作製することができる。
[00164] 幾つかの実施形態では、RANSAC(ランダムサンプルコンセンサス)アルゴリズムを実施して、2つのMIDMR内の2つの対象間の変換を特定し得る。図15B及び図15Cに記載される例では、MIDMR740A及び740Bにおける対象743及び744の変換がそれぞれ計算されて、MIDMR740A及び740Bにおける対象743及び744が同じ対象であるとそれぞれ判断する場合、MIDMR740Bにおける対象743及び744に対して、タグ743B及び744Bが自動的に生成される。本明細書に記載されるように、変換は、第1のビューから第2のビューに追跡されるキーポイントから計算し得る。キーポイントの様々な組合せから収集される様々な異なるパラメータから、様々な変換を計算し得る。まず、第1のビューにおけるキーポイント及び第2のビューにおける対応するキーポイントが識別される。幾つかの実施形態では、第1のビューは、第2のビューにおける画像の前に捕捉された画像を含む。他の実施形態では、第1のビューは、第2のビューにおける画像の後に捕捉された画像を含み得る。様々な実施形態では、キーポイントは、ハリス式コーナー検出器アルゴリズム又は他のキーポイント検出方法を使用して識別し得る。他の実施形態では、モラヴェッツコーナー検出アルゴリズム、フォルストナーコーナー検出器等の様々な他のコーナー検出アルゴリズムを実施し得る。そのようなコーナー検出アルゴリズムを実施して、コントラストの大きなエリア、様々な次元での曖昧性が最小のエリア、及び/又はコーナーらしさ(cornerness)が高いエリア等の各ビューにおけるキーポイントとして指定される特徴を検出し得る。次に、最高のハリススコアを有する所定数のキーポイントを選択し得る。例えば、第1のビューにおいて、1,000個のキーポイントを識別し、選択し得る。次に、カナデ・ルーカス・トマシ(KLT)特徴トラッカーを使用して、2つの画像ビュー間でキーポイントを追跡して、第2のビューにおける対応する1,000個のキーポイントを識別することができる。
[00165] 次に、第1のビューにおける2つのキーポイント及び第2のビューにおける対応するキーポイントが選択される。幾つかの実施形態では、第1のビューにおける2つのキーポイントは、RANSACアルゴリズムによってランダムに選択し得る。第2のビューにおける2つの対応するキーポイントは、KLT特徴トラッカーによって識別し得る。幾つかの実施形態では、2つのキーポイントは、第2のビューにおいてランダムに選択し得、第1のビューにおける対応するキーポイントが識別される。対応するキーポイントの各対は、本明細書では、対応対と呼ばれ得る。例えば、ビューNにおけるキーポイントA及びビューN+1におけるキーポイントA’は、KLT特徴追跡を介して互いに対応し、対(A,A’)を構成し得る。ビューNにおけるキーポイントB及びビューN+1におけるキーポイントB’を含む第2の対応対(B,B’)を選択し得る。
[00166] 次に、2つのキーポイント対応対に基づいて、第1のビューと第2のビューとの間の変換が特定される。幾つかの実施形態では、2つのキーポイント対応対の組を使用して、変換を特定する。換言すれば、所定のアルゴリズムを使用して、2つの対応するキーポイント対から、第1のビューと第2のビューとの間の変換T1を計算し得る。所定のアルゴリズムによって対応するキーポイント間の変換を計算するために、様々なパラメータを使用し得る。一実施形態例では、x及びy並進、2D回転、及び2Dスケーリングを含む類似性2Dパラメータを使用して、並進を特定し得る。使用し得る他のパラメータは、2D並進(x及びy並進)、2Dデカルトパラメータ(2D回転及びx、y並進)、アフィン、ホモグラフィ等を含む。別の例として、M.Brown、R.Hartley、及びD. Nister、Minimal solutions for panoramic stitching、In proceedings of the International Conference on Computer Vision and Pattern Recognition (CVPR07)、Minneapolis、June 2007において提供される等の数学的モデルを使用し得る。回転及び焦点距離に基づいて変換を計算するために、4つのパラメータが必要である:回転に3つ及び焦点距離に1つ。上記例では、ビュー間で選択された各キーポイントの2つの対応対により、4つの制約を提供することができる。導出される閉形式解は、2つの選択されたキーポイント対応対に基づいて計算される変換である。幾つかの実施形態では、3つ以上のキーポイントがキーポイント対応対に利用される。
[00167] 図15Dを参照して、マルチビューインタラクティブデジタルメディア表現内の動的標的を自動的にタグ付けするプロセスの一例を示す。1522において、背景における対象の第1のマルチビューインタラクティブデジタルメディア表現が取得される。次に、1524において、第1のマルチビューインタラクティブデジタルメディア表現における動的標的は、動的標的を識別する第1のタグを用いてタグ付けされる。次に、1526において、動的対象の第2のマルチビューインタラクティブデジタルメディア表現が生成される。幾つかの例では、第2のマルチビューインタラクティブデジタルメディア表現は、動的対象が第1のロケーションから第2のロケーションに移動したことを示す。1528において、第2のマルチビューインタラクティブデジタルメディア表現における動的対象は自動的に識別され、第2のタグを用いてタグ付けされ、第2のタグは第1のタグに対応する。
[00168] 様々な実施形態によれば、MIDMRは、様々な方法で記憶しアクセスすることができる。加えて、MIDMRは多くのアプリケーションで使用することができる。図16Aを参照して、モバイルデバイス1602及びブラウザ1604上のMIDMRの共有サービスの例を示す。モバイルデバイス1602及びブラウザ1604は、代替的なサムネイル表示1600として示されており、その理由は、アプリケーションに応じていずれかのインターフェースによりMIDMRにアクセスすることができるためである。様々な実施形態によれば、限定する意図ではないが、ギャラリー、フィード、及び/又はウェブサイトを含め、1組のMIDMRをユーザに異なる方法で提示することができる。例えば、サムネイルの集まりをユーザに提示するために、ギャラリーを使用することができる。これらのサムネイルは、ユーザにより又は自動的にMIDMRから選択することができる。幾つかの例では、サムネイルのサイズは、限定する意図ではないが、構造及び含まれるコンテンツのサイズに基づく、自動的に選択されるサイズ;及び/又はMIDMRの人気度等の特性に基づいて様々であることができる。別の例では、インタラクティブサムネイルを使用してMIDMRを提示するために、フィードを使用することができる。
[00169] 本例では、モバイルデバイス1602からのMIDMRサムネイルは、サムネイル1604及びタイトル/ラベル/説明1604を含む。サムネイル1604は、MIDMRからの画像を含むことができる。タイトル/ラベル/説明1604は、タイトル、ファイル名、コンテンツの説明、ラベル、タグ等のMIDMRについての情報を含むことができる。
[00170] 更に、本例では、ブラウザ1604からのMIDMRサムネイルは、サムネイル1606、タイトル/ラベル/説明1608、及び通知1610を含む。サムネイル1606は、MIDMRからの画像を含むことができる。タイトル/ラベル/説明1608は、タイトル、ファイル名、コンテンツの説明、ラベル、タグ等のMIDMRについての情報を含むことができる。加えて、通知1610は、MIDMRについてのコメント、一致するコンテンツについての更新、示唆されたコンテンツ等の情報を含むことができる。モバイルバージョンに示されていないが、幾つかの実施形態では、通知を含むこともできるが、レイアウト及び空間考慮事項のために省くことができる。幾つかの例では、通知は、モバイルデバイス上にMIDMRアプリケーションの一部として提供することができる。
[00171] 図16Bを参照し、モバイルデバイスでのMIDMR関連通知の例を示す。特に、通知の異なるフォーマットを含むデバイス1622の代替の通知画面1620が示される。幾つかの例では、ユーザは、ユーザの好みに応じてこれらの画面間をナビゲートすることができる。
[00172] 本例では、画面1624は、最近のMIDMRからのコンテンツに基づくユーザへの推奨を含む通知1626を含む。特に、推奨は、ユーザが彫像について親和性を有することのアプリケーションによる発見に基づいて、ギリシャへの旅行に関連する。この発見は、幾つかの例では、ユーザの記憶された又は最近閲覧したMIDMRにおいて見つけられたコンテンツから推測することができる。
[00173] 本例では、画面1628は、ユーザが記憶、閲覧等したMIDMRからのコンテンツに基づく通知1630を含む。例えば、1つの通知は、MIDMRモデルで提供されたようなユーザの靴と同様の、付近の小売店で入手可能な一足の靴への推奨である。推奨は、その小売店への地図へのリンクも含む。この推奨は、ユーザが保存した一足の靴のMIDMRに基づくことができる。他の通知は、共通の関心/趣味を共有する別のユーザに接続する推奨である。この例では、推奨は、ユーザの検出された帽子への関心に基づく。これらの推奨は、幾つかの用途では、「プッシュ」通知として自動的に提供することができる。推奨のコンテンツは、ユーザのMIDMR又は閲覧履歴に基づくことができ、幾つかの例では、図19〜図22に関して説明されるものなどのビジュアル検索アルゴリズムを使用することができる。
[00174] 画面1630は、本例では、別の形態の通知1632を示す。異なるアプリケーションへの様々なアイコンが画面1630に特徴付けられる。MIDMRアプリケーションのアイコンは、いくつの通知がユーザを待っているかを示すアイコンに組み込まれた通知1632を含む。様々な実施形態によれば、ユーザがアイコンを選択すると、通知を表示することができ、及び/又はアプリケーションを起動することができる。
[00175] 本開示の様々な実施形態によれば、MIDMRは、静的シーン又は動的シーンから対象をセグメント化又は分離するのに使用することができる。MIDMRは、弁別的な3Dモデリング特性及び画像データから導出される情報を含むため、MIDMRは、セグメント化する独自の機会を提供する。幾つかの例では、関心対象をMIDMRコンテンツとして扱い、シーンの残りの部分をコンテキストとして表現することにより、対象をセグメント化し、別個のエンティティとして扱うことができる。更に、MIDMRコンテキストは、幾つかの場合、セグメント化プロセスの改善に使用することができる。様々な実施形態では、コンテンツは、自動的に又はユーザガイドの対話を使用して半自動的に選ぶことができる。MIDMR対象セグメント化の重要な一用途は、電子商取引での製品ショーケースのコンテキストにおける用途であり、その一例を図17Bに示す。加えて、MIDMRベースの対象セグメント化を使用して、ビジュアル検索アプリケーションのコンテキストにおいて、大きなデータベースで動作することができる人工知能検索アルゴリズムをトレーニングするのに適する対象モデルを生成することができる。
[00176] 図17を参照して、対象セグメント化を提供するプロセス1700の一例を示す。1702において、対象の第1のMIDMRが取得される。次に、1704において、コンテンツが第1のMIDMRから選択される。幾つかの例では、コンテンツは、ユーザ入力なしで自動的に選択される。他の例では、コンテンツは、ユーザガイドの対話を使用して半自動的に選択される。次に、1706において、コンテンツは第1のMIDMRからセグメント化される。幾つかの例では、コンテンツは、複数のカメラ視点からの画像を含む、第1のMIDMRにおいて提供される情報に基づいて、三次元でコンテンツのモデルを再構築することによってセグメント化される。特定の実施形態例では、MIDMRにおいて利用可能な複数のカメラ視点から、関心対象又はその一部を三次元で再構築することにより、繰り返し最適化アルゴリズム(グラフィカルモデル等)に基づくセグメント化アルゴリズムを選択し初期化するメカニズムを効率的に利用することができる。このプロセスは、複数のフレームに対して繰り返すことができ、セグメント化が所望の品質出力に達するまで最適化することができる。加えて、コンテンツのセグメント化は、コンテキストを使用して、コンテンツのパラメータを決定することを含むことができる。
[00177] 本例では、コンテンツが第1のMIDMRからセグメント化されると、コンテンツのない対象又は対象周囲の風景を含む第2のMIDMRが生成される。1708において、この第2のMIDMRが提供される。幾つかの例では、次に、第2のMIDMRはデータベースに記憶することができる。この第2のMIDMRは、様々なアプリケーションで使用することができる。例えば、セグメント化コンテンツは、電子商取引で使用される製品を含む。図17Bに示されるように、セグメント化コンテンツは、様々な視点から製品を示すのに使用することができる。別のアプリケーションは、人工知能トレーニング用の対象モデルとして第2のMIDMRを使用することを含む。更に別のアプリケーションでは、第2のMIDMRは、3Dプリントに使用することができる。このアプリケーションでは、第2のMIDMRからのデータは、3Dプリンタへのデータである。
[00178] 本例は第1のMIDMRからコンテンツをセグメント化することを記載するが、他の例では、コンテキストをセグメント化することもできることに留意されたい。例えば、幾つかの用途では、背景風景をセグメント化し、第2のMIDMRとして提示することができる。特に、コンテキストが別個のインタラクティブモデルに分離されるように、コンテキストは第1のMIDMRから選択することができ、コンテキストは第1のMIDMRからセグメント化することができる。その結果生成されるMIDMRは次に、対象周囲の風景を含むが、対象自体を除外する。セグメント化コンテキストモデルも、様々なアプリケーションで使用することができる。例えば、生成されたMIDMRからのデータは、3Dプリンタに送信することができる。幾つかの例では、これは、平面又は曲面上にパノラマ背景としてプリントすることができる。コンテキストモデルもプリントされる場合、関心対象をパノラマ背景の前に配置して、MIDMRの三次元「写真」又はモデルを生成することができる。別のアプリケーションでは、セグメント化されたコンテキストは、異なる関心対象への背景として使用することができる。代替的には、セグメント化されたコンテンツは、セグメント化された新しいコンテキストに配置することができる。これらの例では、代替のコンテンツ又はコンテキストを提供することにより、関心対象を新しい背景等に配置することができる。例えば、人物のMIDMRを様々な背景コンテキストに配置することができ、あるMIDMRでは海岸に立っている人物を示し、別のMIDMRでは雪の中で立っている人物を示すことができる。
[00179] 図17Bを参照して、異なる角度から見たセグメント化対象の一例を示す。特に、運動靴の回転ビュー1720を示す。対象ビュー1722、1724、1726、1728、及び1730は、様々な角度又は視点からの運動靴を示す。示されるように、対象自体はいかなる背景又はコンテキストもない状態で示される。様々な実施形態によれば、セグメント化された対象のこれらの異なるビューは、MIDMRコンテンツから自動的に取得することができる。これらのタイプの回転ビューの一アプリケーションは、電子商取引において異なる角度からの製品ビューを示すことである。別のアプリケーションは、様々な実施形態によれば、ビジュアル検索におけるものであることができる。
[00180] 様々な実施形態によれば、MIDMRは、様々なソースから得られたデータから生成することができ、多くのアプリケーションで使用することができる。図18を参照して、MIDMR生成に使用することができる様々なソース及びMIDMRと併用可能な様々なアプリケーションの一例を示すブロック図を示す。本例では、MIDMR生成及びアプリケーション1800は、インターネットギャラリー1802、リポジトリ1804、及びユーザ1806等の画像データ1808のソースを含む。特に、リポジトリは、データベース、ハードドライブ、記憶装置等を含むことができる。加えて、ユーザ1806は、スマートフォンでの画像捕捉中等、ユーザから直接取得される画像及び情報を含むことができる。データソースのこれらの特定の例が示されるが、データは他のソースからも同様に取得することができる。この情報は、特定の実施形態では、画像データ1808として収集されて、MIDMR1810を生成することができる。
[00181] 本例では、MIDMR1810は、様々なアプリケーションで使用することができる。示されるように、MIDMRは、電子商取引1812、ビジュアル検索1814、3Dプリント1816、ファイル共有1818、ユーザ対話1820、及びエンターテイメント1822等の用途で使用することができる。当然ながら、このリストは単なる例示であり、MIDMRは、明示的に記されていない他のアプリケーションで使用することもできる。
[00182] セグメント化に関して上述したように、MIDMRは電子商取引1812において使用することができる。例えば、MIDMRを使用して、買い物客は様々な角度から製品を見ることができる。幾つかのアプリケーションでは、買い物客はMIDMRを使用して、サイズ、寸法、及び適合度を判断することさえ可能である。特に、買い物客は、セルフモデルを提供し、製品がモデルに適合するか否かをMIDMRから判断することができる。MIDMRは、図19〜図22に関してより詳細に後述するように、ビジュアル検索1814で使用することもできる。ビジュアル検索アプリケーションの幾つかは、ユーザがビジュアル検索クエリに一致する特定の製品を見つけようとする場合等、電子商取引に関連することもできる。
[00183] セグメント化の別のアプリケーションは、三次元プリント(3Dプリント)1816を含む。三次元プリントは最近、次の10年でのグローバル経済を改善することになる将来の破壊的技術の1つとして認識されている。様々な実施形態によれば、コンテンツはMIDMRから3Dプリントすることができる。加えて、MIDMRにおけるパノラマ背景コンテキストをプリントすることもできる。幾つかの例では、プリントされた背景コンテキストは、3Dプリントフォーマットでメモリを保持したいユーザの場合、最終的な3Dプリント製品を補完することができる。例えば、コンテキストは、3Dコンテンツの背後にある平面として又は任意の他の幾何学的形状(球体、円柱体、U字形等)としてプリントすることができる。
[00184] 図16Aに関して上述したように、MIDMRはユーザアクセスのためにサムネイルビューと共に記憶することができる。このタイプのアプリケーションは、幾つかの例では、ユーザ間のファイル共有1818に使用することができる。例えば、サイトは、現在の写真共有サイトと同様にしてユーザがMIDMRを共有するインフラを含むことができる。ファイル共有1818は、幾つかのアプリケーションでは、ユーザ間で直接実施することもできる。
[00185] これもまた図14及び図15に関して説明したように、ユーザ対話はMIDMRのもう一つのアプリケーションである。特に、ユーザは、各自の喜び又は娯楽のためにMIDMRを通してナビゲートすることができる。この概念をエンターテイメント1822に拡張して、MIDMRは多くの方法で使用することができる。例えば、MIDMRは広告、ビデオ等で使用することができる。
[00186] 上述したように、MIDMRの一アプリケーションはビジュアル検索である。図19、図20、及び図22は、MIDMRを使用したビジュアル検索の例を示す。様々な実施形態によれば、MIDMRの使用は、今日の任意の他のデジタルメディア表現よりも検索結果においてはるかに高い弁別力を提供することができる。特に、MIDMRにおいてコンテンツ及びコンテキストを分離する能力は、ビジュアル検索で使用することができる重要な側面である。
[00187] 2D画像等の既存のデジタルメディアフォーマットは、元々利用可能な十分な弁別的情報を有さないという意味で、索引付けに適さない。その結果、数十億ドルが、既存のデジタルメディアフォーマットからそのような情報を抽出するアルゴリズム及びメカニズムについての研究に費やされている。これは、顔認識等の幾つかの問題には満足のいく結果をもたらしたが、一般に、1つの画像から3D形状を見つけ出す問題は、既存の技術では不適切である。誤検出及び検出漏れのレベルは、画像シーケンス又は2Dビデオを使用することによって低減することができるが、従来利用可能な3D空間再構築方法はなお、適切ではない。
[00188] 様々な実施形態によれば、MIDMRの生成に使用される、ロケーションベースの情報等の追加のデータソースが、視覚的な認識及び検索の能力を改善する有価値情報を提供する。特定の実施形態例では、MIDMRの2つの成分であるコンテキスト及びコンテンツは両方とも、視覚認識プロセスにおいて有意に寄与する。特定の実施形態例では、コンテンツが提供する三次元情報の利用可能性は、クエリ対象又はシーンの一部を認識するために評価しなければならない仮説数を大幅に低減することができる。様々な実施形態によれば、コンテンツの三次元情報は、カテゴリ化(すなわち、対象が属する一般カテゴリを見つけ出すこと)に役立つことができ、二次元テクスチャ情報は、対象の具体例についてより多くを示すことができる。多くの場合、MIDMRにおけるコンテキスト情報は、クエリ対象が存在するシーンのタイプを説明することにより、クエリ対象のカテゴリ化を支援することもできる。
[00189] 特定の関心対象を見つけるのに使用可能な情報を提供することに加えて、MIDMRは元々、「他の対象で何が、形状及び見た目で類似しているか」等の質問への回答にも適する。ウェブ検索クエリに応答して提供される上位N個の最良一致と同様、様々な例では、MIDMRは対象カテゴリ化及び認識アルゴリズムと併用されて、「最も近いもの」を示すことができる。
[00190] MIDMRを使用したビジュアル検索は、様々な方法で使用及び/又は実施することができる。一例では、MIDMRを使用したビジュアル検索は、ロボットの対象認識に使用することができる。別の例では、MIDMRを使用したビジュアル検索は、ソーシャルメディアキュレーションで使用することができる。特に、様々なソーシャルネットワークに掲示されているMIDMRを分析し、対象及びシーンの部分を認識することにより、よりよい「#ハッシュタグインデックス」を自動的に生成することができる。このタイプの情報を生成することにより、フィードをキュレーションすることができ、検索経験を強化することができる。
[00191] MIDMRを使用したビジュアル検索を使用することができる別の例は、「検索及び買い物(Search and Shop)」と呼ぶことができる買い物の状況においてである。特に、このビジュアル検索では、形状及び見た目が同様であるが、付近の他の店では異なる価格で販売されていることがあるアイテムを認識することができる。例えば、図21を参照すると、ビジュアル検索クエリは、購入可能な類似製品をもたらし得る。
[00192] MIDMRを使用したビジュアル検索を使用することができる更に別の例は、「検索及びフィッティング(Search and Fit)」と呼ぶことができる買い物の状況においてである。様々な実施形態によれば、MIDMRコンテンツは三次元であるため、厳密な測定値を抽出することができ、この情報を使用して、MIDMRにおいて表現される特定の対象が特定の状況に適合する(例えば、足に合った靴、部屋に合ったランプ等)か否かを判断することができる。
[00193] 別の場合、MIDMRを使用したビジュアル検索は、よりよいマーケティング推奨エンジンを提供するのに使用することもできる。例えば、様々なユーザにより生成されたMIDMRに見られる対象のタイプを分析することにより、「人々が実際に日常生活で使用するのはどのタイプの製品か」等の質問に自然に、プライベートに、且つ非侵入的に回答することができる。このタイプの情報を収集することは、改善された推奨エンジンを促進し、不要なスパム又はマーケティング広告を低減及び/又は停止し、それにより、大半のユーザの生活品質を上げることができる。図16Bは、本開示の様々な実施形態により推奨を提供することができる一実施態様を示す。
[00194] 図19を参照して、検索クエリが対象のMIDMRを含み、検索されるデータが三次元モデルを含む、対象のビジュアル検索を提供するプロセス1900の一例を示す。1902において、第1のMIDMRを含むビジュアル検索クエリが受信される。次に、1904において、この第1のMIDMRは、記憶されているMIDMRと比較される。幾つかの実施形態では、この比較は、第1のMIDMRにおける対象についての第1の測定情報を抽出し、1つ又は複数の記憶されているMIDMRから抽出された第2の測定情報と比較することを含むことができる。例えば、このタイプの測定情報は、衣服、靴、又はアクセサリー等のアイテムの検索に使用することができる。
[00195] 次に、1906において、任意の記憶されているMIDMRが第1のMIDMRに対応するか否かが判断される。幾つかの例では、この判断は、任意の記憶されているMIDMRの内容が、第1のMIDMRにおける対象と形状が類似するか否かに基づく。他の例では、この判断は、記憶されているMIDMRにおける任意の内容が、第1のMIDMRにおける対象と見た目が類似するか否かに基づく。更に他の例では、この判断は、記憶されているMIDMRにおける任意の内容が、第1のMIDMRに含まれるテクスチャと同様のものを含むか否かに基づく。幾つかの場合、この判断は、記憶されているMIDMRに関連付けられた任意のコンテキストが第1のMIDMRのコンテキストに一致するか否かに基づく。別の例では、この判断は、記憶されているMIDMRに関連付けられた測定情報が、第1のMIDMRに関連付けられた対象に寸法が合うか否かに基づく。当然ながら、これらの任意のベースは、互いと併せて使用することができる。
[00196] この判断がなされると、1908において、一致する結果のランク付きリストが生成される。幾つかの実施形態では、一致する結果のランク付きリストを生成することは、任意の記憶されているMIDMRが、第1の測定情報に関連付けられた対象に寸法的にいかに適合するかを示すことを含む。様々な実施形態によれば、このランク付きリストは、一致する結果のサムネイルを表示することを含むことができる。幾つかの例では、小売店へのリンクをサムネイルと共に含むことができる。更に、幾つかのアプリケーションでは、名称、ブランド、価格、ソース等の一致する結果についての情報を含むことができる。
[00197] 前の例は、MIDMRをビジュアル検索クエリとして使用して、記憶されているMIDMR又は三次元モデルを通して検索することを含むが、現在のインフラはまだ、膨大な二次元画像を含んでいる。例えば、インターネットは、容易にアクセス可能な多くの二次元画像へのアクセスを提供する。したがって、MIDMRを使用して、一致するものを探して、記憶されている二次元画像を通して検索することは、現在の二次元インフラへのMIDMRの有用な適用を提供することができる。
[00198] 図20を参照して、検索クエリが対象のMIDMRを含み、検索されるデータが二次元画像を含む、対象のビジュアル検索を提供するプロセス2000の一例を示す。2002において、第1のMIDMRを含むビジュアル検索クエリが受信される。次に、2004において、対象ビューがMIDMRから選択される。特に、1つ又は複数の二次元画像がMIDMRから選択される。これらの対象ビューは二次元の記憶されている画像と比較されるため、複数のビューを選択することは、一致するものを見つける確率を上げることができる。更に、1つ又は複数の対象ビューをMIDMRから選択することは、対象の弁別的特性の認識を提供する対象ビューを選択することを含むことができる。
[00199] 本例では、次に、2006において、対象ビューは記憶されている画像と比較される。幾つかの実施形態では、記憶されている画像の1つ又は複数を、記憶されているMIDMRから抽出することができる。幾つかの例では、これらの記憶されているMIDMRは、データベースから検索することができる。様々な例では、1つ又は複数の対象ビューを、記憶されている画像と比較することは、MIDMRにおける対象の形状を、記憶されている画像と比較することを含む。他の例では、1つ又は複数の対象ビューを、記憶されている画像と比較することは、MIDMRにおける対象の外観を、記憶されている画像と比較することを含む。更に、1つ又は複数の対象ビューを、記憶されている画像と比較することは、MIDMRにおける対象のテクスチャを、記憶されている画像と比較することを含むことができる。幾つかの実施形態では、1つ又は複数の対象ビューを、記憶されている画像と比較することは、MIDMRにおける対象のコンテキストを、記憶されている画像と比較することを含む。当然ながら、比較の任意のこれらの基準は互いと併せて使用することができる。
[00200] 次に、2008において、任意の記憶されている画像が対象ビューに対応するか否かが判断される。この判断がなされると、2010において、一致する結果のランク付きリストが生成される。様々な実施形態によれば、このランク付きリストは、一致する結果のサムネイルを表示することを含むことができる。幾つかの例では、小売店へのリンクをサムネイルに含めることができる。更に、幾つかのアプリケーションでは、名称、ブランド、価格、ソース等の一致する結果についての情報を含めることができる。
[00201] 図21を参照して、ビジュアル検索プロセス2100の一例を示す。本例では、2102において、画像が取得される。これらの画像は、ユーザにより捕捉されることができ、又は記憶されているファイルから引き出すことができる。次に、様々な実施形態によれば、画像に基づいてMIDMRが生成される。次に、2104において、このMIDMRは、提出されるビジュアル検索クエリとして使用される。この例では、MIDMRは、「データベースにおける他のどの対象がクエリ対象のように見えるか」等の質問への回答に使用することができる。示されるように、MIDMRは、MIDMRのよりよい意味論的情報能力に起因して、他の「クエリのように見える画像」を見つけることから、他の「クエリのように見える対象」を見つけることへ、ビジュアル検索パラダイムをシフトさせるのに役立つことができる。図19及び図20に関して上述したように、MIDMRは次に、記憶されているMIDMR又は画像と比較することができ、2106において、一致する結果のリストを提供することができる。
[00202] ビジュアル検索の前の例は、MIDMRを検索クエリとして使用することを含むが、幾つかの実施形態では、二次元画像の検索クエリを提供するのに有用であることもできる。図22を参照して、対象のビジュアル検索を提供するプロセス2200の一例を示し、この例では、検索クエリは対象の二次元ビューを含み、検索されるデータがMIDMRを含む。2202において、検索する対象の二次元ビューを含むビジュアル検索クエリが受信される。幾つかの例では、二次元ビューは対象MIDMRから得られ、対象MIDMRは対象の三次元モデルを含む。次に、2204において、二次元ビューはMIDMRと比較される。幾つかの例では、二次元ビューは、MIDMRにおける1つ又は複数のコンテンツビューと比較することができる。特に、二次元ビューは、MIDMRから抽出された異なる視角からの1つ又は複数の二次元画像と比較することができる。様々な例によれば、MIDMRから抽出される二次元画像は、コンテンツの弁別的特性の認識を提供する視角に対応する。他の例では、二次元ビューを1つ又は複数のMIDMRと比較することは、二次元ビューを1つ又は複数のコンテンツモデルと比較することを含む。画像又はモデルを比較するために、対象の形状、外観、テクスチャ、及びコンテキストといった様々な基準を使用することができる。当然ながら、これらの任意の比較基準は互いと併せて使用することができる。
[00203] 図23を参照して、本開示の特定の例を実施するのに使用することができるコンピュータシステムの特定の例を示す。例えば、コンピュータシステム2300は、上述した様々な実施形態によりMIDMRを提供するのに使用することができる。特定の実施形態例によれば、本開示の特定の実施形態を実施するのに適するシステム2300は、プロセッサ2301、メモリ2303、アクセラレータ2305、インターフェース2311、及びバス2315(例えば、PCIバス又は他の相互接続ファブリック)を含む。インターフェース2311は、別個の入力インターフェース及び出力インターフェースを含んでもよく、又は両動作をサポートする統合インターフェースであってもよい。適切なソフトウェア又はファームウェアの制御下で動作する場合、プロセッサ2301は、最適化等のタスクを担当する。様々な特別に構成されたデバイスをプロセッサ2301の代わりに又はプロセッサ2301に加えて使用することもできる。完全な実施はカスタムハードウェアで行うこともできる。インターフェース2311は通常、ネットワークを解してデータパケット又はデータセグメントを送受信するように構成される。デバイスがサポートするインターフェースの具体的な例としては、Ethernet(登録商標)インターフェース、フレーム中継インターフェース、ケーブルインターフェース、DSLインターフェース、トークンリングインターフェース等が挙げられる。
[00204] 加えて、高速Ethernetインターフェース、ギガビットEthernetインターフェース、ATMインターフェース、HSSIインターフェース、POSインターフェース、FDDIインターフェース等の様々な超高速インターフェースを提供し得る。一般に、これらのインターフェースは、適切な媒体と通信するのに適切なポートを含み得る。幾つかの場合、独立したプロセッサ及び幾つかの場合、揮発性RAMを含むこともできる。独立したプロセッサは、パケット交換、媒体制御、及び管理のような通信集約的タスクを制御し得る。
[00205] 特定の実施形態例によれば、システム2300は、メモリ2303を使用して、データ及びプログラム命令を記憶し、ローカルサイドキャッシュを維持する。プログラム命令は、例えば、オペレーティングシステム及び/又は1つ又は複数のアプリケーションの動作を制御し得る。1つ又は複数のメモリは、受信したメタデータを記憶し、要求されたメタデータをバッチ処理するように構成することもできる。
[00206] 幾つかの実施形態では、システム2300はグラフィック処理ユニット(GPU)2309を更に含む。上述したように、GPU2309は、各ピクセルを別個のスレッドで処理して、変換を計算し特定するように実施し得る。幾つかの実施形態では、システム2300はアクセラレータ2305を更に含む。様々な実施形態では、アクセラレータ2305は、グラフィックス処理ユニットと別個であり得るレンダリングアクセラレータチップである。アクセラレータ2305は、ピクセルを並列処理して、システム2300の過負荷を回避することにより、全体システム2300の処理を加速化するように構成し得る。例えば、特定の場合、超高精細画像を処理し得、これは、DCI 4K又はUHD−1解像度等の多くのピクセルを含む。そのような場合、過剰なピクセルは、GPU2309等の標準GPUプロセッサで処理することができるよりも多数であり得る。幾つかの実施形態では、アクセラレータ2305は、高システム負荷が予期又は検出される場合のみ、利用し得る。
[00207] 幾つかの実施形態では、アクセラレータ2305は、プロセッサ2301等のCPUとは別個のユニットにおけるハードウェアアクセラレータであり得る。アクセラレータ2305は、共有メモリマルチプロセッサマシンで複数のプロセッサを同時に利用するために、自動並列化機能を可能にし得る。アクセラレータ2305アーキテクチャのコアは、動作が非常に明確に定義される固定機能ユニットと、柔軟性が必要なプログラマブルユニットとを利用するハイブリッド設計であり得る。様々な実施形態では、アクセラレータ2305は、APIにより高い性能及び拡張性、特にOpenGL 2及びDX9を提供するように構成し得る。本明細書に記載されるシステム及び方法は、実際のコンピュータ自体への改善を含め、多くの利点を提供する。マルチビューインタラクティブデジタルメディア表現の生成は、ポリゴン及び/又はテクスチャ化パラメータなしで記憶される。閲覧デバイスでのインタラクティブデジタルメディア表現の異なるビューのナビゲーションでは、従来の手段を通して生成される3Dモデルと比較して、必要とされる処理電力が少ない。処理電力が少ないことは、遅延のないより高速の遷移及びよりスムーズな遷移を意味する。加えて、デバイスが従来の高品質3Dモデルを適宜表示することが困難な、低処理電力及び低計算リソースのローエンドデバイスも、高品質ユーザ経験を維持しながら、マルチビューインタラクティブデジタルメディア表現を表示することが可能である。
[00208] そのような情報及びプログラム命令を利用して、本明細書に記載されるシステム/方法を実施し得るため、本開示は、本明細書に記載される様々な動作を実行するプログラム命令、状態情報等を含む有形の機械可読媒体に関する。機械可読媒体の例としては、ハードディスク、フロッピーディスク、磁気テープ、CD−ROMディスク及びDVD等の光学媒体、光ディスク等の磁気光学媒体、並びに読み取り専用メモリデバイス(ROM)及びプログラマブル読み取り専用メモリデバイス(PROM)等のプログラム命令を記憶し実行するように特に構成されるハードウェアデバイスが挙げられる。プログラム命令の例としては、コンパイラにより生成される等の機械コード、及びインタプリタを使用してコンピュータにより実行し得る、より高水準のコードを含むファイルの両方が挙げられる。
[00209] 構成要素及びプロセスの多くは、便宜上、単数形で上述されているが、本開示の技法の実施に、複数の構成要素及び繰り返されるプロセスを使用することもできることが当業者には理解される。
[00210] 本開示は、本開示の特定の実施形態を参照して特に示され説明されたが、本開示の趣旨又は範囲から逸脱せずに、開示された実施形態の形態及び詳細の変更を行い得ることが当業者には理解される。したがって、本開示は、本開示の真の趣旨及び範囲内にある全ての変形及び均等物を包含するものとして解釈されるものとする。

Claims (20)

  1. 背景における動的対象の第1のマルチビューインタラクティブデジタルメディア表現を取得することと、
    前記動的対象を識別する第1のタグで前記第1のマルチビューインタラクティブデジタルメディア表現における前記動的対象をタグ付けすることと、
    前記動的対象の第2のマルチビューインタラクティブデジタルメディア表現を生成することであって、前記第2のマルチビューインタラクティブデジタルメディア表現は、前記動的対象が第1のロケーションから第2のロケーションに移動したことを示す、生成することと、
    前記第2のマルチビューインタラクティブデジタルメディア表現における前記動的対象を自動的に識別し、前記第1のタグに対応する第2のタグでタグ付けすることと
    を含む、方法。
  2. 前記第1のマルチビューインタラクティブデジタルメディア表現は、前記背景の第1の視角を示す、請求項1に記載の方法。
  3. 前記第2のマルチビューインタラクティブデジタルメディア表現は、前記背景の第2の視角を示す、請求項1に記載の方法。
  4. 前記第2のマルチビューインタラクティブデジタルメディア表現は、前記第1のマルチビューインタラクティブデジタルメディア表現における前記動的対象と異なる角度及び異なるロケーションからの前記動的対象を示す、請求項1に記載の方法。
  5. 前記第1のタグ及び前記第2のタグは、前記動的対象を識別する同じテキスト又はタイトルを含む、請求項1に記載の方法。
  6. 前記第1のタグは、前記第1のマルチビューインタラクティブデジタルメディア表現における第1のロケーションにマッピングされる、請求項1に記載の方法。
  7. 前記第2のタグは、前記動的対象が前記第1のマルチビューインタラクティブデジタルメディア表現から前記第2のマルチビューインタラクティブデジタルメディア表現までどれだけ移動したかに対応する、前記第2のマルチビューインタラクティブデジタルメディア表現における第2のロケーションにマッピングされる、請求項1に記載の方法。
  8. システムであって、
    プロセッサと、
    方法を実行する命令を含むメモリと
    を含み、前記方法は、
    背景における動的対象の第1のマルチビューインタラクティブデジタルメディア表現を取得することと、
    前記動的対象を識別する第1のタグで前記第1のマルチビューインタラクティブデジタルメディア表現における前記動的対象をタグ付けすることと、
    前記動的対象の第2のマルチビューインタラクティブデジタルメディア表現を生成することであって、前記第2のマルチビューインタラクティブデジタルメディア表現は、前記動的対象が第1のロケーションから第2のロケーションに移動したことを示す、生成することと、
    前記第2のマルチビューインタラクティブデジタルメディア表現における前記動的対象を自動的に識別し、前記第1のタグに対応する第2のタグでタグ付けすることと
    を含む、システム。
  9. 前記第1のマルチビューインタラクティブデジタルメディア表現は、前記背景の第1の視角を示す、請求項8に記載のシステム。
  10. 前記第2のマルチビューインタラクティブデジタルメディア表現は、前記背景の第2の視角を示す、請求項8に記載のシステム。
  11. 前記第2のマルチビューインタラクティブデジタルメディア表現は、前記第1のマルチビューインタラクティブデジタルメディア表現における前記動的対象と異なる角度及び異なるロケーションからの前記動的対象を示す、請求項8に記載のシステム。
  12. 前記第1のタグ及び前記第2のタグは、前記動的対象を識別する同じテキスト又はタイトルを含む、請求項8に記載のシステム。
  13. 前記第1のタグは、前記第1のマルチビューインタラクティブデジタルメディア表現における第1のロケーションにマッピングされる、請求項8に記載のシステム。
  14. 前記第2のタグは、前記動的対象が前記第1のマルチビューインタラクティブデジタルメディア表現から前記第2のマルチビューインタラクティブデジタルメディア表現までどれだけ移動したかに対応する、前記第2のマルチビューインタラクティブデジタルメディア表現における第2のロケーションにマッピングされる、請求項8に記載のシステム。
  15. 方法を実行する命令を含む非一時的コンピュータ可読媒体であって、前記方法は、
    背景における動的対象の第1のマルチビューインタラクティブデジタルメディア表現を取得することと、
    前記動的対象を識別する第1のタグで前記第1のマルチビューインタラクティブデジタルメディア表現における前記動的対象をタグ付けすることと、
    前記動的対象の第2のマルチビューインタラクティブデジタルメディア表現を生成することであって、前記第2のマルチビューインタラクティブデジタルメディア表現は、前記動的対象が第1のロケーションから第2のロケーションに移動したことを示す、生成することと、
    前記第2のマルチビューインタラクティブデジタルメディア表現における前記動的対象を自動的に識別し、前記第1のタグに対応する第2のタグでタグ付けすることと
    を含む、非一時的コンピュータ可読媒体。
  16. 前記第1のマルチビューインタラクティブデジタルメディア表現は、前記背景の第1の視角を示す、請求項15に記載の非一時的コンピュータ可読媒体。
  17. 前記第2のマルチビューインタラクティブデジタルメディア表現は、前記背景の第2の視角を示す、請求項15に記載の非一時的コンピュータ可読媒体。
  18. 前記第2のマルチビューインタラクティブデジタルメディア表現は、前記第1のマルチビューインタラクティブデジタルメディア表現における前記動的対象と異なる角度及び異なるロケーションからの前記動的対象を示す、請求項15に記載の非一時的コンピュータ可読媒体。
  19. 前記第1のタグ及び前記第2のタグは、前記動的対象を識別する同じテキスト又はタイトルを含む、請求項15に記載の非一時的コンピュータ可読媒体。
  20. 前記第1のタグは、前記第1のマルチビューインタラクティブデジタルメディア表現における第1のロケーションにマッピングされ、前記第2のタグは、前記動的対象が前記第1のマルチビューインタラクティブデジタルメディア表現から前記第2のマルチビューインタラクティブデジタルメディア表現までどれだけ移動したかに対応する、前記第2のマルチビューインタラクティブデジタルメディア表現における第2のロケーションにマッピングされる、請求項15に記載の非一時的コンピュータ可読媒体。
JP2019510299A 2016-08-19 2017-08-18 動的エンティティのマルチビューインタラクティブデジタルメディア表現における対象の自動タグ付け Active JP7098604B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662377516P 2016-08-19 2016-08-19
US62/377,516 2016-08-19
US15/620,506 US10698558B2 (en) 2015-07-15 2017-06-12 Automatic tagging of objects on a multi-view interactive digital media representation of a dynamic entity
US15/620,506 2017-06-12
PCT/US2017/047684 WO2018035500A1 (en) 2016-08-19 2017-08-18 Automatic tagging of dynamic objects on a multi-view digital representation

Publications (2)

Publication Number Publication Date
JP2019534494A true JP2019534494A (ja) 2019-11-28
JP7098604B2 JP7098604B2 (ja) 2022-07-11

Family

ID=61197139

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019510299A Active JP7098604B2 (ja) 2016-08-19 2017-08-18 動的エンティティのマルチビューインタラクティブデジタルメディア表現における対象の自動タグ付け

Country Status (3)

Country Link
JP (1) JP7098604B2 (ja)
DE (1) DE112017004150T5 (ja)
WO (1) WO2018035500A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10275935B2 (en) 2014-10-31 2019-04-30 Fyusion, Inc. System and method for infinite synthetic image generation from multi-directional structured image array
US10176592B2 (en) 2014-10-31 2019-01-08 Fyusion, Inc. Multi-directional structured image array capture on a 2D graph
US10262426B2 (en) 2014-10-31 2019-04-16 Fyusion, Inc. System and method for infinite smoothing of image sequences
US11006095B2 (en) 2015-07-15 2021-05-11 Fyusion, Inc. Drone based capture of a multi-view interactive digital media
US10852902B2 (en) 2015-07-15 2020-12-01 Fyusion, Inc. Automatic tagging of objects on a multi-view interactive digital media representation of a dynamic entity
US10242474B2 (en) 2015-07-15 2019-03-26 Fyusion, Inc. Artificially rendering images using viewpoint interpolation and extrapolation
US11095869B2 (en) 2015-09-22 2021-08-17 Fyusion, Inc. System and method for generating combined embedded multi-view interactive digital media representations
US10222932B2 (en) 2015-07-15 2019-03-05 Fyusion, Inc. Virtual reality environment based manipulation of multilayered multi-view interactive digital media representations
US10147211B2 (en) 2015-07-15 2018-12-04 Fyusion, Inc. Artificially rendering images using viewpoint interpolation and extrapolation
US11783864B2 (en) 2015-09-22 2023-10-10 Fyusion, Inc. Integration of audio into a multi-view interactive digital media representation
US11202017B2 (en) 2016-10-06 2021-12-14 Fyusion, Inc. Live style transfer on a mobile device
US10437879B2 (en) 2017-01-18 2019-10-08 Fyusion, Inc. Visual search using multi-view interactive digital media representations
US10313651B2 (en) 2017-05-22 2019-06-04 Fyusion, Inc. Snapshots at predefined intervals or angles
US11069147B2 (en) 2017-06-26 2021-07-20 Fyusion, Inc. Modification of multi-view interactive digital media representation
US10592747B2 (en) 2018-04-26 2020-03-17 Fyusion, Inc. Method and apparatus for 3-D auto tagging
CN113470649A (zh) * 2021-08-18 2021-10-01 三星电子(中国)研发中心 语音交互方法及装置
CN114359367B (zh) * 2022-03-15 2022-06-28 深圳市华付信息技术有限公司 数据标注方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011244058A (ja) * 2010-05-14 2011-12-01 Sony Corp 情報処理装置、情報処理システム、及びプログラム
US20130155180A1 (en) * 2011-12-14 2013-06-20 Microsoft Corporation Parallax compensation
WO2015073570A2 (en) * 2013-11-12 2015-05-21 Fyusion, Inc. Analysis and manipulation of objects and layers in surround views

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8803912B1 (en) * 2011-01-18 2014-08-12 Kenneth Peyton Fouts Systems and methods related to an interactive representative reality
US9336240B2 (en) * 2011-07-15 2016-05-10 Apple Inc. Geo-tagging digital images
US9129179B1 (en) * 2012-05-10 2015-09-08 Amazon Technologies, Inc. Image-based object location

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011244058A (ja) * 2010-05-14 2011-12-01 Sony Corp 情報処理装置、情報処理システム、及びプログラム
US20130155180A1 (en) * 2011-12-14 2013-06-20 Microsoft Corporation Parallax compensation
WO2015073570A2 (en) * 2013-11-12 2015-05-21 Fyusion, Inc. Analysis and manipulation of objects and layers in surround views

Also Published As

Publication number Publication date
JP7098604B2 (ja) 2022-07-11
WO2018035500A1 (en) 2018-02-22
DE112017004150T5 (de) 2019-06-13

Similar Documents

Publication Publication Date Title
US11956412B2 (en) Drone based capture of multi-view interactive digital media
US10698558B2 (en) Automatic tagging of objects on a multi-view interactive digital media representation of a dynamic entity
US10521954B2 (en) Analysis and manipulation of panoramic surround views
US11776199B2 (en) Virtual reality environment based manipulation of multi-layered multi-view interactive digital media representations
US10852902B2 (en) Automatic tagging of objects on a multi-view interactive digital media representation of a dynamic entity
JP7098604B2 (ja) 動的エンティティのマルチビューインタラクティブデジタルメディア表現における対象の自動タグ付け
US11095869B2 (en) System and method for generating combined embedded multi-view interactive digital media representations
US10726560B2 (en) Real-time mobile device capture and generation of art-styled AR/VR content
WO2018052665A1 (en) Virtual reality environment based manipulation of multi-layered multi-view interactive digital media representations
US11044464B2 (en) Dynamic content modification of image and video based multi-view interactive digital media representations
US20230217001A1 (en) System and method for generating combined embedded multi-view interactive digital media representations

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190422

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200728

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210720

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20211020

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20211220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220531

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220629

R150 Certificate of patent or registration of utility model

Ref document number: 7098604

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150