JP2014503084A - 3次元形状のファセット上の関連メディアセグメントの対話型の投影および再生 - Google Patents

3次元形状のファセット上の関連メディアセグメントの対話型の投影および再生 Download PDF

Info

Publication number
JP2014503084A
JP2014503084A JP2013521926A JP2013521926A JP2014503084A JP 2014503084 A JP2014503084 A JP 2014503084A JP 2013521926 A JP2013521926 A JP 2013521926A JP 2013521926 A JP2013521926 A JP 2013521926A JP 2014503084 A JP2014503084 A JP 2014503084A
Authority
JP
Japan
Prior art keywords
scene
media
multimedia
shape
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013521926A
Other languages
English (en)
Other versions
JP5739531B2 (ja
Inventor
ファルチュク ベンジャミン
イン ウー チャン
Original Assignee
テルコーディア テクノロジーズ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テルコーディア テクノロジーズ インコーポレイテッド filed Critical テルコーディア テクノロジーズ インコーポレイテッド
Publication of JP2014503084A publication Critical patent/JP2014503084A/ja
Application granted granted Critical
Publication of JP5739531B2 publication Critical patent/JP5739531B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04815Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/048Indexing scheme relating to G06F3/048
    • G06F2203/048023D-info-object: information is displayed on the internal or external surface of a three dimensional manipulable object, e.g. on the faces of a cube that can be rotated by the user

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

装置上で対話型のメディアスキミングおよび検索を行うためのシステムは、装置のスクリーンで見ることができるメディアのマルチメディアセグメントの3Dシーンのモデルを構築するシーンマネージャであって、3Dシーン内のシーンオブジェクトのファセットを使用してマルチメディアソースからの視覚的画像をテクスチャとして動的に伝達し、シーンオブジェクト、オブジェクトファセット、およびマルチメディアセグメント間の探索可能な論理的関係を維持するシーンマネージャを備え、システムはさらに、インタラクションマネージャと、ユーザ情報および嗜好をセキュアに記憶するユーザマネージャと、概略再生または高精細再生を開始する再生コンポーネントと、3Dファセットのためにメディア中のマルチメディアセグメントのセットから2Dテクスチャアーチファクトを作成するテクスチャライザと、画素を変換および変更するトランスフォーマと、キャッシュと、オブジェクト、オブジェクトファセット、仮想カメラ、およびオブジェクトの位置を含む3Dシーンのセットを維持するシーンヒューリスティックとを備える。

Description

本発明は一般にはモバイルおよびデスクトップサービス、対話情報の視覚化、メディアの要約、分析、およびアクセス性に関する。
本発明は、2010年7月27日に出願された米国仮特許出願第61/367,945号の利益を主張し、同出願の全ての内容および開示は参照により全体が本明細書に記載されたものとして本明細書に組み込まれる。
デジタルメディア(マルチメディアとしても知られる)は、動画(例えばショートクリップ、テレビ番組、映画の予告編、長編映画等)、画像(例えば写真、画像、またはヒストグラムなどの画像のパラメータ表現等)、テキスト(例えばデジタル形式の印字された単語や記号(楽譜など))、音楽(楽譜や五線譜の音符など、音声の視覚的表現等)、またはスペクトル写真等であることができる。現在、マルチメディアは大半のウェブサイトの主要部分となっており、それに応じて、メディアの分析、要約およびスキミング(skimming)の重要性が増している。要約は、マルチメディアを要約し、まとめる技術であり、一方、分析は、メディアセグメントおよび情報を考察することにより洞察を得る一般的な技術である。スキミングは、要約を通じて探索するとともに、任意で、コンピュータインタフェース(一般的には視覚的な性質であるが、人間の他の感覚を利用する場合もある)の助けを借りて元のソースを探索する行為である。
デジタルメディアの対話および視覚化技術を追究することは、長きにわたる種々の財産となっている。様々な2次元(2D)技術が、ウェブ、モバイルウェブ、およびデスクトップで広く使用されている。最もよく知られる技術は、情報の2つの次元が、スクロール可能な長い横方向の画像の選択リストなどとして表示されるチャート状の視覚化を含む。第3の次元を持つ(3D)種々のグラフが多次元の情報を捉えるために長く使用されており、現在も広く使用されている。USA Today(登録商標)などの雑誌や新聞で見られるような情報画像(infographic)は、非常に定型化されたシーンに情報を印字して提示して、シーン内に情報の視覚的効果を作り出す。そのような現在の技術はシーンを用いておらず、通常は対話型でなく、複雑なマルチメディアに適用されることはめったにない。
現在、マルチメディア特有の映像の広範囲の探索と分析を支援する、根本的に異なる改良された視覚的対話技術が必要とされている。インターネット映像の格納と送信を伴う実質的に全てのウェブサイトは、線形で限定的な低精度の技術を介して、予め選択されたシーンの一覧を通じて検索する能力しか提供しない。しかし、マルチメディアが複雑になるのに従い、問い合わせは、ユーザが「どこかの場面で電子レンジが燃え上がるのはこのポイントだったかな」と考えるなど、より抽象的になる。そのような抽象的な問い合わせは現在の技術では扱いにくい。
図1に2つのそのような技術を示す。上部には、「ギャラリー」とも呼ばれるシーンのホリゾンタルピッカー(Horizontal Picker)を示しており、これは通例は「再生を開始するシーンを選んで下さい」という情報を伴う。この技術は、例えばユーザが関心を持つシーンをシステムがたまたま事前に選択している場合は有効であるが、事前に選択されたシーンしか候補として提供されないため、スキミングまたは要約技術としては一般には有効でない。図の下部にはホバーオーバー式の再生技術を示しており、ユーザがアイコンの上にマウスを置くと、単にキーフレームが再生を開始し、マウスがアイコンから離れると停止する。再生中には、映像全体の再生、セグメントのみの再生、または早送りバージョンの再生等が可能である。この技術では、ユーザは、大抵の場合、マウスがアイコン上にあるときに再生されるメディアセグメント、例えば映像フレームの特定のサブセットの視聴に制限される。また、再生は大抵の場合非常に粗く、対話型でなく、事前に決められたキーフレームの小さなセットに限定され、ユーザはメディアを有意に、または深く「探索」することができない。さらに、この部類の解決法は線形の解決法であり、より高度な概念的検索を考えるユーザにごく基本的な支援しか提供しない。
モバイルのメディアスキミングもデスクトップの場合と同様に未発達であり、モバイル機器のスクリーンサイズが小さいことにより問題が深刻になる。Sling Media、Joost(登録商標)、Veoh、Flixster(登録商標)、AT&T(登録商標)、およびSprint(登録商標)等の企業による多くのモバイルサービスの中で、リッチな、または有効な映像内スキミングが可能なものはない。上記の大半は、キーワード検索、単純な「テレビガイド」式のインタフェース、および極めて限定された「シーンを選択する」方式のアクションの索引付けを提供する。
球体の表現のみを使用してメディアを視聴するその他の方式では、動的な適合を行うことができず、範囲、フォーカス、および時間に関して球体上のメディア単位の対話型の探索を支援しない。例えば、3次元(「3D」)のゲームの世界にある仮想カメラを調整したり、3Dの仮想オブジェクトにマッピングされてオブジェクトに「スキン」を与えるテクスチャを定義したりするための多くの方式が存在する。例えば、ビデオゲームの方式の1つでは、視覚的に説得力のあるキャラクターを作り出すために、3Dキャラクターにテクスチャマッピングを施す。しかし、この方式は対話型でなく、テクスチャはメディアのセマンティック(semantic)を全く伝えない。ビデオゲームにおける使用例では、テクスチャは通例はリモートサーバから取り込まれるのではなく、同じ場所から一度ローカルに形状として取り込まれる。キャラクター上の箇所は、ユーザの「タッチ」に対して対話型ではない。このような解決法は、本来は有効であるが、対話型の情報主体的な方式は扱わない。
メディアの分析および要約を改良し、その際にエンドユーザが検索語を入力したりその他の形式でテキスト情報を理解したりすることを強制せずに改良することが必要とされる(したがってユーザが読み書きをできなくとも効率的に検索を行うことができる)。この問題は、特に、デジタル技術を使用して、行うのに過度に長い時間がかからず、過度に非直感的でもない迅速なスキミングセッションでメディアの洞察を得ることに関して生じる。2Dも有効であるが、ソフトウェアおよびハードウェアによるグラフィック高速化の向上により、ラップトップ、タブレット、およびスマートフォンを含む実質的に全ての媒体で3D表現(または視覚的「メタファー」)を表示することができる。3Dメタファーを効果的に使用するとスキミング体験を劇的に向上させることができる。その結果問題となるのは、分析を行いメディアの要約を経験しようとするユーザに効果的かつ直感的にスキミングセッションを伝達する3Dメタファーを、どのようにして装置スクリーン上に(装置の種類に関係なく)作り出すかということになる。
メディアスキミングおよび検索を行うための新規の対話型システムおよび方法を提示する。この方法は、静的なライブメディア情報で装飾された3Dシーンおよび形状を備えるユーザインタフェースを生成し、形状自体が対話型の視覚化表面となるようにし、ユーザがリッチコンテンツを直ちに、または全体をロードする必要なしに、基礎となるリッチコンテンツを分析し、理解することを助ける。
本発明の技術は、多くのリッチコンテンツのリソースタイプおよび動画を含むマルチメディアに対して非常に有効である可能性があり、マルチメディアは、テレビおよび動画、YouTube(登録商標)やFlickr(登録商標)等のサイトで見られるようなユーザが生成したあらゆる種類のコンテンツ、画像、写真、GISおよび/または地図データ、電子書籍および図像コンテンツ、楽譜、医療情報、美術画像、踊りの振り付け、連絡先、音楽情報、フローチャートやスペクトル写真等の科学データ等を含む。本明細書では、用語「メディア」および「マルチメディア」を、ユーザがスキミングまたは検索することを望みうる任意の種類の情報に関して使用する。本明細書では、用語「メディアセグメント」(または単に「セグメント」)を、マルチメディアエンティティの小さな部分の意味で使用し、例えば、大きなセットの中の1枚の写真、大きな写真の一部分(例えば右下付近の範囲)、大きな音楽作品の1小節、書籍の1ページ、ページ中の1つの単語、1つの映像全体の中の1つの映像シーン、または1つの映像シーン中の1映像フレーム等である。
本発明の手法は、上述のホバーオーバーや線形「ピッカー」の技術と比べてはるかに洗練されている。本発明の手法では、3Dメタファーと、ユーザのスキミングセッションを制限しないメディアセグメントの開集合とを用い、また、マルチメディア中で非線形の移動を用い、すなわち、当技術分野で知られる線形の(時間に関して高価な)部類の解決法とは逆にユーザは自由に視点を変えることができることを意味する。
装置上で対話型のメディアスキミングおよび検索を行うためのシステムは、シーンオブジェクトの1つまたは複数のファセットを使用してマルチメディアソースからの視覚的画像をテクスチャとして動的に伝達する、装置のスクリーン上で見ることができるメディアのマルチメディアセグメントの3Dシーンのモデルを構築するように動作可能であり、シーンオブジェクトと、オブジェクトファセットと、マルチメディアセグメントとの間の探索可能な論理的関係を維持するように動作可能であるシーンマネージャと、3Dシーンのモデルとのユーザの対話を捕捉し、管理するように動作可能であり、オブジェクトファセットおよびマルチメディアセグメントにスクリーン画素をマッピングするようにシーンマネージャに指示するように動作可能であり、特定のモードでは対話の解析を制限することによりユーザ体験を簡略化するように動作可能なインタラクションマネージャと、ユーザ名と、パスワードと、権限と、特定のマルチメディアカテゴリについての好みの3Dシーンタイプを少なくとも含むユーザ嗜好とをセキュアに記憶するように動作可能なユーザマネージャと、ユーザ対話に応答して概略再生(rough playback)および高解像再生のうちの一方を開始するように動作可能であり、3Dシーン内の3D形状の適切なファセットを判定し、マルチメディアが適切なファセットで再生されて見えるようにマルチメディアを変換するように動作可能な再生コンポーネントと、特定の対象3Dファセットのためにメディア中のマルチメディアセグメントの特定されたセットから2Dテクスチャのアーチファクトを作成するように動作可能であり、その結果生じる、特定の対象3Dファセット上に伸張されたかのようにテクスチャを見る動作が成功し、マルチメディアの1つまたは複数の視点が特定の対象3Dファセット上で明瞭に見えるようにする、テクスチャライザと、選択されたメディアセグメントおよびテクスチャの1つまたは複数の画素を、要求に応じて変換および変更するように動作可能であり、その結果生じる2Dテクスチャアーチファクトが3Dシーン内の1つまたは複数の形状ファセットに投影されたときにのみ、完全に表示される画素を介して当該生じた2Dテクスチャアーチファクトが新しい情報を含むようにする、トランスフォーマと、メディアセグメント、テクスチャ、シーンメタデータ、ならびにマルチメディアカテゴリおよび個々のセグメントに関係付けられた好みの3Dシーンタイプおよびオブジェクト、の1つまたは複数を記憶し、索引付けするように動作可能なキャッシュと、1つまたは複数のオブジェクトと、オブジェクトファセットと、仮想カメラと、カメラに対するオブジェクトの位置とを含む3Dシーンのセット、および、3Dシーンのセットの各セットと特定のマルチメディアカテゴリとの関係または特定されたマルチメディアリソースの特定のセットとの関係を維持するように動作可能なシーンヒューリスティックとを備え、有効なユーザ名およびパスワードがユーザマネージャによって判定されると、シーンマネージャが、テクスチャライザ、トランスフォーマ、およびキャッシュに従ってモデルを構築する。
一態様では、インタラクションマネージャにより捕捉および管理されるインタラクションの1つまたは複数は、キュー(cue)、要約、または対話型のメディアスキミングおよび検索に関連するその他の情報が表面にマッピングされた3D形状を回転、拡大縮小、および移動する命令として解釈される。一態様では、シーンマネージャは、3D形状と、3D形状のファセット上で視覚情報を順序付けする手段とを選択するようにさらに動作可能であり、一連の順序付けされたメディアセグメントは、3D形状の1の側面でおおまかなセグメントの順序付けを視覚的に見ることができ、3D形状の別の側面でセグメントアクションを見ることができるように順序付けされる。一態様では、シーンマネージャは、スキミングセッション間で3Dシーンを動的に適合することと、所与のメディアに対して関連するメディアシーンを動的に生成して、3D形状が相互および仮想カメラとの関係で配置され、主要形状に対する3D形状および仮想カメラの相対位置が主要形状との関連性を伝達し、配置された各3D形状が、テクスチャライザおよびトランスフォーマとの対話を介してメディア情報を伝達するようにすることと、の1つまたは複数を行うようにさらに動作可能である。一態様では、シーンマネージャは、当初は不鮮明なファセットを有する3D形状を選択し、テクスチャライザおよびトランスフォーマを使用して、不鮮明なファセットおよび見えているファセットの両方へのマルチメディアコンテンツの投影を生成し、当初は不鮮明なファセットのビューを、事前定義された特定のユーザ対話を介してのみ見えるようにするようにさらに動作可能である。
一態様では、インタラクションマネージャは、インタラクションマネージャとのユーザ対話を分析してから制限および強化することと、3Dシーン上で見ることのできるコンテンツへのインタレスト(interest)またはディスインタレスト(disinterest)を示すユーザ対話から探索のためのユーザ対話を区別することと、分解および処理されたユーザ対話に基づいて仮想カメラの動作に作用することと、の1つまたは複数を行うようにさらに動作可能である。一態様では、高解像再生は、現在のシーンおよびメディア内で視聴されている現在の箇所に関するメタデータとともに、外部プレーヤを起動する。一態様では、テクスチャライザは、特定のオブジェクトタイプについての所与の要求に対応するテクスチャファイルを特定することと、特定されたメディアセグメントのセットから特定のオブジェクトタイプのためのテクスチャ形状を作成することと、の1つまたは複数を行うようにさらに動作可能である。一態様では、トランスフォーマは、メディアリソースの識別を入力として受け取り、変換後のメディアへのハンドルを出力として生成するようにさらに動作可能であり、その結果生じるメディアは、その結果生じるメディアのフォーム中に埋め込まれた広告ビットマップを有すること、その結果生じるメディアが、その結果生じるメディアを特定の3D形状のためのテクスチャとしてより適したものにする新しいフォームを有すること、およびその結果生じるメディアが、元のメディアには存在しなかった強調表示された情報を含むこと、の1つである。一態様では、トランスフォーマは、現在のビュー項目またはテクスチャのセマンティックを判定し、広告ビットマップの好ましい濃度および配置を判定し、広告が関連付けられている特定のセグメントを判定し、特定のセグメントを広告画像に置き換えるか、または特定のセグメントを広告画像で補い、広告画像を含んでいる特定セグメントへの入力にどのように応答するかを記述した命令を記憶することにより、上記出力を作成する。一態様では、システムによってテクスチャ中に埋め込まれた特定の広告にユーザ入力が行われる結果、オプションの仮想カメラの位置が変化し、特定の広告に関連する新しい情報が、3Dシーン内の3D形状のうち1つまたは複数のファセットの特定のセットに表示される。一態様では、3Dシーンでユーザ対話が行われる結果、シーン内の形状の回転、移動、または拡大縮小の1つまたは複数を含む調整が行われ、調整がユーザを考慮して行われるときに、高速に変化する可視画像が、ユーザに見える内容を再生中のマルチメディアセグメントの動画ビューとして伝達する。
装置上で対話型のメディアスキミングおよび検索を行うための方法は、シーンオブジェクトの1つまたは複数のファセットを使用してマルチメディアソースからの視覚的画像をテクスチャとして動的に伝達する、装置のスクリーン上で見ることができるメディアのマルチメディアセグメントの3Dシーンのモデルを構築し、シーンオブジェクトと、オブジェクトファセットと、マルチメディアセグメントとの間の探索可能な論理的関係を維持するステップと、3Dシーンのモデルとのユーザの対話を捕捉および管理し、オブジェクトファセットおよびマルチメディアセグメントにスクリーン画素をマッピングし、特定のモードでは対話の解析を制限することによりユーザ体験を簡略化するステップと、ユーザ名と、パスワードと、権限と、特定のマルチメディアカテゴリについての好みの3Dシーンタイプを少なくとも含むユーザ嗜好とをセキュアに記憶するステップと、ユーザ対話に応答して概略再生および高解像再生の一方を開始し、3Dシーン内の3D形状の適切なファセットを判定し、マルチメディアを適切なファセットで再生して見えるようにマルチメディアを変換するステップと、特定の対象3Dファセットのためにメディア中のマルチメディアセグメントの特定されたセットから2Dテクスチャのアーチファクトを、テクスチャライザを使用して作成するステップであって、その結果生じる特定の対象3Dファセット上に伸張されたかのようにテクスチャを見る動作が成功し、マルチメディアの1つまたは複数の視点が特定の対象3Dファセット上で明瞭に見えるようにする、ステップと、選択されたメディアセグメントおよびテクスチャの1つまたは複数の画素を、要求に応じてトランスフォーマを使用して変換および変更するステップであって、その結果生じる2Dテクスチャアーチファクトが3Dシーン内の1つまたは複数の形状ファセットに投影されたときにのみ、完全に表示される画素を介して、その結果生じる2Dテクスチャアーチファクトが新しい情報を含むようにする、ステップと、メディアセグメント、テクスチャ、シーンメタデータ、ならびにマルチメディアカテゴリおよび個々のセグメントに関係付けられた好みの3Dシーンタイプおよびオブジェクト、の1つまたは複数を記憶し、索引付けするステップと、1つまたは複数のオブジェクトと、オブジェクトファセットと、仮想カメラと、カメラに対するオブジェクトの位置とを含む3Dシーンのセット、および、3Dシーンのセットの各セットと特定のマルチメディアカテゴリとの関係または特定されたマルチメディアリソースの特定のセットとの関係を維持するステップとを含み、有効なユーザ名およびパスワードが判定されると、テクスチャライザ、トランスフォーマ、およびメディアセグメントの記憶および索引付けのステップに従って、モデルを構築するステップが行われる。
一態様では、対話の1つまたは複数は、キュー、要約、または対話型のメディアスキミングおよび検索に関連するその他の情報が表面にマッピングされた3D形状を回転、拡大縮小、および移動する命令として解釈される。一態様では、モデルを構築するステップは、3D形状と、3D形状のファセット上で視覚情報を順序付けする手段とを選択するステップをさらに含み、一連の順序付けされたメディアセグメントは、3D形状の1側面でおおまかなセグメントの順序付けを視覚的に見ることができ、3D形状の別の側面でセグメントアクションを見ることができるように順序付けされる。一態様では、モデルを構築するステップは、スキミングセッション間で3Dシーンを動的に適合することと、所与のメディアに対して関連するメディアシーンを動的に生成して、3D形状が相互におよび仮想カメラとの関係で配置され、主要形状に対する3D形状および仮想カメラの相対位置が主要形状との関連性を伝達し、配置された各3D形状が、テクスチャライザおよびトランスフォーマとの対話を介してメディア情報を伝達するようにすることと、の1つまたは複数を行うステップをさらに含む。一態様では、モデルを構築するステップは、当初は不鮮明なファセットを有する3D形状を選択し、テクスチャライザおよびトランスフォーマを使用して、不鮮明なファセットおよび見えているファセットの両方へのマルチメディアコンテンツの投影を作成し、当初は不鮮明なファセットのビューを、事前定義された特定のユーザ対話を介してのみ見えるようにするステップをさらに含む。一態様では、対話を捕捉および管理するステップは、インタラクションマネージャとのユーザ対話を分析してから制限および強化するステップと、3Dシーン上で見ることのできるコンテンツへのインタレストまたはディスインタレストを示すユーザ対話から探索のためのユーザ対話を区別するステップと、分解および処理されたユーザ対話に基づいて仮想カメラの動作に作用するステップと、の1つまたは複数をさらに含む。
一態様では、高解像再生は、現在のシーンおよびメディア内で視聴されている現在の箇所に関するメタデータとともに、外部プレーヤを起動する。一態様では、2Dアーチファクトを生成するステップは、特定のオブジェクトタイプについての所与の要求に対応するテクスチャファイルを特定するステップと、特定されたメディアセグメントのセットから特定のオブジェクトタイプのためのテクスチャ形状を生成するステップと、の1つまたは複数をさらに含む。一態様では、1つまたは複数の選択されたメディアセグメントの画素を変換および変更するステップは、メディアリソースの識別を入力として受け取り、変換されたメディアへのハンドルを出力として生成するステップをさらに含み、その結果生じるメディアは、その結果生じるメディアのフォーム中に埋め込まれた広告ビットマップを有すること、その結果生じるメディアが、その結果生じるメディアを特定の3D形状のためのテクスチャとしてより適したものにする新しいフォームを有すること、およびその結果生じるメディアが、元のメディアには存在しなかった強調表示された情報を含むこと、の1つである。一態様では、現在のビュー項目またはテクスチャのセマンティックを判定し、広告ビットマップの好ましい濃度および配置を判定し、広告が関連付けられている特定のセグメントを判定し、特定のセグメントを広告画像に置き換えるか、または特定のセグメントを広告画像で補い、広告画像を含んでいる特定セグメントへの入力にどのように応答するかを記述した命令を記憶することにより、上記出力が作成される。一態様では、システムによってテクスチャ中に埋め込まれた特定の広告にユーザ入力が行われる結果、オプションの仮想カメラの位置が変化し、特定の広告に関連する新しい情報が、3Dシーン内の3D形状のうち1つまたは複数のファセットの特定のセットに表示される。一態様では、3Dシーンでユーザ対話が行われる結果、シーン内の形状の回転、移動、または拡大縮小の1つまたは複数を含む調整が行われ、調整がユーザを考慮して行われる時、高速に変化する可視画像が、ユーザに見える内容を再生中のマルチメディアセグメントの動画ビューとして伝達する。
本明細書に記載される1つまたは複数の方法を実行するためのマシンにより実行可能な命令のプログラムを記憶したコンピュータ可読記憶媒体も提供することができる。
以下の詳細な説明で本発明の非制限的な例示的実施形態として下記図面を参照して本発明をさらに説明するが、全ての図面を通じて同様の部分は同様の参照符号で表す。ただし、理解されるように、本発明は図示の通りの構成および手段に限定されない。
デジタルメディアを検査するための公知技術を示す図である。 本発明のシステムの一実施形態のブロック図を示す。 本発明のシステムおよび方法の一実施形態を示す図である。 本発明のシステムおよび方法の別の実施形態を示す図である。 シーンの例を示す図である。 シーンの別の例を示す図である。 ある範囲のセグメントと「フォーカス」を有する映像メディアを示す図である。 メディアの要求、作成、およびデフォルトの提示のシナリオのフローチャートを示す図である。 メディアの要求、作成、およびデフォルトの提示のシナリオのフローチャートを示す図である。 ユーザによりシーンおよびオブジェクトをカスタマイズするシナリオのフローチャートを示す図である。 システムによりシーンおよびオブジェクトをカスタマイズするシナリオのフローチャートを示す図である。 再生オプションのフローチャートを示す図である。 適合の一種を示す図である。 別の種類の適合を示す図である。 主要メディアと共にシーンにある関連メディアオブジェクトの例を示す図である。 主要メディアと共にシーンにある関連メディアオブジェクトの別の例を示す図である。 球体上の半透明の「集中シールド」を示す図である。 UML論理図である。 本発明のシステムの一実施形態を示す図である。 表面の円周上にキーフレームが投影された球体を示す図である。 シーンが縦方向の帯領域に配置された代替レイアウトを示す図である。 スポーツの試合のビューを生成する実施形態を示す図である。 テレビ番組のビューを生成する実施形態を示す図である。 広告が挿入される実施形態を示す図である。 テキスト情報の挿入と表示を示す図である。 テクスチャの変換を示す図である。 メタデータの表示と広告挿入レベルの選択を示す図である。 例示的なメニューシステムを示す図である。
マルチメディアスキミングのための3Dシーンおよび形状を備えた、適合型で対話型の3Dユーザインタフェースを作成するためのシステムおよび方法を提示する。
図2は、本発明のシステムの一実施形態のブロック図である。本発明のシステムは装置10を有し、装置10は、シーンマネージャ12、インタラクションマネージャ14、ユーザマネージャ16、再生18、テクスチャライザ20、トランスフォーマ22、およびキャッシュ24を含む。図2に示すように、サーバ26は、シーンヒューリスティック28と、キャッシュ、テクスチャライザ、トランスフォーマなどの機能の1つまたは複数とを備えることができる。サーバ26は、ユーザデータベース30、コンピュータビジョンサブシステム32などの追加的な装置および/または情報に接続することができる。他の実施形態では、サーバ機能を装置機能と同じ場所に配置することができる。検討対象のメディアはデータベースまたは他のメディアリポジトリにあることができ、このメディアには、装置から直接、またはサーバを介して間接的にアクセスすることができる。
シーンマネージャ12は、装置10のスクリーンで見ることのできる3Dシーンのモデルを構築することができる。3Dシーンの生成が可能な例示的技術の1つはOpenGL(およびその変形)である。モデル内で、シーンSは、オブジェクトO1,O2,...Oの集合Oを含む。各オブジェクトは閉曲面または開曲面であり、各オブジェクトは、シーン軸と呼ばれる座標軸に沿って順序付けられた表面F1,F2,...Fの集合Fに分解できると考えることができる。これらの表面は平坦なファセット(facet)または湾曲したファセットであってもよく、後にそれらにメディアをマッピングすることができるように順序が付けられる。予め設定されたヒューリスティックで、オブジェクトの選択および表面の分解、ならびに表面へのメディアマッピングの「最適事例」を提供することができる。過去にシステムが遭遇したことがない、任意であるが標準的な形式で記述されたメディアを与えられた場合でも、以前に3Dシーンに合わせて適合された同様のメディアを見つけることにより、それらのヒューリスティックを使用することが可能になる。
シーンマネージャ12は、スキミングセッション間でシーンを適合することもできる。例えば、シーンは、現在スクリーン上で見ることができる(またはこれからすぐに見られると思われる)コンテンツの性質に基づいて、スキミングセッション中に動的に適合することができる。一実施形態では、例えばメトリック(metric)(例えば、シーンのカット率、主要な色等)を使用してメディアの現在のシーンとコンテンツ種別を評価することにより、形状のシーンに変更を加える。また、シーンは、システムのユーザからの要求に基づいて、またはシーンの変更を望む別のシステム構成要素により適合することができる。
シーンマネージャ12は、所与のメディアMに関連する上位n個のメディアを判定し、それらを関連度のメトリック(例えば類似度)でソートし、メディアごとにシーンに新しい一時オブジェクトを作成し、オブジェクトに適切なメディアセグメントでテクスチャを付加し、主要オブジェクトまでの距離が関連度に比例するようにそれらのオブジェクトを主要オブジェクトに対して相対的な位置に配置することにより、メディアMの「関連メディア」のシーンを生成することができる。シーンマネージャ12は、必要な場合は、適切なネットワークトランスポート要求を使用して、その後n個の関連メディアの判定、そのメディアのソート、または現在のユーザに合わせたセットのカスタマイズを行うことにより、ネットワーク上で利用可能な機能を使用することができる。
インタラクションマネージャ(IM)14コンポーネントは、ユーザが本発明のツールとの間で行う対話を捕捉し、管理する。対話は、ジェスチャ、タップ、メニュー選択などのイベント、ならびに必要に応じたその他の対話である。IMはまた、アプリケーションが存在するモードに応じて、シーン上で利用可能なジェスチャを制限および拡張する。例えば「集中モード」(下記で詳しく説明する)では、IMは、ジェスチャ認識を横方向のスワイプのみに限定し、ユーザのスワイプジェスチャの縦方向の成分は無視する。
IMは、入出力装置のスクリーン上でユーザが対話を行った場所を判定し、ファセットを通じてその場所をマッピングすることにより、マルチメディアセグメントに関係付ける。したがって、画素は、セグメントを指す/示すファセットに関連し/、そのようなファセットを指し(画素−>ファセット−>セグメント)、それによりシステムは、装置スクリーンとのユーザ対話を介してインタレスト対象のセグメントを把握することができる。
IMは、ユーザ入力を他の方式でも区別する。特定のシーンにおけるインタレストは、そのシーン形状上で行われるユーザのタップ対話やマウスクリックを介して伝達することができる。例えば、IMは、まずスクリーン上の位置Pをシーン内の形状Sと関係付け、次いで形状のファセットFに関係付けることにより、現在選択されているメディアシーンMSを導出することができる。次いで、Fをメディア単位のセット、例えばシーンにマッピングし、そのシーンを含んでいるMSを見つける。さらに、シーンに対するディスインタレストの入力は、シーンを、(興味のないシーン上のより強調されていない)別のコンテクスト、または初期もしくはデフォルトのシーンビューに描き替える動作にマッピングされる。
IMは、ドラッグまたはタップが、ユーザが見ている現在のシーンのビューを変化させるのに伴い、仮想カメラの制御を実現することができる。ユーザ入力は、カメラまたはシーンの位置決めにマッピングされ、リアルタイムで反映される。例えば、ユーザは指をスクリーン上で上方向にドラッグして、それに比例して仮想カメラをシーンから「遠ざける」ように動かすことができる。
ユーザマネージャ16コンポーネントは、ユーザ名およびパスワードをセキュアに記憶することができる。ユーザマネージャは、これらに限定されないが、シーンおよびオブジェクトタイプの好み、ユーザのインタレスト、メディアタイプの好みを含むユーザの嗜好を収集し、記憶することができる。一実施形態では、ユーザマネージャはユーザプロファイルを記憶することができる。
再生18コンポーネントは、2種類の再生の一方を開始する。一方の種類は概略再生(rough playback)と呼ばれ、シーン内のファセットおよび形状の1つまたは複数にテクスチャが作成され、選択されたメディアセグメントまたは好みのメディアセグメントが「最後まで再生」されるまで継続的に更新される。もう一方の種類は高解像再生と呼ばれ、外部プレーヤが起動され、可能な場合は現在のシーンとメディア内の現在の視聴箇所に関するメタデータがプレーヤに提供される。例えば、ユーザがメディアの時間t=52分の箇所を視聴している場合は、再生はその箇所から開始することを試みるか、またはメディアの冒頭から再生することができる。
テクスチャライザ20コンポーネントは、以下の機能を実行することができる。映像フレーム、静止画像、電子書籍のページ等の特定されたメディアセグメントのセットから2Dのテクスチャファイルを作成することができる。テクスチャライザはまた、マシンにより読み取り可能な標準表記(XMLスキーマ等)を使用して記述された、特定のオブジェクトタイプまたはファセットを求める所与の要求に対応するテクスチャファイルを確認することもできる。例えば、球体形状用のテクスチャは、立方体形状用のテクスチャとは異なる形で生成されるが、テクスチャライザは、どちらのテクスチャ形状も所与の1つのメディアセットから作成することができる。テクスチャライザは、必要な場合は、適切なネットワークトランスポート要求を使用し、その要求を実現するためにリモートデータへのアクセスを要求することにより、ネットワーク上で利用可能な機能を使用することができる。任意で、テクスチャライザは、データをローカルのキャッシュに記憶し、索引付けすることができる。
トランスフォーマ22コンポーネントは、要求に応じて、メディアセグメント、テクスチャ、またはテクスチャファイルの一部を変換および変更する。トランスフォーマへの入力は、トランスフォーマがハンドルを有するマルチメディアリソースの識別、要求される変換の種類を記述する入力パラメータ等である。出力は、変換後のメディアセグメントへのハンドルとすることができる。一実施形態では、変換には、テクスチャビットマップへの広告ビットマップの挿入が含まれ、後にシーンを介してマルチメディアをスキミングする際にユーザがその広告を見る。
出力を生成するためにトランスフォーマによって行われるステップは以下を含むことができる。第1に、現在のテクスチャ上のコンテンツのセマンティックを判定する。第2に、好ましい広告出現率を判定する。第3に、存在する場合には、関連する広告を有するセグメント上の特定のセグメントを判定する。第4に、テクスチャ中の特定のセグメントを広告画像に置き換える。第5に、例えば広告のテキストや広告用のウェブページを生成するなど、そのセグメントへの入力にどのように反応するかをIMに指示する。
例として、トランスフォーマによって実行される変換動作には以下を含むことができる。画像のサイズ変更または拡大縮小。境界線、吹き出し、画像等の視覚的注釈の付加。画像へのバンプマップ、グラスエフェクト(glass effect)、ロックテクスチャ(rock texture)等の仮想テクスチャの付加。人間のポーズの抽出。オブジェクトまたはアクションの識別および強調表示、キャッシュへのデータの記憶と索引付け(任意)。適当なネットワークトランスポート要求を使用することによる、ネットワーク上で利用可能な機能の使用(必要な場合)。
キャッシュ24コンポーネントは、メディアセグメント、テクスチャ、シーンメタデータを記憶し、索引付けすることができる。キャッシュは、その他のコンポーネントからの要求時に、またはスケジュールに従って、またはその両方で、更新および消去を行うこともできる。
シーンヒューリスティック28コンポーネントは、1つまたは複数のオブジェクトからなる3DシーンのセットGを保持する。それらのシーンは、メディアに再度関係付けすることができるように評価付けとメタタグを有する。例えば、Gは、球体および立方体ならびにそれらの位置に関する記述を記述したシーンS1と、シーンS1に含まれる各形状のファセットセットFへのマルチメディア情報のマッピングとを含むことができる。
シーンヒューリスティックは、任意のシーンに対してマッピング技術を使用するか、または特定種類のメディアに適用可能な、一般に使用されるシーンのセット(およびそれに関連するオリエンテーション)から得る。例示的なマッピング技術は、例えば、オブジェクトBを含む3DシーンA、およびBのファセットのセット{F1,F2,...}と、マルチメディアセグメントとファセットのセットとの間の明確な順序付けされたマッピングを提供するオリエンテーションを含むことができる。同じシーンAがメディアタイプB(例えばスポーツ映像)には適さない場合もあり、したがってシーンヒューリスティックはそのような不適合を認識する。
図3に、本発明のシステムおよび方法の例示的実施形態を示す。図3に示すように、装置10はモバイル装置であり、その装置上で球体形状を使用して3Dシーンが表示される。焦点エリアは、球体の円周に沿ったファセットからなり、球体の残りの部分はメディアコンテンツを示す。ユーザは、回転、拡大縮小、形状変更、タップ、映像再生等の各種機能を実行することにより、球体と対話することができる。装置側、またはサーバ側、またはその両方にある1つまたは複数のデータベースから、テクスチャ、メディア、シーン、オブジェクト、およびメタデータを装置で利用可能になる。この実施形態では、形状のファセットにマッピングされるテクスチャは、スキミングを行うのに有用な視覚化を備える。
図4に、本発明のシステムおよび方法の別の実施形態を示す。図4に示すように、各種機能を使用してメディアコンテンツを表示することができる。図4に示す機能は、形状モーフィング、シーンの生成、コンテンツ分析、および形状割り当てを含むが、必要に応じて追加的な機能を含めることができる。形状モーフィングは、制約に従って、元のファセットと新しいファセットとの間が一対一、一対多、多対一、または多対多の関係となるように、元の形状から新しい形状のファセットにファセットをマッピングする効果により、シーン内のオブジェクトの形状を変更する。シーンの生成は、任意で、マルチメディアメタデータ(任意でコンテンツ分析コンポーネントによって導出されたコンテンツタイプ等)、または要求される対話のオプション(すなわちユーザにより特定の対話が必要とされる場合は、一部の3Dシーンがより適する場合がある)に基づいて、スキミングセッションのための3Dシーンを選択し、インスタンス化する。コンテンツ分析は、マルチメディアコンテンツを(任意で実行時に)分析し、コンテンツを既知の(任意で特定のセグメントに関連付けた)1つまたは複数のカテゴリに分類する。このコンテンツ分析では、マルチメディアの属性を分類または認識するために、オブジェクト認識、ヒューリスティック、およびその他の映像分析またはマシンビジョン法を利用することができる。形状割り当てでは、コンテンツ分析と形状の意味的な性質を把握し、数式を適用して、分類された特定のメディアに適する3D形状を選択することを試みる。キャッシュ24にセッション間のデータを記憶することができる。
図5にシーンの例を示す。図5の一番上には立方体の「シーンオブジェクト」を示し、立方体の各面がファセットとして認識される。図5の下部には2つの球体の「シーンオブジェクト」を示し、それらの表面が2つのファセットに分割される。各形状のファセットは、データ構造内で親形状に関係付けられる。図5に示すように、立方体と球体はともにシーン境界の中に表示され、そのシーンが適切な出力装置(例えばコンピュータスクリーン)上で提示される。
図6に別のスクリーンの例を示し、この例は円筒形であり、その表面が個別のファセットに分割される。論理的にはファセットは形状との間に関係を有し、例えば、スキミングセッション内の特定のビューに対応するように、円筒形の各ファセットに別々の映像フレームを投影することができる。そのようなセッションは、上記のようにいくつかの別個のビューから構成される可能性が高い。
例示的実施形態では、ユーザが例えば映像のメディアスキミングおよび/または検索を要求する。サーバ26は、ユーザマネージャ16、および該当する場合はユーザデータベース30のユーザ情報と連動して、要求を行ったユーザのユーザIDおよび要求されるメディアメタデータを含む要求を分析する。メディアは、特定のカテゴリに分類し、次いで任意で、そのユーザとメディアに適する3Dオブジェクトおよびシーンと組み合わせることができる。サーバは、ユーザ要求に対して、メディアセグメント、ならびに3Dシーン、オブジェクト、および対話モードを含むメタデータにより応答する。あるいは、ローカルのキャッシュ、または他のいくつかのローカルで利用可能なシステム、もしくは分散システムからデータがロードされる。
次に、装置10は、表示目的でローカルのメモリに3Dシーンを作成し、メディアセグメントおよび他のメタデータを管理し、通常はそれらの項目をメモリ記憶装置またはデータベースにキャッシュする。装置は、事前に規定された方式または適合的な方式で、3Dオブジェクト表面へのメディアセグメントの投影を計算する。装置は3Dシーンとの対話を可能にする。さらに、3Dシーンおよび/またはオブジェクトを、例えばシーンへの新しい3Dオブジェクトの追加、オブジェクトの除去、またはオブジェクトの変形により、ユーザとの対話セッション中に適合的に変更することができる。
3Dシーンおよびその中のオブジェクトファセットへのメディアのレンダリングは、「シーン」の順序付けと「シーンアクション」の詳細とを明確に分けるために順序付けを使用する。通常、それら2つの局面は、メディアが出現する形状およびファセットの別々の「次元」に対応付けることができる。シーンの次元では、シーン相互に対して、または何らかの単位、例えばメディア中の相対時間を基準としてシーンを順序付けることができる。例えば、シーン1は時間的にシーン2より前の順序が付けられ、シーン1がレイアウトの順序付けでもシーン2の前に出現するようにする。アクションの次元では、アクションがレンダリングされるシーン内のオブジェクトを構成するファセットを使用することにより、特定の3Dパスにあるシーン内にアクションが配置される。例えば、下記の図に示すようなファセットを持つ球体の場合には、シーンは形状の上から下に向かって順序付けされ(フレームからなる各帯領域が1つのシーンとなる)、一方、アクションは、球体の「周り」を特定の方向に、例えば円周に沿って進むことができる。
システムを、ユーザが見た時のビューが、メディアの広いコンテクストビューと、それよりも多少明瞭に見ることが可能な焦点エリアの両方を提供するように、3Dシーンおよび形状と、その形状へのマッピングを選択するように構成することができる。そのようなメタファーは、いくつかの点で、人間の視覚の知覚システムが物に注目しながらも周辺部にある視覚の手がかりを提供する仕組みに似ている。図7に、「フォーカス」または焦点エリア、すなわち特定部分が詳細に強調された、一定範囲のセグメントを有するスキミングセッションの映像メディアを示す。このシステムでは、範囲とフォーカス値の両方を非線形に適合することができる。
通常、3Dシーン内のオブジェクトの目に見える表面の利用を本発明のプログラムにより使用して、ユーザにスキミング体験を提供する。クライアント装置上のシーン内の3D形状の目に見える表面(ファセットで構成される)を、メディアセグメント(映像のキーフレームやクリップ等)を投影するための「スクリーン」として都合よく使用する。別の使用事例では、3D形状の目に見える表面と隠れた表面の両方をテクスチャスクリーンとして使用する。サーバまたはクライアント/装置が、目に見える部分と隠れた部分にどのようにメディアを割り当てるかを特定する。3Dシーンは、目に見える部分と、該当する場合は隠れた部分の両方にセグメントをレンダリングすることにより作成される。ユーザには、隠れた表面を目に見えるようにする選択肢が与えられる。例えば、典型例として、球体など中空の3D形状の内側表面は、最初は目に見えない。ユーザオプションにより、ユーザは、形状の内側、例えば球体、立方体、または他の形状の内側に割り当てられたメディアを目に見ることができる。任意で、要求があれば、システムは、隠れた部分を目に見える部分と入れ替えてビューを切り換えることもできる。
隠れた表面の可能な使用法は、3D形状の内面を使用し、別の形状を第1の形状の中に埋め込み、その内側の形状をスキミングおよび/または検索できる(可能性としてはこれを再帰的に行う)ようにすることが含まれる。いくつかの例には、ユーザによる特殊な入力時にのみ見ることができる球体の内側の面、立方体の内側にある球体、および/または、他の形状の中に形状が入っていて、主要形状が最初に探索される形状であるが、内側の形状のファセットに追加的な情報がマッピングされており、シーン内の仮想カメラがその内側形状をユーザに表示する時にのみその情報を目に見えるようするものが含まれる。
サーバと装置間の対話は、各種方式で行うことができる。一実施形態では、サーバは、可能な対話機能または機能的な対話機能を記述したメタデータ内の命令を送信し、装置がその機能を実施することができる。あるいは、そのデータをクライアント側の装置でキャッシュしておくか、ローカルのキャッシュとリモートのネットワーク化された情報の組み合わせを使用することができる。例示的な対話技術は、装置のタッチスクリーン上のジェスチャ、またはマウスによる対話を含み、それらにより、シーンまたはシーン内のオブジェクトを回転、拡大縮小、または移動することができる。また、装置上でのジェスチャまたは他の入力により、シーン内の仮想カメラの位置を変えて、より戦略的に配置することができる。あるいは、システムが、好ましい位置または最適な位置に自動的にカメラを配置してもよい。また、3Dシーン上でのジェスチャにより、シーンのその部分に現在投影されているメディアセグメントへのインタレスト(interest)または(ディスインタレスト)を示すことができる。そのようなジェスチャが、さらなる対話およびシーンオブジェクトとメディアの再割り当てをトリガすることができ、例えば、ユーザがメディアの一部のインタレストのシーンを2度タップすると、そのインタレストのシーンにさらに注目することにより、形状へのメディアセグメントのマッピングが更新される。
本発明により、各種の使用事例またはメディア視聴のための高レベルのシナリオを利用することができる。使用事例の1つは、メディアの要求、作成、およびデフォルトの提示である。この場合、本発明は以下を実行する。システムに既知である特定メディアをスキミングする要求を受け付ける。そのメディアに最適な3Dシーンおよびファセットを持つ形状を判定する。ユーザが最も関心を持つメディア部分を特定する。ユーザはそのような部分を明示的に選択する場合も、暗黙的に伝える場合もある。その最も関心のある部分をサポートする、またはその部分へのコンテクストまたはサポートを含むメディアのコンテクスト部分を判定する。ビューの2つの局面を「フォーカス」および「コンテクスト」と呼び、それらを図3および図4に示す。ユーザのクライアント装置に伝達することが可能なテクスチャビットマップの作成。本発明の技術は、形状が、「フォーカス」エリア、例えばユーザが最も関心のある分野を最も効果的な形状部分に提示するように、3Dシーンおよびオブジェクトの形状を変え、割り当て直す。例えば、球体の場合は、図3に示すように中央の帯状領域を「フォーカス」とすることができる。すなわち、形状は、その形状の最も効果的な部分にコンテクストメディア(最も関心のある部分をサポートするか、または最も関心のある部分に関連する)を提示する。例えば、球体の場合は、球体のz軸に沿って上下に伸びる帯状領域にコンテクストメディアを表示し、その部分にフィーチャをマッピングすると自然に奥行きが小さくなる(foreshortening)ことを利用することができる。したがって、フォーカスはしばしば、球体の目立つ部分、例えばキーフレーム[f1,f2]に表示され、一方、コンテクストは、現在の全ビュー範囲[r1,r2]にあるビューに示される残りの全ての部分であり、[f1,f2]は範囲[r1,r2]に含まれる。したがって、シーン内の3D形状にスキミングセッションの最初のビューを再構築するために必要なメタデータが、ユーザがスキミングを要求したクライアント装置に送られる。そのようなメタデータはビットマップのテクスチャファイルを含み、それが適切に形状上に投影されると、スキミングビューを提供する。
したがって、メディアの要求、作成、およびデフォルトの提示の一部として、以下の動作も行われる。ユーザが3D形状を検査し、形状のインタレストの部分にいくつかのメディアテクスチャを見る。ユーザは、インタレスト部分をより目に見えるように形状を回転(または他の形で位置を変更)する。ユーザは、入力機構(例えばスクリーンのタップやマウスによる選択)を使用してそのインタレスト部分を選択するか、または例えば2度タップする等のジェスチャを行う。それに対して、システムは、選択されたファセットを、メディアセグメントと現在の範囲におけるそのセグメントの位置とに関係付ける。システムは、現在の範囲を何らかのサブセットに分割することにより新しいビュー範囲を判定し、選択されたセグメントがそのサブセット範囲の時間的または論理的な「中心」に近くなるようにする。システムは、新しいサブセットに従って、サーバから、または任意でキャッシュからメディアセグメントをロードする。システムは、セグメントをシーン内の3Dオブジェクトに割り当て、レンダリングする。その結果、オブジェクトは、インタレスト部分の「ズームイン」ビューをカプセル化する。この使用事例では、ユーザは、一連の別個のビューと対話することによりメディアのスキミングを続け、各ビューは、現在のシーンとその形状、ならびに現在のユーザの嗜好に基づいて計算される。
ユーザのインタレストを伝えるメディアシーンへの対話にシステムがどのように反応するかの例として、ビュー範囲(ROV)=メディアセグメント1〜1000を考える。ユーザが、ROV400〜500に対応する3D形状のファセットにあるセグメントに触れる。システムは、範囲400〜500の詳細なセグメントを読み込み、そのセグメントを3Dオブジェクト全体に分散させる。システムは、現在のオブジェクトのフォーカスがそのメディアセグメントになるようにフォーカスを設定する。したがって、この回の反復では、形状のファセットを再使用して1つ前のビューより小さいROVのサブセットを伝達し、この処理を反復する。ROVを継続的に縮小する場合を「ズームイン」と表現し、ROVを拡大する場合を「ズームアウト」と表現する。
1つの次元への均等なメディアのサンプリングを使用してセグメントをマッピングする例示的方法を提示する。初めに、メディアセグメントを順序付けることが可能な形状次元D、例えば映像フレームの時間を選択する。その次元上に割り当てることができる対象形状の順序付けされたファセットのセットを判定する(例えば次元が球体の円周である場合は、ファセットは、その次元の周りにあるファセット、例えば円周に沿ったファセットとなる)。要求されるメディア(問い合わせで提供され得るか、またはデフォルトのメディアであり得る)のインタレスト部分(またはセグメント)を判定する。選択された形状上
の次元に追加するのに必要なn個のサンプルを判定する。ユーザが関心を持つメディアセグメントの範囲から、n個のメディアセグメントを均等に(例えば全てのフレーム、1つおきのフレーム、2つおきのフレーム、3つおきのフレームなど)サンプリングする。いくつかの利用可能なファセットのために追加的なセグメントを非均等に選択することが必要となる場合があるが、その必要が生じうるのは、均等な方式で最大数のファセットを割り当てた後のみである。追加的な変換が必要な場合は、セグメントがテクスチャに構成される前にセグメントを変換するか、または完成した後にテクスチャを変換する。
非均等なメディアサンプリングを使用してセグメントをマッピングする別の詳細な方法を説明する。この方法は、非均等なセグメントの選択を用いて、n個のメディアセグメントは、それらの番号付けおよび他のセグメントとの関係に基づいて(例えばフレーム番号に基づいて)選択されるのではなく、独立して選択され、例えば色相/彩度(例えば彩度の順にサンプリングする)、カメラ動作(例えばカットやパンなどのカメラ動作に関係するセグメントを優先する)、特定のユーザタグを持つセグメント(例えばユーザにより事前に特定され、タグ付けされたセグメント)に基づいて選択される場合を除いて、均等なサンプリング方法と同じである。
図8にこのシナリオにおけるステップを示す。ステップSA1で、メディアリストを提示する。ステップSA2で、ユーザが単一のメディアを選択する。ステップSA3で、メディアセマンティックを判定する。ステップSA4で、適切なシーンおよびオブジェクトを判定する。ステップSA5で、デフォルトのビューが要求されるかどうかを判定する。SA5=YESの場合はデフォルトのビューを使用し、ステップSA6でデフォルトのビューを構成するメディアセグメントがロードされる。そして処理はステップSA9に進む。
一方SA5=NOの場合は、ステップSA7で、現在要求されるビューを構成するセグメントのみをロードする。ステップSA8で、シーンの形状軸とシーン動作を選択する。
ステップSA9で、セグメントを形状ファセットにマッピングし、インデックスおよびプロジェクトメディアを作成する。ステップSA10で、変換が要求されるかどうかを判定する。変換が要求される場合(SA10=YES)は、ステップSA11で変換を実行し、広告を挿入する等ができる。次に、および変換が必要でない場合(SA10=NO)は、ステップSA12でユーザにシーンを提示する。
さらに、ステップSA13で、ユーザジェスチャまたはユーザ入力を取得する。ジェスチャが「シャトル」である場合(SA14=YES)、またはジェスチャが「インタレスト」である場合(SA15=YES)、またはジェスチャが「ディスインタレスト」である場合(SA16=YES)は、ステップSA17で、提案されたユーザ動作に見られるメディアセグメントに対応する新しいテクスチャを要求する。ステップSA18で、セグメントを形状ファセット上にマッピングし、インデックスおよびプロジェクトメディアを作成する。ステップSA19で、変換が要求されるかどうかを判定する。変換が要求される場合(SA19=YES)は、ステップSA20で変換を行い、広告を挿入する等ができる。次に、および変換が必要でない場合(SA19=NO)は、ステップSA21でユーザにシーンを提示する。
あるいは、ジェスチャが「シャトル」でもなく(SA14=NO)、「インタレスト」でもなく(SA15=NO)、「ディスインタレスト」でもない(SA16=NO)場合は、ジェスチャが「戻る」であるかどうかを判定する。「戻る」の場合は(SA22=YES)、ステップSA23で、キャッシュから1つ前のビューを要求する。処理はステップSA21に続く。
ジェスチャが「戻る」でない場合(SA23=NO)は、ジェスチャが「回転」であるかどうかを判定する。「回転」の場合(SA24=YES)は、ステップSA25で、必要に応じて、シーンおよび/またはオブジェクトの回転、移動、拡大縮小を実行する。処理はステップSA21に進む。
シナリオBは、シーンおよびオブジェクトのカスタマイズと、提示への広告の組み込みであり、ユーザベースのシーン選択およびシステムベースのシーン選択の両方を含む。図9は、ユーザによるシーン選択のステップのフローチャートである。ステップSB1で、ユーザが好みのシーンおよび/または形状を選択する。ステップSB2で、警告が必要かどうかを判定する。警告が必要な場合(SB2=YES)は、ステップSB3で警告を提示する。次に、警告が必要でない場合は(SB2=NO)、ステップSB4で、シーンの形状軸とシーン動作を選択する。ステップSB5で、セグメント形状をファセットにマッピングし、インデックスおよびプロジェクトメディアを作成する。ステップSB6で、変換が要求されるかどうかを判定する。変換が要求される場合(SB6=YES)は、ステップSB7で変換を行い、広告を挿入する等ができる。次に、および変換が必要でない場合(SB6=NO)は、ステップSB8でユーザにシーンを提示する。
図10は、システムベースの選択のシナリオBのフローチャートである。ステップSB9で、システムが、メディアとシーン/形状との不整合を検出する。ステップSB10で、システムが好みのシーンおよび/または形状を選択する。次いで処理は、上記でユーザによるシーン選択の場合について説明したステップSB2〜SB8に進む。
シナリオCは、ユーザがシーンを探索するシーン対話であり、シーンオブジェクトの回転、仮想カメラの視点の変更、再生等を含む。このシナリオは、オブジェクトの選択、ファセットの選択、ならびに低解像度および高解像度両方のマルチメディアの再生を含む。このシナリオはプレビューのオプションを含み、ユーザは時間に基づくメディア、例えば映像のプレビューを要求する。システムは、自動的に、かつ移動の効果としてユーザがオブジェクト表面上でマルチメディア動作を知覚するような速度で(部分的にはいわゆる残像による)、1つまたは複数の3Dシーンオブジェクトを移動させる。典型例では、いくつかのファセットを持つオブジェクトを仮想カメラの前で回転させ、ファセットを順次高速にユーザに見せる。回転の効果は、任意でユーザジェスチャまたは対話により調整される。
このシナリオは完全な再生機能も含み、ユーザが、対象とするメディア、例えば現在3Dシーンで表現されているメディアの完全な再生を要求する。システムは、メディアメタデータを利用して、メディアを最高の精細度で最良に再生するにはどのように再生したらよいかを判断する。一手法では、システムは、そのような再生を支援するために登録されている副次的な独立したアプリケーションを起動する(例えばウェブブラウザアプリケーション内で、アプリケーションが当該メディアを自身のアプリケーション空間で再生するために必要とされる情報とともにYouTubeアプリケーションを起動する)。したがって、メディアは、別のアプリケーションで高精細に再生出力される。任意で、装置がそのような再生に対応できる場合は、シーン内の1つまたは複数の3Dオブジェクトの表面で高精細にメディアを再生する。
図11は、シナリオCの再生オプションのフローチャートである。ステップSC1で、ユーザが現在のメディアの再生を選択する。ステップSC2で、フル解像度が要望されるかどうかを判定する。フル解像度が要求される場合(SC2=YES)は、ステップSC3で、プレイヤーアプリケーションが起動されることの警告を提示する。ステップSC4でプレイヤーアプリケーションが起動される。
一方、フル解像度が要求されない場合(SC2=NO)は、ステップSC5で低解像度のプレビューを作成する。ステップSC6で、必要な場合は追加的なメディアセグメントをダウンロードすることができる。ステップSC7で、メディアセグメントの順序付けまたは低解像度ストリームを作成する。ステップSC8で、ファセット上レンダリングが要望されるかどうかを判定する。ファセット上レンダリングが要求される場合(SC8=YES)は、ステップSC9でファセットレンダリングを提示する。ファセット上レンダリングでは、プレビューが、シーン内の形状の1つまたは複数を形状表面に直接レンダリングし、その形状がレンダリングされる表面またはファセットに合致するように形状を調整する。
一方、ファセット上レンダリングが要求されない場合(SC8=NO)は、ステップSC10で回転レンダリングが要望されるかどうかを判定する。回転レンダリングが要求される場合(SC10=YES)は、ステップSC11で回転に基づくレンダリングをユーザに提示する。回転に基づくレンダリングでは、特定の形状を連続して回転させ、連続したメディアセグメントが確実に仮想カメラの前を通るようにすることによってプレビューが生成される。この効果はプラキシノスコープ(praxinoscope)に類似する。
一方、回転レンダリングが要求されない場合(SC10=NO)は、ステップSC12でフルスクリーンレンダリングをユーザに提示する。フルスクリーンレンダリングでは、仮想カメラのすぐ前にある2D面上のスクリーンの大半の部分をプレビューが占める。フレームが間欠的に変化してこの効果を作り出す。
シナリオDはシーンの適合であり、ユーザが形状と対話し、視覚化をよりよく伝えるように形状を変更する。このシナリオは、形状および形状間の関係を含み、3Dシーンおよびオブジェクトがユーザに合わせて適合される。メディアまたはインタフェースメタファーの特定局面とのユーザ対話が閾値を満たすかまたは閾値を超える場合、システムは、インタフェースに提示されるシーンに変更を加えることができる。代替法では、ユーザのモードをシステムに明示的に通知することができる。システムは、メディアをマッピングすることができるのに使用される個々の形状領域をより多く提供することによって適合することができるが、各領域で使用することができるメディアセグメントは少なくなる。別の適合法は、提示される形状領域を少なくするが、各領域でより多くのフレームを使用するものである。仮想カメラまたは視点の移動は、隠れた表面を目に見えるようにする別の適合例であり、上記の適合法に限定されない他の空間的な適合である。
この適合、例えば上記変更の結果、シーン内の3Dオブジェクトにメディアセグメントが再割り当てされ、したがって、視覚スキミングプロセスにおける3Dオブジェクトの役割が変更される。具体的には、シーンが変更され、メディアセグメントが再割り当てされ、セグメントが動的にオブジェクトに再描画される。ユーザのスキミングおよび/または検索セッションは、新しい変更後のシーンで継続する。シーン変更コンポーネントが、インタフェースを適合する最良の方式を判定し、それらには以下の適合法の1つまたは複数が含まれる。画素の使用を最適化する。メディアコンテンツのセマンティックを強化または強調する。特定ユーザの嗜好を満たす。および/または、それらの何らかの混合もしくは他の手法。
一例として、シーン変更コンポーネントは、ユーザの視聴観点を向上するようにクライアント装置上の現在の3Dオブジェクトを変換することができ、例えば、立方体をz軸に沿って変形して長方形にする、球体を変形して円筒形にする、視点/仮想カメラ位置を変更する、隠れた表面を目に見えるようにする等を行う。したがって、3D形状についてのメタデータのライブラリに、ファセットへの投影の適合性の度合いや各種コンテンツ(例えばスポーツとニュース)への適合性の度合い等の情報で注釈を付けることができ、そのメタデータを呼び出して、スキミングシーンを変換するための代替の3D形状の提案を提供することができる。
特定の映像のための特定の形状をスコア付けする数式は、

S=(形状の適合性*形状係数+メディアタイプ*コンテンツ係数+ユーザの嗜好*ユーザ係数)/3

であり、形状の適合性は、3Dシーンでの投影に使用することについての形状、例えば球体の事前の評価付けであり、
メディアタイプは、種々のコンテンツタイプ、例えばスポーツ、ニュース等の投影への適切性を評価付けする係数であり、これは形状の関数であり、
ユーザの嗜好は、形状についてのユーザの好みに関する係数であり、
形状係数、コンテンツ係数、およびユーザ係数は、所与の状況について適宜設定される定数である。
結果Sは、所与のメディアおよび所与のユーザについての所与の形状の妥当性の重み付けされた評価付けである。システムが所与のメディアのスキミングセッション内で使用する形状間を選択しているときには、Sの値(上記参照)を比較し、S値が最も大きい形状を選択することができる。
図12に、適合の一種を示す。このシステムによるスキミングの過程の最中に、ユーザが装置(例えば携帯電話やタブレット)の向きを変えたい場合がある。その場合、シーン内のオブジェクトが球体の場合は、球体が自動的に切り替わって、3Dシーンがスクリーンの比率に最適に収まるように適合するモードになる。例えば、球体の場合は、球体の縦の寸法が変換(伸長)され、帯状領域の数が増えるが、各帯状領域に提示されるフレームは少なくなる。任意で、切り換えの結果ユーザが情報をより見つけやすくなると予想される場合は、システムはそのようなモードに自動的に切り替わってもよい。それを実行するために、システムはまずスクリーンの向きの通知(システムレベル)を取得し、次いで向きのモードを現在の3Dシーンおよびオブジェクトの要素と比較し、次いで、現在の形状の変換が可能であり、ユーザがそれを望むかどうかを判定し、任意でサーバに更新後の新しいテクスチャを要求することにより変換を行う。
図13は別の種類の適合を説明する。ユーザが個々のシーンをより詳しく見たいと思い、同時にその傍で他のシーンも見たい場合、ユーザは装置を横方向、例えば横長モードに保持することができる。その結果、球体のレイアウトが自動的に変化して帯状領域の数は減るが、各帯状領域のフレームの数は増える。この処理は上記処理と同様である。
図14に、関連するメディアオブジェクトのセットSを計算し、主要メディアと共に3Dシーンに表示する適合例を示す。そのようなビューはユーザが直接要求するか、または何らかのヒューリスティックもしくはロジックに従ってシステムが適宜提供することができる。このビューを提示するときに、システムはまず現在のメディアメタデータを分析し、そのメタデータを、現在のメディアに関連するメディアのセットSを構築するために記憶している可能性のある他のメディアメタデータと比較するか、または外部システムに分析とセットの作成を行うよう要求する。セットSの作成が完了すると、現在の3Dシーンを検査し、現在のシーンに新しいオブジェクトを作成し、S内の関連項目ごとに1つのオブジェクトが作成される。そのメディアのテクスチャとして、キーフレームおよび/または他のメタデータを使用することができる。そのようなシーンへの追加は、ユーザにとって有用な新しい種類のビューを構成し、そのビューは、ユーザがそのビューを閉じることを選択するか、新たに追加された1つのオブジェクトを選択してスキミングセッションを変更するまでのみ持続する。
一例として、主要メディアに関連すると判定されたセットSに内の各映像メディアについて、テクスチャとして使用する2つのキーフレームを選択し、3Dの球体オブジェクトの場合は、球体をz軸に沿って2つの「半球」に分割し、それぞれの半球に各キーフレームをレンダリングする。新しい各オブジェクトを相互に対して配置および拡大縮小して、ボリューム、大きさ、色、形状、または他の面が、メインのメディアに対する相対的な「関連度」を伝えるようにする。
例えば、3Dシーンが球体状のオブジェクトで構成される場合は、より小さな複数の球体に関連メディアを割り当てて、それらの球体をメインの球体の周りに軌道状に配置する。オブジェクト間の空間関係は、関連性や意味的な関係性の伝達を助けることを意図する。例えば、関連メディアおよび現在のメディアに対応する各球体間の相対距離を、その「関係」係数(上記要領で計算される)に比例するようにすることができる。新しいシーンとの対話が可能となる。任意で、関連メディアを組み込むことにより、関連メディアとそれらの配置等を強調する、規定されたシーン動画を開始することができる。
図15に、主要メディアとともにシーン内の関連メディアオブジェクトの別の例を示す。図15に示すように、球体の円周の中心にシーンが表示され、2つの追加的な球体が表示され、一方はメインの球体の左上に、他方は右下に表示されている。このようなビューは、現在のメディアに関連するマルチメディアを快適で整合性のある形で視覚化するためにシステムによって生成される。
一実施形態では、スキミングセッション内で「集中モード」を可能にして、インタレストの3D形状の部分および/または最も有用な3D形状の部分にユーザが注意を向けるのを助け、関連するメディアや広告へのリンク等のコンテクスト情報を提示し、「視覚的オーバーヘッド」(またはextran)と考えられる3Dシーンの部分を部分的または完全に非表示にする。したがって、このモードでは、ユーザは最も有用なファセットにより十分に集中することができ、同時に含んでいる形状全体も把握することができる。このモードは、ユーザにより明示的にトリガし、またはユーザが所与のビュー上で閾値を超える時間量を費やしたときに自動的に起動してもよい。
例えば、ユーザが現在のビューに対し「集中モード」を明示的に選択する。システムは、3Dシーンの現在のビューでユーザの気を散らしている可能性のあるコンテクスト情報の多くを、少なくとも部分的に不鮮明にした半透明のペイン(pane)を生成する。システムは、このモードで行うことができる対話の種類を制限してよく、例えばカメラを移動するジェスチャを無効にすることができる。システムは、3Dシーンへのビューを部分的または完全に制限する「シールド」を表示する。任意で、3Dシーンまたはオブジェクトが、ユーザが気を散らさずに情報を見ることを助けるような形で自動的に移動する。例えば、オブジェクトはゆっくりと一定速度で回転しながら移動することができる。任意で、「シールド」は、さらなる探索、詳細、または広告を可能にする何らかの情報またはリンクを有し、その情報はシステムで生成されるか、リモートサーバから得られる。ユーザは「集中」モードを明示的に終了し、するとシールドオブジェクトが消える。任意で、探索モードを広くする方がよいことがユーザ対話で示されると、システムは自動的にシールドを除去する。
図16に、球体上の半透明の集中シールド(Shield)を示す。球体上に加えて、または球体上の代わりに、シールド上に広告を配置することができる。シールドは半透明で、ユーザの気を散らす局面を隠すとともに、いくらかのシースルーを可能にする。シールド内に合理的に配置された1つまたは複数の「隙間」により、3Dシーンの最も重要な部分を見ることができる。リンクおよび/または他の情報もシールド上に配置することができる。
システムは、メディアと3Dオブジェクトのファセットとシーンとを関連付けるデータ構造を維持する。3Dシーンがどのように形状を含むかを例示するリレーショナルテーブルの一例は、シーン、形状ID、形状部分ID、タイプ、ファセットID、メディアセグメントID、および変換(回転、移動、拡大縮小)のフィールドを含むことができる。各形状は、部分、ファセットで構成され、変換を有する。各ファセットまたは部分は、1つのメディアセグメント、例えばキーフレームに関連付けられる。
図17は、論理的なシステムエンティティがどのように関連付けられるかを示すUML論理図である。1つのシーンが1...n個の部分に関連付けられる。各部分は1つのタイプ、1つのメディアセグメント、および1...nのファセットに関連付けられる。ファセットは、1つのメディアセグメントおよび1つの変換にも関連付けられる。1つのメディアセグメントは、メディアIDおよび1...nのメディアソースに関連付けられる。
図18に、本システムの実施形態を示す。図18の左側には、シーンの座標(例えばt〜t)を上部から下部に説明し、シーンアクションの座標(例えばt〜t)を左から右に説明している。この座標系は3D形状にテクスチャをレイアウトする際の基盤となり、スキミングセッションの際にユーザに利益となる。シーンおよびシーンアクションが、3Dシーンオブジェクトの各次元にマッピングされる。表示スクリーンの下部に沿ったスクロールバーが、現在のビューで示されるメディアの範囲を視覚化する(例えば、時間で順序が付けられた映像フレームでは、ユーザはフレームの少数のサブセットにズームインする場合があり、それがスクロールバーおよびスクロールサム(scroller thumb)を介して示される)。ビジュアルインジケータが時間的な次元を伝え、背景画像はカスタマイズと適合が可能である。ユーザのジェスチャおよび対話により、3D形状と3Dシーン自体の両方へのセグメント割り当ての再構成が行われる。
図19〜図25に、本発明によるスクリーン表示を示す。図19は、映像キーフレームが表面の円周または中央領域に投影された球体を示す。ファセットにマッピングされた球体周辺の輪として見える追加的なシーンは映像キーフレームで満たされる。中央領域と同様に、全ての帯状領域はメディアセグメントキーフレームで満たされる。
図20は、縦方向の帯上にシーンが配置された代替レイアウトを示す。図13と同様に、シーンアクションは下部から上部に表示され、一方、時間は左から右に表示される。
図21は、スポーツマッチのビューの生成を示す。「分割」線は、順序付けが、当該順序付けの発生後に終了し、リセットすることを意味する時間的な「イクエータ(equator)」である。ユーザは、スキミングまたは検索セッションに有用な追加的な情報を表示するために、装置スクリーン上でジェスチャを行って、シーンまたはシーン内のオブジェクトを回転、拡大縮小、または移動させる。
図22は、テレビ番組のビューの生成を示す。図21と同様に、「分割」線が時間的な「イクエータ」となっている。この場合、この線は、順序付けが、当該純情付けの発生後に終了し、リセットすることを意味する。メディアは、図のように1つまたは複数のファセットに直接低解像度で再生することができる。サムスクロール(thumbscroll)が、メディア全体を比較してインタレストの現在の領域を示す。
図23は、状況依存型の広告、すなわちオブジェクトの表面に直接挿入される広告を示す。そのような広告は、対話型でかつクリック可能にすることができる。
図24は、オブジェクト、例えば球体にマッピングされるテキスト情報を示す。テキスト情報を、視覚情報と類似の形式で、スキミングおよび/または検索が可能となるようにマッピングすることができる。音楽および/または音声、ならびに他の種類の情報も該当し、含めるのに適する。
図25は、ポーズの抽出等の高度な処理を適用することによって行うことができるテクスチャの変換を示す。図25では、人間のポーズを抽出して、ユーザが映像アクションの本質を理解するのを助ける単純な「棒線画」にする。
図26の上部は、メディアについての例示的なメタデータを示しており、これはユーザからの要求後に表示することができる。図26の下部は、挿入される広告のレベルに関するユーザの選択を示す。図のように、ユーザまたはシステム管理者が0(広告なし)から6(広告が多い)までから1つのレベルを選択することができる。そのレベルに基づいて、システムは、図23に示すように広告を挿入し、表示する。
図27は、6つのユーザオプションを有する例示的なメニューシステムを示す。「Back」のオプションは、形状への前のマッピングを復元する。「Preview」のオプションは、低解像度バージョンのメディアを表示する。「Play」のオプションは、高解像度バージョンのメディアを表示する。「Reset」のオプションは、初期のビューに戻る。「Media Info」のオプションは、図26の上部に示すようなメタデータを表示する。「More」のオプションはさらに多くのオプションを提供する。
例示的システムおよび方法は、携帯電話のオペレーティングシステム、すなわちAndroid(登録商標)オペレーティングシステムで実装されている。このプラットフォームは、多数の携帯電話、タブレット、およびテレビで利用可能な広く流通したプラットフォームである。ただし、本発明はこの実施形態およびこのオペレーティングシステムに限定されない。
この実施形態では、メディアサーバは、メディアメタデータとメディアコンテンツ(フレーム、セグメント、ストリーム)の要求に対応する役割を担うTelcordia ATS研究所内のマシンに設置された。また、メディアサーバは、要求に応じて広告アイコンを提示することもできた。メディアは、スポーツ(フットボール)、漫画および児童向けのメディア、テレビ番組(短いフォーマットと長いフォーマットの両方)、長編映画、広告、監視映像、インタビュー等の分野からとられた。本発明者らは、上記のTelcordiaメディアサーバに接続することが可能なネットワーク接続を有するモバイル装置で、我々のアプリケーションを実行した。
本発明のこの実施形態は、本発明のアプリケーションでスキミングすることが可能な一連の利用可能メディアを列挙するように設計されている。ユーザがメディアの1つを選択し、その後スキミングセッションが開始した。本技術は非常に有効で娯楽性があり、モバイルの使用事例でスクリーン空間とネットワーク帯域幅の両方を有効に活用した。本発明を用いてスキミングセッションを開始した後、多くの場合、ユーザが興味のあるものを見つけて映像を再生することを選択するまでに必要な対話はわずか5〜10回程度であることが判明した。
本発明は、対話型の3D形状にマルチメディアセグメントを投影することにより、マルチメディアの視覚化とその内容を有用にスキミングする際の課題を克服する。さらに、コンテンツに応じた3D形状の適合は、今日まで従来技術で体系的には行われていない。
本発明は、有利にメディアの要約およびスキミングを可能にすると共に、直感的なインタフェース技術を提供し、例えば各種形状は本質的に「いじり」回さずにいられず、直接的にユーザの気を引く。利点として、ユーザの貴重な時間が節約される(誤検知を減らす)。本発明は、メディアの抽出に3D形状表面を多量に使用し、無駄が少ないため、(他の技術と比べて)画素に関して比較的効率的である。一部のセグメントは任意の時には隠されるが、対話を介して迅速かつ簡単に回転して見える状態にすることができる。本発明の新規の技術は軽量であり、初めに高品質バージョンのメディアをユーザにストリーミングする場合と比べると帯域幅を減らし、それにより、結果的に誤検知となる高精細の再生を減らす。本発明の他の利点には、コンテクスト情報を表示するための遠近法(短縮遠近法)の利用、「無料で(for free)」(フリップカード風の)高速のスキミングを行わせる回転、直感的で体感的なユーザインタフェース(ボールを転がすのと同じくらい容易)、コンパクトだが任意で拡大が可能(最高でソース解像度まで)、メディア間で3D形状を変えることが可能(例えば、形状の表面積が可能な基準の1つである)であることが含まれる。さらに、半径rの球体は辺2rの立方体よりも表面積が少ないが、いくつかの単純な妥協により立方体と同等のものとし、例えば球体を仮想カメラに近づけて表示して、球体の奥側の領域の一部はビューで切り取られるが、球体が有用な視覚化情報をユーザに伝達するようにする。また、形状の中には他の形状より良好に視覚的連続性を可能にするものがあり、本発明は、メディア自体の属性や事前に設定されたポリシーに基づいて自由裁量でそのような形状を選択し、それにより3Dシーン作成に関する局面に柔軟性を与えることができる。
本開示の各種態様は、コンピュータまたは機械による使用が可能な媒体または可読の媒体に実施または記憶された、プログラム、ソフトウェア、またはコンピュータ命令として実施することができ、それらがコンピュータ、プロセッサ、および/または機械で実行されると、コンピュータまたは機械に本発明の方法のステップを行わせる。機械実行可能命令のプログラムを有形に実施して本開示に記載の各種機能および方法を行う、機械可読のプログラム記憶装置、例えばコンピュータ可読媒体も提供される。
本開示のシステムおよび方法は、汎用コンピュータまたは専用コンピュータシステムで実施し、実行することができる。コンピュータシステムは、現在または将来知られる任意種のシステムでよく、通例は、プロセッサ、メモリ装置、記憶装置、入出力装置、内部バス、および/または通信ハードウェアやソフトウェア等と連携して他のコンピュータシステムと通信するための通信インタフェースを含むことができる。システムは、一般にはクラウドと呼ばれる仮想コンピュータシステムで実施することもできる。
コンピュータ可読媒体は、コンピュータ可読記憶媒体またはコンピュータ可読信号媒体とすることができる。コンピュータ可読記憶媒体に関しては、例えば磁気、光学、電子、電磁、赤外線、または半導体システム、機器、もしくは装置、またはそれらの任意の適当な組み合わせとすることができるが、コンピュータ可読記憶媒体はこれらの例に限定されない。コンピュータ可読記憶媒体のさらなる具体例には、携帯型コンピュータディスケット、ハードディスク、磁気記憶装置、携帯型CD−ROM(compact disc read-only memory)、RAM(random access memory)、ROM(read-only memory)、EPROM(erasable programmable read-only memory)(すなわちフラッシュメモリ)、1つまたは複数の配線を有する電気接続、光ファイバ、光学記憶装置、またはそれらの適切な組み合わせが含まれるが、コンピュータ可読記憶媒体はやはりこれらの例に限定されない。命令実行システム、機器、または装置で使用する、またはそれらとの関連で使用するプログラムを保持するまたは記憶することができる有形の媒体をコンピュータ可読記憶媒体とすることができる。
本出願で使用し得る用語「コンピュータシステム」および「コンピュータネットワーク」は、固定型および/または携帯型のコンピュータハードウェア、ソフトウェア、周辺機器、および記憶装置の各種組み合わせを含むことができる。コンピュータシステムは、ネットワーク化されるか、またはその他の形で接続されて協働して行う複数の個々のコンポーネントを含んでも、1つまたは複数の独立型のコンポーネントを含んでもよい。本出願のコンピュータシステムのハードウェアおよびソフトウェアコンポーネントは、デスクトップ、ラップトップ、および/またはサーバ、ならびにサーバのネットワーク(クラウド)等の固定型および携帯型の装置を含むことができ、またそのような装置の内部に含めることができる。モジュールは、何らかの「機能」を実施する、装置、ソフトウェア、プログラム、またはシステムの構成要素であり得、ソフトウェア、ハードウェア、ファームウェア、電子回路等として実施することができる。
上記実施形態は例示的な例であり、本発明がそれらの特定の実施形態に限定されると解釈すべきではない。したがって、添付の特許請求の範囲に定義される本発明の主旨または範囲から逸脱することなく、当業者により各種の変更および改変を実施することができる。

Claims (25)

  1. 装置上で対話型のメディアスキミングおよび検索を行うためのシステムであって、
    シーンオブジェクトの1つまたは複数のファセットを使用してマルチメディアソースからの視覚的画像をテクスチャとして動的に伝達する、前記装置のスクリーン上で見ることができるメディアのマルチメディアセグメントの3Dシーンのモデルを構築するように動作可能であり、前記シーンオブジェクトと、前記オブジェクトファセットと、前記マルチメディアセグメントとの間のナビゲート可能な論理的関係を維持するように動作可能であるシーンマネージャと、
    前記3Dシーンの前記モデルとのユーザの対話を捕捉し、管理するように動作可能であり、前記オブジェクトファセットおよび前記マルチメディアセグメントにスクリーン画素をマッピングするように前記シーンマネージャに指示するように動作可能であり、特定のモードのときに対話の解析を制限することによりユーザ体験を簡略化するように動作可能なインタラクションマネージャと、
    ユーザ名と、パスワードと、権限と、特定のマルチメディアカテゴリについての好みの3Dシーンタイプを少なくとも含むユーザ嗜好とをセキュア(securely)に記憶するように動作可能なユーザマネージャと、
    ユーザ対話に応答して、概略再生(rough playback)および高解像再生の一方を開始するように動作可能であり、前記3Dシーン内の3D形状上の適切なファセットを判定し、前記マルチメディアを変換して、前記マルチメディアを前記適切なファセット上で再生して見えるように動作可能な再生コンポーネントと、
    特定の対象3Dファセットに対する前記メディア内の前記マルチメディアセグメントの特定されたセットから2Dテクスチャのアーチファクトを生成するように動作可能であり、その結果生じる、前記特定の対象3Dファセット上に伸張されたかのように前記テクスチャを見る動作が成功し、前記マルチメディアの1つまたは複数の視点が前記特定の対象3Dファセット上で明瞭に見えるようにする、テクスチャライザと、
    1つまたは複数の選択されたメディアセグメントおよびテクスチャの画素を、要求に応じて変換および変更して、その結果生じる2Dテクスチャアーチファクトが前記3Dシーン内の1つまたは複数の形状ファセットに投影されるときにのみ、完全に表示される画素を介して、前記その結果生じる2Dテクスチャアーチファクトが新しい情報を含むようにする、トランスフォーマと、
    前記メディアセグメント、前記テクスチャ、シーンメタデータ、ならびに前記マルチメディアカテゴリおよび個々のセグメントに関係付けられた好みの3Dシーンタイプおよびオブジェクト、の1つまたは複数を記憶し、索引付けするように動作可能なキャッシュと、
    1つまたは複数のオブジェクトと、オブジェクトファセットと、仮想カメラと、前記カメラに対する前記オブジェクトの位置とを含む3Dシーンのセット、および、前記3Dシーンのセットの各セットと特定のマルチメディアカテゴリとの関係もしくは特定されたマルチメディアリソースの特定のセットとの関係を維持するように動作可能なシーンヒューリスティックと
    を備え、
    有効なユーザ名およびパスワードが前記ユーザマネージャによって判定されるときに、前記シーンマネージャが、前記テクスチャライザ、前記トランスフォーマ、および前記キャッシュに従って前記モデルを構築することを特徴とするシステム。
  2. 前記インタラクションマネージャにより捕捉および管理される前記対話の1つまたは複数は、キュー(cue)、要約、または前記対話型のメディアスキミングおよび検索に関連するその他の情報が表面にマッピングされた3D形状を、回転、拡大縮小、および移動する命令として解釈されることを特徴とする請求項1に記載のシステム。
  3. 前記シーンマネージャは、3D形状と、前記3D形状のファセット上で視覚情報を順序付けする手段とを選択するようにさらに動作可能であり、一連の順序付けされたメディアセグメントは、前記3D形状の1つの側面上でおおまかなセグメントの順序付けを視覚的に見ることができ、前記3D形状の別の側面上でセグメントアクションを見ることができるように順序付けされることを特徴とする請求項1に記載のシステム。
  4. 前記シーンマネージャは、スキミングセッション間で前記3Dシーンを動的に適合することと、所与のメディアに対して関連するメディアシーンを動的に生成して、3D形状が相互に、および前記仮想カメラとの関係で配置され、主要形状に対する前記3D形状および前記仮想カメラの相対位置が前記主要形状との関連性を伝達し、配置された各3D形状が、前記テクスチャライザおよび前記トランスフォーマとの対話を介してメディア情報を伝達するようにすることと、の1つまたは複数を実行するようにさらに動作可能であることを特徴とする請求項1に記載のシステム。
  5. 前記シーンマネージャは、当初は不鮮明なファセットを有する3D形状を選択し、前記テクスチャライザおよび前記トランスフォーマを使用して、不鮮明なファセットおよび見えているファセットの両方へのマルチメディアコンテンツの投影を生成し、前記当初は不鮮明なファセットのビューを、事前定義された特定のユーザ対話を介してのみ見えるようにするようにさらに動作可能であることを特徴とする請求項1に記載のシステム。
  6. 前記インタラクションマネージャは、前記インタラクションマネージャとのユーザ対話を分析してから制限および強化することと、前記3Dシーン上で見ることのできるコンテンツへのインタレスト(interest)またはディスインタレスト(disinterest)を示すユーザ対話から、探索のためのユーザ対話を区別することと、分解および処理されたユーザ対話に基づいて前記仮想カメラの動作に作用することと、の1つまたは複数を実行するようにさらに動作可能であることを特徴とする請求項1に記載のシステム。
  7. 前記高解像再生は、前記メディア内で視聴されている現在のシーンおよび現在の位置に関するメタデータとともに、外部プレーヤを起動することを特徴とする請求項1に記載のシステム。
  8. 前記テクスチャライザは、特定のオブジェクトタイプについての所与の要求に対応するテクスチャファイルを確認することと、前記特定されたメディアセグメントのセットから前記特定のオブジェクトタイプのためのテクスチャ形状を生成することと、の1つまたは複数を行うようにさらに動作可能であることを特徴とする請求項1に記載のシステム。
  9. 前記トランスフォーマは、メディアリソースの識別を入力として受け取り、変換されたメディアへのハンドルを出力として生成するようにさらに動作可能であり、その結果生じるメディアは、前記その結果生じるメディアのフォームの中に埋め込まれた広告ビットマップのうちの一つを有し、前記その結果生じるメディアは、前記その結果生じるメディアを特定の3D形状のためのテクスチャとしてより適したものにする新しいフォームを有し、前記その結果生じるメディアは、元のメディアには存在しなかった強調表示された情報を含むことを特徴とする請求項1に記載のシステム。
  10. 前記トランスフォーマは、現在のビュー項目またはテクスチャのセマンティックを判定し、広告ビットマップの好ましい濃度および配置を判定し、広告が関連付けられている特定のセグメントを判定し、前記特定のセグメントを広告画像に置き換えるか、または前記特定のセグメントを広告画像で補い、前記広告画像を含んでいる前記特定セグメントへの入力にどのように応答するかを記述した命令を記憶することにより、前記出力を生成することを特徴とする請求項9に記載のシステム。
  11. 前記システムによって前記テクスチャ中に埋め込まれた特定の広告にユーザ入力が行われる結果、オプションの仮想カメラの位置が変化し、前記特定の広告に関連する新しい情報が、前記3Dシーン内の前記3D形状のうち1つまたは複数のファセットの特定のセット上に表示されることを特徴とする請求項9に記載のシステム。
  12. 前記3Dシーン上でユーザ対話が行われる結果、前記シーン内の形状の回転、移動、または拡大縮小の1つまたは複数を含む調整が行われ、前記調整が前記ユーザを考慮して行われるときに、高速に変化する可視画像が、前記ユーザに見える内容を、再生中のマルチメディアセグメントの動画ビューとして伝達することを特徴とする請求項9に記載のシステム。
  13. 装置上で対話型のメディアスキミングおよび検索を行うための方法であって、
    シーンオブジェクトの1つまたは複数のファセットを使用してマルチメディアソースからの視覚的画像をテクスチャとして動的に伝達する、前記装置のスクリーン上で見ることができるメディアのマルチメディアセグメントの3Dシーンのモデルを構築し、前記シーンオブジェクトと、前記オブジェクトファセットと、前記マルチメディアセグメントとの間のナビゲート可能な論理的関係を維持するステップと、
    前記3Dシーンの前記モデルとのユーザの対話を捕捉および管理し、前記オブジェクトファセットおよび前記マルチメディアセグメントにスクリーン画素をマッピングし、特定のモードでは対話の解析を制限することによりユーザ体験を簡略化するステップと、
    ユーザ名と、パスワードと、権限と、特定のマルチメディアカテゴリについての好みの3Dシーンタイプを少なくとも含むユーザ嗜好とをセキュア(securely)に記憶するステップと、
    ユーザ対話に応答して概略再生(rough playback)および高解像再生の一方を開始し、前記3Dシーン内の3D形状の適切なファセットを判定し、前記マルチメディアを前記適切なファセット上で再生して見えるように前記マルチメディアを変換するステップと、
    特定の対象3Dファセットに対する前記メディア中の前記マルチメディアセグメントの特定されたセットから2Dテクスチャのアーチファクトを、テクスチャライザを使用して生成するステップであって、その結果生じる、前記特定の対象3Dファセット上に伸張されたかのように前記テクスチャを見る動作が成功し、前記マルチメディアの1つまたは複数の視点が前記特定の対象3Dファセット上で明瞭に見えるようにすることと、
    選択されたメディアセグメントおよびテクスチャの1つまたは複数の画素を、要求に応じてトランスフォーマを使用して変換および変更するステップであって、その結果生じる2Dテクスチャアーチファクトが前記3Dシーン内の1つまたは複数の形状ファセットに投影されたときにのみ、完全に表示される画素を介して、前記その結果生じる2Dテクスチャアーチファクトが新しい情報を含むようにすることと、
    前記メディアセグメント、前記テクスチャ、シーンメタデータ、ならびに前記マルチメディアカテゴリおよび個々のセグメントに関係付けられた好みの3Dシーンタイプおよびオブジェクト、の1つまたは複数を記憶し、索引付けするステップと、
    1つまたは複数のオブジェクトと、オブジェクトファセットと、仮想カメラと、前記カメラに対する前記オブジェクトの位置とを含む3Dシーンのセット、および、前記3Dシーンのセットの各セットと特定のマルチメディアカテゴリとの関係または特定されたマルチメディアリソースの特定のセットとの関係を維持するステップと
    を備え、
    有効なユーザ名およびパスワードが判定されるときに、前記テクスチャライザ、前記トランスフォーマ、および前記メディアセグメントの記憶および索引付けのステップに従って、前記モデルを構築するステップが実行されることを特徴とする方法。
  14. 前記対話の1つまたは複数は、キュー(cue)、要約、または前記対話型のメディアスキミングおよび検索に関連するその他の情報が表面にマッピングされた3D形状を回転、拡大縮小、および移動する命令として解釈されることを特徴とする請求項13に記載の方法。
  15. 前記モデルを構築する前記ステップは、3D形状と、前記3D形状のファセット上で視覚情報を順序付けする手段とを選択するステップをさらに含み、一連の順序付けされたメディアセグメントは、前記3D形状の1の側面上でおおまかなセグメントの順序付けを視覚的に見ることができ、前記3D形状の別の側面上でセグメントアクションを見ることができるように順序付けされることを特徴とする請求項13に記載の方法。
  16. 前記モデルを構築する前記ステップは、スキミングセッション間で前記3Dシーンを動的に適合することと、所与のメディアに対して関連するメディアシーンを動的に作成して、3D形状が相互に、および前記仮想カメラとの関係で配置され、主要形状に対する前記3D形状および前記仮想カメラの相対位置が前記主要形状との関連性を伝達し、配置された各3D形状が、前記テクスチャライザおよび前記トランスフォーマとの対話を介してメディア情報を伝達するようにすることと、の1つまたは複数を実行するステップをさらに含むことを特徴とする請求項13に記載の方法。
  17. 前記モデルを構築する前記ステップは、当初は不鮮明なファセットを有する3D形状を選択し、前記テクスチャライザおよび前記トランスフォーマを使用して、不鮮明なファセットおよび見えているファセットの両方へのマルチメディアコンテンツの投影を作成し、前記当初は不鮮明なファセットのビューを、事前定義された特定のユーザ対話を介してのみ見えるようにするステップをさらに含むことを特徴とする請求項13に記載の方法。
  18. 前記対話を捕捉および管理するステップは、前記インタラクションマネージャとのユーザ対話を分析してから制限および強化することと、前記3Dシーン上で見ることのできるコンテンツへのインタレスト(interest)またはディスインタレスト(disinterest)を示すユーザ対話から、探索のためのユーザ対話を区別することと、分解および処理されたユーザ対話に基づいて前記仮想カメラの動作に作用することと、の1つまたは複数を実行するステップをさらに含むことを特徴とする請求項13に記載の方法。
  19. 前記高解像再生は、前記メディア内で視聴されている現在のシーンおよび現在の位置に関するメタデータとともに、外部プレーヤを起動することを特徴とする請求項13に記載の方法。
  20. 前記2Dアーチファクトを作成する前記ステップは、特定のオブジェクトタイプについての所与の要求に対応するテクスチャファイルを確認するステップと、前記特定されたメディアセグメントのセットから前記特定のオブジェクトタイプのためのテクスチャ形状を作成するステップと、の1つまたは複数をさらに含むことを特徴とする請求項13に記載の方法。
  21. 前記1つまたは複数の選択されたメディアセグメントの画素を変換および変更する前記ステップは、メディアリソースの識別を入力として受け取り、変換後のメディアへのハンドルを出力として生成するステップをさらに含み、その結果生じるメディアは、前記その結果生じるメディアのフォーム中に埋め込まれた広告ビットマップのうちの一つを有し、前記その結果生じるメディアは、前記その結果生じるメディアを特定の3D形状のためのテクスチャとしてより適したものにする新しいフォームを有し、前記その結果生じるメディアは、元のメディアには存在しなかった強調表示された情報を含むことを特徴とする請求項13に記載の方法。
  22. 現在のビュー項目またはテクスチャのセマンティックを判定し、広告ビットマップの好ましい濃度および配置を決定し、広告が関連付けられている特定のセグメントを判定し、前記特定のセグメントを広告画像に置き換えるか、または前記特定のセグメントを広告画像で補い、前記広告画像を含んでいる前記特定セグメントへの入力にどのように応答するかを記述した命令を記憶することにより、前記出力が作成されることを特徴とする請求項21に記載の方法。
  23. 前記システムによって前記テクスチャ中に埋め込まれた特定の広告にユーザ入力が行われる結果、オプションの仮想カメラの位置が変化し、前記特定の広告に関連する新しい情報が、前記3Dシーン内の前記3D形状のうち1つまたは複数のファセットの特定のセットに表示されることを特徴とする請求項21に記載の方法。
  24. 前記3Dシーンでユーザ対話が行われる結果、前記シーン内の形状の回転、移動、または拡大縮小の1つまたは複数を含む調整が行われ、前記調整が前記ユーザを考慮して行われるときに、高速に変化する可視画像が、前記ユーザに見える内容を再生中のマルチメディアセグメントの動画ビューとして伝達することを特徴とする請求項21に記載の方法。
  25. 装置上で対話型メディアスキミングおよび検索を行うための方法を実行するための機械により実行可能な命令のプログラムを記憶したコンピュータ可読記憶媒体であって、前記方法は、
    シーンオブジェクトの1つまたは複数のファセットを使用してマルチメディアソースからの視覚的画像をテクスチャとして動的に伝達する、前記装置のスクリーン上で見ることができるメディアのマルチメディアセグメントの3Dシーンのモデルを構築し、前記シーンオブジェクトと、前記オブジェクトファセットと、前記マルチメディアセグメントとの間の探索可能な論理的関係を維持するステップと、
    前記3Dシーンの前記モデルとのユーザの対話を捕捉および管理し、前記オブジェクトファセットおよび前記マルチメディアセグメントにスクリーン画素をマッピングし、特定のモードでは対話の解析を制限することによりユーザ体験を簡略化するステップと、
    ユーザ名と、パスワードと、権限と、特定のマルチメディアカテゴリについての好みの3Dシーンタイプを少なくとも含むユーザ嗜好とをセキュア(securely)に記憶するステップと、
    ユーザ対話に応答して概略再生(rough playback)および高解像再生の一方を開始し、前記3Dシーン内の3D形状の適切なファセットを判定し、前記マルチメディアを前記適切なファセット上で再生して見えるように前記マルチメディアを変換するステップと、
    特定の対象3Dファセットに対する前記メディア中の前記マルチメディアセグメントの特定されたセットから2Dテクスチャアーチファクトを生成するステップであって、その結果生じる、前記特定の対象3Dファセット上に伸張されたかのように前記テクスチャを見る動作が成功し、前記マルチメディアの1つまたは複数の視点が前記特定の対象3Dファセット上で明瞭に見えるようにすることと、
    選択されたメディアセグメントおよびテクスチャの1つまたは複数の画素を要求に応じて変換および変更するステップであって、その結果生じる2Dテクスチャアーチファクトが前記3Dシーン内の1つまたは複数の形状ファセットに投影されたときにのみ完全に表示される画素を介して、前記その結果生じる2Dテクスチャアーチファクトが新しい情報を含むようにすることと、
    前記メディアセグメント、前記テクスチャ、シーンメタデータ、ならびに前記マルチメディアカテゴリおよび個々のセグメントに関係付けられた好みの3Dシーンタイプおよびオブジェクト、の1つまたは複数を記憶し、索引付けするステップと、
    1つまたは複数のオブジェクトと、オブジェクトファセットと、仮想カメラと、前記カメラに対する前記オブジェクトの位置とを含む3Dシーンのセット、および、前記3Dシーンのセットの各セットと特定のマルチメディアカテゴリとの関係または特定されたマルチメディアリソースの特定のセットとの関係を維持するステップと
    を備え、
    有効なユーザ名およびパスワードが判定されると、前記2Dテクスチャアーチファクトを作成するステップと、前記1つまたは複数の選択されたメディアセグメントの画素を変換および変更するステップと、前記メディアセグメントを記憶および索引付けするステップとに従って前記モデルを構築するステップが実行されることを特徴とするコンピュータ可読記憶媒体。
JP2013521926A 2010-07-27 2011-07-27 3次元形状のファセット上の関連メディアセグメントの対話型の投影および再生 Expired - Fee Related JP5739531B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US36794510P 2010-07-27 2010-07-27
US61/367,945 2010-07-27
PCT/US2011/045490 WO2012015889A1 (en) 2010-07-27 2011-07-27 Interactive projection and playback of relevant media segments onto facets of three-dimensional shapes

Publications (2)

Publication Number Publication Date
JP2014503084A true JP2014503084A (ja) 2014-02-06
JP5739531B2 JP5739531B2 (ja) 2015-06-24

Family

ID=45530481

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013521926A Expired - Fee Related JP5739531B2 (ja) 2010-07-27 2011-07-27 3次元形状のファセット上の関連メディアセグメントの対話型の投影および再生

Country Status (4)

Country Link
US (1) US8762890B2 (ja)
EP (1) EP2598981B1 (ja)
JP (1) JP5739531B2 (ja)
WO (1) WO2012015889A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101915792B1 (ko) 2017-09-01 2018-11-09 (주)비버스팩토리 얼굴인식을 이용한 광고 삽입 시스템 및 방법
US11960446B2 (en) 2017-05-30 2024-04-16 Home Box Office, Inc. Video content graph including enhanced metadata

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8682145B2 (en) 2009-12-04 2014-03-25 Tivo Inc. Recording system based on multimedia content fingerprints
US20120174038A1 (en) * 2011-01-05 2012-07-05 Disney Enterprises, Inc. System and method enabling content navigation and selection using an interactive virtual sphere
US8314790B1 (en) * 2011-03-29 2012-11-20 Google Inc. Layer opacity adjustment for a three-dimensional object
US20120324401A1 (en) * 2011-06-14 2012-12-20 Jeffrey Morris Methods and system for three dimensional time and spacial user interface
US20130263059A1 (en) * 2012-03-28 2013-10-03 Innovative Icroms, S.L. Method and system for managing and displaying mutlimedia contents
US20140047393A1 (en) * 2012-08-07 2014-02-13 Samsung Electronics Co., Ltd. Method and portable apparatus with a gui
US9507513B2 (en) * 2012-08-17 2016-11-29 Google Inc. Displaced double tap gesture
US9201974B2 (en) * 2012-08-31 2015-12-01 Nokia Technologies Oy Method and apparatus for incorporating media elements from content items in location-based viewing
US8997082B1 (en) * 2013-07-16 2015-03-31 Amazon Technologies, Inc. Differential patch of content
US10127721B2 (en) * 2013-07-25 2018-11-13 Hover Inc. Method and system for displaying and navigating an optimal multi-dimensional building model
US9827714B1 (en) 2014-05-16 2017-11-28 Google Llc Method and system for 3-D printing of 3-D object models in interactive content items
US9332285B1 (en) 2014-05-28 2016-05-03 Lucasfilm Entertainment Company Ltd. Switching modes of a media content item
WO2016021861A1 (en) 2014-08-02 2016-02-11 Samsung Electronics Co., Ltd. Electronic device and user interaction method thereof
US10332311B2 (en) * 2014-09-29 2019-06-25 Amazon Technologies, Inc. Virtual world generation engine
KR101749104B1 (ko) * 2015-08-10 2017-06-20 김제형 3d 모델을 이용하는 광고 시스템 및 광고 방법
US9865305B2 (en) 2015-08-21 2018-01-09 Samsung Electronics Co., Ltd. System and method for interactive 360-degree video creation
US10572557B2 (en) 2015-11-04 2020-02-25 International Business Machines Corporation Detecting relevant facets by leveraging diagram identification, soical media and statistical analysis software
US10297086B2 (en) * 2016-07-04 2019-05-21 Liquid Cinema Inc. System and method for processing digital video
US10460501B2 (en) 2016-07-04 2019-10-29 Liquid Cinema Inc., Canada System and method for processing digital video
US10999602B2 (en) 2016-12-23 2021-05-04 Apple Inc. Sphere projected motion estimation/compensation and mode decision
US11259046B2 (en) 2017-02-15 2022-02-22 Apple Inc. Processing of equirectangular object data to compensate for distortion by spherical projections
US10924747B2 (en) 2017-02-27 2021-02-16 Apple Inc. Video coding techniques for multi-view video
US11093752B2 (en) 2017-06-02 2021-08-17 Apple Inc. Object tracking in multi-view video
US10754242B2 (en) 2017-06-30 2020-08-25 Apple Inc. Adaptive resolution and projection format in multi-direction video
US20190005709A1 (en) * 2017-06-30 2019-01-03 Apple Inc. Techniques for Correction of Visual Artifacts in Multi-View Images
USD879831S1 (en) * 2017-11-22 2020-03-31 Lg Electronics Inc. Display screen with graphical user interface
US10776415B2 (en) * 2018-03-14 2020-09-15 Fuji Xerox Co., Ltd. System and method for visualizing and recommending media content based on sequential context
US11567628B2 (en) * 2018-07-05 2023-01-31 International Business Machines Corporation Cognitive composition of multi-dimensional icons
US10863160B2 (en) 2018-08-08 2020-12-08 Liquid Cinema Inc. Canada Conditional forced perspective in spherical video
CN111459266A (zh) * 2020-03-02 2020-07-28 重庆爱奇艺智能科技有限公司 一种在虚拟现实的3d场景中操作2d应用的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148771A (ja) * 1998-11-06 2000-05-30 Sony Corp 画像処理装置および方法、並びに提供媒体
JP2006012161A (ja) * 2004-06-28 2006-01-12 Microsoft Corp 対話式視点ビデオシステムおよびプロセス
JP2008518326A (ja) * 2004-10-22 2008-05-29 ヴィディエイター・エンタープライズィズ・インコーポレーテッド モバイル3dグラフィカル・メッセージングのためのシステム及び方法
WO2009111329A2 (en) * 2008-03-04 2009-09-11 Gesturetek, Inc. Enhanced gesture-based image manipulation

Family Cites Families (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6978277B2 (en) 1989-10-26 2005-12-20 Encyclopaedia Britannica, Inc. Multimedia search system
US5495562A (en) 1993-04-12 1996-02-27 Hughes Missile Systems Company Electro-optical target and background simulation
US5664227A (en) 1994-10-14 1997-09-02 Carnegie Mellon University System and method for skimming digital audio/video data
US6574416B1 (en) 1995-11-02 2003-06-03 Videa, Llc Picture-based video indexing system
US6526219B1 (en) 1995-11-02 2003-02-25 John G. Posa Picture-based video indexing system
US6332147B1 (en) 1995-11-03 2001-12-18 Xerox Corporation Computer controlled display system using a graphical replay device to control playback of temporal data representing collaborative activities
US5852435A (en) 1996-04-12 1998-12-22 Avid Technology, Inc. Digital multimedia editing and data management system
US5890152A (en) 1996-09-09 1999-03-30 Seymour Alvin Rapaport Personal feedback browser for obtaining media files
US20030093790A1 (en) 2000-03-28 2003-05-15 Logan James D. Audio and video program recording, editing and playback systems using metadata
USRE38401E1 (en) 1997-01-16 2004-01-27 Obvious Technology, Inc. Interactive video icon with designated viewing position
US6069606A (en) 1997-05-15 2000-05-30 Sony Corporation Display of multiple images based on a temporal relationship among them with various operations available to a user as a function of the image size
US6281898B1 (en) 1997-05-16 2001-08-28 Philips Electronics North America Corporation Spatial browsing approach to multimedia information retrieval
US7559039B2 (en) 1998-07-14 2009-07-07 Brad Ridgley Method and device for finding, collecting and acting upon units of information
US20100145794A1 (en) 1999-10-21 2010-06-10 Sean Barnes Barger Media Processing Engine and Ad-Per-View
US6249281B1 (en) 2000-02-28 2001-06-19 Presenter.Com On-demand presentation graphical user interface
JP2001269482A (ja) 2000-03-24 2001-10-02 Konami Computer Entertainment Japan Inc ゲームシステム、ゲーム用プログラムを記録したコンピュータ読み取り可能な記録媒体及び画像表示方法
US6807361B1 (en) 2000-07-18 2004-10-19 Fuji Xerox Co., Ltd. Interactive custom video creation system
US7216305B1 (en) * 2001-02-15 2007-05-08 Denny Jaeger Storage/display/action object for onscreen use
CA2385401C (en) * 2001-05-07 2012-09-25 Vizible.Com Inc. Method of representing information on a three-dimensional user interface
US6977659B2 (en) 2001-10-11 2005-12-20 At & T Corp. Texture replacement in video sequences and images
US7149974B2 (en) 2002-04-03 2006-12-12 Fuji Xerox Co., Ltd. Reduced representations of video sequences
US7246322B2 (en) 2002-07-09 2007-07-17 Kaleidescope, Inc. Grid-like guided user interface for video selection and display
US7194527B2 (en) 2002-06-18 2007-03-20 Microsoft Corporation Media variations browser
US11275405B2 (en) 2005-03-04 2022-03-15 Apple Inc. Multi-functional hand-held device
US7274741B2 (en) 2002-11-01 2007-09-25 Microsoft Corporation Systems and methods for generating a comprehensive user attention model
US20040130566A1 (en) * 2003-01-07 2004-07-08 Prashant Banerjee Method for producing computerized multi-media presentation
US8572104B2 (en) 2003-04-18 2013-10-29 Kaleidescape, Inc. Sales of collections excluding those already purchased
US20050097135A1 (en) 2003-04-18 2005-05-05 Ian Epperson Touch panel user interface
US7120619B2 (en) 2003-04-22 2006-10-10 Microsoft Corporation Relationship view
US7483618B1 (en) 2003-12-04 2009-01-27 Yesvideo, Inc. Automatic editing of a visual recording to eliminate content of unacceptably low quality and/or very little or no interest
US7437005B2 (en) 2004-02-17 2008-10-14 Microsoft Corporation Rapid visual sorting of digital files and data
WO2006094308A2 (en) 2005-03-04 2006-09-08 Apple Computer, Inc. Multi-functional hand-held device
US20070011603A1 (en) 2005-07-06 2007-01-11 Mikko Makela Method, system, device and software product for showing tooltips for page segments and generating content for the page segments
US8166010B2 (en) 2005-07-26 2012-04-24 Taptu Limited Processing and sending search results over a wireless network to a mobile device
WO2007021560A2 (en) * 2005-08-12 2007-02-22 Wms Gaming Inc. Three-dimensional gaming system environments
US20070061247A1 (en) 2005-09-14 2007-03-15 Jorey Ramer Expected value and prioritization of mobile content
EP1793344A1 (en) 2005-11-30 2007-06-06 THOMSON Licensing Method of emendation for attention trajectory in video content analysis
US8037506B2 (en) 2006-03-03 2011-10-11 Verimatrix, Inc. Movie studio-based network distribution system and method
EP2011017A4 (en) 2006-03-30 2010-07-07 Stanford Res Inst Int METHOD AND APPARATUS FOR ANNOTATING MULTIMEDIA STREAMS
US8564544B2 (en) 2006-09-06 2013-10-22 Apple Inc. Touch screen device, method, and graphical user interface for customizing display of content category icons
US20090064029A1 (en) * 2006-11-27 2009-03-05 Brightqube, Inc. Methods of Creating and Displaying Images in a Dynamic Mosaic
JP2008146453A (ja) * 2006-12-12 2008-06-26 Sony Corp 映像信号出力装置、操作入力処理方法
US7877707B2 (en) 2007-01-06 2011-01-25 Apple Inc. Detecting and interpreting real-world and security gestures on touch and hover sensitive devices
GB0704319D0 (en) * 2007-03-06 2007-04-11 Areograph Ltd Image capture and playback
US20080298643A1 (en) * 2007-05-30 2008-12-04 Lawther Joel S Composite person model from image collection
US20090049384A1 (en) * 2007-08-13 2009-02-19 Frank Yau Computer desktop multimedia widget applications and methods
US7956848B2 (en) 2007-09-04 2011-06-07 Apple Inc. Video chapter access and license renewal
US8402394B2 (en) * 2007-09-28 2013-03-19 Yahoo! Inc. Three-dimensional website visualization
US8233676B2 (en) 2008-03-07 2012-07-31 The Chinese University Of Hong Kong Real-time body segmentation system
US20090289937A1 (en) * 2008-05-22 2009-11-26 Microsoft Corporation Multi-scale navigational visualtization
WO2009155092A2 (en) * 2008-05-29 2009-12-23 Telcordia Technologies, Inc. Method and system for multi-touch-based browsing of media summarizations on a handheld device
GB0813105D0 (en) * 2008-07-17 2008-08-27 Pappas Katsiafas Evangelos Image display and browsing for a computer display with 3D effects
US8887068B2 (en) * 2009-07-31 2014-11-11 Verizon Patent And Licensing Inc. Methods and systems for visually chronicling a conference session

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148771A (ja) * 1998-11-06 2000-05-30 Sony Corp 画像処理装置および方法、並びに提供媒体
JP2006012161A (ja) * 2004-06-28 2006-01-12 Microsoft Corp 対話式視点ビデオシステムおよびプロセス
JP2008518326A (ja) * 2004-10-22 2008-05-29 ヴィディエイター・エンタープライズィズ・インコーポレーテッド モバイル3dグラフィカル・メッセージングのためのシステム及び方法
WO2009111329A2 (en) * 2008-03-04 2009-09-11 Gesturetek, Inc. Enhanced gesture-based image manipulation

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11960446B2 (en) 2017-05-30 2024-04-16 Home Box Office, Inc. Video content graph including enhanced metadata
JP7502372B2 (ja) 2017-05-30 2024-06-18 ホーム ボックス オフィス, インコーポレイテッド 拡張メタデータを含むビデオコンテンツグラフ
JP7502371B2 (ja) 2017-05-30 2024-06-18 ホーム ボックス オフィス, インコーポレイテッド 拡張メタデータを含むビデオコンテンツグラフ
KR101915792B1 (ko) 2017-09-01 2018-11-09 (주)비버스팩토리 얼굴인식을 이용한 광고 삽입 시스템 및 방법

Also Published As

Publication number Publication date
EP2598981B1 (en) 2020-09-23
JP5739531B2 (ja) 2015-06-24
US8762890B2 (en) 2014-06-24
WO2012015889A1 (en) 2012-02-02
EP2598981A4 (en) 2016-02-24
EP2598981A1 (en) 2013-06-05
US20120192115A1 (en) 2012-07-26

Similar Documents

Publication Publication Date Title
JP5739531B2 (ja) 3次元形状のファセット上の関連メディアセグメントの対話型の投影および再生
US11340754B2 (en) Hierarchical, zoomable presentations of media sets
JP7277064B2 (ja) 空間的3d環境に対するコンテンツのマッチング
CN112219205B (zh) 内容到空间3d环境的匹配
US10255227B2 (en) Computerized system and method for authoring, editing, and delivering an interactive social media video
US8386942B2 (en) System and method for providing digital multimedia presentations
KR102161230B1 (ko) 멀티미디어 콘텐츠 검색을 위한 사용자 인터페이스 방법 및 장치
US8174523B2 (en) Display controlling apparatus and display controlling method
US20120216118A1 (en) Methods and Apparatus for Media Navigation
US20090327894A1 (en) Systems and methods for remote control of interactive video
EP2560145A2 (en) Methods and systems for enabling the creation of augmented reality content
ES2914124T3 (es) Focalización multimedia
CN107005741A (zh) 沉浸式缩放交互式电视
EP2431889A1 (en) Content transformation for lean-back entertainment
JP2014522012A (ja) ビジュアル検索及び推奨ユーザインタフェース及び装置
KR20160072015A (ko) 화면 상에 표시된 컨텐트를 배열하는 디바이스 및 그 방법
JP2004178384A (ja) コンテンツ検索方法および装置、プログラム、記録媒体
CN108737850B (zh) 一种视频推荐方法、服务器及客户端
Serra et al. Multimodal Access to Georeferenced Mobile Video through Shape, Speed and Time
US20240094886A1 (en) Applying visual modifiers to objects of interest selected by a pointer from a video feed in a frame buffer via processing circuitry

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140424

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140520

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140922

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20140924

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20140924

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20141016

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150331

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150423

R150 Certificate of patent or registration of utility model

Ref document number: 5739531

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees