JP5739531B2

JP5739531B2 - ３次元形状のファセット上の関連メディアセグメントの対話型の投影および再生

Info

Publication number: JP5739531B2
Application number: JP2013521926A
Authority: JP
Inventors: ファルチュクベンジャミン; インウーチャン
Original assignee: テルコーディアテクノロジーズインコーポレイテッド
Priority date: 2010-07-27
Filing date: 2011-07-27
Publication date: 2015-06-24
Anticipated expiration: 2031-07-27
Also published as: WO2012015889A1; EP2598981A4; EP2598981B1; US8762890B2; JP2014503084A; EP2598981A1; US20120192115A1

Description

本発明は一般にはモバイルおよびデスクトップサービス、対話情報の視覚化、メディアの要約、分析、およびアクセス性に関する。

本発明は、２０１０年７月２７日に出願された米国仮特許出願第６１／３６７，９４５号の利益を主張し、同出願の全ての内容および開示は参照により全体が本明細書に記載されたものとして本明細書に組み込まれる。

デジタルメディア（マルチメディアとしても知られる）は、動画（例えばショートクリップ、テレビ番組、映画の予告編、長編映画等）、画像（例えば写真、画像、またはヒストグラムなどの画像のパラメータ表現等）、テキスト（例えばデジタル形式の印字された単語や記号（楽譜など））、音楽（楽譜や五線譜の音符など、音声の視覚的表現等）、またはスペクトル写真等であることができる。現在、マルチメディアは大半のウェブサイトの主要部分となっており、それに応じて、メディアの分析、要約およびスキミング（skimming）の重要性が増している。要約は、マルチメディアを要約し、まとめる技術であり、一方、分析は、メディアセグメントおよび情報を考察することにより洞察を得る一般的な技術である。スキミングは、要約を通じて探索するとともに、任意で、コンピュータインタフェース（一般的には視覚的な性質であるが、人間の他の感覚を利用する場合もある）の助けを借りて元のソースを探索する行為である。

デジタルメディアの対話および視覚化技術を追究することは、長きにわたる種々の財産となっている。様々な２次元（２Ｄ）技術が、ウェブ、モバイルウェブ、およびデスクトップで広く使用されている。最もよく知られる技術は、情報の２つの次元が、スクロール可能な長い横方向の画像の選択リストなどとして表示されるチャート状の視覚化を含む。第３の次元を持つ（３Ｄ）種々のグラフが多次元の情報を捉えるために長く使用されており、現在も広く使用されている。ＵＳＡＴｏｄａｙ（登録商標）などの雑誌や新聞で見られるような情報画像（infographic）は、非常に定型化されたシーンに情報を印字して提示して、シーン内に情報の視覚的効果を作り出す。そのような現在の技術はシーンを用いておらず、通常は対話型でなく、複雑なマルチメディアに適用されることはめったにない。

現在、マルチメディア特有の映像の広範囲の探索と分析を支援する、根本的に異なる改良された視覚的対話技術が必要とされている。インターネット映像の格納と送信を伴う実質的に全てのウェブサイトは、線形で限定的な低精度の技術を介して、予め選択されたシーンの一覧を通じて検索する能力しか提供しない。しかし、マルチメディアが複雑になるのに従い、問い合わせは、ユーザが「どこかの場面で電子レンジが燃え上がるのはこのポイントだったかな」と考えるなど、より抽象的になる。そのような抽象的な問い合わせは現在の技術では扱いにくい。

図１に２つのそのような技術を示す。上部には、「ギャラリー」とも呼ばれるシーンのホリゾンタルピッカー（Horizontal Picker）を示しており、これは通例は「再生を開始するシーンを選んで下さい」という情報を伴う。この技術は、例えばユーザが関心を持つシーンをシステムがたまたま事前に選択している場合は有効であるが、事前に選択されたシーンしか候補として提供されないため、スキミングまたは要約技術としては一般には有効でない。図の下部にはホバーオーバー式の再生技術を示しており、ユーザがアイコンの上にマウスを置くと、単にキーフレームが再生を開始し、マウスがアイコンから離れると停止する。再生中には、映像全体の再生、セグメントのみの再生、または早送りバージョンの再生等が可能である。この技術では、ユーザは、大抵の場合、マウスがアイコン上にあるときに再生されるメディアセグメント、例えば映像フレームの特定のサブセットの視聴に制限される。また、再生は大抵の場合非常に粗く、対話型でなく、事前に決められたキーフレームの小さなセットに限定され、ユーザはメディアを有意に、または深く「探索」することができない。さらに、この部類の解決法は線形の解決法であり、より高度な概念的検索を考えるユーザにごく基本的な支援しか提供しない。

モバイルのメディアスキミングもデスクトップの場合と同様に未発達であり、モバイル機器のスクリーンサイズが小さいことにより問題が深刻になる。ＳｌｉｎｇＭｅｄｉａ、Ｊｏｏｓｔ（登録商標）、Ｖｅｏｈ、Ｆｌｉｘｓｔｅｒ（登録商標）、ＡＴ＆Ｔ（登録商標）、およびＳｐｒｉｎｔ（登録商標）等の企業による多くのモバイルサービスの中で、リッチな、または有効な映像内スキミングが可能なものはない。上記の大半は、キーワード検索、単純な「テレビガイド」式のインタフェース、および極めて限定された「シーンを選択する」方式のアクションの索引付けを提供する。

球体の表現のみを使用してメディアを視聴するその他の方式では、動的な適合を行うことができず、範囲、フォーカス、および時間に関して球体上のメディア単位の対話型の探索を支援しない。例えば、３次元（「３Ｄ」）のゲームの世界にある仮想カメラを調整したり、３Ｄの仮想オブジェクトにマッピングされてオブジェクトに「スキン」を与えるテクスチャを定義したりするための多くの方式が存在する。例えば、ビデオゲームの方式の１つでは、視覚的に説得力のあるキャラクターを作り出すために、３Ｄキャラクターにテクスチャマッピングを施す。しかし、この方式は対話型でなく、テクスチャはメディアのセマンティック（semantic）を全く伝えない。ビデオゲームにおける使用例では、テクスチャは通例はリモートサーバから取り込まれるのではなく、同じ場所から一度ローカルに形状として取り込まれる。キャラクター上の箇所は、ユーザの「タッチ」に対して対話型ではない。このような解決法は、本来は有効であるが、対話型の情報主体的な方式は扱わない。

メディアの分析および要約を改良し、その際にエンドユーザが検索語を入力したりその他の形式でテキスト情報を理解したりすることを強制せずに改良することが必要とされる（したがってユーザが読み書きをできなくとも効率的に検索を行うことができる）。この問題は、特に、デジタル技術を使用して、行うのに過度に長い時間がかからず、過度に非直感的でもない迅速なスキミングセッションでメディアの洞察を得ることに関して生じる。２Ｄも有効であるが、ソフトウェアおよびハードウェアによるグラフィック高速化の向上により、ラップトップ、タブレット、およびスマートフォンを含む実質的に全ての媒体で３Ｄ表現（または視覚的「メタファー」）を表示することができる。３Ｄメタファーを効果的に使用するとスキミング体験を劇的に向上させることができる。その結果問題となるのは、分析を行いメディアの要約を経験しようとするユーザに効果的かつ直感的にスキミングセッションを伝達する３Ｄメタファーを、どのようにして装置スクリーン上に（装置の種類に関係なく）作り出すかということになる。

メディアスキミングおよび検索を行うための新規の対話型システムおよび方法を提示する。この方法は、静的なライブメディア情報で装飾された３Ｄシーンおよび形状を備えるユーザインタフェースを生成し、形状自体が対話型の視覚化表面となるようにし、ユーザがリッチコンテンツを直ちに、または全体をロードする必要なしに、基礎となるリッチコンテンツを分析し、理解することを助ける。

本発明の技術は、多くのリッチコンテンツのリソースタイプおよび動画を含むマルチメディアに対して非常に有効である可能性があり、マルチメディアは、テレビおよび動画、ＹｏｕＴｕｂｅ（登録商標）やＦｌｉｃｋｒ（登録商標）等のサイトで見られるようなユーザが生成したあらゆる種類のコンテンツ、画像、写真、ＧＩＳおよび／または地図データ、電子書籍および図像コンテンツ、楽譜、医療情報、美術画像、踊りの振り付け、連絡先、音楽情報、フローチャートやスペクトル写真等の科学データ等を含む。本明細書では、用語「メディア」および「マルチメディア」を、ユーザがスキミングまたは検索することを望みうる任意の種類の情報に関して使用する。本明細書では、用語「メディアセグメント」（または単に「セグメント」）を、マルチメディアエンティティの小さな部分の意味で使用し、例えば、大きなセットの中の１枚の写真、大きな写真の一部分（例えば右下付近の範囲）、大きな音楽作品の１小節、書籍の１ページ、ページ中の１つの単語、１つの映像全体の中の１つの映像シーン、または１つの映像シーン中の１映像フレーム等である。

本発明の手法は、上述のホバーオーバーや線形「ピッカー」の技術と比べてはるかに洗練されている。本発明の手法では、３Ｄメタファーと、ユーザのスキミングセッションを制限しないメディアセグメントの開集合とを用い、また、マルチメディア中で非線形の移動を用い、すなわち、当技術分野で知られる線形の（時間に関して高価な）部類の解決法とは逆にユーザは自由に視点を変えることができることを意味する。

装置上で対話型のメディアスキミングおよび検索を行うためのシステムは、シーンオブジェクトの１つまたは複数のファセットを使用してマルチメディアソースからの視覚的画像をテクスチャとして動的に伝達する、装置のスクリーン上で見ることができるメディアのマルチメディアセグメントの３Ｄシーンのモデルを構築するように動作可能であり、シーンオブジェクトと、オブジェクトファセットと、マルチメディアセグメントとの間の探索可能な論理的関係を維持するように動作可能であるシーンマネージャと、３Ｄシーンのモデルとのユーザの対話を捕捉し、管理するように動作可能であり、オブジェクトファセットおよびマルチメディアセグメントにスクリーン画素をマッピングするようにシーンマネージャに指示するように動作可能であり、特定のモードでは対話の解析を制限することによりユーザ体験を簡略化するように動作可能なインタラクションマネージャと、ユーザ名と、パスワードと、権限と、特定のマルチメディアカテゴリについての好みの３Ｄシーンタイプを少なくとも含むユーザ嗜好とをセキュアに記憶するように動作可能なユーザマネージャと、ユーザ対話に応答して概略再生（rough playback）および高解像再生のうちの一方を開始するように動作可能であり、３Ｄシーン内の３Ｄ形状の適切なファセットを判定し、マルチメディアが適切なファセットで再生されて見えるようにマルチメディアを変換するように動作可能な再生コンポーネントと、特定の対象３Ｄファセットのためにメディア中のマルチメディアセグメントの特定されたセットから２Ｄテクスチャのアーチファクトを作成するように動作可能であり、その結果生じる、特定の対象３Ｄファセット上に伸張されたかのようにテクスチャを見る動作が成功し、マルチメディアの１つまたは複数の視点が特定の対象３Ｄファセット上で明瞭に見えるようにする、テクスチャライザと、選択されたメディアセグメントおよびテクスチャの１つまたは複数の画素を、要求に応じて変換および変更するように動作可能であり、その結果生じる２Ｄテクスチャアーチファクトが３Ｄシーン内の１つまたは複数の形状ファセットに投影されたときにのみ、完全に表示される画素を介して当該生じた２Ｄテクスチャアーチファクトが新しい情報を含むようにする、トランスフォーマと、メディアセグメント、テクスチャ、シーンメタデータ、ならびにマルチメディアカテゴリおよび個々のセグメントに関係付けられた好みの３Ｄシーンタイプおよびオブジェクト、の１つまたは複数を記憶し、索引付けするように動作可能なキャッシュと、１つまたは複数のオブジェクトと、オブジェクトファセットと、仮想カメラと、カメラに対するオブジェクトの位置とを含む３Ｄシーンのセット、および、３Ｄシーンのセットの各セットと特定のマルチメディアカテゴリとの関係または特定されたマルチメディアリソースの特定のセットとの関係を維持するように動作可能なシーンヒューリスティックとを備え、有効なユーザ名およびパスワードがユーザマネージャによって判定されると、シーンマネージャが、テクスチャライザ、トランスフォーマ、およびキャッシュに従ってモデルを構築する。

一態様では、インタラクションマネージャにより捕捉および管理されるインタラクションの１つまたは複数は、キュー（cue）、要約、または対話型のメディアスキミングおよび検索に関連するその他の情報が表面にマッピングされた３Ｄ形状を回転、拡大縮小、および移動する命令として解釈される。一態様では、シーンマネージャは、３Ｄ形状と、３Ｄ形状のファセット上で視覚情報を順序付けする手段とを選択するようにさらに動作可能であり、一連の順序付けされたメディアセグメントは、３Ｄ形状の１の側面でおおまかなセグメントの順序付けを視覚的に見ることができ、３Ｄ形状の別の側面でセグメントアクションを見ることができるように順序付けされる。一態様では、シーンマネージャは、スキミングセッション間で３Ｄシーンを動的に適合することと、所与のメディアに対して関連するメディアシーンを動的に生成して、３Ｄ形状が相互および仮想カメラとの関係で配置され、主要形状に対する３Ｄ形状および仮想カメラの相対位置が主要形状との関連性を伝達し、配置された各３Ｄ形状が、テクスチャライザおよびトランスフォーマとの対話を介してメディア情報を伝達するようにすることと、の１つまたは複数を行うようにさらに動作可能である。一態様では、シーンマネージャは、当初は不鮮明なファセットを有する３Ｄ形状を選択し、テクスチャライザおよびトランスフォーマを使用して、不鮮明なファセットおよび見えているファセットの両方へのマルチメディアコンテンツの投影を生成し、当初は不鮮明なファセットのビューを、事前定義された特定のユーザ対話を介してのみ見えるようにするようにさらに動作可能である。

一態様では、インタラクションマネージャは、インタラクションマネージャとのユーザ対話を分析してから制限および強化することと、３Ｄシーン上で見ることのできるコンテンツへのインタレスト（interest）またはディスインタレスト（disinterest）を示すユーザ対話から探索のためのユーザ対話を区別することと、分解および処理されたユーザ対話に基づいて仮想カメラの動作に作用することと、の１つまたは複数を行うようにさらに動作可能である。一態様では、高解像再生は、現在のシーンおよびメディア内で視聴されている現在の箇所に関するメタデータとともに、外部プレーヤを起動する。一態様では、テクスチャライザは、特定のオブジェクトタイプについての所与の要求に対応するテクスチャファイルを特定することと、特定されたメディアセグメントのセットから特定のオブジェクトタイプのためのテクスチャ形状を作成することと、の１つまたは複数を行うようにさらに動作可能である。一態様では、トランスフォーマは、メディアリソースの識別を入力として受け取り、変換後のメディアへのハンドルを出力として生成するようにさらに動作可能であり、その結果生じるメディアは、その結果生じるメディアのフォーム中に埋め込まれた広告ビットマップを有すること、その結果生じるメディアが、その結果生じるメディアを特定の３Ｄ形状のためのテクスチャとしてより適したものにする新しいフォームを有すること、およびその結果生じるメディアが、元のメディアには存在しなかった強調表示された情報を含むこと、の１つである。一態様では、トランスフォーマは、現在のビュー項目またはテクスチャのセマンティックを判定し、広告ビットマップの好ましい濃度および配置を判定し、広告が関連付けられている特定のセグメントを判定し、特定のセグメントを広告画像に置き換えるか、または特定のセグメントを広告画像で補い、広告画像を含んでいる特定セグメントへの入力にどのように応答するかを記述した命令を記憶することにより、上記出力を作成する。一態様では、システムによってテクスチャ中に埋め込まれた特定の広告にユーザ入力が行われる結果、オプションの仮想カメラの位置が変化し、特定の広告に関連する新しい情報が、３Ｄシーン内の３Ｄ形状のうち１つまたは複数のファセットの特定のセットに表示される。一態様では、３Ｄシーンでユーザ対話が行われる結果、シーン内の形状の回転、移動、または拡大縮小の１つまたは複数を含む調整が行われ、調整がユーザを考慮して行われるときに、高速に変化する可視画像が、ユーザに見える内容を再生中のマルチメディアセグメントの動画ビューとして伝達する。

装置上で対話型のメディアスキミングおよび検索を行うための方法は、シーンオブジェクトの１つまたは複数のファセットを使用してマルチメディアソースからの視覚的画像をテクスチャとして動的に伝達する、装置のスクリーン上で見ることができるメディアのマルチメディアセグメントの３Ｄシーンのモデルを構築し、シーンオブジェクトと、オブジェクトファセットと、マルチメディアセグメントとの間の探索可能な論理的関係を維持するステップと、３Ｄシーンのモデルとのユーザの対話を捕捉および管理し、オブジェクトファセットおよびマルチメディアセグメントにスクリーン画素をマッピングし、特定のモードでは対話の解析を制限することによりユーザ体験を簡略化するステップと、ユーザ名と、パスワードと、権限と、特定のマルチメディアカテゴリについての好みの３Ｄシーンタイプを少なくとも含むユーザ嗜好とをセキュアに記憶するステップと、ユーザ対話に応答して概略再生および高解像再生の一方を開始し、３Ｄシーン内の３Ｄ形状の適切なファセットを判定し、マルチメディアを適切なファセットで再生して見えるようにマルチメディアを変換するステップと、特定の対象３Ｄファセットのためにメディア中のマルチメディアセグメントの特定されたセットから２Ｄテクスチャのアーチファクトを、テクスチャライザを使用して作成するステップであって、その結果生じる特定の対象３Ｄファセット上に伸張されたかのようにテクスチャを見る動作が成功し、マルチメディアの１つまたは複数の視点が特定の対象３Ｄファセット上で明瞭に見えるようにする、ステップと、選択されたメディアセグメントおよびテクスチャの１つまたは複数の画素を、要求に応じてトランスフォーマを使用して変換および変更するステップであって、その結果生じる２Ｄテクスチャアーチファクトが３Ｄシーン内の１つまたは複数の形状ファセットに投影されたときにのみ、完全に表示される画素を介して、その結果生じる２Ｄテクスチャアーチファクトが新しい情報を含むようにする、ステップと、メディアセグメント、テクスチャ、シーンメタデータ、ならびにマルチメディアカテゴリおよび個々のセグメントに関係付けられた好みの３Ｄシーンタイプおよびオブジェクト、の１つまたは複数を記憶し、索引付けするステップと、１つまたは複数のオブジェクトと、オブジェクトファセットと、仮想カメラと、カメラに対するオブジェクトの位置とを含む３Ｄシーンのセット、および、３Ｄシーンのセットの各セットと特定のマルチメディアカテゴリとの関係または特定されたマルチメディアリソースの特定のセットとの関係を維持するステップとを含み、有効なユーザ名およびパスワードが判定されると、テクスチャライザ、トランスフォーマ、およびメディアセグメントの記憶および索引付けのステップに従って、モデルを構築するステップが行われる。

一態様では、対話の１つまたは複数は、キュー、要約、または対話型のメディアスキミングおよび検索に関連するその他の情報が表面にマッピングされた３Ｄ形状を回転、拡大縮小、および移動する命令として解釈される。一態様では、モデルを構築するステップは、３Ｄ形状と、３Ｄ形状のファセット上で視覚情報を順序付けする手段とを選択するステップをさらに含み、一連の順序付けされたメディアセグメントは、３Ｄ形状の１側面でおおまかなセグメントの順序付けを視覚的に見ることができ、３Ｄ形状の別の側面でセグメントアクションを見ることができるように順序付けされる。一態様では、モデルを構築するステップは、スキミングセッション間で３Ｄシーンを動的に適合することと、所与のメディアに対して関連するメディアシーンを動的に生成して、３Ｄ形状が相互におよび仮想カメラとの関係で配置され、主要形状に対する３Ｄ形状および仮想カメラの相対位置が主要形状との関連性を伝達し、配置された各３Ｄ形状が、テクスチャライザおよびトランスフォーマとの対話を介してメディア情報を伝達するようにすることと、の１つまたは複数を行うステップをさらに含む。一態様では、モデルを構築するステップは、当初は不鮮明なファセットを有する３Ｄ形状を選択し、テクスチャライザおよびトランスフォーマを使用して、不鮮明なファセットおよび見えているファセットの両方へのマルチメディアコンテンツの投影を作成し、当初は不鮮明なファセットのビューを、事前定義された特定のユーザ対話を介してのみ見えるようにするステップをさらに含む。一態様では、対話を捕捉および管理するステップは、インタラクションマネージャとのユーザ対話を分析してから制限および強化するステップと、３Ｄシーン上で見ることのできるコンテンツへのインタレストまたはディスインタレストを示すユーザ対話から探索のためのユーザ対話を区別するステップと、分解および処理されたユーザ対話に基づいて仮想カメラの動作に作用するステップと、の１つまたは複数をさらに含む。

一態様では、高解像再生は、現在のシーンおよびメディア内で視聴されている現在の箇所に関するメタデータとともに、外部プレーヤを起動する。一態様では、２Ｄアーチファクトを生成するステップは、特定のオブジェクトタイプについての所与の要求に対応するテクスチャファイルを特定するステップと、特定されたメディアセグメントのセットから特定のオブジェクトタイプのためのテクスチャ形状を生成するステップと、の１つまたは複数をさらに含む。一態様では、１つまたは複数の選択されたメディアセグメントの画素を変換および変更するステップは、メディアリソースの識別を入力として受け取り、変換されたメディアへのハンドルを出力として生成するステップをさらに含み、その結果生じるメディアは、その結果生じるメディアのフォーム中に埋め込まれた広告ビットマップを有すること、その結果生じるメディアが、その結果生じるメディアを特定の３Ｄ形状のためのテクスチャとしてより適したものにする新しいフォームを有すること、およびその結果生じるメディアが、元のメディアには存在しなかった強調表示された情報を含むこと、の１つである。一態様では、現在のビュー項目またはテクスチャのセマンティックを判定し、広告ビットマップの好ましい濃度および配置を判定し、広告が関連付けられている特定のセグメントを判定し、特定のセグメントを広告画像に置き換えるか、または特定のセグメントを広告画像で補い、広告画像を含んでいる特定セグメントへの入力にどのように応答するかを記述した命令を記憶することにより、上記出力が作成される。一態様では、システムによってテクスチャ中に埋め込まれた特定の広告にユーザ入力が行われる結果、オプションの仮想カメラの位置が変化し、特定の広告に関連する新しい情報が、３Ｄシーン内の３Ｄ形状のうち１つまたは複数のファセットの特定のセットに表示される。一態様では、３Ｄシーンでユーザ対話が行われる結果、シーン内の形状の回転、移動、または拡大縮小の１つまたは複数を含む調整が行われ、調整がユーザを考慮して行われる時、高速に変化する可視画像が、ユーザに見える内容を再生中のマルチメディアセグメントの動画ビューとして伝達する。

本明細書に記載される１つまたは複数の方法を実行するためのマシンにより実行可能な命令のプログラムを記憶したコンピュータ可読記憶媒体も提供することができる。

以下の詳細な説明で本発明の非制限的な例示的実施形態として下記図面を参照して本発明をさらに説明するが、全ての図面を通じて同様の部分は同様の参照符号で表す。ただし、理解されるように、本発明は図示の通りの構成および手段に限定されない。

デジタルメディアを検査するための公知技術を示す図である。本発明のシステムの一実施形態のブロック図を示す。本発明のシステムおよび方法の一実施形態を示す図である。本発明のシステムおよび方法の別の実施形態を示す図である。シーンの例を示す図である。シーンの別の例を示す図である。ある範囲のセグメントと「フォーカス」を有する映像メディアを示す図である。メディアの要求、作成、およびデフォルトの提示のシナリオのフローチャートを示す図である。メディアの要求、作成、およびデフォルトの提示のシナリオのフローチャートを示す図である。ユーザによりシーンおよびオブジェクトをカスタマイズするシナリオのフローチャートを示す図である。システムによりシーンおよびオブジェクトをカスタマイズするシナリオのフローチャートを示す図である。再生オプションのフローチャートを示す図である。適合の一種を示す図である。別の種類の適合を示す図である。主要メディアと共にシーンにある関連メディアオブジェクトの例を示す図である。主要メディアと共にシーンにある関連メディアオブジェクトの別の例を示す図である。球体上の半透明の「集中シールド」を示す図である。ＵＭＬ論理図である。本発明のシステムの一実施形態を示す図である。表面の円周上にキーフレームが投影された球体を示す図である。シーンが縦方向の帯領域に配置された代替レイアウトを示す図である。スポーツの試合のビューを生成する実施形態を示す図である。テレビ番組のビューを生成する実施形態を示す図である。広告が挿入される実施形態を示す図である。テキスト情報の挿入と表示を示す図である。テクスチャの変換を示す図である。メタデータの表示と広告挿入レベルの選択を示す図である。例示的なメニューシステムを示す図である。

マルチメディアスキミングのための３Ｄシーンおよび形状を備えた、適合型で対話型の３Ｄユーザインタフェースを作成するためのシステムおよび方法を提示する。

図２は、本発明のシステムの一実施形態のブロック図である。本発明のシステムは装置１０を有し、装置１０は、シーンマネージャ１２、インタラクションマネージャ１４、ユーザマネージャ１６、再生１８、テクスチャライザ２０、トランスフォーマ２２、およびキャッシュ２４を含む。図２に示すように、サーバ２６は、シーンヒューリスティック２８と、キャッシュ、テクスチャライザ、トランスフォーマなどの機能の１つまたは複数とを備えることができる。サーバ２６は、ユーザデータベース３０、コンピュータビジョンサブシステム３２などの追加的な装置および／または情報に接続することができる。他の実施形態では、サーバ機能を装置機能と同じ場所に配置することができる。検討対象のメディアはデータベースまたは他のメディアリポジトリにあることができ、このメディアには、装置から直接、またはサーバを介して間接的にアクセスすることができる。

シーンマネージャ１２は、装置１０のスクリーンで見ることのできる３Ｄシーンのモデルを構築することができる。３Ｄシーンの生成が可能な例示的技術の１つはＯｐｅｎＧＬ（およびその変形）である。モデル内で、シーンＳは、オブジェクトＯ１，Ｏ２，．．．Ｏ_ｎの集合Ｏを含む。各オブジェクトは閉曲面または開曲面であり、各オブジェクトは、シーン軸と呼ばれる座標軸に沿って順序付けられた表面Ｆ１，Ｆ２，．．．Ｆ_ｍの集合Ｆに分解できると考えることができる。これらの表面は平坦なファセット（facet）または湾曲したファセットであってもよく、後にそれらにメディアをマッピングすることができるように順序が付けられる。予め設定されたヒューリスティックで、オブジェクトの選択および表面の分解、ならびに表面へのメディアマッピングの「最適事例」を提供することができる。過去にシステムが遭遇したことがない、任意であるが標準的な形式で記述されたメディアを与えられた場合でも、以前に３Ｄシーンに合わせて適合された同様のメディアを見つけることにより、それらのヒューリスティックを使用することが可能になる。

シーンマネージャ１２は、スキミングセッション間でシーンを適合することもできる。例えば、シーンは、現在スクリーン上で見ることができる（またはこれからすぐに見られると思われる）コンテンツの性質に基づいて、スキミングセッション中に動的に適合することができる。一実施形態では、例えばメトリック（metric）（例えば、シーンのカット率、主要な色等）を使用してメディアの現在のシーンとコンテンツ種別を評価することにより、形状のシーンに変更を加える。また、シーンは、システムのユーザからの要求に基づいて、またはシーンの変更を望む別のシステム構成要素により適合することができる。

シーンマネージャ１２は、所与のメディアＭに関連する上位ｎ個のメディアを判定し、それらを関連度のメトリック（例えば類似度）でソートし、メディアごとにシーンに新しい一時オブジェクトを作成し、オブジェクトに適切なメディアセグメントでテクスチャを付加し、主要オブジェクトまでの距離が関連度に比例するようにそれらのオブジェクトを主要オブジェクトに対して相対的な位置に配置することにより、メディアＭの「関連メディア」のシーンを生成することができる。シーンマネージャ１２は、必要な場合は、適切なネットワークトランスポート要求を使用して、その後ｎ個の関連メディアの判定、そのメディアのソート、または現在のユーザに合わせたセットのカスタマイズを行うことにより、ネットワーク上で利用可能な機能を使用することができる。

インタラクションマネージャ（ＩＭ）１４コンポーネントは、ユーザが本発明のツールとの間で行う対話を捕捉し、管理する。対話は、ジェスチャ、タップ、メニュー選択などのイベント、ならびに必要に応じたその他の対話である。ＩＭはまた、アプリケーションが存在するモードに応じて、シーン上で利用可能なジェスチャを制限および拡張する。例えば「集中モード」（下記で詳しく説明する）では、ＩＭは、ジェスチャ認識を横方向のスワイプのみに限定し、ユーザのスワイプジェスチャの縦方向の成分は無視する。

ＩＭは、入出力装置のスクリーン上でユーザが対話を行った場所を判定し、ファセットを通じてその場所をマッピングすることにより、マルチメディアセグメントに関係付ける。したがって、画素は、セグメントを指す／示すファセットに関連し／、そのようなファセットを指し（画素−＞ファセット−＞セグメント）、それによりシステムは、装置スクリーンとのユーザ対話を介してインタレスト対象のセグメントを把握することができる。

ＩＭは、ユーザ入力を他の方式でも区別する。特定のシーンにおけるインタレストは、そのシーン形状上で行われるユーザのタップ対話やマウスクリックを介して伝達することができる。例えば、ＩＭは、まずスクリーン上の位置Ｐをシーン内の形状Ｓと関係付け、次いで形状のファセットＦに関係付けることにより、現在選択されているメディアシーンＭＳを導出することができる。次いで、Ｆをメディア単位のセット、例えばシーンにマッピングし、そのシーンを含んでいるＭＳを見つける。さらに、シーンに対するディスインタレストの入力は、シーンを、（興味のないシーン上のより強調されていない）別のコンテクスト、または初期もしくはデフォルトのシーンビューに描き替える動作にマッピングされる。

ＩＭは、ドラッグまたはタップが、ユーザが見ている現在のシーンのビューを変化させるのに伴い、仮想カメラの制御を実現することができる。ユーザ入力は、カメラまたはシーンの位置決めにマッピングされ、リアルタイムで反映される。例えば、ユーザは指をスクリーン上で上方向にドラッグして、それに比例して仮想カメラをシーンから「遠ざける」ように動かすことができる。

ユーザマネージャ１６コンポーネントは、ユーザ名およびパスワードをセキュアに記憶することができる。ユーザマネージャは、これらに限定されないが、シーンおよびオブジェクトタイプの好み、ユーザのインタレスト、メディアタイプの好みを含むユーザの嗜好を収集し、記憶することができる。一実施形態では、ユーザマネージャはユーザプロファイルを記憶することができる。

再生１８コンポーネントは、２種類の再生の一方を開始する。一方の種類は概略再生（rough playback）と呼ばれ、シーン内のファセットおよび形状の１つまたは複数にテクスチャが作成され、選択されたメディアセグメントまたは好みのメディアセグメントが「最後まで再生」されるまで継続的に更新される。もう一方の種類は高解像再生と呼ばれ、外部プレーヤが起動され、可能な場合は現在のシーンとメディア内の現在の視聴箇所に関するメタデータがプレーヤに提供される。例えば、ユーザがメディアの時間ｔ＝５２分の箇所を視聴している場合は、再生はその箇所から開始することを試みるか、またはメディアの冒頭から再生することができる。

テクスチャライザ２０コンポーネントは、以下の機能を実行することができる。映像フレーム、静止画像、電子書籍のページ等の特定されたメディアセグメントのセットから２Ｄのテクスチャファイルを作成することができる。テクスチャライザはまた、マシンにより読み取り可能な標準表記（ＸＭＬスキーマ等）を使用して記述された、特定のオブジェクトタイプまたはファセットを求める所与の要求に対応するテクスチャファイルを確認することもできる。例えば、球体形状用のテクスチャは、立方体形状用のテクスチャとは異なる形で生成されるが、テクスチャライザは、どちらのテクスチャ形状も所与の１つのメディアセットから作成することができる。テクスチャライザは、必要な場合は、適切なネットワークトランスポート要求を使用し、その要求を実現するためにリモートデータへのアクセスを要求することにより、ネットワーク上で利用可能な機能を使用することができる。任意で、テクスチャライザは、データをローカルのキャッシュに記憶し、索引付けすることができる。

トランスフォーマ２２コンポーネントは、要求に応じて、メディアセグメント、テクスチャ、またはテクスチャファイルの一部を変換および変更する。トランスフォーマへの入力は、トランスフォーマがハンドルを有するマルチメディアリソースの識別、要求される変換の種類を記述する入力パラメータ等である。出力は、変換後のメディアセグメントへのハンドルとすることができる。一実施形態では、変換には、テクスチャビットマップへの広告ビットマップの挿入が含まれ、後にシーンを介してマルチメディアをスキミングする際にユーザがその広告を見る。

出力を生成するためにトランスフォーマによって行われるステップは以下を含むことができる。第１に、現在のテクスチャ上のコンテンツのセマンティックを判定する。第２に、好ましい広告出現率を判定する。第３に、存在する場合には、関連する広告を有するセグメント上の特定のセグメントを判定する。第４に、テクスチャ中の特定のセグメントを広告画像に置き換える。第５に、例えば広告のテキストや広告用のウェブページを生成するなど、そのセグメントへの入力にどのように反応するかをＩＭに指示する。

例として、トランスフォーマによって実行される変換動作には以下を含むことができる。画像のサイズ変更または拡大縮小。境界線、吹き出し、画像等の視覚的注釈の付加。画像へのバンプマップ、グラスエフェクト（glass effect）、ロックテクスチャ（rock texture）等の仮想テクスチャの付加。人間のポーズの抽出。オブジェクトまたはアクションの識別および強調表示、キャッシュへのデータの記憶と索引付け（任意）。適当なネットワークトランスポート要求を使用することによる、ネットワーク上で利用可能な機能の使用（必要な場合）。

キャッシュ２４コンポーネントは、メディアセグメント、テクスチャ、シーンメタデータを記憶し、索引付けすることができる。キャッシュは、その他のコンポーネントからの要求時に、またはスケジュールに従って、またはその両方で、更新および消去を行うこともできる。

シーンヒューリスティック２８コンポーネントは、１つまたは複数のオブジェクトからなる３ＤシーンのセットＧを保持する。それらのシーンは、メディアに再度関係付けすることができるように評価付けとメタタグを有する。例えば、Ｇは、球体および立方体ならびにそれらの位置に関する記述を記述したシーンＳ１と、シーンＳ１に含まれる各形状のファセットセットＦへのマルチメディア情報のマッピングとを含むことができる。

シーンヒューリスティックは、任意のシーンに対してマッピング技術を使用するか、または特定種類のメディアに適用可能な、一般に使用されるシーンのセット（およびそれに関連するオリエンテーション）から得る。例示的なマッピング技術は、例えば、オブジェクトＢを含む３ＤシーンＡ、およびＢのファセットのセット｛Ｆ１，Ｆ２，．．．｝と、マルチメディアセグメントとファセットのセットとの間の明確な順序付けされたマッピングを提供するオリエンテーションを含むことができる。同じシーンＡがメディアタイプＢ（例えばスポーツ映像）には適さない場合もあり、したがってシーンヒューリスティックはそのような不適合を認識する。

図３に、本発明のシステムおよび方法の例示的実施形態を示す。図３に示すように、装置１０はモバイル装置であり、その装置上で球体形状を使用して３Ｄシーンが表示される。焦点エリアは、球体の円周に沿ったファセットからなり、球体の残りの部分はメディアコンテンツを示す。ユーザは、回転、拡大縮小、形状変更、タップ、映像再生等の各種機能を実行することにより、球体と対話することができる。装置側、またはサーバ側、またはその両方にある１つまたは複数のデータベースから、テクスチャ、メディア、シーン、オブジェクト、およびメタデータを装置で利用可能になる。この実施形態では、形状のファセットにマッピングされるテクスチャは、スキミングを行うのに有用な視覚化を備える。

図４に、本発明のシステムおよび方法の別の実施形態を示す。図４に示すように、各種機能を使用してメディアコンテンツを表示することができる。図４に示す機能は、形状モーフィング、シーンの生成、コンテンツ分析、および形状割り当てを含むが、必要に応じて追加的な機能を含めることができる。形状モーフィングは、制約に従って、元のファセットと新しいファセットとの間が一対一、一対多、多対一、または多対多の関係となるように、元の形状から新しい形状のファセットにファセットをマッピングする効果により、シーン内のオブジェクトの形状を変更する。シーンの生成は、任意で、マルチメディアメタデータ（任意でコンテンツ分析コンポーネントによって導出されたコンテンツタイプ等）、または要求される対話のオプション（すなわちユーザにより特定の対話が必要とされる場合は、一部の３Ｄシーンがより適する場合がある）に基づいて、スキミングセッションのための３Ｄシーンを選択し、インスタンス化する。コンテンツ分析は、マルチメディアコンテンツを（任意で実行時に）分析し、コンテンツを既知の（任意で特定のセグメントに関連付けた）１つまたは複数のカテゴリに分類する。このコンテンツ分析では、マルチメディアの属性を分類または認識するために、オブジェクト認識、ヒューリスティック、およびその他の映像分析またはマシンビジョン法を利用することができる。形状割り当てでは、コンテンツ分析と形状の意味的な性質を把握し、数式を適用して、分類された特定のメディアに適する３Ｄ形状を選択することを試みる。キャッシュ２４にセッション間のデータを記憶することができる。

図５にシーンの例を示す。図５の一番上には立方体の「シーンオブジェクト」を示し、立方体の各面がファセットとして認識される。図５の下部には２つの球体の「シーンオブジェクト」を示し、それらの表面が２つのファセットに分割される。各形状のファセットは、データ構造内で親形状に関係付けられる。図５に示すように、立方体と球体はともにシーン境界の中に表示され、そのシーンが適切な出力装置（例えばコンピュータスクリーン）上で提示される。

図６に別のスクリーンの例を示し、この例は円筒形であり、その表面が個別のファセットに分割される。論理的にはファセットは形状との間に関係を有し、例えば、スキミングセッション内の特定のビューに対応するように、円筒形の各ファセットに別々の映像フレームを投影することができる。そのようなセッションは、上記のようにいくつかの別個のビューから構成される可能性が高い。

例示的実施形態では、ユーザが例えば映像のメディアスキミングおよび／または検索を要求する。サーバ２６は、ユーザマネージャ１６、および該当する場合はユーザデータベース３０のユーザ情報と連動して、要求を行ったユーザのユーザＩＤおよび要求されるメディアメタデータを含む要求を分析する。メディアは、特定のカテゴリに分類し、次いで任意で、そのユーザとメディアに適する３Ｄオブジェクトおよびシーンと組み合わせることができる。サーバは、ユーザ要求に対して、メディアセグメント、ならびに３Ｄシーン、オブジェクト、および対話モードを含むメタデータにより応答する。あるいは、ローカルのキャッシュ、または他のいくつかのローカルで利用可能なシステム、もしくは分散システムからデータがロードされる。

次に、装置１０は、表示目的でローカルのメモリに３Ｄシーンを作成し、メディアセグメントおよび他のメタデータを管理し、通常はそれらの項目をメモリ記憶装置またはデータベースにキャッシュする。装置は、事前に規定された方式または適合的な方式で、３Ｄオブジェクト表面へのメディアセグメントの投影を計算する。装置は３Ｄシーンとの対話を可能にする。さらに、３Ｄシーンおよび／またはオブジェクトを、例えばシーンへの新しい３Ｄオブジェクトの追加、オブジェクトの除去、またはオブジェクトの変形により、ユーザとの対話セッション中に適合的に変更することができる。

３Ｄシーンおよびその中のオブジェクトファセットへのメディアのレンダリングは、「シーン」の順序付けと「シーンアクション」の詳細とを明確に分けるために順序付けを使用する。通常、それら２つの局面は、メディアが出現する形状およびファセットの別々の「次元」に対応付けることができる。シーンの次元では、シーン相互に対して、または何らかの単位、例えばメディア中の相対時間を基準としてシーンを順序付けることができる。例えば、シーン１は時間的にシーン２より前の順序が付けられ、シーン１がレイアウトの順序付けでもシーン２の前に出現するようにする。アクションの次元では、アクションがレンダリングされるシーン内のオブジェクトを構成するファセットを使用することにより、特定の３Ｄパスにあるシーン内にアクションが配置される。例えば、下記の図に示すようなファセットを持つ球体の場合には、シーンは形状の上から下に向かって順序付けされ（フレームからなる各帯領域が１つのシーンとなる）、一方、アクションは、球体の「周り」を特定の方向に、例えば円周に沿って進むことができる。

システムを、ユーザが見た時のビューが、メディアの広いコンテクストビューと、それよりも多少明瞭に見ることが可能な焦点エリアの両方を提供するように、３Ｄシーンおよび形状と、その形状へのマッピングを選択するように構成することができる。そのようなメタファーは、いくつかの点で、人間の視覚の知覚システムが物に注目しながらも周辺部にある視覚の手がかりを提供する仕組みに似ている。図７に、「フォーカス」または焦点エリア、すなわち特定部分が詳細に強調された、一定範囲のセグメントを有するスキミングセッションの映像メディアを示す。このシステムでは、範囲とフォーカス値の両方を非線形に適合することができる。

通常、３Ｄシーン内のオブジェクトの目に見える表面の利用を本発明のプログラムにより使用して、ユーザにスキミング体験を提供する。クライアント装置上のシーン内の３Ｄ形状の目に見える表面（ファセットで構成される）を、メディアセグメント（映像のキーフレームやクリップ等）を投影するための「スクリーン」として都合よく使用する。別の使用事例では、３Ｄ形状の目に見える表面と隠れた表面の両方をテクスチャスクリーンとして使用する。サーバまたはクライアント／装置が、目に見える部分と隠れた部分にどのようにメディアを割り当てるかを特定する。３Ｄシーンは、目に見える部分と、該当する場合は隠れた部分の両方にセグメントをレンダリングすることにより作成される。ユーザには、隠れた表面を目に見えるようにする選択肢が与えられる。例えば、典型例として、球体など中空の３Ｄ形状の内側表面は、最初は目に見えない。ユーザオプションにより、ユーザは、形状の内側、例えば球体、立方体、または他の形状の内側に割り当てられたメディアを目に見ることができる。任意で、要求があれば、システムは、隠れた部分を目に見える部分と入れ替えてビューを切り換えることもできる。

隠れた表面の可能な使用法は、３Ｄ形状の内面を使用し、別の形状を第１の形状の中に埋め込み、その内側の形状をスキミングおよび／または検索できる（可能性としてはこれを再帰的に行う）ようにすることが含まれる。いくつかの例には、ユーザによる特殊な入力時にのみ見ることができる球体の内側の面、立方体の内側にある球体、および／または、他の形状の中に形状が入っていて、主要形状が最初に探索される形状であるが、内側の形状のファセットに追加的な情報がマッピングされており、シーン内の仮想カメラがその内側形状をユーザに表示する時にのみその情報を目に見えるようするものが含まれる。

サーバと装置間の対話は、各種方式で行うことができる。一実施形態では、サーバは、可能な対話機能または機能的な対話機能を記述したメタデータ内の命令を送信し、装置がその機能を実施することができる。あるいは、そのデータをクライアント側の装置でキャッシュしておくか、ローカルのキャッシュとリモートのネットワーク化された情報の組み合わせを使用することができる。例示的な対話技術は、装置のタッチスクリーン上のジェスチャ、またはマウスによる対話を含み、それらにより、シーンまたはシーン内のオブジェクトを回転、拡大縮小、または移動することができる。また、装置上でのジェスチャまたは他の入力により、シーン内の仮想カメラの位置を変えて、より戦略的に配置することができる。あるいは、システムが、好ましい位置または最適な位置に自動的にカメラを配置してもよい。また、３Ｄシーン上でのジェスチャにより、シーンのその部分に現在投影されているメディアセグメントへのインタレスト（interest）または（ディスインタレスト）を示すことができる。そのようなジェスチャが、さらなる対話およびシーンオブジェクトとメディアの再割り当てをトリガすることができ、例えば、ユーザがメディアの一部のインタレストのシーンを２度タップすると、そのインタレストのシーンにさらに注目することにより、形状へのメディアセグメントのマッピングが更新される。

本発明により、各種の使用事例またはメディア視聴のための高レベルのシナリオを利用することができる。使用事例の１つは、メディアの要求、作成、およびデフォルトの提示である。この場合、本発明は以下を実行する。システムに既知である特定メディアをスキミングする要求を受け付ける。そのメディアに最適な３Ｄシーンおよびファセットを持つ形状を判定する。ユーザが最も関心を持つメディア部分を特定する。ユーザはそのような部分を明示的に選択する場合も、暗黙的に伝える場合もある。その最も関心のある部分をサポートする、またはその部分へのコンテクストまたはサポートを含むメディアのコンテクスト部分を判定する。ビューの２つの局面を「フォーカス」および「コンテクスト」と呼び、それらを図３および図４に示す。ユーザのクライアント装置に伝達することが可能なテクスチャビットマップの作成。本発明の技術は、形状が、「フォーカス」エリア、例えばユーザが最も関心のある分野を最も効果的な形状部分に提示するように、３Ｄシーンおよびオブジェクトの形状を変え、割り当て直す。例えば、球体の場合は、図３に示すように中央の帯状領域を「フォーカス」とすることができる。すなわち、形状は、その形状の最も効果的な部分にコンテクストメディア（最も関心のある部分をサポートするか、または最も関心のある部分に関連する）を提示する。例えば、球体の場合は、球体のｚ軸に沿って上下に伸びる帯状領域にコンテクストメディアを表示し、その部分にフィーチャをマッピングすると自然に奥行きが小さくなる（foreshortening）ことを利用することができる。したがって、フォーカスはしばしば、球体の目立つ部分、例えばキーフレーム［ｆ１，ｆ２］に表示され、一方、コンテクストは、現在の全ビュー範囲［ｒ１，ｒ２］にあるビューに示される残りの全ての部分であり、［ｆ１，ｆ２］は範囲［ｒ１，ｒ２］に含まれる。したがって、シーン内の３Ｄ形状にスキミングセッションの最初のビューを再構築するために必要なメタデータが、ユーザがスキミングを要求したクライアント装置に送られる。そのようなメタデータはビットマップのテクスチャファイルを含み、それが適切に形状上に投影されると、スキミングビューを提供する。

したがって、メディアの要求、作成、およびデフォルトの提示の一部として、以下の動作も行われる。ユーザが３Ｄ形状を検査し、形状のインタレストの部分にいくつかのメディアテクスチャを見る。ユーザは、インタレスト部分をより目に見えるように形状を回転（または他の形で位置を変更）する。ユーザは、入力機構（例えばスクリーンのタップやマウスによる選択）を使用してそのインタレスト部分を選択するか、または例えば２度タップする等のジェスチャを行う。それに対して、システムは、選択されたファセットを、メディアセグメントと現在の範囲におけるそのセグメントの位置とに関係付ける。システムは、現在の範囲を何らかのサブセットに分割することにより新しいビュー範囲を判定し、選択されたセグメントがそのサブセット範囲の時間的または論理的な「中心」に近くなるようにする。システムは、新しいサブセットに従って、サーバから、または任意でキャッシュからメディアセグメントをロードする。システムは、セグメントをシーン内の３Ｄオブジェクトに割り当て、レンダリングする。その結果、オブジェクトは、インタレスト部分の「ズームイン」ビューをカプセル化する。この使用事例では、ユーザは、一連の別個のビューと対話することによりメディアのスキミングを続け、各ビューは、現在のシーンとその形状、ならびに現在のユーザの嗜好に基づいて計算される。

ユーザのインタレストを伝えるメディアシーンへの対話にシステムがどのように反応するかの例として、ビュー範囲（ＲＯＶ）＝メディアセグメント１〜１０００を考える。ユーザが、ＲＯＶ４００〜５００に対応する３Ｄ形状のファセットにあるセグメントに触れる。システムは、範囲４００〜５００の詳細なセグメントを読み込み、そのセグメントを３Ｄオブジェクト全体に分散させる。システムは、現在のオブジェクトのフォーカスがそのメディアセグメントになるようにフォーカスを設定する。したがって、この回の反復では、形状のファセットを再使用して１つ前のビューより小さいＲＯＶのサブセットを伝達し、この処理を反復する。ＲＯＶを継続的に縮小する場合を「ズームイン」と表現し、ＲＯＶを拡大する場合を「ズームアウト」と表現する。

１つの次元への均等なメディアのサンプリングを使用してセグメントをマッピングする例示的方法を提示する。初めに、メディアセグメントを順序付けることが可能な形状次元Ｄ、例えば映像フレームの時間を選択する。その次元上に割り当てることができる対象形状の順序付けされたファセットのセットを判定する（例えば次元が球体の円周である場合は、ファセットは、その次元の周りにあるファセット、例えば円周に沿ったファセットとなる）。要求されるメディア（問い合わせで提供され得るか、またはデフォルトのメディアであり得る）のインタレスト部分（またはセグメント）を判定する。選択された形状上
の次元に追加するのに必要なｎ個のサンプルを判定する。ユーザが関心を持つメディアセグメントの範囲から、ｎ個のメディアセグメントを均等に（例えば全てのフレーム、１つおきのフレーム、２つおきのフレーム、３つおきのフレームなど）サンプリングする。いくつかの利用可能なファセットのために追加的なセグメントを非均等に選択することが必要となる場合があるが、その必要が生じうるのは、均等な方式で最大数のファセットを割り当てた後のみである。追加的な変換が必要な場合は、セグメントがテクスチャに構成される前にセグメントを変換するか、または完成した後にテクスチャを変換する。

非均等なメディアサンプリングを使用してセグメントをマッピングする別の詳細な方法を説明する。この方法は、非均等なセグメントの選択を用いて、ｎ個のメディアセグメントは、それらの番号付けおよび他のセグメントとの関係に基づいて（例えばフレーム番号に基づいて）選択されるのではなく、独立して選択され、例えば色相／彩度（例えば彩度の順にサンプリングする）、カメラ動作（例えばカットやパンなどのカメラ動作に関係するセグメントを優先する）、特定のユーザタグを持つセグメント（例えばユーザにより事前に特定され、タグ付けされたセグメント）に基づいて選択される場合を除いて、均等なサンプリング方法と同じである。

図８にこのシナリオにおけるステップを示す。ステップＳＡ１で、メディアリストを提示する。ステップＳＡ２で、ユーザが単一のメディアを選択する。ステップＳＡ３で、メディアセマンティックを判定する。ステップＳＡ４で、適切なシーンおよびオブジェクトを判定する。ステップＳＡ５で、デフォルトのビューが要求されるかどうかを判定する。ＳＡ５＝ＹＥＳの場合はデフォルトのビューを使用し、ステップＳＡ６でデフォルトのビューを構成するメディアセグメントがロードされる。そして処理はステップＳＡ９に進む。

一方ＳＡ５＝ＮＯの場合は、ステップＳＡ７で、現在要求されるビューを構成するセグメントのみをロードする。ステップＳＡ８で、シーンの形状軸とシーン動作を選択する。

ステップＳＡ９で、セグメントを形状ファセットにマッピングし、インデックスおよびプロジェクトメディアを作成する。ステップＳＡ１０で、変換が要求されるかどうかを判定する。変換が要求される場合（ＳＡ１０＝ＹＥＳ）は、ステップＳＡ１１で変換を実行し、広告を挿入する等ができる。次に、および変換が必要でない場合（ＳＡ１０＝ＮＯ）は、ステップＳＡ１２でユーザにシーンを提示する。

さらに、ステップＳＡ１３で、ユーザジェスチャまたはユーザ入力を取得する。ジェスチャが「シャトル」である場合（ＳＡ１４＝ＹＥＳ）、またはジェスチャが「インタレスト」である場合（ＳＡ１５＝ＹＥＳ）、またはジェスチャが「ディスインタレスト」である場合（ＳＡ１６＝ＹＥＳ）は、ステップＳＡ１７で、提案されたユーザ動作に見られるメディアセグメントに対応する新しいテクスチャを要求する。ステップＳＡ１８で、セグメントを形状ファセット上にマッピングし、インデックスおよびプロジェクトメディアを作成する。ステップＳＡ１９で、変換が要求されるかどうかを判定する。変換が要求される場合（ＳＡ１９＝ＹＥＳ）は、ステップＳＡ２０で変換を行い、広告を挿入する等ができる。次に、および変換が必要でない場合（ＳＡ１９＝ＮＯ）は、ステップＳＡ２１でユーザにシーンを提示する。

あるいは、ジェスチャが「シャトル」でもなく（ＳＡ１４＝ＮＯ）、「インタレスト」でもなく（ＳＡ１５＝ＮＯ）、「ディスインタレスト」でもない（ＳＡ１６＝ＮＯ）場合は、ジェスチャが「戻る」であるかどうかを判定する。「戻る」の場合は（ＳＡ２２＝ＹＥＳ）、ステップＳＡ２３で、キャッシュから１つ前のビューを要求する。処理はステップＳＡ２１に続く。

ジェスチャが「戻る」でない場合（ＳＡ２３＝ＮＯ）は、ジェスチャが「回転」であるかどうかを判定する。「回転」の場合（ＳＡ２４＝ＹＥＳ）は、ステップＳＡ２５で、必要に応じて、シーンおよび／またはオブジェクトの回転、移動、拡大縮小を実行する。処理はステップＳＡ２１に進む。

シナリオＢは、シーンおよびオブジェクトのカスタマイズと、提示への広告の組み込みであり、ユーザベースのシーン選択およびシステムベースのシーン選択の両方を含む。図９は、ユーザによるシーン選択のステップのフローチャートである。ステップＳＢ１で、ユーザが好みのシーンおよび／または形状を選択する。ステップＳＢ２で、警告が必要かどうかを判定する。警告が必要な場合（ＳＢ２＝ＹＥＳ）は、ステップＳＢ３で警告を提示する。次に、警告が必要でない場合は（ＳＢ２＝ＮＯ）、ステップＳＢ４で、シーンの形状軸とシーン動作を選択する。ステップＳＢ５で、セグメント形状をファセットにマッピングし、インデックスおよびプロジェクトメディアを作成する。ステップＳＢ６で、変換が要求されるかどうかを判定する。変換が要求される場合（ＳＢ６＝ＹＥＳ）は、ステップＳＢ７で変換を行い、広告を挿入する等ができる。次に、および変換が必要でない場合（ＳＢ６＝ＮＯ）は、ステップＳＢ８でユーザにシーンを提示する。

図１０は、システムベースの選択のシナリオＢのフローチャートである。ステップＳＢ９で、システムが、メディアとシーン／形状との不整合を検出する。ステップＳＢ１０で、システムが好みのシーンおよび／または形状を選択する。次いで処理は、上記でユーザによるシーン選択の場合について説明したステップＳＢ２〜ＳＢ８に進む。

シナリオＣは、ユーザがシーンを探索するシーン対話であり、シーンオブジェクトの回転、仮想カメラの視点の変更、再生等を含む。このシナリオは、オブジェクトの選択、ファセットの選択、ならびに低解像度および高解像度両方のマルチメディアの再生を含む。このシナリオはプレビューのオプションを含み、ユーザは時間に基づくメディア、例えば映像のプレビューを要求する。システムは、自動的に、かつ移動の効果としてユーザがオブジェクト表面上でマルチメディア動作を知覚するような速度で（部分的にはいわゆる残像による）、１つまたは複数の３Ｄシーンオブジェクトを移動させる。典型例では、いくつかのファセットを持つオブジェクトを仮想カメラの前で回転させ、ファセットを順次高速にユーザに見せる。回転の効果は、任意でユーザジェスチャまたは対話により調整される。

このシナリオは完全な再生機能も含み、ユーザが、対象とするメディア、例えば現在３Ｄシーンで表現されているメディアの完全な再生を要求する。システムは、メディアメタデータを利用して、メディアを最高の精細度で最良に再生するにはどのように再生したらよいかを判断する。一手法では、システムは、そのような再生を支援するために登録されている副次的な独立したアプリケーションを起動する（例えばウェブブラウザアプリケーション内で、アプリケーションが当該メディアを自身のアプリケーション空間で再生するために必要とされる情報とともにＹｏｕＴｕｂｅアプリケーションを起動する）。したがって、メディアは、別のアプリケーションで高精細に再生出力される。任意で、装置がそのような再生に対応できる場合は、シーン内の１つまたは複数の３Ｄオブジェクトの表面で高精細にメディアを再生する。

図１１は、シナリオＣの再生オプションのフローチャートである。ステップＳＣ１で、ユーザが現在のメディアの再生を選択する。ステップＳＣ２で、フル解像度が要望されるかどうかを判定する。フル解像度が要求される場合（ＳＣ２＝ＹＥＳ）は、ステップＳＣ３で、プレイヤーアプリケーションが起動されることの警告を提示する。ステップＳＣ４でプレイヤーアプリケーションが起動される。

一方、フル解像度が要求されない場合（ＳＣ２＝ＮＯ）は、ステップＳＣ５で低解像度のプレビューを作成する。ステップＳＣ６で、必要な場合は追加的なメディアセグメントをダウンロードすることができる。ステップＳＣ７で、メディアセグメントの順序付けまたは低解像度ストリームを作成する。ステップＳＣ８で、ファセット上レンダリングが要望されるかどうかを判定する。ファセット上レンダリングが要求される場合（ＳＣ８＝ＹＥＳ）は、ステップＳＣ９でファセットレンダリングを提示する。ファセット上レンダリングでは、プレビューが、シーン内の形状の１つまたは複数を形状表面に直接レンダリングし、その形状がレンダリングされる表面またはファセットに合致するように形状を調整する。

一方、ファセット上レンダリングが要求されない場合（ＳＣ８＝ＮＯ）は、ステップＳＣ１０で回転レンダリングが要望されるかどうかを判定する。回転レンダリングが要求される場合（ＳＣ１０＝ＹＥＳ）は、ステップＳＣ１１で回転に基づくレンダリングをユーザに提示する。回転に基づくレンダリングでは、特定の形状を連続して回転させ、連続したメディアセグメントが確実に仮想カメラの前を通るようにすることによってプレビューが生成される。この効果はプラキシノスコープ（praxinoscope）に類似する。

一方、回転レンダリングが要求されない場合（ＳＣ１０＝ＮＯ）は、ステップＳＣ１２でフルスクリーンレンダリングをユーザに提示する。フルスクリーンレンダリングでは、仮想カメラのすぐ前にある２Ｄ面上のスクリーンの大半の部分をプレビューが占める。フレームが間欠的に変化してこの効果を作り出す。

シナリオＤはシーンの適合であり、ユーザが形状と対話し、視覚化をよりよく伝えるように形状を変更する。このシナリオは、形状および形状間の関係を含み、３Ｄシーンおよびオブジェクトがユーザに合わせて適合される。メディアまたはインタフェースメタファーの特定局面とのユーザ対話が閾値を満たすかまたは閾値を超える場合、システムは、インタフェースに提示されるシーンに変更を加えることができる。代替法では、ユーザのモードをシステムに明示的に通知することができる。システムは、メディアをマッピングすることができるのに使用される個々の形状領域をより多く提供することによって適合することができるが、各領域で使用することができるメディアセグメントは少なくなる。別の適合法は、提示される形状領域を少なくするが、各領域でより多くのフレームを使用するものである。仮想カメラまたは視点の移動は、隠れた表面を目に見えるようにする別の適合例であり、上記の適合法に限定されない他の空間的な適合である。

この適合、例えば上記変更の結果、シーン内の３Ｄオブジェクトにメディアセグメントが再割り当てされ、したがって、視覚スキミングプロセスにおける３Ｄオブジェクトの役割が変更される。具体的には、シーンが変更され、メディアセグメントが再割り当てされ、セグメントが動的にオブジェクトに再描画される。ユーザのスキミングおよび／または検索セッションは、新しい変更後のシーンで継続する。シーン変更コンポーネントが、インタフェースを適合する最良の方式を判定し、それらには以下の適合法の１つまたは複数が含まれる。画素の使用を最適化する。メディアコンテンツのセマンティックを強化または強調する。特定ユーザの嗜好を満たす。および／または、それらの何らかの混合もしくは他の手法。

一例として、シーン変更コンポーネントは、ユーザの視聴観点を向上するようにクライアント装置上の現在の３Ｄオブジェクトを変換することができ、例えば、立方体をｚ軸に沿って変形して長方形にする、球体を変形して円筒形にする、視点／仮想カメラ位置を変更する、隠れた表面を目に見えるようにする等を行う。したがって、３Ｄ形状についてのメタデータのライブラリに、ファセットへの投影の適合性の度合いや各種コンテンツ（例えばスポーツとニュース）への適合性の度合い等の情報で注釈を付けることができ、そのメタデータを呼び出して、スキミングシーンを変換するための代替の３Ｄ形状の提案を提供することができる。

特定の映像のための特定の形状をスコア付けする数式は、

Ｓ＝（形状の適合性＊形状係数＋メディアタイプ＊コンテンツ係数＋ユーザの嗜好＊ユーザ係数）／３

であり、形状の適合性は、３Ｄシーンでの投影に使用することについての形状、例えば球体の事前の評価付けであり、
メディアタイプは、種々のコンテンツタイプ、例えばスポーツ、ニュース等の投影への適切性を評価付けする係数であり、これは形状の関数であり、
ユーザの嗜好は、形状についてのユーザの好みに関する係数であり、
形状係数、コンテンツ係数、およびユーザ係数は、所与の状況について適宜設定される定数である。

結果Ｓは、所与のメディアおよび所与のユーザについての所与の形状の妥当性の重み付けされた評価付けである。システムが所与のメディアのスキミングセッション内で使用する形状間を選択しているときには、Ｓの値（上記参照）を比較し、Ｓ値が最も大きい形状を選択することができる。

図１２に、適合の一種を示す。このシステムによるスキミングの過程の最中に、ユーザが装置（例えば携帯電話やタブレット）の向きを変えたい場合がある。その場合、シーン内のオブジェクトが球体の場合は、球体が自動的に切り替わって、３Ｄシーンがスクリーンの比率に最適に収まるように適合するモードになる。例えば、球体の場合は、球体の縦の寸法が変換（伸長）され、帯状領域の数が増えるが、各帯状領域に提示されるフレームは少なくなる。任意で、切り換えの結果ユーザが情報をより見つけやすくなると予想される場合は、システムはそのようなモードに自動的に切り替わってもよい。それを実行するために、システムはまずスクリーンの向きの通知（システムレベル）を取得し、次いで向きのモードを現在の３Ｄシーンおよびオブジェクトの要素と比較し、次いで、現在の形状の変換が可能であり、ユーザがそれを望むかどうかを判定し、任意でサーバに更新後の新しいテクスチャを要求することにより変換を行う。

図１３は別の種類の適合を説明する。ユーザが個々のシーンをより詳しく見たいと思い、同時にその傍で他のシーンも見たい場合、ユーザは装置を横方向、例えば横長モードに保持することができる。その結果、球体のレイアウトが自動的に変化して帯状領域の数は減るが、各帯状領域のフレームの数は増える。この処理は上記処理と同様である。

図１４に、関連するメディアオブジェクトのセットＳを計算し、主要メディアと共に３Ｄシーンに表示する適合例を示す。そのようなビューはユーザが直接要求するか、または何らかのヒューリスティックもしくはロジックに従ってシステムが適宜提供することができる。このビューを提示するときに、システムはまず現在のメディアメタデータを分析し、そのメタデータを、現在のメディアに関連するメディアのセットＳを構築するために記憶している可能性のある他のメディアメタデータと比較するか、または外部システムに分析とセットの作成を行うよう要求する。セットＳの作成が完了すると、現在の３Ｄシーンを検査し、現在のシーンに新しいオブジェクトを作成し、Ｓ内の関連項目ごとに１つのオブジェクトが作成される。そのメディアのテクスチャとして、キーフレームおよび／または他のメタデータを使用することができる。そのようなシーンへの追加は、ユーザにとって有用な新しい種類のビューを構成し、そのビューは、ユーザがそのビューを閉じることを選択するか、新たに追加された１つのオブジェクトを選択してスキミングセッションを変更するまでのみ持続する。

一例として、主要メディアに関連すると判定されたセットＳに内の各映像メディアについて、テクスチャとして使用する２つのキーフレームを選択し、３Ｄの球体オブジェクトの場合は、球体をｚ軸に沿って２つの「半球」に分割し、それぞれの半球に各キーフレームをレンダリングする。新しい各オブジェクトを相互に対して配置および拡大縮小して、ボリューム、大きさ、色、形状、または他の面が、メインのメディアに対する相対的な「関連度」を伝えるようにする。

例えば、３Ｄシーンが球体状のオブジェクトで構成される場合は、より小さな複数の球体に関連メディアを割り当てて、それらの球体をメインの球体の周りに軌道状に配置する。オブジェクト間の空間関係は、関連性や意味的な関係性の伝達を助けることを意図する。例えば、関連メディアおよび現在のメディアに対応する各球体間の相対距離を、その「関係」係数（上記要領で計算される）に比例するようにすることができる。新しいシーンとの対話が可能となる。任意で、関連メディアを組み込むことにより、関連メディアとそれらの配置等を強調する、規定されたシーン動画を開始することができる。

図１５に、主要メディアとともにシーン内の関連メディアオブジェクトの別の例を示す。図１５に示すように、球体の円周の中心にシーンが表示され、２つの追加的な球体が表示され、一方はメインの球体の左上に、他方は右下に表示されている。このようなビューは、現在のメディアに関連するマルチメディアを快適で整合性のある形で視覚化するためにシステムによって生成される。

一実施形態では、スキミングセッション内で「集中モード」を可能にして、インタレストの３Ｄ形状の部分および／または最も有用な３Ｄ形状の部分にユーザが注意を向けるのを助け、関連するメディアや広告へのリンク等のコンテクスト情報を提示し、「視覚的オーバーヘッド」（またはｅｘｔｒａｎ）と考えられる３Ｄシーンの部分を部分的または完全に非表示にする。したがって、このモードでは、ユーザは最も有用なファセットにより十分に集中することができ、同時に含んでいる形状全体も把握することができる。このモードは、ユーザにより明示的にトリガし、またはユーザが所与のビュー上で閾値を超える時間量を費やしたときに自動的に起動してもよい。

例えば、ユーザが現在のビューに対し「集中モード」を明示的に選択する。システムは、３Ｄシーンの現在のビューでユーザの気を散らしている可能性のあるコンテクスト情報の多くを、少なくとも部分的に不鮮明にした半透明のペイン（pane）を生成する。システムは、このモードで行うことができる対話の種類を制限してよく、例えばカメラを移動するジェスチャを無効にすることができる。システムは、３Ｄシーンへのビューを部分的または完全に制限する「シールド」を表示する。任意で、３Ｄシーンまたはオブジェクトが、ユーザが気を散らさずに情報を見ることを助けるような形で自動的に移動する。例えば、オブジェクトはゆっくりと一定速度で回転しながら移動することができる。任意で、「シールド」は、さらなる探索、詳細、または広告を可能にする何らかの情報またはリンクを有し、その情報はシステムで生成されるか、リモートサーバから得られる。ユーザは「集中」モードを明示的に終了し、するとシールドオブジェクトが消える。任意で、探索モードを広くする方がよいことがユーザ対話で示されると、システムは自動的にシールドを除去する。

図１６に、球体上の半透明の集中シールド（Shield）を示す。球体上に加えて、または球体上の代わりに、シールド上に広告を配置することができる。シールドは半透明で、ユーザの気を散らす局面を隠すとともに、いくらかのシースルーを可能にする。シールド内に合理的に配置された１つまたは複数の「隙間」により、３Ｄシーンの最も重要な部分を見ることができる。リンクおよび／または他の情報もシールド上に配置することができる。

システムは、メディアと３Ｄオブジェクトのファセットとシーンとを関連付けるデータ構造を維持する。３Ｄシーンがどのように形状を含むかを例示するリレーショナルテーブルの一例は、シーン、形状ＩＤ、形状部分ＩＤ、タイプ、ファセットＩＤ、メディアセグメントＩＤ、および変換（回転、移動、拡大縮小）のフィールドを含むことができる。各形状は、部分、ファセットで構成され、変換を有する。各ファセットまたは部分は、１つのメディアセグメント、例えばキーフレームに関連付けられる。

図１７は、論理的なシステムエンティティがどのように関連付けられるかを示すＵＭＬ論理図である。１つのシーンが１．．．ｎ個の部分に関連付けられる。各部分は１つのタイプ、１つのメディアセグメント、および１．．．ｎのファセットに関連付けられる。ファセットは、１つのメディアセグメントおよび１つの変換にも関連付けられる。１つのメディアセグメントは、メディアＩＤおよび１．．．ｎのメディアソースに関連付けられる。

図１８に、本システムの実施形態を示す。図１８の左側には、シーンの座標（例えばｔ_０〜ｔ_ｎ）を上部から下部に説明し、シーンアクションの座標（例えばｔ_０〜ｔ_ｓ）を左から右に説明している。この座標系は３Ｄ形状にテクスチャをレイアウトする際の基盤となり、スキミングセッションの際にユーザに利益となる。シーンおよびシーンアクションが、３Ｄシーンオブジェクトの各次元にマッピングされる。表示スクリーンの下部に沿ったスクロールバーが、現在のビューで示されるメディアの範囲を視覚化する（例えば、時間で順序が付けられた映像フレームでは、ユーザはフレームの少数のサブセットにズームインする場合があり、それがスクロールバーおよびスクロールサム（scroller thumb）を介して示される）。ビジュアルインジケータが時間的な次元を伝え、背景画像はカスタマイズと適合が可能である。ユーザのジェスチャおよび対話により、３Ｄ形状と３Ｄシーン自体の両方へのセグメント割り当ての再構成が行われる。

図１９〜図２５に、本発明によるスクリーン表示を示す。図１９は、映像キーフレームが表面の円周または中央領域に投影された球体を示す。ファセットにマッピングされた球体周辺の輪として見える追加的なシーンは映像キーフレームで満たされる。中央領域と同様に、全ての帯状領域はメディアセグメントキーフレームで満たされる。

図２０は、縦方向の帯上にシーンが配置された代替レイアウトを示す。図１３と同様に、シーンアクションは下部から上部に表示され、一方、時間は左から右に表示される。

図２１は、スポーツマッチのビューの生成を示す。「分割」線は、順序付けが、当該順序付けの発生後に終了し、リセットすることを意味する時間的な「イクエータ（equator）」である。ユーザは、スキミングまたは検索セッションに有用な追加的な情報を表示するために、装置スクリーン上でジェスチャを行って、シーンまたはシーン内のオブジェクトを回転、拡大縮小、または移動させる。

図２２は、テレビ番組のビューの生成を示す。図２１と同様に、「分割」線が時間的な「イクエータ」となっている。この場合、この線は、順序付けが、当該純情付けの発生後に終了し、リセットすることを意味する。メディアは、図のように１つまたは複数のファセットに直接低解像度で再生することができる。サムスクロール（thumbscroll）が、メディア全体を比較してインタレストの現在の領域を示す。

図２３は、状況依存型の広告、すなわちオブジェクトの表面に直接挿入される広告を示す。そのような広告は、対話型でかつクリック可能にすることができる。

図２４は、オブジェクト、例えば球体にマッピングされるテキスト情報を示す。テキスト情報を、視覚情報と類似の形式で、スキミングおよび／または検索が可能となるようにマッピングすることができる。音楽および／または音声、ならびに他の種類の情報も該当し、含めるのに適する。

図２５は、ポーズの抽出等の高度な処理を適用することによって行うことができるテクスチャの変換を示す。図２５では、人間のポーズを抽出して、ユーザが映像アクションの本質を理解するのを助ける単純な「棒線画」にする。

図２６の上部は、メディアについての例示的なメタデータを示しており、これはユーザからの要求後に表示することができる。図２６の下部は、挿入される広告のレベルに関するユーザの選択を示す。図のように、ユーザまたはシステム管理者が０（広告なし）から６（広告が多い）までから１つのレベルを選択することができる。そのレベルに基づいて、システムは、図２３に示すように広告を挿入し、表示する。

図２７は、６つのユーザオプションを有する例示的なメニューシステムを示す。「Ｂａｃｋ」のオプションは、形状への前のマッピングを復元する。「Ｐｒｅｖｉｅｗ」のオプションは、低解像度バージョンのメディアを表示する。「Ｐｌａｙ」のオプションは、高解像度バージョンのメディアを表示する。「Ｒｅｓｅｔ」のオプションは、初期のビューに戻る。「ＭｅｄｉａＩｎｆｏ」のオプションは、図２６の上部に示すようなメタデータを表示する。「Ｍｏｒｅ」のオプションはさらに多くのオプションを提供する。

例示的システムおよび方法は、携帯電話のオペレーティングシステム、すなわちＡｎｄｒｏｉｄ（登録商標）オペレーティングシステムで実装されている。このプラットフォームは、多数の携帯電話、タブレット、およびテレビで利用可能な広く流通したプラットフォームである。ただし、本発明はこの実施形態およびこのオペレーティングシステムに限定されない。

この実施形態では、メディアサーバは、メディアメタデータとメディアコンテンツ（フレーム、セグメント、ストリーム）の要求に対応する役割を担うＴｅｌｃｏｒｄｉａＡＴＳ研究所内のマシンに設置された。また、メディアサーバは、要求に応じて広告アイコンを提示することもできた。メディアは、スポーツ（フットボール）、漫画および児童向けのメディア、テレビ番組（短いフォーマットと長いフォーマットの両方）、長編映画、広告、監視映像、インタビュー等の分野からとられた。本発明者らは、上記のＴｅｌｃｏｒｄｉａメディアサーバに接続することが可能なネットワーク接続を有するモバイル装置で、我々のアプリケーションを実行した。

本発明のこの実施形態は、本発明のアプリケーションでスキミングすることが可能な一連の利用可能メディアを列挙するように設計されている。ユーザがメディアの１つを選択し、その後スキミングセッションが開始した。本技術は非常に有効で娯楽性があり、モバイルの使用事例でスクリーン空間とネットワーク帯域幅の両方を有効に活用した。本発明を用いてスキミングセッションを開始した後、多くの場合、ユーザが興味のあるものを見つけて映像を再生することを選択するまでに必要な対話はわずか５〜１０回程度であることが判明した。

本発明は、対話型の３Ｄ形状にマルチメディアセグメントを投影することにより、マルチメディアの視覚化とその内容を有用にスキミングする際の課題を克服する。さらに、コンテンツに応じた３Ｄ形状の適合は、今日まで従来技術で体系的には行われていない。

本発明は、有利にメディアの要約およびスキミングを可能にすると共に、直感的なインタフェース技術を提供し、例えば各種形状は本質的に「いじり」回さずにいられず、直接的にユーザの気を引く。利点として、ユーザの貴重な時間が節約される（誤検知を減らす）。本発明は、メディアの抽出に３Ｄ形状表面を多量に使用し、無駄が少ないため、（他の技術と比べて）画素に関して比較的効率的である。一部のセグメントは任意の時には隠されるが、対話を介して迅速かつ簡単に回転して見える状態にすることができる。本発明の新規の技術は軽量であり、初めに高品質バージョンのメディアをユーザにストリーミングする場合と比べると帯域幅を減らし、それにより、結果的に誤検知となる高精細の再生を減らす。本発明の他の利点には、コンテクスト情報を表示するための遠近法（短縮遠近法）の利用、「無料で（for free）」（フリップカード風の）高速のスキミングを行わせる回転、直感的で体感的なユーザインタフェース（ボールを転がすのと同じくらい容易）、コンパクトだが任意で拡大が可能（最高でソース解像度まで）、メディア間で３Ｄ形状を変えることが可能（例えば、形状の表面積が可能な基準の１つである）であることが含まれる。さらに、半径ｒの球体は辺２ｒの立方体よりも表面積が少ないが、いくつかの単純な妥協により立方体と同等のものとし、例えば球体を仮想カメラに近づけて表示して、球体の奥側の領域の一部はビューで切り取られるが、球体が有用な視覚化情報をユーザに伝達するようにする。また、形状の中には他の形状より良好に視覚的連続性を可能にするものがあり、本発明は、メディア自体の属性や事前に設定されたポリシーに基づいて自由裁量でそのような形状を選択し、それにより３Ｄシーン作成に関する局面に柔軟性を与えることができる。

本開示の各種態様は、コンピュータまたは機械による使用が可能な媒体または可読の媒体に実施または記憶された、プログラム、ソフトウェア、またはコンピュータ命令として実施することができ、それらがコンピュータ、プロセッサ、および／または機械で実行されると、コンピュータまたは機械に本発明の方法のステップを行わせる。機械実行可能命令のプログラムを有形に実施して本開示に記載の各種機能および方法を行う、機械可読のプログラム記憶装置、例えばコンピュータ可読媒体も提供される。

本開示のシステムおよび方法は、汎用コンピュータまたは専用コンピュータシステムで実施し、実行することができる。コンピュータシステムは、現在または将来知られる任意種のシステムでよく、通例は、プロセッサ、メモリ装置、記憶装置、入出力装置、内部バス、および／または通信ハードウェアやソフトウェア等と連携して他のコンピュータシステムと通信するための通信インタフェースを含むことができる。システムは、一般にはクラウドと呼ばれる仮想コンピュータシステムで実施することもできる。

コンピュータ可読媒体は、コンピュータ可読記憶媒体またはコンピュータ可読信号媒体とすることができる。コンピュータ可読記憶媒体に関しては、例えば磁気、光学、電子、電磁、赤外線、または半導体システム、機器、もしくは装置、またはそれらの任意の適当な組み合わせとすることができるが、コンピュータ可読記憶媒体はこれらの例に限定されない。コンピュータ可読記憶媒体のさらなる具体例には、携帯型コンピュータディスケット、ハードディスク、磁気記憶装置、携帯型ＣＤ−ＲＯＭ（compact disc read-only memory）、ＲＡＭ（random access memory）、ＲＯＭ（read-only memory）、ＥＰＲＯＭ（erasable programmable read-only memory）（すなわちフラッシュメモリ）、１つまたは複数の配線を有する電気接続、光ファイバ、光学記憶装置、またはそれらの適切な組み合わせが含まれるが、コンピュータ可読記憶媒体はやはりこれらの例に限定されない。命令実行システム、機器、または装置で使用する、またはそれらとの関連で使用するプログラムを保持するまたは記憶することができる有形の媒体をコンピュータ可読記憶媒体とすることができる。

本出願で使用し得る用語「コンピュータシステム」および「コンピュータネットワーク」は、固定型および／または携帯型のコンピュータハードウェア、ソフトウェア、周辺機器、および記憶装置の各種組み合わせを含むことができる。コンピュータシステムは、ネットワーク化されるか、またはその他の形で接続されて協働して行う複数の個々のコンポーネントを含んでも、１つまたは複数の独立型のコンポーネントを含んでもよい。本出願のコンピュータシステムのハードウェアおよびソフトウェアコンポーネントは、デスクトップ、ラップトップ、および／またはサーバ、ならびにサーバのネットワーク（クラウド）等の固定型および携帯型の装置を含むことができ、またそのような装置の内部に含めることができる。モジュールは、何らかの「機能」を実施する、装置、ソフトウェア、プログラム、またはシステムの構成要素であり得、ソフトウェア、ハードウェア、ファームウェア、電子回路等として実施することができる。

上記実施形態は例示的な例であり、本発明がそれらの特定の実施形態に限定されると解釈すべきではない。したがって、添付の特許請求の範囲に定義される本発明の主旨または範囲から逸脱することなく、当業者により各種の変更および改変を実施することができる。

Claims

装置上で対話型のメディアスキミングおよび検索を行うための３Ｄ形状を対話型の視覚的表現として提供するシステムであって、
シーンオブジェクトの１つまたは複数のオブジェクトファセットを使用してマルチメディアソースからの視覚的画像をテクスチャとして動的に伝達する、前記装置のスクリーン上で視認可能なメディアのマルチメディアセグメントの３Ｄシーンのモデルを構築し、ならびに、前記シーンオブジェクトと、前記オブジェクトファセットと、前記マルチメディアセグメントとの間のナビゲート可能な論理的関係を維持するように動作可能なシーンマネージャと、
前記３Ｄシーンの前記モデルとのユーザの対話を捕捉および管理し、前記オブジェクトファセットおよび前記マルチメディアセグメントにスクリーン画素をマッピングするように前記シーンマネージャに指示し、ならびに、特定のモードのときに対話の解析を制限することによりユーザ体験を簡略化するように動作可能なインタラクションマネージャと、
ユーザ名と、パスワードと、権限と、特定のマルチメディアカテゴリについての好みの３Ｄシーンタイプを少なくとも含むユーザ嗜好とをセキュア（securely）に記憶するように動作可能なユーザマネージャと、
ユーザ対話に応答して、概略再生（rough playback）および高解像再生の一方を開始し、前記３Ｄシーン内の３Ｄ形状上の適切なファセットを判定し、ならびに、前記マルチメディアセグメントを前記適切なファセット上で再生して見えるように前記マルチメディアセグメントを変換するように動作可能な再生コンポーネントと、
特定の対象３Ｄファセットに対する前記メディア内の前記マルチメディアセグメントの特定されたセットから２Ｄテクスチャのアーチファクトを生成するように動作可能であり、その結果生じる、前記特定の対象３Ｄファセット上に伸張されたかのように前記テクスチャを見る動作が成功し、前記マルチメディアセグメントの１つまたは複数の視点が前記特定の対象３Ｄファセット上で明瞭に見えるようにする、テクスチャライザと、
１つまたは複数の選択されたメディアセグメントおよびテクスチャの画素を、要求に応じて変換および変更して、その結果生じる２Ｄテクスチャアーチファクトが前記３Ｄシーン内の１つまたは複数の形状ファセットに投影されるときにのみ、完全に表示される画素を介して、前記その結果生じる２Ｄテクスチャアーチファクトが新しい情報を含むようにする、トランスフォーマと、
前記メディアセグメント、前記テクスチャ、シーンメタデータ、ならびに前記マルチメディアカテゴリおよび個々のセグメントに関係付けられた好みの３Ｄシーンタイプおよびオブジェクト、の１つまたは複数を記憶し、索引付けするように動作可能なキャッシュと、
１つまたは複数のオブジェクトと、オブジェクトファセットと、仮想カメラと、前記カメラに対する前記オブジェクトの位置とを含む３Ｄシーンのセット、および、前記３Ｄシーンのセットの各セットと特定のマルチメディアカテゴリとの関係もしくは特定されたマルチメディアリソースの特定のセットとの関係を維持するように動作可能なシーンヒューリスティックと
を備え、
有効なユーザ名およびパスワードが前記ユーザマネージャによって判定されるときに、前記シーンマネージャが、前記テクスチャライザ、前記トランスフォーマ、および前記キャッシュに従って前記モデルを構築し、ならびに、
前記インタラクションマネージャにより捕捉および管理される前記対話の１つまたは複数は、キュー（cue）、要約、または前記対話型のメディアスキミングおよび検索に関連するその他の情報が表面にマッピングされた３Ｄ形状を、回転、拡大縮小、および移動する命令として解釈される
ことを特徴とするシステム。
前記シーンマネージャは、３Ｄ形状と、前記３Ｄ形状のファセット上で視覚情報を順序付けする手段とを選択するようにさらに動作可能であり、一連の順序付けされたメディアセグメントは、前記３Ｄ形状の１つの側面上でおおまかなセグメントの順序付けを視覚的に見ることができ、前記３Ｄ形状の別の側面上でセグメントアクションを見ることができるように順序付けされることを特徴とする請求項１に記載のシステム。
前記シーンマネージャは、スキミングセッション間で前記３Ｄシーンを動的に適合することと、所与のメディアに対して関連するメディアシーンを動的に生成して、３Ｄ形状が相互に、および前記仮想カメラとの関係で配置され、主要形状に対する前記３Ｄ形状および前記仮想カメラの相対位置が前記主要形状との関連性を伝達し、配置された各３Ｄ形状が、前記テクスチャライザおよび前記トランスフォーマとの対話を介してメディア情報を伝達するようにすることと、の１つまたは複数を実行するようにさらに動作可能であることを特徴とする請求項１に記載のシステム。
前記シーンマネージャは、当初は不鮮明なファセットを有する３Ｄ形状を選択し、前記テクスチャライザおよび前記トランスフォーマを使用して、不鮮明なファセットおよび視認可能なファセットの両方へのマルチメディアコンテンツの投影を生成し、前記当初は不鮮明なファセットのビューを、事前定義された特定のユーザ対話を介してのみ視認可能にするようにさらに動作可能であることを特徴とする請求項１に記載のシステム。
前記インタラクションマネージャは、前記インタラクションマネージャとのユーザ対話を分析してから制限および強化することと、前記３Ｄシーン上で視認可能なコンテンツへのインタレスト（interest）またはディスインタレスト（disinterest）を示すユーザ対話から、探索のためのユーザ対話を区別することと、分解および処理されたユーザ対話に基づいて前記仮想カメラの動作に作用することと、の１つまたは複数を実行するようにさらに動作可能であることを特徴とする請求項１に記載のシステム。
前記高解像再生は、前記メディア内で視聴されている現在のシーンおよび現在の位置に関するメタデータとともに、外部プレーヤを起動することを特徴とする請求項１に記載のシステム。
前記テクスチャライザは、特定のオブジェクトタイプについての所与の要求に対応するテクスチャファイルを確認することと、前記特定されたメディアセグメントのセットから前記特定のオブジェクトタイプのためのテクスチャ形状を生成することと、の１つまたは複数を行うようにさらに動作可能であることを特徴とする請求項１に記載のシステム。
前記トランスフォーマは、メディアリソースの識別を入力として受け取り、変換されたメディアへのハンドルを出力として生成するようにさらに動作可能であり、その結果生じるメディアは、前記その結果生じるメディアのフォームの中に埋め込まれた広告ビットマップのうちの一つを有し、前記その結果生じるメディアは、前記その結果生じるメディアを特定の３Ｄ形状のためのテクスチャとしてより適したものにする新しいフォームを有し、前記その結果生じるメディアは、元のメディアには存在しなかった強調表示された情報を含むことを特徴とする請求項１に記載のシステム。
前記トランスフォーマは、現在のビュー項目またはテクスチャのセマンティックを判定し、広告ビットマップの好ましい濃度および配置を判定し、広告が関連付けられている特定のセグメントを判定し、前記特定のセグメントを広告画像に置き換えるか、または前記特定のセグメントを広告画像で補い、前記広告画像を含んでいる前記特定のセグメントへの入力にどのように応答するかを記述した命令を記憶することにより、前記出力を生成することを特徴とする請求項８に記載のシステム。
前記システムによって前記テクスチャ中に埋め込まれた特定の広告にユーザ入力が行われる結果、オプションの仮想カメラの位置が変化し、前記特定の広告に関連する新しい情報が、前記３Ｄシーン内の前記３Ｄ形状のうち１つまたは複数のファセットの特定のセット上に表示されることを特徴とする請求項８に記載のシステム。
前記３Ｄシーン上でユーザ対話が行われる結果、前記３Ｄシーン内の形状の回転、移動、または拡大縮小の１つまたは複数を含む調整が行われ、前記調整が前記ユーザを考慮して行われるときに、高速に変化する可視画像が、前記ユーザに見える内容を、再生中のマルチメディアセグメントの動画ビューとして伝達することを特徴とする請求項８に記載のシステム。
コンピュータ装置上で対話型のメディアスキミングおよび検索を行うための３Ｄ形状を対話型の視覚的表現として提供する、前記コンピュータ装置によって実行される方法であって、
シーンオブジェクトの１つまたは複数のオブジェクトファセットを使用してマルチメディアソースからの視覚的画像をテクスチャとして動的に伝達する、前記コンピュータ装置のスクリーン上で視認可能なメディアのマルチメディアセグメントの３Ｄシーンのモデルを構築し、ならびに、前記シーンオブジェクトと、前記オブジェクトファセットと、前記マルチメディアセグメントとの間のナビゲート可能な論理的関係を維持するステップと、
前記３Ｄシーンの前記モデルとのユーザの対話を捕捉および管理し、前記オブジェクトファセットおよび前記マルチメディアセグメントにスクリーン画素を、前記論理的関係に基づいてマッピングし、ならびに、特定のモードではユーザ対話の解析を制限することによりユーザ体験を簡略化するステップと、
ユーザ名と、パスワードと、権限と、特定のマルチメディアカテゴリについての好みの３Ｄシーンタイプを少なくとも含むユーザ嗜好とをセキュア（securely）に記憶するステップと、
前記ユーザ対話に応答して概略再生（rough playback）および高解像再生の一方を開始して前記３Ｄシーンの前記モデルを表示し、前記３Ｄシーン内の３Ｄ形状の適切なファセットを判定し、ならびに、前記マルチメディアセグメントを前記適切なファセット上で再生して見えるように前記マルチメディアセグメントを変換するステップと、
特定の対象３Ｄファセットに対する前記メディア中の前記マルチメディアセグメントの特定されたセットから２Ｄテクスチャのアーチファクトを、テクスチャライザを使用して生成するステップであって、その結果生じる、前記特定の対象３Ｄファセット上に伸張されたかのように前記テクスチャを見る動作が成功し、および、前記マルチメディアセグメントの１つまたは複数の視点が前記特定の対象３Ｄファセット上で明瞭に見えるようにする、ステップと、
選択されたメディアセグメントおよびテクスチャの１つまたは複数の画素を、要求に応じてトランスフォーマを使用して変換および変更するステップであって、その結果生じる２Ｄテクスチャアーチファクトが前記３Ｄシーン内の１つまたは複数の形状ファセットに投影されたときにのみ、完全に表示される画素を介して、前記その結果生じる２Ｄテクスチャアーチファクトが新しい情報を含むようにする、ステップと、
前記メディアセグメント、前記テクスチャ、シーンメタデータ、ならびに前記マルチメディアカテゴリおよび個々のセグメントに関係付けられた好みの３Ｄシーンタイプおよびオブジェクト、の１つまたは複数を記憶し、索引付けするステップと、
１つまたは複数のオブジェクトと、オブジェクトファセットと、仮想カメラと、前記カメラに対する前記オブジェクトの位置とを含む３Ｄシーンのセット、および、前記３Ｄシーンのセットの各セットと特定のマルチメディアカテゴリとの関係または特定されたマルチメディアリソースの特定のセットとの関係を維持するステップと、
有効なユーザ名およびパスワードが前記記憶したユーザ名およびパスワードに基づいて判定されるときに、前記テクスチャライザのステップ、および、前記トランスフォーマのステップに従って、前記維持した前記３Ｄシーンのセットおよび前記関係に基づいて、前記記憶および索引付けした前記マルチメディアセグメント、前記テクスチャ、前記シーンメタデータ、ならびに、前記３Ｄシーンタイプおよび前記オブジェクト、の１つまたは複数から、前記モデルを変換するステップと
を備え、
前記対話の１つまたは複数は、キュー（cue）、要約、または前記対話型のメディアスキミングおよび検索に関連するその他の情報が表面にマッピングされた３Ｄ形状を回転、拡大縮小、および移動する命令として解釈される
ことを特徴とする方法。
前記モデルを構築する前記ステップは、３Ｄ形状と、前記３Ｄ形状のファセット上で視覚情報を順序付けする手段とを選択するステップをさらに含み、一連の順序付けされたメディアセグメントは、前記３Ｄ形状の１の側面上でおおまかなセグメントの順序付けを視覚的に見ることができ、前記３Ｄ形状の別の側面上でセグメントアクションを見ることができるように順序付けされることを特徴とする請求項１２に記載の方法。
前記モデルを構築する前記ステップは、スキミングセッション間で前記３Ｄシーンを動的に適合することと、所与のメディアに対して関連するメディアシーンを動的に作成して、３Ｄ形状が相互に、および前記仮想カメラとの関係で配置され、主要形状に対する前記３Ｄ形状および前記仮想カメラの相対位置が前記主要形状との関連性を伝達し、配置された各３Ｄ形状が、前記テクスチャライザおよび前記トランスフォーマとの対話を介してメディア情報を伝達するようにすることと、の１つまたは複数を実行するステップをさらに含むことを特徴とする請求項１２に記載の方法。
前記モデルを構築する前記ステップは、当初は不鮮明なファセットを有する３Ｄ形状を選択し、前記テクスチャライザおよび前記トランスフォーマを使用して、不鮮明なファセットおよび見えているファセットの両方へのマルチメディアコンテンツの投影を作成し、前記当初は不鮮明なファセットのビューを、事前定義された特定のユーザ対話を介してのみ見えるようにするステップをさらに含むことを特徴とする請求項１２に記載の方法。
前記対話を捕捉および管理するステップは、前記ユーザ対話を分析してから制限および強化することと、前記３Ｄシーン上で見ることのできるコンテンツへのインタレスト（interest）またはディスインタレスト（disinterest）を
示すユーザ対話から、探索のためのユーザ対話を区別することと、分解および処理されたユーザ対話に基づいて前記仮想カメラの動作に作用することと、の１つまたは複数を実行するステップをさらに含むことを特徴とする請求項１２に記載の方法。
前記高解像再生は、前記メディア内で視聴されている現在のシーンおよび現在の位置に関するメタデータとともに、外部プレーヤを起動することを特徴とする請求項１２に記載の方法。
前記２Ｄアーチファクトを作成する前記ステップは、特定のオブジェクトタイプについての所与の要求に対応するテクスチャファイルを確認するステップと、前記特定されたメディアセグメントのセットから前記特定のオブジェクトタイプのためのテクスチャ形状を作成するステップと、の１つまたは複数をさらに含むことを特徴とする請求項１２に記載の方法。
前記１つまたは複数の選択されたメディアセグメントの画素を変換および変更する前記ステップは、メディアリソースの識別を入力として受け取り、変換後のメディアへのハンドルを出力として生成するステップをさらに含み、その結果生じるメディアは、前記その結果生じるメディアのフォーム中に埋め込まれた広告ビットマップのうちの一つを有し、前記その結果生じるメディアは、前記その結果生じるメディアを特定の３Ｄ形状のためのテクスチャとしてより適したものにする新しいフォームを有し、前記その結果生じるメディアは、元のメディアには存在しなかった強調表示された情報を含むことを特徴とする請求項１２に記載の方法。
現在のビュー項目またはテクスチャのセマンティックを判定し、広告ビットマップの好ましい濃度および配置を決定し、広告が関連付けられている特定のセグメントを判定し、前記特定のセグメントを広告画像に置き換えるか、または前記特定のセグメントを広告画像で補い、前記広告画像を含んでいる前記特定のセグメントへの入力にどのように応答するかを記述した命令を記憶することにより、前記出力が作成されることを特徴とする請求項１９に記載の方法。
前記テクスチャ中に埋め込まれた特定の広告にユーザ入力が行われる結果、オプションの仮想カメラの位置が変化し、前記特定の広告に関連する新しい情報が、前記３Ｄシーン内の前記３Ｄ形状のうち１つまたは複数のファセットの特定のセットに表示されることを特徴とする請求項１９に記載の方法。
前記３Ｄシーンでユーザ対話が行われる結果、前記３Ｄシーン内の形状の回転、移動、または拡大縮小の１つまたは複数を含む調整が行われ、前記調整が前記ユーザを考慮して行われるときに、高速に変化する可視画像が、前記ユーザに見える内容を再生中のマルチメディアセグメントの動画ビューとして伝達することを特徴とする請求項１９に記載の方法。
装置上で対話型メディアスキミングおよび検索を行うための３Ｄ形状を対話型の視覚的表現として提供する方法を実行するための、機械により実行可能な命令のプログラムを記憶したコンピュータ可読記憶媒体であって、前記方法は、
シーンオブジェクトの１つまたは複数のオブジェクトファセットを使用してマルチメディアソースからの視覚的画像をテクスチャとして動的に伝達する、前記装置のスクリーン上で視認可能なメディアのマルチメディアセグメントの３Ｄシーンのモデルを構築し、ならびに、前記シーンオブジェクトと、前記オブジェクトファセットと、前記マルチメディアセグメントとの間の探索可能な論理的関係を維持するステップと、
前記３Ｄシーンの前記モデルとのユーザの対話を捕捉および管理し、前記オブジェクトファセットおよび前記マルチメディアセグメントにスクリーン画素を、前記論理的関係に基づいてマッピングし、ならびに、特定のモードではユーザ対話の解析を制限することによりユーザ体験を簡略化するステップと、
ユーザ名と、パスワードと、権限と、特定のマルチメディアカテゴリについての好みの３Ｄシーンタイプを少なくとも含むユーザ嗜好とをセキュア（securely）に記憶するステップと、
前記ユーザ対話に応答して概略再生（rough playback）および高解像再生の一方を開始して前記３Ｄシーンの前記モデルを表示し、前記３Ｄシーン内の３Ｄ形状の適切なファセットを判定し、ならびに、前記マルチメディアセグメントを前記適切なファセット上で再生して見えるように前記マルチメディアセグメントを変換するステップと、
特定の対象３Ｄファセットに対する前記メディア中の前記マルチメディアセグメントの特定されたセットから２Ｄテクスチャアーチファクトを生成するステップであって、その結果生じる、前記特定の対象３Ｄファセット上に伸張されたかのように前記テクスチャを見る動作が成功し、および、前記マルチメディアセグメントの１つまたは複数の視点が前記特定の対象３Ｄファセット上で明瞭に見えるようにする、ステップと、
選択されたメディアセグメントおよびテクスチャの１つまたは複数の画素を要求に応じて変換および変更するステップであって、その結果生じる２Ｄテクスチャアーチファクトが前記３Ｄシーン内の１つまたは複数の形状ファセットに投影されたときにのみ完全に表示される画素を介して、前記その結果生じる２Ｄテクスチャアーチファクトが新しい情報を含むようにする、ステップと、
前記メディアセグメント、前記テクスチャ、シーンメタデータ、ならびに前記マルチメディアカテゴリおよび個々のセグメントに関係付けられた好みの３Ｄシーンタイプおよびオブジェクト、の１つまたは複数を記憶し、索引付けするステップと、
１つまたは複数のオブジェクトと、オブジェクトファセットと、仮想カメラと、前記カメラに対する前記オブジェクトの位置とを含む３Ｄシーンのセット、および、前記３Ｄシーンのセットの各セットと特定のマルチメディアカテゴリとの関係または特定されたマルチメディアリソースの特定のセットとの関係を維持するステップと、
有効なユーザ名およびパスワードが前記記憶したユーザ名およびパスワードに基づいて判定されると、前記２Ｄテクスチャアーチファクトを作成するステップと、前記１つまたは複数の選択されたメディアセグメントの画素を変換および変更するステップとに従って、前記維持した前記３Ｄシーンのセットおよび前記関係に基づいて、前記記憶および索引付けした前記マルチメディアセグメント、前記テクスチャ、前記シーンメタデータ、ならびに、前記３Ｄシーンタイプおよび前記オブジェクト、の１つまたは複数から、前記モデルを変換するステップと
を備え、
前記対話の１つまたは複数は、キュー（cue）、要約、または前記対話型のメディアスキミングおよび検索に関連するその他の情報が表面にマッピングされた３Ｄ形状を回転、拡大縮小、および移動する命令として解釈される
ことを特徴とするコンピュータ可読記憶媒体。