JP6654134B2

JP6654134B2 - マルチビューオーディオおよびビデオインタラクティブプレイバック

Info

Publication number: JP6654134B2
Application number: JP2016532535A
Authority: JP
Inventors: ニール・バークベック; イサシ・イングヴァ; ダミアン・ケリー; アンドリュー・クローフォード; ヒュー・デンマン; ペリー・トービン; スティーヴ・ベンティング; アニル・コカラム; ジェレミー・ドイグ
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2013-11-20
Filing date: 2014-11-20
Publication date: 2020-02-26
Anticipated expiration: 2034-11-20
Also published as: JP2017504234A; CN105745938B; KR20170143005A; EP3072305B1; KR102054548B1; EP3072305A1; US20240086041A1; AU2022204875B2; AU2020244380B2; AU2019202114B2; AU2020244380A1; US20150143239A1; AU2014352892A1; KR20160085346A; US10754511B2; BR112016009772A8; BR112016009772A2; US11816310B1; WO2015077507A1; KR101869437B1

Description

本開示は、メディアビューイングサービスの分野に関し、特に、マルチビューオーディオおよびビデオインタラクティブプレイバックに関する。

インターネットにおいては、コンテンツ共有プラットフォームまたはその他のアプリケーションは、ユーザが、メディアアイテムのようなデジタルコンテンツをアップロード、ビュー、および共有することを可能にする。そのようなメディアアイテムは、オーディオクリップ、ムービークリップ、TVクリップ、および音楽ビデオのみならず、ビデオブログ、ショートオリジナルビデオ、ピクチャ、写真、その他のマルチメディアコンテンツ等のようなアマチュアコンテンツを含み得る。ユーザは、メディアアイテムを使用、プレイ、および/または、消費する(たとえば、デジタルビデオを見て、デジタル音楽を聞く)ために、(スマートフォン、セルラ電話、ラップトップコンピュータ、デスクトップコンピュータ、ネットブック、タブレットコンピュータのような)コンピューティングデバイスを使用し得る。

ビデオ共有およびソーシャルウェブプラットフォームの人気により、ユーザによって生成されたビデオの量は常に増えている。スポーツイベントまたはコンサートのような多くの出席者を伴うイベントについて、異なる視点および異なる瞬間をカバーする多くのビデオがアップロードされる。現在のビデオ共有サイトは、ユーザに対して、イベントのために利用可能なすべてのビデオを与えるために、これらビデオを推奨し、ランク付けることを試みる。しかしながら、すべてのビデオコンテンツは典型的には、体系化されていないサーチクエリ結果のリストにおいて利用可能であり、イベントに関するビデオの正確な時間および視点が失われる。したがって、ユーザは、単にイベントの単一のビデオを見る傾向にある。それは、ユーザに、単一のコンテンツクリエータから見えていたイベントへの小さなポータルを見せることになる。

以下は、本開示のいくつかの態様の基本的理解を提供するために、本開示の簡略化された概要である。この概要は、本開示の広範囲な概観ではない。それは、本開示の重要な要素または決定的要素を特定することも、本開示の特定の実施の範囲も、または、特許請求の範囲も線引きしないことが意図されている。その唯一の目的は、後に提示されるより詳細な記載に対する前置きとして、本開示のいくつかの概念を、より単純な形式で提示することである。

1つの実施では、インタラクティブマルチビューモジュールが、現実のイベントに関連付けられた複数のメディアアイテムを識別する。複数のメディアアイテムの各々は、ビデオ部分とオーディオ部分とを備える。インタラクティブマルチビューモジュールは、共通基準タイムラインに従って、複数のメディアアイテムの各々のオーディオ部分を同期させ、複数のメディアアイテムの各々に関連付けられた相対的な地理的位置を決定し、同期されたオーディオ部分と相対的な地理的位置とに少なくとも基づいて、インタラクティブマルチビュープレーヤインターフェースに、複数のメディアアイテムを提示する。1つの実施では、インタラクティブマルチビューモジュールはまた、同期されたオーディオ部分に基づいて複数のメディアアイテムを結合することによって、現実のイベントに関連付けられた、単一の編集されたメディアアイテムを生成する。

現実のイベントに関連付けられた複数のメディアアイテムを識別するために、インタラクティブマルチビューモジュールは、現実のイベントを識別するメタデータを有するメディアアイテムを決定する。複数のメディアアイテムの各々のオーディオ部分を同期させるために、インタラクティブマルチビューモジュールは、各オーディオ部分の周波数ベースのオーディオスペクトログラム間の相関を最大化、あるいはそうでない場合には増加させる、複数のメディアアイテムの各々のための時間的なオフセットを決定する。時間的なオフセットは、共通基準タイムラインにおける場所を表現する。複数のメディアアイテムの各々に関連付けられた相対的な地理的位置を決定するステップは、インタラクティブマルチビューモジュールが、複数のメディアアイテムの各々において目に見える複数のポイントに基づいて、現実のイベントの時間において、複数のメディアアイテムの各々をキャプチャするために使用される個別のカメラの相対的な位置を決定するステップ、を含む。

1つの実施では、インタラクティブマルチビュープレーヤインターフェースに、複数のメディアアイテムを提示するために、インタラクティブマルチビューモジュールは、複数のメディアアイテムの各々を表現するアイコンを表示する。各アイコンは、対応する相対的な地理的位置に基づく場所に表示される。インタラクティブマルチビューモジュールは、複数のメディアアイテムのうちの第1のメディアアイテムを表現するアイコンのユーザ選択を受け取り、第1のメディアアイテムのプレイバックを開始する。続いて、インタラクティブマルチビューモジュールは、共通基準タイムラインにおける第1のポイントに対応する第1のメディアアイテムのプレイバック中の時間において、複数のメディアアイテムの第2のメディアアイテムを表現するアイコンのユーザ選択を受け取り、共通基準タイムラインにおける第1のポイントに対応する第2のメディアアイテムにおける時間において、第2のメディアアイテムのプレイバックを開始する。1つの実施では、インタラクティブマルチビューモジュールは、ユーザによって選択されるであろう後続するメディアアイテムを予測し、後続するメディアアイテムのユーザ選択に先立って、後続するメディアアイテムをバッファする。

本開示は、例示によって、限定ではなく、添付図面の図において例示される。

本発明の実施が実現され得る典型的なネットワークアーキテクチャを例示するブロック図である。いくつかの実施に従うインタラクティブマルチビューモジュールを例示するブロック図である。いくつかの実施に従うインタラクティブマルチビュー処理フローを例示するブロック図である。いくつかの実施に従うインタラクティブマルチビュービデオ生成のための方法を例示するフロー図である。実施に従って、共通のイベントに関連する2つのメディアアイテムに対応する周波数スペクトログラムを例示する図である。実施に従って、図5Aに例示される周波数スペクトログラム間の相関スコアの折れ線グラフを例示する図である。いくつかの実施に従うインタラクティブマルチビュービデオプレイバックインターフェースの1つの可能な提示の例を例示する図解である。いくつかの実施に従うインタラクティブマルチビュービデオプレイバックインターフェースの1つの可能な表現の例を例示する図解である。いくつかの実施に従う予測およびバッファリングタイムラインを例示する図である。いくつかの実施に従う典型的なコンピュータシステムを例示するブロック図である。

マルチビューオーディオおよびビデオインタラクティブプレイバックのための実施が記載される。1つの実施では、インタラクティブマルチビューシステムは、獲得/アップロード処理において通常喪失される情報の少なくとも2つのピースを、ビデオから復元することによって、同じ現実のイベントの取得されたビデオデータを、インタラクティブで、理解が容易で、直観的なプレイバック経験へ体系化する。この情報は、たとえば、カメラがイベントをキャプチャした時のカメラの位置と、共通基準タイムラインに従うビデオの同期と、を含み得る。ビデオの位置および時間同期の復元後、空間情報によって、システムは、ビデオを現実の3D場所とリンク付ける斬新なマップベースのナビゲーションインターフェースを生成することが可能となる。この時間同期は、今日ほとんどの共有サイトから利用可能な、典型的なプレイリストタイプの移行ではなく、イベントの、異なる視点からのシームレスな移行を可能にする。ビデオを空間および時間においてリンク付けることによって、ユーザは、単一のビデオの持続時間を超えたイベントタイムラインに沿ってシークすることが可能となり、さらに、ユーザは、異なる場所からのイベントから感覚を得るために、視点をインタラクティブに変更することが可能となり得る。現実のイベントは、観察され(たとえば、写真やビデオに)キャプチャされ得る、現実において(たとえば、インターネットではない)引き起こる任意のイベントであり得る。

1つの実施では、本インタラクティブマルチビューシステムは、ユーザによって選択されるべき次に最も可能性の高いビデオ視点を予測するために、ユーザインタラクション、ソーシャルフィードバック、およびビデオ品質に基づいてキューを利用することにより、インターネットプロトコル送信の帯域幅に関する制限を克服し、それによって、シームレスなビデオ切り換えを保証しながら、帯域幅を低減する。そのようなマルチビューオーディオおよびビデオインタラクティブプレイバック経験は、コンサートおよびスポーツイベントの外部のアプリケーションを有する。たとえば、他の実施では、サーベイランスを改善するためにクラウドソースビデオが使用され、映画フィルムをブロードキャストするためにユーザが生成したコンテンツが連結され、または、新たなスキルを学習するためのチュートリアルおよび裏技が、複数の見地から提示され得る。インターフェースはまた、単一の編集された要約ビデオ(たとえば、ディレクターズカット、または、すべてのビデオをソースとする寄せ集め)と連結され得るか、または、(たとえば、オーディオを改善する)セット内の個別のビデオの品質を高めるために、複数のビデオが使用され得る。

1つの実施では、マルチビュービデオコンテンツを体系化および提示するための完全なシステムが開示される。そのようなシステムによって提供されるプレイバックは、フリー視点ビデオと称され得る。このタスクのための既存のシステムは、カメラの3D姿勢および同期が容易に制御される(たとえば、較正のためのワンドベース方法)、実験室キャプチャリグまたはマルチビュースタジオに制限される。そのようなスポーツイベントのブロードキャスト記録は、前もって容易に較正されるという同じ利点を有する。これは、そのようなフリー視点およびマトリクスのような効果が、そのようなイベントの映画フィルムのブロードキャストの際に使用されることを可能にした。フリー視点はまた、ビュー合成、すなわち、既存の物理的なカメラビューを使用して新たな合成ビューを生成するステップ、を含んでいる。したがって、1つの実施では、ユーザが提供したビューが、十分に近いのであれば、ビュー合成は、記載されたフレームワークの先頭における可能なアプリケーションであり得る。

図1は、本開示の実施が実現され得る典型的なネットワークアーキテクチャ100を例示するブロック図である。1つの実施では、ネットワークアーキテクチャ100は、クライアントデバイス110A乃至110Z、ネットワーク105、データストア106、コンテンツ共有プラットフォーム120、サーバ130、ソーシャルコネクションプラットフォーム140、電子メールプラットフォーム150、およびサーチプラットフォーム160を含んでいる。1つの実施では、ネットワーク105は、公衆ネットワーク(たとえば、インターネット)、プライベートネットワーク(たとえば、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN))、ワイヤードネットワーク(たとえば、イーサネット（登録商標）ネットワーク)、ワイヤレスネットワーク(たとえば、802.11ネットワークまたはWi-Fiネットワーク)、セルラネットワーク(たとえば、ロングタームエボリューション(LTE)ネットワーク)、ルータ、ハブ、スイッチ、サーバコンピュータ、および/または、これらの組合せを含み得る。1つの実施では、データストア106は、メモリ(たとえば、ランダムアクセスメモリ)、キャッシュ、ドライブ(たとえば、ハードドライブ)、フラッシュドライブ、データベースシステム、または、データを記憶することができる別のタイプの構成要素またはデバイスであり得る。データストア106はまた、複数のコンピューティングデバイス(たとえば、複数のサーバコンピュータ)にまたがり得る複数の記憶構成要素(たとえば、複数のドライブまたは複数のデータベース)を含み得る。

クライアントデバイス110A乃至110Zは各々、パーソナルコンピュータ(PC)、ラップトップ、モバイル電話、スマートフォン、タブレットコンピュータ、ネットブックコンピュータ等のようなコンピューティングデバイスを含み得る。各クライアントデバイスは、メディアビュア111を含み得る。1つの実施では、メディアビュア111は、画像、ビデオ、ウェブページ、ドキュメント等のようなコンテンツを、ユーザが見ることを可能にするアプリケーションであり得る。たとえば、メディアビュア111は、ウェブサーバによってサービス提供されるコンテンツ(たとえば、ハイパテキストマークアップ言語(HTML)ページ、デジタルメディアアイテム等のようなウェブページ)のアクセス、検索、提示、および/または、ナビゲートをし得るウェブブラウザであり得る。メディアビュア111は、コンテンツ(たとえば、ウェブページ、メディアビュア)をユーザへ、レンダ、表示、および/または、提示し得る。メディアビュア111はまた、ウェブページ(たとえば、オンラインマーチャントによって販売された製品に関する情報を提供し得るウェブページ)に埋め込まれた埋込式メディアプレーヤ(たとえば、Flash(登録商標)プレーヤまたはHTML5プレーヤ)を表示し得る。別の例において、メディアビュア111は、ユーザが、デジタルメディアアイテム(たとえば、デジタルビデオ、デジタル画像、電子ブック)をビューすることを可能にするスタンドアロンのアプリケーションであり得る。メディアビュア111は、サーバ130および/またはコンテンツ共有プラットフォーム120によってクライアントデバイス110A乃至110Zへ提供され得る。たとえば、メディアビュア111は、コンテンツ共有プラットフォーム120によって提供されるウェブページに埋め込まれている埋込式メディアプレーヤであり得る。別の例において、メディアビュア111は、サーバ130からダウンロードされるアプリケーションであり得る。

1つの実施では、コンテンツ共有プラットフォーム120は、(ラックマウントサーバ、ルータコンピュータ、サーバコンピュータ、パーソナルコンピュータ、メインフレームコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、デスクトップコンピュータ等のような)1つまたは複数のコンピューティングデバイス、データストア(たとえば、ハードディスク、メモリ、データベース)、ネットワーク、ソフトウェア構成要素、および/または、ユーザにメディアアイテムへのアクセスを提供する、および/または、ユーザへメディアアイテムを提供するために使用され得るハードウェア構成要素、を含み得る。たとえば、コンテンツ共有プラットフォーム120は、ユーザが、メディアアイテムを消費、アップロード、サーチ、承認(「好き」)、嫌い、および/または、コメントすることを可能にし得る。コンテンツ共有プラットフォーム120はまた、ユーザにメディアアイテムへのアクセスを提供するために使用され得るウェブサイト(たとえば、ウェブページ)を含み得る。コンテンツ共有プラットフォーム120は、複数のイベントリスト(たとえば、イベントリストA乃至Z)を含み得る。各イベントリストは、1つまたは複数のメディアアイテム121を含み得る。メディアアイテム121の例は、限定しないが、デジタルビデオ、デジタル映画、デジタル写真、デジタル音楽、ウェブサイトコンテンツ、ソーシャルメディア最新版、電子ブック(eブック)、電子雑誌、デジタル新聞、デジタルオーディオブック、電子ジャーナル、ウェブブログ、リアルシンプルシンジケーション(RSS)フィード、電子コミックブック、ソフトウェアアプリケーション等を含み得る。メディアアイテム121は、インターネットによって、および/または、モバイルデバイスアプリケーションによって消費され得る。簡潔さと単純化のために、オンラインビデオ(以下、ビデオとも称される)は、本ドキュメントの全体にわたってメディアアイテムの例として使用される。本明細書で使用されるように、「メディア」、「メディアアイテム」、「オンラインメディアアイテム」、「デジタルメディア」、および「デジタルメディアアイテム」は、エンティティにデジタルメディアアイテムを提示するように構成されたソフトウェア、ファームウェア、またはハードウェアを使用して、実行また
はロードされ得る電子ファイルを含み得る。1つの実施では、コンテンツ共有プラットフォーム120は、データストア106を使用してメディアアイテムを記憶し得る。

ソーシャルコネクションプラットフォーム140は、ユーザが互いに接続し、情報を共有し、および/または、互いにインタラクトすることを可能にするために使用され得る、1つまたは複数のコンピューティングデバイス(たとえば、サーバ)、データストア、ネットワーク、ソフトウェア構成要素、および/または、ハードウェア構成要素を含み得る。ソーシャルコネクションプラットフォーム140は、ソーシャルネットワークの他のユーザによって生成された(投稿、コンテンツアイテム(たとえば、ビデオ、画像、オーディオ等)、ステータス最新版、好感度表示、タグ、メッセージ等のような)オブジェクトのリスト(たとえば、アクティビティフィード、フィード、ストリーム、ウォール等)をユーザへ提示し得る。ソーシャルコネクションプラットフォーム140はまた、ユーザが、テキストコンテンツ、ビデオコンテンツ、画像コンテンツ、オーディオコンテンツ等のようなコンテンツをアップロード、ビュー、タグ付け、および共有することを可能にするコンテンツ共有アスペクトを含み得る。ソーシャルコネクションプラットフォーム140の他のユーザは、共有されたコンテンツに関するコメント、新たなコンテンツの発見、最新版の特定、コンテンツの共有、および、そうではない場合には、提供されたコンテンツとのインタラクト、を行い得る。1つの実施では、コンテンツ共有プラットフォーム120は、ソーシャルコネクションプラットフォーム140に統合され得る。たとえば、ソーシャルコネクションプラットフォーム140は、ユーザがコンテンツをアップロードおよび/または共有することを可能にするために、コンテンツ共有プラットフォーム120を使用し得る。別の実施では、ソーシャルコネクションプラットフォーム140は、コンテンツ共有プラットフォーム120から分離され得る。1つの実施では、ソーシャルコネクションプラットフォーム140はまた、ユーザが互いに(たとえば、インスタントメッセージへ)チャットすることを可能にするチャット機能(たとえば、チャットプラットフォーム)を含み得る。

1つの実施では、電子メールプラットフォーム150は、ユーザが互いに電子メール(eメール)を送信および/または受信することを可能にするために使用され得る、1つまたは複数のコンピューティングデバイス(たとえば、サーバ)、データストア、ネットワーク、ソフトウェア構成要素、および/または、ハードウェア構成要素であり得る。たとえば、第1のユーザは、特定のイベントの時間および場所に関するeメールを第2のユーザへ送信するためにeメールプラットフォーム150を使用し得る。第1のユーザはまた、電子メールにファイル(たとえば、ビデオファイル、画像ファイル、テキストファイル等)を添付し得る。1つの実施では、eメールプラットフォーム150はまた、ユーザが互いに(たとえば、インスタントメッセージへ)チャットすることを可能にするチャット機能(たとえば、チャットプラットフォーム)を含み得る。別の実施では、サーチプラットフォーム160は、ユーザが情報および/またはデータをサーチすることを可能にするために使用され得る1つまたは複数のコンピューティングデバイス、データストア、ネットワーク、ソフトウェア構成要素、および/または、ハードウェア構成要素であり得る。たとえば、サーチプラットフォーム160は、ユーザが、特定のトピック(たとえば、どうやって車を修理するのか)に関連する記事、ブログ、ウェブサイト、ウェブページ、画像、ビデオ、および/または、その他のコンテンツを求めて、インターネットおよび/またはその他のネットワークをサーチすることを可能にし得る。サーチプラットフォーム160はまた、サーチエンジンを含み得る。

1つの実施では、サーバ130は、1つまたは複数のコンピューティングデバイス(たとえば、ラックマウントサーバ、サーバコンピュータ等)を含み得る。1つの実施では、サーバ130は、コンテンツ共有プラットフォーム120、ソーシャルコネクションプラットフォーム140、電子メールプラットフォーム150、およびサーチプラットフォーム160のうちの1つまたは複数に含まれ得る。別の実施では、サーバ130は、コンテンツ共有プラットフォーム120、ソーシャルコネクションプラットフォーム140、電子メールプラットフォーム150、およびサーチプラットフォーム160から分離され得るが、コンテンツ共有プラットフォーム120、ソーシャルコネクションプラットフォーム140、電子メールプラットフォーム150、およびサーチプラットフォーム160と通信(たとえば、データを交換)し得る。1つの実施では、サーバ130は、インタラクティブマルチビューモジュール135を含んでいる。インタラクティブマルチビューモジュール135は、所与のイベントに関連付けられたビデオまたはその他のメディアアイテムを識別し、インタラクティブマルチビュープレイバック経験を提供する手法でビデオを体系化する。1つの実施では、インタラクティブマルチビューモジュール135は、所与の現実のイベント(たとえば、イベントの発生の少なくとも一部を描くビデオ)に関連付けられたビデオを識別し、共有基準タイムラインに従って自動的にビデオを同期させる。さらに、インタラクティブマルチビューモジュール135はまた、インタラクティブマルチビュープレーヤインターフェースにビデオを表示するために、ビデオの各々をキャプチャするために使用されるカメラの相対的な位置を決定し得る。インタラクティブマルチビューモジュール135は、プレイバックのためのイベントに関連付けられたビデオの少なくとも一部を結合することにより、単一の代表的な「ディレクターズカット」ビデオを生成し得るか、または、どのビデオがインタラクティブマルチビュープレーヤインターフェースでプレイされるかを制御するためのユーザ入力を受け取り得る。インタラクティブマルチビューモジュール135のさらなる詳細が、以下に記載されるであろう。

図2は、実施に従うインタラクティブマルチビューモジュール135を例示するブロック図である。1つの実施では、インタラクティブマルチビューモジュール135は、ビデオ発見モジュール202、オーディオ同期モジュール204、位置決めモジュール206、要約モジュール208、および、マルチビュープレイバックモジュール210を含んでいる。モジュールと構成要素とのこの配置は、特定の実施に従う、論理的な分離であり得、他の実施では、これらのモジュールまたは他の構成要素は、ともに結合され得るか、または、さらなる構成要素に分離され得る。1つの実施では、データストア106は、インタラクティブマルチビューモジュール135に接続され、メディアアイテム242、イベントリストデータ244、およびユーザ入力データ246を含んでいる。1つの実施では、サーバ130は、インタラクティブマルチビューモジュール135とデータストア106との両方を含み得る。別の実施では、データストア106は、サーバ130の外側にあり得るし、ネットワークまたは他のコネクションによってサーバ130に接続され得る。他の実施では、サーバ130は、記載を単純化するために図示されていない別のおよび/または追加の構成要素を含み得る。データストア106は、たとえば、フラッシュメモリ、磁気または光ディスク、またはテープドライブを含み得る1つまたは複数の大容量記憶デバイス、読取専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、消去可能プログラマブルメモリ(たとえば、EPROMおよびEEPROM)、フラッシュメモリ、または、その他任意のタイプの記憶媒体を含み得る。

1つの実施では、ビデオ発見モジュール202は、コンサート、スポーツイベント、またはその他のイベントのような現実のイベントに関連付けられたメディアアイテム242を識別する。1つの実施では、ビデオ発見モジュール202は、メディアアイテム242をスキャンし、現実のイベントを識別するメタデータまたはその他のキューを有するメディアアイテムを識別する。キューは、(たとえば、複数のビデオに表れるビジュアルまたはオーディオデータの共通のピースのような)メディアアイテムのオーディオ信号および/またはビデオ信号からダイレクトに取得されるメディアキュー、または、メディアアイテムに関連付けられたメタデータからのメタデータキューを含み得る。メタデータキューは、ビデオのタイトルまたは記載における情報、ユーザが提供またはシステムが生成したタグまたはカテゴリ、メディアアイテムに関連付けられた日付および時間情報、メディアアイテムに関連付けられた地理位置情報(たとえば、GPSデータ)、またはその他の情報を含み得る。所与の現実のイベントに関連付けられた特定のメディアアイテム242が決定されると、ビデオ発見モジュールは、この現実のイベントに対応するイベントリスト244にメディアアイテム242を追加し得る。

1つの実施では、オーディオ同期モジュール204は、共通基準タイムラインに従って、所与のイベントリスト244内のメディアアイテム242の各々のオーディオ部分を同期させる。1つの実施では、オーディオ同期モジュールは、各オーディオ部分のオーディオスペクトログラムに基づいて、周波数の相関を増加または最大化するメディアアイテムの各々のための時間的なオフセットを決定する。この時間的なオフセットは、イベントに関連付けられたメディアアイテムの各々が、互いに対して、または、現実のイベントの発生に対して始まる時間を示す共通基準タイムラインにおける場所を表現する。メディアアイテムは、ユーザによってキャプチャされ得るので、メディアアイテムは、現実のイベントの異なる部分をキャプチャし得る。したがって、メディアアイテムは、異なる時間において開始および終了し得るので、関連付けられた異なる時間オフセットを有し得る。1つの実施では、オーディオ同期モジュール204は、イベントリストデータ244に時間的なオフセットを記憶する。

1つの実施では、位置決めモジュール206は、イベントリスト244内のメディアアイテム242の各々に関連付けられた相対的な地理的位置を決定する。1つの実施では、位置決めモジュール206は、現実のイベントの発生時に、メディアアイテムの各々をキャプチャするために使用される個別のカメラの相対的な位置を決定する。位置決めモジュール206は、各アイテムをキャプチャするために使用されるカメラの、他の位置に対する位置を計算するために、メディアアイテムの各々のビデオ位置において目に見える複数のポイントを使用し得る。1つの実施では、位置決めモジュール206は、これらの位置を、互いに対して、および/または、オプションとして、現実のイベントが発生した場所(たとえば、スタジアムまたはアリーナ)の配置を使用して、プロットし得る。1つの実施では、位置決めモジュール206は、決定された位置情報を、イベントリストデータ244に記憶する。

1つの実施では、要約モジュール208は、現実のイベントに関連付けられた単一の編集されたメディアアイテムを生成する。この編集されたメディアアイテムは、いくつかの実施において、「ディレクターズカット」と称され得る。要約モジュール208は、ディレクターズカットを生成するために、複数のメディアアイテム242をともに結合し得る。たとえば、ディレクターズカットは、現実のイベントの提示の要約、概観、またはその他の形式を示すために、ともに編集された特定の選択を含み得る。ディレクターズカットに含まれるメディアアイテムは、コンテンツキュレータによってマニュアルで選択され得るか、または、要約モジュール208が、ビュー、コメント、共有アクティビティ等の数のような各ビデオの人気キューを使用して、メディアアイテムを自動的に選択し得る。

1つの実施では、マルチビュープレイバックモジュール210は、同期されたオーディオ部分と相対的な地理的位置とに少なくとも基づいて、インタラクティブマルチビュープレーヤインターフェースに、メディアアイテム242を提示する。1つの実施では、マルチビュープレイバックモジュール210は、位置決めモジュール206によって決定された対応する相対的な地理的位置に基づいて、インタラクティブマルチビュープレーヤインターフェースにおける位置に、メディアアイテムの各々を表現するアイコンを表示する。マルチビュープレイバックモジュール210は、メディアアイテムのうちの1つを表現するアイコンのユーザ選択を受け取り、対応するメディアアイテムのプレイバックを開始する。マルチビュープレイバックモジュール210は、ユーザ入力データとしてユーザ選択を示すインジケーションを記憶し得る。第1のメディアアイテムのプレイバック中に、ユーザは、異なるメディアアイテムを表現するアイコンを選択し得る。マルチビュープレイバックモジュール210は、要求が受け取られた時のポイントに対応する、共通基準タイムラインにおける時間において、第2のメディアアイテムのプレイバックを開始し得る。したがって、第2のメディアアイテムは、メディアファイルの開始以外のポイントにおいてプレイバックを開始し得る。その結果、ビュアの観点から、視点が変化するが、現実のイベントに関するタイミングは、変化しない。

図3は、本開示の実施に従うインタラクティブマルチビュー処理フローを例示するブロック図である。様々なモジュールおよび構成要素は、インタラクティブマルチビュープレイバックのための所与の現実のイベントの複数のビデオの識別および同期におけるそれらの役割に関して記載され得る。1つの実施では、処理フロー300は、ビデオデータベース310からのビデオまたは他のメディアアイテムを使用して、ビデオ発見ステージ320で始まる。ビデオ発見ステージは、所与の現実のイベントに関連付けられたビデオを識別するステップを含み、ビデオ発見モジュール202によって実行され得る。ブロック330では、オーディオ同期が、ビデオ発見ステージ320中に発見されたビデオを使用して実行され、ビデオデータベース310内に記憶される。1つの実施では、オーディオ同期モジュール204は、上記されたように、共通基準タイムラインに従って、発見されたビデオの各々のオーディオ部分を同期させる。オーディオ同期330は、オーディオ信号を使用して時間においてビデオクリップを同期させるために、信念伝搬アルゴリズムを使用し得る。1つの実施では、これは、すべてのペアワイズなビデオ関係を考慮し、互いに近くにあるビデオが、最終的な同期において、より強い影響を有することを可能にする。ブロック340では、ビデオ発見ステージ320中に発見され、ビデオデータベース310内に記憶されたビデオを使用して、位置決めが実行される。1つの実施では、位置決めモジュール206は、ビデオの各々に関連付けられた相対的な地理的位置を決定する。マップベースのナビゲーションのためのカメラ位置(および、オプションとして3Dマップ)におけるマルチビュー幾何学係数が、マニュアルまたは自動的に生成され得る。この情報は、コンピュータビジョンアルゴリズムを使用して、ビデオから抽出され得る。スポーツシナリオおよびコンサートシナリオのビデオで一般に見られるパニングまたはカメラ振れによってもたらされる、同じカメラ位置からの異なる視点が、焦点長さの抽出を支援するために使用され得る。要約ステージ350において、同期されたオーディオ部分および相対的な地理的位置に少なくとも基づいて、現実のイベントに関連付けられた単一の編集されたビデオが生成され得る。1つの実施では、要約モジュール208は、ビデオ発見3
20中に発見されたイベントに関連付けられた複数のビデオを結合することによって、「ディレクターズカット」ビデオを生成し得る。要約350では、イベントの単一の要約ビデオを生成するために、マルチビュー幾何学および(不確実性またはビデオ品質のような)信号品質メトリックが利用され得る。プレイバックステージ360は、同期されたオーディオ部分および相対的な地理的位置に少なくとも基づいて、インタラクティブマルチビュープレーヤインターフェースに、識別されたビデオを提示するステップを含む。1つの実施では、マルチビュープレイバックモジュール210は、インタラクティブマルチビュープレーヤインターフェースを提示し、どのビデオが表示されるべきであるかを選択するために、ユーザインタラクションを受け取る。プレイバックおよび配信360は、ビデオコレクションをブラウズする手法をユーザに対して提示するUI要素を使用する。これは、ビュー間の直観的な切換を可能にする3Dナビゲーションと、ほとんどの映画フィルムを有するイベントの間、ビデオまたは領域におけるキー時間を示すためのタイムラインイベントバーと、を含み得る。ユーザが新たなビューを要求した場合における円滑な移行を保証するために、システムは、既存のビデオインフラストラクチャを使用し、実際に表示されるであろうコンテンツのみを転送することによって、帯域幅使用を最小に維持しながら、ユーザ移行を予測することを試みる。

図4は、本開示の実施に従う、インタラクティブマルチビュービデオ生成の方法を例示するフロー図である。方法400は、ハードウェア(たとえば、回路、専用ロジック、プログラマブルロジック、マイクロコード等)、ソフトウェア(たとえば、ハードウェアシミュレーションを実行するために処理デバイス上で動作する命令)、またはこれらの組合せ、を備える処理ロジックによって実行され得る。方法400は、所与の現実のイベントに関連付けられたビデオまたはその他のメディアアイテムを識別し、メディアアイテムのインタラクティブマルチビュープレイバックのためのインターフェースを提示し得る。説明の単純化のために、本開示の方法が描写され、一連の動作として記載されている。しかしながら、本開示に従う動作は、様々な順序で、および/または、同時に、および、本明細書に提示も記載もされていない他の動作とともに生じ得る。さらに、開示された主題に従ってこの方法を実施するために、必ずしも例示されたすべての動作が必要とされる訳ではない。さらには、当業者であれば、この方法は、代わりに、状態図またはイベントを通じて一連の関連する状態として表現され得ることを理解および認識するであろう。さらに、本明細書に開示された方法は、そのような方法のコンピューティングデバイスへの転送または移動を容易にするために、製造物品に記憶されることが可能であることが認識されるべきである。本明細書で使用されるような「製造物品」という用語は、あらゆるコンピュータ読取可能なデバイスまたは記憶媒体からアクセス可能なコンピュータプログラムを包含することが意図されている。1つの実施では、方法400は、図1および図2に図示されるようなインタラクティブマルチビューモジュール135によって実行され得る。

図4を参照して示すように、ブロック410では、方法400は、現実のイベントに関連付けられたメディアアイテムを識別する。1つの実施では、ビデオ発見モジュール202は、コンサート、スポーツイベント、またはその他のイベントのような現実のイベントに関連付けられたメディアアイテム242を識別する。1つの実施では、ビデオ発見モジュール202は、メディアアイテム242をスキャンし、現実のイベントを識別するメタデータまたはその他のキューを有するメディアアイテムを識別する。特定のメディアアイテム242が、所与の現実のイベントに関連付けられていると判定されると、ビデオ発見モジュールは、現実のイベントに対応するイベントリスト244に、メディアアイテム242を追加し得る。

ブロック420では、方法400は、共通基準タイムラインに従って、メディアアイテムのオーディオ部分を同期させる。1つの実施では、オーディオ同期モジュール204は、共通基準タイムラインに従って、所与のイベントリスト244内のメディアアイテム242の各々のオーディオ部分を同期させる。1つの実施では、オーディオ同期モジュールは、各オーディオ部分の周波数ベースのオーディオスペクトログラムの相関を増加または最大化するメディアアイテムの各々の時間的なオフセットを決定する。この時間的なオフセットは、イベントに関連付けられたメディアアイテムの各々が、互いに対して、または、現実のイベントの発生に対して始まる時間を示す共通基準タイムラインにおける場所を表現する。

ブロック430では、方法400は、各メディアアイテムに関連付けられた相対的な地理的位置を決定する。1つの実施では、位置決めモジュール206は、イベントリスト244内のメディアアイテム242の各々に関連付けられた相対的な地理的位置を決定する。1つの実施では、位置決めモジュール206は、現実のイベントの発生時に、メディアアイテムの各々をキャプチャするために使用される個別のカメラの相対的な位置を決定する。位置決めモジュール206は、各アイテムをキャプチャするために使用されるカメラの、他の位置に対する位置を計算するために、メディアアイテムの各々のビデオ部分において目に見える複数のポイントを使用し得る。

ブロック440では、方法400は、同期されたオーディオ部分に基づいてメディアアイテムを結合することにより、単一の編集されたメディアアイテムを生成する。1つの実施では、要約モジュール208は、現実のイベントに関連付けられた単一の編集されたメディアアイテムを生成する。要約モジュール208は、ディレクターズカットを生成するために、複数のメディアアイテム242をともに結合し得る。たとえば、ディレクターズカットは、現実のイベントの提示の要約、概観、またはその他の形式を図示するために、ともに編集される特定の選択を含み得る。ディレクターズカットに含まれたメディアアイテムは、コンテンツキュレータによってマニュアルで選択され得るか、または、要約モジュール208が、ビュー、コメント、共有アクティビティ等の数のような各ビデオの人気キューを使用して、メディアアイテムを自動的に選択し得る。

ブロック450では、方法400は、同期されたオーディオ部分および相対的な地理的位置に基づいて、インタラクティブマルチビュープレーヤインターフェース内にメディアアイテムを提示する。1つの実施では、マルチビュープレイバックモジュール210は、同期されたオーディオ部分および相対的な地理的位置に少なくとも基づいて、インタラクティブマルチビュープレーヤインターフェース内にメディアアイテム242を提示する。1つの実施では、マルチビュープレイバックモジュール210は、位置決めモジュール206によって決定された対応する相対的な地理的位置に基づいて、インタラクティブマルチビュープレーヤインターフェース内の場所において、メディアアイテムの各々を表現するアイコンを表示する。マルチビュープレイバックモジュール210は、メディアアイテムのうちの1つを表現するアイコンのユーザ選択を受け取り、対応するメディアアイテムのプレイバックを開始する。マルチビュープレイバックモジュール210は、ユーザ入力データとしてユーザ選択を示すインジケーションを記憶し得る。第1のメディアアイテムのプレイバック中に、ユーザは、異なるメディアアイテムを表現するアイコンを選択し得る。マルチビュープレイバックモジュール210は、要求が受け取られた時のポイントに対応する、共通基準タイムラインにおける時間において、第2のメディアアイテムのプレイバックを開始し得る。したがって、第2のメディアアイテムは、メディアファイルの開始以外のポイントにおいてプレイバックを開始し得る。その結果、ビュアの観点から、視点が変化するが、現実のイベントに関するタイミングは、変化しない。

図5Aは、共通のイベントに関連する2つのメディアアイテムに対応する周波数スペクトログラムを例示する図である。図5Bは、図5Aにおいて例示された周波数スペクトログラム間の相関スコアの折れ線グラフを例示する図である。ビデオのセットが、同じ現実のイベントから由来するものとして識別された後、ビデオは、共通のタイムラインに同期され得る。この処理の詳細は、マルチビュープレイバックインターフェースのコンテキストにおいて以下に記載される。

N個のビデオのための、1つの目的は、オーディオ信号510、520と揃っている一貫したオフセットのセットx_1:N=(x₁,x₂,…,x_N)を発見することである。システムは、相対的なオフセットx_ij 530を測定するために、先ず、信号の各ペアを相関付け得る。その後、ペアワイズ情報を使用して統合確率分布を定式化し、信念伝搬を使用して推論を行うことによって、一致解が得られる。信念伝播は、最終解の一致性を高めるために、関連するオーディオ信号をより緊密に共有する近くの信号のペアを考慮する。

オーディオ信号から特徴を選択し、可能性のあるオーディオオフセットにおいてこれらの特徴を比較することによって、2つのオーディオ信号510、520を揃える時間的なオフセット530が発見され得る。最良のマッチングスコア540を有する時間的なオフセットが、仮説時間整列のために使用され得る。生のオーディオ信号のような、使用するオーディオ信号の特徴のために、または、音声処理において一般に使用されているMELスペクトルのような特別な方法のための、いくつかの可能性がある。1つの実施では、システムは、周波数ベースの特徴である、入力されたビデオiにおける時間tにおける波長のスペクトルパワーw∈Ωを測定するオーディオスペクトログラムs_i(t,w):[0,T_i-1]xΩ:→Rを使用する。ここで、T_iは、入力されたオーディオ信号iの長さである。規格化は、オーバラップ長さに対して鈍感な比較を行うので、システムは、マッチングのために、スペクトログラムのペアの一致性の測定値として、ゼロ規格化相互相関を使用し得る。図5Aは、誤りのあるオフセットによって現在誤って揃えられている2つのスペクトログラム510、520を例示し、図5Bは、正しく揃っていることを示す2つのスペクトログラムのゼロ平均規格化相互相関(ZNCC)を例示する。

規格化された相互相関関数f_ij(t):[1-T_j,T_i-1]→[-1,1]は、ゼロと長さ規格化スペクトログラムs_i、s_jの相関であり、

として定義される。ここで、T_ij(t)=[max(0,t),min(T_i-1,t+T_j-1]は、オーバラップの領域であり、信号の平均および長さは、オーバラップの同じ領域が引き継がれる。

最も可能性の高いK-ピークが、信号の最大値を発見することにより抽出される。

ペアワイズ分析から抽出された仮説は、ペアワイズのエビデンスを構築するために使用され、

ここで、cは、相関f_ijから導出される信頼性尺度である。

その後、システムは、ペアワイズエビデンスφ_ijを結合することによって時間的なオフセットの統合確率分布をモデル化し、

を与える。

解空間(すなわち、p(x_1:N)=p(x_1:N+t))における1つのパラメータ不確定性が存在するので、システムは、1つのノードを基準として固定し、その値をx1=0に設定し、

である統合確率分布へ導く。これは、マルコフランダムフィールドモデルで見られる共通の形式である。

式(6)におけるxの限界がその後、ループ状の信念伝搬によって概算される。これは、グラフによってエビデンスを伝搬するために、ノード間の反復的な一連のメッセージを使用する。アルゴリズムの反復t≧1において、ノードiからノードjへのメッセージが、

として前の反復からのメッセージを使用して定義される。ここで、t=0におけるメッセージは、一様またはランダムの何れかで定義される。

反復tにおける信念は、限界を概算し、伝搬されたメッセージ、

を使用して定義される。式(7)は、部分的な信念とのペアワイズ係数の畳み込みであり、これによって、システムは、フーリエ変換を使用してメッセージ最新版を効率的に計算できるようになることに注目されたい。

T回の反復後、最終解X_iは、信念を最大化することによって取得され得る。

ループ状の信念伝搬は、修正された限界に収束するように保証されないので、システムは、N個の仮説解を得るための基準として、すべての可能なノードを試し得る。システムは、一致性スコアを最大化する最終解を維持する。

あるいは、相関スコアは、仮説解の全体的な一致性を測定するために、ダイレクトに使用され得る。

複数ビュー幾何学の理論は、画像から導出されるポイント一致性からカメラ姿勢およびシーン幾何の再構築を行うための数学的ツールを提供する。研究は、複数のカメラビューからの3D構築に対してなされているが、多くの技術はただ、カメラのための内部較正(たとえば、焦点長さ、主点)が知られているという前提でのみ作用する。しかしながら、システムは、ユーザによって生成されたコンテンツを使用して、内部較正情報が知られていると仮定することはできない。さらに、EXIFヘッダにおいてエンコードされた固有性に依存する未構築の写真集からの3Dビジョンベースの再構築のための方法とは異なり、ビデオメタデータはしばしば、この有用な情報を含んでいない。したがって、1つの実施では、システムは、内部較正を自動的に抽出するために、ユーザが生成したビデオに提示される純粋なカメラ回転を使用する。

コンサートまたはスポーツイベントの場合、カメラは、動作を観察するために、しばしば1つの位置にとどまり、わずかに回転する。これは、1つのターゲットとする使用ケースであるので、システムは、この種のビデオの動きのために、カメラ焦点長さの正確な初期推定値を提供するための方法を使用する。システムは、その後、ある選択アルゴリズムを使用して、より良好なカメラ姿勢抽出およびマルチビュー再構築であるか、カメラ姿勢抽出およびマルチビュー再構築を行う画像領域をフィルタアウトし、その後、これら画像領域における姿勢抽出を行うために、すでに導出された焦点長さを使用する。

カメラが単に回転(および、おそらくは無視できる並進)を受けた場合では、2つの画像間の画像座標を関連付ける変換は、3x3プロジェクティブホモグラフィ行列Hによって関連付けられ得る。

一般性を失うことなく、第1のカメラが、原点に揃えられるものとする。したがって、カメラ行列は、
P₁=K[I_3x3|0] (12)
のように定義され、第2のビューが第1のビューの回転Rのみであれば、
P₂=K[R|0] (13)
となる。ここで、内部カメラパラメータは、ゼロ歪みであると仮定され、主点は、ほとんどの消費者用カメラのための場合、カメラの画像平面の中心にあると仮定される。

f_xおよびf_yは、xおよびyそれぞれにおける焦点長さである。画像に関連するホモグラフィは、その後、内部および回転行列の関数となる。
H=KRK^-1 (15)

Rは、I_3x3-RR^Tを満足する直交3x3回転行列であるので、式(15)を使用して、制約は、
D=(K^-1HK)(K^-1HK)^T-I_3x3 (16)
のように書き換えられ得る。これは、Kと復元されたホモグラフィHのみの関数である。Hは、画像一致からダイレクトに推定され得るので、制約T_r(DD^T)=0は、未知数f_xおよびf_yにおける非線形最小二乗問題を与える。システムは、(f_xおよびf_y)のためのある初期値から始まって、その後、許容可能な最小値に収束するまで、Levenberg-Marquardtのような信頼領域方法を使用して、(Δf_x,Δf_y)を前方反復的に計算し、f_xおよびf_yの空間においてT_r(DD^T)を最小化することによって、f_xおよびf_yの解を求める。

システムは、ホモグラフィHを検査することによって、カメラのズームまたは不十分な回転を伴う画像シーケンスの部分を自動的に廃棄し、カメラ内部パラメータを推定するために、残りの部分を選択し得る。

画像選択、ペアマッチングおよびバンドル調節
計算上の理由で、システムは先ず、特徴の数、各フレームの品質、および一時的な動きの量を考慮することによって、各ビデオシーケンスから少数の顕著なフレームのみを選択することによって、再構築に入力されるフレームの数を低減し得る。システムは、再構築のための画像を選択すると、各画像からSIFT特徴を抽出し、これら特徴を使用して画像のペアをマッチさせ得る。1つの実施形態では、システムは、マッチの初期セットを得るために、Loweしきい値によるマッチングを使用し得る。正しくないマッチを除去するために、システムはさらに、スケールおよび方位の差分が、他のマッチのそれのほとんどと一致するマッチのみを選択することによって、このマッチングを洗練し得る。これは、マッチの初期セットを、マッチを越えたスケールおよび方位の差分の2Dヒストグラムへビニングすることによってなされ得る。システムは、ほとんどの数のマッチを含むビンにおけるマッチを、最終的に洗練されたマッチとして選択する。

システムはその後、マッチを使用して、画像の各ペアについて、2つのビューモデル、すなわち、基本行列およびf-インライアを計算し得る。システムは、これら2つのビューモデルを計算するために、上記計算された画像の焦点長さ情報を使用し得る。我々が2つのビューモデルを持てば、システムは、すべてのカメラを含む最終的な3Dモデルを得るために、2つのビューモデルをともに反復的に追加し、バンドル調節を行い得る。

固定3Dマップの場合、システムは、そのビデオシーケンスのために再構築された位置のすべてにわたる中央位置であるべきカメラの最終的な3D位置を採用する。再構築された3Dポイントクラウドは、3Dマップベースのインターフェースのための3Dモデルを導出するために使用され得るか、または、その代わりに、再構築された3Dカメラ姿勢が、アーティストが生成した環境の3Dマップへマニュアルで揃えられ得る。

消費者のカメラから入力されたビデオは、しばしば、品質問題を被っている。ビデオストリームを利用する前に、システムは、オプションで、ビデオ間の色補正を適用し、動き安定化によって不確実性を低減し、ノイズ低減によってノイズアーティファクトを低減し得る。クリップ間のオーディオレベルもまた、共通のレベルへ規格化され得る。

システムは、いつビデオを切り換えるのかを識別するために、エネルギ最小化を使用し得る。共通の品質および移行キューに加えて、我々のエネルギタームは、カメラの3D位置および視点を考慮し得る。位置と視点を使用して、一貫した方向で切り換わるのであれば、移行は、より連続的になり得る。

最適化のための解を求めた後、結合され編集されたビデオが生成され得る。あるいは、プレイバックエンジンが、編集ポイントのリストを、ペアのシーケンスとして採用し、ビデオが切り換えられるべき時間を示す。このように、ユーザは、ディレクターズカットを見ることができる一方、プレイバックエンジンは、編集リストを使用して、視点を動的に更新する。ユーザはまた、フリー視点効果を得るために、任意のポイントにおいて、ディレクターズカットから切り換わり得る。

3Dカメラ姿勢および粗い接近シーン幾何を有する利点は3重である。1)ビデオの空間的配置が、直観的なインタラクティブ視点選択を考慮するユーザに提示され得る。2)中間の仮想的な視点もまた、ユーザに提示され得る。3)空間的配置は、可能性の高い次のビューを予測するために使用され得る。インタラクティブマルチビュープレーヤは、タイムライン上に重要なポイントを示す他のUI要素を提示しながら、これらの利点を活用する。中間の仮想ビューは、入力ビューのような忠実度を有する可能性は低いであろうが、ビデオ切り換えに固有のバッファおよびレイテンシをカバーするのに良好である。

UI要素
図6Aおよび図6Bは、本開示のいくつかの実施に従うインタラクティブマルチビュービデオプレイバックインターフェースの2つの可能な提示の例を例示する図解である。図6Aにおける3Dインタラクティブビューは、再構築されたビデオ姿勢におけるアイコン/ウィジェットを備えた、イベントに対応する3Dテンプレートモデルを図示する。これらのアイコンはまた、現在プレイしているカメラと、現在のプレイバック時間においてどの視点が利用可能であるか(または、範囲内にあるか)をも例示する。ユーザは、マップ上の所望されるカメラ視点をクリックすることによって、ビデオシーンを空間的にブラウズし得る。

ビデオのすべてが同じ時間に開始または終了する訳ではないので、どれだけ多くのビデオが所与の時間において利用可能であるのかを例示するために、ビデオ密度バーが、通常のシークバーと並んで表示され得る(図6B参照)。あるいは、イベントのハイライトを示すために、ホットウォッチハイライトバーが使用され得る。そのようなハイライトバーは、単一のビデオプレイバックのために使用され得るものと類似している。このハイライトバーは、マニュアルでキュレートされ得るか、または、ソーシャルメディアからのキューを使用し得るか、ログされたユーザインタラクションからのフィードバックを受諾し得る。マルチビューの場合、有用なキューは、所要の任意の瞬間において利用可能なビデオの数と品質との両方である。さらに、異なる視点からの時点においてユーザがリプレイした回数が、ハイライトバーの密度を高めるためのキューとしても使用され得る。

良好なインタラクティブ経験を保証するために、インターフェースは、ユーザによって要求された場合、視点間のシームレスな移行を提示し得る。切換要求がなされると、再バッファリングによるプレイバック中の突然の不連続性が最小化される。

ビデオ視点間の瞬時的な切換、または、時間におけるシークは、ビデオデータのすべてに対する即時のランダムアクセスを利用する。そのようなランダムアクセスの保証は、プレイバック前のビデオのすべての事前バッファリングまたはダウンロードを必要とし、恐らくは、貧弱なユーザ経験に行き着くであろう。瞬時的なシークにおける制約を緩和することにより、ビデオのすべての同時ストリーミングは、瞬時的な視点切換を可能にするであろうが、帯域幅制約によって、そのようなストリーミングは、恐らく可能ではないであろう。これらの極端な例の代わりに、理想的なプレーヤは、見られるであろうビデオ部分のみをダウンロードするが、インタラクティブな切換を保証するために、ビデオのいくつかの領域を事前バッファすることをトレードオフする必要がある。

帯域幅と相互作用とのトレードオフに対する1つの解決策は、バックバッファリングの形式を使用することである。現在選択されているメインビデオが、フォアグランドでプレイされており、高速インタラクティブ切換を保証することを試みるために、第2のバックバッファビデオがストリームされ、バッファされ、バックグランドでプレイされるであろう。バックバッファにおけるビデオのストリーミングは、どのビデオが選択されるのかを予測するため、仮想視点上で停止することのようなユーザ振る舞いをモニタし得る。あるいは、どれが最も可能性の高い次の視点となるのかを決定するための先行として、すべてのユーザの履歴が使用され得るか、または、キーとなる時点の周囲のすべてのビデオの、いくつかの事前バッファリングが実行され得る。

バックバッファされるべきビデオが識別された後、ビデオがバッファされ、バックグランドでプレイされ得る。図7は、そのようなイベントのためのタイムラインを例示しており、t_pは、予測がなされた時間を示し、t_aは、ユーザが実際に視点を選択した時間を示し、t_sは、システムが新たなビデオにおける切換を完了した時間である。t_pの瞬間において、バックバッファリングビデオプレーヤは、プレイバックを開始するための十分なビデオデータをフェッチする必要がある(バッファリング時間)。また、データがプレーヤを起動するために完全に利用可能になった後、わずかな遅れが存在する。起動が完了した後に、ユーザ選択時間t_aが生じた場合、バックバッファされたビデオが、単純にフォアグランドへスワップされ得る。

図7は、予測およびバッファリングタイムラインの2つの例を例示する。時間t_pにおいて、システムは、ユーザが、ビデオ2へ間もなく切り換わるであろうことを予測するので、ビデオ2がバッファされ、バックグランドでのプレイバックを開始する。ユーザは、その後、実際に、時間t_aにおける切換を要求し、その後、我々は、バッファリング/プレイバックを準備可能にするために、長さt_s-t_aの遅れアニメーションを使用する。予測が正しい場合(左)、この遅れアニメーションは短くなり得る。ビデオがバッファされると(右)、遅れは、プレイバック起動時間をカバーするために十分長くなる必要がある。

しかしながら、ビデオ予測が正しくないか、または、ビデオデータがバッファリングを完了していない場合、一貫した経験を保証するために、システムは、アニメーション遅れt_s-t_a>起動時間を使用する。このアニメーション遅れは、バックバッファされたビデオがプレイバックのための準備ができるまでの時間を少なくともカバーするべきである。このように、ユーザは、第2の、バックバッファされたビデオが利用可能になるまで、現在の主要なビデオを未だに見ることができる。さらに、バックバッファビデオがすでにバックグランドでプレイしている場合、アニメーション遅れは、バックバッファされたビデオがフォアグランドへスワップされる前に、プレイバック時間の最終的な同期を可能にする。

上記戦略は、現在のビデオストリーミング技術を使用して実施され得る。帯域幅が利用可能であれば、MPEG-DASHのようなビデオをストリームする際における新たな規格が、シームレスなオンザフライ品質変化を可能にする。MPEG-DASHを使用して、上記バッファリングスキームは、バックバッファにおいて低品質ビデオを使用し、より低い帯域幅、したがって、バックバッファのより高速なバッファリング時間を保証する。ビデオがフォアグランドへもたらされた後、品質は、その後、利用可能な帯域幅に従って、自動的に改善され得る。同様に、帯域幅が利用可能であれば、バックグランドビューからデータを送信するための、ユーティリティベースのポリシを導出するために、スケーラブルビデオコーディング(SVC)方法が使用され得る。たとえば、ポリシは、利用可能な視点のすべてから、ある低品質ビデオを有することを試み好むように定義され得、3Dマップビューにおけるサムネイル上における表示のために、画像データの高速切換と再使用との両方を可能にする。

移行アニメーション
ユーザが、プレイバックのためにバックグラウンドビデオを準備する際におけるレイテンシをカバーするために新たなビデオを選択した後、上述されたバッファリング戦略は、わずかな遅れに依存する。より応答性の高いプレイバック移行の表示を与えるために、この移行時間中、アニメーションまたはエフェクトが、ビデオにオーバレイされ得る。

そのような1つのエフェクトは、ユーザインタラクションの要素から現在のメインビデオへのビデオ選択のサムネイルのパン、スキャン、およびフェードをアニメートすることであろう。利用可能であれば、システムのコンピュータビジョン構成要素から復元された3D情報が、フリー視点切換をアニメートするために使用され得る。レンダリングは、シーンの3Dフライスルーのように見えるので、そのような移行はまた、環境の空間のより良い感覚をユーザに与える。そのような移行は、粗い接近シーン幾何と、現在プレイしているビデオテクスチャをシーンにマップするプロジェクティブテクスチャのみを使用してレンダされ得る。1つの実施では、これは、フリー視点レンダリングと称され得る。単一の入力画像および粗いシーン幾何は、近くの領域上にビューを合成するために使用され得る。トップダウンビューは、シーン上に投影されているテクスチャを示す。

追加の移行エフェクトはまた、スローモーションまたはリプレイモードをも含み得る。ここでは、ユーザが異なる視点から同じイベントを見ることができ得るように、ビデオ切換がなされると、巻き戻される。巻き戻し時間ポイントは、動的な巻き戻しポイントを自動的に識別するために、ビデオ密度バーからの情報を使用し得る。

上記記載は、ユーザが生成したコンテンツからのマルチビュービデオプレイバックを達成するための完全なシステムおよび方法を提示する。システムは、ビデオ開始時間および3Dカメラ場所を含む利用可能なすべての情報の抽出、利用、および提示に焦点を置いている。そうする際に、システムは、直観的なマルチビューブラウジング経験を達成する。ここで、ユーザは、利用可能なビデオ品質キュー、3Dポーズ情報、およびユーザインタラクションの履歴を考慮することによって、時間および空間における興味のあるポイントへと視覚的にガイドされる。これらの同じキューはまた、プレイバック中に、予測的なバックバッファリング戦略において利用される。これは、インターネットプロトコル送信における帯域幅制約を低減しながら、インタラクトを保証する。

図8は、本明細書において議論された方法のうちの何れか1つまたは複数をマシンに実行させるための命令のセットが実行され得るコンピュータシステム800の典型的な形式におけるマシンの図解的表現を例示する。代替実施では、マシンは、ローカルエリアネットワーク(LAN)、イントラネット、エクストラネット、またはインターネット内の他のマシンへ接続(たとえば、ネットワーク化)され得る。マシンは、クライアントサーバネットワーク環境におけるサーバまたはクライアントマシンの容量内で、または、ピアツーピア(または分散)ネットワーク環境におけるピアマシンとして、動作し得る。マシンは、そのマシンによって行われるべき動作を指定するパーソナルコンピュータ(PC)、タブレットPC、セットトップボックス(STB)、携帯情報端末(PDA)、セルラ電話、ウェブアプライアンス、サーバ、ネットワークルータ、スイッチまたはブリッジ、または、命令のセットを(シーケンシャルにまたは他の方法で)実行することが可能な任意のマシン、であり得る。さらに、単一のマシンしか例示されていないが、「マシン」という用語はまた、本明細書で議論された方法のうちの任意の1つまたは複数を実行するための命令のセット(または複数のセット)を個別または統合的に実行するマシンの任意の集合を含むように理解されるものとする。

典型的なコンピュータシステム800は、バス830を介して互いに通信する処理デバイス802、メインメモリ804(たとえば、読取専用メモリ(ROM)、フラッシュメモリ、ダイナミックランダムアクセスメモリ(DRAM)(シンクロナスDRAM(SDRAM)またはRambus DRAM(RDRAM)等)、スタティックメモリ806(たとえば、フラッシュメモリ、スタティックランダムアクセスメモリ(SRAM)等)、および、データ記憶デバイス818を含む。本明細書に記載された様々なバスを介して提供される信号の何れかは、他の信号と時間多重化され、1つまたは複数の共通のバスを介して提供され得る。さらに、回路構成要素またはブロック間の相互接続が、バスとして、または、単一の信号ラインとして図示され得る。バスの各々は、代替的に、1つまたは複数の単一の信号ラインであり、単一の信号ラインの各々は、代替的に、バスであり得る。

処理デバイス802は、マイクロプロセッサ、中央処理装置等のような1つまたは複数の汎用処理デバイスを表現する。より具体的には、処理デバイスは、複合命令セットコンピューティング(CISC)マイクロプロセッサ、縮小命令セットコンピュータ(RISC)マイクロプロセッサ、超長命令語(VLIM)マイクロプロセッサ、または他の命令セットを実現するプロセッサ、または命令セットの組合せを実現するプロセッサであり得る。処理デバイス802はまた、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、デジタル信号プロセッサ(DSP)、ネットワークプロセッサ等のような1つまたは複数の特別目的処理デバイスであり得る。処理デバイス802は、本明細書で議論された動作およびステップを実行するための処理ロジック826を実行するように構成される。

コンピュータシステム800はさらに、ネットワークインターフェースデバイス808を含み得る。コンピュータシステム800はまた、ビデオディスプレイユニット810(たとえば、液晶ディスプレイ(LCD)または陰極線管(CRT))、英数字入力デバイス812(たとえば、キーボード)、カーソル制御デバイス814(たとえば、マウス)、および、信号生成デバイス816(たとえば、スピーカ)、を含み得る。

データ記憶デバイス818は、マシン読取可能な記憶媒体828を含み得る。ここでは、本明細書に記載された機能の方法のうちの何れか1つまたは複数を具体化する命令822(たとえば、ソフトウェア)の1つまたは複数のセットが記憶される。命令822はまた、コンピュータシステム800によるその実行中に、メインメモリ804内に、および/または、処理デバイス802内に、完全にまたは少なくとも部分的に存在し得る。メインメモリ804および処理デバイス802はまた、マシン読取可能な記憶媒体を構成する。命令822はさらに、ネットワークインターフェースデバイス808を介してネットワーク820上で送信または受信され得る。

本明細書に記載されるように、マシン読取可能な記憶媒体828はまた、マルチビューオーディオおよびビデオインタラクティブプレイバックのための方法を実行するための命令を記憶するために使用され得る。マシン読取可能な記憶媒体828は、典型的な実施では、単一の媒体であるように図示されているが、「マシン読取可能な記憶媒体」という用語は、命令の1つまたは複数のセットを記憶する単一の媒体または複数の媒体(たとえば、集中または分散型のデータベース、および/または、関連付けられたキャッシュまたはサーバ)を含むことが理解されるべきである。マシン読取可能な媒体は、マシン(たとえば、コンピュータ)によって読取可能な形式(たとえば、ソフトウェア、処理アプリケーション)で情報を記憶するための任意のメカニズムを含む。マシン読取可能な媒体は、限定されないが、磁気記憶媒体(たとえば、フロッピーディスク)、光記憶媒体(たとえば、CD-ROM)、磁気光記憶媒体、読取専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、消去可能プログラマブルメモリ(たとえば、EPROMおよびEEPROM)、フラッシュメモリ、または、電子命令を記憶するために適切な他のタイプの媒体を含み得る。

本開示のいくつかの実施の良好な理解を与えるために、前述した記載は、特定のシステム、構成要素、方法等のような多くの具体的な詳細を記述している。しかしながら、本開示の少なくともいくつかの実施は、これら具体的な詳細無しで、実現され得ることが当業者に明らかになるであろう。他の事例では、本開示を不必要に不明瞭にすることを避けるために、周知の構成要素または方法が、詳細に記載されていないか、または、単純なブロック図フォーマットで提示されている。したがって、記載された特定の詳細は、単に典型的である。特定の実施は、これらの典型的な詳細から変動することができ、本開示の範囲内にあるように考慮され得る。

本明細書において議論されたシステムが、ユーザに関する個人情報を収集するか、または、個人情報を活用し得る状況において、ユーザには、(たとえば、ユーザのソーシャルネッワーク、社会的貢献または活動、職業、ユーザの嗜好、またはユーザの現在の場所に関する情報のような)ユーザ情報をプログラムが収集するか、特徴が収集するのかの制御、または、ユーザにより関係のあり得るメディアサーバからのコンテンツを受信するか否か、および/または、どのように受信するのかの制御、のための機会が与えられ得る。さらに、あるデータは、個人識別情報が削除されるように、記憶または使用される前に、1つまたは複数の方式で取り扱われ得る。たとえば、ユーザのアイデンティティは、ユーザのための個人識別情報が判定されないように取り扱われ得るか、または、ユーザの特定の場所が決定されないように、ユーザの地理的場所が一般化され得、(都市への、郵便番号、または州レベルのような)場所情報が取得される。したがって、ユーザは、ウェブサーバまたはメディアサーバによって、ユーザに関する情報がどのように収集され、使用されるのかに関する制御を有し得る。

本明細書の全体を通じての「1つの実施」または「実施」に対する参照は、少なくとも1つの実施に含まれる実施に関連付けられた、記載された特定の特徴、構造、または特性を意味する。したがって、本明細書を通じた様々な場所における「1つの実施」または「実施」というフレーズの表示は、必ずしも、すべてが同じ実施を参照している必要はない。さらに、「または」という用語は、排他的な「または」ではなく包括的な「または」を意味することが意図されている。

本明細書に記載された方法の動作が、特定の順序で図示および記載されているが、各方法の動作の順序は、いくつかの動作が、逆の順序で実行され得るように、または、ある動作が少なくとも部分的に他の動作と同時に実行され得るように、変更され得る。別の実施では、別個の動作の命令またはサブ動作は、断続的および/または交互方式であり得る。

100 ネットワークアーキテクチャ
105 ネットワーク
106 データストア
110A クライアントデバイス
110Z クライアントデバイス
111 メディアビュア
120 コンテンツ共有プラットフォーム
121 メディアアイテム
130 サーバ
135 インタラクティブマルチビューモジュール
140 ソーシャルコネクションプラットフォーム
150 電子メールプラットフォーム
160 サーチプラットフォーム
202 ビデオ発見モジュール
204 オーディオ同期モジュール
206 位置決めモジュール
208 要約モジュール
210 マルチビュープレイバックモジュール
242 メディアアイテム
244 イベントリストデータ
246 ユーザ入力データ
300 処理フロー
310 ビデオデータベース
320 ビデオ発見
330 オーディオ同期
340 位置決め
350 要約
360 プレイバック
510 オーディオ信号
520 オーディオ信号
530 オフセット
540 マッチングスコア
800 コンピュータシステム
802 処理デバイス
804 メインメモリ
806 スタティックメモリ
808 ネットワークインターフェースデバイス
810 ビデオディスプレイ
812 英数字入力デバイス
814 カーソル制御デバイス
816 信号生成デバイス
818 データ記憶デバイス
820 ネットワーク
822 命令
826 処理ロジック
828 マシン読取可能な記憶媒体
830 バス

Claims

方法であって、
現実のイベントに関連付けられた複数のメディアアイテムを、処理デバイスによって識別するステップであって、前記複数のメディアアイテムの各々は、ビデオ部分とオーディオ部分とを備える、ステップと、
前記複数のメディアアイテムの各々の時間的なオフセット基づいて、前記複数のメディアアイテムの各々の前記オーディオ部分を共通基準タイムラインに同期させるステップと、
前記複数のメディアアイテムの各々に関連付けられた相対的な地理的位置を前記ビデオ部分におけるカメラ回転から推定される内部パラメータと前記ビデオ部分における各画像から抽出されたSIFT特徴とに基づいて決定するステップと、
前記同期されたオーディオ部分と前記相対的な地理的位置とに少なくとも基づいて、インタラクティブマルチビュープレーヤインターフェースにおいて、前記複数のメディアアイテムを提示するステップと、
を備える方法。
前記同期されたオーディオ部分に基づいて、前記複数のメディアアイテムを結合することによって、前記現実のイベントに関連付けられた、単一の編集されたメディアアイテムを生成するステップ、をさらに備える請求項1に記載の方法。
前記複数のメディアアイテムを識別するステップは、前記現実のイベントを識別するメタデータを有するメディアアイテムを決定するステップを備える、請求項1に記載の方法。
前記時間的なオフセットは、各オーディオ部分の周波数ベースのオーディオスペクトログラム間の相関を増加または最大化させるように決定され、前記共通基準タイムラインにおける場所を表現する、請求項1に記載の方法。
前記複数のメディアアイテムの各々に関連付けられた前記相対的な地理的位置を決定するステップは、前記複数のメディアアイテムの各々において目に見える複数のポイントに基づいて、前記現実のイベントの時間において、前記複数のメディアアイテムの各々をキャプチャするために使用される個別のカメラの前記相対的な位置を決定するステップを備える、請求項1に記載の方法。
前記インタラクティブマルチビュープレーヤインターフェースにおいて、前記複数のメディアアイテムを提示するステップは、
前記複数のメディアアイテムの各々を表現するアイコンを表示するステップであって、各アイコンは、対応する相対的な地理的位置に基づく場所に表示される、ステップと、
前記複数のメディアアイテムの第1のメディアアイテムを表現するアイコンのユーザ選択を受け取り、前記第1のメディアアイテムのプレイバックを開始するステップと、
前記共通基準タイムラインにおける第1のポイントに対応する前記第1のメディアアイテムのプレイバック中の時間において、前記複数のメディアアイテムの第2のメディアアイテムを表現するアイコンのユーザ選択を受け取り、前記共通基準タイムラインにおける前記第1のポイントに対応する前記第2のメディアアイテムにおける時間において、前記第2のメディアアイテムのプレイバックを開始するステップとを備える、請求項1に記載の方法。
ユーザによって選択されるであろう後続するメディアアイテムを予測するステップと、
前記後続するメディアアイテムのユーザ選択に先立って、前記後続するメディアアイテムをバッファするステップと、
をさらに備える請求項6に記載の方法。
実行された場合、処理デバイスに対して、動作を実行させる命令を記憶する非一時的なマシン読取可能な記憶媒体であって、前記動作は、
現実のイベントに関連付けられた複数のメディアアイテムを、前記処理デバイスによって識別するステップであって、前記複数のメディアアイテムの各々は、ビデオ部分とオーディオ部分とを備える、ステップと、
前記複数のメディアアイテムの各々の時間的なオフセットに基づいて、前記複数のメディアアイテムの各々の前記オーディオ部分を共通基準タイムラインに同期させるステップと、
前記複数のメディアアイテムの各々に関連付けられた相対的な地理的位置を前記ビデオ部分におけるカメラ回転から推定される内部パラメータと前記ビデオ部分における各画像から抽出されたSIFT特徴とに基づいて決定するステップと、
前記同期されたオーディオ部分と前記相対的な地理的位置とに少なくとも基づいて、インタラクティブマルチビュープレーヤインターフェースにおいて、前記複数のメディアアイテムを提示するステップと、
を備える、非一時的なマシン読取可能な記憶媒体。
前記動作はさらに、
前記同期されたオーディオ部分に基づいて、前記複数のメディアアイテムを結合することによって、前記現実のイベントに関連付けられた、単一の編集されたメディアアイテムを生成するステップを備える、請求項8に記載の非一時的なマシン読取可能な記憶媒体。
前記複数のメディアアイテムを識別するステップは、前記現実のイベントを識別するメタデータを有するメディアアイテムを決定するステップを備える、請求項8に記載の非一時的なマシン読取可能な記憶媒体。
前記時間的なオフセットは、各オーディオ部分の周波数ベースのオーディオスペクトログラム間の相関を増加または最大化させるように決定され、前記共通基準タイムラインにおける場所を表現する、請求項8に記載の非一時的なマシン読取可能な記憶媒体。
前記複数のメディアアイテムの各々に関連付けられた前記相対的な地理的位置を決定するステップは、前記複数のメディアアイテムの各々において目に見える複数のポイントに基づいて、前記現実のイベントの時間において、前記複数のメディアアイテムの各々をキャプチャするために使用される個別のカメラの前記相対的な位置を決定するステップを備える、請求項8に記載の非一時的なマシン読取可能な記憶媒体。
前記インタラクティブマルチビュープレーヤインターフェースにおいて、前記複数のメディアアイテムを提示するステップは、
前記複数のメディアアイテムの各々を表現するアイコンを表示するステップであって、各アイコンは、対応する相対的な地理的位置に基づく場所に表示される、ステップと、
前記複数のメディアアイテムの第1のメディアアイテムを表現するアイコンのユーザ選択を受け取り、前記第1のメディアアイテムのプレイバックを開始するステップと、
前記共通基準タイムラインにおける第1のポイントに対応する前記第1のメディアアイテムのプレイバック中の時間において、前記複数のメディアアイテムの第2のメディアアイテムを表現するアイコンのユーザ選択を受け取り、前記共通基準タイムラインにおける前記第1のポイントに対応する前記第2のメディアアイテムにおける時間において、前記第2のメディアアイテムのプレイバックを開始するステップとを備える、請求項8に記載の非一時的なマシン読取可能な記憶媒体。
前記動作はさらに、
ユーザによって選択されるであろう後続するメディアアイテムを予測するステップと、
前記後続するメディアアイテムのユーザ選択に先立って、前記後続するメディアアイテムをバッファするステップとを備える、請求項13に記載の非一時的なマシン読取可能な記憶媒体。
サーバコンピュータシステムであって、
処理デバイスと、
前記処理デバイスに結合されたメモリと、
現実のイベントに関連付けられた複数のメディアアイテムを識別し、前記複数のメディアアイテムの各々は、ビデオ部分とオーディオ部分とを備え、
前記複数のメディアアイテムの各々の時間的なオフセットに基づいて、前記複数のメディアアイテムの各々の前記オーディオ部分を共通基準タイムラインに同期させ、
前記複数のメディアアイテムの各々に関連付けられた相対的な地理的位置を前記ビデオ部分におけるカメラ回転から推定される内部パラメータと前記ビデオ部分における各画像から抽出されたSIFT特徴とに基づいて決定し、
前記同期されたオーディオ部分と前記相対的な地理的位置とに少なくとも基づいて、インタラクティブマルチビュープレーヤインターフェースにおいて、前記複数のメディアアイテムを提示することをする
ために、前記メモリから読み出されて、前記処理デバイスによって実行可能なインタラクティブマルチビューモジュールと、
を備えるサーバコンピュータシステム。
前記インタラクティブマルチビューモジュールはさらに、前記同期されたオーディオ部分に基づいて、前記複数のメディアアイテムを結合することによって、前記現実のイベントに関連付けられた、単一の編集されたメディアアイテムを生成する、請求項15に記載のサーバコンピュータシステム。
前記複数のメディアアイテムを識別するために、前記インタラクティブマルチビューモジュールが、前記現実のイベントを識別するメタデータを有するメディアアイテムを決定する、請求項15に記載のサーバコンピュータシステム。
前記時間的なオフセットは、各オーディオ部分の周波数ベースのオーディオスペクトログラム間の相関を増加または最大化させるように前記インタラクティブマルチビューモジュールによって決定され、前記共通基準タイムラインにおける場所を表現する、請求項15に記載のサーバコンピュータシステム。
前記複数のメディアアイテムの各々に関連付けられた前記相対的な地理的位置を決定するために、前記インタラクティブマルチビューモジュールが、前記複数のメディアアイテムの各々において目に見える複数のポイントに基づいて、前記現実のイベントの時間において、前記複数のメディアアイテムの各々をキャプチャするために使用される個別のカメラの前記相対的な位置を決定する、請求項15に記載のサーバコンピュータシステム。
前記インタラクティブマルチビュープレーヤインターフェースにおいて、前記複数のメディアアイテムを提示するために、前記インタラクティブマルチビューモジュールは、
前記複数のメディアアイテムの各々を表現するアイコンを表示し、各アイコンは、対応する相対的な地理的位置に基づく場所に表示され、
前記複数のメディアアイテムの第1のメディアアイテムを表現するアイコンのユーザ選択を受け取り、前記第1のメディアアイテムのプレイバックを開始し、
前記共通基準タイムラインにおける第1のポイントに対応する前記第1のメディアアイテムのプレイバック中の時間において、前記複数のメディアアイテムの第2のメディアアイテムを表現するアイコンのユーザ選択を受け取り、前記共通基準タイムラインにおける前記第1のポイントに対応する前記第2のメディアアイテムにおける時間において、前記第2のメディアアイテムのプレイバックを開始する、請求項15に記載のサーバコンピュータシステム。