JP7448677B2

JP7448677B2 - 没入型メディアをストリーミングする方法、並びにそのデバイス、及びコンピュータプログラム

Info

Publication number: JP7448677B2
Application number: JP2022552225A
Authority: JP
Inventors: アリアンヌ・ハインズ; ステファン・ヴェンガー
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2020-12-08
Filing date: 2021-08-24
Publication date: 2024-03-12
Anticipated expiration: 2041-08-24
Also published as: US12003792B2; KR102598603B1; KR20220110787A; CN115136595A; EP4085567A1; EP4085567A4; US20220182597A1; WO2022125154A1; JP2023516971A; KR20230155615A

Description

関連出願への相互参照
本出願は、米国特許商標庁に２０２０年１２月８日に出願された米国仮特許出願第６３／１２２，７６９号及び２０２１年８月１９日に出願された米国特許出願第１７／４０６，２６８号の優先権を主張し、それらの全体は、参照によりその全体が本明細書に組み込まれる。

本開示は、一般に、データ処理の分野に関し、より具体的にはビデオコーディングに関する。

「没入型メディア」とは、一般に、人間の感覚システム（視覚、聴覚、体性感覚、嗅覚、場合によっては味覚）のいずれか又はすべてを刺激して、メディアの体験に物理的に存在するユーザの知覚を生み出す又は強化するメディアを指し、即ち、「レガシーメディア」として知られている、時限２次元（２Ｄ）ビデオ及び対応するオーディオのために既存の商用ネットワーク上で配布されるものを超えている。没入型メディアとレガシーメディアは両方とも、時限又は時限なしのいずれかとして特徴付けることができる。

時限メディアとは、時間に従って構造化及び提示されるメディアを指す。例としては、映画の特集、ニュースレポート、エピソードコンテンツなどが挙げられ、これらはすべて期間に従って編成される。レガシービデオ及びオーディオは、一般的に時限メディアと見なされる。

時限なしメディアは、時間ではなく、むしろ論理的、空間的、及び／又は時間的関係によって構造化されたメディアである。一例としては、ユーザがゲーム装置が作り出す体験を制御できるビデオゲームが挙げられる。時限なしメディアの別の例は、カメラで撮影した静止画像写真である。時限なしメディアは、例えば、ビデオゲームのシーンの連続的にループするオーディオ又はビデオセグメントに時限メディアを組み込むことができる。逆に、時限メディアは、時限なしメディア、例えば、固定された静止画像を背景として有するビデオを組み込むことができる。

没入型メディア対応デバイスとは、没入型メディアにアクセス、解釈、及び提示する機能を備えたデバイスを指す場合がある。そのようなメディア及びデバイスは、メディアの量及びフォーマット、並びにそのようなメディアを大規模に配布するために、即ち、ネットワークを介してレガシービデオ及びオーディオメディアと同等の配布を達成するために必要なネットワークリソースの数及びタイプに関して異種である。対照的に、ラップトップディスプレイ、テレビ、携帯電話ディスプレイなどのレガシーデバイスは、これらのデバイスがすべて長方形のディスプレイ画面で構成され、２Ｄ長方形のビデオ又は静止画像を主要なメディアフォーマットとして使用するため、機能が同質である。

没入型メディアをストリーミングするための方法、システム、及びコンピュータ可読媒体を提供する。

本開示の一態様によれば、プロセッサが実行可能な没入型メディアをストリーミングする方法は、コンテンツを２次元フォーマットで取り込むステップと、ニューラルネットワークに基づいて取り込んだコンテンツを３次元フォーマットに変換するステップと、変換したコンテンツをクライアントエンドポイントにストリーミングするステップとを含む。

取り込んだコンテンツを変換するステップは、ニューラルネットワークによって、取り込んだコンテンツに含まれた相関画像に基づいて取り込んだコンテンツに描かれたシーンの立体表現を導出するステップを含むことができる。

２次元フォーマットは、単一ビュー２次元フォーマットであり得る。

２次元フォーマットは、マルチビュー２次元フォーマットであり得る。

取り込んだコンテンツは、中央処理装置及びグラフィック処理装置のうちの少なくとも１つを含む適応処理ユニットを使用して変換されてもよい。

ニューラルネットワークは、適応処理ユニットに含まれたメモリに記憶された複数のニューラルネットワークモデルの中から適応処理ユニットによって選択されたニューラルネットワークモデルに対応し得る。

クライアントエンドポイントは、２次元フォーマットをサポートすることができない可能性がある。

クライアントエンドポイントは、テレビ、コンピュータ、ヘッドマウントディスプレイ、レンチキュラライトフィールドディスプレイ、ホログラフィックディスプレイ、拡張現実ディスプレイ、及び高密度ライトフィールドディスプレイのうちの少なくとも１つを含むことができる。

本開示の一態様によれば、没入型メディアをストリーミングするためのデバイスは、プログラムコードを記憶するように構成された少なくとも１つのメモリと、プログラムコードを読み取り、プログラムコードによって指示されたとおりに動作するように構成された少なくとも１つのプロセッサとを含み、プログラムコードは、少なくとも１つのプロセッサに、コンテンツを２次元フォーマットで取り込ませるように構成された取り込みコードと、少なくとも１つのプロセッサに、ニューラルネットワークに基づいて取り込んだコンテンツを３次元フォーマットに変換させるように構成された変換コードと、少なくとも１つのプロセッサに、変換したコンテンツをクライアントエンドポイントにストリーミングさせるように構成されたストリーミングコードとを含む。

変換コードは、少なくとも１つのプロセッサに、ニューラルネットワークによって、取り込んだコンテンツに含まれた相関画像に基づいて取り込んだコンテンツに描かれたシーンの立体表現を導出させるように構成された導出コードを含むことができる。

取り込んだコンテンツは、デバイスに含まれた適応処理ユニットを使用して変換されてもよく、適応処理ユニットは、中央処理装置及びグラフィック処理装置のうちの少なくとも１つを含む。

ニューラルネットワークは、少なくとも１つのメモリに記憶された複数のニューラルネットワークモデルの中から適応処理ユニットによって選択されたニューラルネットワークモデルに対応し得る。

本開示の一態様によれば、非一時的なコンピュータ可読媒体は命令を記憶し、命令は、没入型メディアをストリーミングするためのデバイスの少なくとも１つのプロセッサによって実行されると、少なくとも１つのプロセッサに、コンテンツを２次元フォーマットで取り込ませ、ニューラルネットワークに基づいて取り込んだコンテンツを３次元フォーマットに変換させ、変換したコンテンツをクライアントエンドポイントにストリーミングさせるように構成された１つ又は複数の命令を含む。

命令は更に、少なくとも１つのプロセッサに、ニューラルネットワークによって、取り込んだコンテンツに含まれた相関画像に基づいて取り込んだコンテンツに描かれたシーンの立体表現を導出させることができる。

これら及び他の目的、特徴及び利点は、添付の図面に関連して読まれるべき例示的な実施形態の以下の詳細な説明から明らかになるであろう。図示が、明確にするために、詳細な説明と併せて当業者の理解を容易にするためのものであるため、図面の様々な特徴は、縮尺通りではない。図面は以下のとおりである。

時限レガシーメディア配布のエンドツーエンドプロセスの概略図である。時限レガシーメディアのストリーミングに使用される標準メディアフォーマットの概略図である。時限没入型メディアの表現及びストリーミングのためのデータモデルの一実施形態の概略図である。時限なし没入型メディアの表現及びストリーミングのためのデータモデルの一実施形態の概略図である。ナチュラルシーンをキャプチャし、それを、異種クライアントエンドポイントにサービスを提供するネットワークの取り込みフォーマットとして使用できる表現に変換するプロセスの概略図である。３Ｄモデリングツール及びフォーマットを使用して、異種クライアントエンドポイントにサービスを提供するネットワークの取り込みフォーマットとして使用できる合成シーンの表現を作成するプロセスの概略図である。コンピュータシステムのシステム図である。複数の異種クライアントエンドポイントにサービスを提供するネットワークの概略図である。例えば、特定の没入型メディアクライアントエンドポイントによる使用のためにメディアを適応させるネットワークのプロセスの前に、メディア取り込みフォーマットで表される特定のメディアに関する適応情報を提供するネットワークの概略図である。ソースメディアをその取り込みフォーマットから特定のクライアントエンドポイントに適した特定のフォーマットに変換するメディアレンダリングコンバータからなるメディア適応プロセスのシステム図である。適応ソースメディアを表現及びストリーミングに適したデータモデルにフォーマットするネットワークの概略図である。図１２のデータモデルをネットワークプロトコルパケットのペイロードに断片化するメディアストリーミングプロセスのシステム図である。取り込みフォーマットの特定の没入型メディアを、特定の没入型メディアクライアントエンドポイント用のストリーミング可能且つ適切な配布フォーマットに適応させるネットワークのシーケンス図である。没入型及びレガシーコンテンツフォーマットの両方、即ち、２Ｄビデオフォーマットのみ、又は没入型及び２Ｄビデオフォーマットの両方からなる図１０の取り込みメディアフォーマット及びアセット１００２の概略図である。

特許請求された構造及び方法の詳細な実施形態は本明細書に開示されているが、開示された実施形態は、様々な形態で具体化され得る特許請求された構造及び方法の単なる例示であることが理解され得る。しかしながら、これらの構造及び方法は、多くの異なる形態で具体化されてもよく、また本明細書に記載の例示的な実施形態に限定されると解釈されるべきではない。むしろ、これらの例示的な実施形態は、本開示が徹底的且つ完全であり、その範囲を当業者に完全に伝えるように提供される。説明では、提示された実施形態を不必要に曖昧にすることを回避するために、周知の特徴及び技術の詳細を省略してもよい。

実施形態は、一般に、データ処理の分野に関し、より具体的には、ビデオコーディングに関する。本明細書に記載の技術により、ネットワークは、フォーマットされたメディアを実際に様々なクライアントエンドポイントに配布する前に、１つ又は複数の（通常は少数の）ビューを含むメディアの２Ｄビデオソースを取り込み、２Ｄメディアのソースを１つ又は複数のストリーミング可能な「配布フォーマット」に適応させて、様々な異種クライアントエンドポイントデバイス、それらの異なる特徴と機能、及びクライアントエンドポイントで使用されるアプリケーションの要件に対応することができる。２Ｄメディアソースを様々なストリーミング可能な配布フォーマットに再フォーマットする機能により、ネットワークは、様々な機能と利用可能な計算リソースを備えた様々なクライアントエンドポイントに同時にサービスを提供することができ、また、商用ネットワークでのホログラフィックディスプレイ及びライトフィールドディスプレイなどの新たな没入型クライアントエンドポイントのサポートが可能になる。２Ｄメディアソースを適応させるこのような機能は、利用可能な没入型メディアソースがない場合、及びクライアントが２Ｄメディアに基づく配布フォーマットをサポートできない場合に特に重要である。このシナリオでは、ニューラルネットワークベースのアプローチを使用して、２Ｄメディアからターゲットクライアントエンドポイントに適した立体フォーマットへの適応を実行する。

前述したように、「没入型メディア」とは、一般に、人間の感覚システム（視覚、聴覚、体性感覚、嗅覚、場合によっては味覚）のいずれか又はすべてを刺激して、メディアの体験に物理的に存在するユーザの知覚を生み出す又は強化するメディアを指し、即ち、「レガシーメディア」として知られている、時限２次元（２Ｄ）ビデオ及び対応するオーディオのために既存の商用ネットワーク上で配布されるものを超えている。没入型メディアとレガシーメディアは両方とも、時限又は時限なしのいずれかとして特徴付けることができる。

時限なしメディアは、時間ではなく、むしろ論理的、空間的、及び／又は時間的関係によって構造化されたメディアである。一例として、ユーザがゲーム装置が作り出す体験を制御できるビデオゲームが挙げられる。時限なしメディアの別の例は、カメラで撮影した静止画像写真である。時限なしメディアは、例えば、ビデオゲームのシーンの連続的にループするオーディオ又はビデオセグメントに時限メディアを組み込むことができる。逆に、時限メディアは、時限なしメディア、例えば、固定された静止画像を背景として有するビデオを組み込むことができる。

ネットワークを介した任意のメディアの配布では、メディアを入力又はネットワーク「取り込み」フォーマットから最終的な配布フォーマットに再フォーマットするメディア配信システム及びアーキテクチャを使用することができ、その配布フォーマットは、ターゲットクライアントデバイスとそのアプリケーションに適しているだけでなく、ネットワークを介したストリーミングにも役立つ。メディアの「ストリーミング」とは、広義には、ソースメディアの断片化及びパケット化を指し、それによって、ソースメディアは、メディアの時間的又は空間的構造のいずれか又は両方に従って論理的に編成され、順序付けされた連続する小さなサイズの「チャンク」でネットワークを介して配信することができる。そのような配布アーキテクチャ及びシステムでは、最も重要なメディア情報のみが最初にクライアントに配信されるように、メディアは圧縮又は階層化プロセスを受けてもよい。場合によっては、クライアントが同じメディア部分のいずれかをエンドユーザに提示する前に、クライアントはメディアの一部に関する重要なメディア情報をすべて受信しなければならない。

圧縮及び階層化プロセスの一例は、ＪＰＥＧ規格（ＩＳＯ／ＩＥＣ１０９１８Ｐａｒｔ１）のプログレッシブフォーマットであり、これは、画像をレイヤに分割し、これにより、最初は焦点が合っていない基本的な形状と色のみで、即ち画像スキャン全体の低次ＤＣＴ係数から画像全体が最初に提示され、次に、追加の詳細レイヤに分割し、即ち画像スキャンの高次ＤＣＴ係数から、画像に焦点を合わせる。

メディアをより小さな部分に分割し、それらを連続するネットワークプロトコルパケットのペイロード部分に編成し、これらのプロトコルパケットを配布するプロセスは、メディアの「ストリーミング」と呼ばれ、一方、メディアを、様々な異種アプリケーションの１つを動作させる様々な異種クライアントエンドポイントの１つでのプレゼンテーションに適したフォーマットに変換するプロセスは、メディアの「適応」として知られている。

定義

シーングラフ：ベクトルベースのグラフィック編集アプリケーションと最新のコンピュータゲームで一般的に使用される一般的なデータ構造であり、グラフィカルシーンの論理的及び多くの場合（必ずしもそうではない）空間表現を配置する。グラフ構造内のノードと頂点の集合である。

ノード：視覚、聴覚、触覚、嗅覚、味覚、又は関連する処理情報の論理的又は空間的又は時間的表現に関連する情報で構成されるシーングラフの基本要素である。各ノードは、最大で１つの出力エッジ、０個以上の入力エッジ、及びそれに接続された少なくとも１つのエッジ（入力又は出力のいずれか）を有する必要がある。

ベースレイヤ：アセットの公称表現であり、通常、アセットをレンダリングするために必要な計算リソースや時間、又はネットワーク経由でアセットを送信する時間を最小限に抑えるために作成される。

拡張レイヤ：情報のセットであり、アセットのベースレイヤ表現に適用されると、ベースレイヤを拡張して、ベースレイヤでサポートされていない特徴又は機能を含める。

属性：ノードに関連付けられたメタデータであり、そのノードの特定の特性又は特徴を、標準形式又はより複雑な形式（例えば、別のノードに関して）のいずれかで記述するために使用される。

コンテナ：すべてのナチュラルシーン、すべての合成シーン、又は合成シーンとナチュラルシーンの混合を表すために情報を記憶及び交換するためのシリアル化されたフォーマットであり、シーングラフ及びシーンのレンダリングに必要なすべてのメディアリソースを含む。

シリアル化：データ構造又はオブジェクト状態を、記憶（例えば、ファイル又はメモリバッファに）又は送信（例えば、ネットワーク接続リンクを介して）して後で（おそらく別のコンピュータで）再構成できるフォーマットに変換するプロセスである。得られた一連のビットがシリアル化フォーマットに従って再読み取りされると、シリアル化は、元のオブジェクトの意味的に同一のクローンを作成するために使用できる。

レンダラ：音響物理学、光物理学、視知覚、聴知覚、数学、及びソフトウェア開発に関連する分野の選択的な組み合わせに基づく（通常はソフトウェアベースの）アプリケーション又はプロセスであり、入力シーングラフ及びアセットコンテナが与えられると、ターゲットデバイスでのプレゼンテーションに適した、又はシーングラフ内のレンダリングターゲットノードの属性によって指定された望ましいプロパティに適合する、通常は視覚及び／又は音声信号を発信する。視覚ベースのメディアアセットの場合、レンダラは、ターゲットディスプレイに適した、又は中間アセットとして記憶するのに適した視覚信号を発信することができ（例えば、別のコンテナに再パッケージされ、即ちグラフィックスパイプラインにおける一連のレンダリングプロセスで使用される）。オーディオベースのメディアアセットの場合、レンダラは、マルチチャネルスピーカ及び／又はバイノーラルヘッドフォンでのプレゼンテーション用、又は別の（出力）コンテナへの再パッケージ用の音声信号を発信することができる。レンダラの一般的な例としては、Ｕｎｉｔｙ、Ｕｎｒｅａｌが挙げられる。

評価：出力を抽象的な結果から具体的な結果に移動させる結果を生成する（例えば、Ｗｅｂページのドキュメントオブジェクトモデルの評価と同様）。

スクリプト言語：実行時にレンダラが実行して、シーングラフノードに対して行われた動的入力及び変数状態の変更を処理できるインタプリタ型プログラミング言語であり、これは、空間的及び時間的オブジェクトトポロジ（物理的な力、制約、ＩＫ、変形、衝突を含む）のレンダリング及び評価、及びエネルギーの伝播と輸送（光、音）に影響を与える。

シェーダ：元々はシェーディング（画像内に適切なレベルの明暗、色を生成する）に使用されていたコンピュータプログラムの一種であるが、現在はコンピュータグラフィックス特殊効果の様々な分野で様々な特殊機能を実行したり、シェーディングとは関係のないビデオ後処理を行ったり、グラフィックスとはまったく関係のない機能を実行したりする。

パストレーシング：シーンの照明が現実に忠実であるように３次元シーンをレンダリングするコンピュータグラフィックス方法である。

時限メディア：例えば、特定の時計に従った開始時間及び終了時間を有する、時間で順序付けられたメディアである。

時限なしメディア：例えば、ユーザがとる行動に従って実現されるインタラクティブな体験のように、空間的、論理的、又は時間的な関係によって編成されたメディアである。

没入型メディアは、没入型メディア対応デバイスによって人間に提示されると、視覚、聴覚、味覚、触覚、嗅覚の５つの感覚のいずれかを、より現実的で、自然界での体験に対する人間の理解と一致する方法で刺激する１つ又は複数のタイプのメディアと見なすことができ、即ち、レガシーデバイスによって提示されたレガシーメディアで他の方法で達成されたであろう刺激を超えている。この文脈において、「レガシーメディア」という用語は、静止画又は動画フレームのいずれかの２次元（２Ｄ）視覚メディア、及び／又は対応するオーディオを指し、ユーザが対話する能力が一時停止、再生、早送り、又は巻き戻しに制限される。「レガシーデバイス」とは、機能が、レガシーメディアのみの提示に制限されているテレビ、ラップトップ、ディスプレイ、及びモバイルデバイスを指す。消費者向けのアプリケーションシナリオでは、没入型メディアのプレゼンテーションデバイス（即ち、没入型メディア対応デバイス）は、没入型メディアによって具体化される特定の情報を活用する能力を特に備えた消費者向けハードウェアデバイスであり、それによって、デバイスは、物理的世界に対する人間の理解及び物理的世界との相互作用により厳密に近接するプレゼンテーションを作成することができ、即ち、レガシーデバイスがそれを行うための能力を超えている。レガシーデバイスは、その能力がレガシーメディアのみを提示することに制限され、没入型メディアデバイスは同じように制限されない。

過去１０年間、ヘッドマウントディスプレイ、拡張現実メガネ、ハンドヘルドコントローラ、触覚グローブ、ゲームコンソールなど、多くの没入型メディア対応デバイスが消費者市場に導入されてきた。同様に、ホログラフィックディスプレイやその他の形式の立体ディスプレイは、今後１０年以内に登場する態勢が整っている。これらのデバイスがすぐに又は間もなく利用可能であるにもかかわらず、商用ネットワークを介して没入型メディアを配布するためのコヒーレントエンドツーエンドエコシステムは、いくつかの理由で実現できなかった。

これらの理由の１つは、商業ネットワークを介した現在の大規模なメディアの配布に関連する２つの主要なユースケースに対処できる没入型メディアの単一の標準表現がないことであり、２つの主要なユースケースは、１）実写イベントのリアルタイム配布、即ち、コンテンツが作成され、リアルタイム又はほぼリアルタイムでクライアントエンドポイントに配布される場合、及び２）非リアルタイム配布、即ち、コンテンツが物理的にキャプチャ又は作成されるため、コンテンツをリアルタイムで配布する必要がない場合である。それぞれ、これらの２つのユースケースは、現在存在する「ブロードキャスト」及び「オンデマンド」の配布フォーマットと比較可能である。

リアルタイム配布の場合、コンテンツは、１つ又は複数のカメラによってキャプチャされ得るか、又はコンピュータ生成技術を使用して作成され得る。カメラによってキャプチャされたコンテンツは、本明細書では「ナチュラル」コンテンツと呼ばれ、一方、コンピュータ生成技術を使用して作成されたコンテンツは、本明細書では「合成」コンテンツと呼ばれる。合成コンテンツを表現するメディアフォーマットは、３Ｄモデリング、視覚効果、ＣＡＤ／ＣＡＭ業界で使用されるフォーマットであってもよく、メッシュ、テクスチャ、点群、構造化ボリューム、アモルファスボリューム（例えば、火、煙、及び霧）、シェーダ、手続き型生成ジオメトリ、マテリアル、照明、仮想カメラ定義、及びアニメーションなどのオブジェクトフォーマット及びツールを含むことができる。合成コンテンツはコンピュータで生成され、合成メディアフォーマットは、ナチュラルコンテンツ及び合成コンテンツの両方に使用することができるが、ナチュラルコンテンツを合成メディアフォーマット（例えば、合成表現）に変換するプロセスは、時間と計算量の多いプロセスである可能性があり、したがって、リアルタイムアプリケーション及びユースケースには実用的でない可能性がある。

ナチュラルコンテンツのリアルタイム配布の場合、カメラでキャプチャされたコンテンツは、ラスタフォーマットで配布することができ、ラスタフォーマットは、レガシーディスプレイデバイスの多くが同様にラスタフォーマットを表示するように設計されているため、そのようなデバイスに適している。即ち、レガシーディスプレイが、ラスタフォーマットを表示するために一様に設計されていることを考えると、ラスタフォーマットの配布は、したがって、ラスタフォーマットのみを表示することができるディスプレイに最適である。

しかしながら、没入型メディア対応ディスプレイは、必ずしもラスタベースのフォーマットの表示に制限されるわけではない。更に、一部の没入型メディア対応ディスプレイは、ラスタベースのフォーマットでのみ利用可能なメディアを提示することができない。ラスタベースのフォーマット以外のフォーマットに基づいて没入型体験を作り出すように最適化されたディスプレイが利用可能であることは、没入型メディアを配布するためのコヒーレントエンドツーエンドエコシステムがまだ存在しないもう１つの重要な理由である。

複数の異なる没入型メディアデバイス用のコヒーレント配布システムを作成することに関する更に別の問題は、現在及び新しい没入型メディア対応デバイス自体が大幅に異なる可能性があることである。例えば、一部の没入型メディアデバイス、例えばヘッドマウントディスプレイは、一度に１人のユーザのみが使用するように明示的に設計されている。他の没入型メディアデバイスは、複数のユーザが同時に使用できるように設計されており、例えば、「ＬｏｏｋｉｎｇＧｌａｓｓＦａｃｔｏｒｙ８Ｋディスプレイ」（以降、「レンチキュラライトフィールドディスプレイ」と呼ぶ）は、最大１２人が同時に視聴できるコンテンツを表示することができ、各ユーザは、表示されているコンテンツの独自の視点（即ち、ビュー）を体験している。

コヒーレント配布システムの開発を更に複雑にしているのは、各ディスプレイが生成できる独特の視点の数が大幅に異なる可能性があることである。ほとんどの場合、レガシーディスプレイは、コンテンツの単一の視点のみを作り出すことができる。一方、レンチキュラライトフィールドディスプレイは、複数のユーザをサポートすることができ、各ユーザは同じ視覚シーンの独自の視点を体験する。同じシーンの複数のビューのこの作成を実現するために、レンチキュラライトフィールドディスプレイは、ディスプレイへの入力として同じシーンの４５個の独特の視点又は「ビュー」が必要とされる特定の立体視錐台を作成する。これは、同じシーンの４５個のわずかに異なる独特のラスター表現をキャプチャして、この１つの特定のディスプレイ、即ち、その視錐台に固有のフォーマットでディスプレイに配布する必要があることを意味する。対照的に、レガシーディスプレイの視錐台は、単一の２次元平面に制限されているため、ディスプレイを体験している同時視聴者の数に関係なく、ディスプレイの視錐台を介してコンテンツの複数の視聴視点を提示する方法はない。

一般に、没入型メディアディスプレイは、すべてのディスプレイの特性、即ち、視錐台の寸法及び体積、同時にサポートされる視聴者の数、視錐台を埋めるために使用される点ベース、光線ベース又は波ベースであり得る光学技術、視錐台を占める光の単位（点、光線、又は波のいずれか）の密度、計算能力の可用性と計算の種類（ＣＰＵ又はＧＰＵ）、電力（バッテリ又はワイヤ）の供給源と可用性、ローカルストレージ又はキャッシュの量、及びクラウドベースの計算及びストレージなどの補助リソースへのアクセスに応じて大幅に異なる可能性がある。これらの特性は、没入型メディアディスプレイの異種性に寄与し、異種性は、レガシーディスプレイの同種性とは対照的に、レガシーディスプレイ及び没入型ディスプレイの両方を含むすべてをサポートできる単一の配布システムの開発を複雑にする。

開示された主題は、単一のネットワークの環境内でクライアントエンドポイントとしてレガシーメディアディスプレイと没入型メディアディスプレイの両方をサポートできるネットワークベースのメディア配布システムの開発に対処する。具体的には、入力没入型メディアソースを、クライアントエンドポイントデバイス上で現在実行されているアプリケーションを含むそのクライアントエンドポイントデバイスの特定の特性に適したフォーマットに適応させるメカニズムを本明細書に示す。入力没入型メディアソースを適応させるこのようなメカニズムは、入力没入型メディアの特性を、クライアントデバイス上で実行されているアプリケーションを含むターゲットエンドポイントクライアントデバイスの特性と一致させ、次に入力没入型メディアをターゲットエンドポイント及びそのアプリケーションに適したフォーマットに適応させることを含む。

開示される主題の残りの部分は、一般性を失うことなく、入力没入型メディアソースを特定のエンドポイントクライアントデバイスに適応させるプロセスが、同じ入力没入型メディアソースを特定のクライアントエンドポイントデバイス上で実行されている特定のアプリケーションに適応させるプロセスと同じであるか、又は類似していると仮定することに留意されたい。即ち、入力メディアソースをエンドポイントデバイスの特性に適応させる課題は、特定の入力メディアソースを特定のアプリケーションの特性に適応させる課題と同じ複雑さである。

レガシーメディアによってサポートされるレガシーデバイスは、レガシーメディアの標準ベースの表現を生成するレガシーメディアコンテンツプロバイダのエコシステムと、レガシーデバイスを標準のレガシーコンテンツのソースに接続するためのネットワークインフラストラクチャを提供する商用ネットワークサービスプロバイダとによって同様にサポートされるため、消費者に広く採用されている。ネットワークを介してレガシーメディアを配布する役割に加えて、商用ネットワークサービスプロバイダは、レガシークライアントデバイスとコンテンツ配布ネットワーク（ｃｏｎｔｅｎｔｄｉｓｔｒｉｂｕｔｉｏｎｎｅｔｗｏｒｋ、ＣＮＤ）上のレガシーコンテンツへのアクセスとのペアリングを容易にすることもできる。適切なフォーマットのコンテンツへのアクセスとペアになると、レガシークライアントデバイスは、コンテンツサーバからデバイスにレガシーコンテンツを要求又は「プル」して、エンドユーザに提示することができる。それにもかかわらず、ネットワークサーバが適切なメディアを適切なクライアントに「プッシュ」するアーキテクチャは、アーキテクチャ全体とソリューション設計に追加の複雑さをもたらすことなく、同様に関連性がある。

本明細書では、様々な実施形態による方法、装置（システム）、及びコンピュータ可読媒体のフローチャート図及び／又はブロック図を参照して、態様を説明する。フローチャート図及び／又はブロック図の各ブロック、並びにフローチャート図及び／又はロック図におけるブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されるであろう。

以下に説明する例示的な実施形態は、ビデオ、オーディオ、幾何学的（３Ｄ）オブジェクト、触覚、関連するメタデータ、又はクライアントデバイスの他のコンテンツを含むメディアを配布するシステム及びネットワークのアーキテクチャ、構造、及び構成要素に関する。特定の実施形態は、メディアコンテンツを異種没入型及び対話型クライアントデバイスに配布するための指向性システム、構造、及びアーキテクチャである。

図１は、時限レガシーメディア配布のエンドツーエンドプロセスの例示的な図である。図１では、時限視聴覚コンテンツは、１０１Ａでカメラ又はマイクロフォンによってキャプチャされ、又は１０１Ｂでコンピュータによって生成され、準備モジュール１０３に入力される２Ｄ画像及び関連するオーディオのシーケンス１０２を作成する。１０３の出力は、編集されたコンテンツ（例えば、言語翻訳、字幕、他の編集機能を含むポストプロダクション用）であり、これは、コンバータモジュール１０４によって、例えばオンデマンドメディア用の標準メザニンフォーマット、又は例えばライブイベント用の標準コントリビューションフォーマットに変換する準備ができているマスターフォーマットと呼ばれる。メディアは、商用ネットワークサービスプロバイダによって「取り込まれ」、適応モジュール１０５は、メディアを、様々なビットレート、時間解像度（フレームレート）、又は空間解像度（フレームサイズ）にパッケージ化し、それらが標準配布フォーマットにパッケージ化される。結果として得られる適応は、コンテンツ配布ネットワーク１０６に記憶され、そこから様々なクライアント１０８がプル要求１０７を行い、メディアを取得してエンドユーザに提示する。マスターフォーマットは、１０１Ａ又は１０１Ｂの両方からのメディアのハイブリッドで構成されてもよく、フォーマット１０１Ａは、例えばライブスポーツイベントから取得されたメディアなど、リアルタイムで取得される場合があることに留意することが重要である。更に、クライアント１０８は、クライアントの構成及び／又は現在のネットワーク状況に最も適した特定の適応１０７を選択する役割を果たすが、ネットワークサーバ（図１には示されていない）が、適切なコンテンツを決定し、その後クライアント１０８に「プッシュ」することも同様に可能である。

図２は、レガシー時限メディア、例えば、ビデオ、オーディオ、及びサポートメタデータ（字幕に使用されるような時限テキストを含む）の配布に使用される標準メディアフォーマットの一例である。図１の項目１０６に述べたように、メディアは、標準ベースの配布フォーマットでＣＤＮ２０１に記憶される。標準ベースのフォーマットは、ＭＰＤ２０２として示されており、これは、クロックに対応する開始時間及び終了時間を有する時限期間２０３を包む複数のセクションで構成される。各期間２０３は、１つ又は複数の適応セット２０４を参照する。各適応セット２０４は、一般に、単一タイプのメディア、例えばビデオ、オーディオ、又は時限テキストに使用される。任意の所与の期間２０３について、複数の適応セット２０４が提供されてもよく、例えば、ビデオ用に１つ、及び様々な言語への翻訳に使用されるようなオーディオ用に複数が提供されてもよい。各適応セット２０４は、メディアのフレーム解像度（ビデオの場合）、フレームレート、及びビットレートに関する情報を提供する１つ又は複数の表現２０５を参照する。複数の表現２０５を使用して、例えば、超高精細、高精細度、又は標準精細度ビデオのそれぞれの表現２０５へのアクセスを提供することができる。各表現２０５は、１つ又は複数のセグメントファイル２０６を参照し、ここで、メディアは、クライアントによるフェッチ（図１の１０８として示される）のために、又はネットワークメディアサーバ（図１に示されていない）による（「プッシュベース」のアーキテクチャにおける）配布のために実際に記憶される。

図３は、時限付きの異種没入型メディア用のストリーミング可能なフォーマットの例示的な表現である。図４は、時限なしの異種没入型メディア用のストリーミング可能なフォーマットの例示的な表現である。両方の図はシーンを参照し、図３は、時限メディアのシーン３０１を参照し、図４は、時限なしメディアのシーン４０１を参照する。どちらの場合も、シーンは様々なシーン表現又はシーン記述によって具体化されてもよい。

例えば、一部の没入型メディア設計では、シーンはシーングラフによって、又はマルチプレーン画像（Ｍｕｌｔｉ－ＰｌａｎｅＩｍａｇｅ、ＭＰＩ）として、又は多球面画像（Ｍｕｌｔｉ－ＳｐｈｅｒｉｃａｌＩｍａｇｅ、ＭＳＩ）として具体化されてもよい。ＭＰＩ及びＭＳＩ技術はいずれも、ナチュラルコンテンツ、即ち、１台又は複数のカメラから同時にキャプチャされた現実世界の画像のためのディスプレイに依存しないシーン表現の作成を支援する技術の例である。一方、シーングラフ技術は、ナチュラル画像とコンピュータ生成画像の両方を合成表現の形式で表現するために使用できるが、コンテンツが１台又は複数のカメラによってナチュラルシーンとしてキャプチャされる場合に、そのような表現の作成は特に計算集約的である。即ち、自然にキャプチャされたコンテンツのシーングラフ表現を作成するのに時間と計算量の両方がかかり、合成表現を作成するために、写真測量又は深層学習又はその両方の技術を用いたナチュラル画像の複雑な分析が必要であり、合成表現は、その後、ターゲット没入型クライアントディスプレイの視錐台を埋めるのに十分且つ適切な数のビューを補間するために使用できる。その結果、そのような合成表現は、リアルタイム配布を必要とするユースケースを考慮して実際にリアルタイムで作成することができないため、現在、ナチュラルコンテンツを表現するための候補として考慮することは現実的ではない。それにもかかわらず、現在、コンピュータ生成画像が３Ｄモデリングプロセス及びツールを使用して作成されるため、コンピュータ生成画像の最良の候補表現は、合成モデルとシーングラフを使用することである。

ナチュラルコンテンツとコンピュータ生成コンテンツの両方の最適な表現におけるそのような二分法は、自然にキャプチャされたコンテンツの最適な取り込みフォーマットが、コンピュータ生成コンテンツ又はリアルタイム配布アプリケーションに不可欠ではないナチュラルコンテンツの最適な取り込みフォーマットとは異なることを示唆している。したがって、開示された主題は、視覚没入型メディアが自然に作成されたかコンピュータによって作成されたかにかかわらず、視覚没入型メディアの複数の取り込みフォーマットをサポートするのに十分に堅牢であることを目標としている。

以下は、コンピュータ生成技術を使用して作成された視覚没入型メディア、又はナチュラルシーンの対応する合成表現を作成するために深層学習又は写真測量技術が使用される、即ちリアルタイム配布アプリケーションには不可欠ではない自然にキャプチャされたコンテンツを表現するのに適したフォーマットとしてシーングラフを具体化する例示的な技術である。

１．ＯＴＯＹによるＯＲＢＸ（登録商標）

ＯＴＯＹによるＯＲＢＸは、光線追跡可能、レガシー（フレームベース）、立体、及びその他のタイプの合成又はベクトルベースの視覚フォーマットを含めて、時限又は時限なしのあらゆるタイプの視覚メディアをサポートできるいくつかのシーングラフ技術の１つである。ＯＲＢＸは、メッシュ、点群、及びテクスチャの自由に利用可能なフォーマット及び／又はオープンソースフォーマットをネイティブにサポートしているため、他のシーングラフとは異なる。ＯＲＢＸは、シーングラフで動作する複数のベンダー技術間の交換を促進することを目的として意図的に設計されたシーングラフである。更に、ＯＲＢＸは、豊富なマテリアルシステム、オープンシェーダ言語のサポート、堅牢なカメラシステム、及びＬｕａスクリプトのサポートを提供する。ＯＲＢＸはまた、没入型デジタル体験同盟（ＩｍｍｅｒｓｉｖｅＤｉｇｉｔａｌＥｘｐｅｒｉｅｎｃｅｓＡｌｌｉａｎｃｅ、ＩＤＥＡ）がロイヤルティフリーの条項の下でライセンスを取得するために公開した没入型技術メディアフォーマットの基盤でもある。メディアのリアルタイム配布の環境では、ナチュラルシーンのＯＲＢＸ表現を作成して配布する機能は、カメラでキャプチャされたデータの複雑な分析を実行し、同じデータを合成表現に合成するための計算リソースの利用可能性の関数である。現在まで、リアルタイム配布に十分な計算を利用できることは現実的ではないが、それでも不可能ではない。

２．Ｐｉｘａｒによるユニバーサルシーン記述

Ｐｉｘａｒによるユニバーサルシーン記述（ＵｎｉｖｅｒｓａｌＳｃｅｎｅＤｅｓｃｒｉｐｔｉｏｎ、ＵＳＤ）は、ＶＦＸ及びプロのコンテンツ制作コミュニティで人気のあるもう１つのよく知られた成熟したシーングラフである。ＵＳＤは、ＮｖｉｄｉａのＧＰＵを使用した３Ｄモデルの作成及びレンダリングのための開発者向けのツールセットであるＮｖｉｄｉａのＯｍｎｉｖｅｒｓｅプラットフォームに統合されている。ＵＳＤのサブセットは、Ａｐｐｌｅ及びＰｉｘａｒによってＵＳＤＺとして公開された。ＵＳＤＺはＡｐｐｌｅのＡＲＫｉｔによってサポートされている。

３．ＫｈｒｏｎｏｓによるｇｌＴＦ２．０

ｇｌＴＦ２．０は、Ｋｈｒｏｎｏｓ３ＤＧｒｏｕｐによって作成されたＧｒａｐｈｉｃｓＬａｎｇｕａｇｅＴｒａｎｓｍｉｓｓｉｏｎＦｏｒｍａｔ（グラフィック言語伝送フォーマット）」仕様の最新バージョンである。このフォーマットは、「ｐｎｇ」及び「ｊｐｅｇ」画像フォーマットを含めて、一般的にシーン内の静的（時限なし）オブジェクトをサポートできる単純なシーングラフフォーマットをサポートする。ｇｌＴＦ２．０は、ｇｌＴＦプリミティブを使用して記述された基本的な形状、即ち幾何学的オブジェクトの平行移動、回転、拡大縮小のサポートを含めて、単純なアニメーションをサポートする。ｇｌＴＦ２．０は、時限メディアをサポートしていないため、ビデオもオーディオもサポートしていない。

没入型視覚メディアのシーン表現用のこれらの既知の設計は、単に例とし提供され、入力没入型メディアソースをクライアントエンドポイントデバイスの特定の特性に適したフォーマットに適応させるプロセスを指定する能力において開示された主題を限定しない。

更に、上記の例示的なメディア表現のいずれか又はすべては、ニューラルネットワークモデルをトレーニング及び作成するために、現在深層学習を使用しているか、又は使用する可能性があり、ニューラルネットワークモデルは、錐台の特定の寸法に基づいて特定のディスプレイの視錐台を埋めるために特定のビューの選択を可能にするか又は容易にする。特定のディスプレイの視錐台用に選択されたビューは、例えば、ＭＳＩ又はＭＰＩ技術から、シーン表現において明示的に提供された既存のビューから補間されてもよく、又はこれらは、特定の仮想カメラの位置、フィルタ、又はレンダリングエンジン用の仮想カメラの記述に基づいて、これらのレンダリングエンジンから直接レンダリングされてもよい。

したがって、開示された主題は、比較的小さいがよく知られている没入型メディア取り込みフォーマットのセットが存在すると考えるのに十分に堅牢であり、没入型メディア取り込みフォーマットのセットは、自然に（例えば、１つ又は複数のカメラで）キャプチャされるか、又はコンピュータ生成技術を使用して作成されたメディアのリアルタイム配布又は「オンデマンド」（例えば、非リアルタイム）配布の両方の要件を十分に満たすことができる。

ニューラルネットワークモデル又はネットワークベースのレンダリングエンジンのいずれかを使用して没入型メディア取り込みフォーマットからのビューを補間することは、モバイルネットワーク用の５Ｇや固定ネットワーク用の光ファイバケーブルなどの高度なネットワーク技術が展開されるにつれて、更に容易になる。即ち、このような高度なネットワークインフラストラクチャがますます大量の視覚情報の転送及び配信をサポートできるため、これらの高度なネットワーク技術は、商業ネットワークの容量及び機能を向上させる。マルチアクセスエッジコンピューティング（Ｍｕｌｔｉ－ａｃｃｅｓｓＥｄｇｅＣｏｍｐｕｔｉｎｇ、ＭＥＣ）、ソフトウェア定義ネットワーク（ＳｏｆｔｗａｒｅＤｅｆｉｎｅｄＮｅｔｗｏｒｋ、ＳＤＮ）及びネットワーク機能仮想化（ＮｅｔｗｏｒｋＦｕｎｃｔｉｏｎｓＶｉｒｔｕａｌｉｚａｔｉｏｎ、ＮＦＶ）などのネットワークインフラストラクチャ管理技術により、商用ネットワークサービスプロバイダは、ネットワークインフラストラクチャを柔軟に構成して、特定のネットワークリソースに対する需要の変化に適応させることができ、例えば、ネットワークスループット、ネットワーク速度、ラウンドトリップ遅延、及び計算リソースに対する需要の動的な増加又は減少に対応できる。更に、動的ネットワーク要件に適応するこの固有の機能は同様に、異種クライアントエンドポイント用の異種の可能性のある視覚メディアフォーマットを有する様々な没入型メディアアプリケーションをサポートするために、ネットワークが、没入型メディア取り込みフォーマットを適切な配布フォーマットに適応させる能力を促進する。

没入型メディアアプリケーション自体も、ネットワークリソースに対する様々な要件を有する可能性があり、ネットワークリソースには、ゲームの状態でリアルタイム更新に応答するために大幅に低いネットワーク遅延を必要とするゲームアプリケーション、ネットワークのアップリンク部分とダウンリンク部分の両方に対して対称的なスループット要件を有するテレプレゼンスアプリケーション、及びデータを使用しているクライアントエンドポイントディスプレイのタイプに応じてダウンリンクリソースに対する需要が増加している可能性があるパッシブ視聴アプリケーションが含まれる。一般に、任意の消費者向けアプリケーションは、ストレージ、計算、及び電力用の様々なオンボードクライアント機能、及び同様に特定のメディア表現に対する様々な要件を有する様々なクライアントエンドポイントによってサポートされ得る。

したがって、開示された主題は、十分に装備されたネットワーク、即ち、最新のネットワークの特性の一部又はすべてを使用するネットワークが、その中で指定されている機能に従って、複数のレガシーメディア及び没入型メディア対応デバイスを同時にサポートすることを可能にする。

１．メディア配布のリアルタイム及び「オンデマンド」ユースケースの両方に実用的なメディア取り込みフォーマットを活用する柔軟性を提供する。

２．レガシーメディア及び没入型メディア対応クライアントエンドポイントの両方について、ナチュラルコンテンツ及びコンピュータ生成コンテンツの両方をサポートする柔軟性を提供する。

３．時限メディア及び時限なしメディアの両方をサポートする。

４．クライアントエンドポイントの特徴及び機能に基づいて、及びアプリケーションの要件に基づいて、ソースメディア取り込みフォーマットを適切な配布フォーマットに動的に適応させるためのプロセスを提供する。

５．配布フォーマットがＩＰベースのネットワークを介してストリーミング可能であることを保証する。

６．ネットワークが、レガシーメディア及び没入型メディア対応デバイスの両方を含み得る複数の異種クライアントエンドポイントに同時にサービスを提供できるようにする。

７．シーン境界に沿った配布メディアの編成を容易にする例示的なメディア表現フレームワークを提供する。

開示された主題によって可能になるエンドツーエンド実施形態の改善の一例は、以下のように図３～図１４の詳細な説明に記載された処理及び構成要素に従って達成される。

図３及び図４は両方とも、特定のクライアントエンドポイントの機能に一致するように取り込みソースフォーマットから適応した単一の例示的な包括的配布フォーマットを使用する。上記のように、図３に示されているメディアは時限付きであり、図４に示されているメディアは時限なしである。特定の包括的フォーマットは、多種多様なメディア属性を収容するのにその構造が十分に堅牢であり、各属性は、各レイヤがメディアのプレゼンテーションに寄与する重要な情報の量に基づいてレイヤ化することができる。このようなレイヤ化プロセスは、プログレッシブＪＰＥＧ、及びＩＳＯ／ＩＥＣ１４４９６‐１０（スケーラブルな高度なビデオコーディング）で指定されているようなスケーラブルなビデオアーキテクチャで実証されているように、現在の最先端技術では既によく知られている技術であることに留意されたい。

１．包括的メディアフォーマットに従ってストリーミングされるメディアは、レガシー視覚メディア及びオーディオメディアに限定されず、機械と相互作用して人間の視覚、聴覚、味覚、触覚、嗅覚を刺激する信号を生成できるあらゆる種類のメディア情報を含み得る。

２．包括的メディアフォーマットに従ってストリーミングされるメディアは、時限メディア又は時限なしメディア、あるいは両方の混合物であり得る。

３．包括的メディアフォーマットは、ベースレイヤと拡張レイヤアーキテクチャを使用してメディアオブジェクトのレイヤ化表現を可能にすることにより、更にストリーミング可能である。一例では、別個のベースレイヤと拡張レイヤは、各シーンのメディアオブジェクトに多重解像度分析又はマルチテッセレーション分析手法を適用することによって計算される。これは、ＩＳＯ／ＩＥＣ１０９１８‐１（ＪＰＥＧ）及びＩＳＯ／ＩＥＣ１５４４４‐１（ＪＰＥＧ２０００）で指定されているプログレッシブレンダリング画像フォーマットに類似しているが、ラスタベースの視覚フォーマットに限定されない。例示的な実施形態では、幾何学的オブジェクトのプログレッシブ表現は、ウェーブレット分析を使用して計算されたオブジェクトの多重解像度表現であり得る。

メディアフォーマットのレイヤ化表現の別の例では、拡張レイヤは、ベースレイヤによって表される視覚オブジェクトの表面のマテリアルプロパティを洗練するなど、ベースレイヤに異なる属性を適用する。更に別の例では、属性は、表面を滑らかなテクスチャから多孔質のテクスチャに、又はつや消しの表面から光沢のある表面に変化させるなど、ベースレイヤオブジェクトの表面のテクスチャを洗練することができる。

レイヤ化表現の更に別の例では、シーン内の１つ又は複数の視覚オブジェクトの表面を、ランバート表面から光線追跡可能表面に変更することができる。

レイヤ化表現の更に別の例では、ネットワークはベースレイヤ表現をクライアントに配布し、それによって、クライアントは、追加の拡張レイヤの送信を待っている間にシーンの公称プレゼンテーションを作成して、ベース表現の解像度又は他の特性を洗練することができる。

４．拡張レイヤにおける属性又は洗練情報の解像度は、現在の既存のＭＥＰＧビデオ及びＪＰＥＧ画像規格の場合のように、ベースレイヤにおけるオブジェクトの解像度と明示的に結合されていない。

５．包括的メディアフォーマットは、プレゼンテーションデバイス又はマシンによって提示又は作動できるあらゆるタイプの情報メディアをサポートし、それによって異種クライアントエンドポイントに対する異種メディアフォーマットのサポートを可能にする。メディアフォーマットを配布するネットワークの一実施形態では、ネットワークは、最初にクライアントエンドポイントに問い合わせてクライアントの機能を決定し、クライアントがメディア表現を意味のある形で取り込むことができない場合、ネットワークはクライアントによってサポートされていない属性のレイヤを削除するか、又はメディアを現在のフォーマットからクライアントエンドポイントに適したフォーマットにトランスコードする。そのようなトランスコーディングの一例では、ネットワークは、ネットワークベースのメディア処理プロトコルを使用して、立体視覚メディアアセットを同じ視覚アセットの２Ｄ表現に変換する。

６．完全又は部分的に完全な没入型体験（ライブストリーミングイベント、ゲーム、又はオンデマンドアセットの再生）のマニフェストは、シーンによって編成され、シーンは、レンダリング及びゲームエンジンがプレゼンテーションを作成するために現在取り込むことができる最小量の情報である。マニフェストには、クライアントが要求する没入型体験全体に対してレンダリングされる個々のシーンのリストが含まれている。各シーンには、シーンジオメトリのストリーミング可能なバージョンに対応する、シーン内の幾何学的オブジェクの１つ又は複数の表現が関連付けられている。シーン表現の一実施形態は、シーンの幾何学的オブジェクトの低解像度バージョンを参照する。同じシーンの別の実施形態は、シーンの低解像度表現用の拡張レイヤを参照して、同じシーンの幾何学的オブジェクトに追加の詳細を追加するか、又はテッセレーションを増加させる。上記のように、各シーンは、シーンの幾何学的オブジェクトの詳細を漸進的に増加させるために、複数の拡張レイヤを有することができる。

７．シーン内で参照されるメディアオブジェクトの各レイヤは、ネットワーク内でリソースにアクセスできる位置のアドレスを指すトークン（例えば、ＵＲＩ）に関連付けられている。このようなリソースは、ＣＤＮのコンテンツに類似しており、そのコンテンツはクライアントによってフェッチされ得る。

８．幾何学的オブジェクトの表現用のトークンは、ネットワーク内の位置又はクライアント内の位置を指すことができる。即ち、クライアントは、そのリソースがネットワークベースのメディア処理のためにネットワークに利用可能であることをネットワークに信号で通知することができる。

図３は、時限メディア用の包括的メディアフォーマットの一実施形態を以下のように説明する。時限シーンマニフェストは、シーン情報３０１のリストを含む。シーン３０１は、処理情報とシーン３０１を構成するメディアアセットのタイプを個別に説明する構成要素３０２のリストを参照する。構成要素３０２はアセット３０３を参照し、アセット３０３は更にベースレイヤ３０４及び属性拡張レイヤ３０５を参照する。

図４は、時限なしメディア用の包括的メディアフォーマットの一実施形態を以下のように説明する。シーン情報４０１は、時計による開始時間及び終了時間に関連付けられていない。シーン情報４０１は、処理情報とシーン４０１を構成するメディアアセットのタイプを個別に説明する構成要素４０２のリストを参照する。構成要素４０２はアセット４０３（例えば、視覚、音声、及び触覚アセット）を参照し、アセット４０３は更にベースレイヤ４０４及び属性拡張レイヤ４０５を参照する。更に、シーン４０１は、時限なしメディア用の他のシーン４０１を参照する。シーン４０１は、時限メディアシーンも参照する。

図５は、ナチュラルコンテンツから取り込みフォーマットを合成するためのプロセス５００の一実施形態を示す。カメラユニット５０１は、単一のカメラレンズを使用して、人のシーンをキャプチャする。カメラユニット５０２は、リング状の物体の周りに５つのカメラレンズを取り付けることによって、５つの発散視野を有するシーンをキャプチャする。５０２の配置は、ＶＲアプリケーション用の全方向性コンテンツをキャプチャするために一般的に使用される例示的な配置である。カメラユニット５０３は、球体の内径部分に７つのカメラレンズを取り付けることにより、７つの収束視野を有するシーンをキャプチャする。カメラユニット５０３における配置は、ライトフィールド又はホログラフィック没入型ディスプレイ用のライトフィールドをキャプチャするために一般的に使用される例示的な配置である。ナチュラル画像コンテンツ５０９は、合成モジュール５０４への入力として提供され、合成モジュール５０４は、任意選択で、トレーニング画像５０６の集合を使用するニューラルネットワークトレーニングモジュール５０５を用いて、オプションのキャプチャニューラルネットワークモデル５０８を生成することができる。トレーニングプロセス５０５の代わりに一般的に使用される別のプロセスは写真測量である。モデル５０８が図５に示されるプロセス５００の間に作成される場合、モデル５０８は、ナチュラルコンテンツ用の取り込みフォーマット５０７におけるアセットの１つになる。取り込みフォーマット５０７の例示的な実施形態は、ＭＰＩ及びＭＳＩを含む。

図６は、合成媒体、例えば、コンピュータ生成画像用の取り込みフォーマットを作成するためのプロセス６００の一実施形態を示す。ＬＩＤＡＲカメラ６０１は、シーンの点群６０２をキャプチャする。ＣＧＩツール、３Ｄモデリングツール、又は合成コンテンツを作成するための別のアニメーションプロセスは、コンピュータ６０３上で使用され、ネットワークを介してＣＧＩアセット６０４を作成する。センサ６０５Ａを備えたモーションキャプチャスーツは、アクター６０５に着用されて、アクター６０５の動きのデジタル記録をキャプチャしてアニメーション化されたモーションキャプチャデータ６０６を生成する。データ６０２、６０４、及び６０６は、合成モジュール６０７への入力として提供され、合成モジュール６０７は、同様に、任意選択でニューラルネットワーク及びトレーニングデータを使用して、ニューラルネットワークモデルを作成することができる（図６には示されていない）。

上記の異種没入型メディアを表現及びストリーミングするための技術は、コンピュータ可読命令を使用し、且つ１つ又は複数のコンピュータ可読媒体に物理的に記憶されたコンピュータソフトウェアとして実装することができる。例えば、図７は、開示された主題の特定の実施形態を実装するのに適したコンピュータシステム７００を示す。

コンピュータソフトウェアは、任意の適切な機械コード又はコンピュータ言語を使用してコード化することができ、これらの機械コード又はコンピュータ言語は、アセンブリ、コンパイル、リンク、又は同様のメカニズムを受けて、コンピュータ中央処理装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ、ＣＰＵ）、グラフィック処理装置（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＧＰＵ）などによって直接、又は解釈、マイクロコード実行などを通じて実行できる命令を含むコードを作成することができる。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーム装置、モノのインターネット装置などを含めて、様々なタイプのコンピュータ又はその構成要素上で実行することができる。

コンピュータシステム７００について図７に示されている構成要素は、本質的に例示的なものであり、本開示の実施形態を実装するコンピュータソフトウェアの使用範囲又は機能に関するいかなる限定も示唆することを意図するものではない。また、構成要素の構成は、コンピュータシステム７００の例示的な実施形態に示されている構成要素のいずれか１つ又は組み合わせに関連する依存性又は要件を有すると解釈されるべきではない。

コンピュータシステム７００は、特定のヒューマンインターフェース入力デバイスを含むことができる。そのようなヒューマンインターフェース入力デバイスは、例えば、触覚入力（キーストローク、スワイプ、データグローブの動きなど）、音声入力（声、拍手など）、視覚入力（ジェスチャーなど）、嗅覚入力（図示せず）を介して、１人以上の人間ユーザによる入力に応答することができる。ヒューマンインターフェースデバイスはまた、オーディオ（音声、音楽、周囲音など）、画像（走査画像、静止画像カメラから取得した写真画像など）、ビデオ（２次元ビデオ、立体ビデオを含む３次元ビデオなど）など、必ずしも人間による意識的な入力に直接関連しない特定のメディアをキャプチャするために使用することができる。

入力ヒューマンインターフェースデバイスは、キーボード７０１、マウス７０２、トラックパッド７０３、タッチスクリーン７１０、データグローブ（図示せず）、ジョイスティック７０５、マイクロフォン７０６、スキャナ７０７、及びカメラ７０８のうちの１つ又は複数を含むことができる（それぞれのうちの１つのみを示す）。

コンピュータシステム７００はまた、特定のヒューマンインターフェース出力デバイスを含むことができる。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、及び匂い／味覚を通じて、１人以上の人間ユーザの感覚を刺激することができる。そのようなヒューマンインターフェース出力デバイスは、触覚出力デバイス（例えば、タッチスクリーン７１０、データグローブ（図示せず）、又はジョイスティック７０５による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスもあり得る）、音声出力デバイス（スピーカ７０９、ヘッドフォン（図示せず）など）、視覚出力デバイス（それぞれがタッチスクリーン入力機能を有しても有しなくてもよく、それぞれが触覚フィードバック機能を有しても有しなくてもよく、一部がステレオグラフィック出力などの手段を介して２次元視覚出力又は３次元以上の出力を出力することができるＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含むスクリーン７１０、仮想現実メガネ（図示せず）、ホログラフィックディスプレイ及びスモークタンク（図示せず）など）、及びプリンタ（図示せず）を含むことができる。

コンピュータシステム７００はまた、人間がアクセス可能な記憶装置、及びＣＤ／ＤＶＤ付きのＣＤ／ＤＶＤＲＯＭ／ＲＷ７２０を含む光学媒体又は同様の媒体７２１、サムドライブ７２２、リムーバブルハードドライブ又はソリッドステートドライブ７２３、テープ及びフロッピーディスクなどのレガシー磁気媒体（図示せず）、セキュリティドングルなどの特殊なＲＯＭ／ＡＳＩＣ／ＰＬＤベースのデバイス（図示せず）などの関連する媒体を含むことができる。

当業者はまた、現在開示されている主題に関連して使用される「コンピュータ可読媒体」という用語が、伝送媒体、搬送波、又は他の一時的な信号を包含しないことを理解すべきである。

コンピュータシステム７００はまた、１つ又は複数の通信ネットワークへのインターフェースを含むことができる。ネットワークは、例えば、無線、有線、光であり得る。ネットワークは更に、ローカル、広域、メトロポリタン、自動車及び産業用、リアルタイム、遅延耐性などであり得る。ネットワークの例としては、イーサネット、無線ＬＡＮなどのローカルエリアネットワーク、ＧＳＭ、３Ｇ、４Ｇ、５Ｇ、ＬＴＥなどを含むセルラーネットワーク、ケーブルＴＶ、衛星ＴＶ、地上波放送ＴＶを含むＴＶ有線又は無線広域デジタルネットワーク、ＣＡＮＢｕｓを含む自動車及び産業用ネットワークなどが挙げられる。特定のネットワークでは一般に、特定の汎用データポート又は周辺バス７４９（例えば、コンピュータシステム７００のＵＳＢポートなど）に接続された外部ネットワークインターフェースアダプタが必要であり、他のネットワークは、一般に、以下に説明されるように、システムバスに接続することによってコンピュータシステム７００のコアに統合される（例えば、ＰＣコンピュータシステムへのイーサネットインターフェース又はスマートフォンコンピュータシステムへのセルラーネットワークインターフェース）。これらのネットワークのいずれかを使用して、コンピュータシステム７００は他のエンティティと通信することができる。そのような通信は、例えば、ローカル又は広域デジタルネットワークを使用する他のコンピュータシステムへの一方向、受信のみ（例えば、放送ＴＶ）、一方向送信のみ（例えば、特定のＣＡＮｂｕｓデバイスへのＣＡＮｂｕｓ）、又は双方向であり得る。上記のように、特定のプロトコル及びプロトコルスタックは、これらのネットワーク及びネットワークインターフェースのそれぞれで使用することができる。

前述のヒューマンインターフェースデバイス、人間がアクセス可能な記憶装置、及びネットワークインターフェースは、コンピュータシステム７００のコア７４０に接続することができる。

コア７４０は、１つ又は複数の中央処理装置（ＣＰＵ）７４１、グラフィック処理装置（ＧＰＵ）７４２、フィールドプログラマブルゲートエリア（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｅａ、ＦＰＧＡ）の形態の特殊なプログラマブル処理ユニット７４３、特定のタスク用のハードウェアアクセラレータ７４４などを含むことができる。これらのデバイスは、読み取り専用メモリ（Ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ、ＲＯＭ）７４５、ランダムアクセスメモリ７４６、ユーザがアクセスできない内部ハードドライブ、ＳＳＤなどの内部大容量記憶装置７４７と共に、システムバス７４８を介して接続されてもよい。一部のコンピュータシステムでは、システムバス７４８は、追加のＣＰＵ、ＧＰＵなどによる拡張を可能にするために、１つ又は複数の物理プラグの形態でアクセス可能である。周辺機器は、コアのシステムバス７４８に直接接続することも、周辺バス７４９を介して接続することもできる。周辺バスのアーキテクチャには、ＰＣＩ、ＵＳＢなどが含まれる。

ＣＰＵ７４１、ＧＰＵ７４２、ＦＰＧＡ７４３、及びアクセラレータ７４４は、特定の命令を実行することができ、これらの命令は、組み合わせて前述のコンピュータコードを構成することができる。そのコンピュータコードは、ＲＯＭ７４５又はＲＡＭ７４６に記憶することができる。移行データはＲＡＭ７４６に記憶することもできるが、永続データは、例えば内部大容量記憶装置７４７に記憶することができる。１つ又は複数のＣＰＵ７４１、ＧＰＵ７４２、大容量記憶装置７４７、ＲＯＭ７４５、ＲＡＭ７４６などと密接に関連付けることができるキャッシュメモリを使用することで、任意のメモリデバイスへの高速記憶及び検索を可能にすることができる。

コンピュータ可読媒体は、様々なコンピュータ実装動作を実行するためのコンピュータコードを有することができる。媒体及びコンピュータコードは、本開示の目的のために特別に設計及び構築されたものであってもよく、又はそれらは、コンピュータソフトウェア技術の当業者によく知られ、利用可能な種類のものであってもよい。

限定ではなく、一例として、アーキテクチャ、具体的にはコア７４０を有するコンピュータシステム７００は、プロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、アクセラレータなどを含む）が１つ又は複数の有形のコンピュータ可読媒体に具体化されたソフトウェアを実行する結果として機能を提供することができる。そのようなコンピュータ可読媒体は、上記で紹介したユーザがアクセス可能な大容量記憶装置に関連付けられた媒体、及びコア内部大容量記憶装置７４７又はＲＯＭ７４５などの非一時的な性質を有するコア７４０の特定の記憶装置であり得る。本開示の様々な実施形態を実装するソフトウェアは、そのようなデバイスに記憶され、コア７４０によって実行され得る。コンピュータ可読媒体は、特定の必要に応じて、１つ又は複数のメモリデバイス又はチップを含むことができる。ソフトウェアは、コア７４０、特にその中のプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡなどを含む）に、ＲＡＭ７４６に記憶されたデータ構造を定義すること、及びソフトウェアによって定義されたプロセスに従ってそのようなデータ構造を修正することを含めて、本明細書に記載の特定のプロセス又は特定のプロセスの特定の部分を実行させることができる。更に又は代替として、コンピュータシステムは、ソフトウェアの代わりに又はソフトウェアと共に動作して本明細書に記載の特定のプロセス又は特定のプロセスの特定の部分を実行することができる回路（例えば、アクセラレータ７４４）に配線され、又は他の方法で具体化された論理の結果として機能を提供することができる。ソフトウェアへの言及は、論理を包含することができ、必要に応じてその逆も同様である。コンピュータ可読媒体への言及は、実行用のソフトウェアを記憶する回路（集積回路（ＩＣ）など）、実行用の論理を具体化する回路、又は必要に応じてその両方を包含することができる。本開示は、ハードウェア及びソフトウェアの任意の適切な組み合わせを包含する。

図８は、クライアントエンドポイントとして様々なレガシー及び異種没入型メディア対応ディスプレイをサポートする例示的なネットワークメディア配布システム８００を示す。コンテンツ取得モジュール８０１は、図６又は図５の例示的な実施形態を使用して、メディアをキャプチャ又は作成する。取り込みフォーマットは、コンテンツ準備モジュール８０２で作成され、次に、送信モジュール８０３を使用してネットワークメディア配布システム内の１つ又は複数のクライアントエンドポイント８０４に送信される。ゲートウェイは、ネットワークの様々なクライアントエンドポイントへのネットワークアクセスを提供するために、顧客宅内機器にサービスを提供することができる。セットトップボックスは、ネットワークサービスプロバイダによって集約されたコンテンツへのアクセスを提供するために顧客宅内機器としても機能することができる。無線復調器は、（例えば、携帯電話及びディスプレイと同様に）、モバイルデバイスのモバイルネットワークアクセスポイントとして機能することができる。１つ又は複数の実施形態では、レガシー２Ｄテレビは、ゲートウェイ、セットトップボックス、又はＷｉＦｉルータに直接接続されてもよい。レガシー２Ｄディスプレイを備えたラップトップコンピュータは、ＷｉＦｉルータに接続されたクライアントエンドポイントであり得る。ヘッドマウント２Ｄ（ラスタベース）ディスプレイもルータに接続されてもよい。レンチキュラライトフィールドディスプレイはゲートウェイに対するものであり得る。ディスプレイは、ローカル計算ＧＰＵ、記憶装置、及び光線ベースのレンチキュラ光学技術を使用して複数のビューを作成する視覚プレゼンテーションユニットで構成されてもよい。ホログラフィックディスプレイは、セットトップボックスに接続さてもよく、またローカル計算ＣＰＵ、ＧＰＵ、記憶装置、及びフレスナルパターンの波ベースのホログラフィック視覚化ユニットを含むことができる。拡張現実ヘッドセットは、無線復調器に接続されてもよく、またＧＰＵ、記憶装置、バッテリ、及び立体視覚プレゼンテーション構成要素を含むことができる。高密度ライトフィールドディスプレイは、ＷｉＦｉルータに接続されてもよく、また複数のＧＰＵ、ＣＰＵ、及び記憶装置と、アイトラッキングデバイスと、カメラと、高密度光線ベースライトフィールドパネルとを含むことができる。

図９は、図８に先に示したように、レガシー及び異種没入型メディア対応ディスプレイにサービスを提供することができる没入型メディア配布モジュール９００の一実施形態を示す。コンテンツはモジュール９０１で作成又は取得され、モジュール９０１は、ナチュラルコンテンツとＣＧＩコンテンツについて図５と図６において更に具体化される。次に、コンテンツ９０１は、ネットワーク取り込みフォーマット作成モジュール９０２を使用して取り込みフォーマットに変換される。モジュール９０２は、同様に、ナチュラルコンテンツ及びＣＧＩコンテンツについて、それぞれ図５及び図６において更に具体化される。取り込みメディアフォーマットはネットワークに送信され、記憶装置９０３に記憶される。任意選択で、記憶装置は、没入型メディアコンテンツプロデューサのネットワーク内に存在することができ、９０３を二等分する破線によって示されるように、没入型メディアネットワーク配布モジュール（番号なし）によってリモートにアクセスされ得る。クライアント及びアプリケーション固有の情報は、任意選択でリモート記憶装置９０４上で利用可能であり、リモート記憶装置９０４は任意選択で、代替の「クラウド」ネットワークにリモートに存在することができる。

図９に示されるように、クライアントインターフェースモジュール９０５は、情報の一次ソース及びシンクとして機能して、配布ネットワークの主要なタスクを実行する。この特定の実施形態では、モジュール９０５は、ネットワークの他の構成要素と統合された形式で実装され得る。それにもかかわらず、図９のモジュール９０５によって示されるタスクは、開示された主題の本質的な要素を形成する。

モジュール９０５は、クライアント９０８の機能及び属性に関する情報を受信し、更に、９０８上で現在実行されているアプリケーションに関する要件を収集する。この情報は、デバイス９０４から取得することができ、又は代替の実施形態では、クライアント９０８に直接問い合わせることによって取得することができる。クライアント９０８に直接問い合わせる場合、クライアントがインターフェースモジュール９０５と直接通信することができるように、双方向プロトコル（図９には示されていない）が存在し、且つ動作可能であると仮定される。

インターフェースモジュール９０５はまた、開始して図１０に記載されているメディア適応及び断片化モジュール９１０と通信する。取り込みメディアがモジュール９１０によって適応され、断片化されると、メディアは、任意選択で、配布用に準備されたメディアの記憶装置９０９として示されるインターメディア記憶装置に転送される。配布メディアが準備されてデバイス９０９に記憶されると、インターフェースモジュール９０５は、没入型クライアント９０８が、そのネットワークインターフェース９０８Ｂを介して、「プッシュ」要求を通じて配布メディア及び対応する記述情報９０６を受信するか、又はクライアント９０８自体が記憶装置９０９からメディア９０６の「プル」要求を開始することができることを保証する。没入型クライアント９０８は、任意選択で、ＧＰＵ（又は図示されていないＣＰＵ）９０８Ｃを使用することができる。メディアの配布フォーマットは、クライアント９０８の記憶装置又はストレージキャッシュ９０８Ｄに記憶される。最後に、クライアント９０８は、その視覚化構成要素９０８Ａを介してメディアを視覚的に提示する。

没入型メディアをクライアント９０８にストリーミングするプロセス全体を通して、インターフェースモジュール９０５は、クライアント進捗及びステータスフィードバックチャネル９０７を介してクライアントの進捗状況を監視する。

図１０は、取り込まれたソースメディアがクライアント９０８の要件に適合するように適切に適応され得るように、メディア適応プロセスの特定の実施形態を示す。メディア適応モジュール１００１は、取り込みメディアをクライアント９０８用の適切な配布フォーマットに適応させることを容易にする複数の構成要素で構成される。これらの構成要素は、例示的なものと見なされるべきである。図１０では、適応モジュール１００１は、入力ネットワークステータス１００５を受信して、ネットワーク上の現在のトラフィック負荷を追跡し、クライアント９０８情報は、属性及び機能の記述、アプリケーション機能及び記述、アプリケーションの現在のステータス、並びにクライアントの錐台のジオメトリを取り込み没入型メディアの補間機能にマッピングするのに役立つクライアントニューラルネットワークモデル（利用可能な場合）を含む。適応モジュール１００１は、適応された出力が作成されると、クライアント適応メディア記憶装置１００６に記憶されることを保証する。

適応モジュール１００１は、レンダラ１００１Ｂ又はニューラルネットワークプロセッサ１００１Ｃを使用して、特定の取り込みソースメディアをクライアントに適したフォーマットに適応させる。ニューラルネットワークプロセッサ１００１Ｃは、ニューラルネットワークモデル１００１Ａを使用する。そのようなニューラルネットワークプロセッサ１００１Ｃの例としては、ＭＰＩ及びＭＳＩで説明されているようなディープビューニューラルネットワークモデル生成器が挙げられる。メディアが２Ｄフォーマットであるが、クライアントが３Ｄフォーマットを有しなければならない場合、ニューラルネットワークプロセッサ１００１Ｃは、２Ｄビデオ信号から相関性の高い画像を使用して、ビデオに描かれているシーンの立体表現を導出するプロセスを呼び出すことができる。そのようなプロセスの一例は、カリフォルニア大学バークレー校で開発された１枚又は数枚の画像からのニューラルラディアンスフィールド（ＮｅｕｒａｌＲａｄｉａｎｃｅＦｉｅｌｄｓｆｒｏｍＯｎｅｏｒＦｅｗＩｍａｇｅｓ）プロセスである。適切なレンダラ１００１Ｂの一例は、適応モジュール１００１と直接相互作用するように修正されるＯＴＯＹＯｃｔａｎｅレンダラ（図示せず）の修正バージョンであり得る。適応モジュール１００１は、取り込みメディアのフォーマット及びクライアント９０８が必要とするフォーマットに関して、これらのツールの必要性に応じて、任意選択でメディアコンプレッサ１００１Ｄ及びメディアデコンプレッサ１００１Ｅを使用することができる。

図１１は、適応メディアパッケージングモジュール１１０３を示し、このモジュールは、クライアント適応メディア記憶装置１１０２上に現在存在する図１０のメディア適応モジュール１１０１からの適応メディアを最終的に変換する。パッケージングモジュール１１０３は、モジュール１１０１からの適応メディアを堅牢な配布フォーマット、例えば、図３又は図４に示される例示的なフォーマットにフォーマットする。マニフェスト情報１１０４Ａは、クライアント９０８に、受信が期待できるシーンデータのリストを提供し、また、視覚アセット及び対応するメタデータ、並びにオーディオアセット及び対応するメタデータのリストを提供する。

図１２は、適応媒体１２０１をクライアント９０８へのストリーミングに適した個々のパケット１２０３に「断片化」するパケタイザモジュール１２０２を示す。

シーケンス図１３００について図１３に示される構成要素及び通信を、以下のように説明する。クライアントエンドポイント１３０１は、ネットワーク配布インターフェース１３０２へのメディア要求１３０８を開始する。要求１３０８は、ＵＲＮ又は他の標準的な命名法のいずれかによって、クライアントによって要求されたメディアを識別するための情報を含む。ネットワーク配布インターフェース１３０２は、プロファイル要求１３０９で要求１３０８に応答し、プロファイル要求１３０９は、クライアント１３０１がその現在利用可能なリソースに関する情報（計算、ストレージ、バッテリ充電率、及びクライアントの現在の動作状態を特徴付ける他の情報を含む）を提供することを要求する。プロファイル要求１３０９はまた、クライアントが１つ又は複数のニューラルネットワークモデルを提供することを要求し、クライアントでそのようなモデルが利用可能な場合、これらのモデルをニューラルネットワーク推論のためにネットワークによって使用して、クライアントのプレゼンテーションシステムの特徴に一致するように正しいメディアビューを抽出又は補間することができる。クライアント１３０１からインターフェース１３０２への応答１３１０は、クライアントトークン、アプリケーショントークン、及び１つ又は複数のニューラルネットワークモデルトークン（そのようなニューラルネットワークモデルトークンがクライアントで利用可能である場合）を提供する。次に、インターフェース１３０２は、クライアント１３０１にセッションＩＤトークン１３１１を提供する。次に、インターフェース１３０２は、取り込みメディア要求１３１２で取り込みメディアサーバ１３０３を要求し、取り込みメディア要求１３１２は、要求１３０８で識別されたメディアのＵＲＮ又は標準名称を含む。サーバ１３０３は、取り込みメディアトークンを含む応答１３１３で要求１３１２に応答する。次に、インターフェース１３０２は、呼び出し１３１４において応答１３１３からのメディアトークンをクライアント１３０１に提供する。次に、インターフェース１３０２は、適応インターフェース１３０４に取り込みメディアトークン、クライアントトークン、アプリケーショントークン、及びニューラルネットワークモデルトークンを提供することによって、１３０８において要求されたメディアの適応プロセスを開始する。インターフェース１３０４は、呼び出し１３１６でサーバ１３０３に取り込みメディアトークンを提供して取り込みメディアアセットへのアクセスを要求することによって、取り込みメディアへのアクセスを要求する。サーバ１３０３は、インターフェース１３０４への応答１３１７において、取り込みメディアアクセストークンを用いて要求１３１６に応答する。次に、インターフェース１３０４は、メディア適応モジュール１３０５が、１３１３で作成されたセッションＩＤトークンに対応するクライアント、アプリケーション、及びニューラルネットワーク推論モデルのために取り込みメディアアクセストークンに位置する取り込みメディアを適応させることを要求する。インターフェース１３０４からモジュール１３０５への要求１３１８には、必要なトークン及びセッションＩＤが含まれている。モジュール１３０５は、更新１３１９において、インターフェース１３０２に適応されたメディアアクセストークン及びセッションＩＤを提供する。インターフェース１３０２は、インターフェース呼び出し１３２０において、適応されたメディアアクセストークン及びセッションＩＤをパッケージングモジュール１３０６に提供する。パッケージングモジュール１３０６は、応答１３２１において、インターフェース１３０２にパッケージ化されたメディアアクセストークン及びセッションＩＤを有する応答１３２１を提供する。モジュール１３０６は、応答１３２２において、パッケージ化されたアセット、ＵＲＮ、及びセッションＩＤ用のパッケージ化されたメディアアクセストークンをパッケージ化メディアサーバ１３０７に提供する。クライアント１３０１は、要求１３２３を実行して、メッセージ１３２１で受信されたパッケージ化されたメディアアクセストークンに対応するメディアアセットのストリーミングを開始する。クライアント１３０１は、他の要求を実行し、メッセージ１３２４でステータス更新をインターフェース１３０２に提供する。

図１４は、図１０の取り込みメディアフォーマット及びアセット１００２を、任意選択で２つの部分、即ち３Ｄフォーマット１４０１及び２Ｄフォーマット１４０２の没入型メディア及びアセット１００２からなるものとして示す。２Ｄフォーマット１４０２は、ＩＳＯ／ＩＥＣ１４４９６Ｐａｒｔ１０の高度なビデオコーディングなどの単一ビューコード化ビデオストリームであってもよく、又は、ＩＳＯ／ＩＥＣ１４４９６Ｐａｒｔ１０のマルチビュー圧縮修正など、複数のビューを含むコード化ビデオストリームであってもよい。

一部の実施形態は、統合の任意の可能な技術的詳細レベルでのシステム、方法、及び／又はコンピュータ可読媒体に関し得る。コンピュータ可読媒体は、プロセッサに動作を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読非一時的な記憶媒体（又は複数の媒体）を含むことができる。

コンピュータ可読記憶媒体は、命令実行デバイスによって使用するための命令を保持及び記憶することができる有形のデバイスであり得る。コンピュータ可読記憶媒体は、例えば、電子記憶装置、磁気記憶装置、光学記憶装置、電磁記憶装置、半導体記憶装置、又は前述の任意の適切な組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ、ＥＰＲＯＭ、又はフラッシュメモリ）、スタティックランダムアクセスメモリ（ｓｔａｔｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ、ＳＲＡＭ）、ポータブルコンパクトディスク読み取り専用メモリ（ｃｏｍｐａｃｔｄｉｓｃｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ、ＣＤ‐ＲＯＭ）、デジタル多用途ディスク（ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｋ、ＤＶＤ）、メモリースティック、フロッピーディスク、パンチカード又は命令が記録された溝内の隆起構造などの機械的にエンコードされたデバイス、及び前述の任意の適切な組み合わせが含まれる。本明細書で使用されるコンピュータ可読記憶媒体は、それ自体が、電波若しくは他の自由に伝播する電磁波、導波路若しくは他の伝送媒体（例えば、光ファイバケーブルを通過する光パルス）を通って伝播する電磁波、又はワイヤを介して送信される電気信号などの一時的な信号として解釈されるべきではない。

本明細書に記載のコンピュータ可読プログラム命令は、ネットワーク、例えば、インターネット、ローカルエリアネットワーク、広域ネットワーク及び／又は無線ネットワークを介して、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理装置に、又は外部コンピュータ若しくは外部記憶装置にダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ及び／又はエッジサーバを含むことができる。各コンピューティング／処理装置内のネットワークアダプタカード又はネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング／処理装置内のコンピュータ可読記憶媒体に記憶するためにコンピュータ可読プログラム命令を転送する。

動作を実行するためのコンピュータ可読プログラムコード／命令は、アセンブラ命令、命令セットアーキテクチャ（ｉｎｓｔｒｕｃｔｉｏｎ－ｓｅｔ－ａｒｃｈｉｔｅｃｔｕｒｅ、ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路の構成データ、又はＳｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語及び「Ｃ」プログラミング言語若しくは同様のプログラミング言語などの手続き型プログラミング言語を含む１つ又は複数のプログラミング言語の任意の組み合わせで書かれたソースコード若しくはオブジェクトコードのいずれかであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロンソフトウェアパッケージとして、部分的にユーザのコンピュータ上で、部分的にリモートコンピュータ上で、又は完全にリモートコンピュータ若しくはサーバ上で実行されてもよい。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ、ＬＡＮ）又は広域ネットワーク（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ、ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよく、又は（例えば、インターネットサービスプロバイダを使用するインターネットを介して）外部コンピュータに接続されてもよい。一部の実施形態では、例えば、プログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又はプログラマブル論理アレイ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃａｒｒａｙ、ＰＬＡ）を含む電子回路は、態様又は動作を実行するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることによって、コンピュータ可読プログラム命令を実行することができる。

これらのコンピュータ可読プログラム命令を、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサに提供して、マシンを生成することができ、それにより、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサを介して実行される命令は、フローチャート及び／又はブロック図のブロック若しくは複数のブロックで指定された機能／動作を実装するための手段を作成する。これらのコンピュータ可読プログラム命令はまた、コンピュータ、プログラマブルデータ処理装置、及び／又は他のデバイスに特定の方法で機能するように指示することができるコンピュータ可読記憶媒体に記憶されてもよく、それにより、命令が記憶されているコンピュータ可読記憶媒体は、フローチャート及び／又はブロック図のブロック若しくは複数のブロックで指定された機能／動作の態様を実装する命令を含む製品を含む。

コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスにロードされて、コンピュータ、他のプログラマブル装置、又は他のデバイス上で一連の動作ステップを実行させて、コンピュータ実装プロセスを生成することができ、それにより、コンピュータ、他のプログラマブル装置、又は他のデバイス上で実行される命令は、フローチャート及び／又はブロック図のブロック若しくは複数のブロックで指定された機能／動作を実装する。

図中のフローチャート及びブロック図は、様々な実施形態によるシステム、方法、及びコンピュータ可読媒体の可能な実装のアーキテクチャ、機能、及び動作を示す。これに関して、フローチャート又はブロック図における各ブロックは、モジュール、セグメント、又は命令の一部を表すことができ、命令は、指定された論理機能を実装するための１つ又は複数の実行可能命令を含む。この方法、コンピュータシステム、及びコンピュータ可読媒体は、図に示されているものよりも追加のブロック、より少ないブロック、異なるブロック、又は異なる配置のブロックを含み得る。一部の代替的な実装では、ブロックに示されている機能は、図に示されている順序とは異なる場合がある。例えば、連続して示される２つのブロックは、実際には、同時に又は実質的に同時に実行される場合があり、又はブロックは、関連する機能に応じて、逆の順序で実行される場合もある。ブロック図及び／又はフローチャート図の各ブロック、並びにブロック図及び／又はフローチャート図におけるブロックの組み合わせは、指定された機能又は動作を実行し、又は専用ハードウェア及びコンピュータ命令の組み合わせを実行する専用ハードウェアベースのシステムによって実装できることにも留意されたい。

本明細書に記載のシステム及び／又は方法は、異なる形態のハードウェア、ファームウェア、又はハードウェア及びソフトウェアの組み合わせで実装され得ることが明らかであろう。これらのシステム及び／又は方法を実装するために使用される実際の特殊な制御ハードウェア又はソフトウェアコードは、実装を限定するものではない。したがって、システム及び／又は方法の動作及び挙動は、特定のソフトウェアコードを参照することなく本明細書に記載されており、ソフトウェア及びハードウェアは、本明細書の説明に基づいてシステム及び／又は方法を実装するように設計され得ることが理解される。

本明細書で使用されている要素、動作、又は命令は、明示的に記載されていない限り、重要又は不可欠であると解釈されるべきではない。また、本明細書で使用される場合、冠詞「ａ」及び「ａｎ」は、１つ又は複数のアイテムを含むことを意図しており、「１つ又は複数」と交換可能に使用することができる。更に、本明細書で使用される場合、「セット」という用語は、１つ又は複数のアイテム（例えば、関連アイテム、非関連アイテム、関連アイテムと非関連アイテムの組み合わせなど）を含むことを意図しており、「１つ又は複数」と交換可能に使用することができる。１つのアイテムのみが意図されている場合、用語「１つ」又は類似の言語が使用される。また、本明細書で使用される場合、「有する（ｈａｓ）」、「有する（ｈａｖｅ）」、「有する（ｈａｖｉｎｇ）」などの用語は、制限のない用語であることが意図されている。更に、「～に基づく」という句は、特に明記されていない限り、「少なくとも部分的に～に基づく」を意味することを意図している。

様々な態様及び実施形態の説明は、例示の目的で提示されているが、網羅的であること、又は開示された実施形態に限定されることを意図するものではない。特徴の組み合わせが特許請求の範囲に記載され、及び／又は明細書に開示されているとしても、これらの組み合わせは、可能な実装の開示を限定することを意図していない。実際、これらの特徴の多くは、特許請求の範囲に具体的に記載されていない、及び／又は明細書に開示されていない方法で組み合わせることができる。以下に記載されている各従属請求項は、１つの請求項のみに直接従属することができるが、可能な実装の開示は、各従属請求項を、請求項セット内の他のすべての請求項と組み合わせて含む。記載された実施形態の範囲から逸脱することなく、当業者には多くの修正及び変形が明らかであろう。本明細書で使用される用語は、実施形態の原理、実際の適用又は市場で見られる技術に対する技術的改善を最もよく説明するため、又は当業者が本明細書に開示された実施形態を理解できるようにするために選択された。

Claims

プロセッサが実行可能な没入型メディアをストリーミングする方法であって、
コンテンツを２次元フォーマットで取り込むステップと、
クライアントエンドポイントから、要求されるメディアを識別するための情報を含む第１の要求を受信するステップと、
前記第１の要求に応答して、前記クライアントエンドポイントの利用可能なリソースに関する情報を提供するよう前記クライアントエンドポイントに要求する第２の要求を送信するステップと、
前記第２の要求に応答して前記クライアントエンドポイントから提供される少なくともニューラルネットワークモデルトークンを受信するステップと、
前記ニューラルネットワークモデルトークンが指すニューラルネットワークに基づいて、取り込んだ前記コンテンツを前記クライアントエンドポイントに適した３次元フォーマットに適応させるステップと、
適応させた前記コンテンツを前記クライアントエンドポイントにストリーミングするステップと、を含む方法。
取り込んだ前記コンテンツを適応させる前記ステップは、ニューラルネットワークによって、取り込んだ前記コンテンツに含まれた相関画像に基づいて取り込んだ前記コンテンツに描かれたシーンの立体表現を導出するステップを含む、請求項１に記載の方法。
前記２次元フォーマットは、単一ビュー２次元フォーマットである、請求項１に記載の方法。
前記２次元フォーマットは、マルチビュー２次元フォーマットである、請求項１に記載の方法。
取り込んだ前記コンテンツは、中央処理装置及びグラフィック処理装置のうちの少なくとも１つを含む適応処理ユニットを使用して適応される、請求項１に記載の方法。
前記ニューラルネットワークは、前記適応処理ユニットに含まれたメモリに記憶された複数のニューラルネットワークモデルの中から前記適応処理ユニットによって選択されたニューラルネットワークモデルに対応する、請求項５に記載の方法。
前記クライアントエンドポイントは、テレビ、コンピュータ、ヘッドマウントディスプレイ、レンチキュラライトフィールドディスプレイ、ホログラフィックディスプレイ、拡張現実ディスプレイ、及び高密度ライトフィールドディスプレイのうちの少なくとも１つを含む、請求項１に記載の方法。
没入型メディアをストリーミングするためのデバイスであって、
プログラムコードを記憶するように構成された少なくとも１つのメモリと、
前記プログラムコードを読み取り、前記プログラムコードによって指示されたとおりに動作するように構成された少なくとも１つのプロセッサとを備え、前記プログラムコードは、
前記少なくとも１つのプロセッサに、コンテンツを２次元フォーマットで取り込ませるように構成された取り込みコードと、
前記少なくとも１つのプロセッサに、クライアントエンドポイントから、要求されるメディアを識別するための情報を含む第１の要求を受信させる第１受信コードと、
前記少なくとも１つのプロセッサに、前記第１の要求に応答して、前記クライアントエンドポイントの利用可能なリソースに関する情報を提供するよう前記クライアントエンドポイントに要求する第２の要求を送信させる、送信コードと、
前記少なくとも１つのプロセッサに、前記第２の要求に応答して前記クライアントエンドポイントから提供される少なくともニューラルネットワークモデルトークンを受信させる、第２受信コードと、
前記少なくとも１つのプロセッサに、前記ニューラルネットワークモデルトークンが指すニューラルネットワークに基づいて、取り込んだ前記コンテンツを前記クライアントエンドポイントに適した３次元フォーマットに適応させるように構成された適応コードと、
前記少なくとも１つのプロセッサに、適応させた前記コンテンツを前記クライアントエンドポイントにストリーミングさせるように構成されたストリーミングコードと、を含む、デバイス。
前記適応コードは、前記少なくとも１つのプロセッサに、ニューラルネットワークによって、取り込んだ前記コンテンツに含まれた相関画像に基づいて取り込んだ前記コンテンツに描かれたシーンの立体表現を導出させるように構成された導出コードを含む、請求項８に記載のデバイス。
前記２次元フォーマットは、単一ビュー２次元フォーマットである、請求項８に記載のデバイス。
前記２次元フォーマットは、マルチビュー２次元フォーマットである、請求項８に記載のデバイス。
取り込んだ前記コンテンツは、前記デバイスに含まれた適応処理ユニットを使用して適応され、前記適応処理ユニットは、中央処理装置及びグラフィック処理装置のうちの少なくとも１つを含む、請求項８に記載のデバイス。
前記ニューラルネットワークは、前記少なくとも１つのメモリに記憶された複数のニューラルネットワークモデルの中から前記適応処理ユニットによって選択されたニューラルネットワークモデルに対応する、請求項１２に記載のデバイス。
前記クライアントエンドポイントは、テレビ、コンピュータ、ヘッドマウントディスプレイ、レンチキュラライトフィールドディスプレイ、ホログラフィックディスプレイ、拡張現実ディスプレイ、及び高密度ライトフィールドディスプレイのうちの少なくとも１つを含む、請求項８に記載のデバイス。
コンピュータプログラムであって、
少なくとも１つのプロセッサに、請求項１～７のいずれかに記載の方法を実行させる、コンピュータプログラム。